CN112541055A - 一种确定文本标签的方法及装置 - Google Patents
一种确定文本标签的方法及装置 Download PDFInfo
- Publication number
- CN112541055A CN112541055A CN202011494762.3A CN202011494762A CN112541055A CN 112541055 A CN112541055 A CN 112541055A CN 202011494762 A CN202011494762 A CN 202011494762A CN 112541055 A CN112541055 A CN 112541055A
- Authority
- CN
- China
- Prior art keywords
- label
- text
- feature vector
- determining
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 239000013598 vector Substances 0.000 claims abstract description 188
- 238000012549 training Methods 0.000 claims description 31
- 230000015654 memory Effects 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 17
- 238000012545 processing Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000007635 classification algorithm Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011022 operating instruction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 101100261000 Caenorhabditis elegans top-3 gene Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开一种确定文本标签的方法及装置,确定待分类文本的文本特征向量;针对预设标签集合中的任一标签,确定标签的标签特征向量;基于文本特征向量和标签特征向量,确定待分类文本隶属于标签的概率;标签特征向量包括标签的描述特征向量和标签在预设标签集合中的网络关系特征向量;将概率满足预设条件的标签确定为待分类文本的标签。在对待分类文本进行标签的确定时,除了将待分类文本的文本特征向量作为确定标签的依据,还将预设标签集合中的任一标签的标签特征向量作为确定标签的依据,该过程由于增加了预设标签集合中各标签之间存在的逻辑关系及各标签本身具有的描述特征向量,从而该方式对待分类文本进行分类时具有更为准确的分类效果。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种确定文本标签的方法及装置。
背景技术
随着大数据和人工智能技术的发展,互联网中产生了海量的文本数据,通过对这些文本数据进行分类并标注标签,可更好地为用户推荐感兴趣的内容,搜索兴趣领域,发现热点事件。例如基于用户评论推荐商品、基于微博推荐热点事件等。
针对任一特定的应用领域,如客户服务领域的系统,准确地对客户咨询内容进行分类,也即为每一条文本形式的客户咨询内容确定一个准确的标签,便于未来再有与标签相对应的客户咨询内容进入到客服系统时,则可以快速地对客户咨询内容进行相关内容的回复或者推荐。
目前,对文本进行分类通常只是基于文本本身的信息,构建文本分类器,并使用该文本分类器对待分类文本进行标签的确定。
然而,上述对文本进行标签确定的方式效果不佳。
申请内容
本申请提供一种确定文本标签的方法及装置,用于解决现有技术在为文本确定标签时,不够准确的问题。
第一方面,本申请实施例提供一种确定文本标签的方法,该方法包括:确定待分类文本的文本特征向量;针对预设标签集合中的任一标签,确定所述标签的标签特征向量;基于所述文本特征向量和所述标签特征向量,确定所述待分类文本隶属于所述标签的概率;所述标签特征向量包括标签的描述特征向量和标签在所述预设标签集合中的网络关系特征向量;将概率满足预设条件的标签确定为所述待分类文本的标签。
基于该方案,在对待分类文本进行标签的确定时,除了将待分类文本的文本特征向量作为确定标签的依据,还将预设标签集合中的任一标签的标签特征向量作为了确定标签的依据,该过程中由于增加了预设标签集合中各标签之间存在的逻辑关系以及各标签本身具有的描述特征向量,从而该种方式对待分类文本进行分类时具有更为准确的分类效果。
在一种可能实现的方法中,通过如下方式确定标签在所述预设标签集合中的网络关系特征向量,包括:构建所述预设标签集合中各标签的网络关系图;所述网络关系图中以各标签为节点,标签间的逻辑关系为边;通过所述网络关系图,将各标签映射至N维空间,得到各标签的N维网络关系特征向量;其中,在所述N维空间中距离越近的标签相似度越高。
基于该方案,在对待分类文本进行标签的确定时,通过将已有的标签形成标签集合,且构建该标签集合中的各个标签的网络关系图,并对所构建的网络关系图进行映射,从而可以得到已有的标签之间的网络关系特征向量,当将该种方式形成的网络关系特征向量用于对文本进行分类时,在很大程度上可以融入标签与标签之间的逻辑关系,这对于提高文本分类的准确性具有非常重要的参考意义。
在一种可能实现的方法中,所述基于所述文本特征向量和所述标签特征向量,确定所述待分类文本隶属于所述标签的概率,包括:将所述文本特征向量和所述标签特征向量输入文本分类器,通过所述文本分类器确定所述待分类文本隶属于所述标签的概率。
基于该方案,通过将待分类文本的文本特征向量逐一与预设标签集合中的任一标签的标签特征向量进行组合,并将组合结果一一输入文本分类器,由于文本分类器是根据历史文本和预设标签集合中的标签训练而成的,从而可以更好地对待分类文本进行准确地分类,也即为待分类文本确定出更准确的标签。
在一种可能实现的方法中,所述文本分类器是通过如下方式训练得到的,包括:构建样本,所述样本中包括正样本和负样本;针对任一样本,确定所述样本中文本的第二文本特征向量和所述样本中标签的第二标签特征向量;将所述第二文本特征向量和所述第二标签向量输入至初始模型,根据所述初始模型的输出及所述样本的样本标识进行反向训练,直至得到所述文本分类器;所述样本标识用于指示文本样本为正样本或负样本。
基于该方案,在训练文本分类器的过程中,通过构建正样本和负样本,其中,任一样本均包括文本和标签,因此确定文本的文本特征向量以及标签的标签特征向量,并将所确定出的文本特征向量和标签特征向量用于对初始分类器进行训练,直到训练得到满足要求的分类器,即文本分类器。该方式中由于在训练文本分类器的过程中,充分考虑了标签对文本的分类可能存在的影响,因此通过使用引入标签而形成的文本分类器对待分类文本进行标签的确定时,所确定出的标签将可以更为准确得体现出待分类文本。
在一种可能实现的方法中,负样本中的相似负样本通过如下方式得到,包括:确定与正样本的第一标签相似的第二标签;其中,所述第一标签的网络关系特征向量与所述第二标签的网络关系特征向量之间的距离小于设定距离;将所述正样本的文本、所述第二标签构建为负样本。
基于该方案,在训练文本分类器的过程中,关于正样本的负样本,其中包括的负样本可以是基于正样本的标签而产生的、相似负样本,其中,相似负样本的标签与正样本的标签之间的距离小于设定距离,如此,在对文本分类器进行训练的过程中,通过准确地区分正样本和正样本,则可以提高分类器对文本的分类的准确性。
在一种可能实现的方法中,负样本中的随机负样本通过如下方式得到,包括:从所述预设标签集合中随机确定第三标签,所述第三标签与正样本的第一标签不同;将所述正样本的文本、所述第三标签构建为负样本。
基于该方案,在训练文本分类器的过程中,关于正样本的负样本,其中包括的负样本可以是与正样本的标签不同的随机负样本,通过对一些随机负样本的训练,从而在对文本分类器进行训练的过程中,通过准确地区分正样本和正样本,则可以提高分类器对文本的分类的准确性。
在一种可能实现的方法中,所述标签的描述特征向量是通过从网络抓取的所述标签的描述信息得到的。
基于该方案,由于标签对应的描述信息(通过文本的方式进行表示)可以表达一定的含义,因此通过对标签对应的描述信息进行如文本特征向量提取的工作而得到标签的描述特征向量,并将标签的描述特征向量纳入对文本分类器的训练范畴,从而基于该种方式得到文本分类器可以提升对待分类文本的分类效果。
第二方面,本申请实施例提供一种确定文本标签的装置,该装置包括:文本特征向量确定单元,用于确定待分类文本的文本特征向量;文本的标签概率确定单元,用于针对预设标签集合中的任一标签,确定所述标签的标签特征向量;基于所述文本特征向量和所述标签特征向量,确定所述待分类文本隶属于所述标签的概率;所述标签特征向量包括标签的描述特征向量和标签在所述预设标签集合中的网络关系特征向量;文本的标签确定单元,用于将概率满足预设条件的标签确定为所述待分类文本的标签。
基于该方案,在对待分类文本进行标签的确定时,除了将待分类文本的文本特征向量作为确定标签的依据,还将预设标签集合中的任一标签的标签特征向量作为了确定标签的依据,该过程中由于增加了预设标签集合中各标签之间存在的逻辑关系以及各标签本身具有的描述特征向量,从而该种方式对待分类文本进行分类时具有更为准确的分类效果。
在一种可能实现的方法中,所述装置还包括网络关系特征向量确定单元;所述网络关系特征向量确定单元,用于构建所述预设标签集合中各标签的网络关系图;所述网络关系图中以各标签为节点,标签间的逻辑关系为边;通过所述网络关系图,将各标签映射至N维空间,得到各标签的N维网络关系特征向量;其中,在所述N维空间中距离越近的标签相似度越高。
基于该方案,在对待分类文本进行标签的确定时,通过将已有的标签形成标签集合,且构建该标签集合中的各个标签的网络关系图,并对所构建的网络关系图进行映射,从而可以得到已有的标签之间的网络关系特征向量,当将该种方式形成的网络关系特征向量用于对文本进行分类时,在很大程度上可以融入标签与标签之间的逻辑关系,这对于提高文本分类的准确性具有非常重要的参考意义。
在一种可能实现的方法中,所述文本的标签概率确定单元,具体用于将所述文本特征向量和所述标签特征向量输入文本分类器,通过所述文本分类器确定所述待分类文本隶属于所述标签的概率。
基于该方案,通过将待分类文本的文本特征向量逐一与预设标签集合中的任一标签的标签特征向量进行组合,并将组合结果一一输入文本分类器,由于文本分类器是根据历史文本和预设标签集合中的标签训练而成的,从而可以更好地对待分类文本进行准确地分类,也即为待分类文本确定出更准确的标签。
在一种可能实现的方法中,该装置还包括文本分类器得到单元;所述文本分类器得到单元,用于构建样本,所述样本中包括正样本和负样本;针对任一样本,确定所述样本中文本的第二文本特征向量和所述样本中标签的第二标签特征向量;将所述第二文本特征向量和所述第二标签向量输入至初始模型,根据所述初始模型的输出及所述样本的样本标识进行反向训练,直至得到所述文本分类器;所述样本标识用于指示文本样本为正样本或负样本。
基于该方案,在训练文本分类器的过程中,通过构建正样本和负样本,其中,任一样本均包括文本和标签,因此确定文本的文本特征向量以及标签的标签特征向量,并将所确定出的文本特征向量和标签特征向量用于对初始分类器进行训练,直到训练得到满足要求的分类器,即文本分类器。该方式中由于在训练文本分类器的过程中,充分考虑了标签对文本的分类可能存在的影响,因此通过使用引入标签而形成的文本分类器对待分类文本进行标签的确定时,所确定出的标签将可以更为准确得体现出待分类文本。
在一种可能实现的方法中,所述文本分类器得到单元,还用于确定与正样本的第一标签相似的第二标签;其中,所述第一标签的网络关系特征向量与所述第二标签的网络关系特征向量之间的距离小于设定距离;将所述正样本的文本、所述第二标签构建为负样本。
基于该方案,在训练文本分类器的过程中,关于正样本的负样本,其中包括的负样本可以是基于正样本的标签而产生的、相似负样本,其中,相似负样本的标签与正样本的标签之间的距离小于设定距离,如此,在对文本分类器进行训练的过程中,通过准确地区分正样本和正样本,则可以提高分类器对文本的分类的准确性。
在一种可能实现的方法中,所述文本分类器得到单元,还用于从所述预设标签集合中随机确定第三标签,所述第三标签与正样本的第一标签不同;将所述正样本的文本、所述第三标签构建为负样本。
基于该方案,在训练文本分类器的过程中,关于正样本的负样本,其中包括的负样本可以是与正样本的标签不同的随机负样本,通过对一些随机负样本的训练,从而在对文本分类器进行训练的过程中,通过准确地区分正样本和正样本,则可以提高分类器对文本的分类的准确性。
在一种可能实现的方法中,所述标签的描述特征向量是通过从网络抓取的所述标签的描述信息得到的。
基于该方案,由于标签对应的描述信息(通过文本的方式进行表示)可以表达一定的含义,因此通过对标签对应的描述信息进行如文本特征向量提取的工作而得到标签的描述特征向量,并将标签的描述特征向量纳入对文本分类器的训练范畴,从而基于该种方式得到文本分类器可以提升对待分类文本的分类效果。
第三方面,本申请实施例提供了一种计算设备,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行如第一方面任一所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使计算机执行如第一方面任一所述的方法。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种确定文本标签的方法;
图2为本申请实施例提供的一种标签间网络关系图;
图3为本申请实施例提供的一种二维空间的网络关系特征向量的示意图;
图4为本申请实施例提供的一种确定文本标签的装置;
图5为本申请实施例提供的一种计算设备的示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
目前,随着大数据和人工智能技术的发展,互联网产生了海量的文本数据,通过对这些文本数据进行分类并标注标签,可更好地为用户推荐感兴趣的内容,搜索兴趣领域,发现热点事件。目前常用于对文本数据进行分类的文本分类器仅从文本自身具有的信息出发,通过训练而得到,然而通过该种方式得到的文本分类器的效果欠佳。
基于上述技术问题,本申请实施例提供一种确定文本标签的方法,如图1所示,该方法包括以下步骤:
步骤101,确定待分类文本的文本特征向量。
在本步骤中,确定待分类文本的文本特征向量的过程,也就是将一段文本转化为一个N维向量的过程。
例如,针对一个待分类的文本,如“云闪付在太圆坐公交扫码一分钱就行”这一文本,首先可进行精准的中文分词,如通过中文分词,可切分为“云闪付/在/太圆/坐/公交/扫码/一分钱/就/行”。
接着,对已经分词的文本进行停用词处理。如通过使用停用词词典,将一些常见的停用词如“在”、“的”等词去除,以获取文本的特征。
紧接着,对于文本中的一些错别字/词进行纠错。如通过使用错别字纠错词典,可将“太圆”转换为“太原”。
最后,可通过使用FastText/BERT等预训练模型计算得到每个词的词向量,再将词向量填充在一个设定的M*N矩阵中,生成文本特征向量。
步骤102,针对预设标签集合中的任一标签,确定所述标签的标签特征向量;基于所述文本特征向量和所述标签特征向量,确定所述待分类文本隶属于所述标签的概率;所述标签特征向量包括标签的描述特征向量和标签在所述预设标签集合中的网络关系特征向量。
在本步骤中,通过对历史文本分类后而产生的标签进行汇总,从而形成预设标签集合。不同的技术领域,分别对应一个预设标签集合。针对预设标签集合中的任一标签,确定该标签的标签特征向量,具体包括该标签的描述特征向量和该标签在预设标签集合中的网络关系特征向量;从而,基于待分类文本的文本特征向量和标签的标签特征向量,可以确定该待分类文本在各个标签下的概率。
步骤103,将概率满足预设条件的标签确定为所述待分类文本的标签。
在本步骤中,由于通过步骤102可以获取待分类文本在预设标签集合中的各个标签下的概率,从而可以基于一定的预设条件,而将概率满足的标签确定为该待分类文本的标签。
基于该方案,在对待分类文本进行标签的确定时,除了将待分类文本的文本特征向量作为确定标签的依据,还将预设标签集合中的任一标签的标签特征向量作为了确定标签的依据,该过程中由于增加了预设标签集合中各标签之间存在的逻辑关系以及各标签本身具有的描述特征向量,从而该种方式对待分类文本进行分类时具有更为准确的分类效果。
以下将结合示例分别对上述一些步骤进行详细说明。
在上述步骤101的一个实施中,通过如下方式确定标签在所述预设标签集合中的网络关系特征向量,包括:构建所述预设标签集合中各标签的网络关系图;所述网络关系图中以各标签为节点,标签间的逻辑关系为边;通过所述网络关系图,将各标签映射至N维空间,得到各标签的N维网络关系特征向量;其中,在所述N维空间中距离越近的标签相似度越高。
例如,针对支付领域,其中可以有银行卡、支付宝、微信、银联手机闪付、云闪付等各种支付手段,然后,针对每一种支付手段,其可包括更下一级的支付细节,如银行卡的下一层级可包括银行卡绑定等子类目,云闪付的下一层级可包括城市交通、交易查询等子类目,银联手机闪付的下一层级可包括Apple Pay、HUAWEI Pay等子类目,每种子类目下又还可以包括更下一级的支付细节,不再一一举例。其中,各种支付手段以及支付手段下的支付细节均可定义为标签,从而可以得到支付领域中各标签的网络关系图,如图2所示,为本申请实施例提供的一种标签间网络关系图,图2中包括了银行卡、支付宝、微信、银联手机闪付、云闪付、银行卡绑定、城市交通、交易查询、Apple Pay、HUAWEI Pay等标签形成的节点,以及各个标签之间的逻辑关系,如银联卡的下一层级包括银行卡绑定,又如银行卡、支付宝、微信、银联手机闪付和云闪付是目前社会上较为主流的支付方式,其中任意两者之间表现为相互竞争的关系。然后,针对图2所示的网络关系图,通过将图中的各标签映射至N维空间,从而可以得到各标签的N维网络关系特征向量。例如,可基于GNN等网络,将标签的逻辑关系转化为标签在N维空间中的向量表示,该方式不仅能获取每个标签和其他标签之间的逻辑关系,也能得到每个标签的N维向量,从而将历史文本的标签转化为标签的网络关系特征向量。为了简单的示意,图3为本申请实施例提供的一种二维空间的网络关系特征向量的示意图,图3是基于图2中所展示的部分标签而形成的网络关系特征向量的示意图,其中,可将相同主题的标签映射到相近的二维向量空间,以及将不同主题的标签映射到距离较远的二维向量空间,如将“公交地铁”映射为向量(1.3,9.8),将“公共缴费”映射为向量(1.4,8.7),将“Apple Pay”映射为向量(1.2,2.1)、“HUAWEI Pay”映射为向量(1.11,1.98),将“银行卡密码”映射为向量(5.3,4.4)、“银行卡绑定”映射为向量(5.6,3.7)。
在本申请的某些实施中,所述标签的描述特征向量是通过从网络抓取的所述标签的描述信息得到的。
例如,针对预设标签集合中的任一标签,可通过网络来获取对该标签的定义,如通过百度百科的词条,来获取标签的描述信息。设“云闪付”是预设标签集合中的一个标签,则可以通过从网络中抓取关于它的描述信息,如从网络中所抓取的、关于它的描述信息可以为“银行业统一APP云闪付汇聚各家机构的移动支付功能与权益优惠,致力成为消费者省钱省心的移动支付管家……”,则关于该段对“云闪付”这一标签进行解释的描述信息对应的文本,通过对它执行如对文本进行文本特征向量的提取步骤,包括中文分词、停用词处理、错别字纠正等,则可以得到关于它的描述特征向量。
基于同样的道理,通过对预设标签集合中的任一标签,构建关于它的描述特征向量,从而便于在训练文本分类器的过程中、以及在对待分类文本进行分类的过程中,通过标签,即可以从已经构建好的标签的描述特征向量中获取标签对应的描述特征向量而进行应用。
在上述步骤102的一个实施中,所述基于所述文本特征向量和所述标签特征向量,确定所述待分类文本隶属于所述标签的概率,包括:将所述文本特征向量和所述标签特征向量输入文本分类器,通过所述文本分类器确定所述待分类文本隶属于所述标签的概率。
在本申请实施例中,可以通过分类器来对输入到其中的文本特征向量和标签特征向量进行计算,确定待分类文本在对应标签下的概率。
在本申请的某些实施中,所述文本分类器是通过如下方式训练得到的,包括:构建样本,所述样本中包括正样本和负样本;针对任一样本,确定所述样本中文本的第二文本特征向量和所述样本中标签的第二标签特征向量;将所述第二文本特征向量和所述第二标签向量输入至初始模型,根据所述初始模型的输出及所述样本的样本标识进行反向训练,直至得到所述文本分类器;所述样本标识用于指示文本样本为正样本或负样本。
例如,针对历史文本的中任一文本,该文本已经被标注过标签了,则关于该样本,它的正样本中包括该文本、该文本对应的标签、该文本的样本标识(正样本);它的负样本中包括该文本、与该文本对应的标签存在/不存在一定逻辑关系的标签、该文本的样本标识(负样本)。然后通过该文本对应的正样本、负样本分别输入到初始模型中,通过调整初始模型的参数,使得最终得到的分类器可以准确地将正样本识别为正样本以及将负样本识别为负样本,从而此时的分类器可以称为文本分类器。
在本申请的某些实施中,负样本中的相似负样本通过如下方式得到,包括:确定与正样本的第一标签相似的第二标签;其中,所述第一标签的网络关系特征向量与所述第二标签的网络关系特征向量之间的距离小于设定距离;将所述正样本的文本、所述第二标签构建为负样本。
在本申请的某些实施中,负样本中的随机负样本通过如下方式得到,包括:从所述预设标签集合中随机确定第三标签,所述第三标签与正样本的第一标签不同;将所述正样本的文本、所述第三标签构建为负样本。
例如,关于一个历史文本,与它的正样本相对的负样本可以包括相似负样本和随机负样本。其中,相似负样本的形成是基于了正样本中样本对应的标签,具体而言,在前述的网络关系特征向量中,以正样本中样本对应的标签为基准,将与该标签距离符合预设条件的一个或者多个标签确定为相似负样本中的标签,如将与该标签距离最近的前3-5个标签分别确定为相似负样本中的标签;随机负样本的形成并非基于正样本中样本对应的标签,具体而言,在前述的预设标签集合中随机选择一个或者多个非正样本中样本对应的标签,例如随机确定3-5个标签,并将该些标签分别确定为随机负样本中的标签。从而,对于历史文本中的任一个文本,其正样本可以表示为(doci,tagij,1),负样本可以表示为(doci,tagik,-1),其中doc表示文本,tag表示标签,下标i用于表示历史文本中的任一个文本,tagij用于表示文本的正样本的标签,tagik用于表示文本的负样本的标签,1用于表示正样本,-1用于表示负样本。
针对历史文本中的任一文本,可以形成该文本的正样本和负样本,然后,基于正、负例样本(doci,tagi,±1),抽取每个样本中doci、tagi分别对应的文本特征向量Vdoc和标签特征向量Vtag,并将文本特征向量和标签特征向量进行拼接,得到拼接向量concat[Vdoc,Vtag]。
基于生成的拼接向量,如可以通过构建逻辑回归算法来训练分类模型。逻辑回归算法采用随机梯度下降训练学习参数w和b,最终生成文本分类器。
其中,用于生成文本分类器,除了可以选择逻辑回归算法,也可采用其他的机器学习算法,如SVM、GBDT、DNN等进行文本分类;此外,除了可以使用分类算法外,也可基于排序算法,如Learning to rank,rankNet等算法。
因此,当将训练好的文本分类器用于对待分类文本“云闪付在太圆坐公交扫码一分钱就行”的标签进行确定时,首先获取它的文本特征向量,然后将文本特征向量与预设标签集合中的任一标签的描述特征向量进行拼接,并将拼接得到的向量逐一地输入到训练好的文本分类器中,从而可以得到该文本在预设标签集合中的任一标签下的概率,如对于该待分类文本doci,可以得到预测结果(doci,云闪付,0.85)、(doci,银行卡,0.155)、……、(doci,支付宝,-0.65)。
取出得分最高的TOP-N个文本的标签。将该文本的标签作为候选的标签推荐,从而得到预测的结果。如取TOP-3作为doci的推荐标签,则可得到该文本的标签:云闪付、银行卡、银行账户。
实验基于银联客服对话数据及对话数据的标签,总训练数据95933条,总测试数据23984条,包含对话文本及其标签,使用FastText分类算法作为分类器。在传统不使用标签特征的分类算法中,模型预测的TOP-5准确率为81.2%,在结合标签特征的文本分类算法中,模型预测的TOP-5准确率为87.5%,相比传统方法模型的预测准确率显著(P>0.05)提升。
基于同样的构思,本申请实施例还提供一种确定文本标签的装置,如图4所示,该装置包括:
文本特征向量确定单元401,用于确定待分类文本的文本特征向量;
文本的标签概率确定单元402,用于针对预设标签集合中的任一标签,确定所述标签的标签特征向量;基于所述文本特征向量和所述标签特征向量,确定所述待分类文本隶属于所述标签的概率;所述标签特征向量包括标签的描述特征向量和标签在所述预设标签集合中的网络关系特征向量;
文本的标签确定单元403,用于将概率满足预设条件的标签确定为所述待分类文本的标签。
进一步地,对于该装置,还包括网络关系特征向量确定单元404;网络关系特征向量确定单元404,用于构建所述预设标签集合中各标签的网络关系图;所述网络关系图中以各标签为节点,标签间的逻辑关系为边;通过所述网络关系图,将各标签映射至N维空间,得到各标签的N维网络关系特征向量;其中,在所述N维空间中距离越近的标签相似度越高。
进一步地,对于该装置,文本的标签概率确定单元402,具体用于将所述文本特征向量和所述标签特征向量输入文本分类器,通过所述文本分类器确定所述待分类文本隶属于所述标签的概率。
进一步地,对于该装置,还包括文本分类器得到单元405;文本分类器得到单元405,用于构建样本,所述样本中包括正样本和负样本;针对任一样本,确定所述样本中文本的第二文本特征向量和所述样本中标签的第二标签特征向量;将所述第二文本特征向量和所述第二标签向量输入至初始模型,根据所述初始模型的输出及所述样本的样本标识进行反向训练,直至得到所述文本分类器;所述样本标识用于指示文本样本为正样本或负样本。
进一步地,对于该装置,文本分类器得到单元405,还用于确定与正样本的第一标签相似的第二标签;其中,所述第一标签的网络关系特征向量与所述第二标签的网络关系特征向量之间的距离小于设定距离;将所述正样本的文本、所述第二标签构建为负样本。
进一步地,对于该装置,文本分类器得到单元405,还用于从所述预设标签集合中随机确定第三标签,所述第三标签与正样本的第一标签不同;将所述正样本的文本、所述第三标签构建为负样本。
进一步地,对于该装置,所述标签的描述特征向量是通过从网络抓取的所述标签的描述信息得到的。
本申请实施例提供了一种计算设备,该计算设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)等。该计算设备可以包括中央处理器(Center Processing Unit,CPU)、存储器、输入/输出设备等,输入设备可以包括键盘、鼠标、触摸屏等,输出设备可以包括显示设备,如液晶显示器(Liquid Crystal Display,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器,可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器提供存储器中存储的程序指令和数据。在本申请实施例中,存储器可以用于存储确定文本标签的方法的程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行确定文本标签的方法。
如图5所示,为本申请实施例提供的一种计算设备的示意图,该计算设备包括:
处理器501、存储器502、收发器503、总线接口504;其中,处理器501、存储器502与收发器503之间通过总线505连接;
所述处理器501,用于读取所述存储器502中的程序,执行上述确定文本标签的方法;
处理器501可以是中央处理器(central processing unit,简称CPU),网络处理器(network processor,简称NP)或者CPU和NP的组合。还可以是硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,简称ASIC),可编程逻辑器件(programmable logic device,简称PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device,简称CPLD),现场可编程逻辑门阵列(field-programmable gate array,简称FPGA),通用阵列逻辑(generic array logic,简称GAL)或其任意组合。
所述存储器502,用于存储一个或多个可执行程序,可以存储所述处理器501在执行操作时所使用的数据。
具体地,程序可以包括程序代码,程序代码包括计算机操作指令。存储器502可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,简称RAM);存储器502也可以包括非易失性存储器(non-volatile memory),例如快闪存储器(flash memory),硬盘(hard disk drive,简称HDD)或固态硬盘(solid-state drive,简称SSD);存储器502还可以包括上述种类的存储器的组合。
存储器502存储了如下的元素,可执行模块或者数据结构,或者它们的子集,或者它们的扩展集:
操作指令:包括各种操作指令,用于实现各种操作。
操作系统:包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
总线505可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
总线接口504可以为有线通信接入口,无线总线接口或其组合,其中,有线总线接口例如可以为以太网接口。以太网接口可以是光接口,电接口或其组合。无线总线接口可以为WLAN接口。
本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行确定文本标签的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种确定文本标签的方法,其特征在于,包括:
确定待分类文本的文本特征向量;
针对预设标签集合中的任一标签,确定所述标签的标签特征向量;基于所述文本特征向量和所述标签特征向量,确定所述待分类文本隶属于所述标签的概率;所述标签特征向量包括标签的描述特征向量和标签在所述预设标签集合中的网络关系特征向量;
将概率满足预设条件的标签确定为所述待分类文本的标签。
2.如权利要求1所述的方法,其特征在于,
通过如下方式确定标签在所述预设标签集合中的网络关系特征向量,包括:
构建所述预设标签集合中各标签的网络关系图;所述网络关系图中以各标签为节点,标签间的逻辑关系为边;
通过所述网络关系图,将各标签映射至N维空间,得到各标签的N维网络关系特征向量;其中,在所述N维空间中距离越近的标签相似度越高。
3.如权利要求1所述的方法,其特征在于,
所述基于所述文本特征向量和所述标签特征向量,确定所述待分类文本隶属于所述标签的概率,包括:
将所述文本特征向量和所述标签特征向量输入文本分类器,通过所述文本分类器确定所述待分类文本隶属于所述标签的概率。
4.如权利要求3所述的方法,其特征在于,
所述文本分类器是通过如下方式训练得到的,包括:
构建样本,所述样本中包括正样本和负样本;
针对任一样本,确定所述样本中文本的第二文本特征向量和所述样本中标签的第二标签特征向量;将所述第二文本特征向量和所述第二标签向量输入至初始模型,根据所述初始模型的输出及所述样本的样本标识进行反向训练,直至得到所述文本分类器;所述样本标识用于指示文本样本为正样本或负样本。
5.如权利要求4所述的方法,其特征在于,
负样本中的相似负样本通过如下方式得到,包括:
确定与正样本的第一标签相似的第二标签;其中,所述第一标签的网络关系特征向量与所述第二标签的网络关系特征向量之间的距离小于设定距离;
将所述正样本的文本、所述第二标签构建为负样本。
6.如权利要求4所述的方法,其特征在于,
负样本中的随机负样本通过如下方式得到,包括:
从所述预设标签集合中随机确定第三标签,所述第三标签与正样本的第一标签不同;
将所述正样本的文本、所述第三标签构建为负样本。
7.如权利要求1-6任一项所述的方法,其特征在于,
所述标签的描述特征向量是通过从网络抓取的所述标签的描述信息得到的。
8.一种确定文本标签的装置,其特征在于,包括:
文本特征向量确定单元,用于确定待分类文本的文本特征向量;
文本的标签概率确定单元,用于针对预设标签集合中的任一标签,确定所述标签的标签特征向量;基于所述文本特征向量和所述标签特征向量,确定所述待分类文本隶属于所述标签的概率;所述标签特征向量包括标签的描述特征向量和标签在所述预设标签集合中的网络关系特征向量;
文本的标签确定单元,用于将概率满足预设条件的标签确定为所述待分类文本的标签。
9.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,当所述程序在计算机上运行时,使得计算机实现执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011494762.3A CN112541055A (zh) | 2020-12-17 | 2020-12-17 | 一种确定文本标签的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011494762.3A CN112541055A (zh) | 2020-12-17 | 2020-12-17 | 一种确定文本标签的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112541055A true CN112541055A (zh) | 2021-03-23 |
Family
ID=75018642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011494762.3A Pending CN112541055A (zh) | 2020-12-17 | 2020-12-17 | 一种确定文本标签的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112541055A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113821589A (zh) * | 2021-06-10 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 一种文本标签的确定方法及装置、计算机设备和存储介质 |
CN114330475A (zh) * | 2021-10-29 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 内容匹配方法、装置、设备、存储介质及计算机程序产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875781A (zh) * | 2018-05-07 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 一种标签分类方法、装置、电子设备及存储介质 |
CN110543563A (zh) * | 2019-08-20 | 2019-12-06 | 暨南大学 | 一种层次型文本分类方法及系统 |
CN110795558A (zh) * | 2019-09-03 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 标签获取方法和装置、存储介质及电子装置 |
CN110851596A (zh) * | 2019-10-11 | 2020-02-28 | 平安科技(深圳)有限公司 | 文本分类方法、装置及计算机可读存储介质 |
CN112015898A (zh) * | 2020-08-28 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 基于标签树的模型训练、文本标签确定方法及装置 |
-
2020
- 2020-12-17 CN CN202011494762.3A patent/CN112541055A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875781A (zh) * | 2018-05-07 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 一种标签分类方法、装置、电子设备及存储介质 |
CN110543563A (zh) * | 2019-08-20 | 2019-12-06 | 暨南大学 | 一种层次型文本分类方法及系统 |
CN110795558A (zh) * | 2019-09-03 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 标签获取方法和装置、存储介质及电子装置 |
CN110851596A (zh) * | 2019-10-11 | 2020-02-28 | 平安科技(深圳)有限公司 | 文本分类方法、装置及计算机可读存储介质 |
CN112015898A (zh) * | 2020-08-28 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 基于标签树的模型训练、文本标签确定方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113821589A (zh) * | 2021-06-10 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 一种文本标签的确定方法及装置、计算机设备和存储介质 |
CN114330475A (zh) * | 2021-10-29 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 内容匹配方法、装置、设备、存储介质及计算机程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3985578A1 (en) | Method and system for automatically training machine learning model | |
US20210150338A1 (en) | Identification of fields in documents with neural networks without templates | |
WO2021169111A1 (zh) | 简历筛选方法、装置、计算机设备和存储介质 | |
US11074442B2 (en) | Identification of table partitions in documents with neural networks using global document context | |
WO2020000688A1 (zh) | 财务风险验证处理方法、装置、计算机设备及存储介质 | |
US11170249B2 (en) | Identification of fields in documents with neural networks using global document context | |
JP7337949B2 (ja) | 機械学習アプリケーションにおけるカテゴリフィールド値の取り扱い | |
US11531987B2 (en) | User profiling based on transaction data associated with a user | |
US20200004815A1 (en) | Text entity detection and recognition from images | |
CN112632226B (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
US11741734B2 (en) | Identification of blocks of associated words in documents with complex structures | |
CN111325156A (zh) | 人脸识别方法、装置、设备和存储介质 | |
CN112541055A (zh) | 一种确定文本标签的方法及装置 | |
CN107291774B (zh) | 错误样本识别方法和装置 | |
CN112102049A (zh) | 一种模型训练方法、业务处理方法、装置及设备 | |
US20230138491A1 (en) | Continuous learning for document processing and analysis | |
CN114579878A (zh) | 虚假新闻判别模型的训练方法、虚假新闻判别方法及装置 | |
CN113887214A (zh) | 基于人工智能的意愿推测方法、及其相关设备 | |
WO2023237135A1 (zh) | 关联对象识别方法、装置、电子设备及存储介质 | |
WO2023087667A1 (zh) | 用于智能推荐的排序模型训练方法、智能推荐方法及装置 | |
CN116048463A (zh) | 基于标签管理的需求项内容智能推荐方法及装置 | |
CN114820211B (zh) | 理赔资料质检核验方法、装置、计算机设备及存储介质 | |
US20240169147A1 (en) | Reference driven nlp-based topic categorization | |
WO2020192237A1 (zh) | 基于人工智能的语义识别的方法、装置系统及存储介质 | |
CN111626874A (zh) | 理赔数据处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |