CN112765965A - 文本多标签分类方法、装置、设备和存储介质 - Google Patents
文本多标签分类方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN112765965A CN112765965A CN202110090575.7A CN202110090575A CN112765965A CN 112765965 A CN112765965 A CN 112765965A CN 202110090575 A CN202110090575 A CN 202110090575A CN 112765965 A CN112765965 A CN 112765965A
- Authority
- CN
- China
- Prior art keywords
- text
- label
- keywords
- keyword
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013145 classification model Methods 0.000 claims abstract description 92
- 238000012549 training Methods 0.000 claims description 279
- 238000000605 extraction Methods 0.000 claims description 94
- 238000004590 computer program Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 abstract description 8
- 238000012360 testing method Methods 0.000 description 52
- 238000003062 neural network model Methods 0.000 description 21
- 238000011156 evaluation Methods 0.000 description 13
- 239000000284 extract Substances 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本多标签分类方法、装置、设备和存储介质,属于文本处理技术领域。所述方法包括:获取目标文本;获取所述目标文本的关键词;将所述目标文本的关键词输入多标签分类模型,获得所述目标文本的标签,所述多标签分类模型用于根据文本关键词确定文本标签。本申请中,由于目标文本的关键词可以代表目标文本的主要内容,且目标文本的关键词的信息量比目标文本的信息量少,所以目标文本的关键词与目标文本的标签的相关性较高,因而本申请中根据目标文本的关键词,通过多标签分类模型获取到的目标文本的标签的准确性较高。
Description
技术领域
本申请涉及文本处理技术领域,特别涉及一种文本多标签分类方法、装置、设备和存储介质。
背景技术
随着数据采集技术的迅猛发展和互联网的快速普及,人们接触到的文本数量呈现出爆炸式增长的趋势。为了有效管理和利用这些海量文本,实现准确的文本定位和文本过滤,目前基于机器学习的文本分类受到广泛关注。
相关技术中,先训练得到可以根据文本确定文本标签的分类模型,具体可以使用多个训练样本进行模型训练来得到该分类模型,该多个训练样本中每个训练样本的输入数据为文本、样本标记为文本的标签。之后,若需要对某一文本打标签,则将这一文本输入该分类模型,就可以获得这一文本的标签。
然而,由于文本的信息量一般比较大,所以从文本中直接提取标签有较大困难,因而上述方式中通过分类模型直接根据文本确定该文本的标签时的准确性较低。
发明内容
本申请实施例提供了一种文本多标签分类方法、装置、设备和存储介质,可以提高确定文本标签的准确性。所述技术方案如下:
第一方面,提供了一种文本多标签分类方法,所述方法包括:
获取目标文本;
获取所述目标文本的关键词;
将所述目标文本的关键词输入多标签分类模型,获得所述目标文本的标签,所述多标签分类模型用于根据文本关键词确定文本标签。
在本申请中,先获取目标文本的关键词,然后将目标文本的关键词输入多标签分类模型,获得目标文本的标签,多标签分类模型用于根据文本关键词确定文本标签。由于目标文本的关键词可以代表目标文本的主要内容,且目标文本的关键词的信息量比目标文本的信息量少,所以目标文本的关键词与目标文本的标签的相关性较高,因而本申请实施例中根据目标文本的关键词,通过多标签分类模型获取到的目标文本的标签的准确性较高。
可选地,所述将所述目标文本的关键词输入多标签分类模型,获得所述目标文本的标签之前,还包括:
获取第一训练集,所述第一训练集包括多个第一文本和每个第一文本的标签;
获取所述第一训练集中的每个第一文本的关键词;
对于所述第一训练集中的任意一个第一文本,将所述一个第一文本的关键词作为一个第一训练样本的输入数据,将所述一个第一文本的标签作为所述一个第一训练样本的样本标记,以得到所述一个第一训练样本;
使用获得的多个第一训练样本进行模型训练,得到所述多标签分类模型。
可选地,所述获取所述第一训练集中的每个第一文本的关键词,包括:
对于所述第一训练集中的任意一个第一文本,将所述一个第一文本输入关键词抽取模型,获得所述一个第一文本的关键词,所述关键词抽取模型用于根据文本确定文本关键词;
所述获取所述目标文本的关键词,包括:
将所述目标文本输入所述关键词抽取模型,获得所述目标文本的关键词。
可选地,所述将所述一个第一文本输入关键词抽取模型,获得所述一个第一文本的关键词之前,还包括:
获取第二训练集,所述第二训练集包括多个第二文本;
根据关键词列表,获取所述第二训练集中每个第二文本的关键词;
对于所述第二训练集中的任意一个第二文本,将所述一个第二文本作为一个第二训练样本的输入数据,将所述一个第二文本的关键词作为所述一个第二训练样本的样本标记,以得到所述一个第二训练样本;
使用获得的多个第二训练样本进行模型训练,得到所述关键词抽取模型。
可选地,所述第二训练集包括每个第二文本的标签,所述根据关键词列表,获取所述第二训练集中每个第二文本的关键词之前,还包括:
确定所述第二训练集中的所有标签;
对于所述第二训练集中的所有标签中的任意一个标签,将具有所述一个标签的所有第二文本归入所述一个标签对应的第二文本集;
根据所述第二训练集中的所有标签中每个标签对应的第二文本集,获取所述关键词列表。
可选地,所述根据所述第二训练集中的所有标签中每个标签对应的第二文本集,获取所述关键词列表,包括:
通过关键词提取算法提取所述第二训练集中的所有标签中每个标签对应的第二文本集的关键词,将提取出的关键词归入所述关键词列表。
可选地,所述根据所述第二训练集中的所有标签中每个标签对应的第二文本集,获取所述关键词列表,包括:
确定所述第二训练集中的所有标签中每个标签对应的第二文本集中的文本数量;
确定多个预设文本数量范围;
若所述第二训练集中的所有标签中的至少一个标签对应的第二文本集中的文本数量均处于同一预设文本数量范围,则将所述至少一个标签对应的第二文本集中的所有第二文本归入同一第三文本集;
通过关键词提取算法提取获得的每个第三文本集的关键词,将提取出的关键词归入所述关键词列表。
第二方面,提供了一种文本多标签分类装置,所述装置包括:
第一获取模块,用于获取目标文本;
第二获取模块,用于获取所述目标文本的关键词;
第三获取模块,用于将所述目标文本的关键词输入多标签分类模型,获得所述目标文本的标签,所述多标签分类模型用于根据文本关键词确定文本标签。
可选地,所述装置还包括:
第四获取模块,用于获取第一训练集,所述第一训练集包括多个第一文本和每个第一文本的标签;
第五获取模块,用于获取所述第一训练集中的每个第一文本的关键词;
第六获取模块,用于对于所述第一训练集中的任意一个第一文本,将所述一个第一文本的关键词作为一个第一训练样本的输入数据,将所述一个第一文本的标签作为所述一个第一训练样本的样本标记,以得到所述一个第一训练样本;
第一训练模块,用于使用获得的多个第一训练样本进行模型训练,得到所述多标签分类模型。
可选地,所述第五获取模块用于:
对于所述第一训练集中的任意一个第一文本,将所述一个第一文本输入关键词抽取模型,获得所述一个第一文本的关键词,所述关键词抽取模型用于根据文本确定文本关键词;
所述第二获取模块用于:
将所述目标文本输入所述关键词抽取模型,获得所述目标文本的关键词。
可选地,所述装置还包括:
第七获取模块,用于获取第二训练集,所述第二训练集包括多个第二文本;
第八获取模块,用于根据关键词列表,获取所述第二训练集中每个第二文本的关键词;
第九获取模块,用于对于所述第二训练集中的任意一个第二文本,将所述一个第二文本作为一个第二训练样本的输入数据,将所述一个第二文本的关键词作为所述一个第二训练样本的样本标记,以得到所述一个第二训练样本;
第二训练模块,用于使用获得的多个第二训练样本进行模型训练,得到所述关键词抽取模型。
可选地,所述装置还包括:
确定模块,用于确定所述第二训练集中的所有标签;
划分模块,用于对于所述第二训练集中的所有标签中的任意一个标签,将具有所述一个标签的所有第二文本归入所述一个标签对应的第二文本集;
第十获取模块,用于根据所述第二训练集中的所有标签中每个标签对应的第二文本集,获取所述关键词列表。
可选地,所述第十获取模块用于:
通过关键词提取算法提取所述第二训练集中的所有标签中每个标签对应的第二文本集的关键词,将提取出的关键词归入所述关键词列表。
可选地,所述第十获取模块用于:
确定所述第二训练集中的所有标签中每个标签对应的第二文本集中的文本数量;
确定多个预设文本数量范围;
若所述第二训练集中的所有标签中的至少一个标签对应的第二文本集中的文本数量均处于同一预设文本数量范围,则将所述至少一个标签对应的第二文本集中的所有第二文本归入同一第三文本集;
通过关键词提取算法提取获得的每个第三文本集的关键词,将提取出的关键词归入所述关键词列表。
第三方面,提供了一种计算机设备,所述计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的文本多标签分类方法。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的文本多标签分类方法。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述的文本多标签分类方法的步骤。
可以理解的是,上述第二方面、第三方面、第四方面、第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本多标签分类方法的流程图;
图2是本申请实施例提供的一种文本多标签分类装置的结构示意图;
图3是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
应当理解的是,本申请提及的“多个”是指两个或两个以上。在本申请的描述中,除非另有说明,“/”表示或的意思,比如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,比如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,为了便于清楚描述本申请的技术方案,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
在对本申请实施例进行详细地解释说明之前,先对本申请实施例的应用场景予以说明。
本申请实施例提供的文本多标签分类方法可以应用于需要对文本打标签的场景下。
比如,在一些场景中,某些网站上会发布大量公告,为了有效管理和利用这些大量公告,需要对公告打标签,公告标签的准确度会影响后续公告处理的准确度和时效性。这种情况下,就可以使用本申请实施例提供的文本多标签分类方法来确定公告的标签。
在另一些场景中,某些网站上会发布大量新闻资讯,为了实现准确的新闻资讯定位和新闻资讯过滤,需要对新闻资讯打标签。这种情况下,就可以使用本申请实施例提供的文本多标签分类方法来确定新闻资讯的标签。
当然,除了上述两种场景,本申请实施例提供的文本多标签分类方法也可以应用于其他有确定文本标签需求的场景中,本申请实施例对此不作限定。
下面对本申请实施例提供的文本多标签分类方法进行详细地解释说明。
本申请实施例提供的文本多标签分类方法可以根据目标文本的关键词获取目标文本的标签。本申请实施例提供的文本多标签分类方法可以先训练得到关键词抽取模型和多标签分类模型,以据此实现根据目标文本的关键词对目标文本的标签的获取。
关键词抽取模型用于根据文本确定文本关键词。也即,将一个文本输入关键词抽取模块,关键词抽取模型就可以对这个文本进行处理,并输出这个文本的关键词。
多标签分类模型用于根据文本关键词确定文本标签。也即,将一个文本的关键词输入多标签分类模型,多标签分类模型就可以对这个文本的关键词进行处理,并输出这个文本的标签。
下面对关键词抽取模型的训练过程进行说明。具体地,计算机设备训练得到关键词抽取模型的过程可以包括以下步骤(1)-步骤(4)。
(1)计算机设备获取第二训练集。
第二训练集是用于实现关键词抽取模型训练的训练集,第二训练集包括多个第二文本,进一步地,还可以包括该多个第二文本中每个第二文本的标签。可选地,每个第二文本可以具有一个或多个标签。
示例地,第二训练集中的多个第二文本可以是从某一网站中获取的大量公告标题,第二训练集中的每个第二文本的标签可以是每条公告标题所属的业务类型。比如,第二训练集中的一个第二文本是“关于按照《XX上市规则》公布2016年10月份证券变动月报表的公告”,则这个第二文本的标签可以是“H股(H Stock,国企股)公告”。
第二训练集可以是预先设置的。可选地,计算机设备可以先获取多个第二文本,然后由技术人员手动对每个第二文本打标签,之后,计算机设备将该多个第二文本和每个第二文本的标签归入一个训练集作为第二训练集。
(2)计算机设备根据关键词列表,获取第二训练集中每个第二文本的关键词。
关键词列表是用来记录关键词的一个列表,关键词列表包括很多事先设置的关键词。
计算机设备根据关键词列表,获取第二训练集中每个第二文本的关键词的操作可以为:对于第二训练集中的任意一个第二文本,将这个第二文本中与关键词列表中包括的关键词相同的词作为这个第二文本的关键词。
可选地,计算机设备可以在这个第二文本中存在与关键词列表中包括的关键词相同的词时,对这个第二文本中的与关键词列表中的关键词相同的词进行第一标记,和/或,对这个第二文本中的与关键词列表中的关键词不同的词进行第二标记。然后,计算机设备可以确定这个第二文本中进行了第一标记的词为这个第二文本的关键词,和/或,可以确定这个第二文本中除进行了第二标记的词之外的词为这个第二文本的关键词。
可选地,第二训练集中的每个第二文本中可以存在一个与关键词列表中包括的关键词相同的词,也可以存在多个与关键词列表中的关键词相同的词,也即第二训练集中每个第二文本的关键词可以是一个,也可以是多个。
一种可能的情况中,对于第二训练集中的任意一个第二文本,若这个第二文本中存在与关键词列表中的关键词相同的词,则对于这个第二文本中存在的与关键词列表中的关键词相同的任意一个词,计算机设备可以对这个词进行第一标记。具体地,若这个词包含三个或三个以上的字,则计算机设备将这个词的开头字标记为“KeW-B”、将这个词的中间字标记为“KeW-I”、将这个词的结尾字标记为“KeW-E”;若这个词包含两个字,则计算机设备将这个词的开头字标记为“KeW-B”、将这个词的结尾字标记为“KeW-E”;若这个词只包含一个字,则计算机设备将这个字标记为“KeW”。此时,这个第二文本中进行了第一标记的词为这个第二文本的关键词。
一种可能的情况中,对于第二训练集中的任意一个第二文本,若这个第二文本中存在与关键词列表中的关键词不同的词,则计算机设备对这个第二文本中存在的与关键词列表中的关键词不同的所有词进行第二标记。具体地,计算机设备可以将这个第二文本中的与关键词列表中的关键词不同的所有词均标记为“O”。此时,这个第二文本中除进行了第二标记的词之外的词为这个第二文本的关键词。
例如,假设关键词列表中包括“年”、“第三”、“季度”、“报告”、“正文”等关键词。一个第二文本为公告标题,具体为“XX公司2020年第三季度报告正文”,则计算机设备可以根据关键词列表,对这个第二文本进行如下表1所示的标记,之后,计算机设备可以据此确定这个第二文本的关键词为“年”、“第三”、“季度”、“报告”、“正文”。
表1
O | O | O | O | O | KeW | KeW-B | KeW-E | KeW-B | KeW-E | KeW-B | KeW-E | KeW-B | KeW-E |
X | X | 公 | 司 | 2020 | 年 | 第 | 三 | 季 | 度 | 报 | 告 | 正 | 文 |
进一步地,计算机设备根据关键词列表,获取第二训练集中每个第二文本的关键词之前,还可以先获取该关键词列表。计算机设备获取关键词列表的操作可以为:确定第二训练集中的所有标签;对于第二训练集中的所有标签中的任意一个标签,将具有这个标签的所有第二文本归入这个标签对应的第二文本集;根据第二训练集中的所有标签中每个标签对应的第二文本集,获取关键词列表。
某个标签对应的第二文本集是具有这个标签的所有第二文本的集合,第二训练集中的每个标签都有对应的第二文本集。
第二训练集包括每个第二文本的标签。计算机设备确定第二训练集中的所有标签,然后根据第二训练集中的所有标签将第二训练集中的多个第二文本划分到多个第二文本集,具体是将具有某一标签的所有第二文本归入这个标签对应的第二文本集,接着根据第二训练集中的所有标签中每个标签对应的第二文本集,获取关键词列表。由于第二文本集的信息量相比于单个第二文本的信息量要大,所以计算机设备根据第二文本集获取关键词列表的方式,可以提高获取到的关键词列表的准确度和全面性,进而提高根据第二训练集中的所有第二文本以及每个第二文本的关键词训练得到的关键词抽取模型的性能。
例如,第二训练集中包含文本1、文本2、文本3、文本4。文本1具有标签1、标签2、标签3、标签4,文本2具有标签1、标签2、标签4,文本3具有标签1、标签3、标签4,文本4具有标签1、标签2。则计算机设备可以确定第二训练集中的所有标签为标签1、标签2、标签3、标签4。之后,计算机设备将具有标签1的所有第二文本归入标签1对应的第二文本集,也即标签1对应的第二文本集包括文本1、文本2、文本3、文本4;将具有标签2的所有第二文本归入标签2对应的第二文本集,也即标签2对应的第二文本集包括文本1、文本2、文本4;将具有标签3的所有第二文本归入标签3对应的第二文本集,也即标签3对应的第二文本集包括文本1、文本3;将具有标签4的所有第二文本归入标签4对应的第二文本集,也即标签4对应的第二文本集包括文本1、文本2、文本3。如此,得到第二训练集中的4个标签中每个标签对应的第二文本集。然后计算机设备根据第二训练集中的4个标签中每个标签对应的第二文本集,获取关键词列表。
第一种可能的方式中,计算机设备根据第二训练集中的所有标签中每个标签对应的第二文本集,获取关键词列表的操作可以为:通过关键词提取算法提取第二训练集中的所有标签中每个标签对应的第二文本集的关键词,将提取出的关键词归入关键词列表。
该关键词提取算法用于提取文本中的关键词,如该关键词提取算法可以是TF-IDF(term frequency–inverse document frequency,词频-逆文本频率指数)算法、LSA(latent semantic analysis-latent semantic indexing,潜在语义分析)算法等,本申请实施例对此不作唯一限定。
需要注意的是,计算机设备在获取到第二训练集中所有标签中每一个标签对应的第二文本集之后,将每个标签对应的第二文本集作为一个整体来进行关键词提取。也即,一个第二文本集的关键词是将这个第二文本集中的所有第二文本作为一个整体进行关键词提取后得到的。
第二种可能的方式中,计算机设备根据第二训练集中的所有标签中每个标签对应的第二文本集,获取关键词列表的操作可以为:确定第二训练集中的所有标签中每个标签对应的第二文本集中的文本数量;确定多个预设文本数量范围;若第二训练集中的所有标签中的至少一个标签对应的第二文本集中的文本数量均处于同一预设文本数量范围,则将该至少一个标签对应的第二文本集中的所有第二文本归入同一第三文本集;通过关键词提取算法提取获得的每个第三文本集的关键词,将提取出的关键词归入关键词列表。
某个标签对应的第二文本集中的文本数量是这个标签对应的第二文本集中包含的所有第二文本的文本数量。
多个预设文本数量范围可以预先进行设置。比如,该多个预设文本数量范围可以包括:(0,10]、(10,20]、(20,50]、(50,100]、(100,200]、(200,+∞]等,本申请实施例对此不作唯一限定。
本申请实施例中,计算机设备在根据第二训练集中的所有标签将第二训练集中的多个第二文本划分到多个第二文本集之后,还可根据多个预设文本数量范围进一步对多个第二文本集进行划分。具体地,将文本数量处于同一预设文本数量范围内的一个或多个第二文本集归入同一第三文本集。
一个第三文本集与一个预设文本数量范围对应,这个第三文本集是文本数量处于这一预设文本数量范围内的一个或多个第二文本集中的所有第二文本的集合。
本申请实施例将文本数量处于同一预设文本数量范围内的一个或多个第二文本集中的所有第二文本归入同一第三文本集,可以获得至少一个第三文本集,然后提取每个第三文本集的关键词。由于第三文本集的信息量相比于单个第二文本集的信息量要大,所以计算机设备根据第三文本集获取关键词列表的方式,可以进一步提高获取到的关键词列表的准确度和全面性,进而提高根据第二训练集中的所有第二文本以及每个第二文本的关键词训练得到的关键词抽取模型的性能。
例如,第二训练集中标签1对应的第二文本集的文本数量是15个,标签2对应的第二文本集的文本数量为18个,标签3对应的第二文本集的文本数量为25个,标签4对应得第二文本集的文本数量为30个。多个预设文本数量范围包括:(0,10]、(10,20]、(20,50]。由于标签1和标签2对应的第二文本集的文本数量处于同一预设文本数量范围(10,20],则将标签1和标签2对应的第二文本集中的所有第二文本归入同一个第三文本集;由于标签3和标签4对应的第二文本集的文本数量处于同一预设文本数量范围(20,50],则将标签3和标签4对应的第二文本集中的所有第二文本归入同一个第三文本集,从而得到两个第三文本集。然后计算机设备分别提取这两个第三文本集的关键词,将提取的关键词进行汇总,得到关键词列表。
需要注意的是,计算机设备将处于同一预设文本数量范围内的一个或多个第二文本集中的所有第二文本归入同一第三文本集,得到至少一个第三文本集之后,将每个第三文本集作为一个整体来进行关键词提取。也即,一个第三文本集的关键词是将这个第三文本集中的所有第二文本作为一个整体进行关键词提取后得到的。
(3)对于第二训练集中的任意一个第二文本,计算机设备将这个第二文本作为一个第二训练样本的输入数据,将这个第二文本的关键词作为一个第二训练样本的样本标记,以得到一个第二训练样本。
第二训练集包括多个第二文本,根据多个第二文本中每个第二文本及其关键词都可以得到一个第二训练样本,如此可以得到多个第二训练样本。
该多个第二训练样本是用于进行关键词抽取模型训练的样本,该多个第二训练样本中的每个第二训练样本包括输入数据和样本标记。对于该多个第二训练样本中的任意一个第二训练样本来说,这个第二训练样本中的输入数据为第二训练集中的一个第二文本,这个第二训练样本中的样本标记为这个第二文本的关键词。
(4)计算机设备使用获得的多个第二训练样本进行模型训练,得到关键词抽取模型。
本申请实施例中计算机设备可以使用获得的多个第二训练样本对神经网络模型进行训练,来得到关键词抽取模型。
该神经网络模型可以包括多个网络层,该多个网络层中包括输入层、多个隐含层和输出层。输入层负责接收输入数据;输出层负责输出处理后的数据;多个隐含层位于输入层与输出层之间,负责处理数据,多个隐含层对于外部是不可见的。例如,该神经网络模型可以为BiLSTM(Bi-directional Long Short-Term Memory,双向长短时记忆)循环神经网络、Text-CNN(Text-Convolutional Neural Networks,善于处理文本信息的卷积神经网络)等,本申请实施例对此不作限定。
其中,计算机设备使用多个第二训练样本对神经网络模型进行训练时,对于该多个第二训练样本中的每个第二训练样本,可以将这个第二训练样本中的输入数据输入神经网络模型,获得输出数据;通过损失函数确定该输出数据与这个第二训练样本中的样本标记之间的损失值;根据该损失值调整该神经网络模型中的参数。在基于该多个第二训练样本中的每个第二训练样本对该神经网络模型中的参数进行调整后,参数调整完成的该神经网络模型即为关键词抽取模型。
其中,计算机设备根据该损失值调整该神经网络模型中的参数的操作可以参考相关技术,本申请实施例对此不进行详细阐述。比如,计算机设备可以通过公式来对该神经网络模型中的任意一个参数进行调整。其中,是调整后的参数。w是调整前的参数。α是学习率,α可以预先设置,如α可以为0.001、0.000001等,本申请实施例对此不作唯一限定。dw是该损失函数关于w的偏导数,可以根据该损失值求得。
值得注意的是,上述步骤(2)中计算机设备在获取关键词列表时,是通过关键词提取算法提取第二文本集或第三文本集的关键词来归入关键词列表。这种情况下,对于第二文本集或第三文本集中的任意一个文本集,计算机设备可以分别根据n个关键词数量提取标准,通过关键词提取算法来提取这个文本集的关键词来归入关键词列表。如此,可以得到n个关键词列表。
n个关键词列表与n个关键词数量提取标准一一对应,n个关键词列表中的每个关键词列表是根据对应的关键词数量提取标准提取到的文本关键词的集合,n为正整数。
n个关键词数量提取标准可以预先进行设置,每个关键词数量提取标准用于指示从一个文本集中提取几个关键词。n个关键词数量提取标准不同,也即n个关键词数量提取标准所指示的从一个文本集中提取的关键词的数量不同。
第一种可能的方式中,计算机设备根据n个关键词数量提取标准中的第i个关键词提取标准,通过关键词提取算法提取每个第二文本集的关键词来归入第i个关键词列表。i为大于或等于1且小于或等于n的整数。如此,可以得到n个关键词列表。
比如,n为3,3个关键词数量标准分别是:提取5个关键词、提取10个关键词、提取20个关键词。则计算机设备先通过关键词提取算法从每个第二文本集中提取5个关键词,将提取出的关键词归入第1个关键词列表。然后,计算机设备通过关键词提取算法从每个第二文本集中提取10个关键词,将提取出的关键词归入第2个关键词列表。接着,计算机设备通过关键词提取算法从每个第二文本集中提取20个关键词,将提取出的关键词归入第3个关键词列表。如此,就可以得到3个不同的关键词列表。
第二种可能的方式中,计算机设备根据n个关键词数量提取标准中的第i个关键词提取标准,通过关键词提取算法提取每个第三文本集的关键词来归入第i个关键词列表,如此,可以得到n个关键词列表。
比如,n为3,3个关键词数量标准分别是:提取10个关键词、提取15个关键词、提取20个关键词。则计算机设备先通过关键词提取算法从每个第三文本集中提取10个关键词,将提取出的关键词归入第1个关键词列表。然后,计算机设备通过关键词提取算法从每个第三文本集中提取15个关键词,将提取出的关键词归入第2个关键词列表。接着,计算机设备通过关键词提取算法从每个第三文本集中提取20个关键词,将提取出的关键词归入第3个关键词列表。如此,就可以得到3个不同的关键词列表。
计算机设备得到n个关键词列表之后,在上述步骤(2)和步骤(3)中计算机设备根据关键词列表获取多个第二训练样本时,计算机设备可以分别根据n个关键词列表获取n个第二训练样本集,n个第二训练样本集与n个关键词列表一一对应,一个第二训练样本集包括多个第二训练样本。具体地,计算机设备可以根据n个关键词列表中的第i个关键词列表获取第二训练集中每个第二文本的关键词,根据第二训练集中多个第二文本中每个第二文本及其关键词生成一个第二训练样本,将获得的多个第二训练样本作为第i个第二训练样本集,如此,可以得到n个第二训练样本集。
计算机设备得到n个第二训练样本集之后,在上述步骤(4)中计算机设备使用获得的多个第二训练样本进行模型训练,得到关键词抽取模型时,计算机设备可以分别根据n个第二训练样本集进行模型训练,得到n个关键词抽取模型。具体地,计算机设备可以根据n个第二训练样本集中的第i个第二训练样本集进行模型训练,得到第i个关键词抽取模型,如此,可以得到n个关键词抽取模型。
下面对多标签分类模型的训练过程进行说明。具体地,计算机设备训练得到多标签分类模型的过程可以包括以下步骤(1)-步骤(4)。
(1)计算机设备获取第一训练集。
第一训练集是用于进行多标签分类模型训练的训练集,第一训练集包括多个第一文本以及该多个第一文本中每个第一文本的标签。可选地,每个第一文本可以具有一个或多个标签。
示例地,第一训练集中的多个第一文本可以是从某一网站中获取的大量公告标题,第一训练集中的每个第一文本的标签可以是每条公告标题所属的业务类型。比如,第一训练集中的一个第一文本是“关于《首次公开发行股票发行公告》的更正公告”,则这个第一文本的标签可以是“IPO(Initial Public Offering,公开募股)发行公告”。
可选地,第一训练集中所包含的文本可以与第二训练集中所包含的文本相同,也可以与第二训练集中所包含的文本不同,本申请对此不作限定。
可选地,第一训练集可以是预先设置的。可选地,计算机设备可以先获取多个第一文本,然后由技术人员手动对每个第一文本打标签,之后,计算机设备将该多个第一文本和每个第一文本的标签归入一个训练集作为第一训练集。
(2)计算机设备获取第一训练集中的每个第一文本的关键词。
具体地,对于第一训练集中的任意一个第一文本,计算机设备可以将这个第一文本输入关键词抽取模型,获得这个第一文本的关键词。
关键词抽取模型可以自动去除文本中的非关键词来得到关键词,无需人工手动进行标记,从而可以提高关键词获取效率。
(3)对于第一训练集中的任意一个第一文本,计算机设备将这个第一文本的关键词作为一个第一训练样本的输入数据,将这个第一文本的标签作为这个第一训练样本的样本标记,以得到一个第一训练样本。
第一训练集包括多个第一文本,根据多个第一文本中每个第一文本的关键词及其标签都可以得到一个第一训练样本,如此可以得到多个第一训练样本。
该多个第一训练样本是用于进行多标签分类模型训练的样本,该多个第一训练样本中的每个第一训练样本包括输入数据和样本标记。对于该多个第一训练样本中的任意一个第一训练样本来说,这个第一训练样本中的输入数据为第一训练集中的一个第一文本的关键词,这个第一训练样本中的样本标记为这个第一文本的标签。
(4)计算机设备使用获得的多个第一训练样本进行模型训练,得到多标签分类模型。
值得说明的是,由于文本的关键词可以代表文本的主要内容,且文本的关键词的信息量比文本整体的信息量小,所以文本的关键词与文本的标签之间的相关性比文本整体与文本的标签之间的相关性要高。这种情况下,第一训练样本中的输入数据与样本标记之间的相关性较高,如此,在使用第一训练样本进行模型训练时,在第一训练样本数量较少的情况下也能使神经网络模型学习到关键特征,从而可以降低在模型训练时对第一训练样本的数量要求。
本申请实施例中的计算机设备可以使用获得的多个第一训练样本对神经网络模型进行训练,来得到多标签分类模型。
该神经网络模型可以包括多个网络层,该多个网络层中包括输入层、多个隐含层和输出层。输入层负责接收输入数据;输出层负责输出处理后的数据;多个隐含层位于输入层与输出层之间,负责处理数据,多个隐含层对于外部是不可见的。例如,该神经网络模型可以为BiLSTM、Text-CNN等。
其中,计算机设备使用多个第一训练样本对神经网络模型进行训练时,对于该多个第一训练样本中的每个第一训练样本,可以将这个第一训练样本中的输入数据输入神经网络模型,获得输出数据;通过损失函数确定该输出数据与这个第一训练样本中的样本标记之间的损失值;根据该损失值调整该神经网络模型中的参数。在基于该多个第一训练样本中的每个第一训练样本对该神经网络模型中的参数进行调整后,参数调整完成的该神经网络模型即为多标签分类模型。
其中,计算机设备根据该损失值调整该神经网络模型中的参数的操作可以参考相关技术,本申请实施例对此不进行详细阐述。比如,计算机设备可以通过公式来对该神经网络模型中的任意一个参数进行调整。其中,是调整后的参数。w是调整前的参数。α是学习率,α可以预先设置,如α可以为0.001、0.000001等,本申请实施例对此不作唯一限定。dw是该损失函数关于w的偏导数,可以根据该损失值求得。
值得注意的是,若此前训练得到了n个关键词抽取模型,则在上述步骤(2)和步骤(3)中计算机设备通过关键词抽取模块获取多个第一训练样本时,计算机设备可以分别通过n个关键词抽取模型获取n个第一训练样本集,n个第一训练样本集与n个关键词抽取模型一一对应,一个第一训练样本集包括多个第一训练样本。具体地,计算机设备可以通过n个关键词抽取模型中的第i个关键词抽取模型获取第一训练集中的每个第一文本的关键词,根据第一训练集中多个第一文本中每个第一文本的关键词和标签生成一个第一训练样本,将获得的多个第一训练样本作为第i个第一训练样本集,如此,可以得到n个第一训练样本集。
计算机设备得到n个第一训练样本集之后,在上述步骤(4)中计算机设备使用获得的多个第一训练样本进行模型训练,得到多标签分类模型时,计算机设备可以分别根据n个第一训练样本集进行模型训练,得到n个多标签分类模型。具体地,计算机设备可以根据n个第一训练样本集中的第i个第一训练样本集进行模型训练,得到第i个多标签分类模型,如此,可以得到n个多标签分类模型。
这种情况下,n个关键词抽取模型与n个多标签分类模型实际上是一一对应的。n个多标签分类模型中的每个多标签分类模型是根据对应的关键词抽取模型获取到的文本关键词训练得到的。
计算机设备得到n个多标签分类模型之后,可以从n个多标签分类模型中选择一个多标签分类模型,将选择的这一个多标签分类模型和其对应的一个关键词抽取模型在后续确定文本标签时使用。
可选地,计算机设备可以确定n个多标签分类模型中每个多标签分类模型的性能评估得分,然后选择性能评估得分最高的一个多标签分类模型作为后续确定文本标签时使用的多标签分类模型,将性能评估得分最高的一个多标签分类模型对应的一个关键词抽取模型作为后续确定文本标签时使用的关键词抽取模型。
一个多标签分类模型的性能评估得分越高说明通过这个多标签分类模型根据文本关键字确定文本标签时的准确度越高,即一个多标签分类模型的性能评估得分越高说明这个多标签分类模型的性能越好、预测准确率越高。因此选择性能评估得分最高的一个多标签分类模型作为后续确定文本标签时使用的多标签分类模型。由于n个多标签分类模型中的每个多标签分类模型是根据对应的关键词抽取模型获取到的文本关键词训练得到的,因而一个多标签分类模型的性能评估得分越高可以在一定程度上说明这个多标签分类模型对应的关键词抽取模型的性能越好,因此将性能评估得分最高的一个多标签分类模型对应的一个关键词抽取模型作为后续确定文本标签时使用的关键词抽取模型。
其中,对于n个多标签分类模型中的第i个多标签分类模型,计算机设备确定第i个多标签分类模型的性能评估得分的操作可以包括如下步骤(1)-步骤(4)。
(1)计算机设备获取测试集。
测试集用于评估多标签分类模型的性能。测试集包括多个文本以及多个文本中每个文本的标签。可选地,每个文本可以具有一个或多个标签。
示例地,测试集的多个文本可以是从某一网站中获取的大量公告标题,测试集的每个文本的标签可以是每条公告标题所属的业务类型。比如,测试集中的一个文本是“首次公开发行股票并在创业板上市网上路演公告”,则这个文本的标签可以是“IPO路演公告”。
可选地,测试集可以是预先设置的。可选地,计算机设备可以先获取多个文本,然后由技术人员手动对每个文本打标签,之后,计算机设备将该多个文本和每个文本的标签归入一个测试集。
(2)计算机设备获取测试集中每个文本的关键词。
具体地,对于测试集中的任意一个文本,计算机设备可以将这个文本输入第i个多标签分类模型对应的第i个关键词抽取模块,获得这个文本的关键词。
(3)对于测试集中的任意一个文本,计算机设备将这个文本的关键词作为一个测试数据的输入数据,将这个文本的标签作为这个测试数据的数据标记,以得到这个测试数据。
测试集包括多个文本,根据多个文本中每个文本的关键词及其标签都可以得到一个测试数据,如此可以得到多个测试数据。
该多个测试数据是用于测试第i个多标签分类模型的数据,即用于评估第i个多标签分类模型的性能的数据。该多个测试数据中的每个测试数据包括输入数据和数据标记。对于该多个测试数据中的任意一个测试数据,这个测试数据中的输入数据为一个文本的关键字,这个测试数据中的数据标记为这个文本的标签。
(4)计算机设备使用获得的多个测试数据对第i个多标签分类模型进行测试,得到第i个多标签分类模型的性能评估得分。
具体地,对于获得的多个测试数据中的任意一个测试数据,计算机设备将这个测试数据的输入数据输入第i个多标签分类模型,获得输出数据;根据该输出数据与这个测试数据的数据标记之间的差异,确定这个测试数据的测试结果;根据该多个测试数据中每个测试数据的测试结果,确定第i个多标签分类模型的性能评估得分。
一种可能的方式中,计算机设备将这个测试数据的输入数据输入第i个多标签分类模型,获得输出数据后,可以在该输出数据与这个测试数据的数据标记相同的情况下,确定这个测试数据的测试结果为预测成功;在该输出数据与这个测试数据的数据标记不同的情况下,确定这个测试数据的测试结果为预测失败;将该多个测试数据中测试结果为预测成功的测试数据的数量除以该多个测试数据的总数量,得到第i个多标签分类模型的性能评估得分。
该多个测试数据中每个测试数据的测试结果代表着第i个多标签分类模型根据文本关键字确定文本标签时的准确度,将该多个测试数据中测试结果为预测成功的测试数据的数量除以该多个测试数据的总数量后得到的数值就是第i个多标签分类模型的预测成功率,因而可以将这个数值作为第i个多标签分类模型的性能评估得分。
计算机设备获得可以在后续确定文本标签时使用的多标签分类模型和关键词抽取模型之后,就可以使用这两个模型来根据文本关键词获取文本标签,具体操作如下:
图1是本申请实施例提供的一种文本多标签分类方法的流程图。参见图1,该方法包括以下步骤。
步骤101:计算机设备获取目标文本。
目标文本是需要打标签的文本,如目标文本可以是某一网站发布的文本。示例地,目标文本可以是某一网站发布的公告,或者可以是某一网站发布的公告的标题,或者也可以是某一网站发布的公告的正文,本申请实施例不限定目标文本的类型。
步骤102:计算机设备获取目标文本的关键词。
目标文本的关键词是从目标文本中直接获取到的、能够表示目标文本的主要内容的词。目标文本的关键词可以是一个,也可以是多个,本申请实施例不限定目标文本的关键词的个数。比如,若目标文本是“银川新华百货商业集团股份有限公司2020年第三季度报告正文”,则目标文本的关键词可以包括“年”、“第三”、“季度”、“报告”、“正文”等。
目标文本的关键词可以代表目标文本的主要内容,并且目标文本的关键词的信息量比目标文本的信息量少。如此,目标文本的关键词与目标文本的标签之间的相关性比目标文本整体与目标文本的标签之间的相关性要高。
具体地,计算机设备可以将目标文本输入关键词抽取模型,获得目标文本的关键词。
关键词抽取模型用于根据文本确定文本关键词。也即,将一个文本输入关键词抽取模块,关键词抽取模型就可以对这个文本进行处理,并输出这个文本的关键词。
步骤103:计算机设备将目标文本的关键词输入多标签分类模型,获得目标文本的标签。
多标签分类模型用于根据文本关键词确定文本标签。也即,将一个文本的关键词输入多标签分类模型,多标签分类模型就可以对这个文本的关键词进行处理,并输出这个文本的标签。
在本申请实施例中,先获取目标文本的关键词,然后将目标文本的关键词输入多标签分类模型,获得目标文本的标签,多标签分类模型用于根据文本关键词确定文本标签。由于目标文本的关键词可以代表目标文本的主要内容,且目标文本的关键词的信息量比目标文本的信息量少,所以目标文本的关键词与目标文本的标签的相关性较高,因而本申请实施例中根据目标文本的关键词,通过多标签分类模型获取到的目标文本的标签的准确性较高。
图3是本申请实施例提供的一种文本多标签分类装置的结构示意图。参见图3,该装置包括:第一获取模块301、第二获取模块302、第三获取模块303。
第一获取模块301,用于获取目标文本;
第二获取模块302,用于获取目标文本的关键词;
第三获取模块303,用于将目标文本的关键词输入多标签分类模型,获得目标文本的标签,多标签分类模型用于根据文本关键词确定文本标签。
可选地,该装置还包括:
第四获取模块,用于获取第一训练集,第一训练集包括多个第一文本和每个第一文本的标签;
第五获取模块,用于获取第一训练集中的每个第一文本的关键词;
第六获取模块,用于对于第一训练集中的任意一个第一文本,将这个第一文本的关键词作为一个第一训练样本的输入数据,将这个第一文本的标签作为一个第一训练样本的样本标记,以得到一个第一训练样本;
第一训练模块,用于使用获得的多个第一训练样本进行模型训练,得到多标签分类模型。
可选地,该第五获取模块用于:
对于第一训练集中的任意一个第一文本,将这个第一文本输入关键词抽取模型,获得这个第一文本的关键词,关键词抽取模型用于根据文本确定文本关键词;
该第二获取模块用于:
将目标文本输入关键词抽取模型,获得目标文本的关键词。
可选地,该装置还包括:
第七获取模块,用于获取第二训练集,第二训练集包括多个第二文本;
第八获取模块,用于根据关键词列表,获取第二训练集中每个第二文本的关键词;
第九获取模块,用于对于第二训练集中的任意一个第二文本,将这个第二文本作为一个第二训练样本的输入数据,将这个第二文本的关键词作为一个第二训练样本的样本标记,以得到一个第二训练样本;
第二训练模块,用于使用获得的多个第二训练样本进行模型训练,得到关键词抽取模型。
可选地,该装置还包括:
确定模块,用于确定第二训练集中的所有标签;
划分模块,用于对于第二训练集中的所有标签中的任意一个标签,将具有这个标签的所有第二文本归入这个标签对应的第二文本集;
第十获取模块,用于根据第二训练集中的所有标签中每个标签对应的第二文本集,获取关键词列表。
可选地,该第十获取模块用于:
通过关键词提取算法提取第二训练集中的所有标签中每个标签对应的第二文本集的关键词,将提取出的关键词归入关键词列表。
可选地,该第十获取模块用于:
确定第二训练集中的所有标签中每个标签对应的第二文本集中的文本数量;
确定多个预设文本数量范围;
若第二训练集中的所有标签中的至少一个标签对应的第二文本集中的文本数量均处于同一预设文本数量范围,则将该至少一个标签对应的第二文本集中的所有第二文本归入同一第三文本集;
通过关键词提取算法提取获得的每个第三文本集的关键词,将提取出的关键词归入关键词列表。
在本申请实施例中,先获取目标文本的关键词,然后将目标文本的关键词输入多标签分类模型,获得目标文本的标签,多标签分类模型用于根据文本关键词确定文本标签。由于目标文本的关键词可以代表目标文本的主要内容,且目标文本的关键词的信息量比目标文本的信息量少,所以目标文本的关键词与目标文本的标签的相关性较高,因而本申请实施例中根据目标文本的关键词,通过多标签分类模型获取到的目标文本的标签的准确性较高。
需要说明的是:上述实施例提供的文本多标签分类装置在对文本进行多标签分类时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
上述实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请实施例的保护范围。
上述实施例提供的文本多标签分类装置与文本多标签分类方法实施例属于同一构思,上述实施例中单元、模块的具体工作过程及带来的技术效果,可参见方法实施例部分,此处不再赘述。
图3为本申请实施例提供的一种计算机设备的结构示意图。如图3所示,计算机设备3包括:处理器30、存储器31以及存储在存储器31中并可在处理器30上运行的计算机程序32,处理器30执行计算机程序32时实现上述实施例中的文本多标签分类方法中的步骤。
计算机设备3可以是一个通用计算机设备或一个专用计算机设备。在具体实现中,计算机设备3可以是台式机、便携式电脑、网络服务器、掌上电脑、移动手机、平板电脑、无线终端设备、通信设备或嵌入式设备,本申请实施例不限定计算机设备3的类型。本领域技术人员可以理解,图3仅仅是计算机设备3的举例,并不构成对计算机设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,比如还可以包括输入输出设备、网络接入设备等。
处理器30可以是中央处理单元(Central Processing Unit,CPU),处理器30还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者也可以是任何常规的处理器。
存储器31在一些实施例中可以是计算机设备3的内部存储单元,比如计算机设备3的硬盘或内存。存储器31在另一些实施例中也可以是计算机设备3的外部存储设备,比如计算机设备3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器31还可以既包括计算机设备3的内部存储单元也包括外部存储设备。存储器31用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,比如计算机程序的程序代码等。存储器31还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机设备,该计算机设备包括:至少一个处理器、存储器以及存储在该存储器中并可在该至少一个处理器上运行的计算机程序,该处理器执行该计算机程序时实现上述任意各个方法实施例中的步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当其在计算机上运行时,使得计算机执行上述各个方法实施例中的步骤。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述方法实施例中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,该计算机程序包括计算机程序代码,该计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。该计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory,只读光盘)、磁带、软盘和光数据存储设备等。本申请提到的计算机可读存储介质可以为非易失性存储介质,换句话说,可以是非瞬时性存储介质。
应当理解的是,实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。该计算机指令可以存储在上述计算机可读存储介质中。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种文本多标签分类方法,其特征在于,所述方法包括:
获取目标文本;
获取所述目标文本的关键词;
将所述目标文本的关键词输入多标签分类模型,获得所述目标文本的标签,所述多标签分类模型用于根据文本关键词确定文本标签。
2.如权利要求1所述的方法,其特征在于,所述将所述目标文本的关键词输入多标签分类模型,获得所述目标文本的标签之前,还包括:
获取第一训练集,所述第一训练集包括多个第一文本和每个第一文本的标签;
获取所述第一训练集中的每个第一文本的关键词;
对于所述第一训练集中的任意一个第一文本,将所述一个第一文本的关键词作为一个第一训练样本的输入数据,将所述一个第一文本的标签作为所述一个第一训练样本的样本标记,以得到所述一个第一训练样本;
使用获得的多个第一训练样本进行模型训练,得到所述多标签分类模型。
3.如权利要求2所述的方法,其特征在于,所述获取所述第一训练集中的每个第一文本的关键词,包括:
对于所述第一训练集中的任意一个第一文本,将所述一个第一文本输入关键词抽取模型,获得所述一个第一文本的关键词,所述关键词抽取模型用于根据文本确定文本关键词;
所述获取所述目标文本的关键词,包括:
将所述目标文本输入所述关键词抽取模型,获得所述目标文本的关键词。
4.如权利要求3所述的方法,其特征在于,所述将所述一个第一文本输入关键词抽取模型,获得所述一个第一文本的关键词之前,还包括:
获取第二训练集,所述第二训练集包括多个第二文本;
根据关键词列表,获取所述第二训练集中每个第二文本的关键词;
对于所述第二训练集中的任意一个第二文本,将所述一个第二文本作为一个第二训练样本的输入数据,将所述一个第二文本的关键词作为所述一个第二训练样本的样本标记,以得到所述一个第二训练样本;
使用获得的多个第二训练样本进行模型训练,得到所述关键词抽取模型。
5.如权利要求4所述的方法,其特征在于,所述第二训练集包括每个第二文本的标签,所述根据关键词列表,获取所述第二训练集中每个第二文本的关键词之前,还包括:
确定所述第二训练集中的所有标签;
对于所述第二训练集中的所有标签中的任意一个标签,将具有所述一个标签的所有第二文本归入所述一个标签对应的第二文本集;
根据所述第二训练集中的所有标签中每个标签对应的第二文本集,获取所述关键词列表。
6.如权利要求5所述的方法,其特征在于,所述根据所述第二训练集中的所有标签中每个标签对应的第二文本集,获取所述关键词列表,包括:
通过关键词提取算法提取所述第二训练集中的所有标签中每个标签对应的第二文本集的关键词,将提取出的关键词归入所述关键词列表。
7.如权利要求5所述的方法,其特征在于,所述根据所述第二训练集中的所有标签中每个标签对应的第二文本集,获取所述关键词列表,包括:
确定所述第二训练集中的所有标签中每个标签对应的第二文本集中的文本数量;
确定多个预设文本数量范围;
若所述第二训练集中的所有标签中的至少一个标签对应的第二文本集中的文本数量均处于同一预设文本数量范围,则将所述至少一个标签对应的第二文本集中的所有第二文本归入同一第三文本集;
通过关键词提取算法提取获得的每个第三文本集的关键词,将提取出的关键词归入所述关键词列表。
8.一种文本多标签分类装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标文本;
第二获取模块,用于获取所述目标文本的关键词;
第三获取模块,用于将所述目标文本的关键词输入多标签分类模型,获得所述目标文本的标签,所述多标签分类模型用于根据文本关键词确定文本标签。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110090575.7A CN112765965A (zh) | 2021-01-22 | 2021-01-22 | 文本多标签分类方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110090575.7A CN112765965A (zh) | 2021-01-22 | 2021-01-22 | 文本多标签分类方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112765965A true CN112765965A (zh) | 2021-05-07 |
Family
ID=75706759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110090575.7A Pending CN112765965A (zh) | 2021-01-22 | 2021-01-22 | 文本多标签分类方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765965A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312484A (zh) * | 2021-06-10 | 2021-08-27 | 支付宝(杭州)信息技术有限公司 | 对象标签处理方法及装置 |
CN113836304A (zh) * | 2021-09-27 | 2021-12-24 | 山东亿云信息技术有限公司 | 一种基于自然语言处理的智能打标签方法及系统 |
-
2021
- 2021-01-22 CN CN202110090575.7A patent/CN112765965A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312484A (zh) * | 2021-06-10 | 2021-08-27 | 支付宝(杭州)信息技术有限公司 | 对象标签处理方法及装置 |
CN113312484B (zh) * | 2021-06-10 | 2023-06-20 | 支付宝(杭州)信息技术有限公司 | 对象标签处理方法及装置 |
CN113836304A (zh) * | 2021-09-27 | 2021-12-24 | 山东亿云信息技术有限公司 | 一种基于自然语言处理的智能打标签方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102779140B (zh) | 一种关键词获取方法及装置 | |
CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
CN107423278B (zh) | 评价要素的识别方法、装置及系统 | |
CN110427487B (zh) | 一种数据标注方法、装置及存储介质 | |
CN112560491B (zh) | 一种基于ai技术的信息抽取方法、装置和存储介质 | |
CN110909123B (zh) | 一种数据提取方法、装置、终端设备及存储介质 | |
CN108664471B (zh) | 文字识别纠错方法、装置、设备及计算机可读存储介质 | |
CN106445906A (zh) | 领域词典中中长词词组的生成方法及装置 | |
CN112765965A (zh) | 文本多标签分类方法、装置、设备和存储介质 | |
CN112396079A (zh) | 号码识别模型训练方法、号码识别方法及装置 | |
CN109472722B (zh) | 获得待生成裁判文书经审理查明段相关信息的方法及装置 | |
CN112348560A (zh) | 广告素材智能审核方法、装置和电子设备 | |
KR100876214B1 (ko) | 문맥기반 광고 장치와 그 방법 및 이를 구현할 수 있는컴퓨터로 읽을 수 있는 기록 매체 | |
CN110175219A (zh) | 一种k12阶段重复学校识别方法、装置、设备及存储介质 | |
CN113837836A (zh) | 模型推荐方法、装置、设备及存储介质 | |
CN111488737A (zh) | 文本识别方法、装置及设备 | |
CN115357688B (zh) | 企业名单信息获取方法、装置、存储介质和电子设备 | |
CN111898378A (zh) | 政企客户的行业分类方法和装置、电子设备、存储介质 | |
CN115098629B (zh) | 文件处理方法、装置、服务器及可读存储介质 | |
CN114067343A (zh) | 一种数据集的构建方法、模型训练方法和对应装置 | |
CN112784015B (zh) | 信息识别方法和装置、设备、介质和程序 | |
CN115210708B (zh) | 处理文本数据的方法和系统、非暂时性计算机可读介质 | |
CN113536788A (zh) | 信息处理方法、装置、存储介质及设备 | |
GB2608112A (en) | System and method for providing media content | |
CN113918709A (zh) | 一种行业分类模型训练方法、分类方法与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |