CN111680156B - 数据多标签分类方法及系统 - Google Patents
数据多标签分类方法及系统 Download PDFInfo
- Publication number
- CN111680156B CN111680156B CN202010447721.2A CN202010447721A CN111680156B CN 111680156 B CN111680156 B CN 111680156B CN 202010447721 A CN202010447721 A CN 202010447721A CN 111680156 B CN111680156 B CN 111680156B
- Authority
- CN
- China
- Prior art keywords
- labels
- label
- total
- text
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013145 classification model Methods 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims description 33
- 238000012360 testing method Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012795 verification Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 14
- 238000010801 machine learning Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 3
- 239000002537 cosmetic Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241001654189 Lycoris aurea Species 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 244000038293 primary consumers Species 0.000 description 1
- 244000037459 secondary consumers Species 0.000 description 1
- 235000011888 snacks Nutrition 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种数据多标签分类方法及系统。该数据多标签分类方法包括:获取标签分类模型;获取预设时间内文本的字符串;根据字符串的长度对字符串进行分割;将分割后的字符串输入标签分类模型中,得到每个字符串的多分类标签;拼接同一用户编号下的多分类标签。本发明可以通过标签分类的方式准确获取用户的偏好,提高获取效率,进而及时向客户推送相关活动。
Description
技术领域
本发明涉及数据分类技术领域,具体地,涉及一种数据多标签分类方法及系统。
背景技术
随着信息技术的发展,银行的用户数据量已达PB级。海量数据中存在巨大的潜力价值,例如:信用卡消费数据,网联支付交易数据(用户在购物平台上购买商品后通过绑定的银行卡进行支付,银行记录的消费数据)等。
目前银行一般通过从海量的消费数据中逐条提取的关键字的方式获取用户的消费偏好,时效性低下且准确性不佳。
发明内容
本发明实施例的主要目的在于提供一种数据多标签分类方法及系统,以准确获取用户偏好,提高获取效率。
为了实现上述目的,本发明实施例提供一种数据多标签分类方法,包括:
获取标签分类模型;
获取预设时间内文本的字符串;
根据字符串的长度对字符串进行分割;
将分割后的字符串输入标签分类模型中,得到每个字符串的多分类标签;
拼接同一用户编号下的多分类标签。
本发明实施例还提供一种数据多标签分类系统,包括:
模型获取单元,用于获取标签分类模型;
字符串获取单元,用于获取预设时间内文本的字符串;
分割单元,用于根据字符串的长度对字符串进行分割;
多分类标签单元,用于将分割后的字符串输入标签分类模型中,得到每个字符串的多分类标签;
拼接单元,用于拼接同一用户编号下的多分类标签。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,处理器执行计算机程序时实现所述的数据多标签分类方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现所述的数据多标签分类方法的步骤。
本发明实施例的数据多标签分类方法及系统先根据字符串的长度对字符串进行分割,再将分割后的字符串输入标签分类模型中,得到每个字符串的多分类标签,最后拼接同一用户编号下的多分类标签,可以通过标签分类的方式准确获取用户的偏好,提高获取效率,进而及时向客户推送相关活动。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中数据多标签分类方法的流程图;
图2是本发明实施例中Bert模型的示意图;
图3是本发明实施例中Bert模型用于多分类的示意图;
图4是本发明实施例中数据多标签分类系统的结构框图。
图5是本发明实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
鉴于目前银行通过从海量的消费数据中逐条提取的关键字的方式获取用户的偏好,时效性低下且准确性不佳,本发明实施例提供一种数据多标签分类方法,以准确获取用户偏好,提高获取效率。以下结合附图对本发明进行详细说明。
图1是本发明一实施例中数据多标签分类方法的流程图。如图1所示,数据多标签分类方法包括:
S101:获取标签分类模型。
S102:获取预设时间内文本的字符串。
例如,可以获取一星期内文本的字符串,每个字符串均有对应的用户编号,同一文本的用户编号相同。用户编号的字段类型为varchar(26),文本和多分类标签的字段类型均为string。
S103:根据字符串的长度对字符串进行分割。
具体实施时,若字符串的长度小于256个字符,则无需对字符串进行分割;若字符串长度大于256个字符,则需要对文本进行分割处理:以“,”作为分隔符,分隔符间字符串的长度小于256个字符。例如,将大于56个字符字符串分割为第一字符串和第二字符串。
S104:将分割后的字符串输入标签分类模型中,得到每个字符串的多分类标签。
例如,将第一字符串输入标签分类模型中,得到第一字符串的多分类标签78,80和92。将第二字符串输入标签分类模型中,得到第二字符串的多分类标签78,80和93。第一字符串和第二字符串的用户编号相同。
S105:拼接同一用户编号下的多分类标签。
例如,拼接第一字符串的多分类标签78,80,92和第二字符串的多分类标签78,80,93,可以得到拼接后的多分类标签78,80,92,93。该多分类标签即为对应文本的多分类标签。
其中,多分类标签为数字标签,包括第一标签、第二标签和第三标签。第一标签为一级消费标签下的二级消费标签对应的数字标签,第二标签为一级消费标签对应的数字标签,第三标签为支付标签对应的数字标签。一级消费标签(如餐饮、住宿、购物等)、二级消费标签(如一级消费标签“餐饮”下的“正餐”、“饮品”、“零食”等)和支付标签(如:支付宝、钱袋宝、分期等)均为文字标签。
表1
表1是部分文字标签表。如表1所示,81-97为支付标签,0-80为消费标签。
图1所示的数据多标签分类方法的执行主体可以为计算机。由图1所示的流程可知,本发明实施例的数据多标签分类方法先根据字符串的长度对字符串进行分割,再将分割后的字符串输入标签分类模型中,得到每个字符串的多分类标签,最后拼接同一用户编号下的多分类标签,可以通过标签分类的方式准确获取用户的偏好,提高获取效率,进而及时向客户推送相关活动。
一实施例中,在执行S101之前还包括:预先通过以下方式获取标签分类模型:
1、获取文本和文本对应的总标签;其中,总标签包括第一标签。
2、将每种第一标签对应的文本划分至三个预集合。
具体实施时,可以将每种第一标签对应的文本按预设比例划分至三个预集合。预设比例可以为6:2:2,且三个预集合中的数据彼此互斥。
在将每种第一标签对应的文本划分至三个预集合之前,需要从贷记帐户历史明细表中获取交易场所简称数据作为文本,例如:“14/60期广州丽之兹摄影有限公司”。文本包含支付方式和消费类型信息。为避免重复数据对模型训练造成影响,需优先去除重复数据。
接着对文本进行标注得到总标签:在每个标签后以下划线作为分隔符,之后拼接“0”或“1”:0表示该文本没有对应标签;1表示该文本具有当前标签。
表2
表2是本发明一实施例中总标签与文本表。如表2所示,总标签包括98个数字标签,每个数字标签按照标签类型可以分为第一标签、第二标签和第三标签。例如,总标签共存在三处包含“_1”的数字,数字38代表“摄影文印”,为第一标签(二级消费标签对应的数字标签);数字73代表“购物”,为第二标签(一级消费标签对应的数字标签);数字81代表“分期”为第三标签(支付标签对应的数字标签)。
3、对每个预集合进行如下循环处理:
(1)从预集合中选取其中一个总标签和总标签对应的文本,并将总标签和文本放入预集合对应的集合中。
例如,以表2为例,可以直接将预集合中表2的总标签和文本放入预集合对应的集合中。
(2)从预集合中多次选取不同种的第一标签对应的总标签进行合并,并对第一标签对应的文本进行拼接。
一实施例中,从预集合中多次选取不同种的第一标签对应的总标签进行合并,并对第一标签对应的文本进行拼接包括:
设定每次选取总标签的数量为M,M=2,执行如下循环处理:
从预集合中选取M个不同种的第一标签对应的总标签进行合并,并对M个第一标签对应的文本进行拼接。
表3
表3是本发明一实施例的合并表。如表3所示,以M=2为例,将预集合中的总标签1和总标签2进行合并,对预集合中的文本1和文本2进行拼接。
判断M是否小于预设选取数量;当M小于预设选取数量时,将循环处理中的M替换为M+1,否则循环结束。
当预设的机器学习模型为BERT模型时,预设选取数量为11,即最多将预集合中的11个不同种的第一标签对应的总标签进行合并,对11个第一标签对应的文本进行拼接。因为BERT模型有512个字符上限限制,超出512个字符会截断文本。本发明将11个第一标签对应的文本进行拼接后的字符长度可达到200个字符左右,预留56个空余字符。
(3)将合并后的总标签和拼接后的文本放入集合中;当集合中总标签的数量达到对应的集合预设数量时,循环结束。
其中,预集合包括预训练集、预验证集和预测试集;预训练集对应的集合为训练集;预验证集对应的集合为验证集;预测试集对应的集合为测试集。预训练集、预验证集和预测试集中的数据比可以为6:2:2且预训练集、预验证集和预测试集中的数据彼此互斥。
4、根据集合训练预设的机器学习模型,得到标签分类模型。
本发明使用Bert模型进行模型训练。Bert全称为“Bidirectional EncoderRepresentation from Transformers”,即转换器的双向编码表示。Bert旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,根据不同场景需要,预训练Bert的表示可以通过一个额外的输出层进行微调(fine-tune),适用于广泛的模型构建,例如多文本分类。
图2是本发明实施例中Bert模型的示意图。如图2所示,输入为每个字Embedding(嵌入)后的词向量Ei,i∈[1,N],Ei为第i个词向量,N为大于1的整数;图中Trm是Transformer(转换器)的Encoder(编码器)。每个转换器的编码器可一次性读取整个序列,而不是自左向右或自右向左地按顺序读取。这促使模型能够基于词的两侧学习文本之间的上下文关系;最后,输出向量结果为Ti,i∈[1,N],Ti为第i个词向量。
实际预训练时,基于某个词的两侧学习文本之间的上下文关系,对于这个词本身的关注度更高,而上下文其他词的关注度较低,这种不公平的注意力分配使Ti,i∈[1,N]无法直接用来表示文本分类。所以Bert预训练前首先需要在文本前添加“[CLS]”标识符,并将该标识符对应的输出向量作为整个文本的语义表示,用于文本分类。因为与文本已有的其他字相比,这个无明显语义信息的符号会更“公平”关注每个字,更好地融合文本中各个字的语义信息。图3是本发明实施例中Bert模型用于多分类的示意图。如图3所示,Toki,i∈[1,N]代表文本中的第i个词,例如“14/60期广州丽之兹摄影有限公司”;添加CLS标识符为“[CLS]14/60期广州丽之兹摄影有限公司”;对每个字进行嵌入,生成CLS标识符的嵌入E[CLS]和第i个词向量Ei,i∈[1,N];词向量通过多层转换器的编码器后得到融合文本中各个字的语义信息“C”;“C”与分类器连接进行模型训练,即可获取文本对应的分类概率。
表4
表5
模型训练前,文本已有对应的总标签,一条文本对应98个数字标签。模型训练过程中,98个数字标签需进一步转换为数字位形式。表4是标注数字位表,如表4所示,0_0,0_1,1_0,1_1,…,97_0,97_1共196位,数字标签中每个值与标签位相等的标注数字位赋值为1,其余位置赋值为0。所以将文本和数字标签送入模型训练,而最终分类器输出的是对应196个分类的概率。
表5是预测数字位表,如表5所示,0_0,0_1均表示五金标签,0_0(不是五金)的概率为0.99999535,0_1(是五金)的概率为0.00000445。两者加和近似1,0_0的概率大于0_1的概率,即该文本不包含五金标签。同理,1_1标签的概率大于1_0,即该文本包含“交通”标签。同一标签位的两位(如0_0和0_1)进行概率比较,概率较大的预测数字位赋值为1,概率较小的预测数字位赋值为0,即生成表4所示的预测数字位。训练迭代过程中,不断缩小表4的标注数字位与表5的预测数字位之间的平均误差。模型一旦收敛,即完成Bert多分类模型的训练,得到标签分类模型。
本发明实施例的具体流程如下:
1、获取文本和文本对应的总标签,将每种第一标签对应的文本划分至三个预集合。
2、从预集合中选取其中一个总标签和总标签对应的文本,并将总标签和文本放入预集合对应的集合中。
3、设定每次选取总标签的数量为M,M=2,执行如下循环处理:从预集合中选取M个不同种的第一标签对应的总标签进行合并,并对M个第一标签对应的文本进行拼接;判断M是否小于预设选取数量;当M小于预设选取数量时,将循环处理中的M替换为M+1,否则循环结束。
4、将合并后的总标签和拼接后的文本放入集合中;当集合中总标签的数量达到对应的集合预设数量时,执行步骤5,否则返回步骤2。
其中,训练集的集合预设数量为66万,验证集和测试集的集合预设数量均为22万。
表6
表6为本发明一实施例中放入集合的文本表。如表6所示,预设选取数量为11,即M的最大值为11。M=1对应的文本为步骤2中总标签对应的文本;M=2-11对应的文本为步骤3中为进行拼接后的文本。
5、根据集合训练预设的机器学习模型,得到标签分类模型。
具体实施时,先根据训练集和验证集训练预设的Bert模型,再根据测试集判断训练好的Bert模型准确率是否达标。
表7
/>
/>
测试集的准确率最终可以达到99.28%,表7是本发明一实施例中的部分测试结果表。
本发明的标签分类模型通过合并后的标签训练得到,可以减少接口调用。如:输入“开封宋门大街真仕美妆,02/12期伊宁市金百合婚纱摄影名店”的合并数据后,可以同时返回“护肤美妆,摄影文印,购物,分期支付,其他支付”的多分类标签。相比于先输入“开封宋门大街真仕美妆”返回“护肤美妆,购物,其他支付”标签,再输入“02/12期伊宁市金百合婚纱摄影名店”返回“摄影文印,购物,其他支付”标签的模型,可以将两次接口调用减少到一次调用。同理,若同一用户对应的消费数据拼接越多,则接口对应调用量越少。
6、获取预设时间内文本的字符串,根据字符串的长度对字符串进行分割。
7、将分割后的字符串输入标签分类模型中,得到每个字符串的多分类标签。
8、拼接同一用户编号下的多分类标签。
综上,本发明实施例的数据多标签分类方法先根据字符串的长度对字符串进行分割,再将分割后的字符串输入标签分类模型中,得到每个字符串的多分类标签,最后拼接同一用户编号下的多分类标签,可以通过标签分类的方式准确获取用户的偏好,提高获取效率,进而及时向客户推送相关活动。
基于同一发明构思,本发明实施例还提供了一种数据多标签分类系统,由于该系统解决问题的原理与数据多标签分类方法相似,因此该系统的实施可以参见方法的实施,重复之处不再赘述。
图4是本发明实施例中数据多标签分类系统的结构框图。如图4所示,数据多标签分类系统包括:
模型获取单元,用于获取标签分类模型;
字符串获取单元,用于获取预设时间内文本的字符串;
分割单元,用于根据字符串的长度对字符串进行分割;
多分类标签单元,用于将分割后的字符串输入标签分类模型中,得到每个字符串的多分类标签;
拼接单元,用于拼接同一用户编号下的多分类标签。
在其中一种实施例中,还包括:
文本标签获取单元,用于获取文本和文本对应的总标签;其中,总标签包括第一标签;
预集合单元,用于将每种第一标签对应的文本划分至三个预集合;
循环单元,用于对每个预集合进行如下循环处理:
从预集合中选取其中一个总标签和总标签对应的文本,并将总标签和文本放入预集合对应的集合中;从预集合中多次选取不同种的第一标签对应的总标签进行合并,并对第一标签对应的文本进行拼接;将合并后的总标签和拼接后的文本放入集合中;当集合中总标签的数量达到对应的集合预设数量时,循环结束;
模型训练单元,用于根据集合训练预设的机器学习模型,得到标签分类模型。
在其中一种实施例中,循环单元具体用于:
设定每次选取总标签的数量为M,M=2,执行如下循环处理:
从预集合中选取M个不同种的第一标签对应的总标签进行合并,并对M个第一标签对应的文本进行拼接;
判断M是否小于预设选取数量;当M小于预设选取数量时,将循环处理中的M替换为M+1,否则循环结束。
在其中一种实施例中,预集合包括预训练集、预验证集和预测试集;
预训练集对应的集合为训练集;
预验证集对应的集合为验证集;
预测试集对应的集合为测试集。
综上,本发明实施例的数据多标签分类系统先根据字符串的长度对字符串进行分割,再将分割后的字符串输入标签分类模型中,得到每个字符串的多分类标签,最后拼接同一用户编号下的多分类标签,可以通过标签分类的方式准确获取用户的偏好,提高获取效率,进而及时向客户推送相关活动。
本发明实施例还提供能够实现上述实施例中的数据多标签分类方法中全部步骤的一种计算机设备的具体实施方式。图5是本发明实施例中计算机设备的结构框图,参见图5,所述计算机设备具体包括如下内容:
处理器(processor)501和存储器(memory)502。
所述处理器501用于调用所述存储器502中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的数据多标签分类方法中的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
获取标签分类模型;
获取预设时间内文本的字符串;
根据字符串的长度对字符串进行分割;
将分割后的字符串输入标签分类模型中,得到每个字符串的多分类标签;
拼接同一用户编号下的多分类标签。
综上,本发明实施例的计算机设备先根据字符串的长度对字符串进行分割,再将分割后的字符串输入标签分类模型中,得到每个字符串的多分类标签,最后拼接同一用户编号下的多分类标签,可以通过标签分类的方式准确获取用户的偏好,提高获取效率,进而及时向客户推送相关活动。
本发明实施例还提供能够实现上述实施例中的数据多标签分类方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的数据多标签分类方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
获取标签分类模型;
获取预设时间内文本的字符串;
根据字符串的长度对字符串进行分割;
将分割后的字符串输入标签分类模型中,得到每个字符串的多分类标签;
拼接同一用户编号下的多分类标签。
综上,本发明实施例的计算机可读存储介质先根据字符串的长度对字符串进行分割,再将分割后的字符串输入标签分类模型中,得到每个字符串的多分类标签,最后拼接同一用户编号下的多分类标签,可以通过标签分类的方式准确获取用户的偏好,提高获取效率,进而及时向客户推送相关活动。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元,或装置都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
Claims (8)
1.一种数据多标签分类方法,其特征在于,包括:
获取标签分类模型;
获取预设时间内文本的字符串;
根据所述字符串的长度对所述字符串进行分割;
将分割后的字符串输入所述标签分类模型中,得到每个字符串的多分类标签;
拼接同一用户编号下的多分类标签;
所述数据多标签分类方法还包括:
预先通过以下方式获取标签分类模型:
获取文本和所述文本对应的总标签;其中,所述总标签包括第一标签;
将每种第一标签对应的文本划分至三个预集合;
对每个预集合进行如下循环处理:
从所述预集合中选取其中一个总标签和所述总标签对应的文本,并将所述总标签和所述文本放入所述预集合对应的集合中;从所述预集合中多次选取不同种的第一标签对应的总标签进行合并,并对所述第一标签对应的文本进行拼接;将合并后的总标签和拼接后的文本放入所述集合中;当所述集合中总标签的数量达到对应的集合预设数量时,循环结束;
根据所述集合训练预设的机器学习模型,得到标签分类模型。
2.根据权利要求1所述的数据多标签分类方法,其特征在于,从所述预集合中多次选取不同种的第一标签对应的总标签进行合并,并对所述第一标签对应的文本进行拼接包括:
设定每次选取总标签的数量为M,M=2,执行如下循环处理:
从所述预集合中选取M个不同种的第一标签对应的总标签进行合并,并对M个第一标签对应的文本进行拼接;
判断M是否小于预设选取数量;当M小于预设选取数量时,将循环处理中的M替换为M+1,否则循环结束。
3.根据权利要求1所述的数据多标签分类方法,其特征在于,
所述预集合包括预训练集、预验证集和预测试集;
所述预训练集对应的集合为训练集;
所述预验证集对应的集合为验证集;
所述预测试集对应的集合为测试集。
4.一种数据多标签分类系统,其特征在于,包括:
模型获取单元,用于获取标签分类模型;
字符串获取单元,用于获取预设时间内文本的字符串;
分割单元,用于根据所述字符串的长度对所述字符串进行分割;
多分类标签单元,用于将分割后的字符串输入所述标签分类模型中,得到每个字符串的多分类标签;
拼接单元,用于拼接同一用户编号下的多分类标签;
所述数据多标签分类系统还包括:
文本标签获取单元,用于获取文本和所述文本对应的总标签;其中,所述总标签包括第一标签;
预集合单元,用于将每种第一标签对应的文本划分至三个预集合;
循环单元,用于对每个预集合进行如下循环处理:
从所述预集合中选取一个总标签和所述总标签对应的文本,并将所述总标签和所述文本放入所述预集合对应的集合中;从所述预集合中多次选取不同种的第一标签对应的总标签进行合并,并对所述第一标签对应的文本进行拼接;将合并后的总标签和拼接后的文本放入所述集合中;当所述集合中总标签的数量达到对应的集合预设数量时,循环结束;
模型训练单元,用于根据所述集合训练预设的机器学习模型,得到标签分类模型。
5.根据权利要求4所述的数据多标签分类系统,其特征在于,所述循环单元具体用于:
设定每次选取总标签的数量为M,M=2,执行如下循环处理:
从所述预集合中选取M个不同种的第一标签对应的总标签进行合并,并对M个第一标签对应的文本进行拼接;
判断M是否小于预设选取数量;当M小于预设选取数量时,将循环处理中的M替换为M+1,否则循环结束。
6.根据权利要求4所述的数据多标签分类系统,其特征在于,
所述预集合包括预训练集、预验证集和预测试集;
所述预训练集对应的集合为训练集;
所述预验证集对应的集合为验证集;
所述预测试集对应的集合为测试集。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3任一项所述的数据多标签分类方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3任一项所述的数据多标签分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010447721.2A CN111680156B (zh) | 2020-05-25 | 2020-05-25 | 数据多标签分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010447721.2A CN111680156B (zh) | 2020-05-25 | 2020-05-25 | 数据多标签分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111680156A CN111680156A (zh) | 2020-09-18 |
CN111680156B true CN111680156B (zh) | 2024-02-09 |
Family
ID=72434248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010447721.2A Active CN111680156B (zh) | 2020-05-25 | 2020-05-25 | 数据多标签分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111680156B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347738B (zh) * | 2020-11-04 | 2023-09-15 | 平安直通咨询有限公司上海分公司 | 基于裁判文书的双向编码器表征量模型优化方法和装置 |
CN112732871B (zh) * | 2021-01-12 | 2023-04-28 | 上海畅圣计算机科技有限公司 | 一种机器人催收获取客户意向标签的多标签分类方法 |
US11790885B2 (en) | 2021-05-06 | 2023-10-17 | International Business Machines Corporation | Semi-structured content aware bi-directional transformer |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009228A (zh) * | 2017-11-27 | 2018-05-08 | 咪咕互动娱乐有限公司 | 一种内容标签的设置方法、装置及存储介质 |
CN109299273A (zh) * | 2018-11-02 | 2019-02-01 | 广州语义科技有限公司 | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 |
CN110442707A (zh) * | 2019-06-21 | 2019-11-12 | 电子科技大学 | 一种基于seq2seq的多标签文本分类方法 |
CN110765265A (zh) * | 2019-09-06 | 2020-02-07 | 平安科技(深圳)有限公司 | 信息分类抽取方法、装置、计算机设备和存储介质 |
-
2020
- 2020-05-25 CN CN202010447721.2A patent/CN111680156B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009228A (zh) * | 2017-11-27 | 2018-05-08 | 咪咕互动娱乐有限公司 | 一种内容标签的设置方法、装置及存储介质 |
CN109299273A (zh) * | 2018-11-02 | 2019-02-01 | 广州语义科技有限公司 | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 |
CN110442707A (zh) * | 2019-06-21 | 2019-11-12 | 电子科技大学 | 一种基于seq2seq的多标签文本分类方法 |
CN110765265A (zh) * | 2019-09-06 | 2020-02-07 | 平安科技(深圳)有限公司 | 信息分类抽取方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111680156A (zh) | 2020-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111680156B (zh) | 数据多标签分类方法及系统 | |
WO2021203581A1 (zh) | 基于精标注文本的关键信息抽取方法、装置及存储介质 | |
CN108959246A (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN109727041A (zh) | 智能客服多轮问答方法、设备、存储介质及装置 | |
CN110852106B (zh) | 基于人工智能的命名实体处理方法、装置及电子设备 | |
CN110196982B (zh) | 上下位关系抽取方法、装置及计算机设备 | |
CN111695345B (zh) | 文本中实体识别方法、以及装置 | |
US11860684B2 (en) | Few-shot named-entity recognition | |
CN111428504B (zh) | 一种事件抽取方法和装置 | |
CN112988963B (zh) | 基于多流程节点的用户意图预测方法、装置、设备及介质 | |
CN112434535A (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
CN110413743A (zh) | 一种关键信息抽取方法、装置、设备及存储介质 | |
CN114661881A (zh) | 一种基于问答模式的事件抽取方法、装置和设备 | |
CN116737922A (zh) | 一种游客在线评论细粒度情感分析方法和系统 | |
CN114117041B (zh) | 一种基于特定属性词上下文建模的属性级情感分析方法 | |
CN113011126B (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN110532562A (zh) | 神经网络训练方法、成语误用检测方法、装置和电子设备 | |
CN112487813B (zh) | 命名实体识别方法及系统、电子设备及存储介质 | |
CN116127013A (zh) | 一种个人敏感信息知识图谱查询方法和装置 | |
CN109753563B (zh) | 基于大数据的标签提取方法、装置及计算机可读存储介质 | |
CN113420119B (zh) | 基于知识卡片的智能问答方法、装置、设备及存储介质 | |
KR20230131787A (ko) | 세그먼트된 동영상의 벡터화를 이용하는 동영상 검색 방법 및 장치 | |
CN116976341A (zh) | 实体识别方法、装置、电子设备、存储介质及程序产品 | |
CN113095083A (zh) | 实体抽取方法及装置 | |
CN113704466A (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |