CN111382269B - 文本分类模型训练方法、文本分类方法及相关装置 - Google Patents

文本分类模型训练方法、文本分类方法及相关装置 Download PDF

Info

Publication number
CN111382269B
CN111382269B CN202010137753.2A CN202010137753A CN111382269B CN 111382269 B CN111382269 B CN 111382269B CN 202010137753 A CN202010137753 A CN 202010137753A CN 111382269 B CN111382269 B CN 111382269B
Authority
CN
China
Prior art keywords
text
training
classification
data set
target word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010137753.2A
Other languages
English (en)
Other versions
CN111382269A (zh
Inventor
赵呈路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lazas Network Technology Shanghai Co Ltd
Original Assignee
Lazas Network Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lazas Network Technology Shanghai Co Ltd filed Critical Lazas Network Technology Shanghai Co Ltd
Priority to CN202010137753.2A priority Critical patent/CN111382269B/zh
Publication of CN111382269A publication Critical patent/CN111382269A/zh
Application granted granted Critical
Publication of CN111382269B publication Critical patent/CN111382269B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种文本分类模型训练方法、文本分类方法及相关装置,文本分类模型训练方法包括:获取用于分类训练的文本类别数据集;利用文本分类模型获取所述训练分类文本的各个目标词向量,并获取词向量数量;基于所述词向量数量、各个所述目标词向量的位置和预定层级数量,获取位置层级和层级向量;根据各个所述目标词向量和层级向量,获取训练位置文本矩阵,并获取所述训练分类文本的预估文本类别;获取所述文本类别数据集的预估分类类别的准确率,根据所述准确率调整所述文本分类模型的参数,直至所述准确率达到准确率阈值,得到训练后的文本分类模型。本发明实施例可以为提高文本分类时的准确性提供基础,进而提高对文本分类的准确性。

Description

文本分类模型训练方法、文本分类方法及相关装置
技术领域
本发明实施例涉及数据处理技术领域,具体涉及一种文本分类模型训练方法、文本分类方法及相关装置。
背景技术
为了更有针对性地为用户推荐信息,提高用户获取所需信息的效率和质量,需要对用户进行分类,即构建用户标签,为不同类别的用户提供不同种类的信息。
在构建用户标签时,可以基于多种信息从多个方面进行,而随着在线互联网平台的普及,使得利用地址文本进行用户的分类成为可能。
然而,现阶段的文本分类方法,对地址等类似文本的分类的准确性较低,因此,如何为提高文本分类时的准确性提供基础,进而提高对文本分类的准确性,成为亟需解决的技术问题。
发明内容
有鉴于此,本发明实施例提供一种文本分类模型训练方法、文本分类方法及相关装置,以为提高文本分类时的准确性提供基础,进而提高对文本分类的准确性。
为实现上述目的,本发明实施例提供如下技术方案:
第1方面,本发明实施例提供一种文本分类模型训练方法,包括:
获取用于分类训练的文本类别数据集,所述文本类别数据集的各个文本类别数据均包括训练分类文本和与所述训练分类文本对应的实际文本类别;
利用文本分类模型获取所述训练分类文本的各个目标词向量,并获取所述训练分类文本的目标词向量的词向量数量;
基于所述词向量数量、各个所述目标词向量在所述训练分类文本中的位置和预定的位置层级的层级数量,获取各个所述目标词向量的位置层级和层级向量,所述层级数量的最小值为2,最大值小于所述目标词向量的数量;
根据各个所述目标词向量和分别与其对应的所述层级向量,获取所述训练分类文本的训练位置文本矩阵,并基于所述训练位置文本矩阵获取所述训练分类文本的预估文本类别;
得到所述文本类别数据集的各个训练分类文本的预估文本类别时,获取所述文本类别数据集的预估分类类别的准确率,根据所述准确率调整所述文本分类模型的参数,直至所述准确率达到准确率阈值,得到训练后的文本分类模型,其中,所述准确率为所述预估文本类别与所述实际文本类别相同的所述训练分类文本在所述文本类别数据集中的占比。
结合第1方面,本发明实施例在第1方面的第1种实现方式中,所述基于所述词向量数量、各个所述目标词向量在所述训练分类文本中的位置和预定的位置层级的层级数量,获取各个所述目标词向量的位置层级和层级向量的步骤包括:
基于词向量数量和所述训练分类文本,确定各个所述目标词向量在所述训练分类文本中的位置;
基于所述层级数量、所述词向量数量和各个所述目标词向量在所述训练分类文本中的位置,确定各个所述目标词向量的位置层级;
根据所述位置层级,获取各个所述目标词向量的层级向量。
结合第1方面的第1种实现方式,本发明实施例在第1方面的第2种实现方式中,所述基于所述层级数量、所述词向量数量和各个所述目标词向量在所述训练分类文本中的位置,确定各个所述目标词向量的位置层级的步骤包括:
利用所述层级数量和所述词向量数量确定层级步长;
根据各个所述目标词向量的位置和所述层级步长,确定各个所述目标词向量的位置层级。
结合第一方面或第一方面的第1或2种实现方式中的任一种实现方式,本发明实施例在第1方面的第3种实现方式中,所述获取用于分类训练的文本类别数据集的步骤包括:
获取用于分类训练的文本类别原始数据集,所述文本类别原始数据集的各个文本类别数据均包括训练分类原始文本和与所述训练分类原始文本对应的实际文本类别;
根据所述实际文本类别,确定与各个实际文本类别对应的实际类别原始数据集,以及各个实际类别原始数据集的文本量;
根据所述文本量获取待调整数据集,对所述待调整数据集进行数据增强,得到增强数据集,其中,所述待调整数据集为所述文本量不满足数据量阈值要求的实际类别原始数据集;
合并所述增强数据集与确定数据集,得到所述文本类别数据集,其中,所述确定数据集为所述文本量满足数据量阈值要求的实际类别原始数据集。
结合第一方面或第一方面的第1或2种实现方式中的任一种实现方式,本发明实施例在第1方面的第4种实现方式中,还包括:
获取文本分类的噪声词;
所述基于所述训练位置文本矩阵获取所述训练分类文本的预估文本类别的步骤包括:
根据所述噪声词调整所述位置文本矩阵,得到调整后的位置文本矩阵;
根据所述调整后的位置文本矩阵获取所述训练分类文本的预估文本类别。
第2方面,本发明实施例提供一种文本分类方法,包括:
获取待分类的分类文本;
利用文本分类模型,获取所述分类文本的分类类别,所述文本分类模型前述任一种实现方式所述的文本分类模型训练方法训练后的模型。
第3方面,本发明实施例提供一种文本分类模型训练装置,包括:
文本类别数据集获取单元,适于获取用于分类训练的文本类别数据集,所述文本类别数据集的各个文本类别数据均包括训练分类文本和与所述训练分类文本对应的实际文本类别;
目标词向量及词向量数量获取单元,适于利用文本分类模型获取所述训练分类文本的各个目标词向量,并获取所述训练分类文本的目标词向量的词向量数量;
层级向量获取单元,适于基于所述词向量数量、各个所述目标词向量在所述训练分类文本中的位置和预定的位置层级的层级数量,获取各个所述目标词向量的位置层级和层级向量,所述层级数量的最小值为2,最大值小于所述目标词向量的数量;
预估文本类别获取单元,适于根据各个所述目标词向量和分别与其对应的所述层级向量,获取所述训练分类文本的训练位置文本矩阵,并基于所述训练位置文本矩阵获取所述训练分类文本的预估文本类别;
训练后的文本分类模型获取单元,适于得到所述文本类别数据集的各个训练分类文本的预估文本类别时,获取所述文本类别数据集的预估分类类别的准确率,根据所述准确率调整所述文本分类模型的参数,直至所述准确率达到准确率阈值,得到训练后的文本分类模型,其中,所述准确率为所述预估文本类别与所述实际文本类别相同的所述训练分类文本在所述文本类别数据集中的占比。
第4方面,本发明实施例提供一种文本分类装置,包括:
分类文本获取单元,适于获取待分类的分类文本;
文本类别获取单元,适于利用文本分类模型,获取所述分类文本的文本类别,所述文本分类模型为前述任一种实现方式所述的文本分类模型训练方法训练后的模型。
第5方面,本发明实施例还提供一种服务器,包括至少一个存储器和至少一个处理器,所述存储器存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如上述所述的文本分类模型训练方法或文本分类方法。
第6方面,本发明实施例还提供一种存储介质,所述存储介质存储一条或多条计算机指令,所述一条或多条计算机指令用于实现如上述所述的文本分类模型训练方法或文本分类方法。
本发明实施例提供的文本分类模型训练方法,在获取训练分类文本的预估文本类别时,首先获取训练分类文本的目标词向量,以及训练分类文本的目标词向量的层级向量,并基于对应于同一个训练分类文本目标词向量和层级向量构建训练分类文本的训练位置文本矩阵,获取预估文本类别;由于层级向量是根据词向量数量、目标词向量在训练分类分本中的位置以及预定的层级数量确定的,因此,层级向量可以标识目标词向量在训练分类文本中与其他目标词向量的相对位置,并且可以标识位于同一个位置层级内各个目标词向量,实现将各个目标词向量的不同位置层级的划分,即可以实现对训练分类文本的不同位置区域的文本划分,由于处于分类文本不同位置的文本对文本分类结果准确性的影响程度不同,对训练分类文本的各个目标词向量的不同位置层级的划分,可以为区分不同位置层级内的目标词向量的影响程度提供基础,根据训练过程中所得到的准确率,不断调整文本分类模型的参数,以为提高文本分类时的准确性提供基础,并提高训练速度,使得文本分类模型能够获取影响程度较高的位置层级,并在进行文本分类时提高对应位置层级内的目标词向量的影响比例,进而提高对文本分类的准确性,而在对地址文本进行分类时,也可基于地址分类文本的不同位置对标识具体地址和文本类别的准确性的不同,充分利用地址文本中对于分类准确性影响较大的位置层级的信息,实现对地址文本分类准确性的提高和速度的提高。
本发明实施例提供的文本分类模型训练方法,通过结合训练分类文本的目标词向量的不同位置层级的各个层级向量,实现对目标词向量的位置层级的划分,并在训练过程中,通过对文本分类模型的参数的调整,使其获取影响程度较高的位置层级,以为提高文本分类时的准确性提供基础,从而可以在进行文本分类时提高对应位置层级内的目标词向量的影响比例,提高文本分类的准确性和速度,而在对地址文本进行分类时,可以充分利用地址文本中对于分类准确性影响较大的位置层级的信息,实现对地址文本分类准确性的提高,以及速度的提高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的文本分类模型训练方法的流程图;
图2为本发明实施例提供的文本分类模型训练方法的获取类别数据集的流程图;
图3为本发明实施例提供的文本分类模型训练方法的另一种获取类别数据集的流程图;
图4为本发明实施例提供的文本分类模型训练方法的获取目标词向量的流程图;
图5为本发明实施例提供的文本分类模型训练方法的获取层级向量的流程图;
图6为本发明实施例提供的文本分类方法的流程图;
图7为本发明实施例提供的文本分类模型训练装置的框图;
图8为本发明实施例提供的文本分类装置的框图;
图9为设备的硬件结构图。
具体实施方式
本发明实施例提供的文本分类模型训练方法,可基于地址分类文本的不同位置对标识具体地址和文本类别的准确性的不同,充分利用地址文本中对于分类准确性影响较大的位置层级的信息,实现为提高地址文本分类准确性提供基础。
基于此思路,为更为充分地利用文本中对于分类准确性影响较大的位置层级的信息,提高文本分类的准确性,本发明实施例提供改进的文本分类模型训练方法。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
作为一种可选实现,图1示出了本发明实施例提供的文本分类模型训练方法的流程图,参照图1,该流程可以包括:
步骤S10、获取用于分类训练的文本类别数据集,所述文本类别数据集的各个文本类别数据均包括训练分类文本和与所述训练分类文本对应的实际文本类别。
可以理解的是,为了实现对文本分类模型的训练,需要提供大量的训练分类文本,并且训练分类文本具有相应的实际文本类别,上述具有实际文本类别的训练分类文本构成本文所述的文本类别数据集,实际文本类别即为训练分类文本真实的文本类别,作为判定基于文本分类模型获取到的文本类别准确性的基础。
当然,训练分类文本的文本类型应与后续需要利用训练后的文本分类模型进行分类的分类文本的文本类型相同,比如:训练分类文本为地址文本,利用训练后的文本分类模型进行分类的分类文本也为地址文本;训练分类文本为产品文本,利用训练后的文本分类模型进行分类的分类文本也为产品文本。
为了获取文本类别数据集,在一种具体实施方式中,请参考图2,图2为本发明实施例提供的文本分类模型训练方法的获取类别数据集的流程图。
步骤S100、获取用于分类训练的文本类别原始数据集,所述文本类别原始数据集的各个文本类别数据均包括训练分类原始文本和与所述训练分类原始文本对应的实际文本类别。
为了得到满足文本分类模型训练的文本类别数据集,首先获取用于分类训练的文本类别原始数据集,当然,文本类别原始数据集也应包括训练分类原始文本和与其对应的实际文本类别。
可以理解的是,为了保证文本分类模型训练的准确性,需要较大量的训练分类文本,这就对具有实际文本类别的训练分类原始文本的数量也提出了一定的要求,而并非可获取的训练分类原始文本都具有实际文本类别,因此,需要有恰当的方式获取满足要求的训练分类原始文本。
在一种具体实施方式,可以首先获取各个所述训练分类原始文本。
具体地,当训练分类原始文本为地址文本时,具体可以通过收集外卖地址信息的方式获取;当训练分类原始文本为产品信息时,具体可以通过收集产品登记描述信息的方式获取。
得到训练分类原始文本后,可以再利用地图信息面属性获取各个所述训练分类原始文本的实际文本类别,得到所述文本类别原始数据集。
当训练分类原始文本为地址信息时,由于地图中包含有类别信息,并且比较细致,因此可以利用地图所提供的接口,根据训练分类原始文本依据地图信息面(aoi,area ofinterest)属性来获取各个训练分类原始文本的实际文本类别,从而可以降低实际文本类别获取的难度,提高实际文本类别获取的方便性。
然而,直接根据地图信息面属性直接获取到的实际文本类别,与文本分类所想要的实际文本类别可能会有所不同,比如:基于地图信息面属性所获得的文本类别为理发、洗浴,而文本分类的目标是将上述地址信息分类为服务人员,为此,需要对直接基于地图获取的实际文本类别进行进一步处理,在一种具体实施方式中,可以通过以下步骤获取实际文本类别,包括:
利用地图信息面属性获取各个所述训练分类原始文本的地图实际文本类别;
根据预定分类类别调整或修改所述地图实际文本类别,得到所述实际文本类别。
即首先利用地图信息面属性获取地图实际文本类别,然后,根据预定分类类别对其进行调整,得到满足要求的与训练分类原始文本对应的实际文本类别。
可以理解的是,预定分类类别即分类所要得到的分类类别标准;而具体的对地图实际文本类别的调整或修改方式可以包括:对分类不恰当的进行调整,比如:对理发师,调整为服务人员;对分类错误的进行修改,比如:将地址为医院,但分类类别为管理者的,调整为医护人员。
当然,预定分类类别可以根据需要进行设定,只有不满足预定分类类别的才需要进行调整,以保证训练过程和训练后得到的文本分类模型能够满足分类要求;当然,基于预定分类类别的不同,同一个地图实际文本类别最终得到实际文本类别也会有不同,比如:当需要基于地址进行人员职业类型分类时,地址的预定分类类别为人员职业;而当需要基于地址进行经营业务类型分类时,地址的预定分类类别为经营业务。
经过前述的方式,即可以获取到满足要求的文本类别原始数据集,由于文本类别数据集的数据情况会直接影响对文本分类模型的训练效果,为保证训练的充分性,还需对文本类别原始数据集进行进一步的处理。
步骤S101、根据所述实际文本类别,确定与各个实际文本类别对应的实际类别原始数据集,以及各个实际类别原始数据集的文本量。
根据实际文本类别进行训练分类原始文本的分类,获取与各个实际文本类别对应的实际类别原始数据集,即将文本类别数据集利用实际文本分类划分为多个实际类别原始数据集,并且进一步获取各个实际类别原始数据集的文本量。
可以理解的是,受具体训练分类原始文本的影响,实际类别原始数据集的数量可以等于预定分类类别的数量,也可以小于预定分类类别的数量,但为了保证训练的精度,优选实际类别原始数据集的数量可以等于预定分类类别的数量,以保证对文本分类模型训练的充分性和准确性,提高后续文本分类的准确性。
步骤S102、根据所述文本量获取待调整数据集,对所述待调整数据集进行数据增强,得到增强数据集,其中,所述待调整数据集为所述文本量不满足数据量阈值要求的实际类别原始数据集。
得到各个实际类别原始数据集的文本量,根据文本量是否满足数据量阈值,确定实际类别原始数据集是否为待调整数据集,即文本量不满足数据量阈值要求的实际类别原始数据集。
可以理解的是,文本量不满足数据量阈值要求包括文本量小于数据量阈值要求和文本量大于数据量阈值要求。
具体地,数据量阈值要求可以为数据范围值,也可以为实际类别原始数据集的文本量占整个文本类别原始数据集的比例范围,还可以通过其他方式呈现。
得到待调整数据集后,再对待调整数据集进行数据增强,得到增强数据集,容易理解的是,在对待调整数据集进行数据增强时,由于待调整数据集包括文本量小于数据量阈值要求的,还包括文本量大于数据量阈值要求的,因此,对待调整数据集进行数据增强时,既包括对文本量小于数据量阈值要求的待调整数据集的文本量的增加,也包括对文本量大于数据量阈值要求的文本量的减小,以保证不同实际文本类别均衡,以保证各个文本类别训练的充分性,避免某个类别的训练分类文本的不足造成文本分类模型训练的不足。
在一种具体实施方式中,可以通过对文本量大于所述数据量阈值的所述待调整数据集进行下采样,得到第一增强数据集;通过下采样,可以减小训练分类原始文本的文本量,进而使其满足数据量阈值的要求,得到第一增强数据集,并且可以保证训练分类原始文本减少的随机性,避免由于训练分类原始文本的减少造成的训练不充分。
而对文本量小于所述数据量阈值的所述待调整数据集,可以进行数据增加,使其文本量达到满足数据量阈值的要求,得到第二增强数据集。
在具体操作时,为了简化操作过程,可以首先对所述文本量小于所述数据量阈值的所述待调整数据集的训练分类原始文本进行调整,得到调整数据集,具体可以选择一定数量的待调整数据集的训练分类原始文本进行调整,得到调整数据集,然后将所述调整数据集添加至所述待调整数据集,得到所述第二增强数据集。
可选地,可以通过对所述文本量小于所述数据量阈值的所述待调整数据集的训练分类原始文本的数字进行随机替换,即对待调整数据集中包含数字的训练分类原始文本,进行数字的随机替换,得到新的训练分类原始文本。
还可以对所述文本量小于所述数据量阈值的所述待调整数据集中,预定比例的训练分类原始文本的文本词进行随机修改,即按照一定比例获取待调整数据集的训练分类原始文本,将获取的训练分类原始文本中的文本词进行替换,得到训练分类原始文本,具体预定比例,可以根据需要设定。
或者
也可以对所述文本量小于所述数据量阈值的所述待调整数据集中,预定比例的训练分类原始文本的文本字进行随机修改,即按照一定比例获取待调整数据集的训练分类原始文本,将获取的训练分类原始文本中的文本字进行替换,得到训练分类原始文本,当然具体预定比例,也可以根据需要设定。
容易理解的是,可以通过上述方式中的一种来获取调整数据集,也可以同时运用其中的两种或者三种方式来获取调整数据集,得到调整数据集后,将调整数据集与待调整数据集进行结合,即可得到第二增强数据集。
基于上述方式获取的第二增强数据集,基于已有的训练分类原始文本进行调整,可以保证得到的调整数据集中的数据也满足要求,而且更容易获取训练分类原始文本的实际文本分类。
得到第一增强数据集和第二增强数据集后,将所述第一增强数据集和所述第二增强数据集合并,即可得到所述增强数据集。
步骤S103、合并所述增强数据集与确定数据集,得到所述文本类别数据集,其中,所述确定数据集为所述文本量满足数据量阈值要求的实际类别原始数据集。
得到增强数据集后,再将增强数据集与原本文本量满足数据量阈值要求的实际类别原始数据集(即确定数据集)进行合并,得到文本类别数据集。
可以看出,经过上述方式处理得到的文本类别数据集,能够保证各个分类类别的数据量的均衡性,保证对文本分类模型训练的有效性。
然而,如果训练分类文本中有一些词,会给训练造成一定的噪声干扰,为此,本发明还提供另一种具体实施方式,请参考图3,图3为本发明实施例提供的文本分类模型训练方法的获取类别数据集的另一流程图。
如图中所示,本发明实施例提供的文本分类模型训练方法包括:
步骤S100‘、获取用于分类训练的文本类别原始数据集和文本分类的噪声词,所述文本类别原始数据集的各个文本类别数据均包括训练分类原始文本和与所述训练分类原始文本对应的实际文本类别;
获取文本类别原始数据集的方法请参考前述内容,在此不再赘述,当然,所述文本类别原始数据集的各个文本类别数据均包括训练分类原始文本和与所述训练分类原始文本对应的实际文本类别。除了获取文本类别原始数据集,还需要获取文本分类的噪声词,具体的噪声词包括:停用词、高频词、稀有词等等。
可以理解的是,如果在对文本分类模型训练时,获取了噪声词,在具体文本分类时,为保证分类的准确性,也需要获取相同的噪声词。
步骤S101‘、利用所述噪声词去除各个所述训练分类原始文本中的对应词,得到各个所述训练分类文本和所述文本类别数据集。
得到噪声词后,将各个训练分类原始文本中的与噪声词相同的对应词删除,得到各个所述训练分类文本,进而得到所述文本类别数据集,从而保证噪声词不会对训练过程造成干扰,保证训练的准确性。
可以理解的是,在一种具体实施方式中,既可以对文本类别原始数据集进行数据增强,也可以对文本类别原始数据集进行噪声词的去除处理,从而使处理后的文本类别数据集更好的满足训练要求。
步骤S11、利用文本分类模型获取所述训练分类文本的各个目标词向量,并获取所述训练分类文本的目标词向量的词向量数量。
得到文本类别数据集后,将文本类别数据集的各个训练分类文本输入文本分类模型,获取训练分类文本的各个目标词向量,进而获取训练分类文本的目标词向量的词向量数量。
当然,在进行文本类别数据集的输入时,为了提高训练效果,可以将各个训练分类文本打乱后输入。
可以理解的是,由于文本类别数据集包括多个训练分类文本,在进行文本分类模型的训练时,需要获取各个训练分类文本的目标词向量,并且一个训练分类文本会有多个目标词向量,而多个训练分类文本的目标词向量的获取则可以同时获取完再进行后续的步骤,也可以依次获取各个训练分类文本的目标词向量,及一个训练分类文本的词向量数量。
为了提高所获取的目标词向量的准确性,避免所获取的部分词的准确性较低,请参考图4,图4为本发明实施例提供的文本分类模型训练方法的获取目标词向量的流程图。
如图中所示,在一种具体实施方式中,为了获取训练分类文本的词向量,包括:
步骤S110、根据所述训练分类文本获取所述训练分类文本的各个初始词向量和各个目标字向量。
首先获取训练分类文本的初始词向量和目标字向量,具体地,可以利用word2vec获取初始词向量。
而目标字向量则可以利用以下步骤获取:
首先,根据所述训练分类文本获取所述训练分类文本的各个所述初始词向量和各个初始字向量,当然,初始字向量也可以利用word2vec获取。
然后,根据各个所述初始词向量确定分别其对应的所述初始字向量,得到各个对应初始字向量。
由于经过word2vec获取的初始字向量为训练分类文本的各个文字的初始字向量,为此先确定初始词向量对应的初始字向量,然后得到对应初始字向量。
最后,将对应于同一所述初始词向量的各个所述对应初始字向量的进行融合,得到对应于所述初始词向量的所述目标字向量,直至完成所述训练分类文本的全部所述初始词向量的目标字向量的获取,得到各个所述目标字向量。
将对应于同一个初始词向量的对应初始字向量的进行融合,获取目标字向量,并进一步获取整个训练分类文本的目标词向量,完成目标词向量的获取。当然为了保证融合的实现,初始词向量和初始字向量的维数相同。
为便于理解,现举例如下:
对应于“北京海淀上地小学”这一训练分类文本,所获取的各个所述初始词向量包括“北京、海淀、上地、小学”,所获取的各个初始字向量包括“北、京、海、淀、上、地、小、学”,并且不论是初始词向量和初始字向量均为50维,然后获取各个初始词向量对应的初始字向量:北京对应北和京;海淀对应海和淀;上地对应上和地;小学对应小和学;然后分别将北京的对应初始字向量北和京融合,得到目标字向量;海淀的对应初始字向量海和淀融合,得到目标字向量,上地的对应初始字向量上和地融合,得到目标字向量;小学的对应初始字向量小和学融合,得到目标字向量。
具体地,在一种具体实施方式中,可以采用向量对应位置相加的方式进行融合,从而得到的目标字向量也是50维的向量。
通过上述方式可以保证所得到的目标字向量与初始词向量之间的对应关系,并且目标字向量的获取也比较简单。
步骤S111、将各个所述初始词向量和分别与其对应的所述目标字向量进行融合,得到所述目标词向量。
得到各个目标字向量后,将各个初始词向量和分别与其对应的所述目标字向量再次进行融合,得到目标词向量。
结合前述例子:将北京的初始词向量与北和京融合得到的目标字向量融合,得到北京的目标词向量;将海淀的目标词向量与海和淀融合得到的目标字向量融合,得到海淀的目标词向量;将上地的初始词向量与上和地融合得到目标字向量融合,得到上地的目标词向量;将小学的初始词向量与小和学融合得到目标字向量融合,得到小学的目标词向量。
当然,可以采用左右拼接的方式实现初始词向量和分别与其对应的所述目标字向量的融合,得到的目标词向量即为100维。
通过上述方法得到的目标词向量,不仅包含了词向量的信息,还包含了与其对应的字向量的信息,从而保证目标词向量的准确性,避免仅包含初始词向量而受到的限制造成的准确性较低的影响。
步骤S12、基于所述词向量数量、各个所述目标词向量在所述训练分类文本中的位置和预定的位置层级的层级数量,获取各个所述目标词向量的位置层级和层级向量,所述层级数量的最小值为2,最大值小于所述目标词向量的数量。
得到目标词向量和词向量数量后,进一步获取各个所述目标词向量的位置层级和层级向量,以实现对训练分类文本的不同位置区域的文本划分,利用处于分类文本不同位置的文本对文本分类结果准确性的影响程度不同,通过对训练分类文本的各个目标词向量的不同位置层级的划分,实现为区分不同位置层级内的目标词向量的影响程度提供基础。
而层级数量可以根据需要设定,但为了区分各个部分,实现位置层级的画画,层级数量的最小值为2,即最少分为2个层级,而最大值小于所述目标词向量的数量,从而可以保证至少有2个词处于一个相同的位置层级。
在一种具体实施方式中,可以设计层级数量为4,从而即可以保证位置层级的划分实现将重要的文本划分至一个位置层级,而且运算量也较小。
可以理解的是,各个所述目标词向量在所述训练分类文本中的位置即为训练分类文本的各个词所对应的目标词向量的排位。为计算方便,可以将第一个位置的目标词向量的排位设为0,结合前述案例,可知:北京-0,海淀-1,上地-2,小学-3。
为了获取各个所述目标词向量的位置层级和层级向量,在一种具体实施方式中,请参考图5,图5为本发明实施例提供的文本分类模型训练方法的获取层级向量的流程图。
如图中所示:
步骤S120:基于词向量数量和所述训练分类文本,确定各个所述目标词向量在所述训练分类文本中的位置。
基于训练分类文本中各个词的位置,词向量的数量,就可以确定各个目标词向量的排位。
步骤S121:基于所述层级数量、所述词向量数量和各个所述目标词向量在所述训练分类文本中的位置,确定各个所述目标词向量的位置层级。
具体地,为了确定目标词向量的位置层级,可以包括以下步骤:
首先利用所述层级数量和所述词向量数量确定层级步长;
比如:层级数量设定为i,词向量数量设定为j,层级步长n即为j/i,可以理解的是,层级步长为整数,若不能整除,则取计算后的数值的整数,即,2.5取2。
然后,根据各个所述目标词向量的位置和所述层级步长,确定各个所述目标词向量的位置层级。
比如:结合前述案例,层级数量为2,词向量数量为4,层级步长n即为4/2,为2,北京的目标词向量的位置层级为0/2=0,即为第0层,海淀的目标词向量的位置层级为1/2=0,也为第0层,上地的目标词向量的位置层级为2/2=1,即为第1层,小学的目标词向量的位置层级为3/2=1,也为第1层,即北京和海淀的位置层级相同,为第0层,上地和小学的位置层级相同,为第1层。
从而,经过上述方法,可以很方便地实现目标词向量的位置层级的确定。当然,在其他实施方式中,也可以通过其他方式实现位置层级的确定。
然而,当经过计算,所得到的位置层级大于所述位置层级的最高级时,难以确定具体的位置层级,而对于分类文本而言,通常位于后面的信息更能体现具体文本的实际类别,因此,可以设置位置层级的最高级的目标词向量的数量相对较多,以提高分类的准确性,具体可以为:
当根据所述目标词向量的所述位置和所述层级步长,得到的初始位置层级低于所述层级数量时,确定所述目标词向量的位置层级为所述初始位置层级;
当根据所述目标词向量的所述位置和所述层级步长,得到的初始位置层级等于所述层级数量时,确定所述目标词向量的位置层级为所述位置层级的最高级。
比如:层级数量为2,词向量数量为5,层级步长n即为5/2=2.5,取整为2,第一个词的目标词向量的初始位置层级为0/2=0,即为第0层,第二个词的目标词向量的初始位置层级为1/2=0,也为第0层,第三个的目标词向量的初始位置层级为2/2=1,即为第1层,第四个词的目标词向量的初始位置层级为3/2=1,也为第1层,第五个词的目标词向量的初始位置层级为4/2=2,但由于初始位置层级等于层级数量,此时确定目标词向量的位置层级为所述位置层级的最高级即第一层。
步骤S122:根据所述位置层级,获取各个所述目标词向量的层级向量。
得到目标词向量的位置层级后,在获取各个目标词向量的层级向量。具体地可以利用以下公式,根据所述位置层级,获取各个所述目标词向量的位置向量:
PE(pos,2i)=sin(pos'/100002i/d);
PE(pos,2i+1)=cos(pos′/100002i/d);
其中:
PE—位置向量,与目标词向量的维数均相同;
pos—位置向量所对应的目标词向量在所述分类文本中的位置,对应到位置文本矩阵的行;
pos‘--目标词向量的位置层级;
d--位置向量的列数,等于目标词向量的列数;
i—位置向量的具体列,可选0,1,...,d;
PE(pos‘,2i)—位于第pos行的位置向量的偶数列的数值;
PE(pos‘,2i+1)—位于第pos行的位置向量的奇数列的数值。
经过前述步骤,从而获取了目标词向量的位置层级以及各个位置层级的层级向量,可见,对于处于同一位置层级内的各个目标词向量,所对应的层级向量是相同的,进而实现了对训练分类文本的位置划分。
步骤S13:根据各个所述目标词向量和分别与其对应的所述层级向量,获取所述训练分类文本的训练位置文本矩阵,并基于所述训练位置文本矩阵获取所述训练分类文本的预估文本类别。
得到目标词向量和分别与其对应的所述层级向量后,将目标词向量与与其对应的层级向量进行融合,根据前述的计算方法可知,目标词向量与与其对应的层级向量的维数相同,具体地,二者的融合方式可以为对应位置的数据相加,然后按照训练分类文本的各个词的顺序,将各个目标词向量和层级向量融合后的向量进行上下拼接,得到训练位置文本矩阵。
然后利用训练位置文本矩阵获取所述训练分类文本的预估文本类别。
步骤S14:判断是否得到所述文本类别数据集的各个训练分类文本的预估文本类别,若是,执行步骤S15,若否,执行步骤S18。
当得到一个训练分类文本的预估文本类别时,判断是否完成了文本类别数据集的各个训练分类文本的获取,如果是,那么执行步骤S15,获取文本类别数据集的预估分类类别的准确率;如果否,那么执行步骤S18,更换所述文本类别数据集中的训练分类文本。
步骤S15:获取文本类别数据集的预估分类类别的准确率。
比较同一训练分类文本的预估分类类别和实际文本类别,若二者相同,则计数加1,最终得到所述预估文本类别与所述实际文本类别相同的所述训练分类文本的数量,然后计算该数量在所述文本类别数据集中的占比,即可得到所述准确率。
步骤S16:判断是否所述准确率是否达到准确率阈值,若是,执行步骤S17,若否,执行步骤S19。
得到准确率后将其与准确率阈值进行比较,如果满足准确率阈值的要求,那么执行步骤S17,得到训练后的文本分类模型,若否,则执行步骤S19,即根据所述准确率调整所述文本分类模型的参数。
步骤S17:得到训练后的文本分类模型。
如果满足准确率阈值的要求,则认为训练后的文本分类模型已经达到了准确度的要求,可以用于具体分类文本的分类,从而得到训练后的文本分类模型,完成训练。
步骤S18:更换所述文本类别数据集中的训练分类文本。
在未完成文本类别数据集的各个训练分类文本的获取时,更换训练分类文本,再次执行步骤S11。
步骤S19:根据所述准确率调整所述文本分类模型的参数。
得到准确率后将其与准确率阈值进行比较,如果不满足准确率阈值的要求,根据所述准确率调整所述文本分类模型的参数,再次执行步骤S11,对参数调整后的文本分类模型进行训练。
在另一种具体实施方式中,为了去除噪声词的影响,本发明实施例所提供的文本分类模型训练方法,还可以包括:获取文本分类的噪声词;
那么在基于所述训练位置文本矩阵获取所述训练分类文本的预估文本类别时,首先根据所述噪声词调整所述位置文本矩阵,得到调整后的位置文本矩阵;
具体的,调整方式可以为将位置文本矩阵的对应位置设为0。
然后,根据所述调整后的位置文本矩阵获取所述训练分类文本的预估文本类别。
这样,通过调整位置文本矩阵的方式,不仅去除了噪声词的影响,而且,由于位置文本矩阵的维数没有发生变化,因此不会影响文本分类时所获取的词向量数量的具体值,也不会影响具体目标词向量的位置层级和其所对应的层级向量,保证所得到的调整后的位置文本矩阵的精度,已及得到的预估文本类别的精度。
本发明实施例提供的文本分类模型训练方法,在获取训练分类文本的预估文本类别时,首先获取训练分类文本的目标词向量,以及训练分类文本的目标词向量的层级向量,并基于对应于同一个训练分类文本目标词向量和层级向量构建训练分类文本的训练位置文本矩阵,获取预估文本类别;由于层级向量是根据词向量数量、目标词向量在训练分类分本中的位置以及预定的层级数量确定的,因此,层级向量可以标识目标词向量在训练分类文本中与其他目标词向量的相对位置,并且可以标识位于同一个位置层级内各个目标词向量,实现将各个目标词向量的不同位置层级的划分,即可以实现对训练分类文本的不同位置区域的文本划分,由于处于分类文本不同位置的文本对文本分类结果准确性的影响程度不同,对训练分类文本的各个目标词向量的不同位置层级的划分,可以为区分不同位置层级内的目标词向量的影响程度提供基础,根据训练过程中所得到的准确率,不断调整文本分类模型的参数,以为提高文本分类时的准确性提供基础,并提高训练速度,使得文本分类模型能够获取影响程度较高的位置层级,并在进行文本分类时提高对应位置层级内的目标词向量的影响比例,进而提高对文本分类的准确性,而在对地址文本进行分类时,也可基于地址分类文本的不同位置对标识具体地址和文本类别的准确性的不同,充分利用地址文本中对于分类准确性影响较大的位置层级的信息,实现对地址文本分类准确性的提高和速度的提高。
本发明实施例提供的文本分类模型训练方法,通过结合训练分类文本的目标词向量的不同位置层级的各个层级向量,实现对目标词向量的位置层级的划分,并在训练过程中,通过对文本分类模型的参数的调整,使其获取影响程度较高的位置层级,以为提高文本分类时的准确性提供基础,从而可以在进行文本分类时提高对应位置层级内的目标词向量的影响比例,提高文本分类的准确性和速度,而在对地址文本进行分类时,可以充分利用地址文本中对于分类准确性影响较大的位置层级的信息,实现对地址文本分类准确性的提高,以及速度的提高。
除了文本分类模型训练方法,为了实现对地址文本分类准确性的提高,本发明实施例还提供一种文本分类方法,请参考图6,图6为本发明实施例提供的文本分类方法的流程图。
如图中所示,本发明实施例所提供的文本分类方法,包括:
步骤S20:获取待分类的分类文本。
步骤S21:利用文本分类模型,获取所述分类文本的分类类别,所述文本分类模型为前述的文本分类模型训练方法训练后的模型。
具体地,可以包括获取所述分类文本的各个目标词向量,并获取所述分类文本的目标词向量的词向量数量;
基于所述词向量数量、各个所述目标词向量在所述分类文本中的位置和预定的位置层级的层级数量,获取各个所述目标词向量的位置层级和层级向量,所述层级数量的最小值为2,最大值小于所述目标词向量的数量;
根据各个所述目标词向量和分别与其对应的所述层级向量,获取所述分类文本的位置文本矩阵,并基于所述位置文本矩阵获取所述分类文本的文本类别。
前述内容的具体描述,请参考文本分类模型训练方法对应部分的描述,在此不再赘述。
本发明实施例提供的文本分类模型训练方法,通过结合训练分类文本的目标词向量的不同位置层级的各个层级向量,实现对目标词向量的位置层级的划分,并在训练过程中,通过对文本分类模型的参数的调整,使其获取影响程度较高的位置层级,以为提高文本分类时的准确性提供基础,从而可以在进行文本分类时提高对应位置层级内的目标词向量的影响比例,提高文本分类的准确性和速度,而在对地址文本进行分类时,可以充分利用地址文本中对于分类准确性影响较大的位置层级的信息,实现对地址文本分类准确性的提高,以及速度的提高。
在一种应用示例中,本发明实施例提供的文本分类模型训练方法,可以用于地址分类文本的文本分类模型训练。
针对用户的外卖地址信息,获取大量的地址训练分类文本,具体地,可以包括**商场、**医院、**中学……,然后,获取各个地址训练分类文本的实际文本类别,比如:**学校、**图书馆、**科研机构等的实际文本类别为教师;**超级市场、**综合市场、**花鸟鱼虫市场、**家居建材市场、**专卖店、**家电电子专卖等的实际文本类别为商场服务人员;**医院、**诊所、**医疗机构等的实际文本类别为医护人员。
当然可以利用数据增强的方式、去除噪声词的方式或者调整实际文本类别的方式对地址训练分类文本进行调整。
比如,改变门牌号、A事务所替换为B事务所实现数据增强;去除冷饮店、加气站、能源站、公园、便民商店、停车场等噪声词等方式对地址训练分类文本进行调整。
然后将调整后的地址训练分类文本输入文本分类模型,依次获取目标词向量和层级向量,由于对地址信息而言,重要数据往往出现在后半部分,具体地,设置位置层级为4这样可以较好地在最后一个位置层级内获取到关键信息,然后获取训练位置文本矩阵,并最终得到具体地址训练分类文本的预估文本类别,比如商场服务人员、医护人员、教师等。
基于各个地址训练分类文本的预估文本类别与实际文本类别相同的地分类文本量,确定准确率,确定准确率是否达到准确率阈值(99%),如果达到,那么完成训练;如果,没有达到,那么根据所述准确率调整所述文本分类模型的参数,再次然后将调整后的地址训练分类文本输入文本分类模型。
容易理解的是,本发明实施例提供的文本分类方法,也可以用于地址分类文本的文本分类,在此不再赘述。
本发明实施例提供的文本分类模型训练方法,通过结合训练分类文本的目标词向量的不同位置层级的各个层级向量,实现对目标词向量的位置层级的划分,并在训练过程中,通过对文本分类模型的参数的调整,使其获取影响程度较高的位置层级,以为提高文本分类时的准确性提供基础,从而可以在进行文本分类时提高对应位置层级内的目标词向量的影响比例,提高文本分类的准确性和速度,而在对地址文本进行分类时,可以充分利用地址文本中对于分类准确性影响较大的位置层级的信息,实现对地址文本分类准确性的提高,以及速度的提高。
上文描述了本发明实施例提供的多个实施例方案,各实施例方案介绍的各可选方式可在不冲突的情况下相互结合、交叉引用,从而延伸出多种可能的实施例方案,这些均可认为是本发明实施例披露、公开的实施例方案。
下面对本发明实施例提供的文本分类模型训练装置及文本分类装置进行介绍,下文描述的文本分类模型训练装置可以认为是,设备为实现本发明实施例提供的文本分类模型训练方法所需设置的功能模块;下文描述的文本分类装置可以认为是,设备为实现本发明实施例提供的文本分类方法所需设置的功能模块。下文描述的装置的内容可与上文描述的方法的内容相互对应参照。
在一种可选实现中,图7示出了本发明实施例提供的文本分类模型训练装置的一种可选框图,如图7所示,该文本分类模型训练装置可以包括:
文本类别数据集获取单元100,适于获取用于分类训练的文本类别数据集,所述文本类别数据集的各个文本类别数据均包括训练分类文本和与所述训练分类文本对应的实际文本类别;
目标词向量及词向量数量获取单元110,适于利用文本分类模型获取所述训练分类文本的各个目标词向量,并获取所述训练分类文本的目标词向量的词向量数量;
层级向量获取单元120,适于基于所述词向量数量、各个所述目标词向量在所述训练分类文本中的位置和预定的位置层级的层级数量,获取各个所述目标词向量的位置层级和层级向量,所述层级数量的最小值为2,最大值小于所述目标词向量的数量;
预估文本类别获取单元130,适于根据各个所述目标词向量和分别与其对应的所述层级向量,获取所述训练分类文本的训练位置文本矩阵,并基于所述训练位置文本矩阵获取所述训练分类文本的预估文本类别;
训练后的文本分类模型获取单元140,适于得到所述文本类别数据集的各个训练分类文本的预估文本类别时,获取所述文本类别数据集的预估分类类别的准确率,根据所述准确率调整所述文本分类模型的参数,直至所述准确率达到准确率阈值,得到训练后的文本分类模型,其中,所述准确率为所述预估文本类别与所述实际文本类别相同的所述训练分类文本在所述文本类别数据集中的占比。
可选地,该文本分类装置还可以包括:
噪声词获取单元150,适于获取文本分类的噪声词;
所述预估文本类别获取单元130,适于基于所述训练位置文本矩阵获取所述训练分类文本的预估文本类别包括:
根据所述噪声词调整所述位置文本矩阵,得到调整后的位置文本矩阵;
根据所述调整后的位置文本矩阵获取所述训练分类文本的预估文本类别。
可选地,所述层级向量获取单元120,适于基于所述词向量数量、各个所述目标词向量在所述训练分类文本中的位置和预定的位置层级的层级数量,获取各个所述目标词向量的位置层级和层级向量包括:
基于词向量数量和所述训练分类文本,确定各个所述目标词向量在所述训练分类文本中的位置;
基于所述层级数量、所述词向量数量和各个所述目标词向量在所述训练分类文本中的位置,确定各个所述目标词向量的位置层级;
根据所述位置层级,获取各个所述目标词向量的层级向量。
可选地,所述层级向量获取单元120,适于基于所述层级数量、所述词向量数量和各个所述目标词向量在所述训练分类文本中的位置,确定各个所述目标词向量的位置层级包括:
利用所述层级数量和所述词向量数量确定层级步长;
根据各个所述目标词向量的位置和所述层级步长,确定各个所述目标词向量的位置层级。
可选地,所述层级向量获取单元120,适于根据各个所述目标词向量的位置和所述层级步长,确定各个所述目标词向量的位置层级包括:
当根据所述目标词向量的所述位置和所述层级步长,得到的初始位置层级低于所述层级数量时,确定所述目标词向量的位置层级为所述初始位置层级;
当根据所述目标词向量的所述位置和所述层级步长,得到的初始位置层级等于所述层级数量时,确定所述目标词向量的位置层级为所述位置层级的最高级。
可选地,所述目标词向量及词向量数量获取单元110,适于获取所述训练分类文本的各个目标词向量的步骤包括:
根据所述训练分类文本获取所述训练分类文本的各个初始词向量和各个目标字向量;
将各个所述初始词向量和分别与其对应的所述目标字向量进行融合,得到所述目标词向量。
可选地,所述目标词向量及词向量数量获取单元110,适于根据所述训练分类文本获取所述训练分类文本的各个初始词向量和各个目标字向量包括:
根据所述训练分类文本获取所述训练分类文本的各个所述初始词向量和各个初始字向量;
根据各个所述初始词向量确定分别其对应的所述初始字向量,得到各个对应初始字向量;
将对应于同一所述初始词向量的各个所述对应初始字向量的进行融合,得到对应于所述初始词向量的所述目标字向量,直至完成所述训练分类文本的全部所述初始词向量的目标字向量的获取,得到各个所述目标字向量。
可选地,所述文本类别数据集获取单元100,适于获取用于分类训练的文本类别数据集的步骤包括:
获取用于分类训练的文本类别原始数据集,所述文本类别原始数据集的各个文本类别数据均包括训练分类原始文本和与所述训练分类原始文本对应的实际文本类别;
根据所述实际文本类别,确定与各个实际文本类别对应的实际类别原始数据集,以及各个实际类别原始数据集的文本量;
根据所述文本量获取待调整数据集,对所述待调整数据集进行数据增强,得到增强数据集,其中,所述待调整数据集为所述文本量不满足数据量阈值要求的实际类别原始数据集;
合并所述增强数据集与确定数据集,得到所述文本类别数据集,其中,所述确定数据集为所述文本量满足数据量阈值要求的实际类别原始数据集。
可选地,所述文本类别数据集获取单元100,适于对所述待调整数据集进行数据增强,得到增强数据集包括:
对文本量大于所述数据量阈值的所述待调整数据集进行下采样,得到第一增强数据集;
对文本量小于所述数据量阈值的所述待调整数据集进行数据增加,得到第二增强数据集;
合并所述第一增强数据集和所述第二增强数据集,得到所述增强数据集。
可选地,所述文本类别数据集获取单元100,适于对文本量小于所述数据量阈值的所述待调整数据集进行数据增加,得到第二增强数据集包括:
对所述文本量小于所述数据量阈值的所述待调整数据集的训练分类原始文本进行调整,得到调整数据集;
将所述调整数据集添加至所述待调整数据集,得到所述第二增强数据集。
可选地,所述文本类别数据集获取单元100,适于对所述文本量小于所述数据量阈值的所述待调整数据集的训练分类原始文本进行调整,得到调整数据集包括:
对所述文本量小于所述数据量阈值的所述待调整数据集的训练分类原始文本的数字进行随机替换;
对所述文本量小于所述数据量阈值的所述待调整数据集中,预定比例的训练分类原始文本的文本词进行随机修改;
或者
对所述文本量小于所述数据量阈值的所述待调整数据集中,预定比例的训练分类原始文本的文本字进行随机修改。
可选地,所述文本类别数据集获取单元100,适于获取用于分类训练的文本类别原始数据集包括:
获取各个所述训练分类原始文本;
利用地图信息面属性获取各个所述训练分类原始文本的实际文本类别,得到所述文本类别原始数据集。
可选地,所述文本类别数据集获取单元100,适于利用地图信息面属性获取各个所述训练分类原始文本的实际文本类别包括:
利用地图信息面属性获取各个所述训练分类原始文本的地图实际文本类别;
根据预定分类类别调整或修改所述地图实际文本类别,得到所述实际文本类别。
可选地,所述文本类别数据集获取单元100,适于获取用于分类训练的文本类别数据集包括:
获取用于分类训练的文本类别原始数据集和文本分类的噪声词,所述文本类别原始数据集的各个文本类别数据均包括训练分类原始文本和与所述训练分类原始文本对应的实际文本类别;
利用所述噪声词去除各个所述训练分类原始文本中的对应词,得到各个所述训练分类文本和所述文本类别数据集。
在一种可选实现中,图8示出了本发明实施例提供的文本分类装置的一种可选框图,如图8所示,该文本分类装置可以包括:
分类文本获取单元200,适于获取待分类的分类文本;
文本类别获取单元210,适于利用文本分类模型,获取所述分类文本的文本类别,所述文本分类模型为前述的文本分类模型训练方法训练后的模型。
可选地,文本类别获取单元210,适于利用文本分类模型,获取所述分类文本的文本类别包括:
获取所述分类文本的各个目标词向量,并获取所述分类文本的目标词向量的词向量数量;
基于所述词向量数量、各个所述目标词向量在所述分类文本中的位置和预定的位置层级的层级数量,获取各个所述目标词向量的位置层级和层级向量,所述层级数量的最小值为2,最大值小于所述目标词向量的数量;
根据各个所述目标词向量和分别与其对应的所述层级向量,获取所述分类文本的位置文本矩阵,并基于所述位置文本矩阵获取所述分类文本的文本类别。
本发明实施例还提供一种终端设备,该终端设备可以通过装载程序形式的上述文本分类模型训练方法或文本分类方法,以实现本发明实施例提供的文本分类模型训练方法或文本分类方法。本发明实施例提供的终端设备的一种可选硬件结构可以如图9所示,包括:至少一个处理器01,至少一个通信接口02,至少一个存储器03和至少一个通信总线04;
在本发明实施例中,处理器01、通信接口02、存储器03、通信总线04的数量为至少一个,且处理器01、通信接口02、存储器03通过通信总线04完成相互间的通信;
可选的,通信接口02可以为用于进行网络通信的通信模块的接口,如GSM模块的接口;
处理器01可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器03可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,存储器03存储一条或多条计算机指令,所述一条或多条计算机指令被处理器01执行以实现本发明实施例提供的访问控制方法。
需要说明的是,上述的实现终端设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件(未示出);鉴于这些其他器件对于理解本发明实施例公开内容可能并不是必需,本发明实施例对此不进行逐一介绍。
本发明实施例还提供一种存储介质,所述存储介质存储一条或多条计算机指令,所述一条或多条计算机指令用于实现本发明实施例提供的文本分类模型训练方法或文本分类方法。
本发明实施例提供的文本分类模型训练方法,通过结合训练分类文本的目标词向量的不同位置层级的各个层级向量,实现对目标词向量的位置层级的划分,并在训练过程中,通过对文本分类模型的参数的调整,使其获取影响程度较高的位置层级,以为提高文本分类时的准确性提供基础,从而可以在进行文本分类时提高对应位置层级内的目标词向量的影响比例,提高文本分类的准确性和速度,而在对地址文本进行分类时,可以充分利用地址文本中对于分类准确性影响较大的位置层级的信息,实现对地址文本分类准确性的提高,以及速度的提高。
上述本发明的实施方式是本发明的元件和特征的组合。除非另外提及,否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实践。另外,本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中,并且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是,所附权利要求中彼此没有明确引用关系的权利要求可组合成本发明的实施方式,或者可在提交本申请之后的修改中作为新的权利要求包括。
本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中,根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等来实现。
在固件或软件配置方式中,本发明的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部,并可经由各种己知手段向处理器发送数据以及从处理器接收数据。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。
虽然本发明实施例披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
综上,第1方面,本发明实施例提供一种文本分类模型训练方法,包括:
获取用于分类训练的文本类别数据集,所述文本类别数据集的各个文本类别数据均包括训练分类文本和与所述训练分类文本对应的实际文本类别;
利用文本分类模型获取所述训练分类文本的各个目标词向量,并获取所述训练分类文本的目标词向量的词向量数量;
基于所述词向量数量、各个所述目标词向量在所述训练分类文本中的位置和预定的位置层级的层级数量,获取各个所述目标词向量的位置层级和层级向量,所述层级数量的最小值为2,最大值小于所述目标词向量的数量;
根据各个所述目标词向量和分别与其对应的所述层级向量,获取所述训练分类文本的训练位置文本矩阵,并基于所述训练位置文本矩阵获取所述训练分类文本的预估文本类别;
得到所述文本类别数据集的各个训练分类文本的预估文本类别时,获取所述文本类别数据集的预估分类类别的准确率,根据所述准确率调整所述文本分类模型的参数,直至所述准确率达到准确率阈值,得到训练后的文本分类模型,其中,所述准确率为所述预估文本类别与所述实际文本类别相同的所述训练分类文本在所述文本类别数据集中的占比。
结合第1方面,本发明实施例在第1方面的第1种实现方式中,所述基于所述词向量数量、各个所述目标词向量在所述训练分类文本中的位置和预定的位置层级的层级数量,获取各个所述目标词向量的位置层级和层级向量的步骤包括:
基于词向量数量和所述训练分类文本,确定各个所述目标词向量在所述训练分类文本中的位置;
基于所述层级数量、所述词向量数量和各个所述目标词向量在所述训练分类文本中的位置,确定各个所述目标词向量的位置层级;
根据所述位置层级,获取各个所述目标词向量的层级向量。
结合第1方面的第1种实现方式,本发明实施例在第1方面的第2种实现方式中,所述基于所述层级数量、所述词向量数量和各个所述目标词向量在所述训练分类文本中的位置,确定各个所述目标词向量的位置层级的步骤包括:
利用所述层级数量和所述词向量数量确定层级步长;
根据各个所述目标词向量的位置和所述层级步长,确定各个所述目标词向量的位置层级。
结合第1方面的第2种实现方式,本发明实施例在第1方面的第3种实现方式中,所述根据各个所述目标词向量的位置和所述层级步长,确定各个所述目标词向量的位置层级的步骤包括:
当根据所述目标词向量的所述位置和所述层级步长,得到的初始位置层级低于所述层级数量时,确定所述目标词向量的位置层级为所述初始位置层级;
当根据所述目标词向量的所述位置和所述层级步长,得到的初始位置层级等于所述层级数量时,确定所述目标词向量的位置层级为所述位置层级的最高级。
结合第一方面或第一方面的第1-3种实现方式中的任一种实现方式,本发明实施例在第1方面的第4种实现方式中,所述获取所述训练分类文本的各个目标词向量的步骤包括:
根据所述训练分类文本获取所述训练分类文本的各个初始词向量和各个目标字向量;
将各个所述初始词向量和分别与其对应的所述目标字向量进行融合,得到所述目标词向量。
结合第1方面的第4种实现方式,本发明实施例在第1方面的第5种实现方式中,所述根据所述训练分类文本获取所述训练分类文本的各个初始词向量和各个目标字向量的步骤包括:
根据所述训练分类文本获取所述训练分类文本的各个所述初始词向量和各个初始字向量;
根据各个所述初始词向量确定分别其对应的所述初始字向量,得到各个对应初始字向量;
将对应于同一所述初始词向量的各个所述对应初始字向量的进行融合,得到对应于所述初始词向量的所述目标字向量,直至完成所述训练分类文本的全部所述初始词向量的目标字向量的获取,得到各个所述目标字向量。
结合第一方面或第一方面的第1-3种实现方式中的任一种实现方式,本发明实施例在第1方面的第6种实现方式中,所述获取用于分类训练的文本类别数据集的步骤包括:
获取用于分类训练的文本类别原始数据集,所述文本类别原始数据集的各个文本类别数据均包括训练分类原始文本和与所述训练分类原始文本对应的实际文本类别;
根据所述实际文本类别,确定与各个实际文本类别对应的实际类别原始数据集,以及各个实际类别原始数据集的文本量;
根据所述文本量获取待调整数据集,对所述待调整数据集进行数据增强,得到增强数据集,其中,所述待调整数据集为所述文本量不满足数据量阈值要求的实际类别原始数据集;
合并所述增强数据集与确定数据集,得到所述文本类别数据集,其中,所述确定数据集为所述文本量满足数据量阈值要求的实际类别原始数据集。
结合第1方面的第6种实现方式,本发明实施例在第1方面的第7种实现方式中,所述对所述待调整数据集进行数据增强,得到增强数据集的步骤包括:
对文本量大于所述数据量阈值的所述待调整数据集进行下采样,得到第一增强数据集;
对文本量小于所述数据量阈值的所述待调整数据集进行数据增加,得到第二增强数据集;
合并所述第一增强数据集和所述第二增强数据集,得到所述增强数据集。
结合第1方面的第7种实现方式,本发明实施例在第1方面的第8种实现方式中,所述对文本量小于所述数据量阈值的所述待调整数据集进行数据增加,得到第二增强数据集的步骤包括:
对所述文本量小于所述数据量阈值的所述待调整数据集的训练分类原始文本进行调整,得到调整数据集;
将所述调整数据集添加至所述待调整数据集,得到所述第二增强数据集。
结合第1方面的第8种实现方式,本发明实施例在第1方面的第9种实现方式中,所述对所述文本量小于所述数据量阈值的所述待调整数据集的训练分类原始文本进行调整的步骤包括:
对所述文本量小于所述数据量阈值的所述待调整数据集的训练分类原始文本的数字进行随机替换;
对所述文本量小于所述数据量阈值的所述待调整数据集中,预定比例的训练分类原始文本的文本词进行随机修改;
或者
对所述文本量小于所述数据量阈值的所述待调整数据集中,预定比例的训练分类原始文本的文本字进行随机修改。
结合第1方面的第6种实现方式,本发明实施例在第1方面的第10种实现方式中,所述获取用于分类训练的文本类别原始数据集的步骤包括:
获取各个所述训练分类原始文本;
利用地图信息面属性获取各个所述训练分类原始文本的实际文本类别,得到所述文本类别原始数据集。
结合第1方面的第10种实现方式,本发明实施例在第1方面的第11种实现方式中,所述利用地图信息面属性获取各个所述训练分类原始文本的实际文本类别的步骤包括:
利用地图信息面属性获取各个所述训练分类原始文本的地图实际文本类别;
根据预定分类类别调整或修改所述地图实际文本类别,得到所述实际文本类别。
结合第一方面或第一方面的第1-3种实现方式中的任一种实现方式,本发明实施例在第1方面的第12种实现方式中,所述获取用于分类训练的文本类别数据集的步骤包括:
获取用于分类训练的文本类别原始数据集和文本分类的噪声词,所述文本类别原始数据集的各个文本类别数据均包括训练分类原始文本和与所述训练分类原始文本对应的实际文本类别;
利用所述噪声词去除各个所述训练分类原始文本中的对应词,得到各个所述训练分类文本和所述文本类别数据集。
结合第一方面或第一方面的第1-3种实现方式中的任一种实现方式,本发明实施例在第1方面的第13种实现方式中,还包括:
获取文本分类的噪声词;
所述基于所述训练位置文本矩阵获取所述训练分类文本的预估文本类别的步骤包括:
根据所述噪声词调整所述位置文本矩阵,得到调整后的位置文本矩阵;
根据所述调整后的位置文本矩阵获取所述训练分类文本的预估文本类别。
第2方面,本发明实施例提供一种文本分类方法,包括:
获取待分类的分类文本;
利用文本分类模型,获取所述分类文本的分类类别,所述文本分类模型为第一方面或第一方面的第1-13种实现方式中的任一种实现方式所述的文本分类模型训练方法训练后的模型。
结合第2方面,本发明实施例在第2方面的第1种实现方式中,所述利用文本分类模型,获取所述分类文本的分类类别的步骤包括:
获取所述分类文本的各个目标词向量,并获取所述分类文本的目标词向量的词向量数量;
基于所述词向量数量、各个所述目标词向量在所述分类文本中的位置和预定的位置层级的层级数量,获取各个所述目标词向量的位置层级和层级向量,所述层级数量的最小值为2,最大值小于所述目标词向量的数量;
根据各个所述目标词向量和分别与其对应的所述层级向量,获取所述分类文本的位置文本矩阵,并基于所述位置文本矩阵获取所述分类文本的文本类别。
第3方面,本发明实施例提供一种文本分类模型训练装置,包括:
文本类别数据集获取单元,适于获取用于分类训练的文本类别数据集,所述文本类别数据集的各个文本类别数据均包括训练分类文本和与所述训练分类文本对应的实际文本类别;
目标词向量及词向量数量获取单元,适于利用文本分类模型获取所述训练分类文本的各个目标词向量,并获取所述训练分类文本的目标词向量的词向量数量;
层级向量获取单元,适于基于所述词向量数量、各个所述目标词向量在所述训练分类文本中的位置和预定的位置层级的层级数量,获取各个所述目标词向量的位置层级和层级向量,所述层级数量的最小值为2,最大值小于所述目标词向量的数量;
预估文本类别获取单元,适于根据各个所述目标词向量和分别与其对应的所述层级向量,获取所述训练分类文本的训练位置文本矩阵,并基于所述训练位置文本矩阵获取所述训练分类文本的预估文本类别;
训练后的文本分类模型获取单元,适于得到所述文本类别数据集的各个训练分类文本的预估文本类别时,获取所述文本类别数据集的预估分类类别的准确率,根据所述准确率调整所述文本分类模型的参数,直至所述准确率达到准确率阈值,得到训练后的文本分类模型,其中,所述准确率为所述预估文本类别与所述实际文本类别相同的所述训练分类文本在所述文本类别数据集中的占比。
结合第3方面,本发明实施例在第3方面的第1种实现方式中,所述层级向量获取单元,适于基于所述词向量数量、各个所述目标词向量在所述训练分类文本中的位置和预定的位置层级的层级数量,获取各个所述目标词向量的位置层级和层级向量包括:
基于词向量数量和所述训练分类文本,确定各个所述目标词向量在所述训练分类文本中的位置;
基于所述层级数量、所述词向量数量和各个所述目标词向量在所述训练分类文本中的位置,确定各个所述目标词向量的位置层级;
根据所述位置层级,获取各个所述目标词向量的层级向量。
结合第3方面的第1种实现方式,本发明实施例在第3方面的第2种实现方式中,所述层级向量获取单元,适于基于所述层级数量、所述词向量数量和各个所述目标词向量在所述训练分类文本中的位置,确定各个所述目标词向量的位置层级包括:
利用所述层级数量和所述词向量数量确定层级步长;
根据各个所述目标词向量的位置和所述层级步长,确定各个所述目标词向量的位置层级。
结合第3方面的第2种实现方式,本发明实施例在第3方面的第3种实现方式中,所述层级向量获取单元,适于根据各个所述目标词向量的位置和所述层级步长,确定各个所述目标词向量的位置层级包括:
当根据所述目标词向量的所述位置和所述层级步长,得到的初始位置层级低于所述层级数量时,确定所述目标词向量的位置层级为所述初始位置层级;
当根据所述目标词向量的所述位置和所述层级步长,得到的初始位置层级等于所述层级数量时,确定所述目标词向量的位置层级为所述位置层级的最高级。
结合第3方面或第3方面的第1-3种实现方式中的任一种实现方式,本发明实施例在第3方面的第4种实现方式中,所述目标词向量及词向量数量获取单元,适于获取所述训练分类文本的各个目标词向量的步骤包括:
根据所述训练分类文本获取所述训练分类文本的各个初始词向量和各个目标字向量;
将各个所述初始词向量和分别与其对应的所述目标字向量进行融合,得到所述目标词向量。
结合第3方面的第4种实现方式,本发明实施例在第3方面的第5种实现方式中,所述目标词向量及词向量数量获取单元,适于根据所述训练分类文本获取所述训练分类文本的各个初始词向量和各个目标字向量包括:
根据所述训练分类文本获取所述训练分类文本的各个所述初始词向量和各个初始字向量;
根据各个所述初始词向量确定分别其对应的所述初始字向量,得到各个对应初始字向量;
将对应于同一所述初始词向量的各个所述对应初始字向量的进行融合,得到对应于所述初始词向量的所述目标字向量,直至完成所述训练分类文本的全部所述初始词向量的目标字向量的获取,得到各个所述目标字向量。
结合第3方面或第3方面的第1-3种实现方式中的任一种实现方式,本发明实施例在第3方面的第6种实现方式中,所述文本类别数据集获取单元,适于获取用于分类训练的文本类别数据集的步骤包括:
获取用于分类训练的文本类别原始数据集,所述文本类别原始数据集的各个文本类别数据均包括训练分类原始文本和与所述训练分类原始文本对应的实际文本类别;
根据所述实际文本类别,确定与各个实际文本类别对应的实际类别原始数据集,以及各个实际类别原始数据集的文本量;
根据所述文本量获取待调整数据集,对所述待调整数据集进行数据增强,得到增强数据集,其中,所述待调整数据集为所述文本量不满足数据量阈值要求的实际类别原始数据集;
合并所述增强数据集与确定数据集,得到所述文本类别数据集,其中,所述确定数据集为所述文本量满足数据量阈值要求的实际类别原始数据集。
结合第3方面的第6种实现方式,本发明实施例在第3方面的第7种实现方式中,所述文本类别数据集获取单元,适于对所述待调整数据集进行数据增强,得到增强数据集包括:
对文本量大于所述数据量阈值的所述待调整数据集进行下采样,得到第一增强数据集;
对文本量小于所述数据量阈值的所述待调整数据集进行数据增加,得到第二增强数据集;
合并所述第一增强数据集和所述第二增强数据集,得到所述增强数据集。
结合第3方面的第7种实现方式,本发明实施例在第3方面的第8种实现方式中,所述文本类别数据集获取单元,适于对文本量小于所述数据量阈值的所述待调整数据集进行数据增加,得到第二增强数据集包括:
对所述文本量小于所述数据量阈值的所述待调整数据集的训练分类原始文本进行调整,得到调整数据集;
将所述调整数据集添加至所述待调整数据集,得到所述第二增强数据集。
结合第3方面的第8种实现方式,本发明实施例在第3方面的第9种实现方式中,所述文本类别数据集获取单元,适于对所述文本量小于所述数据量阈值的所述待调整数据集的训练分类原始文本进行调整,得到调整数据集包括:
对所述文本量小于所述数据量阈值的所述待调整数据集的训练分类原始文本的数字进行随机替换;
对所述文本量小于所述数据量阈值的所述待调整数据集中,预定比例的训练分类原始文本的文本词进行随机修改;
或者
对所述文本量小于所述数据量阈值的所述待调整数据集中,预定比例的训练分类原始文本的文本字进行随机修改。
结合第3方面的第6种实现方式,本发明实施例在第3方面的第10种实现方式中,所述文本类别数据集获取单元,适于获取用于分类训练的文本类别原始数据集包括:
获取各个所述训练分类原始文本;
利用地图信息面属性获取各个所述训练分类原始文本的实际文本类别,得到所述文本类别原始数据集。
结合第3方面的第10种实现方式,本发明实施例在第3方面的第11种实现方式中,所述文本类别数据集获取单元,适于利用地图信息面属性获取各个所述训练分类原始文本的实际文本类别包括:
利用地图信息面属性获取各个所述训练分类原始文本的地图实际文本类别;
根据预定分类类别调整或修改所述地图实际文本类别,得到所述实际文本类别。
结合第3方面或第3方面的第1-3种实现方式中的任一种实现方式,本发明实施例在第3方面的第12种实现方式中,所述文本类别数据集获取单元,适于获取用于分类训练的文本类别数据集包括:
获取用于分类训练的文本类别原始数据集和文本分类的噪声词,所述文本类别原始数据集的各个文本类别数据均包括训练分类原始文本和与所述训练分类原始文本对应的实际文本类别;
利用所述噪声词去除各个所述训练分类原始文本中的对应词,得到各个所述训练分类文本和所述文本类别数据集。
结合第3方面或第3方面的第1-3种实现方式中的任一种实现方式,本发明实施例在第3方面的第13种实现方式中,还包括:
噪声词获取单元,适于获取文本分类的噪声词;
所述预估文本类别获取单元,适于基于所述训练位置文本矩阵获取所述训练分类文本的预估文本类别包括:
根据所述噪声词调整所述位置文本矩阵,得到调整后的位置文本矩阵;
根据所述调整后的位置文本矩阵获取所述训练分类文本的预估文本类别。
第4方面,本发明实施例提供一种文本分类装置,包括:
分类文本获取单元,适于获取待分类的分类文本;
文本类别获取单元,适于利用文本分类模型,获取所述分类文本的文本类别,所述文本分类模型为前述任一种实现方式所述的文本分类模型训练方法训练后的模型。
结合第4方面,本发明实施例在第4方面的第1种实现方式中,所述文本类别获取单元,适于利用文本分类模型,获取所述分类文本的文本类别包括:
获取所述分类文本的各个目标词向量,并获取所述分类文本的目标词向量的词向量数量;
基于所述词向量数量、各个所述目标词向量在所述分类文本中的位置和预定的位置层级的层级数量,获取各个所述目标词向量的位置层级和层级向量,所述层级数量的最小值为2,最大值小于所述目标词向量的数量;
根据各个所述目标词向量和分别与其对应的所述层级向量,获取所述分类文本的位置文本矩阵,并基于所述位置文本矩阵获取所述分类文本的文本类别。
第5方面,本发明实施例还提供一种服务器,包括至少一个存储器和至少一个处理器,所述存储器存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如上述所述的文本分类模型训练方法或文本分类方法。
第6方面,本发明实施例还提供一种存储介质,所述存储介质存储一条或多条计算机指令,所述一条或多条计算机指令用于实现如上述所述的文本分类模型训练方法或文本分类方法。

Claims (34)

1.一种文本分类模型训练方法,其特征在于,包括:
获取用于分类训练的文本类别数据集,所述文本类别数据集的各个文本类别数据均包括训练分类文本和与所述训练分类文本对应的实际文本类别;
利用文本分类模型获取所述训练分类文本的各个目标词向量,并获取所述训练分类文本的目标词向量的词向量数量;
基于所述词向量数量、各个所述目标词向量在所述训练分类文本中的位置和预定的位置层级的层级数量,获取各个所述目标词向量的位置层级和层级向量,包括:利用所述层级数量和所述词向量数量确定层级步长,当初始位置层级低于所述层级数量时,确定所述目标词向量的位置层级为所述初始位置层级;当所述初始位置层级等于所述层级数量时,确定所述目标词向量的位置层级为所述位置层级的最高级;所述初始位置层级根据所述目标词向量的所述位置和所述层级步长得到;所述层级数量的最小值为2,最大值小于所述目标词向量的数量;
根据各个所述目标词向量和分别与其对应的所述层级向量,获取所述训练分类文本的训练位置文本矩阵,并基于所述训练位置文本矩阵获取所述训练分类文本的预估文本类别;
得到所述文本类别数据集的各个训练分类文本的预估文本类别时,获取所述文本类别数据集的预估分类类别的准确率,根据所述准确率调整所述文本分类模型的参数,直至所述准确率达到准确率阈值,得到训练后的文本分类模型,其中,所述准确率为所述预估文本类别与所述实际文本类别相同的所述训练分类文本在所述文本类别数据集中的占比。
2.根据权利要求1所述的文本分类模型训练方法,其特征在于,所述基于所述词向量数量、各个所述目标词向量在所述训练分类文本中的位置和预定的位置层级的层级数量,获取各个所述目标词向量的位置层级和层级向量的步骤包括:
基于词向量数量和所述训练分类文本,确定各个所述目标词向量在所述训练分类文本中的位置;
基于所述层级数量、所述词向量数量和各个所述目标词向量在所述训练分类文本中的位置,确定各个所述目标词向量的位置层级;
根据所述位置层级,获取各个所述目标词向量的层级向量。
3.根据权利要求2所述的文本分类模型训练方法,其特征在于,所述基于所述层级数量、所述词向量数量和各个所述目标词向量在所述训练分类文本中的位置,确定各个所述目标词向量的位置层级的步骤包括:
利用所述层级数量和所述词向量数量确定层级步长;
根据各个所述目标词向量的位置和所述层级步长,确定各个所述目标词向量的位置层级。
4.根据权利要求3所述的文本分类模型训练方法,其特征在于,所述根据各个所述目标词向量的位置和所述层级步长,确定各个所述目标词向量的位置层级的步骤包括:
当根据所述目标词向量的所述位置和所述层级步长,得到的初始位置层级低于所述层级数量时,确定所述目标词向量的位置层级为所述初始位置层级;
当根据所述目标词向量的所述位置和所述层级步长,得到的初始位置层级等于所述层级数量时,确定所述目标词向量的位置层级为所述位置层级的最高级。
5.根据权利要求1-4任一项所述的文本分类模型训练方法,其特征在于,所述获取所述训练分类文本的各个目标词向量的步骤包括:
根据所述训练分类文本获取所述训练分类文本的各个初始词向量和各个目标字向量;
将各个所述初始词向量和分别与其对应的所述目标字向量进行融合,得到所述目标词向量。
6.根据权利要求5所述的文本分类模型训练方法,其特征在于,所述根据所述训练分类文本获取所述训练分类文本的各个初始词向量和各个目标字向量的步骤包括:
根据所述训练分类文本获取所述训练分类文本的各个所述初始词向量和各个初始字向量;
根据各个所述初始词向量确定分别其对应的所述初始字向量,得到各个对应初始字向量;
将对应于同一所述初始词向量的各个所述对应初始字向量的进行融合,得到对应于所述初始词向量的所述目标字向量,直至完成所述训练分类文本的全部所述初始词向量的目标字向量的获取,得到各个所述目标字向量。
7.根据权利要求1-4任一项所述的文本分类模型训练方法,其特征在于,所述获取用于分类训练的文本类别数据集的步骤包括:
获取用于分类训练的文本类别原始数据集,所述文本类别原始数据集的各个文本类别数据均包括训练分类原始文本和与所述训练分类原始文本对应的实际文本类别;
根据所述实际文本类别,确定与各个实际文本类别对应的实际类别原始数据集,以及各个实际类别原始数据集的文本量;
根据所述文本量获取待调整数据集,对所述待调整数据集进行数据增强,得到增强数据集,其中,所述待调整数据集为所述文本量不满足数据量阈值要求的实际类别原始数据集;
合并所述增强数据集与确定数据集,得到所述文本类别数据集,其中,所述确定数据集为所述文本量满足数据量阈值要求的实际类别原始数据集。
8.根据权利要求7所述的文本分类模型训练方法,其特征在于,所述对所述待调整数据集进行数据增强,得到增强数据集的步骤包括:
对文本量大于所述数据量阈值的所述待调整数据集进行下采样,得到第一增强数据集;
对文本量小于所述数据量阈值的所述待调整数据集进行数据增加,得到第二增强数据集;
合并所述第一增强数据集和所述第二增强数据集,得到所述增强数据集。
9.根据权利要求8所述的文本分类模型训练方法,其特征在于,所述对文本量小于所述数据量阈值的所述待调整数据集进行数据增加,得到第二增强数据集的步骤包括:
对所述文本量小于所述数据量阈值的所述待调整数据集的训练分类原始文本进行调整,得到调整数据集;
将所述调整数据集添加至所述待调整数据集,得到所述第二增强数据集。
10.根据权利要求9所述的文本分类模型训练方法,其特征在于,所述对所述文本量小于所述数据量阈值的所述待调整数据集的训练分类原始文本进行调整的步骤包括:
对所述文本量小于所述数据量阈值的所述待调整数据集的训练分类原始文本的数字进行随机替换;
对所述文本量小于所述数据量阈值的所述待调整数据集中,预定比例的训练分类原始文本的文本词进行随机修改;
或者
对所述文本量小于所述数据量阈值的所述待调整数据集中,预定比例的训练分类原始文本的文本字进行随机修改。
11.根据权利要求7所述的文本分类模型训练方法,其特征在于,所述获取用于分类训练的文本类别原始数据集的步骤包括:
获取各个所述训练分类原始文本;
利用地图信息面属性获取各个所述训练分类原始文本的实际文本类别,得到所述文本类别原始数据集。
12.根据权利要求11所述的文本分类模型训练方法,其特征在于,所述利用地图信息面属性获取各个所述训练分类原始文本的实际文本类别的步骤包括:
利用地图信息面属性获取各个所述训练分类原始文本的地图实际文本类别;
根据预定分类类别调整或修改所述地图实际文本类别,得到所述实际文本类别。
13.根据权利要求1-4任一项所述的文本分类模型训练方法,其特征在于,所述获取用于分类训练的文本类别数据集的步骤包括:
获取用于分类训练的文本类别原始数据集和文本分类的噪声词,所述文本类别原始数据集的各个文本类别数据均包括训练分类原始文本和与所述训练分类原始文本对应的实际文本类别;
利用所述噪声词去除各个所述训练分类原始文本中的对应词,得到各个所述训练分类文本和所述文本类别数据集。
14.根据权利要求1-4任一项所述的文本分类模型训练方法,其特征在于,还包括:
获取文本分类的噪声词;
所述基于所述训练位置文本矩阵获取所述训练分类文本的预估文本类别的步骤包括:
根据所述噪声词调整所述位置文本矩阵,得到调整后的位置文本矩阵;
根据所述调整后的位置文本矩阵获取所述训练分类文本的预估文本类别。
15.一种文本分类方法,其特征在于,包括:
获取待分类的分类文本;
利用文本分类模型,获取所述分类文本的分类类别,所述文本分类模型为权利要求1-14任一项所述的文本分类模型训练方法训练后的模型。
16.根据权利要求15所述的文本分类方法,其特征在于,所述利用文本分类模型,获取所述分类文本的分类类别的步骤包括:
获取所述分类文本的各个目标词向量,并获取所述分类文本的目标词向量的词向量数量;
基于所述词向量数量、各个所述目标词向量在所述分类文本中的位置和预定的位置层级的层级数量,获取各个所述目标词向量的位置层级和层级向量,所述层级数量的最小值为2,最大值小于所述目标词向量的数量;
根据各个所述目标词向量和分别与其对应的所述层级向量,获取所述分类文本的位置文本矩阵,并基于所述位置文本矩阵获取所述分类文本的文本类别。
17.一种文本分类模型训练装置,其特征在于,包括:
文本类别数据集获取单元,适于获取用于分类训练的文本类别数据集,所述文本类别数据集的各个文本类别数据均包括训练分类文本和与所述训练分类文本对应的实际文本类别;
目标词向量及词向量数量获取单元,适于利用文本分类模型获取所述训练分类文本的各个目标词向量,并获取所述训练分类文本的目标词向量的词向量数量;
层级向量获取单元,适于基于所述词向量数量、各个所述目标词向量在所述训练分类文本中的位置和预定的位置层级的层级数量,获取各个所述目标词向量的位置层级和层级向量,包括:利用所述层级数量和所述词向量数量确定层级步长,当初始位置层级低于所述层级数量时,确定所述目标词向量的位置层级为所述初始位置层级;当所述初始位置层级等于所述层级数量时,确定所述目标词向量的位置层级为所述位置层级的最高级;所述初始位置层级根据所述目标词向量的所述位置和所述层级步长得到;所述层级数量的最小值为2,最大值小于所述目标词向量的数量;
预估文本类别获取单元,适于根据各个所述目标词向量和分别与其对应的所述层级向量,获取所述训练分类文本的训练位置文本矩阵,并基于所述训练位置文本矩阵获取所述训练分类文本的预估文本类别;
训练后的文本分类模型获取单元,适于得到所述文本类别数据集的各个训练分类文本的预估文本类别时,获取所述文本类别数据集的预估分类类别的准确率,根据所述准确率调整所述文本分类模型的参数,直至所述准确率达到准确率阈值,得到训练后的文本分类模型,其中,所述准确率为所述预估文本类别与所述实际文本类别相同的所述训练分类文本在所述文本类别数据集中的占比。
18.根据权利要求17所述的文本分类模型训练装置,其特征在于,所述层级向量获取单元,适于基于所述词向量数量、各个所述目标词向量在所述训练分类文本中的位置和预定的位置层级的层级数量,获取各个所述目标词向量的位置层级和层级向量包括:
基于词向量数量和所述训练分类文本,确定各个所述目标词向量在所述训练分类文本中的位置;
基于所述层级数量、所述词向量数量和各个所述目标词向量在所述训练分类文本中的位置,确定各个所述目标词向量的位置层级;
根据所述位置层级,获取各个所述目标词向量的层级向量。
19.根据权利要求18所述的文本分类模型训练装置,其特征在于,所述层级向量获取单元,适于基于所述层级数量、所述词向量数量和各个所述目标词向量在所述训练分类文本中的位置,确定各个所述目标词向量的位置层级包括:
利用所述层级数量和所述词向量数量确定层级步长;
根据各个所述目标词向量的位置和所述层级步长,确定各个所述目标词向量的位置层级。
20.根据权利要求19所述的文本分类模型训练装置,其特征在于,所述层级向量获取单元,适于根据各个所述目标词向量的位置和所述层级步长,确定各个所述目标词向量的位置层级包括:
当根据所述目标词向量的所述位置和所述层级步长,得到的初始位置层级低于所述层级数量时,确定所述目标词向量的位置层级为所述初始位置层级;
当根据所述目标词向量的所述位置和所述层级步长,得到的初始位置层级等于所述层级数量时,确定所述目标词向量的位置层级为所述位置层级的最高级。
21.根据权利要求17-20任一项所述的文本分类模型训练装置,其特征在于,所述目标词向量及词向量数量获取单元,适于获取所述训练分类文本的各个目标词向量的步骤包括:
根据所述训练分类文本获取所述训练分类文本的各个初始词向量和各个目标字向量;
将各个所述初始词向量和分别与其对应的所述目标字向量进行融合,得到所述目标词向量。
22.根据权利要求21所述的文本分类模型训练装置,其特征在于,所述目标词向量及词向量数量获取单元,适于根据所述训练分类文本获取所述训练分类文本的各个初始词向量和各个目标字向量包括:
根据所述训练分类文本获取所述训练分类文本的各个所述初始词向量和各个初始字向量;
根据各个所述初始词向量确定分别其对应的所述初始字向量,得到各个对应初始字向量;
将对应于同一所述初始词向量的各个所述对应初始字向量的进行融合,得到对应于所述初始词向量的所述目标字向量,直至完成所述训练分类文本的全部所述初始词向量的目标字向量的获取,得到各个所述目标字向量。
23.根据权利要求17-20任一项所述的文本分类模型训练装置,其特征在于,所述文本类别数据集获取单元,适于获取用于分类训练的文本类别数据集的步骤包括:
获取用于分类训练的文本类别原始数据集,所述文本类别原始数据集的各个文本类别数据均包括训练分类原始文本和与所述训练分类原始文本对应的实际文本类别;
根据所述实际文本类别,确定与各个实际文本类别对应的实际类别原始数据集,以及各个实际类别原始数据集的文本量;
根据所述文本量获取待调整数据集,对所述待调整数据集进行数据增强,得到增强数据集,其中,所述待调整数据集为所述文本量不满足数据量阈值要求的实际类别原始数据集;
合并所述增强数据集与确定数据集,得到所述文本类别数据集,其中,所述确定数据集为所述文本量满足数据量阈值要求的实际类别原始数据集。
24.根据权利要求23所述的文本分类模型训练装置,其特征在于,所述文本类别数据集获取单元,适于对所述待调整数据集进行数据增强,得到增强数据集包括:
对文本量大于所述数据量阈值的所述待调整数据集进行下采样,得到第一增强数据集;
对文本量小于所述数据量阈值的所述待调整数据集进行数据增加,得到第二增强数据集;
合并所述第一增强数据集和所述第二增强数据集,得到所述增强数据集。
25.根据权利要求24所述的文本分类模型训练装置,其特征在于,所述文本类别数据集获取单元,适于对文本量小于所述数据量阈值的所述待调整数据集进行数据增加,得到第二增强数据集包括:
对所述文本量小于所述数据量阈值的所述待调整数据集的训练分类原始文本进行调整,得到调整数据集;
将所述调整数据集添加至所述待调整数据集,得到所述第二增强数据集。
26.根据权利要求25所述的文本分类模型训练装置,其特征在于,所述文本类别数据集获取单元,适于对所述文本量小于所述数据量阈值的所述待调整数据集的训练分类原始文本进行调整,得到调整数据集包括:
对所述文本量小于所述数据量阈值的所述待调整数据集的训练分类原始文本的数字进行随机替换;
对所述文本量小于所述数据量阈值的所述待调整数据集中,预定比例的训练分类原始文本的文本词进行随机修改;
或者
对所述文本量小于所述数据量阈值的所述待调整数据集中,预定比例的训练分类原始文本的文本字进行随机修改。
27.根据权利要求23所述的文本分类模型训练装置,其特征在于,所述文本类别数据集获取单元,适于获取用于分类训练的文本类别原始数据集包括:
获取各个所述训练分类原始文本;
利用地图信息面属性获取各个所述训练分类原始文本的实际文本类别,得到所述文本类别原始数据集。
28.根据权利要求27所述的文本分类模型训练装置,其特征在于,所述文本类别数据集获取单元,适于利用地图信息面属性获取各个所述训练分类原始文本的实际文本类别包括:
利用地图信息面属性获取各个所述训练分类原始文本的地图实际文本类别;
根据预定分类类别调整或修改所述地图实际文本类别,得到所述实际文本类别。
29.根据权利要求17-20任一项所述的文本分类模型训练装置,其特征在于,所述文本类别数据集获取单元,适于获取用于分类训练的文本类别数据集包括:
获取用于分类训练的文本类别原始数据集和文本分类的噪声词,所述文本类别原始数据集的各个文本类别数据均包括训练分类原始文本和与所述训练分类原始文本对应的实际文本类别;
利用所述噪声词去除各个所述训练分类原始文本中的对应词,得到各个所述训练分类文本和所述文本类别数据集。
30.根据权利要求17-20任一项所述的文本分类模型训练装置,其特征在于,还包括:
噪声词获取单元,适于获取文本分类的噪声词;
所述预估文本类别获取单元,适于基于所述训练位置文本矩阵获取所述训练分类文本的预估文本类别包括:
根据所述噪声词调整所述位置文本矩阵,得到调整后的位置文本矩阵;
根据所述调整后的位置文本矩阵获取所述训练分类文本的预估文本类别。
31.一种文本分类装置,其特征在于,包括:
分类文本获取单元,适于获取待分类的分类文本;
文本类别获取单元,适于利用文本分类模型,获取所述分类文本的文本类别,所述文本分类模型为权利要求1-14任一项所述的文本分类模型训练方法训练后的模型。
32.根据权利要求31所述的文本分类装置,其特征在于,所述文本类别获取单元,适于利用文本分类模型,获取所述分类文本的文本类别包括:
获取所述分类文本的各个目标词向量,并获取所述分类文本的目标词向量的词向量数量;
基于所述词向量数量、各个所述目标词向量在所述分类文本中的位置和预定的位置层级的层级数量,获取各个所述目标词向量的位置层级和层级向量,所述层级数量的最小值为2,最大值小于所述目标词向量的数量;
根据各个所述目标词向量和分别与其对应的所述层级向量,获取所述分类文本的位置文本矩阵,并基于所述位置文本矩阵获取所述分类文本的文本类别。
33.一种电子设备,其特征在于,包括至少一个存储器和至少一个处理器,所述存储器存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如权利要求1-14任一项所述的文本分类模型训练方法或如权利要求15或16所述的文本分类方法。
34.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储一条或多条计算机指令,所述一条或多条计算机指令用于实现如权利要求1-14任一项所述的文本分类模型训练方法或如权利要求15或16所述的文本分类方法。
CN202010137753.2A 2020-03-02 2020-03-02 文本分类模型训练方法、文本分类方法及相关装置 Active CN111382269B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010137753.2A CN111382269B (zh) 2020-03-02 2020-03-02 文本分类模型训练方法、文本分类方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010137753.2A CN111382269B (zh) 2020-03-02 2020-03-02 文本分类模型训练方法、文本分类方法及相关装置

Publications (2)

Publication Number Publication Date
CN111382269A CN111382269A (zh) 2020-07-07
CN111382269B true CN111382269B (zh) 2021-07-23

Family

ID=71217153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010137753.2A Active CN111382269B (zh) 2020-03-02 2020-03-02 文本分类模型训练方法、文本分类方法及相关装置

Country Status (1)

Country Link
CN (1) CN111382269B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182230B (zh) * 2020-11-27 2021-03-16 北京健康有益科技有限公司 一种基于深度学习的文本数据分类方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055673A (zh) * 2016-06-06 2016-10-26 中国人民解放军国防科学技术大学 一种基于文本特征嵌入的中文短文本情感分类方法
CN109960726A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 文本分类模型构建方法、装置、终端及存储介质
CN110377742A (zh) * 2019-07-23 2019-10-25 腾讯科技(深圳)有限公司 文本分类评测方法、装置、可读存储介质和计算机设备
CN110399488A (zh) * 2019-07-05 2019-11-01 深圳和而泰家居在线网络科技有限公司 文本分类方法及装置
CN110427614A (zh) * 2019-07-16 2019-11-08 深圳追一科技有限公司 段落层级的构建方法、装置、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9582486B2 (en) * 2014-05-13 2017-02-28 Lc Cns Co., Ltd. Apparatus and method for classifying and analyzing documents including text
US11544306B2 (en) * 2015-09-22 2023-01-03 Northern Light Group, Llc System and method for concept-based search summaries
CN109522557B (zh) * 2018-11-16 2021-07-16 中山大学 文本关系抽取模型的训练方法、装置及可读存储介质
CN110781663B (zh) * 2019-10-28 2023-08-29 北京金山数字娱乐科技有限公司 文本分析模型的训练方法及装置、文本分析方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055673A (zh) * 2016-06-06 2016-10-26 中国人民解放军国防科学技术大学 一种基于文本特征嵌入的中文短文本情感分类方法
CN109960726A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 文本分类模型构建方法、装置、终端及存储介质
CN110399488A (zh) * 2019-07-05 2019-11-01 深圳和而泰家居在线网络科技有限公司 文本分类方法及装置
CN110427614A (zh) * 2019-07-16 2019-11-08 深圳追一科技有限公司 段落层级的构建方法、装置、电子设备及存储介质
CN110377742A (zh) * 2019-07-23 2019-10-25 腾讯科技(深圳)有限公司 文本分类评测方法、装置、可读存储介质和计算机设备

Also Published As

Publication number Publication date
CN111382269A (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
CN109492180A (zh) 资源推荐方法、装置、计算机设备及计算机可读存储介质
US9348898B2 (en) Recommendation system with dual collaborative filter usage matrix
CN108320213A (zh) 电商商品推荐方法和电商平台服务器
CN110413877A (zh) 一种资源推荐方法、装置及电子设备
CN109460512A (zh) 推荐信息处理方法、装置、设备及存储介质
CN107341173A (zh) 一种信息处理方法及装置
CN110033382B (zh) 一种保险业务的处理方法、装置及设备
CN108885762B (zh) 用于在数据市场中分配价格发现机制的方法和系统
CN111695938B (zh) 产品推送方法及系统
CN108734587A (zh) 金融产品的推荐方法及终端设备
CN109615504A (zh) 产品推荐方法、装置、电子设备和计算机可读存储介质
CN107273391A (zh) 文书推荐方法和装置
CN107515896A (zh) 一种资源推荐方法、装置及设备
CN113407854A (zh) 一种应用推荐方法、装置、设备及计算机可读存储介质
CN107391540A (zh) 一种小程序展示方法、装置及分类器
CN104572932B (zh) 一种兴趣标签的确定方法及装置
CN111382269B (zh) 文本分类模型训练方法、文本分类方法及相关装置
CN110516713A (zh) 一种目标群体识别方法、装置及设备
CN112149708A (zh) 数据模型选择优化方法、装置、计算机装置及存储介质
CN113343109A (zh) 榜单推荐方法、计算设备及计算机存储介质
CN108805290B (zh) 一种实体类别的确定方法及装置
CN108595395B (zh) 一种昵称的生成方法、装置及设备
CN113536111B (zh) 保险知识内容的推荐方法、装置和终端设备
CN111611481A (zh) 书籍推荐方法、计算设备及计算机存储介质
CN107665443A (zh) 获取目标用户的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant