CN113312899B - 文本分类方法、装置和电子设备 - Google Patents

文本分类方法、装置和电子设备 Download PDF

Info

Publication number
CN113312899B
CN113312899B CN202110683108.5A CN202110683108A CN113312899B CN 113312899 B CN113312899 B CN 113312899B CN 202110683108 A CN202110683108 A CN 202110683108A CN 113312899 B CN113312899 B CN 113312899B
Authority
CN
China
Prior art keywords
text
data
determining
category
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110683108.5A
Other languages
English (en)
Other versions
CN113312899A (zh
Inventor
汪硕芃
张林箭
宋有伟
张聪
范长杰
胡志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202110683108.5A priority Critical patent/CN113312899B/zh
Publication of CN113312899A publication Critical patent/CN113312899A/zh
Application granted granted Critical
Publication of CN113312899B publication Critical patent/CN113312899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文本分类方法、装置和电子设备,将待分类文本输入至训练好的文本分类模型,得到待分类文本的文本类别;文本分类模型的训练方式为:基于统计频率高于预设阈值的文本数据和/或语义相似度满足预设条件的文本数据,确定多个文本类别和每个文本类别的属性规则;基于确定的文本类别和文本类别的属性规则,标注多个样本文本,再基于携带有标注信息的多个样本文本对初始模型进行训练,得到文本分类模型。该方式根据选取的少量具有代表性的未标注的文本数据,人工总结得到文本类别和文本类的属性规则,进而根据总结得到的规则自动标注文本,以得到标注准确率较高的标注文本,从而使得根据标注文本训练得到的文本分类模型的分类准确率较高。

Description

文本分类方法、装置和电子设备
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种文本分类方法、装置和电子设备。
背景技术
文本分类任务通常是指基于已有的文本类别对文本进行推断,得出该文本所属的类别。常见的文本分类任务有情感分类问题、文本敏感信息检测等。在实际应用中,大多采用基于神经网络的文本分类模型对文本进行分类,为了使模型达到一定的分类准确度,需要使用包含有大量的标注文本的训练数据集对文本分类模型进行训练,其中,该标注文本中携带有类别标签。
相关技术中,为了得到大量的标注文本提供了三种对未标注文本进行标注的方式,第一种是人工对大量未标注文本进行标注;第二种是采用字符替换的方式对已标注文本中的关键词进行替换,来扩充标注文本;第三种是采用回译的方式对已少量标注的文本进行数据增强,以扩充标注文本。但是,后两种方式得到的标注文本的标注准确率较低,会影响模型的分类准确度,第一种方式虽然可以保证标注文本的准确性,但需要消耗大量的人力和财力。
发明内容
本发明的目的在于提供一种文本分类方法、装置和电子设备,以在尽可能少的人工标注下,提高模型识别文本类别的准确性。
第一方面,本发明提供了一种文本分类方法,该方法包括:将获取的待分类文本输入至预先训练完成的文本分类模型中,得到输出结果;基于该输出结果确定待分类文本的文本类别;其中,文本分类模型通过下述方式训练得到:基于统计频率高于预设阈值的文本数据和/或语义相似度满足预设条件的文本数据,确定多个文本类别以及每个文本类别对应的属性规则;基于多个文本类别以及每个文本类别对应的属性规则,对多个样本文本进行标注,得到每个样本文本对应的标注信息;基于携带有标注信息的多个样本文本,对初始模型进行训练,得到文本分类模型。
在可选的实施方式中,上述基于统计频率高于预设阈值的文本数据,确定多个文本类别以及每个文本类别对应的属性规则的步骤,包括:获取包含有多个本文数据的数据集;对数据集中每个文本数据在数据集中出现的频次进行统计,得到每个文本数据的统计频率;将统计频率高于预设阈值的文本数据确定为第一目标数据;根据第一目标数据,确定多个文本类别以及每个文本类别对应的属性规则。
在可选的实施方式中,上述基于语义相似度满足预设条件的文本数据,确定多个文本类别以及每个文本类别对应的属性规则的步骤,包括:获取包含有多个本文数据的数据集;对数据集中的每个文本数据进行语义分析,得到每个文本数据的语义向量;基于语义向量确定多个文本数据之间的语义相似度,将语义相似度满足预设条件的文本数据,确定为第二目标数据;根据第二目标数据,确定多个文本类别以及每个文本类别对应的属性规则。
在可选的实施方式中,上述对数据集中的每个文本数据进行语义分析,得到每个文本数据的语义向量的步骤,包括:针对每个文本数据,将文本数据输入至预设的语言模型中,得到文本数据对应的语义向量。
在可选的实施方式中,上述将语义相似度满足预设条件的文本数据,确定为第二目标数据的步骤,包括:将语义相似度在指定范围内的文本数据确定为一个聚类簇,得到多个聚类簇;从多个聚类簇中,选取包含文本数据的数量高于预设数量阈值的目标聚类簇;从每个目标聚类簇中选取一个文本数据作为第二目标数据。
在可选的实施方式中,上述从每个目标聚类簇中选取一个文本数据作为第二目标数据的步骤,包括:针对每个目标聚类簇执行下述操作:计算目标聚类簇中的文本数据的语义向量的平均值;将目标聚类簇中与平均值的距离最小的语义向量对应的文本数据,确定为第二目标数据。
在可选的实施方式中,上述基于统计频率高于预设阈值的文本数据和语义相似度满足预设条件的文本数据,确定多个文本类别以及每个文本类别对应的属性规则的步骤,包括:对数据集中除第一目标数据之外的第一数据进行语义分析,得到每个第一数据的语义向量;基于语义向量确定多个第一数据之间的语义相似度,将语义相似度满足预设条件的第一数据,确定为第三目标数据;根据第一目标数据和第三目标数据,确定多个文本类别以及每个文本类别对应的属性规则。
在可选的实施方式中,上述根据第一目标数据和第三目标数据,确定多个文本类别以及每个文本类别对应的属性规则的步骤,包括:响应用户针对于第一目标数据和第三目标数据总结的多个文本类别,以及每个文本类别对应的属性规则的提交指令,得到多个文本类别以及每个文本类别对应的属性规则。
在可选的实施方式中,上述基于多个文本类别以及每个文本类别对应的属性规则,对多个样本文本进行标注,得到每个样本文本对应的标注信息的步骤,包括:基于多个文本类别以及每个文本类别对应的属性规则,对个样本文本进行标注;如果样本文本的属性与所述属性规则中的一个属性规则相匹配,将样本文本的标注信息设置为相匹配的属性规则对应的文本类别;如果样本文本的属性与多个属性规则均不匹配时,将样本文本的标注信息设备为指定类别。
在可选的实施方式中,上述基于携带有标注信息的多个样本文本,对初始模型进行训练,得到文本分类模型的步骤之后,上述方法还包括:基于多个未标注文本,确定文本分类模型的分类准确度;判断分类准确度是否达到预设准确度阈值;如果未达到,继续基于携带有标注信息的多个样本文本和所述多个未标注文本,对文本分类模型进行训练,直到文本分类模型的分类准确度达到预设准确度阈值,得到最终的文本分类模型。
在可选的实施方式中,所述基于多个未标注文本,确定文本分类模型的分类准确度的步骤,包括:将多个未标注文本中的每个未标注文本依次输入至文本分类模型中,得到每个未标注文本的分类预测结果;从分类预测结果不属于多个文本类别的未标注文本中,确定多个目标文本;响应针对于多个目标文本的标注操作,得到每个目标文本的标注信息;基于携带有标注信息的多个目标文本,确定文本分类模型的分类准确度。
在可选的实施方式中,上述基于携带有标注信息的多个样本文本和多个未标注文本,对文本分类模型进行训练的步骤,包括:基于携带有标注信息的多个样本文本和携带有标注信息的多个目标文本,对文本分类模型进行训练。
第二方面,本发明提供了一种文本分类装置,该装置包括:类别识别模块,用于:将获取的待分类文本输入至预先训练完成的文本分类模型中,得到输出结果;基于该输出结果确定待分类文本的文本类别;模型训练模块,用于:基于统计频率高于预设阈值的文本数据和/或语义相似度满足预设条件的文本数据,确定多个文本类别以及每个文本类别对应的属性规则;基于多个文本类别以及每个文本类别对应的属性规则,对多个样本文本进行标注,得到每个样本文本对应的标注信息;基于携带有标注信息的多个样本文本,对初始模型进行训练,得到文本分类模型。
第三方面,本发明提供了一种电子设备,该电子设备包括处理器和存储器,该存储器存储有能够被处理器执行的机器可执行指令,该处理器执行机器可执行指令以实现前述实施方式任一项所述的文本分类方法。
第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,该计算机可执行指令促使处理器实现前述实施方式任一项所述的文本分类方法。
本发明实施例带来了以下有益效果:
本发明提供的一种文本分类方法、装置和电子设备,首先将获取的待分类文本输入至预先训练完成的文本分类模型中,得到输出结果;再基于该输出结果确定待分类文本的文本类别;其中,文本分类模型的训练方式为:基于统计频率高于预设阈值的文本数据和/或语义相似度满足预设条件的文本数据,确定多个文本类别以及每个文本类别对应的属性规则;基于多个文本类别以及每个文本类别对应的属性规则,对多个样本文本进行标注,得到每个样本文本对应的标注信息;然后基于携带有标注信息的多个样本文本,对初始模型进行训练,得到文本分类模型。该方式根据选取的少量具有代表性的未标注的文本数据,人工总结得到多个文本类别和每个文本类的属性规则,进而根据总结得到的规则自动标注文本,以在少量人工参与的情况下得到标注准确率较高的文本,减少了人力和财力资源的消耗。另外,根据标注准确率较高的文本训练得到的文本分类模型的分类准确率也较高。
本发明的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本发明的上述技术即可得知。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施方式,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文本分类方法的流程图;
图2为本发明实施例提供的一种文本分类模型的训练方法的流程图;
图3为本发明实施例提供的另一种文本分类模型的训练方法的流程图;
图4为本发明实施例提供的另一种文本分类模型的训练方法的流程图;
图5为本发明实施例提供的另一种文本分类模型的训练方法的流程图;
图6为本发明实施例提供的一种文本分类装置的结构示意图;
图7为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于基于神经网络的模型训练过程,都是基于数据驱动的,即在模型训练过程中需要使用大量的带有类别标签的标注文本。相关技术中,为了得到大量的标注文本,提供了三种对未标注文本进行标注的方式,第一种是人工对大量未标注文本进行标注;第二种是采用字符替换的方式对已标注文本中的关键词进行替换,来扩充标注文本;第三种是采用回译的方式对已少量标注的文本进行数据增强,以扩充标注文本。其中,回译通常是指采用将源语言翻译到英语(或者其他语言),再从英语翻译回源语言的过程,由于语言本身存在一定表述特性,翻译回来的句子一般与原句并不相同,这样得到的句子句式可能也会有一定变化,从而达到数据增强的目的。
但是,上述第一种方式需要消耗大量的人力和财力。上述第二种方式在文本中,如果对文本的字符进行替换很有可能会产生一定的歧义,导致标注本身的准确率不高,且很难去把握究竟替换哪些关键词才算替换成功,由于是采用替换字符的方式,句式本身没有变化,可能导致模型很难学习到一些特定句式的变换,例如,标注文本中有:我喜欢你,文本类别为高兴;对于文本为:我很难不去喜欢你,模型就较难进行泛化得到该文本的文本类别也为高兴。上述第三种方式在回译过程中,由于均是利用现有的机器翻译模型进行来回翻译,容易出现的问题是极其依赖已有的翻译模型的效果,如果翻译模型准确率不高,经常会出现产生的回译句子语序错乱、没有逻辑的现象,导致下游训练的模型产生误差,从而影响模型的分类准确度。
由上可知,相关技术中提供的方案均存在一定的问题,纯粹依赖人力,可以保证标注结果的准确率,但需要消耗大量的人力和财力成本,如果数据增强纯粹为基于无人力介入的方案,那么得到的标注文本的质量较低,导致训练得到的模型的分类准确率较差。
基于上述问题,本发明实施例提供了一种文本分类方法、装置和电子设备,该方法可以应用于各种文本分类模型的训练场景,以及各种文本的分类场景中。为便于对本实施例进行理解,首先对本发明实施例所公开的一种文本分类方法进行详细介绍,如图1所示,该方法包括如下具体步骤:
步骤S102,获取待分类文本。
上述待分类文本可以是用户通过通信连接的终端设备上传的文本,也可以是从存储有大量的文本的存储设备中获取的。该待分类文本中可以包含有文字、符号、字母等内容。
步骤S104,将获取的待分类文本输入至预先训练完成的文本分类模型中,得到输出结果;基于该输出结果确定待分类文本的文本类别。
在具体实现时,上述文本分类模型通过下述方式训练得到:首先基于统计频率高于预设阈值的文本数据和/或语义相似度满足预设条件的文本数据,确定多个文本类别以及每个文本类别对应的属性规则;基于多个文本类别以及每个文本类别对应的属性规则,对多个样本文本进行标注,得到每个样本文本对应的标注信息;基于携带有标注信息的多个样本文本,对初始模型进行训练,得到文本分类模型。
上述统计频率高于预设阈值的文本数据通常是预先获取的、包含有大量未标注的文本数据的数据集中的文本数据;同样地,上述语义相似度满足预设条件的文本数据也是上述数据集中的文本数据。具体地,上述统计频率是指某一文本数据在上述数据集中出现的次数,也即是出现次数越多,统计频率越高;上述预设阈值可以根据用户需求设置,例如,预设阈值可以设置为20或者10等。上述语义相似度是指上述数据集中文本数据的语义之间的相似程度,上述预设条件也可以根据用户需求设置,例如,可以设置为语义相似度高于预设值的文本数据,也可以设置为语义相似最多的文本数据等。
在具体实现时,可以将统计频率高于预设阈值的文本数据和语义相似度满足预设条件的文本数据,确定为待总结规则的文本数据,也可以将二者其中之一确定为待总结规则的文本数据。用户(也可称为标注人员)能够根据待总结规则的文本数据,基于经验知识总结出多个文本类别,以及每个文本类别对应的属性规则,该属性规则可以是某一文本类别对应的文本数据的通用句式或者所包含的关键词等;该属性规则也即是用户总结得到的规则或者正则表达式等。在一些实施例中,也可以由机器自动总结出待总结规则的文本数据对应的多个文本类别中每个文本类别对应的属性规则。例如,假设文本类别为男性的文本数据有“我是帅哥”、“我是你师哥”和“我是一个帅哥”,根据这些文本数据可以得到如果属性规则为“我是xxxx哥”这一通用句式,且xxxx对应1到4个中文字符,则该属性规则对应的文本类别为男性。
上述样本文本可以是上述数据集中的文本数据,也可以是重新获取的未标注的文本数据。根据得到的多个文本类别和每个文本类别对应的属性规则,对样本文本进行标注,可以得到该样本文本对应的标注信息,也可以理解为得到样本文本对应的类别标签。然后根据携带有标注信息的多个样本文本,对文本分类模型的初始模型进行训练,得到文本分类模型。该初始模型可以是神经网络模型,也可以是深度学习模型。
在实际应用中,将待分类文本输入至训练完成的文本分类模型中,可以得到该待分类文本所属的文本类别。
本发明实施例提供的一种文本分类方法,首先将获取的待分类文本输入至预先训练完成的文本分类模型中,得到输出结果;再基于该输出结果确定待分类文本的文本类别;其中,文本分类模型的训练方式为:基于统计频率高于预设阈值的文本数据和/或语义相似度满足预设条件的文本数据,确定多个文本类别以及每个文本类别对应的属性规则;基于多个文本类别以及每个文本类别对应的属性规则,对多个样本文本进行标注,得到每个样本文本对应的标注信息;然后基于携带有标注信息的多个样本文本,对初始模型进行训练,得到文本分类模型。该方式根据选取的少量具有代表性的未标注的文本数据,人工总结得到多个文本类别和每个文本类的属性规则,进而根据总结得到的规则自动标注文本,以在少量人工参与的情况下得到标注准确率较高的文本,减少了人力和财力资源的消耗。另外,根据标注准确率较高的文本训练得到的文本分类模型的分类准确率也较高。
针对于上述文本分类方法的实施例,本发明实施例还提供了一种文本分类模型的训练方法,该文本分类模型为实现上述文本分类方法所使用的模型,如图2所示,该训练方法包括如下具体步骤:
步骤S202,获取包含有多个本文数据的数据集。
上述数据集中包含有大量的文本数据,该文本数据为未标注的文本。
步骤S204,对上述数据集中每个文本数据在数据集中出现的频次进行统计,得到每个文本数据的统计频率;将统计频率高于预设阈值的文本数据确定为第一目标数据。
在具体实现时,统计数据集中每个文本数据重复出现的频次,可得到每个文本数据的统计频率,然后将统计频率高于预设阈值的文本数据确定为第一目标数据,其中,该预设阈值可以是用户根据需求设置为固定值,也可以是根据统计频率从大到小的排序结果得到的某一排序位置对应的统计频率。例如,在得到每个文本数据的统计频率后,基于统计频率从大到小的顺序对数据集中的文本数据进行排序,将排序结果中排序在第500(这个数值可以根据用户需求设置)位的文本数据对应的统计频率确定为预设阈值,也即是将排序结果中排序靠前的前500个文本数据,确定为第一目标数据。
步骤S206,根据上述第一目标数据,确定多个文本类别以及每个文本类别对应的属性规则。
在具体实现时,上述步骤S206通常需要标注人员(也可称为用户)参与,以根据第一目标数据提取出多个文本类别和每个文本类别对应的属性规则,也即是上述步骤S206包括:响应用户针对于第一目标数据总结的多个文本类别,以及每个文本类别对应的属性规则的提交指令,得到多个文本类别以及每个文本类别对应的属性规则。具体地,该提交指令中包含有用户针对于第一目标数据总结规则得到的多个文本类别和每个文本类别对应的属性规则。
步骤S208,基于多个文本类别以及每个文本类别对应的属性规则,对多个样本文本进行标注,得到每个样本文本对应的标注信息。
由于上述多个文本类别和每个文本类别对应的属性规则是人工总结得到的,因而总结得到的规则具有极强的准确性。在对多个样本文本进行标注时,针对于上述总结得到的规则可以覆盖的样本文本,即可得到样本文本对应的准确的标注信息;但由于总结得到的规则是基于少量文本数据得到的,因而,多个样本文本中可能存在未被总结的规则覆盖的样本文本,该样本文本无法得到正确的文本类别,此时,可以为这些样本文本设置一个伪类别作为该样本文本的标注信息。具体地,基于多个文本类别以及每个文本类别对应的属性规则,对多个样本文本进行标注时,如果样本文本的属性与多个属性规则中的一个属性规则相匹配,将样本文本的标注信息设置为相匹配的属性规则对应的文本类别(相当于上述标注信息);如果样本文本的属性与多个属性规则均不匹配,将样本文本的标注信息设备为指定类别(相当于上述伪类别)。
在一些实施例中,假设上述多个样本文本为上述数据集中的文本数据,那么可以基于总结得到的文本类别以及每个文本类别对应的属性规则,对数据集中的每个文本数据进行标注,得到标注成功的文本数据设置的文本类别(该文本类别为相匹配的属性规则对应的文本类别);针对标注不成功的文本数据(相当于上述未被总结的规则覆盖的样本文本,也可以理解为样本文本的属性与多个属性规则均不匹配的样本文本),从中随机抽取一定数量的文本数据(在一些实施例中也可以直接使用所有的文本数据),为抽取的文本数据设置一个伪类别作为标注信息,合并标注成功的、携带有文本类别的文本数据和携带有伪类别的文本数据,从而得到训练集合,以便后续根据该训练集合对初始模型进行训练。
步骤S210,基于携带有标注信息的多个样本文本,对初始模型进行训练,得到文本分类模型。
上述文本分类模型的训练方法,首先获取包含有多个本文数据的数据集;再对数据集中每个文本数据在数据集中出现的频次进行统计,得到每个文本数据的统计频率,将统计频率高于预设阈值的文本数据确定为第一目标数据;进而根据第一目标数据确定多个文本类别以及每个文本类别对应的属性规则,并基于多个文本类别以及每个文本类别对应的属性规则对多个样本文本进行标注,得到每个样本文本对应的标注信息;再基于携带有标注信息的多个样本文本对初始模型进行训练,得到文本分类模型。该方式只需人工对少量文本数据总结规则,得到多个文本类别以及每个文本类别对应的属性规则,然后基于总结的规则对大量未标注的文本进行标注,从而提高了文本标注的准确性,也减少了文本标注的人力和财力成本,还可以提高基于标注文本训练得到的文本分类模型的分类准确度。
针对于上述文本分类方法的实施例,本发明实施例还提供了另一种文本分类模型的训练方法,该文本分类模型为实现上述文本分类方法所使用的模型,如图3所示,该训练方法包括如下具体步骤:
步骤S302,获取包含有多个本文数据的数据集。
步骤S304,对上述数据集中的每个文本数据进行语义分析,得到每个文本数据的语义向量。
在具体实现时可以采用的传统的语义分析方式或者预设的语义分析模型,得到每个文本数据的语义向量。具体地,可以针对数据集中的每个文本数据执行下述操作:将文本数据输入至预设的语言模型中,得到文本数据对应的语义向量(该语义向量用于表征第一数据的语义特征);该语言模型是预先训练好的,可以准确地对输入数据进行语义分析。
步骤S306,基于上述语义向量确定多个文本数据之间的语义相似度,将语义相似度满足预设条件的文本数据,确定为第二目标数据。
得到每个文本数据对应的语义向量后,根据每两个语义向量之间的距离,可以确定每两个文本数据之间的语义相似度,进而可以确定多个文本数据之间的语义相似度,然后将语义相似度满足预设条件的文本数据确定为第二目标数据。具体地,将语义相似度满足预设条件的文本数据,确定为第二目标数据的具体过程可以通过下述步骤10-12实现:
步骤10,将语义相似度在指定范围内的文本数据确定为一个聚类簇,得到多个聚类簇。上述指定范围可以根据用户需求设定。
步骤11,从多个聚类簇中,选取包含文本数据的数量高于预设数量阈值的目标聚类簇。
上述预设数量阈值可以是根据用户需求设定的某一固定值,例如,该预设数量阈值可以是20或者30等;该预设数量阈值还可以是按照聚类簇所包含的数据个数排序后得到的、某一排序位置对应的聚类簇所包含的数据个数,例如,基于聚类簇所包含的数据个数从多到少的顺序对多个聚类簇进行排序,将排序结果中排序位置为500(这个数值可以根据用户需求设置)的聚类簇所包含的数据个数确定为预设数量阈值,也即是可以将排序结果中排序靠前的前500个聚类簇,确定为目标聚类簇。
步骤12,从每个目标聚类簇中选取一个文本数据作为第二目标数据。
在具体实现时,可以从每个目标聚类簇中随机选择一个文本数据作为第二目标数据,进而得到多个第二目标数据,该第二目标数据的数量与目标聚类簇的数量相同。
在一些实施例中,还可以针对每个目标聚类簇执行下述操作,得到第二目标数据:计算目标聚类簇中的文本数据的语义向量的平均值;将目标聚类簇中与平均值的距离最小的语义向量对应的文本数据,确定为第二目标数据。其中,目标聚类簇中与平均值的距离最小的语义向量对应的文本数据也可以称为簇中心数据。
步骤S308,根据第二目标数据,确定多个文本类别以及每个文本类别对应的属性规则。
步骤S310,基于多个文本类别以及每个文本类别对应的属性规则,对多个样本文本进行标注,得到每个样本文本对应的标注信息。
步骤S312,基于携带有标注信息的多个样本文本,对初始模型进行训练,得到文本分类模型。
上述文本分类模型的训练方法只需人工对少量文本数据总结规则,得到多个文本类别以及每个文本类别对应的属性规则,然后基于总结的规则对大量未标注的文本进行标注,从而提高了文本标注的准确性,也减少了文本标注的人力和财力成本,还可以提高基于标注文本训练得到的文本分类模型的分类准确度。
针对于上述文本分类方法的实施例,本发明实施例还提供了另一种文本分类模型的训练方法,该文本分类模型为实现上述文本分类方法所使用的模型,如图4所示,该训练方法包括如下具体步骤:
步骤S402,获取包含有多个本文数据的数据集。
上述数据集中包含有大量的文本数据,该文本数据为未标注的文本。
步骤S404,对上述数据集中每个文本数据在数据集中出现的频次进行统计,得到每个文本数据的统计频率;将统计频率高于预设阈值的文本数据确定为第一目标数据。
步骤S406,对数据集中除第一目标数据之外的第一数据进行语义分析,得到每个第一数据的语义向量;基于语义向量确定多个第一数据之间的语义相似度,将语义相似度满足预设条件的第一数据,确定为第三目标数据。
上述第一数据为数据集中除第一目标数据之外的文本数据,针对数据集中的每个第一数据进行语义分析,可得到每个第一数据对应的语义向量。具体地,可以针对数据集中除第一目标数据之外的每个第一数据执行下述操作:将第一数据输入至预设的语言模型中,得到第一数据对应的语义向量。
步骤S408,根据第一目标数据和第三目标数据,确定多个文本类别以及每个文本类别对应的属性规则。
在具体实现时,上述步骤S408通常需要标注人员(也可称为用户)参与,以根据第一目标数据和第二目标数据提取出多个文本类别和每个文本类别对应的属性规则,也即是上述步骤S408包括:响应用户针对于第一目标数据和第三目标数据总结的多个文本类别,以及每个文本类别对应的属性规则的提交指令,得到多个文本类别以及每个文本类别对应的属性规则。具体地,该提交指令中包含有用户针对于第一目标数据和第三目标数据总结规则得到的多个文本类别和每个文本类别对应的属性规则。
上述步骤S404-S406确定第一目标数据和第三目标数据的主要目的是对数据集中的大量未标注的文本数据进行无监督聚类,从而筛选出少量的出现频率高的且语义相似度高的文本数据,从而减轻后续对筛选的文本数据进行规则总结的人力成本,并且尽可能多的令总结的规则可以覆盖数据集中更多的文本数据。
步骤S410,基于多个文本类别以及每个文本类别对应的属性规则,对多个样本文本进行标注,得到每个样本文本对应的标注信息。
步骤S412,基于携带有标注信息的多个样本文本,对初始模型进行训练,得到文本分类模型。
上述文本分类模型的训练方法,首先获取包含有多个本文数据的数据集;再对数据集中每个文本数据在数据集中出现的频次进行统计,得到每个文本数据的统计频率,将统计频率高于预设阈值的文本数据确定为第一目标数据;进而对数据集中除第一目标数据之外的第一数据进行语义分析,得到每个第一数据的语义向量,基于语义向量确定多个第一数据之间的语义相似度,将语义相似度满足预设条件的第一数据,确定为第三目标数据;然后根据第一目标数据和第三目标数据,确定多个文本类别以及每个文本类别对应的属性规则,并基于多个文本类别以及每个文本类别对应的属性规则对多个样本文本进行标注,得到每个样本文本对应的标注信息;再基于携带有标注信息的多个样本文本对初始模型进行训练,得到文本分类模型。该方式只需人工对少量文本数据总结规则,得到多个文本类别以及每个文本类别对应的属性规则,然后基于总结的规则对大量未标注的文本进行标注,从而提高了文本标注的准确性,也减少了文本标注的人力和财力成本,还可以提高基于标注文本训练得到的文本分类模型的分类准确度。
针对于上述文本分类模型的训练方法的实施例,本发明实施例还提供了另一种文本分类模型的训练方法,该方法在上述训练方法的基础上实现,如图5所示,该训练方法包括如下具体步骤:
步骤S502,基于统计频率高于预设阈值的文本数据和语义相似度满足预设条件的文本数据,确定多个文本类别以及每个文本类别对应的属性规则。
步骤S504,基于多个文本类别以及每个文本类别对应的属性规则,对多个样本文本进行标注,得到每个样本文本对应的标注信息。
步骤S506,基于携带有标注信息的多个样本文本,对初始模型进行训练,得到文本分类模型。
上述步骤S502-S506的具体实现过程可以参见上述模型训练方法的实施例,在此不再赘述。
步骤S508,基于多个未标注文本,确定文本分类模型的分类准确度。
在具体实现时,上述步骤S508可以通过下述步骤20-23实现:
步骤20,将多个未标注文本中的每个未标注文本依次输入至文本分类模型中,得到每个未标注文本的分类预测结果。
上述多个未标注文本可以是上述数据集中所包含的已标注的样本文本之外的文本数据,还可以是重新获取的新的文本数据。在具体实现时,将未标注文本输入至文本分类模型中,可以得到该未标注文本对应的分类预测结果,该分类预测结果可以是上述得到的多个文本类别中的任意一个,也可以是除上述多个文本类别之外的其他结果。
步骤21,从分类预测结果不属于多个文本类别的未标注文本中,确定多个目标文本。
上述分类预测结果如果不属于多个文本类别中的任意一个,则说明该分类预测结果对应的未标注文本的属性规则与上述步骤S304总结得到的属性规则不一致。在具体实现时,可以从分类预测结果不属于多个文本类别的未标注文本中,随机确定指定数量的目标文本,该指定数量可以根据用户需求设置,一般不会设置较大值,例如,该指定数量可以设置为300或者200等。
步骤22,响应针对于多个目标文本的标注操作,得到每个目标文本的标注信息。也即是对多个目标文本进行人工标注,得到每个目标文本对应的准确的标注信息。
步骤23,基于携带有标注信息的多个目标文本,确定文本分类模型的分类准确度。
在具体实现时,首先从多个目标文本中选取一个测试文本,将该测试文本输入至文本分类模型中,可得到该测试文本对应的分类结果,将该分类结果与该目标文本对应的标注信息进行比对,如果分类结果与标注信息一致,确定该分类结果正确;否则,确定该分类结果错误。然后继续从多个目标文本中选取一个测试文本,直到多个目标文本均选取完毕,统计每个测试文本对应的分类结果的正确性,得到文本分类模型的分类准确度,例如,该分类准确度可以是分类结果正确的数量与总的测试文本的比值。
在一些实施例中,还可以基于携带有标注信息的多个目标文本和携带有多个标注信息的样本文本共同确定文本分类模型的分类准确度。
步骤S510,判断分类准确度是否达到预设准确度阈值;如果未达到,执行步骤S512;否则,结束。
上述预设准确度阈值可以根据用户需求设置,例如,可以设置为90%或者95%等。
步骤S512,基于携带有标注信息的多个样本文本和多个未标注文本,对文本分类模型进行训练,直到文本分类模型的分类准确度达到预设准确度阈值,得到最终的文本分类模型。
在具体实现时,可以基于携带有标注信息的多个样本文本和携带有标注信息的多个目标文本,对文本分类模型进行训练,得到训练后的文本分类模型;然后再基于上述步骤S508判断模型的分类准确度,此时,步骤S508中的未标注文本与上一次判断模型的分类准确度时所使用的文本不同。如果模型的分类准确度还是达不到预设准确度阈值会对文本分类模型进行再训练,直到模型的分类准确度达到预设准确度阈值,得到最终的文本分类模型。
上述文本分类模型的训练方法,该方式根据选取的少量具有代表性的未标注的文本数据,人工总结得到多个文本类别和每个文本类的属性规则,进而根据总结得到的规则自动标注文本,以在少量人工参与的情况下得到标注准确率较高的文本,减少了人力和财力资源的消耗。另外,本发明能够对基于标注文本训练得到的文本分类模型进行分类准确度分析,再分类准确度未达到预设准确度阈值时,需要对文本分类模型进行再训练,从而保证了训练完成的文本分类模型的分类准确度。
针对于上述方法实施例,本发明实施例还提供了一种文本分类装置,如图6所示,该装置包括:
类别识别模块60,用于:将获取的待分类文本输入至预先训练完成的文本分类模型中,得到输出结果;基于输出结果确定待分类文本的文本类别。
模型训练模块61,用于:基于统计频率高于预设阈值的文本数据和语义相似度满足预设条件的文本数据,确定多个文本类别以及每个文本类别对应的属性规则;基于多个文本类别以及每个文本类别对应的属性规则,对多个样本文本进行标注,得到每个样本文本对应的标注信息;基于携带有标注信息的多个样本文本,对初始模型进行训练,得到文本分类模型。
上述文本分类装置,首先将获取的待分类文本输入至预先训练完成的文本分类模型中,得到输出结果;再基于该输出结果确定待分类文本的文本类别;其中,文本分类模型的训练方式为:基于统计频率高于预设阈值的文本数据和/或语义相似度满足预设条件的文本数据,确定多个文本类别以及每个文本类别对应的属性规则;基于多个文本类别以及每个文本类别对应的属性规则,对多个样本文本进行标注,得到每个样本文本对应的标注信息;然后基于携带有标注信息的多个样本文本,对初始模型进行训练,得到文本分类模型。该方式根据选取的少量具有代表性的未标注的文本数据,人工总结得到多个文本类别和每个文本类的属性规则,进而根据总结得到的规则自动标注文本,以在少量人工参与的情况下得到标注准确率较高的文本,减少了人力和财力资源的消耗。另外,根据标注准确率较高的文本训练得到的文本分类模型的分类准确率也较高。
进一步地,上述模型训练模块61,包括:数据获取模块,用于获取包含有多个本文数据的数据集;频率统计模块,用于对数据集中每个文本数据在数据集中出现的频次进行统计,得到每个文本数据的统计频率;将统计频率高于预设阈值的文本数据确定为第一目标数据;规则总结模块,用于根据第一目标数据,确定多个文本类别以及每个文本类别对应的属性规则。
进一步地,上述模型训练模块61,还包括:语义分析模块,用于对数据集中的每个文本数据进行语义分析,得到每个文本数据的语义向量;相似度计算模块,用于基于语义向量确定多个文本数据之间的语义相似度,将语义相似度满足预设条件的文本数据,确定为第二目标数据;规则总结模块,用于根据第二目标数据,确定多个文本类别以及每个文本类别对应的属性规则。
具体地,上述语义分析模块,还用于:针对每个文本数据,将文本数据输入至预设的语言模型中,得到文本数据对应的语义向量。
具体地,上述相似度计算模块,还用于:将语义相似度在指定范围内的文本数据确定为一个聚类簇,得到多个聚类簇;从多个聚类簇中,选取包含文本数据的数量高于预设数量阈值的目标聚类簇;从每个目标聚类簇中选取一个文本数据作为第二目标数据。
在具体实现时,上述相似度计算模块,还用于:针对每个目标聚类簇执行下述操作:计算目标聚类簇中的文本数据的语义向量的平均值;将目标聚类簇中与平均值的距离最小的语义向量对应的文本数据,确定为第二目标数据。
在一些实施例中,上述模型训练模块61,还用于:对数据集中除第一目标数据之外的第一数据进行语义分析,得到每个第一数据的语义向量;基于语义向量确定多个第一数据之间的语义相似度,将语义相似度满足预设条件的第一数据,确定为第三目标数据;根据第一目标数据和第三目标数据,确定多个文本类别以及每个文本类别对应的属性规则。
上述模型训练模块61,还用于:响应用户针对于第一目标数据和第三目标数据总结的多个文本类别,以及每个文本类别对应的属性规则的提交指令,得到多个文本类别以及每个文本类别对应的属性规则。
在一些实施例中,上述模型训练模块61,还用于:基于多个文本类别以及每个文本类别对应的属性规则,对多个样本文本进行标注;如果样本文本的属性与多个属性规则中的一个属性规则相匹配,将样本文本的标注信息设置为相匹配的属性规则对应的文本类别;如果样本文本的属性与多个属性规则均不匹配,将样本文本的标注信息设备为指定类别。
在具体实现时,上述装置还包括再训练模块,用于:在基于携带有标注信息的多个样本文本,对初始模型进行训练,得到文本分类模型之后,基于多个未标注文本,确定文本分类模型的分类准确度;判断分类准确度是否达到预设准确度阈值;如果未达到,继续基于携带有标注信息的多个样本文本和多个未标注文本,对文本分类模型进行训练,直到文本分类模型的分类准确度达到预设准确度阈值,得到最终的文本分类模型。
进一步地,上述再训练模块,还用于:将多个未标注文本中的每个未标注文本依次输入至文本分类模型中,得到每个未标注文本的分类预测结果;从分类预测结果不属于多个文本类别的未标注文本中,确定多个目标文本;响应针对于多个目标文本的标注操作,得到每个目标文本的标注信息;基于携带有标注信息的多个目标文本,确定文本分类模型的分类准确度。
进一步地,上述再训练模块,还用于:基于携带有标注信息的多个样本文本和携带有标注信息的多个目标文本,对文本分类模型进行训练。
本发明实施例所提供的文本分类装置,其实现原理及产生的技术效果和前述文本分类方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明实施例还提供了一种电子设备,如图7所示,该电子设备包括处理器101和存储器100,该存储器100存储有能够被处理器101执行的机器可执行指令,该处理器101执行机器可执行指令以实现上述文本分类方法。
进一步地,图7所示的电子设备还包括总线102和通信接口103,处理器101、通信接口103和存储器100通过总线102连接。
其中,存储器100可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器100,处理器101读取存储器100中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,该计算机可执行指令促使处理器实现上述文本分类方法,具体实现可参见方法实施例,在此不再赘述。
本发明实施例所提供的文本分类方法、装置和电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (14)

1.一种文本分类方法,其特征在于,所述方法包括:
将获取的待分类文本输入至预先训练完成的文本分类模型中,得到输出结果;基于所述输出结果确定所述待分类文本的文本类别;
其中,所述文本分类模型通过下述方式训练得到:
基于统计频率高于预设阈值的文本数据和/或语义相似度满足预设条件的文本数据,确定多个文本类别以及每个所述文本类别对应的属性规则;
基于所述多个文本类别以及每个所述文本类别对应的属性规则,对所述多个样本文本进行标注;如果所述样本文本的属性与多个所述属性规则中的一个属性规则相匹配,将所述样本文本的标注信息设置为相匹配的属性规则对应的文本类别;如果所述样本文本的属性与多个所述属性规则均不匹配,将所述样本文本的标注信息设备为指定类别;
基于携带有标注信息的所述多个样本文本,对初始模型进行训练,得到所述文本分类模型。
2.根据权利要求1所述的方法,其特征在于,基于统计频率高于预设阈值的文本数据,确定多个文本类别以及每个所述文本类别对应的属性规则的步骤,包括:
获取包含有多个本文数据的数据集;
对所述数据集中每个文本数据在所述数据集中出现的频次进行统计,得到每个所述文本数据的统计频率;将所述统计频率高于所述预设阈值的文本数据确定为第一目标数据;
根据所述第一目标数据,确定多个文本类别以及每个所述文本类别对应的属性规则。
3.根据权利要求1所述的方法,其特征在于,基于语义相似度满足预设条件的文本数据,确定多个文本类别以及每个所述文本类别对应的属性规则的步骤,包括:
获取包含有多个本文数据的数据集;
对所述数据集中的每个文本数据进行语义分析,得到每个所述文本数据的语义向量;
基于所述语义向量确定多个所述文本数据之间的语义相似度,将所述语义相似度满足所述预设条件的文本数据,确定为第二目标数据;
根据所述第二目标数据,确定多个文本类别以及每个所述文本类别对应的属性规则。
4.根据权利要求3所述的方法,其特征在于,所述对所述数据集中的每个文本数据进行语义分析,得到每个所述文本数据的语义向量的步骤,包括:
针对每个所述文本数据,将所述文本数据输入至预设的语言模型中,得到所述文本数据对应的语义向量。
5.根据权利要求3所述的方法,其特征在于,所述将所述语义相似度满足所述预设条件的文本数据,确定为第二目标数据的步骤,包括:
将所述语义相似度在指定范围内的文本数据确定为一个聚类簇,得到多个聚类簇;
从所述多个聚类簇中,选取包含所述文本数据的数量高于预设数量阈值的目标聚类簇;从每个所述目标聚类簇中选取一个文本数据作为所述第二目标数据。
6.根据权利要求5所述的方法,其特征在于,所述从每个所述目标聚类簇中选取一个文本数据作为所述第二目标数据的步骤,包括:
针对每个所述目标聚类簇执行下述操作:
计算所述目标聚类簇中的所述文本数据的语义向量的平均值;
将所述目标聚类簇中与所述平均值的距离最小的语义向量对应的文本数据,确定为所述第二目标数据。
7.根据权利要求2所述的方法,其特征在于,基于统计频率高于预设阈值的文本数据和语义相似度满足预设条件的文本数据,确定多个文本类别以及每个所述文本类别对应的属性规则的步骤,包括:
对所述数据集中除所述第一目标数据之外的第一数据进行语义分析,得到每个所述第一数据的语义向量;基于所述语义向量确定多个所述第一数据之间的语义相似度,将所述语义相似度满足所述预设条件的第一数据,确定为第三目标数据;
根据所述第一目标数据和所述第三目标数据,确定多个文本类别以及每个所述文本类别对应的属性规则。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第一目标数据和所述第三目标数据,确定多个文本类别以及每个所述文本类别对应的属性规则的步骤,包括:
响应用户针对于所述第一目标数据和所述第三目标数据总结的多个文本类别,以及每个所述文本类别对应的属性规则的提交指令,得到所述多个文本类别以及每个所述文本类别对应的属性规则。
9.根据权利要求1所述的方法,其特征在于,所述基于携带有标注信息的所述多个样本文本,对初始模型进行训练,得到所述文本分类模型的步骤之后,所述方法还包括:
基于多个未标注文本,确定所述文本分类模型的分类准确度;
判断所述分类准确度是否达到预设准确度阈值;如果未达到,继续基于携带有标注信息的所述多个样本文本和所述多个未标注文本,对所述文本分类模型进行训练,直到所述文本分类模型的分类准确度达到所述预设准确度阈值,得到最终的文本分类模型。
10.根据权利要求9所述的方法,其特征在于,所述基于多个未标注文本,确定所述文本分类模型的分类准确度的步骤,包括:
将所述多个未标注文本中的每个所述未标注文本依次输入至所述文本分类模型中,得到每个所述未标注文本的分类预测结果;
从所述分类预测结果不属于所述多个文本类别的未标注文本中,确定多个目标文本;
响应针对于所述多个目标文本的标注操作,得到每个所述目标文本的标注信息;
基于携带有标注信息的所述多个目标文本,确定所述文本分类模型的分类准确度。
11.根据权利要求10所述的方法,其特征在于,所述基于携带有标注信息的所述多个样本文本和所述多个未标注文本,对所述文本分类模型进行训练的步骤,包括:
基于携带有标注信息的所述多个样本文本和携带有标注信息的所述多个目标文本,对所述文本分类模型进行训练。
12.一种文本分类装置,其特征在于,所述装置包括:
类别识别模块,用于:将获取的待分类文本输入至预先训练完成的文本分类模型中,得到输出结果;基于所述输出结果确定所述待分类文本的文本类别;
模型训练模块,用于:基于统计频率高于预设阈值的文本数据和/或语义相似度满足预设条件的文本数据,确定多个文本类别以及每个所述文本类别对应的属性规则;基于所述多个文本类别以及每个所述文本类别对应的属性规则,对所述多个样本文本进行标注;如果所述样本文本的属性与多个所述属性规则中的一个属性规则相匹配,将所述样本文本的标注信息设置为相匹配的属性规则对应的文本类别;如果所述样本文本的属性与多个所述属性规则均不匹配,将所述样本文本的标注信息设备为指定类别;基于携带有标注信息的所述多个样本文本,对初始模型进行训练,得到所述文本分类模型。
13.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1至11任一项所述的文本分类方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,所述计算机可执行指令促使所述处理器实现权利要求1至11任一项所述的文本分类方法。
CN202110683108.5A 2021-06-18 2021-06-18 文本分类方法、装置和电子设备 Active CN113312899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110683108.5A CN113312899B (zh) 2021-06-18 2021-06-18 文本分类方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110683108.5A CN113312899B (zh) 2021-06-18 2021-06-18 文本分类方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN113312899A CN113312899A (zh) 2021-08-27
CN113312899B true CN113312899B (zh) 2023-07-04

Family

ID=77379689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110683108.5A Active CN113312899B (zh) 2021-06-18 2021-06-18 文本分类方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN113312899B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114443849B (zh) * 2022-02-09 2023-10-27 北京百度网讯科技有限公司 一种标注样本选取方法、装置、电子设备和存储介质
CN115098680B (zh) * 2022-06-29 2024-08-09 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备、介质及程序产品
CN115827875B (zh) * 2023-01-09 2023-04-25 无锡容智技术有限公司 一种文本数据的处理终端查找方法
CN117574146B (zh) * 2023-11-15 2024-05-28 广州方舟信息科技有限公司 文本分类标注方法、装置、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400499A (zh) * 2020-03-24 2020-07-10 网易(杭州)网络有限公司 文档分类模型的训练方法、文档分类方法、装置及设备
CN111737438A (zh) * 2020-07-27 2020-10-02 恒生电子股份有限公司 基于文本相似度的数据处理方法、装置以及电子设备
CN112148877A (zh) * 2020-09-23 2020-12-29 网易(杭州)网络有限公司 语料文本的处理方法、装置及电子设备
CN112214605A (zh) * 2020-11-05 2021-01-12 腾讯科技(深圳)有限公司 一种文本分类方法和相关装置
CN112269877A (zh) * 2020-10-27 2021-01-26 维沃移动通信有限公司 数据标注方法及装置
CN112667803A (zh) * 2019-09-30 2021-04-16 北京国双科技有限公司 一种文本情感分类方法及装置
WO2021102754A1 (zh) * 2019-11-27 2021-06-03 深圳市欢太科技有限公司 数据处理方法、装置和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667803A (zh) * 2019-09-30 2021-04-16 北京国双科技有限公司 一种文本情感分类方法及装置
WO2021102754A1 (zh) * 2019-11-27 2021-06-03 深圳市欢太科技有限公司 数据处理方法、装置和存储介质
CN111400499A (zh) * 2020-03-24 2020-07-10 网易(杭州)网络有限公司 文档分类模型的训练方法、文档分类方法、装置及设备
CN111737438A (zh) * 2020-07-27 2020-10-02 恒生电子股份有限公司 基于文本相似度的数据处理方法、装置以及电子设备
CN112148877A (zh) * 2020-09-23 2020-12-29 网易(杭州)网络有限公司 语料文本的处理方法、装置及电子设备
CN112269877A (zh) * 2020-10-27 2021-01-26 维沃移动通信有限公司 数据标注方法及装置
CN112214605A (zh) * 2020-11-05 2021-01-12 腾讯科技(深圳)有限公司 一种文本分类方法和相关装置

Also Published As

Publication number Publication date
CN113312899A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN113312899B (zh) 文本分类方法、装置和电子设备
CN111177326B (zh) 基于精标注文本的关键信息抽取方法、装置及存储介质
CN106649603B (zh) 一种基于网页文本数据情感分类的指定信息推送方法
CN112270196A (zh) 实体关系的识别方法、装置及电子设备
CN107943911A (zh) 数据抽取方法、装置、计算机设备及可读存储介质
CN112347778A (zh) 关键词抽取方法、装置、终端设备及存储介质
CN113051356A (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN107341143A (zh) 一种句子连贯性判断方法及装置和电子设备
CN103593431A (zh) 网络舆情分析方法和装置
CN108170468A (zh) 一种自动检测注释和代码一致性的方法及其系统
CN110309301B (zh) 企业类别的分类方法、装置及智能终端
CN111966832A (zh) 评价对象的提取方法、装置和电子设备
CN113505786A (zh) 试题拍照评判方法、装置及电子设备
CN111291551B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN113806493A (zh) 一种用于互联网文本数据的实体关系联合抽取方法、装置
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN111475651A (zh) 文本分类方法、计算设备及计算机存储介质
CN107783958B (zh) 一种目标语句识别方法及装置
CN116029280A (zh) 一种文档关键信息抽取方法、装置、计算设备和存储介质
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN110717029A (zh) 一种信息处理方法和系统
CN110765872A (zh) 一种基于视觉特征的在线数学教育资源分类方法
CN115759059A (zh) 文本处理方法、装置、电子设备和可读存储介质
CN113297482B (zh) 基于多模型的搜索引擎数据的用户画像刻画方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant