CN113312899A - 文本分类方法、装置和电子设备 - Google Patents

文本分类方法、装置和电子设备 Download PDF

Info

Publication number
CN113312899A
CN113312899A CN202110683108.5A CN202110683108A CN113312899A CN 113312899 A CN113312899 A CN 113312899A CN 202110683108 A CN202110683108 A CN 202110683108A CN 113312899 A CN113312899 A CN 113312899A
Authority
CN
China
Prior art keywords
text
data
determining
category
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110683108.5A
Other languages
English (en)
Other versions
CN113312899B (zh
Inventor
汪硕芃
张林箭
宋有伟
张聪
范长杰
胡志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202110683108.5A priority Critical patent/CN113312899B/zh
Publication of CN113312899A publication Critical patent/CN113312899A/zh
Application granted granted Critical
Publication of CN113312899B publication Critical patent/CN113312899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文本分类方法、装置和电子设备,将待分类文本输入至训练好的文本分类模型,得到待分类文本的文本类别;文本分类模型的训练方式为:基于统计频率高于预设阈值的文本数据和/或语义相似度满足预设条件的文本数据,确定多个文本类别和每个文本类别的属性规则;基于确定的文本类别和文本类别的属性规则,标注多个样本文本,再基于携带有标注信息的多个样本文本对初始模型进行训练,得到文本分类模型。该方式根据选取的少量具有代表性的未标注的文本数据,人工总结得到文本类别和文本类的属性规则,进而根据总结得到的规则自动标注文本,以得到标注准确率较高的标注文本,从而使得根据标注文本训练得到的文本分类模型的分类准确率较高。

Description

文本分类方法、装置和电子设备
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种文本分类方法、装置 和电子设备。
背景技术
文本分类任务通常是指基于已有的文本类别对文本进行推断,得出该 文本所属的类别。常见的文本分类任务有情感分类问题、文本敏感信息检 测等。在实际应用中,大多采用基于神经网络的文本分类模型对文本进行 分类,为了使模型达到一定的分类准确度,需要使用包含有大量的标注文 本的训练数据集对文本分类模型进行训练,其中,该标注文本中携带有类 别标签。
相关技术中,为了得到大量的标注文本提供了三种对未标注文本进行 标注的方式,第一种是人工对大量未标注文本进行标注;第二种是采用字 符替换的方式对已标注文本中的关键词进行替换,来扩充标注文本;第三 种是采用回译的方式对已少量标注的文本进行数据增强,以扩充标注文本。 但是,后两种方式得到的标注文本的标注准确率较低,会影响模型的分类 准确度,第一种方式虽然可以保证标注文本的准确性,但需要消耗大量的人力和财力。
发明内容
本发明的目的在于提供一种文本分类方法、装置和电子设备,以在尽 可能少的人工标注下,提高模型识别文本类别的准确性。
第一方面,本发明提供了一种文本分类方法,该方法包括:将获取的 待分类文本输入至预先训练完成的文本分类模型中,得到输出结果;基于 该输出结果确定待分类文本的文本类别;其中,文本分类模型通过下述方 式训练得到:基于统计频率高于预设阈值的文本数据和/或语义相似度满足 预设条件的文本数据,确定多个文本类别以及每个文本类别对应的属性规 则;基于多个文本类别以及每个文本类别对应的属性规则,对多个样本文本进行标注,得到每个样本文本对应的标注信息;基于携带有标注信息的 多个样本文本,对初始模型进行训练,得到文本分类模型。
在可选的实施方式中,上述基于统计频率高于预设阈值的文本数据, 确定多个文本类别以及每个文本类别对应的属性规则的步骤,包括:获取 包含有多个本文数据的数据集;对数据集中每个文本数据在数据集中出现 的频次进行统计,得到每个文本数据的统计频率;将统计频率高于预设阈 值的文本数据确定为第一目标数据;根据第一目标数据,确定多个文本类 别以及每个文本类别对应的属性规则。
在可选的实施方式中,上述基于语义相似度满足预设条件的文本数据, 确定多个文本类别以及每个文本类别对应的属性规则的步骤,包括:获取 包含有多个本文数据的数据集;对数据集中的每个文本数据进行语义分析, 得到每个文本数据的语义向量;基于语义向量确定多个文本数据之间的语 义相似度,将语义相似度满足预设条件的文本数据,确定为第二目标数据; 根据第二目标数据,确定多个文本类别以及每个文本类别对应的属性规则。
在可选的实施方式中,上述对数据集中的每个文本数据进行语义分析, 得到每个文本数据的语义向量的步骤,包括:针对每个文本数据,将文本 数据输入至预设的语言模型中,得到文本数据对应的语义向量。
在可选的实施方式中,上述将语义相似度满足预设条件的文本数据, 确定为第二目标数据的步骤,包括:将语义相似度在指定范围内的文本数 据确定为一个聚类簇,得到多个聚类簇;从多个聚类簇中,选取包含文本 数据的数量高于预设数量阈值的目标聚类簇;从每个目标聚类簇中选取一 个文本数据作为第二目标数据。
在可选的实施方式中,上述从每个目标聚类簇中选取一个文本数据作 为第二目标数据的步骤,包括:针对每个目标聚类簇执行下述操作:计算 目标聚类簇中的文本数据的语义向量的平均值;将目标聚类簇中与平均值 的距离最小的语义向量对应的文本数据,确定为第二目标数据。
在可选的实施方式中,上述基于统计频率高于预设阈值的文本数据和 语义相似度满足预设条件的文本数据,确定多个文本类别以及每个文本类 别对应的属性规则的步骤,包括:对数据集中除第一目标数据之外的第一 数据进行语义分析,得到每个第一数据的语义向量;基于语义向量确定多 个第一数据之间的语义相似度,将语义相似度满足预设条件的第一数据, 确定为第三目标数据;根据第一目标数据和第三目标数据,确定多个文本 类别以及每个文本类别对应的属性规则。
在可选的实施方式中,上述根据第一目标数据和第三目标数据,确定 多个文本类别以及每个文本类别对应的属性规则的步骤,包括:响应用户 针对于第一目标数据和第三目标数据总结的多个文本类别,以及每个文本 类别对应的属性规则的提交指令,得到多个文本类别以及每个文本类别对 应的属性规则。
在可选的实施方式中,上述基于多个文本类别以及每个文本类别对应 的属性规则,对多个样本文本进行标注,得到每个样本文本对应的标注信 息的步骤,包括:基于多个文本类别以及每个文本类别对应的属性规则, 对个样本文本进行标注;如果样本文本的属性与所述属性规则中的一个属 性规则相匹配,将样本文本的标注信息设置为相匹配的属性规则对应的文 本类别;如果样本文本的属性与多个属性规则均不匹配时,将样本文本的标注信息设备为指定类别。
在可选的实施方式中,上述基于携带有标注信息的多个样本文本,对 初始模型进行训练,得到文本分类模型的步骤之后,上述方法还包括:基 于多个未标注文本,确定文本分类模型的分类准确度;判断分类准确度是 否达到预设准确度阈值;如果未达到,继续基于携带有标注信息的多个样 本文本和所述多个未标注文本,对文本分类模型进行训练,直到文本分类 模型的分类准确度达到预设准确度阈值,得到最终的文本分类模型。
在可选的实施方式中,所述基于多个未标注文本,确定文本分类模型 的分类准确度的步骤,包括:将多个未标注文本中的每个未标注文本依次 输入至文本分类模型中,得到每个未标注文本的分类预测结果;从分类预 测结果不属于多个文本类别的未标注文本中,确定多个目标文本;响应针 对于多个目标文本的标注操作,得到每个目标文本的标注信息;基于携带 有标注信息的多个目标文本,确定文本分类模型的分类准确度。
在可选的实施方式中,上述基于携带有标注信息的多个样本文本和多 个未标注文本,对文本分类模型进行训练的步骤,包括:基于携带有标注 信息的多个样本文本和携带有标注信息的多个目标文本,对文本分类模型 进行训练。
第二方面,本发明提供了一种文本分类装置,该装置包括:类别识别 模块,用于:将获取的待分类文本输入至预先训练完成的文本分类模型中, 得到输出结果;基于该输出结果确定待分类文本的文本类别;模型训练模 块,用于:基于统计频率高于预设阈值的文本数据和/或语义相似度满足预 设条件的文本数据,确定多个文本类别以及每个文本类别对应的属性规则; 基于多个文本类别以及每个文本类别对应的属性规则,对多个样本文本进 行标注,得到每个样本文本对应的标注信息;基于携带有标注信息的多个 样本文本,对初始模型进行训练,得到文本分类模型。
第三方面,本发明提供了一种电子设备,该电子设备包括处理器和存 储器,该存储器存储有能够被处理器执行的机器可执行指令,该处理器执 行机器可执行指令以实现前述实施方式任一项所述的文本分类方法。
第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存 储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和 执行时,该计算机可执行指令促使处理器实现前述实施方式任一项所述的 文本分类方法。
本发明实施例带来了以下有益效果:
本发明提供的一种文本分类方法、装置和电子设备,首先将获取的待 分类文本输入至预先训练完成的文本分类模型中,得到输出结果;再基于 该输出结果确定待分类文本的文本类别;其中,文本分类模型的训练方式 为:基于统计频率高于预设阈值的文本数据和/或语义相似度满足预设条件 的文本数据,确定多个文本类别以及每个文本类别对应的属性规则;基于 多个文本类别以及每个文本类别对应的属性规则,对多个样本文本进行标注,得到每个样本文本对应的标注信息;然后基于携带有标注信息的多个 样本文本,对初始模型进行训练,得到文本分类模型。该方式根据选取的 少量具有代表性的未标注的文本数据,人工总结得到多个文本类别和每个 文本类的属性规则,进而根据总结得到的规则自动标注文本,以在少量人 工参与的情况下得到标注准确率较高的文本,减少了人力和财力资源的消 耗。另外,根据标注准确率较高的文本训练得到的文本分类模型的分类准 确率也较高。
本发明的其他特征和优点将在随后的说明书中阐述,或者,部分特征 和优点可以从说明书推知或毫无疑义地确定,或者通过实施本发明的上述 技术即可得知。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实 施方式,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下 面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍, 显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普 通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获 得其他的附图。
图1为本发明实施例提供的一种文本分类方法的流程图;
图2为本发明实施例提供的一种文本分类模型的训练方法的流程图;
图3为本发明实施例提供的另一种文本分类模型的训练方法的流程图;
图4为本发明实施例提供的另一种文本分类模型的训练方法的流程图;
图5为本发明实施例提供的另一种文本分类模型的训练方法的流程图;
图6为本发明实施例提供的一种文本分类装置的结构示意图;
图7为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本 发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。 通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配 置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限 制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本 发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获 得的所有其他实施例,都属于本发明保护的范围。
由于基于神经网络的模型训练过程,都是基于数据驱动的,即在模型 训练过程中需要使用大量的带有类别标签的标注文本。相关技术中,为了 得到大量的标注文本,提供了三种对未标注文本进行标注的方式,第一种 是人工对大量未标注文本进行标注;第二种是采用字符替换的方式对已标 注文本中的关键词进行替换,来扩充标注文本;第三种是采用回译的方式 对已少量标注的文本进行数据增强,以扩充标注文本。其中,回译通常是 指采用将源语言翻译到英语(或者其他语言),再从英语翻译回源语言的过 程,由于语言本身存在一定表述特性,翻译回来的句子一般与原句并不相 同,这样得到的句子句式可能也会有一定变化,从而达到数据增强的目的。
但是,上述第一种方式需要消耗大量的人力和财力。上述第二种方式 在文本中,如果对文本的字符进行替换很有可能会产生一定的歧义,导致 标注本身的准确率不高,且很难去把握究竟替换哪些关键词才算替换成功, 由于是采用替换字符的方式,句式本身没有变化,可能导致模型很难学习 到一些特定句式的变换,例如,标注文本中有:我喜欢你,文本类别为高 兴;对于文本为:我很难不去喜欢你,模型就较难进行泛化得到该文本的 文本类别也为高兴。上述第三种方式在回译过程中,由于均是利用现有的 机器翻译模型进行来回翻译,容易出现的问题是极其依赖已有的翻译模型 的效果,如果翻译模型准确率不高,经常会出现产生的回译句子语序错乱、 没有逻辑的现象,导致下游训练的模型产生误差,从而影响模型的分类准 确度。
由上可知,相关技术中提供的方案均存在一定的问题,纯粹依赖人力, 可以保证标注结果的准确率,但需要消耗大量的人力和财力成本,如果数 据增强纯粹为基于无人力介入的方案,那么得到的标注文本的质量较低, 导致训练得到的模型的分类准确率较差。
基于上述问题,本发明实施例提供了一种文本分类方法、装置和电子 设备,该方法可以应用于各种文本分类模型的训练场景,以及各种文本的 分类场景中。为便于对本实施例进行理解,首先对本发明实施例所公开的 一种文本分类方法进行详细介绍,如图1所示,该方法包括如下具体步骤:
步骤S102,获取待分类文本。
上述待分类文本可以是用户通过通信连接的终端设备上传的文本,也 可以是从存储有大量的文本的存储设备中获取的。该待分类文本中可以包 含有文字、符号、字母等内容。
步骤S104,将获取的待分类文本输入至预先训练完成的文本分类模型 中,得到输出结果;基于该输出结果确定待分类文本的文本类别。
在具体实现时,上述文本分类模型通过下述方式训练得到:首先基于 统计频率高于预设阈值的文本数据和/或语义相似度满足预设条件的文本数 据,确定多个文本类别以及每个文本类别对应的属性规则;基于多个文本 类别以及每个文本类别对应的属性规则,对多个样本文本进行标注,得到 每个样本文本对应的标注信息;基于携带有标注信息的多个样本文本,对 初始模型进行训练,得到文本分类模型。
上述统计频率高于预设阈值的文本数据通常是预先获取的、包含有大 量未标注的文本数据的数据集中的文本数据;同样地,上述语义相似度满 足预设条件的文本数据也是上述数据集中的文本数据。具体地,上述统计 频率是指某一文本数据在上述数据集中出现的次数,也即是出现次数越多, 统计频率越高;上述预设阈值可以根据用户需求设置,例如,预设阈值可 以设置为20或者10等。上述语义相似度是指上述数据集中文本数据的语义之间的相似程度,上述预设条件也可以根据用户需求设置,例如,可以 设置为语义相似度高于预设值的文本数据,也可以设置为语义相似最多的 文本数据等。
在具体实现时,可以将统计频率高于预设阈值的文本数据和语义相似 度满足预设条件的文本数据,确定为待总结规则的文本数据,也可以将二 者其中之一确定为待总结规则的文本数据。用户(也可称为标注人员)能 够根据待总结规则的文本数据,基于经验知识总结出多个文本类别,以及 每个文本类别对应的属性规则,该属性规则可以是某一文本类别对应的文 本数据的通用句式或者所包含的关键词等;该属性规则也即是用户总结得到的规则或者正则表达式等。在一些实施例中,也可以由机器自动总结出 待总结规则的文本数据对应的多个文本类别中每个文本类别对应的属性规 则。例如,假设文本类别为男性的文本数据有“我是帅哥”、“我是你师哥” 和“我是一个帅哥”,根据这些文本数据可以得到如果属性规则为“我是xxxx 哥”这一通用句式,且xxxx对应1到4个中文字符,则该属性规则对应的 文本类别为男性。
上述样本文本可以是上述数据集中的文本数据,也可以是重新获取的 未标注的文本数据。根据得到的多个文本类别和每个文本类别对应的属性 规则,对样本文本进行标注,可以得到该样本文本对应的标注信息,也可 以理解为得到样本文本对应的类别标签。然后根据携带有标注信息的多个 样本文本,对文本分类模型的初始模型进行训练,得到文本分类模型。该 初始模型可以是神经网络模型,也可以是深度学习模型。
在实际应用中,将待分类文本输入至训练完成的文本分类模型中,可 以得到该待分类文本所属的文本类别。
本发明实施例提供的一种文本分类方法,首先将获取的待分类文本输 入至预先训练完成的文本分类模型中,得到输出结果;再基于该输出结果 确定待分类文本的文本类别;其中,文本分类模型的训练方式为:基于统 计频率高于预设阈值的文本数据和/或语义相似度满足预设条件的文本数据, 确定多个文本类别以及每个文本类别对应的属性规则;基于多个文本类别 以及每个文本类别对应的属性规则,对多个样本文本进行标注,得到每个 样本文本对应的标注信息;然后基于携带有标注信息的多个样本文本,对 初始模型进行训练,得到文本分类模型。该方式根据选取的少量具有代表 性的未标注的文本数据,人工总结得到多个文本类别和每个文本类的属性 规则,进而根据总结得到的规则自动标注文本,以在少量人工参与的情况 下得到标注准确率较高的文本,减少了人力和财力资源的消耗。另外,根 据标注准确率较高的文本训练得到的文本分类模型的分类准确率也较高。
针对于上述文本分类方法的实施例,本发明实施例还提供了一种文本 分类模型的训练方法,该文本分类模型为实现上述文本分类方法所使用的 模型,如图2所示,该训练方法包括如下具体步骤:
步骤S202,获取包含有多个本文数据的数据集。
上述数据集中包含有大量的文本数据,该文本数据为未标注的文本。
步骤S204,对上述数据集中每个文本数据在数据集中出现的频次进行 统计,得到每个文本数据的统计频率;将统计频率高于预设阈值的文本数 据确定为第一目标数据。
在具体实现时,统计数据集中每个文本数据重复出现的频次,可得到 每个文本数据的统计频率,然后将统计频率高于预设阈值的文本数据确定 为第一目标数据,其中,该预设阈值可以是用户根据需求设置为固定值, 也可以是根据统计频率从大到小的排序结果得到的某一排序位置对应的统 计频率。例如,在得到每个文本数据的统计频率后,基于统计频率从大到 小的顺序对数据集中的文本数据进行排序,将排序结果中排序在第500(这 个数值可以根据用户需求设置)位的文本数据对应的统计频率确定为预设 阈值,也即是将排序结果中排序靠前的前500个文本数据,确定为第一目 标数据。
步骤S206,根据上述第一目标数据,确定多个文本类别以及每个文本 类别对应的属性规则。
在具体实现时,上述步骤S206通常需要标注人员(也可称为用户)参 与,以根据第一目标数据提取出多个文本类别和每个文本类别对应的属性 规则,也即是上述步骤S206包括:响应用户针对于第一目标数据总结的多 个文本类别,以及每个文本类别对应的属性规则的提交指令,得到多个文 本类别以及每个文本类别对应的属性规则。具体地,该提交指令中包含有 用户针对于第一目标数据总结规则得到的多个文本类别和每个文本类别对应的属性规则。
步骤S208,基于多个文本类别以及每个文本类别对应的属性规则,对 多个样本文本进行标注,得到每个样本文本对应的标注信息。
由于上述多个文本类别和每个文本类别对应的属性规则是人工总结得 到的,因而总结得到的规则具有极强的准确性。在对多个样本文本进行标 注时,针对于上述总结得到的规则可以覆盖的样本文本,即可得到样本文 本对应的准确的标注信息;但由于总结得到的规则是基于少量文本数据得 到的,因而,多个样本文本中可能存在未被总结的规则覆盖的样本文本, 该样本文本无法得到正确的文本类别,此时,可以为这些样本文本设置一个伪类别作为该样本文本的标注信息。具体地,基于多个文本类别以及每 个文本类别对应的属性规则,对多个样本文本进行标注时,如果样本文本 的属性与多个属性规则中的一个属性规则相匹配,将样本文本的标注信息 设置为相匹配的属性规则对应的文本类别(相当于上述标注信息);如果样 本文本的属性与多个属性规则均不匹配,将样本文本的标注信息设备为指 定类别(相当于上述伪类别)。
在一些实施例中,假设上述多个样本文本为上述数据集中的文本数据, 那么可以基于总结得到的文本类别以及每个文本类别对应的属性规则,对 数据集中的每个文本数据进行标注,得到标注成功的文本数据设置的文本 类别(该文本类别为相匹配的属性规则对应的文本类别);针对标注不成功 的文本数据(相当于上述未被总结的规则覆盖的样本文本,也可以理解为 样本文本的属性与多个属性规则均不匹配的样本文本),从中随机抽取一定 数量的文本数据(在一些实施例中也可以直接使用所有的文本数据),为抽 取的文本数据设置一个伪类别作为标注信息,合并标注成功的、携带有文 本类别的文本数据和携带有伪类别的文本数据,从而得到训练集合,以便 后续根据该训练集合对初始模型进行训练。
步骤S210,基于携带有标注信息的多个样本文本,对初始模型进行训 练,得到文本分类模型。
上述文本分类模型的训练方法,首先获取包含有多个本文数据的数据 集;再对数据集中每个文本数据在数据集中出现的频次进行统计,得到每 个文本数据的统计频率,将统计频率高于预设阈值的文本数据确定为第一 目标数据;进而根据第一目标数据确定多个文本类别以及每个文本类别对 应的属性规则,并基于多个文本类别以及每个文本类别对应的属性规则对 多个样本文本进行标注,得到每个样本文本对应的标注信息;再基于携带 有标注信息的多个样本文本对初始模型进行训练,得到文本分类模型。该 方式只需人工对少量文本数据总结规则,得到多个文本类别以及每个文本 类别对应的属性规则,然后基于总结的规则对大量未标注的文本进行标注, 从而提高了文本标注的准确性,也减少了文本标注的人力和财力成本,还 可以提高基于标注文本训练得到的文本分类模型的分类准确度。
针对于上述文本分类方法的实施例,本发明实施例还提供了另一种文 本分类模型的训练方法,该文本分类模型为实现上述文本分类方法所使用 的模型,如图3所示,该训练方法包括如下具体步骤:
步骤S302,获取包含有多个本文数据的数据集。
步骤S304,对上述数据集中的每个文本数据进行语义分析,得到每个 文本数据的语义向量。
在具体实现时可以采用的传统的语义分析方式或者预设的语义分析模 型,得到每个文本数据的语义向量。具体地,可以针对数据集中的每个文 本数据执行下述操作:将文本数据输入至预设的语言模型中,得到文本数 据对应的语义向量(该语义向量用于表征第一数据的语义特征);该语言模 型是预先训练好的,可以准确地对输入数据进行语义分析。
步骤S306,基于上述语义向量确定多个文本数据之间的语义相似度, 将语义相似度满足预设条件的文本数据,确定为第二目标数据。
得到每个文本数据对应的语义向量后,根据每两个语义向量之间的距 离,可以确定每两个文本数据之间的语义相似度,进而可以确定多个文本 数据之间的语义相似度,然后将语义相似度满足预设条件的文本数据确定 为第二目标数据。具体地,将语义相似度满足预设条件的文本数据,确定 为第二目标数据的具体过程可以通过下述步骤10-12实现:
步骤10,将语义相似度在指定范围内的文本数据确定为一个聚类簇, 得到多个聚类簇。上述指定范围可以根据用户需求设定。
步骤11,从多个聚类簇中,选取包含文本数据的数量高于预设数量阈 值的目标聚类簇。
上述预设数量阈值可以是根据用户需求设定的某一固定值,例如,该 预设数量阈值可以是20或者30等;该预设数量阈值还可以是按照聚类簇 所包含的数据个数排序后得到的、某一排序位置对应的聚类簇所包含的数 据个数,例如,基于聚类簇所包含的数据个数从多到少的顺序对多个聚类 簇进行排序,将排序结果中排序位置为500(这个数值可以根据用户需求设 置)的聚类簇所包含的数据个数确定为预设数量阈值,也即是可以将排序结果中排序靠前的前500个聚类簇,确定为目标聚类簇。
步骤12,从每个目标聚类簇中选取一个文本数据作为第二目标数据。
在具体实现时,可以从每个目标聚类簇中随机选择一个文本数据作为 第二目标数据,进而得到多个第二目标数据,该第二目标数据的数量与目 标聚类簇的数量相同。
在一些实施例中,还可以针对每个目标聚类簇执行下述操作,得到第 二目标数据:计算目标聚类簇中的文本数据的语义向量的平均值;将目标 聚类簇中与平均值的距离最小的语义向量对应的文本数据,确定为第二目 标数据。其中,目标聚类簇中与平均值的距离最小的语义向量对应的文本 数据也可以称为簇中心数据。
步骤S308,根据第二目标数据,确定多个文本类别以及每个文本类别 对应的属性规则。
步骤S310,基于多个文本类别以及每个文本类别对应的属性规则,对 多个样本文本进行标注,得到每个样本文本对应的标注信息。
步骤S312,基于携带有标注信息的多个样本文本,对初始模型进行训 练,得到文本分类模型。
上述文本分类模型的训练方法只需人工对少量文本数据总结规则,得 到多个文本类别以及每个文本类别对应的属性规则,然后基于总结的规则 对大量未标注的文本进行标注,从而提高了文本标注的准确性,也减少了 文本标注的人力和财力成本,还可以提高基于标注文本训练得到的文本分 类模型的分类准确度。
针对于上述文本分类方法的实施例,本发明实施例还提供了另一种文 本分类模型的训练方法,该文本分类模型为实现上述文本分类方法所使用 的模型,如图4所示,该训练方法包括如下具体步骤:
步骤S402,获取包含有多个本文数据的数据集。
上述数据集中包含有大量的文本数据,该文本数据为未标注的文本。
步骤S404,对上述数据集中每个文本数据在数据集中出现的频次进行 统计,得到每个文本数据的统计频率;将统计频率高于预设阈值的文本数 据确定为第一目标数据。
步骤S406,对数据集中除第一目标数据之外的第一数据进行语义分析, 得到每个第一数据的语义向量;基于语义向量确定多个第一数据之间的语 义相似度,将语义相似度满足预设条件的第一数据,确定为第三目标数据。
上述第一数据为数据集中除第一目标数据之外的文本数据,针对数据 集中的每个第一数据进行语义分析,可得到每个第一数据对应的语义向量。 具体地,可以针对数据集中除第一目标数据之外的每个第一数据执行下述 操作:将第一数据输入至预设的语言模型中,得到第一数据对应的语义向 量。
步骤S408,根据第一目标数据和第三目标数据,确定多个文本类别以 及每个文本类别对应的属性规则。
在具体实现时,上述步骤S408通常需要标注人员(也可称为用户)参 与,以根据第一目标数据和第二目标数据提取出多个文本类别和每个文本 类别对应的属性规则,也即是上述步骤S408包括:响应用户针对于第一目 标数据和第三目标数据总结的多个文本类别,以及每个文本类别对应的属 性规则的提交指令,得到多个文本类别以及每个文本类别对应的属性规则。 具体地,该提交指令中包含有用户针对于第一目标数据和第三目标数据总 结规则得到的多个文本类别和每个文本类别对应的属性规则。
上述步骤S404-S406确定第一目标数据和第三目标数据的主要目的是 对数据集中的大量未标注的文本数据进行无监督聚类,从而筛选出少量的 出现频率高的且语义相似度高的文本数据,从而减轻后续对筛选的文本数 据进行规则总结的人力成本,并且尽可能多的令总结的规则可以覆盖数据 集中更多的文本数据。
步骤S410,基于多个文本类别以及每个文本类别对应的属性规则,对 多个样本文本进行标注,得到每个样本文本对应的标注信息。
步骤S412,基于携带有标注信息的多个样本文本,对初始模型进行训 练,得到文本分类模型。
上述文本分类模型的训练方法,首先获取包含有多个本文数据的数据 集;再对数据集中每个文本数据在数据集中出现的频次进行统计,得到每 个文本数据的统计频率,将统计频率高于预设阈值的文本数据确定为第一 目标数据;进而对数据集中除第一目标数据之外的第一数据进行语义分析, 得到每个第一数据的语义向量,基于语义向量确定多个第一数据之间的语 义相似度,将语义相似度满足预设条件的第一数据,确定为第三目标数据; 然后根据第一目标数据和第三目标数据,确定多个文本类别以及每个文本 类别对应的属性规则,并基于多个文本类别以及每个文本类别对应的属性 规则对多个样本文本进行标注,得到每个样本文本对应的标注信息;再基 于携带有标注信息的多个样本文本对初始模型进行训练,得到文本分类模 型。该方式只需人工对少量文本数据总结规则,得到多个文本类别以及每 个文本类别对应的属性规则,然后基于总结的规则对大量未标注的文本进 行标注,从而提高了文本标注的准确性,也减少了文本标注的人力和财力 成本,还可以提高基于标注文本训练得到的文本分类模型的分类准确度。
针对于上述文本分类模型的训练方法的实施例,本发明实施例还提供 了另一种文本分类模型的训练方法,该方法在上述训练方法的基础上实现, 如图5所示,该训练方法包括如下具体步骤:
步骤S502,基于统计频率高于预设阈值的文本数据和语义相似度满足 预设条件的文本数据,确定多个文本类别以及每个文本类别对应的属性规 则。
步骤S504,基于多个文本类别以及每个文本类别对应的属性规则,对 多个样本文本进行标注,得到每个样本文本对应的标注信息。
步骤S506,基于携带有标注信息的多个样本文本,对初始模型进行训 练,得到文本分类模型。
上述步骤S502-S506的具体实现过程可以参见上述模型训练方法的实 施例,在此不再赘述。
步骤S508,基于多个未标注文本,确定文本分类模型的分类准确度。
在具体实现时,上述步骤S508可以通过下述步骤20-23实现:
步骤20,将多个未标注文本中的每个未标注文本依次输入至文本分类 模型中,得到每个未标注文本的分类预测结果。
上述多个未标注文本可以是上述数据集中所包含的已标注的样本文本 之外的文本数据,还可以是重新获取的新的文本数据。在具体实现时,将 未标注文本输入至文本分类模型中,可以得到该未标注文本对应的分类预 测结果,该分类预测结果可以是上述得到的多个文本类别中的任意一个, 也可以是除上述多个文本类别之外的其他结果。
步骤21,从分类预测结果不属于多个文本类别的未标注文本中,确定 多个目标文本。
上述分类预测结果如果不属于多个文本类别中的任意一个,则说明该 分类预测结果对应的未标注文本的属性规则与上述步骤S304总结得到的属 性规则不一致。在具体实现时,可以从分类预测结果不属于多个文本类别 的未标注文本中,随机确定指定数量的目标文本,该指定数量可以根据用 户需求设置,一般不会设置较大值,例如,该指定数量可以设置为300或 者200等。
步骤22,响应针对于多个目标文本的标注操作,得到每个目标文本的 标注信息。也即是对多个目标文本进行人工标注,得到每个目标文本对应 的准确的标注信息。
步骤23,基于携带有标注信息的多个目标文本,确定文本分类模型的 分类准确度。
在具体实现时,首先从多个目标文本中选取一个测试文本,将该测试 文本输入至文本分类模型中,可得到该测试文本对应的分类结果,将该分 类结果与该目标文本对应的标注信息进行比对,如果分类结果与标注信息 一致,确定该分类结果正确;否则,确定该分类结果错误。然后继续从多 个目标文本中选取一个测试文本,直到多个目标文本均选取完毕,统计每 个测试文本对应的分类结果的正确性,得到文本分类模型的分类准确度, 例如,该分类准确度可以是分类结果正确的数量与总的测试文本的比值。
在一些实施例中,还可以基于携带有标注信息的多个目标文本和携带 有多个标注信息的样本文本共同确定文本分类模型的分类准确度。
步骤S510,判断分类准确度是否达到预设准确度阈值;如果未达到, 执行步骤S512;否则,结束。
上述预设准确度阈值可以根据用户需求设置,例如,可以设置为90% 或者95%等。
步骤S512,基于携带有标注信息的多个样本文本和多个未标注文本, 对文本分类模型进行训练,直到文本分类模型的分类准确度达到预设准确 度阈值,得到最终的文本分类模型。
在具体实现时,可以基于携带有标注信息的多个样本文本和携带有标 注信息的多个目标文本,对文本分类模型进行训练,得到训练后的文本分 类模型;然后再基于上述步骤S508判断模型的分类准确度,此时,步骤S508 中的未标注文本与上一次判断模型的分类准确度时所使用的文本不同。如 果模型的分类准确度还是达不到预设准确度阈值会对文本分类模型进行再 训练,直到模型的分类准确度达到预设准确度阈值,得到最终的文本分类 模型。
上述文本分类模型的训练方法,该方式根据选取的少量具有代表性的 未标注的文本数据,人工总结得到多个文本类别和每个文本类的属性规则, 进而根据总结得到的规则自动标注文本,以在少量人工参与的情况下得到 标注准确率较高的文本,减少了人力和财力资源的消耗。另外,本发明能 够对基于标注文本训练得到的文本分类模型进行分类准确度分析,再分类 准确度未达到预设准确度阈值时,需要对文本分类模型进行再训练,从而 保证了训练完成的文本分类模型的分类准确度。
针对于上述方法实施例,本发明实施例还提供了一种文本分类装置, 如图6所示,该装置包括:
类别识别模块60,用于:将获取的待分类文本输入至预先训练完成的 文本分类模型中,得到输出结果;基于输出结果确定待分类文本的文本类 别。
模型训练模块61,用于:基于统计频率高于预设阈值的文本数据和语 义相似度满足预设条件的文本数据,确定多个文本类别以及每个文本类别 对应的属性规则;基于多个文本类别以及每个文本类别对应的属性规则, 对多个样本文本进行标注,得到每个样本文本对应的标注信息;基于携带 有标注信息的多个样本文本,对初始模型进行训练,得到文本分类模型。
上述文本分类装置,首先将获取的待分类文本输入至预先训练完成的 文本分类模型中,得到输出结果;再基于该输出结果确定待分类文本的文 本类别;其中,文本分类模型的训练方式为:基于统计频率高于预设阈值 的文本数据和/或语义相似度满足预设条件的文本数据,确定多个文本类别 以及每个文本类别对应的属性规则;基于多个文本类别以及每个文本类别 对应的属性规则,对多个样本文本进行标注,得到每个样本文本对应的标注信息;然后基于携带有标注信息的多个样本文本,对初始模型进行训练, 得到文本分类模型。该方式根据选取的少量具有代表性的未标注的文本数 据,人工总结得到多个文本类别和每个文本类的属性规则,进而根据总结 得到的规则自动标注文本,以在少量人工参与的情况下得到标注准确率较 高的文本,减少了人力和财力资源的消耗。另外,根据标注准确率较高的 文本训练得到的文本分类模型的分类准确率也较高。
进一步地,上述模型训练模块61,包括:数据获取模块,用于获取包 含有多个本文数据的数据集;频率统计模块,用于对数据集中每个文本数 据在数据集中出现的频次进行统计,得到每个文本数据的统计频率;将统 计频率高于预设阈值的文本数据确定为第一目标数据;规则总结模块,用 于根据第一目标数据,确定多个文本类别以及每个文本类别对应的属性规 则。
进一步地,上述模型训练模块61,还包括:语义分析模块,用于对数 据集中的每个文本数据进行语义分析,得到每个文本数据的语义向量;相 似度计算模块,用于基于语义向量确定多个文本数据之间的语义相似度, 将语义相似度满足预设条件的文本数据,确定为第二目标数据;规则总结 模块,用于根据第二目标数据,确定多个文本类别以及每个文本类别对应 的属性规则。
具体地,上述语义分析模块,还用于:针对每个文本数据,将文本数 据输入至预设的语言模型中,得到文本数据对应的语义向量。
具体地,上述相似度计算模块,还用于:将语义相似度在指定范围内 的文本数据确定为一个聚类簇,得到多个聚类簇;从多个聚类簇中,选取 包含文本数据的数量高于预设数量阈值的目标聚类簇;从每个目标聚类簇 中选取一个文本数据作为第二目标数据。
在具体实现时,上述相似度计算模块,还用于:针对每个目标聚类簇 执行下述操作:计算目标聚类簇中的文本数据的语义向量的平均值;将目 标聚类簇中与平均值的距离最小的语义向量对应的文本数据,确定为第二 目标数据。
在一些实施例中,上述模型训练模块61,还用于:对数据集中除第一 目标数据之外的第一数据进行语义分析,得到每个第一数据的语义向量; 基于语义向量确定多个第一数据之间的语义相似度,将语义相似度满足预 设条件的第一数据,确定为第三目标数据;根据第一目标数据和第三目标 数据,确定多个文本类别以及每个文本类别对应的属性规则。
上述模型训练模块61,还用于:响应用户针对于第一目标数据和第三 目标数据总结的多个文本类别,以及每个文本类别对应的属性规则的提交 指令,得到多个文本类别以及每个文本类别对应的属性规则。
在一些实施例中,上述模型训练模块61,还用于:基于多个文本类别 以及每个文本类别对应的属性规则,对多个样本文本进行标注;如果样本 文本的属性与多个属性规则中的一个属性规则相匹配,将样本文本的标注 信息设置为相匹配的属性规则对应的文本类别;如果样本文本的属性与多 个属性规则均不匹配,将样本文本的标注信息设备为指定类别。
在具体实现时,上述装置还包括再训练模块,用于:在基于携带有标 注信息的多个样本文本,对初始模型进行训练,得到文本分类模型之后, 基于多个未标注文本,确定文本分类模型的分类准确度;判断分类准确度 是否达到预设准确度阈值;如果未达到,继续基于携带有标注信息的多个 样本文本和多个未标注文本,对文本分类模型进行训练,直到文本分类模 型的分类准确度达到预设准确度阈值,得到最终的文本分类模型。
进一步地,上述再训练模块,还用于:将多个未标注文本中的每个未 标注文本依次输入至文本分类模型中,得到每个未标注文本的分类预测结 果;从分类预测结果不属于多个文本类别的未标注文本中,确定多个目标 文本;响应针对于多个目标文本的标注操作,得到每个目标文本的标注信 息;基于携带有标注信息的多个目标文本,确定文本分类模型的分类准确 度。
进一步地,上述再训练模块,还用于:基于携带有标注信息的多个样 本文本和携带有标注信息的多个目标文本,对文本分类模型进行训练。
本发明实施例所提供的文本分类装置,其实现原理及产生的技术效果 和前述文本分类方法实施例相同,为简要描述,装置实施例部分未提及之 处,可参考前述方法实施例中相应内容。
本发明实施例还提供了一种电子设备,如图7所示,该电子设备包括 处理器101和存储器100,该存储器100存储有能够被处理器101执行的机 器可执行指令,该处理器101执行机器可执行指令以实现上述文本分类方 法。
进一步地,图7所示的电子设备还包括总线102和通信接口103,处理 器101、通信接口103和存储器100通过总线102连接。
其中,存储器100可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至 少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实 现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广 域网,本地网,城域网等。总线102可以是ISA总线、PCI总线或EISA总 线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示, 图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总 线。
处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现 过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路 或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中 央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor, 简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、 专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编 程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑 器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本 发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处 理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公 开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处 理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器, 闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存 器等本领域成熟的存储介质中。该存储介质位于存储器100,处理器101读取存储器100中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储 介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执 行时,该计算机可执行指令促使处理器实现上述文本分类方法,具体实现 可参见方法实施例,在此不再赘述。
本发明实施例所提供的文本分类方法、装置和电子设备的计算机程序 产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的 指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施 例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使 用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发 明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的 部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储 介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电 子设备,或者网络设备等)执行本发明各个实施例所述方法的全部或部分 步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM, Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、 磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、 “右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附 图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是 指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和 操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第 三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用 以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于 此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围 内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变 化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都 应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利 要求的保护范围为准。

Claims (15)

1.一种文本分类方法,其特征在于,所述方法包括:
将获取的待分类文本输入至预先训练完成的文本分类模型中,得到输出结果;基于所述输出结果确定所述待分类文本的文本类别;
其中,所述文本分类模型通过下述方式训练得到:
基于统计频率高于预设阈值的文本数据和/或语义相似度满足预设条件的文本数据,确定多个文本类别以及每个所述文本类别对应的属性规则;
基于所述多个文本类别以及每个所述文本类别对应的属性规则,对多个样本文本进行标注,得到每个所述样本文本对应的标注信息;
基于携带有标注信息的所述多个样本文本,对初始模型进行训练,得到所述文本分类模型。
2.根据权利要求1所述的方法,其特征在于,基于统计频率高于预设阈值的文本数据,确定多个文本类别以及每个所述文本类别对应的属性规则的步骤,包括:
获取包含有多个本文数据的数据集;
对所述数据集中每个文本数据在所述数据集中出现的频次进行统计,得到每个所述文本数据的统计频率;将所述统计频率高于所述预设阈值的文本数据确定为第一目标数据;
根据所述第一目标数据,确定多个文本类别以及每个所述文本类别对应的属性规则。
3.根据权利要求1所述的方法,其特征在于,基于语义相似度满足预设条件的文本数据,确定多个文本类别以及每个所述文本类别对应的属性规则的步骤,包括:
获取包含有多个本文数据的数据集;
对所述数据集中的每个文本数据进行语义分析,得到每个所述文本数据的语义向量;
基于所述语义向量确定多个所述文本数据之间的语义相似度,将所述语义相似度满足所述预设条件的文本数据,确定为第二目标数据;
根据所述第二目标数据,确定多个文本类别以及每个所述文本类别对应的属性规则。
4.根据权利要求3所述的方法,其特征在于,所述对所述数据集中的每个文本数据进行语义分析,得到每个所述文本数据的语义向量的步骤,包括:
针对每个所述文本数据,将所述文本数据输入至预设的语言模型中,得到所述文本数据对应的语义向量。
5.根据权利要求3所述的方法,其特征在于,所述将所述语义相似度满足所述预设条件的文本数据,确定为第二目标数据的步骤,包括:
将所述语义相似度在指定范围内的文本数据确定为一个聚类簇,得到多个聚类簇;
从所述多个聚类簇中,选取包含所述文本数据的数量高于预设数量阈值的目标聚类簇;从每个所述目标聚类簇中选取一个文本数据作为所述第二目标数据。
6.根据权利要求5所述的方法,其特征在于,所述从每个所述目标聚类簇中选取一个文本数据作为所述第二目标数据的步骤,包括:
针对每个所述目标聚类簇执行下述操作:
计算所述目标聚类簇中的所述文本数据的语义向量的平均值;
将所述目标聚类簇中与所述平均值的距离最小的语义向量对应的文本数据,确定为所述第二目标数据。
7.根据权利要求2所述的方法,其特征在于,基于统计频率高于预设阈值的文本数据和语义相似度满足预设条件的文本数据,确定多个文本类别以及每个所述文本类别对应的属性规则的步骤,包括:
对所述数据集中除所述第一目标数据之外的第一数据进行语义分析,得到每个所述第一数据的语义向量;基于所述语义向量确定多个所述第一数据之间的语义相似度,将所述语义相似度满足所述预设条件的第一数据,确定为第三目标数据;
根据所述第一目标数据和所述第三目标数据,确定多个文本类别以及每个所述文本类别对应的属性规则。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第一目标数据和所述第三目标数据,确定多个文本类别以及每个所述文本类别对应的属性规则的步骤,包括:
响应用户针对于所述第一目标数据和所述第三目标数据总结的多个文本类别,以及每个所述文本类别对应的属性规则的提交指令,得到所述多个文本类别以及每个所述文本类别对应的属性规则。
9.根据权利要求1所述的方法,其特征在于,所述基于所述多个文本类别以及每个所述文本类别对应的属性规则,对多个样本文本进行标注,得到每个所述样本文本对应的标注信息的步骤,包括:
基于所述多个文本类别以及每个所述文本类别对应的属性规则,对所述多个样本文本进行标注;
如果所述样本文本的属性与多个所述属性规则中的一个属性规则相匹配,将所述样本文本的标注信息设置为相匹配的属性规则对应的文本类别;
如果所述样本文本的属性与多个所述属性规则均不匹配,将所述样本文本的标注信息设备为指定类别。
10.根据权利要求1所述的方法,其特征在于,所述基于携带有标注信息的所述多个样本文本,对初始模型进行训练,得到所述文本分类模型的步骤之后,所述方法还包括:
基于多个未标注文本,确定所述文本分类模型的分类准确度;
判断所述分类准确度是否达到预设准确度阈值;如果未达到,继续基于携带有标注信息的所述多个样本文本和所述多个未标注文本,对所述文本分类模型进行训练,直到所述文本分类模型的分类准确度达到所述预设准确度阈值,得到最终的文本分类模型。
11.根据权利要求10所述的方法,其特征在于,所述基于多个未标注文本,确定所述文本分类模型的分类准确度的步骤,包括:
将所述多个未标注文本中的每个所述未标注文本依次输入至所述文本分类模型中,得到每个所述未标注文本的分类预测结果;
从所述分类预测结果不属于所述多个文本类别的未标注文本中,确定多个目标文本;
响应针对于所述多个目标文本的标注操作,得到每个所述目标文本的标注信息;
基于携带有标注信息的所述多个目标文本,确定所述文本分类模型的分类准确度。
12.根据权利要求11所述的方法,其特征在于,所述基于携带有标注信息的所述多个样本文本和所述多个未标注文本,对所述文本分类模型进行训练的步骤,包括:
基于携带有标注信息的所述多个样本文本和携带有标注信息的所述多个目标文本,对所述文本分类模型进行训练。
13.一种文本分类装置,其特征在于,所述装置包括:
类别识别模块,用于:将获取的待分类文本输入至预先训练完成的文本分类模型中,得到输出结果;基于所述输出结果确定所述待分类文本的文本类别;
模型训练模块,用于:基于统计频率高于预设阈值的文本数据和/或语义相似度满足预设条件的文本数据,确定多个文本类别以及每个所述文本类别对应的属性规则;基于所述多个文本类别以及每个所述文本类别对应的属性规则,对多个样本文本进行标注,得到每个所述样本文本对应的标注信息;基于携带有标注信息的所述多个样本文本,对初始模型进行训练,得到所述文本分类模型。
14.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1至12任一项所述的文本分类方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,所述计算机可执行指令促使所述处理器实现权利要求1至12任一项所述的文本分类方法。
CN202110683108.5A 2021-06-18 2021-06-18 文本分类方法、装置和电子设备 Active CN113312899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110683108.5A CN113312899B (zh) 2021-06-18 2021-06-18 文本分类方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110683108.5A CN113312899B (zh) 2021-06-18 2021-06-18 文本分类方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN113312899A true CN113312899A (zh) 2021-08-27
CN113312899B CN113312899B (zh) 2023-07-04

Family

ID=77379689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110683108.5A Active CN113312899B (zh) 2021-06-18 2021-06-18 文本分类方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN113312899B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114443849A (zh) * 2022-02-09 2022-05-06 北京百度网讯科技有限公司 一种标注样本选取方法、装置、电子设备和存储介质
CN115827875A (zh) * 2023-01-09 2023-03-21 无锡容智技术有限公司 一种文本数据的处理终端查找方法
CN117574146A (zh) * 2023-11-15 2024-02-20 广州方舟信息科技有限公司 文本分类标注方法、装置、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400499A (zh) * 2020-03-24 2020-07-10 网易(杭州)网络有限公司 文档分类模型的训练方法、文档分类方法、装置及设备
CN111737438A (zh) * 2020-07-27 2020-10-02 恒生电子股份有限公司 基于文本相似度的数据处理方法、装置以及电子设备
CN112148877A (zh) * 2020-09-23 2020-12-29 网易(杭州)网络有限公司 语料文本的处理方法、装置及电子设备
CN112214605A (zh) * 2020-11-05 2021-01-12 腾讯科技(深圳)有限公司 一种文本分类方法和相关装置
CN112269877A (zh) * 2020-10-27 2021-01-26 维沃移动通信有限公司 数据标注方法及装置
CN112667803A (zh) * 2019-09-30 2021-04-16 北京国双科技有限公司 一种文本情感分类方法及装置
WO2021102754A1 (zh) * 2019-11-27 2021-06-03 深圳市欢太科技有限公司 数据处理方法、装置和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667803A (zh) * 2019-09-30 2021-04-16 北京国双科技有限公司 一种文本情感分类方法及装置
WO2021102754A1 (zh) * 2019-11-27 2021-06-03 深圳市欢太科技有限公司 数据处理方法、装置和存储介质
CN111400499A (zh) * 2020-03-24 2020-07-10 网易(杭州)网络有限公司 文档分类模型的训练方法、文档分类方法、装置及设备
CN111737438A (zh) * 2020-07-27 2020-10-02 恒生电子股份有限公司 基于文本相似度的数据处理方法、装置以及电子设备
CN112148877A (zh) * 2020-09-23 2020-12-29 网易(杭州)网络有限公司 语料文本的处理方法、装置及电子设备
CN112269877A (zh) * 2020-10-27 2021-01-26 维沃移动通信有限公司 数据标注方法及装置
CN112214605A (zh) * 2020-11-05 2021-01-12 腾讯科技(深圳)有限公司 一种文本分类方法和相关装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114443849A (zh) * 2022-02-09 2022-05-06 北京百度网讯科技有限公司 一种标注样本选取方法、装置、电子设备和存储介质
CN114443849B (zh) * 2022-02-09 2023-10-27 北京百度网讯科技有限公司 一种标注样本选取方法、装置、电子设备和存储介质
US11907668B2 (en) 2022-02-09 2024-02-20 Beijing Baidu Netcom Science Technology Co., Ltd. Method for selecting annotated sample, apparatus, electronic device and storage medium
CN115827875A (zh) * 2023-01-09 2023-03-21 无锡容智技术有限公司 一种文本数据的处理终端查找方法
CN115827875B (zh) * 2023-01-09 2023-04-25 无锡容智技术有限公司 一种文本数据的处理终端查找方法
CN117574146A (zh) * 2023-11-15 2024-02-20 广州方舟信息科技有限公司 文本分类标注方法、装置、电子设备和存储介质
CN117574146B (zh) * 2023-11-15 2024-05-28 广州方舟信息科技有限公司 文本分类标注方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN113312899B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN111177326B (zh) 基于精标注文本的关键信息抽取方法、装置及存储介质
CN113312899B (zh) 文本分类方法、装置和电子设备
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN111191275A (zh) 敏感数据识别方法、系统及其装置
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN107341143A (zh) 一种句子连贯性判断方法及装置和电子设备
CN110309301B (zh) 企业类别的分类方法、装置及智能终端
CN103593431A (zh) 网络舆情分析方法和装置
CN111563384A (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN113051356A (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN111966832A (zh) 评价对象的提取方法、装置和电子设备
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
CN110781673B (zh) 文档验收方法、装置、计算机设备及存储介质
CN113806493A (zh) 一种用于互联网文本数据的实体关系联合抽取方法、装置
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
WO2023038722A1 (en) Entry detection and recognition for custom forms
CN116151220A (zh) 分词模型训练方法、分词处理方法和装置
CN107797981B (zh) 一种目标文本识别方法及装置
CN107783958B (zh) 一种目标语句识别方法及装置
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
CN110750984A (zh) 命令行字符串处理方法、终端、装置及可读存储介质
CN110705258A (zh) 文本实体识别方法及装置
CN115329754A (zh) 一种文本主题提取方法、装置、设备及存储介质
CN115952800A (zh) 命名实体识别方法、装置、计算机设备及可读存储介质
CN115526173A (zh) 一种基于计算机信息技术的特征词提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant