CN114756675A - 文本分类方法、相关设备及可读存储介质 - Google Patents

文本分类方法、相关设备及可读存储介质 Download PDF

Info

Publication number
CN114756675A
CN114756675A CN202111646089.5A CN202111646089A CN114756675A CN 114756675 A CN114756675 A CN 114756675A CN 202111646089 A CN202111646089 A CN 202111646089A CN 114756675 A CN114756675 A CN 114756675A
Authority
CN
China
Prior art keywords
text
category label
score
matching
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111646089.5A
Other languages
English (en)
Inventor
程飞
吴飞
方四安
徐承
柳林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Ustc Iflytek Co ltd
Original Assignee
Hefei Ustc Iflytek Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Ustc Iflytek Co ltd filed Critical Hefei Ustc Iflytek Co ltd
Priority to CN202111646089.5A priority Critical patent/CN114756675A/zh
Publication of CN114756675A publication Critical patent/CN114756675A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本分类方法、相关设备及可读存储介质。在获取待进行分类的文本之后,确定该文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分;基于该文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分,确定该文本的最终类别标签得分;最后,基于该文本的最终类别标签得分,确定该文本的类别。该方案中,关键词匹配类别标签得分、分类匹配类别标签得分、相似度匹配类别标签得分指示的是文本在三个不同维度的分类结果,文本的类别是基于文本在三个不同维度的分类结果得到的,准确率更高。

Description

文本分类方法、相关设备及可读存储介质
技术领域
本申请涉及自然语言处理技术领域,更具体的说,是涉及一种文本分类 方法、相关设备及可读存储介质。
背景技术
在一些场景中,需要对文本进行分类。比如,在警方办案场景中,可以对 犯罪人员通过社交软件所产生的交互数据(如,即时通讯工具所产生的聊天数 据)进行收集和分类,从中找出与违法犯罪相关的消息,以协助警方侦查违法 犯罪行为,找出违法犯罪团伙,获取违法犯罪证据、抓捕违法犯罪人员,捣毁 违法犯罪社交组织等,提升警方办案效率。
文本分类是用算法对文本包含的内容进行自动的分析,从而识别出不同 文本的类别,目前的文本分类方案,只能从一个维度对文本包含的内容进行 分析,导致文本分类的准确率较低。
因此,如何提升文本分类的准确率,成为本领域技术人员亟待解决的技 术问题。
发明内容
鉴于上述问题,本申请提出了一种文本分类方法、相关设备及可读存储 介质。具体方案如下:
一种文本分类方法,所述方法包括:
获取待进行分类的文本;
确定所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及 相似度匹配类别标签得分;
基于所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及 相似度匹配类别标签得分,确定所述文本的最终类别标签得分;
基于所述文本的最终类别标签得分,确定所述文本的类别。
可选地,确定所述文本的关键词匹配类别标签得分,包括:
获取预设的各类别标签对应的关键词信息,所述关键词信息包括关键词 以及关键词的权重;
将所述文本与所述各类别标签对应的关键词进行匹配,得到匹配关键词;
基于所述匹配关键词对应的类别标签,以及所述匹配关键词的权重,确 定所述文本的关键词匹配类别标签得分。
可选地,所述关键词包括单独关键词、组合关键词和反向关键词中的一 种或多种。
可选地,确定所述文本的分类匹配类别标签得分,包括:
将所述文本输入文本分类模型,所述文本分类模型输出所述文本的分类 匹配类别标签得分;
所述文本分类模型是以训练用文本为训练样本,以训练用文本标注的类 别标签为样本标签,以所述文本分类模型的输出趋近于基于所述类别标签对 应的关键词信息对所述类别标签调整之后的类别标签为训练目标训练得到 的。
可选地,确定所述文本的相似度匹配类别标签得分,包括:
获取预设的参考文本库,所述参考文本库中包括各类别标签对应的参考 文本;
针对每个参考文本,将所述参考文本与所述文本输入相似度计算模型, 所述相似度计算模型输出所述参考文本与所述文本的相似度得分;所述相似 度计算模型是以训练用文本对为训练样本,以训练用文本对标注的相似度结 果为样本标签,训练得到的;
基于各参考文本对应的类别标签,以及,各参考文本与所述文本的相似 度得分,计算所述文本的相似度匹配类别标签得分。
可选地,所述训练用文本对的确定方式为:
获取预设的原始文本对;
确定预设的关键词;
基于所述原始文本对与所述关键词,得到训练用文本对,每个训练用文 本对中的一个文本是由一个关键词和与该文本对应的原始文本组合得到的。
可选地,所述相似度计算模型的训练过程包括:
基于dropout机制对训练用文本对进行处理后再输入所述相似度计算模 型。
可选地,所述基于所述文本的关键词匹配类别标签得分、分类匹配类别 标签得分以及相似度匹配类别标签得分,确定所述文本的最终类别标签得分, 包括:
确定关键词匹配类别标签得分对应的权重、分类匹配类别标签得分的权 重以及相似度匹配类别标签得分的权重;
基于所述文本的关键词匹配类别标签得分、分类匹配类别标签得分、相 似度匹配类别标签得分、所述关键词匹配类别标签得分对应的权重、所述分 类匹配类别标签得分的权重以及所述相似度匹配类别标签得分的权重,确定 所述文本的最终类别标签得分。
可选地,所述基于所述文本的最终类别标签得分,确定所述文本的类别, 包括:
确定最大的最终类别标签得分;
如果所述最大的最终类别标签得分大于预设阈值,则确定所述最大的最 终类别标签得分对应的类别标签为所述文本的类别;如果所述最大的最终类 别标签得分不大于预设阈值,则确定所述文本的类别为其他类别。
一种文本分类装置,所述装置包括:
获取单元,用于获取待进行分类的文本;
各匹配类别标签得分确定单元,用于确定所述文本的关键词匹配类别标 签得分、分类匹配类别标签得分以及相似度匹配类别标签得分;
最终类别标签得分确定单元,用于基于所述文本的关键词匹配类别标签 得分、分类匹配类别标签得分以及相似度匹配类别标签得分,确定所述文本 的最终类别标签得分;
文本类别确定单元,用于基于所述文本的最终类别标签得分,确定所述 文本的类别。
可选地,所述各匹配类别标签得分确定单元包括关键词匹配类别标签得 分确定单元,所述关键词匹配类别标签得分确定单元包括:
关键词信息获取单元,用于获取预设的各类别标签对应的关键词信息, 所述关键词信息包括关键词以及关键词的权重;
匹配单元,用于将所述文本与所述各类别标签对应的关键词进行匹配, 得到匹配关键词;
关键词匹配类别标签得分确定子单元,用于基于所述匹配关键词对应的 类别标签,以及所述匹配关键词的权重,确定所述文本的关键词匹配类别标 签得分。
可选地,所述关键词包括单独关键词、组合关键词和反向关键词中的一 种或多种。
可选地,所述各匹配类别标签得分确定单元包括分类匹配类别标签得分 确定单元,所述分类匹配类别标签得分确定单元用于:
将所述文本输入文本分类模型,所述文本分类模型输出所述文本的分类 匹配类别标签得分;
所述文本分类模型是以训练用文本为训练样本,以训练用文本标注的类 别标签为样本标签,以所述文本分类模型的输出趋近于基于所述类别标签对 应的关键词信息对所述类别标签调整之后的类别标签为训练目标训练得到 的。
可选地,所述各匹配类别标签得分确定单元包括相似度匹配类别标签得 分确定单元,所述相似度匹配类别标签得分确定单元,包括:
参考文本库获取单元,用于获取预设的参考文本库,所述参考文本库中 包括各类别标签对应的参考文本;
相似度得分计算单元,用于针对每个参考文本,将所述参考文本与所述 文本输入相似度计算模型,所述相似度计算模型输出所述参考文本与所述文 本的相似度得分;所述相似度计算模型是以训练用文本对为训练样本,以训 练用文本对标注的相似度结果为样本标签,训练得到的;
相似度匹配类别标签得分计算子单元,用于基于各参考文本对应的类别 标签,以及,各参考文本与所述文本的相似度得分,计算所述文本的相似度 匹配类别标签得分。
可选地,所述装置还包括:训练用文本对确定单元,用于获取预设的原 始文本对;确定预设的关键词;基于所述原始文本对与所述关键词,得到训 练用文本对,每个训练用文本对中的一个文本是由一个关键词和与该文本对 应的原始文本组合得到的。
可选地,所述相似度计算模型的训练过程包括:
基于dropout机制对训练用文本对进行处理后再输入所述相似度计算模 型。
可选地,所述最终类别标签得分确定单元,包括:
权重确定单元,用于确定关键词匹配类别标签得分对应的权重、分类匹 配类别标签得分的权重以及相似度匹配类别标签得分的权重;
最终类别标签得分确定子单元,用于基于所述文本的关键词匹配类别标 签得分、分类匹配类别标签得分、相似度匹配类别标签得分、所述关键词匹 配类别标签得分对应的权重、所述分类匹配类别标签得分的权重以及所述相 似度匹配类别标签得分的权重,确定所述文本的最终类别标签得分。
可选地,所述文本类别确定单元,具体用于:
确定最大的最终类别标签得分;如果所述最大的最终类别标签得分大于 预设阈值,则确定所述最大的最终类别标签得分对应的类别标签为所述文本 的类别;如果所述最大的最终类别标签得分不大于预设阈值,则确定所述文 本的类别为其他类别。
一种文本分类设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的文本分类方法的各个 步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器 执行时,实现如上所述的文本分类方法的各个步骤。
借由上述技术方案,本申请公开了一种文本分类方法、相关设备及可读 存储介质。在获取待进行分类的文本之后,确定该文本的关键词匹配类别标 签得分、分类匹配类别标签得分以及相似度匹配类别标签得分;基于该文本 的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标 签得分,确定该文本的最终类别标签得分;最后,基于该文本的最终类别标 签得分,确定该文本的类别。该方案中,关键词匹配类别标签得分、分类匹 配类别标签得分、相似度匹配类别标签得分指示的是文本在三个不同维度的分类结果,文本的类别是基于文本在三个不同维度的分类结果得到的,准确 率更高。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本 领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的, 而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示 相同的部件。在附图中:
图1为本申请实施例公开的文本分类方法的流程示意图;
图2为本申请实施例公开的一种文本分类装置结构示意图;
图3为本申请实施例公开的一种文本分类设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而 不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
接下来,通过下述实施例对本申请提供的文本分类方法进行介绍。
参照图1,图1为本申请实施例公开的文本分类方法的流程示意图,该方 法可以包括:
步骤S101:获取待进行分类的文本。
在本申请中,待进行分类的文本可以为各种场景下的文本,比如,可以 为在警方办案场景中即时通讯工具所产生的聊天数据,对此,本申请不进行 任何限定。
步骤S102:确定所述文本的关键词匹配类别标签得分、分类匹配类别标 签得分以及相似度匹配类别标签得分。
在本申请中,可以根据场景需求,预先指定多个类别标签,并针对每个 类别标签,预设其对应的关键词信息,所述关键词匹配类别标签得分用于指 示所述文本与各类别标签对应的关键词信息进行匹配后,各类别标签的得分, 分类匹配类别标签得分用于指示对所述文本进行分类处理后,各类别标签的 得分,相似度匹配类别标签得分用于指示对所述文本进行相似度匹配后,各 类别标签的得分。
需要说明的是,所述文本的关键词匹配类别标签得分、分类匹配类别标 签得分以及相似度匹配类别标签得分的具体确定方式将通过后面的实施例详 细说明,本步骤不再展开描述。
步骤S103:基于所述文本的关键词匹配类别标签得分、分类匹配类别标 签得分以及相似度匹配类别标签得分,确定所述文本的最终类别标签得分。
在确定所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以 及相似度匹配类别标签得分之后,可以对所述文本的关键词匹配类别标签得 分、分类匹配类别标签得分以及相似度匹配类别标签得分进行融合处理,确 定所述文本的最终标签得分。融合处理的具体实现方式将通过后面的实施例 详细说明,本步骤不再展开描述。
步骤S104:基于所述文本的最终类别标签得分,确定所述文本的类别。
所述文本的最终类别标签得分中包括各个类别标签的最终得分,作为一 种可实施方式,可以确定最大的最终类别标签得分对应的类别标签为所述文 本的类别。作为另一种可实施方式,可以预设阈值,如果所述最大的最终类 别标签得分大于预设阈值,则确定所述最大的最终类别标签得分对应的类别 标签为所述文本的类别;如果所述最大的最终类别标签得分不大于预设阈值, 则确定所述文本的类别为其他类别。需要说明的是,通过预设阈值确定所述 文本的类别方式,能够提高结果的置信度。
本实施例公开了一种文本分类方法,在获取待进行分类的文本之后,确 定该文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹 配类别标签得分;基于该文本的关键词匹配类别标签得分、分类匹配类别标 签得分以及相似度匹配类别标签得分,确定该文本的最终类别标签得分;最 后,基于该文本的最终类别标签得分,确定该文本的类别。该方法中,关键 词匹配类别标签得分、分类匹配类别标签得分、相似度匹配类别标签得分指 示的是文本在三个不同维度的分类结果,文本的类别是基于文本在三个不同 维度的分类结果得到的,准确率更高。
在本申请的另一个实施例中,对确定所述文本的关键词匹配类别标签得 分的具体实现方式进行详细说明。该方式包括以下步骤:
步骤S201:获取预设的各类别标签对应的关键词信息,所述关键词信息 包括关键词以及关键词的权重。
在本申请中,可以预先基于场景需求,确定至少一个类别标签,并针对 每个类别标签,确定该类别标签对应的关键词信息。
具体的,可以先搜集该场景下的大量数据,基于这些数据生成文本库, 比如,在警方办案场景中,搜集大量聊天数据,基于这些聊天数据生成文本 库。在生成文本库之后,可以基于各类别标签对文本库中的各个文本进行类 别标注,并对文本库中的各个文本进行分词处理,得到各个类别标签对应的 词语。针对每个类别标签,基于该类别标签对应的词语确定出该类别标签对 应的关键词信息。
需要说明的是,搜集的原始数据,其表达方式可能不规范,比如,与人 们的口语接近,可能包含较多的网络词汇和表情符号,通常会破坏主谓宾的 句法结构、存在词语简写、指代不明,出现拼写错误等。因此,搜集的原始 数据中往往存在较多噪声数据,在本申请中,可以对搜集的原始数据进行预 处理,得到预处理后的数据,基于预处理后的数据生成文本库。在本申请中, 对搜集的原始数据进行预处理,可以去除原始数据中的噪声数据,有助于提 升后续步骤的精确度。
预处理的方式可以有多种,比如,数据清洗处理、数据转换处理、数据 规范处理、无用词过滤处理等。其中,
数据清洗处理可以包括剔除原始数据中较短数据(比如,小于三个字的 数据、纯标点符号的数据等)、表情包、图片等。
数据转换处理可以包括将原始数据中的语音交互信息转写成文本等。
数据规范处理可以包括将原始数据中不规范表达方式替换为规范表达方 式。作为一种可实施方式,在本申请中,可以基于字典映射实现规范处理。 字典的每一行为一个不规范表达方式与规范表达方式的映射。在对原始数据 进行数据规范处理时,可以扫描该原始数据,当发现不规范表达方式时,自 动将其替换成规范的表达方式。
无用词过滤处理可以包括去掉原始数据中的停用词、语气词等无用词。 作为一种可实施方式,可以对原始数据进行分词,再去掉停用词、语气词等 无用词。分词可以采用现有成熟的分词技术,如N-gram分词等,对此,本申 请不进行任何限定。
作为一种可实施方式,在本申请中,可以选择上述预处理方式中的任意 一种或多种,对此,本申请不进行任何限定。
作为一种可实施方式,所述关键词包括单独关键词,组合关键词和反向 关键词中的一种或多种。
在本申请中,针对每个类别标签,基于该类别标签对应的词语确定出该 类别标签对应的单独关键词信息的方式可以包括:
针对该类别标签对应的每个词语,确定所述词语的重要程度;基于各个 词语的重要程度,确定该类别标签对应的单独关键词信息。
作为一种可实施方式,所述确定所述词语的重要程度,包括:计算所述 词语的TF-IDF值,表征所述词语的重要程度,TF-IDF值越大,重要程度越 高,TF-IDF值越小,重要程度越低。所述计算所述词语的TF-IDF值,包括: 基于所述词语在文本库中出现的次数、所述词语的长度、所述文本库中文本 的条数计算所述词语的词频;计算所述词语的逆文档频率;基于所述词语的 词频和所述词语的逆文档频率计算所述词语的TF-IDF值。
TF-IDF是一种用于信息检索与数据挖掘的常用技术。其中,TF表示词频, 计算方法为TF=(某个词语在文档中出现的次数/文档的总词数),IDF表示 逆文档频率,计算方法为IDF=log(语料库中文档总个数/(包含某词语的文 档个数+1))。当有一个词语的TF和IDF后,将这两个数字相乘,就能得到 该词语的TF-IDF值。某个词语的TF-IDF值越大,那么一般而言这个词语在 这篇文档中的重要性会越高。
但普通的TF-IDF算法存在一些问题,在计算一个词语的TF时,忽略词 语长度,不管词语包含几个字在计算TF时都一视同仁。但是,对于短文本, 长度较短的词语需要重点关注,因此,在本申请中,在计算一个词语的TF时, 获取所述词语在文本库中出现的次数、所述词语的长度、所述文本库中文本 的条数,基于所述词语在文本库中出现的次数、所述词语的长度、所述文本 库中文本的条数计算所述词语的TF。
作为一种可实施方式,在本申请中,一个词语的TF可基于以下公式计算 得到:
Figure BDA0003443913410000101
作为一种可实施方式,基于各个词语的重要程度,确定单独关键词的方 式可以包括:基于各词语的重要程度进行降序排序,取排名靠前的预设数量 个词语作为候选关键词。对候选关键词中的常用词进行过滤,将剩余的候选 关键词确定为单独关键词,并基于每个单独关键词的重要程度确定其权重h。 作为一种可实施方式,可以利用人机协同的方式对候选关键词中的常用词进 行过滤。
由于单个关键词匹配可能带来大量噪声数据,无法满足数据筛选需求, 为了提高数据筛选效率,降低噪声数据量级,因此,本申请中,可以在专家 先验知识及历史经验的基础上,对数据进行多轮分析,提取类别标签关键特 征,多次实验迭代更新,确定组合关键词、反向关键词表,并配置相应的权 重h、h
步骤S202:将所述文本与所述各类别标签对应的关键词进行匹配,得到 匹配关键词。
在本申请中,可以判断所述文本中是否包含某个关键词,如果包含,则 该关键词为匹配关键词。
步骤S203:基于所述匹配关键词对应的类别标签,以及所述匹配关键词 的权重,确定所述文本的关键词匹配类别标签得分。
作为一种可实施方式,可以先计算各类别标签的关键词匹配得分,再基 于各类别标签的关键词匹配得分,确定所述文本的关键词匹配类别标签得分。 其中,每个类别标签的关键词匹配得分可以基于该类别标签对应的匹配关键 词中单独关键词的数量、组合关键词的数量以及反向关键词的数量计算得到。
为便于理解,假设有4个类别标签,则所述文本的关键词匹配类别标签 得分为:
score关键词=[Score类别标签1,Score类别标签2,Score类别标签3,Score类别标签4]
针对每个类别标签,可以基于如下公式,计算该类别标签的关键词匹配 得分:
Score类别标签=h*Score+h*Score-h*Score
具体的,可以先确定该类别标签对应的匹配关键词中单独关键词的数量、 组合关键词的数量以及反向关键词的数量,Score可以由单独关键词的数量除 以该类别标签对应的匹配关键词的总数得到;Score可以由组合关键词的数量 除以该类别标签对应的匹配关键词的总数得到;Score可以由反向关键词的数 量除以该类别标签对应的匹配关键词的总数得到。
在本申请的另一个实施例中,对确定所述文本的分类匹配类别标签得分 的具体实现方式进行详细说明。该方式可以包括:将所述文本输入文本分类 模型,所述文本分类模型输出所述文本的分类匹配类别标签得分。
所述文本分类模型是以训练用文本为训练样本,以训练用文本标注的类 别标签为样本标签,以所述文本分类模型的输出趋近于基于所述类别标签对 应的关键词信息对所述类别标签调整之后的类别标签为训练目标训练得到 的。
需要说明的是,在一般情况下,在模型训练过程中,是以所述文本分类 模型的输出趋近于训练用文本标注的类别标签为训练目标训练的,比如,使 用一个深度网络(DNN,诸如LSTM、CNN、BERT等)来得到训练用文本 的向量表示;借助softmax分类器来输出预测的标签概率分布p,使用 Cross-entropy来计算训练用文本标注的类别标签与p之间的损失,通过loss 函数不断迭代更新最终获得所述文本分类模型。
但是,训练用文本标注的类别标签往往为one-hot表示形式,其与数据的 真实标签往往存在偏差。
为便于理解,假设训练用文本为:
‘#大排查大整治#【一个分神,撞树上了!】6月9日中午12点半左右, 江东镇十白线往武义方向,一辆大货车因司机一时分神,撞上了一颗大树,所 幸树木起到了缓冲作用,车子并未冲进路边河沟造成更大的损失。交警提醒: 午后人体易感觉困倦,注意力不集中,容易出现判断失误,危及安全行车,司 机朋友要适当午休,适当调整驾驶时间,开车时开窗通通风,保持车内空气清 新。#关注交通安全#’
该数据60%部分讲的是消极,而只有40%讲的内容为积极和中性,所以 该数据真实标签应该为(0.6,0.35,0.05),但是事实上该数据标注的标签为 (1,0,0),二者存在偏差。
当存在上述情况时,使用Cross-entropy来计算训练用文本标注的类别标 签与p之间的损失时存在一定的误差,导致训练的模型泛化能力较差。
为此,在本申请中,基于所述类别标签对应的关键词信息对所述类别标 签进行调整得到的类别标签与真实标签更为接近。以所述文本分类模型的输 出趋近于基于所述类别标签对应的关键词信息对所述类别标签调整之后的类 别标签为训练目标训练得到的文本分类模型泛化能力更强。
需要说明的是,调整后的类别标签更能反映标签中各个分量之间的混淆 程度或相似程度的分布。
作为一种可实施方式,在本申请中,所述文本分类模型可以采用WWM (Whole WordMasking,全词覆盖)预训练BERT模型作为基础的模型。为 了使得该模型更适合本申请的场景需求,在本申请中,可以以文本库中的全 部或部分文本作为训练用文本,对基础的模型继续进行训练。
以文本库中包含聊天数据文本为例,在对基础的模型继续进行训练时, 由于数据较短,采用更大的batch size,更长训练步长;去掉原始的下句预测 损失函数;不采用原始的现在128长度的文本上进行训练,然后二阶段再在 32的长度上进行微调,直接在32的序列长度上进行训练,使得模型能够适应 短文本;不采用原始的字级别MASK,而采用词级别进行MASK,融入更多 先验知识,减轻对中文特有的词结构破坏;采用2e-6的学习率,训练80万步 得到更适合于聊天数据文本处理的BERT预训练模型。
文本分类模型为BERT模型时,将所述文本输入文本分类模型,所述文 本分类模型输出所述文本的分类匹配类别标签得分的过程可以为:对于用户 输入的所述文本,首先经过分词处理,并补充上BERT模型输入所需要的 [CLS]、[SEP]。然后对分词后的输入进行向量化处理并输入到BERT模型中, 输出经过BERT模型编码过语义的特征向量,使用[CLS]所对应的特征向量作 为sotfmax的输入,输出所述文本的分类匹配类别标签得分。
为便于理解,假设有4个类别标签,则所述文本的分类匹配类别标签得 分为:
score分类=[Score类别标签1,Score类别标签2,Score类别标签3,Score类别标签4]
在本申请的另一个实施例中,对确定所述文本的相似度匹配类别标签得 分的具体实现方式进行了说明,该方式可以包括以下步骤:
步骤S301:获取预设的参考文本库,所述参考文本库中包括各类别标签 对应的参考文本。
在本申请中,可以从文本分类模型的训练用文本中筛选出部分文本作为 参考文本,用于与待进行分类的文本组成文本对,计算相似度得分,以得到 所述文本的相似度匹配类别标签得分。
需要说明的是,参考文本中包含预设的全部类别标签对应的文本,比如, 预设类别标签为1、2、3、4,参考文本中可以包括10个类别标签为1的文本,10个类别标签为2的文本,10个类别标签为3的文本和10个类别标签为4 的文本。
步骤S302:针对每个参考文本,将所述参考文本与所述文本输入相似度 计算模型,所述相似度计算模型输出所述参考文本与所述文本的相似度得分; 所述相似度计算模型是以训练用文本对为训练样本,以训练用文本对标注的 相似度结果为样本标签,训练得到的。
作为一种可实施方式,所述训练用文本对的确定方式为:获取预设的原 始文本对;确定预设的关键词;基于所述原始文本对与所述关键词,得到训 练用文本对,每个训练用文本对中的一个文本是由一个关键词和与该文本对 应的原始文本组合得到的。
需要说明的是,预设的原始文本对可以是从文本分类模型的训练用文本 中筛选出来的,为了解决数据量稀缺问题,在本申请中可以采用预设的关键 词与原始文本相组合的方式进行数据扩充,其中,预设的关键词可以为各个 类别标签对应的关键词中的全部或部分,也可以为原始文本涉及的关键词, 对此,本申请不进行任何限定。
使用扩充后的数据训练容易造成模型过拟合,因此,在本申请中,所述 相似度计算模型的训练过程包括:基于dropout机制对训练用文本对进行处理 后再输入所述相似度计算模型。如此处理,能够增加输入相似度计算模型的 数据的多样性。其中的dropout机制是基于预设的dropout值在每轮训练迭代 时,输入数据随机mask掉一部分信息,比如,dropout=0.8,则每轮训练迭代 时,输入数据随机mask掉20%信息。
步骤S303:基于各参考文本对应的类别标签,以及,各参考文本与所述 文本的相似度得分,计算所述文本的相似度匹配类别标签得分。
在本步骤中,可以将同一类别标签的参考文本与所述文本的相似度得分 进行求和求平均,即得到各个类别标签的相似度匹配得分。各个类别标签的 相似度匹配得分组合得到所述文本的相似度匹配类别标签得分。
为便于理解,假设有4个类别标签,则所述文本的相似度匹配类别标签 得分为:
score相似度=[Score类别标签1,Score类别标签2,Score类别标签3,Score类别标签4]
在本申请的另一个实施例中,对基于所述文本的关键词匹配类别标签得 分、分类匹配类别标签得分以及相似度匹配类别标签得分,确定所述文本的 最终类别标签得分的过程进行了详细说明,该过程可以包括:
步骤S401:确定关键词匹配类别标签得分对应的权重、分类匹配类别标 签得分的权重以及相似度匹配类别标签得分的权重。
在本申请中,可以通过多次试验调优得到关键词匹配类别标签得分对应 的权重、分类匹配类别标签得分的权重以及相似度匹配类别标签得分的权重。
步骤S402:基于所述文本的关键词匹配类别标签得分、分类匹配类别标 签得分、相似度匹配类别标签得分、所述关键词匹配类别标签得分对应的权 重、所述分类匹配类别标签得分的权重以及所述相似度匹配类别标签得分的 权重,确定所述文本的最终类别标签得分。
将各个权重与对应的得分相乘求和即可确定所述文本的最终类别标签得 分。
下面对本申请实施例公开的文本分类装置进行描述,下文描述的文本分 类装置与上文描述的文本分类方法可相互对应参照。
参照图2,图2为本申请实施例公开的一种文本分类装置结构示意图。如 图2所示,该文本分类装置可以包括:
获取单元21,用于获取待进行分类的文本;
各匹配类别标签得分确定单元22,用于确定所述文本的关键词匹配类别 标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分;
最终类别标签得分确定单元23,用于基于所述文本的关键词匹配类别标 签得分、分类匹配类别标签得分以及相似度匹配类别标签得分,确定所述文 本的最终类别标签得分;
文本类别确定单元24,用于基于所述文本的最终类别标签得分,确定所 述文本的类别。
作为一种可实施方式,所述各匹配类别标签得分确定单元包括关键词匹 配类别标签得分确定单元,所述关键词匹配类别标签得分确定单元包括:
关键词信息获取单元,用于获取预设的各类别标签对应的关键词信息, 所述关键词信息包括关键词以及关键词的权重;
匹配单元,用于将所述文本与所述各类别标签对应的关键词进行匹配, 得到匹配关键词;
关键词匹配类别标签得分确定子单元,用于基于所述匹配关键词对应的 类别标签,以及所述匹配关键词的权重,确定所述文本的关键词匹配类别标 签得分。
作为一种可实施方式,所述关键词包括单独关键词、组合关键词和反向 关键词中的一种或多种。
作为一种可实施方式,所述各匹配类别标签得分确定单元包括分类匹配 类别标签得分确定单元,所述分类匹配类别标签得分确定单元用于:
将所述文本输入文本分类模型,所述文本分类模型输出所述文本的分类 匹配类别标签得分;
所述文本分类模型是以训练用文本为训练样本,以训练用文本标注的类 别标签为样本标签,以所述文本分类模型的输出趋近于基于所述类别标签对 应的关键词信息对所述类别标签调整之后的类别标签为训练目标训练得到 的。
作为一种可实施方式,所述各匹配类别标签得分确定单元包括相似度匹 配类别标签得分确定单元,所述相似度匹配类别标签得分确定单元,包括:
参考文本库获取单元,用于获取预设的参考文本库,所述参考文本库中 包括各类别标签对应的参考文本;
相似度得分计算单元,用于针对每个参考文本,将所述参考文本与所述 文本输入相似度计算模型,所述相似度计算模型输出所述参考文本与所述文 本的相似度得分;所述相似度计算模型是以训练用文本对为训练样本,以训 练用文本对标注的相似度结果为样本标签,训练得到的;
相似度匹配类别标签得分计算子单元,用于基于各参考文本对应的类别 标签,以及,各参考文本与所述文本的相似度得分,计算所述文本的相似度 匹配类别标签得分。
作为一种可实施方式,所述装置还包括:训练用文本对确定单元,用于 获取预设的原始文本对;确定预设的关键词;基于所述原始文本对与所述关 键词,得到训练用文本对,每个训练用文本对中的一个文本是由一个关键词 和与该文本对应的原始文本组合得到的。
作为一种可实施方式,所述相似度计算模型的训练过程包括:
基于dropout机制对训练用文本对进行处理后再输入所述相似度计算模 型。
作为一种可实施方式,所述最终类别标签得分确定单元,包括:
权重确定单元,用于确定关键词匹配类别标签得分对应的权重、分类匹 配类别标签得分的权重以及相似度匹配类别标签得分的权重;
最终类别标签得分确定子单元,用于基于所述文本的关键词匹配类别标 签得分、分类匹配类别标签得分、相似度匹配类别标签得分、所述关键词匹 配类别标签得分对应的权重、所述分类匹配类别标签得分的权重以及所述相 似度匹配类别标签得分的权重,确定所述文本的最终类别标签得分。
作为一种可实施方式,所述文本类别确定单元,具体用于:
确定最大的最终类别标签得分;如果所述最大的最终类别标签得分大于 预设阈值,则确定所述最大的最终类别标签得分对应的类别标签为所述文本 的类别;如果所述最大的最终类别标签得分不大于预设阈值,则确定所述文 本的类别为其他类别。
参照图3,图3为本申请实施例提供的文本分类设备的硬件结构框图,参 照图3,文本分类设备的硬件结构可以包括:至少一个处理器1,至少一个通 信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量 为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的 通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC (ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例 的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器 (non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序 用于:
获取待进行分类的文本;
确定所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及 相似度匹配类别标签得分;
基于所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及 相似度匹配类别标签得分,确定所述文本的最终类别标签得分;
基于所述文本的最终类别标签得分,确定所述文本的类别。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于 处理器执行的程序,所述程序用于:
获取待进行分类的文本;
确定所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及 相似度匹配类别标签得分;
基于所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及 相似度匹配类别标签得分,确定所述文本的最终类别标签得分;
基于所述文本的最终类别标签得分,确定所述文本的类别。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语 仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求 或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术 语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而 使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且 还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或 者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……” 限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存 在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都 是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用 本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易 见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下, 在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例, 而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种文本分类方法,其特征在于,所述方法包括:
获取待进行分类的文本;
确定所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分;
基于所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分,确定所述文本的最终类别标签得分;
基于所述文本的最终类别标签得分,确定所述文本的类别。
2.根据权利要求1所述的方法,其特征在于,确定所述文本的关键词匹配类别标签得分,包括:
获取预设的各类别标签对应的关键词信息,所述关键词信息包括关键词以及关键词的权重;
将所述文本与所述各类别标签对应的关键词进行匹配,得到匹配关键词;
基于所述匹配关键词对应的类别标签,以及所述匹配关键词的权重,确定所述文本的关键词匹配类别标签得分。
3.根据权利要求2所述的方法,其特征在于,所述关键词包括单独关键词、组合关键词和反向关键词中的一种或多种。
4.根据权利要求1所述的方法,其特征在于,确定所述文本的分类匹配类别标签得分,包括:
将所述文本输入文本分类模型,所述文本分类模型输出所述文本的分类匹配类别标签得分;
所述文本分类模型是以训练用文本为训练样本,以训练用文本标注的类别标签为样本标签,以所述文本分类模型的输出趋近于基于所述类别标签对应的关键词信息对所述类别标签调整之后的类别标签为训练目标训练得到的。
5.根据权利要求1所述的方法,其特征在于,确定所述文本的相似度匹配类别标签得分,包括:
获取预设的参考文本库,所述参考文本库中包括各类别标签对应的参考文本;
针对每个参考文本,将所述参考文本与所述文本输入相似度计算模型,所述相似度计算模型输出所述参考文本与所述文本的相似度得分;所述相似度计算模型是以训练用文本对为训练样本,以训练用文本对标注的相似度结果为样本标签,训练得到的;
基于各参考文本对应的类别标签,以及,各参考文本与所述文本的相似度得分,计算所述文本的相似度匹配类别标签得分。
6.根据权利要求5所述的方法,其特征在于,所述训练用文本对的确定方式为:
获取预设的原始文本对;
确定预设的关键词;
基于所述原始文本对与所述关键词,得到训练用文本对,每个训练用文本对中的一个文本是由一个关键词和与该文本对应的原始文本组合得到的。
7.根据权利要求5所述的方法,其特征在于,所述相似度计算模型的训练过程包括:
基于dropout机制对训练用文本对进行处理后再输入所述相似度计算模型。
8.根据权利要求1所述的方法,其特征在于,所述基于所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分,确定所述文本的最终类别标签得分,包括:
确定关键词匹配类别标签得分对应的权重、分类匹配类别标签得分的权重以及相似度匹配类别标签得分的权重;
基于所述文本的关键词匹配类别标签得分、分类匹配类别标签得分、相似度匹配类别标签得分、所述关键词匹配类别标签得分对应的权重、所述分类匹配类别标签得分的权重以及所述相似度匹配类别标签得分的权重,确定所述文本的最终类别标签得分。
9.根据权利要求1所述的方法,其特征在于,所述基于所述文本的最终类别标签得分,确定所述文本的类别,包括:
确定最大的最终类别标签得分;
如果所述最大的最终类别标签得分大于预设阈值,则确定所述最大的最终类别标签得分对应的类别标签为所述文本的类别;如果所述最大的最终类别标签得分不大于预设阈值,则确定所述文本的类别为其他类别。
10.一种文本分类装置,其特征在于,所述装置包括:
获取单元,用于获取待进行分类的文本;
各匹配类别标签得分确定单元,用于确定所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分;
最终类别标签得分确定单元,用于基于所述文本的关键词匹配类别标签得分、分类匹配类别标签得分以及相似度匹配类别标签得分,确定所述文本的最终类别标签得分;
文本类别确定单元,用于基于所述文本的最终类别标签得分,确定所述文本的类别。
11.一种文本分类设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1至9中任一项所述的文本分类方法的各个步骤。
12.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至9中任一项所述的文本分类方法的各个步骤。
CN202111646089.5A 2021-12-29 2021-12-29 文本分类方法、相关设备及可读存储介质 Pending CN114756675A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111646089.5A CN114756675A (zh) 2021-12-29 2021-12-29 文本分类方法、相关设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111646089.5A CN114756675A (zh) 2021-12-29 2021-12-29 文本分类方法、相关设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN114756675A true CN114756675A (zh) 2022-07-15

Family

ID=82325442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111646089.5A Pending CN114756675A (zh) 2021-12-29 2021-12-29 文本分类方法、相关设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114756675A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115269838A (zh) * 2022-07-20 2022-11-01 北京新纽科技有限公司 一种电子病历的分类方法
CN115827875A (zh) * 2023-01-09 2023-03-21 无锡容智技术有限公司 一种文本数据的处理终端查找方法
CN117273174A (zh) * 2023-11-23 2023-12-22 深圳依时货拉拉科技有限公司 模型的训练方法、装置和可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115269838A (zh) * 2022-07-20 2022-11-01 北京新纽科技有限公司 一种电子病历的分类方法
CN115827875A (zh) * 2023-01-09 2023-03-21 无锡容智技术有限公司 一种文本数据的处理终端查找方法
CN115827875B (zh) * 2023-01-09 2023-04-25 无锡容智技术有限公司 一种文本数据的处理终端查找方法
CN117273174A (zh) * 2023-11-23 2023-12-22 深圳依时货拉拉科技有限公司 模型的训练方法、装置和可读存储介质
CN117273174B (zh) * 2023-11-23 2024-06-11 深圳依时货拉拉科技有限公司 模型的训练方法、装置和可读存储介质

Similar Documents

Publication Publication Date Title
CN101477544B (zh) 一种识别垃圾文本的方法和系统
CN106328147B (zh) 语音识别方法和装置
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN107180084B (zh) 词库更新方法及装置
CN111950273A (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN112613582B (zh) 一种基于深度学习混合模型的争议焦点检测方法及装置
Boishakhi et al. Multi-modal hate speech detection using machine learning
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN111753058A (zh) 一种文本观点挖掘方法及系统
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN112667813B (zh) 用于裁判文书的敏感身份信息的识别方法
Prabowo et al. Hierarchical multi-label classification to identify hate speech and abusive language on Indonesian twitter
CN113254643A (zh) 文本分类方法、装置、电子设备和
CN112528653A (zh) 短文本实体识别方法和系统
CN115759071A (zh) 基于大数据的政务敏感信息识别系统和方法
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
Dwivedi et al. Examining the emotional tone in politically polarized Speeches in India: An In-Depth analysis of two contrasting perspectives
CN115878847A (zh) 基于自然语言的视频引导方法、系统、设备及存储介质
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN116227486A (zh) 一种基于检索和对比学习的情感分析方法
CN115309899A (zh) 一种文本中特定内容识别存储方法及系统
Nisha et al. Deep KNN Based Text Classification for Cyberbullying Tweet Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination