CN115408527A - 文本分类方法、装置、电子设备及存储介质 - Google Patents

文本分类方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115408527A
CN115408527A CN202211360818.5A CN202211360818A CN115408527A CN 115408527 A CN115408527 A CN 115408527A CN 202211360818 A CN202211360818 A CN 202211360818A CN 115408527 A CN115408527 A CN 115408527A
Authority
CN
China
Prior art keywords
text
classification model
new input
input text
incremental
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211360818.5A
Other languages
English (en)
Other versions
CN115408527B (zh
Inventor
郭振涛
梁金千
崔培升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING ESAFENET TECHNOLOGY DEVELOPMENT CO LTD
Original Assignee
BEIJING ESAFENET TECHNOLOGY DEVELOPMENT CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING ESAFENET TECHNOLOGY DEVELOPMENT CO LTD filed Critical BEIJING ESAFENET TECHNOLOGY DEVELOPMENT CO LTD
Priority to CN202211360818.5A priority Critical patent/CN115408527B/zh
Publication of CN115408527A publication Critical patent/CN115408527A/zh
Application granted granted Critical
Publication of CN115408527B publication Critical patent/CN115408527B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及信息处理技术领域,提供了一种文本分类方法、装置、电子设备及存储介质,该方法包括获取新输入文本;根据增量选择策略,筛选新输入文本得到增量样本,其中增量选择策略与新输入文本的类别概率分布相关,新输入文本的类别概率分布通过预先训练的分类模型进行预测获得;根据增量样本的类别,更新分类模型的参数。采用本发明的文本分类方法,能够对新输入文本进行增量学习分类,与时俱进,灵活性强,同时准确率高。

Description

文本分类方法、装置、电子设备及存储介质
技术领域
本发明一般涉及信息处理技术领域,具体涉及一种文本分类方法、装置、电子设备及存储介质。
背景技术
现代社会,互联网技术已深入到人们生活的方方面面。随之而来的是各种数据爆炸式增长,此时对文本数据进行有效分类便显得尤为重要。
常见的,例如公开号为CN1310825A的中国专利申请,提出一种用于分类文本以及构造文本分类器的方法和装置,根据文本信息对象训练集生成分类器参数以便确定文本信息对象是否属于该种类。
目前相关技术通过将所有文本数据一次性全部读入内存之后再分类处理,但这种方式受限于存储技术的制约,难以一次性读入海量数据。同时通常情况下,文本数据都是分批次获得的,这更增加了一次性喂给的难度,具有局限性。
发明内容
鉴于相关技术中的上述缺陷或不足,期望提供一种文本分类方法、装置、电子设备及存储介质,能够对新输入文本进行增量学习分类,与时俱进,灵活性强,同时准确率高。
第一方面,本发明提供一种文本分类方法,该方法包括:
获取新输入文本;
根据增量选择策略,筛选新输入文本得到增量样本,其中增量选择策略与新输入文本的类别概率分布相关,新输入文本的类别概率分布通过预先训练的分类模型进行预测获得;
根据增量样本的类别,更新分类模型的参数。
可选的,在本发明一些实施例中,根据增量选择策略,筛选新输入文本得到增量样本,包括:
计算新输入文本对应各类别的概率;
当各类别的概率中存在一个类别的概率大于剩余类别的概率之和的预设倍数时,将新输入文本作为增量样本。
可选的,在本发明一些实施例中,根据增量样本的类别,更新分类模型的参数,包括:
检测增量样本的类别与分类模型的类别是否相同,以及分类模型的特征词是否属于增量样本;
基于检测结果对分类模型的类别概率和特征词概率进行更新。
可选的,在本发明一些实施例中,基于检测结果对分类模型的类别概率和特征词概率进行更新,包括:
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE004
其中,
Figure DEST_PATH_IMAGE006
表示所有类别的文本总数,而文本数量的更新为N=N+1;
Figure DEST_PATH_IMAGE008
表示类别
Figure DEST_PATH_IMAGE010
的所有文本中所有特征词的词频总和;表示增量样本
Figure DEST_PATH_IMAGE012
中出现的所有词的词频总和;
Figure DEST_PATH_IMAGE014
表示特征词
Figure DEST_PATH_IMAGE016
在增量样本中的词频;
Figure DEST_PATH_IMAGE018
为增量样本
Figure 717495DEST_PATH_IMAGE012
的预测类别。
可选的,在本发明一些实施例中,预先训练的分类模型通过如下步骤得到:
获取文本数据集;
对文本数据集进行预处理,获得词汇表;
根据词汇表中的特征词,构建向量空间模型以将文本数据转化为向量,并进行训练得到分类模型。
可选的,在本发明一些实施例中,根据词汇表中的特征词,构建向量空间模型以将文本数据转化为向量之前,该方法还包括:
根据特征词的词频和逆文件频率,计算特征词的权重;
根据特征词的权重,对特征词进行排序筛选。
可选的,在本发明一些实施例中,分类模型包括朴素贝叶斯分类模型。
第二方面,本发明提供一种文本分类装置,该装置包括:
获取模块,用于获取新输入文本;
筛选模块,用于根据增量选择策略,筛选新输入文本得到增量样本,其中增量选择策略与新输入文本的类别概率分布相关,新输入文本的类别概率分布通过预先训练的分类模型进行预测获得;
更新模块,用于根据增量样本的类别,更新分类模型的参数。
第三方面,本发明提供一种电子设备,包括处理器和存储器,存储器中存储有至少一段程序、代码集或指令集,所述程序、所述代码集或所述指令集由处理器加载并执行以实现第一方面中任意一项的文本分类方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,该计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现第一方面所描述的文本分类方法的步骤。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例提供了一种文本分类方法、装置、电子设备及存储介质,通过增量选择策略来筛选新输入文本得到增量样本,其中增量选择策略与新输入文本的类别概率分布相关,而新输入文本的类别概率分布通过预先训练的分类模型进行预测获得,此时一方面能够使分类模型复习之前学习过的知识,温故知新,另一方面还能够选择具有较高表达能力的文本用于增量学习,提高了模型识别的准确率。进一步的,根据增量样本的类别来更新分类模型的参数,与时俱进,以适应新数据,灵活性更强。
附图说明
通过阅读参照以下附图所作的对非限制性实施例的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例提供的一种文本分类方法的流程示意图;
图2为本发明实施例提供的一种混淆矩阵示意图;
图3为本发明实施例提供的一种文本分类装置的结构示意图;
图4为本发明实施例提供的另一种文本分类装置的结构示意图;
图5为本发明实施例提供的又一种文本分类装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”“第二”“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚的列出的那些步骤或模块,而是可包括没有清楚的列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为便于更好的理解本发明,下面通过图1至图5详细的阐述本发明实施例提供的文本分类方法、装置、电子设备及存储介质。
请参考图1,其为本发明实施例提供的一种文本分类方法的流程示意图,该方法可以包括以下步骤:
S101,获取新输入文本。
示例性的,本发明实施例中新输入文本可以为分批次获得的文本。
S102,根据增量选择策略,筛选新输入文本得到增量样本,其中增量选择策略与新输入文本的类别概率分布相关,新输入文本的类别概率分布通过预先训练的分类模型进行预测获得。
示例性的,本发明实施例首先计算新输入文本对应各类别的概率,然后当各类别的概率中存在一个类别的概率大于剩余类别的概率之和的预设倍数α时,将新输入文本作为增量样本,比如预设倍数α的取值范围为[1/2,1]。这样设置的好处在于不仅能够使分类模型复习之前学习过的知识,温故知新,还能够选择具有较高表达能力的文本用于增量学习,提高了模型识别的准确率。
可选的,本发明实施例在预先训练分类模型的过程中,首先获取文本数据集,比如该文本数据集为公开数据集THUCNews的子集,并统计文本总数;然后,对文本数据集进行预处理,获得词汇表,比如预处理包括但不限于分词和去除停用词等,即提取文本的特征词;进而,根据词汇表中的特征词,构建向量空间模型以将文本数据转化为向量,此时可以查看向量维度,并进行训练得到分类模型,即通过文本数据集构建的训练集中文本向量来训练模型,计算
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE022
并保存,其中
Figure 306739DEST_PATH_IMAGE020
表示类别
Figure 820897DEST_PATH_IMAGE010
的概率,
Figure 684948DEST_PATH_IMAGE022
表示已知类别
Figure 233741DEST_PATH_IMAGE010
的情况下特征词
Figure 525045DEST_PATH_IMAGE016
的概率。
可选的,本发明一些实施例在根据词汇表中的特征词,构建向量空间模型以将文本数据转化为向量之前,还可以首先根据特征词的词频(TF值)和逆文件频率(IDF值),计算特征词的权重(TF-IDF值);然后根据特征词的权重(TF-IDF值),对特征词进行排序筛选,比如降序排序,并选取排名在前10%的特征词。这样设置的好处是通过降维处理,能够简化计算,大幅提高性能。
可选的,本发明一些实施例中分类模型包括但不限于朴素贝叶斯分类模型,这样设置的好处在于高效且简单易实现,并且支持多分类。
S103,根据增量样本的类别,更新分类模型的参数。
示例性的,本发明实施例在检测增量样本的类别与分类模型的类别是否相同,以及分类模型的特征词是否属于增量样本之后,基于检测结果对分类模型的类别概率和特征词概率进行更新,即:
Figure DEST_PATH_IMAGE002A
Figure DEST_PATH_IMAGE004A
其中,
Figure 640681DEST_PATH_IMAGE006
表示所有类别的文本总数,而文本数量的更新为N=N+1;
Figure 574002DEST_PATH_IMAGE008
表示类别
Figure 711722DEST_PATH_IMAGE010
的所有文本中所有特征词的词频总和;
Figure DEST_PATH_IMAGE024
表示增量样本
Figure 908348DEST_PATH_IMAGE012
中出现的所有词的词频总和;
Figure 630054DEST_PATH_IMAGE014
表示特征词
Figure 101487DEST_PATH_IMAGE016
在增量样本
Figure 93714DEST_PATH_IMAGE012
中的词频;
Figure 992400DEST_PATH_IMAGE018
为增量样本
Figure 968446DEST_PATH_IMAGE012
的预测类别。
可选的,本发明一些实施例在分类模型的参数更新之后,还可以通过文本数据集构建的测试集对模型进行批量测试,获得混淆矩阵,并计算召回率、精确率和F1值。比如训练集为THUCNews数据集的子集,教育、财经、彩票和房产四类文本,每类有10篇文本,而在增量学习实现中,新增各类别的数量为{'财经': 51, '教育': 41, '彩票': 37, '房产':31},增量学习后N=200。进一步的,测试集数据量为{'财经': 1000, '教育': 1200, '彩票': 800, '房产': 1000},通过增量学习后的朴素贝叶斯分类模型对测试数据集进行测试后,混淆矩阵如图2所示。以此混淆矩阵计算得出的评价指标如表1所示,可以看出本发明实施例提供的方法能够完美实现增量学习进行文本分类。
表1 评价指标
召回率<sub>(完备性)</sub> 精确率<sub>(精确性)</sub> F1值<sub>(调和平均)</sub>
彩票 0.8225 0.9985 0.902
房产 0.984 0.9425 0.9628
教育 0.8917 0.9953 0.9407
财经 0.992 0.8118 0.8929
本发明实施例提供的文本分类方法,通过增量选择策略来筛选新输入文本得到增量样本,其中增量选择策略与新输入文本的类别概率分布相关,而新输入文本的类别概率分布通过预先训练的分类模型进行预测获得,此时一方面能够使分类模型复习之前学习过的知识,温故知新,另一方面还能够选择具有较高表达能力的文本用于增量学习,提高了模型识别的准确率。进一步的,根据增量样本的类别来更新分类模型的参数,与时俱进,以适应新数据,灵活性更强。
基于前述实施例,本发明实施例提供一种文本分类装置。该文本分类装置100可以应用于图1~图2对应实施例的文本分类方法中。请参考图3,该文本分类装置100包括:
获取模块101,用于获取新输入文本;
筛选模块102,用于根据增量选择策略,筛选新输入文本得到增量样本,其中增量选择策略与新输入文本的类别概率分布相关,新输入文本的类别概率分布通过预先训练的分类模型进行预测获得;
更新模块103,用于根据增量样本的类别,更新分类模型的参数。
可选的,如图4所示,本发明一些实施例中筛选模块102包括:
计算单元1021,用于计算新输入文本对应各类别的概率;
确定单元1022,用于当各类别的概率中存在一个类别的概率大于剩余类别的概率之和的预设倍数时,将新输入文本作为增量样本。
可选的,如图5所示,本发明一些实施例中更新模块103包括:
检测单元1031,用于检测增量样本的类别与分类模型的类别是否相同,以及分类模型的特征词是否属于增量样本;
更新单元1032,用于基于检测结果对分类模型的类别概率和特征词概率进行更新。
可选的,本发明一些实施例中更新单元1032还用于根据下式进行参数更新,即:
Figure DEST_PATH_IMAGE002AA
Figure DEST_PATH_IMAGE004AA
其中,
Figure 86312DEST_PATH_IMAGE006
表示所有类别的文本总数,而文本数量的更新为N=N+1;
Figure 198625DEST_PATH_IMAGE008
表示类别
Figure 2633DEST_PATH_IMAGE010
的所有文本中所有特征词的词频总和;
Figure 465975DEST_PATH_IMAGE024
表示增量样本
Figure 13631DEST_PATH_IMAGE012
中出现的所有词的词频总和;
Figure 246029DEST_PATH_IMAGE014
表示特征词
Figure 486518DEST_PATH_IMAGE016
在增量样本
Figure 905998DEST_PATH_IMAGE012
中的词频;
Figure 522924DEST_PATH_IMAGE018
为增量样本
Figure 842785DEST_PATH_IMAGE012
的预测类别。
可选的,本发明一些实施例中筛选模块102还用于获取文本数据集;
对文本数据集进行预处理,获得词汇表;
根据词汇表中的特征词,构建向量空间模型以将文本数据转化为向量,并进行训练得到分类模型。
可选的,本发明一些实施例中筛选模块102还用于根据特征词的词频和逆文件频率,计算特征词的权重;
根据特征词的权重,对特征词进行排序筛选。
可选的,本发明一些实施例中分类模型包括朴素贝叶斯分类模型。
需要说明的是,本实施例中与其它实施例中相同步骤和相同内容的说明,可以参照其它实施例中的描述,此处不再赘述。
本发明实施例提供的文本分类装置,该文本分类装置中获取模块能够获取新输入文本,而筛选模块能够根据增量选择策略,筛选新输入文本得到增量样本,其中增量选择策略与新输入文本的类别概率分布相关,新输入文本的类别概率分布通过预先训练的分类模型进行预测获得,此时一方面可以使分类模型复习之前学习过的知识,温故知新,另一方面还可以选择具有较高表达能力的文本用于增量学习,提高了模型识别的准确率。进一步的,更新模块能够根据增量样本的类别,更新分类模型的参数,与时俱进,以适应新数据,灵活性更强。
基于前述实施例,本发明实施例提供一种电子设备,该电子设备包括处理器和存储器。存储器中存储有至少一段程序、代码集或指令集,该程序、代码集或指令集由处理器加载并执行以实现图1~图2对应实施例的文本分类方法的步骤。
作为另一方面,本发明实施例提供一种计算机可读存储介质,用于存储程序代码,该程序代码用于执行前述图1~图2对应实施例的文本分类方法中的任意一种实施方式。
所属领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。而集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例文本分类方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文本分类方法,其特征在于,所述方法包括:
获取新输入文本;
根据增量选择策略,筛选所述新输入文本得到增量样本,其中所述增量选择策略与所述新输入文本的类别概率分布相关,所述新输入文本的类别概率分布通过预先训练的分类模型进行预测获得;
根据所述增量样本的类别,更新所述分类模型的参数。
2.根据权利要求1所述的文本分类方法,其特征在于,所述根据增量选择策略,筛选所述新输入文本得到增量样本,包括:
计算所述新输入文本对应各类别的概率;
当所述各类别的概率中存在一个类别的概率大于剩余类别的概率之和的预设倍数时,将所述新输入文本作为所述增量样本。
3.根据权利要求1所述的文本分类方法,其特征在于,所述根据所述增量样本的类别,更新所述分类模型的参数,包括:
检测所述增量样本的类别与所述分类模型的类别是否相同,以及所述分类模型的特征词是否属于所述增量样本;
基于检测结果对所述分类模型的类别概率和特征词概率进行更新。
4.根据权利要求3所述的文本分类方法,其特征在于,所述基于检测结果对所述分类模型的类别概率和特征词概率进行更新,包括:
Figure 191708DEST_PATH_IMAGE002
Figure 312111DEST_PATH_IMAGE004
其中,
Figure DEST_PATH_IMAGE005
表示所有类别的文本总数,而文本数量的更新为N=N+1;
Figure 826268DEST_PATH_IMAGE006
表示类别
Figure DEST_PATH_IMAGE007
的所有文本中所有特征词的词频总和;
Figure 893582DEST_PATH_IMAGE008
表示增量样本
Figure DEST_PATH_IMAGE009
中出现的所有词的词频总和;
Figure 940910DEST_PATH_IMAGE010
表示特征词
Figure DEST_PATH_IMAGE011
在增量样本
Figure 435476DEST_PATH_IMAGE009
中的词频;
Figure 171351DEST_PATH_IMAGE012
为增量样本
Figure 635830DEST_PATH_IMAGE009
的预测类别。
5.根据权利要求1至4中任意一项所述的文本分类方法,其特征在于,所述预先训练的分类模型通过如下步骤得到:
获取文本数据集;
对所述文本数据集进行预处理,获得词汇表;
根据所述词汇表中的特征词,构建向量空间模型以将文本数据转化为向量,并进行训练得到所述分类模型。
6.根据权利要求5所述的文本分类方法,其特征在于,所述根据所述词汇表中的特征词,构建向量空间模型以将文本数据转化为向量之前,还包括:
根据所述特征词的词频和逆文件频率,计算所述特征词的权重;
根据所述特征词的权重,对所述特征词进行排序筛选。
7.根据权利要求5所述的文本分类方法,其特征在于,所述分类模型包括朴素贝叶斯分类模型。
8.一种文本分类装置,其特征在于,所述装置包括:
获取模块,用于获取新输入文本;
筛选模块,用于根据增量选择策略,筛选所述新输入文本得到增量样本,其中所述增量选择策略与所述新输入文本的类别概率分布相关,所述新输入文本的类别概率分布通过预先训练的分类模型进行预测获得;
更新模块,用于根据所述增量样本的类别,更新所述分类模型的参数。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一段程序、代码集或指令集,所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现权利要求1至7中任意一项所述的文本分类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1至7中任意一项所述的文本分类方法的步骤。
CN202211360818.5A 2022-11-02 2022-11-02 文本分类方法、装置、电子设备及存储介质 Active CN115408527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211360818.5A CN115408527B (zh) 2022-11-02 2022-11-02 文本分类方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211360818.5A CN115408527B (zh) 2022-11-02 2022-11-02 文本分类方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115408527A true CN115408527A (zh) 2022-11-29
CN115408527B CN115408527B (zh) 2023-03-10

Family

ID=84169120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211360818.5A Active CN115408527B (zh) 2022-11-02 2022-11-02 文本分类方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115408527B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115774854A (zh) * 2023-01-30 2023-03-10 北京亿赛通科技发展有限责任公司 一种文本分类方法、装置、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102540164A (zh) * 2012-01-04 2012-07-04 中国电子科技集团公司第二十八研究所 一种基于增量式学习的雷达辐射源分类建模方法
CN103136361A (zh) * 2013-03-07 2013-06-05 陈一飞 一种生物文本中蛋白质相互关系的半监督抽取方法
CN108062331A (zh) * 2016-11-08 2018-05-22 南京理工大学 基于终生学习的增量式朴素贝叶斯文本分类方法
CN108710672A (zh) * 2018-05-17 2018-10-26 南京大学 一种基于增量贝叶斯算法的主题爬虫方法
WO2020220539A1 (zh) * 2019-04-28 2020-11-05 平安科技(深圳)有限公司 数据增量方法、装置、计算机设备及存储介质
CN112000809A (zh) * 2020-09-29 2020-11-27 迪爱斯信息技术股份有限公司 一种文本类别的增量学习方法及装置、可读存储介质
CN114741500A (zh) * 2021-01-07 2022-07-12 中国科学院软件研究所 一种基于深度主动学习的用户意图识别方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102540164A (zh) * 2012-01-04 2012-07-04 中国电子科技集团公司第二十八研究所 一种基于增量式学习的雷达辐射源分类建模方法
CN103136361A (zh) * 2013-03-07 2013-06-05 陈一飞 一种生物文本中蛋白质相互关系的半监督抽取方法
CN108062331A (zh) * 2016-11-08 2018-05-22 南京理工大学 基于终生学习的增量式朴素贝叶斯文本分类方法
CN108710672A (zh) * 2018-05-17 2018-10-26 南京大学 一种基于增量贝叶斯算法的主题爬虫方法
WO2020220539A1 (zh) * 2019-04-28 2020-11-05 平安科技(深圳)有限公司 数据增量方法、装置、计算机设备及存储介质
CN112000809A (zh) * 2020-09-29 2020-11-27 迪爱斯信息技术股份有限公司 一种文本类别的增量学习方法及装置、可读存储介质
CN114741500A (zh) * 2021-01-07 2022-07-12 中国科学院软件研究所 一种基于深度主动学习的用户意图识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曾谁飞;张笑燕;杜晓峰;陆天波;: "改进的朴素贝叶斯增量算法研究" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115774854A (zh) * 2023-01-30 2023-03-10 北京亿赛通科技发展有限责任公司 一种文本分类方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN115408527B (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
EP3716165A1 (en) Esg criteria-based enterprise evaluation device and operation method thereof
CN104408095B (zh) 一种基于改进的knn文本分类方法
CN112632989B (zh) 一种合同文本中风险信息的提示方法、装置及设备
CN109165529B (zh) 一种暗链篡改检测方法、装置和计算机可读存储介质
CN110287409A (zh) 一种网页类型识别方法及装置
CN115408527B (zh) 文本分类方法、装置、电子设备及存储介质
CN114610865A (zh) 召回文本推荐方法、装置、设备及存储介质
CN115473726A (zh) 一种识别域名的方法及装置
CN107908649B (zh) 一种文本分类的控制方法
CN110147798A (zh) 一种可用于网络信息检测的语义相似度学习方法
CN110069558A (zh) 基于深度学习的数据分析方法及终端设备
CN109933648A (zh) 一种真实用户评论的区分方法和区分装置
CN111949770A (zh) 一种文档分类方法及装置
US8346685B1 (en) Computerized system for enhancing expert-based processes and methods useful in conjunction therewith
CN110096708A (zh) 一种定标集确定方法及装置
Saputri et al. Sentiment analysis on shopee e-commerce using the naïve bayes classifier algorithm
CN115101160A (zh) 药品销售数据挖掘和检索方法及装置
CN111191049B (zh) 信息推送方法、装置、计算机设备和存储介质
CN113221995A (zh) 基于半监督深度分类算法的数据分类方法、设备及装置
CN113407700A (zh) 一种数据查询方法、装置和设备
CN113011503A (zh) 一种电子设备的数据取证方法、存储介质及终端
CN112732908A (zh) 试题新颖度评估方法、装置、电子设备和存储介质
Hajizadeh et al. Evaluating classification performance with only positive and unlabeled samples
CN116187299B (zh) 一种科技项目文本数据检定评价方法、系统及介质
Afrinanda et al. Comparison of Machine Learning Algorithm Models in Bitcoin Price Sentiment Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant