CN112948589B - 文本分类方法、装置和计算机可读存储介质 - Google Patents

文本分类方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN112948589B
CN112948589B CN202110523371.8A CN202110523371A CN112948589B CN 112948589 B CN112948589 B CN 112948589B CN 202110523371 A CN202110523371 A CN 202110523371A CN 112948589 B CN112948589 B CN 112948589B
Authority
CN
China
Prior art keywords
ith
sample
target
feature
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110523371.8A
Other languages
English (en)
Other versions
CN112948589A (zh
Inventor
刘志煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110523371.8A priority Critical patent/CN112948589B/zh
Publication of CN112948589A publication Critical patent/CN112948589A/zh
Application granted granted Critical
Publication of CN112948589B publication Critical patent/CN112948589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本公开涉及数据处理技术领域,提供了一种文本分类方法、装置和计算机可读存储介质。该方法包括:获取分别属于N种类别的文本作为样本,得到N类样本,N为大于1的正整数;对第i类样本进行序列模式挖掘,得到关于第i类样本的频繁序列特征,i为不大于N的正整数;计算第i类样本中字词在不同类样本中的词频,根据词频确定关于第i类样本的关键词特征;根据关于第i类样本的频繁序列特征和关键词特征确定第i特征库,得到N个特征库;基于N个特征库确定待识别文本所属的类型。本技术方案具有较高的识别准确度。

Description

文本分类方法、装置和计算机可读存储介质
技术领域
本公开涉及数据处理技术领域,具体而言,涉及一种文本分类方法、装置和计算机可读存储介质。
背景技术
文本智能分类,能够为工作生活带来极大便利,同时具有较高的应用价值和实践意义。例如,关于某件产品具有上千条线上评论,若用户直接查看则较为耗时,若通过文本智能分类的方式对上述大量线上评论进行分类,则用户可以直接查看分类结果,则可以快速准确的获取到其他用户对该产品的评价结论。
相关技术提供了基于有监督学习的机器学习模型(记作“文本分类模型”)的方法进行文本分类,而为了达到较高的识别准确度,则每个文本类别均需要海量样本且不同类别的样本量较为均衡的情况下训练相关机器学习模型。假如不同类别的样本量分布不均衡或某一类或几类文本样本数据量较少,则无法训练得到识别准确度较高的分类模型。
可见,相关技术提供的文本分类方案对各类文本样本量的依赖性较强。
需要说明的是,上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开的目的在于提供一种文本分类方法、装置和计算机可读存储介质,该方案提供的文本分类方法,无需考虑各类样本数据是否均衡或各类样本数据量较大等因素,在一定程度上提升了识别准确度。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种文本分类方法,包括:获取分别属于N种类别的文本作为样本,得到N类样本,N为大于1的正整数;对第i类样本进行序列模式挖掘,得到关于上述第i类样本的频繁序列特征,i为不大于N的正整数;计算上述第i类样本中字词在不同类样本中的词频,根据上述词频确定关于上述第i类样本的关键词特征;根据关于上述第i类样本的频繁序列特征和关键词特征确定第i特征库,得到N个特征库;以及,基于上述N个特征库确定待识别文本所属的类型。
根据本公开的一个方面,提供了一种文本识别装置,包括:样本获取模块、第一特征获取模块、第二特征获取模块、特征库确定模块以及分类模块。
其中,上述样本获取模块,被配置为:获取分别属于N种类别的文本作为样本,得到N类样本,N为大于1的正整数;上述第一特征获取模块,被配置为:对第i类样本进行序列模式挖掘,得到关于所述第i类样本的频繁序列特征,i为不大于N的正整数;上述第二特征获取模块,被配置为:计算所述第i类样本中字词在不同类样本中的词频,根据所述词频确定关于所述第i类样本的关键词特征;上述特征库确定模块,被配置为:根据关于所述第i类样本的频繁序列特征和关键词特征确定第i特征库,得到N个特征库;以及,上述分类模块,被配置为:基于所述N个特征库确定待识别文本所属的类型。
在本公开的一些实施例中,基于前述方案,上述第一特征获取模块,包括:前缀集确定单元、投影集确定单元、支持度计数获取单元以及频繁序列特征确定单元。
其中,上述前缀集确定单元被配置为:根据上述第i类样本中的样本数据确定由长度为s的前缀组成的前缀集,s为正整数;上述投影集确定单元被配置为:获取上述前缀集中目标前缀对应的投影数据,得到上述目标前缀的投影集;上述支持度计数获取单元被配置为:获取上述目标前缀的投影集中每个长度为s的字词对应的支持度计数;以及,上述频繁序列特征确定单元被配置为:在上述目标前缀的投影集中不包含支持度计数满足上述第i最低支持度阈值的投影数据的情况下,将上述前缀确定为上述频繁序列特征。
在本公开的一些实施例中,基于前述方案,上述前缀集确定单元被具体配置为:对上述第i类样本中的每条样本数据进行分词处理,得到每条样本对应的长度为s的多个第一字词;以及,获取每个上述第一字词的支持度计数,并筛除计数不满足第i最低支持度阈值的第一字词,得到上述前缀集;其中,上述第i最低支持度阈值与上述第i类样本中的样本数相关。
在本公开的一些实施例中,基于前述方案,上述投影集确定单元被具体配置为:对于上述前缀集中的目标前缀,在上述第i类样本中的每条样本数据中获取位于上述目标前缀之后的数据作为上述目标前缀对应的投影数据。
在本公开的一些实施例中,基于前述方案,上述支持度计数获取单元被具体配置为:将上述目标前缀的投影集中每条投影进行分词处理,得到长度为s的多个第二字词;以及,获取每个上述第二字词的支持度计数。
在本公开的一些实施例中,基于前述方案,上述装置还包括:目标投影数据确定模块和前缀合并模块。
其中,上述目标投影数据确定模块被配置为:在上述目标前缀的投影集中包含支持度计数满足上述第i最低支持度阈值的投影数据的情况下,将上述投影集中支持度计数满足上述第i最低支持度阈值的字词确定为目标投影数据;上述前缀合并模块被配置为:将上述目标投影数据和上述目标前缀进行合并处理以更新上述目标前缀;根据更新后的目标前缀挖掘关于上述第i类样本的频繁序列特征。
在本公开的一些实施例中,基于前述方案,上述前缀合并模块被具体配置为:将不同的上述目标投影数据分别合并于上述前缀之后,得到更新后的目标前缀。
在本公开的一些实施例中,基于前述方案,上述第二特征获取模块,包括:分词单元、词频确定单元以及关键词特征确定单元。
其中,上述分词单元被配置为:对上述第i类样本中的每条样本数据进行分词处理,得到多个字词;上述词频确定单元被配置为:对于目标字词,计算上述目标字词在上述第i类样本中第一词频,以及计算上述目标字词在其他类样本中第二词频;以及,上述关键词特征确定单元被配置为:根据上述第一词频和上述第二词频确定关于上述第i类样本的关键词特征。
在本公开的一些实施例中,基于前述方案,上述词频确定单元被具体配置为:将上述目标字词在上述第i类样本中的频次确定为目标词数;以及,将上述目标词数与分词处理之后第i类样本中的总词数的比值确定为上述第一词频。
在本公开的一些实施例中,基于前述方案,上述词频确定单元还被具体配置为:将上述目标字词在其他类样本中出现的样本数确定为目标样本数;以及,根据上述N类样本的总样本数与上述目标样本数,确定为上述第二词频。
在本公开的一些实施例中,基于前述方案,上述关键词特征确定单元被具体配置为:计算上述第一词频与上述第二词频的乘积,得到关于上述目标字词的关键词指标值;以及,在上述关键词指标值大于预设值的情况下,将上述目标字词确定为关于上述第i类样本的关键词特征。
在本公开的一些实施例中,基于前述方案,上述特征库确定模块,具体被配置为:关于上述第i类样本的目标频繁序列特征,获取上述目标频繁序列特征的特征在上述第i类样本的第一特征支持度,以及获取上述目标频繁序列特征的特征在第j类样本的第二特征支持度;在上述第一特征支持度大于第一支持度阈值,且上述第二特征支持度小于第二支持度阈值的情况下,将上述目标频繁序列特征确定为第i类种子特征,其中,上述第一支持度阈值不小于上述第二支持度阈值;关于上述第i类样本的关键词特征,获取每个上述关键词特征对应的关键词指标值;在上述关键词指标值由大到小的顺序上获取预设个数个关键词特征,并将获取到的上述关键词特征确定为第i类种子特征;或,将上述关键词指标值大于关键词阈值的关键词特征确定为上述第i类种子特征;以及,根据上述第i类种子特征确定上述第i特征库。
在本公开的一些实施例中,基于前述方案,上述分类模块,具体被配置为:确定频次关注系数,并基于上述频次关注系数计算上述待识别文本与第j个特征库中特征之间的互信息,得到N个互信息值,j为不大于N的正整数;以及,根据最大的互信息值对应的特征库确定上述待识别文本上述的类型。
根据本公开的一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的文本分类方法。
根据本公开的一个方面,提供一种电子设备,包括:一个或多个处理器;以及存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述第一方面所述的文本分类方法。
根据本公开的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质中读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述各个实施例中提供的文本分类方法。
由上述技术方案可知,本公开示例性实施例中的文本分类方法、装置、计算机可读存储介质及电子设备至少具备以下优点和积极效果:
在本公开的一些实施例所提供的技术方案中,首先获取多个类别的文本作为样本。然后,一方面基于同一类样本进行序列模型挖掘,以获取样本的频繁序列特征,另一方面,基于不同类样本进行挖掘,以确定每类样本各自的关键词特征。从而有效获取到能够精准反映各类样本特点的数据,进一步地,将能够反映同一类样本特点的数据(包括上述频繁序列特征和上述关键词特征)确定为属于该类别的特征库。从而,基于不同类别的特征库确定待识别文本所属的类型,能够有效区分待识别文本所属的类型,有效特征对待识别文本的识别准确度。
可见,该方案而不依赖于不同类别的样本量分布不均衡,也不依赖与海量样本。有效解决了通过训练机器学习模型实现文本分类时产生的特征难于学习的问题,同时,分别对每个类别的样本确定特征库,能够适用于文本类别不均衡的场景,即具有较广的适用性。
本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。
图2示出本公开一示例性实施例中文本分类方法的流程示意图。
图3示出本公开一示例性实施例中频繁序列特征的确定方法的流程示意图。
图4示出本公开一示例性实施例中关键词特征的确定方法的流程示意图。
图5示出本公开示例性的实施例中确定待识别文本进行情感分类的方法的流程示意图。
图6示出本公开一示例性实施例中文本分类装置的结构示意图。
图7示出本公开示例性实施例中电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在示例性的实施例中,本技术方案适用于文本的情感分析。文本情感分析技术对于电子商务、新闻资讯、微博论坛等场景和应用有着不可替代的作用,因此被广泛地应用于电商平台、新闻推荐、社交平台等领域。具体地,适用于舆情分析、推荐、挖掘用户画像等场景。例如电商平台场景中,通过文本情感分析能够挖掘用户产品评论的情感可以更好地衡量用户对产品的喜好情况,从而给商户分析和交叉营销等应用提供关键决策;另外,可以帮助消费者了解相关产品的口碑,从而作为消费者购物行为的辅助参考。
在该使用场景下,相关技术中基于机器学习模型的文本分类方案,机器学习模型对于训练样本的数量有一定的要求,标注训练样本需花费较大的人力成本。
在示例性的实施例中,本技术方案还适用于文本的舆情分析。在新闻资讯和论坛等社交平台场景中,对文本进行舆情分析,能够挖掘更深层次的信息,如分析个股的涨停原因、了解社会关注热点的态度动向、探索未来改进的方向等,具有非常重要的意义。
当然,本技术方案的使用场景不限于文本情感分析或舆情分析,还可以是其他类型的文本分类,例如,识别文本属于天文类、地理类、生物类、化学类等。也就是说,对不同的待识别文本进行识别的过程不一定全部涉及到文本情感分析,包含属于文本情感分析的类型和不属于文本情感分析的类型。本文对此不做限定。
相关技术中,还提供了基于语义的情感词典分类方案。具体地,基于语义知识和句法规则等先验知识构建知识库,基于所构建的知识库中的词语与待识别文本进行匹配并打分,根据所打分数对待识别文本进行分类。然而,该方案依赖于人工先验知识,具有较强的局限性且通用性较低。
针对上述技术问题,本技术方案提供一种文本分类方法、装置和计算机可读存储介质。
图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构100可以包括终端110、网络120、服务器130。其中,终端110和服务器130通过网络120连接。
终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。网络120可以是能够在终端110和服务器130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路、无线通信链路或者光纤电缆等等,本申请在此不做限制。服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端110和服务器130还可以是区块链网络上的节点。其中,终端110和服务器130的数量均不做限定。
具体地,通过服务器130可以确定不同类别分别对应的特征库。示例性的,服务器130获取分别属于N种类别的文本作为样本,得到N类样本,N为大于1的正整数。进而,在服务器130执行以下步骤:对第i类样本进行序列模式挖掘,得到关于第i类样本的频繁序列特征,i为不大于N的正整数;计算第i类样本中字词在不同类样本中的词频,根据词频确定关于第i类样本的关键词特征。进一步地,根据关于第i类样本的频繁序列特征和关键词特征确定第i特征库,得到N个特征库。
示例性的,服务器130还可以识别待识别文本。服务器130基于上述N个特征库确定待识别文本所属的类型,进一步地,将识别结果发送至终端,以便于用户通过终端查看相关文本的所属的类别。
另外,用户可以通过终端110识别待识别文本。服务器130基于上述N个特征库确定待识别文本所属的类型。示例性的,服务器130将上述N个特征库发送至不同终端,则通过终端存储的N个特征库确定待识别文本所属的类型。该情况适用于终端没有网络的情况下使用。
本公开实施例中的文本分类方法也可以应用于终端。本公开对此不做特殊限定。本公开实施例主要以文本分类方法应用于服务器130来举例说明。
接下来介绍本技术方案提供的文本分类方法。其中,图2示出本公开一示例性实施例中文本分类方法的流程示意图。参考图2,该实施例提供的文本分类方法,包括:
步骤S210,获取分别属于N种类别的文本作为样本,得到N类样本,N为大于1的正整数;
步骤S220,对第i类样本进行序列模式挖掘,得到关于所述第i类样本的频繁序列特征,i为不大于N的正整数;
步骤S230,计算所述第i类样本中字词在不同类样本中的词频,根据所述词频确定关于所述第i类样本的关键词特征;
步骤S240,根据关于所述第i类样本的频繁序列特征和关键词特征确定第i特征库,得到N个特征库;
步骤S250,基于所述N个特征库确定待识别文本所属的类型。
在本公开的一些实施例所提供的技术方案中,一方面基于同一类样本进行序列模型挖掘以获取样本的频繁序列特征,另一方面,基于不同类样本进行挖掘以确定每类样本各自的关键词特征。从而有效获取到能够精准反映各类样本特点的数据,进一步地,将能够反映同一类样本特点的数据(包括上述频繁序列特征和上述关键词特征)确定为属于该类别的特征库。从而,基于不同类别的特征库确定待识别文本所属的类型,能够有效区分待识别文本所属的类型,有效特征对待识别文本的识别准确度。
可见,该方案既可克服不同类别的样本量分布不均衡,也不依赖于海量样本。有效解决了通过训练机器学习模型实现文本分类时产生的特征难于学习的问题,同时,分别对每个类别的样本确定特征库,能够适用于文本类别不均衡的场景,具有较广的适用性。该方案不依赖于先验知识,因此具有较强的通用性。
以下实施例中对图2所示实施例的各个步骤的具体实施方式进行详细阐述:
在步骤S210中获取分别属于N种类别的文本作为样本,其中N可以取值为2,3……。
在示例性的实施例中,N取值为2的情况下,i分别取值为1和2。以情感文本分析中的文本类别分为积极类型(或称作“褒义”、“正类”)和消极类型(或称作“贬义”、“负类”)两种类型为例进行说明,则可以将i取值为1时代表上述积极类型(或称作“褒义”、“正类”),i取值为2时代表上述消极类型(或称作“贬义”、“负类”)。
在本实施例中,获取评论文本并根据其情感倾向/类别分为正类样本和负类样本,如表1。
Figure 903423DEST_PATH_IMAGE001
在示例性的实施例中,可以在获取原始文本之后,通过人工标注的方式分别得到上述积极类型(或称作“褒义”、“正类”)和上述消极类型(或称作“贬义”、“负类”)。之后,执行步骤S220和步骤S230。需要说明的是,步骤S220和步骤S230的执行顺序不分先后,可以先执行步骤S220再执行步骤S230,也可以先执行步骤S230再执行步骤S220,还可以步骤S220和步骤S230同时执行。
在示例性的实施例中,作为步骤S220的一种具体实施方式,图3示出本公开一示例性实施例中频繁序列特征的确定方法的流程示意图。参考图3,包括:
在步骤S310中,根据所述第i类样本中的样本数据确定由长度为s的前缀组成的前缀集,s为正整数。
需要说明的是,在进行序列模式挖掘之前,先确定最低支持度阈值,以挖掘出满足最低支持度阈值的不同长度的频繁序列特征。
相关技术中基于机器学习模型的文本分类方案,在实际应用中往往会面临正反例严重不平衡的问题,例如电商的评论文本往往好评数量要远高于差评。则会导致不同类别样本数量的严重倾斜,模型难以学习到少数类别的样本特征。本技术方案中,为了克服不同类别的样本数据量不同、样本分布不均的问题,根据当前类样本的样本数确定该类样本对应的最低支持度阈值。示例性的,第i样本对应的第i最低支持度阈值min_supi=a*ni。其中,a表示最小支持率,ni表示第i类样本的样本数。可见本方案采用使用多最小支持度策略,以基于不同类样本的数量灵活确定最低支持度阈值。
示例性的,为了提升挖掘效率,在进行分词处理之前,先对样本进行正则处理,以过滤掉样本中不能表现相关种类特征的标点符号、字母和数字。正则处理后的正类样本如表2。
Figure 414039DEST_PATH_IMAGE002
进一步地,对上述第i类样本中的每条样本数据进行分词处理,得到每条样本对应的长度为s的多个字词。
需要说明的是,s为正整数。且s取值越小则序列模式挖掘的粒度越小,有利于确定越多的关于第i类样本的频繁序列特征。本实施例中以s取值为1为例对频繁序列特征的获取进行描述,另外,s取大于1的其他数值时,频繁序列特征的获取过程与s取值为1时频繁序列特征的获取过程相类似,因此本文不再对s取大于1的其他数据的情况进行详细描述。其中,通过第i类样本代表对于N类样本中的任意一种。
本实施例中,s取值为1,且包含正类样本和负类样本两类样本类型。则对正类样本中的每一条样本进行分词处理,得到每条样本对应的长度为1的多个字词。例如,正类样本包括表2中的两条:“外观时尚蛮不错的性价比很高”和“这个手机不错性价比很好配置也高”,则对正类样本中的每一条进行分词处理得到以下字词:“外”、“观”、“时”、“尚”、“蛮”、“不”、“错”、“的”、“性”、“价”、“比”、“很”和“高”。以及,“这”、“个”、“手”、“机”、“不”、“错”、“性”、“价”、“比”、“很”、“好”、“配”、“置”、“也”、“高”。
同理,对负类样本中的每一条样本进行上述分词处理,得到每条样本对应的长度为1的多个字词(记作“第一字词”)。
进一步地,针对每一类样本,确定上述每个第一字词的支持度计数,并筛除支持度不满足min_supi的第一字词,得到前缀集。
以上述正类样本为例,参见表3,其中,“不”、“错”、“性”、“价”、“比”、“很”、“高”在该类别样本中出现频次均为2,其他字词在该类别样本中出现频次均为1。本实施例中,将上述第一支持度小于min_supi的字词筛除,得到如表3中所示的字词,得到一前缀集。
Figure 459356DEST_PATH_IMAGE003
需要说明的是,一条样本分为“前缀”以及“前缀对应的投影”。前缀是指该条样本中位于较前的字词,例如,正类样本中的一条样本为“外观时尚蛮不错的性价比很高”,其中将“不”是该条样本中位于较前位置的字词,可以作为前缀。对应的同一条样本中位于该前缀之后的字词叫做该前缀的投影。以上述前缀“不”为例,对应的投影为“错的性价比很高”。
在步骤S320中,获取所述前缀集中目标前缀对应的投影数据,得到所述目标前缀的投影集。
在示例性的实施例中,对于上述前缀集中的任意一个前缀(记作目标前缀),在第i类样本中的每条样本数据中获取位于所述目标前缀之后的数据作为该目标前缀对应的投影数据。
示例性的,表3示出的一项前缀的情况,对于表3所示的一项前缀集中的每个前缀(即上述“目标前缀”),获取其该类别样本中的所有投影。例如,上述前缀“不”,其在正类样本中的所有后缀(即,一项前缀“不”的投影集)如表4第二行所示。再例如,上述前缀“高”,其在正类样本中没有后缀。即,一项前缀“高”的投影集为空集,如表4第三行所示。
Figure 323406DEST_PATH_IMAGE004
在示例行的实施例中,执行步骤S330,确定所述目标前缀对应的投影集是否为空。
示例性的,在目标前缀对应的投影集为空的情况下,说明对于该目标前缀,在当前类样本中已经挖掘不到进一步的频繁序列,因此可以执行步骤S380,将所述目标前缀确定为所述第i类样本的频繁序列特征。例如,对于正类样本中的上述一项前缀“高”,其对应的投影集是否为空,这说明对于该目标前缀“高”,在正类样本中已经挖掘不到进一步的频繁序列,因此本实施例中将“高”确定为正类样本的一个频繁序列特征。
示例性的,在目标前缀对应的投影集不为空的情况下,说明对于该目标前缀,在当前类样本中还可以进一步挖掘以得到进一步地频繁序列,因此可以执行步骤S340-步骤S370。例如,对于正类样本中的上述一项前缀“不”,其对应的投影集并非为空,这说明对于该目标前缀“不”,在正类样本中可以挖掘到进一步地频繁序列,因此需进一步对其所对应的投影集进行挖掘,以在一项前缀的基础上得到二项前缀、三项前缀等。
在步骤S340中,获取所述目标前缀的投影集中每个长度为s的字词对应的支持度计数。
示例性的,将上述目标前缀的投影集中每条投影进行分词处理,得到长度为s的多个第二字词,获取每个第二字词的支持度计数。以上述一项前缀“不”为例,将目标前缀“不”的投影集中每条投影进行分词处理,得到长度为s(s取值为1)的多个第二字词,进而获取每个第二字词的支持度计数。具体如表5:
Figure 465675DEST_PATH_IMAGE005
进一步地,在步骤S350中,确定所述目标前缀的投影集中是否包含支持度计数满足第i最低支持度阈值的投影数据。
示例性的,若上述目标前缀的投影集中不包含支持度计数满足上述第i最低支持度阈值的投影数据,说明对于该目标前缀,在当前类样本中已经挖掘不到进一步地频繁序列,因此可以执行步骤S380,将所述目标前缀确定为所述第i类样本的频繁序列特征。示例性的,假如表5中所示的投影集中字词的支持度计数均大于正类样本的最低支持度阈值,则说明对于该目标前缀“不”,在正类样本中已经挖掘不到进一步地频繁序列,因此本实施例中将“不”确定为正类样本的一个频繁序列特征。
示例性的,若上述目标前缀的投影集中包含支持度计数满足上述第i最低支持度阈值的投影数据,说明对于该目标前缀,在当前类样本中还能够挖掘到进一步地频繁序列,因此可以执行步骤S360和步骤S370。
在步骤S360中,将所述投影集中支持度计数满足所述第i最低支持度阈值的字词确定为目标投影数据。
示例性的,假如表5中所示的投影集中字词“错”、“性”、“价”、“比”、“很”、“高”的支持度计数均大于正类样本的最低支持度阈值,则说明对于该目标前缀“不”,在正类样本中还能够挖掘到进一步地频繁序列,因此将上述“错”、“性”、“价”、“比”、“很”、“高”确定为一项前缀“不”对应的目标投影数据。
进一步地,在步骤S370中,将所述目标投影数据和所述目标前缀进行合并处理以更新所述目标前缀,得到更新后的前缀集。示例性的,将不同的目标投影数据分别合并于上述前缀之后,得到更新后的目标前缀。示例性的,上述目标前缀为一项前缀“不”,上述各个目标投影数据均为长度为s的字词,因此,更新后的目标前缀为二项前缀,如表6所示。
Figure 756979DEST_PATH_IMAGE006
继续参考图3,在步骤S370中得到更新后的前缀集。需要说明的是,表6中仅示出了根据“一项前缀”为“不”对应的“二项前缀”,对于其他“一项前缀”(如,“错”、“性”、“价”、“比”、“很”、“高”)分别对应的“二项前缀”的确定方法也可以如上述实施例进行确定。也就是说,更新后的前缀集中包含上述各个“一项前缀”分别对应的“二项前缀”,如更新后的前缀集{不x,不y,不z,…,错x’,错y’,错z’,…,性x”,性y”,性z”,…,价a,价b,价c,…,比x’,比y’,比z’,…,很a’,很b’,很c’,…,高x,高y,高z,…}。
确定更新后的前缀集之后,则重复执行步骤S320。示例性的,根据前述步骤S320的具体实施方式,可以确定上述表6所示出的“二项前缀”对应的投影集如表7。
Figure 289591DEST_PATH_IMAGE007
进一步地,通过步骤S330对应的实施例,可以确定表7中示出的二项前缀“不高”可以作为正类样本的一个频繁序列特征。对于其他目标前缀对应的投影集不为空,说明在当前类样本中还可以进一步挖掘以得到进一步地频繁序列,因此对于每个二项前缀执行步骤S340-步骤S370。
此处以二项前缀“不错”为例进行说明。在步骤S340中,获取二项前缀“不错”的投影集中每个长度为s的字词对应的支持度计数,如表8。
Figure 816388DEST_PATH_IMAGE008
进一步地,根据步骤S350-步骤S370的具体实施方式,可以确定二项前缀“不错”对应的“三项前缀”,以及三项前缀分别对应的投影集,如表9。
Figure 750846DEST_PATH_IMAGE009
参考表9,通过步骤S330对应的实施例,可以确定表9中示出的三项前缀“不错高”可以作为正类样本的一个频繁序列特征。对于其他目标前缀对应的投影集不为空,执行步骤S320-步骤S370的操作可以确定包含四项前缀的前缀集。
示例性的,以表9中三项前缀“不错性”为例,执行步骤S320-步骤S370的操作可以确定三项前缀“不错性”对应的四项前缀,以及四项前缀分别对应的投影集,如表10。
Figure 213051DEST_PATH_IMAGE010
参考表10,其中,通过步骤S330对应的实施例,可以确定表10中示出的四项前缀“不错性高”可以作为正类样本的一个频繁序列特征。对于其他目标前缀对应的投影集不为空,通过执行步骤S320-步骤S370的操作可以确定包含五项前缀的前缀集。
示例性的,以表10中四项前缀“不错性价”为例,执行步骤S320-步骤S370的操作可以确定四项前缀“不错性价”对应的五项前缀,以及五项前缀分别对应的投影集,如表11。
Figure 295276DEST_PATH_IMAGE011
参考表11,其中,通过步骤S330对应的实施例,可以确定表11中示出的五项前缀“不错性价高”可以作为正类样本的一个频繁序列特征。对于其他目标前缀对应的投影集不为空,通过执行步骤S320-步骤S370的操作可以确定包含六项前缀的前缀集。
示例性的,以表11中五项前缀“不错性价比”为例,执行步骤S320-步骤S370的操作可以确定五项前缀“不错性价比”对应的六项前缀,以及六项前缀分别对应的投影集,如表12。
Figure 297868DEST_PATH_IMAGE012
参考表12,其中,通过步骤S330对应的实施例,可以确定表12中示出的六项前缀“不错性价比高”可以作为正类样本的一个频繁序列特征。对于其他目标前缀对应的投影集不为空,通过执行步骤S320-步骤S370的操作可以确定包含七项前缀的前缀集。
示例性的,以表12中六项前缀“不错性价比很”为例,执行步骤S320-步骤S370的操作可以确定六项前缀“不错性价比”对应的七项前缀,以及七项前缀分别对应的投影集,如表13。
Figure 24515DEST_PATH_IMAGE013
参考表13,其中,通过步骤S330对应的实施例,可以确定表13中示出的七项前缀“不错性价比很高”可以作为正类样本的一个频繁序列特征。
示例性的,其中频繁序列特征“X”的特征支持度(记作“特征支持度(X)”)可以根据以下公式确定。
Figure 47835DEST_PATH_IMAGE014
则示例性的,在序列模式挖掘结束,可以得到频繁序列特征及对应的特征支持度,如表14。
Figure 555039DEST_PATH_IMAGE015
参考表4-表13对应的实施例可以确定正类样本的多个频繁序列特征包括:{高,不高,不错高,不错性高,不错性价高,不错性价比高,不错性价比很高},当然,正类样本的频繁序列特征不限于此。正类样本的频繁序列特征可以根据图3所示实施例确定。
通过上述实施例确定了正类样本对应的频繁序列特征,进一步地,根据上述实施例还可以确定负类样本对应的频繁序列特征。即,可以根据上述实施例确定i=1,2,…,N的各类样本分别对应的频繁序列特征。而频繁序列特征可以有效反映同类样本中频繁出现的子序列,基于某一类样本的频繁序列特征可以准确判断待识别文本是否属于该类。
在示例性的实施例中,若一个词在某一类别的文本中经常出现,而在其他类别的文本中很少出现,那么说明该词够体现第i类文本特征,具有较强的区分能力,本技术方案将其记作“关键词特征”。本技术方案通过步骤S230的具体实施方式来确定各类样本的关键词特征。
示例性的,作为步骤S230的一种具体实施方式,图4示出本公开一示例性实施例中关键词特征的确定方法的流程示意图。参考图4,包括:
在步骤S410中,对所述第i类样本中的每条样本数据进行分词处理,得到多个字词。
在示例性的实施例中,在进行分词处理之前可以对正类样本进行正则处理,在此不再赘述。其中,本实施例中字词的长度可以根据实际需求确定,对此不作限定。
示例性的,对于正则处理之后的一条正类样本“外观时尚蛮不错的性价比很高”,进行分词处理之后得到“外观”、“时尚”、“不错”、“性价”等。
在步骤S420中,对于目标字词,计算所述目标字词在所述第i类样本中第一词频,以及计算所述目标字词在其他类样本中第二词频。
在示例性的实施例中,上述目标字词代指分词处理之后任一个词。作为确定上述第一词频的具体实施方式:将上述目标字词“a”在第i类样本中的频次确定为目标词数
Figure 33425DEST_PATH_IMAGE016
,将目标词数
Figure 270372DEST_PATH_IMAGE016
与分词处理之后第i类样本中的总词数
Figure 871117DEST_PATH_IMAGE017
的比值确定为所述第一词频。即,第i类样本中字词a的第一词频
Figure 803301DEST_PATH_IMAGE018
可以表示为:
Figure 475591DEST_PATH_IMAGE019
其中,字词a的第一词频
Figure 239148DEST_PATH_IMAGE018
值越大,说明字词a在第i类样本中出现的频率越大,反之,字词a的第一词频
Figure 479636DEST_PATH_IMAGE018
值越小,说明字词a在第i类样本中出现的频率越小。
示例性的,作为确定上述第二词频的具体实施方式:将上述目标字词“a”在其他类样本中出现的样本数确定为目标样本数,根据上述N类样本的总样本数
Figure 758171DEST_PATH_IMAGE020
与上述目标样本数,确定为所述第二词频。即,第i类样本中字词a的第二词频
Figure 906255DEST_PATH_IMAGE021
可以表示为:
Figure 462002DEST_PATH_IMAGE022
其中,
Figure 998025DEST_PATH_IMAGE023
表示目标字词“a”在第j类样本中出现的样本数,
Figure 701539DEST_PATH_IMAGE024
表示第j类样本的总数。字词a的第二词频
Figure 325418DEST_PATH_IMAGE021
值越大,说明字词a在除了第i类样本的其他样本中出现的频率越小,反之,字词a的第二词频
Figure 391463DEST_PATH_IMAGE021
值越小,说明字词a在除了第i类样本的其他样本中出现的频率越大。
进一步地,在步骤S430中,根据所述第一词频和所述第二词频确定关于所述第i类样本的关键词特征。
可以看出,关于同一目标字词a,若其对应的第一频率
Figure 770492DEST_PATH_IMAGE018
值越大,且其对应的第二频率
Figure 898985DEST_PATH_IMAGE021
值越大,则说明目标字词a在第i类别的文本中经常出现,而在其他类别的文本中很少出现,那么说明该词能够体现第i类文本特征,具有较强的区分能力。
示例性的,计算所述第一词频与所述第二词频的乘积,得到关于目标字词的关键词指标值。如,关于目标字词a的关键词指标值
Figure 716768DEST_PATH_IMAGE025
表示为:
Figure 43844DEST_PATH_IMAGE026
示例性的,在目标字词a的关键词指标值
Figure 531458DEST_PATH_IMAGE025
大于预设值的情况下,将目标字词a确定为关于第i类样本的关键词特征。可见,目标字词a的关键词指标值
Figure 209564DEST_PATH_IMAGE025
中第一词频
Figure 831038DEST_PATH_IMAGE018
是根据第i类样本内部确定,上述第二词频是根据a在出来第i类样本之外的其他类样本中出现的样本数以及总样本数确定。可见,关键词特征是基于第i类和其他类的类间数据挖掘得到的。
本技术方案中,通过上述步骤S220和步骤S230的具体实施方式确定了关于任一类样本的频繁模式特征和关键词特征。其中,频繁模型特征是基于第i类样本内部特征确定的,第i类样本的关键词特征是基于不同类间数据的挖掘得到的。从而,关于第i样本的频繁模式特征和关键词特征能够有效反映该类样本的特征/特点,有利于进一步分析待识别文本是否属于第i类样本,即能够有效提升识别准确度。
在示例性的实施例中,在确定各类样本分别对应的上述频繁序列特征以及关键词特征之后,执行步骤S240:根据关于所述第i类样本的频繁序列特征和关键词特征确定第i特征库,得到N个特征库。
在示例性的实施例中,对第i类样本的频繁序列特征进行筛选。具体包括:关于所述第i类样本的目标频繁序列特征,获取所述目标频繁序列特征的特征在所述第i类样本的第一特征支持度,以及获取所述目标频繁序列特征的特征在第j类样本的第二特征支持度;以及,在所述第一特征支持度大于第一支持度阈值,且所述第二特征支持度小于第二支持度阈值的情况下,将所述目标频繁序列特征确定为第i类种子特征,其中,所述第一支持度阈值不小于所述第二支持度阈值。
示例性的,基于图3示出的序列模式挖掘的第i(i分别取值为1,2,…,N)类样本的频繁序列模式特征和对应的特征支持度。进一步地,基于第i类样本中每个频繁序列特征分别对应的特征支持度设定筛选条件。示例性的:在关于第i类样本的频繁序列模式特征对应的特征支持度超过第一支持度阈值a,同时在第j类样本的特征支持度低于第二支持度阈值b,则将该频繁序列特征作为第i种子特征添加到第i类样本对应的特征库(可以记作“种子特征库”),其中a不小于b。
在示例性的实施例中,对第i类样本的频繁序列特征进行筛选。具体包括:关于所述第i类样本的关键词特征,获取每个所述关键词特征对应的关键词指标值;以及,在所述关键词指标值由大到小的顺序上获取预设个数个关键词特征,并将获取到的所述关键词特征确定为第i类种子特征;或,将所述关键词指标值大于关键词阈值的关键词特征确定为所述第i类种子特征。
示例性的,基于图4所示实施例挖掘得到第i样本的关键词特征,通过指定关键词个数(如保留TOP K,K为正整数)或设定关键词阈值进行筛选过滤,并将TOP K的关键词特征或大于设定关键词阈值的关键词特征作为第i种子特征,添加到第i类样本对应的种子特征库。
从而,各类样本分别对应的种子特征库包括:基于支持度阈值筛选得到的频繁序列特征和判断过滤后的关键词特征。通过支持度阈值的判断和关键词指标值的过滤,能够构建精准的情感分类正向种子特征库和负向种子特征库,有利于进一步提升对待识别文本的识别准确度。
在示例性的实施例中,参考图5示出的一示例性的实施例中确定待识别文本进行情感分类的方法的流程示意图。包括:
步骤S51:获取文本情感分类训练集的正类样本和负类样本。其具体实施方式可以参考步骤S210的具体实施方式,在此不再赘述。
步骤S52:基于同类样本内的序列模式挖掘,确定正类样本的频繁模式特征和负类样本的频繁模式特征。其具体实施方式可以参考步骤S220的具体实施方式,在此不再赘述。
步骤S53:基于不同类样本之间的挖掘,确定正类样本的关键词特征和负类样本的关键词特征。其具体实施方式可以参考步骤S230的具体实施方式,在此不再赘述。
步骤S54:构建情感分类正类样本的种子特征库和负类样本的种子特征库。其具体实施方式可以参考步骤S240的具体实施方式,在此不再赘述。
步骤S55:基于特征库匹配和互信息计算对待识别文本进行情感分类。
在示例性的实施例中,基于步骤S54构建的正类样本的种子特征库和负类样本的种子特征库,确定待识别问的情感倾向。具体地,基于频次关注系数计算待识别文本与正类样本的种子特征库中特征词的互信息,以及计算待识别文本与负类样本的种子特征库特征词的互信息。
其中,如果x和y有较大的概率一起出现,那么x和y的互信息较大。本方案中,互信息越大,说明待识别文本出现在第i类样本对应的特征词的上下文中概率越大,则待识别文本的类别具有较大概率属于第i类。同时,由于高频特征越能体现相关类别的特点,越有利于待识别文本的识别准确度,因此,本技术方案为了使得计算互信息的过程中更加关注种子特征库中的高频特征,本技术方案设置频次关注系数λ,λ的取值区间为(0.5, 1]。
示例性的,获取待识别文本的词向量,以及获取种子特征库中关键词特征/频繁序列特征的词向量,然后基于频次关注系数λ计算待识别文本与正类样本/负类样本的种子特征库中特征词之间的互信息。具体如下:
Figure 215883DEST_PATH_IMAGE027
其中,x表示待识别文本的词向量,y表示正向/负向种子特征库中特征词的词向量。示例性的,通过
Figure 999031DEST_PATH_IMAGE028
表示待识别文本与正类样本的种子特征库中特征词之间的互信息,通过
Figure 164433DEST_PATH_IMAGE029
表示待识别文本与负类样本的种子特征库中特征词之间的互信息。
进一步地,可以比较
Figure 933806DEST_PATH_IMAGE028
的最大值与
Figure 501054DEST_PATH_IMAGE029
的最大值确定待识别文本的情感分类为正向还是负向。例如,若
Figure 466822DEST_PATH_IMAGE028
大于
Figure 57203DEST_PATH_IMAGE029
,则待识别文本的情感分类为正向,反之,若
Figure 692584DEST_PATH_IMAGE028
小于
Figure 176655DEST_PATH_IMAGE029
,则待识别文本的情感分类为负向。若
Figure 176972DEST_PATH_IMAGE028
等于
Figure 51387DEST_PATH_IMAGE029
,则待识别文本的情感分类为正向中性。
示例性的,x表示待识别文本“舒适度不错”的词向量,y1表示正向种子特征库中特征词的词向量“不错”,y2表示负向种子特征库中特征词的词向量“差劲”。示例性的,通过
Figure 818355DEST_PATH_IMAGE030
表示待识别文本“舒适度不错”与正类样本的种子特征库中特征词“不错”之间的互信息,通过
Figure 32298DEST_PATH_IMAGE031
表示待识别文本“舒适度不错”与负类样本的种子特征库中特征词“差劲”之间的互信息。
根据上述互信息
Figure 265833DEST_PATH_IMAGE032
公式计算得到
Figure 955441DEST_PATH_IMAGE033
大于
Figure 870307DEST_PATH_IMAGE034
,通过此可以表明待识别文本“舒适度不错”属于正类。
还可以先确定
Figure 328970DEST_PATH_IMAGE028
中TOP K个值的平均值(记作“第一平均值”),以及确定
Figure 733407DEST_PATH_IMAGE029
中TOP K个值的平均值(记作“第二平均值”)。若第一平均值大于第二平均值,则待识别文本的情感分类为正向,反之,若第一平均值小于第二平均值,则待识别文本的情感分类为负向。若第一平均值等于第二平均值,则待识别文本的情感分类为正向中性。
需要说明的是,根据上述
Figure 785677DEST_PATH_IMAGE028
Figure 363288DEST_PATH_IMAGE029
确定待识别文件的感情分类的具体实施方式不限于上述两种,还可以是本领域可获知的其他方式,在此不作限定。
本技术方案中,基于频次关注系数λ计算上述互信息,以衡量待识别文本与相关特征之间的相关性,从而基于各个类别的特征词的局部相关上下文分布向量,确定待识别吻合与各个类别特征词的局部语境之间的关联密切程度。
可见,本发明方法能够动态生成每类样本对应的频繁模式特征和关键词特征,并且通过互信息计算待识别吻合与这两种特征的相关性,进一步提高了情感分类的泛化性能,较基于语义的情感词典分类方法扩大了分类识别的特征范围,从而提高了模型的查全率。同时,本技术方案无需经过复杂模型训练,在工业落地上具有较高的实用性和便捷性。
上述实施例中示出了N取值为2的情况下的实施例,具体地可以确定待识别文本属于正类或者属于负类。在示例性的实施例中,N取值为3的情况下i的取值分别为1,2,3。示例性的,i取值为1时代表“喜悦”类型,i取值为2时代表“发怒”类型,i取值为3时代表“哀伤”类型。则本方案包括:
S1:获取分别属于上述三种类别的文本,得到“喜悦”类样本,“发怒”类样本以及“哀伤”类样本。
S2: 分别对“喜悦”类样本,“发怒”类样本以及“哀伤”类样本进行序列模式挖掘,得到关于“喜悦”类样本的频繁序列特征,“发怒”类样本的频繁序列特征以及“哀伤”类样本的频繁序列特征。
S3: 计算“喜悦”类样本中字词在不同类样本中的词频,根据词频确定关于“喜悦”类样本的关键词特征;计算“发怒”类样本中字词在不同类样本中的词频,根据词频确定关于“发怒”类样本的关键词特征;计算“哀伤”类样本中字词在不同类样本中的词频,根据词频确定关于“哀伤”类样本的关键词特征。
S4: 根据关于“喜悦”类样本的频繁序列特征和关键词特征确定“喜悦”类对应的特征库,根据关于“发怒”类样本的频繁序列特征和关键词特征确定“发怒”类对应的特征库,根据关于“哀伤”类样本的频繁序列特征和关键词特征确定“哀伤”类对应的特征库,得到三个特征库。
S5: 基于上述三个特征库确定待识别文本所属的类型。
其中,上述S1-S5的具体实施方式可以参考上述实施例,在此不再赘述。通过该实施例提供的技术方案可以将待识别文本分为“喜悦”、“发怒”、“哀伤”三种类型。
可见,在N取值为4,5……的情况下,本技术方案的实施方式与上述N取值为2或N取值为3的情况相类似。
本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由处理器,(包括GPU/CPU)执行的计算机程序。在该计算机程序被GPU/CPU执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本公开示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
以下通过图6介绍本公开的文本分类装置实施例,可以用于执行本公开上述的文本分类方法。
图6示出本公开示例性实施例中文本分类装置的结构示意图。如图6所示,上述文本分类装置600包括:样本获取模块601、第一特征获取模块602、第二特征获取模块603、特征库确定模块604以及分类模块605。
其中,上述样本获取模块601,被配置为:获取分别属于N种类别的文本作为样本,得到N类样本,N为大于1的正整数;上述第一特征获取模块602,被配置为:对第i类样本进行序列模式挖掘,得到关于所述第i类样本的频繁序列特征,i为不大于N的正整数;上述第二特征获取模块603,被配置为:计算所述第i类样本中字词在不同类样本中的词频,根据所述词频确定关于所述第i类样本的关键词特征;上述特征库确定模块604,被配置为:根据关于所述第i类样本的频繁序列特征和关键词特征确定第i特征库,得到N个特征库;以及,上述分类模块605,被配置为:基于所述N个特征库确定待识别文本所属的类型。
在本公开的一些实施例中,基于前述方案,上述第一特征获取模块602,包括:前缀集确定单元6021、投影集确定单元6022、支持度计数获取单元6023以及频繁序列特征确定单元6024。
其中,上述前缀集确定单元6021被配置为:根据上述第i类样本中的样本数据确定由长度为s的前缀组成的前缀集,s为正整数;上述投影集确定单元6022被配置为:获取上述前缀集中目标前缀对应的投影数据,得到上述目标前缀的投影集;上述支持度计数获取单元6023被配置为:获取上述目标前缀的投影集中每个长度为s的字词对应的支持度计数;以及,上述频繁序列特征确定单元6024被配置为:在上述目标前缀的投影集中不包含支持度计数满足上述第i最低支持度阈值的投影数据的情况下,将上述前缀确定为上述频繁序列特征。
在本公开的一些实施例中,基于前述方案,上述前缀集确定单元6021被具体配置为:对上述第i类样本中的每条样本数据进行分词处理,得到每条样本对应的长度为s的多个第一字词;以及,获取每个上述第一字词的支持度计数,并筛除计数不满足第i最低支持度阈值的第一字词,得到上述前缀集;其中,上述第i最低支持度阈值与上述第i类样本中的样本数相关。
在本公开的一些实施例中,基于前述方案,上述投影集确定单元6022被具体配置为:对于上述前缀集中的目标前缀,在上述第i类样本中的每条样本数据中获取位于上述目标前缀之后的数据作为上述目标前缀对应的投影数据。
在本公开的一些实施例中,基于前述方案,上述支持度计数获取单元6023被具体配置为:将上述目标前缀的投影集中每条投影进行分词处理,得到长度为s的多个第二字词;以及,获取每个上述第二字词的支持度计数。
在本公开的一些实施例中,基于前述方案,上述装置还包括:目标投影数据确定模块606和前缀合并模块607。
其中,上述目标投影数据确定模块606被配置为:在上述目标前缀的投影集中包含支持度计数满足上述第i最低支持度阈值的投影数据的情况下,将上述投影集中支持度计数满足上述第i最低支持度阈值的字词确定为目标投影数据;上述前缀合并模块607被配置为:将上述目标投影数据和上述目标前缀进行合并处理以更新上述目标前缀;根据更新后的目标前缀挖掘关于上述第i类样本的频繁序列特征。
在本公开的一些实施例中,基于前述方案,上述前缀合并模块607被具体配置为:将不同的上述目标投影数据分别合并于上述前缀之后,得到更新后的目标前缀。
在本公开的一些实施例中,基于前述方案,上述第二特征获取模块603,包括:分词单元6031、词频确定单元6032以及关键词特征确定单元6033。
其中,上述分词单元6031被配置为:对上述第i类样本中的每条样本数据进行分词处理,得到多个字词;上述词频确定单元6032被配置为:对于目标字词,计算上述目标字词在上述第i类样本中第一词频,以及计算上述目标字词在其他类样本中第二词频;以及,上述关键词特征确定单元6033被配置为:根据上述第一词频和上述第二词频确定关于上述第i类样本的关键词特征。
在本公开的一些实施例中,基于前述方案,上述词频确定单元6032被具体配置为:将上述目标字词在上述第i类样本中的频次确定为目标词数;以及,将上述目标词数与分词处理之后第i类样本中的总词数的比值确定为上述第一词频。
在本公开的一些实施例中,基于前述方案,上述词频确定单元6032还被具体配置为:将上述目标字词在其他类样本中出现的样本数确定为目标样本数;以及,根据上述N类样本的总样本数与上述目标样本数,确定为上述第二词频。
在本公开的一些实施例中,基于前述方案,上述关键词特征确定单元6033被具体配置为:计算上述第一词频与上述第二词频的乘积,得到关于上述目标字词的关键词指标值;以及,在上述关键词指标值大于预设值的情况下,将上述目标字词确定为关于上述第i类样本的关键词特征。
在本公开的一些实施例中,基于前述方案,上述特征库确定模块604,具体被配置为:关于上述第i类样本的目标频繁序列特征,获取上述目标频繁序列特征的特征在上述第i类样本的第一特征支持度,以及获取上述目标频繁序列特征的特征在第j类样本的第二特征支持度;在上述第一特征支持度大于第一支持度阈值,且上述第二特征支持度小于第二支持度阈值的情况下,将上述目标频繁序列特征确定为第i类种子特征,其中,上述第一支持度阈值不小于上述第二支持度阈值;关于上述第i类样本的关键词特征,获取每个上述关键词特征对应的关键词指标值;在上述关键词指标值由大到小的顺序上获取预设个数个关键词特征,并将获取到的上述关键词特征确定为第i类种子特征;或,将上述关键词指标值大于关键词阈值的关键词特征确定为上述第i类种子特征;以及,根据上述第i类种子特征确定上述第i特征库。
在本公开的一些实施例中,基于前述方案,上述分类模块605,具体被配置为:确定频次关注系数,并基于上述频次关注系数计算上述待识别文本与第j个特征库中特征之间的互信息,得到N个互信息值,j为不大于N的正整数;以及,根据最大的互信息值对应的特征库确定上述待识别文本上述的类型。
上述文本分类装置中各单元的具体细节已经在文本分类方法中进行了详细的描述,因此此处不再赘述。
图7示出本公开示例性实施例中电子设备的结构示意图。
需要说明的是,图7示出的电子设备的计算机系统700仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括处理器701,其中处理器701又具体可以包括:图像处理单元(Graphics Processing Unit,简称:GPU)和中央处理单元(Central ProcessingUnit,简称:CPU),其可以根据存储在只读存储器(Read-Only Memory,简称:ROM)702中的程序或者从存储部分708加载到随机访问存储器(Random Access Memory,简称:RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统操作所需的各种程序和数据。处理器701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(Input /Output,简称:I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(Cathode Ray Tube,简称:CRT)、液晶显示器(Liquid Crystal Display,简称:LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如局域网(LocalArea Network,简称:LAN)卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被处理器701执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
例如,所述的电子设备可以实现如图2中所示的:步骤S210,获取分别属于N种类别的文本作为样本,得到N类样本,N为大于1的正整数;步骤S220,对第i类样本进行序列模式挖掘,得到关于所述第i类样本的频繁序列特征,i为不大于N的正整数;步骤S230,计算所述第i类样本中字词在不同类样本中的词频,根据所述词频确定关于所述第i类样本的关键词特征;步骤S240,根据关于所述第i类样本的频繁序列特征和关键词特征确定第i特征库,得到N个特征库;以及,步骤S250,基于所述N个特征库确定待识别文本所属的类型。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由上面的权利要求指出。应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。

Claims (15)

1.一种文本分类方法,其特征在于,所述方法包括:
获取分别属于N种类别的文本作为样本,得到N类样本,N为大于1的正整数;
对第i类样本进行序列模式挖掘,得到关于所述第i类样本的频繁序列特征,i为不大于N的正整数;
计算所述第i类样本中字词在不同类样本中的词频,根据所述词频确定关于所述第i类样本的关键词特征;
根据关于所述第i类样本的频繁序列特征和关键词特征确定第i特征库,得到N个特征库;
基于所述N个特征库确定待识别文本所属的类型;
根据关于所述第i类样本的频繁序列特征和关键词特征确定第i特征库,包括:
关于所述第i类样本的目标频繁序列特征,获取所述目标频繁序列特征的特征在所述第i类样本的第一特征支持度,以及获取所述目标频繁序列特征的特征在第j类样本的第二特征支持度;
在所述第一特征支持度大于第一支持度阈值,且所述第二特征支持度小于第二支持度阈值的情况下,将所述目标频繁序列特征确定为第i类种子特征,其中,所述第一支持度阈值不小于所述第二支持度阈值;
关于所述第i类样本的关键词特征,获取每个所述关键词特征对应的关键词指标值;
在所述关键词指标值由大到小的顺序上获取预设个数个关键词特征,并将获取到的所述关键词特征确定为第i类种子特征;或,将所述关键词指标值大于关键词阈值的关键词特征确定为所述第i类种子特征;
根据所述第i类种子特征确定所述第i特征库。
2.根据权利要求1所述的方法,其特征在于,对第i类样本进行序列模式挖掘,得到关于所述第i类样本的频繁序列特征,包括:
根据所述第i类样本中的样本数据确定由长度为s的前缀组成的前缀集,s为正整数;
获取所述前缀集中目标前缀对应的投影数据,得到所述目标前缀的投影集;
获取所述目标前缀的投影集中每个长度为s的字词对应的支持度计数;
在所述目标前缀的投影集中不包含支持度计数满足第i最低支持度阈值的投影数据的情况下,将所述前缀确定为所述频繁序列特征;
其中,所述第i最低支持度阈值与所述第i类样本中的样本数相关。
3.根据权利要求2所述的方法,其特征在于,根据所述第i类样本中的样本数据确定由长度为s的前缀组成的前缀集,包括:
对所述第i类样本中的每条样本数据进行分词处理,得到每条样本对应的长度为s的多个第一字词;
获取每个所述第一字词的支持度计数,并筛除计数不满足所述第i最低支持度阈值的第一字词,得到所述前缀集。
4.根据权利要求2所述的方法,其特征在于,获取所述前缀集中目标前缀对应的投影数据,包括:
对于所述前缀集中的目标前缀,在所述第i类样本中的每条样本数据中获取位于所述目标前缀之后的数据作为所述目标前缀对应的投影数据。
5.根据权利要求2所述的方法,其特征在于,获取所述目标前缀的投影集中每个长度为s的字词对应的支持度计数,包括:
将所述目标前缀的投影集中每条投影进行分词处理,得到长度为s的多个第二字词;
获取每个所述第二字词的支持度计数。
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在所述目标前缀的投影集中包含支持度计数满足所述第i最低支持度阈值的投影数据的情况下,将所述投影集中支持度计数满足所述第i最低支持度阈值的字词确定为目标投影数据;
将所述目标投影数据和所述目标前缀进行合并处理以更新所述目标前缀;
根据更新后的目标前缀挖掘关于所述第i类样本的频繁序列特征。
7.根据权利要求6所述的方法,其特征在于,将所述目标投影数据和所述目标前缀进行合并处理以更新所述目标前缀,包括:
将不同的所述目标投影数据分别合并于所述目标前缀之后,得到更新后的目标前缀。
8.根据权利要求1所述的方法,其特征在于,计算所述第i类样本中字词在不同类样本中的词频,根据所述词频确定关于所述第i类样本的关键词特征,包括:
对所述第i类样本中的每条样本数据进行分词处理,得到多个字词;
对于目标字词,计算所述目标字词在所述第i类样本中第一词频,以及计算所述目标字词在其他类样本中第二词频;
根据所述第一词频和所述第二词频确定关于所述第i类样本的关键词特征。
9.根据权利要求8所述的方法,其特征在于,计算所述目标字词在所述第i类样本中第一词频,包括:
将所述目标字词在所述第i类样本中的频次确定为目标词数;
将所述目标词数与分词处理之后第i类样本中的总词数的比值确定为所述第一词频。
10.根据权利要求8所述的方法,其特征在于,计算所述目标字词在其他类样本中第二词频,包括:
将所述目标字词在其他类样本中出现的样本数确定为目标样本数;
根据所述N类样本的总样本数与所述目标样本数,确定为所述第二词频。
11.根据权利要求8所述的方法,其特征在于,根据所述第一词频和所述第二词频确定关于所述第i类样本的关键词特征,包括:
计算所述第一词频与所述第二词频的乘积,得到关于所述目标字词的关键词指标值;
在所述关键词指标值大于预设值的情况下,将所述目标字词确定为关于所述第i类样本的关键词特征。
12.根据权利要求1至11中任意一项所述的方法,其特征在于,基于所述N个特征库确定待识别文本所属的类型,包括:
确定频次关注系数,并基于所述频次关注系数计算所述待识别文本与第j个特征库中特征之间的互信息,得到N个互信息值,j为不大于N的正整数;
根据最大的互信息值对应的特征库确定所述待识别文本所属的类型。
13.一种文本分类装置,其特征在于,所述装置包括:
样本获取模块,被配置为:获取分别属于N种类别的文本作为样本,得到N类样本,N为大于1的正整数;
第一特征获取模块,被配置为:对第i类样本进行序列模式挖掘,得到关于所述第i类样本的频繁序列特征,i为不大于N的正整数;
第二特征获取模块,被配置为:计算所述第i类样本中字词在不同类样本中的词频,根据所述词频确定关于所述第i类样本的关键词特征;
特征库确定模块,被配置为:根据关于所述第i类样本的频繁序列特征和关键词特征确定第i特征库,得到N个特征库;
分类模块,被配置为:基于所述N个特征库确定待识别文本所属的类型;
所述特征库确定模块具体被配置为:
关于所述第i类样本的目标频繁序列特征,获取所述目标频繁序列特征的特征在所述第i类样本的第一特征支持度,以及获取所述目标频繁序列特征的特征在第j类样本的第二特征支持度;在所述第一特征支持度大于第一支持度阈值,且所述第二特征支持度小于第二支持度阈值的情况下,将所述目标频繁序列特征确定为第i类种子特征,其中,所述第一支持度阈值不小于所述第二支持度阈值;关于所述第i类样本的关键词特征,获取每个所述关键词特征对应的关键词指标值;在所述关键词指标值由大到小的顺序上获取预设个数个关键词特征,并将获取到的所述关键词特征确定为第i类种子特征;或,将所述关键词指标值大于关键词阈值的关键词特征确定为所述第i类种子特征;以及,根据所述第i类种子特征确定所述第i特征库。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
以及存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至12中任意一项所述的文本分类方法。
15.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至12中任意一项所述的文本分类方法。
CN202110523371.8A 2021-05-13 2021-05-13 文本分类方法、装置和计算机可读存储介质 Active CN112948589B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110523371.8A CN112948589B (zh) 2021-05-13 2021-05-13 文本分类方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110523371.8A CN112948589B (zh) 2021-05-13 2021-05-13 文本分类方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112948589A CN112948589A (zh) 2021-06-11
CN112948589B true CN112948589B (zh) 2021-07-30

Family

ID=76233834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110523371.8A Active CN112948589B (zh) 2021-05-13 2021-05-13 文本分类方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112948589B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572888A (zh) * 2014-12-23 2015-04-29 浙江大学 一种时间序列关联的信息检索方法
CN111291547A (zh) * 2020-01-20 2020-06-16 腾讯科技(深圳)有限公司 模板生成方法、装置、设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279478B (zh) * 2013-04-19 2016-08-10 国家电网公司 一种基于分布式互信息文档特征提取方法
CN108073567B (zh) * 2016-11-16 2021-12-28 北京嘀嘀无限科技发展有限公司 一种特征词提取处理方法、系统及服务器
CN111400432B (zh) * 2020-06-04 2020-09-25 腾讯科技(深圳)有限公司 事件类型信息处理方法、事件类型识别方法及装置
CN112200259A (zh) * 2020-10-19 2021-01-08 哈尔滨理工大学 一种基于分类与筛选的信息增益文本特征选择方法及分类装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572888A (zh) * 2014-12-23 2015-04-29 浙江大学 一种时间序列关联的信息检索方法
CN111291547A (zh) * 2020-01-20 2020-06-16 腾讯科技(深圳)有限公司 模板生成方法、装置、设备及介质

Also Published As

Publication number Publication date
CN112948589A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
US11093854B2 (en) Emoji recommendation method and device thereof
CN105224699B (zh) 一种新闻推荐方法及装置
CN112329836A (zh) 基于深度学习的文本分类方法、装置、服务器及存储介质
CN106844407B (zh) 基于数据集相关性的标签网络产生方法和系统
CN112164391A (zh) 语句处理方法、装置、电子设备及存储介质
US11741094B2 (en) Method and system for identifying core product terms
CN102123172B (zh) 一种基于神经网络聚类优化的Web服务发现的实现方法
CN112395487B (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
US20220172260A1 (en) Method, apparatus, storage medium, and device for generating user profile
CN112070577A (zh) 一种商品推荐方法、系统、设备及介质
CN111444304A (zh) 搜索排序的方法和装置
CN110909222A (zh) 基于聚类的用户画像建立方法、装置、介质及电子设备
Wei et al. Online education recommendation model based on user behavior data analysis
CN116823410B (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
CN114116997A (zh) 知识问答方法、装置、电子设备及存储介质
CN113837307A (zh) 数据相似度计算方法、装置、可读介质及电子设备
CN113821588A (zh) 文本处理方法、装置、电子设备及存储介质
CN110807097A (zh) 分析数据的方法和装置
CN112948589B (zh) 文本分类方法、装置和计算机可读存储介质
CN114445043B (zh) 基于开放生态化云erp异质图用户需求精准发现方法及系统
CN114429384B (zh) 基于电商平台的产品智能推荐方法及系统
CN112785372B (zh) 一种基于语义关系的智能推荐方法
CN115098777A (zh) 一种基于数据分析的用户个性化推荐方法和系统
CN110472140B (zh) 对象词推荐方法、装置及电子设备
CN112561412B (zh) 目标对象标识的确定方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant