CN113420138B - 用于文本分类的方法及装置、电子设备、存储介质 - Google Patents

用于文本分类的方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN113420138B
CN113420138B CN202110800737.1A CN202110800737A CN113420138B CN 113420138 B CN113420138 B CN 113420138B CN 202110800737 A CN202110800737 A CN 202110800737A CN 113420138 B CN113420138 B CN 113420138B
Authority
CN
China
Prior art keywords
text
classified
classification
clause
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110800737.1A
Other languages
English (en)
Other versions
CN113420138A (zh
Inventor
李嘉琛
付骁弈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202110800737.1A priority Critical patent/CN113420138B/zh
Publication of CN113420138A publication Critical patent/CN113420138A/zh
Application granted granted Critical
Publication of CN113420138B publication Critical patent/CN113420138B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及计算机技术领域,公开一种用于文本分类的方法,包括:获取待分类文本;待分类文本包括多个待分类文本子句;利用预设的关键词词典从各待分类文本子句中查询出文本类型标签对应的关键词;关键词词典中存储有关键词与文本类型标签之间的对应关系;根据关键词确定待分类文本对应的分类标签;确定各待分类文本子句与分类标签之间的关联评分;根据各关联评分确定待分类文本的分类结果及分类依据。由于能够确定出待分类文本的分类依据,从而便于用户根据分类依据对文本分类结果进行校验。本申请还公开一种用于文本分类的装置及电子设备、存储介质。

Description

用于文本分类的方法及装置、电子设备、存储介质
技术领域
本申请涉及计算机技术领域,例如涉及一种用于文本分类的方法及装置、电子设备、存储介质。
背景技术
得益于计算机技术的发展,用户能够获取的信息越来越广泛,数据量相应地也愈发庞大,为了更加高效快捷的获取实际所需的目标数据,需要对海量的数据进行处理,比如,对文本进行分类。现有技术通常通过训练好的神经网络模型作为文本分类器直接输出文本的分类结果。
在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:现有技术中在对文本进行分类时,由于文本分类器直接输出分类结果,缺乏文本的分类依据,导致不便于用户对文本分类结果进行校验。
发明内容
为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
本公开实施例提供了一种用于文本分类的方法及装置、电子设备、存储介质,以能够便于用户对文本分类结果进行校验。
在一些实施例中,所述用于文本分类的方法,包括:获取待分类文本;所述待分类文本包括多个待分类文本子句;利用预设的关键词词典从各所述待分类文本子句中查询出文本类型标签对应的关键词;所述关键词词典中存储有关键词与文本类型标签之间的对应关系;根据所述关键词确定所述待分类文本对应的分类标签;确定各所述待分类文本子句与所述分类标签之间的关联评分;根据各所述关联评分确定所述待分类文本的分类结果及分类依据。
在一些实施例中,所述用于文本分类的装置包括:获取模块,被配置为获取待分类文本;所述待分类文本包括多个待分类文本子句;查询模块,被配置为利用预设的关键词词典从各所述待分类文本子句中查询出文本类型标签对应的关键词;所述关键词词典中存储有关键词与文本类型标签之间的对应关系;第一确定模块,被配置为根据所述关键词确定所述待分类文本对应的分类标签;第二确定模块,被配置为确定各所述待分类文本子句与所述分类标签之间的关联评分;第三确定模块,被配置为根据各所述关联评分确定所述待分类文本的分类结果及分类依据。
在一些实施例中,所述用于文本分类的装置包括:处理器和存储有程序指令的存储器,所述处理器被配置为在执行所述程序指令时,执行上述用于文本分类的方法。
在一些实施例中,所述电子设备包括上述的用于文本分类的装置。
在一些实施例中,所述存储介质存储有程序指令,所述程序指令在运行时,执行上述的用于文本分类的方法。
本公开实施例提供的用于文本分类的方法及装置、电子设备、存储介质,可以实现以下技术效果:通过获取待分类文本;待分类文本包括多个待分类文本子句;利用预设的关键词词典从各待分类文本子句中查询出文本类型标签对应的关键词;关键词词典中存储有关键词与文本类型标签之间的对应关系;根据关键词确定待分类文本对应的分类标签;确定各待分类文本子句与分类标签之间的关联评分;根据各关联评分确定待分类文本的分类结果及分类依据。由于能够确定出待分类文本的分类依据,从而便于用户根据分类依据对文本分类结果进行校验。
以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
附图说明
一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:
图1是本公开实施例提供的一个用于文本分类的方法的示意图;
图2是本公开实施例提供的一个用于文本分类的装置的示意图;
图3是本公开实施例提供的另一个用于文本分类的装置的示意图。
具体实施方式
为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。
本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开实施例的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
除非另有说明,术语“多个”表示两个或两个以上。
本公开实施例中,字符“/”表示前后对象是一种“或”的关系。例如,A/B表示:A或B。
术语“和/或”是一种描述对象的关联关系,表示可以存在三种关系。例如,A和/或B,表示:A或B,或,A和B这三种关系。
术语“对应”可以指的是一种关联关系或绑定关系,A与B相对应指的是A与B之间是一种关联关系或绑定关系。
结合图1所示,本公开实施例提供一种用于文本分类的方法,包括:
步骤S101,获取待分类文本;待分类文本包括多个待分类文本子句。
步骤S102,利用预设的关键词词典从各待分类文本子句中查询出文本类型标签对应的关键词;关键词词典中存储有关键词与文本类型标签之间的对应关系。
步骤S103,根据关键词确定待分类文本对应的分类标签。
步骤S104,确定各待分类文本子句与分类标签之间的关联评分。
步骤S105,根据各关联评分确定待分类文本的分类结果及分类依据。
采用本公开实施例提供的用于文本分类的方法,通过获取待分类文本;待分类文本包括多个待分类文本子句;利用预设的关键词词典从各待分类文本子句中查询出文本类型标签对应的关键词;关键词词典中存储有关键词与文本类型标签之间的对应关系;根据关键词确定待分类文本对应的分类标签;确定各待分类文本子句与分类标签之间的关联评分;根据各关联评分确定待分类文本的分类结果及分类依据。由于能够确定出待分类文本的分类依据,从而便于用户根据分类依据对文本分类结果进行校验。
可选地,根据以下方式获得待分类文本子句,包括:按照逗号、句号、问号、叹号等标点符号的顺序将待分类文本分为若干个待分类文本子句。
在一些实施例中,待分类文本为“我们再内部评估一下,因为我们和其他公司的产品也有调研接触,它们价格很便宜。但是这边非常认可你们的数据可视化效果,再加上和老板的关系,我肯定更希望能购买你们的产品,现在的价格太贵了”,按照逗号、句号、问号、叹号等标点符号的顺序将该待分类文本进行划分获得7个待分类文本子句,包括:{“我们再内部评估一下”,“因为我们和其他公司的产品也有调研接触”,“它们价格很便宜”,“但是这边非常认可你们的数据可视化效果”,“再加上和老板的关系”,“我肯定更希望能购买你们的产品”,“现在的价格太贵了”}。通过对待分类文本进行自然语言处理,按照预设的分句方法将待分类文本分为若干个子句,这样能够便于用户确定待分类文本对应的关键词。
可选地,利用预设的关键词词典从各待分类文本子句中查询出文本类型标签对应的关键词;关键词词典中存储有关键词与文本类型标签之间的对应关系。
可选地,文本类型标签包括“内部过会”、“报价谈判”、“同事跟进”和“合同”等。
可选地,与“内部过会”对应的关键词包括“内部评估”和“内部沟通”等;与“报价谈判”对应的关键词包括“报价”、“价格”、“太贵”、“购买”和“多少钱”等;与“同事跟进”对应的关键词包括“推进”和“跟进”等;与“合同”对应的关键词包括“甲方”、“乙方”和“合同”等。
在一些实施例中,待分类文本子句为“现在价格太贵了”,则利用预设的关键词词典从“现在价格太贵了”中查询出文本类型标签“报价谈判”对应的关键词包括“价格”。
可选地,根据关键词确定待分类文本对应的分类标签,包括:将关键词对应的文本类型标签确定为待分类文本对应的分类标签。
在一些实施例中,利用预设的关键词词典从各待分类文本子句中查询出文本类型标签对应的关键词为“价格”,则将“价格”对应的文本类型标签“报价谈判”确定为待分类文本对应的分类标签。
可选地,确定各待分类文本子句与分类标签之间的关联评分,包括:只存在一个分类标签的情况下,获取各待分类文本子句中查询出的关键词第一数量,获取各待分类文本子句的长度;根据第一预设算法利用各关键词第一数量和各长度进行计算,获得各待分类文本子句与分类标签之间的关联评分;或,
存在多个分类标签的情况下,分别获取各待分类文本子句中各分类标签对应的关键词第二数量,分别获取各待分类文本子句的长度;根据第一预设算法利用各关键词第二数量和各长度进行计算,获得各待分类文本子句与各分类标签之间的关联评分。
可选地,根据第一预设算法利用各关键词第二数量和各长度进行计算,获得各待分类文本子句与各分类标签之间的关联评分,包括:通过计算获得各待分类文本子句与分类标签之间的关联评分;其中,S(Vi)(0)为待分类文本子句Vi的关联评分,即待分类文本子句Vi第0次迭代的分数,|Vi|为待分类文本子句Vi的长度,Wi为待分类文本子句Vi中各分类标签对应的关键词第二数量。
在一些实施例中,待分类文本子句包括:{“我们再内部评估一下”,“因为我们和其他公司的产品也有调研接触”,“它们价格很便宜”,“但是这边非常认可你们的数据可视化效果”,“再加上和老板的关系”,“我肯定更希望能购买你们的产品”,“现在的价格太贵了”}。待分类文本子句的关键词包括:“价格”、“购买”、“太贵”和“内部评估”,则待分类文本的分类标签包括:“报价谈判”和“内部过会”。其中,“我们再内部评估一下”的长度为9,“因为我们和其他公司的产品也有调研接触”的长度为18,“它们价格很便宜”的长度为7,“但是这边非常认可你们的数据可视化效果”的长度为18,“再加上和老板的关系”的长度为9,“我肯定更希望能购买你们的产品”的长度为14,“现在的价格太贵了”的长度为8。
在一些实施例中,“我们再内部评估一下”中与“报价谈判”对应的关键词第二数量为0,通过计算获得“我们再内部评估一下”与“报价谈判”之间的关联评分为0.25;其中,S(V1)(0)为待分类文本子句V1和分类标签“报价谈判”之间的关联评分,|V1|为待分类文本子句V1的长度,V1为待分类文本子句“我们再内部评估一下”;“因为我们和其他公司的产品也有调研接触”中与“报价谈判”对应的关键词第二数量为0,通过计算获得“因为我们和其他公司的产品也有调研接触”与“报价谈判”之间的关联评分为0.05;其中,S(V2)(0)为待分类文本子句V2和分类标签“报价谈判”之间的关联评分,|V2|为待分类文本子句V2的长度,V2为待分类文本子句“因为我们和其他公司的产品也有调研接触”;“但是这边非常认可你们的数据可视化效果”中与“报价谈判”对应的关键词第二数量为0,“它们价格很便宜”中与“报价谈判”对应的关键词第二数量为1,通过计算获得“它们价格很便宜”与“报价谈判”之间的关联评分为0.82;其中,S(V3)(0)为待分类文本子句V3和分类标签“报价谈判”之间的关联评分,|V3|为待分类文本子句V3的长度,V3为待分类文本子句“它们价格很便宜”;“但是这边非常认可你们的数据可视化效果”中与“报价谈判”对应的关键词第二数量为0,通过计算/>获得“但是这边非常认可你们的数据可视化效果”与“报价谈判”之间的关联评分为0.1;其中,S(V4)(0)为待分类文本子句V4和分类标签“报价谈判”之间的关联评分,|V4|为待分类文本子句V4的长度,V4为待分类文本子句“但是这边非常认可你们的数据可视化效果”;“再加上和老板的关系”中与“报价谈判”对应的关键词第二数量为0,通过计算/>获得“再加上和老板的关系”与“报价谈判”之间的关联评分为0.07;其中,S(V5)(0)为待分类文本子句V5和分类标签“报价谈判”之间的关联评分,|V5|为待分类文本子句V5的长度,V5为待分类文本子句“再加上和老板的关系”;“我肯定更希望能购买你们的产品”中与“报价谈判”对应的关键词第二数量为1,通过计算/>获得“我肯定更希望能购买你们的产品”与“报价谈判”之间的关联评分为0.89;其中,S(V6)(0)为待分类文本子句V6和分类标签“报价谈判”之间的关联评分,|V6|为待分类文本子句V6的长度,V6为待分类文本子句“我肯定更希望能购买你们的产品”;“现在的价格太贵了”中与“报价谈判”对应的关键词第二数量为1,通过计算/>获得“现在的价格太贵了”与“报价谈判”之间的关联评分为1.21,其中,S(V7)(0)为待分类文本子句V7和分类标签“报价谈判”之间的关联评分,|V7|为待分类文本子句V7的长度,V7为待分类文本子句“现在的价格太贵了”。
在一些实施例中,“我们再内部评估一下”中与“内部过会”对应的关键词第二数量为1,通过计算获得“我们再内部评估一下”与“内部过会”之间的关联评分为0.94;其中,S(V1)(0)为待分类文本子句V1和分类标签“内部过会”之间的关联评分,|V1|为待分类文本子句V1的长度,V1为待分类文本子句“我们再内部评估一下”;“因为我们和其他公司的产品也有调研接触”中与“内部过会”对应的关键词第二数量为0,通过计算/>获得“因为我们和其他公司的产品也有调研接触”与“内部过会”之间的关联评分为0.05;其中,S(V2)(0)为待分类文本子句V2和分类标签“内部过会”之间的关联评分,|V2|为待分类文本子句V2的长度,V2为待分类文本子句“因为我们和其他公司的产品也有调研接触”;“但是这边非常认可你们的数据可视化效果”中与“内部过会”对应的关键词第二数量为0,“它们价格很便宜”中与关键词相同的预设关键词的数量为0,通过计算/>获得“它们价格很便宜”与“内部过会”之间的关联评分为0.17;其中,S(V3)(0)为待分类文本子句V3和分类标签“内部过会”之间的关联评分,|V3|为待分类文本子句V3的长度,V3为待分类文本子句“它们价格很便宜”;“但是这边非常认可你们的数据可视化效果”中与“内部过会”对应的关键词第二数量为0,通过计算/>获得“但是这边非常认可你们的数据可视化效果”与“内部过会”之间的关联评分为0.1;其中,S(V4)(0)为待分类文本子句V4和分类标签“内部过会”之间的关联评分,|V4|为待分类文本子句V4的长度,V4为待分类文本子句“但是这边非常认可你们的数据可视化效果”;“再加上和老板的关系”中与“内部过会”对应的关键词第二数量为0,通过计算/>获得“再加上和老板的关系”与“内部过会”之间的关联评分为0.07;其中,S(V5)(0)为待分类文本子句V5和分类标签“内部过会”之间的关联评分,|V5|为待分类文本子句V5的长度,V5为待分类文本子句“再加上和老板的关系”;“我肯定更希望能购买你们的产品”中与“内部过会”对应的关键词第二数量为0,通过计算/>获得“我肯定更希望能购买你们的产品”与“内部过会”之间的关联评分为0.05;其中,S(V6)(0)为待分类文本子句V6和分类标签“内部过会”之间的关联评分,|V6|为待分类文本子句V6的长度,V6为待分类文本子句“我肯定更希望能购买你们的产品”;“现在的价格太贵了”中与“内部过会”对应的关键词第二数量为0,通过计算/>获得“现在的价格太贵了”与“内部过会”之间的关联评分为0.11,其中,S(V7)(0)为待分类文本子句V7和分类标签“内部过会”之间的关联评分,|V7|为待分类文本子句V7的长度,V7为待分类文本子句“现在的价格太贵了”。
可选地,根据各关联评分确定待分类文本的分类依据,包括:将最高的关联评分对应的待分类文本子句确定为待分类文本的分类依据;或,根据第二预设算法利用关联评分进行迭代计算,获得各待分类文本子句的迭代分数;根据迭代分数确定待分类文本的分类依据。
可选地,根据第二预设算法利用关联评分进行迭代计算,获得各待分类文本子句的迭代分数,包括:通过计算获得各待分类文本子句对应的迭代分数;其中,S(Vi)(n+1)为待分类文本子句Vi第n+1次迭代的迭代分数,d为预设的阻尼系数,normA(Vi,Vj)为邻接矩阵A的正则化矩阵;S(Vj)(n)为待分类文本子句Vj第n次迭代的迭代分数,n为迭代次数。
可选地,通过计算获得邻接矩阵A的正则化矩阵;其中,normA(Vi,Vj)为邻接矩阵A的正则化矩阵,A(Vi,Vj)为邻接矩阵A中待分类文本子句Vi和待分类文本子句Vj之间的相似度,S(Vj)(n)为待分类文本子句Vj第n次迭代的迭代分数,A(Vj)为邻接矩阵A中第j行相似度之和,n为迭代次数。
可选地,通过计算获得邻接矩阵A中待分类文本子句Vi和待分类文本子句Vj之间的相似度;其中,A(Vi,Vj)为邻接矩阵A中待分类文本子句Vi和待分类文本子句Vj之间的相似度,TFvj(qk)为待分类文本子句Vi中字符qk在待分类文本子句Vj中的出现次数,z为字符数量,b为第一常数,k1为第二常数,avg(Data)为各待分类文本子句的平均长度,IDF(qk)为字符qk的逆文档频率。
在一些实施例中,待分类文本包括7个待分类文本子句,则待分类文本对应的邻接矩阵为其中,(V1,V2)为邻接矩阵A中第1个待分类文本子句和第2个待分类文本子句之间的相似度,(V4,V3)为第4个待分类文本子句和第3个待分类文本子句之间的相似度。
可选地,通过计算获得各待分类文本子句的平均长度;其中,avg(Data)为各待分类文本子句的平均长度,S为各待分类文本子句的长度之和,m待分类文本子句的数量。
在一些实施例中,待分类文本包括7个待分类文本子句:{“我们再内部评估一下”,“因为我们和其他公司的产品也有调研接触”,“它们价格很便宜”,“但是这边非常认可你们的数据可视化效果”,“再加上和老板的关系”,“我肯定更希望能购买你们的产品”,“现在的价格太贵了”};其中,“我们再内部评估一下”的长度为9,“因为我们和其他公司的产品也有调研接触”的长度为18,“它们价格很便宜”的长度为7,“但是这边非常认可你们的数据可视化效果”的长度为18,“再加上和老板的关系”的长度为9,“我肯定更希望能购买你们的产品”的长度为14,“现在的价格太贵了”的长度为8;则各待分类文本子句的长度之和为9+18+7+18+9+14+8=83;通过计算获得各待分类文本子句的平均长度为11.85。
可选地,通过计算获得字符qk的逆文档频率;其中,IDF(qk)为字符qk的逆文档频率,n(qk)为包括字符qk的待分类文本的数量,N为待分类文本的数量。
在一些实施例中,待分类文本包括“我们再内部评估下,一般不延长太久的话都可以通过”和“报价材料准备好,周三看看”;各待分类文本对应的字符集合为{'周','。','看','们','料','部','材','报','备',',','好','价','下','久','以','延','的','太','通','估','我','长','准','可','不','都','评','般','话','再','三','一','内','过'}。
可选地,根据各关联评分确定待分类文本的分类结果,包括:将最高的关联评分对应的分类标签确定为待分类文本的分类结果。
在一些实施例中,分数最高的关联评分为1.21,1.21对应的待分类文本子句为“现在的价格太贵了”,“现在的价格太贵了”对应的分类标签为“报价谈判”,则将“报价谈判”确定为待分类文本的分类结果。
可选地,根据迭代分数确定待分类文本的分类依据,包括:将迭代分数最高的待分类文本子句确定为待分类文本的分类依据。
可选地,在各待分类文本子句与各分类标签之间的关联评分的迭代次数达到第一预设阈值的情况下,停止迭代;从各待分类文本子句的关联评分的最后一次迭代分数中确定出最高的迭代分数,将最高的迭代分数对应的待分类文本子句确定为待分类文本的分类依据。可选地,第一预设阈值为200。
可选地,在各待分类文本子句与各分类标签之间的关联评分的迭代分数与前一次迭代分数的分差均小于第二预设阈值的情况下,停止迭代;从各待分类文本子句的关联评分的最后一次迭代分数中确定出最高的迭代分数,将最高的迭代分数对应的待分类文本子句确定为待分类文本的分类依据。可选地,第二预设阈值为0.001。
在一些实施例中,在迭代次数达到200次的情况下,待分类文本子句“我们再内部评估一下”和分类标签“报价谈判”之间的关联评分的最高的最后一次迭代分数为1.19342;待分类文本子句“因为我们和其他公司的产品也有调研接触”和分类标签“报价谈判”之间的关联评分的最高的最后一次迭代分数为1.11438;待分类文本子句“它们价格很便宜”和分类标签“报价谈判”之间的关联评分的最高的最后一次迭代分数为1.0418;待分类文本子句“但是这边非常认可你们的数据可视化效果”和分类标签“报价谈判”之间的关联评分的最高的最后一次迭代分数为0.65503;待分类文本子句“再加上和老板的关系”和分类标签“报价谈判”之间的关联评分的最高的最后一次迭代分数为0.6169;待分类文本子句“我肯定更希望能购买你们的产品”和分类标签“报价谈判”之间的关联评分的最高的最后一次迭代分数为1.09998;待分类文本子句“现在的价格太贵了”和分类标签“报价谈判”之间的关联评分的最高的最后一次迭代分数为1.25136;则最高的迭代分数为1.25136,将1.25136对应的待分类文本子句“现在的价格太贵了”确定为待分类文本的分类依据。
通过利用预设的关键词词典从各待分类文本子句中查询出文本类型标签对应的关键词,根据关键词获取待分类文本子句与分类标签之间的关联评分,这样能够通过关联评分确定出待分类文本的分类依据,通过深度学习技术实现了对文本类型进行分类同时输出分类结果和分类依据,从而便于用户根据分类依据对文本分类结果进行校验。
结合图2所示,本公开实施例提供一种用于文本分类的装置,包括:获取模块201、查询模块202、第一确定模块203、第二确定模块204和第三确定模块205;获取模块201被配置为获取待分类文本;待分类文本包括多个待分类文本子句,并将各待分类文本子句发送给提取模块;查询模块202被配置为接收获取模块发送的各待分类文本子句,利用预设的关键词词典从各待分类文本子句中查询出文本类型标签对应的关键词;关键词词典中存储有关键词与文本类型标签之间的对应关系,并将关键词发送给第一确定模块;第一确定模块203被配置为接收查询模块发送的关键词,根据关键词确定待分类文本对应的分类标签,并将待分类文本对应的分类标签发送给第二确定模块;第二确定模块204被配置为接收第一确定模块发送的待分类文本对应的分类标签,确定各待分类文本子句与分类标签之间的关联评分,并将关联评分发送给第三确定模块;第三确定模块205被配置为接收第二确定模块发送的关联评分,并根据各关联评分确定待分类文本的分类结果及分类依据。
采用本公开实施例提供的用于文本分类的装置,通过获取模块获取待分类文本;待分类文本包括多个待分类文本子句;查询模块利用预设的关键词词典从各待分类文本子句中查询出文本类型标签对应的关键词;关键词词典中存储有关键词与文本类型标签之间的对应关系;第一确定模块根据关键词确定待分类文本对应的分类标签;第二确定模块确定各待分类文本子句与分类标签之间的关联评分;第三确定模块根据各关联评分确定待分类文本的分类结果及分类依据。通过利用预设的关键词词典从各待分类文本子句中查询出文本类型标签对应的关键词,根据关键词获取待分类文本子句与分类标签之间的关联评分,这样能够通过关联评分确定出待分类文本的分类依据,从而便于用户根据分类依据对文本分类结果进行校验。
可选地,第一确定模块被配置为通过以下方式根据关键词确定待分类文本对应的分类标签,包括:将关键词对应的文本类型标签确定为待分类文本对应的分类标签。
可选地,第二确定模块被配置为通过以下方式确定各待分类文本子句与分类标签之间的关联评分,包括:只存在一个分类标签的情况下,获取各待分类文本子句中查询出的关键词第一数量,获取各待分类文本子句的长度;根据第一预设算法利用各关键词第一数量和各长度进行计算,获得各待分类文本子句与分类标签之间的关联评分;或,存在多个分类标签的情况下,分别获取各待分类文本子句中各分类标签对应的关键词第二数量,分别获取各待分类文本子句的长度;根据第一预设算法利用各关键词第二数量和各长度进行计算,获得各待分类文本子句与各分类标签之间的关联评分。
可选地,第三确定模块被配置为通过以下方式根据各关联评分确定待分类文本的分类依据,包括:将最高的关联评分对应的待分类文本子句确定为待分类文本的分类依据;或,根据第二预设算法利用关联评分进行迭代计算,获得各待分类文本子句的迭代分数;根据迭代分数确定待分类文本的分类依据。
可选地,第三确定模块被配置为通过以下方式根据迭代分数确定待分类文本的分类依据,包括:将迭代分数最高的待分类文本子句确定为待分类文本的分类依据。
可选地,第三确定模块被配置为通过以下方式根据各关联评分确定待分类文本的分类结果,包括:将最高的关联评分对应的分类标签确定为待分类文本的分类结果。
结合图3所示,本公开实施例提供一种用于文本分类的装置,包括处理器(processor)300和存储器(memory)301。可选地,该装置还可以包括通信接口(Communication Interface)302和总线303。其中,处理器300、通信接口302、存储器301可以通过总线303完成相互间的通信。通信接口302可以用于信息传输。处理器300可以调用存储器301中的逻辑指令,以执行上述实施例的用于文本分类的方法。
此外,上述的存储器301中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器301作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令/模块。处理器300通过运行存储在存储器301中的程序指令/模块,从而执行功能应用以及数据处理,即实现上述实施例中用于文本分类的方法。
存储器301可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器301可以包括高速随机存取存储器,还可以包括非易失性存储器。
采用本公开实施例提供的用于文本分类的装置,通过获取待分类文本;待分类文本包括多个待分类文本子句;利用预设的关键词词典从各待分类文本子句中查询出文本类型标签对应的关键词;关键词词典中存储有关键词与文本类型标签之间的对应关系;根据关键词确定待分类文本对应的分类标签;确定各待分类文本子句与分类标签之间的关联评分;根据各关联评分确定待分类文本的分类结果及分类依据。由于能够确定出待分类文本的分类依据,从而便于用户根据分类依据对文本分类结果进行校验。
本公开实施例提供了一种电子设备,包含上述的用于文本分类的装置。
采用本公开实施例提供的电子设备,通过获取待分类文本;待分类文本包括多个待分类文本子句;利用预设的关键词词典从各待分类文本子句中查询出文本类型标签对应的关键词;关键词词典中存储有关键词与文本类型标签之间的对应关系;根据关键词确定待分类文本对应的分类标签;确定各待分类文本子句与分类标签之间的关联评分;根据各关联评分确定待分类文本的分类结果及分类依据。由于能够确定出待分类文本的分类依据,从而便于用户根据分类依据对文本分类结果进行校验。
可选地,电子设备为计算机或服务器等。
本公开实施例提供了一种存储介质,存储有程序指令,程序指令在运行时,执行上述用于文本分类的方法。
本公开实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述用于文本分类的方法。
上述的计算机可读存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。
本公开实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括一个或多个指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
以上描述和附图充分地示出了本公开的实施例,以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且,本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地,如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外,当用于本申请中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中,每个实施例重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例公开的方法部分相对应,那么相关之处可以参见方法部分的描述。
本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本文所披露的实施例中,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外,在本公开实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

Claims (10)

1.一种用于文本分类的方法,其特征在于,包括:
获取待分类文本;所述待分类文本包括多个待分类文本子句;
利用预设的关键词词典从各所述待分类文本子句中查询出文本类型标签对应的关键词;所述关键词词典中存储有关键词与文本类型标签之间的对应关系;
根据所述关键词确定所述待分类文本对应的分类标签;
确定各所述待分类文本子句与所述分类标签之间的关联评分;
根据各所述关联评分确定所述待分类文本的分类结果及分类依据;
确定各所述待分类文本子句与所述分类标签之间的关联评分,包括:存在多个分类标签的情况下,分别获取各所述待分类文本子句中各所述分类标签对应的关键词第二数量,分别获取各所述待分类文本子句的长度;根据第一预设算法利用各所述关键词第二数量和各所述长度进行计算,获得各所述待分类文本子句与各所述分类标签之间的关联评分;
根据第一预设算法利用各所述关键词第二数量和各所述长度进行计算,获得各待分类文本子句与各分类标签之间的关联评分,包括:通过计算获得各待分类文本子句与分类标签之间的关联评分;其中,S(Vi)(0)为待分类文本子句Vi的关联评分,即待分类文本子句Vi第0次迭代的分数,|Vi|为待分类文本子句Vi的长度,Wi为待分类文本子句Vi中各分类标签对应的关键词第二数量。
2.根据权利要求1所述的方法,其特征在于,根据所述关键词确定所述待分类文本对应的分类标签,包括:
将所述关键词对应的文本类型标签确定为所述待分类文本对应的分类标签。
3.根据权利要求1所述的方法,其特征在于,确定各所述待分类文本子句与所述分类标签之间的关联评分,包括:
只存在一个分类标签的情况下,获取各所述待分类文本子句中查询出的关键词第一数量,获取各所述待分类文本子句的长度;根据第一预设算法利用各所述关键词第一数量和各所述长度进行计算,获得各所述待分类文本子句与所述分类标签之间的关联评分。
4.根据权利要求1所述的方法,其特征在于,根据各所述关联评分确定所述待分类文本的分类依据,包括:
将最高的关联评分对应的待分类文本子句确定为所述待分类文本的分类依据;或,
根据第二预设算法利用所述关联评分进行迭代计算,获得各所述待分类文本子句的迭代分数;根据所述迭代分数确定所述待分类文本的分类依据。
5.根据权利要求4所述的方法,其特征在于,根据所述迭代分数确定所述待分类文本的分类依据,包括:
将迭代分数最高的待分类文本子句确定为所述待分类文本的分类依据。
6.根据权利要求1至5任一项所述的方法,其特征在于,根据各所述关联评分确定所述待分类文本的分类结果,包括:
将最高的关联评分对应的分类标签确定为所述待分类文本的分类结果。
7.一种用于文本分类的装置,其特征在于,包括:
获取模块,被配置为获取待分类文本;所述待分类文本包括多个待分类文本子句;
查询模块,被配置为利用预设的关键词词典从各所述待分类文本子句中查询出文本类型标签对应的关键词;所述关键词词典中存储有关键词与文本类型标签之间的对应关系;
第一确定模块,被配置为根据所述关键词确定所述待分类文本对应的分类标签;
第二确定模块,被配置为确定各所述待分类文本子句与所述分类标签之间的关联评分;
第三确定模块,被配置为根据各所述关联评分确定所述待分类文本的分类结果及分类依据;
第二确定模块被配置为通过以下方式确定各所述待分类文本子句与所述分类标签之间的关联评分:存在多个分类标签的情况下,分别获取各所述待分类文本子句中各所述分类标签对应的关键词第二数量,分别获取各所述待分类文本子句的长度;根据第一预设算法利用各所述关键词第二数量和各所述长度进行计算,获得各所述待分类文本子句与各所述分类标签之间的关联评分;
根据第一预设算法利用各所述关键词第二数量和各所述长度进行计算,获得各待分类文本子句与各分类标签之间的关联评分,包括:通过计算获得各待分类文本子句与分类标签之间的关联评分;其中,S(Vi)(0)为待分类文本子句Vi的关联评分,即待分类文本子句Vi第0次迭代的分数,|Vi|为待分类文本子句Vi的长度,Wi为待分类文本子句Vi中各分类标签对应的关键词第二数量。
8.一种用于文本分类的装置,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在运行所述程序指令时,执行如权利要求1至6任一项所述的方法。
9.一种电子设备,其特征在于,包括如权利要求8所述的用于文本分类的装置。
10.一种存储介质,存储有程序指令,其特征在于,所述程序指令在运行时,执行如权利要求1至6任一项所述的用于文本分类的方法。
CN202110800737.1A 2021-07-15 2021-07-15 用于文本分类的方法及装置、电子设备、存储介质 Active CN113420138B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110800737.1A CN113420138B (zh) 2021-07-15 2021-07-15 用于文本分类的方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110800737.1A CN113420138B (zh) 2021-07-15 2021-07-15 用于文本分类的方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN113420138A CN113420138A (zh) 2021-09-21
CN113420138B true CN113420138B (zh) 2024-02-13

Family

ID=77721110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110800737.1A Active CN113420138B (zh) 2021-07-15 2021-07-15 用于文本分类的方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN113420138B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113934848B (zh) * 2021-10-22 2023-04-07 马上消费金融股份有限公司 一种数据分类方法、装置和电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763418A (zh) * 2018-05-24 2018-11-06 辽宁石油化工大学 一种文本的分类方法及装置
CN109885688A (zh) * 2019-03-05 2019-06-14 湖北亿咖通科技有限公司 文本分类方法、装置、计算机可读存储介质和电子设备
CN110597988A (zh) * 2019-08-28 2019-12-20 腾讯科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质
CN110717040A (zh) * 2019-09-18 2020-01-21 平安科技(深圳)有限公司 词典扩充方法及装置、电子设备、存储介质
CN111125354A (zh) * 2018-10-31 2020-05-08 北京国双科技有限公司 文本分类方法及装置
CN111241271A (zh) * 2018-11-13 2020-06-05 网智天元科技集团股份有限公司 文本情感分类方法、装置及电子设备
CN111984793A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 文本情感分类模型训练方法、装置、计算机设备及介质
CN112329836A (zh) * 2020-11-02 2021-02-05 成都网安科技发展有限公司 基于深度学习的文本分类方法、装置、服务器及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763418A (zh) * 2018-05-24 2018-11-06 辽宁石油化工大学 一种文本的分类方法及装置
CN111125354A (zh) * 2018-10-31 2020-05-08 北京国双科技有限公司 文本分类方法及装置
CN111241271A (zh) * 2018-11-13 2020-06-05 网智天元科技集团股份有限公司 文本情感分类方法、装置及电子设备
CN109885688A (zh) * 2019-03-05 2019-06-14 湖北亿咖通科技有限公司 文本分类方法、装置、计算机可读存储介质和电子设备
CN110597988A (zh) * 2019-08-28 2019-12-20 腾讯科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质
CN110717040A (zh) * 2019-09-18 2020-01-21 平安科技(深圳)有限公司 词典扩充方法及装置、电子设备、存储介质
CN111984793A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 文本情感分类模型训练方法、装置、计算机设备及介质
CN112329836A (zh) * 2020-11-02 2021-02-05 成都网安科技发展有限公司 基于深度学习的文本分类方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
CN113420138A (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
US20210374196A1 (en) Keyword and business tag extraction
CN107463605B (zh) 低质新闻资源的识别方法及装置、计算机设备及可读介质
CN110866181B (zh) 资源推荐的方法、装置及存储介质
Kulis et al. Fast similarity search for learned metrics
CN104199965B (zh) 一种语义信息检索方法
CN105975459B (zh) 一种词项的权重标注方法和装置
US20190005050A1 (en) Regularities and trends discovery in a flow of business documents
US10810260B2 (en) System and method for automatically generating articles of a product
CN113095076B (zh) 敏感词识别方法、装置、电子设备及存储介质
US20140052688A1 (en) System and Method for Matching Data Using Probabilistic Modeling Techniques
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
WO2019085332A1 (zh) 金融数据分析方法、应用服务器及计算机可读存储介质
CN110717092B (zh) 为文章匹配对象的方法、系统、设备及存储介质
CN115577701A (zh) 针对大数据安全的风险行为识别方法、装置、设备及介质
CN115018588A (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN113420138B (zh) 用于文本分类的方法及装置、电子设备、存储介质
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
CN111985212A (zh) 文本关键字识别方法、装置、计算机设备及可读存储介质
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
CN113837824A (zh) 信息推送方法及其系统
US20230267281A1 (en) Systems and methods for short text similarity based clustering
CN113065329A (zh) 数据的处理方法和装置
CN113761938B (zh) 用于训练nlp模型的方法及装置、电子设备、存储介质
CN115080730A (zh) 账户数据处理方法、装置、电子设备和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant