CN111861596A - 一种文本分类方法和装置 - Google Patents

一种文本分类方法和装置 Download PDF

Info

Publication number
CN111861596A
CN111861596A CN201910272089.XA CN201910272089A CN111861596A CN 111861596 A CN111861596 A CN 111861596A CN 201910272089 A CN201910272089 A CN 201910272089A CN 111861596 A CN111861596 A CN 111861596A
Authority
CN
China
Prior art keywords
text
classified
sentence
sentence vector
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910272089.XA
Other languages
English (en)
Other versions
CN111861596B (zh
Inventor
徐文峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingbangda Trade Co Ltd
Beijing Jingdong Zhenshi Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201910272089.XA priority Critical patent/CN111861596B/zh
Publication of CN111861596A publication Critical patent/CN111861596A/zh
Application granted granted Critical
Publication of CN111861596B publication Critical patent/CN111861596B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0613Third-party assisted
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本分类方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:使用词向量模型对待分类文本提取句向量,得到所述待分类文本的句向量集合;从所述待分类文本的句向量集合中提取所述待分类文本的主题句向量;利用所述待分类文本的主题句向量,使用分类器模型预测所述待分类文本的类别,其中,所述分类器模型包括多个聚类中心向量,将与所述待分类文本的主题句向量距离最小的一个聚类中心向量所对应的类别预测为所述待分类文本的类别。该实施方式能够对新事件进行自动分类,减少了人工成本,并可以提高分类的准确率,以及解决了类别数量难以确定的问题。

Description

一种文本分类方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本分类方法和装置。
背景技术
电子商务的客服系统是客户与商家的沟通窗口。客服与客户的沟通方式多种多样,其中,在线沟通即客户和客服双方通过互联网进行在线文字交流,是最常见的沟通方式。客户和客服双方一次完整的在线沟通被定义为在线沟通事件,简称事件,通常一个事件包括客户和客服在文字上的多轮交流。客服系统产生的数据在分析客户需求、了解客服体验、制定商业决策等方面具有重大商业价值,而对事件的正确分类是一种客服数据分析的基础。
事件分类(即对事件对应的文本分类)包含两个核心问题,即类别划分(指对于所有事件,划分为几类是合适的,每个类别分别代表什么含义)与类别归属(指对于某一个事件,该事件应该归属于哪一类)。目前,以上两个核心问题的解决方案仍然采用人为方式。事件类别划分一般由专业人员定义,类别的数量体现了划分的粒度;类别归属则由在线客服人员根据事件的文本内容以及由专业人员事先定义的类别划分来确定该事件的类别归属。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
现有方案依赖人工进行事件分类,成本高,准确率低,类别数量难以确定。
发明内容
有鉴于此,本发明实施例提供一种文本分类方法和装置,能够对新事件进行自动分类,减少了人工成本,并可以提高分类的准确率,以及解决了类别数量难以确定的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种文本分类方法。
一种文本分类方法,包括:使用词向量模型对待分类文本提取句向量,得到所述待分类文本的句向量集合;从所述待分类文本的句向量集合中提取所述待分类文本的主题句向量;利用所述待分类文本的主题句向量,使用分类器模型预测所述待分类文本的类别,其中,所述分类器模型包括多个聚类中心向量,将与所述待分类文本的主题句向量距离最小的一个聚类中心向量所对应的类别预测为所述待分类文本的类别。
可选地,使用分类器模型预测所述待分类文本的类别的步骤之前,包括:利用已存分类文本的历史数据训练所述分类器模型,其中,利用K均值聚类算法和轮廓系数法训练得到所述分类器模型的最佳聚类数量和所述多个聚类中心向量,所述聚类中心向量的数量与所述最佳聚类数量相同。
可选地,使用词向量模型对待分类文本提取句向量的步骤,包括:对所述待分类文本进行预处理,所述预处理包括:按照过滤规则滤除所述待分类文本中的部分文本要素;对已滤除所述部分文本要素的所述待分类文本进行分词;滤除分词后的所述待分类文本中的特定词汇;对预处理后的待分类文本提取句向量。
可选地,从所述待分类文本的句向量集合中提取所述待分类文本的主题句向量的步骤,包括:在所述预处理后的待分类文本包括唯一句子的情况下,将所述唯一句子对应的句向量提取为所述待分类文本的主题句向量;在所述预处理后的待分类文本包括两个句子的情况下,将所述两个句子之中词汇数量最多的一个句子对应的句向量提取为所述待分类文本的主题句向量;在所述预处理后的待分类文本包括两个以上句子的情况下,将所述待分类文本的句向量集合中,与其他各句向量的距离之和最小的一个句向量提取为所述待分类文本的主题句向量。
根据本发明实施例的另一方面,提供了一种文本分类装置。
一种文本分类装置,包括:句向量提取模块,用于使用词向量模型对待分类文本提取句向量,得到所述待分类文本的句向量集合;主题句向量提取模块,用于从所述待分类文本的句向量集合中提取所述待分类文本的主题句向量;文本类别预测模块,用于利用所述待分类文本的主题句向量,使用分类器模型预测所述待分类文本的类别,其中,所述分类器模型包括多个聚类中心向量,将与所述待分类文本的主题句向量距离最小的一个聚类中心向量所对应的类别预测为所述待分类文本的类别。
可选地,还包括分类器模型训练模块,用于:利用已存分类文本的历史数据训练所述分类器模型,其中,利用K均值聚类算法和轮廓系数法训练得到所述分类器模型的最佳聚类数量和所述多个聚类中心向量,所述聚类中心向量的数量与所述最佳聚类数量相同。
可选地,所述句向量提取模块还用于:对所述待分类文本进行预处理,所述预处理包括:按照过滤规则滤除所述待分类文本中的部分文本要素;对已滤除所述部分文本要素的所述待分类文本进行分词;滤除分词后的所述待分类文本中的特定词汇;对预处理后的待分类文本提取句向量。
可选地,所述主题句向量提取模块还用于:在所述预处理后的待分类文本包括唯一句子的情况下,将所述唯一句子对应的句向量提取为所述待分类文本的主题句向量;在所述预处理后的待分类文本包括两个句子的情况下,将所述两个句子之中词汇数量最多的一个句子对应的句向量提取为所述待分类文本的主题句向量;在所述预处理后的待分类文本包括两个以上句子的情况下,将所述待分类文本的句向量集合中,与其他各句向量的距离之和最小的一个句向量提取为所述待分类文本的主题句向量。
根据本发明实施例的又一方面,提供了一种电子设备。
一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现本发明提供的文本分类方法。
根据本发明实施例的又一方面,提供了一种计算机可读介质。
一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明提供的文本分类方法。
上述发明中的一个实施例具有如下优点或有益效果:使用词向量模型对待分类文本提取句向量,得到待分类文本的句向量集合;从待分类文本的句向量集合中提取待分类文本的主题句向量;利用待分类文本的主题句向量,使用分类器模型预测待分类文本的类别,其中,将与待分类文本的主题句向量距离最小的一个聚类中心向量所对应的类别预测为待分类文本的类别。能够对新事件进行自动分类,减少了人工成本。利用已存分类文本的历史数据训练分类器模型,并利用K均值聚类算法和轮廓系数法训练得到分类器模型的最佳聚类数量,解决了类别数量难以确定的问题。对待分类文本进行预处理,再对预处理后的待分类文本提取句向量,去除对文本含义区分性较弱的文本要素,强化了文本在其语义上的差异。本发明实施例的上述各项改进可以提高分类的准确率。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明第一实施例的文本分类方法的主要步骤示意图;
图2是根据本发明第二实施例的文本分类方法的建模流程示意图;
图3是根据本发明第三实施例的文本分类方法的推理流程示意图;
图4是根据本发明第四实施例的文本分类装置的主要模块示意图;
图5是本发明实施例可以应用于其中的示例性系统架构图;
图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
图1是根据本发明第一实施例的文本分类方法的主要步骤示意图。
如图1所示,本发明第一实施例的文本分类方法主要包括如下的步骤S101至步骤S103。
步骤S101:使用词向量模型对待分类文本提取句向量,得到待分类文本的句向量集合。
步骤S101具体可以包括:对待分类文本进行预处理,预处理包括:按照过滤规则滤除待分类文本中的部分文本要素;对已滤除该部分文本要素的待分类文本进行分词;滤除分词后的待分类文本中的特定词汇;对预处理后的待分类文本提取句向量,得到待分类文本的句向量集合。
例如对于电子商务客服文本的分类,滤除的待分类文本中的部分文本要素可以包括客服文本(即客服输入的沟通文本)、系统生成文本(例如系统提示某用户加入咨询的文本)、表情符号、数字、英文、留言角色(例如某用户的用户名或ID信息等)、标点符号等等。
分词可以采用通常的分词方法,常用的有前向最大匹配法、后向最大匹配法、双向最大匹配法、N最短路径法,隐马尔科夫模型、条件随机场模型等,本实施例不对分词模型加以限制。
滤除分词后的待分类文本中的特定词汇主要是滤除一些通常与句子含义的关联度较小的词汇,例如句子中出现频率较高的一些助词、代词、介词等。还可以预先通过手工构建等方式构建停用词表,在对分词后的待分类文本进行过滤时,将与句子含义的关联度较小的词保存在停用词表中,根据停用词表查找并去除分词后的待分类文本中的停用词,从而滤除一些特定词汇。
使用词向量模型对待分类文本提取句向量时,可以根据词向量模型中词与向量的对应关系得到句向量。以词向量模型采用Word2Vec词向量模型为例,在该词向量模型中每一个词都有唯一一个数值型向量与其对应,为方便描述,本实施例中假设向量的维度为2,例如,词“退”对应[0.28,-1.36],词“差价”对应[-0.86,-0.44]。那么,句向量计算公式为:
Figure BDA0002018741110000071
其中,n为句子中词的数量,wi代表第i个词所对应的词向量,i的取值为1≤i≤n,例如对于句子“退差价”,包含两个词,所以n为2,句子“退差价”的向量(句向量)为:
Figure BDA0002018741110000072
步骤S102:从待分类文本的句向量集合中提取待分类文本的主题句向量。
步骤S102具体可以包括:在预处理后的待分类文本包括唯一句子的情况下,将该唯一句子对应的句向量提取为待分类文本的主题句向量;在预处理后的待分类文本包括两个句子的情况下,将该两个句子之中词汇数量最多的一个句子对应的句向量提取为待分类文本的主题句向量;在预处理后的待分类文本包括两个以上句子的情况下,将待分类文本的句向量集合中,与其他各句向量的距离之和最小的一个句向量提取为待分类文本的主题句向量。
在预处理后的待分类文本包括两个以上句子(即句子数量≥3)的情况下,可以通过下述方法计算与其他各句向量的距离之和最小的一个句向量E:
Figure BDA0002018741110000073
其中,D(Si)为句向量Si与其他所有句向量的距离之和,具体公式为:
Figure BDA0002018741110000074
假设待分类文本的句向量集合中三个句向量依次为:
S1=[-0.29,-0.90]
S2=[-0.12,-0.42]
S3=[0.20,0.58]
则,
Figure BDA0002018741110000081
同理可以计算出:
D(S2)=1.56
D(S3)=2.61
由于D(S2)最小,因此选择E=S2=[-0.12,-0.42],提取为待分类文本的主题句向量。
步骤S103:利用待分类文本的主题句向量,使用分类器模型预测待分类文本的类别,其中,分类器模型包括多个聚类中心向量(即类别中心的向量),将与待分类文本的主题句向量距离最小的一个聚类中心向量所对应的类别预测为待分类文本的类别。具体计算公式为:
Figure BDA0002018741110000082
其中,k代表该待分类文本属于第k个类别,E表示待分类文本的主题句向量,Ck表示第k个聚类中心向量。
使用分类器模型预测待分类文本的类别之前,需要先对分类器模型进行训练,可以利用已存分类文本的历史数据训练分类器模型,其中,利用K均值聚类算法和轮廓系数法训练得到该分类器模型的最佳聚类数量和多个聚类中心向量,聚类中心向量是利用聚类算法求得的聚类中心的向量,本发明实施例利用K均值聚类算法和轮廓系数法得到的多个聚类中心向量的具体数量与最佳聚类数量相同。已存分类文本的历史数据即保存的历史已分类过的文本数据,例如对于电商客服文本,已存分类文本的历史数据是是已存分类的、客户和客服双方在线沟通的历史数据。
在电子商务的客服系统中,客户和客服双方一次完整的在线沟通被定义为在线沟通事件,简称事件,通常一个事件包括客户和客服在文字上的多轮交流。事件分类即对事件对应的文本分类,包括两个核心问题,一是类别划分,指对于所有事件,划分为几类是合适的,每个类别分别代表什么含义;二是类别归属,指对于某一个事件,该事件应该归属于哪一类。
现有技术的类别划分方式和划分粒度在很大程度上受主观因素影响,缺少科学依据。例如,可以对事件类别划分为配送、发票、投诉3类,也可以划分为配送-已送达、配送-未送达、发票-信息错误、发票-未开发票、投诉-假货、投诉-二手货、咨询-售前、咨询-售中、咨询-售后9类,到底哪一种方式更加合理,较难进行科学评价,因此,现有技术对事件分类的方式导致类别数量难以确定。此外,现有技术的类别归属由客服人员对事件进行分类,人工成本高,且受主观因素和业务熟练程度的影响,准确率难以保证,例如,当分类粒度很细,分类数量有几十或上百种之多时,客服人员较难在短时间内熟悉每种类别应该对应相关的文本内容。而本发明实施例的文本分类方法则可以克服现有技术的上述缺陷。
本发明实施例的文本分类方法具体可以包括建模和推理两套流程。其中,建模流程利用历史事件数据构建词向量模型和分类器模型,并针对历史事件的数据特征确定最佳类别数量以及各类别的中心,其中包括利用已存分类文本的历史数据训练分类器模型,并利用K均值聚类算法和轮廓系数法训练得到该分类器模型的最佳聚类数量和多个聚类中心向量,解决了类别数量难以确定的问题;推理流程即对新输入的待分类文本预测文本类别的流程,实现了利用词向量模型和分类器模型对新事件进行自动分类,减少了人工成本,并可以提高分类的准确率。下文将对建模和推理两套流程详细介绍。
图2是根据本发明第二实施例的文本分类方法的建模流程示意图。
本发明第二实施例的文本分类方法以对电子商务的客服文本分类为例,其建模流程主要包括如下的步骤S201至步骤S206。
步骤S201:读取历史事件数据。
事件即在线沟通事件,表示客户和客服双方一次完整的在线沟通。历史事件数据是指客服业务系统生产的历史数据,这些数据是已存分类的、客户和客服双方在线沟通的历史数据,即已存分类文本的历史数据,将历史事件数据作为原始语料,每一个事件的文本内容对应一条记录,语料中包含众多的历史事件数据。
表1显示一条历史事件的聊天内容(即历史事件数据的一条记录),历史事件为众多类似的对话文本(数以千万计)。
表1
Figure BDA0002018741110000101
步骤S202:对历史事件数据进行预处理。
具体地,将原始语料中的全部历史事件数据进行预处理,预处理环节包括①去除客服文本②去除系统生成文本③去除表情符号④去除数字、英文⑤去除留言角色⑥去除标点符号⑦分词⑧去停用词等,其中,前6个环节的核心思想是去除文本中与文本含义关联度较小的元素。以下以表1所示的文本为例,按顺序显示各个环节的处理效果。
(1)去除客服文本。即去除客服输入的文本,处理后的效果如表2所示。
表2
Figure BDA0002018741110000111
(2)去除系统生成文本。本例的系统生成文本即“用户:顾客XX加入咨询商品ID:14126666”。处理后的效果如表3所示。
表3
Figure BDA0002018741110000112
(3)去除表情符号。#31代表某种表情符号,如笑脸表情,#31是其字符编码。处理后的效果如表4所示。
表4
Figure BDA0002018741110000113
Figure BDA0002018741110000121
(4)去除数字、英文。处理后的效果如表5所示。
表5
Figure BDA0002018741110000122
(5)去除留言角色。即去除“用户:”。处理后的效果如表6所示。
表6
Figure BDA0002018741110000123
(6)去除标点符号。处理后的效果如表7所示。
表7
Figure BDA0002018741110000124
需要说明的是,上述序号(1)至(6)的处理顺序可以不受本实施例中序号的限制。
(7)分词。可以采用常用分词方法,具体可用的分词方法前文已经列举,此处不再赘述。本例分词的效果如表8所示。
表8
Figure BDA0002018741110000131
(8)去停用词。根据停用词表查找并去除停用词,停用词表为手工构建,停用词一般为句子中出现频率较高的一些助词、代词、介词等,这类词通常与句子含义的关联度较小。处理后的效果如表9所示。
表9
Figure BDA0002018741110000132
步骤S203:使用训练后的词向量模型提取历史事件的句向量。
例如,可以使用训练后的Word2Vec词向量模型提取历史事件的句向量,对每一历史事件的文本提取句向量可以得到各历史事件的句向量集合。在提取句向量时,根据词向量模型中词与向量的对应关系得到句向量,具体方法参照第一实施例中使用词向量模型对待分类文本提取句向量的方法。
Word2Vec是一种在自然语言处理中使用效果较好的词向量模型,需要说明的是,本发明实施例的词向量模型不限于Word2Vec词向量模型,还可以采用其他词向量模型。在训练时,可以利用预处理后的语料训练Word2Vec词向量模型,由于Word2Vec本身有配套的成熟的训练方法,本实施例不做详细介绍。
步骤S204:提取事件向量。
具体地,对每一历史事件的句向量集合中的多个句向量,提取其中一个向量作为整个事件的向量,即事件向量,某一历史事件的事件向量为该历史事件的主题句向量。
某一事件经过预处理后,在句子数量n=1的情况下,选取唯一句向量作为事件向量;
在句子数量n=2的情况下,选取句子长度较大(即词数较多)的句子所对应的句向量作为事件向量;
在句子数量n≥3的情况下,将该事件的句向量集合中,与其他各句向量的距离之和最小的一个句向量提取为该事件的主题句向量。具体方法参照步骤S102中从待分类文本的句向量集合中提取待分类文本的主题句向量的方法,此处不再重复介绍。
步骤S205:根据所有历史事件对应的全部事件向量得到训练数据。
经过以上各步骤处理后,对于每一个历史事件都有唯一的事件向量与其对应,历史事件所对应的全部事件向量作为下一步建模的训练数据。
步骤S206:训练分类器模型。
分类器模型训练的核心思想是对训练数据进行聚类,可以采用KMeans(K均值)算法,KMeans算法需要指定超参数,即聚类簇数K,参数K的优化等价于解决这样的问题:对于所有事件,划分为几类是合适的。本发明采用轮廓系数法进行参数K的优化。结合KMeans聚类和轮廓系数法确定最佳分类数(最佳聚类数量)和分类中心,具体步骤为:通过KMeans聚类算法指定一系列K值,K为聚类数量,对于每个K值得到K个类别中心的向量;利用轮廓系数法计算每一K值对应的聚类结果的轮廓系数;将其中最大轮廓系数对应的K值确定为最佳聚类数量,并得到最佳聚类数量对应的K个类别中心的向量。通过轮廓系数法可以根据数据分布的自身特征确定最优的聚簇数(聚类数量)。
最终训练后的分类器模型,为K(此处K的具体数值为最佳聚类数量)个类别中心的向量C1,C2,...,CK,根据KMeans算法原理,向量的维度与词向量维度相同。
图3是根据本发明第三实施例的文本分类方法的推理流程示意图。
本发明第三实施例的文本分类方法以对电子商务的客服文本分类为例,其推理流程主要包括如下的步骤S301至步骤S305。本发明的文本分类方法不仅限于对客服文本的分类。
步骤S301:接收输入的新事件数据。
新事件数据是指客服业务系统当前生产的数据,这些数据是待分类的、客户和客服双方当前在线沟通的文本数据。
步骤S302:对新事件数据进行预处理。
预处理包括:按照过滤规则滤除新事件数据中的部分文本要素,包括滤除客服输入的沟通文本、系统生成文本、表情符号、数字、英文、留言角色、标点符号等;对已滤除该部分文本要素的新事件数据进行分词;滤除分词后的新事件数据中的停用词。
通过对事件文本的预处理,可以去除对文本含义区分性较弱的文本要素,强化了文本在其语义上的差异,提高文本分类的准确性。
步骤S303:使用训练后的词向量模型提取新事件的句向量。
步骤S304:提取新事件的事件向量。
新事件的事件向量或称新事件的主题句向量。
步骤S305:使用训练后的分类器模型对新事件进行分类预测,以确定新事件的类别。
通过文本分类方法的建模流程可以得到训练后的分类器模型,使用训练后的分类器模型对新事件进行分类预测,即预测新事件的文本具体归属于哪一个类别。新事件的类别为K((此处K的具体数值为最佳聚类数量))个类别中心与新事件的事件向量E1距离最小的类别,具体计算公式为:
Figure BDA0002018741110000161
其中,k1代表该新事件属于第k1个类别。
本实施例的文本分类方法的推理流程的预处理、提取句向量、提取主题句向量(即事件向量)分别与建模流程中的对应步骤一致,唯一区别是在建模流程中需要处理的是数量众多的历史事件,而推理流程中只处理单一新事件。因此,步骤S301至步骤S305的具体实现此处不再详述,可以参照对上述实施例一的介绍以及对实施例二的建模流程的介绍。
本发明中的建模和推理两套流程,使用历史数据建立分类器模型,优化分类数量;利用分类器模型,对新事件进行自动分类,减少了人工成本,并可以提高分类的准确率。
图4是根据本发明第四实施例的文本分类装置的主要模块示意图。
本发明第四实施例的文本分类装置400主要包括:句向量提取模块401、主题句向量提取模块402、文本类别预测模块403。
句向量提取模块401,用于使用词向量模型对待分类文本提取句向量,得到待分类文本的句向量集合。
句向量提取模块401具体用于:对待分类文本进行预处理,预处理包括:按照过滤规则滤除待分类文本中的部分文本要素;对已滤除部分文本要素的待分类文本进行分词;滤除分词后的待分类文本中的特定词汇;对预处理后的待分类文本提取句向量。
主题句向量提取模块402,用于从待分类文本的句向量集合中提取待分类文本的主题句向量。
主题句向量提取模块402具体用于:在预处理后的待分类文本包括唯一句子的情况下,将唯一句子对应的句向量提取为待分类文本的主题句向量;在预处理后的待分类文本包括两个句子的情况下,将两个句子之中词汇数量最多的一个句子对应的句向量提取为待分类文本的主题句向量;在预处理后的待分类文本包括两个以上句子的情况下,将待分类文本的句向量集合中,与其他各句向量的距离之和最小的一个句向量提取为待分类文本的主题句向量。
文本类别预测模块403,用于利用待分类文本的主题句向量,使用分类器模型预测待分类文本的类别,其中,分类器模型包括多个聚类中心向量,将与待分类文本的主题句向量距离最小的一个聚类中心向量所对应的类别预测为待分类文本的类别。
文本分类装置400还可以包括分类器模型训练模块,用于:利用已存分类文本的历史数据训练分类器模型,其中,利用K均值聚类算法和轮廓系数法训练得到分类器模型的最佳聚类数量和多个聚类中心向量,该多个聚类中心向量的数量与最佳聚类数量相同。
另外,在本发明实施例中文本分类装置的具体实施内容,在上面所述文本分类方法中已经详细说明了,故在此重复内容不再说明。
图5示出了可以应用本发明实施例的文本分类方法或文本分类装置的示例性系统架构500。
如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的文本分类方法一般由服务器505执行,相应地,文本分类装置一般设置于服务器505中。
应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图6,其示出了适于用来实现本申请实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括句向量提取模块、主题句向量提取模块、文本类别预测模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,句向量提取模块还可以被描述为“用于使用词向量模型对待分类文本提取句向量,得到待分类文本的句向量集合的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:使用词向量模型对待分类文本提取句向量,得到所述待分类文本的句向量集合;从所述待分类文本的句向量集合中提取所述待分类文本的主题句向量;利用所述待分类文本的主题句向量,使用分类器模型预测所述待分类文本的类别,其中,所述分类器模型包括多个聚类中心向量,将与所述待分类文本的主题句向量距离最小的一个聚类中心向量所对应的类别预测为所述待分类文本的类别。
根据本发明实施例的技术方案,使用词向量模型对待分类文本提取句向量,得到待分类文本的句向量集合;从待分类文本的句向量集合中提取待分类文本的主题句向量;利用待分类文本的主题句向量,使用分类器模型预测待分类文本的类别,其中,将与待分类文本的主题句向量距离最小的一个聚类中心向量所对应的类别预测为待分类文本的类别。能够对新事件进行自动分类,减少了人工成本。利用已存分类文本的历史数据训练分类器模型,并利用K均值聚类算法和轮廓系数法训练得到分类器模型的最佳聚类数量,解决了类别数量难以确定的问题。对待分类文本进行预处理,再对预处理后的待分类文本提取句向量,去除对文本含义区分性较弱的文本要素,强化了文本在其语义上的差异。本发明实施例的上述各项改进可以提高分类的准确率。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种文本分类方法,其特征在于,包括:
使用词向量模型对待分类文本提取句向量,得到所述待分类文本的句向量集合;
从所述待分类文本的句向量集合中提取所述待分类文本的主题句向量;
利用所述待分类文本的主题句向量,使用分类器模型预测所述待分类文本的类别,其中,所述分类器模型包括多个聚类中心向量,将与所述待分类文本的主题句向量距离最小的一个聚类中心向量所对应的类别预测为所述待分类文本的类别。
2.根据权利要求1所述的方法,其特征在于,使用分类器模型预测所述待分类文本的类别的步骤之前,包括:
利用已存分类文本的历史数据训练所述分类器模型,其中,利用K均值聚类算法和轮廓系数法训练得到所述分类器模型的最佳聚类数量和所述多个聚类中心向量,所述聚类中心向量的数量与所述最佳聚类数量相同。
3.根据权利要求1所述的方法,其特征在于,使用词向量模型对待分类文本提取句向量的步骤,包括:
对所述待分类文本进行预处理,所述预处理包括:按照过滤规则滤除所述待分类文本中的部分文本要素;对已滤除所述部分文本要素的所述待分类文本进行分词;滤除分词后的所述待分类文本中的特定词汇;
对预处理后的待分类文本提取句向量。
4.根据权利要求3所述的方法,其特征在于,从所述待分类文本的句向量集合中提取所述待分类文本的主题句向量的步骤,包括:
在所述预处理后的待分类文本包括唯一句子的情况下,将所述唯一句子对应的句向量提取为所述待分类文本的主题句向量;
在所述预处理后的待分类文本包括两个句子的情况下,将所述两个句子之中词汇数量最多的一个句子对应的句向量提取为所述待分类文本的主题句向量;
在所述预处理后的待分类文本包括两个以上句子的情况下,将所述待分类文本的句向量集合中,与其他各句向量的距离之和最小的一个句向量提取为所述待分类文本的主题句向量。
5.一种文本分类装置,其特征在于,包括:
句向量提取模块,用于使用词向量模型对待分类文本提取句向量,得到所述待分类文本的句向量集合;
主题句向量提取模块,用于从所述待分类文本的句向量集合中提取所述待分类文本的主题句向量;
文本类别预测模块,用于利用所述待分类文本的主题句向量,使用分类器模型预测所述待分类文本的类别,其中,所述分类器模型包括多个聚类中心向量,将与所述待分类文本的主题句向量距离最小的一个聚类中心向量所对应的类别预测为所述待分类文本的类别。
6.根据权利要求5所述的装置,其特征在于,还包括分类器模型训练模块,用于:
利用已存分类文本的历史数据训练所述分类器模型,其中,利用K均值聚类算法和轮廓系数法训练得到所述分类器模型的最佳聚类数量和所述多个聚类中心向量,所述聚类中心向量的数量与所述最佳聚类数量相同。
7.根据权利要求5所述的装置,其特征在于,所述句向量提取模块还用于:
对所述待分类文本进行预处理,所述预处理包括:按照过滤规则滤除所述待分类文本中的部分文本要素;对已滤除所述部分文本要素的所述待分类文本进行分词;滤除分词后的所述待分类文本中的特定词汇;
对预处理后的待分类文本提取句向量。
8.根据权利要求7所述的装置,其特征在于,所述主题句向量提取模块还用于:
在所述预处理后的待分类文本包括唯一句子的情况下,将所述唯一句子对应的句向量提取为所述待分类文本的主题句向量;
在所述预处理后的待分类文本包括两个句子的情况下,将所述两个句子之中词汇数量最多的一个句子对应的句向量提取为所述待分类文本的主题句向量;
在所述预处理后的待分类文本包括两个以上句子的情况下,将所述待分类文本的句向量集合中,与其他各句向量的距离之和最小的一个句向量提取为所述待分类文本的主题句向量。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。
CN201910272089.XA 2019-04-04 2019-04-04 一种文本分类方法和装置 Active CN111861596B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910272089.XA CN111861596B (zh) 2019-04-04 2019-04-04 一种文本分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910272089.XA CN111861596B (zh) 2019-04-04 2019-04-04 一种文本分类方法和装置

Publications (2)

Publication Number Publication Date
CN111861596A true CN111861596A (zh) 2020-10-30
CN111861596B CN111861596B (zh) 2024-04-12

Family

ID=72951230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910272089.XA Active CN111861596B (zh) 2019-04-04 2019-04-04 一种文本分类方法和装置

Country Status (1)

Country Link
CN (1) CN111861596B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328799A (zh) * 2021-01-06 2021-02-05 腾讯科技(深圳)有限公司 问题分类方法和装置
CN112672202A (zh) * 2020-12-28 2021-04-16 广州博冠信息科技有限公司 弹幕处理方法、设备和存储介质
CN112749280A (zh) * 2021-01-18 2021-05-04 杭州安恒信息技术股份有限公司 网络舆情的分类方法、装置、电子装置和存储介质
CN113536806A (zh) * 2021-07-18 2021-10-22 北京奇艺世纪科技有限公司 一种文本分类方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170034206A (ko) * 2015-09-18 2017-03-28 아주대학교산학협력단 크로스 미디어 분석에 기반한 소셜 미디어 텍스트의 주제 카테고리 자동 분류 방법 및 그 장치
CN107247728A (zh) * 2017-05-02 2017-10-13 北京小度信息科技有限公司 文本处理方法、装置及计算机存储介质
CN108170818A (zh) * 2017-12-29 2018-06-15 深圳市金立通信设备有限公司 一种文本分类方法、服务器及计算机可读介质
CN108829818A (zh) * 2018-06-12 2018-11-16 中国科学院计算技术研究所 一种文本分类方法
US20180365248A1 (en) * 2017-06-14 2018-12-20 Sap Se Document representation for machine-learning document classification
CN109101537A (zh) * 2018-06-27 2018-12-28 北京慧闻科技发展有限公司 基于深度学习的多轮对话数据分类方法、装置和电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170034206A (ko) * 2015-09-18 2017-03-28 아주대학교산학협력단 크로스 미디어 분석에 기반한 소셜 미디어 텍스트의 주제 카테고리 자동 분류 방법 및 그 장치
CN107247728A (zh) * 2017-05-02 2017-10-13 北京小度信息科技有限公司 文本处理方法、装置及计算机存储介质
US20180365248A1 (en) * 2017-06-14 2018-12-20 Sap Se Document representation for machine-learning document classification
CN108170818A (zh) * 2017-12-29 2018-06-15 深圳市金立通信设备有限公司 一种文本分类方法、服务器及计算机可读介质
CN108829818A (zh) * 2018-06-12 2018-11-16 中国科学院计算技术研究所 一种文本分类方法
CN109101537A (zh) * 2018-06-27 2018-12-28 北京慧闻科技发展有限公司 基于深度学习的多轮对话数据分类方法、装置和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JINGYU LUO 等: "Research on Civic Hotline Complaint Text Classification Model Based on word2vec", 《2018 INTERNATIONAL CONFERENCE ON CYBER-ENABLED DISTRIBUTED COMPUTING AND KNOWLEDGE DISCOVERY (CYBERC)》, pages 180 - 183 *
雷朔 等: "基于词向量特征扩展的中文短文本分类研究", 《计算机应用与软件》, vol. 35, no. 08, pages 269 - 274 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112672202A (zh) * 2020-12-28 2021-04-16 广州博冠信息科技有限公司 弹幕处理方法、设备和存储介质
CN112328799A (zh) * 2021-01-06 2021-02-05 腾讯科技(深圳)有限公司 问题分类方法和装置
CN112749280A (zh) * 2021-01-18 2021-05-04 杭州安恒信息技术股份有限公司 网络舆情的分类方法、装置、电子装置和存储介质
CN113536806A (zh) * 2021-07-18 2021-10-22 北京奇艺世纪科技有限公司 一种文本分类方法及装置
CN113536806B (zh) * 2021-07-18 2023-09-08 北京奇艺世纪科技有限公司 一种文本分类方法及装置

Also Published As

Publication number Publication date
CN111861596B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN111861596B (zh) 一种文本分类方法和装置
CN108628830B (zh) 一种语义识别的方法和装置
CN113918714A (zh) 一种分类模型训练方法、聚类方法及电子设备
CN107609192A (zh) 一种搜索引擎的补充搜索方法和装置
CN114579104A (zh) 数据分析场景的生成方法、装置、设备及存储介质
CN110874532A (zh) 提取反馈信息的关键词的方法和装置
CN112528641A (zh) 建立信息抽取模型的方法、装置、电子设备和可读存储介质
CN112926308A (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN112148841B (zh) 一种对象分类以及分类模型构建方法和装置
CN114171063A (zh) 一种实时话务客户情绪分析辅助方法及系统
CN111538817A (zh) 人机交互方法和装置
CN110807097A (zh) 分析数据的方法和装置
CN110852057A (zh) 一种计算文本相似度的方法和装置
CN112926298A (zh) 新闻内容识别方法、相关装置及计算机程序产品
CN114036921A (zh) 一种政策信息匹配方法和装置
CN112784050A (zh) 主题分类数据集生成方法、装置、设备和介质
US20230004715A1 (en) Method and apparatus for constructing object relationship network, and electronic device
US20230052623A1 (en) Word mining method and apparatus, electronic device and readable storage medium
CN110895655A (zh) 提取文本核心短语的方法和装置
CN115952258A (zh) 政务标签库的生成方法、政务文本的标签确定方法和装置
CN112860626B (zh) 一种文档排序方法、装置及电子设备
CN114647727A (zh) 应用于实体信息识别的模型训练方法、装置和设备
CN113254578A (zh) 用于数据聚类的方法、装置、设备、介质和产品
CN113850072A (zh) 文本情感分析方法、情感分析模型训练方法、装置、设备及介质
CN113743112A (zh) 关键词的提取方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right

Effective date of registration: 20210226

Address after: 101, 1st floor, building 2, yard 20, Suzhou street, Haidian District, Beijing 100080

Applicant after: Beijing Jingbangda Trading Co.,Ltd.

Address before: 100086 8th Floor, 76 Zhichun Road, Haidian District, Beijing

Applicant before: BEIJING JINGDONG SHANGKE INFORMATION TECHNOLOGY Co.,Ltd.

Applicant before: BEIJING JINGDONG CENTURY TRADING Co.,Ltd.

Effective date of registration: 20210226

Address after: 6 / F, 76 Zhichun Road, Haidian District, Beijing 100086

Applicant after: Beijing Jingdong Zhenshi Information Technology Co.,Ltd.

Address before: 101, 1st floor, building 2, yard 20, Suzhou street, Haidian District, Beijing 100080

Applicant before: Beijing Jingbangda Trading Co.,Ltd.

TA01 Transfer of patent application right
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant