CN111339290A - 一种文本分类方法和系统 - Google Patents

一种文本分类方法和系统 Download PDF

Info

Publication number
CN111339290A
CN111339290A CN201811458457.1A CN201811458457A CN111339290A CN 111339290 A CN111339290 A CN 111339290A CN 201811458457 A CN201811458457 A CN 201811458457A CN 111339290 A CN111339290 A CN 111339290A
Authority
CN
China
Prior art keywords
classification
text
classified
keywords
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811458457.1A
Other languages
English (en)
Inventor
缪莹莹
王志龙
时少辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201811458457.1A priority Critical patent/CN111339290A/zh
Publication of CN111339290A publication Critical patent/CN111339290A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/015Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
    • G06Q30/016After-sales

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本分类方法和系统,所述方法包括:获取待分类文本,提取待分类文本的至少一个关键词;根据提取的关键词对待分类文本进行关键词分类得到第一分类类别,并判断分类关键词对应的准确率和覆盖率是否均高于对应的设定阈值,是则输出第一分类类别,否则进入下一步;将所述待分类文本输入文本分类模型得到第二分类类别,并统计未在历史分类文本中出现过的字和/或者词在所述待分类文本中所占的比例,当所述比例小于比例设定阈值时,输出第二分类类别;否则对所述待分类文本进行人工分类以获得第三分类类别并输出。本发明的文本分类方法分类效率高、准确率高。

Description

一种文本分类方法和系统
技术领域
本发明涉及数据处理技术领域,具体的,本发明涉及一种文本分类方法和系统。
背景技术
随着服务业的快速发展,所产生的用户投诉数量也随之增多。用户的投诉内容以文本的形式记录,形成投诉文本。用户的投诉可能涉及到不同的方面,从而需要对投诉文本进行分类,以使得服务方有方向性地对服务进行改进,提升用户的满意度。
但是,目前处理文本分类主要采用人工分类的方式,采用人工对文本进行分类需要浪费大量的人力成本并且也需要耗损大量的时间,分类效率低。此外,主观性因素对人工分类影响较大,会造成分类不准确的情况。因此,需要一种可以对文本进行快速分类并且分类准确率高的文本分类方法。
发明内容
为了解决上述技术问题,本申请提供了一种文本分类方法和系统。该文本分类方法通过将关键词分类、文本分类模型以及人工分类相结合,优先使用关键词分类和文本分类模型,并利用人工分类的结果不断更新关键词分类数据库和文本分类模型,扩大关键词分类数据库和文本分类模型的适用范围。
第一方面,本发明披露了一种文本分类方法,包括:
获取待分类文本,提取待分类文本的至少一个关键词;
根据提取的关键词对待分类文本进行关键词分类得到第一分类类别,并判断分类关键词对应的准确率和覆盖率是否均高于对应的设定阈值,是则输出第一分类类别,否则进入下一步;
将所述待分类文本输入文本分类模型得到第二分类类别,并统计未在历史分类文本中出现过的字和/或者词在所述待分类文本中所占的比例,当所述比例小于比例设定阈值时,输出第二分类类别;
否则对所述待分类文本进行人工分类以获得第三分类类别并输出。
在一些实施例中,所述待分类文本为投诉文本。
在一些实施例中,所述文本分类模型包括LR模型和Xgboost模型中的至少一种。
在一些实施例中,根据提取的关键词对待分类文本进行关键词分类得到第一分类类别,包括:
获取关键词分类数据库,所述关键词分类数据库包括多个分类关键词、所述多个分类关键词分别对应的第一分类类别、准确率和覆盖率;
将提取的关键词与所述多个分类关键词进行相似度匹配,以获得与提取的关键词相匹配的分类关键词,并从所述关键词分类数据库中得到该分类关键词对应的第一分类类别、准确率和覆盖率。
在一些实施例中,统计未在历史分类文本中出现过的字和/或者词在所述待分类文本中所占的比例,包括:
获取历史投诉文本,人工分析标记,将标记后的历史投诉文本作为训练样本;
利用所述训练样本对所述文本分类模型进行训练;
将所述待分类文本输入所述文本分类模型,获得第二分类类别和所述待分类文本中每个字和/或者词的权重值;
其中,根据所述待分类文本中的字或词在所述训练样本中出现的频次确定该字和/或者词的权重值;未在历史分类文本中出现过的字和/或者词的权重值为0。
在一些实施例中,对所述待分类文本进行人工分类以获得第三分类类别,还包括:
将所述待分类文本的关键词和分类结果更新至关键词分类数据库中;
将人工分类后的所述待分类文本更新至所述训练样本中,利用更新后的所述训练样本对所述文本分类模型进行训练。
第二方面,本发明披露了一种文本分类系统,包括:
提取模块,用于获取待分类文本,提取待分类文本的至少一个关键词;
第一分类模块,用于根据提取的关键词对待分类文本进行关键词分类得到第一分类类别,并判断分类关键词对应的准确率和覆盖率是否均高于对应的设定阈值,是则输出第一分类类别;
第二分类模块,用于将所述待分类文本输入文本分类模型得到第二分类类别,并统计未在历史分类文本中出现过的字和/或者词在所述待分类文本中所占的比例,当所述比例小于比例设定阈值时,输出第二分类类别;
第三分类模块,用于当所述比例大于等于设定阈值时,对所述待分类文本进行人工分类以获得第三分类类别并输出。
在一些实施例中,所述待分类文本为投诉文本。
在一些实施例中,所述文本分类模型包括LR模型和Xgboost模型中的至少一种。
在一些实施例中,所述第一分类模块包括:
获取单元,用于获取关键词分类数据库,所述关键词分类数据库包括多个分类关键词、所述多个分类关键词分别对应的第一分类类别、准确率和覆盖率;
关键词匹配单元,用于将提取的关键词与所述多个分类关键词进行相似度匹配,以获得与提取的关键词相匹配的分类关键词,并从所述关键词分类数据库中得到该分类关键词对应的第一分类类别、准确率和覆盖率。
在一些实施例中,所述第二分类模块包括:
样本生成单元,用于获取历史投诉文本,人工分析标记,将标记后的历史投诉文本作为训练样本;
模型训练单元,用于利用所述训练样本对所述文本分类模型进行训练;
模型分类单元,用于将所述待分类文本输入所述文本分类模型,获得第二分类类别和所述待分类文本中每个字和/或者词的权重值;
其中,根据所述待分类文本中的字或词在所述训练样本中出现的频次确定该字和/或者词的权重值;未在历史分类文本中出现过的字和/或者词的权重值为0。
在一些实施例中,所述第三分类模块还用于:
将所述待分类文本的关键词和分类结果更新至所述关键词分类数据库中;
将人工分类后的所述待分类文本更新至所述训练样本中,利用更新后的所述训练样本对所述文本分类模型进行训练。
第三方面,本发明披露了一种文本分类装置,包括:
至少一个处理器;以及
存储器,所述存储器上存储有可执行指令,所述可执行指令由所述至少一个处理器执行,导致所述装置实现所述文本分类方法。
第四方面,本发明披露了一种计算机可读储存介质,包括可执行指令,所述指令被至少一个处理器执行时,实现所述文本分类方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为文本分类系统的一种示例系统配置示意图;
图2为用于实现本发明技术方案的专用系统的示例性计算设备的框图;
图3为用于实现本发明技术方案的专用系统的示例性移动设备的框图;
图4为其中一个实施例提供的一种文本分类方法的流程图;
图5为其中一个实施例提供的一种进行关键词分类的流程图;
图6为其中一个实施例提供的一种利用文本分类模型进行分类的流程图;
图7为其中一个实施例提供的一种文本分类系统的模块示意图;
图8为其中一个实施例提供的一种第一分类模块的示意图;
图9为其中一个实施例提供的一种第二分类模块的示意图。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。本发明的前述和其它目的、特征、方面和优点将变得更加明显,以令本领域技术人员参照说明书文字能够据以实施。
可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以应对于方法、函数、规程、子例程、子程序等等。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
图1所示的是文本分类系统的一种示例系统配置示意图。
示例性文本分类系统100可以包括文本分类装置110、网络120、用户终端130和存储模块140。在一些实施例中,所述文本分类装置110可以用于对获取的历史投诉文本和待分类文本进行分析处理生成分类结果。所述文本分类装置110可以是单个服务器,也可以是一个服务器群组。一个服务器群组可以是集中式的,例如数据中心。一个服务器群组也可以是分布式的,例如一个分布式系统。所述文本分类装置110可以是本地的,也可以是远程的。所述文本分类装置110可以用于对获取的历史投诉文本进行分析处理以生成不同的分类类别。在一些实施例中,文本分类装置110可以包括用于执行文本分类装置110的指令(程序代码)的控制处理器112。例如,控制处理器112能够执行文本分类程序的指令,进而通过一定的算法对待分类文本进行分析处理确定分类结果,并将所述分类结果传输给用户终端130。用户终端130是指发布服务请求的个人、工具或者其他实体。用户终端130包括但不限于手机130-1、平板电脑130-2、笔记本电脑130-3等中的一种或几种的组合。文本分类装置110可以访问存取或储存在存储模块140的历史投诉文本,也可以通过网络120将分类结果传输给用户终端130。
在一些实施例中,存储模块140可以泛指具有存储功能的设备。存储模块140主要用于存储从用户终端130发送的待分类文本和文本分类装置110工作中产生的各种数据。存储模块140可以是本地的,也可以是远程的。系统数据库与系统其他模块间的连接或通信可以是有线的,也可以是无线的。网络120可以提供信息交换的渠道。网络120可以是单一网络,也可以是多种网络的组合。网络120可以包括但不限于局域网、广域网、公用网络、专用网络、无线局域网、虚拟网络、都市城域网、公用开关电话网络等中的一种或几种的组合。网络120可以包括多种网络接入点,如有线或无线接入点、基站(如120-1,120-2)或网络交换点,通过以上接入点使数据源连接网络120并通过网络发送信息。
图2是用于实现本发明技术方案的专用系统的示例性计算设备200的框图。如图2所示,计算设备200可以包括处理器210、存储器220、输入/输出接口230和通信端口240。
处理器210可以执行计算指令(程序代码)并执行本发明描述的文本分类系统100的功能。所述计算指令可以包括程序、对象、组件、数据结构、过程、模块和功能(所述功能指本发明中描述的特定功能)。例如,处理器210可以处理从文本分类系统100的其他任何组件获得投诉文本信息。在一些实施例中,处理器210可以包括微控制器、微处理器、精简指令集计算机(RISC)、专用集成电路(ASIC)、应用特定指令集处理器(ASIP)、中央处理器(CPU)、图形处理单元(GPU)、物理处理单元(PPU)、微控制器单元、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、高级RISC机(ARM)、可编程逻辑器件以及能够执行一个或多个功能的任何电路和处理器等,或其任意组合。仅为了说明,图2中的计算设备200只描述了一个处理器,但需要注意的是本发明中的计算设备200还可以包括多个处理器。
存储器220可以存储从投诉文本系统100的任何其他组件获得的投诉文本/信息。在一些实施例中,存储器220可以包括大容量存储器、可移动存储器、易失性读取和写入存储器和只读存储器(ROM)等,或其任意组合。示例性大容量存储器可以包括磁盘、光盘和固态驱动器等。可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩盘和磁带等。易失性读取和写入存储器可以包括随机存取存储器(RAM)。RAM可以包括动态RAM(DRAM)、双倍速率同步动态RAM(DDR SDRAM)、静态RAM(SRAM)、晶闸管RAM(T-RAM)和零电容(Z-RAM)等。ROM可以包括掩模ROM(MROM)、可编程ROM(PROM)、可擦除可编程ROM(PEROM)、电可擦除可编程ROM(EEPROM)、光盘ROM(CD-ROM)和数字通用盘ROM等。
输入/输出接口230可以用于输入或输出信号、数据或信息。在一些实施例中,输入/输出接口230可以使用户终端与文本分类系统100进行联系。在一些实施例中,输入/输出接口230可以包括输入装置和输出装置。示例性输入装置可以包括键盘、鼠标、触摸屏等,或其任意组合。示例性输出设备可以包括显示设备、打印机、投影仪等,或其任意组合。示例性显示装置可以包括液晶显示器(LCD)、基于发光二极管(LED)的显示器、平板显示器、曲面显示器、电视设备、阴极射线管(CRT)等,或其任意组合。通信端口240可以连接到网络以便数据通信。所述连接可以是有线连接、无线连接或两者的组合。有线连接可以包括电缆、光缆或电话线等,或其任意组合。无线连接可以包括蓝牙、Wi-Fi、WiMax、WLAN、ZigBee、移动网络(例如,3G、4G或5G等)等,或其任意组合。在一些实施例中,通信端口240可以是标准化端口,如RS232、RS485等。在一些实施例中,通信端口240可以是专门设计的端口。例如,通信端口240可以根据数字成像和医学通信协议(DICOM)进行设计。
图3是用于实现本发明技术方案的专用系统的示例性移动设备300的框图。移动设备300可以包括智能手机、平板电脑、全球定位系统(GPS)接收器、笔记本电脑等。如图3所示,所述移动设备300可以包括通信平台310、显示器320、图形处理器(GPU)330、中央处理器(CPU)340、输入/输出接口350、内存360、存储器370等。在一些实施例中,操作系统361(如,iOS,Android,Windows Phone等)和应用程序362可以从存储器370加载到内存360中,以便由CPU 340执行。应用程序362可以包括浏览器或用于从文本分类系统100接收文字、医学图像处理或其他相关信息的应用程序。
为了实现在本发明中描述的各种模块、单元及其功能,计算设备或移动设备可以用作本发明所描述的一个或多个组件的硬件平台。这些计算机或移动设备的硬件元件、操作系统和编程语言本质上是常规的,并且本领域技术人员熟悉这些技术后可将这些技术适应于本发明所描述的文本分类系统。具有用户界面元件的计算机可以用于实现个人计算机(PC)或其他类型的工作站或终端设备,如果适当地编程,计算机也可以充当服务器。
参见图4,为其中一个实施例提供的一种文本分类方法的流程图。所述方法包括以下步骤:
步骤401:获取待分类文本,提取待分类文本中的至少一个关键词。
其中,所述待分类文本为投诉文本。在一些实施例中,可以通过TF/IDF算法、TopicModel算法、textrank算法或rake算法等关键词提取算法从所述待分类文本中提取关键词。例如,可以通过TF/IDF算法提取待分类文本“服务员态度差,不能及时解决顾客的需求,甚至对顾客提出的要求置之不理”的关键词为“态度差”。值得注意的是,所述关键词可以为一个字(如“打”)或者一个词(如“超速”),也可以为多个词组成的词组(如“态度恶劣”)。
步骤402:根据提取的关键词对待分类文本进行关键词分类得到第一分类类别,并判断分类关键词对应的准确率和覆盖率是否均高于对应的设定阈值,是则输出第一分类类别,否则执行步骤403;
具体的,根据提取的关键词对待分类文本进行关键词分类得到第一分类类别包括如图5所示的步骤,具体包括如下:
步骤501:获取关键词分类数据库,所述关键词分类数据库包括多个分类关键词、所述多个分类关键词分别对应的第一分类类别、准确率和覆盖率;
在一些实施例中,通过对大量的历史投诉文本进行分析处理可以构建所述关键词分类数据库。具体方法如下:获取大量的历史投诉文本(例如2000个),对所述历史投诉文本进行人工分析标记,获得多个第一分类类别。例如将所述历史投诉文本分为20个投诉类别(如打人,说脏话,骚扰等)。通过人工提取的方式或者TF/IDF算法、Topic Model算法、textrank算法、rake算法等关键词提取算法可以提取出每个历史投诉文本的关键词,将历史投诉文本的关键词作为关键词分类数据库中的分类关键词。统计包含其中一个分类关键词的历史投诉文本的数量、该分类关键词对应的第一分类类别所包括的历史投诉文本的数量以及包含所述分类关键词并属于所述第一分类类别的历史投诉文本的数量,通过将包含所述分类关键词并属于所述第一分类类别的历史投诉文本的数量除以包含所述分类关键词的历史投诉文本的数量可以获得所述关键词在对应的第一分类类别中的准确率,将包含所述分类关键词并且属于所述第一分类类别的历史投诉文本的数量除以该分类关键词对应的第一分类类别包括的历史投诉文本的数量可以获得所述分类关键词在对应的第一分类类别中的覆盖率。例如,在2000个历史投诉文本中,有1000个投诉文本中包括了关键词“打”,这1000个包含关键词“打”的历史投诉文本中,有990个历史投诉文本属于打人投诉类别,那么关键词“打”在“打人”投诉类别中的准确率为990/1000=99%。同时,在2000个历史投诉文本中,有1100个历史投诉文本属于打人投诉类别,那么,关键词“打”在打人投诉类别中的覆盖率为990/1100=90%。
在一些实施例中,每个第一分类类别可以对应多个词意相近的关键词(如态度差和态度恶劣),可以从词意相近的多个关键词中任选一个关键词作为分类关键词,即可以利用该分类关键词来代替其他几个词意相近的关键词,例如,态度差、态度不好、态度不行、态度恶劣均可以用“态度差”来表示。在计算所述分类关键词在对应的第一分类类别中的准确率和覆盖率时,需要包括词意相近的多个关键词所对应的历史投诉文本。多个关键词之间是否词意相近可以通过所述多个关键词之间的相似度来判断。在一些实施例中,可以通过基于word2vec的词语相似度算法或基于词典或分类体系计算词语相似度的算法获得多个关键词之间的相似度。当多个关键词之间的相似度大于预先设定的第一阈值(如90%)时,所述多个关键词的词意相近,即可以用其中任意一个关键词作为分类关键词。
在一些实施例中,每个历史投诉文本可以被划入多个第一分类类别,即一个分类关键词可以对应多个第一分类类别,分别计算所述分类关键词在对应的多个第一分类类别中的准确率,可以将最大的准确率对应的第一分类类别作为所述分类关键词最终对应的分类结果。在其他的一些实施例中,也可以将分类关键词对应的多个第一分类类别都作为该分类关键词对应的分类结果。
步骤502:将提取的关键词与所述关键词分类数据库中的分类关键词进行相似度匹配,以获得与提取的关键词相匹配的分类关键词,从所述关键词分类数据库中获得该分类关键词对应的第一分类类别、准确率和覆盖率。
具体的,可以通过TF/IDF算法、Topic Model算法、textrank算法、rake算法等关键词提取算法提取待分类文本中的关键词。所述关键词分类数据库中包括有多个分类关键词,将提取的关键词与所述多个分类关键词一一进行匹配,获得提取的关键词分别与所述多个分类关键词之间的相似度。在一些实施例中,可以通过基于word2vec的词语相似度算法或基于词典或分类体系计算词语相似度的算法来获得提取的关键词与分类关键词之间的相似度。例如,可以通过基于word2vec的词语相似度计算方法获得“态度差”和“态度恶劣”之间的相似度为98%。
在一些实施例中,当提取的关键词与所述关键词分类数据库中的多个分类关键词之间的相似度均小于预先设定的第一阈值(如90%)时,可以认为所述关键词分类数据库中的分类关键词与所述待分类文本中的关键词均不匹配,不能对待分类文本进行关键词分类,则继续执行步骤403。
在一些实施例中,当所述关键词分类数据库中具有与提取的关键词之间的相似度大于第一阈值的分类关键词时,该分类关键词即为与提取的关键词相匹配的分类关键词,值得注意的是,本文所述的相似包括相同的含义(即相似度为100%)。例如,关键词分类数据库中的分类关键词为态度恶劣,待分类文本的关键词为态度差,态度恶劣和态度差之间的相似度为98%,预先设定的第一阈值为90%,则可以认为与态度差相匹配的分类关键词为态度恶劣。
在一些实施例中,所述关键词分类数据库中存在有多个与提取的关键词之间的相似度大于第一阈值的分类关键词,可以将对应于最大相似度的分类关键词作为与提取的关键词相匹配的分类关键词。当关键词分类数据库中的分类关键词与提取的关键词相匹配时,从所述关键词分类数据库中获得该分类关键词对应的第一分类类别、准确率和覆盖率,并进一步判断所述准确率和覆盖率是否均高于对应的设定阈值。所述准确率和覆盖率反应了分类关键词与该分类关键词对应的第一分类类别之间的相关性。当所述准确率和覆盖率均高于对应的设定阈值时,则表明所述分类关键词与该分类关键词对应的第一分类类别之间的相关性高,可以将所述分类关键词对应的第一分类类别作为待分类文本的分类结果。例如,待分类文本的关键词为“打”,关键词“打”在关键词分类数据库中对应的投诉类别为“打人”,关键词“打”在“打人”投诉类别中的准确率为92%,覆盖率为95%,准确率对应的设定阈值为90%,覆盖率对应的设定阈值为90%,则可以将“打人”投诉类别作为待分类文本的分类结果。当所述准确率或覆盖率低于对应的设定阈值时,分类关键词与该分类关键词对应的第一分类类别之间的相关性低,则不能将第一分类类别作为待分类文本的分类结果,转至执行步骤403。例如,待分类文本的关键词为“打”,关键词“打”对应的投诉类别为“打人”,关键词“打”在“打人”投诉类别中的准确率为60%,覆盖率为60%,准确率对应的设定阈值为90%,覆盖率对应的设定阈值为90%,不能将“打人”投诉类别作为待分类文本的分类结果。
在一些实施例中,可以从所述待分类文本中提取到多个关键词,根据所述多个关键词进行分类可以获得多个第一分类类别,且多个分类关键词对应的准确率和覆盖率均大于对应的设定阈值,则可将所述多个第一分类类别作为待分类文本的分类结果,即所述待分类文本可以属于多个第一分类类别。
在一些实施例中,不断添加新的历史分类文本以更新所述关键词分类数据库,使得关键词分类数据库中分类关键词对应的准确率和覆盖率发生变化。随着关键词分类数据库的不断更新,关键词分类数据库中的部分分类关键词对应的准确率和覆盖率也逐渐增大,能够达到对应的设定阈值,使得关键词分类数据库适用的范围更广。
综上所述,关键词分类数据库中包括与待分类文本的关键词相匹配的分类关键词、所述分类关键词对应的准确率和覆盖率均高于对应的设定阈值时,可以将所述分类关键词对应的第一分类类别作为所述待分类文本的分类结果并输出,并结束分类过程,否则继续执行步骤403。
步骤403:将所述待分类文本输入文本分类模型得到第二分类类别,并统计未在历史分类文本中出现过的字和/或者词在所述待分类文本中所占的比例,当所述比例小于比例设定阈值时,输出第二分类类别。
其中,所述文本分类模型可以为LR模型、Xgboost模型或LR模型与Xgboost模型的复合模型。
进一步地,所述步骤403又包括如图6所示的步骤,具体包括如下:
步骤601:获取历史投诉文本,人工分析标记,将标记后的历史投诉文本作为训练样本。
具体的,通过对大量的历史投诉文本进行人工分析标记可以获得带标注的投诉文本,将所述带标注的历史投诉文本作为训练样本。在一些实施例中,所述标注可以为在历史投诉文本上标注的该历史投诉文本所属的投诉类别,例如:超速、闯红灯、态度恶劣等。
步骤602:利用所述训练样本对所述文本分类模型进行训练。
步骤603:将所述待分类文本输入所述文本分类模型,获得第二分类类别和所述待分类文本中每个字和/或者词的权重值。
具体的,将所述训练样本输入到LR模型或Xgboost模型或LR和Xgboost的复合模型中,所述LR模型或Xgboost模型或复合模型可以根据对应的投诉分类,对作为训练样本的历史投诉文本的每个字或词赋予特定的权重值(例如10)。例如,在利用训练样本对Xgboost模型进行训练的过程中,Xgboost模型可以给出训练样本中的字和/或者词的权重值,以表明每个字和/或者词对模型训练的重要性。
在一些实施例中,所述文本分类模型可以根据字和/或者词在训练样本中出现的次数来确定所述字或词的权重值,出现的次数越大的字或词的权重值越大,例如,“打人”在训练样本中出现的次数为500,“骚扰”在训练样本中出现的次数为50,“打人”的权重值为10,“骚扰”的权重值为2。在其中的一些实施例中,训练样本中未出现过的字或词对应的权重值可以按0计算。统计权重值为0的字和/或者词的数量在所述待分类文本中所占的比例即为统计未在历史分类文本中出现过的字和/或者词在所述待分类文本中所占的比例。当所述比例小于比例设定阈值时,输出第二分类类别。
具体的,在将待分类文本输入所述文本分类模型时,所述文本分类模型根据待分类文本中在训练样本中出现的字或词来确定所述待分类文本所属的分类类别,而待分类中未在训练样本中出现的字或词被忽略。权重值为0的字或词中可能存在决定待分类文本分类结果的关键词,权重值为0的字或词的数量越多,其中包括关键词的可能性越大且在分类过程中被忽略的字或词也越多,根据文本分类模型获得的分类结果是不准确的。因此,需要考虑权重值为0的字或词的数量在所述待分类文本中所占的比例。
在一些实施例中,当所述比例小于比例设定阈值时,由于在所述待分类文本中权重值为0的字或词的数量少,可能包括决定所述待分类文本结果的关键词的可能性小以及在分类过程中被忽略的字和/或者词少,因此,可以将利用所述文本分类模型获得的第二分类类别作为待分类文本的分类结果输出,并结束分类过程。
在一些实施例中,可以将利用所述文本分类模型获得的分类文本的分类结果以及所述分类文本的关键词添加至关键词数据库中,以使得关键词分类数据库中包括的分类关键词和第一分类类别更加丰富或者使对应分类关键词的准确率和覆盖率增大,从而增大关键词分类数据库的适用范围。
步骤404:当所述比例大于等于比例设定阈值时,对所述待分类文本进行人工分类以获得第三分类类别并输出。
具体的,当所述比例大于比例设定阈值时,权重值为0的字和/或者词中包括决定待分类文本分类结果的关键词的可能性大且在分类过程中被忽略的字和/或者词多,根据文本分类模型获得的第二分类类别是不准确的,因此,不能将所述第二分类类别作为分类结果输出。例如,在投诉文本“该服务员对人爱理不理,不能及时回答客户的问题,并且表情也很冷漠”中“爱理不理,表情,冷漠”都未在历史分类文本中出现过,在利用文本分类模型对所述投诉文本进行分类时,根据“不能及时回答客户问题”获得该投诉文本对应的第二分类类别为解决问题慢,而被忽略的词中包括了关键词“爱理不理、冷漠”,所述被忽略的关键词决定了该投诉文本的投诉类别,故不能将“解决问题慢”作为该投诉文本的分类结果。所述投诉文本中权重值为0的字和词的数量在待分类文本中所占的比例为28%,而比例设定阈值为15%,则根据所述比例和比例设定阈值判断也不能将所述文本分类模型输出的第二分类类别作为分类结果,由此可见,权重值为0的字和词的数量在待分类文本中所占的比例大于等于比例设定阈值时,不能将所述文本分类模型输出的第二分类类别作为分类结果。而当投诉文本中只有“表情”和“冷漠”未在历史文本中出现过,在利用文本分类模型对所述待分类文本进行分类时,文本分类模型通过关键词“爱理不理”可以得到所述投诉文本的投诉类别为态度差。在所述投诉文本中权重值为0的字和词的数量在待分类文本中所占的比例为13%,比例设定阈值15%,从比例和比例设定阈值判断可以将所述第二分类类别作为分类结果,因此,权重值为0的字和词的数量在待分类文本中所占的比例小于比例设定阈值时,则可以将所述文本分类模型输出的第二分类类别作为分类结果。
在无法利用文本分类模型对待分类文本进行分类时,可以将所述待分类文本进行人工分类,获得第三分类类别,并将所述第三分类类别作为分类结果输出。在其中的一些实施例中,在对所述待分类文本进行人工分类时,可以标注出待分类文本的关键词和所述待分类文本的分类类别。例如,在人工对投诉文本“该司机频繁超速,甚至超速通过红绿灯路段”进行人工分类标注时,可以圈出关键词“超速”,并在所述投诉文本上标注出投诉类别为“违规”或“超速”。
在一些实施例中,可以将人工分类后的待分类文本的关键词和分类结果添加到关键词分类数据库中以更新所述关键词分类数据库,使得所述关键词分类数据库中包括的分类关键词和对应的第一分类类别的覆盖范围更广。同时,也可以将人工标注分类获得的待分类文本添加至所述训练样本中,利用更新后的所述训练样本对文本分类模型重新进行训练,从而提高文本分类模型的适用范围。
在一些实施例中,先对待分类文本进行关键词分类,在无法进行关键词分类时,利用文本分类模型对待分类文本进行分类,并可以利用文本分类模型获得的分类结果更新关键词分类数据库,而当文本分类模型得到的第二分类类别不准确时,再选择人工分类,并利用人工分类结果分别更新关键词分类数据库和文本分类模型。在其他的一些实施例中,可以先采用文本分类模型对待分类文本进行分类,当文本分类模型得到的第二分类类别不准确时,进行关键词分类,并可以将关键词分类后的待分类文本作为训练样本对文本分类模型进行训练,在无法进行关键词分类时,再选用人工分类,并利用人工分类结果分别更新关键词分类数据库和文本分类模型。
如图7所示,为其中一个实施例提供的一种文本分类系统的模块示意图。该系统包括了提取模块710,第一分类模块720,第二分类模块730和第三分类模块740。其中,
提取模块,用于获取待分类文本,提取待分类文本的至少一个关键词;
获取模块,用于获取关键词分类数据库,所述关键词分类数据库包括关键词、所述关键词对应的第一分类类别以及所述关键词在对应的第一分类类别中的准确率和覆盖率;
第一分类模块,用于根据提取的关键词对待分类文本进行关键词分类得到第一分类类别,并判断分类关键词对应的准确率和覆盖率是否均高于对应的设定阈值,是则输出第一分类类别;
第二分类模块,用于将所述待分类文本输入文本分类模型得到第二分类类别,并统计未在历史分类文本中出现过的字和/或者词在所述待分类文本中所占的比例,当所述比例小于比例设定阈值时,输出第二分类类别;
第三分类模块,用于当所述比例大于等于比例设定阈值时,对所述待分类文本进行人工分类以获得第三分类类别并输出。
图7所述的各个模块的作用或工作原理可以进一步参见图4的相关说明。
如图8所示,为其中一个实施例提供的一种第一分类模块的示意图。所述第一分类模块包括了获取单元810和关键词匹配单元820。其中,
获取单元810,用于获取关键词分类数据库,所述关键词分类数据库包括多个分类关键词、所述多个分类关键词分别对应的第一分类类别、准确率和覆盖率;
关键词匹配单元820,用于将提取的关键词与所述多个分类关键词进行相似度匹配,以获得与提取的关键词相匹配的分类关键词,并从所述关键词分类数据库中获得该分类关键词对应的第一分类类别、准确率和覆盖率。
图8所述的各个模块的作用或工作原理可以进一步参见图5的相关说明。
如图9所示,为其中一个实施例提供的一种第二分类模块的示意图。所述第一分类模块包括了样本生成单元910,模型训练单元920和模型分类单元930。其中,
样本生成单元910,用于获取历史投诉文本,根据所述历史投诉文本生成带标注的训练样本;
模型训练单元920,用于利用所述训练样本对所述文本分类模型进行训练;
模型分类单元930,用于将所述待分类文本输入所述文本分类模型,获得第二分类类别和所述待分类文本中每个字或词的权重值;
其中,根据所述待分类文本中的字或词在所述训练样本中出现的频率确定该字或词的权重值;未在历史分类文本中出现过的字和/或者词的权重值为0。
图9所述的各个单元的作用或工作原理可以进一步参见图6的相关说明.
值得注意的是,上文所描述的各个模块和单元并不是必须的,对于本领域的专业人员来说,在了解本申请内容和原理后,都可能在不背离本技术原理、结构的情况下,对该系统进行形式和细节上的各种修正和改变,各个模块可以任意组合,或者构成子系统与其它模块连接,而这些修正和改变仍在本申请的权利要求保护范围之内。
本发明还公开了一种文本装置,所述装置包括:
至少一个处理器;以及
存储器,所述存储器上存储有可执行指令,所述可执行指令由所述至少一个处理器执行,导致所述装置实现上述文本分类方法。
本发明还公开了一种计算机可读储存介质,包括可执行指令,所述指令被至少一个处理器执行时,实现上述文本分类方法。
对于装置以及存储介质的实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
通过采用以上的一个或者多个实施例的组合,本发明的实施例至少具备以下的有益效果:本发明将关键词分类、文本分类模型以及人工分类相结合来对投诉文本进行分类,优先选用关键词分类和文本分类模型,并判断进行关键词分类和文本分类模型得到的分类结果是否准确,在分类结果均不准确的情况下再采用人工分类,提高了文本分类的准确率;在对文本分类的过程中,不断利用新的历史分类文本或人工分类后的文本更新关键词分类数据库和文本分类模型,并且根据关键词分类得到的分类结果可以更新文本分类模型,根据文本分类模型获得的分类结果也可以更新关键词分类数据库,使得关键词分类和文本分类模型的适用范围逐渐增大,人工分类的机率逐渐减小,文本分类的效率不断提高。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节。

Claims (14)

1.一种文本分类方法,其特征在于,所述方法包括:
获取待分类文本,提取待分类文本的至少一个关键词;
根据提取的关键词对待分类文本进行关键词分类得到第一分类类别,并判断分类关键词对应的准确率和覆盖率是否均高于对应的设定阈值,是则输出第一分类类别,否则进入下一步;
将所述待分类文本输入文本分类模型得到第二分类类别,并统计未在历史分类文本中出现过的字和/或者词在所述待分类文本中所占的比例,当所述比例小于比例设定阈值时,输出第二分类类别;
否则对所述待分类文本进行人工分类以获得第三分类类别并输出。
2.如权利要求1所述的方法,其特征在于,所述待分类文本为投诉文本。
3.如权利要求1所述的方法,其特征在于,所述文本分类模型包括LR模型和Xgboost模型中的至少一种。
4.如权利要求2所述的方法,其特征在于,根据提取的关键词对待分类文本进行关键词分类得到第一分类类别,包括:
获取关键词分类数据库,所述关键词分类数据库包括多个分类关键词、所述多个分类关键词分别对应的第一分类类别、准确率和覆盖率;
将提取的关键词与所述多个分类关键词进行相似度匹配,以获得与提取的关键词相匹配的分类关键词,并从所述关键词分类数据库中得到该分类关键词对应的第一分类类别、准确率和覆盖率。
5.如权利要求4所述的方法,其特征在于,统计未在历史分类文本中出现过的字和/或者词在所述待分类文本中所占的比例,包括:
获取历史投诉文本,人工分析标记,将标记后的历史投诉文本作为训练样本;
利用所述训练样本对所述文本分类模型进行训练;
将所述待分类文本输入所述文本分类模型,获得第二分类类别和所述待分类文本中每个字和/或者词的权重值;
其中,根据所述待分类文本中的字或词在所述训练样本中出现的频次确定该字和/或者词的权重值;未在历史分类文本中出现过的字和/或者词的权重值为0。
6.如权利要求5所述的方法,其特征在于,对所述待分类文本进行人工分类以获得第三分类类别,还包括:
将所述待分类文本的关键词和分类结果更新至关键词分类数据库中;
将人工分类后的所述待分类文本更新至所述训练样本中,利用更新后的所述训练样本对所述文本分类模型进行训练。
7.一种文本分类系统,其特征在于,包括:
提取模块,用于获取待分类文本,提取待分类文本的至少一个关键词;
第一分类模块,用于根据提取的关键词对待分类文本进行关键词分类得到第一分类类别,并判断分类关键词对应的准确率和覆盖率是否均高于对应的设定阈值,是则输出第一分类类别;
第二分类模块,用于将所述待分类文本输入文本分类模型得到第二分类类别,并统计未在历史分类文本中出现过的字和/或者词在所述待分类文本中所占的比例,当所述比例小于比例设定阈值时,输出第二分类类别;
第三分类模块,用于当所述比例大于等于比例设定阈值时,对所述待分类文本进行人工分类以获得第三分类类别并输出。
8.如权利要求7所述的系统,其特征在于,所述待分类文本为投诉文本。
9.如权利要求7所述的系统,其特征在于,所述文本分类模型包括LR模型和Xgboost模型中的至少一种。
10.如权利要求8所述的系统,其特征在于,所述第一分类模块包括:
获取单元,用于获取关键词分类数据库,所述关键词分类数据库包括多个分类关键词、所述多个分类关键词分别对应的第一分类类别、准确率和覆盖率;
关键词匹配单元,用于将提取的关键词与所述多个分类关键词进行相似度匹配,以获得与提取的关键词相匹配的分类关键词,并从所述关键词分类数据库中得到该分类关键词对应的第一分类类别、准确率和覆盖率。
11.如权利要求10所述的系统,其特征在于,第二分类模块包括:
样本生成单元,用于获取历史投诉文本,人工分析标记,将标记后的历史投诉文本作为训练样本;
模型训练单元,用于利用所述训练样本对所述文本分类模型进行训练;
模型分类单元,用于将所述待分类文本输入所述文本分类模型,获得第二分类类别和所述待分类文本中每个字和/或者词的权重值;
其中,根据所述待分类文本中的字或词在所述训练样本中出现的频次确定该字和/或者词的权重值;未在历史分类文本中出现过的字和/或者词的权重值为0。
12.如权利要求11所述的系统,其特征在于,所述第三分类模块还用于:
将所述待分类文本的关键词和分类结果更新至所述关键词分类数据库中;
将人工分类后的所述待分类文本更新至所述训练样本中,利用更新后的所述训练样本对所述文本分类模型进行训练。
13.一种文本分类装置,所述装置包括:
至少一个处理器;以及
存储器,其特征在于,所述存储器上存储有可执行指令,所述可执行指令由所述至少一个处理器执行,导致所述装置实现如权利要求1-6任一所述的文本分类方法。
14.一种计算机可读储存介质,包括可执行指令,其特征在于,所述指令被至少一个处理器执行时,实现如权利要求1-6任一所述的文本分类方法。
CN201811458457.1A 2018-11-30 2018-11-30 一种文本分类方法和系统 Pending CN111339290A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811458457.1A CN111339290A (zh) 2018-11-30 2018-11-30 一种文本分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811458457.1A CN111339290A (zh) 2018-11-30 2018-11-30 一种文本分类方法和系统

Publications (1)

Publication Number Publication Date
CN111339290A true CN111339290A (zh) 2020-06-26

Family

ID=71181308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811458457.1A Pending CN111339290A (zh) 2018-11-30 2018-11-30 一种文本分类方法和系统

Country Status (1)

Country Link
CN (1) CN111339290A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010669A (zh) * 2020-12-24 2021-06-22 华戎信息产业有限公司 一种新闻分类方法和系统
CN113254655A (zh) * 2021-07-05 2021-08-13 北京邮电大学 文本分类方法、电子设备及计算机存储介质
CN116701616A (zh) * 2022-12-07 2023-09-05 荣耀终端有限公司 文本分类方法和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100169243A1 (en) * 2008-12-27 2010-07-01 Kibboko, Inc. Method and system for hybrid text classification
CN105468713A (zh) * 2015-11-19 2016-04-06 西安交通大学 一种多模型融合的短文本分类方法
CN106897262A (zh) * 2016-12-09 2017-06-27 阿里巴巴集团控股有限公司 一种文本分类方法和装置以及处理方法和装置
CN107766371A (zh) * 2016-08-19 2018-03-06 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN107818153A (zh) * 2017-10-27 2018-03-20 中航信移动科技有限公司 数据分类方法和装置
CN107844559A (zh) * 2017-10-31 2018-03-27 国信优易数据有限公司 一种文件分类方法、装置及电子设备
CN108021605A (zh) * 2017-10-30 2018-05-11 北京奇艺世纪科技有限公司 一种关键词分类方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100169243A1 (en) * 2008-12-27 2010-07-01 Kibboko, Inc. Method and system for hybrid text classification
CN105468713A (zh) * 2015-11-19 2016-04-06 西安交通大学 一种多模型融合的短文本分类方法
CN107766371A (zh) * 2016-08-19 2018-03-06 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN106897262A (zh) * 2016-12-09 2017-06-27 阿里巴巴集团控股有限公司 一种文本分类方法和装置以及处理方法和装置
CN107818153A (zh) * 2017-10-27 2018-03-20 中航信移动科技有限公司 数据分类方法和装置
CN108021605A (zh) * 2017-10-30 2018-05-11 北京奇艺世纪科技有限公司 一种关键词分类方法和装置
CN107844559A (zh) * 2017-10-31 2018-03-27 国信优易数据有限公司 一种文件分类方法、装置及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010669A (zh) * 2020-12-24 2021-06-22 华戎信息产业有限公司 一种新闻分类方法和系统
CN113010669B (zh) * 2020-12-24 2022-06-21 华戎信息产业有限公司 一种新闻分类方法和系统
CN113254655A (zh) * 2021-07-05 2021-08-13 北京邮电大学 文本分类方法、电子设备及计算机存储介质
CN116701616A (zh) * 2022-12-07 2023-09-05 荣耀终端有限公司 文本分类方法和电子设备

Similar Documents

Publication Publication Date Title
US20220129731A1 (en) Method and apparatus for training image recognition model, and method and apparatus for recognizing image
CN106650780B (zh) 数据处理方法及装置、分类器训练方法及系统
CN107992596A (zh) 一种文本聚类方法、装置、服务器和存储介质
WO2022160449A1 (zh) 文本分类方法、装置、电子设备及存储介质
CN110825956A (zh) 一种信息流推荐方法、装置、计算机设备及存储介质
CN106095842B (zh) 在线课程搜索方法和装置
US10147020B1 (en) System and method for computational disambiguation and prediction of dynamic hierarchical data structures
WO2021139316A1 (zh) 建立表情识别模型方法、装置、计算机设备及存储介质
CN111339290A (zh) 一种文本分类方法和系统
CN113626607B (zh) 异常工单识别方法、装置、电子设备及可读存储介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN111309910A (zh) 文本信息挖掘方法及装置
US20230004819A1 (en) Method and apparatus for training semantic retrieval network, electronic device and storage medium
CN115002200A (zh) 基于用户画像的消息推送方法、装置、设备及存储介质
CN114387061A (zh) 产品推送方法、装置、电子设备及可读存储介质
US20180307725A1 (en) Non-transitory computer-readable storage medium, information output method, and information processing apparatus
WO2021174814A1 (zh) 众包任务的答案验证方法、装置、计算机设备及存储介质
CN110377706B (zh) 基于深度学习的搜索语句挖掘方法及设备
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
WO2023178979A1 (zh) 问题标注方法、装置、电子设备及存储介质
CN114090601B (zh) 一种数据筛选方法、装置、设备以及存储介质
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
CN112328752B (zh) 基于搜索内容的课程推荐方法、装置、计算机设备及介质
CN114817478A (zh) 基于文本的问答方法、装置、计算机设备及存储介质
CN111859985B (zh) Ai客服模型测试方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200626