CN105095223B - 文本分类方法及服务器 - Google Patents
文本分类方法及服务器 Download PDFInfo
- Publication number
- CN105095223B CN105095223B CN201410171389.6A CN201410171389A CN105095223B CN 105095223 B CN105095223 B CN 105095223B CN 201410171389 A CN201410171389 A CN 201410171389A CN 105095223 B CN105095223 B CN 105095223B
- Authority
- CN
- China
- Prior art keywords
- text
- content
- sorted
- feature word
- collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种文本分类方法,首先对于获取到的待分类文本进行预处理。从而提取出其中的文本特征词,再根据文本特征词,采用通常的快速分类组件对所述待分类文本进行初步分类,以获取候选类别;之后,根据所述文本特征词,进行筛选,筛选出包括与所述文本特征词相似的文本内容对应的文本内容的集合,并在集合中,除去所述候选类别之外的类别对应的文本内容,最后根据所述文本特征词与最终的集合中的每条样本文本内容的相似度,确定所述待分类文本的目标类别。通过上述的方案,能够大量采用减少KNN算法对文本进行分类时所需要遍历的文本条目,降低计算复杂度和计算量,提高文本文类的效率。
Description
技术领域
本申请涉及互联网数据处理领域,具体涉及一种文本分类方法及服务器。
背景技术
文本分类是文本挖掘的一个重要内容,是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。通过自动文本分类系统把文档进行归类,可以帮助人们更好地寻找需要的信息和知识。在人们看来,分类是对信息的一种最基本的认知形式。传统的文献分类研究有着丰富的研究成果和相当的实用水平。但随着文本信息的快速增长,特别是互联网(Internet)上在线文本信息的激增,文本自动分类已经成为处理和组织大量文档数据的关键技术。现在,文本分类正在各个领域得到广泛的应用。例如,在互联网平台中,服务器可以根据用户通过客户端接收到的一句询问语言,对询问语言对应的文本信息进行分类,确定该文本信息对应的分类之后,依据相应的分类自动对用户的询问语言进行解答,推送相关的信息。
现有技术中对文本进行分类的方法中,K最近邻节点算法(kNN,k-NearestNeighbor),是准确度最高的一种方法,该种方法中,根据训练数据集合与待分类文本数据距离最近(最相似)的K个数据的类别来判断待分类文本所属的类别,其基本过程包括:计算待分类文本与训练集中每个样本的距离;从训练集中筛选出于待分类文本距离最接近的K个样本;计算K个样本归属类别的权重,将权重最高的类别作为待分类样本类别。该种方法具有较高的准确度,但是,随着信息量日趋丰富,人们对于内容搜索的准确率,查全率等方面的要求会越来越高,训练集中包含的样本数目也非常巨大,通过遍历的方式与训练集中的每个样本进行相似度计算,需要消耗服务器大量的性能,并且计算速度较慢。从而导致服务器有效资源被大量占用,计算时间过长导致向用户解答或者推送相关信息需要耗费大量时间。
为此,在不影响分类准确度的情况下,提高服务器对文本进行分类的速度,是本申请需要解决的问题。
发明内容
本申请的目的是提供一种文本分类方法,以实现在不影响分类准确度的情况下,提高服务器对文本进行分类的效率。
一方面,本申请实施例提供了一种文本分类方法,所述方法包括:
对获取到的待分类文本进行预处理,以获取所述待分类文本的至少一个文本特征词;
根据所述文本特征词,对所述待分类文本进行类别划分,以获取所述待分类文本的一定个数候选类别;
根据所述文本特征词在预存储的倒排索引表中,确定第一文本内容标识集合,所述第一文本内容标识集合中包括多个与所述文本特征词相似的文本内容对应的文本内容标识,所述倒排索引表是根据最邻近结点算法预设置的训练数据集合构建的,其包含特征属性索引项和与每个特征属性对应的至少一个文本内容标识;
根据所述第一文本内容标识集合,在所述预设置的训练数据集合中确定第一文本内容集合,所述训练数据集合中包括样本文本内容标识、样本文本内容以及每条所述样本文本内容对应的所属类别;
在所述第一文本内容集合中,根据所述一定个数候选类别,选择N个候选类别对应的文本内容,来确定第二文本内容集合;
根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度,确定所述待分类文本的目标类别。
另一方面,本申请实施例提供了一种服务器,所述服务器包括:
预处理单元,用于对获取到的待分类文本进行预处理,以获取所述待分类文本的至少一个文本特征词;
获取单元,用于根据所述文本特征词,对所述待分类文本进行类别划分,以获取所述待分类文本的一定个数候选类别;
第一确定单元,用于根据所述文本特征词在预存储的倒排索引表中,确定第一文本内容标识集合,所述第一文本内容标识集合中包括多个与所述文本特征词相似的文本内容对应的文本内容标识,所述倒排索引表是根据最邻近结点算法预设置的训练数据集合构建的,其包含特征属性索引项和与每个特征属性对应的至少一个文本内容标识;
第二确定单元,用于根据所述第一文本内容标识集合,在所述预设置的训练数据集合中确定第一文本内容集合,所述训练数据集合中包括样本文本内容标识、样本文本内容以及每条所述样本文本内容对应的所属类别;
第三确定单元,用于在所述第一文本内容集合中,根据所述一定个数候选类别,选择N个候选类别对应的文本内容,来确定第二文本内容集合;
第四确定单元,用于根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度,确定所述待分类文本的目标类别。
本申请实施例提供的文本分类方法中,首先对于获取到的待分类文本进行预处理。从而提取出其中的文本特征词,再根据文本特征词,采用通常的快速分类组件对所述待分类文本进行初步分类,以获取候选类别;之后,根据所述文本特征词,进行筛选,筛选出包括与所述文本特征词相似的文本内容对应的文本内容的集合,并在集合中,除去所述候选类别之外的类别对应的文本内容,最后根据所述文本特征词与最终的集合中的每条样本文本内容的相似度,确定所述待分类文本的目标类别。通过上述的方案,能够大量采用减少KNN算法对文本进行分类时所需要遍历的文本条目,降低计算复杂度和计算量,提高文本文类的效率。进一步,导致服务器有效资源被少量占用,计算迅速,从而向用户解答或者推送相关信息耗费少量时间。
附图说明
图1为本申请实施例提供的应用场景的示例性的架构图;
图2为本申请实施例提供的文本分类方法的一种实施例的流程图;
图3是本申请实施例提供的文本分类方法的另一种实施例的流程图;
图4是本申请实施例提供的文本分类方法的又一种实施例的流程图;
图5是本申请实施例提供的文本分类方法的又一种实施例的流程图;
图6是本申请实施例提供的服务器的一种实施例的结构图。
具体实施方式
为了使本领域技术人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,尽管在本申请实施例中可能采用术语第一、第二等来描述各种数据,但这些数据不应限于这些术语。这些术语仅用来将数据彼此区分开。
在互联网领域中,经常需要面对用户咨询、投诉、建议等情况。当互联网具有相当大的用户群体时,需要处理的类似问题会非常大。对于此类问题,如果都由人工进行处理,将消耗极大的人力,并且受限于此,也不能及时对于类似的问题进行处理。为此,在互联网领域中,通常会建立文本内容的训练集合,其中,通常包括文本内容项和归属类别项。在获取到用户发出的问题之后,通过匹配算法,在训练集合中与大量的样本文本内容逐条匹配,查询最匹配的样本,在查找到最匹配的样本之后,选在该样本的所属类目,并根据所属类目,对用户提出的问题进行处理,从而节约人工。
例如,图1所示的应用架构中,用户10和20分别可以通过计算机上的客户端登陆互联网平台的服务器30,对互联网平台进行投诉或者建议。例如有,在淘宝、支付宝等平台,通常会收到用户的询问信息,例如“付款不成功,怎么办?”、“我的密码丢失了该怎么办?”等类似的问题,这些文本可能来自于用户通过阿里旺旺等终端软件的投诉,也可能是来自于用户通过网页进行的咨询等。电子商务平台,不可能对于每个问题,都进行人工处理。但是用户提出的问题,往往具有相似性,为此,服务器可以建立训练数据集合,如下表所示的示例中,训练数据集合通常包括数据编号、文本内容以及所属类别三个项目,受限于篇幅,下表1只列出了较少的例子,实际上在一个训练集合中,可能包含上万条内容。
数据编号 | 文本内容 | 所属类别 |
1 | 支付宝密码忘记 | 密码忘记 |
2 | 支付宝钱不见了 | 风险报案 |
3 | 支付宝密码输入三次错误 | 密码忘记 |
4 | 我的账户被盗了 | 风险报案 |
5 | 怎么支付不了 | 付款专题 |
6 | 支付失败 | 付款专题 |
7 | 支付宝与银行的手机号码不一致 | 快捷支付手机 |
8 | 为什么说支付宝预留不一样 | 快捷支付手机 |
表1
例如,当服务器通过客户端接收到用户发送的“我怎么不能进行支付?”这样的文本内容时,通过算法将其与训练集合中的文本进行匹配查询,经过匹配确定数据编号为5的文本内容与用户的询问内容最接近,因此确定用户的问题所属类别为“付款专题”。服务器确定了“所属类别”后,可以根据现有的设定,调用与“付款专题”相关的内容,发送给用户。例如,将支付宝付款专题的页面地址,推送给用户的客户端,从而避免人工参与。
但是随着数据量增大,训练集合中的内容条目数也相应增大,当样本条目达到上万条之后,通过待分类文本与每条样本文本内容的相似度进行匹配,逐条查询的方式,显然需要耗费较长的时间。为了降低匹配查询所消耗的时间,现有技术中,可以选择对训练集合进行裁剪,剔除训练集中的一定数量的样本文本内容,从而降低文本分类所需的时间,但是其缺陷是,在训练集合的裁剪过程中,可能将与待分类文本最接近的样本裁剪掉,从而使得最终的分类结果出现差错,降低文本分类的准确性。进一步地,这种问题可能导致使得服务器有效资源被少量占用,计算迅速,从而向用户解答或者推送相关信息耗费少量时间。
为此,本申请实施例提供了一种文本分类方法,该实施例可以应用于互联网领域中,包括但不限定于支付宝、淘宝等商务平台,还可以应用于互联网搜索平台。图2是本实施例提供的文本分类方法的流程图,由图2可见,本实施例包括:
201,对获取到的待分类文本进行预处理,以获取所述待分类文本的至少一个文本特征词;
在该步骤中,获取到的待分类文本包括但不限定于服务器通过论坛、投诉平台、客户端等方式获取到的文本信息,例如、投诉、建议、询问等消息。
例如,支付宝平台服务器中,通过服务客户端,接收到用户A发送的询问信息“我和我朋友的支付宝支付都不成功,该怎么办呢?”。服务器在获取到类似的文本信息之后,需要对其进行分类,从而自动为其提供解决方案。
由上述的例子,可以看出待分类的文本信息中,包含了大量的无用信息,例如语气词等。这些无用信息会增加文本分类的工作量。
为了降低文本分类的难度,在步骤201中,需要预处理待分类文本,提取出其中的文本特征词,
在优选的实施例中,预处理待分类文本的方法包括但不限定于,对所述文本信息进行分词、过滤词以及同义词合并处理,从而能够在待分类的文本中提取出几个最重要的特征词。
其中,分词是指将文本信息分成若干个词组;过滤词是指将文本信息中的部分无用词语过滤;同义词合并处理,则是将文本信息中的一个或两个含义相同的词组合并处理,或者将其与同义词库中的词组进行替换。
例如,上述的例子中,需要过滤掉的无用词语包括“我和我朋友”、“的”、“该”、“都”、“怎么办”、“呢”,过滤之后剩余的词组为“支付宝”“支付不成功”,之后、通过如下表2所示的同义词库,进行同义词合并处理。
支付不成功 | 支付不了/支付失败 |
钱不见了 | 钱丢了 |
不一致 | 不一样 |
表2
通过该步骤,最终可以提取出至少一个文本特征词,例如上述实施例中,提取出的最终文本特征词为“支付宝”“支付不了”或者“支付失败”。
需要注意的是,上述的实施例仅仅是为了便于理解,事实上,服务器获取待分类的文本信息可能比所举的例子复杂很多,最终提取出的文本特征词也远多于两个,不应理解为对本申请实施例的限制。
但是,可以理解的是,上述的举例虽然简单,但是在通过KNN算法进行分类时,仍然需要对训练集合中的全部样本进行遍历查询,这显然需要消耗较大的计算量。
202,根据所述文本特征词,对所述待分类文本进行类别划分,以获取所述待分类文本的一定个数候选类别;
在该步骤中,在服务器提取出待分类文本中的特征词之后,可以通过调用快速查找分类器的方式为文本特征词所述类别做一个概率预测,例如通过现有的支持向量机的分类算法SVM进行初步分类,获取到一定个数个候选类别。
需要指出的是,SVM算法仅仅是作为一种快速分类算法的举例,不应该理解为对本申请的限制。在实际应用中,服务器可以根据实际需求,调用不同的分类组件或者分类器进行初步快速分类,不多赘述。
例如,对于上述的距离,可以通过初步分类得出若干个可能归属的类别,分别是“快捷支付手机”、“付款专题”、“密码忘记”、“风险报案”,可以根据概率排序,在其中选定前两个(数目可以根据实际需要进行选择)作为候选类别。
上述的举例,只是举例只用,便于理解,不应理解为对本申请实施例的限制,在实际应用中,所述获取的候选类别数目可能为3个、4个或者5个。
203,根据所述文本特征词在预存储的倒排索引表中,确定第一文本内容标识集合,所述第一文本内容标识集合中包括多个与所述文本特征词相似的文本内容对应的文本内容标识,所述倒排索引表是根据最邻近结点算法预设置的训练数据集合构建的,其包含特征属性索引项和与每个特征属性对应的至少一个文本内容标识;
在步骤201和202中,服务器获取到待分类文本的文本特征词和一定个数的候选类别,两者可以作为获得目标类别的分类方法中的中间分类参数。
在步骤203中的预存储的倒排索引表,是根据训练样本集合建立的倒排索引,倒排索引源于实际应用中需要根据属性的值来查找记录的方法。该种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址,由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称之为倒排索引。
对应于表1所举的例子,服务器存储的倒排索引表可以如表3所示:
表3
在该实施例中,所述倒排索引根据K最邻近结点算法的训练数据集合构建,包含特征属性索引项和与每个特征属性对应的至少一个文本内容标识;对应于表1和表3所示的例子,特征属性索引项对应于特征词中的一个词或者两个词,文本内容标识对应于表1中包含特征词的数据编号。
在步骤203中,服务器根据所述文本特征词在预存储的倒排索引中,确定的所述文本内容标识集合中,包括多条与所述文本特征词相似的文本内容对应的文本内容标识(也就是表1中的数据编号)。
例如,对于前述的实施例,服务器对于“支付失败”这个文本特征词,确定的数据文档编号为5、6。而对于“支付宝”这个文本特征词,所确定的数据文档编号为1、2、3、7、8因此,确定的第一文本内容标识集合即为文档编号为1、2、3、5、6、7、8集合。
204,根据所述第一文本内容标识集合,在所述预设置的训练数据集合中确定第一文本内容集合,所述训练数据集合中包括样本文本内容标识、样本文本内容以及每条所述样本文本内容对应的所属类别;
在该步骤中,将步骤203中确定出的第一文本内容标识集合,与训练数据集合中的文本内容进行映射,建立起包括样本文本内容标识、样本文本内容以及每条所述样本文本内容对应的所属类别的文本内容集合。
对应于表1、3所示的实施例,第一文本内容集合包括的样本文本内容标识也就是数据编号,也包含与预设置的训练数据集合同样结构的样本文本内容标识、样本文本内容以及每条所述样本文本内容对应的所属类别。建立后的第一文本内容集合可以如表4所示:
数据编号 | 文本内容 | 所属类别 |
1 | 支付宝密码忘记 | 密码忘记 |
2 | 支付宝钱不见了 | 风险报案 |
3 | 支付宝密码输入三次错误 | 密码忘记 |
5 | 怎么支付不了 | 付款专题 |
6 | 支付失败 | 付款专题 |
7 | 支付宝与银行的手机号码不一致 | 快捷支付手机 |
8 | 为什么说支付宝预留不一样 | 快捷支付手机 |
表4
205,在所述第一文本内容集合中,根据所述一定个数候选类别,选择N个候选类别对应的文本内容,来确定第二文本内容集合;
在步骤205中,服务器在确定出第一文本内容集合之后,根据另一输入参数,也就是步骤202中确定出的一定个数个候选类别,对第一文本内容集合中的文本内容进行筛选,确定N个候选类别对应的文本内容,作为第二文本内容集合。
第二文本内容集合的数据结构与第一文本内容集合和预设置的训练数据集合相同,包含有包括样本文本内容标识、样本文本内容以及每条所述样本文本内容对应的所属类别。
例如,步骤202中,确定的候选类别为“快捷支付手机”、“付款专题”;因此服务器将表4中的数据编号为1、2、3对应的项目删除,获得最终用于进行KNN计算的文本集合,也就是第二文本集合。如表5所示:
数据编号 | 文本内容 | 所属类别 |
5 | 怎么支付不了 | 付款专题 |
6 | 支付失败 | 付款专题 |
7 | 支付宝与银行的手机号码不一致 | 快捷支付手机 |
8 | 为什么说支付宝预留不一样 | 快捷支付手机 |
表5
需要指出的是,前述的实施例仅仅是为了便于理解,作为举例只用,而非作为对本申请的限制。
206,根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度,确定所述待分类文本的目标类别。
在该步骤中,服务器利用KNN算法将步骤201中确定的文本特征词和步骤205中确定的第二文本集合,进行遍历相似度计算,从而确定待分类文本最终的所属类别,即为目标类别。
下面的公式是一种通用的两个文本的相似度计算方式,该方法中采用余弦相似度计算方式。
其中,W1i和W2i是表示文本d1和文本d2的文本向量中相应特征项的权重,两向量的夹角越小,求出的余弦值越大,则两个向量所代表的文本就越可能同属于同一个类别,反之,余弦值越小,则两个文本属于同一个类的可能性就越小。
例如,对于前述的实施例,通过步骤206可以确定最终的所属类别为“付款专题”。服务器在获取到待分类文本的最终所属类别之后,可以执行相应的动作,例如,将该类别对应的页面网址推送给用户的客户端,不多赘述。
需要指出的是,虽然在图2所示的实施例中步骤202排在步骤203之前,实际上并没有严格的时序关系,服务器可以选择先通过初步分类,获取候选类别,再进行倒排查询,确定第一文本内容集合。也可以将步骤202和203调换,也就是先进行倒排查询,再进行初步分类,获取候选类别。或者,服务器可以通过两个并行的进程,同时执行步骤202和203,不多赘述。
通过上述的实施例,可以看出,服务器可以通过图2所示的方法,降低了KNN算法进行分类时,所需要遍历的文本内容条目数量。
当然,上述的实施例中的举例,仅仅是为了便于理解,其取得的效果并非十分显著,但是对于现有的互联网中的大数据量,减少一半的数据运算量,则可以大幅度提高服务器的数据处理效率,降低消耗的时间。
由于在服务器的数据处理过程中,特别是KNN算法中计算相似度时,往往是通过待分类文本与样本文本内容的距离来体现的,而文本内容之间的距离计算,如果通过汉字进行计算,则处理十分困难。因此,在步骤201中,通过预处理获取到的待分类文本,获取所述待分类文本信息的文本特征词,之后,之后,还包括查找所述文本特征词对应的数字编码。
通过查表,对文本特征词进行数字形式化,确定的编码中支付宝=0.2、密码=0.8、失败=1.1等。
举例来说,文本A的形式化表示为:(w1:0.2,w2:0.8);文档B的形式化表示为:(w1:0.3,w2:0.7),那么A,B两个文档的相似度为:S=fz/fm;
其中fz=0.2*0.3+0.7*0.8=0.62,fm的值为(0.2*0.2+0.8*0.8)*(0.3*0.3+0.7*0.7)进行开方操作,其值约为0.628;故这两个文本的相似度为:S=0.62/0.628=0.987
同样,在训练数据集合中的样本文本内容同样是按照数字编码的方式进行存储,因此步骤206中,所述根据所述文本特征词与所述第二文本集合中的每条样本文本内容的相似度,是通过数字编码进行距离计算获得的。
如图3所示,在一种可选的实施例中,步骤206进一步包括:
3061,根据所述文本特征词的数字编码计算与每条文本内容的数字编码的相似度;
其中,文本特征词与最终文本集合中每条样本文本内容的相似度,是通过距离来体现的。
3062,根据所述相似度,对所述第二文本集合中的每条文本内容进行排序;
其中,在计算出与最终第二文本集合中的每条文本内容进行相似度计算之后,根据相似度数据的高低,对每条文本内容进行从高到低的排序。
3063,选取排序最高的文本内容对应的类别,作为所述待分类文本的目标类别。
例如,对于服务器获取到的“我支付宝密码忘记了,怎么办?”这样的待分类文本,最终得到的所属类别,为表1中的“密码忘记”。该举例仅仅作为举例只用,不应理解为对本实施例的限制。
如图4所示,在另一种实施例中,步骤206可以进一步包括:
4061,分别计算所述文本特征词与第二文本集合中每条样本文本内容的相似度;
4062,根据所述相似度,确定至少一个最相似的样本文本内容;
步骤4061和4062可以与图3所示的实施例类似,不多赘述。
4063,对所述至少一个最相似的样本文本内容中,每个样本文本内容所属类别进行打分;
在该步骤中,服务器可以根据所述至少一个最相似的样本文本内容中全部样本文本内容对应的类别中,每个类别包含的样本文本内容条数,对每条样本内容所述类别进行打分。
例如,步骤4063中,得到的相似的文本内容有三个,即“密码忘记”、“风险报案”和“付款专题”,如果“付款专题”类别包含三个样本内容条目,而其余两个类别只包含两条样本内容,则“付款专题”得分最高。
4064,选定得分最高的一个类别,作为所述待分类文本的目标类别。
在该步骤中,可以通过为几个类别打分的方式,确定目标类别,不多赘述。
图5是本申请实施例提供的文本分类另一种实施例的流程图,由图5可见,该实施例与图2所示的实施例的区别在于,在步骤501之前,包括步骤500,获取所述待分类文本,所述待分类文本为需要服务器分类的文本信息。
步骤501-506与图2中的步骤201-206类似,不多赘述。
步骤500中,服务器获取待分类文本的方式可以是接收文本分析请求,并在所述文本分析请求中获取所述待分类文本。在该实施例中,互联网服务器通过一个接口,接收某一个进程或某一个模块提供的文本分析请求,其中携带了待分类文本。例如,在天猫投诉平台中,投诉模块接收到的投诉“为什么还没有发货”,可以生成文本分析请求,之后发送给服务器进行分类。
步骤500中,服务器获取待分类文本的方式也可以是通过客户端接收用户上传的文本信息,并在所述文本分信息中获取所述待分类文本。例如,通过阿里旺旺等方式获取客户的询问信息。不多赘述。
上述实施例仅仅是举例只用,不应理解为对本申请实施例的限制,
与图2所示的实施例类似,虽然在图5所示的实施例中步骤502排在步骤503之前,实际上并没有严格的时序关系,服务器可以选择先通过初步分类,获取候选类别,再进行倒排查询,确定第一文本内容集合。也可以将步骤502和503调换,也就是先进行倒排查询,再进行初步分类,获取候选类别。或者,服务器可以通过两个并行的进程,同时执行步骤502和503,不多赘述。
通过前述的实施例,首先对于获取到的待分类文本进行预处理。从而提取出其中的文本特征词,再根据文本特征词,采用通常的快速分类组件对所述待分类文本进行初步分类,以获取候选类别;之后,根据所述文本特征词,进行筛选,筛选出确定包括与所述文本特征词相似的文本内容对应的文本内容的集合,并在集合中,除去所述候选类别之外的类别对应的文本内容,最后根据所述文本特征词与最终的集合中的每条样本文本内容的相似度,确定所述待分类文本的目标类别。通过上述的方案,能够大量采用减少KNN算法对文本进行分类时所需要遍历的文本条目,降低计算复杂度和计算量,提高文本文类的效率。
相应的,如图6所示,本申请还提供了可以用于执行文本文类的一种服务器,该服务器可以应用于互联网中任何需要对文本进行分类的场合,例如电子商务平台,互联网搜索平台等,由图6可见,所述服务器包括:
预处理单元610,用于对获取到的待分类文本进行预处理,以获取所述待分类文本的至少一个文本特征词;
获取单元620,用于根据所述文本特征词,对所述待分类文本进行类别划分,以获取所述待分类文本的一定个数候选类别;
第一确定单元630,用于根据所述文本特征词在预存储的倒排索引表中,确定第一文本内容标识集合,所述第一文本内容标识集合中包括多个与所述文本特征词相似的文本内容对应的文本内容标识,所述倒排索引表是根据最邻近结点算法预设置的训练数据集合构建的,其包含特征属性索引项和与每个特征属性对应的至少一个文本内容标识;
第二确定单元640,用于根据所述第一文本内容标识集合,在所述预设置的训练数据集合中确定第一文本内容集合,所述训练数据集合中包括样本文本内容标识、样本文本内容以及每条所述样本文本内容对应的所属类别;
第三确定单元650,用于在所述第一文本内容集合中,根据所述一定个数候选类别,选择N个候选类别对应的文本内容,来确定第二文本内容集合;
第四确定单元660,用于根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度,确定所述待分类文本的目标类别。
其中,所述预处理单元610具体用于对所述文本信息进行分词、过滤词以及同义词合并处理。
所述获取单元620,采用支持向量机的分类方法,根据所述文本特征词,对所述待分类文本进行类别划分,以获取所述待分类文本的一定个数候选类别。
在一种可选的实施例中,所述服务器还包括:
编码单元,该编码单元在预处理单元610所述预处理获取到的待分类文本,获取所述待分类文本信息的至少一个文本特征词;之后,查找所述文本特征词对应的数字编码。
在一种优选的实施方式中,所述第四确定单元660,进一步包括:
计算子单元,用于根据所述文本特征词的数字编码计算与每条文本内容的数字编码的相似度;
排序子单元,用于根据所述相似度,对所述第二文本集合中的每条文本内容进行排序;
选取子单元,用于选取排序最高的文本内容对应的类别,作为所述待分类文本的目标类别。
在另一种优选的实施方式中,所述第四确定单元660,进一步包括:
计算子单元,用于分别计算所述文本特征词与第二文本集合中每条样本文本内容的相似度;
确定子单元,用于根据所述相似度,确定至少一个最相似的样本文本内容;
打分子单元,用于对所述至少一个最相似的样本文本内容中,每个样本文本内容所属类别进行打分;
选定子单元,用于选定得分最高的一个类别,作为所述待分类文本的目标类别。
其中,打分子单元具体根据所述至少一个最相似的样本文本内容中全部样本文本内容对应的类别中,每个类别包含是样本文本内容条数,对每条样本内容所述类别进行打分。
在一种可选的实施例中,所述服务器还包括:
获取单元,用于在预处理单元610预处理获取到的待分类文本,获取所述待分类文本的至少一个文本特征词;之前还获取所述待分类文本,所述待分类文本为需要服务器分类的文本信息。
例如,通过接收文本分析请求,并在所述文本分析请求中获取所述待分类文本;或者,通过客户端接收用户上传的文本信息,并在所述文本分信息中获取所述待分类文本。
以上的各个模块仅仅是作为举例只用,不作为对本申请实施例的限制。
为了描述的方便,描述以上系统时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (11)
1.一种文本分类方法,其特征在于,所述方法包括:
对获取到的待分类文本进行预处理,以获取所述待分类文本的至少一个文本特征词;
根据所述文本特征词,对所述待分类文本进行类别划分,以获取所述待分类文本的一定个数候选类别;
根据所述文本特征词在预存储的倒排索引表中,确定第一文本内容标识集合,所述第一文本内容标识集合中包括多个与所述文本特征词相似的文本内容对应的文本内容标识,所述倒排索引表是根据最邻近结点算法预设置的训练数据集合构建的,其包含特征属性索引项和与每个特征属性对应的至少一个文本内容标识;
根据所述第一文本内容标识集合,在所述预设置的训练数据集合中确定第一文本内容集合,所述训练数据集合中包括样本文本内容标识、样本文本内容以及每条所述样本文本内容对应的所属类别;
在所述第一文本内容集合中,根据所述一定个数候选类别,选择N个候选类别对应的文本内容,来确定第二文本内容集合;
根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度,确定所述待分类文本的目标类别。
2.如权利要求1所述的方法,其特征在于,所述对获取到的文本进行预处理,以获取所述文本的至少一个文本特征词;之后,还包括:
查找所述文本特征词对应的数字编码。
3.如权利要求2所述的方法,其特征在于,所述根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度,确定所述待分类文本的目标类别,具体包括:
根据所述文本特征词的数字编码计算与每条文本内容的数字编码的相似度;
根据所述相似度,对所述第二文本集合中的每条文本内容进行排序;
选取排序最高的文本内容对应的类别,作为所述待分类文本的目标类别。
4.如权利要求1所述的方法,其特性在于,所述对获取到的待分类文本进行预处理,以获取所述待分类文本的至少一个文本特征词;具体包括:
对所述待分类文本进行分词、过滤词以及同义词合并处理。
5.如权利要求1所述的方法,其特征在于,所述对所述文本进行类别划分具体为利用支持向量机的分类方法。
6.如权利要求1所述的方法,其特征在于,所述根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度,确定所述待分类文本的目标类别,具体包括:
分别计算所述文本特征词与第二文本集合中每条文本内容的相似度;
根据所述相似度,确定至少一个最相似的文本内容;
对所述至少一个最相似的文本内容中,每个文本内容所属类别进行打分;
选定得分最高的一个类别,作为所述文本的目标类别。
7.如权利要求6所述的方法,其特征在于,所述对所述至少一个最相似的样本文本内容中,每个样本文本内容所属类别进行打分;具体包括:
根据所述至少一个最相似的文本内容中全部文本内容对应的类别中,每个类别包含是文本内容条数,对每条文本内容所述类别进行打分。
8.如权利要求1所述的方法,其特征在于,所述对获取到的待分类文本进行预处理,以获取所述待分类文本的至少一个文本特征词;之前还包括:
获取所述待分类文本,所述待分类文本为需要服务器分类的文本信息。
9.如权利要求8所述的方法,其特征在于,所述获取所述待分类文本,具体包括:
接收文本分析请求,并在所述文本分析请求中获取所述待分类文本。
10.如权利要求8所述的方法,其特征在于,所述获取所述待分类文本,具体包括:
通过客户端接收用户上传的文本信息,并在所述文本信息中获取所述待分类文本。
11.一种服务器,其特征在于,包括:
预处理单元,用于对获取到的待分类文本进行预处理,以获取所述待分类文本的至少一个文本特征词;
获取单元,用于根据所述文本特征词,对所述待分类文本进行类别划分,以获取所述待分类文本的一定个数候选类别;
第一确定单元,用于根据所述文本特征词在预存储的倒排索引表中,确定第一文本内容标识集合,所述第一文本内容标识集合中包括多个与所述文本特征词相似的文本内容对应的文本内容标识,所述倒排索引表是根据最邻近结点算法预设置的训练数据集合构建的,其包含特征属性索引项和与每个特征属性对应的至少一个文本内容标识;
第二确定单元,用于根据所述第一文本内容标识集合,在所述预设置的训练数据集合中确定第一文本内容集合,所述训练数据集合中包括样本文本内容标识、样本文本内容以及每条所述样本文本内容对应的所属类别;
第三确定单元,用于在所述第一文本内容集合中,根据所述一定个数候选类别,选择N个候选类别对应的文本内容,来确定第二文本内容集合;
第四确定单元,用于根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度,确定所述待分类文本的目标类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410171389.6A CN105095223B (zh) | 2014-04-25 | 2014-04-25 | 文本分类方法及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410171389.6A CN105095223B (zh) | 2014-04-25 | 2014-04-25 | 文本分类方法及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105095223A CN105095223A (zh) | 2015-11-25 |
CN105095223B true CN105095223B (zh) | 2018-09-11 |
Family
ID=54575690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410171389.6A Active CN105095223B (zh) | 2014-04-25 | 2014-04-25 | 文本分类方法及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105095223B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893606A (zh) * | 2016-04-25 | 2016-08-24 | 深圳市永兴元科技有限公司 | 文本分类方法和装置 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095972B (zh) * | 2016-06-17 | 2020-06-19 | 联动优势科技有限公司 | 一种信息分类方法及装置 |
CN106599054B (zh) * | 2016-11-16 | 2019-12-24 | 福建天泉教育科技有限公司 | 一种题目分类及推送的方法及系统 |
CN106649274A (zh) * | 2016-12-27 | 2017-05-10 | 东华互联宜家数据服务有限公司 | 文本内容标签标记方法以及装置 |
CN108959329B (zh) * | 2017-05-27 | 2023-05-16 | 腾讯科技(北京)有限公司 | 一种文本分类方法、装置、介质及设备 |
CN107402960B (zh) * | 2017-06-15 | 2020-11-10 | 成都优易数据有限公司 | 一种基于语义语气加权的倒排索引优化算法 |
CN109241274B (zh) * | 2017-07-04 | 2022-01-25 | 腾讯科技(深圳)有限公司 | 文本聚类方法及装置 |
CN107844553B (zh) * | 2017-10-31 | 2021-07-27 | 浪潮通用软件有限公司 | 一种文本分类方法及装置 |
CN108197102A (zh) | 2017-12-26 | 2018-06-22 | 百度在线网络技术(北京)有限公司 | 一种文本数据统计方法、装置和服务器 |
CN108415959B (zh) * | 2018-02-06 | 2021-06-25 | 北京捷通华声科技股份有限公司 | 一种文本分类方法及装置 |
CN110263318B (zh) * | 2018-04-23 | 2022-10-28 | 腾讯科技(深圳)有限公司 | 实体名称的处理方法、装置、计算机可读介质及电子设备 |
CN109033212B (zh) * | 2018-07-01 | 2021-09-07 | 上海新诤信知识产权服务股份有限公司 | 一种基于相似度匹配的文本分类方法 |
CN109597928B (zh) * | 2018-12-05 | 2022-12-16 | 云南电网有限责任公司信息中心 | 支持用户策略配置的基于Web网络的非结构化文本获取方法 |
CN109800296B (zh) * | 2019-01-21 | 2022-03-01 | 四川长虹电器股份有限公司 | 一种基于用户真实意图的语意模糊识别方法 |
CN110750638A (zh) * | 2019-06-28 | 2020-02-04 | 厦门美域中央信息科技有限公司 | 一种基于半监督学习的多标签语料库文本分类方法 |
CN110704619B (zh) * | 2019-09-24 | 2022-06-10 | 支付宝(杭州)信息技术有限公司 | 文本分类方法、装置及电子设备 |
CN112818195B (zh) * | 2019-11-15 | 2023-12-26 | 腾讯科技(深圳)有限公司 | 数据获取方法、装置、系统及计算机存储介质 |
CN111177392A (zh) * | 2019-12-31 | 2020-05-19 | 腾讯云计算(北京)有限责任公司 | 一种数据处理方法及装置 |
CN113570380A (zh) * | 2020-04-28 | 2021-10-29 | 中国移动通信集团浙江有限公司 | 基于语义分析的业务投诉处理方法、装置、设备及计算机可读存储介质 |
CN116187325A (zh) * | 2023-04-28 | 2023-05-30 | 北京数字政通科技股份有限公司 | 一种数据检测方法及其系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101464898A (zh) * | 2009-01-12 | 2009-06-24 | 腾讯科技(深圳)有限公司 | 一种提取文本主题词的方法 |
CN102867040A (zh) * | 2012-08-31 | 2013-01-09 | 中国科学院计算技术研究所 | 一种面向中文搜索引擎混杂语言的查询纠错方法及系统 |
CN102930042A (zh) * | 2012-11-13 | 2013-02-13 | 五邑大学 | 一种倾向性文本自动分类系统及其实现方法 |
US8452795B1 (en) * | 2010-01-15 | 2013-05-28 | Google Inc. | Generating query suggestions using class-instance relationships |
-
2014
- 2014-04-25 CN CN201410171389.6A patent/CN105095223B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101464898A (zh) * | 2009-01-12 | 2009-06-24 | 腾讯科技(深圳)有限公司 | 一种提取文本主题词的方法 |
US8452795B1 (en) * | 2010-01-15 | 2013-05-28 | Google Inc. | Generating query suggestions using class-instance relationships |
CN102867040A (zh) * | 2012-08-31 | 2013-01-09 | 中国科学院计算技术研究所 | 一种面向中文搜索引擎混杂语言的查询纠错方法及系统 |
CN102930042A (zh) * | 2012-11-13 | 2013-02-13 | 五邑大学 | 一种倾向性文本自动分类系统及其实现方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893606A (zh) * | 2016-04-25 | 2016-08-24 | 深圳市永兴元科技有限公司 | 文本分类方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105095223A (zh) | 2015-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105095223B (zh) | 文本分类方法及服务器 | |
CN109033387B (zh) | 一种融合多源数据的物联网搜索系统、方法及存储介质 | |
CN107844559A (zh) | 一种文件分类方法、装置及电子设备 | |
CN109815314B (zh) | 一种意图识别方法、识别设备及计算机可读存储介质 | |
US9600570B2 (en) | Method and system for text filtering | |
CN107729336A (zh) | 数据处理方法、设备及系统 | |
CN108776671A (zh) | 一种网络舆情监控系统及方法 | |
EP3276509B1 (en) | Automatic detection and transfer of relevant image data to content collections | |
CN104899508B (zh) | 一种多阶段钓鱼网站检测方法与系统 | |
CN101477554A (zh) | 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法 | |
CN104809252B (zh) | 互联网数据提取系统 | |
CN106649849A (zh) | 文本信息库建立方法和装置、以及搜索方法、装置和系统 | |
CN104537341A (zh) | 人脸图片信息获取方法和装置 | |
CN108416375A (zh) | 工单分类方法及装置 | |
CN104462096B (zh) | 舆情监测分析方法和装置 | |
CN102542061A (zh) | 一种产品的智能分类方法 | |
CN108536682A (zh) | 一种应用于服务业撮合交易的识别分类系统 | |
CN110188077A (zh) | 一种电子卷宗智能分类方法、装置、电子设备和存储介质 | |
CN110427404A (zh) | 一种区块链跨链数据检索系统 | |
CN109902151A (zh) | 询问笔录的记录方法、装置及电子设备 | |
CN109582967A (zh) | 舆情摘要提取方法、装置、设备及计算机可读存储介质 | |
CN114707003A (zh) | 一种论文作者姓名消歧的方法、设备及储存介质 | |
CN111177372A (zh) | 一种科技成果的分类方法、装置、设备及介质 | |
CN109885708A (zh) | 证件图片的搜索方法和装置 | |
CN103678601A (zh) | 一种范文检索请求的处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20191220 Address after: P.O. Box 31119, grand exhibition hall, hibiscus street, 802 West Bay Road, Grand Cayman, Cayman Islands Patentee after: Innovative advanced technology Co., Ltd Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands Patentee before: Alibaba Group Holding Co., Ltd. |
|
TR01 | Transfer of patent right |