CN109446321B - 一种文本分类方法、装置、终端及计算机可读存储介质 - Google Patents

一种文本分类方法、装置、终端及计算机可读存储介质 Download PDF

Info

Publication number
CN109446321B
CN109446321B CN201811183892.8A CN201811183892A CN109446321B CN 109446321 B CN109446321 B CN 109446321B CN 201811183892 A CN201811183892 A CN 201811183892A CN 109446321 B CN109446321 B CN 109446321B
Authority
CN
China
Prior art keywords
text
classified
category
features
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811183892.8A
Other languages
English (en)
Other versions
CN109446321A (zh
Inventor
王正魁
贾志强
桑海岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudminds Shanghai Robotics Co Ltd
Original Assignee
Cloudminds Robotics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudminds Robotics Co Ltd filed Critical Cloudminds Robotics Co Ltd
Priority to CN201811183892.8A priority Critical patent/CN109446321B/zh
Publication of CN109446321A publication Critical patent/CN109446321A/zh
Application granted granted Critical
Publication of CN109446321B publication Critical patent/CN109446321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及数据处理领域,公开了一种文本分类方法、装置、终端及计算机可读存储介质。本发明中,文本分类方法包括以下步骤:提取待分类文本的文本特征;其中,待分类文本的文本特征由待分类文本中任意M个字组成,M为大于1的正整数;确定每个待分类文本的文本特征在各个类别的语料中的词频‑逆文档频率;根据每个待分类文本的文本特征在各个类别的语料中的词频‑逆文档频率,确定待分类文本属于各个类别的置信度;根据待分类文本属于各个类别的置信度,确定待分类文本的类别。该实现中,由于提取的文本特征由待分类文本中任意M个字组成,使得能够针对同一语料,通过提取距离更长的文本特征的方法,得到更多文本特征,降低了对语料的规模的要求。

Description

一种文本分类方法、装置、终端及计算机可读存储介质
技术领域
本发明实施例涉及数据处理领域,特别涉及一种文本分类方法、装置、终端及计算机可读存储介质。
背景技术
文本分类(Text Categorization)是机器学习领域中的典型问题,目前已拥有众多的分类算法,例如,朴素贝叶斯算法,K近邻算法(k-nearest neighbor,K-NN)和神经网络算法等。文本分类过程中,常常用到词频-逆文档频率(term fequency-inverse documentfrequency,TF-IDF)模型,该模型凭借其简单、有效的优势在自然语言处理领域中得到了非常广泛的应用。
然而,发明人发现现有技术中至少存在如下问题:目前的文本分类方法中,一般采用基于一元字或多元的TF-IDF模型。基于一元字的TF-IDF模型的一般难以充分考虑文本中的相关信息,例如,一元字的TF-IDF模型认为出现“病”或“治”等关键字即可能为疾病方面的,具有较低的精确度。二元的TF-IDF模型将相邻的两个字作为特征,提取出包含两个字的词作为特征,但特征空间按增加,从而使得特征更为稀疏。故二元的TF-IDF模型在一定程度上弥补了一元模型的缺陷,但不适合小规模的语料。更高元的TF-IDF模型则提取特征更为稀疏,对语料的规模要求更高。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明实施方式的目的在于提供一种文本分类方法、装置、终端及计算机可读存储介质,使得能够针对同一语料,通过提取距离更长的文本特征的方法,得到更多文本特征,降低了对语料的规模的要求。
为解决上述技术问题,本发明的实施方式提供了一种文本分类方法,包括以下步骤:提取待分类文本的文本特征;其中,待分类文本的文本特征由待分类文本中任意M个字符组成,M为大于1的正整数;确定每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率;根据每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率,确定待分类文本属于各个类别的置信度;根据待分类文本属于各个类别的置信度,确定待分类文本的类别。
本发明的实施方式还提供了一种文本分类装置,包括:提取模块、第一确定模块、第二确定模块和第三确定模块;提取模块用于提取待分类文本的文本特征;其中,待分类文本的文本特征由待分类文本中任意M个字符组成,M为大于1的正整数;第一确定模块用于确定每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率;第二确定模块用于根据每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率,确定待分类文本属于各个类别的置信度;第三确定模块用于根据待分类文本属于各个类别的置信度,确定待分类文本的类别。
本发明的实施方式还提供了一种终端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上述实施方式提及的文本分类方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述实施方式提及的文本分类方法。
本发明实施方式相对于现有技术而言,提取的文本特征由待分类文本中任意M个字符组成即可,不要求组成文本特征的M个字符相邻,使得文本分类装置能够提取到距离更长的文本特征,进而使得文本分类装置能够针对同一待分类文本提取得到更多的文本特征。由于能够提取到更多的文本特征,使得文本分类装置能够更准确的对待分类文本进行分类,提高了分类的准确性。除此之外,文本分类装置基于文本特征的词频-逆文档频率对文本进行分类,相对于其他机器学习方法,不需要训练模型,降低了对语料的规模的要求。
另外,确定每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率,具体包括:针对每个待分类文本的文本特征,分别进行以下操作:根据组成待分类文本的文本特征中每个字符的字符特征,调整待分类文本的文本特征中每个字符的先后排序;确定调整后的文本特征在各个类别的语料中的词频-逆文档频率;将调整后的文本特征在各个类别的语料中的词频-逆文档频率,作为待分类文本的文本特征在各个类别的语料中的词频-逆文档频率。该实现中,基于字符特征对提取的文本特征进行无序化处理,提高了同一文本特征与类别的相关性,进一步提高了文本分类装置对文本分类的准确性。
另外,在确定调整后的文本特征在各个类别的语料中的词频-逆文档频率之前,文本分类方法还包括:确定在总文本特征库中存在调整后的文本特征;其中,总文本特征库中包括所有类别的语料中的文本特征。该实现中,在总文本特征库中存在调整后的文本特征后,再确定该调整后的文本特征的词频-逆文档频率,提高了文本分类的效率。
另外,字符特征为字符的美国信息交换标准代码ASCII。
另外,确定调整后的文本特征在各个类别的语料中的词频-逆文档频率,具体包括:在确定调整后的文本特征在一个类别的语料中的词频-逆文档频率的过程中,确定该类别的语料的文本特征中与调整后的文本特征相匹配的文本特征,将相匹配的文本特征的词频-逆文档频率,作为调整后的文本特征的词频-逆文档频率。
另外,M等于2。该实现中,文本分类装置基于字对进行文本分类,在保证特征空间足够大的情况下,避免提取的文本特征过于稀疏,进一步降低了对语料的规模的要求。
另外,根据每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率,确定待分类文本属于各个类别的置信度,具体包括:针对每个类别,分别进行以下操作:确定每个待分类文本的文本特征在该类别的语料中出现的次数;根据每个待分类文本的文本特征在该类别的语料中的词频-逆文档频率和每个待分类文本的文本特征在该类别的语料中出现的次数,确定待分类文本相对于该类别的类条件概率;根据待分类文本相对于该类别的类条件概率,确定待分类文本属于该类别的置信度。
另外,根据待分类文本相对于该类别的类条件概率,确定待分类文本属于该类别的置信度,具体包括:确定该类别出现的概率;根据待分类文本相对于该类别的类条件概率和类别出现的概率,确定待分类文本与该类别的联合概率;将待分类文本与该类别的联合概率,作为待分类文本属于该类别的置信度。
另外,类别出现的概率等于该类别的语料的数量除以所有类别的语料的总数量。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本发明的第一实施方式的文本分类方法的流程图;
图2是本发明的第二实施方式的文本分类方法的流程图;
图3是本发明的第二实施方式的在人机对话中文本分类方法的使用方法的示意图;
图4是本发明的第三实施方式的文本分类装置的结构示意图;
图5是本发明的第四实施方式的终端的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
需要说明的是,本发明的实施方式可以应用于与自然语言处理、文本分类、意图识别、等相关的终端和系统,本实施方式不限制文本分类方法的应用场景。
本发明的第一实施方式涉及一种文本分类方法,应用于文本分类装置,具体流程如图1所示。
步骤101:提取待分类文本的文本特征。
具体地说,待分类文本的文本特征由待分类文本中任意M个字符组成,M为大于1的正整数。一个具体实现中,M等于2,假设待分类文本为“唱首歌吧!”,提取得到的文本特征为“唱首”、“唱歌”、“唱吧”、“唱!”、“首歌”、“首吧”、“首!”、“歌吧”、“歌!”和“吧!”。
值得一提的是,以待分类文本“唱首歌吧!”为例,使用本实施方式提供的文本分类方法后,可以提取到10个文本特征,当使用基于二元字的TF-IDF模型提取文本特征时,仅能提取到4个文本特征:“唱首”、“首歌”、“歌吧”、“吧!”。由此可见,使用本实施方式提供的文本分类方法,使得文本分类装置能够提取距离更远的文本特征,进而得到更多的文本特征。由于文本分类装置能够针对同一语料能够提取更多的文本特征,降低了语料的规模的要求。
步骤102:确定每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率。
具体地说,针对每个待分类文本的文本特征,文本分类装置确定该文本特征在一个类别的语料中的词频-逆文档频率的过程中,确定该类别的语料的文本特征中与该文本特征相匹配的文本特征,将相匹配的文本特征的词频-逆文档频率,作为该文本特征的词频-逆文档频率。其中,语料的文本特征由该语料的每句话的文本特征组成,每句话的文本特征由该句的任意M个字符组成。
以下对文本分类装置统计每个类别的语料的文本特征的词频-逆文档频率的过程进行举例说明。
文本分类装置根据句号、问号、感叹号和分号等标点符号,将某一类别的语料中的文本分割为若干句子,提取每个句子中的文本特征,句子的文本特征由该句子中任意M个字符组成。根据提取的文本特征,分别为各个类别建立文本特征库。文本分类装置分别在各个类别下,统计各个文本特征的频率。文本分类装置统计各文本特征的逆文档频率,即总类别数与包含该文本特征的类别数之商的自然对数值,并在各个类别下,分别计算各文本特征的词频-逆文档频率。具体实现中,文本分类装置按照公式1计算词频-逆文档频率。
Figure BDA0001825697210000051
公式1中:TF-IDFi,j为文本特征i在类别j的语料中的词频-逆文档频率,TFi,j为文本特征i在类别j的语料中出现的频率;IDFi为文本特征i的逆文档频率,反映文本特征i对类别j置信度的影响程度,ni,j为文本特征i在类别j中出现的次数,∑knk,j为所有文本特征在类别j中出现的总次数,|d|为总类别数,|j:ti∈dj|为包含文本特征i的类别数。
步骤103:根据每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率,确定待分类文本属于各个类别的置信度。
具体实现中,文本分类装置确定待分类文本属于各个类别的置信度的过程如下:文本分类装置针对每个类别,分别进行以下操作:确定每个待分类文本的文本特征在该类别的语料中出现的次数;根据每个该待分类文本的文本特征在该类别的语料中的词频-逆文档频率和每个待分类文本的文本特征在该类别的语料中出现的次数,确定待分类文本相对于该类别的类条件概率;根据待分类文本相对于该类别的类条件概率,确定该待分类文本属于该类别的置信度。具体实现中,文本分类装置按照公式2计算待分类文本相对于某个类别的类条件概率。
Px|j=exp(∑iln(Ni×(TF-IDFi,j)+ε)/∑iNi)公式2;
公式2中,Px|j为待分类文本x相对于类别j的类条件概率;Ni为待分类文本x中文本特征i的出现的次数,ε是常数,接近于0。
需要说明的是,本实施方式中,充分考虑到长句子得到的文本特征更多,为弱化句子长度的影响,将对数值之和除以待分类文本中文本特征的总数目,本领域技术人员可以理解,实际应用中,也可以通过其他方式计算待分类文本相对于该类别的类条件概率。
以下对文本分类装置确定根据待分类文本x相对于类别j的类条件概率,确定该待分类文本x属于类别j的置信度的方法进行说明。文本分类装置将类别j的语料的数量除以所有类别的语料的总数量,作为类别j出现的概率。文本分类装置根据待分类文本x相对于类别j的类条件概率和类别j出现的概率,确定待分类文本x与类别j的联合概率,将待分类文本x与类别j的联合概率,作为待分类文本x属于类别j的置信度。具体实现中,文本分类装置按照公式3计算待分类文本x与类别j的联合概率。
Pj,x=Pj×Px|j公式3;
公式3中,Pj,x为待分类文本x与类别j的联合概率,Pj为类别j出现的概率,Px|j为待分类文本x相对于类别j的类条件概率。
步骤104:根据待分类文本属于各个类别的置信度,确定待分类文本的类别。
具体地说,文本分类装置将待分类文本属于各个类别的置信度中,置信度最大的类别作为待分类文本的类别。
需要说明的是,实际应用中,可以通过朴素贝叶斯分类器或其他类型的分类器实现上述文本分类的方法。
需要说明的是,以上仅为举例说明,并不对本发明的技术方案构成限定。
与现有技术相比,本实施方式中提供的文本分类方法,提取的文本特征是由待分类文本中任意M个字符组成即可,不要求组成文本特征的M个字符相邻,使得文本分类装置能够提取到距离更长的文本特征,进而使得文本分类装置能够针对同一待分类文本提取得到更多的文本特征。由于能够提取到更多的文本特征,使得文本分类装置能够更准确的对待分类文本进行分类,提高了分类的准确性。除此之外,文本分类装置基于文本特征的词频-逆文档频率对文本进行分类,相对于其他机器学习方法,不需要训练模型,降低了对语料的规模的要求。
本发明的第二实施方式涉及一种文本分类方法,本实施方式是对第一实施方式的进一步细化,具体说明了步骤102。本实施方式的步骤102中,对待分类文本的文本特征进行无序化处理。
具体的说,如图2所示,在本实施方式中,包括步骤201至步骤204,其中,步骤201、步骤203和步骤204分别与第一实施方式的步骤101、步骤103和步骤104大致相同,此处不再赘述,下面主要介绍不同之处:
步骤201:提取待分类文本的文本特征。
步骤202:针对每个待分类文本的文本特征,分别进行以下操作:根据组成待分类文本的文本特征中每个字符的字符特征,调整待分类文本的文本特征中每个字符的先后排序;确定调整后的文本特征在各个类别的语料中的词频-逆文档频率;将调整后的文本特征在各个类别的语料中的词频-逆文档频率,作为待分类文本的文本特征在各个类别的语料中的词频-逆文档频率。
以下结合一个待分类文本的文本特征举例说明文本分类装置对待分类文本的文本特征进行无序化处理的过程。字符特征以字符的美国信息交换标准代码(AmericanStandard Code for Information Interchange,ASCII)为例,假设待分类文本的文本特征是“歌唱”,文本分类装置通过查询“歌”字的ASCII码和“唱”字的ASCII码,发现唱字的ASCII码位于“歌”字的ASCII码前面,故将待分类文本的文本特征“歌唱”调整为“唱歌”。
值得一提的是,文本分类装置将文本特征AB与文本特征BA统一调整为文本特征AB(假设根据字符特征,A位于B前面),使得在相同的语料规模下,增加了文本特征AB在语料的文本特征中出现的次数,进而增加了文本特征AB在类别中的词频,增加了文本特征AB与类别的相关性。因此,基于字符特征对提取的文本特征进行无序化处理,提高了同一文本特征与类别的相关性,进一步提升了文本分类装置在小规模语料上的文本分类效果。
需要说明的是,本领域技术人员可以理解,字符特征可以是ASCII码,也可以是字符的其他能够唯一标识字符的字符特征。
具体实现中,文本分类装置确定调整后的文本特征在各个类别的语料中的词频-逆文档频率的过程如下:在确定所述调整后的文本特征在一个类别的语料中的词频-逆文档频率的过程中,确定该类别的语料的文本特征中与调整后的文本特征相匹配的文本特征,将相匹配的文本特征的词频-逆文档频率,作为调整后的文本特征的词频-逆文档频率。
具体实现中,文本分类装置在确定调整后的文本特征在各个类别的语料中的词频-逆文档频率之前,确定在总文本特征库中存在调整后的文本特征。其中,总文本特征库中包括所有类别的语料中的文本特征。
值得一提的是,在确定总文本特征库中存在调整后的文本特征后,再确定该调整后的文本特征的词频-逆文档频率,提高了文本分类的效率。例如,对于文本特征“请谢”,由于总文本特征库中包括所有类别的语料中的文本特征,若总文本特征库中不包括“请谢”,说明所有类别的语料中均无法提取到文本特征“请谢”,即可直接确定“请谢”在所有类别中的词频-逆文档频率均为0,在确定文本特征中不存在“请谢”后,不再对每个类别中查询“请谢”的词频-逆文档频率,可以减少文本分类装置的查询次数,进而提高了文本分类的效率。
执行步骤203至步骤204。
需要说明的是,以上仅为举例说明,并不对本发明的技术方案构成限定。
与现有技术相比,本实施方式中提供的文本分类方法,提取的文本特征是由待分类文本中任意M个字符组成即可,不要求组成文本特征的M个字符相邻,使得文本分类装置能够提取到距离更长的文本特征,进而使得文本分类装置能够针对同一待分类文本提取得到更多的文本特征。由于能够提取到更多的文本特征,使得文本分类装置能够更准确的对待分类文本进行分类,提高了分类的准确性。除此之外,文本分类装置基于文本特征的词频-逆文档频率对文本进行分类,相对于其他机器学习方法,不需要训练模型,降低了对语料规模的要求。除此之外,基于字符特征对提取的文本特征进行无序化处理,提高了同一文本特征与类别的相关性,进一步提高了文本分类装置对文本分类的准确性。在总文本特征库中存在调整后的文本特征后,再确定该调整后的文本特征的词频-逆文档频率,提高了文本分类的效率。
以下以本实施方式的文本分类的方法在人机对话中的应用为例,说明本实施方式的文本分类方法在具体场景中的使用方法。在人机对话中文本分类方法的使用方法的示意图如图3所示,首先,用户输入语句,即输入待分类文本。机器中的文本分类装置根据预先进行的语料统计,基于本实施方式提供的文本分类方法,确定用户输入的语句对应于对话意图的候选集中的哪种对话意图,进而使得机器能够根据确定的对话意图进行语义理解及回复。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施方式涉及一种文本分类装置,如图4所示,包括:提取模块401、第一确定模块402、第二确定模块403和第三确定模块404;提取模块401用于提取待分类文本的文本特征;其中,待分类文本的文本特征由待分类文本中任意M个字符组成,M为大于1的正整数。第一确定模块402用于确定每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率。第二确定模块403用于根据每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率,确定待分类文本属于各个类别的置信度。第三确定模块404用于根据待分类文本属于各个类别的置信度,确定待分类文本的类别。
不难发现,本实施方式为与第一实施方式相对应的系统实施例,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明第四实施方式涉及一种终端,如图5所示,包括:至少一个处理器501;以及,与至少一个处理器501通信连接的存储器502;其中,存储器502存储有可被至少一个处理器501执行的指令,指令被至少一个处理器501执行,以使至少一个处理器501能够执行如上述实施方式提及的文本分类方法。
该终端包括:一个或多个处理器501以及存储器502,图5中以一个处理器501为例。处理器501、存储器502可以通过总线或者其他方式连接,图5中以通过总线连接为例。存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器501通过运行存储在存储器502中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述文本分类方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器502中,当被一个或者多个处理器501执行时,执行上述任意方法实施方式中的文本分类方法。
上述产品可执行本申请实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本申请实施方式所提供的方法。
本发明第五实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (11)

1.一种文本分类方法,其特征在于,包括:
提取待分类文本的文本特征;其中,所述待分类文本的文本特征由所述待分类文本中任意M个字符组成,M为大于1的正整数,在所述待分类文本中提取出的所述字符的间隔为N,N为小于所述待分类文本中所述字符总个数且大于或等于0的整数;
确定每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率;
根据每个所述待分类文本的文本特征在各个类别的语料中的词频-逆文档频率,确定所述待分类文本属于各个类别的置信度;
根据所述待分类文本属于各个类别的置信度,确定所述待分类文本的类别;
其中,所述确定每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率,具体包括:
针对每个所述待分类文本的文本特征,分别进行以下操作:根据组成所述待分类文本的文本特征中每个字符的字符特征,调整所述待分类文本的文本特征中每个字符的先后排序;确定调整后的文本特征在各个类别的语料中的词频-逆文档频率;将所述调整后的文本特征在各个类别的语料中的词频-逆文档频率,作为所述待分类文本的文本特征在各个类别的语料中的词频-逆文档频率。
2.根据权利要求1所述的文本分类方法,其特征在于,在所述确定调整后的文本特征在各个类别的语料中的词频-逆文档频率之前,所述文本分类方法还包括:
确定在总文本特征库中存在所述调整后的文本特征;其中,所述总文本特征库中包括所有类别的语料中的文本特征。
3.根据权利要求1所述的文本分类方法,其特征在于,所述字符特征为字符的美国信息交换标准代码ASCII。
4.根据权利要求1所述的文本分类方法,其特征在于,所述确定调整后的文本特征在各个类别的语料中的词频-逆文档频率,具体包括:
在确定所述调整后的文本特征在一个类别的语料中的词频-逆文档频率的过程中,确定所述类别的语料的文本特征中与所述调整后的文本特征相匹配的文本特征,将所述相匹配的文本特征的词频-逆文档频率,作为所述调整后的文本特征的词频-逆文档频率。
5.根据权利要求1所述的文本分类方法,其特征在于,M等于2。
6.根据权利要求1所述的文本分类方法,其特征在于,所述根据每个所述待分类文本的文本特征在各个类别的语料中的词频-逆文档频率,确定所述待分类文本属于各个类别的置信度,具体包括:
针对每个类别,分别进行以下操作:确定每个所述待分类文本的文本特征在所述类别的语料中出现的次数;根据每个所述待分类文本的文本特征在所述类别的语料中的词频-逆文档频率和所述每个所述待分类文本的文本特征在所述类别的语料中出现的次数,确定所述待分类文本相对于所述类别的类条件概率;根据所述待分类文本相对于所述类别的类条件概率,确定所述待分类文本属于所述类别的置信度。
7.根据权利要求6所述的文本分类方法,其特征在于,所述根据所述待分类文本相对于所述类别的类条件概率,确定所述待分类文本属于所述类别的置信度,具体包括:
确定所述类别出现的概率;
根据所述待分类文本相对于所述类别的类条件概率和所述类别出现的概率,确定所述待分类文本与所述类别的联合概率;
将所述待分类文本与所述类别的联合概率,作为所述待分类文本属于所述类别的置信度。
8.根据权利要求6所述的文本分类方法,其特征在于,所述类别出现的概率等于所述类别的语料的数量除以所有类别的语料的总数量。
9.一种文本分类装置,其特征在于,包括:提取模块、第一确定模块、第二确定模块和第三确定模块;
所述提取模块用于提取待分类文本的文本特征;其中,所述待分类文本的文本特征由所述待分类文本中任意M个字符组成,M为大于1的正整数,在所述待分类文本中提取出的所述字符的间隔为N,N为小于所述待分类文本中所述字符总个数且大于或等于0的整数;
所述第一确定模块用于确定每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率;
所述第二确定模块用于根据每个所述待分类文本的文本特征在各个类别的语料中的词频-逆文档频率,确定所述待分类文本属于各个类别的置信度;
所述第三确定模块用于根据所述待分类文本属于各个类别的置信度,确定所述待分类文本的类别;
其中,所述确定每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率,具体包括:
针对每个所述待分类文本的文本特征,分别进行以下操作:根据组成所述待分类文本的文本特征中每个字符的字符特征,调整所述待分类文本的文本特征中每个字符的先后排序;确定调整后的文本特征在各个类别的语料中的词频-逆文档频率;将所述调整后的文本特征在各个类别的语料中的词频-逆文档频率,作为所述待分类文本的文本特征在各个类别的语料中的词频-逆文档频率。
10.一种终端,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任一所述的文本分类方法。
11.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的文本分类方法。
CN201811183892.8A 2018-10-11 2018-10-11 一种文本分类方法、装置、终端及计算机可读存储介质 Active CN109446321B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811183892.8A CN109446321B (zh) 2018-10-11 2018-10-11 一种文本分类方法、装置、终端及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811183892.8A CN109446321B (zh) 2018-10-11 2018-10-11 一种文本分类方法、装置、终端及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109446321A CN109446321A (zh) 2019-03-08
CN109446321B true CN109446321B (zh) 2021-08-27

Family

ID=65545351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811183892.8A Active CN109446321B (zh) 2018-10-11 2018-10-11 一种文本分类方法、装置、终端及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109446321B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307205A (zh) * 2020-10-22 2021-02-02 首都师范大学 基于自动摘要的文本分类方法、系统及计算机存储介质
CN113539272A (zh) * 2021-09-13 2021-10-22 腾讯科技(深圳)有限公司 一种语音识别方法、装置、存储介质和电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183183B (zh) * 2015-08-24 2017-11-28 吉首大学 一种方块苗文的音形结合快速输入编码及其优化方法
CN107844559A (zh) * 2017-10-31 2018-03-27 国信优易数据有限公司 一种文件分类方法、装置及电子设备
CN108255813B (zh) * 2018-01-23 2021-11-16 重庆邮电大学 一种基于词频-逆文档与crf的文本匹配方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法

Also Published As

Publication number Publication date
CN109446321A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN109388795B (zh) 一种命名实体识别方法、语言识别方法及系统
CN106951422B (zh) 网页训练的方法和装置、搜索意图识别的方法和装置
CN107085581B (zh) 短文本分类方法和装置
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
CN108710611B (zh) 一种基于词网络和词向量的短文本主题模型生成方法
CN109271514B (zh) 短文本分类模型的生成方法、分类方法、装置及存储介质
Lee et al. Chinese sentiment analysis using maximum entropy
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN111177375B (zh) 一种电子文档分类方法及装置
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
CN109993216B (zh) 一种基于k最近邻knn的文本分类方法及其设备
CN109446321B (zh) 一种文本分类方法、装置、终端及计算机可读存储介质
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN111325033A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
US10970488B2 (en) Finding of asymmetric relation between words
US11281714B2 (en) Image retrieval
CN112528653B (zh) 短文本实体识别方法和系统
CN111523311B (zh) 一种搜索意图识别方法及装置
Jang et al. A novel density-based clustering method using word embedding features for dialogue intention recognition
CN112446405A (zh) 一种家电客服的用户意图引导方法及智能家电
CN111985212A (zh) 文本关键字识别方法、装置、计算机设备及可读存储介质
CN109284392B (zh) 一种文本分类方法、装置、终端及存储介质
CN109325237B (zh) 用于机器翻译的完整句识别方法与系统
CN111444712A (zh) 一种关键词提取方法、终端、计算机可读存储介质
CN110874408A (zh) 模型训练方法、文本识别方法、装置及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210207

Address after: 200245 2nd floor, building 2, no.1508, Kunyang Road, Minhang District, Shanghai

Applicant after: Dalu Robot Co.,Ltd.

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant before: Shenzhen Qianhaida Yunyun Intelligent Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 201111 Building 8, No. 207, Zhongqing Road, Minhang District, Shanghai

Patentee after: Dayu robot Co.,Ltd.

Address before: 200245 2nd floor, building 2, no.1508, Kunyang Road, Minhang District, Shanghai

Patentee before: Dalu Robot Co.,Ltd.