发明内容
本发明实施方式的目的在于提供一种文本分类方法、装置、终端及计算机可读存储介质,使得能够针对同一语料,通过提取距离更长的文本特征的方法,得到更多文本特征,降低了对语料的规模的要求。
为解决上述技术问题,本发明的实施方式提供了一种文本分类方法,包括以下步骤:提取待分类文本的文本特征;其中,待分类文本的文本特征由待分类文本中任意M个字符组成,M为大于1的正整数;确定每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率;根据每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率,确定待分类文本属于各个类别的置信度;根据待分类文本属于各个类别的置信度,确定待分类文本的类别。
本发明的实施方式还提供了一种文本分类装置,包括:提取模块、第一确定模块、第二确定模块和第三确定模块;提取模块用于提取待分类文本的文本特征;其中,待分类文本的文本特征由待分类文本中任意M个字符组成,M为大于1的正整数;第一确定模块用于确定每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率;第二确定模块用于根据每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率,确定待分类文本属于各个类别的置信度;第三确定模块用于根据待分类文本属于各个类别的置信度,确定待分类文本的类别。
本发明的实施方式还提供了一种终端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上述实施方式提及的文本分类方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述实施方式提及的文本分类方法。
本发明实施方式相对于现有技术而言,提取的文本特征由待分类文本中任意M个字符组成即可,不要求组成文本特征的M个字符相邻,使得文本分类装置能够提取到距离更长的文本特征,进而使得文本分类装置能够针对同一待分类文本提取得到更多的文本特征。由于能够提取到更多的文本特征,使得文本分类装置能够更准确的对待分类文本进行分类,提高了分类的准确性。除此之外,文本分类装置基于文本特征的词频-逆文档频率对文本进行分类,相对于其他机器学习方法,不需要训练模型,降低了对语料的规模的要求。
另外,确定每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率,具体包括:针对每个待分类文本的文本特征,分别进行以下操作:根据组成待分类文本的文本特征中每个字符的字符特征,调整待分类文本的文本特征中每个字符的先后排序;确定调整后的文本特征在各个类别的语料中的词频-逆文档频率;将调整后的文本特征在各个类别的语料中的词频-逆文档频率,作为待分类文本的文本特征在各个类别的语料中的词频-逆文档频率。该实现中,基于字符特征对提取的文本特征进行无序化处理,提高了同一文本特征与类别的相关性,进一步提高了文本分类装置对文本分类的准确性。
另外,在确定调整后的文本特征在各个类别的语料中的词频-逆文档频率之前,文本分类方法还包括:确定在总文本特征库中存在调整后的文本特征;其中,总文本特征库中包括所有类别的语料中的文本特征。该实现中,在总文本特征库中存在调整后的文本特征后,再确定该调整后的文本特征的词频-逆文档频率,提高了文本分类的效率。
另外,字符特征为字符的美国信息交换标准代码ASCII。
另外,确定调整后的文本特征在各个类别的语料中的词频-逆文档频率,具体包括:在确定调整后的文本特征在一个类别的语料中的词频-逆文档频率的过程中,确定该类别的语料的文本特征中与调整后的文本特征相匹配的文本特征,将相匹配的文本特征的词频-逆文档频率,作为调整后的文本特征的词频-逆文档频率。
另外,M等于2。该实现中,文本分类装置基于字对进行文本分类,在保证特征空间足够大的情况下,避免提取的文本特征过于稀疏,进一步降低了对语料的规模的要求。
另外,根据每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率,确定待分类文本属于各个类别的置信度,具体包括:针对每个类别,分别进行以下操作:确定每个待分类文本的文本特征在该类别的语料中出现的次数;根据每个待分类文本的文本特征在该类别的语料中的词频-逆文档频率和每个待分类文本的文本特征在该类别的语料中出现的次数,确定待分类文本相对于该类别的类条件概率;根据待分类文本相对于该类别的类条件概率,确定待分类文本属于该类别的置信度。
另外,根据待分类文本相对于该类别的类条件概率,确定待分类文本属于该类别的置信度,具体包括:确定该类别出现的概率;根据待分类文本相对于该类别的类条件概率和类别出现的概率,确定待分类文本与该类别的联合概率;将待分类文本与该类别的联合概率,作为待分类文本属于该类别的置信度。
另外,类别出现的概率等于该类别的语料的数量除以所有类别的语料的总数量。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
需要说明的是,本发明的实施方式可以应用于与自然语言处理、文本分类、意图识别、等相关的终端和系统,本实施方式不限制文本分类方法的应用场景。
本发明的第一实施方式涉及一种文本分类方法,应用于文本分类装置,具体流程如图1所示。
步骤101:提取待分类文本的文本特征。
具体地说,待分类文本的文本特征由待分类文本中任意M个字符组成,M为大于1的正整数。一个具体实现中,M等于2,假设待分类文本为“唱首歌吧!”,提取得到的文本特征为“唱首”、“唱歌”、“唱吧”、“唱!”、“首歌”、“首吧”、“首!”、“歌吧”、“歌!”和“吧!”。
值得一提的是,以待分类文本“唱首歌吧!”为例,使用本实施方式提供的文本分类方法后,可以提取到10个文本特征,当使用基于二元字的TF-IDF模型提取文本特征时,仅能提取到4个文本特征:“唱首”、“首歌”、“歌吧”、“吧!”。由此可见,使用本实施方式提供的文本分类方法,使得文本分类装置能够提取距离更远的文本特征,进而得到更多的文本特征。由于文本分类装置能够针对同一语料能够提取更多的文本特征,降低了语料的规模的要求。
步骤102:确定每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率。
具体地说,针对每个待分类文本的文本特征,文本分类装置确定该文本特征在一个类别的语料中的词频-逆文档频率的过程中,确定该类别的语料的文本特征中与该文本特征相匹配的文本特征,将相匹配的文本特征的词频-逆文档频率,作为该文本特征的词频-逆文档频率。其中,语料的文本特征由该语料的每句话的文本特征组成,每句话的文本特征由该句的任意M个字符组成。
以下对文本分类装置统计每个类别的语料的文本特征的词频-逆文档频率的过程进行举例说明。
文本分类装置根据句号、问号、感叹号和分号等标点符号,将某一类别的语料中的文本分割为若干句子,提取每个句子中的文本特征,句子的文本特征由该句子中任意M个字符组成。根据提取的文本特征,分别为各个类别建立文本特征库。文本分类装置分别在各个类别下,统计各个文本特征的频率。文本分类装置统计各文本特征的逆文档频率,即总类别数与包含该文本特征的类别数之商的自然对数值,并在各个类别下,分别计算各文本特征的词频-逆文档频率。具体实现中,文本分类装置按照公式1计算词频-逆文档频率。
公式1中:TF-IDFi,j为文本特征i在类别j的语料中的词频-逆文档频率,TFi,j为文本特征i在类别j的语料中出现的频率;IDFi为文本特征i的逆文档频率,反映文本特征i对类别j置信度的影响程度,ni,j为文本特征i在类别j中出现的次数,∑knk,j为所有文本特征在类别j中出现的总次数,|d|为总类别数,|j:ti∈dj|为包含文本特征i的类别数。
步骤103:根据每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率,确定待分类文本属于各个类别的置信度。
具体实现中,文本分类装置确定待分类文本属于各个类别的置信度的过程如下:文本分类装置针对每个类别,分别进行以下操作:确定每个待分类文本的文本特征在该类别的语料中出现的次数;根据每个该待分类文本的文本特征在该类别的语料中的词频-逆文档频率和每个待分类文本的文本特征在该类别的语料中出现的次数,确定待分类文本相对于该类别的类条件概率;根据待分类文本相对于该类别的类条件概率,确定该待分类文本属于该类别的置信度。具体实现中,文本分类装置按照公式2计算待分类文本相对于某个类别的类条件概率。
Px|j=exp(∑iln(Ni×(TF-IDFi,j)+ε)/∑iNi)公式2;
公式2中,Px|j为待分类文本x相对于类别j的类条件概率;Ni为待分类文本x中文本特征i的出现的次数,ε是常数,接近于0。
需要说明的是,本实施方式中,充分考虑到长句子得到的文本特征更多,为弱化句子长度的影响,将对数值之和除以待分类文本中文本特征的总数目,本领域技术人员可以理解,实际应用中,也可以通过其他方式计算待分类文本相对于该类别的类条件概率。
以下对文本分类装置确定根据待分类文本x相对于类别j的类条件概率,确定该待分类文本x属于类别j的置信度的方法进行说明。文本分类装置将类别j的语料的数量除以所有类别的语料的总数量,作为类别j出现的概率。文本分类装置根据待分类文本x相对于类别j的类条件概率和类别j出现的概率,确定待分类文本x与类别j的联合概率,将待分类文本x与类别j的联合概率,作为待分类文本x属于类别j的置信度。具体实现中,文本分类装置按照公式3计算待分类文本x与类别j的联合概率。
Pj,x=Pj×Px|j公式3;
公式3中,Pj,x为待分类文本x与类别j的联合概率,Pj为类别j出现的概率,Px|j为待分类文本x相对于类别j的类条件概率。
步骤104:根据待分类文本属于各个类别的置信度,确定待分类文本的类别。
具体地说,文本分类装置将待分类文本属于各个类别的置信度中,置信度最大的类别作为待分类文本的类别。
需要说明的是,实际应用中,可以通过朴素贝叶斯分类器或其他类型的分类器实现上述文本分类的方法。
需要说明的是,以上仅为举例说明,并不对本发明的技术方案构成限定。
与现有技术相比,本实施方式中提供的文本分类方法,提取的文本特征是由待分类文本中任意M个字符组成即可,不要求组成文本特征的M个字符相邻,使得文本分类装置能够提取到距离更长的文本特征,进而使得文本分类装置能够针对同一待分类文本提取得到更多的文本特征。由于能够提取到更多的文本特征,使得文本分类装置能够更准确的对待分类文本进行分类,提高了分类的准确性。除此之外,文本分类装置基于文本特征的词频-逆文档频率对文本进行分类,相对于其他机器学习方法,不需要训练模型,降低了对语料的规模的要求。
本发明的第二实施方式涉及一种文本分类方法,本实施方式是对第一实施方式的进一步细化,具体说明了步骤102。本实施方式的步骤102中,对待分类文本的文本特征进行无序化处理。
具体的说,如图2所示,在本实施方式中,包括步骤201至步骤204,其中,步骤201、步骤203和步骤204分别与第一实施方式的步骤101、步骤103和步骤104大致相同,此处不再赘述,下面主要介绍不同之处:
步骤201:提取待分类文本的文本特征。
步骤202:针对每个待分类文本的文本特征,分别进行以下操作:根据组成待分类文本的文本特征中每个字符的字符特征,调整待分类文本的文本特征中每个字符的先后排序;确定调整后的文本特征在各个类别的语料中的词频-逆文档频率;将调整后的文本特征在各个类别的语料中的词频-逆文档频率,作为待分类文本的文本特征在各个类别的语料中的词频-逆文档频率。
以下结合一个待分类文本的文本特征举例说明文本分类装置对待分类文本的文本特征进行无序化处理的过程。字符特征以字符的美国信息交换标准代码(AmericanStandard Code for Information Interchange,ASCII)为例,假设待分类文本的文本特征是“歌唱”,文本分类装置通过查询“歌”字的ASCII码和“唱”字的ASCII码,发现唱字的ASCII码位于“歌”字的ASCII码前面,故将待分类文本的文本特征“歌唱”调整为“唱歌”。
值得一提的是,文本分类装置将文本特征AB与文本特征BA统一调整为文本特征AB(假设根据字符特征,A位于B前面),使得在相同的语料规模下,增加了文本特征AB在语料的文本特征中出现的次数,进而增加了文本特征AB在类别中的词频,增加了文本特征AB与类别的相关性。因此,基于字符特征对提取的文本特征进行无序化处理,提高了同一文本特征与类别的相关性,进一步提升了文本分类装置在小规模语料上的文本分类效果。
需要说明的是,本领域技术人员可以理解,字符特征可以是ASCII码,也可以是字符的其他能够唯一标识字符的字符特征。
具体实现中,文本分类装置确定调整后的文本特征在各个类别的语料中的词频-逆文档频率的过程如下:在确定所述调整后的文本特征在一个类别的语料中的词频-逆文档频率的过程中,确定该类别的语料的文本特征中与调整后的文本特征相匹配的文本特征,将相匹配的文本特征的词频-逆文档频率,作为调整后的文本特征的词频-逆文档频率。
具体实现中,文本分类装置在确定调整后的文本特征在各个类别的语料中的词频-逆文档频率之前,确定在总文本特征库中存在调整后的文本特征。其中,总文本特征库中包括所有类别的语料中的文本特征。
值得一提的是,在确定总文本特征库中存在调整后的文本特征后,再确定该调整后的文本特征的词频-逆文档频率,提高了文本分类的效率。例如,对于文本特征“请谢”,由于总文本特征库中包括所有类别的语料中的文本特征,若总文本特征库中不包括“请谢”,说明所有类别的语料中均无法提取到文本特征“请谢”,即可直接确定“请谢”在所有类别中的词频-逆文档频率均为0,在确定文本特征中不存在“请谢”后,不再对每个类别中查询“请谢”的词频-逆文档频率,可以减少文本分类装置的查询次数,进而提高了文本分类的效率。
执行步骤203至步骤204。
需要说明的是,以上仅为举例说明,并不对本发明的技术方案构成限定。
与现有技术相比,本实施方式中提供的文本分类方法,提取的文本特征是由待分类文本中任意M个字符组成即可,不要求组成文本特征的M个字符相邻,使得文本分类装置能够提取到距离更长的文本特征,进而使得文本分类装置能够针对同一待分类文本提取得到更多的文本特征。由于能够提取到更多的文本特征,使得文本分类装置能够更准确的对待分类文本进行分类,提高了分类的准确性。除此之外,文本分类装置基于文本特征的词频-逆文档频率对文本进行分类,相对于其他机器学习方法,不需要训练模型,降低了对语料规模的要求。除此之外,基于字符特征对提取的文本特征进行无序化处理,提高了同一文本特征与类别的相关性,进一步提高了文本分类装置对文本分类的准确性。在总文本特征库中存在调整后的文本特征后,再确定该调整后的文本特征的词频-逆文档频率,提高了文本分类的效率。
以下以本实施方式的文本分类的方法在人机对话中的应用为例,说明本实施方式的文本分类方法在具体场景中的使用方法。在人机对话中文本分类方法的使用方法的示意图如图3所示,首先,用户输入语句,即输入待分类文本。机器中的文本分类装置根据预先进行的语料统计,基于本实施方式提供的文本分类方法,确定用户输入的语句对应于对话意图的候选集中的哪种对话意图,进而使得机器能够根据确定的对话意图进行语义理解及回复。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施方式涉及一种文本分类装置,如图4所示,包括:提取模块401、第一确定模块402、第二确定模块403和第三确定模块404;提取模块401用于提取待分类文本的文本特征;其中,待分类文本的文本特征由待分类文本中任意M个字符组成,M为大于1的正整数。第一确定模块402用于确定每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率。第二确定模块403用于根据每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率,确定待分类文本属于各个类别的置信度。第三确定模块404用于根据待分类文本属于各个类别的置信度,确定待分类文本的类别。
不难发现,本实施方式为与第一实施方式相对应的系统实施例,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明第四实施方式涉及一种终端,如图5所示,包括:至少一个处理器501;以及,与至少一个处理器501通信连接的存储器502;其中,存储器502存储有可被至少一个处理器501执行的指令,指令被至少一个处理器501执行,以使至少一个处理器501能够执行如上述实施方式提及的文本分类方法。
该终端包括:一个或多个处理器501以及存储器502,图5中以一个处理器501为例。处理器501、存储器502可以通过总线或者其他方式连接,图5中以通过总线连接为例。存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器501通过运行存储在存储器502中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述文本分类方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器502中,当被一个或者多个处理器501执行时,执行上述任意方法实施方式中的文本分类方法。
上述产品可执行本申请实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本申请实施方式所提供的方法。
本发明第五实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。