CN109885688A

CN109885688A - 文本分类方法、装置、计算机可读存储介质和电子设备

Info

Publication number: CN109885688A
Application number: CN201910163833.2A
Authority: CN
Inventors: 黄海荣; 李林峰
Original assignee: Hubei Ecarx Technology Co Ltd
Current assignee: Ecarx Hubei Tech Co Ltd
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2019-06-14
Anticipated expiration: 2039-03-05
Also published as: CN109885688B

Abstract

本发明提供了一种文本分类方法、装置、计算机可读存储介质和电子设备；该方法包括：对待分类的文本进行词语划分，得到多个分词及每个分词的词语属性，词语属性包括至少一个类型属性及与每个类型属性对应的热度属性；根据句式数据库按照每个分词的长度及每个分词的类型属性对文本进行句式匹配，得到多个匹配句式；其中，每个匹配句式包括匹配到的多个分词、匹配到的每个分词的目标热度属性、句式分数和句式类别；根据每个匹配句式中包含分词的个数、分词的目标热度属性及句式分数，从多个匹配句式中确定目标句式；将目标句式所属的句式类别确定为文本的分类结果。可以在对识别出的文本进行类别判断时，提高对类别判别的准确度和用户的体验感。

Description

文本分类方法、装置、计算机可读存储介质和电子设备

技术领域

本发明涉及人工智能算法技术领域，尤其是涉及一种文本分类方法、装置、计算机可读存储介质和电子设备。

背景技术

在对用户输入的语音进行类别判断时，首先将语音转换为文本，而该文本一般是短文本，短文本通常是指长度较短，一般不超过160个字符的文本形式，如微博、聊天信息、新闻主题、问题文本、手机短信等。对短文本分类的目的是自动对识别出的短文本进行处理，得到有价值的输出。在Chatbot(聊天机器人)的构建过程中，对用户的意图进行识别是比较重要的一个部分，而意图识别的核心问题是如何对短文本进行分类。以短文本为例，对短文本分类方法通常有基于规则的模型、基于统计的模型和基于神经网络的模型，例如基于规则的模型有构建语法树、正则匹配和词典匹配等；基于统计的模型有TF-IDF(termfrequency–inverse document frequency，信息检索数据挖掘的常用加权技术)、SVM(Support Vector Machine，支持向量机)等。

当在嘈杂的环境中，例如汽车内的周边环境比较复杂，包括发动机引擎声、风声、鸣笛声等，会对语音识别产生影响，降低识别率。例如，用户说“我要听刘德华的忘情水”，但是识别成了“我刘德华的忘情水”少了“要听”两个字，对用户输入的短文本很难进行分类，这样很难识别出用户真正的意图，导致用户体验很差。

发明内容

有鉴于此，本发明的目的在于提供一种文本分类方法、装置、计算机可读存储介质和电子设备，以在对识别出的文本进行类别判断时，提高对类别判别的准确度和用户的体验感。

第一方面，本发明实施例提供了一种文本分类方法，该方法包括：对待分类的文本进行词语划分，得到多个分词及每个分词的词语属性，词语属性包括至少一个类型属性及与每个类型属性对应的热度属性；根据句式数据库按照每个分词的长度及每个分词的类型属性对文本进行句式匹配，得到多个匹配句式；其中，每个匹配句式包括匹配到的多个分词、匹配到的每个分词的目标热度属性、句式分数和所属的句式类别，分词的目标热度属性为该分词的热度属性之一；根据每个匹配句式中包含分词的个数、分词的目标热度属性及句式分数，从多个匹配句式中确定目标句式；将目标句式所属的句式类别确定为文本的分类结果。

进一步地，上述对待分类的文本进行词语划分，包括：按照分词词典对待分类的文本进行词语划分；其中，上述分词词典包括多个分词及每个分词的词语属性。

进一步地，上述根据句式数据库按照每个分词的长度及每个分词的类型属性对文本进行句式匹配，得到多个匹配句式，包括：根据句式数据库按照每个分词的类型属性对文本进行句式匹配，得到多个初始句式；其中，初始句式包括匹配到的多个分词、匹配到的每个分词的目标热度属性、句式分数和所属的句式类别；获取各个初始句式中各个分词的分词长度；在每个初始句式中，根据各个分词的分词长度确定初始句式的句式长度；根据各个初始句式的句式长度大小从多个初始句式中筛选出设定数量个作为匹配句式。

进一步地，上述根据各个初始句式的句式长度大小从多个初始句式中筛选出设定数量个作为匹配句式，包括：按照句式长度从大到小的顺序对各个初始句式进行排序；将排名靠前的设定数量个初始句式作为匹配句式。

进一步地，上述根据每个匹配句式中包含分词的个数、分词的目标热度属性及句式分数，从多个匹配句式中确定目标句式，包括：根据每个匹配句式中包含分词的个数、分词的目标热度属性及句式分数，计算每个匹配句式的总得分值；将最高总得分值对应的匹配句式确定为目标句式。

进一步地，上述根据每个匹配句式中包含分词的个数、分词的目标热度属性及句式分数，计算每个匹配句式的总得分值，包括：对每个匹配句式作如下总得分值计算：根据匹配句式中包含分词的个数及分词权重，确定第一分数值；根据匹配句式对应的句式分数及句式权重，确定第二分数值；根据匹配句式中包含的各个分词的目标热度属性及热度权重，确定第三分数值；根据第一分数值、第二分数值和第三分数值计算得到该匹配句式的总得分值。

第二方面，本发明实施例提供了一种文本分类装置，该装置包括：划分模块，用于对待分类的文本进行词语划分，得到多个分词及每个分词的词语属性，词语属性包括至少一个类型属性及与每个类型属性对应的热度属性；匹配模块，用于根据句式数据库按照每个分词的长度及每个分词的类型属性对文本进行句式匹配，得到多个匹配句式；其中，每个匹配句式包括匹配到的多个分词、匹配到的每个分词的目标热度属性、句式分数和所属的句式类别，分词的目标热度属性为该分词的热度属性之一；确定模块，用于根据每个匹配句式中包含分词的个数、分词的目标热度属性及句式分数，从多个匹配句式中确定目标句式；分类模块，用于将目标句式所属的句式类别确定为文本的分类结果。

进一步地，上述确定模块包括：计算单元，用于根据每个匹配句式中包含分词的个数、分词的目标热度属性及句式分数，计算每个匹配句式的总得分值；确定单元，用于将最高总得分值对应的匹配句式确定为目标句式。

第三方面，本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面中所述的方法的步骤。

第四方面，本发明实施例提供了一种电子设备，包括存储器、处理器，存储器中存储有可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述第一方面中所述的方法的步骤。

本发明实施例带来了以下有益效果：

本发明实施例提供了一种文本分类方法、装置、计算机可读存储介质和电子设备，该方法包括：对待分类的文本进行词语划分，得到多个分词及每个分词的词语属性，词语属性包括至少一个类型属性及与每个类型属性对应的热度属性；根据句式数据库按照每个分词的长度及每个分词的类型属性对文本进行句式匹配，得到多个匹配句式；其中，每个匹配句式包括匹配到的多个分词、匹配到的每个分词的目标热度属性、句式分数和所属的句式类别，分词的目标热度属性为该分词的热度属性之一；根据每个匹配句式中包含分词的个数、分词的目标热度属性及句式分数，从多个匹配句式中确定目标句式；将目标句式所属的句式类别确定为文本的分类结果。

在识别用户输入的语音，将语音转换为文本时很容易发生错误，所以根据分词的类型属性得到的匹配句式中确定目标句式，并将目标句式所属的句式类别确定为用户输入的文本的分类结果，可以提高对文本分类判别的准确度，有助于提高判断用户意图的准确性，提高用户的体验感。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种文本分类方法的流程图；

图2为本发明实施例提供的另一种文本分类方法的流程图；

图3为本发明实施例提供的另一种文本分类方法的流程图；

图4为本发明实施例提供的另一种文本分类方法的流程图；

图5为本发明实施例提供的一种文本分类装置的结构示意图；

图6为本发明实施例提供的另一种文本分类装置的结构示意图；

图7为本发明实施例提供的一种电子设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在嘈杂的环境中，对用户输入的语音识别度很低，导致在语音转换为文本时容易出现错误，包括多字少字或者错误的文字等，所以在确定文本的类别时会出错，影响准确确定用户的意图。基于此，本发明实施例提供了一种文本分类方法、装置、计算机可读存储介质和电子设备，该方法可以由对文本进行分类的电子设备执行，可以在对识别出的文本进行类别判断时，提高对类别判别的准确度和用户的体验感。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种文本分类方法进行详细介绍。

如图1所示，本发明实施例提供了一种文本分类方法，该方法包括以下步骤：

步骤S102，对待分类的文本进行词语划分，得到多个分词及每个分词的词语属性，该词语属性包括至少一个类型属性及与每个类型属性对应的热度属性。

在使用语音助手时，先获取用户语音，并将该语音转换成中文文本，本发明针对中文文本进行举例说明，在实际应用中并不限于中文文本。对转换的中文文本进行预处理，其中，预处理包括去停词、去特殊符号、敏感词过滤和长度限制等，得到预处理后的中文文本。

待分类的文本也就是预处理后的中文文本，此时的文本可能是缺少字的，比如用户原本输入的语音为“我要听刘德华的歌”但是却识别成了“我刘德华的歌”或者是其他错误文本。不管识别出的文本是什么样的，只需按照分词词典对待分类的文本进行词语划分，词语划分算法包括逆向最大匹配、N-最短路径或N-Gram模型等。

其中，分词词典是预先从大规模的训练语料中提取并进行保存，同时将词语的词频统计出来得到的，所以分词词典中包括多个分词及每个分词的词语属性，词语属性包括至少一个类型属性和与每个类型属性对应的热度属性。具体地，分词的类型属性可以包括歌手名、歌曲名、城市名、国家名、电台主持人、百科人物、形容词、数量词、烟草品牌、前缀和后缀等。同一个分词可以具有多个类型属性，例如“刘德华”对应的类型属性包括歌手名、百科人物和电台主持人等。需要说明的是，虽然一个分词可以具有多个类型属性，但是在后续进行句式匹配时其中一些类型属性可能匹配不上。热度属性与分词的类型属性相对应，且热度属性可以由热度值来定量表征。基于热度属性可以将分词分为热词、非热词和中性词三类，热词对应的热度值为正数，非热词对应的热度值为负数，中性词对应的热度值为0。可选地，根据每个类型属性下词语的词频确定分词的热度值，例如，“南京”是个众所周知的城市名，当其类型属性为[城市名]时，它的热度值就设置得很高，若总分值为10分，则可以设置“南京”对应于[城市名]的热度值为9分(仅为示例，下同)；当其类型属性为[烟草品牌]时，它的热度值可以设置为0；当其类型属性为[歌曲名]时，它的热度值可以设置为-5。即分词的热度越高，对应的热度值就越高。对于热度值的设定可由额外的系统定期更新或者由人工进行整理。

需要说明的是某些分词可能仅有一个类型属性，与该类型属性对应的热度值可能为正数、负数或0中的任一种；另外一些分词可能具有多个类型属性，而这多个类型属性对应的热度值可能相同，也可能不同。

下面举例说明对文本进行划分的方式：

比如文本为“小明看到湖岸上的花草，一株不知名的小花引起了他的注意”，对于这个文本中的“湖岸”、“花草”、“不知名”等，不同的词语界定方式就会出现不一样的分词结果，只要分词词典中出现的分词都可以作为词语划分的一个最小单元，如我们可以划分成以下几种形式：

1、“小明/看到/湖岸/上/的/花草/，一株/不知名/的/小花/引起/了/他的/注意”；

2、“小明/看到/湖/岸/上/的/花/草，一株/不/知名/的/小花/引起了/他的/注意”；

3、“小明/看到/湖岸/上的/花/草，一株/不知名的/小花/引起了/他的/注意”。

或者，对“南京市长江大桥”进行词语划分，可得到的分词有：南京、市长、南京市长、南京市、长江大桥、江大桥。

上述可知，不同的词语界定方式就会出现不一样的分词结果，从而得到多个分词及每个分词的词语属性；例如，“南京市”[城市名][9分]，其中，[城市名]为类型属性，[9分]为“南京市”对应于[城市名]的热度属性的热度值。

步骤S104，根据句式数据库按照每个分词的长度及每个分词的类型属性对文本进行句式匹配，得到多个匹配句式；其中，每个匹配句式包括匹配到的多个分词、匹配到的每个分词的目标热度属性、句式分数和所属的句式类别，分词的目标热度属性为该分词的热度属性之一。

在一些可能的实施例中，如图2所示，上述步骤S104包括如下几个子步骤：

步骤S202，根据句式数据库按照每个分词的类型属性对文本进行句式匹配，得到多个初始句式；其中，初始句式包括匹配到的多个分词、匹配到的每个分词的目标热度属性、句式分数和所属的句式类别。

上述句式数据库可以是用户预设的，句式数据库中包括多个句式，而每个句式都预设有句式类别及对应的句式分数。句式类别即描述每一个句子的意图类型，句式类别可以包括导航、音乐、新闻、股票、天气、笑话、翻译、百度百科、广播电台、地点等。用户强意图的句式分数高，用户弱意图的句式分数低，也就是说句式类别不同，其句式分数不同。

另外，由于一个句式中匹配到的每个分词的类型属性是确定的，所以匹配到的每个分词在该句式中的热度属性(目标热度属性)是确定的。例如，在分词词典中“刘德华”既是歌手也是百科人物，对应于[歌手]的热度值设置为10分，对应于[百科人物]的热度值设置为0分，如果在某句式中“刘德华”的类型属性为[歌手]，则确定该句式中“刘德华”的目标热度属性为[10分]。

比如句式数据库中有如下句式：

句式1：[前缀]+[歌手名]+[歌曲名]

句式2：[前缀]+[歌手名]

句式3：[前缀]+[歌曲名]

句式4：[歌手名]

句式5：[百科人物]

句式6：[歌曲名]

句式7：[城市名]

其中，句式1、句式2和句式3这几个句式有包含[前缀]以及[歌手名]和/或[歌曲名]，所以他们的句式类别都可以是[音乐]；句式5包含[百科人物]，其句式类别为[百度百科]；句式4和句式6仅包含[歌手名]或[歌曲名]，所以他们的句式类别可以是[音乐]或[百度百科]；仅包含[城市名]的句式7的句式类别可能是[百度百科]或[地点]。

由此可见，多个句式可以对应同一个句式类别，而对于某一些句式其可能会包括多种句式类别。通常对于具有单个分词的句式，其句式类别会有多种，而对于加有[前缀]的句式，其句式类别会比较单一。例如，在句式7中增加[前缀]，即对于句式：[前缀]+[城市名]，其句式类别可以认定为[地点]。

将待分类的文本的各个分词与句式数据库对应的各个分词的类型属性进行匹配，例如，在句式数据库中，分词“刘德华”对应的分词类型属性会匹配到[歌手][百科人物]这两个分词结果，分词“我要听”对应的分词类型属性只能匹配到[前缀]这个分词结果，可以这样理解，每个分词可匹配到的分词类型的个数是不确定的，所以对于文本“我要听刘德华的忘情水”可得到的分词结果包括：

分词1：“我要听”[前缀]

分词2：“刘德华”[歌手名]

分词3：“刘德华”[百科人物]

分词4：“忘情水”[歌曲名]

根据句式数据库中的句式，把得到的分词分别匹配到下列组合中，得到多个初始句式：

组合1：“我要听”[前缀]+“刘德华”[歌手名]

组合2：“我要听”[前缀]+“刘德华”[歌手名]+“忘情水”[歌曲名]

组合3：“我要听”[前缀]+“忘情水”[歌曲名]

组合4：“刘德华”[歌手名]“我要听”[前缀]+“忘情水”[歌曲名]

组合5：“刘德华”[百科人物]

组合6：“忘情水”[歌曲名]

所以得到的初始句式包括组合1、组合2、组合3、组合4、组合5和组合6。

步骤S204，获取各个初始句式中各个分词的分词长度。

在每个初始句式中可能会包含多个分词，确定每个初始句式中各个分词的分词长度；其中，分词长度为每个分词的字符长度，例如，分词“刘德华”为3个字符长度，则该分词的分词长度为3。

步骤S206，在每个初始句式中，根据各个分词的分词长度确定初始句式的句式长度。

每个初始句式的句式长度为该初始句式中各个分词的分词长度的总和；由于每个初始句式匹配上的分词个数不同，所以每个初始句式的句式长度不同，每个初始句式的句式长度也就是该初始句式的总字符长度。

步骤S208，根据各个初始句式的句式长度大小从多个初始句式中筛选出设定数量个作为匹配句式。

可选地，可以按照句式长度从大到小的顺序对各个初始句式进行排序，将排名靠前的设定数量个初始句式作为匹配句式。

因为得到的多个初始句式中包括不合适的初始句式，按照预设匹配句式的个数，也就是从初始句式中选中预设个数的匹配句式，并将不合适的初始句式筛选掉。例如，将初始句式中句式长度过小的去掉，可以这样理解，该初始句式中匹配上的字符长度与总字符长度比重太小，可认为该初始句式不合适。

步骤S106，根据每个匹配句式中包含分词的个数、分词的目标热度属性及句式分数，从多个匹配句式中确定目标句式。

可以理解的是，我们可以在匹配句式中选取一个或多个优选的匹配句式作为目标句式，并确定目标句式所属的句式类别。

在实际应用时，如果分词词典包括的分词比较多，并且句式数据库中包括的句式也比较多，则在对文本进行词语划分之后，会有很多初始句式组合，一般情况对匹配句式按照匹配的分词个数、分词长度的长短和分词的热度值进行排列，选择一个或多个优选的匹配句式(最佳匹配句式)。例如在步骤S202中组合2中匹配了3个分词，在所有的组合中分词的个数最多，组合2可能为最佳匹配句式。

如果只根据匹配句式的分词个数来确定目标句式，却不关心每个匹配句式中的分词是否为待分类的文本的原本意图，在实际应用中会出现错误。所以可以对每个匹配句式进行打分，对每个匹配句式中的分词进行打分，包括分词的个数、分词的热度值和分词长度的长短等。而对每个部分的分值设定还可根据具体情况进行细化，比如匹配句式中的分词个数越多分值越高、分词的热度值越高分值越高、或者分词长度越长分值越高等。具体地，可以按照实际需求灵活设置每个部分所占的权重，例如分词的个数部分占50％(分词权重为50％)、分词的热度值部分占30％(热度权重为30％)和分词长度的长短部分占20％(句式权重为20％)等；或者每个部分所占的权重相同，但在每个部分的分数值设置上，对分词的个数部分设置的分数较高，对分词的热度值部分设置的分数一般，对分词长度的长短部分设置的分数较低。然后将这几部分的分数值进行求和，得到每个匹配句式的总得分值，最后将总得分值最大的匹配句式作为目标句式。具体地，可以按照总得分值从高到低的顺序对匹配句式进行排序，也可按照总得分值从低到高的顺序对匹配句式进行排序，并将排序最靠前或最靠后的匹配句式设定为目标句式。当然目标句式也可以为多个，即也可以选取总得分值最大的所需数量个匹配句式作为目标句式。可以理解的是，在对匹配句式打分的规则设置上仅仅作了举例说明，其具体设置方式可根据不同情况而定。

步骤S108，将目标句式所属的句式类别确定为文本的分类结果。

在句式数据库中查找目标句式所属的句式类别，将目标句式所属的句式类别确定为文本的类别。在确定用户输入的语音的类别后，可根据该类别做进一步操作，例如，用户输入的语音为“我要听刘德华的忘情水”却识别成了“我要听留的话的忘情水”，对该识别后的文本进行词语划分后，确定的最佳句式为“我要听”[前缀]+“忘情水”[歌曲名]，在句式数据库中该最佳句式的句式类别为[音乐]，所以确定该文本的类别为[音乐]，进而在音乐领域中对忘情水进行搜索，即可搜索到用户所需的忘情水这首歌曲。可见，本发明实施例在文本识别过程中存在个别字错误时，通过进行句式匹配可以实现对错误的修正，更加准确地识别出文本的意图，也即准确地识别出用户的意图，从而提高了用户的体验感。

本发明实施例中，对待分类的文本进行词语划分，得到多个分词及每个分词的词语属性，词语属性包括至少一个类型属性及与每个类型属性对应的热度属性；根据句式数据库按照每个分词的长度及每个分词的类型属性对文本进行句式匹配，得到多个匹配句式；其中，每个匹配句式包括匹配到的多个分词、匹配到的每个分词的目标热度属性、句式分数和所属的句式类别，分词的目标热度属性为该分词的热度属性之一；根据每个匹配句式中包含分词的个数、分词的目标热度属性及句式分数，从多个匹配句式中确定目标句式；将目标句式所属的句式类别确定为文本的分类结果。这样可以提高对文本分类判别的准确度，有助于提高判断用户意图的准确性，提高用户的体验感。

对于上述方法实施例所述的在多个匹配句式中确定目标句式只是做了简略说明，下面进行举例说明一种可能的实施方式。

如图3所示，本发明实施例还提供了另一种文本分类方法，本实施例是在上述实施例的基础上实现的，作为一种可选的实施方式，上述步骤S106由步骤S302和步骤S304两个步骤实现：

步骤S302，根据每个匹配句式中包含分词的个数、分词的目标热度属性及句式分数，计算每个匹配句式的总得分值。

在实际计算匹配句式的总得分值时，逐一进行总得分值计算，下面以计算一个匹配句式的总得分值进行举例说明。

在一些可能的实施例中，如图4所示，对每个匹配句式作如下总得分值计算：

步骤S402，根据匹配句式中包含分词的个数及分词权重，确定第一分数值。

在匹配句式中的分词的个数是确定的，分词权重可以是固定的，例如，分词权重为每个分词10分，如果一个匹配句式中匹配了3个分词，那么第一分数值就是30分。

步骤S404，根据匹配句式对应的句式分数及句式权重，确定第二分数值。

在句式数据库中，每个句式都预设有对应的句式分数，用户强意图的句式分数高，用户弱意图的句式分数低，也就是说句式类别不同，其句式分数不同。可选地，如果句式中带有[前缀]和[后缀]，则这种句式的句式分数设置很高，这样的句式可称为强意图句式；如果句式中带有[前缀]或者[后缀]其中的一个，则这种句式的句式分数设置较低；如果句式中既不带有[前缀]也没有[后缀]，则这种句式的句式分数设置最低，甚至可以是零，这样的句式可称为弱意图句式。

例如，对于文本“我要听刘德华的歌”，根据句式数据库可匹配到的句式包括：

句式一：“我要听”[前缀]+“刘德华”[歌手名]+“的歌”[后缀]

句式二：“我要听”[前缀]+“刘德华”[歌手名]

句式三：“刘德华”[歌手名]

句式四：“刘德华”[百科人物]

匹配到的句式一中包括[前缀]、[歌手名]和[后缀]，这句话意图很明显是想听歌，为能够明确表示用户意图的强意图句式，该句式的句式分数很高；句式二中包括[前缀]和[歌手名]，该句式的句式分数较低；句式三和句式四中都不包括[前缀]或[后缀]，所以句式三和句式四的句式分数最低甚至可以设置为零，这两个句式为不能明确表示用户意图的弱意图句式(并不知道用户想听刘德华的歌，还是通过百科查询刘德华的资料)。

所以根据每个匹配句式对应的句式分数及句式权重确定第二分数值。

步骤S406，根据匹配句式中包含的各个分词的目标热度属性及热度权重，确定第三分数值。

这个部分是确定匹配句式中各个分词对应的热度值的总和，例如，在分词词典中“刘德华”既是歌手也是百科人物，因为他是著名歌手，所以他属于歌手的比重要比百科人物高；如果匹配句式的句式类型为[音乐]时，则此时的分词“刘德华”就是热词，在分词词典中预先设置了对应热度属性的热度值，该热度值一般是固定的，例如10分，也可以是动态的，即分词的热度属性越高其热度值就越高。

但是如果匹配句式中出现了非热词，例如匹配句式为“我想听留得下”，对于“留得下”是很奇怪的一首歌。所以对于匹配句式中出现不常见的分词或者与句式类别不相符的分词，则认定该分词为非热词。即在句式数据库中，每个句式类别对应有相应热词，例如，句式类别为[音乐]时，对应的热词包括常见的歌名，如“感恩的心”“忘情水”等；非热词出现在匹配句式是需要减分的，该热度值一般是固定的负数，例如-10分，如果匹配句式中出现了两个非热词的分数为-20分。

最后根据匹配句式中各个分词的热度值的总和及热度权重确定第三分数值，例如热度权重设为1，一个热词的分数为10分，一个非热词的分数为-10分；如果匹配句式中出现了一个热词，没有出现非热词，那么第三分数值为10分；而如果匹配句式中出现了一个非热词一个热词，那么第三分数值为0分。

步骤S408，根据第一分数值、第二分数值和第三分数值计算得到匹配句式的总得分值。

对每个匹配句式按照第一分数值、第二分数值和第三分数值进行求和计算得到总分数(总得分值)，进而可得到按照总分数由大到小或由小到大进行排列的匹配句式。

步骤S304，将最高总得分值对应的匹配句式确定为目标句式。

本发明实施例将最高总得分值对应的匹配句式确定为目标句式。由于是将最符合用户意图的匹配句式设置的总分数最高，所以目标句式对应的总得分值最高。

作为一种可能的实施方式，为了量化每个匹配句式的总分数(总得分值)，可以使用下面的公式进行计算：

其中，w₁表示分词权重，w₂表示句式权重，w₃表示热度权重，w₁、w₂、w₃为常量，比如设置为常数1；i表示匹配句式中分词的序号，m表示匹配句式中分词的个数；score_i表示序号为i的分词的分数，对应于第一分数值；score_sentence表示匹配句式对应的句式分数，w₂*score_sentence对应于第二分数值；Hot_i表示序号为i的分词的热度值，对应于第三分数值。各个分词的分数一般是固定的，比如设置为10分；当w₁为常数1，各个分词的分数均为10分时，等于10*m分。

本发明实施例中，将用户的文本按照分词词典进行词语划分，并按照句式数据库中的句式对分词进行匹配。而在分词词典中设置了分词的热度属性，在句式数据库中设置了句式的句式分数和句式类别，根据匹配句式中包含分词的个数、分词的目标热度属性及句式分数确定总得分值，并将最高总得分值对应匹配句式所属的句式类别确定为用户文本的类别。本发明实施例是对经典分类模型的补充，在嘈杂的环境中对语音文本分类起到了很好的作用，对用户意图的分类准确度显著提高，使用户体验感提高。

对应于上述方法实施例，本发明实施例还提供了一种文本分类装置，如图5所示，该装置包括：

划分模块50，用于对待分类的文本进行词语划分，得到多个分词及每个分词的词语属性，词语属性包括至少一个类型属性及与每个类型属性对应的热度属性；

匹配模块51，用于根据句式数据库按照每个分词的长度及每个分词的类型属性对文本进行句式匹配，得到多个匹配句式；其中，每个匹配句式包括匹配到的多个分词、匹配到的每个分词的目标热度属性、句式分数和所属的句式类别，分词的目标热度属性为该分词的热度属性之一；

确定模块52，用于根据每个匹配句式中包含分词的个数、分词的目标热度属性及句式分数，从多个匹配句式中确定目标句式；

分类模块53，用于将目标句式所属的句式类别确定为文本的分类结果。

可选地，上述划分模块50具体用于：按照分词词典对待分类的文本进行词语划分；其中，分词词典包括多个分词及每个分词的词语属性。

可选地，上述匹配模块51具体用于：根据句式数据库按照每个分词的类型属性对文本进行句式匹配，得到多个初始句式；其中，初始句式包括匹配到的多个分词、匹配到的每个分词的目标热度属性、句式分数和所属的句式类别；获取各个初始句式中各个分词的分词长度；在每个初始句式中，根据各个分词的分词长度确定初始句式的句式长度；根据各个初始句式的句式长度大小从多个初始句式中筛选出设定数量个作为匹配句式。

可选地，上述匹配模块51在用于根据各个初始句式的句式长度大小从多个初始句式中筛选出设定数量个作为匹配句式时，具体用于：按照句式长度从大到小的顺序对各个初始句式进行排序；将排名靠前的设定数量个初始句式作为匹配句式。

图6为本发明实施例提供的另一种文本分类装置的结构示意图，如图6所示，在图5的基础上，可选地，上述确定模块52包括：计算单元60，用于根据每个匹配句式中包含分词的个数、分词的目标热度属性及句式分数，计算每个匹配句式的总得分值；确定单元61，用于将最高总得分值对应的匹配句式确定为目标句式。

可选地，上述计算单元60具体用于：对每个匹配句式作如下总得分值计算：根据匹配句式中包含分词的个数及分词权重，确定第一分数值；根据匹配句式对应的句式分数及句式权重，确定第二分数值；根据匹配句式中包含的各个分词的目标热度属性及热度权重，确定第三分数值；根据第一分数值、第二分数值和第三分数值计算得到该匹配句式的总得分值。

本发明实施例中，上述装置包括：划分模块，用于对待分类的文本进行词语划分，得到多个分词及每个分词的词语属性，词语属性包括至少一个类型属性及与每个类型属性对应的热度属性；匹配模块，用于根据句式数据库按照每个分词的长度及每个分词的类型属性对文本进行句式匹配，得到多个匹配句式；其中，每个匹配句式包括匹配到的多个分词、匹配到的每个分词的目标热度属性、句式分数和所属的句式类别，分词的目标热度属性为该分词的热度属性之一；确定模块，用于根据每个匹配句式中包含分词的个数、分词的目标热度属性及句式分数，从多个匹配句式中确定目标句式；分类模块，用于将目标句式所属的句式类别确定为文本的分类结果。

本发明实施例提供的文本分类装置，与上述实施例提供的文本分类方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

参见图7，本发明实施例还提供一种电子设备，包括：处理器700，存储器701，总线702和通信接口703，处理器700、通信接口703和存储器701通过总线702连接；处理器700用于执行存储器701中存储的可执行模块，例如计算机程序。

其中，存储器701可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非易失存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口703(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线702可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器701用于存储程序，处理器700在接收到执行指令后，执行程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器700中，或者由处理器700实现。

处理器700可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器700中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器700可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器701，处理器700读取存储器701中的信息，结合其硬件完成上述方法的步骤。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明实施例所提供的进行文本分类方法、装置、计算机可读存储介质和电子设备的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种文本分类方法，其特征在于，所述方法包括：

对待分类的文本进行词语划分，得到多个分词及每个所述分词的词语属性，所述词语属性包括至少一个类型属性及与每个所述类型属性对应的热度属性；

根据句式数据库按照每个所述分词的长度及每个所述分词的类型属性对所述文本进行句式匹配，得到多个匹配句式；其中，每个所述匹配句式包括匹配到的多个分词、匹配到的每个分词的目标热度属性、句式分数和所属的句式类别，所述分词的目标热度属性为所述分词的热度属性之一；

根据每个所述匹配句式中包含分词的个数、分词的目标热度属性及句式分数，从多个所述匹配句式中确定目标句式；

将所述目标句式所属的句式类别确定为所述文本的分类结果。

2.根据权利要求1所述的方法，其特征在于，所述对待分类的文本进行词语划分，包括：

按照分词词典对待分类的文本进行词语划分；其中，所述分词词典包括多个分词及每个所述分词的词语属性。

3.根据权利要求1所述的方法，其特征在于，所述根据句式数据库按照每个所述分词的长度及每个所述分词的类型属性对所述文本进行句式匹配，得到多个匹配句式，包括：

根据句式数据库按照每个所述分词的类型属性对所述文本进行句式匹配，得到多个初始句式；其中，所述初始句式包括匹配到的多个分词、匹配到的每个分词的目标热度属性、句式分数和所属的句式类别；

获取各个所述初始句式中各个分词的分词长度；

在每个所述初始句式中，根据各个分词的分词长度确定所述初始句式的句式长度；

根据各个所述初始句式的句式长度大小从多个所述初始句式中筛选出设定数量个作为匹配句式。

4.根据权利要求3所述的方法，其特征在于，所述根据各个所述初始句式的句式长度大小从多个所述初始句式中筛选出设定数量个作为匹配句式，包括：

按照句式长度从大到小的顺序对各个所述初始句式进行排序；

将排名靠前的设定数量个初始句式作为匹配句式。

5.根据权利要求1所述的方法，其特征在于，所述根据每个所述匹配句式中包含分词的个数、分词的目标热度属性及句式分数，从多个所述匹配句式中确定目标句式，包括：

根据每个所述匹配句式中包含分词的个数、分词的目标热度属性及句式分数，计算每个所述匹配句式的总得分值；

将最高总得分值对应的匹配句式确定为目标句式。

6.根据权利要求5所述的方法，其特征在于，所述根据每个所述匹配句式中包含分词的个数、分词的目标热度属性及句式分数，计算每个所述匹配句式的总得分值，包括：

对每个所述匹配句式作如下总得分值计算：

根据所述匹配句式中包含分词的个数及分词权重，确定第一分数值；

根据所述匹配句式对应的句式分数及句式权重，确定第二分数值；

根据所述匹配句式中包含的各个分词的目标热度属性及热度权重，确定第三分数值；

根据所述第一分数值、所述第二分数值和所述第三分数值计算得到所述匹配句式的总得分值。

7.一种文本分类装置，其特征在于，所述装置包括：

划分模块，用于对待分类的文本进行词语划分，得到多个分词及每个所述分词的词语属性，所述词语属性包括至少一个类型属性及与每个所述类型属性对应的热度属性；

匹配模块，用于根据句式数据库按照每个所述分词的长度及每个所述分词的类型属性对所述文本进行句式匹配，得到多个匹配句式；其中，每个所述匹配句式包括匹配到的多个分词、匹配到的每个分词的目标热度属性、句式分数和所属的句式类别，所述分词的目标热度属性为所述分词的热度属性之一；

确定模块，用于根据每个所述匹配句式中包含分词的个数、分词的目标热度属性及句式分数，从多个所述匹配句式中确定目标句式；

分类模块，用于将所述目标句式所属的句式类别确定为所述文本的分类结果。

8.根据权利要求7所述的装置，其特征在于，所述确定模块包括：

计算单元，用于根据每个所述匹配句式中包含分词的个数、分词的目标热度属性及句式分数，计算每个所述匹配句式的总得分值；

确定单元，用于将最高总得分值对应的匹配句式确定为目标句式。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1至6任一项所述的方法的步骤。

10.一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至6任一项所述的方法的步骤。