CN112528022A

CN112528022A - 主题类别对应的特征词提取和文本主题类别识别方法

Info

Publication number: CN112528022A
Application number: CN202011430233.7A
Authority: CN
Inventors: 康鑫; 孙艳; 隗艳萍
Original assignee: Guangzhou Moyi Information Technology Co ltd
Current assignee: Guangzhou Moyi Information Technology Co ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-03-19

Abstract

本申请涉及一种主题类别对应的特征词提取和文本主题类别识别方法。所述方法包括：获取多个主题类别的示例文本，以及各个主题类别的示例文本的类别标签；对各个主题类别的示例文本进行分词处理，并对分词处理得到的各个词语分别进行词频统计，得到各个主题类别对应的多个词语的词频信息；针对各个主题类别，根据所述多个词语在本主题类别中的词频信息，以及在多个主题类别中的分布情况，从所述多个词语中筛选出至少一个特征词语，作为对应主题类别的特征词语；所述特征词语为在所述对应主题类别的示例文本中构成的显著性差异达到设定条件的词语。采用本方法能够提高特征词提取效率。

Description

主题类别对应的特征词提取和文本主题类别识别方法

技术领域

本申请涉及自然语言处理技术领域，特别是涉及一种主题类别对应的特征词提取、文本主题类别识别方法、装置、计算机设备和存储介质。

背景技术

随着大数据和云计算等现代信息技术的发展，出现了海量的文本资源，对海量文本的主题类别进行自动识别，可以为从海量的文本资源中准确、快速、全面地找到所需文本提供技术支撑，在数字化图书馆、舆情分析、新闻推荐、邮件过滤等领域有着广泛应用。

在识别文本主题类别的过程中，通常需要提取能够体现文本主题类别的特征词，目前的特征词提取方法有人工提取方法、基于词频统计的方法和基于机器学习的方法，其中，人工提取方法提取效率较低，难以从海量文本资源中进行提取；基于词频统计的方法所提取的特征词数量通常较多，在进行文本主题类别识别时存在多个特征之间的相互干扰，容易导致识别准确率降低；基于机器学习的方法可以满足准确率的要求，但对训练文本的规模有较高要求，且需要根据具体主题划分的类别对训练模型的参数进行针对性调整，容易导致特征词提取效率较低。

因此，目前应用于海量文本资源的特征词提取方法存在效率较低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高特征词提取效率的主题类别对应的特征词提取方法和装置、一种文本主题类别识别方法和装置、计算机设备和存储介质。

一种主题类别对应的特征词提取方法，所述方法包括：

获取多个主题类别的示例文本，以及各个主题类别的示例文本的类别标签；

对各个主题类别的示例文本进行分词处理，并对分词处理得到的各个词语分别进行词频统计，得到各个主题类别对应的多个词语的词频信息；

针对各个主题类别，根据所述多个词语在本主题类别中的词频信息，以及在多个主题类别中的分布情况，从所述多个词语中筛选出至少一个特征词语，作为对应主题类别的特征词语；所述特征词语为在所述对应主题类别的示例文本中构成的显著性差异达到设定条件的词语。

在其中一个实施例中，所述针对各个主题类别，根据所述多个词语在本主题类别中的词频信息，以及在多个主题类别中的分布情况，从所述多个词语中筛选出至少一个特征词语，作为对应主题类别的特征词语，包括：

针对某个主题类别，根据各个词语的词频信息，得到各个词语在所述某个主题类别的示例文本包含的词语中所占的比例，从所述多个词语中确定出所述比例靠前的设定数量的词语，作为备选特征词语；

针对所述备选特征词语，获取其在所述多个主题类别中的类平均词频及类样本标准差，并基于所述备选特征词语的所述类平均词频及类样本标准差，确定其作为所述某个主题类别的特征词语的显著性特征分值；所述显著性特征分值的绝对值越大，与所述备选特征词语在主题类别的示例文本中构成的显著性差异越大；

根据所述显著性特征分值，从设定数量的所述备选特征词语中，确定出所述显著性特征分值靠前的至少一个，作为所述某个主题类别对应的至少一个特征词语。

在其中一个实施例中，所述针对所述备选特征词语，获取其在所述多个主题类别中的类平均词频及类样本标准差，包括：

通过对所述备选特征词语在所述各个主题类别中的词频信息求平均，得到所述类平均词频。

在其中一个实施例中，所述针对所述备选特征词语，获取其在所述多个主题类别中的类平均词频及类样本标准差，还包括：

通过对所述备选特征词语在所述各个主题类别中的词频信息计算标准差，得到所述类样本标准差。

在其中一个实施例中，所述基于所述备选特征词语的所述类平均词频及类样本标准差，确定其作为所述某个主题类别的特征词语的显著性特征分值，包括：

基于所述备选特征词语的所述类平均词频和所述类样本标准差，得到其对应所述某个主题类别的检验统计值；

通过将所述检验统计值与预设的拒绝域临界值相比较，得到所述备选特征词语作为所述某个主题类别的特征词语的显著性特征分值。

一种文本主题类别识别方法，所述方法包括：

获取待识别的目标文本，进行分词处理，并统计分词得到的各个词语的词频信息；根据所述词频信息，确定词语在目标文本中的出现次数和出现频率；

根据所述词语在目标文本中的出现次数和出现频率，以及目标文本中所有词语的总出现次数，确定所述词语在目标文本中的显著性特征分值；

获取多个主题类别中各个主题类别的特征词语的显著性特征分值；其中，所述各个主题类别的特征词语根据权利要求1所述方法确定；

根据所述目标文本中各个词语的所述显著性特征分值，以及各个主题类别的特征词语的显著性特征分值，计算所述目标文本与各个主题类别的类别距离；

如果目标文本与所述多个主题类别中的某个主题类别的类别距离最近且所述类别距离小于等于阈值，则将目标文本确定为所述某个主题类别。

一种主题类别对应的特征词提取装置，所述装置包括：

获取模块，用于获取多个主题类别的示例文本，以及各个主题类别的示例文本的类别标签；

词频统计模块，用于对各个主题类别的示例文本进行分词处理，并对分词处理得到的各个词语分别进行词频统计，得到各个主题类别对应的多个词语的词频信息；

特征词筛选模块，用于针对各个主题类别，根据所述多个词语在本主题类别中的词频信息，以及在多个主题类别中的分布情况，从所述多个词语中筛选出至少一个特征词语，作为对应主题类别的特征词语；所述特征词语为在所述对应主题类别的示例文本中构成的显著性差异达到设定条件的词语。

一种文本主题类别识别装置，所述装置包括：

预处理模块，用于获取待识别的目标文本，进行分词处理，并统计分词得到的各个词语的词频信息；根据所述词频信息，确定词语在目标文本中的出现次数和出现频率；

显著性特征分值确定模块，用于根据所述词语在目标文本中的出现次数和出现频率，以及目标文本中所有词语的总出现次数，确定所述词语在目标文本中的显著性特征分值；

显著性特征分值获取模块，用于获取多个主题类别中各个主题类别的特征词语的显著性特征分值；其中，所述各个主题类别的特征词语根据权利要求1所述方法确定；

类别距离计算模块，用于根据所述目标文本中各个词语的所述显著性特征分值，以及各个主题类别的特征词语的显著性特征分值，计算所述目标文本与各个主题类别的类别距离；

主题类别确定模块，用于如果目标文本与所述多个主题类别中的某个主题类别的类别距离最近且所述类别距离小于等于阈值，则将目标文本确定为所述某个主题类别。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述主题类别对应的特征词提取方法和装置、文本主题类别识别方法和装置、计算机设备和存储介质，通过获取多个主题类别的示例文本和类别标签，对各个主题类别的示例文本进行分词处理，并对分词处理得到的各个词语分别进行词频统计，得到各个主题类别对应的多个词语的词频信息，可以自动统计示例文本中各个词语的词频，高效获取词频信息，针对各个主题类别，根据多个词语在本主题类别中的词频信息，以及在多个主题类别中的分布情况，从多个词语中筛选出至少一个特征词语，作为对应主题类别的特征词语，可以基于词语在主题类别中的词频信息自动提取出特征词语，提高特征词提取效率。

附图说明

图1为一个实施例中主题类别对应的特征词提取方法的应用环境图；

图2为一个实施例中主题类别对应的特征词提取方法的流程示意图；

图3为一个实施例中词频统计的流程示意图；

图4为一个实施例中特征词语筛选的流程示意图；

图5为一个实施例中文本主题类别识别方法的流程示意图；

图6为一个实施例中目标文本词频统计的流程示意图；

图7为一个实施例中目标文本主题类别识别的流程示意图；

图8为另一个实施例中文本主题类别识别方法的流程示意图；

图9为一个实施例中主题类别对应的特征词提取装置的结构框图；

图10为一个实施例中文本主题类别识别装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的主题类别对应的特征词提取方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种主题类别对应的特征词提取方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S210，获取多个主题类别的示例文本，以及各个主题类别的示例文本的类别标签。

步骤S220，对各个主题类别的示例文本进行分词处理，并对分词处理得到的各个词语分别进行词频统计，得到各个主题类别对应的多个词语的词频信息。

具体实现中，若示例文本为中文文本，可以使用现有分词工具(例如，ICTCLAS(Institute of Computing Technology，Chinese Lexical Analysis System，中科院计算所研制的中文词法分析系统)分词、结巴分词)和常用中文词典(例如《现代汉语词典》)对示例文本进行分词，然后再统计词频信息。可以使用存储装置WordCount[w]记录词w在所有文本中的出现次数，使用存储装置WordFreq[w]记录词w在所有文本中的词频，使用存储装置Count[k]记录第k类文本的词量。

图3提供了一个词频统计的流程示意图，具体包括以下步骤：

步骤S301，对每一个类别K_i(1≤i≤M)，令Count_i＝0，对WordBase中每一个词语W，令KC_i[W]＝0，转至步骤S302。其中，WordBase是基于常用中文词典生成的中文词库，用于确定某一中文字符串是否是本发明所关注的词语，其中，WordFreq[w]＝WordCount[w]/TotalCount。

步骤S302，使用已有分词工具，对类别K_i中的每一篇示例文本T进行中文分词，获得中文字符串序列wordlist，从该wordlist第一个位置的字符串w开始，执行以下操作；

步骤S303，将Count_i加1，如果w是WordBase中的一个目标词语，将KC_i[w]加1再执行步骤S304，否则，直接执行步骤S304；

步骤S304，如果w不是wordlist的最后一个元素，用w记录其后面一个位置的中文字符串，转至步骤S303，否则，执行步骤S305；

步骤S305，对每一个类别K_i(1≤i≤M)及WordBase中的每一个词语W，计算词频KF_i[W]＝KC_i[W]/Count_i，结束词频统计流程。

步骤S230，针对各个主题类别，根据多个词语在本主题类别中的词频信息，以及在多个主题类别中的分布情况，从多个词语中筛选出至少一个特征词语，作为对应主题类别的特征词语；特征词语为在对应主题类别的示例文本中构成的显著性差异达到设定条件的词语。

具体实现中，可以借助词语在主题类别示例文本中词频位于词语整体分布的百分位来确定对应主题类别的特征词语。可以首先基于词汇在主题类别示例文本中词频所占的百分位确定备选特征词语，然后再依据这些备选词在主题类别示例文本内出现的比例，以及其在其他主题类别示例文本中作为备选特征词汇出现的情况综合判断，最终筛选出每一个主题类别的特征词汇。

对每一个类别K_i(1≤i≤M)，可以使用KT_i[w]记录词语w是否是类别K_i的特征，具体地，如果KT_i[w]＝1，则表示w是K_i的正特征词(w出现是文本归属于K_i的特征)；如果KT_i[w]＝-1，则表示w是K_i的负特征词(w不出现是文本归属于K_i的特征)；如果KT_i[w]＝0，则表示w不是K_i的特征词。可以使用FWord来存储所有类别特征词，使用FWord_n存储重点关注的n个特征词。FWord和FWord_n的作用在于简化后续目标文本类别识别的计算量。

图4提供了一个特征词语筛选的流程示意图，具体包括以下步骤：

步骤S401，对WordBase每一个词语w，计算w在M个类别中的类平均词频F[w]及类样本标准差S[w]，转至步骤S402，其中，

步骤S402，对每一给定类别K_i(1≤i≤M)，如果

则令KT_i[w]＝1；如果

则令KT_i[w]＝-1；如果

则令KT_i[w]＝0，转至步骤S403；其中，t(M-1)_α/2和t(M-1)_1-α/2分别表示自由度为M-1的t分布在累积概率为α/2和1-α/2时横坐标的取值，即显著度为α时左右拒绝域的边界；

步骤S403，构造特征词集合FWord：对WordBase每一个词语w，如果存在某个类别K_i(1≤i≤M)的KT_i[w]不为0，则称w是类别K_i的特征词，将w加入FWord中；否则，w不是任何类别的特征词，转至步骤S404；

步骤S404，根据FWord中各词语的类平均词频，构建前n特征词集合FWord_n：将FWord中单词按类平均频率F[w]由大到小排序，将频率位于前n的特征词构建FWord_n(n可以取大于M的任意自然数，n常取1000到30000内整千的倍数，如1000、2000、3000、5000等)，其中，FWord_n是FWord中词频最高的前n个词，在实际使用中，FWord_n也可根据实际需求，基于其他规则选定FWord中的n个特征词。

上述主题类别对应的特征词提取方法，通过获取多个主题类别的示例文本和类别标签，对各个主题类别的示例文本进行分词处理，并对分词处理得到的各个词语分别进行词频统计，得到各个主题类别对应的多个词语的词频信息，可以自动统计示例文本中各个词语的词频，高效获取词频信息，针对各个主题类别，根据多个词语在本主题类别中的词频信息，以及在多个主题类别中的分布情况，从多个词语中筛选出至少一个特征词语，作为对应主题类别的特征词语，可以基于词语在主题类别中的词频信息自动提取出特征词语，提高特征词提取效率。

在一个实施例中，上述步骤S230，可以具体包括：

步骤S231，针对某个主题类别，根据各个词语的词频信息，得到各个词语在某个主题类别的示例文本包含的词语中所占的比例，从多个词语中确定出比例靠前的设定数量的词语，作为备选特征词语；

步骤S232，针对备选特征词语，获取其在多个主题类别中的类平均词频及类样本标准差，并基于备选特征词语的类平均词频及类样本标准差，确定其作为某个主题类别的特征词语的显著性特征分值；显著性特征分值的绝对值越大，与备选特征词语在主题类别的示例文本中构成的显著性差异越大；

步骤S233，根据显著性特征分值，从设定数量的备选特征词语中，确定出显著性特征分值靠前的至少一个，作为某个主题类别对应的至少一个特征词语。

对每一个类别K_i(1≤i≤M)，可以使用KT_i[w]记录词语w是否是类别K_i的特征，具体地，如果KT_i[w]＝1，则表示w是K_i的正特征词(w出现是文本归属于K_i的特征)；如果KT_i[w]＝-1，则表示w是K_i的负特征词(w不出现是文本归属于K_i的特征)；如果KT_i[w]＝0，则表示w不是K_i的特征词。可以使用FWord来存储所有类别特征词，使用FWord_n存储重点关注的n个特征词。FWord和FWord_n的作用在于简化后续目标文本类别识别的计算量。上述步骤S230可以具体包括以下步骤：

步骤S402，对每一给定类别K_i(1≤i≤M)，如果

则令KT_i[w]＝1；如果

则令KT_i[w]＝-1；如果

本实施例中，通过从多个词语中确定出备选特征词语，可以缩小特征词语提取的范围，提高提取效率，基于备选特征词语的类平均词频及类样本标准差，确定其作为某个主题类别的特征词语的显著性特征分值，根据显著性特征分值从设定数量的备选特征词语中确定出特征词语，可以对备选特征词语的显著性进行评分，根据评分从备选特征词语中自动提取出显著性较高的词语作为特征词语，提高特征词提取的效率。

在一个实施例中，上述步骤S232，可以具体包括：通过对备选特征词语在各个主题类别中的词频信息求平均，得到类平均词频。

具体实现中，对WordBase每一个词语w，计算w在M个类别中的类平均词频F[w]，计算公式可以为

本实施例中，通过对备选特征词语在各个主题类别中的词频信息求平均，得到类平均词频，可以对备选特征词语在各个主题类别中的平均词频进行统计，便于针对各个主题类别筛选特征词。

在一个实施例中，上述步骤S232，具体还可以包括：通过对备选特征词语在各个主题类别中的词频信息计算标准差，得到类样本标准差。

具体实现中，对WordBase每一个词语w，计算w在M个类别中的类样本标准差S[w]，计算公式可以为

本实施例中，通过对备选特征词语在各个主题类别中的词频信息计算标准差，得到类样本标准差，可以对备选特征词语在各个主题类别中的标准差进行统计，便于针对各个主题类别筛选特征词。

在一个实施例中，上述步骤S232，具体还可以包括：基于备选特征词语的类平均词频和类样本标准差，得到其对应某个主题类别的检验统计值；通过将检验统计值与预设的拒绝域临界值相比较，得到备选特征词语作为某个主题类别的特征词语的显著性特征分值。

具体实现中，对每一给定类别K_i(1≤i≤M)，可以得到检验统计值

如果

则令KT_i[w]＝1；如果

则令KT_i[w]＝-1；如果

则令KT_i[w]＝0；其中，t(M-1)_α/2和t(M-1)_1-α/2分别表示自由度为M-1的t分布在累积概率为α/2和1-α/2时横坐标的取值，即显著度为α时左右拒绝域的临界值。

本实施例中，通过基于备选特征词语的类平均词频和类样本标准差，得到其对应某个主题类别的检验统计值，通过将检验统计值与预设的拒绝域临界值相比较得到备选特征词语作为某个主题类别的特征词语的显著性特征分值，可以对备选特征词语的显著性进行评分，进而根据评分从备选特征词语中自动提取出显著性较高的词语作为特征词语，提高特征词提取的效率。

在一个实施例中，如图5所示，提供了一种文本主题类别识别方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S510，获取待识别的目标文本，进行分词处理，并统计分词得到的各个词语的词频信息；根据词频信息，确定词语在目标文本中的出现次数和出现频率；

步骤S520，根据词语在目标文本中的出现次数和出现频率，以及目标文本中所有词语的总出现次数，确定词语在目标文本中的显著性特征分值；

步骤S530，获取多个主题类别中各个主题类别的特征词语的显著性特征分值；其中，各个主题类别的特征词语根据权利要求1方法确定；

步骤S540，根据目标文本中各个词语的显著性特征分值，以及各个主题类别的特征词语的显著性特征分值，计算目标文本与各个主题类别的类别距离；

步骤S550，如果目标文本与多个主题类别中的某个主题类别的类别距离最近且类别距离小于等于阈值，则将目标文本确定为某个主题类别。

具体实现中，可以根据特征词集FWord_n(或FWord)和目标文本的词频信息，确定目标文本的类别归属。可以用LC[w]存储词语w在目标文本中的出现次数，用LF[w]存储w在目标文本中的出现频率，用Cnt存储目标文本中所有词语的总出现次数，用LT[w]记录w在目标文本中的出现频率是否构成显著性差异：如果LT[w]＝1，则表示w在目标文本中构成正向显著性差异；如果LT[w]＝-1，则表示w在目标文本中构成负向显著性差异；如果LT[w]＝0，则表示w在目标文本中的出现频率不构成显著性差异。此外，还可以使用LFWord记录目标文本中所有出现的词语。

图6提供了一个目标文本词频统计的流程示意图，以统计目标文本中所有特征词的词频信息，具体包括以下步骤：

步骤S601，将目标文本特征词语集合LFWord设置为空；令Cnt＝0，对WordBase每一个词语W，令LC[W]＝0，转至步骤S602；

步骤S602，使用已有分词工具，对目标文本中文分词，获得中文字符串序列wordlist，从该wordlist第一个位置的字符串w开始，执行以下操作；

步骤S603，将Cnt加1；如果w在FWord_n中，将LC[w]加1，将w加入LFWord，转至步骤S604；否则，直接执行步骤S604；

步骤S604，如果w不是wordlist的最后一个元素，用w记录其后面一个位置的中文字符串，转至步骤S603；否则，结束目标文本词频统计流程(记作步骤4)，转至目标文本主题类别识别流程(记作步骤5)。

图7提供了一个目标文本主题类别识别的流程示意图，以根据目标文本和特征词集合FWord_n(或FWord)中单词的词频信息、零出现特征词集合ZeroFWord_n(或ZeroFWord)，以及给定的类别距离计算方法，确定目标文本的类别归属，该流程具体包括以下步骤：

步骤S701，对LFWord中的每一个词语w，计算LF[w]＝LC[w]/Cnt，转至步骤S702；

步骤S702，计算目标文本显著性特征：如果

令LT[w]＝1；如果

令LT[w]＝-1；如果

令LT[w]＝0；转至步骤S703；

步骤S703，如果w是LFWord中的最后一个概念实词，转至步骤S704；否则，令w是LFWord中的下一概念实词，转至步骤S701；

步骤S704，根据下述公式(D)，计算目标文本与各类别K_i(1≤i≤M)的特征投影P_i，作为目标文本与各个主题类别的类别距离，转至步骤S705，

在步骤S704中，采用基于特征向量的特征投影P_i作为类别距离的度量，在实际使用中，也可根据实际需求采用其他向量距离公式计算目标文本与各类别的距离。

步骤S705，如果目标文本与某个类别K_i(1≤i≤M)的特征投影P_i大于等于阈值β(β取0到1之间的任意正数，常取0.1的整倍数)且P_i在所有特征投影中最大(可能有多个)，则将目标文本判别归属于类别K_i；如果所有特征投影的取值都小于阈值β，则将目标文本的类别标为“未知”；结束目标文本主题类别识别流程。

上述文本主题类别识别方法，通过对目标文本进行分词处理并统计词频信息，根据词频信息确定词语在目标文本中的出现次数和出现频率，可以自动统计出词语的出现次数和出现频率，根据出现次数和出现频率以及目标文本中所有词语的总出现次数确定词语在目标文本中的显著性特征分值，可以对特征词语的显著性进行自动评分，获取多个主题类别中各个主题类别的特征词语的显著性特征分值，根据目标文本中各个词语的显著性特征分值以及各个主题类别的特征词语的显著性特征分值，计算目标文本与各个主题类别的类别距离，如果类别距离最近且类别距离小于等于阈值，则将目标文本确定为某个主题类别，可以快速有效地自动识别目标文本的主题类别，提高文本主题类别识别效率。

在一个实施例中，如图8所示，提供了一个文本主题类别识别方法的流程示意图。

目前中文文本主题类别识别方法包括基于知识工程的文本分类、基于词频统计的文本分类和基于机器学习的文本分类。其中，基于知识工程的分类方法中需要大量的领域专家知识和知识库作为分类过程的支撑，其对人力资源的要求较高且其规则不能穷举，不足以应对海量文本资源的处理。现有的英文文本主题类别识别方法包括基于词频统计的文本分类方法，该方法先基于文本单词的频率、TF-IDF指标等统计量构建文本的类别特征，再通过分类算法实现对目标文本归属的判别，常用的统计量包括单词在文本中出现的频率、单词是否出现(出现标为1，否则标为0)，以及刻画单词对文本重要程度的TF-IDF指标，以一种统计量为基础，再采用最近距离法、贝叶斯分类法等具体分类方法实现对目标文本主题类别的判定。由于文本的单词数量众多，文本特征表示往往需要几万甚至是几十万维度，高维度特征在一定程度上增加了存储和计算的负担，同时，众多维度的特征有时会产生相互干扰，导致目标文本类别的误判。基于机器学习的文本分类方法是指通过计算机自主学习、提取规则进行分类，当前技术有很多，如支持向量机(SVM)、K近邻算法(KNN)、神经网络(Neural Nets)、决策树和最小二乘等，其中SVM的应用是文本分类中近几年来最重要的进展之一。上述文本主题类别识别方法可以解决一定的实际问题，但是在面对海量文本资源时所需要的数据量较大，容易降低文本主题类别识别的效率。

本实施例提供的文本主题类别识别方法基于给定主题类别划分(主题类别数量大于等于4)及一定数量的示例文本，通过示例文本词频统计、文本类别特征提取、显著性零出现词语识别和目标文本类别识别，可以快速有效地自动识别未知中文文本的主题并进行归类，可以降低人工处理的劳动强度和时间开销。其中，示例文本词频统计模块和文本类别特征提取模块用于处理语料库的所有示例文本，两个模块输出的结果是各个主题的特征词集，显著性零出现词语识别模块用于确定并未在文本中出现、但却会构成负特征词的词语，目标文本类别识别模块完成具体目标文本的类别识别。

本实施例中，通过基于统计假设和分析确定示例文本的特征概念实词，可以避免由人工经验设定阈值所带来的偏差，通过自动进行特征概念实词筛选，可以节省存储和计算资源，同时，该方法所需文本量较小，对每一个主题类别采用百篇左右的示例文本即能够提供特征提取，而且，该方法的通用性强，无需针对每一具体主题分类问题设置模型参数，可以降低使用门槛，且具有良好的识别效果，相比于同类方法具有简单高效的特点，适用于中文文本语料的主题筛选，能够极大程度的降低人工筛选的劳力投入。

应该理解的是，虽然图2-8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-8中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种主题类别对应的特征词提取装置900，包括：获取模块910、词频统计模块920和特征词筛选模块930，其中：

获取模块910，用于获取多个主题类别的示例文本，以及各个主题类别的示例文本的类别标签；

词频统计模块920，用于对各个主题类别的示例文本进行分词处理，并对分词处理得到的各个词语分别进行词频统计，得到各个主题类别对应的多个词语的词频信息；

特征词筛选模块930，用于针对各个主题类别，根据所述多个词语在本主题类别中的词频信息，以及在多个主题类别中的分布情况，从所述多个词语中筛选出至少一个特征词语，作为对应主题类别的特征词语；所述特征词语为在所述对应主题类别的示例文本中构成的显著性差异达到设定条件的词语。

在一个实施例中，上述特征词筛选模块930，包括：

备选特征词语选择模块，用于针对某个主题类别，根据各个词语的词频信息，得到各个词语在所述某个主题类别的示例文本包含的词语中所占的比例，从所述多个词语中确定出所述比例靠前的设定数量的词语，作为备选特征词语；

显著性特征分值计算模块，用于针对所述备选特征词语，获取其在所述多个主题类别中的类平均词频及类样本标准差，并基于所述备选特征词语的所述类平均词频及类样本标准差，确定其作为所述某个主题类别的特征词语的显著性特征分值；所述显著性特征分值的绝对值越大，与所述备选特征词语在主题类别的示例文本中构成的显著性差异越大；

特征词语确定模块，用于根据所述显著性特征分值，从设定数量的所述备选特征词语中，确定出所述显著性特征分值靠前的至少一个，作为所述某个主题类别对应的至少一个特征词语。

在一个实施例中，上述显著性特征分值计算模块，还用于通过对所述备选特征词语在所述各个主题类别中的词频信息求平均，得到所述类平均词频。

在一个实施例中，上述显著性特征分值计算模块，还用于通过对所述备选特征词语在所述各个主题类别中的词频信息计算标准差，得到所述类样本标准差。

在一个实施例中，上述显著性特征分值计算模块，还用于基于所述备选特征词语的所述类平均词频和所述类样本标准差，得到其对应所述某个主题类别的检验统计值；通过将所述检验统计值与预设的拒绝域临界值相比较，得到所述备选特征词语作为所述某个主题类别的特征词语的显著性特征分值。

在一个实施例中，如图10所示，提供了一种文本主题类别识别1000，包括：预处理模块1010、显著性特征分值确定模块1020、显著性特征分值获取模块1030、类别距离计算模块1040和主题类别确定模块1050，其中：

预处理模块1010，用于获取待识别的目标文本，进行分词处理，并统计分词得到的各个词语的词频信息；根据所述词频信息，确定词语在目标文本中的出现次数和出现频率；

显著性特征分值确定模块1020，用于根据所述词语在目标文本中的出现次数和出现频率，以及目标文本中所有词语的总出现次数，确定所述词语在目标文本中的显著性特征分值；

显著性特征分值获取模块1030，用于获取多个主题类别中各个主题类别的特征词语的显著性特征分值；其中，所述各个主题类别的特征词语根据权利要求1所述方法确定；

类别距离计算模块1040，用于根据所述目标文本中各个词语的所述显著性特征分值，以及各个主题类别的特征词语的显著性特征分值，计算所述目标文本与各个主题类别的类别距离；

主题类别确定模块1050，用于如果目标文本与所述多个主题类别中的某个主题类别的类别距离最近且所述类别距离小于等于阈值，则将目标文本确定为所述某个主题类别。

关于主题类别对应的特征词提取装置和文本主题类别识别装置的具体限定可以参见上文中对于主题类别对应的特征词提取方法和文本主题类别识别方法的限定，在此不再赘述。上述主题类别对应的特征词提取装置和文本主题类别识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储主题类别对应的特征词提取和文本主题类别识别数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种主题类别对应的特征词提取方法和一种文本主题类别识别方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述一种主题类别对应的特征词提取方法和一种文本主题类别识别方法的步骤。此处一种主题类别对应的特征词提取方法的步骤可以是上述各个实施例的一种主题类别对应的特征词提取方法中的步骤，一种文本主题类别识别方法的步骤可以是上述各个实施例的一种文本主题类别识别方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述一种主题类别对应的特征词提取方法和一种文本主题类别识别方法的步骤。此处一种主题类别对应的特征词提取方法的步骤可以是上述各个实施例的一种主题类别对应的特征词提取方法中的步骤，一种文本主题类别识别方法的步骤可以是上述各个实施例的一种文本主题类别识别方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种主题类别对应的特征词提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述针对各个主题类别，根据所述多个词语在本主题类别中的词频信息，以及在多个主题类别中的分布情况，从所述多个词语中筛选出至少一个特征词语，作为对应主题类别的特征词语，包括：

3.根据权利要求2所述的方法，其特征在于，所述针对所述备选特征词语，获取其在所述多个主题类别中的类平均词频及类样本标准差，包括：

4.根据权利要求2所述的方法，其特征在于，所述针对所述备选特征词语，获取其在所述多个主题类别中的类平均词频及类样本标准差，还包括：

5.根据权利要求2所述的方法，其特征在于，所述基于所述备选特征词语的所述类平均词频及类样本标准差，确定其作为所述某个主题类别的特征词语的显著性特征分值，包括：

6.一种文本主题类别识别方法，其特征在于，所述方法包括：

7.一种主题类别对应的特征词提取装置，其特征在于，所述装置包括：

8.一种文本主题类别识别装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。