CN115526173A

CN115526173A - 一种基于计算机信息技术的特征词提取方法及系统

Info

Publication number: CN115526173A
Application number: CN202211246305.1A
Authority: CN
Inventors: 吴桂林; 马传香
Original assignee: Hubei University
Current assignee: Hubei University
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2022-12-27

Abstract

本申请提出了一种基于计算机信息技术的特征词提取方法及系统，涉及计算机技术领域。一种基于计算机信息技术的特征词提取方法包括：获取预定时间段内计算机信息组的特征信息，根据特征信息中提取到的目标主题关键词，组成目标主题关键词集合；根据目标主题关键词集合对接多方数据源，进行数据处理和分类，得到特征词分类结果；根据特征词分类结果在计算机信息组中的词频信息，生成与对应主题关联的特征表，从特征表中筛选出至少一个特征词，作为对应主题的特征词。能够基于词语在主题类别中的词频信息自动提取出特征词语，提高特征词提取效。此外本申请还提出了一种基于计算机信息技术的特征词提取系统。

Description

一种基于计算机信息技术的特征词提取方法及系统

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种基于计算机信息技术的特征词提取方法及系统。

背景技术

随着计算机信息开发技术的不断发展，计算机信息数量大幅增多。但其中，不乏出现低质信息、钓鱼信息等具有一定风险性的计算机信息。出现了海量的文本资源，对海量文本的主题类别进行自动识别，可以为从海量的文本资源中准确、快速、全面地找到所需文本提供技术支撑，在数字化图书馆、舆情分析、新闻推荐、邮件过滤等领域有着广泛应用。与此同时，计算机信息技术的监管的力度还远远不够，一些潜在风险无法有效识别。故探索用于对计算机信息进行管理的系统引起了广泛关注。

在识别文本主题类别的过程中，通常需要提取能够体现文本主题类别的特征词，目前的特征词提取方法有人工提取方法、基于词频统计的方法和基于机器学习的方法，其中，人工提取方法提取效率较低，难以从海量文本资源中进行提取；基于词频统计的方法所提取的特征词数量通常较多，在进行文本主题类别识别时存在多个特征之间的相互干扰，容易导致识别准确率降低；基于机器学习的方法可以满足准确率的要求，但对训练文本的规模有较高要求，且需要根据具体主题划分的类别对训练模型的参数进行针对性调整，容易导致特征词提取效率较低。

发明内容

本申请的目的在于提供一种基于计算机信息技术的特征词提取方法，其能够基于词语在主题类别中的词频信息自动提取出特征词语，提高特征词提取效。

本申请的另一目的在于提供一种基于计算机信息技术的特征词提取系统，其能够运行一种基于计算机信息技术的特征词提取方法。

本申请的实施例是这样实现的：

第一方面，本申请实施例提供一种基于计算机信息技术的特征词提取方法，其包括获取预定时间段内计算机信息组的特征信息，根据特征信息中提取到的目标主题关键词，组成目标主题关键词集合；根据目标主题关键词集合对接多方数据源，进行数据处理和分类，得到特征词分类结果；根据特征词分类结果在计算机信息组中的词频信息，生成与对应主题关联的特征表，从特征表中筛选出至少一个特征词，作为对应主题的特征词。

在本申请的一些实施例中，上述获取预定时间段内计算机信息组的特征信息，根据特征信息中提取到的目标主题关键词，组成目标主题关键词集合包括：针对特征信息中各个词语的目标主题关键词，得到各目标主题关键词在主题类别的示例文本包含的关键词中所占的比例，将比例靠前的设定数量的目标主题关键词组成目标主题关键词集合。

在本申请的一些实施例中，上述还包括：基于各目标主题关键词进行敏感度分析，并根据敏感度分析结果进行横向类间敏感度排序，基于横向类间敏感度排序结果，获得前预设个横向类间敏感度对应的目标主题关键词集合。

在本申请的一些实施例中，上述根据目标主题关键词集合对接多方数据源，进行数据处理和分类，得到特征词分类结果包括：通过自动聚类方法对多方数据源进行划分，得到不同类型的数据源，自动聚类方法包括原型聚类、高斯混合聚类、密度聚类和层次聚类。

在本申请的一些实施例中，上述还包括：接收数据处理请求，根据预定的特征词提取规则，确定数据处理请求中的特征词，对确定的特征词进行特征词分类。

在本申请的一些实施例中，上述根据特征词分类结果在计算机信息组中的词频信息，生成与对应主题关联的特征表，从特征表中筛选出至少一个特征词，作为对应主题的特征词包括：根据预定的衰减公式，确定计算机信息组中的词频信息的衰减值，提取衰减值超出预定衰减阈值的词语为与对应主题关联的特征表中的特征词。

在本申请的一些实施例中，上述还包括：通过对词频信息在各个对应主题关联中的词频信息求平均，得到类平均词频，根据类平均词频生成与对应主题关联的特征表。

第二方面，本申请实施例提供一种基于计算机信息技术的特征词提取系统，其包括获取模块，用于获取预定时间段内计算机信息组的特征信息，根据特征信息中提取到的目标主题关键词，组成目标主题关键词集合；

处理分类模块，用于根据目标主题关键词集合对接多方数据源，进行数据处理和分类，得到特征词分类结果；

特征词提取模块，用于根据特征词分类结果在计算机信息组中的词频信息，生成与对应主题关联的特征表，从特征表中筛选出至少一个特征词，作为对应主题的特征词。

在本申请的一些实施例中，上述包括：用于存储计算机指令的至少一个存储器；与上述存储器通讯的至少一个处理器，其中当上述至少一个处理器执行上述计算机指令时，上述至少一个处理器使上述系统执行：获取模块、处理分类模块及特征词提取模块。

第三方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如一种基于计算机信息技术的特征词提取方法中任一项的方法。

相对于现有技术，本申请的实施例至少具有如下优点或有益效果：

对各个主题类别的示例关键词进行分词处理，并对分词处理得到的各个目标主题分别进行词频统计，得到各个主题类别对应的多个词语的词频信息，可以自动统计关键词中各个词语的词频，高效获取词频信息，针对各个主题类别，根据多个词语在本主题类别中的词频信息，以及在多个主题类别中的分布情况，从多个词语中筛选出至少一个特征词语，作为对应主题类别的特征词语，可以基于词语在主题类别中的词频信息自动提取出特征词语，提高特征词提取效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种基于计算机信息技术的特征词提取方法步骤示意图；

图2为本申请实施例提供的一种基于计算机信息技术的特征词提取方法详细步骤示意图；

图3为本申请实施例提供的一种基于计算机信息技术的特征词提取系统模块示意图；

图4为本申请实施例提供的一种电子设备。

图标：10-获取模块；20-处理分类模块；30-特征词提取模块；101-存储器；102-处理器；103-通信接口。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。

实施例1

请参阅图1，图1为本申请实施例提供的一种基于计算机信息技术的特征词提取方法步骤示意图，其如下所示：

步骤S100，获取预定时间段内计算机信息组的特征信息，根据特征信息中提取到的目标主题关键词，组成目标主题关键词集合；

在一些实施方式中，根据计算机的指令选择某一类信息组中的特征信息主题关键词，也就是说主题关键词由计算机确定，该主题关键词为较为明显的特征信息关键词，计算机将信息组中的信息按是否为特征信息进行分类，特征信息为正样本集合，非特征信息为负样本集合，分别对正样本集合和负样本集合中的信息进行分词，得到候选关键词、正样本集合分词集合和负样本集合分词集合，其中正样本分词集合和负样本分词集合分别为正样本集合和负样本集合中的所有分词，候选关键词集合为其中部分词。

步骤S110，根据目标主题关键词集合对接多方数据源，进行数据处理和分类，得到特征词分类结果；

在一些实施方式中，目前中文文本主题类别识别方法包括基于知识计算机的文本分类、基于词频统计的文本分类和基于机器学习的文本分类。其中，基于知识计算机的分类方法中需要大量的领域专家知识和知识库作为分类过程的支撑，其对人力资源的要求较高且其规则不能穷举，不足以应对海量文本资源的处理。现有的英文文本主题类别识别方法包括基于词频统计的文本分类方法，该方法先基于文本单词的频率、TF-IDF指标等统计量构建文本的类别特征，再通过分类算法实现对目标文本归属的判别，常用的统计量包括单词在文本中出现的频率、单词是否出现(出现标为1，否则标为0)，以及刻画单词对文本重要程度的TF-IDF指标，以一种统计量为基础，再采用最近距离法、贝叶斯分类法等具体分类方法实现对目标文本主题类别的判定。由于文本的单词数量众多，文本特征表示往往需要几万甚至是几十万维度，高维度特征在一定程度上增加了存储和计算的负担，同时，众多维度的特征有时会产生相互干扰，导致目标文本类别的误判。基于机器学习的文本分类方法是指通过计算机自主学习、提取规则进行分类，当前技术有很多，如支持向量机(SVM)、K近邻算法(KNN)、神经网络(NeuralNets)、决策树和最小二乘等，其中SVM的应用是文本分类中近几年来最重要的进展之一。上述文本主题类别识别方法可以解决一定的实际问题，但是在面对海量文本资源时所需要的数据量较大，容易降低文本主题类别识别的效率。

步骤S120，根据特征词分类结果在计算机信息组中的词频信息，生成与对应主题关联的特征表，从特征表中筛选出至少一个特征词，作为对应主题的特征词。

在一些实施方式中，提供了一种提取对象特征的思路，通过对特征信息进行特征词提取以及对象值确定，生成与对象相关联的特征表，以此保存对象的多维特征，提高对象特征提取的准确度。另外，由于特征词以及对象值会随着时间的递增而逐渐变化，因此，所得特征表能更充分体现对象的特性以及自创建后的受关注度，且更为符合其热度变化规律。

实施例2

请参阅图2，图2为本申请实施例提供的一种基于计算机信息技术的特征词提取方法详细步骤示意图，其如下所示：

步骤S200，针对特征信息中各个词语的目标主题关键词，得到各目标主题关键词在主题类别的示例文本包含的关键词中所占的比例，将比例靠前的设定数量的目标主题关键词组成目标主题关键词集合。

步骤S210，基于各目标主题关键词进行敏感度分析，并根据敏感度分析结果进行横向类间敏感度排序，基于横向类间敏感度排序结果，获得前预设个横向类间敏感度对应的目标主题关键词集合。

步骤S220，通过自动聚类方法对多方数据源进行划分，得到不同类型的数据源，自动聚类方法包括原型聚类、高斯混合聚类、密度聚类和层次聚类。

步骤S230，接收数据处理请求，根据预定的特征词提取规则，确定数据处理请求中的特征词，对确定的特征词进行特征词分类。

步骤S240，根据预定的衰减公式，确定计算机信息组中的词频信息的衰减值，提取衰减值超出预定衰减阈值的词语为与对应主题关联的特征表中的特征词。

步骤S250，通过对词频信息在各个对应主题关联中的词频信息求平均，得到类平均词频，根据类平均词频生成与对应主题关联的特征表。

在一些实施方式中，通过基于统计假设和分析确定示例文本的特征概念实词，可以避免由人工经验设定阈值所带来的偏差，通过自动进行特征概念实词筛选，可以节省存储和计算资源，同时，该方法所需文本量较小，对每一个主题类别采用百篇左右的示例文本即能够提供特征提取，而且，该方法的通用性强，无需针对每一具体主题分类问题设置模型参数，可以降低使用门槛，且具有良好的识别效果，相比于同类方法具有简单高效的特点，适用于中文文本语料的主题筛选，能够极大程度的降低人工筛选的劳力投入。

实施例3

请参阅图3，图3为本申请实施例提供的一种基于计算机信息技术的特征词提取系统模块示意图，其如下所示：

获取模块10，用于获取预定时间段内计算机信息组的特征信息，根据特征信息中提取到的目标主题关键词，组成目标主题关键词集合；

处理分类模块20，用于根据目标主题关键词集合对接多方数据源，进行数据处理和分类，得到特征词分类结果；

特征词提取模块30，用于根据特征词分类结果在计算机信息组中的词频信息，生成与对应主题关联的特征表，从特征表中筛选出至少一个特征词，作为对应主题的特征词。

如图4所示，本申请实施例提供一种电子设备，其包括存储器101，用于存储一个或多个程序；处理器102。当一个或多个程序被处理器102执行时，实现如上述第一方面中任一项的方法。

还包括通信接口103，该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块，处理器102通过执行存储在存储器101内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。

其中，存储器101可以是但不限于，随机存取存储器101(Random Access Memory，RAM)，只读存储器101(Read Only Memory，ROM)，可编程只读存储器101(ProgrammableRead-Only Memory，PROM)，可擦除只读存储器101(Erasable Programmable Read-OnlyMemory，EPROM)，电可擦除只读存储器101(Electric Erasable Programmable Read-OnlyMemory，EEPROM)等。

处理器102可以是一种集成电路芯片，具有信号处理能力。该处理器102可以是通用处理器102，包括中央处理器102(Central Processing Unit，CPU)、网络处理器102(Network Processor，NP)等；还可以是数字信号处理器102(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请所提供的实施例中，应该理解到，所揭露的方法及系统，也可以通过其它的方式实现。以上所描述的方法及系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的方法及系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

另一方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器102执行时实现如上述第一方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器101(ROM，Read-Only Memory)、随机存取存储器101(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请实施例提供的一种基于计算机信息技术的特征词提取方法及系统，对各个主题类别的示例关键词进行分词处理，并对分词处理得到的各个目标主题分别进行词频统计，得到各个主题类别对应的多个词语的词频信息，可以自动统计关键词中各个词语的词频，高效获取词频信息，针对各个主题类别，根据多个词语在本主题类别中的词频信息，以及在多个主题类别中的分布情况，从多个词语中筛选出至少一个特征词语，作为对应主题类别的特征词语，可以基于词语在主题类别中的词频信息自动提取出特征词语，提高特征词提取效率。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于计算机信息技术的特征词提取方法，其特征在于，包括：

获取预定时间段内计算机信息组的特征信息，根据特征信息中提取到的目标主题关键词，组成目标主题关键词集合；

根据目标主题关键词集合对接多方数据源，进行数据处理和分类，得到特征词分类结果；

根据特征词分类结果在计算机信息组中的词频信息，生成与对应主题关联的特征表，从特征表中筛选出至少一个特征词，作为对应主题的特征词。

2.如权利要求1所述的一种基于计算机信息技术的特征词提取方法，其特征在于，所述获取预定时间段内计算机信息组的特征信息，根据特征信息中提取到的目标主题关键词，组成目标主题关键词集合包括：

针对特征信息中各个词语的目标主题关键词，得到各目标主题关键词在主题类别的示例文本包含的关键词中所占的比例，将比例靠前的设定数量的目标主题关键词组成目标主题关键词集合。

3.如权利要求2所述的一种基于计算机信息技术的特征词提取方法，其特征在于，还包括：

基于各目标主题关键词进行敏感度分析，并根据敏感度分析结果进行横向类间敏感度排序，基于横向类间敏感度排序结果，获得前预设个横向类间敏感度对应的目标主题关键词集合。

4.如权利要求1所述的一种基于计算机信息技术的特征词提取方法，其特征在于，所述根据目标主题关键词集合对接多方数据源，进行数据处理和分类，得到特征词分类结果包括：

通过自动聚类方法对多方数据源进行划分，得到不同类型的数据源，自动聚类方法包括原型聚类、高斯混合聚类、密度聚类和层次聚类。

5.如权利要求4所述的一种基于计算机信息技术的特征词提取方法，其特征在于，还包括：

接收数据处理请求，根据预定的特征词提取规则，确定数据处理请求中的特征词，对确定的特征词进行特征词分类。

6.如权利要求1所述的一种基于计算机信息技术的特征词提取方法，其特征在于，所述根据特征词分类结果在计算机信息组中的词频信息，生成与对应主题关联的特征表，从特征表中筛选出至少一个特征词，作为对应主题的特征词包括：

根据预定的衰减公式，确定计算机信息组中的词频信息的衰减值，提取衰减值超出预定衰减阈值的词语为与对应主题关联的特征表中的特征词。

7.如权利要求6所述的一种基于计算机信息技术的特征词提取方法，其特征在于，还包括：

通过对词频信息在各个对应主题关联中的词频信息求平均，得到类平均词频，根据类平均词频生成与对应主题关联的特征表。

8.一种基于计算机信息技术的特征词提取系统，其特征在于，包括：

获取模块，用于获取预定时间段内计算机信息组的特征信息，根据特征信息中提取到的目标主题关键词，组成目标主题关键词集合；

9.如权利要求8所述的一种基于计算机信息技术的特征词提取系统，其特征在于，包括：

用于存储计算机指令的至少一个存储器；

与所述存储器通讯的至少一个处理器，其中当所述至少一个处理器执行所述计算机指令时，所述至少一个处理器使所述系统执行：获取模块、处理分类模块及特征词提取模块。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。