CN108228546A

CN108228546A - 一种文本特征提取方法、装置、设备及可读存储介质

Info

Publication number: CN108228546A
Application number: CN201810053301.9A
Authority: CN
Inventors: 李界鹏; 王能
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2018-01-19
Filing date: 2018-01-19
Publication date: 2018-06-29

Abstract

本发明公开了一种文本特征提取方法，该方法包括：设置与目标领域相对应的目标关键词集合，获取与目标关键词集合对应的原始文章集合，对原始文章集合中的文章进行预处理，获得目标文章集合，对目标文章集合中的每一篇文章进行分词处理，获得词汇集合，计算词汇集合中的每一个词汇对应的信息增益值，以确定文本特征集合。本方法可以获得专业性较强的文本特征，便于理解和可视化数据，同时还降低了计算和存储能力等。本发明还公开了一种文本特征提取装置、设备及可读存储介质，具有相应的技术效果。

Description

一种文本特征提取方法、装置、设备及可读存储介质

技术领域

本发明涉及信息处理技术领域，特别是涉及一种文本特征提取方法、装置、设备及可读存储介质。

背景技术

随着人工智能技术的飞速发展，机器人时代已经到来。在机器学习中，特征提取是特征工程中的重要问题。

在实际应用中，数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。由此可见，特征工程尤其是特征选择在机器学习中占有相当重要的地位。特征选择之所以要引起重视的原因，那就是随着科技发展，很多领域能采集到的特征变量数以万计，而能作为训练集的样本量却往往远小于特征数量。例如，基因测序、文本分类。

现有的，特征提取中常常出现过拟合和维灾难。其中，过拟合指为了得到一致假设而使假设变得过度严格。维灾难指当特征维度超过一定界限后，分类器的性能随着特征维度的增加反而下降，另外，维度越高训练模型的时间开销也会越大。

综上所述，如何有效地解决文本特征提取等问题，是目前本领域技术人员急需解决的技术问题。

发明内容

本发明的目的是提供一种文本特征提取方法、装置、设备及可读存储介质，以文本特征进行有效的提取。

为解决上述技术问题，本发明提供如下技术方案：

一种文本特征提取方法，包括：

设置与目标领域相对应的目标关键词集合；

获取与所述目标关键词集合对应的原始文章集合；

对所述原始文章集合中的文章进行预处理，获得目标文章集合；

对所述目标文章集合中的每一篇文章进行分词处理，获得词汇集合；

计算所述词汇集合中的每一个词汇对应的信息增益值，以确定文本特征集合。

优选地，获取与目标关键词集合对应的原始文章集合，包括：

确定所述目标关键词集合对应的目标网站集合；

通过访问所述目标网站集合中的每一个网站，获取与所述目标关键词集合对应的原始文章集合。

优选地，对所述原始文章集合中的文章进行预处理，获得目标文章集合，包括：

对所述原始文章集合中的文章进行相似度计算；

将相似度大于预设阈值的文章进行去重处理，获得目标文章集合。

将所述原始文章集合中的字体为繁体的文章进行字体转换处理，获得目标文章集合。

对所述原始文章集合中的每一篇文章进行文本纠错处理，获得目标文章集合。

对所述原始文章集合中的文章进行人工分类处理，获得目标文章集合。

优选地，对所述目标文章集合中的每一篇文章进行分词处理，获得词汇集合，包括：

查找并标记所述目标文章集合中每一篇文章中的预设特殊词汇；

以预设分词处理内容长度进行分词处理时，若当前待分割内容为预设特征词汇，则直接将所述待分割内容存入词汇集合中。

一种文本特征提取装置，包括：

目标关键词集合确定模块，用于设置与目标领域相对应的目标关键词集合；

原始文章集合获取模块，用于获取与所述目标关键词集合对应的原始文章集合；

目标文章集合获取模块，用于对所述原始文章集合中的文章进行预处理，获得目标文章集合；

词汇集合获得模块，用于对所述目标文章集合中的每一篇文章进行分词处理，获得词汇集合；

文本特征词汇集合，用于计算所述词汇集合中的每一个词汇对应的信息增益值，以确定文本特征集合。

一种文本特征提取设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述文本特征提取方法的步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述文本特征提取方法的步骤。

应用本发明实施例所提供的方法，设置与目标领域相对应的目标关键词集合，获取与目标关键词集合对应的原始文章集合，对原始文章集合中的文章进行预处理，获得目标文章集合，对目标文章集合中的每一篇文章进行分词处理，获得词汇集合，计算词汇集合中的每一个词汇对应的信息增益值，以确定文本特征集合。根据与目标领域相对应的关键词集合获取待提取特征的原始文章，可针对性获取目标领域的文章，可减少冗余特征和大量的多余计算，可提升专业性。将进行预处理后的目标文章集合进行分词处理，获得词汇集合，并计算每一个词汇对应的信息增益值，然后根据信息增益值确定文本特征集合。最终获得的文本特征专业性强，便于理解和可视化数据，同时还降低了计算和存储能力等。

相应的，本发明还提供了一种文本特征提取装置、设备及可读存储介质，基于上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种文本特征提取方法的实施流程图；

图2为本发明实施例中一种文本特征提取装置的结构示意图；

图3为本发明实施例中一种文本特征提取设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明实施例中一种文本特征提取方法的流程图，该方法包括以下步骤：

S101、设置与目标领域相对应的目标关键词集合；

在本实施例中，当要针对目标领域进行文本特征的提取时，可以针对目标领域设置一个目标关键词集合。其中，在目标关键词集合中可以为一个或多个目标关键词。具体的，目标关键词的设置可以根据预先所做的统计数据选择关键词，也可以是根据认为经验挑选代表目标领域的关键词。例如，可以直接接受用户输入的词汇作为关键词，或，基于数据统计之后，确定代表目标领域的关键词。

S102、获取与目标关键词集合对应的原始文章集合。

在本实施例中，可以通过目标关键词集合中的关键词在预设的文档库中查找获取与之对应的原始文章集合。也可以通过关键词集合中的关键词从网络中获取原始文章集合。当然，也可以结合预设的文档库和网络，获取原始文章集合。其中，原始文章集合中的文章的数目可预先设置，也可以根据实际情况进行确定和调整，在此，本发明实施例不做限定。

在本发明的一个具体实施例中，可以通过以下步骤获取与目标关键词集合对应的原始文章集合：

步骤一、确定目标关键词集合对应的目标网站集合；

步骤二、通过访问目标网站集合中的每一个网站，获取与目标关键词集合对应的原始文章集合。

为了便于描述，下面将上述两个步骤结合起来进行说明。

在本实施例中，可以通过网络获取原始文章集合。具体的，可以先根据目标关键词集合中的关键词确定对应的目标网站集合。可以以一个关键词确定一个目标网站，也可以多个关键词确定目标网站。确定目标网站集合之后，可以通过依次访问目标网站中与目标关键词集合对应的URL，获取对应的原始文章。

S103、对原始文章集合中的文章进行预处理，获得目标文章集合。

获取到原始文章集合之后，对原始文章集合中的文章进行预处理，可以获得目标文章集合。在实际应用中，在对原始文章进行预处理时，可以使用以下预处理方式中的任意一种或多种的结合。例如，在实际应用中，可以对原始文章集合进行字体转换、文本纠错、人工分类和去重处理，获得目标文章集合。

具体如下：

预处理方式1：包括：步骤一、对原始文章集合中的文章进行相似度计算；步骤二、将相似度大于预设阈值的文章进行去重处理，获得目标文章集合。即，本发明实施例提供的预处理方式1主要考虑的在获取原始文章集合时，可能会获取到相似内容文章。例如，在通过网络获取金融领域的报导文章时，可能某片文章会在不同的网站进行发表。因而，在预处理方式1中，主要为去重处理。具体的，首先对原始文章集合中的文章进行相似度计算，然后，判断是否存在相似度大于预设阈值的两篇或多篇文章，如果是，则表明存在相同或相似度较高的文章，此时可以进行去重处理，仅保留其中的一篇文章。避免因重复或相似度较大的文章导致后续文本特征提取的重复计算和不准确的问题。

预处理方式2：将原始文章集合中的字体为繁体的文章进行字体转换处理，获得目标文章集合。即，在预处理方式2中，主要针对字体而言，为了便于计算，将原始文章集合中的字体进行统一化处理，以获得目标文章集合。字体统一化可以为繁转简，也可以为简转繁。

预处理方式3：对原始文章集合中的每一篇文章进行文本纠错处理，获得目标文章集合。在预处理方式3中，主要考虑到原始文章中可能存在文本错误的情况，可能会干扰最终获得的文本特征的准确性。因而，在本实施例中，预处理为进行文本纠错处理，其中，具体的文本纠错可参照现有的纠错方法，本发明实施例在此不再赘述。

预处理方式4：对原始文章集合中的文章进行人工分类处理，获得目标文章集合。当提取的文本特征为情感特征类时，因机器学习无法贴合人类情感。因而，可以通过人工进行分类的方式，对文章进行分类处理。以最大限度的切合人类情感，便于提取情感特征。

S104、对目标文章集合中的每一篇文章进行分词处理，获得词汇集合。

通过预处理获得目标文章集合之后，可以对目标文章集合中的每一篇文章进行分词处理，获取词汇集合。在进行分词处理时，可以查找并标记目标文章集合中每一篇文章中的预设特殊词汇，以预设分词处理内容长度进行分词处理时，若当前待分割内容为预设特征词汇，则直接将待分割内容存入词汇集合中。即，在本实施例中，可以预先设置特殊词汇，特别指无需进行分割的词汇。例如，文章中出现银行、211、buy等词汇时，无需对该词汇进行分割。具体的，可以通过查找目标文章集合中的每一篇文章中的预测词汇，并为之进行标记处理。在以预设分词处理内容长度进行分词处理时，当监测到特征词汇的标记时，可以将其直接存入词汇集合中。当然，在实际应用中，还可以为特殊词汇进行编码，即直接将特殊词汇转化为对应的数字。

S105、计算词汇集合中的每一个词汇对应的信息增益值，以确定文本特征集合。

当获得词汇集合之后，可以针对词汇集合中的每一个词汇进行信息增益值的计算。当对词汇进行信息增益值的计算时，可以参考该词在词汇集合中的个数。具体的，信息增益值的计算可以参见常见的信息增益值的计算方式，在此不再赘述。

然后根据计算得到的信息增益值选择设定数目的词汇存入文本特征集合中。例如，可以在计算出信息增益值之后，进行大小排序，将排名为前20000的词汇存入文本特征集合中。

为便于理解本发明实施例所提供的方法，下面以金融领域中提取文本情感特征为例，对本发明实施例所提供的方法进行详细说明。

在本实施例中，可以设置a.search_keywords表用于对关键词进行新增、删除、修改、查询。该表具体可以包括：主键(id)、关键词(keyword)、类别(category)、创建时间(gmt_create_time)、更新时间(gmt_update_time)。其中，关键词中可以加入符号，如|&()，其中，|表示或，&表示与，()表明括号中的算式要作为一个整体来参加计算。可灵活的用于抓取原始文章集合中的文章的关键词的配置化。

通过抓取网站中的文章，获取原始文章集合。具体包括：

a.根据网站特性不同，开发解析逻辑，并且将内容、抓取时间解析出来；

b.对内容进行关键词过滤，符合过滤条件的留下来，将url的访问记录存储到spider_record_history表中，用于去url重处理；

c.将过滤得到的url、内容、发布时间、抓取时间存入到elasticsearch中；

d.将过滤后得到的url、内容、发布时间、抓取时间存入到web_page_content表中。

具体实现过程可以为以下两种模式中的其中一种：

模式一：根据金融类相关的关键词，抓取搜索引擎或者定向抓取的可搜索的金融类网站。即，可以执行以下步骤：

a.select keyword from search_keywords where category＝’search’，获取到keyword集合；

b.传入参数，模拟搜索引擎的请求，获取到url集合；

c.然后依次根据时间、页数或者条数来做限制；

d.判断spider_history表中的url是否已经存在，若已存在，则不再请求；

e.模拟请求网页的url，以获取金融类文章。

模式二：指定网站的金融模块、财经模块直接爬取金融文章。即，可执行以下步骤：

a.分析网站制定模块的请求url，然后依次根据时间、页数或者条数来做限制；

b.判断spider_history表中的url是否已经存在，若已存在，则不再请求；

c.模拟请求网页的url。

获取到原始文章集合之后，进行以下预处理：

去重处理：

通过相似度计算，进行去重，具体的，可以通过elasticsearch查询出相似度80％以上的文章，并且做去重处理。

进行分类标注处理：

a.通过界面的抓取时间、发布时间查询出url和内容；

b.人工对原始文章集合中的金融文章进行正面、中立、负面的标注，标注好的内容可以分别存到文件名为1、5、9的文件夹中。

在进行分词处理前，可以对预设特殊词汇进行标记，不用分词。即不用分词特征维护。具体的，维护不用进行分割的预设特殊词到exclude-terms.txt文件中。其中，特殊词汇如银行、211、360、buy等，每个关键词放一段，可以标注为#开头。

通过执行以下步骤进行分词处理：

a.读取出exclude-terms.txt的值，while((line＝reader.readLine())！＝null)的方式依次读取每一段；

b.在该段为#号开头时，continue；

c.在该段不是#号开头时，将内容长度大于0的存放到includeTerms的set中；

d.依次遍历文件1、5、9，获取到每一行内容；

e.读取到的内容，如果是繁体的内容转换为简体；

f.大写字母全部转为小写；

g.对连续的数字串、连续的字母串、连续的数字或字母、商品类别、地名、超链接分别替换为指定的常量；

h.进行1-gram、2-gram进行分词，对不用分词的特征不做分词处理，得到一个terms的list集合；

i.Set<String>norepeat＝new HashSet<String>()，即，set集合用于去重。将得到terms的集合放入set中去重；

j.cateDocSizes＝new HashMap<String，Integer>()，即，类别及包含的文档数目。将每个类别总共有多少行数据存放每个类别总共有多少行数据

k.通过执行termCateDocSizes＝new HashMap<String，Map<String，Integer>>()。即，遍历每一个特征，并且计数，存放到map中。记录每一个特征z在每个类别中出现了多少次存放到termCateDocSizes中；

l.计算每一个特征的信息增益值。可通过infoGains＝new HashMap<String，Double>()进行计算，其中，存放的key是特征，Value是信息增益值。

m.将信息增益值进行倒叙排列，然后写入到term.txt文件中；

n.指定TERM_SIZE＝20000，选出前20000个特征，即作为情感特征集合中的情感特征。

将本发明实施例所提供的方法用于提取金融领域的文本情感特征时，由于增加了数据抓取的灵活配置的关键词，相似计算、繁体转简体处理、错别字纠正以及利用信息增益来完成筛选可以去掉无关特征和冗余特征，提升特征提取效果。有利于后续针对文本情感特征的深度开发。

相应于上面的方法实施例，本发明实施例还提供了一种文本特征提取装置，下文描述的文本特征提取装置与上文描述的文本特征提取方法可相互对应参照。

参见图2所示，该装置包括以下模块：

目标关键词集合确定模块201，用于设置与目标领域相对应的目标关键词集合；

原始文章集合获取模块202，用于获取与目标关键词集合对应的原始文章集合；

目标文章集合获取模块203，用于对原始文章集合中的文章进行预处理，获得目标文章集合；

词汇集合获得模块204，用于对目标文章集合中的每一篇文章进行分词处理，获得词汇集合；

文本特征词汇集合205，用于计算词汇集合中的每一个词汇对应的信息增益值，以确定文本特征集合。

应用本发明实施例所提供的装置，设置与目标领域相对应的目标关键词集合，获取与目标关键词集合对应的原始文章集合，对原始文章集合中的文章进行预处理，获得目标文章集合，对目标文章集合中的每一篇文章进行分词处理，获得词汇集合，计算词汇集合中的每一个词汇对应的信息增益值，以确定文本特征集合。根据与目标领域相对应的关键词集合获取待提取特征的原始文章，可针对性获取目标领域的文章，可减少冗余特征和大量的多余计算，可提升专业性。将进行预处理后的目标文章集合进行分词处理，获得词汇集合，并计算每一个词汇对应的信息增益值，然后根据信息增益值确定文本特征集合。最终获得的文本特征专业性强，便于理解和可视化数据，同时还降低了计算和存储能力等。

在本发明的一种具体实施方式中，原始文章集合获取模块202，包括：

目标网站集合确定单元，用于确定目标关键词集合对应的目标网站集合；

原始文章集合获取单元，用于通过访问目标网站集合中的每一个网站，获取与目标关键词集合对应的原始文章集合。

在本发明的一种具体实施方式中，目标文章集合获取模块203，包括：

相似度计算单元，用于对原始文章集合中的文章进行相似度计算；

去重处理单元，用于将相似度大于预设阈值的文章进行去重处理，获得目标文章集合。

在本发明的一种具体实施方式中，目标文章集合获取模块203，具体用于将原始文章集合中的字体为繁体的文章进行字体转换处理，获得目标文章集合。

在本发明的一种具体实施方式中，目标文章集合获取模块203，具体用于对原始文章集合中的每一篇文章进行文本纠错处理，获得目标文章集合。

在本发明的一种具体实施方式中，目标文章集合获取模块203，具体用于对原始文章集合中的文章进行人工分类处理，获得目标文章集合。

在本发明的一种具体实施方式中，词汇集合获得模块204，包括：

预设特殊词汇查询标记单元，用于查找并标记目标文章集合中每一篇文章中的预设特殊词汇；

分词处理单元，用于以预设分词处理内容长度进行分词处理时，若当前待分割内容为预设特征词汇，则直接将待分割内容存入词汇集合中。

相应于上面的方法实施例，本发明实施例还提供了一种文本特征提取设备，下文描述的一种文本特征提取设备与上文描述的一种文本特征提取方法可相互对应参照。

参见图3所示，该文本特征提取设备包括：

存储器D1，用于存储计算机程序；

处理器D2，用于执行计算机程序时实现上述方法实施例的文本特征提取方法的步骤。

相应于上面的方法实施例，本发明实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种文本特征提取方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的文本特征提取方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种文本特征提取方法，其特征在于，包括：

设置与目标领域相对应的目标关键词集合；

获取与所述目标关键词集合对应的原始文章集合；

2.根据权利要求1所述的文本特征提取方法，其特征在于，获取与目标关键词集合对应的原始文章集合，包括：

确定所述目标关键词集合对应的目标网站集合；

3.根据权利要求1所述的文本特征提取方法，其特征在于，对所述原始文章集合中的文章进行预处理，获得目标文章集合，包括：

对所述原始文章集合中的文章进行相似度计算；

4.根据权利要求1所述的文本特征提取方法，其特征在于，对所述原始文章集合中的文章进行预处理，获得目标文章集合，包括：

5.根据权利要求1所述的文本特征提取方法，其特征在于，对所述原始文章集合中的文章进行预处理，获得目标文章集合，包括：

6.根据权利要求1所述的文本特征提取方法，其特征在于，对所述原始文章集合中的文章进行预处理，获得目标文章集合，包括：

7.根据权利要求1至6任一项所述的文本特征提取方法，其特征在于，对所述目标文章集合中的每一篇文章进行分词处理，获得词汇集合，包括：

8.一种文本特征提取装置，其特征在于，包括：

9.一种文本特征提取设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述文本特征提取方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本特征提取方法的步骤。