CN112395878B

CN112395878B - 一种基于电价政策的文本处理方法及系统

Info

Publication number: CN112395878B
Application number: CN202011468350.2A
Authority: CN
Inventors: 郑福康; 陈正飞; 王嘉豪
Original assignee: Shenzhen Power Supply Bureau Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2024-01-02
Anticipated expiration: 2040-12-14
Also published as: CN112395878A

Abstract

本发明公开了一种基于电价政策的文本处理方法及系统，通过构建对爬取后的电价文本进行清洗、分词、预处理、表征，能够解决电价政策系统应用底层文本管理困难、繁杂的问题，采用特征工程、机器学习、非结构化数据处理方法自动化工作流程将电价文本转为正确的格式，极大地提高了电价政策分析人员在业务中人工环节的应用效率；能快速地将文本进行处理并向量化表示，为后续系统中的业务，如推荐、分类等模块提供支撑，通过对文本进行清洗、降低了噪声数据对上游业务的影响，基于两种文本切割方式的表征方法，极大提高了电价政策进行电价之间隐含语义的关系，这种表征方法在后续系统业务中有着重要的作用。

Description

一种基于电价政策的文本处理方法及系统

技术领域

本发明涉及知识图谱与自然语言处理技术领域，具体涉及一种基于电价政策的文本处理方法及系统。

背景技术

加强电价管理是供电企业实现销售收入，提高盈利水平的重要保证。认真执行国家电价政策、法规，规范电价管理秩序，对保证国家产业政策调控，节约能源，维护供用电双方的经济利益有着重要意义。随着营销自动化在全国范围的顺利运行，对规范用电营销业务和电价管理起到了重要作用。从目前我国营销自动化运行过程中发现，在电价管理上存在着一定的漏洞和问题，有必要加以完善和改进。其中，电价政策直接影响着整个电力能源行业的发展，目前储能在用户侧的盈利模式仍以峰谷电价套利为主，峰谷电价的变化也牵动着储能的脉象。电价在电力营销中扮演着非常重要角色，如果不能掌握好电价，就会影响电量的使用情况，电量使用又会给电力企业发展带来一定的影响。因此，需要及时地获知电价政策，以便于制定合理的电力营销策略，促进电力企业发展。

一般而言，电价政策信息会在专业性和权威性强的国家层面的网站发布，因此可以从这些网站上获取电价政策文档，而为了方便管理人员快速了解电价政策文档，需要对电价政策文档进行分割，把文本分词则是电价政策文本预处理的重要步骤。后续的分类操作需要使用文本中的单词来表征文本，所以分词效果直接影响电价政策分类效果；但现有技术中对电价政策材料中电价政策语义的理解性，以及分词处理的准确性和效率均不能达到要求。

发明内容

为解决上述技术问题，本发明提供一种基于电价政策的文本处理方法及系统，可提高对电价政策材料中电价政策语义的理解性，快速且准确地实现分词处理，能帮助业务人员更加准确的了解电价政策。

本发明的一方面，提供一种基于电价政策的文本处理方法，其包括以下步骤：

步骤S10、从预定的网站上通过爬取获得电价政策材料，经过格式转换后，形成电价政策材料；

步骤S11、根据清洗后的电价政策文本、基于相似度原理以及预设定阈值，对电价政策文本进行去重；

步骤S12、对去重后的电价政策文本进行分词预处理，所述预处理包括基于分词去除停用词、去除无效值；

步骤S13、根据分词后的文本获得一组词汇，计算所有词汇的TF-IDF值，以及分词后的词性，确定所述词汇中的候选词；

步骤S14、使用word2vec模型对上一步骤的所有电价政策文本的候选词数据进行训练，得到电价政策文本词向量；

步骤S15、将文档所有词汇向量相加后求词平均值，得到文档的向量化表示，根据文档的向量化表示确定所需的电价政策文本。

优选地，所述步骤S10进一步包括：

对经过格式转换后的电价政策材料进行清洗操作，以去除其中的特殊字符、符号、多余的换行符以及空格。

优选地，所述步骤S11中采用向量空间模型算法对电价政策文本进行去重处理，具体包括：

将候选词个数n作为向量的维数，每个候选词的权值为w，候选词出现的频率为x，通过下式计算主题向量α和文本向量β的夹角余弦来表示文本的主题相关度：

将计算结果与设定阈值进行比较，若计算结果大于设定阈值，则认定所述文本与主题相关，否则认定为不相关。

优选地，所述步骤S12进一步包括：

对电价文本进行分词预处理，将电价政策文本的正文内容部分通过python的第三方库pandas读入，形成dataframe格式数据；

将所述dataframe格式数据转化为字符串列表L0，按行读取字符串列表L0并调用python的第三方库jieba实现中文分词，在分词前加载电价政策领域词典，得到分词后的字符串列表L1；

根据预先形成的停用词表去除字符串列表L1中高频出现的连词、代词和介词，读出所述L1中的所有不重复词汇，生成电价政策词汇词典L2。

优选地，所述步骤S13进一步包括：

步骤S130，根据结巴词库的解析方法获得文本中每一词汇的词性，过滤掉其中介词、连词、以及无法判断词性的词汇；

步骤S131，统计文本中其他词语的的频率TF、逆文档频率IDF，计算获得每个词汇的TF-IDF值，建立基于TF-IDF的词典；对于每个文本，保留TF-IDF值排序处于预定范围的词语，确定为候选词，其中，预定范围为处于前70%-90%。

优选地，所述步骤S14进一步包括：

步骤S140，通过one-hot方法将词汇词典的所述候选词汇建立词汇索引；

步骤S141，将所述候选词与词汇字典选词中的相同词汇进行映射得到每篇文档的词汇索引；

步骤S142，选取预定窗口大小构建训练数据集，并设置词向量维数；对每个训练数据集内词汇进行负采样训练，读出训练结束后的权重矩阵，获得电价政策文本词向量文件。

优选地，所述步骤S15进一步包括：

步骤S150，将预处理后的字符串列表所述与每一篇文档的标签映射得到映射后的数组；

步骤S151，将数组中的词汇与词向量文件建立映射，得到文档的词向量数组；将所述组数中在训练词汇词典中未出现的词汇用零向量表示；

步骤S152，将每一篇文档分别求词平均值，得到文本向量；

步骤S153，根据文档的向量确定所需的电价政策文本。实施本发明，具有如下的有益效果：

本发明的另一方面，还提供一种基于电价政策的文本处理系统，其包括：一个或多个处理器、一个或多个输入设备、一个或多个输出设备和存储器，上述处理器、输入设备、输出设备和存储器通过总线相互连接。存储器用于存储计算机程序，所述计算机程序包括程序指令，其特征在于，所述处理器被配置用于调用所述程序指令执行前述的方法。

实施本发明实施例，具有如下的有益效果：

本发明提供一种基于电价政策的文本处理方法及系统，通过采用电价政策文本预处理规则，提升了文本表征的准确性，后续的操作需要使用文本中的单词来表征文本；通过对文本进行向量化，在系统应用中，无需再次对文本进行处理，只需要根据向量进行计算，提升了系统运行效率，此外基于word2vec的训练方法加强了词语之间的语义关联，为后续系统分类、推荐提供了良好的特征；

本发明可提高对电价政策材料中电价政策语义的理解性，快速且准确地实现分词处理，能帮助业务人员更加准确的了解电价政策。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1是本发明提供的一种基于电价政策的文本处理方法的一个实施例的主流程示意图；

图2为图1中基于word2vec训练后得到的部分词向量示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

如图1所示，示出了本发明提供的一种基于电价政策的文本处理方法的一个实施例的主流程示意图；一并结合图2所示，在本实施例中，所述方法包括以下步骤：

步骤S10，从预定的网站上通过爬取获得电价政策材料，或者通过人工整理获得电价政策材料，所述材料可以是文本、图片、PDF或word等格式，经格式转换后形成统一转换为文本后的结果，例如统一形成电价政策文本。

可以理解的是，对经过格式转换后的电价政策材料进行清洗操作，包括去除其中的特殊字符、符号、多余的换行符以及空格。

具体地，在一些例子中，包括步骤S101，一些电价政策是由人工进行整理的，根据文件后缀名采用不同读取器读取内容，例如图片采用ocr进行识别、doc文件用word读取器读取内容，解析读取完内容后统一转化为文本在本地进行存储。

步骤S102，基于正则表达式去除各个文件字符串的换行符、空格符、以及“#、%、&”等特殊符号。

步骤S11，根据清洗后的电价政策文本、基于相似度原理以及预设定阈值，对电价政策文本进行去重；

电价政策文本去重以及主题相关度计算通常来说，一个电价政策发布后会在各个电价网站中广泛传播，各大网站都有可能存在相关报道，因此网络信息检索的返回结果中往往存在大量重复信息，为了更有效地完成文本处理，判断并去除这些重复信息是十分必要的。

向量空间模型算法是目前计算文本相关度的一种常用并且广为认可的方法，所述步骤S11中可以采用向量空间模型算法对电价政策文本进行去重处理，具体地，包括：

步骤S110，将候选词个数n作为向量的维数，每个候选词的权值为w，候选词出现的频率为x，通过计算主题向量α和文本向量β的夹角余弦来表示文本的主题相关度：

将计算结果与设定阈值进行比较，若计算结果大于设定阈值，则认定所述文本与主题相关，否则认定为不相关；根据相关性进行去重处理。

步骤S12，对去重后的电价政策文本进行分词预处理，所述预处理包括基于分词去除停用词、去除无效值；

可以理解的是，在完成去除文本中的标点、数字、特殊字符的过滤工作之后需要对文本进行分词、停用词过滤、无效值过滤等操作。

不同于英文等语言，在中文的文本处理任务中需要对文本进行分词处理，具体的原因是因为基于字粒度的特征选择会损失比较多的“n-gram”信息，而且一般算法是直接忽略文本中的词序信息，因此特征粒度采用基于词粒度比字粒度更好。英文中每个单词之间会有间隔，而中文是连续性的，所以有必要进行复杂的分词处理。本文采用结巴分词对文本进行分词处理。

所谓的去停用词是剔除文本中的一些连词、代词和介词等高频率出现但对文本处理没有太大影响的词语，因此需要建立一个停用词表，直接去除对分类没有任何帮助的停用词。

在一个例子中，所述步骤S12进一步包括如下步骤：

步骤S120，对电价文本进行分词预处理，将电价政策文本的正文内容部分通过python的第三方库pandas读入，形成dataframe格式数据；

步骤S121，将所述dataframe格式数据转化为字符串列表L0，按行读取字符串列表L0并调用python的第三方库jieba实现中文分词，在分词前加载电价政策领域词典，得到分词后的字符串列表L1；

步骤S122，根据预先形成的停用词表去除字符串列表L1中高频出现的连词、代词和介词，读出所述L1中的所有不重复词汇，生成电价政策词汇词典L2。

步骤S13，根据分词后的文本获得一组词汇，计算所有词汇的TF-IDF值，以及分词后的词性，确定所述词汇中的候选词；以缩短文档中词汇数量过多造成影响。

在一个具体的例子中，所述步骤S13进一步包括：

步骤S131，统计文本中其他词语的频率TF、逆文档频率IDF，将两者值相乘，计算获得每个词汇的TF-IDF值，建立基于TF-IDF的词典；对于每个文本，保留TF-IDF值排序处于预定范围的词语，确定为候选词，其中，预定范围为处于前70%-90%。

步骤S14，使用word2vec模型对上一步骤的所有电价政策文本的候选词数据进行训练，得到电价政策文本词向量；

具体地，在一个例子中，所述步骤S14进一步包括：

可以理解的是，在文本处理过程中，有必要先将文本转换成机器可以理解的形式，也就是将文本转换成表示特定含义的数组或者数字向量。在传统的自然语言处理任务中，文本表示一般都是采用词袋方法。这种方法忽略文本的语法和语序等信息，将其看作若干词汇的集合，文本中的每个单词都是相互独立，具体的原理是定义一个固定长度的向量，其中每个条目对应于预定义的单词字典中的一个单词，这个向量的大小等于字典的大小。随着深度学习方法的应用，目前使用最多的文本分布式表示方法是Word2vec方法，Word2vec并不是单一的算法，而是连续词袋CBOW和Skip-gram模型两个模型的组合。这两个模型都是将词语映射到词向量的浅层神经网络，最终目的将词语表示成包含不同词语之间关系的稠密词向量。

本文使用CBOW模式，其中，所述CBOW模式包括统计所述词的出现频率，删除出现频率小于2的词汇形成词汇列表通过one-hot方法将词汇词典建立词汇索引；将所述词汇索引与所述词汇列表中的相同词汇进行映射得到每篇文档的词汇索引；选取窗口大小为5构建训练batch，词向量维数设置为150维；对每个batch内词汇通过python第三方库numpy进行层次softmax训练，读出训练结束后的权重矩阵、即词向量文件，如图2所示。

步骤S15，将文档所有词汇向量相加后求词平均值，得到文档的向量化表示，根据文档的向量化表示确定所需的电价政策文本。

在一个例子中，所述步骤S15进一步包括：

步骤S152，将每一篇文档分别求词平均值，得到文本向量；

步骤S153，根据文档的向量确定所需的电价政策文本。

具体地，对于文档候选词集合，结合word2vec的CBOW模型训练得到的词向量，将集合中的各个候选词用对应的词向量表示，由此可得到集合对应的文本特征向量矩阵，m为候选词的个数，n为词向量的维度，对待测文本的文本特征向量/>的每一列求和并计算均值，即可得到待测文本的文本特征向量d。

在本发明的另一优选实施例中，还提供了一种基于电价政策的文本处理系统，可以包括：一个或多个处理器、一个或多个输入设备、一个或多个输出设备和存储器，上述处理器、输入设备、输出设备和存储器通过总线相互连接。存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令执行上述方法实施例部分的方法。

应当理解，在本发明实施例中，所称处理器可以是中央处理单元 (CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器 (DigitalSignal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备可以包括键盘等，输出设备可以包括显示器（LCD等）、扬声器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器、输入设备、输出设备可执行本发明方法实施例中所描述的实现方式，在此不再赘述。

实施本发明实施例，具有如下的有益效果：

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于电价政策的文本处理方法，其特征在于，包括以下步骤：

步骤S10、从预定的网站上通过爬取获得电价政策材料，经过格式转换后，形成电价政策文本，并进行清洗；

步骤S11、根据清洗后的电价政策文本、基于相似度原理以及预设定阈值，对电价政策文本进行去重处理；

步骤S15、将文档所有词汇向量相加后求词平均值，得到文档的向量化表示，根据文档的向量化表示确定所需的电价政策文本；

其中，所述步骤S11中采用向量空间模型算法对电价政策文本进行去重处理，具体包括：

将计算结果与设定阈值进行比较，若计算结果大于设定阈值，则认定所述文本与主题相关，否则认定为不相关；根据相关性进行去重处理；

所述步骤S12进一步包括：

步骤S122，根据预先形成的停用词表去除字符串列表L1中高频出现的连词、代词和介词，读出所述L1中的所有不重复词汇，生成电价政策词汇词典L2；

所述步骤S13进一步包括：

步骤S131，统计文本中其他词语的频率TF、逆文档频率IDF，计算获得每个词汇的TF-IDF值，建立基于TF-IDF的词典；对于每个文本，保留TF-IDF值排序处于预定范围的词语，确定为候选词，其中，预定范围为处于前列的70%-90%之间；

所述步骤S14进一步包括：

步骤S140，通过one-hot方法将词汇词典的所述候选词建立词汇索引；

2.如权利要求1所述的方法，其特征在于，所述步骤S10进一步包括：

3.根据权利要求2所述的方法，其特征在于，所述步骤S15进一步包括：

步骤S150，将预处理后的字符串列表与每一篇文档的标签映射得到映射后的数组；

步骤S152，将每一篇文档分别求词平均值，得到文本向量；

步骤S153，根据文档的向量确定所需的电价政策文本。

4.一种基于电价政策的文本处理系统，其包括：一个或多个处理器、一个或多个输入设备、一个或多个输出设备和存储器，上述处理器、输入设备、输出设备和存储器通过总线相互连接；存储器用于存储计算机程序，所述计算机程序包括程序指令，其特征在于，所述处理器被配置用于调用所述程序指令执行如权利要求1至3任一项所述的方法。