CN112395878B - 一种基于电价政策的文本处理方法及系统 - Google Patents
一种基于电价政策的文本处理方法及系统 Download PDFInfo
- Publication number
- CN112395878B CN112395878B CN202011468350.2A CN202011468350A CN112395878B CN 112395878 B CN112395878 B CN 112395878B CN 202011468350 A CN202011468350 A CN 202011468350A CN 112395878 B CN112395878 B CN 112395878B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- electricity price
- words
- price policy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 63
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 230000011218 segmentation Effects 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000004140 cleaning Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 56
- 238000012549 training Methods 0.000 claims description 25
- 239000000463 material Substances 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 208000025174 PANDAS Diseases 0.000 claims description 3
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 claims description 3
- 235000016496 Panda oleosa Nutrition 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 240000000220 Panda oleosa Species 0.000 claims 1
- 238000012512 characterization method Methods 0.000 abstract 2
- 238000010801 machine learning Methods 0.000 abstract 1
- 238000011144 upstream manufacturing Methods 0.000 abstract 1
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 240000004718 Panda Species 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004146 energy storage Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于电价政策的文本处理方法及系统,通过构建对爬取后的电价文本进行清洗、分词、预处理、表征,能够解决电价政策系统应用底层文本管理困难、繁杂的问题,采用特征工程、机器学习、非结构化数据处理方法自动化工作流程将电价文本转为正确的格式,极大地提高了电价政策分析人员在业务中人工环节的应用效率;能快速地将文本进行处理并向量化表示,为后续系统中的业务,如推荐、分类等模块提供支撑,通过对文本进行清洗、降低了噪声数据对上游业务的影响,基于两种文本切割方式的表征方法,极大提高了电价政策进行电价之间隐含语义的关系,这种表征方法在后续系统业务中有着重要的作用。
Description
技术领域
本发明涉及知识图谱与自然语言处理技术领域,具体涉及一种基于电价政策的文本处理方法及系统。
背景技术
加强电价管理是供电企业实现销售收入,提高盈利水平的重要保证。认真执行国家电价政策、法规,规范电价管理秩序,对保证国家产业政策调控,节约能源,维护供用电双方的经济利益有着重要意义。随着营销自动化在全国范围的顺利运行,对规范用电营销业务和电价管理起到了重要作用。从目前我国营销自动化运行过程中发现,在电价管理上存在着一定的漏洞和问题,有必要加以完善和改进。其中,电价政策直接影响着整个电力能源行业的发展,目前储能在用户侧的盈利模式仍以峰谷电价套利为主,峰谷电价的变化也牵动着储能的脉象。电价在电力营销中扮演着非常重要角色,如果不能掌握好电价,就会影响电量的使用情况,电量使用又会给电力企业发展带来一定的影响。因此,需要及时地获知电价政策,以便于制定合理的电力营销策略,促进电力企业发展。
一般而言,电价政策信息会在专业性和权威性强的国家层面的网站发布,因此可以从这些网站上获取电价政策文档,而为了方便管理人员快速了解电价政策文档,需要对电价政策文档进行分割,把文本分词则是电价政策文本预处理的重要步骤。后续的分类操作需要使用文本中的单词来表征文本,所以分词效果直接影响电价政策分类效果;但现有技术中对电价政策材料中电价政策语义的理解性,以及分词处理的准确性和效率均不能达到要求。
发明内容
为解决上述技术问题,本发明提供一种基于电价政策的文本处理方法及系统,可提高对电价政策材料中电价政策语义的理解性,快速且准确地实现分词处理,能帮助业务人员更加准确的了解电价政策。
本发明的一方面,提供一种基于电价政策的文本处理方法,其包括以下步骤:
步骤S10、从预定的网站上通过爬取获得电价政策材料,经过格式转换后,形成电价政策材料;
步骤S11、根据清洗后的电价政策文本、基于相似度原理以及预设定阈值,对电价政策文本进行去重;
步骤S12、对去重后的电价政策文本进行分词预处理,所述预处理包括基于分词去除停用词、去除无效值;
步骤S13、根据分词后的文本获得一组词汇,计算所有词汇的TF-IDF值,以及分词后的词性,确定所述词汇中的候选词;
步骤S14、使用word2vec模型对上一步骤的所有电价政策文本的候选词数据进行训练,得到电价政策文本词向量;
步骤S15、将文档所有词汇向量相加后求词平均值,得到文档的向量化表示,根据文档的向量化表示确定所需的电价政策文本。
优选地,所述步骤S10进一步包括:
对经过格式转换后的电价政策材料进行清洗操作,以去除其中的特殊字符、符号、多余的换行符以及空格。
优选地,所述步骤S11中采用向量空间模型算法对电价政策文本进行去重处理,具体包括:
将候选词个数n作为向量的维数,每个候选词的权值为w,候选词出现的频率为x,通过下式计算主题向量α和文本向量β的夹角余弦来表示文本的主题相关度:
将计算结果与设定阈值进行比较,若计算结果大于设定阈值,则认定所述文本与主题相关,否则认定为不相关。
优选地,所述步骤S12进一步包括:
对电价文本进行分词预处理,将电价政策文本的正文内容部分通过python的第三方库pandas读入,形成dataframe格式数据;
将所述dataframe格式数据转化为字符串列表L0,按行读取字符串列表L0并调用python的第三方库jieba实现中文分词,在分词前加载电价政策领域词典,得到分词后的字符串列表L1;
根据预先形成的停用词表去除字符串列表L1中高频出现的连词、代词和介词,读出所述L1中的所有不重复词汇,生成电价政策词汇词典L2。
优选地,所述步骤S13进一步包括:
步骤S130,根据结巴词库的解析方法获得文本中每一词汇的词性,过滤掉其中介词、连词、以及无法判断词性的词汇;
步骤S131,统计文本中其他词语的的频率TF、逆文档频率IDF,计算获得每个词汇的TF-IDF值,建立基于TF-IDF的词典;对于每个文本,保留TF-IDF值排序处于预定范围的词语,确定为候选词,其中,预定范围为处于前70%-90%。
优选地,所述步骤S14进一步包括:
步骤S140,通过one-hot方法将词汇词典的所述候选词汇建立词汇索引;
步骤S141,将所述候选词与词汇字典选词中的相同词汇进行映射得到每篇文档的词汇索引;
步骤S142,选取预定窗口大小构建训练数据集,并设置词向量维数;对每个训练数据集内词汇进行负采样训练,读出训练结束后的权重矩阵,获得电价政策文本词向量文件。
优选地,所述步骤S15进一步包括:
步骤S150,将预处理后的字符串列表所述与每一篇文档的标签映射得到映射后的数组;
步骤S151,将数组中的词汇与词向量文件建立映射,得到文档的词向量数组;将所述组数中在训练词汇词典中未出现的词汇用零向量表示;
步骤S152,将每一篇文档分别求词平均值,得到文本向量;
步骤S153,根据文档的向量确定所需的电价政策文本。实施本发明,具有如下的有益效果:
本发明的另一方面,还提供一种基于电价政策的文本处理系统,其包括:一个或多个处理器、一个或多个输入设备、一个或多个输出设备和存储器,上述处理器、输入设备、输出设备和存储器通过总线相互连接。存储器用于存储计算机程序,所述计算机程序包括程序指令,其特征在于,所述处理器被配置用于调用所述程序指令执行前述的方法。
实施本发明实施例,具有如下的有益效果:
本发明提供一种基于电价政策的文本处理方法及系统,通过采用电价政策文本预处理规则,提升了文本表征的准确性,后续的操作需要使用文本中的单词来表征文本;通过对文本进行向量化,在系统应用中,无需再次对文本进行处理,只需要根据向量进行计算,提升了系统运行效率,此外基于word2vec的训练方法加强了词语之间的语义关联,为后续系统分类、推荐提供了良好的特征;
本发明可提高对电价政策材料中电价政策语义的理解性,快速且准确地实现分词处理,能帮助业务人员更加准确的了解电价政策。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
图1是本发明提供的一种基于电价政策的文本处理方法的一个实施例的主流程示意图;
图2为图1中基于word2vec训练后得到的部分词向量示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
如图1所示,示出了本发明提供的一种基于电价政策的文本处理方法的一个实施例的主流程示意图;一并结合图2所示,在本实施例中,所述方法包括以下步骤:
步骤S10,从预定的网站上通过爬取获得电价政策材料,或者通过人工整理获得电价政策材料,所述材料可以是文本、图片、PDF或word等格式,经格式转换后形成统一转换为文本后的结果,例如统一形成电价政策文本。
可以理解的是,对经过格式转换后的电价政策材料进行清洗操作,包括去除其中的特殊字符、符号、多余的换行符以及空格。
具体地,在一些例子中,包括步骤S101,一些电价政策是由人工进行整理的,根据文件后缀名采用不同读取器读取内容,例如图片采用ocr进行识别、doc文件用word读取器读取内容,解析读取完内容后统一转化为文本在本地进行存储。
步骤S102,基于正则表达式去除各个文件字符串的换行符、空格符、以及“#、%、&”等特殊符号。
步骤S11,根据清洗后的电价政策文本、基于相似度原理以及预设定阈值,对电价政策文本进行去重;
电价政策文本去重以及主题相关度计算通常来说,一个电价政策发布后会在各个电价网站中广泛传播,各大网站都有可能存在相关报道,因此网络信息检索的返回结果中往往存在大量重复信息,为了更有效地完成文本处理,判断并去除这些重复信息是十分必要的。
向量空间模型算法是目前计算文本相关度的一种常用并且广为认可的方法,所述步骤S11中可以采用向量空间模型算法对电价政策文本进行去重处理,具体地,包括:
步骤S110,将候选词个数n作为向量的维数,每个候选词的权值为w,候选词出现的频率为x,通过计算主题向量α和文本向量β的夹角余弦来表示文本的主题相关度:
将计算结果与设定阈值进行比较,若计算结果大于设定阈值,则认定所述文本与主题相关,否则认定为不相关;根据相关性进行去重处理。
步骤S12,对去重后的电价政策文本进行分词预处理,所述预处理包括基于分词去除停用词、去除无效值;
可以理解的是,在完成去除文本中的标点、数字、特殊字符的过滤工作之后需要对文本进行分词、停用词过滤、无效值过滤等操作。
不同于英文等语言,在中文的文本处理任务中需要对文本进行分词处理,具体的原因是因为基于字粒度的特征选择会损失比较多的“n-gram”信息,而且一般算法是直接忽略文本中的词序信息,因此特征粒度采用基于词粒度比字粒度更好。英文中每个单词之间会有间隔,而中文是连续性的,所以有必要进行复杂的分词处理。本文采用结巴分词对文本进行分词处理。
所谓的去停用词是剔除文本中的一些连词、代词和介词等高频率出现但对文本处理没有太大影响的词语,因此需要建立一个停用词表,直接去除对分类没有任何帮助的停用词。
在一个例子中,所述步骤S12进一步包括如下步骤:
步骤S120,对电价文本进行分词预处理,将电价政策文本的正文内容部分通过python的第三方库pandas读入,形成dataframe格式数据;
步骤S121,将所述dataframe格式数据转化为字符串列表L0,按行读取字符串列表L0并调用python的第三方库jieba实现中文分词,在分词前加载电价政策领域词典,得到分词后的字符串列表L1;
步骤S122,根据预先形成的停用词表去除字符串列表L1中高频出现的连词、代词和介词,读出所述L1中的所有不重复词汇,生成电价政策词汇词典L2。
步骤S13,根据分词后的文本获得一组词汇,计算所有词汇的TF-IDF值,以及分词后的词性,确定所述词汇中的候选词;以缩短文档中词汇数量过多造成影响。
在一个具体的例子中,所述步骤S13进一步包括:
步骤S130,根据结巴词库的解析方法获得文本中每一词汇的词性,过滤掉其中介词、连词、以及无法判断词性的词汇;
步骤S131,统计文本中其他词语的频率TF、逆文档频率IDF,将两者值相乘,计算获得每个词汇的TF-IDF值,建立基于TF-IDF的词典;对于每个文本,保留TF-IDF值排序处于预定范围的词语,确定为候选词,其中,预定范围为处于前70%-90%。
步骤S14,使用word2vec模型对上一步骤的所有电价政策文本的候选词数据进行训练,得到电价政策文本词向量;
具体地,在一个例子中,所述步骤S14进一步包括:
步骤S140,通过one-hot方法将词汇词典的所述候选词汇建立词汇索引;
步骤S141,将所述候选词与词汇字典选词中的相同词汇进行映射得到每篇文档的词汇索引;
步骤S142,选取预定窗口大小构建训练数据集,并设置词向量维数;对每个训练数据集内词汇进行负采样训练,读出训练结束后的权重矩阵,获得电价政策文本词向量文件。
可以理解的是,在文本处理过程中,有必要先将文本转换成机器可以理解的形式,也就是将文本转换成表示特定含义的数组或者数字向量。在传统的自然语言处理任务中,文本表示一般都是采用词袋方法。这种方法忽略文本的语法和语序等信息,将其看作若干词汇的集合,文本中的每个单词都是相互独立,具体的原理是定义一个固定长度的向量,其中每个条目对应于预定义的单词字典中的一个单词,这个向量的大小等于字典的大小。随着深度学习方法的应用,目前使用最多的文本分布式表示方法是Word2vec方法,Word2vec并不是单一的算法,而是连续词袋CBOW和Skip-gram模型两个模型的组合。这两个模型都是将词语映射到词向量的浅层神经网络,最终目的将词语表示成包含不同词语之间关系的稠密词向量。
本文使用CBOW模式,其中,所述CBOW模式包括统计所述词的出现频率,删除出现频率小于2的词汇形成词汇列表通过one-hot方法将词汇词典建立词汇索引;将所述词汇索引与所述词汇列表中的相同词汇进行映射得到每篇文档的词汇索引;选取窗口大小为5构建训练batch,词向量维数设置为150维;对每个batch内词汇通过python第三方库numpy进行层次softmax训练,读出训练结束后的权重矩阵、即词向量文件,如图2所示。
步骤S15,将文档所有词汇向量相加后求词平均值,得到文档的向量化表示,根据文档的向量化表示确定所需的电价政策文本。
在一个例子中,所述步骤S15进一步包括:
步骤S150,将预处理后的字符串列表所述与每一篇文档的标签映射得到映射后的数组;
步骤S151,将数组中的词汇与词向量文件建立映射,得到文档的词向量数组;将所述组数中在训练词汇词典中未出现的词汇用零向量表示;
步骤S152,将每一篇文档分别求词平均值,得到文本向量;
步骤S153,根据文档的向量确定所需的电价政策文本。
具体地,对于文档候选词集合,结合word2vec的CBOW模型训练得到的词向量,将集合中的各个候选词用对应的词向量表示,由此可得到集合对应的文本特征向量矩阵,m为候选词的个数,n为词向量的维度,对待测文本的文本特征向量/>的每一列求和并计算均值,即可得到待测文本的文本特征向量d。
在本发明的另一优选实施例中,还提供了一种基于电价政策的文本处理系统,可以包括:一个或多个处理器、一个或多个输入设备、一个或多个输出设备和存储器,上述处理器、输入设备、输出设备和存储器通过总线相互连接。存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令执行上述方法实施例部分的方法。
应当理解,在本发明实施例中,所称处理器可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器 (DigitalSignal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备可以包括键盘等,输出设备可以包括显示器(LCD等)、扬声器等。
该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器、输入设备、输出设备可执行本发明方法实施例中所描述的实现方式,在此不再赘述。
实施本发明实施例,具有如下的有益效果:
本发明提供一种基于电价政策的文本处理方法及系统,通过采用电价政策文本预处理规则,提升了文本表征的准确性,后续的操作需要使用文本中的单词来表征文本;通过对文本进行向量化,在系统应用中,无需再次对文本进行处理,只需要根据向量进行计算,提升了系统运行效率,此外基于word2vec的训练方法加强了词语之间的语义关联,为后续系统分类、推荐提供了良好的特征;
本发明可提高对电价政策材料中电价政策语义的理解性,快速且准确地实现分词处理,能帮助业务人员更加准确的了解电价政策。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (4)
1.一种基于电价政策的文本处理方法,其特征在于,包括以下步骤:
步骤S10、从预定的网站上通过爬取获得电价政策材料,经过格式转换后,形成电价政策文本,并进行清洗;
步骤S11、根据清洗后的电价政策文本、基于相似度原理以及预设定阈值,对电价政策文本进行去重处理;
步骤S12、对去重后的电价政策文本进行分词预处理,所述预处理包括基于分词去除停用词、去除无效值;
步骤S13、根据分词后的文本获得一组词汇,计算所有词汇的TF-IDF值,以及分词后的词性,确定所述词汇中的候选词;
步骤S14、使用word2vec模型对上一步骤的所有电价政策文本的候选词数据进行训练,得到电价政策文本词向量;
步骤S15、将文档所有词汇向量相加后求词平均值,得到文档的向量化表示,根据文档的向量化表示确定所需的电价政策文本;
其中,所述步骤S11中采用向量空间模型算法对电价政策文本进行去重处理,具体包括:
将候选词个数n作为向量的维数,每个候选词的权值为w,候选词出现的频率为x,通过下式计算主题向量α和文本向量β的夹角余弦来表示文本的主题相关度:
将计算结果与设定阈值进行比较,若计算结果大于设定阈值,则认定所述文本与主题相关,否则认定为不相关;根据相关性进行去重处理;
所述步骤S12进一步包括:
步骤S120,对电价文本进行分词预处理,将电价政策文本的正文内容部分通过python的第三方库pandas读入,形成dataframe格式数据;
步骤S121,将所述dataframe格式数据转化为字符串列表L0,按行读取字符串列表L0并调用python的第三方库jieba实现中文分词,在分词前加载电价政策领域词典,得到分词后的字符串列表L1;
步骤S122,根据预先形成的停用词表去除字符串列表L1中高频出现的连词、代词和介词,读出所述L1中的所有不重复词汇,生成电价政策词汇词典L2;
所述步骤S13进一步包括:
步骤S130,根据结巴词库的解析方法获得文本中每一词汇的词性,过滤掉其中介词、连词、以及无法判断词性的词汇;
步骤S131,统计文本中其他词语的频率TF、逆文档频率IDF,计算获得每个词汇的TF-IDF值,建立基于TF-IDF的词典;对于每个文本,保留TF-IDF值排序处于预定范围的词语,确定为候选词,其中,预定范围为处于前列的70%-90%之间;
所述步骤S14进一步包括:
步骤S140,通过one-hot方法将词汇词典的所述候选词建立词汇索引;
步骤S141,将所述候选词与词汇字典选词中的相同词汇进行映射得到每篇文档的词汇索引;
步骤S142,选取预定窗口大小构建训练数据集,并设置词向量维数;对每个训练数据集内词汇进行负采样训练,读出训练结束后的权重矩阵,获得电价政策文本词向量文件。
2.如权利要求1所述的方法,其特征在于,所述步骤S10进一步包括:
对经过格式转换后的电价政策材料进行清洗操作,以去除其中的特殊字符、符号、多余的换行符以及空格。
3.根据权利要求2所述的方法,其特征在于,所述步骤S15进一步包括:
步骤S150,将预处理后的字符串列表与每一篇文档的标签映射得到映射后的数组;
步骤S151,将数组中的词汇与词向量文件建立映射,得到文档的词向量数组;将所述组数中在训练词汇词典中未出现的词汇用零向量表示;
步骤S152,将每一篇文档分别求词平均值,得到文本向量;
步骤S153,根据文档的向量确定所需的电价政策文本。
4.一种基于电价政策的文本处理系统,其包括:一个或多个处理器、一个或多个输入设备、一个或多个输出设备和存储器,上述处理器、输入设备、输出设备和存储器通过总线相互连接;存储器用于存储计算机程序,所述计算机程序包括程序指令,其特征在于,所述处理器被配置用于调用所述程序指令执行如权利要求1至3任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011468350.2A CN112395878B (zh) | 2020-12-14 | 2020-12-14 | 一种基于电价政策的文本处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011468350.2A CN112395878B (zh) | 2020-12-14 | 2020-12-14 | 一种基于电价政策的文本处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112395878A CN112395878A (zh) | 2021-02-23 |
CN112395878B true CN112395878B (zh) | 2024-01-02 |
Family
ID=74625473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011468350.2A Active CN112395878B (zh) | 2020-12-14 | 2020-12-14 | 一种基于电价政策的文本处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112395878B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114021150B (zh) * | 2021-11-17 | 2022-11-04 | 山东云天安全技术有限公司 | 基于N-gram预测工控网漏洞的系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929937A (zh) * | 2012-09-28 | 2013-02-13 | 福州博远无线网络科技有限公司 | 基于文本主题模型的商品分类的数据处理方法 |
WO2019149200A1 (zh) * | 2018-02-01 | 2019-08-08 | 腾讯科技(深圳)有限公司 | 文本分类方法、计算机设备及存储介质 |
CN110390103A (zh) * | 2019-07-23 | 2019-10-29 | 中国民航大学 | 基于双编码器的短文本自动摘要方法及系统 |
CN110532451A (zh) * | 2019-06-26 | 2019-12-03 | 平安科技(深圳)有限公司 | 针对政策文本的检索方法和装置、存储介质、电子装置 |
CN111104794A (zh) * | 2019-12-25 | 2020-05-05 | 同方知网(北京)技术有限公司 | 一种基于主题词的文本相似度匹配方法 |
CN111831802A (zh) * | 2020-06-04 | 2020-10-27 | 北京航空航天大学 | 一种基于lda主题模型的城市领域知识检测系统及方法 |
-
2020
- 2020-12-14 CN CN202011468350.2A patent/CN112395878B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929937A (zh) * | 2012-09-28 | 2013-02-13 | 福州博远无线网络科技有限公司 | 基于文本主题模型的商品分类的数据处理方法 |
WO2019149200A1 (zh) * | 2018-02-01 | 2019-08-08 | 腾讯科技(深圳)有限公司 | 文本分类方法、计算机设备及存储介质 |
CN110532451A (zh) * | 2019-06-26 | 2019-12-03 | 平安科技(深圳)有限公司 | 针对政策文本的检索方法和装置、存储介质、电子装置 |
CN110390103A (zh) * | 2019-07-23 | 2019-10-29 | 中国民航大学 | 基于双编码器的短文本自动摘要方法及系统 |
CN111104794A (zh) * | 2019-12-25 | 2020-05-05 | 同方知网(北京)技术有限公司 | 一种基于主题词的文本相似度匹配方法 |
CN111831802A (zh) * | 2020-06-04 | 2020-10-27 | 北京航空航天大学 | 一种基于lda主题模型的城市领域知识检测系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112395878A (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104794B (zh) | 一种基于主题词的文本相似度匹配方法 | |
WO2019091026A1 (zh) | 知识库文档快速检索方法、应用服务器及计算机可读存储介质 | |
Jayram et al. | Avatar information extraction system. | |
US9690849B2 (en) | Systems and methods for determining atypical language | |
CN110674317B (zh) | 一种基于图神经网络的实体链接方法及装置 | |
CN112035653A (zh) | 一种政策关键信息提取方法和装置、存储介质、电子设备 | |
WO2018171295A1 (zh) | 一种给文章标注标签的方法、装置、终端及计算机可读存储介质 | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
CN116501898B (zh) | 适用于少样本和有偏数据的金融文本事件抽取方法和装置 | |
US20120226695A1 (en) | Classifying documents according to readership | |
US20230028664A1 (en) | System and method for automatically tagging documents | |
CN112612892A (zh) | 一种专有领域语料模型构建方法、计算机设备及存储介质 | |
CN116028618A (zh) | 文本处理、文本检索方法、装置、电子设备及存储介质 | |
CN112395878B (zh) | 一种基于电价政策的文本处理方法及系统 | |
CN114692628A (zh) | 样本生成方法、模型训练方法、文本抽取方法和装置 | |
CN114202443A (zh) | 政策分类方法、装置、设备及存储介质 | |
Zong et al. | Identification of approximately duplicate material records in ERP systems | |
CN111708870A (zh) | 基于深度神经网络的问答方法、装置及存储介质 | |
CN115438147A (zh) | 面向轨道交通领域的信息检索方法及系统 | |
CN114547233A (zh) | 数据查重方法、装置及电子设备 | |
CN115481240A (zh) | 一种数据资产质量检测方法和检测装置 | |
CN114491030A (zh) | 技能标签的抽取、候选短语分类模型的训练方法及装置 | |
TWM599938U (zh) | 新聞篩選裝置 | |
CN117273015B (zh) | 一种语义分析的电子文件归档分类方法 | |
CN113656393B (zh) | 数据处理方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |