CN114091433A

CN114091433A - 用于分布式储能领域的挖掘新词的方法及其装置

Info

Publication number: CN114091433A
Application number: CN202111578846.XA
Authority: CN
Inventors: 司修利; 江思伟; 袁宏亮; 王珺; 顾强; 朱嵩华
Original assignee: Wotai Energy Co ltd
Current assignee: Wotai Energy Co ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-02-25
Anticipated expiration: 2041-12-22
Also published as: CN114091433B

Abstract

本发明公开了一种用于分布式储能领域的挖掘新词的方法及其装置该方法包括以下步骤：将预处理句子切割为的多个个第一待处理文字段，将多个第一待处理文字段归结为多个个不同的第二待处理文字段，计算每个第二待处理文字段的度量值，当度量值≥第一预设阀值且的数量≥第二预设阀值时，第二待处理文字段为新词。该方法能够挖掘分布式储能领域的挖掘的新词从而创建词库。

Description

用于分布式储能领域的挖掘新词的方法及其装置

技术领域

本发明涉及新能源技术领域，尤其涉及一种用于分布式储能领域的挖掘新词的方法及其装置。

背景技术

为了阻止全球气候变暖的进一步加剧，需要进一步减少传统化石能源的使用，就需要使用其他能源来替代化石能源，其中，电能(例如，风能发电，太阳能发电等)是一个非常好的选择，但这些电能的供给不稳定(例如，晴天，太阳能发电能够提供充足的电能甚至超过电力需求，但晚上却没有；有风的时候，风能发电能够提供充足的电能甚至超过电力需求，但没风的时候，却没有)，于是，就需要设置有分布式储能系统(储能系统设置于风力发电厂，太阳能发电厂周围)，从而能够达到削峰填谷的作用。

此外，随着人工智能的发展，就为电力领域提供智能客户、语音识别等服务提供了可能，可以理解的是，为了训练神经网络，需要构建词库(例如，需要构建分布式储能领域的词库)。

因此，如果创建分布式储能领域的词库，就成为一个亟待解决的问题。

发明内容

有鉴于此，本发明的主要目的在于提供一种用于分布式储能领域的挖掘新词的方法及其装置。

为了实现上述发明目的之一，本发明一实施方式提供一种用于分布式储能领域的挖掘新词的方法，包括以下步骤：获取不包含有标点符号的预处理句子，将所述预处理句子切割为的Num个第一待处理文字段，所述第二待处理文字段由所述预处理句子中连续的汉字和/或字母组成，且Lmin≤第一待处理文字段的长度≤LMax，其中，Num、Lmin和LMax均为自然数；将Num个第一待处理文字段归结为M个不同的第二待处理文字段W₁，W₂，...，W_M，以及每个第二待处理文字段出现的概率P(W₁)，P(W₂)，...，P(W_M)，其中，

M 为自然数，M≤Num，i＝1，2，...，M；对每个第二待处理文字段W_i均进行以下处理：

其中，j为自然数，且1≤j≤M，i≠j，

当C_i≥第一预设阀值且 W_i的数量≥第二预设阀值时，第二待处理文字段W_i为新词，其中，第一、第二预设阀值均大于0。

作为本发明实施例的一种改进，Lmin＝2，LMax＝30。

作为本发明实施例的一种改进，第一预设阀值＝20，第二预设阀值＝100。

作为本发明实施例的一种改进，第一待处理文字段的长度＝第一待处理文字段所包含的汉字的第一数量+第一待处理文字段所包含的字母的第二数量，如果第一待处理文字段不包含汉字时，则第一数量＝0，如果第二待处理文字段不包含字母时，则第二数量＝0。

作为本发明实施例的一种改进，所述“获取不包含有标点符号的预处理句子”具体包括：使用标点符号将文章段落被分割得到所述预处理句子。

本发明实施例还提供了一种用于分布式储能领域的挖掘新词的装置，包括以下模块：句子获取模块，用于获取不包含有标点符号的预处理句子，将所述预处理句子切割为的Num个第一待处理文字段，所述第二待处理文字段由所述预处理句子中连续的汉字和/或字母组成，且Lmin≤第一待处理文字段的长度≤LMax，其中，Num、Lmin和LMax均为自然数；句子划分模块，用于将Num 个第一待处理文字段归结为M个不同的第二待处理文字段W₁，W₂，...，W_M，以及每个第二待处理文字段出现的概率P(W₁)，P(W₂)，...，P(W_M)，其中，

M为自然数，M≤Num，i＝1，2，...，M；处理模块，用于对每个第二待处理文字段W_i均进行以下处理：

其中，j为自然数，且1≤j≤M，i≠j，

作为本发明实施例的一种改进，Lmin＝2，LMax＝30。

作为本发明实施例的一种改进，所述句子获取模块还用于：使用标点符号将文章段落被分割得到所述预处理句子。

相对于现有技术，本发明的技术效果在于：本发明实施例公开了一种用于分布式储能领域的挖掘新词的方法及其装置该方法包括以下步骤：将预处理句子切割为的多个个第一待处理文字段，将多个第一待处理文字段归结为多个个不同的第二待处理文字段，计算每个第二待处理文字段的度量值，当度量值≥第一预设阀值且的数量≥第二预设阀值时，第二待处理文字段为新词。该方法能够挖掘分布式储能领域的挖掘的新词从而创建词库。

附图说明

图1为本发明实施例提供的挖掘新词的方法的流程示意图。

具体实施方式

以下将结合附图所示的实施方式对本发明进行详细描述。但该实施方式并不限制本发明，本领域的普通技术人员根据该实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。

以下描述和附图充分地示出本文的具体实施方案，以使本领域的技术人员能够实践它们。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本文的实施方案的范围包括权利要求书的整个范围，以及权利要求书的所有可获得的等同物。本文中，术语“第一”、“第二”等仅被用来将一个元素与另一个元素区分开来，而不要求或者暗示这些元素之间存在任何实际的关系或者顺序。实际上第一元素也能够被称为第二元素，反之亦然。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的结构、装置或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种结构、装置或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的结构、装置或者设备中还存在另外的相同要素。本文中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中的术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本文和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。在本文的描述中，除非另有规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明实施例一提供了一种用于分布式储能领域的挖掘新词的方法，如图 1所示，包括：

步骤101：获取不包含有标点符号的预处理句子，将所述预处理句子切割为的Num个第一待处理文字段，所述第二待处理文字段由所述预处理句子中连续的汉字和/或字母组成，且Lmin≤第一待处理文字段的长度≤LMax，其中， Num、Lmin和LMax均为自然数；

在现实中，网上会有文章讨论分布式储能系统，在论坛里有讨论分布式储能系统的，也有该领域的论文等，于是，可以从这些资料中，获取一个一个的不包含标点符号的预处理句子(可以理解的是，在汉语中，一个词不会使用标点符号隔开)。

在这个预处理句子中，是预先不清楚哪些汉字和/或字母属于同一个词的，于是，可以对该预处理句子进行穷举，即切割出所有满足“Lmin≤长度≤LMax”的待处理文字段。这里，该待处理文字段有可能全部由汉字组成，也可能全部由字母组成，也可能既包含有文字也包含有字母，在长度定义为汉字的数量和字母的数量之和。

步骤102：将Num个第一待处理文字段归结为M个不同的第二待处理文字段W₁，W₂，...，W_M，以及每个第二待处理文字段出现的概率P(W₁)，P(W₂)，...， P(W_M)，其中，

M为自然数，M≤Num，i＝1，2，...，M；这里，可以理解的是，Num个第一待处理文字段中有些第一待处理文字段是相同的，有些是不同的，于是，可以将Num个第一待处理文字段进行归结，从而得到不相同的第二待处理文字段。

步骤103：对每个第二待处理文字段W_i均进行以下处理：

其中，j为自然数，且1≤j≤M，i≠j，

这里，当某个第二待处理文字段W_i是分布式储能领域的新词的时候，会大概率被某个第一待处理文字段所包含。

H(X)＝-∑_X p(X)log(X)可以理解为指信息所包含的信息量，也就是通过这条信息可以减少的不确定性。简单来说，就是包含的情况是否丰富，情况越丰富，H(X)的值；其中，X为离散型随机变量，在新词提取中就是元素(片段) 与旁边(左右两侧)的元素(邻字)情况，每个X都是一个出现过的元素(邻字)，而P(X)就是那个元素(邻字)出现的概率。

下面，使用以下文本片段作为样例文本来解释：

储能系统一般由BMS、EMS等组成，分布式储能存在巨大的市场空间，光伏储能就是太阳能发电储能系统，在光伏电站出力高峰时段，以削峰为应用目标控制电池储能系统充电。

以上句子中，“储能”左侧的元素(邻字)包括3种情况”空白“,式”、“伏”、“池”，“储能”一词左侧的H(x)为：

可见，当X的相邻元素(邻字)可能越丰富。

为两个离散变量X和Y之间的关联程度，简之，X和Y同时出现的几率越大，互信息越大，

在新词的提取过程中，将片段中的一部分视为X，另一部分视为Y，两者的联合分布只有一个取值，相当于只有一个求和项，公式简化为：

其中，p(x)是文本中X元素的出现频率，p(y)是文本中Y元素出现的频率，P(x,y)是文本中X，Y元素共同出现的频率，仍以“储能”一词为例，以上文本除去字符总字数为74个字，“储”出现的概率为

“能”出现的概率为

“储能”共同出现的概率为

“储能”一词的I(X；Y)值为：

再例如：“储能”出现的概率为

“系”出现的概率为

“储能系”共同出现的概率为

当文本中各个元素出现的共同频率越高，I(X；Y)越高，计算

即查找与x元素相关程度最大的元素y。

本实施例中，Lmin＝2，LMax＝30。

本实施例中，第一预设阀值＝20，第二预设阀值＝100。

本实施例中，第一待处理文字段的长度＝第一待处理文字段所包含的汉字的第一数量+第一待处理文字段所包含的字母的第二数量，如果第一待处理文字段不包含汉字时，则第一数量＝0，如果第二待处理文字段不包含字母时，则第二数量＝0。

本实施例中，所述“获取不包含有标点符号的预处理句子”具体包括：使用标点符号将文章段落被分割得到所述预处理句子。这实际中，将文章段落利用标点符号进行划分，有可能会得到很多句子，则每个句子都可以为该第一待处理文字段。

本发明实施例二提供了一种用于分布式储能领域的挖掘新词的装置，包括以下模块：

句子获取模块，用于获取不包含有标点符号的预处理句子，将所述预处理句子切割为的Num个第一待处理文字段，所述第二待处理文字段由所述预处理句子中连续的汉字和/或字母组成，且Lmin≤第一待处理文字段的长度≤LMax，其中，Num、Lmin和LMax均为自然数；

句子划分模块，用于将Num个第一待处理文字段归结为M个不同的第二待处理文字段W₁，W₂，...，W_M，以及每个第二待处理文字段出现的概率P(W₁)， P(W₂)，...，P(W_M)，其中，

M为自然数，M≤Num，i＝1，2，...， M；

处理模块，用于对每个第二待处理文字段W_i均进行以下处理：

其中，j为自然数，且1≤j≤M，i≠j，

当C_i≥第一预设阀值且W_i的数量≥第二预设阀值时，第二待处理文字段W_i为新词，其中，第一、第二预设阀值均大于0。

本实施例中，Lmin＝2，LMax＝30。

本实施例中，第一预设阀值＝20，第二预设阀值＝100。

本实施例中，所述句子获取模块还用于：使用标点符号将文章段落被分割得到所述预处理句子。

本发明实施例三提供了一种用于分布式储能领域的挖掘新词的方法，其对以下文本进行处理“沃太能源位于南通高新区，成立于2012年，核心团队由电力技术研发、储能设备制造、IT数据服务及新能源项目开发等领域复合型技术人才组成。公司拥有国家高新技术企业认证，是专注于提供先进的储能产品及智慧能源管理方案的国际型高科技企业，也是中国首家推出户用光伏锂电一体化储能产品的公司。公司自主研发的新能源锂电储能系统、能源管理系统、锂电池管理系统等产品覆盖户用、商用、大型工商业、离网、微网、配售电等多个应用领域，产品技术处于国际先进水平，主营业务收入在中国排名第一。公司围绕储能系统布局国内外专利100余项，多个项目被列入国家、省、市科技计划项目支持。”

将上述文本去掉字符，得到相关的短句，例如：{沃太能源位于南通高新区}，{成立于2012年}，{核心团队由电力技术研发}，{储能设备制造}， {数据服务及新能源项目开发等领域复合型技术人才组成}等等；

对词进行切分：

根据上述算法步骤，编写相关代码：

候选短句：{公司自主研发的新能源锂电储能系统}有以下候选词:

{公司，公司自，公司自主，公司自主研，公司自主研发，公司自主研发的，公司自主研发的新，公司自主研发的新能，公司自主研发的新能源，公司自主研发的新能源锂，公司自主研发的新能源锂电，公司自主研发的新能源锂电储，公司自主研发的新能源锂电储能，公司自主研发的新能源锂电储能系，公司自主研发的新能源锂电储能系统，公司自主研发的新能源锂电储能系统，司自，司自主，司自主研，司自主研发，司自主研发的，司自主研发的新，司自主研发的新能，司自主研发的新能源，司自主研发的新能源锂，司自主研发的新能源锂电，司自主研发的新能源锂电储，司自主研发的新能源锂电储能，司自主研发的新能源锂电储能系，自主，自主研，自主研发，自主研发的，自主研发的新，自主研发的新能，自主研发的新能源，自主研发的新能源锂，自主研发的新能源锂电，自主研发的新能源锂电储，自主研发的新能源锂电储能，自主研发的新能源锂电储能系，主研，主研发，主研发的，主研发的新，主研发的新能，主研发的新能源，主研发的新能源锂，主研发的新能源锂电，主研发的新能源锂电储，主研发的新能源锂电储能，主研发的新能源锂电储能系，研发，研发的，研发的新，研发的新能，研发的新能源，研发的新能源锂，研发的新能源锂电，研发的新能源锂电储，研发的新能源锂电储能，研发的新能源锂电储能系，发的，发的新，发的新能，发的新能源，发的新能源锂，发的新能源锂电，发的新能源锂电储，发的新能源锂电储能，发的新能源锂电储能系，的新，的新能，的新能源，的新能源锂，的新能源锂电，的新能源锂电储，的新能源锂电储能，的新能源锂电储能系，新能，新能源，新能源锂，新能源锂电，新能源锂电储，新能源锂电储能，新能源锂电储能系，新能源锂电储能系统，能源，能源锂，能源锂电，能源锂电储，能源锂电储能，能源锂电储能系，能源锂电储能系统，源锂，源锂电，源锂电储，源锂电储能，源锂电储能系，源锂电储能系统，锂电，锂电储，锂电储能，锂电储能系，锂电储能系统，电储，电储能，电储能系，电储能系统，储能，储能系，储能系统，能系，能系统，系统}

文本输出前十的结果为：{系统，能源，储能，电力，离网，微网，配售电，能源管理，研发，新能源}。

应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种用于分布式储能领域的挖掘新词的方法，其特征在于，包括以下步骤：

获取不包含有标点符号的预处理句子，将所述预处理句子切割为的Num个第一待处理文字段，所述第二待处理文字段由所述预处理句子中连续的汉字和/或字母组成，且Lmin≤第一待处理文字段的长度≤LMax，其中，Num、Lmin和LMax均为自然数；

将Num个第一待处理文字段归结为M个不同的第二待处理文字段W₁，W₂，...，W_M，以及每个第二待处理文字段出现的概率P(W₁)，P(W₂)，...，P(W_M)，其中，

M为自然数，M≤Num，i＝1，2，...，M；

对每个第二待处理文字段W_i均进行以下处理：

其中，j为自然数，且1≤j≤M，i≠j，

2.根据权利要求1所述的挖掘新词的方法，其特征在于：

Lmin＝2，LMax＝30。

3.根据权利要求1所述的挖掘新词的方法，其特征在于：

第一预设阀值＝20，第二预设阀值＝100。

4.根据权利要求1所述的挖掘新词的方法，其特征在于：

第一待处理文字段的长度＝第一待处理文字段所包含的汉字的第一数量+第一待处理文字段所包含的字母的第二数量，如果第一待处理文字段不包含汉字时，则第一数量＝0，如果第二待处理文字段不包含字母时，则第二数量＝0。

5.根据权利要求1所述的挖掘新词的方法，其特征在于，所述“获取不包含有标点符号的预处理句子”具体包括：

使用标点符号将文章段落被分割得到所述预处理句子。

6.一种用于分布式储能领域的挖掘新词的装置，其特征在于，包括以下模块：

句子划分模块，用于将Num个第一待处理文字段归结为M个不同的第二待处理文字段W₁，W₂，...，W_M，以及每个第二待处理文字段出现的概率P(W₁)，P(W₂)，...，P(W_M)，其中，

M为自然数，M≤Num，i＝1，2，...，M；

其中，j为自然数，且1≤j≤M，i≠j，

7.根据权利要求6所述的挖掘新词的装置，其特征在于：

Lmin＝2，LMax＝30。

8.根据权利要求6所述的挖掘新词的装置，其特征在于：

第一预设阀值＝20，第二预设阀值＝100。

9.根据权利要求6所述的挖掘新词的装置，其特征在于：

10.根据权利要求6所述的挖掘新词的装置，其特征在于，所述句子获取模块还用于：

使用标点符号将文章段落被分割得到所述预处理句子。