CN114091433A - 用于分布式储能领域的挖掘新词的方法及其装置 - Google Patents

用于分布式储能领域的挖掘新词的方法及其装置 Download PDF

Info

Publication number
CN114091433A
CN114091433A CN202111578846.XA CN202111578846A CN114091433A CN 114091433 A CN114091433 A CN 114091433A CN 202111578846 A CN202111578846 A CN 202111578846A CN 114091433 A CN114091433 A CN 114091433A
Authority
CN
China
Prior art keywords
processed
equal
text field
preset threshold
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111578846.XA
Other languages
English (en)
Other versions
CN114091433B (zh
Inventor
司修利
江思伟
袁宏亮
王珺
顾强
朱嵩华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wotai Energy Co ltd
Original Assignee
Wotai Energy Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wotai Energy Co ltd filed Critical Wotai Energy Co ltd
Priority to CN202111578846.XA priority Critical patent/CN114091433B/zh
Publication of CN114091433A publication Critical patent/CN114091433A/zh
Application granted granted Critical
Publication of CN114091433B publication Critical patent/CN114091433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种用于分布式储能领域的挖掘新词的方法及其装置该方法包括以下步骤:将预处理句子切割为的多个个第一待处理文字段,将多个第一待处理文字段归结为多个个不同的第二待处理文字段,计算每个第二待处理文字段的度量值,当度量值≥第一预设阀值且的数量≥第二预设阀值时,第二待处理文字段为新词。该方法能够挖掘分布式储能领域的挖掘的新词从而创建词库。

Description

用于分布式储能领域的挖掘新词的方法及其装置
技术领域
本发明涉及新能源技术领域,尤其涉及一种用于分布式储能领域的挖掘新词的方法及其装置。
背景技术
为了阻止全球气候变暖的进一步加剧,需要进一步减少传统化石能源的使用,就需要使用其他能源来替代化石能源,其中,电能(例如,风能发电,太阳能发电等)是一个非常好的选择,但这些电能的供给不稳定(例如,晴天,太阳能发电能够提供充足的电能甚至超过电力需求,但晚上却没有;有风的时候,风能发电能够提供充足的电能甚至超过电力需求,但没风的时候,却没有),于是,就需要设置有分布式储能系统(储能系统设置于风力发电厂,太阳能发电厂周围),从而能够达到削峰填谷的作用。
此外,随着人工智能的发展,就为电力领域提供智能客户、语音识别等服务提供了可能,可以理解的是,为了训练神经网络,需要构建词库(例如,需要构建分布式储能领域的词库)。
因此,如果创建分布式储能领域的词库,就成为一个亟待解决的问题。
发明内容
有鉴于此,本发明的主要目的在于提供一种用于分布式储能领域的挖掘新词的方法及其装置。
为了实现上述发明目的之一,本发明一实施方式提供一种用于分布式储能领域的挖掘新词的方法,包括以下步骤:获取不包含有标点符号的预处理句子,将所述预处理句子切割为的Num个第一待处理文字段,所述第二待处理文字段由所述预处理句子中连续的汉字和/或字母组成,且Lmin≤第一待处理文字段的长度≤LMax,其中,Num、Lmin和LMax均为自然数;将Num个第一待处理文字段归结为M个不同的第二待处理文字段W1,W2,...,WM,以及每个第二待处理文字段出现的概率P(W1),P(W2),...,P(WM),其中,
Figure BDA0003426351270000021
M 为自然数,M≤Num,i=1,2,...,M;对每个第二待处理文字段Wi均进行以下处理:
Figure BDA0003426351270000022
其中,j为自然数,且1≤j≤M,i≠j,
Figure BDA0003426351270000023
当Ci≥第一预设阀值且 Wi的数量≥第二预设阀值时,第二待处理文字段Wi为新词,其中,第一、第二预设阀值均大于0。
作为本发明实施例的一种改进,Lmin=2,LMax=30。
作为本发明实施例的一种改进,第一预设阀值=20,第二预设阀值=100。
作为本发明实施例的一种改进,第一待处理文字段的长度=第一待处理文字段所包含的汉字的第一数量+第一待处理文字段所包含的字母的第二数量,如果第一待处理文字段不包含汉字时,则第一数量=0,如果第二待处理文字段不包含字母时,则第二数量=0。
作为本发明实施例的一种改进,所述“获取不包含有标点符号的预处理句子”具体包括:使用标点符号将文章段落被分割得到所述预处理句子。
本发明实施例还提供了一种用于分布式储能领域的挖掘新词的装置,包括以下模块:句子获取模块,用于获取不包含有标点符号的预处理句子,将所述预处理句子切割为的Num个第一待处理文字段,所述第二待处理文字段由所述预处理句子中连续的汉字和/或字母组成,且Lmin≤第一待处理文字段的长度≤LMax,其中,Num、Lmin和LMax均为自然数;句子划分模块,用于将Num 个第一待处理文字段归结为M个不同的第二待处理文字段W1,W2,...,WM,以及每个第二待处理文字段出现的概率P(W1),P(W2),...,P(WM),其中,
Figure BDA0003426351270000024
M为自然数,M≤Num,i=1,2,...,M;处理模块,用于对每个第二待处理文字段Wi均进行以下处理:
Figure BDA0003426351270000025
其中,j为自然数,且1≤j≤M,i≠j,
Figure BDA0003426351270000031
当Ci≥第一预设阀值且 Wi的数量≥第二预设阀值时,第二待处理文字段Wi为新词,其中,第一、第二预设阀值均大于0。
作为本发明实施例的一种改进,Lmin=2,LMax=30。
作为本发明实施例的一种改进,第一预设阀值=20,第二预设阀值=100。
作为本发明实施例的一种改进,第一待处理文字段的长度=第一待处理文字段所包含的汉字的第一数量+第一待处理文字段所包含的字母的第二数量,如果第一待处理文字段不包含汉字时,则第一数量=0,如果第二待处理文字段不包含字母时,则第二数量=0。
作为本发明实施例的一种改进,所述句子获取模块还用于:使用标点符号将文章段落被分割得到所述预处理句子。
相对于现有技术,本发明的技术效果在于:本发明实施例公开了一种用于分布式储能领域的挖掘新词的方法及其装置该方法包括以下步骤:将预处理句子切割为的多个个第一待处理文字段,将多个第一待处理文字段归结为多个个不同的第二待处理文字段,计算每个第二待处理文字段的度量值,当度量值≥第一预设阀值且的数量≥第二预设阀值时,第二待处理文字段为新词。该方法能够挖掘分布式储能领域的挖掘的新词从而创建词库。
附图说明
图1为本发明实施例提供的挖掘新词的方法的流程示意图。
具体实施方式
以下将结合附图所示的实施方式对本发明进行详细描述。但该实施方式并不限制本发明,本领域的普通技术人员根据该实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
以下描述和附图充分地示出本文的具体实施方案,以使本领域的技术人员能够实践它们。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本文的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。本文中,术语“第一”、“第二”等仅被用来将一个元素与另一个元素区分开来,而不要求或者暗示这些元素之间存在任何实际的关系或者顺序。实际上第一元素也能够被称为第二元素,反之亦然。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的结构、装置或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种结构、装置或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的结构、装置或者设备中还存在另外的相同要素。本文中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中的术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本文和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。在本文的描述中,除非另有规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
本发明实施例一提供了一种用于分布式储能领域的挖掘新词的方法,如图 1所示,包括:
步骤101:获取不包含有标点符号的预处理句子,将所述预处理句子切割为的Num个第一待处理文字段,所述第二待处理文字段由所述预处理句子中连续的汉字和/或字母组成,且Lmin≤第一待处理文字段的长度≤LMax,其中, Num、Lmin和LMax均为自然数;
在现实中,网上会有文章讨论分布式储能系统,在论坛里有讨论分布式储能系统的,也有该领域的论文等,于是,可以从这些资料中,获取一个一个的不包含标点符号的预处理句子(可以理解的是,在汉语中,一个词不会使用标点符号隔开)。
在这个预处理句子中,是预先不清楚哪些汉字和/或字母属于同一个词的,于是,可以对该预处理句子进行穷举,即切割出所有满足“Lmin≤长度≤LMax”的待处理文字段。这里,该待处理文字段有可能全部由汉字组成,也可能全部由字母组成,也可能既包含有文字也包含有字母,在长度定义为汉字的数量和字母的数量之和。
步骤102:将Num个第一待处理文字段归结为M个不同的第二待处理文字段W1,W2,...,WM,以及每个第二待处理文字段出现的概率P(W1),P(W2),..., P(WM),其中,
Figure BDA0003426351270000051
M为自然数,M≤Num,i=1,2,...,M;这里,可以理解的是,Num个第一待处理文字段中有些第一待处理文字段是相同的,有些是不同的,于是,可以将Num个第一待处理文字段进行归结,从而得到不相同的第二待处理文字段。
步骤103:对每个第二待处理文字段Wi均进行以下处理:
Figure BDA0003426351270000052
其中,j为自然数,且1≤j≤M,i≠j,
Figure BDA0003426351270000053
当Ci≥第一预设阀值且 Wi的数量≥第二预设阀值时,第二待处理文字段Wi为新词,其中,第一、第二预设阀值均大于0。
这里,当某个第二待处理文字段Wi是分布式储能领域的新词的时候,会大概率被某个第一待处理文字段所包含。
H(X)=-∑X p(X)log(X)可以理解为指信息所包含的信息量,也就是通过这条信息可以减少的不确定性。简单来说,就是包含的情况是否丰富,情况越丰富,H(X)的值;其中,X为离散型随机变量,在新词提取中就是元素(片段) 与旁边(左右两侧)的元素(邻字)情况,每个X都是一个出现过的元素(邻字),而P(X)就是那个元素(邻字)出现的概率。
下面,使用以下文本片段作为样例文本来解释:
储能系统一般由BMS、EMS等组成,分布式储能存在巨大的市场空间,光伏储能就是太阳能发电储能系统,在光伏电站出力高峰时段,以削峰为应用目标控制电池储能系统充电。
以上句子中,“储能”左侧的元素(邻字)包括3种情况”空白“,式”、“伏”、“池”,“储能”一词左侧的H(x)为:
Figure BDA0003426351270000061
可见,当X的相邻元素(邻字)可能越丰富。
Figure BDA0003426351270000062
为两个离散变量X和Y之间的关联程度,简之,X和Y同时出现的几率越大,互信息越大,
在新词的提取过程中,将片段中的一部分视为X,另一部分视为Y,两者的联合分布只有一个取值,相当于只有一个求和项,公式简化为:
Figure BDA0003426351270000063
Figure BDA0003426351270000064
其中,p(x)是文本中X元素的出现频率,p(y)是文本中Y元素出现的频率,P(x,y)是文本中X,Y元素共同出现的频率,仍以“储能”一词为例,以上文本除去字符总字数为74个字,“储”出现的概率为
Figure BDA0003426351270000065
“能”出现的概率为
Figure BDA0003426351270000066
“储能”共同出现的概率为
Figure BDA0003426351270000067
“储能”一词的I(X;Y)值为:
Figure BDA0003426351270000068
再例如:“储能”出现的概率为
Figure BDA0003426351270000069
“系”出现的概率为
Figure BDA00034263512700000610
“储能系”共同出现的概率为
Figure BDA00034263512700000611
Figure BDA00034263512700000612
Figure BDA00034263512700000613
当文本中各个元素出现的共同频率越高,I(X;Y)越高,计算
Figure BDA0003426351270000071
Figure BDA0003426351270000072
即查找与x元素相关程度最大的元素y。
本实施例中,Lmin=2,LMax=30。
本实施例中,第一预设阀值=20,第二预设阀值=100。
本实施例中,第一待处理文字段的长度=第一待处理文字段所包含的汉字的第一数量+第一待处理文字段所包含的字母的第二数量,如果第一待处理文字段不包含汉字时,则第一数量=0,如果第二待处理文字段不包含字母时,则第二数量=0。
本实施例中,所述“获取不包含有标点符号的预处理句子”具体包括:使用标点符号将文章段落被分割得到所述预处理句子。这实际中,将文章段落利用标点符号进行划分,有可能会得到很多句子,则每个句子都可以为该第一待处理文字段。
本发明实施例二提供了一种用于分布式储能领域的挖掘新词的装置,包括以下模块:
句子获取模块,用于获取不包含有标点符号的预处理句子,将所述预处理句子切割为的Num个第一待处理文字段,所述第二待处理文字段由所述预处理句子中连续的汉字和/或字母组成,且Lmin≤第一待处理文字段的长度≤LMax,其中,Num、Lmin和LMax均为自然数;
句子划分模块,用于将Num个第一待处理文字段归结为M个不同的第二待处理文字段W1,W2,...,WM,以及每个第二待处理文字段出现的概率P(W1), P(W2),...,P(WM),其中,
Figure BDA0003426351270000073
M为自然数,M≤Num,i=1,2,..., M;
处理模块,用于对每个第二待处理文字段Wi均进行以下处理:
Figure BDA0003426351270000074
Figure BDA0003426351270000075
其中,j为自然数,且1≤j≤M,i≠j,
Figure BDA0003426351270000076
当Ci≥第一预设阀值且Wi的数量≥第二预设阀值时,第二待处理文字段Wi为新词,其中,第一、第二预设阀值均大于0。
本实施例中,Lmin=2,LMax=30。
本实施例中,第一预设阀值=20,第二预设阀值=100。
本实施例中,第一待处理文字段的长度=第一待处理文字段所包含的汉字的第一数量+第一待处理文字段所包含的字母的第二数量,如果第一待处理文字段不包含汉字时,则第一数量=0,如果第二待处理文字段不包含字母时,则第二数量=0。
本实施例中,所述句子获取模块还用于:使用标点符号将文章段落被分割得到所述预处理句子。
本发明实施例三提供了一种用于分布式储能领域的挖掘新词的方法,其对以下文本进行处理“沃太能源位于南通高新区,成立于2012年,核心团队由电力技术研发、储能设备制造、IT数据服务及新能源项目开发等领域复合型技术人才组成。公司拥有国家高新技术企业认证,是专注于提供先进的储能产品及智慧能源管理方案的国际型高科技企业,也是中国首家推出户用光伏锂电一体化储能产品的公司。公司自主研发的新能源锂电储能系统、能源管理系统、锂电池管理系统等产品覆盖户用、商用、大型工商业、离网、微网、配售电等多个应用领域,产品技术处于国际先进水平,主营业务收入在中国排名第一。公司围绕储能系统布局国内外专利100余项,多个项目被列入国家、省、市科技计划项目支持。”
将上述文本去掉字符,得到相关的短句,例如:{沃太能源位于南通高新区},{成立于2012年},{核心团队由电力技术研发},{储能设备制造}, {数据服务及新能源项目开发等领域复合型技术人才组成}等等;
对词进行切分:
根据上述算法步骤,编写相关代码:
Figure BDA0003426351270000081
Figure BDA0003426351270000091
Figure BDA0003426351270000101
候选短句:{公司自主研发的新能源锂电储能系统}有以下候选词:
{公司,公司自,公司自主,公司自主研,公司自主研发,公司自主研发的,公司自主研发的新,公司自主研发的新能,公司自主研发的新能源,公司自主研发的新能源锂,公司自主研发的新能源锂电,公司自主研发的新能源锂电储,公司自主研发的新能源锂电储能,公司自主研发的新能源锂电储能系,公司自主研发的新能源锂电储能系统,公司自主研发的新能源锂电储能系统,司自,司自主,司自主研,司自主研发,司自主研发的,司自主研发的新,司自主研发的新能,司自主研发的新能源,司自主研发的新能源锂,司自主研发的新能源锂电,司自主研发的新能源锂电储,司自主研发的新能源锂电储能,司自主研发的新能源锂电储能系,自主,自主研,自主研发,自主研发的,自主研发的新,自主研发的新能,自主研发的新能源,自主研发的新能源锂,自主研发的新能源锂电,自主研发的新能源锂电储,自主研发的新能源锂电储能,自主研发的新能源锂电储能系,主研,主研发,主研发的,主研发的新,主研发的新能,主研发的新能源,主研发的新能源锂,主研发的新能源锂电,主研发的新能源锂电储,主研发的新能源锂电储能,主研发的新能源锂电储能系,研发,研发的,研发的新,研发的新能,研发的新能源,研发的新能源锂,研发的新能源锂电,研发的新能源锂电储,研发的新能源锂电储能,研发的新能源锂电储能系,发的,发的新,发的新能,发的新能源,发的新能源锂,发的新能源锂电,发的新能源锂电储,发的新能源锂电储能,发的新能源锂电储能系,的新,的新能,的新能源,的新能源锂,的新能源锂电,的新能源锂电储,的新能源锂电储能,的新能源锂电储能系,新能,新能源,新能源锂,新能源锂电,新能源锂电储,新能源锂电储能,新能源锂电储能系,新能源锂电储能系统,能源,能源锂,能源锂电,能源锂电储,能源锂电储能,能源锂电储能系,能源锂电储能系统,源锂,源锂电,源锂电储,源锂电储能,源锂电储能系,源锂电储能系统,锂电,锂电储,锂电储能,锂电储能系,锂电储能系统,电储,电储能,电储能系,电储能系统,储能,储能系,储能系统,能系,能系统,系统}
Figure BDA0003426351270000111
Figure BDA0003426351270000121
文本输出前十的结果为:{系统,能源,储能,电力,离网,微网,配售电,能源管理,研发,新能源}。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于分布式储能领域的挖掘新词的方法,其特征在于,包括以下步骤:
获取不包含有标点符号的预处理句子,将所述预处理句子切割为的Num个第一待处理文字段,所述第二待处理文字段由所述预处理句子中连续的汉字和/或字母组成,且Lmin≤第一待处理文字段的长度≤LMax,其中,Num、Lmin和LMax均为自然数;
将Num个第一待处理文字段归结为M个不同的第二待处理文字段W1,W2,...,WM,以及每个第二待处理文字段出现的概率P(W1),P(W2),...,P(WM),其中,
Figure FDA0003426351260000011
M为自然数,M≤Num,i=1,2,...,M;
对每个第二待处理文字段Wi均进行以下处理:
Figure FDA0003426351260000012
其中,j为自然数,且1≤j≤M,i≠j,
Figure FDA0003426351260000013
当Ci≥第一预设阀值且Wi的数量≥第二预设阀值时,第二待处理文字段Wi为新词,其中,第一、第二预设阀值均大于0。
2.根据权利要求1所述的挖掘新词的方法,其特征在于:
Lmin=2,LMax=30。
3.根据权利要求1所述的挖掘新词的方法,其特征在于:
第一预设阀值=20,第二预设阀值=100。
4.根据权利要求1所述的挖掘新词的方法,其特征在于:
第一待处理文字段的长度=第一待处理文字段所包含的汉字的第一数量+第一待处理文字段所包含的字母的第二数量,如果第一待处理文字段不包含汉字时,则第一数量=0,如果第二待处理文字段不包含字母时,则第二数量=0。
5.根据权利要求1所述的挖掘新词的方法,其特征在于,所述“获取不包含有标点符号的预处理句子”具体包括:
使用标点符号将文章段落被分割得到所述预处理句子。
6.一种用于分布式储能领域的挖掘新词的装置,其特征在于,包括以下模块:
句子获取模块,用于获取不包含有标点符号的预处理句子,将所述预处理句子切割为的Num个第一待处理文字段,所述第二待处理文字段由所述预处理句子中连续的汉字和/或字母组成,且Lmin≤第一待处理文字段的长度≤LMax,其中,Num、Lmin和LMax均为自然数;
句子划分模块,用于将Num个第一待处理文字段归结为M个不同的第二待处理文字段W1,W2,...,WM,以及每个第二待处理文字段出现的概率P(W1),P(W2),...,P(WM),其中,
Figure FDA0003426351260000021
M为自然数,M≤Num,i=1,2,...,M;
处理模块,用于对每个第二待处理文字段Wi均进行以下处理:
Figure FDA0003426351260000022
Figure FDA0003426351260000023
其中,j为自然数,且1≤j≤M,i≠j,
Figure FDA0003426351260000024
当Ci≥第一预设阀值且Wi的数量≥第二预设阀值时,第二待处理文字段Wi为新词,其中,第一、第二预设阀值均大于0。
7.根据权利要求6所述的挖掘新词的装置,其特征在于:
Lmin=2,LMax=30。
8.根据权利要求6所述的挖掘新词的装置,其特征在于:
第一预设阀值=20,第二预设阀值=100。
9.根据权利要求6所述的挖掘新词的装置,其特征在于:
第一待处理文字段的长度=第一待处理文字段所包含的汉字的第一数量+第一待处理文字段所包含的字母的第二数量,如果第一待处理文字段不包含汉字时,则第一数量=0,如果第二待处理文字段不包含字母时,则第二数量=0。
10.根据权利要求6所述的挖掘新词的装置,其特征在于,所述句子获取模块还用于:
使用标点符号将文章段落被分割得到所述预处理句子。
CN202111578846.XA 2021-12-22 2021-12-22 用于分布式储能领域的挖掘新词的方法及其装置 Active CN114091433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111578846.XA CN114091433B (zh) 2021-12-22 2021-12-22 用于分布式储能领域的挖掘新词的方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111578846.XA CN114091433B (zh) 2021-12-22 2021-12-22 用于分布式储能领域的挖掘新词的方法及其装置

Publications (2)

Publication Number Publication Date
CN114091433A true CN114091433A (zh) 2022-02-25
CN114091433B CN114091433B (zh) 2022-08-09

Family

ID=80307580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111578846.XA Active CN114091433B (zh) 2021-12-22 2021-12-22 用于分布式储能领域的挖掘新词的方法及其装置

Country Status (1)

Country Link
CN (1) CN114091433B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020077816A1 (en) * 2000-08-30 2002-06-20 Ibm Corporation Method and system for automatically extracting new word
CN107153664A (zh) * 2016-03-04 2017-09-12 同方知网(北京)技术有限公司 一种基于组合特征加权的科技文献标注精简研究结论的方法流程
CN108388556A (zh) * 2018-02-02 2018-08-10 北京云知声信息技术有限公司 同类实体的挖掘方法及系统
CN109635296A (zh) * 2018-12-08 2019-04-16 广州荔支网络技术有限公司 新词挖掘方法、装置计算机设备和存储介质
CN111680492A (zh) * 2020-06-10 2020-09-18 创新奇智(青岛)科技有限公司 新词挖掘方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020077816A1 (en) * 2000-08-30 2002-06-20 Ibm Corporation Method and system for automatically extracting new word
CN107153664A (zh) * 2016-03-04 2017-09-12 同方知网(北京)技术有限公司 一种基于组合特征加权的科技文献标注精简研究结论的方法流程
CN108388556A (zh) * 2018-02-02 2018-08-10 北京云知声信息技术有限公司 同类实体的挖掘方法及系统
CN109635296A (zh) * 2018-12-08 2019-04-16 广州荔支网络技术有限公司 新词挖掘方法、装置计算机设备和存储介质
CN111680492A (zh) * 2020-06-10 2020-09-18 创新奇智(青岛)科技有限公司 新词挖掘方法、装置及电子设备

Also Published As

Publication number Publication date
CN114091433B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
Zhang et al. Coordinated investment in transmission and storage systems representing long-and short-term uncertainty
Oseni Improving households’ access to electricity and energy consumption pattern in Nigeria: Renewable energy alternative
CN109508823B (zh) 一种基于场景分析法的配电网中分布式电源规划方法
Karim et al. Clean energy, Australian electricity markets, and information transmission
Kharrich et al. Design of hybrid microgrid PV/Wind/Diesel/Battery system: case study for rabat and baghdad
CN106803130B (zh) 分布式电源接入配电网的规划方法
CN109598377B (zh) 一种基于故障约束的交直流混合配电网鲁棒规划方法
Beken et al. Classification of turkey among european countries by years in terms of energy efficiency, total renewable energy, energy consumption, greenhouse gas emission and energy import dependency by using machine learning
Hassan et al. An economic and technological analysis of hybrid photovoltaic/wind turbine/battery renewable energy system with the highest self-sustainability
CN115693755A (zh) 一种基于孤岛划分的含分布式电源的配电网故障恢复方法
CN114091433B (zh) 用于分布式储能领域的挖掘新词的方法及其装置
Şencan Modeling and optimization of renewable energy systems
CN111625596B (zh) 新能源实时消纳调度的多源数据同步共享方法及系统
CN103049524A (zh) 同义词检索结果按词义自动聚类方法
CN106777298A (zh) 一种基于分形技术的分布式聚类方法
Rahman et al. Comparative studies between ant lion optimizer and evolutionary programming in optimal distributed generation placement
Leon et al. Design and economic feasibility analysis of autonomous hybrid energy system for rural Bangladesh
Dash et al. Cost Optimization of Pumped Hydro Storage and PV Plant for Hybrid Mode of Operation using FPA
AlShafeey et al. Tech Mining Analysis: Renewable Energy Forecasting Using Artificial Intelligence Technologies
Bhattacharjee et al. Expanding the Yearly Profit of Wind Farm Using Genetic Algorithm with Variable Allocation Method of Possibilities for Crossover and Mutation Procedures
Fazylova Assessment of the prospect for the use of renewable energy sources in the world and Kazakhstan
Beksultanova et al. Renewable and alternative energy sources. Green energy
Tang et al. Systematic Analysis of Power Dispatching: Using Machine Learning
Edinson Chire Saire et al. Study of a Hybrid Photovoltaic-Wind Smart Microgrid using Data Science Approach
José et al. Techno-economic Feasibility to Produce Electrical Energy Considering a Hybrid Photovoltaic—Wind System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant