CN116862318A - 基于文本语义特征提取的新能源项目评价方法和装置 - Google Patents
基于文本语义特征提取的新能源项目评价方法和装置 Download PDFInfo
- Publication number
- CN116862318A CN116862318A CN202311126577.2A CN202311126577A CN116862318A CN 116862318 A CN116862318 A CN 116862318A CN 202311126577 A CN202311126577 A CN 202311126577A CN 116862318 A CN116862318 A CN 116862318A
- Authority
- CN
- China
- Prior art keywords
- evaluation
- training
- neural network
- word
- evaluation report
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 203
- 238000000605 extraction Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 104
- 238000013528 artificial neural network Methods 0.000 claims abstract description 66
- 239000013598 vector Substances 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims abstract description 21
- 238000013507 mapping Methods 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000015654 memory Effects 0.000 description 5
- 238000012546 transfer Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Biophysics (AREA)
- Game Theory and Decision Science (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能中文本识别技术领域,具体涉及基于文本语义特征提取的新能源项目评价方法和装置,所述方法包括:根据各历史评价报告和评价标准之间的映射关系,标记训练数据,得到训练集对神经网络进行训练;将待提取的评价报告中每个词进行语义特征提取,得到对应的词向量;将待提取的评价报告的各词向量输入至训练后的神经网络进行测试,输出提取结果;根据提取结果和评价标准计算待提取的评价报告的评价结果;所述神经网络进行训练和测试的过程中都加入注意力机制;所述神经网络为GRU。本发明能减少评价新能源项目建设工作中人为的参与,不但能够节省人力还能够提高评价的准确性。
Description
技术领域
本发明涉及人工智能中文本识别技术领域,具体涉及基于文本语义特征提取的新能源项目评价方法和装置。
背景技术
对于新能源项目的建设,需评价的指标较多。作为评价参考的评价报告往往是收集多方数据所得。收集的数据中包括现场考察所撰写的报告和拍摄的图片,国家和电网的相关标准,以及各考察方所撰写的研究报告等。因此,为了将评价报告与评价标准进行关联,需要将每篇评价报告进行标准化,但是由于各方数据呈现的方式不同,将评价报告撰写的标准化需要耗费大量的人力和时间。
因此,在现实工作中,参与评价的工作人员往往只是将各方数据做简单的整合而形成对应项目的评价报告。这就给每个新能源项目的决策人员带来了巨大的工作量,他们需要将复杂的评价报告与评价标准进行关联,人为地根据评价报告与评价标准之间的映射关系,找到评价标准中的关键词,再来计算每个评价标准的得分,从而对该项目进行决策。现有的这种评价新能源项目的方法多数基于人工实现,并且非常容易遗漏评价标准中的关键信息,从而导致新能源项目评价的不准确。
当然,在现有技术中,也是使用过文本处理器去提取评价报告中的语义特征,但是由于训练样本少,以及现有的文本处理器没有考虑语序、上下文信息,导致评价报告提取结果准确度低。
发明内容
本发明要解决的技术问题在于,克服现有的技术的不足,提供基于文本语义特征提取的新能源项目评价方法和装置,减少评价新能源项目建设工作中人为的参与,不但能够节省人力还能够提高评价的准确性。
为达到上述技术目的,一方面,本发明提供一种基于文本语义特征提取的新能源项目评价方法,包括:
根据各历史评价报告和评价标准之间的映射关系,标记训练数据,得到训练集对神经网络进行训练;
将待提取的评价报告中每个词进行语义特征提取,得到对应的词向量;
将待提取的评价报告的各词向量输入至训练后的神经网络进行测试,输出提取结果;
根据提取结果和评价标准计算待提取的评价报告的评价结果;
所述神经网络进行训练和测试的过程中都加入注意力机制;所述神经网络为GRU。
在上述技术方案中,所述根据各历史评价报告和评价标准之间的映射关系,标记训练数据,得到训练集对神经网络进行训练,具体包括:
将各历史评价报告中每个词进行语义特征提取,得到对应的词向量;
提取评价标准中的关键词作为训练数据的输出,找到与关键词有映射关系的词向量作为对应训练数据的输入;
将各训练数据进行处理,得到训练集;
采用训练集对神经网络进行训练。
在上述技术方案中,所述将各训练数据进行处理,得到训练集,具体包括:
针对各训练数据,计算对应词向量在各历史评价报告中出现的频率;
将频率高于第一阈值的训练数据标记为高频数据,其余标记为低频数据;
计算每个低频数据对应的词与评价标准中的各关键词的相似度;
获取相似度高于第二阈值的低频数据与各高频数据按比例分配构成训练集。
在上述技术方案中,所述得到训练集对神经网络进行训练,具体包括:
将训练集中的低频数据输入神经网络进行训练,迭代预设次数后,获取此时神经网络的参数,作为训练参数;
将训练集输入至设定训练参数的神经网络进行训练。
在上述技术方案中,所述比例根据各训练数据中词在各历史评价报告中出现的概率获得。
在上述技术方案中,所述将待提取的评价报告中每个词进行语义特征提取,具体包括:
采用CNN的卷积层识别待提取的评价报告中每个词,并进行语义特征提取。
在上述技术方案中,所述注意力机制,通过以下过程实现:
(8)
(9)
公式(8)和(9)中,是校验模型,/>为卷积层第j个输入的隐层状态,/>为上一轮GRU的输出,W和U是权重转化矩阵,b为偏移量,/>表示输入j对输出的注意力分布概率,T表示输入序列元素的个数,score为影响力评价分数,v代表感知机,vtanh表示以tanh为激活函数的多层感知机。
在上述技术方案中,所述相似度表达式为:
(4)
公式(4)中,为当前词,/>表示当前词所在的历史评价报告内容,/>表示当前词对应的词向量,/>表示当前词所在的历史评价报告中出现的第k个关键词,/>表示第k个关键词的词向量,/>表示第k个关键词出现在当前词所在的历史评价报告中的概率,K为当前词所在的历史评价报告中含有评价标准中关键词的数量。
在上述技术方案中,所述词在各历史评价报告中的概率的表达式为:
(5)
公式(5)中,为当前词,/>表示当前词所在的历史评价报告内容,/>表示当前词所在的历史评价报告中出现的第k个关键词,/>为当前词为第k个关键词的概率,/>表示第k个关键词出现在当前词所在的历史评价报告中的概率。
第二方面,本发明还提供一种基于文本语义特征提取的新能源项目评价装置,包括:提取模块、注意力模块、神经网络和评价模块;
所述提取模块,用于根据各历史评价报告和评价标准之间的映射关系,标记训练数据,得到训练集;
所述训练集,用于对神经网络进行训练;
所述提取模块,还用于将待提取的评价报告中每个词进行语义特征提取,得到对应的词向量;
所述神经网络,还用于将待提取的评价报告的各词向量进行测试,输出提取结果;
所述注意力模块,用于在神经网络进行训练和测试的过程中都加入注意力机制;
所述评价模块,用于根据提取结果和评价标准计算待提取的评价报告的评价结果。
在本发明中,首先是利用各历史评价报告和评价标准对神经网络进了训练,使得神经网络学习到历史评价报告与评价标准之间的映射关系。然后采用神经网络对待提取的评价报告进行检测自动的输出该评价报告的提取结果。在训练和检测的过程中都加入了注意力机制,这样就能够顾及评价报告中语序和上下文的信息,使提取结果更准确。根据评价报告的提取结果再来计算评价结果。整个过程中人为参与少,大大减少人力并且提高评价结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例的方法流程示意图;
图2为本申请实施例的装置结构示意图;
图3为门控循环网络隐藏层网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
对于每个新能源项目需要经过严格的考察,根据多方数据汇总成评价报告。在评价报告中,包括该项目各种相关信息。由于现有的评价报告,大多数是由参与评价的工作人员简单的整合多方信息而构成,导致各评价报告不仅冗长还充斥了各种与评价标准无关的信息。因此,现有的评价报告会加大项目决策人员的工作量,以及影响项目评级的准确度。
如图1所示,本申请提供了基于文本语义特征提取的新能源项目评价方法,包括:
101、根据各历史评价报告和评价标准之间的映射关系,标记训练数据,得到训练集对神经网络进行训练;
102、将待提取的评价报告中每个词进行语义特征提取,得到对应的词向量;
103、将待提取的评价报告的各词向量输入至训练后的神经网络进行测试,输出提取结果;
104、根据提取结果和评价标准计算待提取的评价报告的评价结果。
所述神经网络进行训练和测试的过程中都加入注意力机制;所述神经网络为GRU。
首先是利用各历史评价报告和评价标准对神经网络进了训练,使得神经网络学习到历史评价报告与评价标准之间的映射关系。然后采用神经网络对待提取的评价报告进行检测自动的输出该评价报告的提取结果。在训练和检测的过程中都加入了注意力机制,这样就能够顾及评价报告中语序和上下文的信息,使提取结果更准确。根据评价报告的提取结果再来计算评价结果。整个过程中人为参与少,大大减少人力并且提高评价结果的准确性。
所述101,具体包括:
1011、将各历史评价报告中每个词进行语义特征提取,得到对应的词向量;
在1011中,采用CNN的卷积层识别待提取的评价报告中每个词,并进行语义特征提取。当然也可以采用其余的提取装置,如MLP, RNN, Self-attention, Transformerencoder, BERT等模型。在本实施例中,采用CNN的卷积层可以减少训练参数,并且不会破坏原始语序。在CNN的卷积层中采用过滤器用来提取词向量:
Seni=[wi,wi+1……w i+k-1] (1)
公式(1)中,wj∈RD为句中第j个词的D 维词嵌入表示;其中Sen∈RL × D表示长度为L 的语句,Seni表示区域序列向量,由输入语句i位置开始的连续k个词的词嵌入表示组构成。
输入语句中i位置转换公式为:
ci=ReLU(Seni·f+θ) (2)
公式(2)中,f∈Rk × D为在卷积层长度为k的过滤器,·表示元素级相乘,θ∈R为偏移量,ReLU表示一种非线性激活函数。
每篇评价报告可以表示为:
(3)
公式(3)中,该矩阵中行向量表示通过第n个过滤器产生的特征向量映射,列向量表示n个过滤器在i 位置产生的多个区域序列向量表示。矩阵中的所有列向量构成输入语句的顺序语义表示,作为后面神经网络的输入向量。
1012、提取评价标准中的关键词作为训练数据的输出,找到与关键词有映射关系的词向量作为对应训练数据的输入;
在本实施例中,部分评价标准如下表:
由于新能源项目评价标准内容众多,在此就不一一举例。在表1中只显示了评价标准中的部分关键词,评价标准中的关键词涉及地理、经济、管理、国家标准等众多领域。每个领域的数据收集由不同的部分负责,而且形成的各领域报告形式都不相同。以“周边项目面积上浮10%以上”为例,在现有的工作过程中,评价决策人员需要在冗长的评价报告中找出“周边项目面积”,然后再判断上浮比例,再人为的乘以权重和分数后,得到该关键词的得分,最后在当前评价报告中计算出所有的关键词得分后再相加得到总分。然而每篇评价报告中所含有的关键词并不相同,并且每篇评价报告也不一定含有所有的评价标准中的关键词。更多的情况下,评价报告中出现的关键词的描述与评价标准也不同,例如:“项目位置在一般带”,有的评价报告中会写明“项目位于一般带”、“选址一般带”等意思相近的描述。在现有的工作过程中,需要人为地根据评价报告和评价标准之间的映射关系去找寻关键词,运用意思相近的描述也为人为评价工作增添了难度。
由此,在本实施例中采用神经网络来解决现有技术中的问题,首先需要对神经网络进行训练。
在本实施例中,同样可以使用卷积层提取评价标准中的关键词,形成词向量作为训练数据的输出。然后在各历史评价报告中匹配与关键词有映射关系的词对应的词向量作为输入。映射关系包括词描写相同和相近。
1013、将各训练数据进行处理,得到训练集;具体地:
10131、针对各训练数据,计算对应词向量在各历史评价报告中出现的频率;
在本实施例中,可以计算作为输入的词向量对应的词在各历史评价报告中的概率,也可以计算作为输入的词向量,在各提取语义特征后的评价报告中出现的概率。
10132、将频率高于第一阈值的训练数据标记为高频数据,其余标记为低频数据;
10133、计算每个低频数据对应的词与评价标准中的各关键词的相似度;
所述相似度表达式为:
(4)
公式(4)中,为当前词,/>表示当前词所在的历史评价报告内容,/>表示当前词对应的词向量,/>表示当前词所在的历史评价报告中出现的第k个关键词,/>表示第k个关键词的词向量,/>表示第k个关键词出现在当前词所在的历史评价报告中的概率。
10134、获取相似度高于第二阈值的低频数据与各高频数据按比例分配构成训练集。
所述比例根据各训练数据中词在各历史评价报告中出现的概率获得。所述词在各历史评价报告中的概率的表达式为:
(5)
公式(5)中,为当前词,/>表示当前词所在的历史评价报告内容,/>表示当前词所在的历史评价报告中出现的第k个关键词,/>为当前词为第k个关键词的概率,/>表示第k个关键词出现在当前词所在的历史评价报告中的概率。
在现有的文本处理器中,常常因为训练数据不足导致测试结果不准确。有些词在语义上很重要与评价标准之间有映射关系,但是出现在评价报告中的次数较少。在进行语义提取时,现有技术往往很容易将其忽略,从而导致特征提取不准确,影响评价结果。
在本实施例中,相似度高于第二阈值的低频数据代表了在历史评价报告中出现的次数少,但是语义上又特别重要的数据。因此,在训练神经网络时,增加相似度高于第二阈值的低频数据在训练数据中的占比,使得神经网络尽可能少的忽略频次低语义重要的词。
1014、采用训练集对神经网络进行训练,具体地:
10141、将训练集中的低频数据输入神经网络进行训练,迭代预设次数后,获取此时神经网络的参数,作为训练参数;
10142、将训练集输入至设定训练参数的神经网络进行训练。
在本实施例中,首先对初始化的神经网络只采用训练集中的低频数据进行训练,原因与增加低频数据占比相同,为了在之后的测试中使神经网络能更好的识别出频次低语义重要的词。
在本实施例中,神经网络采用GRU。循环神经网络的序列中层数较多时,在训练过程中由于长期依赖问题的存在,会出现梯度爆炸或梯度消失的现象,从而导致训练的结果不收敛。为解决该问题,长短期记忆网络(LSTM,Long Short-Term Memory)在1997 年被首次提出。LSTM 是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,但是LSTM 计算复杂。门控循环网络(GRU,Gate RecurrentUnit)也是一种循环神经网络,和LSTM 一样,也是为了解决长期记忆和反向传播中的梯度消失等问题而提出来的。GRU与LSTM 相比,在很大程度上减少了计算量,更适用于解决实际工程问题。
本实施例中,通过在卷积层与GRU之间引入注意力机制,生成含有注意力概率分布的语义编码,并生成最终的特征向量,由此突出输入语句中不同的关键词对不同输出的区分化影响作用。
神经网络每一个输出元素为:
(6)
公式(6)中,为每个输出对应的语义编码,是根据输入语句/>的在卷积层中经过卷积运算后隐层状态进行非线性转化得到的:
(7)
公式(7)中,表示语句中第j个词的词嵌入经过卷积层处理后对应的隐层状态,T表示输入序列元素的个数,语句中第j个词输入对输出/>的注意力分布概率表示:
(8)
(9)
公式(8)和(9)中,是校验模型,/>为卷积层第j个输入的隐层状态,/>为上一轮GRU的输出,W和U是权重转化矩阵,b为偏移量,/>表示输入j对输出的注意力分布概率。
在本实施例中,注意力机制生成的语义编码会作为GRU的输入。如图3所示,GRU的GRU神经网络是循环神经网络的变体,是将传统的循环神经网络的隐藏层节点换为GRU元胞。每个隐藏层节点GRU元胞的结构如图3所示。图中表示前一时刻隐藏层的状态,表示当前时刻隐藏层的状态,/>表示当前时刻的输入。从图中可以看出,GRU的隐藏层在利用上一个隐藏层状态的时候,对上一个隐藏层的状态进行了处理。主要是增加了两个门限,一个是重置门/>,另一个是更新门/>。重置门表示当前状态忽略前一时刻状态的程度,用于捕捉时间序列里短期的依赖关系,更新门表示前一时刻的状态带到这一时刻的信息量,用于捕捉时间序列里长期的依赖关系。/>为候选隐藏层状态,用于辅助隐藏层状态/>的计算,在图3中用/>表示。
GRU的输入变量选定注意力机制生成的语义编码:
(10)
公式(10)中,表示t时刻的GRU输入,/>表示t时刻注意力机制生成的语义编码,/>表示输入尺度变换矩阵。
更新门的激活函数为sigmoid函数,表示为,则更新门的表达式为:
(11)
公式(11)中规,为更新门的输入权重矩阵,/>为更新门的隐藏层状态传递矩阵。
重置门表达式为:
(12)
公式(12)中,为重置门的输入权重矩阵,/>为重置门的隐藏层状态传递矩阵。
候选隐藏层状态的激活函数选用tanh函数。候选隐藏层的表达式为:
(13)
公式(13)中,表示候选隐藏层状态的输入权重矩阵,/>表示候选隐藏层状态针对上一时刻隐藏层状态的传递矩阵,/>表示哈达马积(Hadamard product)。
当前隐藏层状态可以表示为:
(14)
输出层可表示为:
(15)
公式(15)中,表示隐藏层状态到输出层的权重矩阵。
在本实施例中,获取输出层针对评价报告的深层表示后,可以再采用线性回归获取最终的提取结果。
在本实施例中,102和103中测试过程中的提取词向量和提取结果原理与101中训练过程相同,只是没有构建训练集的过程,在此就不赘述了。
在104中,如表1所示,测试后得到的提取结果转换成关键词后,直接通过评级标准,找到其得分和权重后相乘,得到该关键词的总得分,最后将评价报告中所有关键词的总得分相加,获得该评价报告的总得分,即该新能源项目的总得分。根据新能源项目的总得分评价该新能源项目的结果。
经过试验数据表明,本实施例所述的评价方法,能够有效地提高新能源项目评价的准确性。
如图2所示,本申请实施例还提供了基于文本语义特征提取的新能源项目评价装置,包括:提取模块、注意力模、神经网络和评价模块;
所述提取模块,用于根据各历史评价报告和评价标准之间的映射关系,标记训练数据,得到训练集;
所述训练集,用于对神经网络进行训练;
所述提取模块,用于将待提取的评价报告中每个词进行语义特征提取,得到对应的词向量;
所述神经网络,还用于将待提取的评价报告的各词向量进行测试,输出提取结果;
所述注意力模块,用于在神经网络进行训练和测试的过程中都加入注意力机制;
所述评价模块,用于根据提取结果和评价标准计算待提取的评价报告的评价结果。
本实施例所述的基于文本语义特征提取的新能源项目评价装置功能如上述方法所述,在此就不再赘述。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
为了使本揭示内容的叙述更加详尽与完备,上文针对本发明的实施方式与具体实施例提出了说明性的描述;但这并非实施或运用本发明具体实施例的唯一形式。实施方式中涵盖了多个具体实施例的特征以及用以建构与操作这些具体实施例的方法步骤与其顺序。然而,亦可利用其它具体实施例来达成相同或均等的功能与步骤顺序。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比较清楚地在每个权利要求中所陈述的特征更多的特征。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于文本语义特征提取的新能源项目评价方法,其特征在于,包括:
根据各历史评价报告和评价标准之间的映射关系,标记训练数据,得到训练集对神经网络进行训练;
将待提取的评价报告中每个词进行语义特征提取,得到对应的词向量;
将待提取的评价报告的各词向量输入至训练后的神经网络进行测试,输出提取结果;
根据提取结果和评价标准计算待提取的评价报告的评价结果;
所述神经网络进行训练和测试的过程中都加入注意力机制;所述神经网络为GRU。
2.根据权利要求1述的基于文本语义特征提取的新能源项目评价方法,其特征在于,所述根据各历史评价报告和评价标准之间的映射关系,标记训练数据,得到训练集对神经网络进行训练,具体包括:
将各历史评价报告中每个词进行语义特征提取,得到对应的词向量;
提取评价标准中的关键词作为训练数据的输出,找到与关键词有映射关系的词向量作为对应训练数据的输入;
将各训练数据进行处理,得到训练集;
采用训练集对神经网络进行训练。
3.根据权利要求2所述的基于文本语义特征提取的新能源项目评价方法,其特征在于,所述将各训练数据进行处理,得到训练集,具体包括:
针对各训练数据,计算对应词向量在各历史评价报告中出现的频率;
将频率高于第一阈值的训练数据标记为高频数据,其余标记为低频数据;
计算每个低频数据对应的词与评价标准中的各关键词的相似度;
获取相似度高于第二阈值的低频数据与各高频数据按比例分配构成训练集。
4.根据权利要求2所述的基于文本语义特征提取的新能源项目评价方法,其特征在于,所述得到训练集对神经网络进行训练,具体包括:
将训练集中的低频数据输入神经网络进行训练,迭代预设次数后,获取此时神经网络的参数,作为训练参数;
将训练集输入至设定训练参数的神经网络进行训练。
5.根据权利要求3所述的基于文本语义特征提取的新能源项目评价方法,其特征在于,所述比例根据各训练数据中词在各历史评价报告中出现的概率获得。
6.根据权利要求1述的基于文本语义特征提取的新能源项目评价方法,其特征在于,所述将待提取的评价报告中每个词进行语义特征提取,具体包括:
采用CNN的卷积层识别待提取的评价报告中每个词,并进行语义特征提取。
7.根据权利要求6述的基于文本语义特征提取的新能源项目评价方法,其特征在于,所述注意力机制,通过以下过程实现:
(8)
(9)
公式(8)和(9)中,是校验模型,/>为卷积层第j个输入的隐层状态,/>为上一轮GRU的输出,W和U是权重转化矩阵,b为偏移量,/>表示输入j对输出的注意力分布概率,T表示输入序列元素的个数,score为影响力评价分数,v代表感知机,vtanh表示以tanh为激活函数的多层感知机。
8.根据权利要求3所述的基于文本语义特征提取的新能源项目评价方法,其特征在于,所述相似度表达式为:
(4)
公式(4)中,为当前词,/>表示当前词所在的历史评价报告内容,/>表示当前词对应的词向量,/>表示当前词所在的历史评价报告中出现的第k个关键词,/>表示第k个关键词的词向量,/>表示第k个关键词出现在当前词所在的历史评价报告中的概率,K为当前词所在的历史评价报告中含有评价标准中关键词的数量。
9.根据权利要求8所述的基于文本语义特征提取的新能源项目评价方法,其特征在于,当前词在各历史评价报告中的概率的表达式为:
(5)
公式(5)中,为当前词,/>表示当前词所在的历史评价报告内容,/>表示当前词所在的历史评价报告中出现的第k个关键词,/>为当前词为第k个关键词的概率,/>表示第k个关键词出现在当前词所在的历史评价报告中的概率。
10.一种基于文本语义特征提取的新能源项目评价装置,其特征在于,包括:提取模块、注意力模块、神经网络和评价模块;
所述提取模块,用于根据各历史评价报告和评价标准之间的映射关系,标记训练数据,得到训练集;
所述训练集,用于对神经网络进行训练;
所述提取模块,还用于将待提取的评价报告中每个词进行语义特征提取,得到对应的词向量;
所述神经网络,用于将待提取的评价报告的各词向量进行测试,输出提取结果;
所述注意力模块,用于在神经网络进行训练和测试的过程中都加入注意力机制
所述评价模块,用于根据提取结果和评价标准计算待提取的评价报告的评价结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311126577.2A CN116862318B (zh) | 2023-09-04 | 2023-09-04 | 基于文本语义特征提取的新能源项目评价方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311126577.2A CN116862318B (zh) | 2023-09-04 | 2023-09-04 | 基于文本语义特征提取的新能源项目评价方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116862318A true CN116862318A (zh) | 2023-10-10 |
CN116862318B CN116862318B (zh) | 2023-11-17 |
Family
ID=88234498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311126577.2A Active CN116862318B (zh) | 2023-09-04 | 2023-09-04 | 基于文本语义特征提取的新能源项目评价方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116862318B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151656A (zh) * | 2023-10-30 | 2023-12-01 | 成方金融科技有限公司 | 项目评价模型训练方法及项目评价方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095749A (zh) * | 2016-06-03 | 2016-11-09 | 杭州量知数据科技有限公司 | 一种基于深度学习的文本关键词提取方法 |
CN110263323A (zh) * | 2019-05-08 | 2019-09-20 | 清华大学 | 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统 |
CN110619035A (zh) * | 2019-08-01 | 2019-12-27 | 平安科技(深圳)有限公司 | 识别面试视频中关键词的方法、装置、设备及存储介质 |
CN110765260A (zh) * | 2019-10-18 | 2020-02-07 | 北京工业大学 | 一种基于卷积神经网络与联合注意力机制的信息推荐方法 |
CN112883713A (zh) * | 2021-02-24 | 2021-06-01 | 中国工商银行股份有限公司 | 基于卷积神经网络的评价对象抽取方法及装置 |
CN114140009A (zh) * | 2021-12-03 | 2022-03-04 | 国网河北省电力有限公司经济技术研究院 | 电网配网工程技术评审方法、装置、终端及存储介质 |
CN116523402A (zh) * | 2023-05-04 | 2023-08-01 | 江苏师范大学 | 一种基于多模态数据的网络学习资源质量评估方法及系统 |
-
2023
- 2023-09-04 CN CN202311126577.2A patent/CN116862318B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095749A (zh) * | 2016-06-03 | 2016-11-09 | 杭州量知数据科技有限公司 | 一种基于深度学习的文本关键词提取方法 |
CN110263323A (zh) * | 2019-05-08 | 2019-09-20 | 清华大学 | 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统 |
CN110619035A (zh) * | 2019-08-01 | 2019-12-27 | 平安科技(深圳)有限公司 | 识别面试视频中关键词的方法、装置、设备及存储介质 |
CN110765260A (zh) * | 2019-10-18 | 2020-02-07 | 北京工业大学 | 一种基于卷积神经网络与联合注意力机制的信息推荐方法 |
CN112883713A (zh) * | 2021-02-24 | 2021-06-01 | 中国工商银行股份有限公司 | 基于卷积神经网络的评价对象抽取方法及装置 |
CN114140009A (zh) * | 2021-12-03 | 2022-03-04 | 国网河北省电力有限公司经济技术研究院 | 电网配网工程技术评审方法、装置、终端及存储介质 |
CN116523402A (zh) * | 2023-05-04 | 2023-08-01 | 江苏师范大学 | 一种基于多模态数据的网络学习资源质量评估方法及系统 |
Non-Patent Citations (2)
Title |
---|
SUYU OUYANG ET AL: "Scientific and Technological Text Knowledge Extraction Method of based on Word Mixing and GRU", 《HTTPS://ARXIV.ORG/ABS/2203.17079》, pages 1 - 8 * |
尼格拉木·买斯木江: "面向慕课在线课程质量评价指标提取及情感分析研究", 《中国优秀硕士学位论文全文数据库社会科学II辑》, no. 09, pages 1 - 39 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151656A (zh) * | 2023-10-30 | 2023-12-01 | 成方金融科技有限公司 | 项目评价模型训练方法及项目评价方法 |
CN117151656B (zh) * | 2023-10-30 | 2024-02-27 | 成方金融科技有限公司 | 项目评价模型训练方法及项目评价方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116862318B (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107748757B (zh) | 一种基于知识图谱的问答方法 | |
CN111209384B (zh) | 基于人工智能的问答数据处理方法、装置及电子设备 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN111274365B (zh) | 基于语义理解的智能问诊方法、装置、存储介质及服务器 | |
CN109871538A (zh) | 一种中文电子病历命名实体识别方法 | |
CN110674840B (zh) | 一种多方证据关联模型构建方法和证据链提取方法及装置 | |
CN111444700A (zh) | 一种基于语义文档表达的文本相似度量方法 | |
CN110765775A (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
CN112016313B (zh) | 口语化要素识别方法及装置、警情分析系统 | |
CN116862318B (zh) | 基于文本语义特征提取的新能源项目评价方法和装置 | |
CN115599899B (zh) | 基于飞行器知识图谱的智能问答方法、系统、设备及介质 | |
CN112015901A (zh) | 文本分类方法及装置、警情分析系统 | |
CN113449111A (zh) | 基于时空语义知识迁移的社会治理热点话题自动识别方法 | |
Tianxiong et al. | Identifying chinese event factuality with convolutional neural networks | |
CN117094291B (zh) | 基于智能写作的自动新闻生成系统 | |
CN116522165A (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN115730058A (zh) | 一种基于知识融合的推理问答方法 | |
CN113420680B (zh) | 一种基于gru注意力的遥感影像区域关注与文本生成方法 | |
CN115878800A (zh) | 一种融合共现图和依赖关系图的双图神经网络及其构建方法 | |
Nautiyal et al. | KCC QA latent semantic representation using deep learning & hierarchical semantic cluster inferential framework | |
Luo et al. | Research on civic hotline complaint text classification model based on word2vec | |
CN115033706A (zh) | 一种知识图谱自动补全和更新的方法 | |
Wang et al. | End-to-end relation extraction using graph convolutional network with a novel entity attention | |
Liu et al. | Text Analysis of Community Governance Case based on Entity and Relation Extraction | |
CN111538843B (zh) | 游戏领域的知识图谱关系匹配方法、模型构建方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |