CN111538829B - 一种新的工程机械租赁场景网页文本关键内容提取方法 - Google Patents

一种新的工程机械租赁场景网页文本关键内容提取方法 Download PDF

Info

Publication number
CN111538829B
CN111538829B CN202010344614.7A CN202010344614A CN111538829B CN 111538829 B CN111538829 B CN 111538829B CN 202010344614 A CN202010344614 A CN 202010344614A CN 111538829 B CN111538829 B CN 111538829B
Authority
CN
China
Prior art keywords
attention mechanism
engineering
attention
input
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010344614.7A
Other languages
English (en)
Other versions
CN111538829A (zh
Inventor
杨婷婷
王艺
郑龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Joint Digital Technology Co ltd
Original Assignee
Joint Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Joint Digital Technology Co ltd filed Critical Joint Digital Technology Co ltd
Priority to CN202010344614.7A priority Critical patent/CN111538829B/zh
Publication of CN111538829A publication Critical patent/CN111538829A/zh
Application granted granted Critical
Publication of CN111538829B publication Critical patent/CN111538829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种新的工程机械租赁场景网页文本关键内容提取方法,能够不需要根据HTML标签解析不同网页的内容,利用YEDA中文文本标注工具标注出网页中的机构名,地名,日期,货币,数字,工程名,工程内容,工程范围,工程规模,所属工程行业,工程施工阶段等信息,将标注好的数据输入到基于局部软注意力机制的深度网络模型中,在深度网络模型中以LSTM作为基础网络,同时在单词级别,短语级别使用全局注意力机制,在句子级别使用局部注意力机制,从而使得提取的网页关键性摘要信息可以让人不用大量的阅览网页,快速获取与工程租赁场景相关的感兴趣内容。

Description

一种新的工程机械租赁场景网页文本关键内容提取方法
技术领域
本发明具体涉及到一种新的工程机械租赁场景网页文本关键内容提取方法。
背景技术
网页关键文本的提取是海量数据背景下互联网应用中的一个热点问题。从大量包含网页结构的文档中提取适当合理的关键性摘要信息用以概括网页文本内容。网页内容提取在知识图谱构建,智能问答,个性化搜索等领域中有着广泛的信息。
工程用车推荐需要根据爬取出来的互联网网页上的关键内容进行判断是否用车,而工程招标网站多种多样,规则复杂。利用传统的方法提取关键内容可能存在信息遗漏,丢失的问题。通常情况下,工程用车推荐信息中时间,地点,工程类型均是非常重要的内容,需要将它们完整的提取出来。
传统的方法是将网页文本按照HTML标签解析内容,提取正文,然后再分词,去掉停用词之后得到候选内容,再根据设定的阈值来提取关键内容。设定的阈值一般是根据候选的N个关键词来设置的。但是这种方法算法复杂,计算量巨大,不能适应不同的网站内容,需要设计多种不同的规则。因此,现有的技术提取关键内容精度不高,而且不够通用。
为了解决这一问题,我们提出了一种新的基于局部软注意力机制的网页文本摘要信息提取技术。
发明内容
发明目的:本发明的目的是针对目前技术中的不足,提供了一种新的工程机械租赁场景网页文本关键内容提取方法,能够有效解决现有的网页文本关键内容提取技术提取的关键内容精度不高,而且不够通用的技术问题。
1、技术方案:为实现上述目的,本发明提供了一种新的工程机械租赁场景网页文本关键内容
提取方法,其特征在于:包括如下步骤:
步骤1、数据标注:
利用开源的YEDA中文文本标注工具标注出关键文本内容,工程名,工程内容,工程范围,工程规模,所属工程行业,工程施工阶段;
步骤2、分层次:
首先将输入的网页文本分句子即根据中文句子起止符号、分短语即根据jieba分词粗分割、分词即根据jieba分词精分割,然后利用word2vec将分割后的中文词汇变成单词嵌入向量,得到序列embedding1、embedding2、…、embeddingt;
步骤3、构建局部软注意力机制模型:
局部软注意力机制的模型可以分为三个部分,分别是左边的Encoder模块、中间的Attention模块和后面的Decoder模块:
Encoder模块包括有嵌入层和LSTM单元,嵌入层利用word2vec转换单词、短语、句子转换成embeddings输出,LSTM单元为基础模型,embeddings通过LSTM单元得到一系列的隐藏单元,隐藏单元是各个LSTM单元的输出h1,h2,…,ht;
Decoder模块包括有LSTM单元和输出层,LSTM单元为基础模型,输出层用于处理Encoder输入和注意力机制部分输入进行加权求和之后用softmax预测得到文本实体输出,LSTM单元为基础模型,embeddings通过LSTM单元得到一系列的隐藏单元,隐藏单元是各个LSTM单元的输出h1,h2,…,ht;
Attention模块包括单词和短语级别的全局注意力机制和句子级别的局部注意力机制,Attention模块是一个前馈神经网络,输入是Encoder模块和Decoder模块中的LSTM单元输出的隐藏单元,输出是权重系数;
权重系数可以和后面的Decoder模块一起决定文本实体的输出;
Attention模块的全局注意力机制和局部注意力机制是参数的初始化和更新;
全局注意力机制设置全局变量随机初始化和全部更新,局部注意力机制设置首尾的变量随机初始化,中间的变量设置为0并且设置只更新首尾的变量;
步骤4、局部软注意力机制模型进行参数初始化:
在单词和短语级别的注意力机制矩阵中用随机数进行初始化,在句子级别的注意力机制矩阵中只初始化首位权重,其余置为0;
步骤5:将步骤1中处理得到的embeddings嵌入量根据单词,短语,句子级别分别输入到网络中,即输入到Encoder部分的LSTM单元,中,得到隐藏单元(h1,h2,h3,…,ht),Decoder部分中的隐藏单元设为st-1,每个输入位置j与当前输出位置的关联性可以表示为:
ejt=α(st-1,hj)
向量化的表示成:
Figure GDA0002947422130000021
其中α是相关性运算符,通常情况下,运算符会取加权点乘,
Figure GDA0002947422130000022
Figure GDA0002947422130000023
进行softmax运算,就得到了Attention的归一化分布:
Figure GDA0002947422130000024
对αt进行加权求和得到相应的文本向量:
Figure GDA0002947422130000025
可以计算得到Decoder的下一个隐藏单元,st=f(st-1,yt-1,ct),以及该位置的输出:
Figure GDA0002947422130000031
步骤6.、选择随机梯度下降算法作为优化器,结合交叉熵损失函数更新网络参数,按指数衰减调整学习率,学习率的初始值设置为1e-4;
步骤7、将训练好的模型中提取出来的网络关键文本输入到自定义的模板中,形成网页关键性信息摘要的提取。
与现有技术相比本发明具有的有益效果:本发明能够不需要根据HTML标签解析不同网页的内容,利用YEDA中文文本标注工具标注出网页中的机构名,地名,日期,货币,数字,工程名,工程内容,工程范围,工程规模,所属工程行业,工程施工阶段等信息,将标注好的数据输入到基于局部软注意力机制深度网络中,在深度网络模型中以LSTM作为基础网络,同时在单词级别,短语级别使用全局注意力机制,因为人类关注短语的时候肯定是有重点关注词汇的;在句子级别使用局部软注意力机制,因为人类写文本的时候,通常情况下的句子结构是总分总的形式,在句首和句尾的内容通常包含较大的信息量,便于精准提取大量的重要信息;
提取出来的网页关键性摘要信息可以根据自定义的模板,形成最终的关键性摘要文本,自定义的模板包括,工程名,工程内容,工程范围,工程规模,所属工程行业,工程施工阶段等;
用自定义的模板生成工程租赁场景下的网页关键文本信息,提取爬出的网页关键性摘要信息可以让人不用大量的阅览网页,快速获取感兴趣的内容。
附图说明
图1为本发明中局部软注意力机制深度网络结构示意图;
图2为本发明中局部软注意力机制在网络文本中的应用示意图;
图3为本实施例中用YEDA标注工具标注工程的相关信息示意图;
图4为本实施例中将标注的数据导出后是带标注的文本示意图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。需要说明的是,下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向,词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。
YEDA:轻型协作文本跨度注释工具;
Jieba:结巴;
Embedding:嵌入;
Encoder模块:编码模块;
Attention模块:注意力机制模块;
Decoder模块:解码模块;
LSTM单元:长短期记忆单元;
word2vec:词向量模型;
softmax:Softmax函数,或称归一化指数函数,是逻辑函数的一种推广;
Query:查询;
Key:键;
Value:值;
compatibility function:适应度函数。
基于局部软注意机制的深度网络结构如图1所示。
局部软注意力机制在网络文本中的应用示意图如图2所示。
提取出来的网页关键性摘要信息可以根据自定义的模板,形成最终的关键性摘要文本。
自定义的模板包括,工程名,工程内容,工程范围,工程规模,所属工程行业,工程施工阶段等。
实施步骤:
步骤1:数据标注,利用开源的YEDA中文文本标注工具标注出关键文本内容,工程名,工程内容,工程范围,工程规模,所属工程行业,工程施工阶段等;
步骤2:首先将输入的网页文本分句子即根据中文句子起止符号、分短语即根据jieba分词粗分割、分词即根据jieba分词精分割,然后利用word2vec将分割后的中文词汇变成单词嵌入向量,得到序列embedding1、embedding2、…、embeddingt;
步骤3:构建局部软注意力机制模型,其网络结构如图1所示;
局部软注意力机制的模型可以分为三个部分,分别是左边的Encoder模块、中间的Attention模块和后面的Decoder模块:
Encoder模块包括有嵌入层和LSTM单元,嵌入层利用word2vec转换单词、短语、句子转换成embeddings输出,LSTM单元为基础模型,embeddings通过LSTM单元得到一系列的隐藏单元,隐藏单元是各个LSTM单元的输出h1,h2,…,ht;
Decoder模块包括有LSTM单元和输出层,LSTM单元为基础模型,输出层用于处理Encoder输入和注意力机制部分输入进行加权求和之后用softmax预测得到文本实体输出,LSTM单元为基础模型,embeddings通过LSTM单元得到一系列的隐藏单元,隐藏单元是各个LSTM单元的输出h1,h2,…,ht;
Attention模块包括单词和短语级别的全局注意力机制和句子级别的局部注意力机制,Attention模块是一个前馈神经网络,输入是Encoder模块和Decoder模块中的LSTM单元输出的隐藏单元,输出是权重系数;
权重系数可以和后面的Decoder模块一起决定文本实体的输出;
Attention模块的全局注意力机制和局部注意力机制是参数的初始化和更新;
全局注意力机制设置全局变量随机初始化和全部更新,局部注意力机制设置首尾的变量随机初始化,中间的变量设置为0并且设置只更新首尾的变量。
注意力机制的定义:注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制,注意力机制可以快速提取稀疏数据的重要特征,它是一种编码序列的方案。一个注意力函数可以描述为将Query与一组键值对(Key-Value)映射到输出,其中Query、Key、Value和输出都是向量,输出可以通过值的加权和而计算得出,其中分配到每一个值的权重可通过Query和对应Key的适应度函数(compatibility function)计算。
局部软注意力机制:是在单词、短语部分应用全局注意力机制,在句子部分应用首尾重点关注的局部注意力机制,将单词、短语和句子部分的注意力机制全部合起来,我们就定义它为局部软注意力机制。
步骤4:局部软注意力机制模型进行参数初始化,在单词和短语级别的注意力机制矩阵中用随机数进行初始化,在句子级别的注意力机制矩阵中只初始化首位权重,其余置为0;
步骤5:将步骤1中处理得到的embeddings嵌入量根据单词,短语,句子级别等分别输入到网络中,即输入到图1中的Encoder部分的LSTM单元,中,得到隐藏单元(h1,h2,h3,…,ht)。图1中的Decoder部分中的隐藏单元设为st-1,每个输入位置j与当前输出位置的关联性可以表示为:
ejt=a(st-1,hj)
向量化的表示成:
Figure GDA0002947422130000051
其中a是相关性运算符,通常情况下,运算符会取加权点乘,
Figure GDA0002947422130000052
Figure GDA0002947422130000053
进行softmax运算,就得到了Attention的归一化分布:
Figure GDA0002947422130000054
对αt进行加权求和得到相应的文本向量:
Figure GDA0002947422130000055
可以计算得到Decoder的下一个隐藏单元,st=f(st-1,yt-1,ct),以及该位置的输出:
Figure GDA0002947422130000056
步骤6:选择随机梯度下降算法作为优化器,结合loss更新网络参数,按指数衰减调整学习率,学习率的初始值设置为1e-4;
大多数机器学习或者深度学习算法都涉及某种形式的优化,优化指的是改变x以最小化或最大化某个函数f(x)的任务,我们通常以最小化f(x)指代大多数最优化问题,最大化可经由最小化算法最小化-f(x)来实现。
梯度下降:我们知道曲面上方向导数的最大值的方向就代表了梯度的方向,因此我们在做梯度下降的时候,应该是沿着梯度的反方向进行权重的更新,可以有效的找到全局的最优解,这个θi的更新过程可以描述为
Figure GDA0002947422130000061
Figure GDA0002947422130000062
a表示的是步长或者说是学习率(learning rate;
步骤7:将训练好的模型中提取出来的网络关键文本输入到自定义的模板中,最终形成网页关键性信息摘要的提取。
实施例子:
步骤1:首先用YEDA标注工具标注工程相关信息,如图3所示:
其中B_ProName代表的是项目名称的标注,B_OverViewKey是标注的工程租赁场景下的相关信息的键,B_OverViewValue标注的是工程租赁场景下相关信息的值,B_ProTime标注的是工程租赁场景下的时间,B_ProCaptial标注的是工程租赁场景下的地点,B_ProNo标注的是工程租赁场景下的工程编号,Other是工程租赁的其他信息。
将标注的数据导出后是带标注的文本如图4所示:
步骤2:对文本利用结巴分词,分为单词和短语模式:
原文:"332429""新疆第二师铁门关市司法局司法业务用房建设项目""新疆维吾尔自治区直辖县级行政区划第二师铁门关市""兴建一幢4层司法业务用房,建筑面积2275平方米,占地面积677.13平方米.
单词模式分词结果:"/332429/"//"/新疆/第二/师/铁门/铁门关/市/司法/司法局/司法/业务/用房/建设/建设项目/项目/"//"/新疆/新疆维吾尔/新疆维吾尔自治区/维吾尔/自治/自治区/自治/自治区/区直/直辖/县级/行政/行政区/行政区划/政区/区划/第二/师/铁门/铁门关/市/"//"/兴建/一幢/4/层/司法/业务/用房/,///建筑/建筑面积/面积/2275/平方/平方米/,///占地/占地面积/地面/面积/677/./13/平方/平方米/.
短语模式分词结果:"/332429/"//"/新疆/第二/师/铁门关/市/司法局/司法/业务/用房/建设项目/"//"/新疆维吾尔自治区/自治区/直辖/县级/行政区划/第二/师/铁门关/市/"//"/兴建/一幢/4/层/司法/业务/用房/,//建筑面积/2275/平方米/,//占地面积/677.13/平方米/.
步骤3:上面是本发明中一个标准的数据标注和分词模式方法,大量的文本是重复上述步骤1和步骤2,将分词得到的单词和短语级别的中文通过word2vec转换为计算机可以处理的数字量,将整句话通过word2vec转换为计算机可以处理的数字量。将单词,短语和句子的数字量作为输入,输入到本发明构建的深度网络中,其对应的标签就是标注的B_ProName,B_OverViewKey,B_OverViewValue,B_ProTime,B_ProCaptial,B_ProNo,Other。
步骤4:利用随机梯度下降算法作为优化器,结合loss更新网络参数,按指数衰减调整学习率,学习率的初始值设置为1e-4。得到最终的参数最优的深度网络
步骤5:利用训练好的参数最优的深度网络预测新的数据,得到对应的标签,可以判断出其中的项目名称,键值对,时间,地点,编号等。
步骤6:根据自定义的模板组合可以得到租赁场景下网页文本的关键信息。
对步骤1中的文本重新组织输出就是:
新疆第二师铁门关市司法局司法业务用房建设项目,工程地点:新疆维吾尔自治区自治区直辖县级行政区划第二师铁门关市,工程内容:兴建一幢4层司法业务用房,建筑面积:2275平方米,占地面积:677.13平方米,编号:332429。
将工程租赁场景下的网页文本进行实体标注和实体识别,一般情况下的通用的实体标注是人名,地点,时间等,不包含工程信息。
将单词,短语,句子级别根据人类关注重点,利用深度网络中的注意机制关联它们,首次实现单词,短语,以及句子之间有层次的,兼顾局部与全局的特性的深度网络结构。
利用自定义的模板生成工程租赁场景下的网页关键文本信息,快速从大量网页信息中提取出文本信息。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。

Claims (1)

1.一种新的工程机械租赁场景网页文本关键内容提取方法,其特征在于:包括如下步骤:
步骤1、数据标注:
利用开源的YEDA中文文本标注工具标注出关键文本内容,工程名,工程内容,工程范围,工程规模,所属工程行业,工程施工阶段;
步骤2、分层次:
首先将输入的网页文本分句子即根据中文句子起止符号、分短语即根据jieba分词粗分割、分词即根据jieba分词精分割,然后利用word2vec将分割后的中文词汇变成单词嵌入向量,得到序列embedding1、embedding2、…、embeddingt;
步骤3、构建局部软注意力机制模型:
局部软注意力机制的模型可以分为三个部分,分别是左边的Encoder模块、中间的Attention模块和后面的Decoder模块:
Encoder模块包括有嵌入层和LSTM单元,嵌入层利用word2vec转换单词、短语、句子转换成embeddings输出,LSTM单元为基础模型,embeddings通过LSTM单元得到一系列的隐藏单元,隐藏单元是各个LSTM单元的输出h1,h2,…,ht;
Decoder模块包括有LSTM单元和输出层,LSTM单元为基础模型,输出层用于处理Encoder输入和注意力机制部分输入进行加权求和之后用softmax预测得到文本实体输出,LSTM单元为基础模型,embeddings通过LSTM单元得到一系列的隐藏单元,隐藏单元是各个LSTM单元的输出h1,h2,…,ht;
Attention模块包括单词和短语级别的全局注意力机制和句子级别的局部注意力机制,Attention模块是一个前馈神经网络,输入是Encoder模块和Decoder模块中的LSTM单元输出的隐藏单元,输出是权重系数;
权重系数可以和后面的Decoder模块一起决定文本实体的输出;
Attention模块的全局注意力机制和局部注意力机制是参数的初始化和更新;
全局注意力机制设置全局变量随机初始化和全部更新,局部注意力机制设置首尾的变量随机初始化,中间的变量设置为0并且设置只更新首尾的变量;
步骤4、局部软注意力机制模型进行参数初始化:
在单词和短语级别的注意力机制矩阵中用随机数进行初始化,在句子级别的注意力机制矩阵中只初始化首位权重,其余置为0;
步骤5:将步骤1中处理得到的embeddings嵌入量根据单词,短语,句子级别分别输入到网络中,即输入到Encoder部分的LSTM单元,中,得到隐藏单元(h1,h2,h3,…,ht),Decoder部分中的隐藏单元设为st-1,每个输入位置j与当前输出位置的关联性可以表示为:
ejt=a(st-1,hj)
向量化的表示成:
Figure FDA0002947422120000021
其中α是相关性运算符,通常情况下,运算符会取加权点乘,
Figure FDA0002947422120000022
Figure FDA0002947422120000023
进行softmax运算,就得到了Attention的归一化分布:
Figure FDA0002947422120000024
对αt进行加权求和得到相应的文本向量:
Figure FDA0002947422120000025
可以计算得到Decoder的下一个隐藏单元,st=f(st-1,yt-1,ct),以及该位置的输出:
Figure FDA0002947422120000026
步骤6.、选择随机梯度下降算法作为优化器,结合交叉熵损失函数更新网络参数,按指数衰减调整学习率,学习率的初始值设置为1e-4;
步骤7、将训练好的模型中提取出来的网络关键文本输入到自定义的模板中,形成网页关键性信息摘要的提取。
CN202010344614.7A 2020-04-27 2020-04-27 一种新的工程机械租赁场景网页文本关键内容提取方法 Active CN111538829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010344614.7A CN111538829B (zh) 2020-04-27 2020-04-27 一种新的工程机械租赁场景网页文本关键内容提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010344614.7A CN111538829B (zh) 2020-04-27 2020-04-27 一种新的工程机械租赁场景网页文本关键内容提取方法

Publications (2)

Publication Number Publication Date
CN111538829A CN111538829A (zh) 2020-08-14
CN111538829B true CN111538829B (zh) 2021-04-20

Family

ID=71975845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010344614.7A Active CN111538829B (zh) 2020-04-27 2020-04-27 一种新的工程机械租赁场景网页文本关键内容提取方法

Country Status (1)

Country Link
CN (1) CN111538829B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018207723A1 (ja) * 2017-05-08 2018-11-15 国立研究開発法人情報通信研究機構 要約生成装置、要約生成方法及びコンピュータプログラム
CN110472238A (zh) * 2019-07-25 2019-11-19 昆明理工大学 基于层级交互注意力的文本摘要方法
CN110489541A (zh) * 2019-07-26 2019-11-22 昆明理工大学 基于案件要素及BiGRU的涉案舆情新闻文本摘要方法
CN111026869A (zh) * 2019-12-10 2020-04-17 山东大学 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018207723A1 (ja) * 2017-05-08 2018-11-15 国立研究開発法人情報通信研究機構 要約生成装置、要約生成方法及びコンピュータプログラム
CN110472238A (zh) * 2019-07-25 2019-11-19 昆明理工大学 基于层级交互注意力的文本摘要方法
CN110489541A (zh) * 2019-07-26 2019-11-22 昆明理工大学 基于案件要素及BiGRU的涉案舆情新闻文本摘要方法
CN111026869A (zh) * 2019-12-10 2020-04-17 山东大学 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Yufeng Diao等.CRHASum: extractive text summarization with contextualizedrepresentation.《Neural Computing and Applications》.2020, *

Also Published As

Publication number Publication date
CN111538829A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN112579778B (zh) 基于多层次的特征注意力的方面级情感分类方法
CN110162636A (zh) 基于d-lstm的文本情绪原因识别方法
CN111651974B (zh) 一种隐式篇章关系分析方法和系统
CN112836046A (zh) 一种四险一金领域政策法规文本实体识别方法
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN110046356B (zh) 标签嵌入的微博文本情绪多标签分类方法
CN116151256A (zh) 一种基于多任务和提示学习的小样本命名实体识别方法
CN113343125B (zh) 一种面向学术精准推荐的异质科研信息集成方法及系统
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN114169312A (zh) 一种针对司法裁判文书的两阶段混合式自动摘要方法
CN111897954A (zh) 一种用户评论方面挖掘系统、方法、及存储介质
CN113486645A (zh) 一种基于深度学习的文本相似度检测方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN110750646A (zh) 一种旅店评论文本的属性描述提取方法
CN110222338A (zh) 一种机构名实体识别方法
CN113723103A (zh) 融合多源知识的中文医学命名实体和词性联合学习方法
CN114648031A (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN113312918B (zh) 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN113312498B (zh) 用无向图嵌入知识图谱的文本信息抽取方法
CN115481313A (zh) 一种基于文本语义挖掘的新闻推荐方法
CN112749566B (zh) 一种面向英文写作辅助的语义匹配方法及装置
CN111538829B (zh) 一种新的工程机械租赁场景网页文本关键内容提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant