CN111061935B - 一种基于自注意力机制的科技写作推荐方法 - Google Patents
一种基于自注意力机制的科技写作推荐方法 Download PDFInfo
- Publication number
- CN111061935B CN111061935B CN201911292337.3A CN201911292337A CN111061935B CN 111061935 B CN111061935 B CN 111061935B CN 201911292337 A CN201911292337 A CN 201911292337A CN 111061935 B CN111061935 B CN 111061935B
- Authority
- CN
- China
- Prior art keywords
- layer
- context
- self
- paragraph
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000013598 vector Substances 0.000 claims description 69
- 238000012360 testing method Methods 0.000 claims description 24
- 238000012935 Averaging Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 8
- 238000013480 data collection Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000009191 jumping Effects 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于自注意力机制的科技写作推荐方法,属于计算机自然语言处理以及社交媒体技术领域。所述科技写作推荐方法,首先利用已有的段落写作内容,挖掘作者写作主题与意图,并以此初步筛选候选段落;其次设计了基于自注意力机制的深度科技写作推荐模型,用于获取上下文语境的深度语义表示,以对候选段落进行排序;通过将预测排序结果与真实排序结果进行比较,获取召回率和归一化折损累积增益,以评价写作推荐方法的好坏。所述方法与传统的基于内容的引文推荐方法相比,在一个真实的科技论文写作推荐中进行推荐预测,取得最高的召回率和归一化折损累积增益。
Description
技术领域
本发明涉及一种基于自注意力机制的科技写作推荐方法,属于计算机自然语言处理技术中的社交媒体技术领域。
背景技术
科技论文是科技研究工作者进行技术和信息交流的重要方式之一,如何写好科技论文是科技研究工作者的必备技能。然而,非母语研究人员或低年级博士生由于欠缺英语写作思维,其论文常常逻辑不严谨、上下文不连贯等。因此,论文写作已成为科技研究的重要挑战,合适的科技论文写作推荐系统是必要的。
随着科技技术的快速发展和科研人员的猛速增加,论文推荐系统引起了学术界和工业界的广泛关注。传统的论文推荐系统通常推荐整篇论文,因此,科研人员为了获取与所撰写内容相关信息,必须花费大量时间和精力阅读所推荐的论文。
为了给科研人员提供更为精准衔接的写作辅助信息,以减少其在写作上所花费的时间,本专利拟提出细粒度的科技论文写作推荐方法,旨在充分挖掘论文内部逻辑结构和上下文深度语义信息,结合自注意力机制显式表示语义方法将结构信息、语义信息融入到推荐过程,进一步提高科技论文写作推荐的召回率和归一化折损累积增益。
发明内容
本发明旨在为非母语科研工作者和低年级博士生论文写作提供内容精准匹配,结构合理衔接的参考辅助段落,帮助其克服论文写作中的逻辑不严谨、上下文不连贯等缺陷,提出了一种基于自注意力机制的科技写作推荐方法,从arxiv中爬取数据,作为实验数据集,分别进行数据收集阶段、候选集筛选、训练阶段、真实推荐列表获取和测试阶段的处理。
本发明的核心思想为:首先利用已有的段落写作内容,挖掘作者写作主题与意图,并以此初步筛选候选段落;其次设计了基于自注意力机制的深度科技写作推荐模型,用于获取上下文语境的深度语义表示,以对候选段落进行排序;通过将预测排序结果与真实排序结果进行比较,获取召回率和归一化折损累积增益,以评价写作推荐方法的好坏;
其中,召回率即Recall,归一化折损累积增益即Normalized DiscountedCumulative Gain,简称NDCG;
为实现上述目的,本发明所采用的技术方案如下:
一种基于自注意力机制的科技写作推荐方法,包括数据收集阶段、候选集筛选、训练阶段、真实推荐列表获取和测试阶段的处理,具体为:
其中,数据收集阶段的处理,包括如下子步骤:
步骤1、爬取计算机领域的M个类别共论文N篇;
步骤2:对步骤1爬取的每一篇论文进行预处理,具体包括如下子步骤:
步骤2.1:采用特殊字符e对每一篇论文进行分段,得到分段后的论文;
步骤2.2:利用分词工具对步骤2.1输出的分段后的论文进行分词,得到分词后的论文;
步骤2.3:对步骤2.2输出的分词后的论文依据切分比例切分段落,构建context-paragraph对,所有的context-paragraph对构成由二元组组成的数据集D;
其中,切分比例,记为r;切分比例r部分作为当前上下文context,与剩余1-r的段落内容paragraph构成context-paragraph对;
步骤2.4:划分步骤2.3中的数据集D,具体将数据集D按照比例p划分为训练集Ds、验证集Dv和测试集Dt,其中,Ds={(ci,pi)};
步骤3、候选集筛选的处理,即筛选候选段落集,记为R,具体包括如下子步骤:
步骤3.1:分别对步骤2.4输出的验证集Dv和测试集Dt中context-paragraph对的context和paragraph进行编码,具体为:
步骤3.1A针对每个context-paragraph对中的context利用TF-IDF向量进行编码,得到context的语义表示,记为fj;
步骤3.1B利用TF-IDF向量对paragraph进行编码,得到段落向量,记为wb;
步骤3.2:利用比较每个fj与所有段落向量wb的夹角,获取top-k的段落,记为候选集列表R;
训练阶段的处理,包括如下步骤:
步骤4:初始化WAWR模型中的所有参数θ;
其中,SAWR模型中的所有参数θ={c,p,θs};
其中,c为SAWR中context的所有词汇对应的向量表示,p为SAWR中paragraph的所有词汇对应的向量表示,θs为SAWR中自注意力层中的所有参数;
SAWR为深度推荐模型,由输入层、表示层、自注意力层和输出层构成;
输入层,记为Input layer、表示层,记为Embedding layer、自注意力层,记为Self-attention,输出层,记为Output layer;
步骤5:对步骤2.4所述的训练集Ds按大小划分为若干个mini-batch,设置一个变量k并初始化为1,并初始化k的最大值,记为kmax;
步骤6,对第k个mini-batch进行训练;
步骤6具体包括如下子步骤:
其中,输入层的操作为将context和paragraph组成one hot向量;
表示层:抽取出context和paragraph的实值向量,并进行向量拼接,context的拼接向量构成context ci,paragraph的拼接向量构成paragraph pi;
自注意力层:利用该层获取context的深层语义,记为ri=f(ci,θs),其中自注意力层的函数记为f,自注意力层中的参数记为θs;
步骤6.2:按照损失函数(1)计算损失L:
步骤6.3:基于梯度下降方法,反向更新模型参数θ;
步骤7:判断k是否等于kmax,若等于kmax,保存SAWR模型,跳至步骤8,若不等,则k=k+1,跳至步骤6;
步骤8、真实推荐列表获取的处理,包括如下步骤:
步骤8.1:分别对测试集Dt的context-paragraph对中的context和paragraph进行编码;
针对测试集中的每个context-paragraph对,利用GloVe向量对context进行编码,得到context的语义表示,记为vj;同样利用GloVe向量对paragraph进行编码,得到eb;
步骤8.2:利用比较每个vj与所有段落向量eb的夹角,对步骤3.2输出的候选集列表R进行排序,得到真实推荐列表;
其中,真实推荐列表,记为RT;
步骤9、测试阶段的处理,具体包括如下步骤:
其中,输入层的操作为将测试集中的第j个context和paragraph组成one hot向量;
表示层:抽取出context和paragraph的实值向量,并进行向量拼接,context的拼接向量构成context cj,paragraph的拼接向量构成paragraph pj;
自注意力层:利用该层获取context的深层语义,记为rj=f(cj,θs),其中自注意力层的函数记为f,自注意力层中的参数记为θs;
步骤9.3:计算评价指标召回率和归一化折损累积增益的值;
将步骤9.2输出的预测推荐列表RP和步骤8.2输出的真实推荐列表RT进行比较并取平均值,作为表示推荐方法优劣的评价指标。
有益效果
本发明所述的一种基于自注意力机制的科技写作推荐方法,与现有技术相比,具有如下有益效果:
1.所述方法首次将自注意力机制应用于科技写作推荐任务当中,可以同时考虑论文中的逻辑结构和上下文信息;
2.所述方法基于内容的引文推荐是与之比较相似的任务,与传统的基于内容的引文推荐方法相比,在一个真实的科技写作推荐中进行推荐预测,取得最高的召回率和归一化折损累积增益。
附图说明
图1为本发明所述的一种基于自注意力机制的科技写作推荐方法流程图;
图2为本发明所述的一种基于自注意力机制的科技写作推荐方法中步骤4的SAWR模型示意图。
具体实施方式
下面结合附图和实施例,对本发明所述的一种基于自注意力机制的科技写作推荐方法作进一步详细说明。
实施例1
本实施例阐述了本发明在收集数据集时采用的流程、涉及的深度科技写作推荐模型的结构和详细参数以及实验结果。
本发明为一种基于自注意力机制的科技写作推荐方法,该发明可适用于arxiv、DBLP、IEEE、ACM、Springer等科技论文网站。具体实施时,所述方法从科技论文网站,例如arxiv中爬取数据,作为实验数据集,分别按照图1的数据收集阶段、候选集筛选、训练阶段、真实推荐列表获取和测试阶段的顺序,执行以下过程:
数据收集阶段,首先,以科技论文网站arxiv做为实践对象,收集数据的过程如下所示:
步骤A:从arxiv中计算机领域的M=23个类别中,共爬取论文N=46628篇;
步骤B:对步骤1输出的每一篇论文t进行预处理,具体包括如下子步骤:
步骤B.1:采用特殊字符e=“\n\n”对每一篇论文t进行分段,得到分段后的论文;
步骤B.2:利用分词工具NLTK对步骤B.1输出的分段后的论文进行分词,得到分词后的论文;
步骤B.3:对步骤B.2输出的分词后的论文切分段落,构建context-paragraph对,具体为:对步骤B.2中输出的分词后的论文中的每个段落进行切分,设置切分比例r=0.25,具体实施时,r的范围为{0.25,0.5,0.75}。
其中,百分比为r的部分作为当前上下文context,与剩余的段落内容paragraph构成context-paragraph对,构成由二元组组成的数据集D;
其中,上下文,记为context;段落内容,记为paragraph;
步骤B.4:数据集划分,将数据集D按照比例p=9:1:1划分为训练集Ds、验证集Dv和测试集Dt,其中训练集Ds={(ci,pi)};
以训练集为例,某个context,记为ci,对应的段落内容,记为pi;
表1数据集样例
至此,从步骤A到步骤B,完成了数据收集阶段;
候选集筛选处理,包括以下步骤:
步骤C:候选集筛选处理,即筛选候选段落集,记为R,具体包括如下子步骤:
步骤C.1:分别对步骤B.4输出的验证集Dv和测试集Dt的context-paragraph对中的context和paragraph进行编码;
针对每个context-paragraph对,利用TF-IDF向量对context进行编码,得到conetxt的语义表示,记为fj;同样地,利用TF-IDF向量对段落b进行编码,得到wb;
步骤C.2:利用比较每个fj与所有段落向量wb的夹角,获取top-k的段落,记为候选集列表R,其中k=500;
训练阶段的处理,包括如下步骤:
步骤D:初始化SAWR模型中的所有参数θ;
其中,SAWR模型中的所有参数θ={c,p,θs};
其中,c为SAWR中context的所有词汇对应的向量表示,p为SAWR中context的所有词汇对应的向量表示,θs为SAWR中自注意力层中的所有参数。
SAWR为图2所示的深度推荐模型,由输入层、表示层、自注意力层和输出层构成;
输入层,记为Input layer、表示层,记为Embedding layer、自注意力层,记为Self-attention和输出层,记为Output layer;
步骤E:对步骤B.4所述的训练集Ds={(ci,pi)},按大小划分为若干个mini-batch,设置一个变量k并初始化为1,并初始化k的最大值,记为kmax;
步骤F,对第k个mini-batch进行训练;
步骤F具体包括如下子步骤:
其中,输入层的操作为将context和paragraph组成one hot向量;
表示层:抽取出context和paragraph的实值向量,并进行向量拼接,context的拼接向量构成context ci,paragraph的拼接向量构成paragraph pi,如图2所示,ci={c1i,c2i,c3i,c4i,c5i},pi={p1i,p2i,p3i,p4i};
自注意力层:利用该层获取context的深层语义,记为ri=f(ci,θs),其中自注意力层的函数记为f,自注意力层中的参数记为θs;
步骤F.2:按照损失函数(1)计算损失L:
步骤F.3:基于梯度下降方法,反向更新模型参数θ;
步骤G:判断k是否等于kmax,若等于kmax,保存SAWR_model,跳至步骤H,若不等,则k=k+1,跳至步骤F;
若k等于kmax,每次对训练集Ds的全部遍历为一个epoch,总共需要训练sh=300个epoch;在训练中,每经过h=10个epoch就保存一次模型,并将验证集在该模型上进行验证,取ndcg值最高的模型作为最终训练好的神经网络,记作SAWR_model,验证阶段的处理和测试阶段相同;
步骤H、真实推荐列表获取的操作,包括如下步骤:
步骤H.1:分别对测试集Dt的context-paragraph对中的context和paragraph进行编码;
针对测试集中的每个context-paragraph对,利用GloVe向量对的context进行编码,得到context的语义表示,记为vj;同样利用GloVe向量对paragraph进行编码,得到eb;
步骤H.2:利用比较每个vj与所有段落向量eb的夹角,对步骤3.2输出的候选集列表R进行排序,得到真实推荐列表;
其中,真实推荐列表,记为RT;
步骤I、测试阶段的处理,具体包括如下步骤:
其中,输入层的操作为将测试集中的第j个context和paragraph组成one hot向量;
表示层:抽取出context和paragraph的实值向量,并进行向量拼接,context的拼接向量构成context cj,paragraph的拼接向量构成paragraph pj;
自注意力层:利用该层获取context的深层语义,记为rj=f(cj,θs),其中自注意力层的函数记为f,自注意力层中的参数记为θs;
步骤I.3:计算评价指标召回率和归一化折损累积增益的值;
将步骤I.2输出的预测推荐列表RP和步骤H.2输出的真实推荐列表RT进行比较并取平均值,作为表示推荐方法优劣的评价指标。
在收集的真实数据集arxiv上的实验结果如下:
将本发明方法与基于内容的推荐方法进行比较,在数据集上的结果如表2所示:
表2使用本发明所述方法与Citeomatic方法在arxiv上的recall和NDCG值对比
表2的实验结果表明,本发明所采用的方法在Recall和NDCG两种操作均比传统方法有显著的提高。主要原因是本发明方法采用的基于自注意力机制的科技写作推荐算法充分挖掘论文内部逻辑结构和上下文深度语义信息,结合自注意力机制显式表示语义方法将结构信息、语义信息融入到推荐过程,提升了Recall和NDCG值。
Claims (6)
1.一种基于自注意力机制的科技写作推荐方法,其特征在于:包括数据收集阶段、候选集筛选、训练阶段、真实推荐列表获取和测试阶段的处理,具体为:
其中,数据收集阶段的处理,包括如下子步骤:
步骤1、爬取M个类别共论文N篇;
步骤2:对步骤1爬取的每一篇论文进行预处理,具体包括如下子步骤:
步骤2.1:采用特殊字符e对每一篇论文进行分段,得到分段后的论文;
步骤2.2:利用分词工具对步骤2.1输出的分段后的论文进行分词,得到分词后的论文;
步骤2.3:对步骤2.2输出的分词后的论文依据切分比例切分段落,构建context-paragraph对,所有的context-paragraph对构成由二元组组成的数据集D;
步骤2.4:划分步骤2.3中的数据集D,具体将数据集D按照比例p划分为训练集Ds、验证集Dv和测试集Dt;
步骤3、候选集筛选的处理,即筛选候选段落集,记为R,具体包括如下子步骤:
步骤3.1:分别对步骤2.4输出的验证集Dv和测试集Dt中context-paragraph对的context和paragraph进行编码,具体为:
步骤3.1A针对每个context-paragraph对中的context利用TF-IDF向量进行编码,得到context的语义表示,记为fj;
步骤3.1B利用TF-IDF向量对paragraph进行编码,得到段落向量,记为wb;
步骤3.2:利用比较每个fj与所有段落向量wb的夹角,获取top-k的段落,记为候选集列表R;
训练阶段的处理,包括如下步骤:
步骤4:初始化SAWR模型中的所有参数θ;
其中,SAWR模型中的所有参数θ={c,p,θs};
其中,c为SAWR中context的所有词汇对应的向量表示,p为SAWR中paragraph的所有词汇对应的向量表示,θs为SAWR中自注意力层中的所有参数;
步骤5:对步骤2.4所述的训练集Ds按大小划分为若干个mini-batch,设置一个变量k并初始化为1,并初始化k的最大值,记为kmax;
步骤6,对第k个mini-batch进行训练;
步骤6具体包括如下子步骤:
步骤6.2:按照损失函数(1)计算损失L:
步骤6.3:基于梯度下降方法,反向更新模型参数θ;
步骤7:判断k是否等于kmax,若等于kmax,保存SAWR模型,跳至步骤8,若不等,则k=k+1,跳至步骤6;
步骤8、真实推荐列表获取的处理,包括如下步骤:
步骤8.1:分别对测试集Dt的context-paragraph对中的context和paragraph进行编码;
针对测试集中的每个context-paragraph对,利用GloVe向量对context进行编码,得到context的语义表示,记为vj;同样利用GloVe向量对paragraph进行编码,得到eb;
步骤8.2:利用比较每个vj与所有段落向量eb的夹角,对步骤3.2输出的候选集列表R进行排序,得到真实推荐列表;
其中,真实推荐列表,记为RT;
步骤9、测试阶段的处理,具体包括如下步骤:
其中,输入层的操作为将测试集中的第j个context和paragraph组成one hot向量;
表示层:抽取出context和paragraph的实值向量,并进行向量拼接,context的拼接向量构成context cj,paragraph的拼接向量构成paragraph pj;
自注意力层:利用该层获取context的深层语义,记为rj=f(cj,θs),其中自注意力层的函数记为f,自注意力层中的参数记为θs;
步骤9.3:计算评价指标召回率和归一化折损累积增益的值;
将步骤9.2输出的预测推荐列表RP和步骤8.2输出的真实推荐列表RT进行比较并取平均值,作为表示推荐方法优劣的评价指标。
2.根据权利要求1所述的一种基于自注意力机制的科技写作推荐方法,其特征在于:步骤2.3中,切分比例,记为r;切分比例r部分作为当前上下文context,与剩余1-r的段落内容paragraph构成context-paragraph对。
3.根据权利要求1所述的一种基于自注意力机制的科技写作推荐方法,其特征在于:步骤2.4中,Ds={(ci,pi)}。
4.根据权利要求1所述的一种基于自注意力机制的科技写作推荐方法,其特征在于:步骤4中,SAWR为深度推荐模型,由输入层、表示层、自注意力层和输出层构成;
输入层,记为Input layer、表示层,记为Embedding layer、自注意力层,记为Self-attention、 输出层,记为Output layer。
5.根据权利要求1所述的一种基于自注意力机制的科技写作推荐方法,其特征在于:步骤6.1中,输入层的操作为将context和paragraph组成one hot向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911292337.3A CN111061935B (zh) | 2019-12-16 | 2019-12-16 | 一种基于自注意力机制的科技写作推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911292337.3A CN111061935B (zh) | 2019-12-16 | 2019-12-16 | 一种基于自注意力机制的科技写作推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111061935A CN111061935A (zh) | 2020-04-24 |
CN111061935B true CN111061935B (zh) | 2022-04-12 |
Family
ID=70301977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911292337.3A Active CN111061935B (zh) | 2019-12-16 | 2019-12-16 | 一种基于自注意力机制的科技写作推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111061935B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784013B (zh) * | 2021-01-13 | 2022-10-04 | 北京理工大学 | 一种基于上下文语义的多粒度文本推荐方法 |
CN114519097B (zh) * | 2022-04-21 | 2022-07-19 | 宁波大学 | 一种异质信息网络增强的学术论文推荐方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717423A (zh) * | 2018-04-24 | 2018-10-30 | 南京航空航天大学 | 一种基于深度语义挖掘的代码段推荐方法 |
CN108763198A (zh) * | 2018-05-11 | 2018-11-06 | 北京理工大学 | 一种生成式的学术论文中相关工作的自动产生方法 |
CN109145190A (zh) * | 2018-08-27 | 2019-01-04 | 安徽大学 | 一种基于神经机器翻译技术的局部引文推荐方法及系统 |
CN109947912A (zh) * | 2019-01-25 | 2019-06-28 | 四川大学 | 一种基于段落内部推理和联合问题答案匹配的模型方法 |
WO2019226474A1 (en) * | 2018-05-22 | 2019-11-28 | Salesforce.Com, Inc. | Improving abstraction of text summarizaton |
-
2019
- 2019-12-16 CN CN201911292337.3A patent/CN111061935B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717423A (zh) * | 2018-04-24 | 2018-10-30 | 南京航空航天大学 | 一种基于深度语义挖掘的代码段推荐方法 |
CN108763198A (zh) * | 2018-05-11 | 2018-11-06 | 北京理工大学 | 一种生成式的学术论文中相关工作的自动产生方法 |
WO2019226474A1 (en) * | 2018-05-22 | 2019-11-28 | Salesforce.Com, Inc. | Improving abstraction of text summarizaton |
CN109145190A (zh) * | 2018-08-27 | 2019-01-04 | 安徽大学 | 一种基于神经机器翻译技术的局部引文推荐方法及系统 |
CN109947912A (zh) * | 2019-01-25 | 2019-06-28 | 四川大学 | 一种基于段落内部推理和联合问题答案匹配的模型方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111061935A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112214995B (zh) | 用于同义词预测的分层多任务术语嵌入学习 | |
CN110717047B (zh) | 一种基于图卷积神经网络的Web服务分类方法 | |
CN112214610B (zh) | 一种基于跨度和知识增强的实体关系联合抽取方法 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN103886067B (zh) | 使用标签隐含主题进行图书推荐的方法 | |
CN113254599A (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN112231472B (zh) | 融入领域术语词典的司法舆情敏感信息识别方法 | |
CN107357837A (zh) | 基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法 | |
Yang et al. | Automatic academic paper rating based on modularized hierarchical convolutional neural network | |
CN111061935B (zh) | 一种基于自注意力机制的科技写作推荐方法 | |
CN116383399A (zh) | 一种事件舆情风险预测方法及系统 | |
CN113011161A (zh) | 一种基于深度学习与模式匹配的人案物关联关系抽取方法 | |
CN117574858A (zh) | 一种基于大语言模型的类案检索报告自动生成方法 | |
US12118816B2 (en) | Continuous learning for document processing and analysis | |
Li | Construction of Internet of Things English terms model and analysis of language features via deep learning | |
Ghosh | Sentiment analysis of IMDb movie reviews: A comparative study on performance of hyperparameter-tuned classification algorithms | |
Zhong et al. | Dispute Classification and Analysis: Deep Learning–Based Text Mining for Construction Contract Management | |
CN111666748B (zh) | 一种自动化分类器的构造方法以及识别决策的方法 | |
Kuhn et al. | Mining images in biomedical publications: Detection and analysis of gel diagrams | |
Priyanka et al. | DeepSkillNER: an automatic screening and ranking of resumes using hybrid deep learning and enhanced spectral clustering approach | |
CN114282537B (zh) | 一种面向社交文本的级联直线型实体关系抽取方法 | |
CN115017404A (zh) | 基于压缩空间句子选择的目标新闻话题摘要方法 | |
CN113378571A (zh) | 一种文本数据的实体数据关系抽取方法 | |
Dai et al. | An Alignment and Matching Network with Hierarchical Visual Features for Multimodal Named Entity and Relation Extraction | |
Zheng et al. | Fine-grained image-text retrieval via complementary feature learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |