CN112464664B - 一种多模型融合中文词汇复述抽取方法 - Google Patents
一种多模型融合中文词汇复述抽取方法 Download PDFInfo
- Publication number
- CN112464664B CN112464664B CN202011461021.5A CN202011461021A CN112464664B CN 112464664 B CN112464664 B CN 112464664B CN 202011461021 A CN202011461021 A CN 202011461021A CN 112464664 B CN112464664 B CN 112464664B
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- model
- chinese
- repeated
- fnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 20
- 230000004927 fusion Effects 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000007246 mechanism Effects 0.000 claims abstract description 10
- 238000005070 sampling Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000009467 reduction Effects 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 abstract description 25
- 238000007781 pre-processing Methods 0.000 abstract description 3
- 238000003062 neural network model Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 9
- 150000001875 compounds Chemical class 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种多模型融合中文词汇复述抽取方法,该方法首先通过文本预处理将原始语料集整理成中文词表集,然后基于“枢轴法”获取对应的候选中文复述词表,并且使用Word2vec训练得到每个词汇的词向量,最后在引入负采样机制的基础上分别利用余弦相似度模型、前馈神经网络模型和卷积神经网络模型计算两个词向量的模型得分,并进行一定参数的加权求和,最终获得候选中文复述词表中每个复述词汇的最终得分,如果最终得分大于指定的阈值,则判断这组复述对是合理的,从而抽取最佳的复述词汇集合。
Description
技术领域
本发明涉及复述词汇抽取技术领域,具体涉及一种多模型融合中文词汇复述抽取方法。
背景技术
复述是指以不同的表达形式展现相同语义的一种方法,可用于将用户输入的词汇或句子改写成多个语义相同但表达形式不同的词句。据此可以用来生成同义语料,并扩大语料库规模。复述相关研究主要包括复述词汇的抽取和复述句的生成。
其中,关于复述词汇的抽取,主要方法包括基于类义词典的复述词汇抽取、基于单语平行语料的复述词汇抽取以及基于“枢轴法”的复述词汇抽取,分述如下:
(1)基于类义词典的复述词汇抽取方法主要是根据语义检索类义词典,找到语义相近的单词,从而抽取一组复述词汇。其中类义词典是指利用语义将词语分类汇总的词典。由于类义词典需要大量的人工标注,限制了词典的大小,因此该方法会在一定程度上限制复述词汇的规模。
(2)基于单语平行语料的复述词汇抽取方法是通过训练基于上下文信息的复述分类模型,来识别候选复述词汇组是否合理,从而抽取复述词汇。其中,单语平行语料是指单一语种下不同形式的翻译语料集。该方法同样受限于语料资源的规模,同时,简单地利用上下文信息进行筛选过滤导致误判率较高。
(3)基于“枢轴法”的复述词汇抽取方法,目前主要是通过“枢轴法”获得一组同义词汇,然后通过模型进行筛选判别,抽取最合适的同义词作为原词的最佳复述词汇。“枢轴法”是指当两个词汇的外文翻译集合存在交集时,认定该组词汇互为复述词汇。目前该方法主要使用单一模型对同义词汇进行筛选判别,不能有效过滤掉错误的复述词汇,导致获取的复述词汇质量较差。
发明内容
针对上述技术问题,本发明提供了一种多模型融合中文词汇复述抽取方法,该方法首先通过文本预处理将原始语料集整理成可使用的中文词表集,然后通过“枢轴法”获取其对应的候选中文复述词表,并且使用Word2vec训练得到每个词的词向量,最后引入负采样机制,随机生成相同数量级的无关词词对参与模型的训练,分别利用余弦相似度模型(COS模型)、前馈神经网络模型(FNN模型)和卷积神经网络模型(CNN模型)计算两个词向量的模型得分,并进行一定参数的加权求和,最终获得候选中文复述词表中每个复述词汇的最终得分,根据得分判断复述词汇抽取的效果,得到最佳复述词汇集合。
一种多模型融合中文词汇复述抽取方法,包括步骤:
(A)选择由中文词汇组成的中文词表集,采用“枢轴法”获取其对应的候选中文复述词表;引入负采样机制,随机生成和所述候选中文复述词表中复述词汇同等数量级的无关词汇;
(B)将所述中文词汇、复述词汇和无关词汇分别用Word2vec训练得到各自的词向量;将所得的三类词向量作为训练数据,采用基于pytorch框架的COS模型、FNN模型和CNN模型分别进行正负样本模型训练,得到COS模型分类器、FNN模型分类器以及CNN模型分类器,用于计算互为复述的两个词汇之间的模型得分;
(C)分别利用训练好的COS模型分类器、FNN模型分类器和CNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的COS模型得分、FNN模型得分和CNN模型得分,将所得COS模型得分、FNN模型得分和CNN模型得分按照一定的权重参数进行加权求和,作为该词汇对中的复述词汇的最终得分;
(D)按步骤(C)方法遍历一个中文词汇对应的所有复述词汇,选取所述最终得分不低于设定阈值的复述词汇作为该中文词汇对应的最佳复述词汇集合。
作为优选,步骤(A)中,通过抽取原始语料中的文本内容,对其进行分句处理,并且根据长度进行过滤,然后对每个分句进行分词处理并获取词表集,最后基于词频和汉字编码筛选过滤词表,得到所述由中文词汇组成的中文词表集。
步骤(B)中,以复述词汇为正样本,无关词汇为负样本;因为候选复述词表中的词汇和中文词表中的词汇是基于枢轴法对应的,所以为了更好的拟合词语之间的复述关系,选取的时候是根据中文词汇加复述词汇加随机抽取一个无关词汇进行训练;就是一个中文词汇加对应的复述词汇和无关词汇作为模型训练的数据,三个词向量作为训练数据。
作为优选,步骤(C)中,按照公式(1.1)利用训练好的COS模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的COS模型得分:
其中,Fn和Fm分别表示所述词汇对中的两个词汇n和m所对应的词向量,Scos为Fn和Fm的余弦相似度,表示两个词汇n和m的语义相似度,即COS模型得分。
作为优选,步骤(C)中,所述利用训练好的FNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的FNN模型得分的具体步骤包括:对FNN模型进行降维操作,利用tanh函数进行连续三层的线性层降维,最后获得一个一维向量,计算过程如下式(1.2)所示:
其中,X=[W,Ci,F],W代表所述词汇对中的中文词汇的词向量,Ci代表所述词汇对中的复述词汇的词向量,F代表所述词汇对的特征向量,向量X由W、Ci和F横向拼接得到,l1~l3分别代表对应线性层的输出,W1~W3分别代表对应线性层的权重,b1~b4代表偏差项,最后的FNN模型得分Sfnn通过Sigmoid函数得到,是一个(0,1)的实数。
本发明中所述特征向量是本领域公知的概念,代表词向量的一个特征的向量,即代表某个词汇的特征,该特征以向量表示。上述特征向量F为所述词汇对中两个词汇的特征向量组成的一个特征向量。
作为优选,步骤(C)中,所述利用训练好的CNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的CNN模型得分的具体步骤包括:将所述词汇对中的中文词汇的词向量W和复述词汇的词向量Ci通过竖向维度进行拼接,即CNN模型通过计算得到平均池化层和卷积层的结果,然后将上述结果与所述词汇对的特征向量F进行横向拼接,即Y,使用tanh函数进行连续两层的线性层降维,最后计算Sigmoid函数,得到最终的CNN模型得分Scnn,是一个(0,1)的实数,具体计算过程如下式(1.3)所示:
其中,[W:Ci]表示向量拼接conv2表示卷积操作,avgpooling表示平均池化操作,w1~w3分别代表对应线性层的权重,B1~B3代表偏差项,L1、L2分别代表对应线性层的输出。
作为优选,所述最终得分S的计算公式如下式(1.4)、(1.5)所示:
S=αSfnn+βScnn+γScos (1.4),
α+β+γ=1 (1.5),
其中,α、β以及γ分别代表Sfnn、Scnn以及Scos的权重参数。
本发明与现有技术相比,主要优点包括:
(1)通过融合多模型的方法在效果上要明显优于单一模型,并且能够很好地进行特征的学习,具有更强的鲁棒性。
(2)引入负采样机制能够让模型更好的拟合两个词之间的复述关系,然后通过多模型机制能够更好的对复述词汇进行筛选过滤。
附图说明
图1为实施例的多模型融合中文词汇复述抽取方法示意图;
图2为实施例的多模型融合中文词汇复述抽取方法中涉及到的文本预处理步骤示意图;
图3为实施例的多模型融合中文词汇复述抽取方法中涉及到的FNN模型示意图;
图4为实施例的多模型融合中文词汇复述抽取方法中涉及到的CNN模型示意图。
具体实施方式
下面结合附图及具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的操作方法,通常按照常规条件,或按照制造厂商所建议的条件。
本实施例的多模型融合中文词汇复述抽取方法如图1所示,具体地,包括步骤:
(A)首先抽取原始语料集中的文本内容,其次对文本进行分句处理,根据长度进行句子过滤,将较长较短的句子剔除,将句子长度限定在[3,100]个汉字的区间,然后使用哈工大LTP平台进行分词处理并获取词表集,最后基于词频和汉字编码筛选过滤词表,采用基本汉字编码进行文本预处理,该编码是Unicode编码,包含一共20976个基本汉字,去除词频小于等于3和不包含基本汉字的词,获得最终的中文词表集,具体步骤如图2所示。紧接着,通过调用有道词典相关接口,对中文词表集采用“枢轴法”获取对应的大概61万条候选中文复述词表,部分复述结果如下表1所示。其中,本实施例采用的“枢轴法”认为两个词是否为复述词汇取决于它们的外文翻译集合是否有交集。
表1
引入负采样机制,随机生成和所述候选中文复述词表中复述词汇同等数量的无关词汇,这是考虑到直接使用这些数据会使复述词汇对的数据分布拟合较差,因此通过随机生成和候选中文复述词表中数量相同的无关词汇参与模型训练,可以让模型更好的拟合两个词之间的复述关系。
(B)将所述中文词汇、复述词汇和无关词汇分别用Word2vec训练得到各自的词向量;将所得的三类词向量作为训练数据,采用基于pytorch框架的COS模型、FNN模型和CNN模型分别进行正负样本模型训练,得到COS模型分类器、FNN模型分类器以及CNN模型分类器,用于计算互为复述的两个词汇之间的模型得分;
以复述词汇词向量为正样本,无关词汇词向量为负样本;因为候选复述词表中的词汇和中文词表中的词汇是基于枢轴法对应的,所以为了更好的拟合词语之间的复述关系,选取的时候是根据中文词汇加复述词汇加随机抽取一个无关词汇进行训练;就是一个中文词汇加对应的复述词汇和无关词汇作为模型训练的数据,三个词向量作为训练数据。
(C)分别利用训练好的COS模型分类器、FNN模型分类器和CNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的COS模型得分、FNN模型得分和CNN模型得分,将所得COS模型得分、FNN模型得分和CNN模型得分按照一定的权重参数进行加权求和,作为该词汇对中的复述词汇的最终得分。
按照公式(1.1)利用训练好的COS模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的COS模型得分:
其中,Fn和Fm分别表示所述词汇对中的两个词汇n和m所对应的词向量,Scos为Fn和Fm的余弦相似度,表示两个词汇n和m的语义相似度,即COS模型得分。
FNN模型结构如图3所示,所述利用训练好的FNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的FNN模型得分的具体步骤包括:对FNN模型进行降维操作,利用tanh函数进行连续三层的线性层降维,最后获得一个一维向量,计算过程如下式(1.2)所示:
其中,X=[W,Ci,F],W代表所述词汇对中的中文词汇的词向量,Ci代表所述词汇对中的复述词汇的词向量,F代表所述词汇对的特征向量,向量X由W、Ci和F横向拼接得到,l1~l3分别代表对应线性层的输出,W1~W3分别代表对应线性层的权重,b1~b4代表偏差项,最后的FNN模型得分Sfnn通过Sigmoid函数得到,是一个(0,1)的实数。
CNN模型结构如图4所示,所述利用训练好的CNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的CNN模型得分的具体步骤包括:将所述词汇对中的中文词汇的词向量W和复述词汇的词向量Ci通过竖向维度进行拼接,即CNN模型通过计算得到平均池化层和卷积层的结果,然后将上述结果与所述词汇对的特征向量F进行横向拼接,即Y,使用激活函数tanh函数进行连续两层的线性层降维,最后计算Sigmoid函数,得到最终的CNN模型得分Scnn,是一个(0,1)的实数,具体计算过程如下式(1.3)所示:
其中,[W:Ci]表示向量拼接conv2表示卷积操作,avgpooling表示平均池化操作,w1~w3分别代表对应线性层的权重,B1~B3代表偏差项,L1、L2分别代表对应线性层的输出。
最终得分S的计算公式如下式(1.4)、(1.5)所示:
S=αSfnn+βScnn+γScos (1.4),
α+β+γ=1 (1.5),
其中,α、β以及γ分别代表Sfnn、Scnn以及Scos的权重参数。
通过实验对比,结合正负样本的占比以及模型复杂度的考虑,本实施例设置参数如下:α=0.15,β=0.15以及γ=0.7。
(D)按步骤(C)方法遍历一个中文词汇对应的所有复述词汇,选取所述最终得分不低于设定阈值的复述词汇作为该中文词汇对应的最佳复述词汇集合。
表2展示了不同模型融合方法的试验结果。
表2
表2中,top200指按照对应的模型融合方法最终获取的复述词汇集中得分前200的词条,random200表示中文词表集、候选中文复述词表中随机抽取的200个词汇对。词条就是指一组词汇对,包括中文词和复述词,不包括无关词。一个中文词对应一组复述词,从一组复述词中抽取一个复述词和该中文词组成一个词条。
评价指标Precision的计算方法如下式(1.6)所示:
其中,item指的是中文词汇。
排序模型指标值MRR的计算公式如下式(1.7)所示:
其中,将能够产生复述词汇的词语统称为“主词”,|N|表示主词个数,这里为200,wordi表示第i个主词,i代表某一个复述结果中第一个正确的复述词汇的下标(从1开始),当不存在对应正确的复述词汇时,令
从表2结果可知,将三模型融合的方法在效果上要明显优于两模型融合,并且能够很好地进行特征的学习,具有更强的鲁棒性。进一步地,本发明在上述三个模型融合的基础上加入了负采样机制,通过实验发现Precision和MRR值都有了显著提升,在top200的测试数据中,MRR值甚至达到了0.993。本发明引入负采样机制能够更好的拟合两个词之间的复述关系,本发明进行多模型融合的同时引入负采样机制能够更好的实现对复述词汇的过滤筛选。
此外应理解,在阅读了本发明的上述描述内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
Claims (3)
1.一种多模型融合中文词汇复述抽取方法,其特征在于,包括步骤:
(A)选择由中文词汇组成的中文词表集,采用“枢轴法”获取其对应的候选中文复述词表;引入负采样机制,随机生成和所述候选中文复述词表中复述词汇同等数量级的无关词汇;
(B)将所述中文词汇、复述词汇和无关词汇分别用Word2vec训练得到各自的词向量;将所得的三类词向量作为训练数据,采用基于pytorch框架的COS模型、FNN模型和CNN模型分别进行正负样本模型训练,得到COS模型分类器、FNN模型分类器以及CNN模型分类器,用于计算互为复述的两个词汇之间的模型得分;
(C)分别利用训练好的COS模型分类器、FNN模型分类器和CNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的COS模型得分、FNN模型得分和CNN模型得分,将所得COS模型得分、FNN模型得分和CNN模型得分按照一定的权重参数进行加权求和,作为该词汇对中的复述词汇的最终得分;
按照公式(1.1)利用训练好的COS模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的COS模型得分:
其中,Fn和Fm分别表示所述词汇对中的两个词汇n和m所对应的词向量,Scos为Fn和Fm的余弦相似度,表示两个词汇n和m的语义相似度,即COS模型得分;
所述利用训练好的FNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的FNN模型得分的具体步骤包括:对FNN模型进行降维操作,利用tanh函数进行连续三层的线性层降维,最后获得一个一维向量,计算过程如下式(1.2)所示:
其中,X=[W,Ci,F],W代表所述词汇对中的中文词汇的词向量,Ci代表所述词汇对中的复述词汇的词向量,F代表所述词汇对的特征向量,向量X由W、Ci和F横向拼接得到,l1~l3分别代表对应线性层的输出,W1~W3分别代表对应线性层的权重,b1~b4代表偏差项,最后的FNN模型得分Sfnn通过Sigmoid函数得到,是一个(0,1)的实数;
所述利用训练好的CNN模型分类器计算中文词表和候选中文复述词表中互相对应的一个词汇对的CNN模型得分的具体步骤包括:将所述词汇对中的中文词汇的词向量W和复述词汇的词向量Ci通过竖向维度进行拼接,即CNN模型通过计算得到平均池化层和卷积层的结果,然后将上述结果与所述词汇对的特征向量F进行横向拼接,即Y,使用tanh函数进行连续两层的线性层降维,最后计算Sigmoid函数,得到最终的CNN模型得分Scnn,是一个(0,1)的实数,具体计算过程如下式(1.3)所示:
其中,[W:Ci]表示向量拼接conv2表示卷积操作,avgpooling表示平均池化操作,w1~w3分别代表对应线性层的权重,B1~B3代表偏差项,L1、L2分别代表对应线性层的输出;
(D)按步骤(C)方法遍历一个中文词汇对应的所有复述词汇,选取所述最终得分不低于设定阈值的复述词汇作为该中文词汇对应的最佳复述词汇集合。
2.根据权利要求1所述的多模型融合中文词汇复述抽取方法,其特征在于,步骤(A)中,通过抽取原始语料中的文本内容,对其进行分句处理,并且根据长度进行过滤,然后对每个分句进行分词处理并获取词表集,最后基于词频和汉字编码筛选过滤词表,得到所述由中文词汇组成的中文词表集。
3.根据权利要求1所述的多模型融合中文词汇复述抽取方法,其特征在于,所述最终得分S的计算公式如下式(1.4)、(1.5)所示:
S=αSfnn+βScnn+γScos(1.4),
α+β+γ=1(1.5),其中,α、β以及γ分别代表Sfnn、Scnn以及Scos的权重参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011461021.5A CN112464664B (zh) | 2020-12-11 | 2020-12-11 | 一种多模型融合中文词汇复述抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011461021.5A CN112464664B (zh) | 2020-12-11 | 2020-12-11 | 一种多模型融合中文词汇复述抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112464664A CN112464664A (zh) | 2021-03-09 |
CN112464664B true CN112464664B (zh) | 2024-04-30 |
Family
ID=74804678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011461021.5A Active CN112464664B (zh) | 2020-12-11 | 2020-12-11 | 一种多模型融合中文词汇复述抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112464664B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230161977A1 (en) * | 2021-11-24 | 2023-05-25 | Beijing Youzhuju Network Technology Co. Ltd. | Vocabulary generation for neural machine translation |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017208003A (ja) * | 2016-05-20 | 2017-11-24 | 日本電信電話株式会社 | 対話方法、対話システム、対話装置、およびプログラム |
CN109658918A (zh) * | 2018-12-03 | 2019-04-19 | 广东外语外贸大学 | 一种智能英语口语复述题评分方法和系统 |
CN109933806A (zh) * | 2019-04-01 | 2019-06-25 | 长沙理工大学 | 一种复述生成方法、系统、设备及计算机可读存储介质 |
CN110413768A (zh) * | 2019-08-06 | 2019-11-05 | 成都信息工程大学 | 一种文章题目自动生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555203B (zh) * | 2018-05-31 | 2023-05-30 | 北京百度网讯科技有限公司 | 文本复述方法、装置、服务器及存储介质 |
-
2020
- 2020-12-11 CN CN202011461021.5A patent/CN112464664B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017208003A (ja) * | 2016-05-20 | 2017-11-24 | 日本電信電話株式会社 | 対話方法、対話システム、対話装置、およびプログラム |
CN109658918A (zh) * | 2018-12-03 | 2019-04-19 | 广东外语外贸大学 | 一种智能英语口语复述题评分方法和系统 |
CN109933806A (zh) * | 2019-04-01 | 2019-06-25 | 长沙理工大学 | 一种复述生成方法、系统、设备及计算机可读存储介质 |
CN110413768A (zh) * | 2019-08-06 | 2019-11-05 | 成都信息工程大学 | 一种文章题目自动生成方法 |
Non-Patent Citations (3)
Title |
---|
Using explicit semantic analysis and Word2Vec in measuring semantic relatedness of Russian paraphrases;Kriukova A et.al;Digital Transformation and Global Society;第350-360页 * |
基于自动构建语料库的词汇级复述研究;赵世奇;刘挺;李生;;电子学报(05);第65-70页 * |
融合Word2vec与TextRank的关键词抽取研究;宁建飞;刘降珍;;现代图书情报技术(06);第26-33页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112464664A (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110585B (zh) | 基于深度学习的智能阅卷实现方法及系统、计算机程序 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN109213861B (zh) | 结合At_GRU神经网络与情感词典的旅游评价情感分类方法 | |
CN110096698B (zh) | 一种考虑主题的机器阅读理解模型生成方法与系统 | |
CN108573047A (zh) | 一种中文文本分类模型的训练方法及装置 | |
CN105975454A (zh) | 一种网页文本的中文分词方法和装置 | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN110347787B (zh) | 一种基于ai辅助面试场景的面试方法、装置及终端设备 | |
CN110362819B (zh) | 基于卷积神经网络的文本情感分析方法 | |
CN112231472B (zh) | 融入领域术语词典的司法舆情敏感信息识别方法 | |
CN108052504B (zh) | 数学主观题解答结果的结构分析方法及系统 | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
CN109948144B (zh) | 一种基于课堂教学情境的教师话语智能处理的方法 | |
CN110287298A (zh) | 一种基于问句主题的自动问答答案选择方法 | |
CN111708878A (zh) | 一种体育文本摘要提取方法、装置、存储介质及设备 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、系统及装置 | |
CN112612890A (zh) | 轨道车辆的故障识别方法及装置 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN110991515B (zh) | 一种融合视觉上下文的图像描述方法 | |
CN110472245A (zh) | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 | |
CN111159342A (zh) | 一种基于机器学习的公园文本评论情绪打分方法 | |
CN113254582A (zh) | 一种基于预训练模型的知识驱动对话方法 | |
CN112784878A (zh) | 一种中文议论文智能批改方法及系统 | |
CN112214989A (zh) | 一种基于bert的汉语句子简化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |