CN113536804B - 一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法 - Google Patents
一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法 Download PDFInfo
- Publication number
- CN113536804B CN113536804B CN202110724504.8A CN202110724504A CN113536804B CN 113536804 B CN113536804 B CN 113536804B CN 202110724504 A CN202110724504 A CN 202110724504A CN 113536804 B CN113536804 B CN 113536804B
- Authority
- CN
- China
- Prior art keywords
- text
- sentence
- semantic
- gru
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 12
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000013528 artificial neural network Methods 0.000 claims abstract description 37
- 230000004927 fusion Effects 0.000 claims abstract description 34
- 230000007246 mechanism Effects 0.000 claims abstract description 34
- 239000013598 vector Substances 0.000 claims description 80
- 239000011159 matrix material Substances 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 22
- 230000001537 neural effect Effects 0.000 claims description 21
- 210000002569 neuron Anatomy 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 9
- 238000003064 k means clustering Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 210000005036 nerve Anatomy 0.000 abstract description 6
- 241000288105 Grus Species 0.000 abstract description 5
- 238000003745 diagnosis Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 7
- 210000004027 cell Anatomy 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000002955 isolation Methods 0.000 description 3
- 150000007523 nucleic acids Chemical class 0.000 description 3
- 102000039446 nucleic acids Human genes 0.000 description 3
- 108020004707 nucleic acids Proteins 0.000 description 3
- MYMOFIZGZYHOMD-UHFFFAOYSA-N Dioxygen Chemical compound O=O MYMOFIZGZYHOMD-UHFFFAOYSA-N 0.000 description 2
- 206010061218 Inflammation Diseases 0.000 description 2
- 206010037660 Pyrexia Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000004054 inflammatory process Effects 0.000 description 2
- 229910052760 oxygen Inorganic materials 0.000 description 2
- 239000001301 oxygen Substances 0.000 description 2
- 230000029058 respiratory gaseous exchange Effects 0.000 description 2
- 238000002627 tracheal intubation Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 244000223014 Syzygium aromaticum Species 0.000 description 1
- 235000016639 Syzygium aromaticum Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法,属于自然语言处理生成领域。本发明使用对GRU进行改进的神经网络,通过抽取的关键词增强了模型获取文本的重要信息的能力;采用两个GRU神经单元分别把序列信息和关键词信息作为输入;采用融合单元将序列信息和主题信息进行融合;编码器采用改进的GRU组成的神经网络作为词汇编码器,与语句编码器构成分层编码器,并构建分别作用于两个编码器的注意力机制,以此改善上下文信息不一致的问题。引入Kronecker乘积模块,对文本进行词汇关联的语义特征提取,通过Kronecker模块得到的词汇关联特征增强模型语义控制能力。本发明适用于文档摘要,文本复述、机器人客服、会议或诊断报告生成等自然语言生成的应用。
Description
技术领域
本发明涉及一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法,属于自然语言处理领域。
背景技术
对于自然语言生成,主要应用在人机对话以及摘要、图片视频描述等,是自动写新闻或标题、机器人客服、会议或诊断报告生成等应用的核心技术。而其中语义的正确性是生成语言的重要问题。
目前自然语言生成多采用编码到解码的序列转换形式,将一序列信息转换成另一对应的序列文本,层级编码的过程分为句子语义编码、篇章信息编码、解码、句子概率计算4个步骤。文本生成步骤中句子语义编码是底层基础的步骤,其目的为得到句子的特征向量。句子语义编码的语义获取能力和保证语义正确性对自然语言生成有着重要作用。现有的句子或篇章的生成的编码部分缺少利用特征提取得到语言特性,忽略了篇章中的词汇的关系特征,导致句子篇章编码缺少对于语义的捕获,上下文信息不一致,因此在生成文本时的解码阶段得到的文本存在语义错误,上下文不流畅情况。同时,在生成大型文本时,上下文的关联遭到破坏,语义分散,偏离主题信息,因此当前迫切需要使语义得到高度概括,保存语义完整性的技术,帮助文本的生成。本发明的思想就是利用主题词、关键词和语言特征增强来改善文本生成。
在文本生成中,语义的正确性和流畅性是评价文本的质量的重要指标。自然语言中最重要的信息是语义信息,语义包含着近义词,同义词,句子的结构主题等信息。语义的正确性决定着自然语言处理效果的好坏。目前随着计算机技术发展以及语言数据库的完善,利用机器学习和神经网络可以生成语义较为准确的自然语言。但是由于训练神经网络的资源贫乏和训练学习机制不够完善,以上生成的自然语言在语义上仍存在错误和语义上的偏差,而且存在十分依赖其他文本信息的缺点,例如知识图谱、词典、资源库等。由于目前文本生成技术存在以上提到的的问题,因此文本生成需要利用主题信息和捕获词汇关联信息加强文本生成的语义表现能力。
发明内容
本发明针对现有技术的上述不足,提出一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法,加强了文本生成的语义表现能力。
为达到以上的目的,本发明采用以下技术方案。
一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法,包括:
①将待生成摘要或对话的文本通过主题生成模型为所述文本生成多个主题词,再将所述文本和主题词中的每个词通过采用字符嵌入和词汇嵌入结合的嵌入方式转化为词嵌入向量,用于自然语言特征提取的神经网络的输入;
②所述神经网络由依次连接的词汇编码器、词汇注意力机制、句子编码器、句子注意力机制和Kronecker乘积模块构成,其中:
所述词汇编码器是以T-GRU作为神经单元,按照BiGRU的双层结构组建成的双层双向的神经网络,将该神经网络作为词汇级别的编码器;所述T-GRU神经元由两个GRU神经元和一个融合单元构成,所述融合单元将所述两个GRU神经元的输出作为输入,对所述主题词和文本中的词汇信息进行融合得到嵌入了文本主题信息的词汇编码;
所述词汇注意力机制用于将组成句子的词汇信息进行加权融合以得到句子的向量表示,即句向量;
所述句子编码器使用递归神经网对所述句向量进行处理以得到每个句子的句编码,所述句编码为融合了历史句向量语义的当前句向量的编码表示;
所述句子注意力机制对组成所述文本的每个句子的句编码进行加权融合得到所述文本的语义向量。
Kronecker乘积模块对所述文本的语义向量进行历史语义存储、语义解释处理,使其当前语义和历史语义进行关联,获取语义关联矩阵。
语义关联矩阵作为所述文本的特征用于生成自然语言文本。
作为优选,所述主题生成模型为LDA模型。
作为优选,所述多个主题词利用K-means聚类进行分类,分类后按照类及所述主题词的信息熵权重对所述多个主题词进行排序。
作为优选,所述词转化为词嵌入向量通过采用字符嵌入和词汇嵌入结合的嵌入方式进行转化。
其中i表示所述文本的第j个句子的词的序号,j表示所述文本的句子的序号,Wk、W1、W2为待训练参数,为T-GRU中两个输入分别为文本序列信息和文本主题信息的GRU神经单元的输出,为所述文本的第j句第i个词和主题词输入T-GRU后的输出,即所述融合单元的输出,δ、tanh分别为sigmoid激活函数和双曲正切激活函数。
作为优选,所述词汇注意力机制通过下述过程实现:
(1)通过下式计算第j个词汇编码器的对应第i个词的输出hi,j的权重值αi,j:
其中,i表示词的序号,j表示所述文本的句子的序号,αi,j表示输入的文本中第j个句子的第i个词的权重值,L表示第j个词汇编码器的词的个数;ei,j为注意力分数,η为每个具有tanh作为激活函数的多层感知机,cj-1为前一个句子的句子编码器的输出,si-1为前一个词的解码器的隐藏状态;
作为优选,所述句子编码器将每个词汇注意力向量mj作为输入计算句子级别编码器的隐藏状态cj,cj可以捕获到在解码器的隐藏状态si-1中可能会丢失的重要信息,包括了所有直到位置i已处理的过去信息,其cj计算公式为:
其中,cj-1为前一位置的句子级别编码器的隐藏状态,Wc、Uc为待训练参数。
作为优选,所述句子注意力机制通过下述过程实现:
(1)通过下式计算第j个句子的权重值:
e'j=η(si-1,cj-1);
其中,Q为所述文本中句子的数量;
(2)通过下式计算所述文本的语义向量,即最终语义词向量o:
作为优选,所述Kronecker乘积模块包括语义存储模块、语义选择模块和语义解释模块;
所述语义存储模块通过下式计算语义信息关系M1:
p=softmax(WTo+b);
其中,λ、ε分别为衰减系数和限制常数,n′为所述神经网络模型训练时的迭代次数,||·||F表示Frobenius范数,Wh为GRU的记忆门的待训练的参数,为每次训练迭代中GRU的记忆门的待训练的参数Wh的平均矩阵;
所述语义选择模块通过下式计算t(s):
其中,p(s)是所述o对应的内部表示,Wc为GRU中重置门的训练参数权重,Hj为第j个句子中T-GRU的输出的和||·||表示1范数,Ω为所述文本的单词的重要性的权重Ωj(i)之和,即s表示迭代的次数,设为固定值或者t(s)迭代到无明显变化时停止迭代,t(0)通过下式计算:
其中,similarity(m1,m2)表示所述文本的第一、二个词汇注意力向量m1、m2的相似性函数;
所述语义解释模块对t(s)通过下式对t(s)进行语义的加强得到M2:
基于所述M2,通过下式计算词汇关联矩阵Mk第k行第l列的元素值:
其中,k=i*j,pl是所述文本中第l个单词对应的概率,且l≠i*j,由位于词汇编码器上层的全连接层和分类层得到;
最终得到所述文本的词汇关联矩阵Mk:
其中||·||2为矩阵2范数。
有益效果:
相比于现有技术,本方法有如下有益效果:
1.对GRU进行改进使其能对抽取的关键词处理,增强了模型获取文本的重要信息的能力;采用两个GRU神经单元分别把序列信息和关键词信息作为输入;采用融合单元将两个GRU得到的隐藏状态进行融合,从而使序列信息和主题信息共同指导解码器中文本的生成;通过主题词的信息提升所生成文本的连贯性和信息丰富性,同时缓解生成文本主题偏离的问题,生成文本更加简洁。
2.对于编码器,除了采用由改进的GRU组成的神经网络作为词汇编码器,还建立了语句编码器从而与词汇编码器构成分层编码器,同时构建了分别作用于两个编码器的注意力机制,以此改善上下文信息不一致的问题。
3.引入Kronecker乘积模块,对文本进行词汇关联的语义特征提取,将Kronecker模块得到的词汇关联矩阵输入到解码器进行解码完成自然语言的生成,以此增强模型语义控制能力,提高了语句信息的完整程度,进而提高了语句的流畅度。
附图说明
图1为本发明“一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法”中的本方法及实施例的总体流程示意图。
图2为本发明“一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法”中的本方法及实施例的抽取系主题词和文本向量化的步骤。
图3为本发明“一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法”中的本方法及实施例中的T-GRU神经单元的结构。
图4为本发明“一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法”中的本方法及实施例中的编码器-解码器的示意图。
图5为本发明“一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法”中的本方法及实施例中的Kronecker获取关联矩阵的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例当中的技术方案进行清楚、完整地描述,需要说明的是,本说明书所附图中示意的公式等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,任何公式的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
下面根据附图和实例对本发明进行详细说明,但本发明的具体实施方式不仅于此。
本发明的原理如下:
一种基于GRU神经网络以及Kronecker乘积的自然语言特征提取方法,如图1所示,包括:
一:将待生成摘要或对话的文本通过主题生成模型为所述文本生成多个主题词,再将所述文本和主题词中的每个词通过采用字符嵌入和词汇嵌入结合的嵌入方式转化为词嵌入向量,用于自然语言特征提取的神经网络的输入;
通过中文分词工具对输入文本进行分词得到词汇集合,对于文本主题的获取,采用预先训练的主题生成模型LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)对输入文本的词汇集合进行主题提取得到文本主题序列,为了向神经网络中注入与生成文本(例如对话回答、文本摘要)相关的主题信息,以此利用主题信息来增强本发明的神经网络模型。在LDA得到文本主题序列之后,求取文本主题序列的各个主题词在原文本中的信息熵,并按信息熵计算信息熵权重,再将信息熵权重与主题词相乘,并利用K-means聚类进行分类,按照分类的信息熵权重进行重新排序。信息熵权重计算为式(1),K-means聚类分析为式(2)。
A=Kmeans((ωixi),N) (2)
pi为主题词xi在文本中的出现频率,n表示所述主题序列中的主题词的个数,N表示Kmeans分类个数,Kmeans为聚类分析分类方法,A为Kmeans的分类结果,按分类结果将A中的主题词重新排序,得到经排序的主题词序列A。
对输入文本中的词和主题词进行向量化。所述向量化可采用目前存在的嵌入技术,例如skip-gram、CBOW等词嵌入技术,将词转化为向量。本发明中,所述词嵌入技术采取字符嵌入、词汇嵌入相结合的方式。用ci代表词中的字,seg(c)表示词,词包括多个字符,例如seg(c)=“北京”,则c1=“北”,c2=“京”。将字嵌入和词汇嵌入结合作为词汇的最终嵌入向量表达,如式(3)所示,该表达作为本发明神经网络的输入。
xseg(c)=[ec(ci);eb(seg(c))] (3)
ci代表字符,seg(c)表示由多个字符组成的词汇,ec(ci)、eb(seg(c))表示通过词嵌入技术得到字符、词汇的嵌入向量,[ec(ci);eb(seg(c))]表示对ec(ci)、eb(seg(c))进行向量拼接。
上述过程如图2所示。
二:以T-GRU作为神经单元,按照BiGRU的双层结构组建成的双层双向的神经网络,将该神经网络作为词汇级别的编码器;所述T-GRU神经元由两个GRU神经元和一个融合单元构成,所述融合单元将所述两个GRU神经元的输出作为输入,对所述主题词和文本中的词汇信息进行融合得到嵌入了文本主题信息的词汇编码:
经过第一部分得到嵌入表达之后,搭建T-GRU的神经单元,T-GRU与传统的GRU的不同之处在于利用一个融合单元将两个GRU单元组合在一起构成新的神经单元,两个GRU神经单元分别将文本序列和主题序列A作为输入,再通过融合单元将两个GRU隐藏层输出结合构成新的神经单元。
其中i表示所述文本的第j个句子的词的序号,j表示所述文本的句子的序号,Wk、W1、W2为待训练参数,为T-GRU中两个输入分别为文本序列信息和文本主题信息的GRU神经单元的输出,为所述文本的第j句第i个词和主题词输入T-GRU后的输出,即所述融合单元的输出,δ、tanh分别为sigmoid激活函数和双曲正切激活函数。
当然,本领域技术人员知道,上述融合单元计算公式仅是优选实施方式,还可以采用其它融合方式,如拼接、加权和等。通过公式(4)融合可以根据主题信息和文本信息动态调整主题信息和文本的信息进行融合,其中,主题词序列A中的词与所述文本中的词一一对应输入所述T-GRU,当A的长度低于所述文本序列的长度时,循环复制A序列内容使其长度与所述文本长度一致。
至此T-GRU神经单元搭建完成,T-GRU结构如图3,将其按照BiGRU的双层结构将T-GRU神经单元组建成双层神经网络,并将其作为词汇编码器。
最后,在词汇编码器的上层建立全连接层和分类层用以获取单词i对应的概率。
三:建立注意力机制,对词汇和句子级别建立注意力机制,包括用于词汇编码器的词汇注意力机制和用于句子级别编码器的句子注意力机制。各层注意力机制和编码器示意图如图4。
首先建立词汇注意力机制,计算第j个词汇编码器的对应第i个词的输出hi,j的权重值αi,j,其关系式如式(5)(6)。
i表示词的序号,j表示所述文本的句子的序号,αi,j表示输入的文本中第j个句子的第i个词的权重值。ei,j为注意力分数,由式(6)得到,η为每个具有tanh作为激活函数的多层感知机。ei,j是根据解码器的隐藏状态和句子级别编码器的输出由式(6)得到,相对于传统注意力的区别在于考虑了句子级别编码器的隐藏状态cj-1。式(6)中cj-1为前一个句子的句子编码器的输出,为由式(4)得到,si-1为前一个词的解码器的隐藏状态。L表示第j个词汇编码器的词的个数。
句子级别编码器将每个词汇注意力向量mj作为输入计算句子级别编码器的隐藏状态cj,cj可以捕获到在解码器的隐藏状态si-1中可能会丢失的重要信息,包括了所有直到位置i已处理的过去信息,其cj计算公式为式(8)
cj-1为前一位置的句子级别编码器的隐藏状态,Wc、Uc为待训练参数。
句子注意力机制是作用在句子级别编码器,从而使生成对话在局部保持一致性,句子注意力机制的权重计算关系式为式(9),注意力分数函数为式(10):
e'j=η(si-1,cj-1) (10)
Q为所述文本中句子的数量。
上下文级别编码器的顶部,即句子级别编码器之后添加了句子级别注意机制以关注对话历史中的重要讲话,或截至当前句子的所述文本的重要内容。将经历上述计算后得到的注意力权重βj与编码后得到的语义向量cj相乘得到最终语义词向量o,加权公式为(11):
Q表示所述文本句子的个数。
四:Kronecker乘积模块对所述文本的语义词向量进行历史语义存储、语义解释处理,使其当前语义和历史语义进行关联,获取语义关联矩阵。
语义关联矩阵作为所述文本的特征用于生成自然语言文本。
所述Kronecker乘积模块包括语义存储模块、语义选择模块和语义解释模块。对语义选择单元的输出t(0)进行初始化:由于在步骤6中,生成矩阵向量乘积的输出需要通过前一个线性组合输出t(s-1),t(s)的迭代需要从t(0)开始,但t(0)不存在,因此需要初始化t(0),以此避免当开始将第一个词向量输入时,线性输出是不存在的,因此需要对线性输出初始化进行选取,从而使步骤6不断进行运算对词向量进行处理并快速收敛。
为了后续利用式(14)对t(0)的初始化,需定义两个函数:
首先定义所述文本的第一、二个词汇注意力向量m1、m2的相似性函数similarity(m1,m2),计算公式为
其中||·||∞表示向量的无穷范数,·表示向量数量积;
其次定义衡量所述文本的第j个句子第i个单词的重要性的权重函数Ωj(i),其计算公式为
λ、ε分别为衰减系数和限制常数,自行拟定,建议取0.001和0.5,n′是模型训练时的迭代次数,||·||F表示Frobenius范数,Wh为GRU的记忆门的待训练的参数,为每次训练迭代中GRU的记忆门的待训练的参数Wh的平均矩阵。
在得到词汇注意力向量的余弦相似性函数和衡量单词i的重要性的权重函数Ωj(i)后,利用计算得到词汇注意力向量的余弦相似性和衡量单词i的重要性的权重Ωj(i)根据初始化计算公式(14)得到t(0),利用词汇注意力向量的权重使t(0)更靠近t(s)的最终值,加快t(s)的迭代。
L为所述文本的词汇个数,至此得到t(s)的初始化t(0)。
在通过上一个步骤得到t(0)作为t(s)初始化后,就可以依次进行Kronecker乘积模块的语义存储模块、语义选择模块、语义解释模块的工作。
基于所述语义存储模块利用最终语义词向量和衡量单词i的重要性的权重,通过语义存储模块计算语义信息关系M1。语义存储模块计算公式为(16):
p=softmax(WTo+b)(15)
式(17)中为克罗内克乘积;softmax表示Softmax函数,对向量中的所有元素进行Softmax函数计算。WTo+b本质上为一个线性层神经网络,WT为线性层的参数,b为线性层的偏置参数,最终线性层的输出为与o相同尺寸的向量,而softmax(WTo+b)就表示全连接层和分类层,后续的全连接层和分类层也不再赘述,也为此意。M1是语义存储模块的输出,p为最终语义词向量对应的概率。
基于所述语义存储模块的输出,通过矩阵向量乘积来得到语义选择模块的输出t(s)。语义选择模块基于整体语义信息的语义存储模块的输出M1进行整合,引入语义的内部表示信息;p(s)是生成t(s)时语义词向量o对应的内部表示,表示语义的内部表示信息。p(s)、t(s)计算公式为(17)(18)。
Hj为第j个句子中T-GRU的输出的和Wc为GRU中重置门的训练参数权重,||·||表示1范数,M1为语义存储模块的输出,t(s-1)为前一次迭代得到语义选择单元输出,p(s)是生成t(s)时语义词向量o对应的内部表示;Ω为所述文本的单词的重要性的权重Ωj(i)之和,即s表示迭代的次数,设为固定值或者t(s)迭代到无明显变化时停止迭代。
基于语义选择模块迭代后的输出t(s)进行语义的加强得到语义解释模块的输出M2,计算公式为式(19)。
基于语义解释模块输出M2,通过下式计算词汇关联矩阵Mk第k行第l列的元素值:
其中,k=i*j,pl是所述文本中第l个单词对应的概率,且l≠i*j,由位于词汇编码器上层的全连接层和分类层得到;
最终得到所述文本的词汇关联矩阵Mk形如公式(21),其中||·||2为矩阵2范数。
经过上述过程后,得到所述文本的词汇关联矩阵。
实施例1
本实施例阐述了将本发明“一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法”应用于自然语言生成处理场景下的流程。
图1为本方法的流程图及本实施例的流程图,从图中可以看出,本方法包含如下步骤:
对于选择数据集,本发明实例从https://github.com/Toyhom/Chinese-medical-dialogue-data下载Chinese medical dialogue data中文医疗对话数据集。并对数据进行分割,将数据中的80%作为训练数据,20%作为测试数据用以评估模型性能。
步骤1:通过skip-gram、CBOW等词嵌入技术将词语和主题词转化为向量输入到T-GRU神经网络中,对神经网络进行训练,在词嵌入方面采取字符嵌入、词汇嵌入相结合的方式。图2为抽取主题词和文本向量化的流程图。
由于词嵌入是由字嵌入和词汇嵌入组合使用,因此在将词转化为向量时需要进行中文分词,需使用分词工具,本实施例选择使用支持医学的PKUSEG、PKUSEG分词工具进行分词,再利用CBOW词嵌入技术进行向量化,本领域技术人员可以根据应用场景需要选择其他分词和词嵌入工具。
词嵌入技术采取字符嵌入、词汇嵌入相结合的方式。用ci代表词中的字,seg(c)表示词,词包括多个字符,例如seg(c)=“北京”,则c1=“北”,c2=“京”。将字嵌入和词汇嵌入结合作为词汇的最终嵌入向量表达,如式(3)所示,该表达作为本发明神经网络的输入。
xseg(c)=[ec(ci);eb(seg(c))] (3)
ci代表字符,c表示词汇,seg(c)表示由多个字符组成的词汇,ec(ci)、eb(seg(c))表示通过词嵌入技术得到字符、词汇的嵌入向量,[ec(ci);eb(seg(c))]表示对ec(ci)、eb(seg(c))进行向量拼接。
对于seg(c)=“北京”,则xseg(c)为将“北”和“京”的字嵌入以及“北京”的词汇嵌入拼接后的向量。字符嵌入、词汇嵌入相结合的嵌入方式可以尽可能保留字符信息和词汇信息,更适合中文信息的特点。
得到的词汇表和词嵌入表后,设置固定句长250,词嵌入长度为300,固定句长表示一个句子的固定输入神经网络的长度,句子长度不足时,使用特殊词汇PAD补足至最大词汇数量,句子长度过大,对句子的词汇列表进行截取。
对于文本主题的获取,采用LDA对文本进行主题提取得到文本主题序列,为了向模型中注入与生成文本(例如对话回答、文本摘要)相关的主题信息,以此利用主题信息来增强模型,即使用预先训练的LDA模型将对话指定多个主题。
在LDA得到文本主题序列之后,求取文本主题序列的各个主题词在原文本中的信息熵,并按信息熵计算信息熵权重,再将信息熵权重与主题词相乘,并利用K-means聚类进行分类,按照分类重新排序。以此识别文本中新出现的名词,例如“核酸检测、居家隔离”等词汇。
本例从丁香医生抓取了10万个帖子,以训练LDA模型。将主题数T设置为100,并将LDA的超参数设置为α=1/T,β=0.01,γ=0.01。对于K-means聚类,本实例将拟分类的数目设置为3(即分为3类),在按照类别进行排序。例如LDA得到的关键词序列为“‘发烧’、‘口罩’、‘吸氧’、‘呼吸’、‘CT’、‘炎症’、‘核酸检测’、‘隔离’、‘插管’”,由K-means分为三类:“‘核酸检测’、‘隔离’、‘口罩’”;“‘发烧’、‘吸氧’、‘炎症’”;“‘呼吸’、‘CT’、‘插管’”三类。对于排列,首先按类进行排序,将一类的信息熵权重之和按由大到小进行排序,再对每一类的词按照每个词的信息熵权重进行排列,如下表。
由于对话是一个简短的文本的回合,为了获取更多的主题词,可以将多回合对话作为一个整体,再对该整体文本进行主题提取多个关键词。对于每个主题,选择排名在前25的词作为主题词。同时使用5万个帖子,统计词汇在5万个帖子中的出现次数从而计算词频,并从主题词中删除了频率最高的200个词从而除掉通用词。
步骤2:搭建BiGRU神经网络,将有两个GRU数据单元和融合单元构成的T-GRU数据单元组建成双层双向的神经网络作为词汇级别的编码器。
以T-GRU作为神经单元,按照BiGRU的双层结构组建成的双层双向的神经网络,将该神经网络作为词汇级别的编码器;所述T-GRU神经元由两个GRU神经元和一个融合单元构成,所述融合单元将所述两个GRU神经元的输出作为输入,对所述主题词和文本中的词汇信息进行融合得到嵌入了文本主题信息的词汇编码:
经过步骤1得到嵌入表达之后,搭建T-GRU的神经单元,T-GRU与传统的GRU的不同之处在于利用一个融合单元将两个GRU单元组合在一起构成新的神经单元,两个GRU神经单元分别将文本序列和主题序列作为输入,再通过融合单元将两个GRU隐藏层输出结合构成新的神经单元。
在把文本和主题词输入到神经网络模型时,若句子或主题词序列长度不一致时,可添加空格(例如pad)或是重复某个主题词使其长度一制。
至此T-GRU神经单元搭建完成,所述T-GRU结构如图3,将其按照BiGRU的双层结构将T-GRU神经单元组建成双层神经网络,并将其作为词汇编码器。
在利用python实现以上神经网络模型时,利用torch的工具包并采用面向对象的编程方法;首先建立GRU的对象,命名为GRU_Cell,并在GRU_Cell对象中建立forword子函数从而实现公式(2)。再建立Fusion_Cell,同样利用建立forword函数实现式(3)。最后建立T-GRU对象,在该对象中的forword中调用GRU_Cell和Fusion_Cell从而建立其神经网络模型。
至此T-GRU神经单元搭建完成,如图3,将其按照BiGRU的双层结构将T-GRU神经单元组建成双层神经网络,并将其作为词汇编码器。
步骤3:建立注意力机制,为了将主题信息和先前的文本信息纳入文本生成信息中,对词汇和句子级别分别建立编码器和注意力机制,包括用于词汇编码器的词汇注意力机制和用于句子级别编码器的句子注意力机制。图4为此部分中的编码器-解码器及其各层注意力的结构图。
首先建立词汇注意力机制,计算第j个词汇编码器的对应第i个词的输出hi,j的权重值αi,j,其关系式如式(5)(6)。相对于传统注意力的区别在于考虑了句子级别编码器的隐藏状态。
句子级别编码器将每个词汇注意力向量mj作为输入计算句子级别编码器的隐藏状态cj,cj可以捕获到在解码器的隐藏状态si-1中可能会丢失的重要信息,包括了所有直到位置i已处理的过去信息,其cj计算公式为式(8)。句子级别编码器可以使用现有的神经网络,如RNN、LSTM、GRU等。
句子注意力机制是作用在句子级别编码器,从而使生成对话在局部保持一致性,句子注意力机制的权重计算关系式为式(9),注意力分数函数为式(10)。
上下文级别编码器的顶部,即句子级别编码器之后添加了句子级别注意机制以关注对话历史中的重要讲话,或截至当前句子的所述文本的重要内容。将经历上述计算后得到的注意力权重βj与编码后得到的语义向量cj相乘得到最终语义词向量o,加权公式为(11)。
网络结构中的注意力机制负责自动学习注意力权重,可以自动捕获编码器隐藏状态和解码器隐藏状态之间的相关性。然后,得到的注意力权重用于构建内容向量,该向量作为输入传递给解码器。在每个解码位置内容向量是编码器所有隐藏状态及其相应注意权重的加权和。
在构建词汇编码器时,采取面向对象的编程方法。将编码器作为一个对象,命名为Word_Encoder,Word_Encoder对象中建立attention_net,并在forward调用T-GRU和attention_net实现神经网络和注意力机制的结合。
词汇编码器具有500个隐藏单元,句子编码器为257个隐藏单元,单词嵌入维数是128。其中利用线性层对维数进行控制,后续的张量的乘法和加法,可利用线性层和python中的reshape进行维度的控制,使其能够进行乘法和加法。
Kronecker乘积模块对所述文本的语义词向量进行历史语义存储、语义解释处理,使其当前语义和历史语义进行关联,获取语义关联矩阵。图5为Kronecker乘积模块的流程图。
所述Kronecker乘积模块包括语义存储模块、语义选择模块和语义解释模块。对语义选择单元的输出t(0)进行初始化:由于在步骤6中,生成矩阵向量乘积的输出需要通过前一个线性组合输出t(s-1),t(s)的迭代需要从t(0)开始,但t(0)不存在,因此需要初始化t(0),以此避免当开始将第一个词向量输入时,线性输出是不存在的,因此需要对线性输出初始化进行选取,从而使步骤6不断进行运算对词向量进行处理并快速收敛。对于后续的矩阵乘法,可利用补零或python语言中reshape命令使其符合矩阵乘法要求。
为了后续利用式(14)对t(0)的初始化,需定义两个函数:
首先定义所述文本的第一、二个词汇注意力向量m1、m2的相似性函数similarity(m1,m2),计算公式为(12)。
其次定义衡量所述文本的第j个句子第i个单词的重要性的权重函数Ωj(i),其计算公式为(13)。
在得到词汇注意力向量的余弦相似性函数和衡量单词i的重要性的权重函数Ωj(i)后,利用计算得到词汇注意力向量的余弦相似性和衡量单词i的重要性的权重Ωj(i)根据初始化计算公式(14)得到t(0)。至此得到t(s)的初始化t(0)。
在通过上一个步骤得到t(0)作为t(s)初始化后,就可以依次进行Kronecker乘积模块的语义存储模块、语义选择模块、语义解释模块的工作。
基于所述语义存储模块利用最终语义词向量和衡量单词i的重要性的权重,通过语义存储模块计算语义信息关系M1。其中最终语义词向量对应的概率p的计算式为式(15),为语义存储引入文本语义的概率信息。语义存储模块计算公式为(16)。
基于所述语义存储模块的输出,通过矩阵向量乘积来得到语义选择模块的输出t(s)。语义选择模块基于整体语义信息的语义存储模块的输出M1进行整合,引入语义的内部表示信息,同时利用前一次迭代中语义选择单元输出t(s-1),使其包含上下文语义信息;p(s)是生成t(s)时语义词向量o对应的内部表示,表示语义的内部表示信息。p(s)、t(s)计算公式为(17)(18)。迭代的次数s设置为1000,也可以设置t(s)迭代到无明显变化时停止迭代,即设置一个较小值ε,当t(s+1)-t(s)<ε时停止迭代。
基于语义选择模块迭代后的输出t(s)进行语义的加强得到语义解释模块的输出M2,计算公式为式(19)。
基于语义解释模块输出M2,通过式(20)计算词汇关联矩阵Mk第i行第l列的元素值。最终得到所述文本的词汇关联矩阵Mk形如公式(21)
经过上述过程后,得到所述文本的词汇关联矩阵。
基本本发明获得的词汇关联矩阵,本领域技术人员根据如图4所示结构,选择解码器搭建即可获得生成文本,该文本具有较高的语句信息完整度和语句流畅度,并且生成的文本不脱离主题、简洁,连贯性好、信息含量丰富。
综上,针对现有技术中存在的语义控制能力差、长距离依存、上下文信息不一致等问题,本发明使用的神经网络对GRU进行改进使其能对抽取的关键词处理,增强了模型获取文本的重要信息的能力;采用两个GRU神经单元分别把输入的文本序列信息和关键词信息作为输入;采用融合单元将两个GRU得到的隐藏状态进行融合,从而使序列信息和主题信息共同指导解码器中文本的生成;对于编码器,除了采用由改进的GRU组成的神经网络作为词汇编码器,还建立了语句编码器从而与词汇编码器构成分层编码器,同时构建了分别作用于两个编码器的注意力机制,以此改善上下文信息不一致的问题。引入Kronecker乘积模块,对文本进行词汇关联的语义特征提取,将Kronecker模块得到的词汇关联特征输入到解码器进行解码,以此完成自然语言的生成,以此增强模型语义控制能力。本发明适用于文档摘要,文本复述、机器人客服、会议或诊断报告生成等自然语言生成的应用。
以上步骤不存在严格的顺序执行关系,本领域技术人员在不脱离本发明思想的前提下,可以采用其它的顺序实施本发明方法,只要满足一个步骤执行时,其所需要的条件已经准备好即可。
Claims (8)
1.一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法,其特征在于,包括:
①将待生成摘要或对话的文本通过主题生成模型为所述文本生成多个主题词,再将所述文本和主题词中的每个词转化为词嵌入向量,用于自然语言特征提取的神经网络的输入;
②所述神经网络由依次连接的词汇编码器、词汇注意力机制、句子编码器、句子注意力机制和Kronecker乘积模块构成,其中:
所述词汇编码器是以T-GRU作为神经单元,按照BiGRU的双层结构组建成的双层双向的神经网络;所述T-GRU神经元由两个GRU神经元和一个融合单元构成,两个GRU神经元分别将所述文本的词和所述主题词作为输入,所述融合单元将所述两个GRU神经元的输出作为输入,对所述主题词和文本中的词汇信息进行融合得到嵌入了文本主题信息的词汇编码;所述融合单元通过下式将所述文本的词的GRU神经元的输出和所述主题词的GRU神经元的输出进行融合得到融合后的输出
其中i表示所述文本的第j个句子的词的序号,j表示所述文本的句子的序号,Wk、W1、W2为待训练参数,为T-GRU中两个输入分别为文本序列信息和文本主题信息的GRU神经单元的输出,为所述文本的第j句第i个词和主题词输入T-GRU后的输出,即所述融合单元的输出,δ、tanh分别为sigmoid激活函数和双曲正切激活函数;
所述词汇注意力机制用于将组成句子的词汇信息进行加权融合以得到句子的向量表示,即句向量;
所述句子编码器使用递归神经网络对所述句向量进行处理以得到每个句子的句编码,所述句编码为融合了历史句向量语义的当前句向量的编码表示;
所述句子注意力机制对组成所述文本的每个句子的句编码进行加权融合得到所述文本的语义向量;
Kronecker乘积模块对所述语义向量进行历史语义存储、语义解释处理,使其当前语义和历史语义进行关联,获取语义关联矩阵。
2.根据权利要求1所述的方法,其特征在于,所述主题生成模型为LDA模型。
3.根据权利要求2所述的方法,其特征在于,所述多个主题词利用K-means聚类进行分类,分类后按照类及所述主题词的信息熵权重对所述多个主题词进行排序。
4.根据权利要求3所述的方法,其特征在于,所述词转化为词嵌入向量通过采用字符嵌入和词汇嵌入结合的嵌入方式进行转化。
8.根据权利要求7所述的方法,其特征在于,所述Kronecker乘积模块包括语义存储模块、语义选择模块和语义解释模块;
所述语义存储模块通过下式计算语义信息关系M1:
p=softmax(WTo+b);
其中,λ、ε分别为衰减系数和限制常数,n′为所述神经网络模型训练时的迭代次数,||·||F表示Frobenius范数,Wh为GRU的记忆门的待训练的参数,为每次训练迭代中GRU的记忆门的待训练的参数Wh的平均矩阵;
所述语义选择模块通过下式计算语义t(s):
其中,p(s)是所述o对应的内部表示,Wc为GRU中重置门的训练参数权重,Hj为第j个句子中T-GRU的输出的和,即||·||表示1范数,Ω为所述文本的单词的重要性的权重Ωj(i)之和,即s表示迭代的次数,设为固定值或者t(s)迭代到无明显变化时停止迭代,语义初始值t(0)通过下式计算:
其中,similarity(m1,m2)表示所述文本的第一、二个词汇注意力向量m1、m2的相似性函数;
所述语义解释模块通过下式得到加强的语义M2:
基于所述M2,通过下式计算词汇关联矩阵Mk第k行第l列的元素值:
其中,k=i*j,pl是所述文本中第l个单词对应的概率,且l≠i*j,由位于词汇编码器上层的全连接层和分类层得到;
最终得到所述文本的词汇关联矩阵Mk:
其中||·||2为矩阵2范数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110724504.8A CN113536804B (zh) | 2021-06-29 | 2021-06-29 | 一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110724504.8A CN113536804B (zh) | 2021-06-29 | 2021-06-29 | 一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113536804A CN113536804A (zh) | 2021-10-22 |
CN113536804B true CN113536804B (zh) | 2022-05-03 |
Family
ID=78097072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110724504.8A Active CN113536804B (zh) | 2021-06-29 | 2021-06-29 | 一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536804B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114564958B (zh) * | 2022-01-11 | 2023-08-04 | 平安科技(深圳)有限公司 | 文本识别方法、装置、设备及介质 |
CN114881040B (zh) * | 2022-05-12 | 2022-12-06 | 桂林电子科技大学 | 一种段落的语义信息处理方法、装置及存储介质 |
CN116681087B (zh) * | 2023-07-25 | 2023-10-10 | 云南师范大学 | 一种基于多阶段时序和语义信息增强的自动问题生成方法 |
CN117786092B (zh) * | 2024-02-27 | 2024-05-14 | 成都晓多科技有限公司 | 一种商品评论关键短语提取方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977220A (zh) * | 2019-04-09 | 2019-07-05 | 中通服公众信息产业股份有限公司 | 一种基于关键句和关键字的反向生成摘要的方法 |
CN110134771A (zh) * | 2019-04-09 | 2019-08-16 | 广东工业大学 | 一种基于多注意力机制融合网络问答系统的实现方法 |
WO2021000362A1 (zh) * | 2019-07-04 | 2021-01-07 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN112287687A (zh) * | 2020-09-17 | 2021-01-29 | 昆明理工大学 | 基于案件属性感知的案件倾向性抽取式摘要方法 |
-
2021
- 2021-06-29 CN CN202110724504.8A patent/CN113536804B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977220A (zh) * | 2019-04-09 | 2019-07-05 | 中通服公众信息产业股份有限公司 | 一种基于关键句和关键字的反向生成摘要的方法 |
CN110134771A (zh) * | 2019-04-09 | 2019-08-16 | 广东工业大学 | 一种基于多注意力机制融合网络问答系统的实现方法 |
WO2021000362A1 (zh) * | 2019-07-04 | 2021-01-07 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN112287687A (zh) * | 2020-09-17 | 2021-01-29 | 昆明理工大学 | 基于案件属性感知的案件倾向性抽取式摘要方法 |
Non-Patent Citations (2)
Title |
---|
基于双记忆注意力的方面级别情感分类模型;曾义夫 等;《计算机学报》;20190831;全文 * |
基于自注意力的扩展卷积神经网络情感分类;陆敬筠等;《计算机工程与设计》;20200615(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113536804A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113536804B (zh) | 一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法 | |
CN112115687B (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
CN111831789A (zh) | 一种基于多层语义特征提取结构的问答文本匹配方法 | |
CN112232053B (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN111414481A (zh) | 基于拼音和bert嵌入的中文语义匹配方法 | |
CN111125333B (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN112732916A (zh) | 一种基于bert的多特征融合模糊文本分类模型 | |
CN113220890A (zh) | 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN114492441A (zh) | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 | |
Pa et al. | Automatic Myanmar image captioning using CNN and LSTM-based language model | |
CN117094291B (zh) | 基于智能写作的自动新闻生成系统 | |
CN112199503B (zh) | 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法 | |
CN110929476A (zh) | 一种基于混合粒度注意力机制的任务型多轮对话模型构建方法 | |
Cavalieri et al. | Combination of language models for word prediction: An exponential approach | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN113239678B (zh) | 一种面向答案选择的多角度注意力特征匹配方法及系统 | |
CN114595700A (zh) | 融合零代词与篇章信息的汉越神经机器翻译方法 | |
CN113947072A (zh) | 一种文本纠错方法及文本纠错装置 | |
Chao et al. | Automatic spelling correction for asr corpus in traditional chinese language using seq2seq models | |
CN112651225A (zh) | 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法 | |
CN117932066A (zh) | 一种基于预训练的“提取-生成”式答案生成模型及方法 | |
CN114492464B (zh) | 一种基于双向异步序列的对话生成方法及系统 | |
Golech et al. | A complete human verified Turkish caption dataset for MS COCO and performance evaluation with well-known image caption models trained against it | |
CN113343648B (zh) | 基于潜在空间编辑的文本风格转换方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |