CN107480132A - 一种基于图像内容的古诗词生成方法 - Google Patents

一种基于图像内容的古诗词生成方法 Download PDF

Info

Publication number
CN107480132A
CN107480132A CN201710610311.3A CN201710610311A CN107480132A CN 107480132 A CN107480132 A CN 107480132A CN 201710610311 A CN201710610311 A CN 201710610311A CN 107480132 A CN107480132 A CN 107480132A
Authority
CN
China
Prior art keywords
mrow
msub
vector
msubsup
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710610311.3A
Other languages
English (en)
Inventor
宣琦
李甫宪
张剑
殳欣成
陈壮志
俞山青
陈晋音
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201710610311.3A priority Critical patent/CN107480132A/zh
Publication of CN107480132A publication Critical patent/CN107480132A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于图像内容的古诗词生成方法,包括以下步骤:1)基于单次多框目标检测框架对图像内容进行目标检测得到物体的名称;2)采用中文词法分析工具对设定数量首唐诗进行分词,得到词汇表,利用word2vec工具对词汇表中每一个词进行特征学习,将每一个词映射到向量空间;3)将得到的物体名称输入word2vec工具后得到物体名称映射向量,计算其与古诗词向量之间的余弦相似度,设定阈值后选择部分作为该物体对应的主题词;4)利用主题词扩展关键词,将关键词输入学习唐诗后得到的RNN模型进行古诗词生成。本发明采用目标检测算法与循环神经网络算法结合的方法生成古诗词,且古诗词与图像内容相关性较强,且具有更好的连贯性。

Description

一种基于图像内容的古诗词生成方法
技术领域
本发明涉及深度学习、计算机视觉以及自然语言处理领域,特别是涉及一种基于图像内容的古诗词生成方法。
背景技术
随着深度学习的火热发展,以卷积神经网络(Convolutional Neural Networks,CNN)和循环神经网络(Recurrent Neural Networks,RNN)为代表的深度学习框架已在计算机视觉和自然语言处理领域得到广泛应用。在计算机视觉方面,基于CNN框架改良的深度残差网络(Deep Residual Networks,ResNet)、快速区域卷积神经网络(Faster Region-Based Convolutional Neural Networks,Faster R-CNN)、全卷积神经网络(FullyConnected Networks,FCN)分别在图像分类、目标检测、目标分割领域取得最好效果。在自然语言处理领域,传统古诗词生成被看作是一个机器翻译问题,将上一句诗词作为源语言,下一句诗词作为目标语言,经过统计机器翻译模型进行翻译,并加上平仄押韵等约束。通过不断重复这个过程,得到一首完整的诗词。
如今,两种代表性网络框架CNN与RNN的结合已经应用在多个研究领域。例如:Google利用CNN与RNN结合生成可以描述图片的句子(Vinyals O,Toshev A,Bengio S,etal.Show and tell:A neural image caption generator[C]//Computer Vision andPattern Recognition.IEEE,2015:3156-3164.);Bohyung Han利用CNN与长短期记忆(LongShort Term Memory,LSTM)网络结合的方法,对基于图像内容提出的问题进行解答(Noh H,Seo P H,Han B.Image Question Answering Using Convolutional Neural Networkwith Dynamic Parameter Prediction[C]//Computer Vision and PatternRecognition.IEEE,2016:30-38.);Trevor Darrell利用CNN与LSTM结合的方法对图像进行自然语言检索,匹配出符合语言描述的图像(Hu R,Xu H,Rohrbach M,et al.NaturalLanguage Object Retrieval[J].2015:4555-4564.)。
因此,结合图像生成符合图像内容、环境的古诗词成为一种可行性较高的方法。
发明内容
为了克服现有技术方案无法根据图像内容来生成与其相关的古诗词的不足,本发明提出一种有效实现根据图像生成古诗词的基于图像内容的古诗词生成方法,采用目标检测算法与循环神经网络算法结合的方法生成古诗词,且古诗词与图像内容相关性较强,且具有更好的连贯性。
本发明实现上述发明目的所采用的技术方案为:
一种基于图像内容的古诗词生成方法,包括以下步骤:
S1:基于单次多框目标检测(Single Shot MultiBox Detector,SSD)框架对图像内容进行目标检测,得到图像中包含物体的名称;
S2:利用中文词法分析工具(THU Lexical Analyzer for Chinese,THULAC)对设定数量(例如五万)首唐诗进行分词,得到相应词汇表;利用word2vec工具对词汇表中每一个词进行特征学习,将每一个词映射到向量空间;
S3:将S1中得到的物体名称输入word2vec工具后得到物体名称映射向量,计算其与古诗词向量之间的余弦相似度,设定阈值后选择部分作为该物体对应的主题词;
S4:利用主题词扩展关键词,将关键词输入学习唐诗后得到的RNN模型进行古诗词生成。
进一步,所述步骤S1中,SSD检测框架以经典目标检测框架为基础,辅以卷积特征层和卷积滤波器结构实现快速检测图像中的目标,给出图像中包括的物体名称。
再进一步,所述步骤S2中,利用中文词法分析工具THULAC对设定数量首唐诗进行分词,首先以标点符号作为句子之间的划分,从而对句子进行分词,进而得到词汇表,利用word2vec工具对每一个词汇转化为空间向量。
所述步骤S3中,将S1中得到的物体名称输入word2vec工具后,得到该物体名称空间向量计算该向量与S2词汇表中的各个词汇向量的余弦相似度:
其中n表示向量维度;
同时设定阈值ε,当且仅当Similarityx≥ε时,保留对应的词作为该物体对应主题词,其余去除。
所述步骤S4中,操作过程如下:第一步,随机选取一个对应主题词,对主题词进行扩展,生成多个关键词,关键词均来自于ShiXueHanYing诗歌短语分类系统,该系统包含了1016种人工构建的短语聚类,每一个聚类都被一个关键词所标记以描述某个主题,而后在满足音韵模式等限制的基础上产生所有可能的短语结合体,即诗歌第一句。对所有的候选诗句应用基于字符的RNN语言模型进行评分,评分最高作为诗歌第一句。
第二步,基于第一句生成第二句,而后的所有下一句诗歌都基于之前所产生的所有诗句生成;给出所有已生成的诗歌S1:i(i≥1),计算第Si+1句的概率:
其中Si+1=w1,w2,w3,..,wm,且P(wj+1|w1:j,S1:i)是在给出第Si+1句的所有已产生的第1到j个字符w1:j和所有已产生的诗句S1:i的基础上来生成第Si+1句的第j+1个字符wj+1的条件概率;
首先,当前所有行S1:i在经过句子级卷积神经网络CSM后被转换为一系列向量v1:i,记为:
vi=CSM(Si)
然后,循环上下文模型Recurrent Context Model,RCM)将v1:i作为模型的输入从而输出记为:
最后,和Si+1行的前j个字符w1:j作为循环生成模型(RecurrentGeneration Model,RGM)的输入计算其中k属于字符集合V,即为第j+1在V上所有字符的概率,记为:
CSM模型通过顺序合并相邻向量计算出句子的连续表示,在前两层中合并相邻的两个向量,其余层合并相邻的三个向量,给定一个句子S=w1,w2,w3,..,wm,第一层表示为:
T1=[L·e(w1),L·e(w2),…,L·e(wm)]
N1=m
其中,V表示字符集合,L∈Rq×|V|表示字符的嵌入矩阵,它的每一列表示每一个字符的向量,q为隐藏节点个数,e(wi)∈R|V|×1表示wi的one-hot编码,Tl是第l层的句子的表示,Nl是第l层矩阵列的数量;
第l+1层表示为:
Nl+1=Nl-n+1
1≤j≤Nl+1
其中,Cl,n表示权重矩阵,表示元素点乘,σ为softmax函数;
将前i行的向量作为输入,合并为一个向量,然后输出层把这一个向量解码为多个不同的向量,即每个向量对应第i+1行每一个位置的字符,计算过程如下:
h0=0
1≤j≤m-1
其中,v1,v2,…,vi表示前i行的向量,hi∈Rq×1是前i行的合并表示,通过矩阵M∈Rq ×2q获得,矩阵Uj表示用于将hi解码为
RGM模型通过考虑RCM模型输出的向量和当前行已产生字符的one-hot编码来得到下一个字符的概率分布,计算过程如下:
r0=0
yj+1=Y·rj
其中,矩阵H∈Rq×q将前i行向量转换为隐藏表示,矩阵X∈Rq×|V|将字符转换为隐藏表示,矩阵R∈Rq×q完成循环转换,矩阵Y∈R|V|×q将隐藏表示解码为字符集中所有字符的权重,rj是RGM模型在第j步的隐藏层,yj+1是RGM模型在第j步的输出,σ为sofmax函数;最后得到第i+1行的概率:
在训练模型过程中,损失函数是预测的字符分布和真实的字符分布的交叉熵,同时加入|L|2正则化项,RGM模型输出层的交叉熵损失反向传播到隐藏层、输入层,然后到RCM模型,最后到CSM模型。
与现有的技术相比,本发明的有益效果是:采用目标检测算法与循环神经网络算法结合的方法,通过对图像的检测得到主题词,而后根据主题词扩展关键词,根据关键词进行古诗生成,生成的古诗词与图像内容相关性较强,且具有更好的连贯性。
附图说明
图1为基于图像内容的古诗词生成方法流程图;
图2为word2vec计算与“船”的余弦相似度的词汇列表;
图3为基于RNN诗歌生成模型图;
图4为句子级卷积网络模型示意图。
具体实施方式
下面结合说明书附图对本发明做进一步说明。
参照图1~图4,一种基于图像内容的古诗词生成方法,本发明采用SSD目标检测对图像进行检测,同时用使用RNN对近五万首唐诗进行特征学习得到古诗词生成模型。
本发明包括以下步骤:
S1:基于单次多框目标检测(Single Shot MultiBox Detector,SSD)框架对图像内容进行目标检测,得到图像中包含物体的名称。
S2:利用中文词法分析工具(THU Lexical Analyzer for Chinese,THULAC)对近五万首唐诗进行分词,得到相应词汇表。利用word2vec工具对词汇表中每一个词进行特征学习,将每一个词映射到向量空间。
S3:将S1中得到的物体名称输入word2vec工具后得到物体名称映射向量,计算其与诗词向量之间的余弦相似度,设定阈值后选择部分作为该物体对应的主题词。
S4:利用主题词扩展关键词,将关键词输入学习唐诗后得到的RNN模型进行古诗词生成。
进一步,所述步骤S1中,SSD检测框架以经典目标检测框架为基础,辅以卷积特征层、卷积滤波器等结构实现快速检测图像中的目标,给出图像中包括的物体名称。
再进一步,所述步骤S2中,利用中文词法分析工具THULAC对近五万唐诗进行分词,首先以标点符号作为句子之间的划分,从而对句子进行分词,如对诗词怨情中句子“但见泪痕湿,不知心恨谁”分词为“但/见/泪痕/湿,不知/心恨/谁”,进而得到词汇表,利用word2vec工具对每一个词汇转化为空间向量。
更进一步,所述步骤S3中,将S1中得到的物体名称输入word2vec工具后,得到该物体名称空间向量计算该向量与S2词汇表中的各个词汇向量的余弦相似度:
其中n表示向量维度,可取100,200或500。
同时设定阈值ε=0.75,当且仅当Similarityx≥ε时,保留对应的词作为该物体对应主题词,其余去除。如图2所示,将“船”输入后得到一系列对应的主题词。
所述步骤S4中,具体操作过程如下:第一步,随机选取一个对应主题词,对主题词进行扩展,生成多个关键词,关键词均来自于ShiXueHanYing诗歌短语分类系统,该系统包含了1016种人工构建的短语聚类,每一个聚类都被一个关键词所标记以描述某个主题,而后在满足音韵模式等限制的基础上产生所有可能的短语结合体,即诗歌第一句。对所有的候选诗句应用基于字符的RNN语言模型进行评分,评分最高作为诗歌第一句。
第二步,基于第一句生成第二句,而后的所有下一句诗歌都基于之前所产生的所有诗句生成。给出所有已生成的诗歌S1:i(i≥1),计算第Si+1句的概率:
其中Si+1=w1,w2,w3,..,wm,且P(wj+1|w1:j,S1:i)是在给出第Si+1句的所有已产生的第1到j个字符w1:j和所有已产生的诗句S1:i的基础上来生成第Si+1句的第j+1个字符wj+1的条件概率。
如图3所示基于RNN诗歌生成模型图。首先,当前所有行S1:i在经过句子级卷积神经网络(Convolutional Sentence Model,CSM)后被转换为一系列向量v1:i。记为:
vi=CSM(Si)
然后,循环上下文模型Recurrent Context Model,RCM)将v1:i作为模型的输入从而输出记为:
最后,和Si+1行的前j个字符w1:j作为循环生成模型(RecurrentGeneration Model,RGM)的输入计算其中k属于字符集合V,即为第j+1在V上所有字符的概率。记为:
其中,如图4所示,CSM模型通过顺序合并相邻向量计算出句子的连续表示,在前两层中合并相邻的两个向量,其余层合并相邻的三个向量。给定一个句子S=w1,w2,w3,..,wm,第一层表示为:
T1=[L·e(w1),L·e(w2),…,L·e(wm)]
N1=m
其中,V表示字符集合,L∈Rq×|V|表示字符的嵌入矩阵,它的每一列表示每一个字符的向量,q为隐藏节点个数,e(wi)∈R|v|×1表示wi的one-hot编码,Tl是第l层的句子的表示,Nl是第l层矩阵列的数量。
第l+1层表示为:
Nl+1=Nl-n+1
1≤j≤Nl+1
其中,Cl,n表示权重矩阵,表示元素点乘,σ为softmax函数。
如图3所示,RCM模型的作用是将前i行的向量作为输入,合并为一个向量,然后输出层把这一个向量解码为多个不同的向量,即每个向量对应第i+1行每一个位置的字符。计算过程如下:
h0=0
1≤j≤m-1
其中,v1,v2,…,vi表示前i行的向量,hi∈Rq×1是前i行的合并表示,通过矩阵M∈Rq ×2q获得。矩阵Uj表示用于将hi解码为
如图3所示,RGM模型通过考虑RCM模型输出的向量和当前行已产生字符的one-hot编码来得到下一个字符的概率分布。计算过程如下:
r0=0
yj+1=Y·rj
其中,矩阵H∈Rq×q将前i行向量转换为隐藏表示,矩阵X∈Rq×|V|将字符转换为隐藏表示,矩阵R∈Rq×q完成循环转换,矩阵Y∈R|V|×q将隐藏表示解码为字符集中所有字符的权重,rj是RGM模型在第j步的隐藏层,yj+1是RGM模型在第j步的输出,σ为sofmax函数。最后得到第i+1行的概率:
在训练模型过程中,损失函数是预测的字符分布和真实的字符分布的交叉熵,同时加入|L|2正则化项。RGM模型输出层的交叉熵损失反向传播到隐藏层、输入层,然后到RCM模型,最后到CSM模型。整个过程中,隐藏单元的大小(即q)为200。
如上所述为本发明基于图像内的容古诗词生成实施例介绍,本发明通过采用目标检测算法与循环神经网络算法结合的方法,通过对图像的检测得到主题词,而后根据主题词扩展关键词,根据关键词进行古诗生成,生成的古诗词与图像内容相关性较强,且具有更好的连贯性。对发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (5)

1.一种基于图像内容的古诗词生成方法,其特征在于:所述方法包括如下步骤:
S1:基于单次多框目标检测SSD框架对图像内容进行目标检测,得到图像中包含物体的名称;
S2:利用中文词法分析工具THULAC对现有设定数量首唐诗进行分词,得到相应词汇表,利用word2vec工具对词汇表中每一个词进行特征学习,将每一个词映射到向量空间;
S3:将S1中得到的物体名称输入word2vec工具后得到物体名称映射向量,计算其与古诗词向量之间的余弦相似度,设定阈值后选择部分作为该物体对应的主题词;
S4:利用主题词扩展关键词,将关键词输入学习唐诗后得到的RNN模型进行古诗词生成。
2.如权利要求1所述的一种基于图像内容的古诗词生成方法,其特征在于:所述步骤S1中,SSD检测框架以经典目标检测框架为基础,辅以卷积特征层和卷积滤波器结构实现快速检测图像中的目标,给出图像中包括的物体名称。
3.如权利要求1或2所述的一种基于图像内容的古诗词生成方法,其特征在于:所述步骤S2中,利用中文词法分析工具THULAC对设定数量首唐诗进行分词,首先以标点符号作为句子之间的划分,从而对句子进行分词,进而得到词汇表,利用word2vec工具对每一个词汇转化为空间向量。
4.如权利要求1或2所述的一种基于图像内容的古诗词生成方法,其特征在于:所述步骤S3中,将S1中得到的物体名称输入word2vec工具后,得到该物体名称空间向量计算该向量与S2词汇表中的各个词汇向量的余弦相似度:
其中n表示向量维度;
同时设定阈值ε,当且仅当Similarityx≥ε时,保留对应的词作为该物体对应主题词,其余去除。
5.如权利要求1或2所述的一种基于图像内容的古诗词生成方法,其特征在于:所述步骤S4中,操作过程如下:第一步,随机选取一个对应主题词,对主题词进行扩展,生成多个关键词,关键词均来自于ShiXueHanYing诗歌短语分类系统,该系统包含了1016种人工构建的短语聚类,每一个聚类都被一个关键词所标记以描述某个主题,而后在满足音韵模式等限制的基础上产生所有可能的短语结合体,即诗歌第一句。对所有的候选诗句应用基于字符的RNN语言模型进行评分,评分最高作为诗歌第一句。
第二步,基于第一句生成第二句,而后的所有下一句诗歌都基于之前所产生的所有诗句生成;给出所有已生成的诗歌S1:i,i≥1,计算第Si+1句的概率:
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>|</mo> <msub> <mi>S</mi> <mrow> <mn>1</mn> <mo>:</mo> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Pi;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mi>j</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>|</mo> <msub> <mi>w</mi> <mrow> <mn>1</mn> <mo>:</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>S</mi> <mrow> <mn>1</mn> <mo>:</mo> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow>
其中Si+1=w1,w2,w3,..,wm,且P(wj+1|w1:j,S1:i)是在给出第Si+1句的所有已产生的第1到j个字符w1:j和所有已产生的诗句S1:i的基础上来生成第Si+1句的第j+1个字符wj+1的条件概率;
首先,当前所有行S1:i在经过句子级卷积神经网络CSM后被转换为一系列向量v1:i,记为:
vi=CSM(Si)
然后,循环上下文模型Recurrent Context Model,RCM)将v1:i作为模型的输入从而输出记为:
<mrow> <msubsup> <mi>u</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>=</mo> <mi>R</mi> <mi>C</mi> <mi>M</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mrow> <mn>1</mn> <mo>:</mo> <mi>i</mi> </mrow> </msub> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow>
最后,和Si+1行的前j个字符w1:j作为循环生成模型(Recurrent GenerationModel,RGM)的输入计算其中k属于字符集合V,即为第j+1在V上所有字符的概率,记为:
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mi>j</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>|</mo> <msub> <mi>w</mi> <mrow> <mn>1</mn> <mo>:</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msubsup> <mi>u</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mi>R</mi> <mi>G</mi> <mi>M</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mn>1</mn> <mo>:</mo> <mi>j</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msubsup> <mi>u</mi> <mi>i</mi> <mrow> <mn>1</mn> <mo>:</mo> <mi>j</mi> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow>
CSM模型通过顺序合并相邻向量计算出句子的连续表示,在前两层中合并相邻的两个向量,其余层合并相邻的三个向量,给定一个句子S=w1,w2,w3,..,wm,第一层表示为:
T1=[L·e(w1),L·e(w2),…,L·e(wm)]
N1=m
其中,V表示字符集合,L∈Rq×|V|表示字符的嵌入矩阵,它的每一列表示每一个字符的向量,q为隐藏节点个数,e(wi)∈R|V|×1表示wi的one-hot编码,Tl是第l层的句子的表示,Nl是第l层矩阵列的数量;
第l+1层表示为:
<mrow> <msubsup> <mi>T</mi> <mrow> <mo>:</mo> <mo>,</mo> <mi>j</mi> </mrow> <mrow> <mi>l</mi> <mo>+</mo> <mn>1</mn> </mrow> </msubsup> <mo>=</mo> <mi>&amp;sigma;</mi> <mrow> <mo>(</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>T</mi> <mrow> <mo>:</mo> <mo>,</mo> <mi>j</mi> <mo>+</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>l</mi> </msubsup> <mo>&amp;CircleTimes;</mo> <msubsup> <mi>C</mi> <mrow> <mo>:</mo> <mo>,</mo> <mi>i</mi> </mrow> <mrow> <mi>l</mi> <mo>,</mo> <mi>n</mi> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow>
Nl+1=Nl-n+1
1≤j≤Nl+1
其中,Cl,n表示权重矩阵,表示元素点乘,σ为softmax函数;
将前i行的向量作为输入,合并为一个向量,然后输出层把这一个向量解码为多个不同的向量,即每个向量对应第i+1行每一个位置的字符,计算过程如下:
h0=0
<mrow> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>&amp;sigma;</mi> <mrow> <mo>(</mo> <mi>M</mi> <mo>&amp;CenterDot;</mo> <mo>&amp;lsqb;</mo> <mtable> <mtr> <mtd> <msub> <mi>v</mi> <mi>i</mi> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>h</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mtd> </mtr> </mtable> <mo>&amp;rsqb;</mo> <mo>)</mo> </mrow> </mrow>
<mrow> <msubsup> <mi>u</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>=</mo> <mi>&amp;sigma;</mi> <mrow> <mo>(</mo> <msub> <mi>U</mi> <mi>j</mi> </msub> <mo>&amp;CenterDot;</mo> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>
1≤j≤m-1
其中,v1,v2,…,vi表示前i行的向量,hi∈Rq×1是前i行的合并表示,通过矩阵M∈Rq×2q获得,矩阵Uj表示用于将hi解码为
RGM模型通过考虑RCM模型输出的向量和当前行已产生字符的one-hot编码来得到下一个字符的概率分布,计算过程如下:
r0=0
<mrow> <msub> <mi>r</mi> <mi>j</mi> </msub> <mo>=</mo> <mi>&amp;sigma;</mi> <mo>(</mo> <mi>R</mi> <mo>&amp;CenterDot;</mo> <msub> <mi>r</mi> <mrow> <mi>j</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <mi>X</mi> <mo>&amp;CenterDot;</mo> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>H</mi> <mo>&amp;CenterDot;</mo> <msubsup> <mi>u</mi> <mi>i</mi> <mi>j</mi> </msubsup> </mrow>
yj+1=Y·rj
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mi>j</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <mi>k</mi> <mo>|</mo> <msub> <mi>w</mi> <mrow> <mn>1</mn> <mo>:</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msubsup> <mi>u</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <msup> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>j</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> </msup> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mi>V</mi> <mo>|</mo> </mrow> </msubsup> <msup> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mrow> <mi>j</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> </msup> </mrow> </mfrac> </mrow>
其中,矩阵H∈Rq×q将前i行向量转换为隐藏表示,矩阵X∈Rq×|V|将字符转换为隐藏表示,矩阵R∈Rq×q完成循环转换,矩阵Y∈R|V|×q将隐藏表示解码为字符集中所有字符的权重,rj是RGM模型在第j步的隐藏层,yj+1是RGM模型在第j步的输出,σ为sofmax函数;最后得到第i+1行的概率:
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>|</mo> <msub> <mi>S</mi> <mrow> <mn>1</mn> <mo>:</mo> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Pi;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mi>j</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>|</mo> <msub> <mi>w</mi> <mrow> <mn>1</mn> <mo>:</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>S</mi> <mrow> <mn>1</mn> <mo>:</mo> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow>
在训练模型过程中,损失函数是预测的字符分布和真实的字符分布的交叉熵,同时加入|L|2正则化项,RGM模型输出层的交叉熵损失反向传播到隐藏层、输入层,然后到RCM模型,最后到CSM模型。
CN201710610311.3A 2017-07-25 2017-07-25 一种基于图像内容的古诗词生成方法 Pending CN107480132A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710610311.3A CN107480132A (zh) 2017-07-25 2017-07-25 一种基于图像内容的古诗词生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710610311.3A CN107480132A (zh) 2017-07-25 2017-07-25 一种基于图像内容的古诗词生成方法

Publications (1)

Publication Number Publication Date
CN107480132A true CN107480132A (zh) 2017-12-15

Family

ID=60596776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710610311.3A Pending CN107480132A (zh) 2017-07-25 2017-07-25 一种基于图像内容的古诗词生成方法

Country Status (1)

Country Link
CN (1) CN107480132A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170676A (zh) * 2017-12-27 2018-06-15 百度在线网络技术(北京)有限公司 故事创作的方法、系统和终端
CN108874779A (zh) * 2018-06-21 2018-11-23 东北大学 基于K8s集群建立的依图写诗系统的控制方法
CN108984679A (zh) * 2018-06-29 2018-12-11 北京百度网讯科技有限公司 对话生成模型的训练方法和装置
CN109086270A (zh) * 2018-07-24 2018-12-25 重庆大学 基于古诗词语料向量化的自动作诗系统及其方法
CN109784165A (zh) * 2018-12-12 2019-05-21 平安科技(深圳)有限公司 诗词内容的生成方法、装置、终端及存储介质
CN110309510A (zh) * 2019-07-02 2019-10-08 中国计量大学 一种基于c-s和gru的看画题诗方法
CN110347854A (zh) * 2019-06-13 2019-10-18 西安理工大学 基于目标定位的图像检索方法
CN110414001A (zh) * 2019-07-18 2019-11-05 腾讯科技(深圳)有限公司 语句生成方法和装置、存储介质及电子装置
WO2019242001A1 (en) * 2018-06-22 2019-12-26 Microsoft Technology Licensing, Llc Method, computing device and system for generating content
CN110738061A (zh) * 2019-10-17 2020-01-31 北京搜狐互联网信息服务有限公司 古诗词生成方法、装置、设备及存储介质
CN110825850A (zh) * 2019-11-07 2020-02-21 哈尔滨工业大学(深圳) 一种自然语言主题分类方法及装置
CN111291536A (zh) * 2018-11-21 2020-06-16 清华大学 一种自动生成诗歌的方法及系统
CN111814488A (zh) * 2020-07-22 2020-10-23 网易(杭州)网络有限公司 一种诗词生成方法、装置、电子设备及可读存储介质
CN112257775A (zh) * 2020-10-21 2021-01-22 东南大学 一种基于卷积神经网络和无监督语言模型的由图成诗方法
CN112434145A (zh) * 2020-11-25 2021-03-02 天津大学 一种基于图像识别和自然语言处理的看图作诗方法
CN112801234A (zh) * 2021-04-12 2021-05-14 中国人民解放军国防科技大学 基于神经网络的图像诗句描述生成方法、装置和设备
CN113010717A (zh) * 2021-04-26 2021-06-22 中国人民解放军国防科技大学 图像诗句描述生成方法、装置和设备
WO2021212601A1 (zh) * 2020-04-24 2021-10-28 平安科技(深圳)有限公司 一种基于图像的辅助写作方法、装置、介质及设备
CN113794915A (zh) * 2021-09-13 2021-12-14 海信电子科技(武汉)有限公司 服务器、显示设备、诗词歌赋生成方法及媒资播放方法
CN110738061B (zh) * 2019-10-17 2024-05-28 北京搜狐互联网信息服务有限公司 古诗词生成方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955964A (zh) * 2016-06-13 2016-09-21 北京百度网讯科技有限公司 一种自动生成诗歌的方法和装置
CN106569995A (zh) * 2016-09-26 2017-04-19 天津大学 基于语料库和格律规则的汉语古诗词自动生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955964A (zh) * 2016-06-13 2016-09-21 北京百度网讯科技有限公司 一种自动生成诗歌的方法和装置
CN106569995A (zh) * 2016-09-26 2017-04-19 天津大学 基于语料库和格律规则的汉语古诗词自动生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XINGXING ZHANG等: "Chinese Poetry Generation with Recurrent Neural Networks", 《PROCEEDINGS OF THE 2014 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING (EMNLP)》 *
ZHCHENG26: "SSD目标检测", 《中国专业IT社区CSDN--HTTPS://BLOG.CSDN.NET/ZHCHENG26/ARTICLE/DETAILS/70266380》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170676B (zh) * 2017-12-27 2019-05-10 百度在线网络技术(北京)有限公司 故事创作的方法、系统和终端
CN108170676A (zh) * 2017-12-27 2018-06-15 百度在线网络技术(北京)有限公司 故事创作的方法、系统和终端
CN108874779A (zh) * 2018-06-21 2018-11-23 东北大学 基于K8s集群建立的依图写诗系统的控制方法
CN108874779B (zh) * 2018-06-21 2021-09-21 东北大学 基于K8s集群建立的依图写诗系统的控制方法
WO2019242001A1 (en) * 2018-06-22 2019-12-26 Microsoft Technology Licensing, Llc Method, computing device and system for generating content
CN108984679A (zh) * 2018-06-29 2018-12-11 北京百度网讯科技有限公司 对话生成模型的训练方法和装置
CN108984679B (zh) * 2018-06-29 2022-05-10 北京百度网讯科技有限公司 对话生成模型的训练方法和装置
CN109086270A (zh) * 2018-07-24 2018-12-25 重庆大学 基于古诗词语料向量化的自动作诗系统及其方法
CN109086270B (zh) * 2018-07-24 2022-03-01 重庆大学 基于古诗词语料向量化的自动作诗系统及其方法
CN111291536A (zh) * 2018-11-21 2020-06-16 清华大学 一种自动生成诗歌的方法及系统
CN109784165A (zh) * 2018-12-12 2019-05-21 平安科技(深圳)有限公司 诗词内容的生成方法、装置、终端及存储介质
CN110347854A (zh) * 2019-06-13 2019-10-18 西安理工大学 基于目标定位的图像检索方法
CN110347854B (zh) * 2019-06-13 2022-02-22 西安理工大学 基于目标定位的图像检索方法
CN110309510A (zh) * 2019-07-02 2019-10-08 中国计量大学 一种基于c-s和gru的看画题诗方法
CN110414001A (zh) * 2019-07-18 2019-11-05 腾讯科技(深圳)有限公司 语句生成方法和装置、存储介质及电子装置
CN110414001B (zh) * 2019-07-18 2023-09-26 腾讯科技(深圳)有限公司 语句生成方法和装置、存储介质及电子装置
CN110738061A (zh) * 2019-10-17 2020-01-31 北京搜狐互联网信息服务有限公司 古诗词生成方法、装置、设备及存储介质
CN110738061B (zh) * 2019-10-17 2024-05-28 北京搜狐互联网信息服务有限公司 古诗词生成方法、装置、设备及存储介质
CN110825850A (zh) * 2019-11-07 2020-02-21 哈尔滨工业大学(深圳) 一种自然语言主题分类方法及装置
WO2021212601A1 (zh) * 2020-04-24 2021-10-28 平安科技(深圳)有限公司 一种基于图像的辅助写作方法、装置、介质及设备
CN111814488A (zh) * 2020-07-22 2020-10-23 网易(杭州)网络有限公司 一种诗词生成方法、装置、电子设备及可读存储介质
CN112257775A (zh) * 2020-10-21 2021-01-22 东南大学 一种基于卷积神经网络和无监督语言模型的由图成诗方法
CN112434145A (zh) * 2020-11-25 2021-03-02 天津大学 一种基于图像识别和自然语言处理的看图作诗方法
CN112801234A (zh) * 2021-04-12 2021-05-14 中国人民解放军国防科技大学 基于神经网络的图像诗句描述生成方法、装置和设备
CN113010717A (zh) * 2021-04-26 2021-06-22 中国人民解放军国防科技大学 图像诗句描述生成方法、装置和设备
CN113794915A (zh) * 2021-09-13 2021-12-14 海信电子科技(武汉)有限公司 服务器、显示设备、诗词歌赋生成方法及媒资播放方法

Similar Documents

Publication Publication Date Title
CN107480132A (zh) 一种基于图像内容的古诗词生成方法
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN108319686B (zh) 基于受限文本空间的对抗性跨媒体检索方法
CN108804530B (zh) 对图像的区域加字幕
CN111241294B (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN112100346B (zh) 基于细粒度图像特征和外部知识相融合的视觉问答方法
Li et al. Recurrent attention and semantic gate for remote sensing image captioning
CN107729311B (zh) 一种融合文本语气的中文文本特征提取方法
CN106295796A (zh) 基于深度学习的实体链接方法
CN108765383B (zh) 基于深度迁移学习的视频描述方法
CN110619313B (zh) 遥感图像判别性描述生成方法
CN109284406A (zh) 基于差异循环神经网络的意图识别方法
CN113886626B (zh) 基于多重注意力机制的动态记忆网络模型的视觉问答方法
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN113204675B (zh) 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
CN110415071A (zh) 一种基于观点挖掘分析的汽车竞品对比方法
Cheng et al. Stack-VS: Stacked visual-semantic attention for image caption generation
Li et al. Combining local and global features into a Siamese network for sentence similarity
CN113220891A (zh) 基于无监督的概念到句子的生成对抗网络图像描述算法
CN114254645A (zh) 一种人工智能辅助写作系统
Guan et al. Repeated review based image captioning for image evidence review
CN113807307A (zh) 一种用于视频多行为识别的多模态联合学习方法
CN115422939B (zh) 一种基于大数据的细粒度商品命名实体识别方法
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171215