CN111310867B - 一种基于图片的文本生成方法及装置 - Google Patents
一种基于图片的文本生成方法及装置 Download PDFInfo
- Publication number
- CN111310867B CN111310867B CN202010389908.1A CN202010389908A CN111310867B CN 111310867 B CN111310867 B CN 111310867B CN 202010389908 A CN202010389908 A CN 202010389908A CN 111310867 B CN111310867 B CN 111310867B
- Authority
- CN
- China
- Prior art keywords
- picture
- edited
- information corresponding
- target
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
Abstract
本申请提一种基于图片的文本生成方法及装置,其中,所述方法包括:确定至少一个目标垂直领域,根据待编辑图片对应所属的目标垂直领域获取所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息;根据所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息,生成所述待编辑图片对应的图片准确信息;根据所述待编辑图片对应的图片准确信息,通过本申请所述的文本生成模型生成所述待编辑图片对应的图片编辑文本。本申请通过针对目标垂直领域获取待编辑图片对应的图片准确信息,结合目标垂直领域编辑出具有专业性参考价值的图片编辑文本,从而辅助用户高效且准确的完成所在领域的专业文档编辑撰写工作。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种基于图片的文本生成方法、装置、计算设备及计算机可读存储介质。
背景技术
用户在进行写作等文章创作工作时,例如新闻类写作,需要将现场拍摄的图片信息转换为文字,该过程对用户在观察能力和先验知识要求较高,如果不能够准确识别图片中图片信息,就会出现用户对于图片的认识错误,并且会影响文章表述的准确性和写作效率。在现有技术中,将图片信息转换为文字的主要方式包括人工描述和开放域的图片识别及文字转换,其中,人工描述是指用户通过观察图片从而对图片内容进行人工编辑,开放域的图片识别及文字转换是指通过对图片进行目标检测,将图片中内容罗列供用户使用,然而,现有技术存在的问题在于,对于人工描述需要要求用户具有大量的专业知识,准确性难以保证,而开放域的图片识别及文字转换仅仅是将目标进行简单罗列,无法针对某个垂直领域,返回准确的图片信息,同时由于返回的文本内容为图片中目标名称的简单罗列,无法供用户直接使用且效率较低。
发明内容
有鉴于此,本申请实施例提供了一种基于图片的文本生成方法、装置、计算设备及计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种基于图片的文本生成方法,包括:
确定至少一个目标垂直领域,根据待编辑图片对应所属的目标垂直领域获取所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息;
根据所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息,生成所述待编辑图片对应的图片准确信息;
根据所述待编辑图片对应的图片准确信息,通过训练得到的文本生成模型生成所述待编辑图片对应的图片编辑文本。
根据本说明书实施例的第二方面,提供了一种基于图片的文本生成方法,包括:
确定至少一个目标垂直领域,根据待编辑图片对应所属的目标垂直领域获取所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息;
根据所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息,生成所述待编辑图片对应的图片准确信息;
根据所述待编辑图片对应的图片准确信息,通过预设的中文模板库生成所述待编辑图片对应的图片编辑文本。
根据本说明书实施例的第三层方面,提供了一种基于图片的文本生成装置,包括:
第三信息获取模块,被配置为确定至少一个目标垂直领域,根据待编辑图片对应所属的目标垂直领域获取所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息;
第二准确信息构建模块,被配置为根据所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息,生成所述待编辑图片对应的图片准确信息
第一文本生成模块,被配置为根据所述待编辑图片对应的图片准确信息,通过训练得到的文本生成模型生成所述待编辑图片对应的图片编辑文本。
根据本说明书实施例的第四方面,提供了一种基于图片的文本生成装置,包括:
第四信息获取模块,被配置为确定至少一个目标垂直领域,根据待编辑图片对应所属的目标垂直领域获取所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息;
第三准确信息构建模块,被配置为根据所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息,生成所述待编辑图片对应的图片准确信息;
第二文本生成模块,被配置为根据所述待编辑图片对应的图片准确信息,通过预设的中文模板库生成所述待编辑图片对应的图片编辑文本。
根据本说明书实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述文本生成模型的训练和基于图片的文本生成方法的步骤。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述文本生成模型的训练和基于图片的文本生成方法的步骤。
本申请通过针对目标垂直领域获取待编辑图片对应的图片准确信息,结合图片编辑文本涉及的文档类型或目标垂直领域内相关分类的模板式表达,编辑出符合要求的具有专业性参考价值的图片编辑文本,帮助用户能够快速了解待编辑图片中所包含的主要信息,并提供专业的图片编辑文本,从而辅助用户高效且准确的完成所在领域的专业文档编辑撰写工作,能够保证图片分析以及图片编辑文本的准确性和可用性。
附图说明
图1是本申请实施例提供的计算设备的结构框图;
图2是本申请实施例提供的目标识别模型的训练方法的流程图;
图3是本申请实施例提供的目标识别模型的模型架构示意图;
图4是本申请实施例提供的图片分类模型的训练方法的流程图;
图5是本申请实施例提供的图片分类模型的模型架构示意图;
图6是本申请实施例提供的基图片分类模型的模型组成结构示意图;
图7是本申请实施例提供的基于图片的信息提取方法的流程图;
图8是本申请实施例提供的基于图片的信息提取方法的另一流程图;
图9是本申请实施例提供的待编辑图片;
图10是本申请实施例提供的基于图片的信息提取方法的另一流程图;
图11是本申请实施例提供的文本生成模型的训练方法的流程图;
图12是本申请实施例提供的基于图片的文本生成方法的流程图;
图13是本申请实施例提供的基于图片的文本生成方法的另一流程图;
图14是本申请实施例提供的中文模板库构建方法的流程图;
图15是本申请实施例提供的基于待编辑图片的文本方法的整体流程图;
图16是本申请实施例提供的目标识别模型的训练装置的结构示意图;
图17是本申请实施例提供的图片分类模型的训练装置的结构示意图;
图18是本申请实施例提供的基于图片的信息提取装置的结构示意图;
图19是本申请实施例提供的文本生成模型的训练装置的结构示意图;
图20是本申请实施例提供的基于图片的文本生成装置的结构示意图;
图21是本申请实施例提供的基于图片的文本生成装置的另一结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
垂直领域:指专注于某一个大类的分类,例如专注于针对体育领域或政务领域,提供有关该领域的全部深度信息和相关服务。
待编辑图片:指需要进行描述文本生成的图片,例如需要转换为文字描述的新闻图片。
图片场景:指待编辑图片所描述的场景类别,可以是某一个垂直领域下的详细分类,例如政务领域下的合影场景、演讲场景等。
目标识别信息:利用目标识别技术从待编辑图片中识别出的相关图片内容信息,即将待编辑图片中属于目标垂直领域内的目标提取出来,例如对于导盲领域来说,各类的车辆、行人、交通标识、红绿灯都是需要关注的对象。
目标知识信息:根据待编辑图片中识别出的目标,通过知识数据库获取的所述目标对应的相关百科信息,如目标“姚明”对应的公开个人信息和篮球职业生涯信息等。
图片内容信息:将待编辑图片的目标识别信息和目标知识信息进行汇总后得到的描述待编辑图片的图片内容的信息。
图片分类信息:利用图片分类技术对待编辑图片进行分类后得到的待编辑图片所属垂直领域以及图片场景。
图片准确信息:将待编辑图片的图片分类信息和图片内容信息进行汇总后得到的描述待编辑图片的图片内容的结构化数据。
图片编辑文本:根据待编辑图片的图片准确信息,结合用户选择的文档类型或目标垂直领域生成的,具有属于特定写作领域并具有特定写作风格的反应待编辑图片的图片内容的文本。
深度学习模型:深度学习(deep learning)是一类模式分析方法的统称,就具体研究内容而言,主要涉及三类方法:(1)基于卷积运算的神经网络系统,即卷积神经网络(CNN)。(2)基于多层神经元的自编码神经网络,包括自编码(Auto encoder)以及近年来受到广泛关注的稀疏编码两类(Sparse Coding)。(3)以多层自编码神经网络的方式进行预训练,进而结合鉴别信息进一步优化神经网络权值的深度置信网络(DBN)。
双向循环神经网络:在某些任务中,当前时刻的输出不仅和过去的信息有关,还和后续时刻的信息有关,比如给定一个句子,即单词序列,每个单词的词性和上下文有关,因此可以增加一个按照时间的逆序来传递信息的网络层,增强网络的能力,双向循环神经网络(Bidirectional Recurrent Neural Network,Bi-RNN),它由两层循环神经网络组成,这两层网络都输入序列x,但是信息传递方向相反,假设第1层按时间顺序传递信息,第2层按时间逆序传递信息,这两层在时刻t的隐状态分别为ht(1)和ht(2)文档类型,将ht(1)和ht(2)进行拼接得到最终输出的隐状态向量。
文档类型:文档类型是指使用该文档的具体场景或写作风格下对应的文章类别,例如人民网中的文档多为新闻类、经济网中的文档多为记叙类或学术类等等。
在本申请中,提供了一种基于图片的辅助写作方法、装置、计算设备及计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的目标识别模型的训练方法的示意性流程图,包括步骤202至步骤204。
步骤202:获取目标识别训练样本和对应的目标识别训练标签,其中,所述目标识别训练样本包括至少一个目标垂直领域对应的样本图片集合,所述目标识别训练标签包括所述样本图片集合中每个样本图片的标注信息,其中,所述标注信息包括目标类型和目标位置坐标。
在本申请的实施例中,本申请针对至少一个目标垂直领域,获取至少一个目标垂直领域对应的样本图片集合,例如,目标垂直领域为体育领域和/或政务领域,通过获取在体育领域内的运动员域和/或政务领域内的公务人员参加各类活动或事件的图片构从而构建样本图片集合,并采用人工标注的方式对每个样本图片进行标注从而形成目标识别训练标签,标注信息包括目标类型以及目标位置的左上和右下边界坐标,其中,所述目标类型可以是样本图片中出现的目标,例如人物或事物,所述目标位置的左上和右下边界坐标用于指示目标类型出现在样本图片中的区域。
步骤204:通过所述目标识别训练样本和对应的目标识别训练标签对目标识别模型进行训练,根据所述目标识别模型的损失值调整目标识别模型的参数直至满足训练终止条件。
在本申请的实施例中,本申请通过所述目标识别训练样本和对应的目标识别训练标签对初始化的Fast R-CNN模型进行微调(fine-tune)训练,得到针对至少一个垂直领域进行目标检测的目标识别模型,用于识别待编辑图片中的目标和位置并得到结果{种类:人物,位置[xx,xx,xxx,xxx]},其中,所述Fast R-CNN模型的架构如图3所示,在进行训练时,所述Fast R-CNN网络将整张固定大小为224×224的所述样本图片和一组标注信息作为输入,模型首先使用5个卷积层和2个最大池化层处理整张样本图片从而产生卷积特征图,然后将第5卷积层的输出和约2000个候选区域(region proposal)输入至RoI(Region ofInterest)池化层中,RoI池化层用于从卷积特征图中抽取出一个固定尺寸的特征向量,再经过两个输出均为4096维的全连接层后,分别经过并列的输出各为21维和84维的全连接层最终分裂成两个并行的输出层,一个用于对应每个目标垂直领域的归一化概率,一个针对每个目标输出四个实数值,每组实数值编码对应目标的约束框(bundingbox)的位置。
本申请通过初始化的深度学习模型,结合针对目标垂直领域的训练数据进行微调训练,得到能够对待编辑图片进行针对目标垂直领域的目标识别,实现了对于待编辑图片具有针对性的信息提取,保证了信息提取的准确性和专业性。
其中,处理器120可以执行图4所示方法中的步骤。图4是示出了根据本申请一实施例的图片分类模型的训练方法的示意性流程图,包括步骤402至步骤404。
步骤402:获取分类训练样本和对应的分类训练标签,其中,所述分类训练样本包括至少一个目标垂直领域对应的样本图片集合,所述领域分类训练标签包括所述样本图片集合中每个样本图片所属的目标垂直领域和每个样本图片所属的图片场景。
在本申请的实施例中,本申请针对至少一个目标垂直领域,获取至少一个目标垂直领域对应的样本图片集合,例如,目标垂直领域为体育领域和/或政务领域,通过获取在体育领域内的运动员域和/或政务领域内的公务人员参加各类活动或事件的图片构从而构建样本图片集合,并根据样本图片所属的目标垂直领域和每个样本图片所属的图片场景作为预设的分类标签,例如体育、政务、比赛和合影等。
步骤404:通过所述分类训练样本和对应的分类训练标签对图片分类模型进行训练,根据所述图片分类模型的损失值调整图片分类模型的参数直至满足训练终止条件。
在本申请的实施例中,本申请通过所述分类训练样本和对应的分类标签对签对初始化的卷积神经网络模型进行训练,得到针对至少一个目标垂直领域和每个目标垂直领域内具体图片场景的图片分类模型,其中,所述卷积神经网络模型的架构如图5所示,在进行训练时,将固定大小为798x798x3的样本图片输入至多个卷积层中进行卷积操作,然后将最后一层卷积层输出的卷积特征图通过最大池化层进行最大池化操作,得到最终尺寸为1 x1 x 3的卷积特征图并经过全连接层降维得到1xN维度的向量,其中,N代表样本图片对应N类目标垂直领域和图片场景的分类概率,并将最大值作为样本图片最终得预测结果。
在本申请的实施例中,所述图片场景分类模型包括图片领域分类模型和至少一个图片场景分类模型。具体的,如图6所示,本申请首先对待编辑图片进行目标垂直领域分类,然后根据待编辑图片所属的目标垂直领域采用对应领域的图片场景分类模型进行二次分类,得到待编辑图片所属的图片场景,例如,待编辑图片通过所述图片领域分类模型进行分类后属于目标垂直领域A,则将待编辑图片进一步输入至目标垂直领域A对应的图片场景分类模型A中,得到目标垂直领域A下的图片场景a1。
本申请通过利用至少一个目标垂直领域对应的样本图片集合对卷积神经网络的深度学习模型进行训练,得到了能够准确对待编辑图片进行目标垂直领域以及图片场景的图片分类模型,从而实现了针对垂直领域的图片分类。
其中,处理器120可以执行图7所示方法中的步骤。图7是示出了根据本申请一实施例的基于图片的信息提取方法的示意性流程图,包括步骤702至步骤706。
步骤702:通过本申请所述的目标识别模型和预设的知识数据库对所述待编辑图片进行图片信息提取,得到所述待编辑图片在所属的目标垂直领域中对应的图片内容信息。
在本申请的实施例中,如图8所示,通过本申请所述的目标识别模型和预设的知识数据库对所述待编辑图片进行图片信息提取,得到所述待编辑图片在所属的目标垂直领域中对应的图片内容信息,包括步骤802至步骤806。
步骤802:通过本申请所述的目标识别模型对所述待编辑图片进行目标检测,得到所述待编辑图片在所属的目标垂直领域中对应的目标识别信息。
在本申请的实施例中,本申请的系统或终端通过目标识别技术,利用本申请的针对至少一个目标垂直领域进行目标识别,获取待编辑图片中出现的属于目标垂直领域内的目标种类信息和目标位置信息,具体的,如图9所示,在待编辑图片P的图片内容为篮球运动动员“张三”和“李四”的合影的情况下,将待编辑图片P输入至基于目标垂直领域为体育、政务和其他的相关训练数据训练出的目标识别模型中,得到目标识别信息为“[{种类:人物,位置[20,40,300,790]},{种类:人物,位置[300,40,790,790]}]”。
步骤804:将所述待编辑图片对应的目标识别信息在预设的知识数据库中进行匹配,获取所述待编辑图片对应的目标知识信息。
在本申请的实施例中,本申请的系统基于待编辑图片中出现的属于目标垂直领域内的目标种类信息和目标位置信息,获取待编辑图片中出现的属于目标垂直领域的目标,利用目标识别方法获取目标的特征图片,通过目标的特征图片在预设的知识数据库中进行匹配,从而获取目标的目标知识信息。具体的,如图9所示,在待编辑图片P的图片内容为篮球运动动员“张三”和“李四”的合影的情况下,本申请的系统利用目标识别方法获取目标“张三”和“李四”的人物头像作为特征图片,利用目标“张三”和“李四”的人物头像在预设的知识数据库中进行匹配,返回目标“张三”的目标知识信息为“姓名:张三,信息:{xxx}”,以及目标“李四”的目标知识信息为“姓名:李四,信息:{xxx}”。
步骤806:根据所述待编辑图片对应的目标识别信息和所述待编辑图片对应的目标知识信息,生成所述待编辑图片对应的图片内容信息。
在本申请的实施例中,本申请的系统将所述待编辑图片对应的目标识别信息和所述待编辑图片对应的目标知识信息进行整合和汇总,生成所述待编辑图片对应的图片内容信息,得到描述所述待编辑图片对应的图片内容的结构化数据。具体的,在待编辑图片P的图片内容为篮球运动动员“张三”和“李四”的合影的情况下,通过将目标“张三”和“李四”的目标知识信息和目标识别信息进行整合和汇总,最终得到待编辑图片P对应的图片内容信息为“[{种类:人物,位置[20,40,300,790],姓名:张三,信息:{xxx}},{种类:人物,位置[300,40,790,790],姓名:李四,信息:{xxx}}]”。
本申请通过目标识别技术,能够根据待编辑图片所属的垂直领域,例如政务、体育或娱乐等领域,从所述待编辑图片中自动提取出所属领域的图片信息并形成结构化数据,实现针对特定垂直领域的图片信息提取,降低了用户对先验知识的要求。
步骤704:通过本申请所述的图片分类模型对所述待编辑图片进行图片分类,得到所述待编辑图片对应的图片分类信息。
在本申请的实施例中,如图10所示,通过本申请所述的图片分类模型对所述待编辑图片进行图片分类,得到所述待编辑图片对应的图片分类信息,包括步骤1002至步骤1006。
步骤1002:通过本申请所述的图片领域分类模型对所述待编辑图片进行领域分类,得到所述待编辑图片所属的目标垂直领域。
在本申请的实施例中,本申请的系统或终端通过本申请所述的图片领域分类模型,按照预设的至少一个目标垂直领域对所述待编辑图片进行领域分类,分别得到所述待编辑图片每个目标垂直领域的分类概率,取分类概率最大值对应的目标垂直领域作为所述待编辑图片所属的目标垂直领域。具体的,如图9所示,在待编辑图片P的图片内容为篮球运动动员“张三”和“李四”的合影的情况下,本申请的系统通过图片领域分类模型对待编辑图片P进行分类,预设分类包括体育、娱乐和政治,对应的分类概率分别为0.8、0.15和0.05,则待编辑图片P所属的目标垂直领域为体育领域。
步骤1004:基于所述待编辑图片对应的目标垂直领域,通过本申请所述的图片场景分类模型对所述待编辑图片进行场景分类,得到所述待编辑图片所属的图片场景。
在本申请的实施例中,本申请的系统或终端通过本申请所述的图片场景分类模型,进一步按照所属的目标垂直领域对所述待编辑图片进行场景分类,得到所述待编辑图片在所属目标垂直领域下对应每个图片场景的分类概率,取分类概率最大值对应的图片场景作为所述待编辑图片所属的图片场景。具体的,如图9所示,在待编辑图片P的图片内容为篮球运动动员“张三”和“李四”的合影的情况下,本申请的系统通过体育领域下的图片场景分类模型对待编辑图片P进行分类,预设图片场景分类包括合影、比赛和训练,对应的分类概率分别为0.8、0.15和0.05,则待编辑图片P所属的图片场景为合影。
步骤1006:根据所述待编辑图片所属的目标垂直领域与所述待编辑图片所属的图片场景,构建所述待编辑图片在所属的目标垂直领域内对应的图片分类信息。
在本申请的实施例中,本申请的系统或终端将所述待编辑图片所属的目标垂直领域与所述待编辑图片所属的图片场景进行汇总,最终得到所述待编辑图片在所属的目标垂直领域内对应的图片分类信息。具体的,如图9所示,在待编辑图片P的图片内容为篮球运动动员“张三”和“李四”的合影的情况下,已知待编辑图片P所属的目标垂直领域为体育且图片场景为合影,则待编辑图片P的图片分类信息为“{图片分类:[体育,合影]}”。
本申请通过图片分类模型对待编辑图片进行目标垂直领域的一次分类,然后基于对待编辑图片的目标垂直领域进行图片场景的二次分类,从而有针对性的对待编辑图片进行了细致分类,实现了针对专业领域的信息提取。
步骤706:根据所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息,生成所述待编辑图片对应的图片准确信息。
在本申请的实施例中,根据所述待编辑图片对应的图片内容信息和所述待编辑图片在所属的目标垂直领域内对应的图片分类信息,生成所述待编辑图片对应的图片准确信息,包括:
将所述待编辑图片对应的图片内容信息与所述待编辑图片在所属的目标垂直领域内对应的图片分类信息进行汇总和结构化处理,得到结构化的所述待编辑图片对应的图片准确信息。具体的,如图9所示,在待编辑图片P的图片内容为篮球运动动员“张三”和“李四”的合影的情况下,通过整合图片内容信息和图片分类信息,最终得到图片准确信息为“{图片分类:[体育,合影],图片内容:[{种类:人物,位置[20,40,300,790],姓名:张三,信息:{xxx}},{种类:人物,位置[300,40,790,790],姓名:李四,信息:{xxx}}}”。
本申请的系统能够将从所述待编辑图片中提取出的图片内容信息与图片分类信息进行结合,从而对简单罗列的图片信息进行一定程度上的筛选,根据待编辑图片所属的目标垂直领域,生成专业且准确描述所述待编辑图片所反映的图片内容的结构化的准确信息。
本申请根据待编辑图片所属的目标垂直领域对待编辑图片进行信息提取和图片分类,帮助用户快速获取待编辑图片对应的图片准确信息从而了解待编辑图片中所包含的主要内容,极大的降低了对用户的先验知识的要求,本申请的知识提取方法与开放域相比,更加具有针对性,还能够保证图片分析的准确性和可用性。
其中,处理器120还可以执行图11所示方法中的步骤。图11是示出了根据本申请一实施例的文本生成模型的训练方法的示意性流程图,包括步骤1102至步骤1104。
步骤1102:获取文本生成训练样本和对应的文本生成训练标签,其中,所述文本生成训练样本包括候选文档类型对应的文本结构化数据,所述文本生成训练标签包括所述文本结构化数据对应的类别标注。
在本申请的实施例中,本申请的系统或终端针对不同的目标垂直领域,确定至少一个文档类型,例如新闻类文档、传记类文档或叙事类文档等等,文本生成训练数据包括与每个文档类型对应的文本结构化数据以及文本结构化数据对应的每个文档类型的类别标注,即将已有文本手工标注为与图片准确信息类似的结构化数据作为模型的输入。
步骤1104:通过所述文本生成训练样本和对应的文本生成训练标签对文本生成模型进行训练,根据所述文本生成模型的损失值调整文本生成模型的参数直至满足训练终止条件。
在本申请的实施例中,在训练阶段,首先将文档类型对应的文本结构化数据进行词嵌入操作,然后将文档类型对应的嵌入表示进行拼接得到模型的输入向量,通过双向循环神经网络对文档类型对应的嵌入表示进行处理,生成文档类型对应的文字编码,从而获取自动生成的文本。
本申请针对至少一个文档类型,采用深度学习模型训练出若干个文本生成模型,实现了针对不同目标垂直领域内的待编辑图片的自动文本生成。
其中,处理器120可以执行图12所示方法中的步骤。图12是示出了根据本申请一实施例的基于图片的文本生成方法的示意性流程图,包括步骤1202至步骤1208。
步骤1202:确定至少一个目标垂直领域,根据待编辑图片对应所属的目标垂直领域获取所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息。
在本申请的实施例中,本申请的系统或终端通过预设的目标识别模型和预设的知识数据库对所述待编辑图片进行图片信息提取,得到所述待编辑图片在所属的目标垂直领域中对应的图片内容信息,通过预设的图片分类模型对所述待编辑图片进行图片分类,得到所述待编辑图片对应的图片分类信息。具体的,在待编辑图片P的图片内容为篮球运动动员“张三”和“李四”的合影的情况下,待编辑图片P对应的图片内容信息为“[{种类:人物,位置[20, 40, 300,790],姓名:张三,信息:{xxx}},{种类:人物,位置[300, 40, 790,790],姓名:李四,信息:{xxx}} ]”,待编辑图片P的图片分类信息为“{图片分类:[体育,合影]}”。
步骤1204:根据所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息,生成所述待编辑图片对应的图片准确信息。
在本申请的实施例中,本申请的系统或终端通过将所述待编辑图片对应的图片内容信息与所述待编辑图片在所属的目标垂直领域内对应的图片分类信息进行汇总和结构化处理,得到结构化的所述待编辑图片对应的图片准确信息。具体的,如图9所示,在待编辑图片P的图片内容为篮球运动动员“张三”和“李四”的合影的情况下,通过整合图片内容信息和图片分类信息,最终得到图片准确信息为“{图片分类:[体育,合影],图片内容:[{种类:人物,位置[20,40,300,790],姓名:张三,信息:{xxx}},{种类:人物,位置[300,40,790,790],姓名:李四,信息:{xxx}}}。
本申请的系统能够将从所述待编辑图片中提取出的图片内容信息与图片分类信息进行结合,从而对简单罗列的图片信息进行一定程度上的筛选,根据待编辑图片所属的目标垂直领域,生成专业且准确描述所述待编辑图片所反映的图片内容的结构化数据。
步骤1206:根据所述待编辑图片对应的图片准确信息,通过本申请所述的文本生成模型生成所述待编辑图片对应的图片编辑文本。
在本申请的实施例中,本申请的系统或终端根据待编辑图片所属的目标垂直领域对应的文档类型或用户的选择文档类型,将所述待编辑图片对应的图片准确信息输入至对应的文本生成模型生成所述待编辑图片对应的图片编辑文本,例如,如图9所示,在待编辑图片P的图片分类为[体育,合影]的情况下,用户可以选择使用“新闻类文档”对应的文本生成模型,得到所述待编辑图片对应的图片编辑文本“体育明星张三和李四进行了合影,位于左边的是张三,位于右边的是李四。”。
本申请通过将所述待编辑图片所反映的图片内容的结构化数据输入特定文档类型对应的文本生成模型中自动生成图片编辑文本,实现了对于文本的表述形式和表述类型的可选择性和可控性,使得用户可以控制生成文本的风格和写作领域。
步骤1208:将所述待编辑图片对应的图片编辑文本以及所述待编辑图片对应的图片准确信息输出至用户。
在本申请的实施例中,本申请的系统或终端进一步将生成的所述待编辑图片对应的图片编辑文本以及所述待编辑图片对应的图片准确信息提供给用户,使得用户在对图片进行文本编辑时获取足够的参考信息,例如,如图9所示,在待编辑图片P的图片内容为篮球运动动员“张三”和“李四”的合影的情况下,将待编辑图片P对应的图片准确信息“{图片分类:[体育,合影],图片内容:[{种类:人物,位置[20,40,300,790],姓名:张三,信息:{xxx}},{种类:人物,位置[300,40,790,790],姓名:李四,信息:{xxx}}},以及待编辑图片对应的图片编辑文本“体育明星张三和李四进行了合影,位于左边的是张三,位于右边的是李四。”返回给用户。
本申请通过将所述待编辑图片对应的图片编辑文本以及所述待编辑图片对应的图片准确信息全部提供给用户,使得用户能够有针对性的获取目标垂直领域类的专业信息,降低了对于用户专业知识水平的要求,帮助用户高效率的完成对于图片的文本描述工作。
本申请通过针对目标垂直领域获取待编辑图片对应的图片准确信息,结合图片编辑文本涉及的文档类型或目标垂直领域内相关分类的模板式表达,编辑出符合要求的具有专业性参考价值的图片编辑文本,帮助用户能够快速了解待编辑图片中所包含的主要信息,并提供专业的图片编辑文本,从而辅助用户高效且准确的完成所在领域的专业文档编辑撰写工作,能够保证图片分析以及图片编辑文本的准确性和可用性。
其中,处理器120可以执行图13所示方法中的步骤。图13是示出了根据本申请一实施例的基于图片的文本生成方法的示意性流程图,包括步骤1302至步骤1308。
步骤1302:确定至少一个目标垂直领域,根据待编辑图片对应所属的目标垂直领域获取所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息。
在本申请的实施例中,本申请的系统或终端通过预设的目标识别模型和预设的知识数据库对所述待编辑图片进行图片信息提取,得到所述待编辑图片在所属的目标垂直领域中对应的图片内容信息,通过预设的图片分类模型对所述待编辑图片进行图片分类,得到所述待编辑图片对应的图片分类信息。具体的,在待编辑图片P的图片内容为篮球运动动员“张三”和“李四”的合影的情况下,待编辑图片P对应的图片内容信息为“[{种类:人物,位置[20,40,300,790],姓名:张三,信息:{xxx}},{种类:人物,位置[300,40,790,790],姓名:李四,信息:{xxx}}]”,待编辑图片P的图片分类信息为“{图片分类:[体育,合影]}”。
步骤1304:根据所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息,生成所述待编辑图片对应的图片准确信息。
在本申请的实施例中,本申请的系统或终端通过将所述待编辑图片对应的图片内容信息与所述待编辑图片在所属的目标垂直领域内对应的图片分类信息进行汇总和结构化处理,得到结构化的所述待编辑图片对应的图片准确信息。具体的,如图9所示,在待编辑图片P的图片内容为篮球运动动员“张三”和“李四”的合影的情况下,通过整合图片内容信息和图片分类信息,最终得到图片准确信息为“{图片分类:[体育,合影],图片内容:[{种类:人物,位置[20,40,300,790],姓名:张三,信息:{xxx}},{种类:人物,位置[300,40,790,790],姓名:李四,信息:{xxx}}}。
步骤1306:根据所述待编辑图片对应的图片准确信息,通过预设的中文模板库生成所述待编辑图片对应的图片编辑文本。
在本申请的实施例中,如图14所示,根据所述待编辑图片对应的图片准确信息,通过预设的中文模板库生成所述待编辑图片对应的图片编辑文本,包括步骤1402至步骤1406。
步骤1402:根据至少一个目标垂直领域以及至少一个图片场景,构建每个目标垂直领域对应每个图片场景的中文模板,形成中文模板库。
在本申请的实施例中,本申请的系统或终端按照至少一个目标垂直领域,根据每个目标垂直领域下的图片场景分类构建对应数量类型中文模板,例如,包括三个目标垂直领域,每个目标垂直领域下包括三个图片场景分类,则总计包括九类中文模板,基于该九类中文模板构建中文模板库。
步骤1404:根据所述待编辑图片对应的图片准确信息在所述中文模板库内进行匹配,获取所述待编辑图片对应的中文模板。
在本申请的实施例中,本申请的系统或终端根据所述待编辑图片对应的图片准确信息,尤其是待编辑图片对应的图片分类信息,在所述中文模板库内按照对应的分类领域和图片场景进行匹配,返回对应分类下的中文模板。具体的,如图9所示,在待编辑图片P的属于“体育领域”下的“合影”类别的情况下,对应中文模板库中就会预设有“体育明星{人物1}和{人物2}进行了合影,位于左边的是{人物1},位于右边的是{人物2}。”类似的中文模板。
步骤1406:根据所述待编辑图片对应的图片准确信息对所述待编辑图片对应的中文模板进行中文填槽,生成所述待编辑图片对应的图片编辑文本。
在本申请的实施例中,本申请的系统或终端根据所述待编辑图片对应的图片准确信息对所述待编辑图片对应的中文模板进行中文填槽,从而生成所述待编辑图片对应的图片编辑文本。具体的,在待编辑图片P的图片内容为篮球运动动员“张三”和“李四”的合影的情况下,待编辑图片P对应的图片准确信息为“{图片分类:[体育,合影],图片内容:[{种类:人物,位置[20,40,300,790],姓名:张三,信息:{xxx}},{种类:人物,位置[300,40,790,790],姓名:李四,信息:{xxx}}},同时,从所述中文模板库中匹配到的中文模板为“体育明星{人物1}和{人物2}进行了合影,位于左边的是{人物1},位于右边的是{人物2}。”,则采用类似于完形填空的方式,可以生成图片编辑文本“体育明星{张三}和{李四}进行了合影,位于左边的是{张三},位于右边的是{李四}。”。
步骤1308:将所述待编辑图片对应的图片编辑文本以及所述待编辑图片对应的图片准确信息输出至用户。
在本申请的实施例中,本申请的系统或终端进一步将生成的所述待编辑图片对应的图片编辑文本以及所述待编辑图片对应的图片准确信息提供给用户,使得用户在对图片进行文本编辑时获取足够的参考信息,例如,如图9所示,在待编辑图片P的图片内容为篮球运动动员“张三”和“李四”的合影的情况下,将待编辑图片P对应的图片准确信息“{图片分类:[体育,合影],图片内容:[{种类:人物,位置[20,40,300,790],姓名:张三,信息:{xxx}},{种类:人物,位置[300,40,790,790],姓名:李四,信息:{xxx}}},以及待编辑图片对应的图片编辑文本“体育明星张三和李四进行了合影,位于左边的是张三,位于右边的是李四。”输出给用户。
本申请的系统能够将所述待编辑图片以及所述待编辑图片对应的图片编辑文本一并输出至用户(作者),辅助用户完成整个专业文档的编辑撰写工作。本申请针对垂直领域的专业文档编辑工作,利用待编辑图片对应的图片准确信息,结合基于目标垂直领域和图片场景构建的中文模板库,自动生成符合专业文档要求的图片编辑文本,将所述待编辑图片对应的图片编辑文本以及所述待编辑图片对应的图片准确信息返回给用户,从而帮助使用户能够快速了解待编辑图片中主要信息,帮助用户高效且准确的完成专业文档的编辑撰写工作。
图15示出了本说明书一实施例的基于图片的文本生成方法,该一种基于图片的文本生成方法以对篮球运动动员“张三”和“李四”的合影的待编辑图片P为例进行描述,包括步骤1502至步骤1514。
步骤1502:将待编辑图片P输入至基于目标垂直领域为体育、政务和其他的相关训练数据训练出的目标识别模型中,得到目标识别信息为“[{种类:人物,位置[20,40,300,790]},{种类:人物,位置[300,40,790,790]}]”。
步骤1504:利用目标“张三”和“李四”的人物头像在预设的知识数据库中进行匹配,返回目标“张三”的目标知识信息为“姓名:张三,信息:{xxx}”,以及目标“李四”的目标知识信息为“姓名:李四,信息:{xxx}”。
步骤1506:通过将目标“张三”和“李四”的目标知识信息和目标识别信息进行整合和汇总,最终得到待编辑图片P对应的图片内容信息为“[{种类:人物,位置[20,40,300,790],姓名:张三,信息:{xxx}},{种类:人物,位置[300, 40, 790,790],姓名:李四,信息:{xxx}}]”。
步骤1508:将待编辑图片P输入至基于目标垂直领域为体育、政务和其他的相关训练数据训练出的图片分类模型中,得到待编辑图片P对应的图片分类信息“{图片分类:[体育,合影]}”。
步骤1510:将待编辑图片P对应的图片内容信息和图片分类信息进行汇总,得到编辑图片P对应的图片准确信息“{图片分类:[体育,合影],图片内容:[{种类:人物,位置[20,40,300,790],姓名:张三,信息:{xxx}},{种类:人物,位置[300,40,790,790],姓名:李四,信息:{xxx}}}”。
步骤1512:将待编辑图片P对应的图片准确信息输入至预设的文本生成模型或预设的中文模板库中,得到待编辑图片P对应的图片编辑文本“体育明星张三和李四进行了合影,位于左边的是张三,位于右边的是李四。”。
步骤1514:将将待编辑图片P对应的图片准确信息“{图片分类:[体育,合影],图片内容:[{种类:人物,位置[20,40,300,790],姓名:张三,信息:{xxx}},{种类:人物,位置[300,40,790,790],姓名:李四,信息:{xxx}}},以及待编辑图片对应的图片编辑文本“体育明星张三和李四进行了合影,位于左边的是张三,位于右边的是李四。”返回给用户。
与上述方法实施例相对应,本说明书还提供了目标识别模型的训练装置实施例,图16示出了本说明书一个实施例的目标识别模型的训练装置的结构示意图。如图16所示,该装置包括:
目标识别训练数据获取模块161,被配置为获取目标识别训练样本和对应的目标识别训练标签,其中,所述目标识别训练样本包括至少一个目标垂直领域对应的样本图片集合,所述目标识别训练标签包括所述样本图片集合中每个样本图片的标注信息,其中,所述标注信息包括目标类型和目标位置坐标;
目标识别模型训练模块162,被配置为通过所述目标识别训练样本和对应的目标识别训练标签对目标识别模型进行训练,根据所述目标识别模型的损失值调整目标识别模型的参数直至满足训练终止条件。
本申请通过利用至少一个目标垂直领域对应的样本图片集合对卷积神经网络的深度学习模型进行训练,得到了能够准确对待编辑图片进行目标垂直领域以及图片场景的图片分类模型,从而实现了针对垂直领域的图片分类。
与上述方法实施例相对应,本说明书还提供了图片分类模型的训练装置实施例,图17示出了本说明书一个实施例的图片分类模型的训练装置的结构示意图。如图17所示,该装置包括:
分类训练数据获取模块171,被配置为获取分类训练样本和对应的分类训练标签,其中,所述分类训练样本包括至少一个目标垂直领域对应的样本图片集合,所述领域分类训练标签包括所述样本图片集合中每个样本图片所属的目标垂直领域和每个样本图片所属的图片场景;
分类模型训练模块172,被配置为通过所述分类训练样本和对应的分类训练标签对图片分类模型进行训练,根据所述图片分类模型的损失值调整图片分类模型的参数直至满足训练终止条件。
可选的,所述图片场景分类模型包括图片领域分类模型和至少一个图片场景分类模型。
本申请通过图片分类模型对待编辑图片进行目标垂直领域的一次分类,然后基于对待编辑图片的目标垂直领域进行图片场景的二次分类,从而有针对性的对待编辑图片进行了细致分类,实现了针对专业领域的信息提取。
与上述方法实施例相对应,本说明书还提供了基于图片的信息提取装置实施例,图18示出了本说明书一个实施例的基于图片的信息提取装置的结构示意图。如图18所示,该装置包括:
第一信息获取模块181,被配置为通过本申请所述的目标识别模型和预设的知识数据库对所述待编辑图片进行图片信息提取,得到所述待编辑图片在所属的目标垂直领域中对应的图片内容信息;
第二信息获取模块182,被配置为通过本申请所述的图片分类模型对所述待编辑图片进行图片分类,得到所述待编辑图片对应的图片分类信息;
第一准确信息构建模块183,被配置为根据所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息,生成所述待编辑图片对应的图片准确信息;
可选的,所述第一信息获取模块181包括:
目标识别单元,被配置为通过本申请所述的目标识别模型对所述待编辑图片进行目标检测,得到所述待编辑图片在所属的目标垂直领域中对应的目标识别信息;
信息匹配单元,被配置为将所述待编辑图片对应的目标识别信息在预设的知识数据库中进行匹配,获取所述待编辑图片对应的目标知识信息;
内容生成单元,被配置为根据所述待编辑图片对应的目标识别信息和所述待编辑图片对应的目标知识信息,生成所述待编辑图片对应的图片内容信息。
可选的,所述第二信息获取模块182包括:
领域分类单元,被配置为通过本申请所述的图片领域分类模型对所述待编辑图片进行领域分类,得到所述待编辑图片所属的目标垂直领域;
场景分类单元,被配置为基于所述待编辑图片对应的目标垂直领域,通过本申请所述的图片场景分类模型对所述待编辑图片进行场景分类,得到所述待编辑图片所属的图片场景;
分类信息构建单元,被配置为根据所述待编辑图片所属的目标垂直领域与所述待编辑图片所属的图片场景,构建所述待编辑图片在所属的目标垂直领域内对应的图片分类信息。
可选的,所述准确信息构建模块183包括:
信息汇总单元,被配置为将所述待编辑图片对应的图片内容信息与所述待编辑图片在所属的目标垂直领域内对应的图片分类信息进行汇总和结构化处理,得到结构化的所述待编辑图片对应的图片准确信息。
本申请根据待编辑图片所属的目标垂直领域对待编辑图片进行信息提取和图片分类,帮助用户快速获取待编辑图片对应的图片准确信息从而了解待编辑图片中所包含的主要内容,极大的降低了对用户的先验知识的要求,本申请的知识提取方法与开放域相比,更加具有针对性,还能够保证图片分析的准确性和可用性。
与上述方法实施例相对应,本说明书还提供了文本生成模型的训练装置实施例,图19示出了本说明书一个实施例的文本生成模型的训练装置的结构示意图。如图19所示,该装置包括:
文本训练数据获取模块191,被配置为获取文本生成训练样本和对应的文本生成训练标签,其中,所述文本生成训练样本包括候选文档类型对应的文本结构化数据,所述文本生成训练标签包括所述文本结构化数据对应的类别标注;
文本生成模型训练模块192,被配置为通过所述文本生成训练样本和对应的文本生成训练标签对文本生成模型进行训练,根据所述文本生成模型的损失值调整文本生成模型的参数直至满足训练终止条件。
本申请针对至少一个文档类型,采用深度学习模型训练出若干个文本生成模型,实现了针对不同目标垂直领域内的待编辑图片的自动文本生成。
与上述方法实施例相对应,本说明书还提供了基于图片的文本生成装置实施例,图20示出了本说明书一个实施例的基于图片的文本生成装置的结构示意图。如图20所示,该装置包括:
第三信息获取模块201,被配置为确定至少一个目标垂直领域,根据待编辑图片对应所属的目标垂直领域获取所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息;
第二准确信息构建模块202,被配置为根据所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息,生成所述待编辑图片对应的图片准确信息;
第一文本生成模块203,被配置为根据所述待编辑图片对应的图片准确信息,通过本申请所述的文本生成模型生成所述待编辑图片对应的图片编辑文本。
可选的,所述第一文本生成模块203包括:
模型使用单元,被配置为从至少一个候选文档类型中确定目标文档类型,将所述待编辑图片对应的图片准确信息输入所述目标文档类型对应的文本生成模型中,得到所述待编辑图片对应的图片编辑文本,其中,所述文本生成模型为本申请所述的文本生成模型。
可选的,所述装置还包括:
第一信息输出模块204,被配置为将所述待编辑图片对应的图片编辑文本以及所述待编辑图片对应的图片准确信息输出至用户。
本申请通过针对目标垂直领域获取待编辑图片对应的图片准确信息,结合图片编辑文本涉及的文档类型或目标垂直领域内相关分类的模板式表达,编辑出符合要求的具有专业性参考价值的图片编辑文本,帮助用户能够快速了解待编辑图片中所包含的主要信息,并提供专业的图片编辑文本,从而辅助用户高效且准确的完成所在领域的专业文档编辑撰写工作,能够保证图片分析以及图片编辑文本的准确性和可用性。
与上述方法实施例相对应,本说明书还提供了基于图片的文本生成装置实施例,图21示出了本说明书一个实施例的基于图片的文本生成装置的结构示意图。如图21所示,该装置包括:
第四信息获取模块211,被配置为确定至少一个目标垂直领域,根据待编辑图片对应所属的目标垂直领域获取所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息;
第三准确信息构建模块212,被配置为根据所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息,生成所述待编辑图片对应的图片准确信息;
第二文本生成模块213,被配置为根据所述待编辑图片对应的图片准确信息,通过预设的中文模板库生成所述待编辑图片对应的图片编辑文本。
可选的,所述第二文本生成模块213包括:
中文模板库构建单元,被配置为根据至少一个目标垂直领域以及至少一个图片场景,构建每个目标垂直领域对应每个图片场景的中文模板,形成中文模板库;
模板库匹配单元,被配置为根据所述待编辑图片对应的图片准确信息在所述中文模板库内进行匹配,获取所述待编辑图片对应的中文模板;
中文填槽单元,被配置为根据所述待编辑图片对应的图片准确信息对所述待编辑图片对应的中文模板进行中文填槽,生成所述待编辑图片对应的图片编辑文本。
可选的,所述装置还包括:
第二信息输出模块214,被配置为将所述待编辑图片对应的图片编辑文本以及所述待编辑图片对应的图片准确信息输出至用户。
本申请的系统能够将所述待编辑图片以及所述待编辑图片对应的图片编辑文本一并输出至用户(作者),辅助用户完成整个专业文档的编辑撰写工作。本申请针对垂直领域的专业文档编辑工作,利用待编辑图片对应的图片准确信息,结合基于模板垂直领域和图片场景构建的中文模板库,自动生成符合专业文档要求的图片编辑文本,将所述待编辑图片对应的图片编辑文本以及所述待编辑图片对应的图片准确信息返回给用户,从而帮助使用户能够快速了解待编辑图片中主要信息,帮助用户高效且准确的完成专业文档的编辑撰写工作。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现以下步骤:
获取目标识别训练样本和对应的目标识别训练标签,其中,所述目标识别训练样本包括至少一个目标垂直领域对应的样本图片集合,所述目标识别训练标签包括所述样本图片集合中每个样本图片的标注信息,其中,所述标注信息包括目标类型和目标位置坐标;
通过所述目标识别训练样本和对应的目标识别训练标签对目标识别模型进行训练,根据所述目标识别模型的损失值调整目标识别模型的参数直至满足训练终止条件。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现以下步骤:
获取分类训练样本和对应的分类训练标签,其中,所述分类训练样本包括至少一个目标垂直领域对应的样本图片集合,所述领域分类训练标签包括所述样本图片集合中每个样本图片所属的目标垂直领域和每个样本图片所属的图片场景;
通过所述分类训练样本和对应的分类训练标签对图片分类模型进行训练,根据所述图片分类模型的损失值调整图片分类模型的参数直至满足训练终止条件。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现以下步骤:
通过本申请所述的目标识别模型和预设的知识数据库对所述待编辑图片进行图片信息提取,得到所述待编辑图片在所属的目标垂直领域中对应的图片内容信息;
通过本申请所述的图片分类模型对所述待编辑图片进行图片分类,得到所述待编辑图片对应的图片分类信息;
根据所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息,生成所述待编辑图片对应的图片准确信息。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现以下步骤:
获取文本生成训练样本和对应的文本生成训练标签,其中,所述文本生成训练样本包括候选文档类型对应的文本结构化数据,所述文本生成训练标签包括所述文本结构化数据对应的类别标注;
通过所述文本生成训练样本和对应的文本生成训练标签对文本生成模型进行训练,根据所述文本生成模型的损失值调整文本生成模型的参数直至满足训练终止条件。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现以下步骤:
确定至少一个目标垂直领域,根据待编辑图片对应所属的目标垂直领域获取所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息;
根据所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息,生成所述待编辑图片对应的图片准确信息;
根据所述待编辑图片对应的图片准确信息,通过如本申请所述的文本生成模型生成所述待编辑图片对应的图片编辑文本。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现以下步骤:
确定至少一个目标垂直领域,根据待编辑图片对应所属的目标垂直领域获取所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息;
根据所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息,生成所述待编辑图片对应的图片准确信息;
根据所述待编辑图片对应的图片准确信息,通过预设的中文模板库生成所述待编辑图片对应的图片编辑文本。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述基于图片的辅助写作方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该计算机可读存储介质的技术方案与上述的基于图片的辅助写作方法的技术方案属于同一构思,计算机可读存储介质的技术方案未详细描述的细节内容,均可以参见上述基于图片的辅助写作方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (8)
1.一种基于图片的文本生成方法,其特征在于,包括:
确定至少一个目标垂直领域,根据待编辑图片对应所属的目标垂直领域获取所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息;
根据所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息,生成所述待编辑图片对应的图片准确信息;
根据所述待编辑图片对应的图片准确信息,通过训练得到的文本生成模型生成所述待编辑图片对应的图片编辑文本;
其中,根据待编辑图片对应所属的目标垂直领域获取所述待编辑图片对应的图片分类信息,包括:
通过训练得到的图片领域分类模型对所述待编辑图片进行领域分类,得到所述待编辑图片所属的目标垂直领域;
基于所述待编辑图片对应的目标垂直领域,通过训练得到的图片场景分类模型对所述待编辑图片进行场景分类,得到所述待编辑图片所属的图片场景;
根据所述待编辑图片所属的目标垂直领域与所述待编辑图片所属的图片场景,构建所述待编辑图片在所属的目标垂直领域内对应的图片分类信息;
其中,根据待编辑图片对应所属的目标垂直领域获取所述待编辑图片对应的图片内容信息,包括:
通过训练得到的目标识别模型对所述待编辑图片进行目标检测,得到所述待编辑图片在所属的目标垂直领域中对应的目标识别信息;
将所述待编辑图片对应的目标识别信息在预设的知识数据库中进行匹配,获取所述待编辑图片对应的目标知识信息;
根据所述待编辑图片对应的目标识别信息和所述待编辑图片对应的目标知识信息,生成所述待编辑图片对应的图片内容信息;
其中,所述文本生成模型通过以下方法训练:
获取文本生成训练样本和对应的文本生成训练标签,其中,所述文本生成训练样本包括候选文档类型对应的文本结构化数据,所述文本生成训练标签包括所述文本结构化数据对应的类别标注;
通过所述文本生成训练样本和对应的文本生成训练标签对文本生成模型进行训练,根据所述文本生成模型的损失值调整文本生成模型的参数直至满足训练终止条件。
2.根据权利要求1所述的方法,其特征在于,根据所述待编辑图片对应的图片准确信息,通过训练得到的文本生成模型生成所述待编辑图片对应的图片编辑文本,包括:
从至少一个候选文档类型中确定目标文档类型,将所述待编辑图片对应的图片准确信息输入所述目标文档类型对应的文本生成模型中,得到所述待编辑图片对应的图片编辑文本。
3.根据权利要求1所述的方法,其特征在于,在通过训练得到的文本生成模型生成所述待编辑图片对应的图片编辑文本之后,还包括:
将所述待编辑图片对应的图片编辑文本以及所述待编辑图片对应的图片准确信息输出至用户。
4.一种基于图片的文本生成装置,其特征在于,包括:
第三信息获取模块,被配置为确定至少一个目标垂直领域,根据待编辑图片对应所属的目标垂直领域获取所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息;
第二准确信息构建模块,被配置为根据所述待编辑图片对应的图片内容信息和所述待编辑图片对应的图片分类信息,生成所述待编辑图片对应的图片准确信息;
第一文本生成模块,被配置为根据所述待编辑图片对应的图片准确信息,通过训练得到的文本生成模型生成所述待编辑图片对应的图片编辑文本;
其中,所述第三信息获取模块被配置为:
通过训练得到的图片领域分类模型对所述待编辑图片进行领域分类,得到所述待编辑图片所属的目标垂直领域;
基于所述待编辑图片对应的目标垂直领域,通过训练得到的图片场景分类模型对所述待编辑图片进行场景分类,得到所述待编辑图片所属的图片场景;
根据所述待编辑图片所属的目标垂直领域与所述待编辑图片所属的图片场景,构建所述待编辑图片在所属的目标垂直领域内对应的图片分类信息;
其中,所述第三信息获取模块还被配置为:
通过训练得到的目标识别模型对所述待编辑图片进行目标检测,得到所述待编辑图片在所属的目标垂直领域中对应的目标识别信息;
将所述待编辑图片对应的目标识别信息在预设的知识数据库中进行匹配,获取所述待编辑图片对应的目标知识信息;
根据所述待编辑图片对应的目标识别信息和所述待编辑图片对应的目标知识信息,生成所述待编辑图片对应的图片内容信息
其中,所述文本生成模型通过以下装置训练:
文本训练数据获取模块,被配置为获取文本生成训练样本和对应的文本生成训练标签,其中,所述文本生成训练样本包括候选文档类型对应的文本结构化数据,所述文本生成训练标签包括所述文本结构化数据对应的类别标注;
文本生成模型训练模块,被配置为通过所述文本生成训练样本和对应的文本生成标签对文本生成模型进行训练,根据所述文本生成模型的损失值调整文本生成模型的参数直至满足训练终止条件。
5.根据权利要求4所述的装置,其特征在于,所述第一文本生成模块包括:
模型使用单元,被配置为从至少一个候选文档类型中确定目标文档类型,将所述待编辑图片对应的图片准确信息输入所述目标文档类型对应的文本生成模型中,得到所述待编辑图片对应的图片编辑文本,其中,所述文本生成模型为训练得到的文本生成模型。
6.根据权利要求4所述的装置,其特征在于,还包括:
第一信息输出模块,被配置为将所述待编辑图片对应的图片编辑文本以及所述待编辑图片对应的图片准确信息输出至用户。
7.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-3任意一项所述方法的步骤。
8.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-3任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010389908.1A CN111310867B (zh) | 2020-05-11 | 2020-05-11 | 一种基于图片的文本生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010389908.1A CN111310867B (zh) | 2020-05-11 | 2020-05-11 | 一种基于图片的文本生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111310867A CN111310867A (zh) | 2020-06-19 |
CN111310867B true CN111310867B (zh) | 2020-09-01 |
Family
ID=71162790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010389908.1A Active CN111310867B (zh) | 2020-05-11 | 2020-05-11 | 一种基于图片的文本生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111310867B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743438A (zh) * | 2020-08-20 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 文本检测用数据集生成方法、装置和系统 |
CN112256902A (zh) * | 2020-10-20 | 2021-01-22 | 广东三维家信息科技有限公司 | 图片的文案生成方法、装置、设备及存储介质 |
CN113362426B (zh) * | 2021-06-21 | 2023-03-31 | 维沃移动通信(杭州)有限公司 | 图像编辑方法和图像编辑装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7064759B1 (en) * | 2003-05-29 | 2006-06-20 | Apple Computer, Inc. | Methods and apparatus for displaying a frame with contrasting text |
CN106503055B (zh) * | 2016-09-27 | 2019-06-04 | 天津大学 | 一种从结构化文本到图像描述的生成方法 |
CN106650789B (zh) * | 2016-11-16 | 2023-04-07 | 同济大学 | 一种基于深度lstm网络的图像描述生成方法 |
CN108197294B (zh) * | 2018-01-22 | 2021-10-22 | 桂林电子科技大学 | 一种基于深度学习的文本自动生成方法 |
CN110362698A (zh) * | 2019-07-08 | 2019-10-22 | 北京字节跳动网络技术有限公司 | 一种图片信息生成方法、装置、移动终端及存储介质 |
CN110390363A (zh) * | 2019-07-29 | 2019-10-29 | 上海海事大学 | 一种图像描述方法 |
CN110851622A (zh) * | 2019-11-12 | 2020-02-28 | 北京搜狐互联网信息服务有限公司 | 文本生成方法和装置 |
-
2020
- 2020-05-11 CN CN202010389908.1A patent/CN111310867B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111310867A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shi et al. | Can a machine generate humanlike language descriptions for a remote sensing image? | |
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN111310867B (zh) | 一种基于图片的文本生成方法及装置 | |
Sun et al. | Robust text detection in natural scene images by generalized color-enhanced contrasting extremal region and neural networks | |
CN112883732A (zh) | 基于关联记忆网络的中文细粒度命名实体识别方法及装置 | |
CN110705490A (zh) | 视觉情感识别方法 | |
Khatun et al. | A systematic review on the chronological development of bangla sign language recognition systems | |
Selvam et al. | A transformer-based framework for scene text recognition | |
CN117149944B (zh) | 一种基于宽时间范畴的多模态情境情感识别方法及系统 | |
CN116542817B (zh) | 一种智能数字人律师咨询方法及系统 | |
Pavlidis | Limitations of content-based image retrieval | |
Shokoori et al. | Sign language recognition and translation into pashto language alphabets | |
Vijayaraju | Image retrieval using image captioning | |
Vankadaru et al. | Text Identification from Handwritten Data using Bi-LSTM and CNN with FastAI | |
CN113642595A (zh) | 一种基于图片的信息提取方法及装置 | |
Vrindavanam et al. | Machine Learning based approach to Image Description for the Visually Impaired | |
Nerlekar | Sign Language Recognition Using Smartphones | |
Vaisakh et al. | Handwritten malayalam character recognition system using artificial neural networks | |
Idziak et al. | Scalable handwritten text recognition system for lexicographic sources of under-resourced languages and alphabets | |
CN117235605B (zh) | 一种基于多模态注意力融合的敏感信息分类方法及装置 | |
Rachana et al. | A Mobile Application Model for Differently Abled Using CNN, RNN and NLP | |
Mohsen et al. | Aegyptos: Mobile Application for Hieroglyphs Detection, Translation and Pronunciation | |
Manzoor et al. | A Novel System for Multi-Linguistic Text Identification and Recognition in Natural Scenes using Deep Learning | |
Sultana et al. | Towards development of real-time handwritten urdu character to speech conversion system for visually impaired | |
Dra et al. | Generation of Caption From Image and Text-to-Speech Convertor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |