CN114429635A - 书本管理方法 - Google Patents

书本管理方法 Download PDF

Info

Publication number
CN114429635A
CN114429635A CN202111668307.5A CN202111668307A CN114429635A CN 114429635 A CN114429635 A CN 114429635A CN 202111668307 A CN202111668307 A CN 202111668307A CN 114429635 A CN114429635 A CN 114429635A
Authority
CN
China
Prior art keywords
image
semantic
model
book
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111668307.5A
Other languages
English (en)
Inventor
邹博
徐嘉
刘璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Intellifusion Technologies Co Ltd
Original Assignee
Shenzhen Intellifusion Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Intellifusion Technologies Co Ltd filed Critical Shenzhen Intellifusion Technologies Co Ltd
Priority to CN202111668307.5A priority Critical patent/CN114429635A/zh
Publication of CN114429635A publication Critical patent/CN114429635A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种书本管理方法,包括:获取关键词文本和目标书本的待处理图像;通过训练好的图像特征提取模型对待处理图像进行图像特征提取,得到待处理图像的图像特征;将图像特征输入到训练好的语义模型中进行语义提取,得到待处理图像的语义特征;基于语义特征,通过基于自注意力机制的解码器对图像特征进行解码,得到目标书本的语义描述文本;通过语义描述文本对目标书本进行管理。可以对书本中的内容图像进行图像特征提取,再将图像特征进行解码,在解码过程中,通过图像特征提取到的语义特征对图像特征的解码进行辅助,使得解码得到的结果更准确,通过语义描述文本对目标书本进行分类管理,可以提高书本的分类准确度。

Description

书本管理方法
技术领域
本发明涉及智慧校园和图书管理领域,尤其涉及一种书本管理方法及相关设备。
背景技术
在书本管理中,需要事先对书本进行分类、编号,对书本进行分类主要是基于关键词标签进行的,关键词标签可以领域标签、用途标签、类型标签,然而,基于标签对书本进行管理,可能会因为标签内容与书本实际内容不符而造成错误分类,从而增加书本管理的难度。因此,基于标签对书本进行管理,标签与书本真实内容存在匹配度不高的问题。
发明内容
本发明实施例提供一种书本管理方法及相关设备,可以对书本中的内容图像进行图像特征提取,再将图像特征进行解码,得到书本中的内容图像的语义描述文本,在解码过程中,通过图像特征提取到的语义特征对图像特征的解码进行辅助,使得解码得到的结果更准确,同时,用于提取语义特征的语义模型通过关键词文本进行参数修正,使得到解码出的结果更接近于关键词的表达形式,通过语义描述文本对目标书本进行分类管理,可以提高书本的分类准确度。
第一方面,本发明实施例提供一种书本管理方法,所述方法包括:
获取关键词文本和目标书本的待处理图像,所述待处理图像为所述书本中的内容图像;
通过训练好的图像特征提取模型对所述待处理图像进行图像特征提取,得到所述待处理图像的图像特征;
将所述图像特征输入到训练好的语义模型中进行语义提取,得到所述待处理图像的语义特征,所述语义模型通过所述关键词文本进行参数修正得到;
基于所述语义特征,通过基于自注意力机制的解码器对所述图像特征进行解码,得到所述目标书本的语义描述文本;
通过所述语义描述文本对所述目标书本进行管理。
可选的,所述获取关键词文本,包括:
获取不同书本类型的书本封面图和书本目录图;
对所述书本封面和书本目录进行文字识别,得到文字识别结果;
从所述文字识别结果提取出候选关键词,根据所述候选关键词生成所述关键词文本。
可选的,所述获取关键词文本目标书本的待处理图像,包括:
对书本中随机页数的内容进行拍摄,得到所述待处理图像。
可选的,所述方法还包括:
通过预设的数据集对所述图像特征提取模型和语义模型进行联合训练,得到训练好的图像特征提取模型和训练好的语义模型。
可选的,在所述通过预设的数据集对所述图像特征提取模型和语义模型进行联合训练之前,包括:
获取不同书本类型的样本书本;
对所述样本书本中随机页数的内容进行拍摄,得到所述样本图像,对所述样本图像进行语义描述,得到与所述样本图像对应的语义文本;
根据所述样本图像以及对应的所述语义文本,构建得到数据集。
可选的,所述通过预设的数据集对所述图像特征提取模型和语义模型进行联合训练,包括:
将所述数据集划分为训练集和测试集,并将所述图像特征提取模型与语义模型进行级联,得到级联模型;
通过所述训练集对所述级联模型者训练,直到所述级联模型在测试集中收敛,得到训练好的级联模型,所述训练好的级联模型包括训练好的图像特征提取模型和训练好的语义模型。
可选的,在通过所述训练集对所述级联模型者训练,直到所述级联模型在测试集中收敛,得到训练好的级联模型之后,所述方法还包括,包括:
通过预设的词嵌入模型对所述关键词文本进行词嵌入,得到所述关键词文本的词嵌入向量;
根据所述词嵌入向量对所述训练好的语义模型进行修正。
第二方面,本发明实施例提供一种书本管理装置,所述装置包括:
第一获取模块,用于获取关键词文本和目标书本的待处理图像,所述待处理图像为所述书本中的内容图像;
第一提取模块,用于通过训练好的图像特征提取模型对所述待处理图像进行图像特征提取,得到所述待处理图像的图像特征;
第二处理模块,用于将所述图像特征输入到训练好的语义模型中进行语义提取,得到所述待处理图像的语义特征,所述语义模型通过所述关键词文本进行参数修正得到;
解码模块,用于基于所述语义特征,通过基于自注意力机制的解码器对所述图像特征进行解码,得到所述目标书本的语义描述文本;
管理模块,用于通过所述语义描述文本对所述目标书本进行管理。
第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例提供的书本管理方法中的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现发明实施例提供的书本管理方法中的步骤。
本发明实施例中,获取关键词文本和目标书本的待处理图像,所述待处理图像为所述书本中的内容图像;通过训练好的图像特征提取模型对所述待处理图像进行图像特征提取,得到所述待处理图像的图像特征;将所述图像特征输入到训练好的语义模型中进行语义提取,得到所述待处理图像的语义特征,所述语义模型通过所述关键词文本进行参数修正得到;基于所述语义特征,通过基于自注意力机制的解码器对所述图像特征进行解码,得到所述目标书本的语义描述文本;通过所述语义描述文本对所述目标书本进行管理。可以对书本中的内容图像进行图像特征提取,再将图像特征进行解码,得到书本中的内容图像的语义描述文本,在解码过程中,通过图像特征提取到的语义特征对图像特征的解码进行辅助,使得解码得到的结果更准确,同时,用于提取语义特征的语义模型通过关键词文本进行参数修正,使得到解码出的结果更接近于关键词的表达形式,通过语义描述文本对目标书本进行分类管理,可以提高书本的分类准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种书本管理方法的流程图;
图2是本发明实施例提供的一种书本管理装置的结构示意图;
图3是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,图1是本发明实施例提供的一种书本管理方法的流程图,如图1所示,该书本管理方法包括以下步骤:
101、获取关键词文本和目标书本的待处理图像。
在本发明实施例中,上述关键词文本可以是记录了所有书本关键词的文本,上述目标书本可以称为待管理书本,上述待处理图像可以是目标书的内容图像。
在一种可能的实施例中,上述关键词文本可以是通过网上渠道对书本关键词进行收集整理得到。
上述目标书本的待处理图像可以是通过图像设备对目标书本的内容进行拍摄得到。上述目标书为实体书。
可选的,在获取所有书本的关键词文本的步骤中,可以获取不同书本类型的书本封面图和书本目录图;对书本封面和书本目录进行文字识别,得到文字识别结果;从文字识别结果提取出候选关键词,根据候选关键词生成关键词文本。
在本发明发明实施列中,上述书本类型可以是现有的图书管理体系中的类型,可以通过图像设备对不同类型书的封面和书本目录进行采集,得到不同书本的书本封面图和书本目录图。通过文字图像识别技术OCR书本封面图和书本目录图进行文字识别和提取,得到书本封面文字和书本目录文字,将书本封面文字和书本目录文字进行整理,通过关键词提取技术从整理好的书本封面文字和书本目录文字进行关键词提取,得到候选关键词。
可以将候选关键词再进行专家筛选,得到不同类型书的关键词。当然,也可以直接将候选关键词作为不同类型书的关键词。
可选的,在获取关键词文本目标书本的待处理图像的步骤中,可以通过图像设备对书本中随机页数的内容进行拍摄,从而得到待处理图像。
在一种可能的实施例中,上述随机页数可以是在书本的20%页数后和80%页数前进行随机的页数,比如,书本有100页,则在20页之后和80页之前随机取n个数,n小于60。得到n张待处理图像。
102、通过训练好的图像特征提取模型对待处理图像进行图像特征提取,得到待处理图像的图像特征。
在本发明实施例中,具体的,在获取到待处理图像后,可以对待处理图像进行图像特征提取,通过图像特征提取,可以得到待处理图像的图像特征。其中,图像特征提取指的是将图像信息提取为计算机可识别的抽象特征。需要说明的是,图像信息指的是可被人识别的信息,抽象特征指可被计算机识别的信息。
本实施例中,图像特征的提取可以采用卷积神经网络进行提取,可以使用预设的卷积神经网络对待处理图像进行处理,从而得到待处理图像的初步图像特征。进一步的,图像特征还经过时序处理,服务器在提取出待处理图像的初步图像特征后,调用预设的时序信息提取网络对初步图像特征进行时序处理,得到添加了时序属性的图像特征。
在一种可能的实施例中,服务器可以将获取到的待识别图像进行0-1归一化处理,获得归一化后的待识别图像。
在本实施例中,服务将获取到待识别图像进行0-1归一化处理,得到归一化后的待识别图像,再对归一化后的待识别图像进行图像特征处理。上述归一化处理可以理解为将图像中的像素值映射到0-1之间,这样可以使得待识别图像更符合计算机的计算形式,从而提高计算机的计算速度,进而提高文字识别的识别效率。
具体的,可以构建基于卷积神经网络的图像特征提取网络。其中,图像特征提取网络可以包括预设数量的第一卷积层以及与第一卷积层一一对应的第二卷积层,第二卷积层用于将上一第二卷积层的卷积结果与对应的第一卷积层的卷积结果进行卷积计算。更具体的,服务器可以预先获取基于卷积神经网络的图像特征提取模型,从预先获取到的图像特征提取模型中提取出部分计算网络来构建本申请的图像特征提取网络。服务器也可以获取工作人员自行构建的图像特征提取网络。
可以将图像特征提取网络构建为V型结构,V结构可以包括输入侧和输出侧,输入侧可以包括预设数量的第一卷积层,输出侧可以包括与第一卷积层数量相同的第二卷积层,输入侧的每个卷积层都与输出侧的一个卷积层平行对应,每个第一卷积层在将卷积结果输入下一第一卷积层的同时,还将卷积结果输入平行的第二卷积层中,这样可以保留输入图像的全局信息。
构建基于递归神经网络的时序信息提取网络。具体的,服务器构建基于递归神经网络的时序信息提取网络,其中,时序信息提取网络包括与第二卷积层一一对应的时序处理单元,时序处理单元用于对上一时序处理单元的处理结果与对应的第二卷积层的卷积结果进行时序处理。
更具体的,可以预先获取基于递归神经网络的时序处理模型,利用预先获取到的时序处理模型来构建第一时序信息提取网络。服务器也可以获取工作人员自行构建的第一时序信息提取网络。将第一时序信息提取网络构建为双向长短时记忆网络的结构,这样,第一时序信息提取网络可以提取正向时序信息和反向时序信息,从而提取到更准确的时序信息。
通过上述时序信息提取,使得上述待处理图像的图像特征具有时序属性。
103、将图像特征输入到训练好的语义模型中进行语义提取,得到待处理图像的语义特征。
在本发明实施例中,语义模型通过所述关键词文本进行参数修正得到。
上述图像特征可以是具有时序属性的图像特征,在得到图像特征后,可以将图像特征输入到训练好的语义模型中,上述语义模型可以对图像特征的语义进行提取,得到待处理图像的语义。进一步的,待识别文字图像的图像特征包含有多个尺度的图像特征信息,因此,可以从不同尺度的图像特征中提取出待识别文字图像在不同尺度下的语义特征,从而形成全局语义。
上述语义特征为增强型语义特征,增强型语义特征可以理解为通过语言模型对语义特征进行增强,以提高语义的准确度。本申请对语义特征进行增强,通过增强型的语义特征,进一步提高低质量图像的文本识别准确度。
104、基于语义特征,通过基于自注意力机制的解码器对所述图像特征进行解码,得到目标书本的语义描述文本。
在本发明实施例中,可以将上述语义特征作为解码器的初始状态参数,不需要再对解码器进行随机初始化,将语义特征与图像特征分别输入到预设的解码器中进行解码,在解码器中,通过预先构建的编码表可以将图像特征转换为对应的文字,得到待识别文字图像的识别文本,从而完成从图像到文本的识别过程。进一步的,可以采用语义特征对解码器进行初始化,将语义特征为状态参数作为解码器的状态参数,避免解码器使用零状态初始化或随机初始化,使得解码器无需要初始化过程,在提高解码速度的同时,可以采用语义特征为指导,不仅使用局部视觉信息进行解码,而且使用全局语义信息来产生更准确的结果,可以产生与关键词形式相似的语义描述文本。
105、通过语义描述文本对目标书本进行管理。
通过将目标书本语义描述文本与管理系统中的语义描述文本求相似度,相似度越大,则说明越相似,则可以将语义描述文本相似度较高的书本进行类似管理。
可选的,可以通过预设的数据集对图像特征提取模型和语义模型进行联合训练,得到训练好的图像特征提取模型和训练好的语义模型。
可选的,通过预设的数据集对=图像特征提取模型和语义模型进行联合训练之前,可以获取不同书本类型的样本书本;对样本书本中随机页数的内容进行拍摄,得到样本图像,对样本图像进行语义描述,得到与样本图像对应的语义文本;根据样本图像以及对应的语义文本,构建得到数据集。
可选的,在通过预设的数据集对所述图像特征提取模型和语义模型进行联合训练的步骤中,可以将数据集划分为训练集和测试集,并将图像特征提取模型与语义模型进行级联,得到级联模型;通过训练集对级联模型者训练,直到级联模型在测试集中收敛,得到训练好的级联模型,训练好的级联模型包括训练好的图像特征提取模型和训练好的语义模型。
上述图像特征提取模型的输出直接输入到语义模型中,在通过误差反向传播的过程中,同时对图像特征提取模型和语义模型进行参数调整。
可选的,在通过训练集对所述级联模型者训练,直到所述级联模型在测试集中收敛,得到训练好的级联模型之后,可以通过预设的词嵌入模型对关键词文本进行词嵌入,得到关键词文本的词嵌入向量;根据词嵌入向量对训练好的语义模型进行修正。
通过关键词文本的词嵌入向量对训练好的语义模型进行修正,具体的,可以是关键词文本的词嵌入向量输入到训练好的语义模型中,得到关键词文本语义结果后与关键词文本进行误差计算,并通过误差反向传播来调整训练好的语义模型中的参数。从而使得语义模型的语义特征提取更侧重于关键词语义。
本发明实施例中,获取关键词文本和目标书本的待处理图像,所述待处理图像为所述书本中的内容图像;通过训练好的图像特征提取模型对所述待处理图像进行图像特征提取,得到所述待处理图像的图像特征;将所述图像特征输入到训练好的语义模型中进行语义提取,得到所述待处理图像的语义特征,所述语义模型通过所述关键词文本进行参数修正得到;基于所述语义特征,通过基于自注意力机制的解码器对所述图像特征进行解码,得到所述目标书本的语义描述文本;通过所述语义描述文本对所述目标书本进行管理。可以对书本中的内容图像进行图像特征提取,再将图像特征进行解码,得到书本中的内容图像的语义描述文本,在解码过程中,通过图像特征提取到的语义特征对图像特征的解码进行辅助,使得解码得到的结果更准确,同时,用于提取语义特征的语义模型通过关键词文本进行参数修正,使得到解码出的结果更接近于关键词的表达形式,通过语义描述文本对目标书本进行分类管理,可以提高书本的分类准确度。
需要说明的是,本发明实施例提供的书本管理方法可以应用于可以进行书本管理的智能手机、电脑、服务器等设备。
可选的,请参见图2,图2是本发明实施例提供的一种书本管理装置的结构示意图,如图2所示,所述装置包括:
第一获取模块201,用于获取关键词文本和目标书本的待处理图像,所述待处理图像为所述书本中的内容图像;
第一提取模块202,用于通过训练好的图像特征提取模型对所述待处理图像进行图像特征提取,得到所述待处理图像的图像特征;
第二提取模块203,用于将所述图像特征输入到训练好的语义模型中进行语义提取,得到所述待处理图像的语义特征,所述语义模型通过所述关键词文本进行参数修正得到;
解码模块204,用于基于所述语义特征,通过基于自注意力机制的解码器对所述图像特征进行解码,得到所述目标书本的语义描述文本;
管理模块205,用于通过所述语义描述文本对所述目标书本进行管理。
可选的,所述获取模块201,包括:
获取子模块,用于获取不同书本类型的书本封面图和书本目录图;
识别子模块,用于对所述书本封面和书本目录进行文字识别,得到文字识别结果;
提取子模块,用于从所述文字识别结果提取出候选关键词,根据所述候选关键词生成所述关键词文本。
可选的,所述获取模块201,包括:
拍摄子模块,用于对书本中随机页数的内容进行拍摄,得到所述待处理图像。
可选的,所述装置还包括:
训练模块,用于通过预设的数据集对所述图像特征提取模型和语义模型进行联合训练,得到训练好的图像特征提取模型和训练好的语义模型。
可选的,在训练模块之前,所述装置还包括:
第二获取模块,用于获取不同书本类型的样本书本;
拍摄模块,用于对所述样本书本中随机页数的内容进行拍摄,得到所述样本图像,对所述样本图像进行语义描述,得到与所述样本图像对应的语义文本;
构建模块,用于根据所述样本图像以及对应的所述语义文本,构建得到数据集。
可选的,所述训练模块,包括:
级联子模块,用于将所述数据集划分为训练集和测试集,并将所述图像特征提取模型与语义模型进行级联,得到级联模型;
训练子模块,用于通过所述训练集对所述级联模型者训练,直到所述级联模型在测试集中收敛,得到训练好的级联模型,所述训练好的级联模型包括训练好的图像特征提取模型和训练好的语义模型。
可选的,所述装置还包括:
嵌入模块,用于通过预设的词嵌入模型对所述关键词文本进行词嵌入,得到所述关键词文本的词嵌入向量;
修正模块,用于根据所述词嵌入向量对所述训练好的语义模型进行修正。
需要说明的是,本发明实施例提供的书本管理装置可以应用于可以进行书本管理的智能手机、电脑、服务器等设备。
本发明实施例提供的书本管理装置能够实现上述方法实施例中书本管理方法实现的各个过程,且可以达到相同的有益效果。为避免重复,这里不再赘述。
参见图3,图3是本发明实施例提供的一种电子设备的结构示意图,如图3所示,包括:存储器302、处理器301及存储在所述存储器302上并可在所述处理器301上运行的书本管理方法的计算机程序,其中:
处理器301用于调用存储器302存储的计算机程序,执行如下步骤:
获取关键词文本和目标书本的待处理图像,所述待处理图像为所述书本中的内容图像;
通过训练好的图像特征提取模型对所述待处理图像进行图像特征提取,得到所述待处理图像的图像特征;
将所述图像特征输入到训练好的语义模型中进行语义提取,得到所述待处理图像的语义特征,所述语义模型通过所述关键词文本进行参数修正得到;
基于所述语义特征,通过基于自注意力机制的解码器对所述图像特征进行解码,得到所述目标书本的语义描述文本;
通过所述语义描述文本对所述目标书本进行管理。
可选的,处理器301执行的所述获取关键词文本,包括:
获取不同书本类型的书本封面图和书本目录图;
对所述书本封面和书本目录进行文字识别,得到文字识别结果;
从所述文字识别结果提取出候选关键词,根据所述候选关键词生成所述关键词文本。
可选的,处理器301执行的所述获取关键词文本目标书本的待处理图像,包括:
对书本中随机页数的内容进行拍摄,得到所述待处理图像。
可选的,处理器301执行的所述方法还包括:
通过预设的数据集对所述图像特征提取模型和语义模型进行联合训练,得到训练好的图像特征提取模型和训练好的语义模型。
可选的,处理器301执行的在所述通过预设的数据集对所述图像特征提取模型和语义模型进行联合训练之前,包括:
获取不同书本类型的样本书本;
对所述样本书本中随机页数的内容进行拍摄,得到所述样本图像,对所述样本图像进行语义描述,得到与所述样本图像对应的语义文本;
根据所述样本图像以及对应的所述语义文本,构建得到数据集。
可选的,处理器301执行的所述通过预设的数据集对所述图像特征提取模型和语义模型进行联合训练,包括:
将所述数据集划分为训练集和测试集,并将所述图像特征提取模型与语义模型进行级联,得到级联模型;
通过所述训练集对所述级联模型者训练,直到所述级联模型在测试集中收敛,得到训练好的级联模型,所述训练好的级联模型包括训练好的图像特征提取模型和训练好的语义模型。
可选的,处理器301执行的在通过所述训练集对所述级联模型者训练,直到所述级联模型在测试集中收敛,得到训练好的级联模型之后,所述方法还包括,包括:
通过预设的词嵌入模型对所述关键词文本进行词嵌入,得到所述关键词文本的词嵌入向量;
根据所述词嵌入向量对所述训练好的语义模型进行修正。
本发明实施例提供的电子设备能够实现上述方法实施例中书本管理方法实现的各个过程,且可以达到相同的有益效果。为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本发明实施例提供的书本管理方法或应用端书本管理方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存取存储器(Random AccessMemory,简称RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种书本管理方法,其特征在于,包括以下步骤:
获取关键词文本和目标书本的待处理图像,所述待处理图像为所述书本中的内容图像;
通过训练好的图像特征提取模型对所述待处理图像进行图像特征提取,得到所述待处理图像的图像特征;
将所述图像特征输入到训练好的语义模型中进行语义提取,得到所述待处理图像的语义特征,所述语义模型通过所述关键词文本进行参数修正得到;
基于所述语义特征,通过基于自注意力机制的解码器对所述图像特征进行解码,得到所述目标书本的语义描述文本;
通过所述语义描述文本对所述目标书本进行管理。
2.如权利要求1所述的方法,其特征在于,所述获取关键词文本,包括:
获取不同书本类型的书本封面图和书本目录图;
对所述书本封面和书本目录进行文字识别,得到文字识别结果;
从所述文字识别结果提取出候选关键词,根据所述候选关键词生成所述关键词文本。
3.如权利要求2所述的方法,其特征在于,所述获取关键词文本目标书本的待处理图像,包括:
对书本中随机页数的内容进行拍摄,得到所述待处理图像。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
通过预设的数据集对所述图像特征提取模型和语义模型进行联合训练,得到训练好的图像特征提取模型和训练好的语义模型。
5.如权利要求4所述的方法,其特征在于,在所述通过预设的数据集对所述图像特征提取模型和语义模型进行联合训练之前,包括:
获取不同书本类型的样本书本;
对所述样本书本中随机页数的内容进行拍摄,得到所述样本图像,对所述样本图像进行语义描述,得到与所述样本图像对应的语义文本;
根据所述样本图像以及对应的所述语义文本,构建得到数据集。
6.如权利要求5所述的方法,其特征在于,所述通过预设的数据集对所述图像特征提取模型和语义模型进行联合训练,包括:
将所述数据集划分为训练集和测试集,并将所述图像特征提取模型与语义模型进行级联,得到级联模型;
通过所述训练集对所述级联模型者训练,直到所述级联模型在测试集中收敛,得到训练好的级联模型,所述训练好的级联模型包括训练好的图像特征提取模型和训练好的语义模型。
7.如权利要求6所述的方法,其特征在于,在通过所述训练集对所述级联模型者训练,直到所述级联模型在测试集中收敛,得到训练好的级联模型之后,所述方法还包括,包括:
通过预设的词嵌入模型对所述关键词文本进行词嵌入,得到所述关键词文本的词嵌入向量;
根据所述词嵌入向量对所述训练好的语义模型进行修正。
8.一种书本管理装置,其特征在于,所述装置包括:
第一获取模块,用于获取关键词文本和目标书本的待处理图像,所述待处理图像为所述书本中的内容图像;
第一提取模块,用于通过训练好的图像特征提取模型对所述待处理图像进行图像特征提取,得到所述待处理图像的图像特征;
第二处理模块,用于将所述图像特征输入到训练好的语义模型中进行语义提取,得到所述待处理图像的语义特征,所述语义模型通过所述关键词文本进行参数修正得到;
解码模块,用于基于所述语义特征,通过基于自注意力机制的解码器对所述图像特征进行解码,得到所述目标书本的语义描述文本;
管理模块,用于通过所述语义描述文本对所述目标书本进行管理。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的书本管理方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的书本管理方法中的步骤。
CN202111668307.5A 2021-12-31 2021-12-31 书本管理方法 Pending CN114429635A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111668307.5A CN114429635A (zh) 2021-12-31 2021-12-31 书本管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111668307.5A CN114429635A (zh) 2021-12-31 2021-12-31 书本管理方法

Publications (1)

Publication Number Publication Date
CN114429635A true CN114429635A (zh) 2022-05-03

Family

ID=81310958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111668307.5A Pending CN114429635A (zh) 2021-12-31 2021-12-31 书本管理方法

Country Status (1)

Country Link
CN (1) CN114429635A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114445832A (zh) * 2022-01-25 2022-05-06 平安科技(深圳)有限公司 基于全局语义的文字图像识别方法、装置及计算机设备
CN115565186A (zh) * 2022-09-26 2023-01-03 北京百度网讯科技有限公司 文字识别模型的训练方法、装置、电子设备和存储介质
CN115983199A (zh) * 2023-03-16 2023-04-18 山东天成书业有限公司 一种移动数字出版系统及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114445832A (zh) * 2022-01-25 2022-05-06 平安科技(深圳)有限公司 基于全局语义的文字图像识别方法、装置及计算机设备
CN115565186A (zh) * 2022-09-26 2023-01-03 北京百度网讯科技有限公司 文字识别模型的训练方法、装置、电子设备和存储介质
CN115565186B (zh) * 2022-09-26 2023-09-22 北京百度网讯科技有限公司 文字识别模型的训练方法、装置、电子设备和存储介质
CN115983199A (zh) * 2023-03-16 2023-04-18 山东天成书业有限公司 一种移动数字出版系统及方法

Similar Documents

Publication Publication Date Title
CN108288078B (zh) 一种图像中字符识别方法、装置和介质
US10824874B2 (en) Method and apparatus for processing video
CN106776503B (zh) 文本语义相似度的确定方法及装置
CN114429635A (zh) 书本管理方法
US20180260479A1 (en) Method, apparatus, system and electronic device for picture book recognition
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN112016553B (zh) 光学字符识别(ocr)系统、自动ocr更正系统、方法
CN110222168B (zh) 一种数据处理的方法及相关装置
US20230032728A1 (en) Method and apparatus for recognizing multimedia content
CN112434533B (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN113836992A (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
CN111651674B (zh) 双向搜索方法、装置及电子设备
CN111460185A (zh) 书籍搜索方法、装置和系统
CN114596845A (zh) 语音识别模型的训练方法、语音识别方法及装置
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN111177421A (zh) 一种面向数字人文的电子邮件历史事件轴生成方法及装置
CN113051384A (zh) 基于对话的用户画像抽取方法及相关装置
CN116483979A (zh) 基于人工智能的对话模型训练方法、装置、设备及介质
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN111477212A (zh) 内容识别、模型训练、数据处理方法、系统及设备
CN115565186A (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
CN115238124A (zh) 视频人物检索方法、装置、设备和存储介质
KR102348689B1 (ko) 감정점수를 활용한 시퀀스-투-시퀀스 기반의 텍스트 요약
CN111767710B (zh) 印尼语的情感分类方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination