CN110321966B - 一种加快图书相似性分析速度的方法 - Google Patents

一种加快图书相似性分析速度的方法 Download PDF

Info

Publication number
CN110321966B
CN110321966B CN201910623668.4A CN201910623668A CN110321966B CN 110321966 B CN110321966 B CN 110321966B CN 201910623668 A CN201910623668 A CN 201910623668A CN 110321966 B CN110321966 B CN 110321966B
Authority
CN
China
Prior art keywords
book
similarity
image
point
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910623668.4A
Other languages
English (en)
Other versions
CN110321966A (zh
Inventor
周哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Original Assignee
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongfang Knowledge Network Digital Publishing Technology Co ltd filed Critical Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority to CN201910623668.4A priority Critical patent/CN110321966B/zh
Publication of CN110321966A publication Critical patent/CN110321966A/zh
Application granted granted Critical
Publication of CN110321966B publication Critical patent/CN110321966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种加快图书相似性分析速度的方法,包括:提取图书图像及图书文本内容;对提取的图书图像进行缩放处理,及对提取的图书文本内容进行划分,划分为形式特征逻辑段落和内容特征逻辑段落;将缩放后的图书图像通过CEDD模型,计算出图书图像的边缘直方图信息;将图书文本内容进行分词处理;通过计算TF‑IDF值,得到图书文本内容特征及图书图像描述内容的特征信息;对图书文本内容特征进行相似性分析,得到图书文本内容相似度;以及根据图书图像边缘直方图信息与图书图像描述内容的特征信息,计算出图书图像的相似度。

Description

一种加快图书相似性分析速度的方法
技术领域
本发明涉及图书内容拆分与分析、图像缩放、图书文本相似性分析的方法与图书图像相似性分析的方法,尤其涉及一种加快图书相似性分析速度的方法。
背景技术
在相似性分析实际应用中,图书因其包含的文字和内容较多,所以对图书进行相似性分析比对的时候效率通常非常慢,而随着社会的发展,图书需要进行相似性比对的数量日益增大,因此,需要开发一种符合当下实际应用场景要求的,高效稳定并且结果可靠的图书相似性比对方法,以达到提高检测效率和质量,降低成本的目的。
发明内容
为解决上述技术问题,本发明的目的是提供一种加快图书相似性分析速度的方法。
本发明的目的通过以下的技术方案来实现:
一种加快图书相似性分析速度的方法,包括:
A提取图书图像及图书文本内容;
B对提取的图书图像进行缩放处理,及对提取的图书文本内容进行划分,划分为形式特征逻辑段落和内容特征逻辑段落;
C将缩放后的图书图像通过CEDD模型,计算出图书图像的边缘直方图信息;
D将图书文本内容进行分词处理;
E通过计算TF-IDF值,得到图书文本内容特征及图书图像描述内容的特征信息;
F对图书文本内容特征进行相似性分析,得到图书文本内容相似度;以及
根据图书图像边缘直方图信息与图书图像描述内容的特征信息,计算出图书图像的相似度。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
实现了一种全新的图书相似度分析方法,该方法可以极大地提高图书相似度比对的效率,降低成本;该方法具有抽取特征速度快,特征描述符合占用空间小的特点,正确率、尤其是相似度比对效率在原有方法的基础上得到了极大的提升。
附图说明
图1是加快图书相似性分析速度的方法流程图;
图2是加快图书相似性分析速度的方法流程框图;
图3是章节划分流程图;
图4是章节名称与内容关系图;
图5是内容特征逻辑段落划分图;
图6是双线性插值图。
具体实施方式
本发明的核心设计思想是:将图书的文本内容先进行处理与分析,然后将图书图像通过缩放调整至合理的尺寸,不破坏图片特征的情况下,转化为低精度图片,有利于提高后续图片处理速度,后续再进行综合分析处理,该方法具有抽取特征速度快,特征描述符占用空间小的特点,正确率、尤其是相似度比对效率在原有方法的基础上得到了极大提升。
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1和图2所示,为加快图书相似性分析速度的方法流程,包括如下步骤:
步骤10提取图书图像及图书文本内容;
步骤20对提取的图书图像进行缩放处理,及对提取的图书文本内容进行划分,划分为形式特征逻辑段落和内容特征逻辑段落;
步骤30将缩放后的图书图像通过CEDD模型,计算出图书图像的边缘直方图信息;
步骤40将图书文本内容进行分词处理;
步骤50通过计算TF-IDF(Term Frequency-Inverse Document Frequency词频-逆文本频率指数)值,得到图书文本内容特征及图书图像描述内容的特征信息;
步骤60对图书文本内容特征进行相似性分析,得到图书文本内容相似度;以及
根据图书图像边缘直方图信息与图书图像描述内容的特征信息,计算出图书图像的相似度。
上述图书内容提取出来后,对图书内容进行形式特征逻辑段落的划分,流程如附图3所示,形式特征逻辑段落的划分主要根据图书自带信息来划分,主要可以根据图书的目录来划分:
先获取目录页面,解析章节名和页码;
根据获取的章节名和页码检索具体在图书中的位置;
根据匹配到的正文中的章节名和页码获取正文内容。
实际中可能存在目录不够清晰或者目录丢失的情况,那么就不能完全依赖这种方法,如若毁坏了目录页,但是在正文中根据一些规则可以提取章节名字,如图4所示,正文章节提取规则如下:
章节的命名是数字和汉字组合;
字体字号与正文不一致,一般情况下章节的字号大于正文字号;
章节的单独占一行。
对于不适于用形式特征逻辑段落的划分的方法划分的图书,将对其内容进行内容特征逻辑段落划分,内容特征逻辑段落的划分思想是:利用相邻自然段之间的相似度进行层次划分,保证层内相似性高,层间差距大,那么这一个层就可以看做一个章节,不断递归,这样就能划分出越来越高级别的章节(附图5),具体流程如下:
输入的数据是划分出来的自然段;
自然段向量化;
计算相邻向量的相似度;
当两个自然段之间相似度相近时,可划分为这两个自然段为一个逻辑段落的内容;若两个自然段之间相似度较小,则认为这两个自然段不属于同一个逻辑段落,即是两个逻辑段落的边界。
两个图书逻辑段落内容间的相似度可以用两个向量的余弦夹角来度量,值越大相似度越高,因此,图书内容相似度也可以使用余弦相似度计算公式::
Figure BDA0002126347940000041
计算得出图书内容的余弦相似度。
抽取图书图像特征信息比较图书图像的相似度
抽取图书图像,在图书全文相似计算过程中,高清大图会影响处理的速度,因此在保证图片不失真、不变形即保留原图片的特征的情况下,实现图片的低分辨率转化或者生成高清大图的缩略图,提高后期图片处理速度,同时降低图片的存储大小。
图书图像的缩小,首先根据所期望缩小的尺寸数据,从原图像中选择合适的像素点,通过减少图像像素的像素的点,使图像缩小之后可以尽量保持原有图像的概貌特征不丢失。
图书图像的放大则是通过原始图片和目标图片的高宽比例,来计算目标图片的一个像素点在原始图片中的位置,用计算得到的像素点进行填充。主要算法如下:
首先,计算出目标图像中的点P1对应在原始图像中的点P0,然后根据P0点与周围4个临近点(P1,P2,P3,P4)距离关系计算目标点的像素值(附图6),在附图6中:
s1=y0–sy1
s2=sx2–x0
s3=1.0–s1
s4=1.0–s2
假设P1,P2,P3,P4的像素值分别为V1,V2,V3,V4,那么P0的像素值V0公式为:
V0=V1*S1*S4+V2*S1*S2+V3*S2*S3+V4*S3*S4
通过将图书图像缩放至合适尺寸后,将图书图像通过CEDD模型,计算出图书图像的直方图信息,再将图像的描述内容,通过第一部分计算文本相似度的方法计算出图书图像描述内容的余弦相似度,结合图像直方图信息与描述内容的余弦相似度,综合计算出图像的相似度。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所,附的权利要求书所界定的范围为准。

Claims (1)

1.一种加快图书相似性分析速度的方法,其特征在于,所述方法包括:
A提取图书图像及图书文本内容;
B对提取的图书图像进行缩放处理,及对提取的图书文本内容进行划分,划分为形式特征逻辑段落和内容特征逻辑段落;
C将缩放后的图书图像通过CEDD模型,计算出图书图像的边缘直方图信息;
D将图书文本内容进行分词处理;
E通过计算TF-IDF值,得到图书文本内容特征及图书图像描述内容的特征信息;
F对图书文本内容特征进行相似性分析,得到图书文本内容相似度;以及
根据图书图像边缘直方图信息与图书图像描述内容的特征信息,计算出图书图像的相似度;
所述图书图像的缩小包括:根据期望图像尺寸数据,从原图像中选择合适的像素点,并通过减少图像像素的像素点,使缩放后的图像保持原有图像概貌特征;
所述图书图像的放大包括:根据原始图片和目标图片的高和宽的比例计算目标图片的一个像素点在原始图片中的位置,并用计算得到的像素点进行填充;计算方法包括:
计算出目标图片中的点P对应在原始图片中的点P0,然后根据P0点与周围4个临近点(P1,P2,P3,P4)距离关系计算目标点的像素值
s1=y0–sy1
s2=sx2–x0
s3=1.0–s1
s4=1.0–s2
其中,(x0,y0)代表点P0的坐标,sy1为点P1和点P2的纵坐标,sx2为点P2和点P3的横坐标,s1代表点P0与点P1、P2的距离关系,s2代表点P0与点P2、P3的距离关系,s3代表点P0与点P3、P4的距离关系,s4代表点P0与点P4、P1的距离关系;假设P1,P2,P3,P4的像素值分别为V1,V2,V3,V4,那么P0的像素值V0公式为:
V0=V1*s1*s4+V2*s1*s2+V3*s2*s3+V4*s3*s4;
所述形式特征逻辑段落的划分根据图书目录来划分,包括:
获取目录页面,解析章节名和页码;
根据获取的章节名和页码检索具体在图书中的位置;
根据匹配到的正文中的章节名和页码获取正文内容;
若毁坏了目录页,在正文中根据一些规则可以提取章节名字,正文章节提取规则包括:章节的命名是数字和汉字组合;字体字号与正文不一致,一般情况下章节的字号大于正文字号;章节单独占一行;
所述内容特征逻辑段落划分包括:
输入的数据是划分出来的自然段;
将自然段向量化;
计算相邻向量的相似度;
当两个自然段之间相似度相近时,将这两个自然段划分为一个逻辑段落的内容;若两个自然段之间相似度较小,则认为这两个自然段不属于同一个逻辑段落,即是两个逻辑段落的边界;
两个图书逻辑段落内容间的相似度可以用两个向量的余弦夹角来度量,值越大相似度越高,因此,图书内容相似度也可以使用余弦相似度计算公式:
Figure FDA0003297537360000021
计算得出图书内容的余弦相似度。
CN201910623668.4A 2019-07-11 2019-07-11 一种加快图书相似性分析速度的方法 Active CN110321966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910623668.4A CN110321966B (zh) 2019-07-11 2019-07-11 一种加快图书相似性分析速度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910623668.4A CN110321966B (zh) 2019-07-11 2019-07-11 一种加快图书相似性分析速度的方法

Publications (2)

Publication Number Publication Date
CN110321966A CN110321966A (zh) 2019-10-11
CN110321966B true CN110321966B (zh) 2022-02-15

Family

ID=68121928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910623668.4A Active CN110321966B (zh) 2019-07-11 2019-07-11 一种加快图书相似性分析速度的方法

Country Status (1)

Country Link
CN (1) CN110321966B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412937A (zh) * 2013-08-22 2013-11-27 成都数之联科技有限公司 一种基于手持终端的搜索购物方法
CN103412938A (zh) * 2013-08-22 2013-11-27 成都数之联科技有限公司 一种基于图片交互式多目标提取的商品比价方法
CN103544216A (zh) * 2013-09-23 2014-01-29 Tcl集团股份有限公司 一种结合图像内容和关键字的信息推荐方法及系统
CN104572804A (zh) * 2013-10-24 2015-04-29 Tcl集团股份有限公司 一种视频物体检索的方法及其系统
CN105404657A (zh) * 2015-11-04 2016-03-16 北京工业大学 一种基于cedd特征和phog特征的图像检索方法
CN105608234A (zh) * 2016-03-18 2016-05-25 北京京东尚科信息技术有限公司 图像检索方法和装置
CN105912642A (zh) * 2016-04-08 2016-08-31 世纪禾光科技发展(北京)有限公司 产品价格数据采集方法及系统
CN106250830A (zh) * 2016-07-22 2016-12-21 浙江大学 数字图书结构化分析处理方法
CN107133644A (zh) * 2017-05-03 2017-09-05 牡丹江医学院 数字化图书馆内容分析系统及方法
CN109241327A (zh) * 2017-07-03 2019-01-18 北大方正集团有限公司 图像检索方法及装置
CN109325173A (zh) * 2018-08-15 2019-02-12 山东师范大学 基于ai开放平台的阅读内容个性化推荐方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893485B (zh) * 2016-03-29 2019-02-12 浙江大学 一种基于图书目录的专题自动生成方法
CN105912684B (zh) * 2016-04-15 2019-07-26 湘潭大学 基于视觉特征和语义特征的跨媒体检索方法
CN106649597B (zh) * 2016-11-22 2019-10-01 浙江大学 一种基于图书内容的图书书后索引自动构建方法
CN109766465A (zh) * 2018-12-26 2019-05-17 中国矿业大学 一种基于机器学习的图文融合图书推荐方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412937A (zh) * 2013-08-22 2013-11-27 成都数之联科技有限公司 一种基于手持终端的搜索购物方法
CN103412938A (zh) * 2013-08-22 2013-11-27 成都数之联科技有限公司 一种基于图片交互式多目标提取的商品比价方法
CN103544216A (zh) * 2013-09-23 2014-01-29 Tcl集团股份有限公司 一种结合图像内容和关键字的信息推荐方法及系统
CN104572804A (zh) * 2013-10-24 2015-04-29 Tcl集团股份有限公司 一种视频物体检索的方法及其系统
CN105404657A (zh) * 2015-11-04 2016-03-16 北京工业大学 一种基于cedd特征和phog特征的图像检索方法
CN105608234A (zh) * 2016-03-18 2016-05-25 北京京东尚科信息技术有限公司 图像检索方法和装置
CN105912642A (zh) * 2016-04-08 2016-08-31 世纪禾光科技发展(北京)有限公司 产品价格数据采集方法及系统
CN106250830A (zh) * 2016-07-22 2016-12-21 浙江大学 数字图书结构化分析处理方法
CN107133644A (zh) * 2017-05-03 2017-09-05 牡丹江医学院 数字化图书馆内容分析系统及方法
CN109241327A (zh) * 2017-07-03 2019-01-18 北大方正集团有限公司 图像检索方法及装置
CN109325173A (zh) * 2018-08-15 2019-02-12 山东师范大学 基于ai开放平台的阅读内容个性化推荐方法及系统

Also Published As

Publication number Publication date
CN110321966A (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
CN109146788B (zh) 基于深度学习的超分辨率图像重建方法和装置
US8634644B2 (en) System and method for identifying pictures in documents
Saavedra Sketch based image retrieval using a soft computation of the histogram of edge local orientations (s-helo)
US8565554B2 (en) Resizing of digital images
JP4545641B2 (ja) 類似画像検索方法,類似画像検索システム,類似画像検索プログラム及び記録媒体
CN104809731A (zh) 一种基于梯度二值化的旋转尺度不变场景匹配方法
CN104794685A (zh) 一种实现图像去噪的方法及装置
CN110866938B (zh) 一种全自动视频运动目标分割方法
CN110060260B (zh) 一种图像处理方法及系统
CN106503112B (zh) 视频检索方法和装置
Zhang et al. Seam warping: a new approach for image retargeting for small displays
CN107578375B (zh) 图像处理方法及装置
CN109543525B (zh) 一种通用表格图像的表格提取方法
Liu et al. Multi-scale skip-connection network for image super-resolution
Hsin Combination of saliency histogram equalisation and seam carving for image resizing
WO2017070841A1 (zh) 图像处理方法和装置
KR101242659B1 (ko) 영상 검색 방법
CN110321966B (zh) 一种加快图书相似性分析速度的方法
CN113506305A (zh) 三维点云数据的图像增强方法、语义分割方法及装置
Hsin Saliency histogram equalisation and its application to image resizing
Seo et al. A photomosaic image generation method using photo annotation in a social network environment
Arai Visualization of 3D object shape complexity with wavelet descriptor and its application to image retrievals
CN116469172A (zh) 一种多时间尺度下的骨骼行为识别视频帧提取方法及系统
CN106503143B (zh) 一种图像检索方法及装置
CN101841641B (zh) 一种基于细分方法的视频放大方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant