CN107944030A - 一种图书自动分类装置 - Google Patents

一种图书自动分类装置 Download PDF

Info

Publication number
CN107944030A
CN107944030A CN201711323904.8A CN201711323904A CN107944030A CN 107944030 A CN107944030 A CN 107944030A CN 201711323904 A CN201711323904 A CN 201711323904A CN 107944030 A CN107944030 A CN 107944030A
Authority
CN
China
Prior art keywords
circuit
word
book
information
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201711323904.8A
Other languages
English (en)
Inventor
罗艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Jiuding Zhiyuan Intellectual Property Operation Co Ltd
Original Assignee
Sichuan Jiuding Zhiyuan Intellectual Property Operation Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Jiuding Zhiyuan Intellectual Property Operation Co Ltd filed Critical Sichuan Jiuding Zhiyuan Intellectual Property Operation Co Ltd
Priority to CN201711323904.8A priority Critical patent/CN107944030A/zh
Publication of CN107944030A publication Critical patent/CN107944030A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种图书自动分类装置包括依次连接的:图像采集器、文字识别器、文字匹配电路和信息提取电路,其中,文字识别器包括依次连接的图像处理电路、特征值提取电路和特征值匹配电路;特征值匹配电路包括段落划分模块电路,和连接该段落划分模块电路和文字特征值库的库匹配模块电路;特征值提取电路包括依次连接的图像投影模块电路、图像预处理模块电路和特征值提取模块电路。通过识别图书封面图像中的文字,进一步在图书数据库中匹配相应的图书属性信息,进而提取出图书分类信息。该装置可为图书的分类提供丰富的分类项依据,分类种类丰富、覆盖信息广,分类准确率高,分类效率高。

Description

一种图书自动分类装置
技术领域
本发明涉及信息管理领域,尤其是一种图书自动分类装置。
背景技术
基于电子科技技术的发展和推广,数字化办公已越来越受到用户的青睐,相对于传统的纸质化办公,数字化办公具有效率高、易管理和环保等优势。而基于长久的数字化办公,在阅读方面,人们也越来越倾向于网络的推荐和检索。
在大众阅读的良好环境下,各地区也相应建设了如图书馆等供公众借阅图书的场所,而在建设该类场所的同时,因考虑到需要存入大量的图书,这就需要大量的工作量以对图书进行相应的归类和存放,即同种类别的图书需要放入相应的书柜中,以便查阅。
而对于如何将图书进行分类,在传统方式中,为人工分类,或者人工借助扫码设备对图书进行分类。在一方面,条形码也仅能显示图书在专业上的分类,对于其他分类信息是无法得知的。因此,通过扫描也仅能实现在专业上的分类。该种分类方式下,需要该图书的信息已写入扫码数据库,进一步的,还需要该图书已登记有条形码。因此,该种分类方式存在效率不高和分类信息不丰富的缺陷,对于受众在选择上,无法提供相应的参考信息。。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种自动实现对图书进行快速分类的方案,解决扫码方式不能全覆盖图书信息的问题,同时,还解决通过人工分类效率较低的问题。
本发明采用的技术方案如下:
一种图书自动分类装置,包括依次连接的:图像采集器、文字识别器、文字匹配电路和信息提取电路,其中:
图像采集器,被配置为:采集图书封面的图像数据,传递给文字识别器;
文字识别器,被配置为:识别所述图像数据的图书封面文字,输出封面文字信息给文字匹配电路;
文字匹配电路,被配置为:接收所述封面文字信息,根据所述封面文字信息,在图书数据库中匹配出图书属性信息输出给信息提取电路;
信息提取电路,被配置为:从所述图书属性信息中,提取出图书的分类信息。
进一步,上述分类信息包括:图书的题材分类信息、图书的价位分类信息、图书的受众分类信息或图书的评价等级分类信息中的一项或多项。
虽然图书可能会未注册条形码,但图书的封面都会有图书的名称等信息。通过获取图书的封面文字信息(包含相应的图书名称等信息),再基于图书数据库查找出相应的属性信息,再对应于分类依据(如专业、价位等)进行相应分类,从而丰富了分类种类,进一步,实现自动的图书分类。
作为优选,上述文字识别器包括依次连接的图像处理电路、特征值提取电路和特征值匹配电路,其中:
图像处理电路,被配置为:对所述图像数据进行预处理,输出图书封面图像给特征值提取电路;
特征值提取电路,被配置为:提取所述图书封面图像的特征值,输出给特征值匹配电路;
特征值匹配电路,被配置为:将接收的所述特征值在文字特征值库中匹配出相应文字,输出封面文字信息。
进一步的,预处理包括:封面图像定位、边缘提取和二值化处理,或者还包括形态学处理。该形态学处理包括腐蚀处理和膨胀处理,分别为消除平滑噪声和突出特征部分。
作为优选,图像采集器为摄像设备或扫描设备。
作为优选方案,上述特征值匹配电路包括段落划分模块电路,和连接该段落划分模块电路和文字特征值库的库匹配模块电路,其中:
库匹配模块电路,被配置为:将接收的所述特征值依次在文字特征值库中匹配出相应文字,将识别的文字输出给段落划分模块电路;即识别封面上的文字;
段落划分模块电路,被配置为:接收所述库匹配模块电路发送的文字,根据图书封面图像中文字的排版,将接收的文字依次划分为若干段落,输出划分成若干段落的封面文字信息;即将封面上的文字按在封面上的排版,划分开来;
所述文字匹配电路被配置为:将接收的所述封面文字信息,按划分的段落依次在图书数据库中匹配到图书属性信息时,停止匹配后续段落,将图书属性信息输出给信息提取电路。
按划分的段落进行信息匹配,可有效增加匹配的准确率,同时,减少全文匹配的计算量。
进一步的,,段落划分模块电路被配置为:根据图书封面图像中文字排版的连续性,在文字非连续处添加间隔标识符;
所述文字匹配电路被配置为:接收封面文字信息,依次每连续两个间隔标识符间的文字在图书数据库中匹配到图书属性信息时,停止匹配后续文字的匹配,将图书属性信息输出给信息提取电路。
作为优选,图书数据库包含相互关联的图书名称项、出版社项和作者项,所述相互关联的图书名称项、出版社项和作者项对应于同一图书属性信息;
所述文字匹配电路被配置为:接收封面文字信息,依次将每连续两个间隔标识符间的文字在图书数据库的图书名称项、出版社项或作者项下匹配到相应项时,提取所述匹配到的项对应的图书属性信息输出给信息提取电路。
基于封面信息上的内容大致包括图书名称、作者和出版社信息,通过该三项的匹配,可以快速且准确的匹配到相应图书属性信息。
作为优选,特征值提取电路包括依次连接的图像投影模块电路、图像预处理模块电路和特征值提取模块电路,其中:
图像投影模块电路,被配置为:连接图像处理电路,将所述图书封面图像在横向或纵向进行投影,划分为若干图像块;
图像预处理模块电路,被配置为:对所述若干图像块进行预处理,输出若干二值化图像块;
特征值提取模块电路,被配置为:依次提取所述若干二值化图像块的特征值,依次将提取的特征值输出给特征值匹配电路。
将图书封面切割为若干图像块,可为有效图像块的选取提供便宜。
进一步的,特征值匹配电路依次识别出所述特征值提取模块电路输出的二值化图像块的特征值对应文字作为封面文字信息输出给文字匹配电路;
所述文字匹配电路还被配置为:依次将特征值匹配电路发送的封面文字信息中每两个间隔标识符间的文字在图书数据库的图书名称项、出版社项或作者项下匹配到相应项时,提取所述匹配到的项对应的图书属性信息输出给信息提取电路,向图像预处理模块电路发送停止处理信号,以使所述图像预处理模块电路停止处理后续图像块。
通过逐一对图像块进行相应内容的匹配,在匹配到需要的图书属性信息后,不再对后续划分剩余的图像块进行处理和识别,可明显减少对图书封面信息识别的计算量和匹配计算量。
作为优选,图书数据库为授权的图书出版社数据库,或者为授权的图书代理商数据库。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
上述基于图书数据库的分类装置,可为图书的分类提供丰富的分类项依据,同时,基于图书数据库的分类数据检索,可为图书的分类提供有效的数据支撑。本发明的方法,可实现快速地自动对图书进行相应分类的效果,进一步的,用户可根据倾向的检索分类项进行相应的检索,以快速找到其所计划检索的图书。分类种类丰富、覆盖信息广,分类准确率高,分类效率高。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是图书自动分类装置模块连接构造图。
图2是图1中文字识别器的模块构造图。
图3是图1中特征值匹配电路的模块构造图。
图4是图1中特征值提取电路的模块构造图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
如图1 所示,本实施例公开了一种图书自动分类装置,其特征为,包括依次连接的:图像采集器、文字识别器、文字匹配电路和信息提取电路,其中:
图像采集器,被配置为:采集图书封面的图像数据,传递给文字识别器;
文字识别器,被配置为:识别所述图像数据的图书封面文字,输出封面文字信息给文字匹配电路;
文字匹配电路,被配置为:接收所述封面文字信息,根据所述封面文字信息,在图书数据库中匹配出图书属性信息输出给信息提取电路;
信息提取电路,被配置为:从所述图书属性信息中,提取出图书的分类信息。
优选的,分类信息包括:图书的题材分类信息、图书的价位分类信息、图书的受众分类信息或图书的评价等级分类信息中的一项或多项。
如图2所示,在一个实施例中,上述文字识别器包括依次连接的图像处理电路、特征值提取电路和特征值匹配电路,其中:
图像处理电路,被配置为:对所述图像数据进行预处理,输出图书封面图像给特征值提取电路;
特征值提取电路,被配置为:提取所述图书封面图像的特征值,输出给特征值匹配电路;
特征值匹配电路,被配置为:将接收的所述特征值在文字特征值库中匹配出相应文字,输出封面文字信息。
优选的,预处理包括:封面图像定位、边缘提取和二值化处理,或者还包括形态学处理。即预处理包括:封面图像定位、边缘提取和二值化处理,或者包括封面图像定位、边缘提取、二值化处理和形态学处理。
在一个具体的实施例中,图像采集器为摄像设备或扫描设备。
如图3所示,特征值匹配电路包括段落划分模块电路,和连接该段落划分模块电路和文字特征值库的库匹配模块电路,其中:
库匹配模块电路,被配置为:将接收的所述特征值依次在文字特征值库中匹配出相应文字,将识别的文字输出给段落划分模块电路;
段落划分模块电路,被配置为:接收所述库匹配模块电路发送的文字,根据图书封面图像中文字的排版,将接收的文字依次划分为若干段落,输出划分成若干段落的封面文字信息;
所述文字匹配电路被配置为:将接收的所述封面文字信息,按划分的段落依次在图书数据库中匹配到图书属性信息时,停止匹配后续段落,将图书属性信息输出给信息提取电路。
在一个实施例中,上述段落划分模块电路被配置为:根据图书封面图像中文字排版的连续性,在文字非连续处添加间隔标识符;
所述文字匹配电路被配置为:接收封面文字信息,依次每连续两个间隔标识符间的文字在图书数据库中匹配到图书属性信息时,停止匹配后续文字的匹配,将图书属性信息输出给信息提取电路。
在一个具体实施例中,上述图书数据库包含相互关联的图书名称项、出版社项和作者项,所述相互关联的图书名称项、出版社项和作者项对应于同一图书属性信息;
所述文字匹配电路被配置为:接收封面文字信息,依次将每连续两个间隔标识符间的文字在图书数据库的图书名称项、出版社项或作者项下匹配到相应项时,提取所述匹配到的项对应的图书属性信息输出给信息提取电路。
如图4所示,在一个实施例中,所述特征值提取电路包括依次连接的图像投影模块电路、图像预处理模块电路和特征值提取模块电路,其中:
图像投影模块电路,被配置为:连接图像处理电路,将所述图书封面图像在横向或纵向进行投影,划分为若干图像块;
图像预处理模块电路,被配置为:对所述若干图像块进行预处理,输出若干二值化图像块;
特征值提取模块电路,被配置为:依次提取所述若干二值化图像块的特征值,依次将提取的特征值输出给特征值匹配电路。
进一步的,特征值匹配电路依次识别出所述特征值提取模块电路输出的二值化图像块的特征值对应文字作为封面文字信息输出给文字匹配电路;
所述文字匹配电路还被配置为:依次将特征值匹配电路发送的封面文字信息中每两个间隔标识符间的文字在图书数据库的图书名称项、出版社项或作者项下匹配到相应项时,提取所述匹配到的项对应的图书属性信息输出给信息提取电路,向图像预处理模块电路发送停止处理信号,以使所述图像预处理模块电路停止处理后续图像块。
作为优选,图书数据库为授权的图书出版社数据库,或者为授权的图书代理商数据库。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims (10)

1.一种图书自动分类装置,其特征为,包括依次连接的:图像采集器、文字识别器、文字匹配电路和信息提取电路,其中:
图像采集器,被配置为:采集图书封面的图像数据,传递给文字识别器;
文字识别器,被配置为:识别所述图像数据的图书封面文字,输出封面文字信息给文字匹配电路;
文字匹配电路,被配置为:接收所述封面文字信息,根据所述封面文字信息,在图书数据库中匹配出图书属性信息输出给信息提取电路;
信息提取电路,被配置为:从所述图书属性信息中,提取出图书的分类信息。
2.如权利要求1所述的装置,其特征为,所述文字识别器包括依次连接的图像处理电路、特征值提取电路和特征值匹配电路,其中:
图像处理电路,被配置为:对所述图像数据进行预处理,输出图书封面图像给特征值提取电路;
特征值提取电路,被配置为:提取所述图书封面图像的特征值,输出给特征值匹配电路;
特征值匹配电路,被配置为:将接收的所述特征值在文字特征值库中匹配出相应文字,输出封面文字信息。
3.如权利要求2所述的装置,其特征为,所述预处理包括:封面图像定位、边缘提取和二值化处理,或者还包括形态学处理。
4.如权利要求3所述的装置,其特征为,所述图像采集器为摄像设备或扫描设备。
5.如权利要求4所述的装置,其特征为,所述特征值匹配电路包括段落划分模块电路,和连接该段落划分模块电路和文字特征值库的库匹配模块电路,其中:
库匹配模块电路,被配置为:将接收的所述特征值依次在文字特征值库中匹配出相应文字,将识别的文字输出给段落划分模块电路;
段落划分模块电路,被配置为:接收所述库匹配模块电路发送的文字,根据图书封面图像中文字的排版,将接收的文字依次划分为若干段落,输出划分成若干段落的封面文字信息;
所述文字匹配电路被配置为:将接收的所述封面文字信息,按划分的段落依次在图书数据库中匹配到图书属性信息时,停止匹配后续段落,将图书属性信息输出给信息提取电路。
6.如权利要求5所述的装置,其特征为,所述段落划分模块电路被配置为:根据图书封面图像中文字排版的连续性,在文字非连续处添加间隔标识符;
所述文字匹配电路被配置为:接收封面文字信息,依次每连续两个间隔标识符间的文字在图书数据库中匹配到图书属性信息时,停止匹配后续文字的匹配,将图书属性信息输出给信息提取电路。
7.如权利要求6所述的装置,其特征为,所述图书数据库包含相互关联的图书名称项、出版社项和作者项,所述相互关联的图书名称项、出版社项和作者项对应于同一图书属性信息;
所述文字匹配电路被配置为:接收封面文字信息,依次将每连续两个间隔标识符间的文字在图书数据库的图书名称项、出版社项或作者项下匹配到相应项时,提取所述匹配到的项对应的图书属性信息输出给信息提取电路。
8.如权利要求7所述的装置,其特征为,所述特征值提取电路包括依次连接的图像投影模块电路、图像预处理模块电路和特征值提取模块电路,其中:
图像投影模块电路,被配置为:连接图像处理电路,将所述图书封面图像在横向或纵向进行投影,划分为若干图像块;
图像预处理模块电路,被配置为:对所述若干图像块进行预处理,输出若干二值化图像块;
特征值提取模块电路,被配置为:依次提取所述若干二值化图像块的特征值,依次将提取的特征值输出给特征值匹配电路。
9.如权利要求8所述的装置,其特征为,所述特征值匹配电路依次识别出所述特征值提取模块电路输出的二值化图像块的特征值对应文字作为封面文字信息输出给文字匹配电路;
所述文字匹配电路还被配置为:依次将特征值匹配电路发送的封面文字信息中每两个间隔标识符间的文字在图书数据库的图书名称项、出版社项或作者项下匹配到相应项时,提取所述匹配到的项对应的图书属性信息输出给信息提取电路,向图像预处理模块电路发送停止处理信号,以使所述图像预处理模块电路停止处理后续图像块。
10.如权利要求9所述的装置,其特征为,所述图书数据库为授权的图书出版社数据库,或者为授权的图书代理商数据库。
CN201711323904.8A 2017-12-13 2017-12-13 一种图书自动分类装置 Withdrawn CN107944030A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711323904.8A CN107944030A (zh) 2017-12-13 2017-12-13 一种图书自动分类装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711323904.8A CN107944030A (zh) 2017-12-13 2017-12-13 一种图书自动分类装置

Publications (1)

Publication Number Publication Date
CN107944030A true CN107944030A (zh) 2018-04-20

Family

ID=61943875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711323904.8A Withdrawn CN107944030A (zh) 2017-12-13 2017-12-13 一种图书自动分类装置

Country Status (1)

Country Link
CN (1) CN107944030A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034002A (zh) * 2018-07-04 2018-12-18 安徽淘云科技有限公司 实体书检测方法及装置
CN109657750A (zh) * 2018-12-12 2019-04-19 枣庄学院 一种图书馆图书自动分类方法
CN110287881A (zh) * 2019-06-26 2019-09-27 上海交通大学 图书识别系统、图书识别方法、电子装置及储存介质
CN111090817A (zh) * 2019-12-20 2020-05-01 掌阅科技股份有限公司 书籍扩展信息的展示方法、电子设备及计算机存储介质
CN115157877A (zh) * 2022-04-15 2022-10-11 广州标控科技有限公司 一种图书采编预处理方法、装置及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034002A (zh) * 2018-07-04 2018-12-18 安徽淘云科技有限公司 实体书检测方法及装置
CN109657750A (zh) * 2018-12-12 2019-04-19 枣庄学院 一种图书馆图书自动分类方法
CN110287881A (zh) * 2019-06-26 2019-09-27 上海交通大学 图书识别系统、图书识别方法、电子装置及储存介质
CN111090817A (zh) * 2019-12-20 2020-05-01 掌阅科技股份有限公司 书籍扩展信息的展示方法、电子设备及计算机存储介质
CN115157877A (zh) * 2022-04-15 2022-10-11 广州标控科技有限公司 一种图书采编预处理方法、装置及系统

Similar Documents

Publication Publication Date Title
CN107944030A (zh) 一种图书自动分类装置
CN108038506A (zh) 一种图书自动分类方法
CN104516986B (zh) 一种语句识别方法及装置
CN105138652B (zh) 一种企业关联关系识别方法及系统
CN104699835B (zh) 用于确定网页页面中包括兴趣点poi数据的方法及装置
CN104298749A (zh) 一种图像视觉和文本语义融合商品检索方法
CN110110577B (zh) 识别菜名的方法及装置、存储介质、电子装置
CN103530652A (zh) 一种基于人脸聚类的视频编目方法、检索方法及其系统
CN109658062A (zh) 一种基于深度学习的电子档案智能处理方法
CN104133875A (zh) 一种基于人脸的视频标注方法和视频检索方法
CN102411578A (zh) 一种多媒体播放系统和方法
CN103617192B (zh) 一种数据对象的聚类方法和装置
CN112015721A (zh) 一种基于大数据的电商平台存储数据库的优化方法
CN104168433A (zh) 一种媒体内容处理方法及系统
CN106682137A (zh) 一种智能股票投顾问答交互方法与系统
EP3260968A1 (en) Method and apparatus for displaying electronic picture, and mobile device
CN107452371A (zh) 一种语音分类模型的构建方法及装置
CN109992752A (zh) 合同文件的标签标记方法、装置、计算机装置及存储介质
CN103605666A (zh) 一种进行广告检测的视频拷贝检测方法
CN111368138A (zh) 视频类别标签的排序方法、装置、电子设备及存储介质
CN112784078A (zh) 一种基于语义识别的视频自动剪辑方法
CN106919588A (zh) 一种应用程序搜索系统及方法
WO2016186137A1 (ja) 会計支援システム
CN109190119A (zh) 时间提取方法和装置、存储介质及电子装置
CN105930313A (zh) 处理通知信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180420

WW01 Invention patent application withdrawn after publication