CN108038506A - 一种图书自动分类方法 - Google Patents

一种图书自动分类方法 Download PDF

Info

Publication number
CN108038506A
CN108038506A CN201711323905.2A CN201711323905A CN108038506A CN 108038506 A CN108038506 A CN 108038506A CN 201711323905 A CN201711323905 A CN 201711323905A CN 108038506 A CN108038506 A CN 108038506A
Authority
CN
China
Prior art keywords
information
book
word
books
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201711323905.2A
Other languages
English (en)
Inventor
罗艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Jiuding Zhiyuan Intellectual Property Operation Co Ltd
Original Assignee
Sichuan Jiuding Zhiyuan Intellectual Property Operation Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Jiuding Zhiyuan Intellectual Property Operation Co Ltd filed Critical Sichuan Jiuding Zhiyuan Intellectual Property Operation Co Ltd
Priority to CN201711323905.2A priority Critical patent/CN108038506A/zh
Publication of CN108038506A publication Critical patent/CN108038506A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种图书自动分类方法,包括:S10:通过拍摄或扫描,获取图书封面的图像源,识别图书封面文字,得到封面文字信息;S20:根据所述封面文字信息,在图书数据库中进行匹配,得到图书属性信息;S30:根据所述图书属性信息中携带的信息,输出图书的分类信息。其中,分类信息包括:图书的题材分类信息、图书的价位分类信息、图书的受众分类信息或图书的评价等级分类信息中的一项或多项。本发明的方法,可实现快速地自动对图书进行相应分类的效果,进一步的,用户可根据倾向的检索分类项进行相应的检索,以快速找到其所计划检索的图书。分类种类丰富、覆盖信息广,分类准确率高,分类效率高。

Description

一种图书自动分类方法
技术领域
本发明涉及信息管理领域,尤其是一种图书自动分类方法。
背景技术
基于电子科技技术的发展和推广,数字化办公已越来越受到用户的青睐,相对于传统的纸质化办公,数字化办公具有效率高、易管理和环保等优势。而基于长久的数字化办公,在阅读方面,人们也越来越倾向于网络的推荐和检索。
在大众阅读的良好环境下,各地区也相应建设了如图书馆等供公众借阅图书的场所,而在建设该类场所的同时,因考虑到需要存入大量的图书,这就需要大量的工作量以对图书进行相应的归类和存放,即同种类别的图书需要放入相应的书柜中,以便查阅。
而对于如何将图书进行分类,在传统方式中,为人工分类,或者人工借助扫码设备对图书进行分类。在一方面,条形码也仅能显示图书在专业上的分类,对于其他分类信息是无法得知的。因此,通过扫描也仅能实现在专业上的分类。该种分类方式下,需要该图书的信息已写入扫码数据库,进一步的,还需要该图书已登记有条形码。因此,该种分类方式存在效率不高和分类信息不丰富的缺陷,对于受众在选择上,无法提供相应的参考信息。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种自动实现对图书进行快速分类的方案,解决扫码方式不能全覆盖图书信息的问题,同时,还解决通过人工分类效率较低的问题。
本发明采用的技术方案如下:
一种图书自动分类方法,包括:
S10:识别图书封面文字,得到封面文字信息;
S20:根据所述封面文字信息,在图书数据库中进行匹配,得到图书属性信息;
S30:根据所述图书属性信息中携带的信息,输出图书的分类信息。
虽然图书可能会未注册条形码,但图书的封面都会有图书的名称等信息。通过获取图书的封面文字信息(包含相应的图书名称等信息),再基于图书数据库查找出相应的属性信息,再对应于分类依据(如专业、价位等)进行相应分类,从而丰富了分类种类,进一步,实现自动的图书分类。
作为优选,S10包括:
S101:获取所述图书封面的图像数据;
S102:对所述图像数据进行定位,得到图书封面图像;
S103:提取所述图书封面图像的特征值,将所述特征值在文字特征值库中匹配出相应文字,得到封面文字信息。
上述基于特征值的文字识别方法,可有效提高文字识别的速度和准确率,进而提高图书分类的准确率。
进一步的,S101具体为:通过拍摄或扫描方式,获取图书封面的图像数据。
作为优选,S20包括:
S201:将所述封面文字信息按段落进行划分;
S202:将划分的段落依次在图书数据库中进行匹配;若匹配到图书属性信息,则停止匹配后续的段落。
基于图书封面的编排规则,是将不同的信息(如名称、作者、出版社)进行非连续性印刷的。通过将封面文字信息划分为相应段落,即划分为如名称、作者等单独的段落,再依次将各段落进行匹配,可有效较少图书属性信息匹配的计算量。
进一步的,S201具体为:将封面文字信息按在图书封面上文字排版的连续性划分为至少一个段落。
上述基于封面信息编排规则的段落划分,可有效将各类信息(如名称、作者等)单独划分为相应的完整信息段落。
作为优选,S202中将划分的段落依次在图书数据库中进行匹配具体为:
按划分的段落,依次在图书数据库中的图书名称项、出版社项或作者项进行匹配,在匹配到相应项时,提取所述匹配到的项所对应的图书属性信息。
基于各项特征信息的逐条匹配,在一方面,可减少全文匹配的数据计算量,另一方面,该类匹配方式也可提高图书属性信息匹配的准确率。
作为优选,S103中,提取所述图书封面图像的特征值具体为:
S1031:将所述图书封面图像在横向或纵向进行投影,划分为若干图像块;
S1032:对所述若干图像块进行预处理,输出若干二值化图像块;
S1033:分别提取所述若干二值化图像的特征值。
通过将封面划分为若干较小图像块,再分别识别各图像块,可有效提高最终封面文字信息的准确率。
进一步的, S202具体为:
识别出划分的第一个图像块的文字,将所述第一个图像块的文字在图书数据库中进行匹配;若未匹配到图书属性信息,则再依次识别出划分的后续图像块的文字,依次将识别出的对应的文字在图书数据库中进行匹配,直到匹配到图书属性信息,则不再识别后续图像块的文字。
即每一次仅匹配每一较小图像块的文字,直到匹配出图书属性信息时,不再进行后续图像块的识别与匹配。该方式可有效减少封面文字识别的计算量,进而缩短图书属性信息匹配的时间,提高分类效率。
作为优选,图书数据库为授权的图书出版社数据库,或者为授权的图书代理商数据库。
上述数据库可自动收集各类图书属性信息,为图书的分类提供有效支撑。
作为优选,分类信息包括:图书的题材分类信息、图书的价位分类信息、图书的受众分类信息或图书的评价等级分类信息中的一项或多项。
上述分类方式,可为相应读者的的检索项提供相应的分类依据。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
上述基于图书数据库的分类方法,可为图书的分类提供丰富的分类项依据,同时,基于图书数据库的分类数据检索,可为图书的分类提供有效的数据支撑。本发明的方法,可实现快速地自动对图书进行相应分类的效果,进一步的,用户可根据倾向的检索分类项进行相应的检索,以快速找到其所计划检索的图书。分类种类丰富、覆盖信息广,分类准确率高,分类效率高。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是一种图书自动分类方法的流程图。
图2是图1中S10的一个实施例。
图3是图1中S20的一个实施例。
图4是图2中S103的一个实施例。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
如图1所示,本实施例公开了一种图书自动分类方法,包括:
S10:识别图书封面文字,得到封面文字信息;
S20:根据所述封面文字信息,在图书数据库中进行匹配,得到图书属性信息;
S30:根据所述图书属性信息中携带的信息,输出图书的分类信息。
优选的,上述图书数据库为授权的图书出版社数据库,或者为授权的图书代理商数据库。上述分类信息包括:图书的题材分类信息、图书的价位分类信息、图书的受众分类信息或图书的评价等级分类信息中的一项或多项。
如图2所示,在一个实施例中,所述S10包括:
S101:获取所述图书封面的图像数据;
S102:对所述图像数据进行定位,得到图书封面图像;
S103:提取所述图书封面图像的特征值,将所述特征值在文字特征值库中匹配出相应文字,得到封面文字信息。
优选的,S101具体为:通过拍摄或扫描方式,获取图书封面的图像数据。
如图3所示,在一个实施例中,S20包括:
S201:将所述封面文字信息按段落进行划分;
S202:将划分的段落依次在图书数据库中进行匹配;若匹配到图书属性信息,则停止匹配后续的段落。
在一个具体的实施例中,S201具体为:将封面文字信息按在图书封面上文字排版的连续性划分为至少一个段落。
优选的,S202中将划分的段落依次在图书数据库中进行匹配具体为:
按划分的段落,依次在图书数据库中的图书名称项、出版社项或作者项进行匹配,在匹配到相应项时,提取所述匹配到的项所对应的图书属性信息。
如图4所示,在一个实施例中,S103中,提取所述图书封面图像的特征值具体为:
S1031:将所述图书封面图像在横向或纵向进行投影,划分为若干图像块;
S1032:对所述若干图像块进行预处理,输出若干二值化图像块;
S1033:分别提取所述若干二值化图像的特征值。
相应的,作为优选,S202具体为:
识别出划分的第一个图像块的文字,将所述第一个图像块的文字在图书数据库中进行匹配;若未匹配到图书属性信息,则再依次识别出划分的后续图像块的文字,依次将识别出的对应的文字在图书数据库中进行匹配,直到匹配到图书属性信息,则不再识别后续图像块的文字。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims (10)

1.一种图书自动分类方法,其特征为,包括:
S10:识别图书封面文字,得到封面文字信息;
S20:根据所述封面文字信息,在图书数据库中进行匹配,得到图书属性信息;
S30:根据所述图书属性信息中携带的信息,输出图书的分类信息。
2.如权利要求1所述的方法,其特征为,所述S10包括:
S101:获取所述图书封面的图像数据;
S102:对所述图像数据进行定位,得到图书封面图像;
S103:提取所述图书封面图像的特征值,将所述特征值在文字特征值库中匹配出相应文字,得到封面文字信息。
3.如权利要求2所述的方法,其特征为,所述S101具体为:通过拍摄或扫描方式,获取图书封面的图像数据。
4.如权利要求3所述的方法,其特征为,所述S20包括:
S201:将所述封面文字信息按段落进行划分;
S202:将划分的段落依次在图书数据库中进行匹配;若匹配到图书属性信息,则停止匹配后续的段落。
5.如权利要去4所述的方法,其特征为,所述S201具体为:将封面文字信息按在图书封面上文字排版的连续性划分为至少一个段落。
6.如权利要求5所述的方法,其特征为,所述S202中将划分的段落依次在图书数据库中进行匹配具体为:
按划分的段落,依次在图书数据库中的图书名称项、出版社项或作者项进行匹配,在匹配到相应项时,提取所述匹配到的项所对应的图书属性信息。
7.如权利要求6所述的方法,其特征为,所述S103中,提取所述图书封面图像的特征值具体为:
S1031:将所述图书封面图像在横向或纵向进行投影,划分为若干图像块;
S1032:对所述若干图像块进行预处理,输出若干二值化图像块;
S1033:分别提取所述若干二值化图像的特征值。
8.如权利要求7所述的方法,其特征为,所述S202具体为:
识别出划分的第一个图像块的文字,将所述第一个图像块的文字在图书数据库中进行匹配;若未匹配到图书属性信息,则再依次识别出划分的后续图像块的文字,依次将识别出的对应的文字在图书数据库中进行匹配,直到匹配到图书属性信息,则不再识别后续图像块的文字。
9.如权利要求1-8任一所述的方法,其特征为,所述图书数据库为授权的图书出版社数据库,或者为授权的图书代理商数据库。
10.如权利要求9所述的方法,其特征为,所述分类信息包括:图书的题材分类信息、图书的价位分类信息、图书的受众分类信息或图书的评价等级分类信息中的一项或多项。
CN201711323905.2A 2017-12-13 2017-12-13 一种图书自动分类方法 Withdrawn CN108038506A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711323905.2A CN108038506A (zh) 2017-12-13 2017-12-13 一种图书自动分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711323905.2A CN108038506A (zh) 2017-12-13 2017-12-13 一种图书自动分类方法

Publications (1)

Publication Number Publication Date
CN108038506A true CN108038506A (zh) 2018-05-15

Family

ID=62102695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711323905.2A Withdrawn CN108038506A (zh) 2017-12-13 2017-12-13 一种图书自动分类方法

Country Status (1)

Country Link
CN (1) CN108038506A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921016A (zh) * 2018-05-23 2018-11-30 广东数相智能科技有限公司 一种基于图像识别的图书评分获取方法、电子设备及存储介质
CN108960224A (zh) * 2018-06-26 2018-12-07 广东工业大学 一种图书查找方法、装置及系统
CN109255290A (zh) * 2018-07-27 2019-01-22 北京三快在线科技有限公司 菜单识别方法、装置、电子设备及存储介质
CN109255414A (zh) * 2018-07-06 2019-01-22 广东数相智能科技有限公司 一种用于图书盘点的彩色条码、图书识别方法、电子设备及存储介质
CN109657750A (zh) * 2018-12-12 2019-04-19 枣庄学院 一种图书馆图书自动分类方法
CN112181969A (zh) * 2020-10-11 2021-01-05 北京维应科技有限责任公司 一种基于nlp和图像识别的二手图书版次识别装置
CN112861985A (zh) * 2021-02-24 2021-05-28 郑州轻工业大学 基于人工智能的图书自动分类方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921016A (zh) * 2018-05-23 2018-11-30 广东数相智能科技有限公司 一种基于图像识别的图书评分获取方法、电子设备及存储介质
CN108960224A (zh) * 2018-06-26 2018-12-07 广东工业大学 一种图书查找方法、装置及系统
CN109255414A (zh) * 2018-07-06 2019-01-22 广东数相智能科技有限公司 一种用于图书盘点的彩色条码、图书识别方法、电子设备及存储介质
CN109255290A (zh) * 2018-07-27 2019-01-22 北京三快在线科技有限公司 菜单识别方法、装置、电子设备及存储介质
CN109255290B (zh) * 2018-07-27 2021-06-25 北京三快在线科技有限公司 菜单识别方法、装置、电子设备及存储介质
CN109657750A (zh) * 2018-12-12 2019-04-19 枣庄学院 一种图书馆图书自动分类方法
CN112181969A (zh) * 2020-10-11 2021-01-05 北京维应科技有限责任公司 一种基于nlp和图像识别的二手图书版次识别装置
CN112861985A (zh) * 2021-02-24 2021-05-28 郑州轻工业大学 基于人工智能的图书自动分类方法
CN112861985B (zh) * 2021-02-24 2023-01-31 郑州轻工业大学 基于人工智能的图书自动分类方法

Similar Documents

Publication Publication Date Title
CN108038506A (zh) 一种图书自动分类方法
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN101853299B (zh) 一种基于感性认知的图像检索结果排序方法
CN111191022B (zh) 商品短标题生成方法及装置
US9230218B2 (en) Systems and methods for recognizing ambiguity in metadata
CN109189959B (zh) 一种构建图像数据库的方法及装置
CN106445995A (zh) 图片的分类方法和装置
CN104077290B (zh) 一种生成推广账户的方法和装置
CN107944030A (zh) 一种图书自动分类装置
CN103064880B (zh) 一种基于搜索信息向用户提供网站选择的方法、装置和系统
EP3260968A1 (en) Method and apparatus for displaying electronic picture, and mobile device
CN104537341A (zh) 人脸图片信息获取方法和装置
CN104008180A (zh) 结构化数据与图片的关联方法与关联装置
CN108170293A (zh) 输入联想的个性化推荐方法及装置
CN106844792B (zh) 一种社交关系的原生信息指定受众广告实现方法及系统
Agirre et al. Matching Cultural Heritage items to Wikipedia.
US20180260473A1 (en) Full text retrieving and matching method and system based on lucene custom lexicon
CN106294358A (zh) 一种信息的检索方法及系统
CN112507176A (zh) 域名侵权的自动化判定方法、装置、电子设备和存储介质
CN106919588A (zh) 一种应用程序搜索系统及方法
CN101770291B (zh) 输入系统语意分析数据散列存储和分析方法
CN108170691A (zh) 关联文书的确定方法和装置
KR100876214B1 (ko) 문맥기반 광고 장치와 그 방법 및 이를 구현할 수 있는컴퓨터로 읽을 수 있는 기록 매체
CN106777201B (zh) 搜索结果页上的推荐数据的排序方法及装置
CN103412880A (zh) 一种用于确定多媒体资源间隐式关联信息的方法与设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20180515