CN107862069A

CN107862069A - 一种分类数据库的构建方法以及图书分类的方法

Info

Publication number: CN107862069A
Application number: CN201711166694.6A
Authority: CN
Inventors: 李海龙; 禤程; 张立
Original assignee: Guangzhou Joy Star Education Technology Co Ltd
Current assignee: Guangzhou Joy Star Education Technology Co Ltd
Priority date: 2017-11-21
Filing date: 2017-11-21
Publication date: 2018-03-30

Abstract

本发明公开了一种图书分类的方法，包括以下步骤：获取步骤：获取分类数据库与待分类图书的图书信息，所述图书信息包括图书内容信息，所述分类数据库包括分类条目以及与分类条目对应的关键词组；分词步骤：对待分类图书的图书内容信息进行分词处理以得分词词组；分类确定步骤：获取分词词组中的多个关键词以形成特征词组，将特征词语与关键词组进行比对以确定待分类图书所对应的分类条目。本发明还提供了一种分类数据库的构建方法。本发明的图书分类的方法通过采集待分类图书中的特征词组，并将该特征词组与分类数据库中的内容进行比对，以确定待分类图书的类别，其解决了编制繁复，耗时的人工分类缺陷，提高了分类效率和准确率。

Description

一种分类数据库的构建方法以及图书分类的方法

技术领域

本发明涉及一种图书分类技术领域，尤其涉及一种分类数据库的构建方法以及图书分类的方法。

背景技术

目前，图书分类工作通常是人手工进行，但是由于图书分类的复杂性、多样性、模糊性等原因，使图书分类工作更加困难，准确性也不能得到绝对保证，仅仅提高工作人员的素质是根本不够的。

目前市面上的图书分类技术标准都基于中图法分类标准，中图法诞生于上世纪6～70年代，当时特殊的环境造成了分类标准时代的局限性，同时中图法是中国古代主流图书分类法的延伸，不符合当前知识文化发展的需要；中图法仿照美国国会图书分类的办法用22个大写字母作为大类代号，其中有的“附属学科”又用TH、TN等双字母标示。为了标榜其国产化，编制说明是用汉语拼音字母表示，不用W，以免与U认读混淆。然而实际运用中都以英语字母认读。有序性原则模糊，没有提示性和规律性。在中图法中有许多既可入此类又可入彼类的图书，或“宜入此”的模棱两可的现象。当我们输入某学科关键词检索，竟会出现三种或四、五种分类。标示与学科门类之间没有关联，没有提示性，分类号、索取号、重叠使用，标识繁琐，检索芜杂，种次号定义标准模糊，无法实现检索、目录、索引一体化和开放式自助分类编目，使中图法丧失了大众化的功能。

随着科技的迅速发展，使用新的计算机技术来解决图书分类的问题是十分有必要的。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种分类数据库的构建方法，其能解决分类数据库构建的技术问题。

本发明的目的之二在于提供一种计算机可读存储介质，其能解决分类数据库构建的技术问题。

本发明的目的之三在于提供一种图书分类的方法，其能解决图书分类确定的问题。

本发明的目的之四在于提供一种电子设备，其能解决图书分类确定的问题。

本发明的目的之五在于提供一种计算机可读存储介质，其能解决图书分类确定的问题。

本发明的目的之一采用如下技术方案实现：

一种分类数据库的构建方法，包括以下步骤：

获取步骤：获取训练图书的图书信息，所述图书信息包括图书内容信息；

分词步骤：对训练图书的图书内容信息进行分词处理以得分词词组；

数据库构建步骤：获取分词词组中的多个关键词以形成关键词组，并将关键词组以及与关键词组对应的分类条目存储以形成分类数据库。

进一步地，所述图书信息还包括作者信息，将作者信息以及与作者信息对应的分类条目存储于分类数据库。

本发明的目的之二采用如下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明目的之一中任意一项所述的方法。

本发明的目的之三采用如下技术方案实现：

一种图书分类的方法，包括以下步骤：

获取步骤：获取分类数据库与待分类图书的图书信息，所述图书信息包括图书内容信息，所述分类数据库包括分类条目以及与分类条目对应的关键词组；

分词步骤：对待分类图书的图书内容信息进行分词处理以获得分词词组；

分类确定步骤：获取分词词组中的多个关键词以形成特征词组，将特征词语与关键词组进行比对以确定待分类图书所对应的分类条目。

进一步地，在分类确定步骤中通过朴素贝叶斯算法以获得待分类图书的分类条目。

进一步地，在分词步骤具体包括以下子步骤：

分词处理步骤：对图书信息采用开源系统ICTCLAS进行分词处理；

删词步骤：根据通用词词库与停用词词库除去分词后的通用词与停用词以得分词词组。

进一步地，所述关键词为分词词组中的概率超过预设值的分词。

进一步地，所述图书信息还包括作者信息，所述分词确定步骤具体包括以下子步骤：

判断步骤：判断是否获取到与作者信息对应的分类条目，如果是，则执行相似性判断步骤，如果否，则执行计算步骤：

相似性判断步骤：确定待分类图书的特征词组与相应分类条目的关键词组之间的相似值，如果大于预设值，则该分类条目即为所述待分类图书的分类，如果小于预设值，则执行计算步骤；

计算步骤：通过朴素贝叶斯算法以得待分类图书的分类条目。

本发明的目的之四采用如下技术方案实现：

一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明目的之四中任意一项所述的图书分类的方法。

本发明的目的之五采用如下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明目的之四中任意一项所述图书分类的方法。

相比现有技术，本发明的有益效果在于：

本发明的图书分类的方法通过采集待分类图书中的特征词组，并将该特征词组与分类数据库中的内容进行比对，以确定待分类图书的类别，其解决了编制繁复，耗时的人工分类缺陷，提高了分类效率和准确率。

附图说明

图1为实施例一的分类数据库的构建方法的流程图；

图2为实施例二的图书分类的方法的流程图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例一：

本实施例提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如图1所描述的分类数据库的构建方法：

S101：获取训练图书的图书信息，所述图书信息包括图书内容信息；所述图书信息还包括作者信息，将作者信息以及与作者信息对应的分类条目存储于分类数据库；上述作者信息是为了在后期进行分类确定的时候，减少计算量而设置的；训练图书为建立分类数据库而选取的图书样本，在选择训练样本的时候，可以选择经过专家确定的分类的图书作为训练样本，将该训练样本作为分类参考的标准，作为后面新获取到的图书进行分类的依据；

S102：对训练图书的图书内容信息进行分词处理以获得分词词组；通过分词将图书内容分成不同的词以此来作为后期判断基准；在分词过程中自动滤除一些常用词汇以及停用词；

S103：获取分词词组中的多个关键词以形成关键词组，并将关键词组以及与关键词组对应的分类条目存储以形成分类数据库。上述步骤主要目的是为了形成分类数据库，这样的数据库不是当前采用的国际分类标准，而是根据需求，自己定制的，目前主要是针对于中小学生来进行设置的。关键词组是不断更新的，由于时代在发展，图书的内容也在变化，故而用词也会出现一些新的标准，在获取书籍的过程中，如果有获取到使用频次比较大的词语，则也会将这些内容，增加至关键词库中；从而丰富其内容，提高匹配度。

本发明通过获取训练图书的信息，并与根据一定的原则确定的图书分类条目匹配，构建了有利于利用计算机技术进行精确快速分类的数据库。

本发明确定图书分类条目时，通过精简分类体系，使普通大众容易查找与记忆；能更精准定位图书分类，更合理；运用互联网大数据技术，使图书分类符合当前知识文化时代发展的需要；

图书分类条目总共分为二级，其中一级7类(科普、外语、教育、文学、人文综合、通识、艺术创意)；二级29小类。

上述分类主要有以下几个设计原则：

1、与国际教育接轨

该图书分类法借用“人文”和“通识”概念，结合中小学阶段学生身心发展特点，将语言文字、法律、军事、社会、历史、地理总论等内容的图书整合成“百科综合”这一大类下二级类目“人文”，而将哲学类、思想类一般性知识相关图书以及中小学生生命教育、生命安全教育、生活自理与常识等内容图书，整合成“通识”这一大类，以期孩子在中小学阶段就打下良好的人文积淀和通识基础。

此外，针对中小学阶段的外语学习热，该图书分类法将“外语阅读”单独作为一个大类，囊括各种外语类读物。这也是适应教育国际化需求和全球化教育理念的要求，以期孩子在中小学阶段就打下良好的外语阅读基础，并拓宽孩子的阅读视野和文本文化体验。

2、与国家发展观和弘扬传统文化的理念接轨

教育部也专门印发了《完善中华优秀传统文化教育指导纲要》，提到了加强中华优秀传统文化教育的重要性和紧迫性，及要求以家国情怀教育、社会关爱教育和人格成长教育为重点，实施分学段有序推进并融入课程和教材体系。该图书分类法专门将“国学与传统文化”，提升为一个大类，将国学经典、古诗文经典及其他优秀传统文化图书融入到中小学阶段的阅读体系之中。

3、注重阅读对中小学生身心成长的示范引领作用

传记，本是历史类和文学类的一个小类，但传记作品本身，又有着特殊的作用，尤其对身心发展处于关键期的青少年来说，不仅可以丰富历史、文学知识，而且能励志、启智、培养健康人格、增强克服困难的勇气。为此，该图书分类法将传记升格为一个大类，作为阅读的重要一环。

实施例二：

本实施例提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如图2所描述的图书分类的方法：

S201：获取分类数据库与待分类图书的图书信息，所述图书信息包括图书内容信息，所述分类数据库包括分类条目以及与分类条目对应的关键词组；图书信息采集与收集，有电子书商合法公开收录(通过爬虫抓取)、公共馆藏合法公开收录(通过爬虫抓取)、自有团队人工系统录入，主要用于图书信息相关页面与内容采集到本地系统数据库中；这些图书信息包括图书名称、作者、出版社、ISBN编号、商品编码、出版时间、内容简介、编辑推荐、经典书评、书摘、前言、正文、后记等。图书信息分析与剔除，系统功能是将收集到的图书信息进行分析，去除与图书信息无关的内容，抽取出系统需要的图书信息，主要包括图书名称、内容简介、编辑推荐，文摘等，系统扫描已收集到本地库的图书文件，将每一本图书的基本信息提取出来，然后将该图书信息存入数据库，作为下一步研究的基础数据。由于爬虫抓取到的有的是空文件夹，比如有的图书没有对应的书评、前记和后记等，故而在进行后期分词的时候，需要将这些空文件夹进行去除，只获取含有内容的文件；

S202：对待分类图书的图书内容信息进行分词处理以得分词词组；图书结构化信息入库后，需要将每一类的图书特征抽取出来，并将提取出的特征存入数据库中，同类图书信息是指将同一类图书的图书名称、内容简介、编辑推荐、经典书评、书摘、前言、正文、后记等提取到同一个文件中，分词、筛选，即信息分词部分与通用词、停用词筛选部分，分词部分使用开源系统ICTCLAS进行分词处理，预先准备通用词和停用词词库，在分词筛选过程中去除出现在通用词和停用词词库中的信息，最终得到确切的图书描述词汇；由于这些通用词与停用词是没有意义的，对于分类并不作出任何的贡献，并且这些词语也占据比较大的概率，故而也需要将这些内容进行删除，进一步减少计算，增加匹配度；

分词步骤具体包括以下子步骤：

S2021：对图书信息采用开源系统ICTCLAS进行分词处理；

S2022：根据通用词词库与停用词词库除去分词后的通用词与停用词以得分词词组。所述关键词为分词词组中的概率超过预设值的分词。

S203：获取分词词组中的多个关键词以形成特征词组，将特征词语与关键词组进行比对以确定待分类图书所对应的分类条目。所述图书信息还包括作者信息，步骤S203具体包括以下子步骤：

S2031：判断是否获取到与作者信息对应的分类条目，如果是，则执行步骤S2032，如果否，则执行步骤S2033：因为从作者的角度来将，作者一般都擅长某一领域或者某一方向的图书编撰，比如科幻类作家，大部分作品都是科幻类图书，故而在开始确定分类的时候，通过作者来进行匹配从而能够从一定程度上提高匹配速度；

S2032：确定待分类图书的特征词组与相应分类条目的关键词组之间的相似值，如果大于预设值，则该分类条目即为所述待分类图书的分类，如果小于预设值，则执行S2033；

S2033：通过朴素贝叶斯算法获得待分类图书的分类条目。如果没有办法通过作者来找寻出分类，再通过朴素贝叶斯算法，计算当每个关键词出现，确认是有其中一个分类的概率值，找出乘积最大的分类，即可确定出书属于该分类；

朴素贝叶斯算法目前是公开使用的通用型算法；如下解释：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

朴素贝叶斯分类的正式定义如下：

1、设x＝{a₁，a₂，...，a_m}为一个待分类项，而每个a为x的一个特征属性。也即是a

2、有类别集合C＝{y₁，y₂，...，y_n}。

3、计算P(y₁|x)，P(y₂|x)，...，P(y_n|x)。

4、如果P(y_k|x)＝max{P(y₁|x)，P(y₂|x)，...，P(y_n|x)}，则x∈y_k。

那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做：

1、找到一个已知分类的待分类项集合，这个集合叫做训练样本集。

2、统计得到在各类别下各个特征属性的条件概率估计。即

P(a₁|y₁)，P(a₂|y₁)，...，P(a_m|y₁)；P(a₁|y₂)，P(a₂|y₂)，...，P(a_m|y₂)；...；P(a₁|y_n)，P(a₂|y_n)，...，P(a_m|y_n)。

3、如果各个特征属性是条件独立的，则根据贝叶斯定理有如下推导：

因为分母对于所有类别为常数，因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的，所以有：

本发明利用构建好的图书分类数据库，通过获取图书的有效信息，并通过有效信息和数据库中的信息对比，自动将图书进行分类，解决人工图书分类中编制繁复、耗时并且不能完全准确分类的缺陷。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种分类数据库的构建方法，其特征在于，包括以下步骤：

分词步骤：对训练图书的图书内容信息进行分词处理以获得分词词组；

2.如权利要求1所述的分类数据库的构建方法，其特征在于，所述图书信息还包括作者信息，将作者信息以及与作者信息对应的分类条目存储于分类数据库。

3.如权利要求1所述的分类数据库的构建方法，其特征在于，所述分类条目包括科普、外语、教育、文学、人文综合、通识和艺术创意。

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-3任意一项所述的方法。

5.一种图书分类的方法，其特征在于，包括以下步骤：

6.如权利要求5所述的图书分类的方法，其特征在于，在分词步骤具体包括以下子步骤：

删词步骤：根据通用词词库与停用词词库除去分词后的通用词与停用词以获得分词词组。

7.如权利要求5所述的图书分类的方法，其特征在于，所述关键词为分词词组中的概率超过预设值的分词。

8.如权利要求5所述的图书分类的方法，其特征在于，所述图书信息还包括作者信息，所述分词确定步骤具体包括以下子步骤：

9.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求5-8中任意一项所述的图书分类的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求5-8任意一项所述图书分类的方法。