CN108875808A - 一种基于人工智能的图书分类方法 - Google Patents
一种基于人工智能的图书分类方法 Download PDFInfo
- Publication number
- CN108875808A CN108875808A CN201810554466.4A CN201810554466A CN108875808A CN 108875808 A CN108875808 A CN 108875808A CN 201810554466 A CN201810554466 A CN 201810554466A CN 108875808 A CN108875808 A CN 108875808A
- Authority
- CN
- China
- Prior art keywords
- model
- books
- data
- phonetic
- book
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于人工智能的图书分类方法,包括如下步骤:步骤一、对于现有的图书进行成熟模型训练;步骤二、当新进图书时,首先读取所有新进图书的图书名称,并将其转化为拼音,将其按照成熟模型中的分册的方法转化进一步转化为特征向量,然后使用成熟模型对图书进行分类,得到新图书所属的书架号。本发明大大提高了图书管理员的工作效率,使得简单、繁琐的工作自动化,节约时间。
Description
技术领域
本发明涉及人工智能领域,具体涉及一种基于人工智能的图书分类方法。
背景技术
目前,采集回来的图书在分类时均通过人工进行分类,占用的图书管理员大量的时间和精力,厄需提供一种基于人工智能的图书分类方法。
发明内容
为解决上述问题,本发明提供了一种基于人工智能的图书分类方法,大大提高了图书管理员的工作效率,使得简单、繁琐的工作自动化,节约时间。
为实现上述目的,本发明采取的技术方案为:
一种基于人工智能的图书分类方法,包括如下步骤:
步骤一、对于现有的图书进行成熟模型训练
首先读取所有图书的名称及对应书架并将图书名称转化为拼音,通过n-gram结合word2Vec或者TF-IDF进行分词形成特征向量,其中,n为大于等于1的正整数,通常取n=3,然后根据书架所属的图书种类个数确定分类个数;
将已有图书的特征向量及对应的书架号分为3块,比例分别为6∶2∶2.其中60%用于训练模型,20%用于测试训练精度并不断调整模型已使测试精度达到最高,剩余的20%用于实际测量精度;此时,通过模型库中的模型对60%的图书数据图书特征向量进行分类,得出训练模型并使用20%的数据作为测试数据对模型进行评测,得到精度最高的模型,并用剩余20%的数据进行实测,选择此时精度最高的模型作为成熟模型;
步骤二、当新进图书时,首先读取所有新进图书的图书名称,并将其转化为拼音,将其按照成熟模型中的分册的方法转化进一步转化为特征向量,然后使用成熟模型对图书进行分类,得到新图书所属的书架号。
优选地,所述步骤一选用随机森林作为分类器进行训练得到成熟模型;首先提取对已有图书的拼音和对应的书架,对拼音进行n-gram划分,其中,n为大于等于1的正整数,通常取n=3,对于划分出的字母组合使用word2vec或者TF-IDF进行数字变换,变换后按3∶1∶1分成第一份、第二份、第三份,然后按照如下步骤进行模型调优:
S1、调节随机森林模型参数,包括但不限于树的最大深度和树的最大数量,调节完毕后使用第一份数据进行训练并使用评估函数进行评估,选出最优值;
S2、使用第二份数据对模型进行评测,通过评估函数进行评估并修正模型;
S3、重复执行步骤S1-步骤S2,直到满足条件为止;
确定模型之后使用第三份数据进行实测,则此时的评估函数则为实测值。
优选地,所述步骤一选用神经网络甚至深度学习网络作为分类器进行训练得到成熟模型;按如下顺序进行:
S1、提取对已有图书的拼音和对应的书架,对拼音进行n-gram划分,其中,n为大于等于1的正整数,通常取n=3,对于划分出的字母组合使用word2vec或者TF-IDF进行数字变换,变换后按3∶1∶1分成第一份、第二份、第三份;
S2、确定神经网络参数并调优,包括但不限于输入特征值、输出分类个数、隐藏层个数、隐藏节点函数,使用第二份数据对模型进行评测,即输入拼音,输出分类书架结果,通过评估函数进行评估并修正模型;
S3、重复执行步骤S1-步骤S2,直到满足条件为止;
确定模型之后使用第三份数据进行实测,则此时的评估函数为实测值。
本发明具有以下有益效果:
本发明可以将新到的图书进行自动归类,节省图书管理员的大量时间。对于已经归类的图书也可进行再次细分,通过系统自动分类即可,在有误差,也就是实测精度介于97%至100%之间的情况下,只需手动微调少量分类有误差的书籍,微调之后,管理员为图书贴上正确分类标签并送入书架即可。若精度达到100%,则无需手动进行细分,管理员只需为图书贴上正确分类标签并送入书架即可。
附图说明
图1为本发明实施例一种基于人工智能的图书分类方法中步骤一的流程图。
图2为本发明实施例一种基于人工智能的图书分类方法中步骤二的流程图。
具体实施方式
为了使本发明的目的及优点更加清楚明白,以下结合实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供了一种基于人工智能的图书分类方法,包括如下步骤:
步骤一、对于现有的图书根据图1进行成熟模型训练:
首先读取所有图书的名称及对应书架并将图书名称转化为拼音,并通过n-gram结合word2Vec或者TF-IDF进行分词形成特征向量,其中,n为大于等于1的正整数,通常取n=3,然后根据书架所属的图书种类个数确定分类个数。
将已有图书的特征向量及对应的书架号分为3块,比例分别为6∶2∶2.其中60%用于训练模型,20%用于测试训练精度并不断调整模型已使测试精度达到最高,剩余的20%用于实际测量精度。
此时,通过模型库中的模型(模型库中的模型包括机器学习的模型以及深度学习的模型,包括但不限于:SVM、线性回归、CNN等)对60%的图书数据图书特征向量进行分类,得出训练模型并使用20%的数据作为测试数据对模型进行评测,得到精度最高的模型,并用剩余20%的数据进行实测,选择此时精度最高的模型作为成熟模型;
步骤二、如图2所示,当新进图书时,首先读取所有新进图书的图书名称,并将其转化为拼音,将其按照成熟模型中的分册的方法转化进一步转化为特征向量,然后使用成熟模型对图书进行分类,得到新图书所属的书架号。
特别的:若选择模型为随机森林,具体的来说,随机森林是一个类分类器,由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在行方向和列方向上添加随机过程,行方向上构建决策树时采用放回抽样(bootstraping)得到训练数据,列方向上采用无放回随机抽样得到特征子集,并据此得到其最优切分点,这便是随机森林算法的基本原理。
在具体实现中,首先提取对已有图书的拼音和对应的书架,对拼音进行n-gram划分,其中,n为大于等于1的正整数,通常取n=3;对于划分出的字母组合使用word2vec或者TF-IDF进行数字变换,变换后按3∶1∶1分成第一份、第二份、第三份。然后按照如下步骤进行模型调优:
1、调节随机森林模型参数,包括但不限于树的最大深度、树的最大数量等等。调节完毕后使用第一份数据进行训练并使用评估函数比如召回率、精确度、F值进行评估,选出最优值。
2、使用第二份数据对模型进行评测,即输入拼音,输出分类书架结果,通过评估函数比如召回率、精确度、F值进行评估并修正模型。
3、重复执行第1、2步,直到满足条件为止。
确定模型之后使用第三份数据进行实测,则此时的评估函数比如召回率、精确度、F值则为实测的模型召回率、精确度、F值。
特别的,也可以使用神经网络甚至深度学习网络对图书进行分类,按如下顺序进行:
1.提取对已有图书的拼音和对应的书架,对拼音进行n-gram划分,其中,n为大于等于1的正整数,通常取n=3;对于划分出的字母组合使用word2vec或者TF-IDF进行数字变换,变换后按3∶1∶1分成第一份、第二份、第三份;
2.确定神经网络参数并调优,包括但不限于输入特征值、输出分类个数、隐藏层个数、隐藏节点函数等等,使用第二份数据对模型进行评测,即输入拼音,输出分类书架结果,通过评估函数比如召回率、精确度、F值进行评估并修正模型。
3.重复执行第1、2步,直到满足条件为止;
确定模型之后使用第三份数据进行实测,则此时的评估函数比如召回率、精确度、F值则为实测的模型召回率、精确度、F值。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (3)
1.一种基于人工智能的图书分类方法,其特征在于,包括如下步骤:
步骤一、对于现有的图书进行成熟模型训练;
首先读取所有图书的名称及对应书架并将图书名称转化为拼音,通过n-gram结合word2Vec或者TF-IDF进行分词形成特征向量,其中,n为大于等于1的正整数,然后根据书架所属的图书种类个数确定分类个数;
将已有图书的特征向量及对应的书架号分为3块,比例分别为6∶2∶2.其中60%用于训练模型,20%用于测试训练精度并不断调整模型已使测试精度达到最高,剩余的20%用于实际测量精度;此时,通过模型库中的模型对60%的图书数据图书特征向量进行分类,得出训练模型并使用20%的数据作为测试数据对模型进行评测,得到精度最高的模型,并用剩余20%的数据进行实测,选择此时精度最高的模型作为成熟模型;
步骤二、当新进图书时,首先读取所有新进图书的图书名称,并将其转化为拼音,将其按照成熟模型中的分册的方法转化进一步转化为特征向量,然后使用成熟模型对图书进行分类,得到新图书所属的书架号。
2.如权利要求1所述的一种基于人工智能的图书分类方法,其特征在于,所述步骤一选用随机森林作为分类器进行训练得到成熟模型;首先提取对已有图书的拼音和对应的书架,对拼音进行n-gram划分,对于划分出的字母组合使用word2vec或者TF-IDF进行数字变换,变换后按3∶1∶1分成第一份、第二份、第三份,然后按照如下步骤进行模型调优:
S1、调节随机森林模型参数,包括但不限于树的最大深度和树的最大数量,调节完毕后使用第一份数据进行训练并使用评估函数进行评估,选出最优值;
S2、使用第二份数据对模型进行评测,通过评估函数进行评估并修正模型;
S3、重复执行步骤S1-步骤S2,直到满足条件为止;
确定模型之后使用第三份数据进行实测,则此时的评估函数则为实测值。
3.如权利要求1所述的一种基于人工智能的图书分类方法,其特征在于,所述步骤一选用神经网络甚至深度学习网络作为分类器进行训练得到成熟模型;按如下顺序进行:
S1、提取对已有图书的拼音和对应的书架,对拼音进行n-gram划分,对于划分出的字母组合使用word2vec或者TF-IDF进行数字变换,变换后按3∶1∶1分成第一份、第二份、第三份;
S2、确定神经网络参数并调优,包括但不限于输入特征值、输出分类个数、
隐藏层个数、隐藏节点函数,使用第二份数据对模型进行评测,即输入拼音,输出分类书架结果,通过评估函数进行评估并修正模型;
S3、重复执行步骤S1-步骤S2,直到满足条件为止;
确定模型之后使用第三份数据进行实测,则此时的评估函数为实测值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810554466.4A CN108875808A (zh) | 2018-05-17 | 2018-05-17 | 一种基于人工智能的图书分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810554466.4A CN108875808A (zh) | 2018-05-17 | 2018-05-17 | 一种基于人工智能的图书分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108875808A true CN108875808A (zh) | 2018-11-23 |
Family
ID=64335225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810554466.4A Pending CN108875808A (zh) | 2018-05-17 | 2018-05-17 | 一种基于人工智能的图书分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108875808A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657750A (zh) * | 2018-12-12 | 2019-04-19 | 枣庄学院 | 一种图书馆图书自动分类方法 |
CN110147941A (zh) * | 2019-04-28 | 2019-08-20 | 中国银行股份有限公司 | 考核内容获取方法、员工评估方法及装置 |
CN110210546A (zh) * | 2019-05-24 | 2019-09-06 | 江西理工大学 | 一种基于图像处理的书籍自动归类方法 |
CN110222022A (zh) * | 2019-06-05 | 2019-09-10 | 武汉剑心科技有限公司 | 智能算法优化的数据图书馆建设方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101976459A (zh) * | 2010-10-26 | 2011-02-16 | 深圳职业技术学院 | 虚拟现实图书馆自动排架系统的实现方法 |
US20120303446A1 (en) * | 2007-04-08 | 2012-11-29 | Enhanced Geographic Llc | Methods to Determine the Effectiveness of a Physical Advertisement Relating to a Physical Business Location |
US20160063596A1 (en) * | 2014-08-27 | 2016-03-03 | Kobo Incorporated | Automatically generating reading recommendations based on linguistic difficulty |
CN106649597A (zh) * | 2016-11-22 | 2017-05-10 | 浙江大学 | 一种基于图书内容的图书书后索引自动构建方法 |
CN107066553A (zh) * | 2017-03-24 | 2017-08-18 | 北京工业大学 | 一种基于卷积神经网络与随机森林的短文本分类方法 |
CN107169545A (zh) * | 2017-06-12 | 2017-09-15 | 上海斐讯数据通信技术有限公司 | 一种智能书架管控系统及方法 |
CN107392641A (zh) * | 2017-06-01 | 2017-11-24 | 广西群创科技有限公司 | 一种书店图书上架系统 |
CN107451168A (zh) * | 2016-05-30 | 2017-12-08 | 中华电信股份有限公司 | 基于词汇统计的档案分类系统及方法 |
CN107832303A (zh) * | 2017-11-22 | 2018-03-23 | 古联(北京)数字传媒科技有限公司 | 古籍书名识别方法以及装置 |
CN108021939A (zh) * | 2017-11-30 | 2018-05-11 | 安徽理工大学 | 一种旧图书的自动分类方法 |
-
2018
- 2018-05-17 CN CN201810554466.4A patent/CN108875808A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120303446A1 (en) * | 2007-04-08 | 2012-11-29 | Enhanced Geographic Llc | Methods to Determine the Effectiveness of a Physical Advertisement Relating to a Physical Business Location |
CN101976459A (zh) * | 2010-10-26 | 2011-02-16 | 深圳职业技术学院 | 虚拟现实图书馆自动排架系统的实现方法 |
US20160063596A1 (en) * | 2014-08-27 | 2016-03-03 | Kobo Incorporated | Automatically generating reading recommendations based on linguistic difficulty |
CN107451168A (zh) * | 2016-05-30 | 2017-12-08 | 中华电信股份有限公司 | 基于词汇统计的档案分类系统及方法 |
CN106649597A (zh) * | 2016-11-22 | 2017-05-10 | 浙江大学 | 一种基于图书内容的图书书后索引自动构建方法 |
CN107066553A (zh) * | 2017-03-24 | 2017-08-18 | 北京工业大学 | 一种基于卷积神经网络与随机森林的短文本分类方法 |
CN107392641A (zh) * | 2017-06-01 | 2017-11-24 | 广西群创科技有限公司 | 一种书店图书上架系统 |
CN107169545A (zh) * | 2017-06-12 | 2017-09-15 | 上海斐讯数据通信技术有限公司 | 一种智能书架管控系统及方法 |
CN107832303A (zh) * | 2017-11-22 | 2018-03-23 | 古联(北京)数字传媒科技有限公司 | 古籍书名识别方法以及装置 |
CN108021939A (zh) * | 2017-11-30 | 2018-05-11 | 安徽理工大学 | 一种旧图书的自动分类方法 |
Non-Patent Citations (1)
Title |
---|
傅余洋子: ""基于LSTM模型的中文图书分类研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657750A (zh) * | 2018-12-12 | 2019-04-19 | 枣庄学院 | 一种图书馆图书自动分类方法 |
CN110147941A (zh) * | 2019-04-28 | 2019-08-20 | 中国银行股份有限公司 | 考核内容获取方法、员工评估方法及装置 |
CN110210546A (zh) * | 2019-05-24 | 2019-09-06 | 江西理工大学 | 一种基于图像处理的书籍自动归类方法 |
CN110210546B (zh) * | 2019-05-24 | 2022-05-31 | 江西理工大学 | 一种基于图像处理的书籍自动归类方法 |
CN110222022A (zh) * | 2019-06-05 | 2019-09-10 | 武汉剑心科技有限公司 | 智能算法优化的数据图书馆建设方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875808A (zh) | 一种基于人工智能的图书分类方法 | |
CN103166830B (zh) | 一种智能选择训练样本的垃圾邮件过滤系统和方法 | |
CN106021433B (zh) | 一种商品评论数据的口碑分析方法和装置 | |
CN104573000B (zh) | 基于排序学习的自动问答装置及方法 | |
CN107316066A (zh) | 基于多通路卷积神经网络的图像分类方法及系统 | |
CN105373606A (zh) | 一种改进c4.5决策树算法下的不平衡数据抽样方法 | |
CN109508394A (zh) | 一种多媒体文件搜索排序模型的训练方法及装置 | |
CN101980211A (zh) | 一种机器学习模型及其建立方法 | |
CN104978328A (zh) | 一种获取层级分类器以及文本分类的方法及装置 | |
CN103092975A (zh) | 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法 | |
CN108234463A (zh) | 一种基于多维行为模型的用户风险评估与分析方法 | |
CN108932945A (zh) | 一种语音指令的处理方法及装置 | |
CN108520114A (zh) | 一种纺织布疵点检测模型及其训练方法和应用 | |
CN104536881A (zh) | 基于自然语言分析的众测错误报告优先级排序方法 | |
CN107145879A (zh) | 一种植物种类自动识别方法及系统 | |
CN109420622A (zh) | 基于卷积神经网络的烟叶分拣方法 | |
CN104268134A (zh) | 一种主客观分类器构建方法和系统 | |
CN107993636B (zh) | 基于递归神经网络的乐谱建模与生成方法 | |
CN108830312A (zh) | 一种基于样本自适应扩充的集成学习方法 | |
CN108960269A (zh) | 数据集的特征获取方法、装置及计算设备 | |
CN105786898B (zh) | 一种领域本体的构建方法和装置 | |
CN110399467A (zh) | 提供用于自然语言问答系统的训练数据的方法和设备 | |
CN110019779A (zh) | 一种文本分类方法、模型训练方法及装置 | |
CN115718746A (zh) | 基于机器学习的稻田甲烷排放量预测方法 | |
CN109145685A (zh) | 基于集成学习的果蔬高光谱品质检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181123 |
|
RJ01 | Rejection of invention patent application after publication |