CN107862069A - 一种分类数据库的构建方法以及图书分类的方法 - Google Patents

一种分类数据库的构建方法以及图书分类的方法 Download PDF

Info

Publication number
CN107862069A
CN107862069A CN201711166694.6A CN201711166694A CN107862069A CN 107862069 A CN107862069 A CN 107862069A CN 201711166694 A CN201711166694 A CN 201711166694A CN 107862069 A CN107862069 A CN 107862069A
Authority
CN
China
Prior art keywords
book
classification
books
phrase
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711166694.6A
Other languages
English (en)
Inventor
李海龙
禤程
张立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Joy Star Education Technology Co Ltd
Original Assignee
Guangzhou Joy Star Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Joy Star Education Technology Co Ltd filed Critical Guangzhou Joy Star Education Technology Co Ltd
Priority to CN201711166694.6A priority Critical patent/CN107862069A/zh
Publication of CN107862069A publication Critical patent/CN107862069A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种图书分类的方法,包括以下步骤:获取步骤:获取分类数据库与待分类图书的图书信息,所述图书信息包括图书内容信息,所述分类数据库包括分类条目以及与分类条目对应的关键词组;分词步骤:对待分类图书的图书内容信息进行分词处理以得分词词组;分类确定步骤:获取分词词组中的多个关键词以形成特征词组,将特征词语与关键词组进行比对以确定待分类图书所对应的分类条目。本发明还提供了一种分类数据库的构建方法。本发明的图书分类的方法通过采集待分类图书中的特征词组,并将该特征词组与分类数据库中的内容进行比对,以确定待分类图书的类别,其解决了编制繁复,耗时的人工分类缺陷,提高了分类效率和准确率。

Description

一种分类数据库的构建方法以及图书分类的方法
技术领域
本发明涉及一种图书分类技术领域,尤其涉及一种分类数据库的构建方法以及图书分类的方法。
背景技术
目前,图书分类工作通常是人手工进行,但是由于图书分类的复杂性、多样性、模糊性等原因,使图书分类工作更加困难,准确性也不能得到绝对保证,仅仅提高工作人员的素质是根本不够的。
目前市面上的图书分类技术标准都基于中图法分类标准,中图法诞生于上世纪6~70年代,当时特殊的环境造成了分类标准时代的局限性,同时中图法是中国古代主流图书分类法的延伸,不符合当前知识文化发展的需要;中图法仿照美国国会图书分类的办法用22个大写字母作为大类代号,其中有的“附属学科”又用TH、TN等双字母标示。为了标榜其国产化,编制说明是用汉语拼音字母表示,不用W,以免与U认读混淆。然而实际运用中都以英语字母认读。有序性原则模糊,没有提示性和规律性。在中图法中有许多既可入此类又可入彼类的图书,或“宜入此”的模棱两可的现象。当我们输入某学科关键词检索,竟会出现三种或四、五种分类。标示与学科门类之间没有关联,没有提示性,分类号、索取号、重叠使用,标识繁琐,检索芜杂,种次号定义标准模糊,无法实现检索、目录、索引一体化和开放式自助分类编目,使中图法丧失了大众化的功能。
随着科技的迅速发展,使用新的计算机技术来解决图书分类的问题是十分有必要的。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种分类数据库的构建方法,其能解决分类数据库构建的技术问题。
本发明的目的之二在于提供一种计算机可读存储介质,其能解决分类数据库构建的技术问题。
本发明的目的之三在于提供一种图书分类的方法,其能解决图书分类确定的问题。
本发明的目的之四在于提供一种电子设备,其能解决图书分类确定的问题。
本发明的目的之五在于提供一种计算机可读存储介质,其能解决图书分类确定的问题。
本发明的目的之一采用如下技术方案实现:
一种分类数据库的构建方法,包括以下步骤:
获取步骤:获取训练图书的图书信息,所述图书信息包括图书内容信息;
分词步骤:对训练图书的图书内容信息进行分词处理以得分词词组;
数据库构建步骤:获取分词词组中的多个关键词以形成关键词组,并将关键词组以及与关键词组对应的分类条目存储以形成分类数据库。
进一步地,所述图书信息还包括作者信息,将作者信息以及与作者信息对应的分类条目存储于分类数据库。
本发明的目的之二采用如下技术方案实现:
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明目的之一中任意一项所述的方法。
本发明的目的之三采用如下技术方案实现:
一种图书分类的方法,包括以下步骤:
获取步骤:获取分类数据库与待分类图书的图书信息,所述图书信息包括图书内容信息,所述分类数据库包括分类条目以及与分类条目对应的关键词组;
分词步骤:对待分类图书的图书内容信息进行分词处理以获得分词词组;
分类确定步骤:获取分词词组中的多个关键词以形成特征词组,将特征词语与关键词组进行比对以确定待分类图书所对应的分类条目。
进一步地,在分类确定步骤中通过朴素贝叶斯算法以获得待分类图书的分类条目。
进一步地,在分词步骤具体包括以下子步骤:
分词处理步骤:对图书信息采用开源系统ICTCLAS进行分词处理;
删词步骤:根据通用词词库与停用词词库除去分词后的通用词与停用词以得分词词组。
进一步地,所述关键词为分词词组中的概率超过预设值的分词。
进一步地,所述图书信息还包括作者信息,所述分词确定步骤具体包括以下子步骤:
判断步骤:判断是否获取到与作者信息对应的分类条目,如果是,则执行相似性判断步骤,如果否,则执行计算步骤:
相似性判断步骤:确定待分类图书的特征词组与相应分类条目的关键词组之间的相似值,如果大于预设值,则该分类条目即为所述待分类图书的分类,如果小于预设值,则执行计算步骤;
计算步骤:通过朴素贝叶斯算法以得待分类图书的分类条目。
本发明的目的之四采用如下技术方案实现:
一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明目的之四中任意一项所述的图书分类的方法。
本发明的目的之五采用如下技术方案实现:
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明目的之四中任意一项所述图书分类的方法。
相比现有技术,本发明的有益效果在于:
本发明的图书分类的方法通过采集待分类图书中的特征词组,并将该特征词组与分类数据库中的内容进行比对,以确定待分类图书的类别,其解决了编制繁复,耗时的人工分类缺陷,提高了分类效率和准确率。
附图说明
图1为实施例一的分类数据库的构建方法的流程图;
图2为实施例二的图书分类的方法的流程图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
实施例一:
本实施例提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如图1所描述的分类数据库的构建方法:
S101:获取训练图书的图书信息,所述图书信息包括图书内容信息;所述图书信息还包括作者信息,将作者信息以及与作者信息对应的分类条目存储于分类数据库;上述作者信息是为了在后期进行分类确定的时候,减少计算量而设置的;训练图书为建立分类数据库而选取的图书样本,在选择训练样本的时候,可以选择经过专家确定的分类的图书作为训练样本,将该训练样本作为分类参考的标准,作为后面新获取到的图书进行分类的依据;
S102:对训练图书的图书内容信息进行分词处理以获得分词词组;通过分词将图书内容分成不同的词以此来作为后期判断基准;在分词过程中自动滤除一些常用词汇以及停用词;
S103:获取分词词组中的多个关键词以形成关键词组,并将关键词组以及与关键词组对应的分类条目存储以形成分类数据库。上述步骤主要目的是为了形成分类数据库,这样的数据库不是当前采用的国际分类标准,而是根据需求,自己定制的,目前主要是针对于中小学生来进行设置的。关键词组是不断更新的,由于时代在发展,图书的内容也在变化,故而用词也会出现一些新的标准,在获取书籍的过程中,如果有获取到使用频次比较大的词语,则也会将这些内容,增加至关键词库中;从而丰富其内容,提高匹配度。
本发明通过获取训练图书的信息,并与根据一定的原则确定的图书分类条目匹配,构建了有利于利用计算机技术进行精确快速分类的数据库。
本发明确定图书分类条目时,通过精简分类体系,使普通大众容易查找与记忆;能更精准定位图书分类,更合理;运用互联网大数据技术,使图书分类符合当前知识文化时代发展的需要;
图书分类条目总共分为二级,其中一级7类(科普、外语、教育、文学、人文综合、通识、艺术创意);二级29小类。
上述分类主要有以下几个设计原则:
1、与国际教育接轨
该图书分类法借用“人文”和“通识”概念,结合中小学阶段学生身心发展特点,将语言文字、法律、军事、社会、历史、地理总论等内容的图书整合成“百科综合”这一大类下二级类目“人文”,而将哲学类、思想类一般性知识相关图书以及中小学生生命教育、生命安全教育、生活自理与常识等内容图书,整合成“通识”这一大类,以期孩子在中小学阶段就打下良好的人文积淀和通识基础。
此外,针对中小学阶段的外语学习热,该图书分类法将“外语阅读”单独作为一个大类,囊括各种外语类读物。这也是适应教育国际化需求和全球化教育理念的要求,以期孩子在中小学阶段就打下良好的外语阅读基础,并拓宽孩子的阅读视野和文本文化体验。
2、与国家发展观和弘扬传统文化的理念接轨
教育部也专门印发了《完善中华优秀传统文化教育指导纲要》,提到了加强中华优秀传统文化教育的重要性和紧迫性,及要求以家国情怀教育、社会关爱教育和人格成长教育为重点,实施分学段有序推进并融入课程和教材体系。该图书分类法专门将“国学与传统文化”,提升为一个大类,将国学经典、古诗文经典及其他优秀传统文化图书融入到中小学阶段的阅读体系之中。
3、注重阅读对中小学生身心成长的示范引领作用
传记,本是历史类和文学类的一个小类,但传记作品本身,又有着特殊的作用,尤其对身心发展处于关键期的青少年来说,不仅可以丰富历史、文学知识,而且能励志、启智、培养健康人格、增强克服困难的勇气。为此,该图书分类法将传记升格为一个大类,作为阅读的重要一环。
实施例二:
本实施例提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如图2所描述的图书分类的方法:
S201:获取分类数据库与待分类图书的图书信息,所述图书信息包括图书内容信息,所述分类数据库包括分类条目以及与分类条目对应的关键词组;图书信息采集与收集,有电子书商合法公开收录(通过爬虫抓取)、公共馆藏合法公开收录(通过爬虫抓取)、自有团队人工系统录入,主要用于图书信息相关页面与内容采集到本地系统数据库中;这些图书信息包括图书名称、作者、出版社、ISBN编号、商品编码、出版时间、内容简介、编辑推荐、经典书评、书摘、前言、正文、后记等。图书信息分析与剔除,系统功能是将收集到的图书信息进行分析,去除与图书信息无关的内容,抽取出系统需要的图书信息,主要包括图书名称、内容简介、编辑推荐,文摘等,系统扫描已收集到本地库的图书文件,将每一本图书的基本信息提取出来,然后将该图书信息存入数据库,作为下一步研究的基础数据。由于爬虫抓取到的有的是空文件夹,比如有的图书没有对应的书评、前记和后记等,故而在进行后期分词的时候,需要将这些空文件夹进行去除,只获取含有内容的文件;
S202:对待分类图书的图书内容信息进行分词处理以得分词词组;图书结构化信息入库后,需要将每一类的图书特征抽取出来,并将提取出的特征存入数据库中,同类图书信息是指将同一类图书的图书名称、内容简介、编辑推荐、经典书评、书摘、前言、正文、后记等提取到同一个文件中,分词、筛选,即信息分词部分与通用词、停用词筛选部分,分词部分使用开源系统ICTCLAS进行分词处理,预先准备通用词和停用词词库,在分词筛选过程中去除出现在通用词和停用词词库中的信息,最终得到确切的图书描述词汇;由于这些通用词与停用词是没有意义的,对于分类并不作出任何的贡献,并且这些词语也占据比较大的概率,故而也需要将这些内容进行删除,进一步减少计算,增加匹配度;
分词步骤具体包括以下子步骤:
S2021:对图书信息采用开源系统ICTCLAS进行分词处理;
S2022:根据通用词词库与停用词词库除去分词后的通用词与停用词以得分词词组。所述关键词为分词词组中的概率超过预设值的分词。
S203:获取分词词组中的多个关键词以形成特征词组,将特征词语与关键词组进行比对以确定待分类图书所对应的分类条目。所述图书信息还包括作者信息,步骤S203具体包括以下子步骤:
S2031:判断是否获取到与作者信息对应的分类条目,如果是,则执行步骤S2032,如果否,则执行步骤S2033:因为从作者的角度来将,作者一般都擅长某一领域或者某一方向的图书编撰,比如科幻类作家,大部分作品都是科幻类图书,故而在开始确定分类的时候,通过作者来进行匹配从而能够从一定程度上提高匹配速度;
S2032:确定待分类图书的特征词组与相应分类条目的关键词组之间的相似值,如果大于预设值,则该分类条目即为所述待分类图书的分类,如果小于预设值,则执行S2033;
S2033:通过朴素贝叶斯算法获得待分类图书的分类条目。如果没有办法通过作者来找寻出分类,再通过朴素贝叶斯算法,计算当每个关键词出现,确认是有其中一个分类的概率值,找出乘积最大的分类,即可确定出书属于该分类;
朴素贝叶斯算法目前是公开使用的通用型算法;如下解释:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
朴素贝叶斯分类的正式定义如下:
1、设x={a1,a2,...,am}为一个待分类项,而每个a为x的一个特征属性。也即是a
2、有类别集合C={y1,y2,...,yn}。
3、计算P(y1|x),P(y2|x),...,P(yn|x)。
4、如果P(yk|x)=max{P(y1|x),P(y2|x),...,P(yn|x)},则x∈yk
那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做:
1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集。
2、统计得到在各类别下各个特征属性的条件概率估计。即
P(a1|y1),P(a2|y1),...,P(am|y1);P(a1|y2),P(a2|y2),...,P(am|y2);...;P(a1|yn),P(a2|yn),...,P(am|yn)。
3、如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导:
因为分母对于所有类别为常数,因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的,所以有:
本发明利用构建好的图书分类数据库,通过获取图书的有效信息,并通过有效信息和数据库中的信息对比,自动将图书进行分类,解决人工图书分类中编制繁复、耗时并且不能完全准确分类的缺陷。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims (10)

1.一种分类数据库的构建方法,其特征在于,包括以下步骤:
获取步骤:获取训练图书的图书信息,所述图书信息包括图书内容信息;
分词步骤:对训练图书的图书内容信息进行分词处理以获得分词词组;
数据库构建步骤:获取分词词组中的多个关键词以形成关键词组,并将关键词组以及与关键词组对应的分类条目存储以形成分类数据库。
2.如权利要求1所述的分类数据库的构建方法,其特征在于,所述图书信息还包括作者信息,将作者信息以及与作者信息对应的分类条目存储于分类数据库。
3.如权利要求1所述的分类数据库的构建方法,其特征在于,所述分类条目包括科普、外语、教育、文学、人文综合、通识和艺术创意。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-3任意一项所述的方法。
5.一种图书分类的方法,其特征在于,包括以下步骤:
获取步骤:获取分类数据库与待分类图书的图书信息,所述图书信息包括图书内容信息,所述分类数据库包括分类条目以及与分类条目对应的关键词组;
分词步骤:对待分类图书的图书内容信息进行分词处理以获得分词词组;
分类确定步骤:获取分词词组中的多个关键词以形成特征词组,将特征词语与关键词组进行比对以确定待分类图书所对应的分类条目。
6.如权利要求5所述的图书分类的方法,其特征在于,在分词步骤具体包括以下子步骤:
分词处理步骤:对图书信息采用开源系统ICTCLAS进行分词处理;
删词步骤:根据通用词词库与停用词词库除去分词后的通用词与停用词以获得分词词组。
7.如权利要求5所述的图书分类的方法,其特征在于,所述关键词为分词词组中的概率超过预设值的分词。
8.如权利要求5所述的图书分类的方法,其特征在于,所述图书信息还包括作者信息,所述分词确定步骤具体包括以下子步骤:
判断步骤:判断是否获取到与作者信息对应的分类条目,如果是,则执行相似性判断步骤,如果否,则执行计算步骤:
相似性判断步骤:确定待分类图书的特征词组与相应分类条目的关键词组之间的相似值,如果大于预设值,则该分类条目即为所述待分类图书的分类,如果小于预设值,则执行计算步骤;
计算步骤:通过朴素贝叶斯算法以得待分类图书的分类条目。
9.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求5-8中任意一项所述的图书分类的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求5-8任意一项所述图书分类的方法。
CN201711166694.6A 2017-11-21 2017-11-21 一种分类数据库的构建方法以及图书分类的方法 Pending CN107862069A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711166694.6A CN107862069A (zh) 2017-11-21 2017-11-21 一种分类数据库的构建方法以及图书分类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711166694.6A CN107862069A (zh) 2017-11-21 2017-11-21 一种分类数据库的构建方法以及图书分类的方法

Publications (1)

Publication Number Publication Date
CN107862069A true CN107862069A (zh) 2018-03-30

Family

ID=61702372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711166694.6A Pending CN107862069A (zh) 2017-11-21 2017-11-21 一种分类数据库的构建方法以及图书分类的方法

Country Status (1)

Country Link
CN (1) CN107862069A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222175A (zh) * 2019-05-20 2019-09-10 北京语言大学 一种基于词条作家热度构建分类分级词表的方法及系统
CN111831938A (zh) * 2020-06-17 2020-10-27 维沃移动通信有限公司 信息显示方法、装置、电子设备及介质
CN112534465A (zh) * 2018-10-26 2021-03-19 大洋情报株式会社 利用者申请所希望的图书时实时生成并传送机读目录数据的方法及用于该方法的系统
CN112559866A (zh) * 2020-12-16 2021-03-26 郑州工程技术学院 大学图书阅读推荐方法、装置、设备及存储介质
CN113435199A (zh) * 2021-07-18 2021-09-24 谢勇 一种性格对应文化的存储读取干涉方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7333984B2 (en) * 2000-08-09 2008-02-19 Gary Martin Oosta Methods for document indexing and analysis
CN201654779U (zh) * 2009-04-22 2010-11-24 同方知网(北京)技术有限公司 学术文献自动分类系统
CN101923560A (zh) * 2010-04-03 2010-12-22 崔志明 只提供简单查询接口的深层网页数据库的分类方法
CN103634473A (zh) * 2013-12-05 2014-03-12 南京理工大学连云港研究院 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统
CN104537116A (zh) * 2015-01-23 2015-04-22 浙江大学 一种基于标签的图书搜索方法
CN105808768A (zh) * 2016-03-19 2016-07-27 浙江大学 一种基于图书的概念-描述词知识网络的构建方法
CN106156372A (zh) * 2016-08-31 2016-11-23 北京北信源软件股份有限公司 一种互联网网站的分类方法及装置
CN106503246A (zh) * 2016-11-09 2017-03-15 天津赛因哲信息技术有限公司 一种古籍智能数字化文献库的建立方法
CN106886512A (zh) * 2015-12-15 2017-06-23 腾讯科技(深圳)有限公司 文章分类方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7333984B2 (en) * 2000-08-09 2008-02-19 Gary Martin Oosta Methods for document indexing and analysis
CN201654779U (zh) * 2009-04-22 2010-11-24 同方知网(北京)技术有限公司 学术文献自动分类系统
CN101923560A (zh) * 2010-04-03 2010-12-22 崔志明 只提供简单查询接口的深层网页数据库的分类方法
CN103634473A (zh) * 2013-12-05 2014-03-12 南京理工大学连云港研究院 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统
CN104537116A (zh) * 2015-01-23 2015-04-22 浙江大学 一种基于标签的图书搜索方法
CN106886512A (zh) * 2015-12-15 2017-06-23 腾讯科技(深圳)有限公司 文章分类方法和装置
CN105808768A (zh) * 2016-03-19 2016-07-27 浙江大学 一种基于图书的概念-描述词知识网络的构建方法
CN106156372A (zh) * 2016-08-31 2016-11-23 北京北信源软件股份有限公司 一种互联网网站的分类方法及装置
CN106503246A (zh) * 2016-11-09 2017-03-15 天津赛因哲信息技术有限公司 一种古籍智能数字化文献库的建立方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112534465A (zh) * 2018-10-26 2021-03-19 大洋情报株式会社 利用者申请所希望的图书时实时生成并传送机读目录数据的方法及用于该方法的系统
CN110222175A (zh) * 2019-05-20 2019-09-10 北京语言大学 一种基于词条作家热度构建分类分级词表的方法及系统
CN110222175B (zh) * 2019-05-20 2020-08-25 北京语言大学 一种基于词条作家热度构建分类分级词表的方法及系统
CN111831938A (zh) * 2020-06-17 2020-10-27 维沃移动通信有限公司 信息显示方法、装置、电子设备及介质
CN112559866A (zh) * 2020-12-16 2021-03-26 郑州工程技术学院 大学图书阅读推荐方法、装置、设备及存储介质
CN112559866B (zh) * 2020-12-16 2024-09-20 郑州工程技术学院 大学图书阅读推荐方法、装置、设备及存储介质
CN113435199A (zh) * 2021-07-18 2021-09-24 谢勇 一种性格对应文化的存储读取干涉方法及系统

Similar Documents

Publication Publication Date Title
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN107862069A (zh) 一种分类数据库的构建方法以及图书分类的方法
CN111259631B (zh) 一种裁判文书结构化方法及装置
CN110134954B (zh) 一种基于Attention机制的命名实体识别方法
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN113673943B (zh) 一种基于履历大数据的人员任免辅助决策方法及系统
CN110609983B (zh) 一种政策文件结构化分解方法
CN106126619A (zh) 一种基于视频内容的视频检索方法及系统
CA2807494C (en) Method and system for integrating web-based systems with local document processing applications
CN110263319A (zh) 一种基于网页文本的学者观点抽取方法
CN106934069A (zh) 数据检索方法及系统
Fu et al. Automatic record linkage of individuals and households in historical census data
Da et al. Deep learning based dual encoder retrieval model for citation recommendation
CN114490930A (zh) 一种基于知识图谱的文物问答系统与问答方法
Pal et al. Anubhuti--An annotated dataset for emotional analysis of Bengali short stories
CN111563374B (zh) 一种基于司法裁判文书的人员社交关系抽取方法
Koolen et al. Modelling resolutions of the dutch states general for digital historical research
Lahbari et al. A rule-based method for Arabic question classification
CN114707615B (zh) 基于历时汉字知识图谱的古文字相似度量化方法
CN112989068B (zh) 针对唐诗知识的知识图谱构建方法及唐诗知识问答系统
Weng et al. A survey of artificial intelligence techniques on MOOC of legal education
CN116257618A (zh) 一种基于细粒度情感分析的多源智能旅游推荐方法
Choudhary et al. An annotated urdu corpus of handwritten text image and benchmarking of corpus
Liou et al. Age estimates from name characters
Medrano Toward a Khipu Transcription" Insistence": a Corpus-Based Study of the Textos Andinos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180330