CN111143548A - 图书分类方法、装置、设备及计算机可读存储介质 - Google Patents

图书分类方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111143548A
CN111143548A CN201811300271.3A CN201811300271A CN111143548A CN 111143548 A CN111143548 A CN 111143548A CN 201811300271 A CN201811300271 A CN 201811300271A CN 111143548 A CN111143548 A CN 111143548A
Authority
CN
China
Prior art keywords
text information
word
classification
key text
word data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811300271.3A
Other languages
English (en)
Inventor
陈志优
程静
谢海华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Original Assignee
Pku Founder Information Industry Group Co ltd
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pku Founder Information Industry Group Co ltd, Peking University Founder Group Co Ltd filed Critical Pku Founder Information Industry Group Co ltd
Priority to CN201811300271.3A priority Critical patent/CN111143548A/zh
Publication of CN111143548A publication Critical patent/CN111143548A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种图书分类方法、装置、设备及计算机可读存储介质。本发明实施例的方法,通过获取待分类图书的关键文本信息,所述关键文本信息至少包括摘要;对所述关键文本信息进行词向量嵌入,得到所述关键文本信息的词数据向量和字数据向量;根据所述词数据向量和字数据向量,通过文本分类模型,对所述待分类图书进行图书分类,得到至少一个分类标签,实现了根据图书的关键文本信息自动地进行图书分类,提到了图书分类的效率,并且可以为图书添加多个分类标签,提供图书检索效率和准确性。

Description

图书分类方法、装置、设备及计算机可读存储介质
技术领域
本发明实施例涉及文本信息处理领域,尤其涉及一种图书分类方法、装置、设备及计算机可读存储介质。
背景技术
在大型的图书数据库中,为了便于图书的查找,图书的查询标签处理书名、作者、出版社等图书的元信息之外,好需要标注与图书内容相关的标签,例如,经济、政治、改革、体育、历史、明史、小说等等标签。这样在图书搜索的时候,搜索经济,不仅可以找到《西方经济学》、《技术经济学》等图书,还可以查询到标注了“经济”这一标签的《国富论》、《资本论》等图书。
目前都是由人工根据所了解的图书内容对图书进行分类,为图书添加标签。这种人工进行图书分类的方法需要大量的人工工作,耗时耗力,图书分类的效率非常低。
发明内容
本发明实施例提供一种图书分类方法、装置、设备及计算机可读存储介质,用以解决现有技术中人工进行图书分类的方法需要大量的人工工作,耗时耗力,图书分类的效率非常低的问题。
本发明实施例的一个方面是提供一种图书分类方法,包括:
获取待分类图书的关键文本信息,所述关键文本信息至少包括摘要;
对所述关键文本信息进行词向量嵌入,得到所述关键文本信息的词数据向量和字数据向量;
根据所述词数据向量和字数据向量,通过文本分类模型,对所述待分类图书进行图书分类,得到至少一个分类标签。
本发明实施例的另一个方面是提供一种图书分类装置,包括:
获取模块,用于获取待分类图书的关键文本信息,所述关键文本信息至少包括摘要;
信息预处理模块,用于对所述关键文本信息进行词向量嵌入,得到所述关键文本信息的词数据向量和字数据向量;
文本分类模块,用于根据所述词数据向量和字数据向量,通过文本分类模型,对所述待分类图书进行图书分类,得到至少一个分类标签。
本发明实施例的另一个方面是提供一种图书分类设备,包括:
存储器,处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,
所述处理器运行所述计算机程序时实现上述所述的图书分类方法。
本发明实施例的另一个方面是提供一种计算机可读存储介质,存储有计算机程序,
所述计算机程序被处理器执行时实现上述所述的图书分类方法。
本发明实施例提供的图书分类方法、装置、设备及计算机可读存储介质,通过获取待分类图书的关键文本信息,所述关键文本信息至少包括摘要;对所述关键文本信息进行词向量嵌入,得到所述关键文本信息的词数据向量和字数据向量;根据所述词数据向量和字数据向量,通过文本分类模型,对所述待分类图书进行图书分类,得到至少一个分类标签,实现了根据图书的关键文本信息自动地进行图书分类,提到了图书分类的效率,并且可以为图书添加多个分类标签,提供图书检索效率和准确性。
附图说明
图1为本发明实施例一提供的图书分类方法流程图;
图2为本发明实施例二提供的图书分类方法流程图;
图3为本发明实施例二提供的叠加分类模型的结构示意图;
图4为本发明实施例二提供的融合分类模型的结构示意图;
图5为本发明实施例三提供的图书分类装置的结构示意图;
图6为本发明实施例五提供的图书分类设备的结构示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明实施例构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明实施例的一些方面相一致的装置和方法的例子。
本发明实施例所涉及的术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
实施例一
图1为本发明实施例一提供的图书分类方法流程图。本发明实施例针对现有技术中人工进行图书分类的方法需要大量的人工工作,耗时耗力,图书分类的效率非常低的问题,提供了图书分类方法。本实施例中的方法应用于进行图书分类设备。如图1所示,该方法具体步骤如下:
步骤S101、获取待分类图书的关键文本信息,关键文本信息至少包括摘要。
本实施例中,图书的关键文本信息至少包括摘要。优选地,图书的关键文本信息可以包括书名和摘要。
另外,在本实施例的其他实施方式中,图书的关键文本信息还可以包括图书的其他内容信息,本实施例此处不做具体限定。
步骤S102、对关键文本信息进行词向量嵌入,得到关键文本信息的词数据向量和字数据向量。
在获取到图书的关键文本信息之后,可以根据预设的词向量库,将关键文本信息拆分成多个词,获取拆分成的多个词对应于词向量库中的词向量,作为关键文本信息的词数据;根据词数据中每个词向量在预设的词向量库中的编号信息,生成维数为第一预设维数的词数据向量,得到关键文本信息的词数据向量。
其中,预设的词向量库可以是维基百科的词向量,或者其他开源的训练好的词向量库,或者可以采用其他自行训练得到的词向量库,本实施例此处不做具体限定。
第一预设维数可以根据已有图书的关键文本信息的拆分成的词的数量的平均值确定。
例如,根据已知的多本图书,根据预设的词向量库将每本图书的关键文本信息拆分成多个词,并记录每本图书的关键文本信息拆分成的词的个数,计算这些的图书的关键文本信息拆分成的词的个数的平均值,可以设定第一预设维数为:2*平均值+X,其中X为预设增量,X为整数,可以由技术人员根据是需要进行设定。
另外,第一预设维数也可以由技术人员根据实际需要进行设定,本实施例此处不做具体限定。
同样的,在获取到图书的关键文本信息之后,可以根据预设的词向量库,将关键文本信息拆分成多个字,获取拆分成的多个字对应于词向量库中的词向量,作为关键文本信息的字数据;根据字数据中每个词向量在预设的词向量库中的编号信息,生成维数为第二预设维数的字数据向量,得到关键文本信息的字数据向量。
其中,第二预设维数可以根据已有图书的关键文本信息的拆分成的字的数量的平均值确定。
另外,第二预设维数也可以由技术人员根据实际需要进行设定,本实施例此处不做具体限定。
步骤S103、根据词数据向量和字数据向量,通过文本分类模型,对待分类图书进行图书分类,得到至少一个分类标签。
本实施例中,文本分类模型由多个不同的叠加分类模型融合而成,每个叠加分类模型由多个单一分类模型叠加而成。
其中,至少一个叠加分类模型的输入为词数据向量,至少一个叠加分类模型的输入为字数据向量。
将词数据向量和字数据向量输入文本分类模型,通文本分类模型计算出待分类图书对应于各个预设标签的概率;若存在概率大于预设概率阈值的标签,那么将概率大于预设概率阈值的至少一个标签作为待分类图书的分类标签;若不存在概率大于预设概率阈值的标签,则将概率最大的标签作为待分类图书的分类标签。
其中,预设概率阈值可以由技术人员根据实际需要进行设定,本实施例此处不做具体限定。
本发明实施例通过获取待分类图书的关键文本信息,关键文本信息至少包括摘要;对关键文本信息进行词向量嵌入,得到关键文本信息的词数据向量和字数据向量;根据词数据向量和字数据向量,通过文本分类模型,对待分类图书进行图书分类,得到至少一个分类标签,实现了根据图书的关键文本信息自动地进行图书分类,提到了图书分类的效率,并且可以为图书添加多个分类标签,提供图书检索效率和准确性。
实施例二
图2为本发明实施例二提供的图书分类方法流程图。在上述实施例一的基础上,本实施例中,对关键文本信息进行词向量嵌入,得到关键文本信息的词数据向量和字数据向量之前,对关键文本信息进行降噪处理,去除关键文本信息中的符号信息。如图2所示,该方法具体步骤如下:
步骤S201、获取待分类图书的关键文本信息,关键文本信息至少包括摘要。
本实施例中,图书的关键文本信息至少包括摘要。优选地,图书的关键文本信息可以包括书名和摘要。
另外,在本实施例的其他实施方式中,图书的关键文本信息还可以包括图书的其他内容信息,本实施例此处不做具体限定。
步骤S202、对关键文本信息进行降噪处理,去除关键文本信息中的符号信息。
本实施例中,在对关键文本信息进行词向量嵌入之前,可以对关键文本信息进行降噪处理,关键文本信息中的符号信息去除。其中,符号信息可以是预先设定的特殊符号,也可以包括关键文本信息中的所有符号;要去除的符号信息可以由技术人员根据实际需要进行设定,本实施例此处不做具体限定。
可选的,对关键文本信息进行降噪处理,还可以包括去除关键文本信息中的错误数据,例如明显文不对题的语句等等。
步骤S203、对关键文本信息进行词向量嵌入,得到关键文本信息的词数据向量和字数据向量。
本实施例中,对关键文本信息进行词向量嵌入,得到关键文本信息的词数据向量,具体可以采用如下方式实现:
对关键文本信息进行分词处理,获取关键文本信息中的每个词对应的词向量,得到关键文本信息的词数据,生成词数据对应的词数据向量。
具体的,根据预设的词向量库,将关键文本信息拆分成多个词,获取拆分成的多个词对应于词向量库中的词向量,作为关键文本信息的词数据;获取词数据中每个词向量在预设的词向量库中的编号信息(例如ID等),将词向量对应的编号信息作为这一词向量在词数据向量中分量,按照各个词向量在关键文本信息中出现的先后顺序、各词向量对应的分量组成第一向量,该第一向量的维数等于关键文本信息拆分成的词向量的个数;根据第一预设维数对第一向量进行修正,生成维数为第一预设维数的词数据向量,得到关键文本信息的词数据向量。
其中,预设的词向量库可以是维基百科的词向量,或者其他已知的词向量库,本实施例此处不做具体限定。
进一步地,根据第一预设维数对第一向量进行修正,生成维数为第一预设维数的词数据向量,具体可以采用如下方式实现:
若第一向量的维数等于第一预设维数,则第一向量即为关键文本信息的词数据向量;若第一向量的维数小于第一预设维数,则在第一向量的尾部补0,生成维数为第一预设维数的词数据向量;若第一向量的维数大于第一预设维数,则截取第一向量头部的第一预设维数的分量构成关键文本信息的词数据向量。
可选的,第一预设维数可以根据已有图书的关键文本信息的拆分成的词的数量的平均值确定。
例如,根据已知的多本图书,根据预设的词向量库将每本图书的关键文本信息拆分成多个词,并记录每本图书的关键文本信息拆分成的词的个数,计算这些的图书的关键文本信息拆分成的词的个数的平均值,可以设定第一预设维数为:2*平均值+X,其中X为预设增量,X为整数,可以由技术人员根据是需要进行设定。
另外,第一预设维数也可以由技术人员根据实际需要进行设定,本实施例此处不做具体限定。
例如,初始的关键文本信息可以为“我今天吃的蛋炒饭”,进行分词处理后得到“我”,“今天”,“吃的”,“蛋炒饭”这四个词对应的词向量。假设已有图书的关键文本信息拆分成的词的个数的平均值为5,则可以将第一预设维数设置为10,也即是将词数据向量的维数设为10。由于初始的关键文本信息对应的词向量只有4个词,生成的第一向量为4为向量,可以表示为{x1,x2,x3,x4},其中x1,x2,x3,x4分别表示“我”,“今天”,“吃的”,“蛋炒饭”这四个词在词向量库中的ID,需要在第一向量的末尾补充6个0,得到10维的词数据向量{x1,x2,x3,x4,0,0,0,0,0,0}。
本实施例中,对关键文本信息进行词向量嵌入,得到关键文本信息的字数据向量,具体可以采用如下方式实现:
将关键文本信息进行字拆分处理,获取关键文本信息中的每个字对应的词向量,得到关键文本信息的字数据,生成字数据对应的字数据向量。
具体的,根据预设的词向量库,将关键文本信息拆分成多个字,获取拆分成的多个字对应于词向量库中的词向量,作为关键文本信息的字数据;获取字数据中每个词向量在预设的词向量库中的编号信息(例如ID等),将词向量对应的编号信息作为这一词向量在字数据向量中分量,按照各个词向量在关键文本信息中出现的先后顺序、各词向量对应的分量组成第二向量,该第二向量的维数等于关键文本信息中字的个数;根据第二预设维数对第二向量进行修正,生成维数为第二预设维数的字数据向量,得到关键文本信息的字数据向量。
例如,初始的关键文本信息可以为“我今天吃的蛋炒饭”,进行字拆分处理后得到“我”,“今”,“天”,“吃”,“的”,“蛋”,“炒”,“饭”这7个字对应的词向量。
进一步地,根据第二预设维数对第二向量进行修正,生成维数为第二预设维数的字数据向量,具体可以采用如下方式实现:
若第二向量的维数等于第二预设维数,则第二向量即为关键文本信息的字数据向量;若第二向量的维数小于第二预设维数,则在第二向量的尾部补0,生成维数为第二预设维数的字数据向量;若第二向量的维数大于第二预设维数,则截取第二向量头部的第二预设维数的分量构成关键文本信息的字数据向量。
可选的,第二预设维数可以根据已有图书的关键文本信息的进行字拆分处理得到的字的数量的平均值确定。第二预设维数可以与第一预设维数不同,也可以与第一维数相同,本实施例对此不做具体限定。
另外,第二预设维数也可以由技术人员根据实际需要进行设定,本实施例此处不做具体限定。
步骤S204、根据词数据向量和字数据向量,通过文本分类模型,对待分类图书进行图书分类,得到至少一个分类标签。
其中,文本分类模型由多个不同的叠加分类模型融合而成,每个叠加分类模型由多个单一分类模型叠加而成。
可选的,不同的叠加分类模型可以是由不同类型的单一分类模型叠加而成的,一个叠加分类模型由多个类型相同的单一分类模型叠加而成。单一分类模型可以包括FastText,TextCNN,TextRNN等。
例如,FastText模型在接收到输入的词数据向量或者字数据向量后,进行均值处理,再进行Batch Normalization,后经过两个全连接层的处理;TextCNN模型主要使用了多尺度卷积核,在接收到输入的词数据向量或者字数据向量后,经过Batch Normalization和Maxpooling处理之后,进行Concat之后再加全连接层;TextRNN模型在接收到输入的词数据向量或者字数据向量后,采用了一个多层的双向的长短期记忆网络(Long Short-TermMemory,LSTM)结构,再经过Batch Normalization之后加全连接层。
本实施例中的FastText,TextCNN,TextRNN均可以采用现有技术对应的神经网络结构实现,本实施例此处不再赘述。
图3为本发明实施例二提供的叠加分类模型的结构示意图,如图3所示,一个叠加分类模型由多个类型相同的单一分类模型叠加而成。构成一个叠加分类模型的多个单一分类模型的输入均相同,多个单一分类模型的输出标签的概率进行叠加,得到叠加分类模型的输出。
通常叠加的单一分类模型的数量越大,叠加分类模型的效果也好,但是计算量也会越高。构成叠加分类模型的单一分类模型的数量可以由技术人员根据实际应用场景以及硬件性能进行确定,本实施例此处不做具体限定。
融合分类模型由多个不同类型的叠加分类模型融合而成。不同的叠加分类模型的输入数据可以不同,多个叠加分类模型的计算结果加权相加,得到融合分类模型的输出结果。
图4为本发明实施例二提供的融合分类模型的结构示意图,如图4所示的融合分类模型是由4个叠加分类模型融合而成,其中,第一RNN叠加分类模型和第二第一RNN叠加分类模型均是由多个TextRNN模型叠加而成的叠加分类模型,CNN叠加分类模型是由多个TextCNN模型叠加而成的叠加分类模型,FastText叠加分类模型是由多个FastText模型叠加而成的叠加分类模型。如图4所示,不同的叠加分类模型的输入数据可以不同,其中第一RNN叠加分类模型和FastText叠加分类模型的输入数据可以是关键文本信息的字数据向量,CNN叠加分类模型和第二RNN叠加分类模型的输入数据可以是关键文本信息的词数据向量。四个叠加分类模型的输出结果进行加权融合得到融合分类模型的输出结果。
图4所示的仅仅是融合分类模型中一种,本实施例并不限定于这一种融合分类模型。
本实施例中,融合分类模型是由多少个叠加分类模型构成,以及融合分类模型是由哪几种叠加分类模型构成,可以由技术人员根据实际需要进行设定,本实施例此处不对融合分类模型的具体构成做具体限定。
该步骤中,将词数据向量和字数据向量输入文本分类模型,通文本分类模型计算出待分类图书对应于各个预设标签的概率;若存在概率大于预设概率阈值的标签,那么将概率大于预设概率阈值的至少一个标签作为待分类图书的分类标签;若不存在概率大于预设概率阈值的标签,则将概率最大的标签作为待分类图书的分类标签。
其中,预设概率阈值可以由技术人员根据实际需要进行设定,本实施例此处不做具体限定。
本实施例是依赖自然语言处理和深度学习模型,在既定的标签域内,对未标注的文本信息进行分类预测,使用的文本分类模型是多标签文本分类模型。
本实施例的另一实施方式中,在根据词数据向量和字数据向量,通过文本分类模型,对待分类图书进行图书分类,得到至少一个分类标签之前,对每个单一分类模型进行模型训练;对训练后的单一分类模型叠加而成的每个叠加分类模型进行训练;将训练后的叠加分类模型进行融合得到文本分类模型。
在进行模型的预训练和训练时,首选获取训练数据。具体的,图书阅读平台上图书的标签是由大量用户标注的,可靠性比较高。本实施例中,可以抓取各图书阅读平台(例如豆瓣读书等等)上图书的书名、摘要等关键文本信息以及标签;对于抓取的图书的标签,根据该图书的标签被标注的频次进行数据清洗,得到图书的有效标签。
具体的,在进行数据清洗时,去除被标注的频次小于预设频次阈值的标签;若一本图书的所有标签被标注的频次均低于预设频次阈值,则将抓取的该图书的信息删除。
采用与上述步骤S201-S203相同的方法,提取图书的关键文本信息的词数据向量和字数据向量,一本图书的关键文本信息的词数据向量和字数据向量,以及有效标签作为一条训练数据。同理可以得到大量的训练数据。然后划分数据集,将训练数据打乱顺序后分为训练集,验证集和测试集,以保证数据分布的均匀性。
在进行模型训练时,首先,采用训练集和验证集对每个单一分类模型进行预训练,将预训练好的单一分类模型的参数保存。然后将预训练后的保持的参数作为多个同类型的单一分类模型叠加而成的叠加分类模型的初始参数,采用训练集和验证集对该叠加分类模型进行训练;采用同样的方式对每个叠加分类模型进行训练;将训练后的叠加分类模型进行融合得到文本分类模型。
模型融合后不再进行训练,而是将叠加分类模型的输出结果直接进行加权融合,得到融合分类模型的输出结果。另外,在模型融合的时候,被融合的模型的差异性越大,模型的融合结果越好,这里可以采用不同网络层,不同输入的模型叠加,得到最优的结果。
在整个模型训练过程中,可以通过模型的准确率,召回率,以及准确率和召回率综合得分来衡量模型的效果。
另外,文本分类模型可以使用pytorch深度学习框架构建,由于模型比较复杂,执行图书分类方法的图书分类设备最好使用带有GPU的设备。在整个模型训练过程中,每一步都伴随着调参的过程,力争通过调参,优化模型。随着模型的复杂化,测试结果变好,但是对硬件的要求也越来越高,训练速度也会变慢。调参过程中不仅仅要关注总体得分情况,同样要关注准确率和召回率,总体得分增加,召回率和准确率不一定都上升,而是一个上升一个下降,这里就需要根据应用场景进行取舍,选取合适的结果。
选用测试集的预测效果最佳的模型,也根据真实使用的硬件条件,如果硬件条件不允许话可以使用单模型,效果相对差一些,但是节省内存,硬件的要求低。
另外,在得到文本分类模型后,可以对本实施例提供的图书分类方法进行封装,封装成图书分类模型。具体可以采用两种封装方式:一种方式是本地调用,将模型封装成一个类库,可以直接采用其中的类构建对象,调用相应的方法可以直接对进行图书分类;另外一种方式是远程部署,以HTTP接口的方式进行调用。
图书分类模型的输入数据是书名和摘要等关键文本信息,输出结果是至少一个分类标签。
例如,输入图书分类模型的关键文本信息包括:书名:《明朝那些事儿》和摘要:“中国明朝(1344年-1644年)历史故事从朱元璋出生讲起,到崇祯皇帝自缢明朝灭亡。以史料为基础,以年代和具体人物为主线,并加入了小说的笔法,对明朝十七帝和其他王公权贵和小人物的命运进行全景展示,尤其对官场政治、战争、帝王心术着墨最多,并加入对当时政治经济制度、人伦道德的演义”;图书分类模型对该图书进行图书分类可以得到“历史”、“小说”、“明史”三个分类标签。
本发明实施例通过对关键文本信息进行降噪处理,去除关键文本信息中的符号信息,可以避免特殊符号对文本分类的影响,提高了图书分类的准确性;采用多个由不同类型的单一分类模型叠加而成的叠加分类模型融合得到文本分类模型,进一步提高了图书分类的准确性。
实施例三
图5为本发明实施例三提供的图书分类装置的结构示意图。本发明实施例提供的图书分类装置可以执行图书分类方法实施例提供的处理流程。如图5所示,该图书分类装置30包括:获取模块301,信息预处理模块302和文本分类模块303。
具体地,获取模块301用于获取待分类图书的关键文本信息,关键文本信息至少包括摘要。
信息预处理模块302用于对关键文本信息进行词向量嵌入,得到关键文本信息的词数据向量和字数据向量。
文本分类模块303用于根据词数据向量和字数据向量,通过文本分类模型,对待分类图书进行图书分类,得到至少一个分类标签。
本发明实施例提供的装置可以具体用于执行上述实施例一所提供的方法实施例,具体功能此处不再赘述。
本发明实施例通过获取待分类图书的关键文本信息,关键文本信息至少包括摘要;对关键文本信息进行词向量嵌入,得到关键文本信息的词数据向量和字数据向量;根据词数据向量和字数据向量,通过文本分类模型,对待分类图书进行图书分类,得到至少一个分类标签,实现了根据图书的关键文本信息自动地进行图书分类,提到了图书分类的效率,并且可以为图书添加多个分类标签,提供图书检索效率和准确性。
实施例四
在上述实施例三的基础上,本实施例中,信息预处理模块还用于:
对关键文本信息进行分词处理,获取关键文本信息中的每个词对应的词向量,得到关键文本信息的词数据,生成词数据对应的词数据向量;将关键文本信息进行字拆分处理,获取关键文本信息中的每个字对应的词向量,得到关键文本信息的字数据,生成字数据对应的字数据向量。
可选的,信息预处理模块还用于:
对关键文本信息进行降噪处理,去除关键文本信息中的符号信息。
可选的,文本分类模型由多个不同的叠加分类模型融合而成,每个叠加分类模型由多个单一分类模型叠加而成。
其中,至少一个叠加分类模型的输入为词数据向量,至少一个叠加分类模型的输入为字数据向量。
可选的,本实施例中,图书分类装置还包括模型训练模块。
模型训练模型用于:
对每个单一分类模型进行预训练;对预训练后的单一分类模型叠加而成的每个叠加分类模型进行训练;将训练后的叠加分类模型进行融合得到文本分类模型。
本发明实施例提供的装置可以具体用于执行上述实施例二所提供的方法实施例,具体功能此处不再赘述。
本发明实施例通过对关键文本信息进行降噪处理,去除关键文本信息中的符号信息,可以避免特殊符号对文本分类的影响,提高了图书分类的准确性;采用多个由不同类型的单一分类模型叠加而成的叠加分类模型融合得到文本分类模型,进一步提高了图书分类的准确性。
实施例五
图6为本发明实施例五提供的图书分类设备的结构示意图。如图6所示,该图书分类设备50包括:处理器501,存储器502,以及存储在存储器502上并可由处理器501执行的计算机程序。
处理器501在执行存储在存储器502上的计算机程序时实现上述任一方法实施例提供的图书分类方法。
本发明实施例通过获取待分类图书的关键文本信息,关键文本信息至少包括摘要;对关键文本信息进行词向量嵌入,得到关键文本信息的词数据向量和字数据向量;根据词数据向量和字数据向量,通过文本分类模型,对待分类图书进行图书分类,得到至少一个分类标签,实现了根据图书的关键文本信息自动地进行图书分类,提到了图书分类的效率,并且可以为图书添加多个分类标签,提供图书检索效率和准确性。
另外,本发明实施例还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法实施例提供的图书分类方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求书指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种图书分类方法,其特征在于,包括:
获取待分类图书的关键文本信息,所述关键文本信息至少包括摘要;
对所述关键文本信息进行词向量嵌入,得到所述关键文本信息的词数据向量和字数据向量;
根据所述词数据向量和字数据向量,通过文本分类模型,对所述待分类图书进行图书分类,得到至少一个分类标签。
2.根据权利要求1所述的方法,其特征在于,所述对所述关键文本信息进行词向量嵌入,得到所述关键文本信息的词数据向量和字数据向量,包括:
对所述关键文本信息进行分词处理,获取所述关键文本信息中的每个词对应的词向量,得到所述关键文本信息的词数据,生成所述词数据对应的词数据向量;
将所述关键文本信息进行字拆分处理,获取所述关键文本信息中的每个字对应的词向量,得到所述关键文本信息的字数据,生成所述字数据对应的字数据向量。
3.根据权利要求2所述的方法,其特征在于,所述对所述关键文本信息进行词向量嵌入,得到所述关键文本信息的词数据向量和字数据向量之前,还包括:
对所述关键文本信息进行降噪处理,去除所述关键文本信息中的符号信息。
4.根据权利要求1所述的方法,其特征在于,
所述文本分类模型由多个不同的叠加分类模型融合而成,每个所述叠加分类模型由多个单一分类模型叠加而成;
其中,至少一个所述叠加分类模型的输入为所述词数据向量,至少一个所述叠加分类模型的输入为所述字数据向量。
5.根据权利要求4所述的方法,其特征在于,所述根据所述词数据向量和字数据向量,通过文本分类模型,对所述待分类图书进行图书分类,得到至少一个分类标签之前,还包括:
对每个所述单一分类模型进行预训练;
对预训练后的单一分类模型叠加而成的每个所述叠加分类模型进行训练;
将训练后的所述叠加分类模型进行融合得到所述文本分类模型。
6.一种图书分类装置,其特征在于,包括:
获取模块,用于获取待分类图书的关键文本信息,所述关键文本信息至少包括摘要;
信息预处理模块,用于对所述关键文本信息进行词向量嵌入,得到所述关键文本信息的词数据向量和字数据向量;
文本分类模块,用于根据所述词数据向量和字数据向量,通过文本分类模型,对所述待分类图书进行图书分类,得到至少一个分类标签。
7.根据权利要求6所述的装置,其特征在于,所述信息预处理模块还用于:
对所述关键文本信息进行分词处理,获取所述关键文本信息中的每个词对应的词向量,得到所述关键文本信息的词数据,生成所述词数据对应的词数据向量;
将所述关键文本信息进行字拆分处理,获取所述关键文本信息中的每个字对应的词向量,得到所述关键文本信息的字数据,生成所述字数据对应的字数据向量。
8.根据权利要求6所述的装置,其特征在于,所述文本分类模型由多个不同的叠加分类模型融合而成,每个所述叠加分类模型由多个单一分类模型叠加而成;
其中,至少一个所述叠加分类模型的输入为所述词数据向量,至少一个所述叠加分类模型的输入为所述字数据向量。
9.一种图书分类设备,其特征在于,包括:
存储器,处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,
所述处理器运行所述计算机程序时实现如权利要求1-5中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机程序,
所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
CN201811300271.3A 2018-11-02 2018-11-02 图书分类方法、装置、设备及计算机可读存储介质 Pending CN111143548A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811300271.3A CN111143548A (zh) 2018-11-02 2018-11-02 图书分类方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811300271.3A CN111143548A (zh) 2018-11-02 2018-11-02 图书分类方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111143548A true CN111143548A (zh) 2020-05-12

Family

ID=70515356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811300271.3A Pending CN111143548A (zh) 2018-11-02 2018-11-02 图书分类方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111143548A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017202125A1 (zh) * 2016-05-25 2017-11-30 华为技术有限公司 文本分类方法及装置
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法
CN108170818A (zh) * 2017-12-29 2018-06-15 深圳市金立通信设备有限公司 一种文本分类方法、服务器及计算机可读介质
CN108228758A (zh) * 2017-12-22 2018-06-29 北京奇艺世纪科技有限公司 一种文本分类方法及装置
CN108334605A (zh) * 2018-02-01 2018-07-27 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN108520030A (zh) * 2018-03-27 2018-09-11 深圳中兴网信科技有限公司 文本分类方法、文本分类系统及计算机装置
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017202125A1 (zh) * 2016-05-25 2017-11-30 华为技术有限公司 文本分类方法及装置
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法
CN108228758A (zh) * 2017-12-22 2018-06-29 北京奇艺世纪科技有限公司 一种文本分类方法及装置
CN108170818A (zh) * 2017-12-29 2018-06-15 深圳市金立通信设备有限公司 一种文本分类方法、服务器及计算机可读介质
CN108334605A (zh) * 2018-02-01 2018-07-27 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN108520030A (zh) * 2018-03-27 2018-09-11 深圳中兴网信科技有限公司 文本分类方法、文本分类系统及计算机装置
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
於雯 等: "基于LSTM的商品评论情感分析", 《计算机系统应用》, pages 2 - 3 *
邓楠 等: "基于情感词向量和BLSTM的评论文本情感倾向分析", 《计算机应用研究》, pages 1 - 3 *

Similar Documents

Publication Publication Date Title
US11055557B2 (en) Automated extraction of product attributes from images
US10430689B2 (en) Training a classifier algorithm used for automatically generating tags to be applied to images
US10055391B2 (en) Method and apparatus for forming a structured document from unstructured information
EP3926531B1 (en) Method and system for visio-linguistic understanding using contextual language model reasoners
US8903198B2 (en) Image ranking based on attribute correlation
CA3052638A1 (en) Systems and methods for automatic semantic token tagging
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN111242083B (zh) 基于人工智能的文本处理方法、装置、设备、介质
CN107590291A (zh) 一种图片的搜索方法、终端设备及存储介质
CN112199473A (zh) 一种知识问答系统中的多轮对话方法与装置
US20140136494A1 (en) System and method for automatic wrapper induction by applying filters
CN110990563A (zh) 一种基于人工智能的传统文化素材库构建方法及系统
CN114818710A (zh) 表格信息提取方法、装置、设备及介质
CN112507095A (zh) 基于弱监督学习的信息识别方法及相关设备
WO2022216462A1 (en) Text to question-answer model system
CN114168768A (zh) 图像检索方法及相关设备
US11972625B2 (en) Character-based representation learning for table data extraction using artificial intelligence techniques
CN111143548A (zh) 图书分类方法、装置、设备及计算机可读存储介质
CN114896294A (zh) 产品测试数据表生成方法、装置、设备及存储介质
CN115640376A (zh) 文本标注方法、装置、电子设备和计算机可读存储介质
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN113919354A (zh) 一种文本对抗的自然语言增强处理方法及装置
CN110647914A (zh) 智能服务水平训练方法、装置及计算机可读存储介质
CN111062219A (zh) 一种基于张量的潜在语义分析文本处理方法及装置
US20230368553A1 (en) Character-based representation learning for information extraction using artificial intelligence techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230627

Address after: 3007, Hengqin International Financial Center Building, No. 58 Huajin Street, Hengqin New District, Zhuhai City, Guangdong Province, 519030

Applicant after: New founder holdings development Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Applicant before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Applicant before: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

TA01 Transfer of patent application right