CN113935332A - 图书分级方法及图书分级设备 - Google Patents

图书分级方法及图书分级设备 Download PDF

Info

Publication number
CN113935332A
CN113935332A CN202111288642.2A CN202111288642A CN113935332A CN 113935332 A CN113935332 A CN 113935332A CN 202111288642 A CN202111288642 A CN 202111288642A CN 113935332 A CN113935332 A CN 113935332A
Authority
CN
China
Prior art keywords
book
grading
target
sentence
grade
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111288642.2A
Other languages
English (en)
Inventor
刘石勇
王昕�
刘利明
李洁
刘敏
王凯欣
于仲海
许丽星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Group Holding Co Ltd
Original Assignee
Hisense Group Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Group Holding Co Ltd filed Critical Hisense Group Holding Co Ltd
Priority to CN202111288642.2A priority Critical patent/CN113935332A/zh
Publication of CN113935332A publication Critical patent/CN113935332A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本申请公开了一种图书分级方法及图书分级设备,涉及信息处理技术领域。图书分级设备可以对待分级的图书进行特征提取,以得到该图书的多个分级特征,并对该多个分级特征进行加权处理,从而得到待分级的图书的目标等级。由于本申请提供的方法能够通过图书的多个分级特征确定图书的等级,因此有效提高了图书等级的确定准确性。进而,可以便于用户基于该图书分级设备确定出的图书的等级,合理选择图书。

Description

图书分级方法及图书分级设备
技术领域
本申请涉及信息处理技术领域,特别涉及一种图书分级方法及图书分级设备。
背景技术
少年儿童在不同阶段的阅读理解能力不同。家长在为少年儿童选取图书时,需要选择阅读难度与少年儿童的阅读理解能力匹配的图书,以确保少年儿童能够科学的阅读图书。
相关技术中,家长通常根据经验选择阅读难度与少年儿童的阅读理解能力匹配的图书,导致选择图书的效率较低,且选择出的图书的准确性较低。
发明内容
本申请提供了一种图书分级方法及图书分级设备,可以解决相关技术的选择图书的效率较低,且选择出的图书的准确性较低的问题。所述技术方案如下:
一方面,提供了一种图书分级方法,应用于图书分级设备;所述方法包括:
获取待分级的图书的图书信息,所述图书信息包括:所述图书的内容和/或所述图书的标识;
基于所述图书信息,对所述图书的内容进行特征提取,得到所述图书的多个分级特征,所述多个分级特征包括下述特征中的至少两种:所述图书的语义复杂度,所述图书中包含的句式的种类数,所述图书中每种句式的语句的数量,其中,所述语义复杂度由数值表征;
对所述多个分级特征进行加权处理,得到所述图书的目标等级;
对所述目标等级进行显示。。
另一方面,提供了一种图书分级设备,所述图书分级设备包括:处理器;所述处理器用于:
获取待分级的图书的图书信息,所述图书信息包括:所述图书的内容和/或所述图书的标识;
基于所述图书信息,对所述图书的内容进行特征提取,得到所述图书的多个分级特征,所述多个分级特征包括下述特征中的至少两种:所述图书的语义复杂度,所述图书中包含的句式的种类数,所述图书中每种句式的语句的数量,其中,所述语义复杂度由数值表征;
对所述多个分级特征进行加权处理,得到所述图书的目标等级;
对所述目标等级进行显示。
可选的,所述多个分级特征还包括下述特征中的至少一种:页数、词语数、第一词语的数量、第二词语的数量、插图的数量、句子长度、实体数量、属性数量和关系数量;
其中,所述第一词语为所述图书中属于高频词语集合的词语,所述第二词语为所述图书中属于低频词语集合的词语;
所述实体数量是指所述图书包括的实体的总数,所述属性数量是指所述图书中各个所述实体的属性的总数,所述关系数量是指所述图书中各个所述实体之间所具有的关系的总数。
可选的,所述处理器用于:
采用多个不同的权重组分别对所述多个分级特征进行加权处理,得到所述图书的多个备选等级,其中,每个所述备选等级基于一个所述权重组得到,且每个所述权重组均包括:与所述多个分级特征一一对应的多个权重;
基于所述多个备选等级,确定所述图书的目标等级。
可选的,所述处理器用于:
将所述多个备选等级中,出现个数最多的备选等级确定为所述图书的目标等级。
可选的,所述处理器用于:
对每个所述分级特征进行归一化处理;
对归一化处理后的所述多个分级特征进行加权处理,得到所述图书的目标等级。
可选的,所述处理器用于:
通过神经网络的隐藏层包括的多个第一神经元,对归一化处理后的所述多个分级特征进行加权处理,得到所述多个第一神经元的输出值;
通过所述神经网络的输出层包括的多个第二神经元,对所述多个第一神经元的输出值进行处理,得到每个所述第二神经元输出的所述图书的等级为对应的参考等级的概率,所述多个第二神经元对应的参考等级互不相同;
基于所述多个第二神经元对应的参考等级中概率最大的参考等级,确定所述图书的目标等级;
其中,第q个第一神经元的输出值hq(U)满足:
Figure BDA0003334125400000031
第k个第二神经元输出的概率P(k)满足:
Figure BDA0003334125400000032
q为大于等于1且小于等于M的整数,M为所述隐藏层包括的第一神经元的总数,e为自然常数,Q为第q个第一神经元的权重向量,每个所述第一神经元的权重向量包括与归一化处理后的所述多个分级特征一一对应的多个权重,T为转置符号,U为归一化处理后的所述多个分级特征组成的特征集合;
zk为所述第k个第二神经元采用所述第k个第二神经元的权重向量对多个所述输出值进行加权处理后得到的结果,zr为第r个第二神经元采用所述第r个第二神经元的权重向量对多个所述输出值进行加权处理后得到的结果,每个所述第二神经元的权重向量包括与所述多个第一神经元一一对应的多个权重,r为大于等于1且小于等于g的整数,g为所述输出层包括的第二神经元的总数,任意两个所述第二神经元的权重向量不同,任意两个所述第一神经元的权重向量不同。
可选的,所述图书分级设备为移动终端,所述移动终端包括显示屏,所述处理器用于:
在所述显示屏中显示所述目标等级;
所述处理器还用于:
在所述得到所述图书的目标等级之后,若确定所述目标等级与参考阅读等级的差值大于差值阈值,则发出提示消息,所述参考阅读等级为所述移动终端中配置的阅读等级。
可选的,所述图书分级设备为分级服务器。所述处理器用于:
接收移动终端发送的待分级的图书的图书信息;
向所述移动终端发送所述目标等级,所述目标等级用于供所述移动终端显示。
可选的,所述处理器用于:
从所述图书的内容中提取出多个语句;
向第一服务器发送所述多个语句,每个所述语句用于供所述第一服务器输入至语句分析模型,得到所述语句的分析结果,所述分析结果包括语义复杂度,以及句式;
基于所述第二服务器发送的每个所述语句的分析结果,确定所述多个分级特征;
其中,所述第一图书的语义复杂度为所述多个语句的语义复杂度的平均值。
再一方面,提供了一种图书分级设备,所述图书分级设备包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方面所述的图书分级方法。
再一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器运行时实现如上述方面所述的图书分级方法。
再一方面,提供了一种包含指令的计算机程序产品,当所述计算机程序产品在所述计算机上运行时,使得所述计算机执行上述方面的图书分级方法。
本申请提供的技术方案带来的有益效果至少包括:
本申请提供了一种图书分级方法及图书分级设备,图书分级设备可以对待分级的图书进行特征提取,以得到该图书的多个分级特征,并对该多个分级特征进行加权处理,从而得到待分级的图书的目标等级。由于本申请提供的方法能够通过图书的多个分级特征确定图书的等级,因此有效提高了图书等级的确定准确性。进而,可以便于用户基于该图书分级设备确定出的图书的等级,合理选择图书。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种图书分级方法的流程图;
图2是本申请实施例提供的另一种图书分级方法的流程图;
图3是本申请实施例提供的一种图书分级设备与第一服务器以及第二服务器的连接示意图;
图4是本申请实施例提供的一种图书分级设备与移动终端的连接示意图;
图5是本申请实施例提供的一种移动终端向分级服务器发送待分级的图书的图书信息的界面示意图;
图6是本申请实施例提供的一种移动终端显示的待分级的图书的目标等级的界面示意图;
图7是本申请实施例提供的一种移动终端显示提示消息的界面示意图;
图8是本申请实施例提供的一种采用BP神经网络训练模型的示意图;
图9是本申请实施例提供的一种图书分级设备的结构示意图;
图10是本申请实施例提供的一种图书分级设备的软件结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供了一种图书分级方法,该方法应用于图书分级设备。可选的,该图书分级设备可以为移动终端或分级服务器。该移动终端可以为手机、平板电脑、台式电脑或可穿戴设备。例如,该移动终端可以为手机。该分级服务器可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。参见图1,该方法包括:
步骤101、获取待分级的图书的图书信息。
其中,图书的图书信息包括:图书的内容和/或图书的标识。例如,该图书信息可以包括:图书的内容。图书的标识可以包括:图书的书籍名称。
步骤102、基于图书的图书信息,对该图书的内容进行特征提取,得到该图书的多个分级特征,该多个分级特征包括下述特征中的至少两种:图书的语义复杂度,图书中包含的句式的种类数,图书中每种句式的语句的数量。
例如,图书的多个分级特征可以包括:该图书的语义复杂度,该图书中包含的句式的种类数,该图书中每种句式的语句的数量。
其中,该语义复杂度由数值表征。句式可以是指图书中语句的类型,句式可以为陈述句,判断句,疑问句,省略句,或倒装句。
步骤103、对多个分级特征进行加权处理,得到该图书的目标等级。
其中,图书的目标等级可以用于表征图书的阅读难度,且图书的阅读难度与图书的目标等级正相关。
在本申请实施例中,图书分级设备可以直接对图书的多个分级特征进行加权处理,得到该图书的目标等级。或者,图书分级设备可以先对每个分级特征进行归一化处理,再对归一化处理后的多个分级特征进行加权处理,得到该图书的目标等级。对每个特征进行归一化处理后,能够使得多个分级特征处于同一数量级,从而可以确保确定的目标等级的准确性较高。
可选的,图书分级设备可以基于预先存储的与多个分级特征一一对应的权重,对多个分级特征进行加权求和,从而得到该图书的目标等级。或者,图书分级设备可以将待分级的图书的多个分级特征输入图书分级模型中,以使该图书分级模型对该多个分级特征进行加权处理,从而得到图书分级模型输出的图书的目标等级。
步骤104、对图书的目标等级进行显示。
在本申请实施例中,若图书分级设备为移动终端,则移动终端可以直接在其显示屏中显示图书的目标等级,以便用户获知图书的目标等级。若图书分级设备为分级服务器,则该分级服务器可以向移动终端发送图书的目标等级。移动终端接收到该目标等级后,即可在其显示屏中显示该目标等级,以便用户获知图书的目标等级。
综上所述,本申请实施例提供了一种图书分级方法,图书分级设备可以对待分级的图书进行特征提取,以得到该图书的多个分级特征,并对该多个分级特征进行加权处理,从而得到待分级的图书的目标等级。由于本申请实施例提供的方法能够通过图书的多个分级特征确定图书的等级,因此有效提高了图书等级的确定准确性。进而,可以便于用户基于该图书分级设备确定出的图书的等级,合理选择图书。
本申请实施例以图书分级设备将待分级的图书的归一化后的多个分级特征输入至图书分级模型,且该图书分级模型为图书分级设备训练得到为例,对本申请实施例提供的图书分级方法进行示例性说明。参见图2,该方法可以包括:
步骤201、获取多个样本数据。
其中,每个样本数据可以包括:一本历史图书的多个特征样本以及历史图书的等级。历史图书的多个特征样本可以是图书分级设备基于历史图书的内容确定的,该内容和历史图书的等级均可以是图书分级设备预先存储的。历史图书的等级能够用于表征历史图书的阅读难度,且历史图书的阅读难度与历史图书的等级正相关。
在本申请实施例中,历史图书的多个特征样本可以包括下述特征中至少两种:历史图书的语义复杂度,历史图书中包含的句式的种类数,历史图书中每种句式的语句的数量。
可选的,历史图书的多个特征样本还可以包括下述特征中至少一种:历史图书的页数、词语数(即下文所述的第三词语的数量与第四词语的数量之和)、第三词语的数量、第四词语的数量、第三词语的数量与词语数的比例、第四词语的数量与词语数的比例、插图的数量、句子长度、实体数量、属性数量和关系数量。
例如,每本历史图书的多个特征样本可以包括:历史图书的语义复杂度、历史图书中包含的句式的种类数、历史图书中每种句式的语句的数量、历史图书的页数、词语数、第三词语的数量、第四词语的数量、第三词语的数量与词语数的比例、第四词语的数量与词语数的比例、插图的数量、句子长度、实体数量、属性数量和关系数量。由此可见,图书分级设备得到的历史图书的多个特征样本较为全面,如此可以确保基于该历史图书的多个特征样本,训练得到的图书分级模型的可靠性较高,进而可以该图书分级模型输出的待分级的图书的等级的准确性较高。
其中,历史图书的语义复杂度由数值表征,且该历史图书的语义复杂度可以是指历史图书中的多个语句的语义复杂度的平均值。句式可以是指图书中语句的类型,句式可以为陈述句,判断句,疑问句,省略句,或倒装句。第三词语为历史图书中属于高频词语集合的词语,第四词语为历史图书中属于低频词语集合的词语。低频词语集合可以包括多个词语中,除属于高频词语集合中的高频词语外的所有词语。由此可见,历史图书中的第四词语可以为第二图中不属于高频词语集合的词语。
历史图书的句子长度可以为历史图书中所有语句的长度的平均值,每个语句的长度可以是指该语句包括的字数。实体数量是指历史图书包括的实体的总数。属性数量是指历史图书中各个实体的属性的总数。关系数量是指历史图书中各个实体之间所具有的关系的总数。实体通常为名词,表示的是人、事、物的抽象化对象。属性通常是用于限定实体的定语,关系通常为动词。
例如,故事《小红帽》中的语句“从前有个小姑娘,喜欢带着外婆送给她的一顶红色天鹅绒帽子,于是大家就叫她小红帽”中包括:小姑娘,外婆,帽子,大家,以及小红帽等五个实体,帽子的属性为红色天鹅绒,小姑娘和帽子之间的关系为“带”,外婆和帽子之间的关系为“送”,大家和小红帽之间的关系为“叫”。
本申请实施例以历史图书的多个特征样本包括:历史图书的语义复杂度、历史图书中包含的句式的种类数、历史图书中每种句式的语句的数量、历史图书的页数、词语数、第三词语的数量、第四词语的数量、第三词语的数量与词语数的比例、第四词语的数量与词语数的比例、插图的数量、句子长度、实体数量、属性数量和关系数量为例,对图书分级设备基于历史图书的内容确定历史图书的多个特征样本的过程进行示例性说明:
图书分级设备先对历史图书的内容进行解析,以获取历史图书的总字数,页数,词语数,插图的数量,该历史图书包括的多个词语、多个语句和句子长度。然后,图书分级设备从多个词语中确定出至少一个第三词语和至少一个第四词语,得到历史图书包括的第三词语的数量、第四词语的数量、第三词语的数量与词语数的比例和第四词语的数量与词语数的比例。之后,对于每个语句,图书分级设备可以确定该语句的语义复杂度,语句的句式,语句中包括的实体,每个实体的属性,以及实体与实体之间的关系,从而得到历史图书的语句的语义复杂度,历史图书中包含的句式的种类数,每种句式的语句的数量,图书中的实体数量,属性数量以及关系数量。
在一种可选的实现方式中,参见图3,图书分级设备110可以与第一服务器120建立有通信连接。图书分级设备解析得到多个不同的词语后,可以将多个词语发送至第一服务器。例如,对于每个词语,图书分级设备可以通过调用第一接口向第一服务器发送该词语。
第一服务器接收到多个词语后,对于每个词语,第一服务器可以检测该词语所属的词语集合,得到该词语的检测结果,并将该词语的检测结果发送至图书分级设备。之后,图书分级设备即可基于第一服务器发送的每个词语的检测结果,统计历史图书中第三词语的数量和第四词语的数量。
由于图书分级设备可以将词语发送至第一服务器,以供该第一服务器检测该词语所属的词语集合,因此可以避免增加图书分级设备的处理压力。
例如,第一服务器中预先存储有高频词语集合。对于接收到的每个词语,第一服务器可以检测该词语是否属于高频词语集合,即检测该词语是否与高频词语集合中的任一高频词语是否相同。若第一服务器确定该词语与高频词语集合中的任一高频词语相同,则可以确定该词语属于高频词语集合,并向图书分级设备发送第一检测结果,该第一检测结果用于指示该词语为第三词语。
若第一服务器确定该词语与高频词语集合中的任一词语不同,则可以确定该词语不属于高频词语集合,继而可以向图书分级设备发送第二检测结果,该第二检测结果用于指示该词语为第四词语。之后,图书分级设备即可基于接收到检测结果(即前文所述的第一检测结果和/或第二检测结果),统计历史图书中多个词语中第三词语的数量以及第四词语的数量。
在另一种可选的实现方式中,图书分级设备自身可以检测该词语所属的词语集合,得到该词语的检测结果,并基于该词语的检测结果,统计历史图书中第三词语的数量和第四词语的数量。
其中,图书分级设备检测每个词语所属的词语集合以得到该词语的检测结果的过程,可以参考上述第一服务器得到每个词语的检测结果的相关实现过程,本申请实施例在此不再赘述。
在一种可选的示例中,请继续参见图3,图书分级设备110还可以与第二服务器130建立有通信连接。图书分级设备解析得到多个语句后,可以将该多个语句发送至第二服务器。例如,对于每个语句,图书分级设备可以通过调用第二接口向第二服务器发送该语句。该第二接口与第一接口不同。
第二服务器接收到多个语句后,对于每个语句,第二服务器可以将该语句输入语句分析模型,得到该语句的分析结果。该分析结果包括:语句的语义复杂度,句式,语句包括的实体,语句包括的实体的属性,以及语句中实体与实体之间的关系。然后,第二服务器可以将语句的分析结果发送至图书分级设备。之后,图书分级设备即可基于第二服务器发送的每个语句的分析结果,确定历史图书的语义复杂度,并统计历史图书中包含的句式的种类数,每种句式的语句的数量,实体数量,属性数量,以及关系数量。
在本申请实施例中,语句分析模型可以包括:语义复杂度确定模型、句式判别模型、实体抽取模型、属性抽取模型和关系抽取模型。对于每个语句,第二服务器可以分别将该语句输入语义复杂度确定模型、句式判别模型、实体抽取模型、属性抽取模型和关系抽取模型,得到语义复杂度确定模型输出的该语句的语义复杂度,句式判别模型输出的该语句的句式,实体抽取模型输出的该语句所包括实体,属性抽取模型输出的该语句所包括实体的属性,并得到关系抽取模型输出的该语句所包括的实体与实体之间的关系。
其中,语义复杂度确定模型可以基于语义复杂度确定的多个语句训练得到,句式判别确定模型基于句式确定的多个语句训练得到,实体抽取模型基于实体确定的多个语句训练得到,属性抽取模型基于属性确定的多个语句训练得到,关系抽取模型基于关系确定的多个语句训练得到。
由于图书分级设备可以将语句发送至第二服务器,以供该第二服务器确定该语句的分析结果,因此可以避免增加图书分级设备的处理压力。
在另一种可选的示例中,图书分级设备中具有语句分析模型。图书分级设备对历史图书进行解析得到的多个语句后,可以将每个语句输入语句分析模型中,从而得到多个语句中每个语句的分析结果。之后,图书分级设备可以基于多个语句中每个语句的分析结果,确定历史图书的语义复杂度,并统计历史图书包含的句式的种类数,该砾石图书中每种句式的语句的数量,实体数量,属性数量以及关系数量。
在本申请实施例中,历史图书可以为教育部推荐的新课标中小学课外阅读图书,历史图书的等级可以是指教育部推荐阅读该历史图书的学生的年级。例如,若教育部推荐二年级学生阅读某一历史图书,则该历史图书的等级即为2。若教育部推荐六年级学生阅读某一历史图书,则该历史图书的等级即为6。
也即是,本申请实施例提供的方法可以将教育部推荐的新课标中小学课外阅读图书按照年级分为9个等级,并以此确定该图书的目标等级。
步骤202、采用训练算法对多个样本数据进行模型训练,得到图书分级模型。
图书分级设备得到多个样本数据后,可以采用训练算法对多个样本数据进行模型训练,得到图书分级模型。可选的,图书分级设备可以采用多个不同的训练算法,分别对多个样本数据进行模型训练,得到多个图书分级模型。
其中,多个不同的训练算法可以包括下述训练算法中的至少两个:向量机、极端梯度提升(extreme gradientboosting,XGBoost)、决策树、随机森林和神经网络。例如,该多个不同的训练算法包括:向量机、XGBoost、决策树、随机森林和神经网络。可选的,该神经网络可以为逆传播(backpropagation,BP)神经网络。
可选的,图书分级设备得到多个样本数据后,可以先对每个样本数据中的每个特征样本进行归一化处理。之后图书分级设备可以归一化处理的多个样本数据进行模型训练,得到图书分级模型。
步骤203、获取待分级的图书的图书信息。
待分级的图书的图书信息可以包括:该图书的内容和/或该图书的标识。例如,待分级的图书的图书信息可以包括:待分级的图书的内容。其中,待分级的图书的标识可以包括:待分级的图书的名称。可选的,待分级的图书的标识还可以包括:待分级的图书的作者姓名。
在本申请实施例中,若图书分级设备为分级服务器,请参见图4,该分级服务器110可以与移动终端140连接。则分级服务器获取待分级的图书的图书信息的过程可以包括:分级服务器接收移动终端发送的待分级的图书的图书信息。若图书分级设备为移动终端,则移动终端可以响应于用户的输入操作或选择操作获取待分级的图书的图书信息。
可选的,待分级的图书可以为纸质图书或电子图书。对于待分级的图书为纸质图书的场景,移动终端可以采集针对第一图书的内容的图像,并对该图像进行识别处理,从而得到第一图书的内容。
本申请实施例以图书分级设备为分级服务器为例,对图书分级设备获取待分级的图书的图书信息进行示例性说明。
移动终端中可以安装有等级确定应用,分级服务器可以为该等级确定应用的后台服务器。参见图5,用户触控了移动终端中安装的等级确定应用的应用标识。移动终端可以响应于用户针对该应用标识的触控操作,显示书籍名称输入框01,图书作者的姓名输入框02,内容选择控件03,以及查询控件04。
请继续参考图5,假设移动终端的用户需要查询图书《小马过河》的等级,则用户可以在书籍名称输入框01中输入该图书的书籍名称“小马过河”。相应的,移动终端响应于用户的输入操作,获取书籍名称“小马过河”。由于该第一图书为寓言故事,因此无需输入第一图书的作者姓名。之后,用户点击了查询控件04,相应的,移动终端可以响应于用户针对该查询控件04的触控操作,向分级服务器发送第一图书的书籍名称“小马过河”。
或者,若移动终端中存储有该第一图书的内容,则用户可以触控内容选择控件03。移动终端可以响应于用户针对该内容选择控件03的触控操作,显示多个书籍名称。之后,移动终端可以响应于用户针对多个书籍名称中“小马过河”的触控操作,向分级服务器发送图书《小马过河》的内容。
步骤204、基于待分级的图书的图书信息,对该图书的内容进行特征提取,得到该图书的多个分级特征,该多个分级特征包括下述特征中的至少两种:图书的语义复杂度,图书中包含的句式的种类数,图书中每种句式的语句的数量。
其中,该语义复杂度由数值表征,且该语义复杂度可以为图书中的多个语句的语义复杂度的平均值。
可选的,待分级的图书的多个分级特征还可以包括下述特征中的至少一种:页数、词语数、第一词语的数量、第二词语的数量、第一词语与词语数的比例、第二词语与词语数的比例、插图的数量、句子长度、实体数量、属性数量和关系数量。
例如,待分级的图书的多个分级特征可以包括:该图书的语义复杂度,该图书中包含的句式的种类数,该图书中每种句式的语句的数量,页数,词语数,第一词语的数量,第二词语的数量,第一词语与词语数的比例,第二词语与词语数的比例,插图的数量,句子长度,实体数量,属性数量,以及关系数量。其中,第一词语为第一图书中属于高频词语集合的词语,第二词语为第一图书中属于低频词语集合的词语。
根据上述描述可知,本申请实施例提供的图书分级设备在确定待分级的图书的目标等级的过程中,采用的图书的分级特征较为全面,从而可以确保确定的图书的目标等级的准确性较高。
可选的,图书分级设备可以从待分级的图书的内容中提取出该图书的总字数,页数,词语数,插图的数量,该图书包括的多个词语、多个语句多个词语和句子长度。然后,图书分级设备可以向第一服务器发送多个词语。第一服务器接收到多个词语后,可以检测每个词语所属的词语集合,得到每个词语的检测结果,并向图书分级设备发送每个词语的检测结果。相应的,图书分级设备即可接收到的每个词语的检测结果,统计多个词语中第一词语的数量和第二词语的数量。
图书分级设备还可以向第二服务器发送多个语句。第二服务器接收到多个语句后,对于每个语句,第二服务器可以将该语句输入至语句分析模型,得到多个语句中每个语句的分析结果。每个语句的分析结果可以包括:该语句的语义复杂度,句式,语句包括的实体,语句包括的实体的属性,以及语句中实体与实体之间的关系。之后,第二服务器可以向图书分级设备发送每个语句的分析结果。相应的,图书分级设备即可基于接收到的每个语句的分析结果,确定待分级的图书的语义复杂度,并统计待分级的图书中包含的句式的种类数,每种句式的语句的数量,实体数量,属性数量,以及关系数量。
在本申请实施例中,图书分级设备对待分级的图书的内容进行特征提取,以得到待分级的图书的多个分级特征的具体实现过程,可以参考上述图书分级设备确定历史图书的多个特征样本的实现过程,本申请实施例对此不再赘述。
在本申请实施例中,第一服务器中还存储有海量的图书的内容,对于图书分级设备获取的待分级的图书的图书信息为该图书的标识的场景,图书分级设备可以先将该标识转发至第一服务器。第一服务器接收到该标识后,能够以该标识为检索关键词,检索得到该标识对应的内容,并将该内容发送至图书分级设备。相应的,图书分级设备即可获取待分级的图书的内容。
示例的,假设待分级的图书为图书《小马过河》,则图书分级设备获取该待分级的图书的特征数据可以包括:页数为3,总字数为690,词语数为60,第一词语的数量为55,第二词语的数量为5,第一词语与词语数的比例为11/12,(即十二分之十一),第二词语与词语数的比例为1/12,插图的数量为3,句子长度为8,陈述句的数量为17,判断句的数量为8,疑问句的数量为10,省略句的数量为2,实体的数量为10,实体的属性为8,实体与实体之间的关系为5,语义复杂度为1级。
步骤205、对多个分级特征中的每个分级特征进行归一化处理。
图书分级设备得到图书的多个分级特征后,对于每个分级特征,可以采用该分级特征对应的均值和标准差,对该分级特征极进行归一化处理,得到归一化处理后的多个分级特征。归一化处理后的多个分级特征处于同一数量级。其中,归一化处理后的分级特征X’满足下述公式:
Figure BDA0003334125400000141
上述公式中,X为多个分级特征中的任一分级特征。μ为该分级特征对应的均值,σ为该分级特征对应的标准差。
在本申请实施例中,对于多个分级特征中的目标分级特征,该目标分级特征的均值可以为对应的多个特征样本的平均值,目标分级特征的标准差可以为该多个特征样本的标准差。其中,该目标分级特征可以为多个分级特征中的任一分级特征。每个特征样本来自一个历史图书,且每个特征样本的类型与目标分级特征的类型相同。例如,若目标分级特征为待分级的图书的语义复杂度,则对应的每个特征样本均为历史图书的语义复杂度。若目标分级特征为待分级的图书的页数,则对应的每个特征样本均为历史图书的页数。
步骤206、将归一化处理后的多个分级特征输入图书分级模型中,得到该图书的目标等级。
图书分级设备可以将归一化处理的多个分级特征分别输入至图书分级模型,以使图书分级模型对该多个分级特征进行加权处理,得到图书分级模型输出的备选等级,并基于该备选等级确定待分级的图书的目标等级。
由于图书分级设备可以对处于同一数量级的多个分级特征进行加权处理,如此可以确保得到的待分级的图书的目标等级的准确性较高。
在本申请实施例中,对于图书分级设备采用多个不同的训练算法,训练得到多个图书分级模型的场景,图书分级设备将归一化处理的多个分级特征分别输入至该多个图书分级模型。多个图书分级模型中的每个图书分级模型可以对该多个分级特征进行加权处理,以输出待分级的图书的备选等级。之后,图书分级设备可以基于多个图书分级模型输出的多个备选等级确定待分级的图书的目标等级。
其中,不同图书分级模型对该多个分级特征进行加权处理所采用的权重组不同。该权重组可以包括与多个分级特征一一对应的多个权重。
由于图书分级设备能够采用不同训练算法对相同的样本数据进行训练,以得到不同的图书分级模型,并基于该多个图书分级模型输出的备选等级确定带分级的图书的目标等级。如此,可以规避单一模型输出的图书等级的误差较大的问题,从而有效提高了确定出的该图书的目标等级的准确性。
本申请实施例以下述两种可选的实现方式为例,对图书分级设备基于多个图书分级模型输出的多个备选等级确定待分级的图书的目标等级的过程进行示例性说明。
在一种可选的实现方式中,待分级的图书的目标等级为多个图书分级模型输出的多个备选等级中,出现个数最多的备选等级。也即是,图书分级设备可以采用投票机制,从多个备选等级中确定出待分级的图书的目标等级。
示例的,假设图书分级设备将待分级的图书《小马过河》的多个分级特征分别输入至五个图书分级模型,且五个图书分级模型输出的备选等级依次为:1级,2级,2级,1级,2级。由于五个备选等级中2级出现的个数最多,则图书分级设备可以确定待分级的图书《小马过河》的目标等级为2级。
其中,五个图书分级模型可以是图书分级设备分别采用向量机、XGBoost、决策树、随机森林和神经网络这五个训练算法,对多个样本数据训练得到的。
在另一种可选的实现方式中,待分级的图书的目标等级为多个图书分级模型输出的多个备选等级的平均值。可选的,该平均值可以为算数平均值、几何平均值或均方根平均值。
需要说明的是,若多个备选等级的平均值为小数,则待分级的图书的目标等级可以为对该小数进行四舍五入运算后得到的整数。
示例的,假设五个图书分级模型输出的待分级的图书《小马过河》的备选等级依次为:1级,2级,2级,1级,2级。由于五个备选等级的平均值为8/5=1.6,因此待分级的图书的目标等级为2级。
本申请实施例以图书分级设备将归一化处理的多个分级特征,输入至采用神经网络(例如BP神经网络)训练得到的图书分级模型中,从而得到图书分级模型输出的待分级的图书的备选等级为例,对图书分级模型对该多个分级特征进行加权处理进行示例性说明。
图书分级设备将归一化处理后的多个分级特征,输入至采用神经网络训练得到的图书分级模型后,神经网络的输入层即可接收到该归一化处理后的多个分级特征。神经网络的输入层继而可以将归一化处理后的多个分级特征均传输至神经网络的隐藏层的每个第一神经元。并且,图书分级设备可以通过该隐藏层的多个第一神经元,对归一化处理后的多个分级特征进行加权处理,得到多个第一神经元的输出值。
其中,第q个第一神经元的输出值hq(U)满足:
Figure BDA0003334125400000161
公式(2)中,q为大于等于1且小于等于M的整数,M为隐藏层包括的第一神经元的总数。e为自然常数,Q为第q个第一神经元的权重向量。每个第一神经元的权重向量包括与归一化处理后的多个分级特征一一对应的权重。T为转置符号,U为归一化处理后的多个分级特征组成的特征集合。并且,隐藏层的任意两个第一神经元的权重向量不同。
然后,图书分级设备可以通过BP神经网络的输出层包括的多个第二神经元,对多个第一神经元的输出值进行处理,得到每个第二神经元输出的待分级的图书的等级为对应的参考等级的概率。每个第二神经元与一个参考等级对应,且各个第二神经元对应的参考等级互不相同。其中,多个参考等级依次为:1级,2级,3级,……,9级。
其中,第k个第二神经元输出的概率P(k)满足:
Figure BDA0003334125400000162
公式(3)中,zk为第k个第二神经元采用第k个第二神经元的权重向量对多个输出值进行加权处理后得到的结果。zr为第r个第二神经元采用第r个第二神经元的权重向量对多个输出值进行加权处理后得到的结果。每个第二神经元中的权重向量包括与多个第一神经元一一对应的多个权重。r为大于等于1且小于等于g的整数。g为输出层包括的多个第二神经元的总数,即g为多个参考等级的总数。例如,g可以为9。并且,任意两个第二神经元的权重向量不同。
之后,图书分级设备可以将多个第二神经元对应的参考等级中,概率最大的参考等级确定为该图书分级模型输出的备选等级。并且,图书分级设备可以基于该备选等级,确定待分级的图书的目标等级。例如,若图书分级设备仅将归一化后的多个分级特征输入至采用神经网络训练得到的图书分级模型中,则图书分级设备可以直接将该备选等级确定为待分级的图书的目标等级。若图书分级设备将归一化后的多个分级特征输入至多个不同的图书分级模型中,则可以基于多个图书分级模型输出的多个备选等级确定待分级的图书的目标等级。
步骤207、对待分级的图书的目标等级进行显示。
图书分级设备在得到待分级的图书的目标等级之后,可以对该目标等级进行显示。
若图书分级设备为移动终端,则移动终端可以直接在其显示屏中显示图书的目标等级,以便用户获知图书的目标等级。若图书分级设备为分级服务器,则该分级服务器可以向移动终端发送图书的目标等级。移动终端接收到该目标等级后,即可在其显示屏中显示该目标等级,以便用户获知图书的目标等级。
可选的,图书分级设备还可以对待分级的图书的多个分级特征进行显示,以便用户了解更多关于该图书的信息。并且,图书分级设备还可以对用户的阅读历史进行显示。该阅读历史可以包括:用户阅读的历史图书的个数和等级。其中,图书分级设备对该多个分级特征和用户的阅读历史进行显示的过程,可以参考上述对目标等级进行显示的过程,本申请实施例在此不再赘述。
可选的,图书分级设备可以以饼状图的形式对用户的阅读历史进行显示,如此可以便于用户直观的获知阅读的各个等级的历史图书的个数。
示例的,假设图书分级设备为移动终端,待分级的图书《小马过河》的目标等级为2级,且移动终端以饼状图的形式展示用户的阅读历史,则移动终端可以显示图6所示的界面。从图6可以看出,该界面显示有待分级的图书的插图05,分级特征06,图书等级2级,以及阅读历史07。
从阅读历史07可以看出,用户已经阅读了15本一级图书,5本2级图书,2本3级图书。
在本申请实施例中,若图书分级设备为移动终端,则移动终端在得到待分级的图书的目标等级,且确定该目标等级与参考阅读等级的差值大于差值阈值时,可以直接发出提示消息。
若图书分级设备为分级服务器,则分级服务器在得到待分级的图书的目标等级,且确定该目标等级与参考阅读等级的差值大于差值阈值时,可以向移动终端发送提示指令。该提示指令用于指示移动终端发出提示消息。
其中,待分级的图书的目标等级与参考阅读等级的差值可以是指该目标等级减去参考阅读等级所得到的数值。参考阅读等级为图书分级设备中配置的阅读等级。该参考阅读等级能够用于表征移动终端的用户的阅读水平。该差值阈值可以是移动终端预先存储的。例如,该差值阈值可以为2。该提示消息用于提示用户第一图书的阅读难度超出用户的阅读水平,不建议用户阅读。
可选的,该参考阅读等级可以是图书分级设备基于用户阅读的历史图书的等级确定。对于图书分级设备为移动终端的场景,该参考阅读等级还可以是移动终端响应于用户输入等级的操作确定的。
本申请实施例以参考阅读等级基于用户阅读的历史图书的等级确定为例,对图书分级设备确定该参考阅读等级进行示例性说明:
图书分级设备可以先确定用户阅读的多本历史图书所属的多个等级。对于每个等级,图书分级设备可以统计该等级的历史图书的个数,得到与该多个等级一一对应的多个个数。之后,图书分级设备可以将该多个个数中数值最大的个数对应的等级确定为参考阅读等级。
在本申请实施例中,图书分级设备在确定待分级的图书的目标等级后,可以确定该目标等级与参考阅读等级之间的差值。然后,图书分级设备可以比较该差值与差值阈值的大小。若差值大于差值阈值,则移动终端可以发出提示消息。若该差值小于或等于差值阈值,则图书分级设备无需执行任何操作。
可选的,该提示消息可以为文字消息,相应的,移动终端可以在其显示屏中显示该提示消息。和/或,该提示消息可以为语音消息,相应的,移动终端可以控制其扬声器播放该提示消息。
示例的,假设差值阈值为2,参考阅读等级为2级,待分级的图书的目标等级为5级,由于该目标等级5级与参考阅读等级2级的差值3大于差值阈值2,因此移动终端还可以显示图7所示的提示框08。
从图7可以看出,该提示框08中显示有提示消息“提示:当前图书的阅读难度较高,不适合您阅读”。
本申请实施例以图书分级设备采用BP神经网络训练得到图书分级模型为例,对图书分级模型通过上述步骤201和步骤202得到图书分级模型的过程进行示例性说明。
首先,图书分级模型可以对N本历史图书的内容进行特征提取,以得到训练集合S。其中,N为大于等于1的整数,S={(x(i),y(i)),1≤i≤N}。
Figure BDA0003334125400000181
Figure BDA0003334125400000182
Figure BDA0003334125400000183
表示N本历史图书中,第i本历史图书包括的多个特征样本中的第m个特征样本。即x(i)包括第i本历史图书的所有特征样本。y(i)表示第i本历史图书的等级。由于每本历史图书为教育部推荐的新课标中小学课外阅读图书,因此每本历史图书的等级可以大于等于1,且小于等于9,即1≤y(i)≤9。
根据上述描述可知,训练集合S包括N本历史图书中,每本历史图书的多个特征样本,以及该历史图书的等级。并且,如图8所示,图书分级设备可以以N本历史图书中每本历史图书的多个特征样本为输入数据,并以该历史图书的等级为输出数据进行模型训练。图8中每个圆圈表示神经网络中的节点(也可以称为神经元)。
在进行模型训练之前,对于训练集合S中每本历史图书包括的多个特征样本,图书分级设备可以对该特征样本进行标准化处理(也可以称为归一化处理),以使多个特征样本的数量级相同。其中,第i本历史图书中的归一化处理后的第m个特征样本
Figure BDA0003334125400000191
可以满足下述公式:
Figure BDA0003334125400000192
其中,μ'为N个目标类型的特征样本的平均值,σ'为N个目标类型的特征样本的标准差。目标类型为第i本历史图书中第m个特征样本的类型。
对于训练集合中的每本历史图书的等级,图书分级设备可以对该等级进行独热编码处理。编码处理后的等级可以由9位数字组成的向量表征,每位数字为0或1,且该9位数字中只包括一个1。例如,若第i本历史图书的等级为4,则y(i)={0,0,0,1,0,0,0,0,0}。若第i本历史图书的等级为9,则y(i)={0,0,0,0,0,0,0,0,1}。
然后,图书分级设备可以建立BP神经网络,进行模型训练,以得到满足精确率、召回率和F1分数的图书分级模型。其中,F1分数为精确率和召回率的调和平均数。BP神经网络可以包括:一个输入层、至少一个隐藏层和一个输出层。例如,如图8所示,该BP神经网络包括:一个输入层08、一个隐藏层09和一个输出层10。输入层08、隐藏层09和输出层10中的各层可以包括多个节点。并且,从图8还可以看出,BP神经网络的输出层10可以包括与多个等级一一对应的第二神经元。
BP神经网络的学习过程由信号的正向传播与误差的反向传播两个过程组成。在正向传播阶段,图书分级设备在一个样本数据中的多个特征样本传入输入层后,隐藏层可以逐层对该多个特征样本进行处理,处理后可以传向输出层。若输出层的实际输出与期望输出(即该样本数据中的等级)不符,则可以进行误差的反向传播。误差的反向传播是将输出误差通过隐藏层向输入层逐层反传,并将误差分摊给各层的所有节点,从而获得各层单元的误差信号。该误差信号可以作为修正各节点权值的依据。
其中,隐藏层的激活函数可以为Sigmoid函数(也称为S型生长曲线)。即在正向传播阶段,对于隐藏层中的每个第一神经元,图书分级设备可以采用Sigmoid函数计算在该第一神经元的输出值。隐藏层中的第v个第一神经元的输出值hv(x(i))满足下述公式:
Figure BDA0003334125400000201
公式(5)中,
Figure BDA0003334125400000202
是BP神经网络中第v个第一神经元的权重向量,且
Figure BDA0003334125400000203
Figure BDA0003334125400000204
θ012,至θm为分别与x(i)中的
Figure BDA0003334125400000205
至,
Figure BDA0003334125400000206
一一对应的权重。其中,1为该神经元的偏置。由此可见,该权重向量可以包括与多个特征样本一一对应的权重。
输出层的激活函数为Softmax函数(也称为归一化指数函数)。即在正向传播阶段,输出层的每个第二神经元可以采用Softmax函数,对隐藏层的多个第一神经元的输出值进行处理,得到该第二神经元输出的历史图书的等级为该第二神经元对应的等级的概率。其中,第h个第二神经元输出的概率
Figure BDA0003334125400000207
满足下述公式:
Figure BDA0003334125400000208
公式(6)中,zi为第h个第二神经元的权重向量与上一层的输出(即隐藏层的每个第一神经元的输出值)的乘积。h大于等于1且小于等于g。zj为输出层的第j个第二神经元的权重向量与上一层的输出的乘积。每个第二神经元的权重向量包括与上一层中的多个第一神经元一一对应的多个权重。
图书分级设备采用的损失函数可以为交叉熵。即在反向传播阶段,图书分级设备可以采用交叉熵计算输出层的实际输出与期望输出的误差。该误差J满足下述公式:
Figure BDA0003334125400000209
其中,
Figure BDA00033341254000002010
为第j个第二神经元输出的历史图书的等级为对应的等级的概率。
在得到输出层的实际输出和期望输出的误差J后,图书分级设备可以确定每个第二神经元的梯度。其中,第h个第二神经元的梯度
Figure BDA00033341254000002011
满足下述公式:
Figure BDA00033341254000002012
之后,对于每个第二神经元,图书分级设备可以基于该第二神经元的梯度,更新该第二神经元的权重。第h个第二神经元的更新后的权重
Figure BDA00033341254000002013
满足下述公式:
Figure BDA00033341254000002014
公式(9)中,α为学习率,ωh为第h个第二神经元的初始权重。图书分级设备可以预先存储该学习率和该初始权重。
在将多个样本数据逐步输入至BP神经网络中进行训练的过程中,每输入一个样本数据后,图书分级设备可以确定训练得到的BP神经网络F1分数。若图书分级设备确定F1分数不小于分数阈值,则可以确定训练得到BP神经网络满足需求。
其中,F1分数可以满足下述公式:
Figure BDA0003334125400000211
公式(10)中,precision为精确率,其表示在所有预测(即实际输出)为真的样本中,实际(即期望输出)为真的百分比。recall表示在所有实际上为真的样本中,预测为真的百分比。
需要说明的是,上述实施例是以图书分级设备将待分级的图书的多个分级特征分别输入中多个图书分级模型中,以使不同的图书分级模型采用不同的权重组对多个分级特征进行加权处理,以得到该图书的目标等级的示例性说明。可以理解的,图书分级设备可以预先存储有多个不同的权重组,并可以采用该多个不同的权重组分别对多个分级特征进行加权处理,得到图书的多个备选等级,继而确定图书的目标等级。其中,每个备选等级基于一个权重组得到,且每个权重组均包括:与多个分级特征一一对应的多个权重。
还需要说明的是,本申请实施例提供的图书分级方法的步骤的先后顺序可以进行适当调整,步骤也可以根据情况进行相应增减。例如,步骤203可以无需执行。任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本申请的保护范围之内,因此不再赘述。
综上所述,本申请实施例提供了一种图书分级方法,图书分级设备可以对待分级的图书进行特征提取,以得到该图书的多个分级特征,并对该多个分级特征进行加权处理,从而得到待分级的图书的目标等级。由于本申请实施例提供的方法能够通过图书的多个分级特征确定图书的等级,因此有效提高了图书等级的确定准确性。进而,可以便于用户基于该图书分级设备确定出的图书的等级,合理选择图书。
本申请实施例提供了一种图书分级设备,该图书分级设备可以用于执行上述方法实施例提供的应用于图书分级设备的图书分级方法。参见图9,该图书分级设备110包括:处理器1101。该处理器1101用于:
获取待分级的图书的图书信息,图书信息包括:图书的内容和/或图书的标识;
基于图书信息,对图书的内容进行特征提取,得到图书的多个分级特征,多个分级特征包括下述特征中的至少两种:图书的语义复杂度,图书中包含的句式的种类数,图书中每种句式的语句的数量,其中,语义复杂度由数值表征;
对多个分级特征进行加权处理,得到图书的目标等级;
对目标等级进行显示。
可选的,多个分级特征还包括下述特征中的至少一种:页数、词语数、第一词语的数量、第二词语的数量、插图的数量、句子长度、实体数量、属性数量和关系数量;
其中,第一词语为图书中属于高频词语集合的词语,第二词语为图书中属于低频词语集合的词语;
实体数量是指图书包括的实体的总数,属性数量是指图书中各个实体的属性的总数,关系数量是指图书中各个实体之间所具有的关系的总数。
可选的,该处理器1101可以用于:
采用多个不同的权重组分别对多个分级特征进行加权处理,得到图书的多个备选等级,其中,每个备选等级基于一个权重组得到,且每个权重组均包括:与多个分级特征一一对应的多个权重;
基于多个备选等级,确定图书的目标等级。
可选的,该处理器1101可以用于:
将多个备选等级中,出现个数最多的备选等级确定为图书的目标等级。
可选的,该处理器1101可以用于:
对每个分级特征进行归一化处理;
对归一化处理后的多个分级特征进行加权处理,得到图书的目标等级。
可选的,该处理器1101可以用于:
通过神经网络的隐藏层包括的多个第一神经元,对归一化处理后的多个分级特征进行加权处理,得到多个第一神经元的输出值;
通过神经网络的输出层包括的多个第二神经元,对多个第一神经元的输出值进行处理,得到每个第二神经元输出的图书的等级为对应的参考等级的概率,多个第二神经元对应的参考等级互不相同;
基于多个第二神经元对应的参考等级中概率最大的参考等级,确定图书的目标等级;
其中,第q个第一神经元的输出值hq(U)满足:
Figure BDA0003334125400000231
第k个第二神经元输出的概率P(k)满足:
Figure BDA0003334125400000232
q为大于等于1且小于等于M的整数,M为隐藏层包括的第一神经元的总数,e为自然常数,Q为第q个第一神经元的权重向量,每个第一神经元的权重向量包括与归一化处理后的多个分级特征一一对应的多个权重,T为转置符号,U为归一化处理后的多个分级特征组成的特征集合;
zk为第k个第二神经元采用第k个第二神经元的权重向量对多个输出值进行加权处理后得到的结果,zr为第r个第二神经元采用第r个第二神经元的权重向量对多个输出值进行加权处理后得到的结果,每个第二神经元的权重向量包括与多个第一神经元一一对应的多个权重,r为大于等于1且小于等于g的整数,g为输出层包括的第二神经元的总数,任意两个第二神经元的权重向量不同,任意两个第一神经元的权重向量不同。
可选的,图书分级设备为移动终端,移动终端包括显示屏。该处理器1101可以用于:在显示屏中显示目标等级;
该处理器1101还可以用于:
在得到图书的目标等级之后,若确定目标等级与参考阅读等级的差值大于差值阈值,则发出提示消息,参考阅读等级为移动终端中配置的阅读等级。
可选的,图书分级设备为分级服务器。该处理器1101可以用于:
接收移动终端发送的待分级的图书的图书信息;
向移动终端发送目标等级,目标等级用于供移动终端显示。
可选的,该处理器1101可以用于:
从图书的内容中提取出多个语句;
向第一服务器发送多个语句,每个语句用于供第一服务器输入至语句分析模型,得到语句的分析结果,分析结果包括语义复杂度,以及句式;
基于第二服务器发送的每个语句的分析结果,确定多个分级特征;
其中,第一图书的语义复杂度为多个语句的语义复杂度的平均值。
综上所述,本申请实施例提供了一种图书分级设备,该图书分级设备可以对待分级的图书进行特征提取,以得到该图书的多个分级特征,并对该多个分级特征进行加权处理,从而得到待分级的图书的目标等级。由于本申请实施例提供的方法能够通过图书的多个分级特征确定图书的等级,因此有效提高了图书等级的确定准确性。进而,可以便于用户基于该图书分级设备确定出的图书的等级,合理选择图书。
可选的,如图9所示,本申请实施例提供的图书分级设备110还可以包括:显示单元130、射频(radio frequency,RF)电路150、音频电路160、无线保真(wireless fidelity,Wi-Fi)模块170、蓝牙模块180、电源190和摄像头121等部件。
其中,摄像头121可用于捕获静态图片或视频。物体通过镜头生成光学图片投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给处理器1101转换成数字图片信号。
处理器1101是图书分级设备110的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器140内的软件程序,以及调用存储在存储器140内的数据,执行图书分级设备110的各种功能和处理数据。在一些实施例中,处理器1101可包括一个或多个处理单元;处理器1101还可以集成应用处理器和基带处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,基带处理器主要处理无线通信。可以理解的是,上述基带处理器也可以不集成到处理器1101中。本申请中处理器1101可以运行操作系统和应用程序,可以控制用户界面显示,并可以实现本申请实施例提供的图书分级方法。另外,处理器1101与输入单元和显示单元130耦接。
显示单元130可用于接收输入的数字或字符信息,产生与图书分级设备110的用户设置以及功能控制有关的信号输入,可选的,显示单元130还可以用于显示由用户输入的信息或提供给用户的信息以及图书分级设备110的各种菜单的图形用户界面(graphicaluserinterface,GUI)。显示单元130可以包括设置在图书分级设备110正面的显示屏131。其中,显示屏131可以采用液晶显示器、发光二极管等形式来配置。显示单元130可以用于显示本申请中所述的各种图形用户界面。
显示单元130包括:显示屏131和设置在图书分级设备110正面的触摸屏132。该显示屏131可以用于显示预览图片。触摸屏132可收集用户在其上或附近的触摸操作,例如点击按钮,拖动滚动框等。其中,触摸屏132可以覆盖在显示屏131之上,也可以将触摸屏132与显示屏131集成而实现图书分级设备110的输入和输出功能,集成后可以简称触摸显示屏。
存储器140可用于存储软件程序及数据。处理器1101通过运行存储在存储器140的软件程序或数据,从而执行图书分级设备110的各种功能以及数据处理。存储器140可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器140存储有使得图书分级设备110能运行的操作系统。本申请中存储器140可以存储操作系统及各种应用程序,还可以存储执行本申请实施例提供的图书分级方法的代码。
RF电路150可用于在收发信息或通话过程中信号的接收和发送,可以接收基站的下行数据后交给处理器1101处理;可以将上行数据发送给基站。通常,RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等器件。
音频电路160、扬声器161、麦克风162可提供用户与图书分级设备110之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转换为声音信号输出。图书分级设备110还可配置音量按钮,用于调节声音信号的音量。另一方面,麦克风162将收集的声音信号转换为电信号,由音频电路160接收后转换为音频数据,再将音频数据输出至RF电路150以发送给比如另一终端,或者将音频数据输出至存储器140以便进一步处理。本申请中麦克风162可以获取用户的语音。
Wi-Fi属于短距离无线传输技术,图书分级设备110可以通过Wi-Fi模块170帮助用户收发电子邮件、浏览网页和访问流媒体等,它为用户提供了无线的宽带互联网访问。
蓝牙模块180,用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如,图书分级设备110可以通过蓝牙模块180与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接,从而进行数据交互。
图书分级设备110还包括给各个部件供电的电源190(比如电池)。电源可以通过电源管理系统与处理器1101逻辑相连,从而通过电源管理系统实现管理充电、放电以及功耗等功能。图书分级设备110还可配置有电源按钮,用于终端的开机和关机,以及锁屏等功能。
图书分级设备110可以包括至少一种传感器1110,比如运动传感器11101、距离传感器11102、指纹传感器11103和温度传感器11104。图书分级设备110还可配置有陀螺仪、气压计、湿度计、温度计和红外线传感器等其他传感器。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的图书分级设备和各器件的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图10是本申请实施例提供的图书分级设备的软件结构框图。分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行环境(android runtime,ART)和系统库,以及内核层。
应用程序层可以包括一系列应用程序包。如图10所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息等应用程序。应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图10所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图片,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供图书分级设备110的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,通信终端振动,指示灯闪烁等。
android runtime包括核心库和虚拟机。android runtime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(media libraries),三维图形处理库(例如:openGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图片文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图片渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当该指令在计算机上运行时,使得计算机执行上述实施例提供的图书分级方法,例如图1或图2所示的方法。
本申请实施例还提供了一种包含指令的计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述方法实施例提供的图书分级方法,例如图1或图2所示的方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
应当理解的是,在本文中提及的“和/或”,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。并且,本申请中术语“至少一个”的含义是指一个或多个,本申请中术语“多个”的含义是指两个或两个以上。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。例如,在不脱离各种所述示例的范围的情况下,第一图书可以被称为历史图书,并且类似地,历史图书可以被称为第一图书。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种图书分级方法,其特征在于,应用于图书分级设备;所述方法包括:
获取待分级的图书的图书信息,所述图书信息包括:所述图书的内容和/或所述图书的标识;
基于所述图书信息,对所述图书的内容进行特征提取,得到所述图书的多个分级特征,所述多个分级特征包括下述特征中的至少两种:所述图书的语义复杂度,所述图书中包含的句式的种类数,所述图书中每种句式的语句的数量,其中,所述语义复杂度由数值表征;
对所述多个分级特征进行加权处理,得到所述图书的目标等级;
对所述目标等级进行显示。
2.根据权利要求1所述的方法,其特征在于,所述多个分级特征还包括下述特征中的至少一种:页数、词语数、第一词语的数量、第二词语的数量、插图的数量、句子长度、实体数量、属性数量和关系数量;
其中,所述第一词语为所述图书中属于高频词语集合的词语,所述第二词语为所述图书中属于低频词语集合的词语;
所述实体数量是指所述图书包括的实体的总数,所述属性数量是指所述图书中各个所述实体的属性的总数,所述关系数量是指所述图书中各个所述实体之间所具有的关系的总数。
3.根据权利要求1所述的方法,其特征在于,所述对所述多个分级特征进行加权求和,得到所述图书的目标等级,包括:
采用多个不同的权重组分别对所述多个分级特征进行加权处理,得到所述图书的多个备选等级,其中,每个所述备选等级基于一个所述权重组得到,且每个所述权重组均包括:与所述多个分级特征一一对应的多个权重;
基于所述多个备选等级,确定所述图书的目标等级。
4.根据权利要求3所述的方法,其特征在于,所述基于所述多个备选等级,确定所述图书的目标等级,包括:
将所述多个备选等级中,出现个数最多的备选等级确定为所述图书的目标等级。
5.根据权利要求1至4任一所述的方法,其特征在于,所述对所述多个分级特征进行加权处理,得到所述图书的目标等级,包括:
对每个所述分级特征进行归一化处理;
对归一化处理后的所述多个分级特征进行加权处理,得到所述图书的目标等级。
6.根据权利要求5所述的方法,其特征在于,所述对归一化处理后的所述多个分级特征进行加权处理,得到所述图书的目标等级,包括:
通过神经网络的隐藏层包括的多个第一神经元,对归一化处理后的所述多个分级特征进行加权处理,得到所述多个第一神经元的输出值;
通过所述神经网络的输出层包括的多个第二神经元,对所述多个第一神经元的输出值进行处理,得到每个所述第二神经元输出的所述图书的等级为对应的参考等级的概率,所述多个第二神经元对应的参考等级互不相同;
基于所述多个第二神经元对应的参考等级中概率最大的参考等级,确定所述图书的目标等级;
其中,第q个第一神经元的输出值hq(U)满足:
Figure FDA0003334125390000021
第k个第二神经元输出的概率P(k)满足:
Figure FDA0003334125390000022
q为大于等于1且小于等于M的整数,M为所述隐藏层包括的第一神经元的总数,e为自然常数,Q为第q个第一神经元的权重向量,每个所述第一神经元的权重向量包括与归一化处理后的所述多个分级特征一一对应的多个权重,T为转置符号,U为归一化处理后的所述多个分级特征组成的特征集合;
zk为所述第k个第二神经元采用所述第k个第二神经元的权重向量对多个所述输出值进行加权处理后得到的结果,zr为第r个第二神经元采用所述第r个第二神经元的权重向量对多个所述输出值进行加权处理后得到的结果,每个所述第二神经元的权重向量包括与所述多个第一神经元一一对应的多个权重,r为大于等于1且小于等于g的整数,g为所述输出层包括的第二神经元的总数,任意两个所述第二神经元的权重向量不同,任意两个所述第一神经元的权重向量不同。
7.根据权利要求1至4任一所述的方法,其特征在于,所述图书分级设备为移动终端,所述移动终端包括显示屏;所述对所述目标等级进行显示,包括:
在所述显示屏中显示所述目标等级;
在所述得到所述图书的目标等级之后,所述方法还包括:
若确定所述目标等级与参考阅读等级的差值大于差值阈值,则发出提示消息,所述参考阅读等级为所述移动终端中配置的阅读等级。
8.根据权利要求1至4任一所述的方法,其特征在于,所述图书分级设备为分级服务器;所述获取待分级的图书的图书信息,包括:
接收移动终端发送的待分级的图书的图书信息;
所述对所述目标等级进行显示,包括:
向所述移动终端发送所述目标等级,所述目标等级用于供所述移动终端显示。
9.根据权利要求1至4任一所述的方法,其特征在于,所述基于所述图书信息,对所述图书的内容进行特征提取,得到所述图书的多个分级特征,包括:
从所述图书的内容中提取出多个语句;
向第一服务器发送所述多个语句,每个所述语句用于供所述第一服务器输入至语句分析模型,得到所述语句的分析结果,所述分析结果包括语义复杂度,以及句式;
基于所述第二服务器发送的每个所述语句的分析结果,确定所述多个分级特征;
其中,所述第一图书的语义复杂度为所述多个语句的语义复杂度的平均值。
10.一种图书分级设备,其特征在于,所述图书分级设备包括:处理器;所述处理器用于:
获取待分级的图书的图书信息,所述图书信息包括:所述图书的内容和/或所述图书的标识;
基于所述图书信息,对所述图书的内容进行特征提取,得到所述图书的多个分级特征,所述多个分级特征包括下述特征中的至少两种:所述图书的语义复杂度,所述图书中包含的句式的种类数,所述图书中每种句式的语句的数量,其中,所述语义复杂度由数值表征;
对所述多个分级特征进行加权处理,得到所述图书的目标等级;
对所述目标等级进行显示。
CN202111288642.2A 2021-11-02 2021-11-02 图书分级方法及图书分级设备 Pending CN113935332A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111288642.2A CN113935332A (zh) 2021-11-02 2021-11-02 图书分级方法及图书分级设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111288642.2A CN113935332A (zh) 2021-11-02 2021-11-02 图书分级方法及图书分级设备

Publications (1)

Publication Number Publication Date
CN113935332A true CN113935332A (zh) 2022-01-14

Family

ID=79285269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111288642.2A Pending CN113935332A (zh) 2021-11-02 2021-11-02 图书分级方法及图书分级设备

Country Status (1)

Country Link
CN (1) CN113935332A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116238545A (zh) * 2023-05-12 2023-06-09 禾多科技(北京)有限公司 一种自动驾驶轨迹偏差检测方法及检测系统
CN116796045A (zh) * 2023-08-23 2023-09-22 北京人天书店集团股份有限公司 一种多维度图书分级方法、系统及可读介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116238545A (zh) * 2023-05-12 2023-06-09 禾多科技(北京)有限公司 一种自动驾驶轨迹偏差检测方法及检测系统
CN116238545B (zh) * 2023-05-12 2023-10-27 禾多科技(北京)有限公司 一种自动驾驶轨迹偏差检测方法及检测系统
CN116796045A (zh) * 2023-08-23 2023-09-22 北京人天书店集团股份有限公司 一种多维度图书分级方法、系统及可读介质
CN116796045B (zh) * 2023-08-23 2023-11-10 北京人天书店集团股份有限公司 一种多维度图书分级方法、系统及可读介质

Similar Documents

Publication Publication Date Title
CN111339246B (zh) 查询语句模板的生成方法、装置、设备及介质
US11934780B2 (en) Content suggestion system
CN115485690A (zh) 用于处置聊天机器人的不平衡训练数据的分批技术
US20220100972A1 (en) Configurable generic language understanding models
US20220217104A1 (en) Content suggestion system
CN113515942A (zh) 文本处理方法、装置、计算机设备及存储介质
CN113935332A (zh) 图书分级方法及图书分级设备
US11354898B2 (en) Dynamic contextual media filter
CN111666416B (zh) 用于生成语义匹配模型的方法和装置
CN114564666B (zh) 百科信息展示方法、装置、设备和介质
CN111800289B (zh) 通信网络故障分析方法和装置
WO2021155691A1 (zh) 用户画像生成方法、装置、存储介质及设备
US20220164071A1 (en) Method and device for providing user-selection-based information
US20200051559A1 (en) Electronic device and method for providing one or more items in response to user speech
CN109284367A (zh) 用于处理文本的方法和装置
CN115455171A (zh) 文本视频的互检索以及模型训练方法、装置、设备及介质
CN114117225A (zh) 图书推荐方法及图书推荐设备
US20240045899A1 (en) Icon based tagging
CN111931075A (zh) 一种内容推荐方法、装置、计算机设备及存储介质
CN113486260B (zh) 互动信息的生成方法、装置、计算机设备及存储介质
CN113762585B (zh) 数据的处理方法、账号类型的识别方法及装置
CN114970562A (zh) 语义理解方法、装置、介质及设备
US20220269935A1 (en) Personalizing Digital Experiences Based On Predicted User Cognitive Style
US20230030397A1 (en) Context based interface options
CN114218490A (zh) 图书推荐方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination