CN117668167B - 一种基于大数据分析的图书评级智能处理方法 - Google Patents
一种基于大数据分析的图书评级智能处理方法 Download PDFInfo
- Publication number
- CN117668167B CN117668167B CN202410139499.8A CN202410139499A CN117668167B CN 117668167 B CN117668167 B CN 117668167B CN 202410139499 A CN202410139499 A CN 202410139499A CN 117668167 B CN117668167 B CN 117668167B
- Authority
- CN
- China
- Prior art keywords
- paragraph
- books
- word
- book
- trusted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 27
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000013441 quality evaluation Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 19
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000008451 emotion Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明涉及文本处理技术领域,具体涉及一种基于大数据分析的图书评级智能处理方法,该方法包括:通过分析每本新书段落中多种词性的词的出现频率,以及段落中主题词的位置分布情况,从而构建每个主题相关段落的语义差异性;根据各段落核心词的位置分布得到各段落的结构合理性;结合新书整体的困惑度共同评价新书的文学品质评价指数;将新书的文学品质评价指数、作者综合成就指数和图书出版社影响力指数的和值的归一化值作为新书的综合推荐指数,将综合推荐指数较高的新书在相关网站上进行书目推荐。从而实现基于大数据分析的图书评级,提高了新书质量评价的准确度,使推荐的图书更受读者喜爱。
Description
技术领域
本申请涉及文本处理技术领域,具体涉及一种基于大数据分析的图书评级智能处理方法。
背景技术
随着互联网技术的发展和社交媒体的普及,大量图书数据以及读者对图书的评价被广泛收集和记录,图书市场的竞争也日益激烈,读者对图书的推荐需求也越来越高。因此,通过大数据分析方法对图书进行智能评级可以从多角度对图书进行评分,以此来帮助读者从海量的图书中挑选出适合自己的书目。
通常对图书进行智能评级需要考虑到作者声誉、读者评价和图书本身质量确定,其中图书的读者评价和图书本身的内容质量往往需要通过自然语言处理技术对其语义进行理解和分析,从而提取有用的特征并进行情感分析。由于人类语言的复杂性,图书内容通常涵盖丰富的语言表达和复杂的情节,要完全理解和把握其中的含义和情感是具有挑战性的。
综上所述,本发明通过国家版本数据中心获取新书、新书作者、新书发行出版社的相关信息,根据获取的相关信息对新书进行评级从而构建新书的综合推荐指数;根据所有新书的综合推荐指数在全国新书目网站首页“月度荐书”模块进行新书推荐。
发明内容
为了解决上述技术问题,本发明提供一种基于大数据分析的图书评级智能处理方法,以解决现有的问题。
本发明的一种基于大数据分析的图书评级智能处理方法采用如下技术方案:
本发明一个实施例提供了一种基于大数据分析的图书评级智能处理方法,该方法包括以下步骤:
采集新书文本及新书作者的历史发行图书数量、已发行图书的平均年销量、已发行图书距离当前时间的年限;采集新书发行出版社的历史时间段内出版图书种类、出版图书的总销售量及出版社所占市场份额;
通过对新书文本进行处理得到新书文本各可信词;将各段落中所有可信词组成的序列作为各段落的可信词序列;采用BERT+LSTM+CRF序列标注模型获取各可信词的词性标签,词性标签种类包括名词、动词、形容词、副词和其他词性;根据各可信词词性及出现频率得到各可信词的重要性;根据各可信词的重要性及出现频率得到各段落的名词、动词、形容词及副词核心词;通过TF-IDF算法提取各段落的主题词;根据各段落主题词之间的相似性及段落的不同词性核心词得到各主题相关段落的语义差异性;根据各段落核心词的位置分布得到各段落的结构合理性;通过BERT语言模型获取各段落的困惑度;根据困惑度、语义差异及结构合理性得到新书文本的文学品质评价指数;根据作者历史发行图书数量、已发行图书的平均年销量及已发行图书距离当前时间的年限得到作者综合成就指数;根据出版社历史时间段内出版图书种类、出版图书的总销售量及出版社所占市场份额得到出版社影响力指数;将新书文本的文学品质评价指数与作者综合成就指数及出版社影响力指数的和值的归一化值作为新书的综合推荐指数;
根据所有新书的综合推荐指数进行书目推荐。
优选的,所述通过对新书文本进行处理得到新书文本各可信词,具体为:
通过jieba工具包对新书文本进行分词,对分词后新书文本通过哈工大停用词表进行去停用词;将去停用词后的新书文本各词作为各可信词。
优选的,所述根据各可信词词性及出现频率得到各可信词的重要性,具体包括:
将“名词”“动词”“形容词”“副词”和“其他词性”的可信词的权重分别赋值为“4”“3”“2”“1”和“0”;
在各段落的可信词序列中,以各可信词为中心,将固定长度的相连的可信词作为各中心可信词的邻域;对于段落中第j个可信词,计算邻域中各可信词的权重与出现频率的乘积;计算邻域中所有所述乘积的均值;将第j个可信词的出现频率与所述均值的乘积作为第j个可信词的重要性。
优选的,所述根据各可信词的重要性及出现频率得到各段落的名词、动词、形容词及副词核心词,具体为:
在各段落中,分别选取名词、动词、形容词及副词的可信词中,出现频率第一高到第R高的可信词作为候选词;将所有动词候选词中重要性最高的候选词作为段落的动词核心词;通过动词核心词的获取方法分别获取名词、形容词及副词核心词。
优选的,所述根据各段落主题词之间的相似性及段落的不同词性核心词得到各主题相关段落的语义差异性,具体包括:
将所有可信词输入Glove模型进行向量转换得到各可信词的语义向量;
计算第i个段落与第i-1个段落的主题词之间的余弦相似性;预设相似性阈值,若余弦相似性大于相似性阈值,则将第i个段落作为主题相关段落;
计算第个主题相关段落与对应前一个段落的相同词性核心词的语义向量之间的余弦相似性;计算第/>个主题相关段落与对应前一个段落之间的所有所述余弦相似性的和值相反数;将所述和值相反数作为第/>个主题相关段落的语义差异性。
优选的,所述根据各段落核心词的位置分布得到各段落的结构合理性,具体包括:
对于各段落,获取段落中各词性核心词在可信词序列中首次出现时序列号与最后出现时序列号;计算所述首次出现时序列号与可信词序列中第一个可信词的序列号之间的差值,记为第一差值;计算可信词序列中最后一个可信词的序列号与所述最后出现时序列号之间的差值;记为第二差值;计算第一差值与第二差值中最小值;获取所有词性的所述最小值的和值;将所述和值作为段落的结构合理性。
优选的,所述根据困惑度、语义差异及结构合理性得到新书文本的文学品质评价指数,具体包括:
计算各主题相关段落的语义差异与结构合理性的乘积;计算所述乘积与困惑度的比值;计算所有主题相关段落的所述比值的平均值;将所述平均值作为新书文本的文学品质评价指数。
优选的,所述根据作者历史发行图书数量、已发行图书的平均年销量及已发行图书距离当前时间的年限得到作者综合成就指数,具体包括:
计算作者的每本已发行图书的平均年销售量与距离当前时间的年限的比值;计算所有所述比值的和值;将所述和值与作者历史发行图书数量的和值作为作者综合成就指数。
优选的,所述根据出版社历史时间段内出版图书种类、出版图书的总销售量及出版社所占市场份额得到出版社影响力指数,具体包括:
计算出版社过去N年间的出版图书的总销售量与出版图书种类的比值;计算所述比值与过去N年间出版社所占市场份额的乘积;计算所述乘积与过去N年间出版图书种类的和值;将所述和值作为出版社影响力指数。
优选的,所述根据所有新书的综合推荐指数进行书目推荐,具体包括:
在所有新书中,按综合推荐指数降序排列构建新书推荐榜,进行书目推荐。
本发明至少具有如下有益效果:
本发明通过大数据分析以及文本内容分析对新发行书目进行多方位的评价,以便读者可以从众多图书中挑选出自己喜爱的图书,本发明利用自然语言处理技术对作品本身进行深入的分析,可以从更细节的角度把握图书的书写质量,提高了新书书写质量评价准确度,使推荐的图书更受读者喜爱;
本发明通过分析每本新书段落中多种词性的词之间的分布情况,确定每个段落的核心词序列;根据不同段落之间核心词序列的语意差异以及新书整体的困惑度共同评价新书的文学品质评价指数;根据作者历史发行图书数量、每本已发行图书的年销量等信息分析作者的过往成就构建作者综合成就指数;根据新书发行出版社的图书出版情况得到图书出版社影响力;根据新书的文学品质评价指数、作者综合成就指数以及图书出版社影响力共同确定新书的综合推荐指数;根据综合推荐指数对新书进行评价,将综合推荐指数较高的新书在相关网站上进行书目推荐,使新书推荐更符合读者喜好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明提供的一种基于大数据分析的图书评级智能处理方法的流程图;
图2为基于大数据分析的图书评级智能处理方法的步骤示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于大数据分析的图书评级智能处理方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体地说明本发明所提供的一种基于大数据分析的图书评级智能处理方法的具体方案。
本发明一个实施例提供的一种基于大数据分析的图书评级智能处理方法。
具体地,提供了如下的一种基于大数据分析的图书评级智能处理方法,请参阅图1,该方法包括以下步骤:
本实施例主要是以全国新书目网站首页“月度荐书”模块的功能为例。该模块将根据新书的作者和发行的出版社信息,以及图书本身的作品信息对新发行的书进行评分,最终通过“月度荐书”模块推送给用户,该方法的步骤示意图如图2所示。
步骤S001,通过国家版本数据中心获取新书、新书作者、新书发行出版社信息。
本实施例通过全国新书目网站链接到国家版本数据中心,获取新书相关信息,该数据库包含有所有新书的印前数据,以及作者相关信息。其中包括作者的历史出版书籍的数量、销量、过往图书的网络借阅量以及新书作品关键文本数据等。
针对每一本新书获取以下数据:新书文本、作者、作者历史发行图书数量、每本已发行图书的年销量信息,以及新书发行出版社的过去年间出版图书种类、出版图书的总销售量及出版社所占市场份额。需要说明的是,/>的值实施者可自行设定,本实施例不做具体限制。将以上数据作为对新书进行评价的参考依据。
步骤S002,根据新书自身作品质量、作者历史信息、新书发行出版社信息对新书进行评级,构建新书的综合推荐指数。
在信息爆炸的时代,人们的精力往往是有限的,想要从众多读物中挑选出自己喜欢的高质量图书是非常不易的,因此大家对于图书推荐系统的依赖程度不断增加。为此本实施例通过对新书内容以及作者信息进行相关评判,为用户推荐质量较高的图书。
1)对于每本新书,根据书的文本内容评价其书写方面的文学品质评价指数。
对于新书的品质问题,通过整本书的语言流畅度、描述准确度、段落连贯性等方面进行评价,得到图书的文学品质评价指数,具体如下:
A.首先,将书本的所有文本内容进行预处理,并获取所有词的语义向量。
将获取的新书进行分词处理,这里采用jieba工具包对文本进行分词得到文本中每个词,该工具包是中文文本处理中常用的分词工具。接着,采用哈工大停用词表将分词后的文本数据进行去停用词操作,所述去停用词是指在对文本进行分析时去除词频较高且对于文本的含义分析没有太大贡献的词语,如介词、连词、冠词、代词等。将去停用词后文本中的词作为文本的可信词。将每个段落中所有可信词组成的序列作为每个段落的可信词序列。
接着,将所有可信词输入训练好的Glove模型,模型输出为句子中每个可信词的语义向量(词向量),语义向量可以理解为将每个词表示为一个向量,使得语义相似的词在向量空间中距离较近,而语义不相似的词在向量空间中距离较远。上述jieba工具包、哈工大停用词表以及Glove模型均为公知技术,具体过程不再赘述。
B.然后为每个段落计算核心词序列。
一个段落的核心内容通常可以通过几个核心词来表现,核心词通常是指在段落中有特殊重要性或代表主题内容的词语。确定核心词可以通过识别关键词来实现,具体步骤如下:
a.先对句子进行词性标注,主要采用BERT+LSTM+CRF序列标注模型获取句子中每个可信词的词性标签,标签通常包括名词、动词、形容词、副词、连词,介词等,这里只选取名词、动词、形容词、副词和其他词作为标签种类(此处为公知技术获取,不再赘述。),以便能轻松地识别出待考察词语的词性,通过不同词性对句子进行分析。
b.统计每个段落中每个可信词的词频,构建核心词序列。具体为:分别选取每个段落中名词、动词、形容词以及副词的词频最高的前R个可信词作为各类词性的候选词,即每个段落选取个候选词,需要说明的是,R的值实施者可自行设定,本实施例将R的值设定为10。对每个段落中所有可信词按照其在段落中的出现顺序进行排序得到每个段落的可信词序列。在每个段落的可信词序列中,以每个可信词为中心,划分M个相连的可信词作为中心可信词的邻域,需要说明的是,M的值实施者可自行设定,本实施例将M的值设定为7。根据邻域中词性分布来计算每个可信词的重要性:
,
其中,表示第i个段落中第j个可信词的重要性;/>表示该可信词在该段落中的出现频率;M表示该可信词邻域中可信词的数量;/>表示该可信词邻域中第k个可信词在该段落中的出现频率;/>表示该可信词邻域中第k个可信词的权重。
上述的权重设置取决于词性的重要性,其中名词通常指代事物或概念,具有较高的信息量,应该赋予更高的权重,动词一般揭示主语的动作或变化,对于描述事物的行为很重要,也应该赋予较高的权重,形容词用于描述名词或代词的属性或特征,提供更多的细节和修饰,重要性较为次之,副词用于提供更多的时间、方式、程度等信息,重要性更低一些,因此根据上述,将每个词的权重根据词性分别将“名词”“动词”“形容词”“副词”赋值为“4”“3”“2”“1”,其他词性则赋值为“0”。
通常临近的词关联性比较强,而被越高频率的词关联则说明该词越重要。其中当可信词的频率越高时,表明该可信词被提及的次数越多,该可信词也可能越重要,反之,表明该可信词很少被提及,则可能越不重要;当可信词邻域内其他可信词的词频和权重越大时,则表明该可信词被权重更大的词所关联,应该赋予更高的重要性,反之表明该可信词被权重更小的词所关联,则应该赋予更低的重要性。通过上述方法获取每个可信词的重要性。
最终,将每个段落中的十个动词候选词按重要性排序,选择重要性最高的动词候选词作为该段落的动词核心词。通过该段落动词核心词的获取方法分别获取该段落的名词、形容词及副词核心词。
c.获取核心词序列。
对于上述获取的名词、动词、形容词和副词的核心词,将其语义向量按照名词、动词、形容词和副词的顺序构建该段落的核心词序列,其中/>表示第i个段落的核心词序列,/>分别表示名词、动词、形容词和副词的核心词的语义向量。
C.计算不同段落之间核心词序列的语义差异,根据核心词序列的语义差异判定文章的文学品质评价指数。
通常文章的文学品质评价指数可以从文章的困惑度和文章语言的丰富度来评价。其中文章的困惑度通过一个预训练好的大语言模型计算得到,这里采用BERT语言模型进行计算。一般是将对于当前段落中每个位置的词,使用语言模型预测该位置的概率,然后将每个位置的预测概率取对数并求和,得到对数似然值,最后计算对数似然值的平均值并取指数,便得到当前段落的困惑度(此处为公知技术,具体过程不再赘述)。
对每个段落进行主题词提取,这里采用词频-逆文档频率(TF-IDF)提取出每个段落的主题词,它通过计算词语在段落中的出现次数和在段落集合中的出现频率来衡量其重要性,从而抽取出与主题相关的高权重主题词。TF-IDF为公知技术,具体过程不再赘述。
然后计算每个段落与其前一个段落之间的主题词是否一致或相关,具体通过计算两个段落之间主题词的余弦相似性进行计算,其中余弦相似度为公知技术,具体过程不再赘述。不同主题词之间的余弦相似性取值范围为[-1,1],取值越接近1则表明二者越相似。设定相似性阈值,需要说明的是,相似性阈值实施者可自行设定,本实施例将其设置为0.5。若该段落与其前一个段落的主题词之间的余弦相似性大于相似性阈值,则该段落与其前一个段落之间存在主题相关性,并将该段落作为主题相关段落。对于文本的第一个段落,由于不存在第0个段落,因此不做上述判断。
接下来,通过在每个主题相关性的段落之间计算其段落的核心词序列之间的语义差异性,具体为:
,
其中,表示第/>个主题相关段落的语义差异性;/>表示核心词序列的序列长度;/>表示第/>个主题相关段落的核心词序列的第/>个核心词的语义向量;/>表示第/>个主题相关段落在文本中的前一个段落的核心词序列中第/>个核心词的语义向量;/>是为了计算两个语义向量之间的余弦相似性,取值范围是[-1,1],代表着两个语义向量的语义相似性。
当两个存在主题相关性的段落之间的核心词序列语义相似性差异越大时,表明文章在描写手法上越多样、越灵活。这是因为在文学创作中,作者通常会通过不同的叙述方式和描写手法来传达不同的情感、氛围和意境,以吸引读者并丰富作品的表现力,反之,则表明文章在描写手法上较为单一或缺乏变化,这种情况下,读者可能会感到枯燥乏味,缺乏阅读的兴趣和体验。
然后,当核心词分布在段落的开头可结尾时往往可以更好的引起读者的注意,而开头结尾不点明主题的文章阅读起来体验感则不是很好,因此通过分析每个段落核心词的位置分布,计算段落的结构合理性,具体如下:
,
其中,表示第/>个主题相关段落的结构合理性;/>表示每个核心词序列的序列长度;/>表示取最小值;/>和/>分别表示该段落核心词序列的第/>个核心词在该段落可信词序列中首次出现时的序列号和最后一次出现时的序列号;/>和/>分别表示该段落可信词序列中第一个词的序列号和最后一个词的序列号。
通过计算每个段落中核心词序列距离段落的最小距离可以得到核心词分布在段首或段尾的程度,核心词越靠近段落的开头和结尾,则越能说明段落的结构合理性,反之,则说明段落分布的结构合理性较差。
接下来,通过文章段落的困惑度、段落结构合理性/>和段落的存在主题相关性的段落语义差异/>计算文章的文学品质评价指数/>,具体如下:
,
其中,表示整个文章的文学品质评价指数,代表着文章的整体流畅性和文章丰富度;/>表示文章中主题相关段落的数量;/>表示文章的第/>个主题相关段落的困惑度,也就是文章的流畅性或可读性;/>表示第/>个主题相关段落的语义差异性;/>表示文章的第/>个主题相关段落的结构合理性;/>是一个极小值,为了防止分母为0。
当文章的平均困惑度越高时,表明文章可能写的比较晦涩难懂,会降低读者阅读时的阅读体验,则文学品质评价指数越低,反之,文章可能写得更加清晰易懂,读者的阅读体验会更好,则文学品质评价指数越高;当文章的整体核心词序列语义差异比较大时,表明文章写作形式多样,更能吸引读者,则文学品质评价指数较高,反之,表明文章写作形式单一,缺乏趣味性,使读者感到枯燥乏味,则相应的文学品质评价指数较低。
2)根据新书出版社影响力以及作者的过往表现计算该书作者综合成就指数和图书出版社影响力指数/>。
对于新书作者的表现,从作者过往图书出版数量、图书年销量来共同评价。
首先,对于图书出版数量,从全国新书目网站链接到的国家版本数据中心获取每个作者的历史出版数量,记作,以及每本书的平均年销量/>。
然后,根据作者的出版数量以及每本书的年销量计算作者综合成就指数,考虑到作者的写作水平是不断提升的,因此将距离目前越近出版的图书赋予更高权重,具体如下:
,
其中,表示作者综合成就指数;/>表示作者历史发行图书数量;/>表示作者已发行的第u本图书的平均年销量;/>表示作者已发行的第u本图书距离当前时间的年限,不足一年按照一年计算。
其中,作者出版图书数量越多,图书年销量越大,则代表作者写作能力越强,则相应的作者综合成就指数也越高,反之,代表作者写作能力越弱,相应的作者综合成就指数也越低。在计算时,若图书的发行年份离当前越近,则越能体现作者目前的写作水平,因此应该赋予更高的权重,反之应该赋予更低的权重。
对于图书出版社影响力指数,通过出版社过去年内出版图书数量以及此时间段内所有出版图书的总销售量以及出版社所占市场份额,进行评价,具体如下:
,
其中,表示出版社影响力指数;/>表示出版社过去5年出版图书种类数量;/>表示出版社过去5年出版图书的总销售量;/>表示出版社所占市场份额。其中,出版社的出版图书数量和销量以及其所占市场份额均从国家版本数据中心获取。
3)根据上述步骤1)和2)所述的文学品质评价指数、作者综合成就指数/>以及图书出版社影响力指数/>,计算新书的综合推荐指数/>,表达式为:
,
其中,表示新书的综合推荐指数;/>表示新书文本的文学品质评价指数,是从新书作品本身进行评价;/>表示作者综合成就指数,从作者过往的写作表现方面进行评价;/>表示图书出版社影响力指数,从当前新书发行的出版社影响力进行评价。通过多方面的综合评价共同为读者选出质量较高,阅读体验较好的图书。
当新书的文学品质评价指数、作者综合成就指数和图书出版社影响力指数越大时,表明该新书越可能是一本好书,其可读性指数越高,则其综合推荐指数越高;反之则说明该书越不可能是一本好书,则其综合推荐指数越低。
步骤S003,根据所有新书的综合推荐指数在全国新书目网站首页“月度荐书”模块进行新书推荐。
整理最近半年发行的所有新书,根据上述方法获取每本新书的综合推荐指数,然后根据综合推荐指数将新书进行排序,将综合推荐指数最高的前/>本新书按综合推荐指数大小降序排列,形成新书推荐榜,最后根据新书推荐榜,将书目推荐至全国新书目网站首页“月度荐书”模块。需要说明的是,/>的值实施者可自设定,本实施例将/>的值设定为100。随后根据读者反馈以及新发行的书目,每个月对新书推荐榜进行更新,以确保推荐内容的实时性。
综上所述,本发明实施例通过大数据分析以及文本内容分析对新发行书目进行多方位的评价,以便读者可以从众多图书中挑选出自己喜爱的图书,本发明利用自然语言处理技术对作品本身进行深入的分析,可以从更细节的角度把握图书的书写质量,提高了新书书写质量评价准确度,使推荐的图书更受读者喜爱。
本实施例通过分析每本新书段落中多种词性的词之间的分布情况,确定每个段落的核心词序列;根据不同段落之间核心词序列的语意差异以及新书整体的困惑度共同评价新书的文学品质评价指数;根据作者历史发行图书数量、每本已发行图书的年销量等信息分析作者的过往成就构建作者综合成就指数;根据新书发行出版社的图书出版情况得到图书出版社影响力指数;根据新书的文学品质评价指数、作者综合成就指数以及图书出版社影响力指数共同确定新书的综合推荐指数;根据综合推荐指数对新书进行评价,将综合推荐指数较高的新书在相关网站上进行书目推荐,使新书推荐更符合读者喜好。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于大数据分析的图书评级智能处理方法,其特征在于,该方法包括以下步骤:
采集新书文本及新书作者的历史发行图书数量、已发行图书的平均年销量、已发行图书距离当前时间的年限;采集新书发行出版社的历史时间段内出版图书种类、出版图书的总销售量及出版社所占市场份额;
通过对新书文本进行处理得到新书文本各可信词;将各段落中所有可信词组成的序列作为各段落的可信词序列;采用BERT+LSTM+CRF序列标注模型获取各可信词的词性标签,词性标签种类包括名词、动词、形容词、副词和其他词性;根据各可信词词性及出现频率得到各可信词的重要性;根据各可信词的重要性及出现频率得到各段落的名词、动词、形容词及副词核心词;通过TF-IDF算法提取各段落的主题词;根据各段落主题词之间的相似性及段落的不同词性核心词得到各主题相关段落的语义差异性;根据各段落核心词的位置分布得到各段落的结构合理性;通过BERT语言模型获取各段落的困惑度;根据困惑度、语义差异及结构合理性得到新书文本的文学品质评价指数;根据作者历史发行图书数量、已发行图书的平均年销量及已发行图书距离当前时间的年限得到作者综合成就指数;根据出版社历史时间段内出版图书种类、出版图书的总销售量及出版社所占市场份额得到出版社影响力指数;将新书文本的文学品质评价指数、作者综合成就指数及出版社影响力指数的和值的归一化值作为新书的综合推荐指数;根据所有新书的综合推荐指数进行书目推荐。
2.如权利要求1所述的一种基于大数据分析的图书评级智能处理方法,其特征在于,所述通过对新书文本进行处理得到新书文本各可信词,具体为:
通过jieba工具包对新书文本进行分词,对分词后新书文本通过哈工大停用词表进行去停用词;将去停用词后的新书文本各词作为各可信词。
3.如权利要求1所述的一种基于大数据分析的图书评级智能处理方法,其特征在于,所述根据各可信词词性及出现频率得到各可信词的重要性,具体包括:
将“名词”“动词”“形容词”“副词”和“其他词性”的可信词的权重分别赋值为“4”“3”“2”“1”和“0”;在各段落的可信词序列中,以各可信词为中心,将固定长度的相连的可信词作为各中心可信词的邻域;对于段落中第j个可信词,计算邻域中各可信词的权重与出现频率的乘积;计算邻域中所有所述乘积的均值;将第j个可信词的出现频率与所述均值的乘积作为第j个可信词的重要性。
4.如权利要求1所述的一种基于大数据分析的图书评级智能处理方法,其特征在于,所述根据各可信词的重要性及出现频率得到各段落的名词、动词、形容词及副词核心词,具体为:
在各段落中,分别选取名词、动词、形容词及副词的可信词中,出现频率第一高到第R高的可信词作为候选词;将所有动词候选词中重要性最高的候选词作为段落的动词核心词;通过动词核心词的获取方法分别获取名词、形容词及副词核心词。
5.如权利要求1所述的一种基于大数据分析的图书评级智能处理方法,其特征在于,所述根据各段落主题词之间的相似性及段落的不同词性核心词得到各主题相关段落的语义差异性,具体包括:
将所有可信词输入Glove模型进行向量转换得到各可信词的语义向量;
计算第i个段落与第i-1个段落的主题词之间的余弦相似性;预设相似性阈值,若余弦相似性大于相似性阈值,则将第i个段落作为主题相关段落;
计算第个主题相关段落与对应前一个段落的相同词性核心词的语义向量之间的余弦相似性;计算第/>个主题相关段落与对应前一个段落之间的所有所述余弦相似性的和值相反数;将所述和值相反数作为第/>个主题相关段落的语义差异性。
6.如权利要求1所述的一种基于大数据分析的图书评级智能处理方法,其特征在于,所述根据各段落核心词的位置分布得到各段落的结构合理性,具体包括:
对于各段落,获取段落中各词性核心词在可信词序列中首次出现时序列号与最后出现时序列号;计算所述首次出现时序列号与可信词序列中第一个可信词的序列号之间的差值,记为第一差值;计算可信词序列中最后一个可信词的序列号与所述最后出现时序列号之间的差值;记为第二差值;计算第一差值与第二差值中最小值;获取所有词性的所述最小值的和值;将所述和值作为段落的结构合理性。
7.如权利要求1所述的一种基于大数据分析的图书评级智能处理方法,其特征在于,所述根据困惑度、语义差异及结构合理性得到新书文本的文学品质评价指数,具体包括:
计算各主题相关段落的语义差异与结构合理性的乘积;计算所述乘积与困惑度的比值;计算所有主题相关段落的所述比值的平均值;将所述平均值作为新书文本的文学品质评价指数。
8.如权利要求1所述的一种基于大数据分析的图书评级智能处理方法,其特征在于,所述根据作者历史发行图书数量、已发行图书的平均年销量及已发行图书距离当前时间的年限得到作者综合成就指数,具体包括:
计算作者的每本已发行图书的平均年销售量与距离当前时间的年限的比值;计算所有所述比值的和值;将所述和值与作者历史发行图书数量的和值作为作者综合成就指数。
9.如权利要求1所述的一种基于大数据分析的图书评级智能处理方法,其特征在于,所述根据出版社历史时间段内出版图书种类、出版图书的总销售量及出版社所占市场份额得到出版社影响力指数,具体包括:
计算出版社过去N年间的出版图书的总销售量与出版图书种类的比值;计算所述比值与过去N年间出版社所占市场份额的乘积;计算所述乘积与过去N年间出版图书种类的和值;将所述和值作为出版社影响力指数。
10.如权利要求1所述的一种基于大数据分析的图书评级智能处理方法,其特征在于,所述根据所有新书的综合推荐指数进行书目推荐,具体包括:
在所有新书中,按综合推荐指数降序排列构建新书推荐榜,进行书目推荐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410139499.8A CN117668167B (zh) | 2024-02-01 | 2024-02-01 | 一种基于大数据分析的图书评级智能处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410139499.8A CN117668167B (zh) | 2024-02-01 | 2024-02-01 | 一种基于大数据分析的图书评级智能处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117668167A CN117668167A (zh) | 2024-03-08 |
CN117668167B true CN117668167B (zh) | 2024-04-05 |
Family
ID=90086636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410139499.8A Active CN117668167B (zh) | 2024-02-01 | 2024-02-01 | 一种基于大数据分析的图书评级智能处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117668167B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050122571A (ko) * | 2004-06-24 | 2005-12-29 | 김기형 | 어휘의 난이도 정보와 시소러스를 활용한 도서지수 부여시스템 |
CN107943910A (zh) * | 2017-11-18 | 2018-04-20 | 电子科技大学 | 一种基于组合算法的个性化图书推荐方法 |
CN110399502A (zh) * | 2019-06-18 | 2019-11-01 | 东华大学 | 一种学科图书的学术价值评价方法 |
CN110516243A (zh) * | 2019-08-26 | 2019-11-29 | 中国教育图书进出口有限公司 | 一种图书权威度计算方法、装置、系统及存储介质 |
CN111737567A (zh) * | 2020-05-29 | 2020-10-02 | 北京宜搜天下科技有限公司 | 一种网络文学新书推荐的方法 |
CN112561334A (zh) * | 2020-12-16 | 2021-03-26 | 咪咕文化科技有限公司 | 阅读对象的评分方法、装置、电子设备及存储介质 |
CN114298572A (zh) * | 2021-12-30 | 2022-04-08 | 李静芳 | 一种科技成果分类评价方法及系统 |
CN114969564A (zh) * | 2022-06-02 | 2022-08-30 | 中央民族大学 | 一种小学课外图书分级阅读评价和推荐方法及系统 |
-
2024
- 2024-02-01 CN CN202410139499.8A patent/CN117668167B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050122571A (ko) * | 2004-06-24 | 2005-12-29 | 김기형 | 어휘의 난이도 정보와 시소러스를 활용한 도서지수 부여시스템 |
CN107943910A (zh) * | 2017-11-18 | 2018-04-20 | 电子科技大学 | 一种基于组合算法的个性化图书推荐方法 |
CN110399502A (zh) * | 2019-06-18 | 2019-11-01 | 东华大学 | 一种学科图书的学术价值评价方法 |
CN110516243A (zh) * | 2019-08-26 | 2019-11-29 | 中国教育图书进出口有限公司 | 一种图书权威度计算方法、装置、系统及存储介质 |
CN111737567A (zh) * | 2020-05-29 | 2020-10-02 | 北京宜搜天下科技有限公司 | 一种网络文学新书推荐的方法 |
CN112561334A (zh) * | 2020-12-16 | 2021-03-26 | 咪咕文化科技有限公司 | 阅读对象的评分方法、装置、电子设备及存储介质 |
CN114298572A (zh) * | 2021-12-30 | 2022-04-08 | 李静芳 | 一种科技成果分类评价方法及系统 |
CN114969564A (zh) * | 2022-06-02 | 2022-08-30 | 中央民族大学 | 一种小学课外图书分级阅读评价和推荐方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117668167A (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Malheiro et al. | Emotionally-relevant features for classification and regression of music lyrics | |
CN111966917B (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
Rao | Contextual sentiment topic model for adaptive social emotion classification | |
Trilla et al. | Sentence-based sentiment analysis for expressive text-to-speech | |
WO2014208213A1 (ja) | ノン・ファクトイド型質問応答システムおよび方法 | |
CN111694927B (zh) | 一种基于改进词移距离算法的文档自动评阅方法 | |
CN110263319A (zh) | 一种基于网页文本的学者观点抽取方法 | |
Reddy et al. | N-gram approach for gender prediction | |
Lin et al. | A simple but effective method for Indonesian automatic text summarisation | |
Kerz et al. | Automated classification of written proficiency levels on the CEFR-scale through complexity contours and RNNs | |
CN115238040A (zh) | 一种钢铁材料学知识图谱构建方法及系统 | |
Malandrakis et al. | Sail: Sentiment analysis using semantic similarity and contrast features | |
Iwatsuki et al. | Using formulaic expressions in writing assistance systems | |
Hussain et al. | A technique for perceiving abusive bangla comments | |
CN117668167B (zh) | 一种基于大数据分析的图书评级智能处理方法 | |
CN109298796B (zh) | 一种词联想方法及装置 | |
Alepidou et al. | A semantic tag recommendation framework for collaborative tagging systems | |
Veeraselvi et al. | Semantic orientation approach for sentiment classification | |
Plaza-del Arco et al. | Integrating Umls for Early Detection of Sings of Anorexia | |
Jiang et al. | Describing and classifying post-mortem content on social media | |
CN115146031B (zh) | 一种基于深度学习和辅助特征的短文本立场检测方法 | |
Sarwar et al. | AGI-P: A Gender Identification Framework for Authorship Analysis Using Customized Fine-Tuning of Multilingual Language Model | |
Roman et al. | Sentiment and behaviour annotation in a corpus of dialogue summaries | |
Li et al. | PolyU at TAC 2008. | |
Turan et al. | An Extensible Model for Turkish Single Document Summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |