CN110516243B

CN110516243B - 一种图书权威度计算方法、装置、系统及存储介质

Info

Publication number: CN110516243B
Application number: CN201910791958.XA
Authority: CN
Inventors: 黄祥芸
Original assignee: China Education Books Import And Export Co ltd
Current assignee: China Education Books Import And Export Co ltd
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2022-03-18
Anticipated expiration: 2039-08-26
Also published as: CN110516243A

Abstract

本发明实施例公开了一种图书权威度计算方法、装置、系统及存储介质，所述图书权威度计算方法包括：构建图书异构网络，将图书的元数据、图书的章节与全文、以及引用信息统一到异构网络中；将图书异构网络转换为图书同构网络，生成非对称转移概率，对图书同构网络中的节点和边进行个性化赋值；基于图书同构网络进行图书权威度计算，将节点多样性因素纳入到计算过程中，计算结果进行归一化处理，通过五星方式评价图书权威度。本发明解决了现有图书权威度难以评价的问题。

Description

一种图书权威度计算方法、装置、系统及存储介质

技术领域

本发明实施例涉及图书管理领域，具体涉及一种图书权威度计算方法。

背景技术

目前尚无与图书权威度计算直接相关的研究，相似问题集中在网页链接分析和学术引文分析两个方面。在网页链接分析方面，人们把网页看作节点、网页之间的超链接看作边，构建大规模Web图，在图中通过迭代计算获取每个节点的重要性，典型算法包括PageRank和HITS。引文分析主要针对学术论文，通过论文之间的引用关系构建引文网络，发现网络中的重要文献，相关算法有Paper Rank、Prestige Rank等。

对于图书而言，其引用网络不如论文及时有效，图书的文本内容更多，覆盖的话题也远多于论文，因此，直接应用引文分析技术来计算图书的权威度，效果不佳。如何综合考虑图书的文本内容语义，以及图书作者、出版社、主题关键词等要素所构成的复杂网络，计算图书的权威度，目前尚无直接相关的技术。

发明内容

为此，本发明实施例提供一种图书权威度计算方法、装置、系统及存储介质，以解决现有图书权威度难以评价的问题。

为实现上述目的，本发明实施例主要提供如下技术方案：

第一方面，本发明实施例提供了一种图书权威度计算方法，其特征在于，所述方法包括：

构建图书异构网络，将图书的元数据、图书的章节与全文、以及引用信息统一到异构网络中；

将图书异构网络转换为图书同构网络，生成非对称转移概率，对图书同构网络中的节点和边进行个性化赋值；

基于图书同构网络进行图书权威度计算，将节点多样性因素纳入到计算过程中，计算结果进行归一化处理，通过五星方式评价图书权威度。

进一步地，所述图书异构网络的构建通过规则引擎抽取电子图书中的目录大纲，并通过不同导航条目覆盖的文字比重，确定一级章节目录，对于不存在目录大纲的电子书文件，通过启发式规则，基于字体和页面位置及留白信息，识别章节构成。

进一步地，所述电子图书识别章节后，将整本电子图书分为多个章节，通过自然语言处理，提取每一章的名词性短语，利用信息检索中的加权技术TF-IDF确定章的主题词，对各章主题词进行合并，以所在章文本长度的对数进行加权排序，将覆盖50％权重的前N个章节主题词作为图书的主题词，对图书的主题词权重进行归一化处理后作为主题节点纳入图书异构网络。

进一步地，所述图书的元数据信息通过解析相应的在线信息交换文件，并通过名称归一化消除重音、缩写引起的歧义，形成作者节点和出版社节点，将主题节点、作者节点、出版社节点和作品本身节点纳入到异构网络之中形成图书异构网络。

进一步地，所述图书同构网络的构建通过保留异构图书网络中的作品节点，重新连边，形成图书同构网络，并对图书同构网络的边和节点进行不同的权重计算；对于两个作品节点w₁和w₂，由w₁指向w₂的边的权重代表了由w₁跳转到w₂的概率，记为：

p(w₁→w₂)＝f(ra,rt,rp,rr)

式中ra表示读者在阅读一部作品时，可以通过作者关系跳转到另一部作品的情况，按下式计算权重：

式中rank₊(a)表示作者在作品中的署名排序，rank-(a)表示作者在作品中的署名排序的倒序，I(·)为指示函数；

rt表示为作品w₁和w₂之间通过主题词构成的连接，即读者在阅读一部作品时，可以通过相同的主题关系跳转到另一部作品，权重计算公式为：

式中w(k,w)表示主题词k在作品w中的权重；

rp表示为作品w₁和w₂之间通过出版社构成的连接，即读者在阅读一部作品时，可以通过相同的出版社关系跳转到另一部作品，权重计算公式为：

w_rp(w₁→w₂)＝I(rp∈w₁∩w₂)

作品w₁和w₂之间存在相同的出版社为1，否则为0；

rr表示为作品w₁和w₂之间通过引用构成的连接，即读者在阅读一部作品时，可以根据该作品的参考文献关系跳转到另一部作品，权重计算公式为：

w_rr(w₁→w₂)＝I(w₁ cite w₂)

作品w₁引用了w₂，则为1，否则为0；

图书同构网络中任一两个节点之间的边的权重，即两部图书作品之间的转移概率，按线性组合方式计算公式为：

p(w₁→w₂)＝α·w_ra+β·w_rt+γ·w_rp+δ·w_rr

式中α,β,γ,δ为超参数，且满足α+β+γ+δ＝1。

进一步地，所述图书同构网络节点的个性化权重，引入图书外部评价信息，图书作品在web开放数据中拥有更多数量的正向评价，则节点权重越高，节点权重计算公式为：

式中，w表示作品节点，c表示作品的评论数量，star表示作品当前的星级。

进一步地，所述图书权威度计算方法为：

基于图书同构网络中边的权重，构建作品之间的概率转移矩阵M，矩阵中任意元素w_i,j表示由第j部图书转移到第i部图书的概率，初始值为对应边的权重，进一步对矩阵应用L2范式进行归一化缩放，使矩阵每一列的数值之和为1；

所有图书节点的个性化信息，保存到个性化向量p之中，p的第i个分量取值为当前节点权重占所有节点权重之和的比值，按下式计算：

假设R为图书权威度分值向量，初始值为全1向量，按照如下公式进行迭代计算，直到数值收敛或达到指定迭代次数(默认为30次)为止。

迭代结束后，向量R中的第i维即为第i部图书的权威度值，为方便识别，依据最大归一化方式，将该数值范围缩放到[1-5]之间，以5星方式评价图书权威度，权威度最高图书取值为5。

第二方面，本发明实施例还提供一种图书权威度计算装置，所述装置包括：提取单元、权重计算单元和权威度计算单元；

所述提取单元，用于提取图书中各章节的主题词，并根据章节的关键词确定图书的主题词；

所述权重计算单元，用于计算主题节点、作者节点、出版社节点和作品节点在图书同构网络中的权重；

所述权威度计算单元，用于根据图书同构网络中各节点的权重计算图书权威度。

第三方面，本发明实施例还提供一种图书权威度计算系统，所述系统包括：至少一个处理器和至少一个存储器；

所述存储器用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行一种图书权威度计算方法种任一项所述的方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种图书权威度计算系统执行一种图书权威度计算方法中任一项所述的方法。

本发明实施例提供的技术方案至少具有如下优点：

本发明实施例公开了一种图书权威度计算方法、装置、系统及存储介质，通过作品节点、主体节点、出版社节点和作者节点构建图书异构网络，将图书外部评论数据以及传统的作者和引文关系融合至异构网络中；将图书异构网络转换为图书同构网络，提升运算效率，对图书同构网络的边和节点进行重新赋权，通过迭代计算获取节点在网络结构上的稳定分布，并对收敛值作归一化处理进一步缩放到[1-5]范围之内，以五星方式度量图书权威度。帮助读者快速了解图书的重要程度，并发现关联图书，图书权威度可以作为图书检索和推荐中的重要因素，提高为读者服务的智能化水平，同时为图书馆采编图书提供重要的参考依据。

附图说明

图1为本发明实施例提供的一种图书权威度计算方法流程图。

图2为本发明实施例提供的一种图书权威度计算装置连接示意图。

图3为本发明实施例提供的一种图书权威度计算系统结构示意图。

图中：1-提取单元、2-权重计算单元、3-权威度计算单元、4-处理器、5-存储器。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本发明。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

实施例

参考图1，本实施例公开了一种图书权威度计算方法，包括以下步骤：

S1：构建图书异构网络，将图书的元数据、图书的章节与全文、以及引用信息统一到异构网络中；

图书异构网络的构建通过规则引擎抽取电子图书中的目录大纲，并通过不同导航条目覆盖的文字比重，确定一级章节目录，对于不存在目录大纲的电子书文件，通过启发式规则，基于字体和页面位置及留白信息，识别章节构成；

电子图书识别章节后，将整本电子图书分为多个章节，通过自然语言处理，提取每一章的名词性短语，利用信息检索中的加权技术TF-IDF确定章的主题词，TF-IDF是一种统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜索引擎还会使用基于链接分析的评级方法，以确定文件在搜寻结果中出现的顺序。以词语的章内频度TF和逆章节频度IDF作为主题词抽取的依据，选择TopN(n＝20)个词语作为章节的主题词。逆章节频度(inversedocument frequency，IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取以10为底的对数得到。逆章节频度越小，对应词组的重要程度越高。

对各章主题词进行合并，以所在章文本长度的对数进行加权排序，将覆盖50％权重的前N个章节主题词作为图书的主题词，对图书的主题词权重进行归一化处理后作为主题节点纳入图书异构网络。

图书的元数据信息通过解析相应的在线信息交换文件，并通过名称归一化消除重音、缩写等引起的歧义，形成作者节点和出版社节点，将主题节点、作者节点、出版社节点和作品本身节点纳入到异构网络之中形成图书异构网络，图书异构网络包括四个节点，分别为：作品节点、主题节点、出版社节点和作者节点。

S2:将图书异构网络转换为图书同构网络，生成非对称转移概率，对图书同构网络中的节点和边进行个性化赋值；

图书同构网络的构建通过保留异构图书网络中的作品节点，重新连边，形成图书同构网络，并对图书同构网络的边和节点进行不同的权重计算。对于两个作品节点w₁和w₂，如w₁，w₂在原图书异构网络之中存在路径长度小于等于2的边(不区分方向)，则在图书同构网络中为w₁和w₂附加有向带权边。由w₁指向w₂的边的权重代表了由w₁跳转到w₂的概率，记为：

p(w₁→w₂)＝f(ra,rt,rp,rr)

式中rank₊(a)表示作者在作品中的署名排序，rank_-(a)表示作者在作品中的署名排序的倒序，I(·)为指示函数；

式中w(k,w)表示主题词k在作品w中的权重；

w_rp(w₁→w₂)＝I(rp∈w₁∩w₂)

作品w₁和w₂之间存在相同的出版社为1，否则为0；

w_rr(w₁→w₂)＝I(w₁ cite w₂)

作品w₁引用了w₂，则为1，否则为0；

p(w₁→w₂)＝α·w_ra+β·w_rt+γ·w_rp+δ·w_rr

式中α,β,γ,δ为超参数，且满足α+β+γ+δ＝1。

对于图书同构网络节点的个性化权重，引入图书外部评价信息，图书作品在web开放数据中拥有更多数量的正向评价，则节点权重越高，节点权重计算公式为：

式中，w表示作品节点，c表示作品的评论数量，star表示作品当前的星级。即对于图书节点w，如果w的用户评价星级(范围在1-5之间)在3以上，则其重要性为评价数量的对数加一，再乘以用户给出的平均星级，否则为1。该公式仅对用户正向评价的节点进行个性化加权，且满足用户评价越多越重要、用户主动给出的星级越高越重要两个基本原则。

S3:基于图书同构网络进行图书权威度计算，将节点多样性因素纳入到计算过程中，计算结果进行归一化处理，通过五星方式评价图书权威度；

图书权威度计算方法为：

本实施例公开的一种图书权威度计算方法，通过作品节点、主体节点、出版社节点和作者节点构建图书异构网络，将图书外部评论数据以及传统的作者和引文关系融合至异构网络中；将图书异构网络转换为图书同构网络，提升运算效率，对图书同构网络的边和节点进行重新赋权，通过迭代计算获取节点在网络结构上的稳定分布，并对收敛值作归一化处理进一步缩放到[1-5]范围之内，以五星方式度量图书权威度。帮助读者快速了解图书的重要程度，并发现关联图书，图书权威度可以作为图书检索和推荐中的重要因素，提高为读者服务的智能化水平，同时为图书馆采编图书提供重要的参考依据。

参考图2，与上述实施例1对应的，本发明实施例2还提供了一种图书权威度计算装置，所述装置包括：提取单元、权重计算单元和权威度计算单元；

本发明实施例提供的一种图书权威度计算装置中各部件所执行的功能均已在上述实施例1中做了详细介绍，因此这里不做过多赘述。

本实施例公开的一种图书权威度计算装置，通过作品节点、主体节点、出版社节点和作者节点构建图书异构网络，将图书外部评论数据以及传统的作者和引文关系融合至异构网络中；将图书异构网络转换为图书同构网络，提升运算效率，对图书同构网络的边和节点进行重新赋权，通过迭代计算获取节点在网络结构上的稳定分布，并对收敛值作归一化处理进一步缩放到[1-5]范围之内，以五星方式度量图书权威度。帮助读者快速了解图书的重要程度，并发现关联图书，图书权威度可以作为图书检索和推荐中的重要因素，提高为读者服务的智能化水平，同时为图书馆采编图书提供重要的参考依据。

参考图3，与上述实施例相对应的，本发明实施例3还提供了一种图书权威度计算系统，所述系统包括：至少一个处理器和至少一个存储器；

所述存储器用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行一种图书权威度计算中任一项所述的方法。

与上述实施例相对应的，本发明实施例还提供了一种计算机存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种图书权威度计算系统执行一种图书权威度计算方法中任一项所述的方法。

在本发明实施例中，处理器可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。

存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

其中，非易失性存储器可以是只读存储器(Read-Only Memory，简称ROM)、可编程只读存储器(Programmable ROM，简称PROM)、可擦除可编程只读存储器(Erasable PROM，简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM，简称EEPROM)或闪存。

易失性存储器可以是随机存取存储器(Random Access Memory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，简称SRAM)、动态随机存取存储器(Dynamic RAM，简称DRAM)、同步动态随机存取存储器(Synchronous DRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，简称ESDRAM)、同步连接动态随机存取存储器(Synch Link DRAM，简称SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，简称DRRAM)。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种图书权威度计算方法，其特征在于，所述方法包括：

构建图书异构网络，将图书的元数据、图书的章节与全文、以及引用信息统一到异构网络中；所述图书异构网络的构建通过规则引擎抽取电子图书中的目录大纲，并通过不同导航条目覆盖的文字比重，确定一级章节目录，对于不存在目录大纲的电子书文件，通过启发式规则，基于字体和页面位置及留白信息，识别章节构成；

电子图书识别章节后，将整本电子图书分为多个章节，通过自然语言处理，提取每一章的名词性短语，利用信息检索中的加权技术TF-IDF确定章的主题词，对各章主题词进行合并，以所在章文本长度的对数进行加权排序，将覆盖50％权重的前N个章节主题词作为图书的主题词，对图书的主题词权重进行归一化处理后作为主题节点纳入图书异构网络；

2.如权利要求1所述的一种图书权威度计算方法，其特征在于，所述图书的元数据信息通过解析相应的在线信息交换文件，并通过名称归一化消除重音、缩写引起的歧义，形成作者节点和出版社节点，将主题节点、作者节点、出版社节点和作品本身节点纳入到异构网络之中形成图书异构网络。

3.如权利要求1所述的一种图书权威度计算方法，其特征在于，所述图书同构网络的构建通过保留异构图书网络中的作品节点，重新连边，形成图书同构网络，并对图书同构网络的边和节点进行不同的权重计算；对于两个作品节点w₁和w₂，由w₁指向w₂的边的权重代表了由w₁跳转到w₂的概率，记为：

p(w₁→w₂)＝f(ra,rt,rp,rr)

式中rank₊(a)表示作者在作品中的署名排序，rank_(a)表示作者在作品中的署名排序的倒序，I(·)为指示函数；

式中w(k,w)表示主题词k在作品w中的权重；

w_rp(w₁→w₂)＝I(rp∈w₁∩w₂)

作品w₁和w₂之间存在相同的出版社为1，否则为0；

w_rr(w₁→w₂)＝I(w₁ cite w₂)

作品w₁引用了w₂，则为1，否则为0；

p(w₁→w₂)＝α·w_ra+β·w_rt+γ·w_rp+δ·w_rr

式中α,β,γ,δ为超参数，且满足α+β+γ+δ＝1。

4.如权利要求3所述的一种图书权威度计算方法，其特征在于，所述图书同构网络节点的个性化权重，引入图书外部评价信息，图书作品在web开放数据中拥有更多数量的正向评价，则节点权重越高，节点权重计算公式为：

5.如权利要求1所述的一种图书权威度计算方法，其特征在于，所述图书权威度计算方法为：

基于图书同构网络中边的权重，构建作品之间的概率转移矩阵M，矩阵中任意元素w_i,j表示由第j部图书转移到第i部图书的概率，初始值为对应边的权重，对矩阵应用L2范式进行归一化缩放，使矩阵每一列的数值之和为1；

假设R为图书权威度分值向量，初始值为全1向量，按照如下公式进行迭代计算，直到数值收敛或达到指定迭代次数为止，

迭代结束后，向量R中的第i维即为第i部图书的权威度值，依据最大归一化方式，将该数值范围缩放到[1-5]之间，以5星方式评价图书权威度，权威度最高图书取值为5。

6.一种图书权威度计算装置，其特征在于，所述装置包括：提取单元、权重计算单元和权威度计算单元；

所述权重计算单元，用于计算主题节点、作者节点、出版社节点和作品节点在图书同构网络中的权重；图书异构网络的构建通过规则引擎抽取电子图书中的目录大纲，并通过不同导航条目覆盖的文字比重，确定一级章节目录，对于不存在目录大纲的电子书文件，通过启发式规则，基于字体和页面位置及留白信息，识别章节构成；

电子图书识别章节后，将整本电子图书分为多个章节，通过自然语言处理，提取每一章的名词性短语，利用信息检索中的加权技术TF-IDF确定章的主题词，对各章主题词进行合并，以所在章文本长度的对数进行加权排序，将覆盖50％权重的前N个章节主题词作为图书的主题词，对图书的主题词权重进行归一化处理后作为主题节点纳入图书异构网络；将图书异构网络转换为图书同构网络，生成非对称转移概率，对图书同构网络中的节点和边进行个性化赋值；

7.一种图书权威度计算系统，其特征在于，所述系统包括：至少一个处理器和至少一个存储器；

所述存储器，用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如权利要求1-5任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种图书权威度计算系统执行如权利要求1-5任一项所述的方法。