CN116776854B

CN116776854B - 在线多版本文献内容关联方法、装置、设备及介质

Info

Publication number: CN116776854B
Application number: CN202311079930.6A
Authority: CN
Inventors: 廉蔺; 李驰; 文治恒; 周梓龙; 王剑
Original assignee: Hunan Huizhi Xingchuang Technology Co ltd
Current assignee: Hunan Huizhi Xingchuang Technology Co ltd
Priority date: 2023-08-25
Filing date: 2023-08-25
Publication date: 2023-11-03
Anticipated expiration: 2043-08-25
Also published as: CN116776854A

Abstract

本申请涉及一种在线多版本文献内容关联方法、装置、设备和介质。所述方法包括：将多版本文献的版式格式模型中的版式格式结构转换为树结构，对待关联的文档集合中所有版本的树结构进行相似性计算并聚类，利用k中心聚类方法求出类簇的中心点并计算距离中心点距离最小的版式结构作为初始本体版式，对初始本体版式集合进行差异比较和相似性度量，对得到的本体版式进行编码，直至编码到最细粒度，根据本体版式中各个元素和编码后的本体版式的各个元素建立数据库，将待关联的文档转换为树结构后与本体版式进行相似性计算，根据计算结果和预先设置的阈值则进行关联。采用本方法能够解决同一文献多个文档版本中元素的关联问题。

Description

在线多版本文献内容关联方法、装置、设备及介质

技术领域

本申请涉及数据处理技术领域，特别是涉及一种在线多版本文献内容关联方法、装置、设备及介质。

背景技术

在网络互联环境中（包括局域网、互联网、移动互联网等），不同用户可能拥有“同一文献”的“不同版本”。此处的“同一文献”是指：作者、题目及内容是相同的文献；此处的“不同版本”是指：文献的版面格式、文件类型等方面可能存在不同之处。网络环境中，上述“同一文献”的“不同版本”情况大量存在，比如：原版、加盐版（在原版基础上添加了标识、水印等）、预印版（正式出版之前的版本）等等。同一文献的不同版本在版式上有一定的差异。版式即版面格式，具体指的是开本、版心和周围空白的尺寸，正文的字体、字号、排版形，字数、排列地位，还有目录和标题、注释、表格、图名、图注、标点符号、书眉、页码以及版面装饰等项的排法。对于某个版本电子文献上的内容（比如：文字、公式、图像、表格等），如何关联到其他版本对应的内容是当前的难题。

然而，目前的大多数面向版式管理与版式生成，基本采用的是文本识别、段落块识别等技术，但一个文档的多种版本之间的关联性处理较少。一种版式文件逻辑结构信息的表示方法和系统涉及了关联性处理技术，但也仅仅是文本段落与版式之间的关联，并没有涉及到多种版本之间的关联问题。同一文献不同版本的情况较常见，但使用上述技术并不能有效解决同一文献多个版本中元素的关联问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决同一文献多个版本中元素的关联问题的在线多版本文献内容关联方法、装置、设备及介质。

一种在线多版本文献内容关联方法，所述方法包括：

获取待关联的文档集合；文档集合为同一文献的多个版本的文档集合；构建版式格式模型；版式格式模型包括版式格式标识、标题、作者、日期、摘要和版式格式结构；版式格式结构包括第一节部分结构；

根据第一部分结构的嵌套定义来嵌套待关联的文档集合中多版本文献的内容信息，得到多版本文献的版式格式模型；内容信息包括章节标题、章节、部分标题、部分和段落；部分包括若干个段落、图、表以及公式；

将多版本文献的版式格式模型中的版式格式结构转换为树结构，对待关联的文档集合中所有版本的树结构进行相似性计算，得到多个相似性距离；

根据DBSCAN聚类算法按照多个相似性距离进行聚类，得到多个类簇；

利用k中心聚类方法求出类簇的中心点并计算距离中心点距离最小的版式结构作为初始本体版式，将初始本体版式和同簇中其他文档版式都转换为树结构，得到初始本体版式集合；

对初始本体版式集合进行差异比较和相似性度量，得到本体版式；对本体版式进行编码，直至编码到最细粒度，得到编码后的本体版式；

根据本体版式中各个元素和编码后的本体版式的各个元素建立数据库，数据库中每个表代表一个本体版式，每一行代表一个元素；

将待关联的文档转换为树结构后与本体版式进行相似性计算，根据计算结果和预先设置的阈值则进行关联。

在其中一个实施例中，版式格式结构是一种嵌套式的形式，表示为

，其中/>代表第一节标题，/>代表第一节部分结构，/>的嵌套定义表示为，其中/>代表这部分的标题，/>是与/>同类型的结构，/>代表这部分的文本，/>代表这部分的附件信息，附件信息包括图片、公式、表格和视频信息，/>表示数量总数。

在其中一个实施例中，将多版本文献的版式格式模型中的版式格式结构转换为树结构，包括：

将整个文档的标题设置为树结构的根节点，章节标题设置为根节点的子节点，章节标题本身的嵌套结构逐层展开形成树结构。

在其中一个实施例中，对待关联的文档集合中所有版本的树结构进行相似性计算，得到多个相似性距离，包括：

对待关联的文档集合中所有版本的树结构从最顶层至最底层，在每一层级上都进行结构和内容的对比，对每一个版式层次都设置层次编号，按照树状结构的先序遍历，从根结点第一个直接子节点开始设置层次编码，给定两棵版式结构树和/>，查找/>和/>对应的层次编码，若/>中存在层次编码而/>中不存在，则对应层次相似距离记为1，若/>中不存在层次编码而/>中存在，则对应层次相似距离也记为1；若都存在，则比较内容，包括图片、公式、表格的比较，采用内容比较算法，将相似度区间归一为[0,1]，即0为完全相同，1为完全不同；从上到下，逐层执行查找层次编码，将所有层次的相似距离累加得到总和，再除以总的层次数量，即得到/>和/>的相似距离。

在其中一个实施例中，对初始本体版式集合进行差异比较和相似性度量，得到本体版式，包括：

根据内容比较算法对初始本体版式集合中每个版式结构树的逐层元素与初始本体版式进行差异比较，得到每层元素在初始本体版本和初始本体版式集合中的差异数列并计算差异数列的算术平均值，若算术平均值大于预先设置的平均值阈值，则说明对应的元素在初始本体版式和在初始本体版式集合中差异较大，再利用k中心聚类方法仅针对对应的元素进行聚类和相似性度量，取最接近中心的元素替换初始本体版式对应的元素，得到本体版式，若算术平均值不大于预先设置的平均值阈值，则将初始本体版式作为本体版式。

在其中一个实施例中，相似性度量的过程包括：给定两棵版式结构树的要素和，若/>的层次编码与/>层次编码不同，则两者距离记为1；若相同，则比较其内容，包括图片、公式、表格的比较，采用内容比较算法，将相似度区间归一为[0,1]，即0为完全相同，1为完全不同；若比较高于/>和/>的要素，则将子要素的相似度求算术平均，平均值为/>和/>的父要素的相似度量。

在其中一个实施例中，将待关联的文档转换为树结构后与本体版式进行相似性计算，根据计算结果和预先设置的阈值则进行关联，包括：

将待关联的文档的树状结构的每个元素逐层与本体版式的树状结构每个元素进行相似性比较，相似性距离小于预先设置的阈值可视为待关联的文档的树状结构的元素具有同一性，对具有同一性的元素进行与本体版式的元素一致的编码，并插入到数据库表中列对应的行元素上；将待关联的文档的树状结构的每个元素逐层与本体版式的树状结构每个元素进行相似性比较，若相似性距离不小于预先设置的阈值，则待关联的文档的树状结构的元素打上差异标记，空出数据库表中列对应的行元素，经过相似性比较，多个版本的相同元素能够在一张数据表中通过编码进行关联。

一种在线多版本文献内容关联装置，所述装置包括：

版式格式模型构建模块，用于获取待关联的文档集合；文档集合为同一文献的多个版本的文档集合；构建版式格式模型；版式格式模型包括版式格式标识、标题、作者、日期、摘要和版式格式结构；版式格式结构包括第一节部分结构；

嵌套模块，用于根据第一部分结构的嵌套定义来嵌套待关联的文档集合中多版本文献的内容信息，得到多版本文献的版式格式模型；内容信息包括章节标题、章节、部分标题、部分和段落；部分包括若干个段落、图、表以及公式；

树结构转换模块，用于将多版本文献的版式格式模型中的版式格式结构转换为树结构，对待关联的文档集合中所有版本的树结构进行相似性计算，得到多个相似性距离；

初始本体版式计算模块，用于根据DBSCAN聚类算法按照多个相似性距离进行聚类，得到多个类簇；利用k中心聚类方法求出类簇的中心点并计算距离中心点距离最小的版式结构作为初始本体版式，将初始本体版式和同簇中其他文档版式都转换为树结构，得到初始本体版式集合；

相似性度量和编码模块，用于对初始本体版式集合进行差异比较和相似性度量，得到本体版式；对本体版式进行编码，直至编码到最细粒度，得到编码后的本体版式；

内容关联模块，用于根据本体版式中各个元素和编码后的本体版式的各个元素建立数据库，数据库中每个表代表一个本体版式，每一行代表一个元素；将待关联的文档转换为树结构后与本体版式进行相似性计算，根据计算结果和预先设置的阈值则进行关联。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述在线多版本文献内容关联方法、装置、设备及介质，首先定义版式格式模型以及对待关联的文档集合进行嵌套定义、树结构转换和相似性计算，利用树状结构之间的相似性计算两个版式结构，所考虑的因素除了结构上的相似性外还考虑到了内容上的相似性，这不仅能够精准的从层次结构上识别关联相同的版式，还从内容方面准确的认定相同的版式，这为后续进行海量版式中准确的识别关联提供了良好的相似性比较基础。然后根据DBSCAN聚类算法按照多个相似性距离进行聚类，得到多个类簇；利用k中心聚类方法求出类簇的中心点并计算距离中心点距离最小的版式结构作为初始本体版式，将初始本体版式和同簇中其他文档版式都转换为树结构，得到初始本体版式集合。对初始本体版式集合进行差异比较和相似性度量，得到本体版式，在进行本体版式选定时，除了版式具有相似性要进行度量以确定关联性外，也对同一元素是否存在于相似的版式之间进行了度量。基于结构性和内容性的相似性考虑外，还设计了基于子元素相似进而父元素相似的机制，这种方法就可以自下而上不断累计父元素的相似性，从而能够给出合理精准的元素关联结果，并且从实际出发并不是选择某一种既有版式作为本体版式，而是从众多版式中生成了能够代表大多数版式的本体版式，这不仅能够全面涵盖当前已有版式的特点，还能够为后续的管理提供较大的方便，采用了基于密度聚类和K中心的聚类方法，这样就可以更加精准的实现本体版式的生成。根据本体版式中各个元素和编码后的本体版式的各个元素建立数据库，数据库中每个表代表一个本体版式，每一行代表一个元素；将待关联的文档转换为树结构后与本体版式进行相似性计算，根据计算结果和预先设置的阈值则进行关联，采用层次编码的办法构建数据库表的内容，将同一元素关联至该层次编码，考虑了版本相似和元素的相似的差异性，针对差异较大的元素没有采用本体版式对应的元素，而是进行差异化标签，客观上给具有差异的元素分了类，便于人工进行校验，进一步提高了关联的精准度。本申请通过定义版式格式模型以及版式相似距离的基础上依据版式要素之间相似性度量，构建本体版式选定过程方法及版式元素关联过程方法解决了同一文献多个文档版本中元素的关联问题。

附图说明

图1为一个实施例中一种在线多版本文献内容关联方法的流程示意图；

图2为一个实施例中版式格式模型的示意图；

图3为一个实施例中两棵版式树结构的示意图；

图4为一个实施例中一种在线多版本文献内容关联装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种在线多版本文献内容关联方法，包括以下步骤：

步骤102，获取待关联的文档集合；文档集合为同一文献的多个版本的文档集合；构建版式格式模型；版式格式模型包括版式格式标识、标题、作者、日期、摘要和版式格式结构；版式格式结构包括第一节部分结构。

文档在本申请中指文献的某个版本，文档集合为同一文献的多个版本的文档集合。如图2所示，版式格式模型是一种元版式模型，即所有其他版式都依据这种版式格式相关联，其中XXX表示内容；本体版式可用来进行表示，其中是版式格式标识，/>是标题，/>是作者，/>是日期，/>是摘要，/>是版式结构；版式结构/>是一种嵌套式的形式，，其中代表第1节标题，/>代表第1节部分1；/>的结构为，其中/>代表该部分的标题，/>是与/>同类型的结构，/>代表该部分的文本，/>代表该部分的附件信息，常见的附件有图片、公式、表格，还可以是视频信息等，/>表示数量总数；/>的最小单位即为段落。

步骤104，根据第一部分结构的嵌套定义来嵌套待关联的文档集合中多版本文献的内容信息，得到多版本文献的版式格式模型；内容信息包括章节标题、章节、部分标题、部分和段落；部分包括若干个段落、图、表以及公式。

部分在本申请中是特有名词，若干个段落以及图、表、公式等合成的叫做部分，可以理解为比章节小比段落大的一种组织结构。根据结构的嵌套定义，不断嵌套章节标题、章节、部分标题、部分、段落等信息，版式格式模型可以表达任意文档版式，根据第一部分结构的嵌套定义来嵌套待关联的文档集合中多版本文献的内容信息可以得到多版本文献的版式格式模型。通过建立版式格式模型利用嵌套式定义的方法将版式所涉及到的元素全部包含，该模型可以表示任意版式，具有通用性强，表示灵活的特点，相比而言，其他的方法大都专注于某一领域，通用性不好，考虑的要素也不多，表达性不好。

步骤106，将多版本文献的版式格式模型中的版式格式结构转换为树结构，对待关联的文档集合中所有版本的树结构进行相似性计算，得到多个相似性距离。

利用树状结构之间的相似性计算两个版式结构，所考虑的因素除了结构上的相似性外还考虑到了内容上的相似性，这不仅能够精准的从层次结构上识别关联相同的版式，还从内容方面准确的认定相同的版式，这为后续进行海量版式中准确的识别关联提供了良好的相似性比较基础。相比而言，当前的版式管理中缺少这种版式之间相似性度量的机制，即使拿现成的相似性方法也会出现不能从整体上全面考虑相似性的问题。

步骤108，根据DBSCAN聚类算法按照多个相似性距离进行聚类，得到多个类簇；利用k中心聚类方法求出类簇的中心点并计算距离中心点距离最小的版式结构作为初始本体版式，将初始本体版式和同簇中其他文档版式都转换为树结构，得到初始本体版式集合。

步骤110，对初始本体版式集合进行差异比较和相似性度量，得到本体版式；对本体版式进行编码，直至编码到最细粒度，得到编码后的本体版式。

除了版式具有相似性要进行度量以确定关联性外，同一元素是否存在于相似的版式之间这也要进行度量。基于结构性和内容性的相似性考虑外，还设计了基于子元素相似进而父元素相似的机制，这种方法就可以自下而上不断累计父元素的相似性，从而能够给出合理精准的元素关联结果。相比而言，目前对于同一元素在不同版式之间如何关联的问题研究较少。

在进行本体版式选定时，从实际出发并不是选择某一种既有版式作为本体版式，这样会增加实际操作的不准确性，而是从众多版式中生成了能够代表大多数版式的本体版式，这不仅能够全面涵盖当前已有版式的特点，还能够为后续的管理提供较大的方便，采用了基于密度聚类和K中心的聚类方法，这样就可以更加精准的实现本体版式的生成。相比其他方法，采用聚类的思路有限，精准度也不是很高。

本体版式不是某个文档的版式，而是从众多版式中集成融合形成的版式结构，用于对多个版本内容进行内容关联。

步骤112，根据本体版式中各个元素和编码后的本体版式的各个元素建立数据库，数据库中每个表代表一个本体版式，每一行代表一个元素；将待关联的文档转换为树结构后与本体版式进行相似性计算，根据计算结果和预先设置的阈值则进行关联。

采用层次编码的办法构建数据库表的内容，并将同一元素关联至该层次编码，考虑了版本相似和元素的相似的差异性，针对差异较大的元素，并没有采用本体版式对应的元素，而是进行差异化标签，这从客观上给具有差异的元素分了类，便于人工进行校验，进一步提高了关联的精准度，解决了同一文献多个版本中元素的关联问题。

上述在线多版本文献内容关联方法中，首先定义版式格式模型以及对待关联的文档集合进行嵌套定义、树结构转换和相似性计算，利用树状结构之间的相似性计算两个版式结构，所考虑的因素除了结构上的相似性外还考虑到了内容上的相似性，这不仅能够精准的从层次结构上识别关联相同的版式，还从内容方面准确的认定相同的版式，这为后续进行海量版式中准确的识别关联提供了良好的相似性比较基础。然后根据DBSCAN聚类算法按照多个相似性距离进行聚类，得到多个类簇；利用k中心聚类方法求出类簇的中心点并计算距离中心点距离最小的版式结构作为初始本体版式，将初始本体版式和同簇中其他文档版式都转换为树结构，得到初始本体版式集合。对初始本体版式集合进行差异比较和相似性度量，得到本体版式，在进行本体版式选定时，除了版式具有相似性要进行度量以确定关联性外，也对同一元素是否存在于相似的版式之间进行了度量。基于结构性和内容性的相似性考虑外，还设计了基于子元素相似进而父元素相似的机制，这种方法就可以自下而上不断累计父元素的相似性，从而能够给出合理精准的元素关联结果，并且从实际出发并不是选择某一种既有版式作为本体版式，而是从众多版式中生成了能够代表大多数版式的本体版式，这不仅能够全面涵盖当前已有版式的特点，还能够为后续的管理提供较大的方便，采用了基于密度聚类和K中心的聚类方法，这样就可以更加精准的实现本体版式的生成。根据本体版式中各个元素和编码后的本体版式的各个元素建立数据库，数据库中每个表代表一个本体版式，每一行代表一个元素；将待关联的文档转换为树结构后与本体版式进行相似性计算，根据计算结果和预先设置的阈值则进行关联，采用层次编码的办法构建数据库表的内容，将同一元素关联至该层次编码，考虑了版本相似和元素的相似的差异性，针对差异较大的元素没有采用本体版式对应的元素，而是进行差异化标签，客观上给具有差异的元素分了类，便于人工进行校验，进一步提高了关联的精准度。本申请通过定义版式格式模型以及版式相似距离的基础上依据版式要素之间相似性度量，构建本体版式选定过程方法及版式元素关联过程方法解决了同一文献多个文档版本中元素的关联问题。

在具体实施例中，如图3所示给定两棵版式结构树，相似距离计算过程如下：

S1：对每一个版式层次都设置层次编号，按照树状结构的先序遍历，从根结点第一个直接孩子开始设置层次编码，如根结点第一个直接孩子为1，其直接孩子为1.1，根结点第二个直接孩子为2，其直接孩子为2.1；

S2：给定两棵版式结构树和/>，查找/>和/>对应的层次编码，S21：若/>中存在该层次编码而/>中不存在，则该层次相似距离记为1；

S22：若中不存在该层次编码而/>中存在，则该层次相似距离也记为1；

S23：若都存在，则比较其内容，包括图片、公式、表格的比较，这里直接采用成熟的内容比较算法，将相似度区间归一为[0,1]，即0为完全相同，1为完全不同；

S3：从上到下，逐层执行S2，将所有层次的相似距离累加得到总和，再除以总的层次数量，即得到和/>的相似距离/>。

在具体实施例中，本体版式不是某个文档的版式，而是从众多版式中集成融合形成的版式结构，本体版式选定的过程如下：

S1：设文档集合为，其中每个文档为/>；

S2：将其中每个文档都按照版式格式生成树状结构；

S3：利用基于密度的聚类算法DBSCAN将文档集合中的文档按照版式的相似度距离进行聚类，形成多个簇；

S4：针对每个簇，认为一个簇代表一种本体版式；

S5：在一个簇内，利用k中心聚类方法求出该簇的中心点，然后计算距离中心距离最小的版式结构，设为；

S6：将转换为树状结构，将簇中其他文档版式也转换为树状结构，设该集合为/>；

S7：针对中每个版式结构树/>，将/>逐层元素与/>进行差异比较，这形成了关于该元素在/>和/>中的差异数列，求该数列的算术平均值/>，

S71：若大于阈值/>，则说明针对该元素/>和/>差异较大，则利用k中心聚类方法仅针对该元素进行聚类和相似性的度量，取最接近中心的元素替换/>对应的元素；

S72：否则，继续采用的元素；

S8：经过S7处理后所形成的，即为本体版式。

在具体实施例中，本体版式生成后，其他版式中各个元素如何与本体版式的元素关联，以及多版式之间元素关联的实现过程如下所述：

S1：本体版式生成后，按照树状结构将本体版式进行编码，直至编码到最细粒度；

S2：建立本体版式各个元素及其编码的数据库，每个表代表一个本体版式，每一行代表一个元素；

S3：针对一个待关联的文档，首先将该文档转换为版式树状结构；

S4：将该树状结构与本体版式进行相似性比较，相似性距离小于阈值可视为具有同一性，转入S5；否则结束关联过程，返回不具有同一性；

S5：在对应的数据库表增加一列，该列对应的行即为各个元素；

S6：将该树状结构的每个元素逐层与本体版式树状结构每个元素进行相似性比较，相似性距离小于阈值可视为具有同一性，转入S7；否则转入S8；

S7：对该元素进行与本体版式元素一致的编码，并插入到该列对应的行元素上；

S8：对该元素打上差异标记，空出该行元素；

S9：经过上述处理，众多版本的相同元素就可以在一张数据表中通过编码进行关联。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种在线多版本文献内容关联装置，包括：版式格式模型构建模块402、嵌套模块404、树结构转换模块406、初始本体版式计算模块408、相似性度量和编码模块410和内容关联模块412，其中：

版式格式模型构建模块402，用于获取待关联的文档集合；文档集合为同一文献的多个版本的文档集合；构建版式格式模型；版式格式模型包括版式格式标识、标题、作者、日期、摘要和版式格式结构；版式格式结构包括第一节部分结构；

嵌套模块404，用于根据第一部分结构的嵌套定义来嵌套待关联的文档集合中多版本文献的内容信息，得到多版本文献的版式格式模型；内容信息包括章节标题、章节、部分标题、部分和段落；部分包括若干个段落、图、表以及公式；

树结构转换模块406，用于将多版本文献的版式格式模型中的版式格式结构转换为树结构，对待关联的文档集合中所有版本的树结构进行相似性计算，得到多个相似性距离；

初始本体版式计算模块408，用于根据DBSCAN聚类算法按照多个相似性距离进行聚类，得到多个类簇；利用k中心聚类方法求出类簇的中心点并计算距离中心点距离最小的版式结构作为初始本体版式，将初始本体版式和同簇中其他文档版式都转换为树结构，得到初始本体版式集合；

相似性度量和编码模块410，用于对初始本体版式集合进行差异比较和相似性度量，得到本体版式；对本体版式进行编码，直至编码到最细粒度，得到编码后的本体版式；

内容关联模块412，用于根据本体版式中各个元素和编码后的本体版式的各个元素建立数据库，数据库中每个表代表一个本体版式，每一行代表一个元素；将待关联的文档转换为树结构后与本体版式进行相似性计算，根据计算结果和预先设置的阈值则进行关联。

关于一种在线多版本文献内容关联装置的具体限定可以参见上文中对于一种在线多版本文献内容关联方法的限定，在此不再赘述。上述一种在线多版本文献内容关联装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种在线多版本文献内容关联方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种在线多版本文献内容关联方法，其特征在于，所述方法包括：

获取待关联的文档集合；所述文档集合为同一文献的多个版本的文档集合；构建版式格式模型；所述版式格式模型包括版式格式标识、标题、作者、日期、摘要和版式格式结构；所述版式格式结构包括第一节部分结构；

根据所述第一节部分结构的嵌套定义来嵌套待关联的文档集合中多版本文献的内容信息，得到多版本文献的版式格式模型；所述内容信息包括章节标题、章节、部分标题、部分和段落；所述部分包括若干个段落、图、表以及公式；

将所述多版本文献的版式格式模型中的版式格式结构转换为树结构，对所述待关联的文档集合中所有版本的树结构进行相似性计算，得到多个相似性距离；

根据DBSCAN聚类算法对所述多个相似性距离进行聚类，得到多个类簇；

利用k中心聚类方法求出类簇的中心点并计算距离中心点距离最小的版式结构作为初始本体版式，将所述初始本体版式和同簇中其他文档版式都转换为树结构，得到初始本体版式集合；

对所述初始本体版式集合进行差异比较和相似性度量，得到本体版式；对所述本体版式进行编码，直至编码到最细粒度，得到编码后的本体版式；所述本体版式表示为，其中/>是版式格式标识，/>是标题，/>是作者，/>是日期，/>是摘要，/>是版式格式结构；

根据所述本体版式中各个元素和编码后的本体版式的各个元素建立数据库，所述数据库中每个表代表一个本体版式，每一行代表一个元素；

2.根据权利要求1所述的方法，其特征在于，所述版式格式结构是一种嵌套式的形式，表示为

，其中/>代表第一节标题，/>代表第一节部分结构，/>的嵌套定义表示为，其中/>代表这部分的标题，/>是与同类型的结构，/>代表这部分的文本，/>代表这部分的附件信息，附件信息包括图片、公式、表格和视频信息，/>表示数量总数。

3.根据权利要求1所述的方法，其特征在于，将所述多版本文献的版式格式模型中的版式格式结构转换为树结构，包括：

4.根据权利要求1至3任意一项所述的方法，其特征在于，对所述待关联的文档集合中所有版本的树结构进行相似性计算，得到多个相似性距离，包括：

对所述待关联的文档集合中所有版本的树结构从最顶层至最底层，在每一层级上都进行结构和内容的对比，对每一个版式层次都设置层次编号，按照树状结构的先序遍历，从根结点第一个直接子节点开始设置层次编码，给定两棵版式结构树和/>，查找/>和/>对应的层次编码，若/>中存在层次编码而/>中不存在，则对应层次相似距离记为1，若/>中不存在层次编码而/>中存在，则对应层次相似距离也记为1；若都存在，则比较内容，包括图片、公式、表格的比较，采用内容比较算法，将相似度区间归一为[0,1]，即0为完全相同，1为完全不同；从上到下，逐层执行查找层次编码，将所有层次的相似距离累加得到总和，再除以总的层次数量，即得到/>和/>的相似距离。

5.根据权利要求1所述的方法，其特征在于，对所述初始本体版式集合进行差异比较和相似性度量，得到本体版式，包括：

根据内容比较算法对初始本体版式集合中每个版式结构树的逐层元素与初始本体版式进行差异比较，得到每层元素在初始本体版本和初始本体版式集合中的差异数列并计算所述差异数列的算术平均值，若算术平均值大于预先设置的平均值阈值，则说明对应的元素在初始本体版式和在所述初始本体版式集合中差异较大，再利用k中心聚类方法仅针对对应的元素进行聚类和相似性度量，取最接近中心的元素替换初始本体版式对应的元素，得到本体版式，若算术平均值不大于预先设置的平均值阈值，则将初始本体版式作为本体版式。

6.根据权利要求5所述的方法，其特征在于，所述相似性度量的过程包括：

给定两棵版式结构树的要素和/>，若/>的层次编码与/>层次编码不同，则两者距离记为1；若相同，则比较其内容，包括图片、公式、表格的比较，采用内容比较算法，将相似度区间归一为[0,1]，即0为完全相同，1为完全不同；若比较高于/>和/>的要素，则将子要素的相似度求算术平均，平均值为/>和/>的父要素的相似度量。

7.根据权利要求1所述的方法，其特征在于，将待关联的文档转换为树结构后与本体版式进行相似性计算，根据计算结果和预先设置的阈值则进行关联，包括：

8.一种在线多版本文献内容关联装置，其特征在于，所述装置包括：

版式格式模型构建模块，用于获取待关联的文档集合；文档集合为同一文献的多个版本的文档集合；构建版式格式模型；所述版式格式模型包括版式格式标识、标题、作者、日期、摘要和版式格式结构；所述版式格式结构包括第一节部分结构；

嵌套模块，用于根据所述第一节部分结构的嵌套定义来嵌套待关联的文档集合中多版本文献的内容信息，得到多版本文献的版式格式模型；所述内容信息包括章节标题、章节、部分标题、部分和段落；所述部分包括若干个段落、图、表以及公式；

树结构转换模块，用于将所述多版本文献的版式格式模型中的版式格式结构转换为树结构，对所述待关联的文档集合中所有版本的树结构进行相似性计算，得到多个相似性距离；

初始本体版式计算模块，用于根据DBSCAN聚类算法对所述多个相似性距离进行聚类，得到多个类簇；利用k中心聚类方法求出类簇的中心点并计算距离中心点距离最小的版式结构作为初始本体版式，将所述初始本体版式和同簇中其他文档版式都转换为树结构，得到初始本体版式集合；

相似性度量和编码模块，用于对所述初始本体版式集合进行差异比较和相似性度量，得到本体版式；对所述本体版式进行编码，直至编码到最细粒度，得到编码后的本体版式；所述本体版式表示为，其中/>是版式格式标识，/>是标题，/>是作者，/>是日期，/>是摘要，/>是版式格式结构；

内容关联模块，用于根据所述本体版式中各个元素和编码后的本体版式的各个元素建立数据库，所述数据库中每个表代表一个本体版式，每一行代表一个元素；将待关联的文档转换为树结构后与本体版式进行相似性计算，根据计算结果和预先设置的阈值则进行关联。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。