CN110852059B

CN110852059B - 一种基于分组的文档内容差异对比可视化分析方法

Info

Publication number: CN110852059B
Application number: CN201911111334.5A
Authority: CN
Inventors: 李欢; 崔运鹏; 王末; 侯颖; 刘娟; 陈丽
Original assignee: Agricultural Information Institute of CAAS
Current assignee: Agricultural Information Institute of CAAS
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2023-08-29
Anticipated expiration: 2039-11-14
Also published as: CN110852059A

Abstract

本发明公开了一种基于分组的文档内容差异对比可视化分析方法，包括对所述目标数据集进行文本清洗和降噪处理后得到核心数据集；在所述核心数据集上创建分组，将所述核心数据集按类别分组，并任意确定两个待分析的目标分组；针对所述目标分组构建分组语料库，将每个特征词看作以领域特征得分为横坐标、类别关联归一化F值为纵坐标的数据点，在二维坐标系下可视化展现分组文档特征词关联分布散点图。本发明能够帮助用户清晰洞察分组文档主题内容的语义对比差异，同时为用户提供一种交互式查询特征词所在文档的窗口，便于跟踪特征词在文档中分布的分组对比情况。

Description

一种基于分组的文档内容差异对比可视化分析方法

技术领域

本发明涉及文档对比分析可视化技术领域，具体涉及一种基于分组的文档内容差异对比可视化分析方法。

背景技术

信息爆炸时代，以文本为载体的知识积累量呈现指数级增长，人们迫切需要一种快速掌握文本语义信息的可视化工具，从而更加直观、高效地定位文本内容核心要素。现实生活中，文本数据来源多种多样，不同领域的文本所蕴含的语义千差万别。这种情况下，人们偏向于在理解目标文本内容的基础上快速发现目标文本之间的语义差异。在文本数量较少的情形下，依靠人工操作可以准确辨别文档差异，一旦面临以组为单位的批量分析任务，人工分析很难在缺乏专业背景知识的基础上筛选出最能凸显文档领域属性和主题类别特性的特征词，更不容易发现分组文档之间的内容差异。传统的文本比对方法也侧重于展现文本差异，但往往机械地停留在字面表达差异上，不能真正体现文档语义层面的差异。

文本可视化方法通过分析文本资源，提取关键信息，并将其以图形化方式展现出来，是信息可视化的重要分支之一。目前，常用的文本可视化分析方法主要侧重于单文档或多文档集字面内容的可视化，更多地是从词频统计、主题聚类等层面大致反映内容，无法直观展现以组为单位的文档之间的语义内容差异，难以表达文档组之间错综复杂的内容关联规律。

发明内容

本发明的目的在于提供一种基于分组的文档内容差异对比可视化分析方法。

为了实现本发明的上述目的，特采用以下技术方案：

本发明包括以下步骤：

A下载目标数据集以及通用背景语料库；

B对所述目标数据集进行文本清洗和降噪处理后得到核心数据集；

C在所述核心数据集上创建分组，将所述核心数据集按类别分为两个组或多个组，每个分组至少包含四篇摘要非空的文档，并任意确定两个待分析的目标分组；

D针对所述目标分组构建分组语料库，所述分组语料库包括分组文本摘要、标题以及类别信息，结合背景语料库计算所述目标分组的文档中所有词汇的领域特征得分，并设定实验阈值σ1，筛选出所述目标分组的文档中领域特征得分大于阈值的特征词作为下一步的输入；

F计算分组文档中所有特征词与类别的关联归一化F值，设置实验阈值σ2，筛选出关联归一化F值大于阈值的特征词作为满足领域代表性与类别倾向性的类别关联特征词；

G将每个特征词看作以领域特征得分为横坐标、关联归一化F值为纵坐标的数据点，在二维坐标系下可视化展现分组文档特征词关联分布散点图。

具体地，所述领域特征得分公式包括：

其中，SField(w_i)表示词汇w_i的领域特征得分，n为分组语料库中包含的文档总数，doc_k为分组语料库中包含的第k篇文档，Co(w_i,doc_k)表示词汇w_i在文档doc_k中出现的次数，|doc_k|为文档doc_k包含的词汇总数，N_bkg表示背景语料库包含的文档总数，N_bkg(w_i)表示背景语料中包含词汇w_i的文档数。

具体地，所述关联归一化F值计算方法如下所示：

其中，Fs(w_i,c_j)表示词汇w_i与类别为c_j的关联归一化F值，Co(w_i,c_j)表示词汇w_i与类别为c_j的文档共现的频率，C为分组语料库包含的类别，p(w_i,c_j)用于度量词汇w_i的类别倾向性，|doc_i|为类别c_j中第i篇文档包含的词汇数量，f(w_i,c_j)用于度量词汇w_i在类别c_j中的相对频度。

进一步地，所述目标数据集为用户期望对比的文本数据集，主要包含标题、摘要、作者字段，文件存储格式为制表符分隔、UTF-8编码的csv或txt纯文本类型，目标数据集可以来源于符合格式要求的Web of Science核心数据集或者包含关键字段的其他自定义数据集，所述背景语料库为通用领域UTF-8编码的纯文本。

具体的，所述文本清洗包括对所述目标数据集中提取标题、摘要、作者字段，以\t分隔并保存为UTF-8格式的csv或txt(或直接采用wos数据集),所述降噪处理包括对目标数据集进行词干化，去停用词、非法字符及空值等文本噪音的操作。

进一步地，所述分组语料库包括分组文本摘要、标题以及类别信息。

本发明的有益效果在于：

本发明考虑了分组文档特征词的领域代表性和类别关联性，将分组文档之间的内容差异转化为考察分组文档特征词之间的语义关联与分布差异。通过计算目标分组词汇的领域特征得分以及类别关联归一化F值，设定阈值自动筛选出既能区别于通用背景语料又能凸显分组类别的特征词汇。同时，将特征词的领域特征得分及类别关联归一化F值映射到二维直角坐标系上的数据点，并采用不同深浅层次的颜色直观展现不同目标分组中特征词的类别倾向性以及交叉相关性分布规律。能够帮助用户清晰洞察文档分组主题内容的语义对比差异，同时为用户提供一种交互式查询特征词所在文档的窗口，便于跟踪特征词在文档中分布的分组对比情况。操作简便，易于理解，直观明了，分析效率高，不依赖于人工提取特征词，适用于对比挖掘任何领域的分组文档之间的差异，具有较好的实际分析应用价值。

附图说明

图1是基于分组的文档内容差异对比可视化分析方法流程图；

图2是基于分组的文档内容差异对比可视化分析方法的具体流程图；

具体实施方式

下面结合附图对本发明作进一步说明：

如图1和2所示，步骤10准备目标数据集以及通用背景语料库；

上述目标数据集为用户期望对比的文本数据集，主要包含标题、摘要、作者字段，文件存储格式为制表符分隔、UTF-8编码的csv或txt纯文本类型，目标数据集可以来源于符合格式要求的Web of Science核心数据集或者包含关键字段的其他自定义数据集，上述背景语料库为通用领域UTF-8编码的纯文本。

步骤20预处理目标数据集；

上述预处理是：去除目标数据集中摘要为空的文本，提取标题、摘要、作者字段，以\t分隔并保存为UTF-8格式的csv或txt(或直接采用wos数据集),然后对其进行词干化，去停用词、非法字符及空值等文本噪音的操作，最大限度降低噪音对可视化分析效果的影响。

步骤30针对目标数据集创建分组，并确定两个待分析的目标分组；

上述创建分组可以将目标数据集按类别分为两组或多个组，每个分组至少包含四篇摘要非空的文档，尽量选择文档数量较接近的两个分组作为待分析的目标分组。

步骤40针对目标分组构建分组语料库；

针对确定的目标分组构建分组语料库，所述分组语料库包括目标分组中所有文档汇总后的文本摘要、标题以及类别信息。

步骤50计算分组文档中所有词汇的领域特征得分；

结合背景语料库与分组语料库计算分组文档中所有词汇的领域特征得分，设定实验阈值σ1，筛选出在分组文档中区别于背景语料常用词的分组特征词，将得分大于阈值的特征词作为下一步的输入。阈值σ1与分组文档包含的词汇数量有关，本发明将σ1定为领域特征得分排名前60％的特征词对应的最低得分值。

步骤60计算特征词与类别的关联归一化F值；

上述关联归一化F值主要用来度量特征词与类别的关联紧密程度，设置实验阈值σ2，筛选出关联归一化F值大于阈值的特征词作为满足领域代表性与类别倾向性的类别关联特征词。阈值σ2与输入的特征词数量有关，本发明将σ2定为各分组中关联归一化F值排名前40％的特征词对应的最低值。

步骤70在二维坐标系下可视化展现分组文档特征词关联分布散点图。

分别赋予X轴、Y轴不同的指标含义，直观展现目标分组特征词的类别关联紧密程度以及分布规律的差异。点击图中任意特征词数据点，返回目标分组中包含该词汇的详细文档信息。

例如：X轴表示特征词的领域特征得分范围，从左到右分值依次递增，分布位置越往右越能体现特征词区别于通用语料的分组领域性，Y轴表示特征词关于两个分组的类别关联归一化F值范围，分别取两个分组中类别关联归一化F值最低的值，以其平均值作为类别分布临界线，越往临界线两侧延伸分布的特征词越具有所在分组的类别倾向性，越靠近临界线的数据点表示两个分组内容交叉关联较密切。在二维坐标系上，用两种不同的颜色分别标记目标分组中的特征词数据点，X轴方向从左到右颜色逐渐加深，Y轴方向从近邻分界线到两端远离分界线的位置，数据点颜色由浅入深。数据点颜色的深浅程度与其在X轴、Y轴的相对坐标值大小成正比。

所述领域特征得分公式包括：

所述关联归一化F值计算方法如下所示：

例如：“river discharge”在分组语料库中的5篇文档出现过，出现次数分别为2、3、3、4、5，每篇文档包含单词个数分别为95、90、96、98、100，第一篇文档属于“土壤”类别，第二、三、四、五篇文档属于“河流”类别，背景语料库包含1000篇文档，其中包含词汇“riverdischarge”的文档数量为2,则该词汇的领域特征得分为(2/95+3/90+3/96+4/98+5/100)×log₂(1000/2.05)＝1.58,计算出p("riverdischarge","河流")＝(3+3+4+5)/(2+3+3+4+5)＝0.88，f("riverdischarge","河流")＝(3/90+3/96+4/98+5/100)＝0.15，则该词汇与“河流”的类别关联归一化F值为2×0.88×0.15/(0.88+0.15)＝0.26。p("riverdischarge","土壤")＝2/(2+3+3+4+5)＝0.12,f("riverdischarge","土壤")＝2/95＝0.02,则该词汇与“土壤”的类别关联归一化F值为2×0.12×0.02/(0.12+0.02)＝0.03，比较F值大小，可以发现词汇“river discharge”更偏向于突出河流类别。

上述实施例提供的技术方案考虑了分组文档特征词的领域代表性和类别关联性，将分组文档之间的内容差异转化为考察分组文档特征词之间的语义关联与分布差异。通过计算目标分组词汇的领域特征得分以及类别关联归一化F值，设定阈值自动筛选出既能区别于通用背景语料又能凸显分组类别的特征词汇。同时，将特征词的领域特征得分及类别关联归一化F值映射到二维直角坐标系上的数据点，并采用不同深浅层次的颜色直观展现不同目标分组中特征词的类别倾向性以及交叉相关性分布规律。能够帮助用户清晰洞察文档分组主题内容的语义对比差异，同时为用户提供一种交互式查询特征词所在文档的窗口，便于跟踪特征词在文档中分布的分组对比情况。操作简便，易于理解，直观明了，分析效率高，不依赖于人工提取特征词，适用于对比挖掘任何领域的分组文档之间的差异，具有较好的实际分析应用价值。

上述说明也并不仅限于上述举例，本发明未经描述的技术特征可以通过或采用现有技术实现，在此不再赘述；以上实施例及附图仅用于说明本发明的技术方案并非是对本发明的限制，参照优选的实施方式对本发明进行了详细说明，本技术领域的普通技术人员在本发明的实质范围内所作的任何修改、等同替换、改进等也应属于本发明的权利要求保护范围。

Claims

1.一种基于分组的文档内容差异对比可视化分析方法，其特征在于：

A下载目标数据集以及背景语料库；

C在所述核心数据集上创建分组，将所述核心数据集按类别分为两组或多个组，每个分组至少包含四篇摘要非空的文档，并任意确定两个待分析的目标分组；

D针对所述目标分组构建分组语料库，所述分组语料库包括分组摘要文本、标题以及分组类别信息，结合分组语料库与背景语料库计算所述目标分组的文档中所有词汇的领域特征得分，并设定实验阈值σ1，筛选出所述目标分组的文档中领域特征得分大于阈值的特征词作为下一步的输入；

G将每个特征词看作以领域特征得分为横坐标、关联归一化F值为纵坐标的数据点，在二维坐标系下可视化展现分组文档特征词关联分布散点图；

领域特征得分公式包括：

其中，SField(w_i)表示词汇w_i的领域特征得分，n为分组语料库中包含的文档总数，doc_k为分组语料库中包含的第k篇文档，Co(w_i,doc_k)表示词汇w_i在文档doc_k中出现的次数，|doc_k|为文档doc_k包含的词汇总数，N_bkg表示背景语料库包含的文档总数，N_bkg(w_i)表示背景语料中包含词汇w_i的文档数；

所述关联归一化F值计算方法如下所示：

其中，Fs(w_i,c_j)表示词汇w_i与类别为c_j的关联归一化F值，Co(w_i,c_j)表示词汇w_i与类别为c_j的文档共现的频率，C为分组语料库包含的类别，p(w_i,c_j)用于度量词汇w_i的类别倾向性，doc_i为类别c_j中第i篇文档包含的词汇数量，f(w_i,c_j)用于度量词汇w_i在类别c_j中的相对频度。

2.根据权利要求1所述的一种基于分组的文档内容差异对比可视化分析方法，其特征在于：所述目标数据集为用户期望对比的文本数据集，主要包含标题、摘要、作者字段，文件存储格式为制表符分隔、UTF-8编码的csv或txt纯文本类型，目标数据集可以来源于符合格式要求的Web of Science核心数据集或者包含关键字段的其他自定义数据集，所述背景语料库为通用领域UTF-8编码的纯文本。

3.根据权利要求1所述的一种基于分组的文档内容差异对比可视化分析方法，其特征在于：所述文本清洗包括对所述目标数据集中提取标题、摘要、作者字段，以\t分隔并保存为UTF-8格式的csv或txt,所述降噪处理包括对目标数据集进行词干化，去停用词、非法字符及空值文本噪音的操作。

4.根据权利要求1所述的一种基于分组的文档内容差异对比可视化分析方法，其特征在于：所述分组语料库包括分组摘要文本、标题以及分组类别信息。