CN110852059B - 一种基于分组的文档内容差异对比可视化分析方法 - Google Patents

一种基于分组的文档内容差异对比可视化分析方法 Download PDF

Info

Publication number
CN110852059B
CN110852059B CN201911111334.5A CN201911111334A CN110852059B CN 110852059 B CN110852059 B CN 110852059B CN 201911111334 A CN201911111334 A CN 201911111334A CN 110852059 B CN110852059 B CN 110852059B
Authority
CN
China
Prior art keywords
grouping
data set
document
category
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911111334.5A
Other languages
English (en)
Other versions
CN110852059A (zh
Inventor
李欢
崔运鹏
王末
侯颖
刘娟
陈丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Information Institute of CAAS
Original Assignee
Agricultural Information Institute of CAAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Information Institute of CAAS filed Critical Agricultural Information Institute of CAAS
Priority to CN201911111334.5A priority Critical patent/CN110852059B/zh
Publication of CN110852059A publication Critical patent/CN110852059A/zh
Application granted granted Critical
Publication of CN110852059B publication Critical patent/CN110852059B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于分组的文档内容差异对比可视化分析方法,包括对所述目标数据集进行文本清洗和降噪处理后得到核心数据集;在所述核心数据集上创建分组,将所述核心数据集按类别分组,并任意确定两个待分析的目标分组;针对所述目标分组构建分组语料库,将每个特征词看作以领域特征得分为横坐标、类别关联归一化F值为纵坐标的数据点,在二维坐标系下可视化展现分组文档特征词关联分布散点图。本发明能够帮助用户清晰洞察分组文档主题内容的语义对比差异,同时为用户提供一种交互式查询特征词所在文档的窗口,便于跟踪特征词在文档中分布的分组对比情况。

Description

一种基于分组的文档内容差异对比可视化分析方法
技术领域
本发明涉及文档对比分析可视化技术领域,具体涉及一种基于分组的文档内容差异对比可视化分析方法。
背景技术
信息爆炸时代,以文本为载体的知识积累量呈现指数级增长,人们迫切需要一种快速掌握文本语义信息的可视化工具,从而更加直观、高效地定位文本内容核心要素。现实生活中,文本数据来源多种多样,不同领域的文本所蕴含的语义千差万别。这种情况下,人们偏向于在理解目标文本内容的基础上快速发现目标文本之间的语义差异。在文本数量较少的情形下,依靠人工操作可以准确辨别文档差异,一旦面临以组为单位的批量分析任务,人工分析很难在缺乏专业背景知识的基础上筛选出最能凸显文档领域属性和主题类别特性的特征词,更不容易发现分组文档之间的内容差异。传统的文本比对方法也侧重于展现文本差异,但往往机械地停留在字面表达差异上,不能真正体现文档语义层面的差异。
文本可视化方法通过分析文本资源,提取关键信息,并将其以图形化方式展现出来,是信息可视化的重要分支之一。目前,常用的文本可视化分析方法主要侧重于单文档或多文档集字面内容的可视化,更多地是从词频统计、主题聚类等层面大致反映内容,无法直观展现以组为单位的文档之间的语义内容差异,难以表达文档组之间错综复杂的内容关联规律。
发明内容
本发明的目的在于提供一种基于分组的文档内容差异对比可视化分析方法。
为了实现本发明的上述目的,特采用以下技术方案:
本发明包括以下步骤:
A下载目标数据集以及通用背景语料库;
B对所述目标数据集进行文本清洗和降噪处理后得到核心数据集;
C在所述核心数据集上创建分组,将所述核心数据集按类别分为两个组或多个组,每个分组至少包含四篇摘要非空的文档,并任意确定两个待分析的目标分组;
D针对所述目标分组构建分组语料库,所述分组语料库包括分组文本摘要、标题以及类别信息,结合背景语料库计算所述目标分组的文档中所有词汇的领域特征得分,并设定实验阈值σ1,筛选出所述目标分组的文档中领域特征得分大于阈值的特征词作为下一步的输入;
F计算分组文档中所有特征词与类别的关联归一化F值,设置实验阈值σ2,筛选出关联归一化F值大于阈值的特征词作为满足领域代表性与类别倾向性的类别关联特征词;
G将每个特征词看作以领域特征得分为横坐标、关联归一化F值为纵坐标的数据点,在二维坐标系下可视化展现分组文档特征词关联分布散点图。
具体地,所述领域特征得分公式包括:
其中,SField(wi)表示词汇wi的领域特征得分,n为分组语料库中包含的文档总数,dock为分组语料库中包含的第k篇文档,Co(wi,dock)表示词汇wi在文档dock中出现的次数,|dock|为文档dock包含的词汇总数,Nbkg表示背景语料库包含的文档总数,Nbkg(wi)表示背景语料中包含词汇wi的文档数。
具体地,所述关联归一化F值计算方法如下所示:
其中,Fs(wi,cj)表示词汇wi与类别为cj的关联归一化F值,Co(wi,cj)表示词汇wi与类别为cj的文档共现的频率,C为分组语料库包含的类别,p(wi,cj)用于度量词汇wi的类别倾向性,|doci|为类别cj中第i篇文档包含的词汇数量,f(wi,cj)用于度量词汇wi在类别cj中的相对频度。
进一步地,所述目标数据集为用户期望对比的文本数据集,主要包含标题、摘要、作者字段,文件存储格式为制表符分隔、UTF-8编码的csv或txt纯文本类型,目标数据集可以来源于符合格式要求的Web of Science核心数据集或者包含关键字段的其他自定义数据集,所述背景语料库为通用领域UTF-8编码的纯文本。
具体的,所述文本清洗包括对所述目标数据集中提取标题、摘要、作者字段,以\t分隔并保存为UTF-8格式的csv或txt(或直接采用wos数据集),所述降噪处理包括对目标数据集进行词干化,去停用词、非法字符及空值等文本噪音的操作。
进一步地,所述分组语料库包括分组文本摘要、标题以及类别信息。
本发明的有益效果在于:
本发明考虑了分组文档特征词的领域代表性和类别关联性,将分组文档之间的内容差异转化为考察分组文档特征词之间的语义关联与分布差异。通过计算目标分组词汇的领域特征得分以及类别关联归一化F值,设定阈值自动筛选出既能区别于通用背景语料又能凸显分组类别的特征词汇。同时,将特征词的领域特征得分及类别关联归一化F值映射到二维直角坐标系上的数据点,并采用不同深浅层次的颜色直观展现不同目标分组中特征词的类别倾向性以及交叉相关性分布规律。能够帮助用户清晰洞察文档分组主题内容的语义对比差异,同时为用户提供一种交互式查询特征词所在文档的窗口,便于跟踪特征词在文档中分布的分组对比情况。操作简便,易于理解,直观明了,分析效率高,不依赖于人工提取特征词,适用于对比挖掘任何领域的分组文档之间的差异,具有较好的实际分析应用价值。
附图说明
图1是基于分组的文档内容差异对比可视化分析方法流程图;
图2是基于分组的文档内容差异对比可视化分析方法的具体流程图;
具体实施方式
下面结合附图对本发明作进一步说明:
如图1和2所示,步骤10准备目标数据集以及通用背景语料库;
上述目标数据集为用户期望对比的文本数据集,主要包含标题、摘要、作者字段,文件存储格式为制表符分隔、UTF-8编码的csv或txt纯文本类型,目标数据集可以来源于符合格式要求的Web of Science核心数据集或者包含关键字段的其他自定义数据集,上述背景语料库为通用领域UTF-8编码的纯文本。
步骤20预处理目标数据集;
上述预处理是:去除目标数据集中摘要为空的文本,提取标题、摘要、作者字段,以\t分隔并保存为UTF-8格式的csv或txt(或直接采用wos数据集),然后对其进行词干化,去停用词、非法字符及空值等文本噪音的操作,最大限度降低噪音对可视化分析效果的影响。
步骤30针对目标数据集创建分组,并确定两个待分析的目标分组;
上述创建分组可以将目标数据集按类别分为两组或多个组,每个分组至少包含四篇摘要非空的文档,尽量选择文档数量较接近的两个分组作为待分析的目标分组。
步骤40针对目标分组构建分组语料库;
针对确定的目标分组构建分组语料库,所述分组语料库包括目标分组中所有文档汇总后的文本摘要、标题以及类别信息。
步骤50计算分组文档中所有词汇的领域特征得分;
结合背景语料库与分组语料库计算分组文档中所有词汇的领域特征得分,设定实验阈值σ1,筛选出在分组文档中区别于背景语料常用词的分组特征词,将得分大于阈值的特征词作为下一步的输入。阈值σ1与分组文档包含的词汇数量有关,本发明将σ1定为领域特征得分排名前60%的特征词对应的最低得分值。
步骤60计算特征词与类别的关联归一化F值;
上述关联归一化F值主要用来度量特征词与类别的关联紧密程度,设置实验阈值σ2,筛选出关联归一化F值大于阈值的特征词作为满足领域代表性与类别倾向性的类别关联特征词。阈值σ2与输入的特征词数量有关,本发明将σ2定为各分组中关联归一化F值排名前40%的特征词对应的最低值。
步骤70在二维坐标系下可视化展现分组文档特征词关联分布散点图。
分别赋予X轴、Y轴不同的指标含义,直观展现目标分组特征词的类别关联紧密程度以及分布规律的差异。点击图中任意特征词数据点,返回目标分组中包含该词汇的详细文档信息。
例如:X轴表示特征词的领域特征得分范围,从左到右分值依次递增,分布位置越往右越能体现特征词区别于通用语料的分组领域性,Y轴表示特征词关于两个分组的类别关联归一化F值范围,分别取两个分组中类别关联归一化F值最低的值,以其平均值作为类别分布临界线,越往临界线两侧延伸分布的特征词越具有所在分组的类别倾向性,越靠近临界线的数据点表示两个分组内容交叉关联较密切。在二维坐标系上,用两种不同的颜色分别标记目标分组中的特征词数据点,X轴方向从左到右颜色逐渐加深,Y轴方向从近邻分界线到两端远离分界线的位置,数据点颜色由浅入深。数据点颜色的深浅程度与其在X轴、Y轴的相对坐标值大小成正比。
所述领域特征得分公式包括:
其中,SField(wi)表示词汇wi的领域特征得分,n为分组语料库中包含的文档总数,dock为分组语料库中包含的第k篇文档,Co(wi,dock)表示词汇wi在文档dock中出现的次数,|dock|为文档dock包含的词汇总数,Nbkg表示背景语料库包含的文档总数,Nbkg(wi)表示背景语料中包含词汇wi的文档数。
所述关联归一化F值计算方法如下所示:
其中,Fs(wi,cj)表示词汇wi与类别为cj的关联归一化F值,Co(wi,cj)表示词汇wi与类别为cj的文档共现的频率,C为分组语料库包含的类别,p(wi,cj)用于度量词汇wi的类别倾向性,|doci|为类别cj中第i篇文档包含的词汇数量,f(wi,cj)用于度量词汇wi在类别cj中的相对频度。
例如:“river discharge”在分组语料库中的5篇文档出现过,出现次数分别为2、3、3、4、5,每篇文档包含单词个数分别为95、90、96、98、100,第一篇文档属于“土壤”类别,第二、三、四、五篇文档属于“河流”类别,背景语料库包含1000篇文档,其中包含词汇“riverdischarge”的文档数量为2,则该词汇的领域特征得分为(2/95+3/90+3/96+4/98+5/100)×log2(1000/2.05)=1.58,计算出p("riverdischarge","河流")=(3+3+4+5)/(2+3+3+4+5)=0.88,f("riverdischarge","河流")=(3/90+3/96+4/98+5/100)=0.15,则该词汇与“河流”的类别关联归一化F值为2×0.88×0.15/(0.88+0.15)=0.26。p("riverdischarge","土壤")=2/(2+3+3+4+5)=0.12,f("riverdischarge","土壤")=2/95=0.02,则该词汇与“土壤”的类别关联归一化F值为2×0.12×0.02/(0.12+0.02)=0.03,比较F值大小,可以发现词汇“river discharge”更偏向于突出河流类别。
上述实施例提供的技术方案考虑了分组文档特征词的领域代表性和类别关联性,将分组文档之间的内容差异转化为考察分组文档特征词之间的语义关联与分布差异。通过计算目标分组词汇的领域特征得分以及类别关联归一化F值,设定阈值自动筛选出既能区别于通用背景语料又能凸显分组类别的特征词汇。同时,将特征词的领域特征得分及类别关联归一化F值映射到二维直角坐标系上的数据点,并采用不同深浅层次的颜色直观展现不同目标分组中特征词的类别倾向性以及交叉相关性分布规律。能够帮助用户清晰洞察文档分组主题内容的语义对比差异,同时为用户提供一种交互式查询特征词所在文档的窗口,便于跟踪特征词在文档中分布的分组对比情况。操作简便,易于理解,直观明了,分析效率高,不依赖于人工提取特征词,适用于对比挖掘任何领域的分组文档之间的差异,具有较好的实际分析应用价值。
上述说明也并不仅限于上述举例,本发明未经描述的技术特征可以通过或采用现有技术实现,在此不再赘述;以上实施例及附图仅用于说明本发明的技术方案并非是对本发明的限制,参照优选的实施方式对本发明进行了详细说明,本技术领域的普通技术人员在本发明的实质范围内所作的任何修改、等同替换、改进等也应属于本发明的权利要求保护范围。

Claims (4)

1.一种基于分组的文档内容差异对比可视化分析方法,其特征在于:
A下载目标数据集以及背景语料库;
B对所述目标数据集进行文本清洗和降噪处理后得到核心数据集;
C在所述核心数据集上创建分组,将所述核心数据集按类别分为两组或多个组,每个分组至少包含四篇摘要非空的文档,并任意确定两个待分析的目标分组;
D针对所述目标分组构建分组语料库,所述分组语料库包括分组摘要文本、标题以及分组类别信息,结合分组语料库与背景语料库计算所述目标分组的文档中所有词汇的领域特征得分,并设定实验阈值σ1,筛选出所述目标分组的文档中领域特征得分大于阈值的特征词作为下一步的输入;
F计算分组文档中所有特征词与类别的关联归一化F值,设置实验阈值σ2,筛选出关联归一化F值大于阈值的特征词作为满足领域代表性与类别倾向性的类别关联特征词;
G将每个特征词看作以领域特征得分为横坐标、关联归一化F值为纵坐标的数据点,在二维坐标系下可视化展现分组文档特征词关联分布散点图;
领域特征得分公式包括:
其中,SField(wi)表示词汇wi的领域特征得分,n为分组语料库中包含的文档总数,dock为分组语料库中包含的第k篇文档,Co(wi,dock)表示词汇wi在文档dock中出现的次数,|dock|为文档dock包含的词汇总数,Nbkg表示背景语料库包含的文档总数,Nbkg(wi)表示背景语料中包含词汇wi的文档数;
所述关联归一化F值计算方法如下所示:
其中,Fs(wi,cj)表示词汇wi与类别为cj的关联归一化F值,Co(wi,cj)表示词汇wi与类别为cj的文档共现的频率,C为分组语料库包含的类别,p(wi,cj)用于度量词汇wi的类别倾向性,doci为类别cj中第i篇文档包含的词汇数量,f(wi,cj)用于度量词汇wi在类别cj中的相对频度。
2.根据权利要求1所述的一种基于分组的文档内容差异对比可视化分析方法,其特征在于:所述目标数据集为用户期望对比的文本数据集,主要包含标题、摘要、作者字段,文件存储格式为制表符分隔、UTF-8编码的csv或txt纯文本类型,目标数据集可以来源于符合格式要求的Web of Science核心数据集或者包含关键字段的其他自定义数据集,所述背景语料库为通用领域UTF-8编码的纯文本。
3.根据权利要求1所述的一种基于分组的文档内容差异对比可视化分析方法,其特征在于:所述文本清洗包括对所述目标数据集中提取标题、摘要、作者字段,以\t分隔并保存为UTF-8格式的csv或txt,所述降噪处理包括对目标数据集进行词干化,去停用词、非法字符及空值文本噪音的操作。
4.根据权利要求1所述的一种基于分组的文档内容差异对比可视化分析方法,其特征在于:所述分组语料库包括分组摘要文本、标题以及分组类别信息。
CN201911111334.5A 2019-11-14 2019-11-14 一种基于分组的文档内容差异对比可视化分析方法 Active CN110852059B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911111334.5A CN110852059B (zh) 2019-11-14 2019-11-14 一种基于分组的文档内容差异对比可视化分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911111334.5A CN110852059B (zh) 2019-11-14 2019-11-14 一种基于分组的文档内容差异对比可视化分析方法

Publications (2)

Publication Number Publication Date
CN110852059A CN110852059A (zh) 2020-02-28
CN110852059B true CN110852059B (zh) 2023-08-29

Family

ID=69600199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911111334.5A Active CN110852059B (zh) 2019-11-14 2019-11-14 一种基于分组的文档内容差异对比可视化分析方法

Country Status (1)

Country Link
CN (1) CN110852059B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694930B (zh) * 2020-06-11 2023-11-14 中国农业科学院农业信息研究所 一种动态知识热点演化及趋势分析方法
CN111914771A (zh) * 2020-08-06 2020-11-10 长沙公信诚丰信息技术服务有限公司 一种证照信息自动比对方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN104063382A (zh) * 2013-03-19 2014-09-24 中国石油天然气股份有限公司 面向油气管道领域的多策略融合的标准术语处理方法
CN105224695A (zh) * 2015-11-12 2016-01-06 中南大学 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置
CN109960802A (zh) * 2019-03-19 2019-07-02 四川大学 针对航空安全报告叙述性文本的信息处理方法和装置
CN110413989A (zh) * 2019-06-19 2019-11-05 北京邮电大学 一种基于领域语义关系图的文本领域确定方法与系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9672206B2 (en) * 2015-06-01 2017-06-06 Information Extraction Systems, Inc. Apparatus, system and method for application-specific and customizable semantic similarity measurement

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN104063382A (zh) * 2013-03-19 2014-09-24 中国石油天然气股份有限公司 面向油气管道领域的多策略融合的标准术语处理方法
CN105224695A (zh) * 2015-11-12 2016-01-06 中南大学 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置
CN109960802A (zh) * 2019-03-19 2019-07-02 四川大学 针对航空安全报告叙述性文本的信息处理方法和装置
CN110413989A (zh) * 2019-06-19 2019-11-05 北京邮电大学 一种基于领域语义关系图的文本领域确定方法与系统

Also Published As

Publication number Publication date
CN110852059A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN105786991B (zh) 结合用户情感表达方式的中文情感新词识别方法和系统
TWI653542B (zh) 一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置
US7761437B2 (en) Named entity extracting apparatus, method, and program
CN110888990B (zh) 文本推荐方法、装置、设备及介质
NZ524988A (en) A document categorisation system
WO2001022280A2 (en) Determining trends using text mining
US20110055228A1 (en) Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof
CN107463548A (zh) 短语挖掘方法及装置
CN106776672A (zh) 技术发展脉络图确定方法
CN110852059B (zh) 一种基于分组的文档内容差异对比可视化分析方法
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN108304382A (zh) 基于制造过程文本数据挖掘的质量分析方法与系统
CN110287493B (zh) 风险短语识别方法、装置、电子设备及存储介质
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
Bartík Text-based web page classification with use of visual information
CN115659046B (zh) 基于ai大数据的技术交易推荐系统及方法
CN108197295B (zh) 基于多粒度属性树的属性约简在文本分类中的应用方法
CN113779983B (zh) 文本数据处理方法以及装置、存储介质、电子装置
CN115269846A (zh) 文本处理方法、装置、电子设备及存储介质
Chiarello et al. Design and implementation of a text mining-based tool to support scoping reviews
KR20020064821A (ko) 문서 장르 학습 시스템 및 그 방법과 그를 이용한 문서장르 분류시스템 및 그 방법
Karmaker et al. Performance analysis of frequency and graph theoretic based text summarization
Behrisch et al. The News Auditor: Visual Exploration of Clusters of Stories.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant