CN103077157A - 一种文本集合相似性的可视化方法和装置 - Google Patents

一种文本集合相似性的可视化方法和装置 Download PDF

Info

Publication number
CN103077157A
CN103077157A CN2013100225890A CN201310022589A CN103077157A CN 103077157 A CN103077157 A CN 103077157A CN 2013100225890 A CN2013100225890 A CN 2013100225890A CN 201310022589 A CN201310022589 A CN 201310022589A CN 103077157 A CN103077157 A CN 103077157A
Authority
CN
China
Prior art keywords
similarity
text collection
text
feature words
common trait
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100225890A
Other languages
English (en)
Other versions
CN103077157B (zh
Inventor
唐家渝
孙茂松
刘知远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201310022589.0A priority Critical patent/CN103077157B/zh
Publication of CN103077157A publication Critical patent/CN103077157A/zh
Application granted granted Critical
Publication of CN103077157B publication Critical patent/CN103077157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本集合相似性的可视化方法及装置,属于文本信息处理和信息可视化领域;所述方法包括:对文本集合进行预处理;对文本集合的相似度进行计算;对文本集合的相似性进行可视化;所述装置包括:预处理模块、文本相似性计算模块和可视化模块。本发明通过建立文本集合相似度计算模型来对文本集合的相似性进行度量,并以图形化的方式显示相似性结果,达到使用户直观、快速地了解文本集合内容以及相似性信息的有益效果。

Description

一种文本集合相似性的可视化方法和装置
技术领域
本发明涉及文本信息处理和信息可视化领域,特别涉及一种文本集合相似性的可视化方法和装置。
背景技术
随着信息技术的快速发展,海量信息不断涌现,使得人们对其处理和理解的难度日益增大。传统的文本处理技术虽已在一定程度上实现了从大数据中挖掘出重要信息,但是这些挖掘出的信息通常仍然无法满足人们利用浏览、筛选等方式对其进行合理地分析、理解和应用。面对这种挑战,文本可视化技术应运而生,它将文本中复杂的或者难以通过文字表达的内容和规律,以视觉符号的形式表达出来,同时向人们提供与视觉信息进行快速交互的功能,使人们能够利用与生俱来的视觉感知的并行化处理能力快速获取大数据中所蕴含的关键信息,为人们提供了一种理解文本的内容、结构和内在规律等信息的有效手段。
基于文本内容的可视化技术将词频(词语在文本中的出现次数)、分布情况等基本统计信息进行图形化呈现,能使用户快速地了解文本的大体内容,对于进一步的分析具有重要的向导意义。其中,标签云是一种将文本看作词语的集合,利用词频信息来呈现文本特征的可视化技术。标签云将词语按照一定顺序和规律排列,如频度递减顺序、字母顺序等,以文字的大小代表词语的频度或重要性。最初的标签云大多都采用将文字一行一行地水平排列的方式,后来渐渐遵循更加美观复杂的布局规则,Jonathan Feinberg提出的Wordle便是其中被广泛采用的代表之一。在Wordle中,词语的布局采用水平、竖直相结合的方式,并将文字间的空隙充分利用,使得可视化结果更加紧凑、美观。然而,标签云只能对单一文本集合进行可视化,不能表现文本集合之间的关系。
发明内容
为克服上述现有技术的缺点,本发明的目的在于提供一种文本集合的相似性的可视化方法和装置,通过建立文本集合相似度计算模型来对文本集合的相似性进行度量,并以图形化的方式显示结果,使用户对两个文本集合的相似性有直观地了解。
为实现上述目的,本法采取如下技术方案:
一方面,提供了一种文本集合相似性的可视化方法,所述方法包括:
对文本集合进行预处理,以得到文本集合的特征词及特征词的权重;
对文本集合的相似度进行计算;
对文本集合的相似性进行可视化。
另一方面,提供了一种文本集合相似性的可视化装置,所述装置包括:
预处理模块,用于将待可视化的原始数据进行预处理,获得文本集合的特征词及特征词的权重;
文本相似性计算模块,用于计算文本集合的相似度;
可视化模块,用于利用上述结果数据进行信息可视化,呈现出文本集合的相似性。
与现有技术相比,本发明的有益效果是:
将文本集合的特征词及文本集合的相似关系通过图形界面进行展示,从而达到使用户直观、快速地了解文本集合内容以及相似性信息的目的。
附图说明
图1是本发明实施例1提供的文本集合相似性的可视化方法流程图。
图2是本发明实施例2提供的文本集合相似性的可视化装置结构示意图。
图3是本发明实施例3提供的文本集合相似性的可视化装置结构示意图。
图4是应用本发明实施例3所述装置对文本集合相似性进行可视化的结果示例示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图和实施例对本发明作进一步的详细描述。
实施例1
参见图1,本实施例提供了一种文本集合相似性的可视化方法,方法流程如下所示:
101:对文本集合进行预处理;
102:对文本集合的相似度进行计算;
103:对文本集合的相似性进行可视化。
本实施例提供的方法,通过建立文本集合相似度计算模型来对文本集合的相似性进行度量,并以图形化的方式显示相似性结果,达到使用户直观、快速地了解文本集合内容以及相似性信息的有益效果。
实施例2
参见图2,本实施提供了一种文本集合相似性的可视化装置,该装置包括:
预处理模块201,用于对待进行相似度计算的文本集合进行预处理;
相似度计算模块202,用于对经预处理后的文本集合进行相似度计算;
可视化模块203,用于对文本集合的相似性进行可视化。
具体地,上述预处理模块201中,将文本集合切分成词,去除停用词后得到文本特征词,并计算词语的权重;其中,停用词指如“的”、“和”和“在”等一些介词、语气助词和非常常用的字词。
相似度计算模块202中,通过文本集合的特征词及其权重,计算文本集合的相似度。
可视化模块203中,图形化展示的视觉特点描述如下:
1.特征词整体分布呈椭圆形,字体越大,位置越靠原点;
2.共同特征词以颜色1表示,字体大小与特征词的权重以及文本集合A与B的相似度大小相关,并且比非共同特征词字体大,以突显共同特征词;
3.文本集合A的非共同特征词以颜色2表示,字体大小与特征词的权重相关;
4.文本集合B的非共同特征词以颜色3表示,字体大小与特征词的权重相关;
5.文本集合A和B的非共同特征词的边界,在保证图形轮廓规则性的基础上,与非共同特征词组的大小相关。
实施例3
参见图3,本实施提供了一种文本集合相似性的可视化装置,该装置包括:
预处理模块301,用于对待可视化的原始数据进行预处理,获得文本集合的特征词及权重;
相似度计算模块302,用于对经预处理后的文本集合进行相似度计算;
可视化模块303,用于利用上述结果对文本集合的相似性进行可视化。
进一步地,所述的预处理模块301包括:
分词单元301a,用于对文本集合进行分词并去掉停用词,得到独立的特征词组;
词语权重计算单元301b,用于计算文本集合的特征词的权重。
其中,分词单元301a中,停用词指如“的”、“和”和“在”等一些介词、语气助词或是非常常用的字词。分词过程可以用已有或未来发明的方法进行,本实施例中不对其进行限制。
其中,词语权重计算单元301b,从分词单元301a保存的文件中读出分词信息,统计词频并计算得出特征词的权重,将每个文本集合特征词及其权重以向量的形式保存在文本文档中。在本实施例中,使用在信息检索和文本挖掘时经常使用的加权技术TF-IDF(term frequency-inverse document frequency)。
所述的相似度计算模块302包括:
计算模型构建单元302a,用于通过标注的文本语料计算出用于文本集合相似度计算的模型;
计算单元302b,用于利用构建出的相似度计算模型和通过预处理模块301得到的文本集合特征词及其权重,计算文本集合的相似度。
以下是一种可能的实施方式:计算模型构建单元302a利用Leaning to Rank的方法,获得文本相似度计算的模型。使用康奈尔大学计算机系开发的SVMrank工具包进行模型的构建,采用两个文本集合的含权重特征词组的余弦相似度、共同特征词个数、共同特征词个数分别与两个特征词组的大小比值这4个特征作为构建参数。然后,相似度计算单元302b基于构建的模型和待计算相似性的两个文本集合的含权重特征词组,利用SVMrank工具包计算出两组特征词的相似度v。在本实施例中,定义文本集合的相似度
所述的可视化模块303,包括:
布局计算单元303a,用于利用文本相似度值s和文本集合的含权重特征词组,计算出每个特征词在图形展示中的大小和位置等布局信息;
图形界面单元303b,用于利用计算出的布局信息生成图片,显示在浏览设备中。
其中,在本实施例中,布局计算单元303a计算出的布局信息特点描述如下:
1.特征词整体分布呈椭圆形,字体越大,位置越靠原点;
2.共同特征词以颜色1表示,字体大小与特征词的权重以及文本集合A与B的相似度大小相关,并且比非共同特征词字体大,以突显共同特征词;
3.文本集合A的非共同特征词以颜色2表示,字体大小与特征词的权重相关,例如权重越大,字体越大;
4.文本集合B的非共同特征词以颜色3表示,字体大小与特征词的权重相关,例如权重越大,字体越大;
5.文本集合A和B的非共同特征词的边界,在保证图形轮廓规则性的基础上,与非共同特征词组的大小相关。
具体地,以下是一种可能的实施方式:文本集合的共同特征词以红色表示,特征词i字体大小用以下公式决定
( α · v + β ) · [ c max - ( c max - c min ) · w max - w H i w max - w min ]
该公式中,wmax是共同特征词组的权重最大值,wmin是共同特征词组的权重最小值,
Figure BDA00002761234700064
是共同关键词的两个权重的调和平均值。cmax、cmin、α和β都是常数。文本集合的非共同特征词分别以蓝色和绿色表示,特征词j的字体大小用以下公式决定
D min + ( D max - D min ) · ( w j w max - w min ) μ
该公式中,wmax是非共同特征词组的权重最大值,wmin是非共同特征词组的权重最小值,wj是非共同关键词的权重值。Dmax、Dmin和μ都是常数。每个特征词的字体大小确定后,用以下方法依次计算红色、蓝色、绿色文字的位置:将同一颜色的特征词按字体从大到小排序,对于每一个词语首先将其随机放置在中心线附近,如果与已经放置的文字重合,则以从内到外的螺旋线路径继续检测是否与已有文字重合,直到将其成功放置在空白区域,蓝色和绿色文字的水平位置不得越过中心线;其中,中心线的位置用以下公式决定
( n A n B ) γ 1 + ( n A n B ) γ
该公式中,nA是文本集合A的特征词组个数,nB是文本集合B的特征词组个数,γ是一个常数。图4是利用上述实施方式对文本集合相似性进行可视化的结果示例示意图。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种文本集合相似性的可视化方法,其特征在于,所述方法包括: 
对文本集合进行预处理,以得到文本集合的特征词及特征词的权重; 
对文本集合的相似度进行计算; 
对文本集合的相似性进行可视化。 
2.根据权利要求1所述的方法,其特征在于,所述预处理包括: 
将文本集合中的句子切分成词;去除停用词得到文本集合的特征词;并通过出现频次计算得到特征词的权重。 
3.根据权利要求1所述的方法,其特征在于,所述对文本集合的相似度进行计算,具体包括: 
构建用于文本集合相似度计算的模型;利用构建出的相似度计算模型和通过预处理得到的文本集合的特征词及其权重,计算文本集合的相似度。 
4.根据权利要求3所述的方法,其特征在于,所述模型使用康奈尔大学计算机系开发的SVMrank工具包进行构建,采用两个文本集合的含权重特征词组的余弦相似度、共同特征词个数、共同特征词个数分别与两个特征词组的大小比值这4个特征作为构建参数,然后,利用SVMrank工具包计算出两组特征词的相似度v,文本集合的相似度 。
5.根据权利要求1至4任一权利要求所述的方法,其特征在于,所述对文本集合的相似性进行可视化包括: 
计算特征词在图形展示中布局信息;利用计算出的布局信息图形化展示文本集合的相似性。 
6.根据权利要求5所述的方法,其特征在于,所述图形化展示的视觉特点为: 
特征词整体分布呈椭圆形,字体越大,位置越靠近原点;共同特征词以颜 色1表示,字体大小与特征词的权重以及文本集合A与B的相似度大小相关,并且比非共同特征词字体大,以突显共同特征词;文本集合A的非共同特征词以颜色2表示,字体大小与特征词的权重相关;文本集合B的非共同特征词以颜色3表示,字体大小与特征词的权重相关;文本集合A和B的非共同特征词的边界,在保证图形轮廓规则性的基础上,与非共同特征词组的大小相关。 
7.一种文本集合相似性的可视化装置,其特征在于,所述装置包括: 
预处理模块,用于将待可视化的原始数据进行预处理,获得文本集合的特征词及特征词的权重; 
文本相似性计算模块,用于计算文本集合的相似度; 
可视化模块,用于利用上述结果数据进行信息可视化,呈现出文本集合的相似性。 
8.根据权利要求7所述的装置,其特征在于,所述预处理模块包括: 
分词单元,用于将文本集合进行分词并去掉停用词,获得独立的特征词组; 
词语权重计算单元,用于计算文本集合的特征词的权重。 
9.根据权利要求7所述的装置,其特征在于,所述文本相似性计算模块包括: 
计算模型构建单元,用于通过标注的文本语料构建用于文本集合相似度计算的模型; 
计算单元,用于利用构建出的相似度计算模型和通过预处理模块得到的文本集合特征词及权重,计算文本集合的相似度。 
10.根据权利要求7至9任一权利要求所述的装置,其特征在于,所述可视化模块包括: 
布局计算单元,用于计算出每个特征词在图形展示中的布局信息; 
图形界面单元,用于利用计算出的布局信息生成图片,并显示在浏览设备中。 
11.根据权利要求10所述的装置,其特征在于,布局计算单元计算出的布 局信息特点包括: 
特征词整体分布呈椭圆形,字体越大,位置越靠近原点;共同特征词以颜色1表示,字体大小与特征词的权重以及文本集合A与B的相似度大小相关,并且比非共同特征词字体大,以突显共同特征词;文本集合A的非共同特征词以颜色2表示,字体大小与特征词的权重相关;文本集合B的非共同特征词以颜色3表示,字体大小与特征词的权重相关;文本集合A和B的非共同特征词的边界,在保证图形轮廓规则性的基础上,与非共同特征词组的大小相关。 
CN201310022589.0A 2013-01-22 2013-01-22 一种文本集合相似性的可视化方法和装置 Active CN103077157B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310022589.0A CN103077157B (zh) 2013-01-22 2013-01-22 一种文本集合相似性的可视化方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310022589.0A CN103077157B (zh) 2013-01-22 2013-01-22 一种文本集合相似性的可视化方法和装置

Publications (2)

Publication Number Publication Date
CN103077157A true CN103077157A (zh) 2013-05-01
CN103077157B CN103077157B (zh) 2015-08-19

Family

ID=48153688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310022589.0A Active CN103077157B (zh) 2013-01-22 2013-01-22 一种文本集合相似性的可视化方法和装置

Country Status (1)

Country Link
CN (1) CN103077157B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593337A (zh) * 2013-11-04 2014-02-19 清华大学 一种图文集合的可视化方法和装置
CN103793481A (zh) * 2014-01-16 2014-05-14 中国科学院软件研究所 基于用户兴趣挖掘的微博词云生成方法及访问支持系统
CN104239285A (zh) * 2013-06-06 2014-12-24 腾讯科技(深圳)有限公司 文章新章节的检测方法及装置
CN105512114A (zh) * 2015-12-14 2016-04-20 清华大学 平行句对的筛选方法和系统
CN106030570A (zh) * 2014-12-23 2016-10-12 微软技术许可有限责任公司 显现数据集间的关系
CN108280550A (zh) * 2018-01-30 2018-07-13 杭州电子科技大学 一种比较公共自行车站点社区划分的可视分析方法
CN109800346A (zh) * 2019-01-11 2019-05-24 金蝶软件(中国)有限公司 文本匹配方法、装置、计算机设备和存储介质
CN113065101A (zh) * 2018-01-03 2021-07-02 第四范式(北京)技术有限公司 逻辑回归模型的可视化解释方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211344A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 文本信息遍历的快速四维可视化方法
CN101996234A (zh) * 2009-08-17 2011-03-30 阿瓦雅公司 词云音频导航

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211344A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 文本信息遍历的快速四维可视化方法
CN101996234A (zh) * 2009-08-17 2011-03-30 阿瓦雅公司 词云音频导航

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FERNANDO V. PAULOVICH ET AL: "SemanticWordification of Document Collections", 《COMPUTER GRAPHICS FORUM》, vol. 31, no. 3, 30 June 2012 (2012-06-30) *
THORSTEN JOACHIMS: "Optimizing Search Engines using Clickthrough Data", 《PROCEEDINGS OF THE EIGHTH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》, 31 December 2002 (2002-12-31) *
WEIWEI CUI ET AL: "Context Preserving Dynamic Word Cloud Visualization", 《IEEE PACIFIC VISUALISATION SYMPOSIUM 2010》, 5 March 2010 (2010-03-05) *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239285A (zh) * 2013-06-06 2014-12-24 腾讯科技(深圳)有限公司 文章新章节的检测方法及装置
CN103593337A (zh) * 2013-11-04 2014-02-19 清华大学 一种图文集合的可视化方法和装置
CN103593337B (zh) * 2013-11-04 2016-08-17 清华大学 一种图文集合的可视化方法
CN103793481A (zh) * 2014-01-16 2014-05-14 中国科学院软件研究所 基于用户兴趣挖掘的微博词云生成方法及访问支持系统
CN103793481B (zh) * 2014-01-16 2017-02-15 中国科学院软件研究所 基于用户兴趣挖掘的微博词云生成方法及访问支持系统
US11256687B2 (en) 2014-12-23 2022-02-22 Microsoft Technology Licensing, Llc Surfacing relationships between datasets
CN106030570A (zh) * 2014-12-23 2016-10-12 微软技术许可有限责任公司 显现数据集间的关系
CN105512114A (zh) * 2015-12-14 2016-04-20 清华大学 平行句对的筛选方法和系统
CN105512114B (zh) * 2015-12-14 2018-06-15 清华大学 平行句对的筛选方法和系统
CN113065101A (zh) * 2018-01-03 2021-07-02 第四范式(北京)技术有限公司 逻辑回归模型的可视化解释方法及装置
CN113065101B (zh) * 2018-01-03 2024-04-02 第四范式(北京)技术有限公司 逻辑回归模型的可视化解释方法及装置
CN108280550A (zh) * 2018-01-30 2018-07-13 杭州电子科技大学 一种比较公共自行车站点社区划分的可视分析方法
CN108280550B (zh) * 2018-01-30 2020-06-09 杭州电子科技大学 一种比较公共自行车站点社区划分的可视分析方法
CN109800346A (zh) * 2019-01-11 2019-05-24 金蝶软件(中国)有限公司 文本匹配方法、装置、计算机设备和存储介质
CN109800346B (zh) * 2019-01-11 2020-12-29 金蝶软件(中国)有限公司 文本匹配方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN103077157B (zh) 2015-08-19

Similar Documents

Publication Publication Date Title
CN103077157A (zh) 一种文本集合相似性的可视化方法和装置
Hu et al. Understanding the topic evolution of scientific literatures like an evolving city: Using Google Word2Vec model and spatial autocorrelation analysis
Burch et al. Radcloud: Visualizing multiple texts with merged word clouds
Cui et al. Context preserving dynamic word cloud visualization
CN103207905B (zh) 一种基于目标文本的计算文本相似度的方法
CN104731797B (zh) 一种提取关键词的方法及装置
CN102930048B (zh) 使用参考和视觉数据的语义自动发现的数据丰富
CN106227756A (zh) 一种基于情感分类的股票指数预测方法及系统
CN107563557A (zh) 确定油井产量递减率的方法及装置
CN110489424A (zh) 一种表格化信息提取的方法、装置、存储介质及电子设备
CN103440262A (zh) 基于相关反馈和Bag-of-Features的图像检索系统及方法
Wang et al. Visual analytics and information extraction of geological content for text-based mineral exploration reports
Endert et al. Typograph: Multiscale spatial exploration of text documents
CN106991084B (zh) 一种文档评估方法及装置
CN110363206A (zh) 数据对象的聚类、数据处理及数据识别方法
CN102375848B (zh) 评价对象聚类方法和装置
CN104090918B (zh) 一种基于信息量的句子相似度计算方法
CN107783983A (zh) 信息展示方法及装置
CN103593337B (zh) 一种图文集合的可视化方法
Binucci et al. Fully dynamic semantic word clouds
Sun et al. Visitpedia: Wiki article visit log visualization for event exploration
Tribhuvan et al. Product features extraction for feature based opinion mining using latent Dirichlet allocation
CN109684641A (zh) 一种数据提取装置、方法、电子设备和存储介质
Moriyama et al. Visual user interface to supporting information seeking behavior in context searching
Kerren et al. MDS-based Visual Survey of Biological Data Visualization Techniques.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Tang Jiayu

Inventor after: Sun Maosong

Inventor after: Liu Zhiyuan

Inventor after: Liu Yiqun

Inventor after: Ma Shaoping

Inventor before: Tang Jiayu

Inventor before: Sun Maosong

Inventor before: Liu Zhiyuan

COR Change of bibliographic data