CN103077157A

CN103077157A - 一种文本集合相似性的可视化方法和装置

Info

Publication number: CN103077157A
Application number: CN2013100225890A
Authority: CN
Inventors: 唐家渝; 孙茂松; 刘知远
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2013-01-22
Filing date: 2013-01-22
Publication date: 2013-05-01
Anticipated expiration: 2033-01-22
Also published as: CN103077157B

Abstract

本发明公开了一种文本集合相似性的可视化方法及装置，属于文本信息处理和信息可视化领域；所述方法包括：对文本集合进行预处理；对文本集合的相似度进行计算；对文本集合的相似性进行可视化；所述装置包括：预处理模块、文本相似性计算模块和可视化模块。本发明通过建立文本集合相似度计算模型来对文本集合的相似性进行度量，并以图形化的方式显示相似性结果，达到使用户直观、快速地了解文本集合内容以及相似性信息的有益效果。

Description

一种文本集合相似性的可视化方法和装置

技术领域

本发明涉及文本信息处理和信息可视化领域，特别涉及一种文本集合相似性的可视化方法和装置。

背景技术

随着信息技术的快速发展，海量信息不断涌现，使得人们对其处理和理解的难度日益增大。传统的文本处理技术虽已在一定程度上实现了从大数据中挖掘出重要信息，但是这些挖掘出的信息通常仍然无法满足人们利用浏览、筛选等方式对其进行合理地分析、理解和应用。面对这种挑战，文本可视化技术应运而生，它将文本中复杂的或者难以通过文字表达的内容和规律，以视觉符号的形式表达出来，同时向人们提供与视觉信息进行快速交互的功能，使人们能够利用与生俱来的视觉感知的并行化处理能力快速获取大数据中所蕴含的关键信息，为人们提供了一种理解文本的内容、结构和内在规律等信息的有效手段。

基于文本内容的可视化技术将词频（词语在文本中的出现次数）、分布情况等基本统计信息进行图形化呈现，能使用户快速地了解文本的大体内容，对于进一步的分析具有重要的向导意义。其中，标签云是一种将文本看作词语的集合，利用词频信息来呈现文本特征的可视化技术。标签云将词语按照一定顺序和规律排列，如频度递减顺序、字母顺序等，以文字的大小代表词语的频度或重要性。最初的标签云大多都采用将文字一行一行地水平排列的方式，后来渐渐遵循更加美观复杂的布局规则，Jonathan Feinberg提出的Wordle便是其中被广泛采用的代表之一。在Wordle中，词语的布局采用水平、竖直相结合的方式，并将文字间的空隙充分利用，使得可视化结果更加紧凑、美观。然而，标签云只能对单一文本集合进行可视化，不能表现文本集合之间的关系。

发明内容

为克服上述现有技术的缺点，本发明的目的在于提供一种文本集合的相似性的可视化方法和装置，通过建立文本集合相似度计算模型来对文本集合的相似性进行度量，并以图形化的方式显示结果，使用户对两个文本集合的相似性有直观地了解。

为实现上述目的，本法采取如下技术方案：

一方面，提供了一种文本集合相似性的可视化方法，所述方法包括：

对文本集合进行预处理，以得到文本集合的特征词及特征词的权重；

对文本集合的相似度进行计算；

对文本集合的相似性进行可视化。

另一方面，提供了一种文本集合相似性的可视化装置，所述装置包括：

预处理模块，用于将待可视化的原始数据进行预处理，获得文本集合的特征词及特征词的权重；

文本相似性计算模块，用于计算文本集合的相似度；

可视化模块，用于利用上述结果数据进行信息可视化，呈现出文本集合的相似性。

与现有技术相比，本发明的有益效果是：

将文本集合的特征词及文本集合的相似关系通过图形界面进行展示，从而达到使用户直观、快速地了解文本集合内容以及相似性信息的目的。

附图说明

图1是本发明实施例1提供的文本集合相似性的可视化方法流程图。

图2是本发明实施例2提供的文本集合相似性的可视化装置结构示意图。

图3是本发明实施例3提供的文本集合相似性的可视化装置结构示意图。

图4是应用本发明实施例3所述装置对文本集合相似性进行可视化的结果示例示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图和实施例对本发明作进一步的详细描述。

实施例1

参见图1，本实施例提供了一种文本集合相似性的可视化方法，方法流程如下所示：

101：对文本集合进行预处理；

102：对文本集合的相似度进行计算；

103：对文本集合的相似性进行可视化。

本实施例提供的方法，通过建立文本集合相似度计算模型来对文本集合的相似性进行度量，并以图形化的方式显示相似性结果，达到使用户直观、快速地了解文本集合内容以及相似性信息的有益效果。

实施例2

参见图2，本实施提供了一种文本集合相似性的可视化装置，该装置包括：

预处理模块201，用于对待进行相似度计算的文本集合进行预处理；

相似度计算模块202，用于对经预处理后的文本集合进行相似度计算；

可视化模块203，用于对文本集合的相似性进行可视化。

具体地，上述预处理模块201中，将文本集合切分成词，去除停用词后得到文本特征词，并计算词语的权重；其中，停用词指如“的”、“和”和“在”等一些介词、语气助词和非常常用的字词。

相似度计算模块202中，通过文本集合的特征词及其权重，计算文本集合的相似度。

可视化模块203中，图形化展示的视觉特点描述如下：

1.特征词整体分布呈椭圆形，字体越大，位置越靠原点；

2.共同特征词以颜色1表示，字体大小与特征词的权重以及文本集合A与B的相似度大小相关，并且比非共同特征词字体大，以突显共同特征词；

3.文本集合A的非共同特征词以颜色2表示，字体大小与特征词的权重相关；

4.文本集合B的非共同特征词以颜色3表示，字体大小与特征词的权重相关；

5.文本集合A和B的非共同特征词的边界，在保证图形轮廓规则性的基础上，与非共同特征词组的大小相关。

实施例3

参见图3，本实施提供了一种文本集合相似性的可视化装置，该装置包括：

预处理模块301，用于对待可视化的原始数据进行预处理，获得文本集合的特征词及权重；

相似度计算模块302，用于对经预处理后的文本集合进行相似度计算；

可视化模块303，用于利用上述结果对文本集合的相似性进行可视化。

进一步地，所述的预处理模块301包括：

分词单元301a，用于对文本集合进行分词并去掉停用词，得到独立的特征词组；

词语权重计算单元301b，用于计算文本集合的特征词的权重。

其中，分词单元301a中，停用词指如“的”、“和”和“在”等一些介词、语气助词或是非常常用的字词。分词过程可以用已有或未来发明的方法进行，本实施例中不对其进行限制。

其中，词语权重计算单元301b，从分词单元301a保存的文件中读出分词信息，统计词频并计算得出特征词的权重，将每个文本集合特征词及其权重以向量的形式保存在文本文档中。在本实施例中，使用在信息检索和文本挖掘时经常使用的加权技术TF-IDF（term frequency-inverse document frequency）。

所述的相似度计算模块302包括：

计算模型构建单元302a，用于通过标注的文本语料计算出用于文本集合相似度计算的模型；

计算单元302b，用于利用构建出的相似度计算模型和通过预处理模块301得到的文本集合特征词及其权重，计算文本集合的相似度。

以下是一种可能的实施方式：计算模型构建单元302a利用Leaning to Rank的方法，获得文本相似度计算的模型。使用康奈尔大学计算机系开发的SVM^rank工具包进行模型的构建，采用两个文本集合的含权重特征词组的余弦相似度、共同特征词个数、共同特征词个数分别与两个特征词组的大小比值这4个特征作为构建参数。然后，相似度计算单元302b基于构建的模型和待计算相似性的两个文本集合的含权重特征词组，利用SVM^rank工具包计算出两组特征词的相似度v。在本实施例中，定义文本集合的相似度

所述的可视化模块303，包括：

布局计算单元303a，用于利用文本相似度值s和文本集合的含权重特征词组，计算出每个特征词在图形展示中的大小和位置等布局信息；

图形界面单元303b，用于利用计算出的布局信息生成图片，显示在浏览设备中。

其中，在本实施例中，布局计算单元303a计算出的布局信息特点描述如下：

1.特征词整体分布呈椭圆形，字体越大，位置越靠原点；

3.文本集合A的非共同特征词以颜色2表示，字体大小与特征词的权重相关，例如权重越大，字体越大；

4.文本集合B的非共同特征词以颜色3表示，字体大小与特征词的权重相关，例如权重越大，字体越大；

具体地，以下是一种可能的实施方式：文本集合的共同特征词以红色表示，特征词i字体大小用以下公式决定

(α \cdot v + β) \cdot [c_{\max} - (c_{\max} - c_{\min}) \cdot \sqrt{\frac{w_{\max} - w_{H_{i}}}{w_{\max} - w_{\min}}}]

该公式中，w_max是共同特征词组的权重最大值，w_min是共同特征词组的权重最小值，

是共同关键词的两个权重的调和平均值。c_max、c_min、α和β都是常数。文本集合的非共同特征词分别以蓝色和绿色表示，特征词j的字体大小用以下公式决定

D_{\min} + (D_{\max} - D_{\min}) \cdot {(\frac{w_{j}}{w_{\max} - w_{\min}})}^{μ}

该公式中，w_max是非共同特征词组的权重最大值，w_min是非共同特征词组的权重最小值，w_j是非共同关键词的权重值。D_max、D_min和μ都是常数。每个特征词的字体大小确定后，用以下方法依次计算红色、蓝色、绿色文字的位置：将同一颜色的特征词按字体从大到小排序，对于每一个词语首先将其随机放置在中心线附近，如果与已经放置的文字重合，则以从内到外的螺旋线路径继续检测是否与已有文字重合，直到将其成功放置在空白区域，蓝色和绿色文字的水平位置不得越过中心线；其中，中心线的位置用以下公式决定

\frac{{(\frac{n_{A}}{n_{B}})}^{γ}}{1 + {(\frac{n_{A}}{n_{B}})}^{γ}}

该公式中，n_A是文本集合A的特征词组个数，n_B是文本集合B的特征词组个数，γ是一个常数。图4是利用上述实施方式对文本集合相似性进行可视化的结果示例示意图。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本集合相似性的可视化方法，其特征在于，所述方法包括：

对文本集合的相似度进行计算；

对文本集合的相似性进行可视化。

2.根据权利要求1所述的方法，其特征在于，所述预处理包括：

将文本集合中的句子切分成词；去除停用词得到文本集合的特征词；并通过出现频次计算得到特征词的权重。

3.根据权利要求1所述的方法，其特征在于，所述对文本集合的相似度进行计算，具体包括：

构建用于文本集合相似度计算的模型；利用构建出的相似度计算模型和通过预处理得到的文本集合的特征词及其权重，计算文本集合的相似度。

4.根据权利要求3所述的方法，其特征在于，所述模型使用康奈尔大学计算机系开发的SVM^rank工具包进行构建，采用两个文本集合的含权重特征词组的余弦相似度、共同特征词个数、共同特征词个数分别与两个特征词组的大小比值这4个特征作为构建参数，然后，利用SVM^rank工具包计算出两组特征词的相似度v，文本集合的相似度。

5.根据权利要求1至4任一权利要求所述的方法，其特征在于，所述对文本集合的相似性进行可视化包括：

计算特征词在图形展示中布局信息；利用计算出的布局信息图形化展示文本集合的相似性。

6.根据权利要求5所述的方法，其特征在于，所述图形化展示的视觉特点为：

特征词整体分布呈椭圆形，字体越大，位置越靠近原点；共同特征词以颜色1表示，字体大小与特征词的权重以及文本集合A与B的相似度大小相关，并且比非共同特征词字体大，以突显共同特征词；文本集合A的非共同特征词以颜色2表示，字体大小与特征词的权重相关；文本集合B的非共同特征词以颜色3表示，字体大小与特征词的权重相关；文本集合A和B的非共同特征词的边界，在保证图形轮廓规则性的基础上，与非共同特征词组的大小相关。

7.一种文本集合相似性的可视化装置，其特征在于，所述装置包括：

文本相似性计算模块，用于计算文本集合的相似度；

8.根据权利要求7所述的装置，其特征在于，所述预处理模块包括：

分词单元，用于将文本集合进行分词并去掉停用词，获得独立的特征词组；

词语权重计算单元，用于计算文本集合的特征词的权重。

9.根据权利要求7所述的装置，其特征在于，所述文本相似性计算模块包括：

计算模型构建单元，用于通过标注的文本语料构建用于文本集合相似度计算的模型；

计算单元，用于利用构建出的相似度计算模型和通过预处理模块得到的文本集合特征词及权重，计算文本集合的相似度。

10.根据权利要求7至9任一权利要求所述的装置，其特征在于，所述可视化模块包括：

布局计算单元，用于计算出每个特征词在图形展示中的布局信息；

图形界面单元，用于利用计算出的布局信息生成图片，并显示在浏览设备中。

11.根据权利要求10所述的装置，其特征在于，布局计算单元计算出的布局信息特点包括：