CN100595762C

CN100595762C - 文本集合可视化系统

Info

Publication number: CN100595762C
Application number: CN200810040145A
Authority: CN
Inventors: 马颖华; 苏贵洋; 李建华; 冯薇; 李文婷
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2008-07-03
Filing date: 2008-07-03
Publication date: 2010-03-24
Anticipated expiration: 2028-07-03
Also published as: CN101308498A

Abstract

一种计算机应用技术领域的文本集合可视化系统，包括：文本采集模块、中文分词模块、词语权重计算模块、XML文件组织模块、可视化图形界面模块，先通过文本采集模块、中文分词模块、特征词权重计算模块和XML文件组织模块构成本地数据库，然后通过可视化图形界面模块与本地数据库的接口交互，对用户的检索关键词图形化地显示结果。显示结果的呈现应用本发明提供的文档与多个关键词关联程度的可视化方式，并且向用户提供可在图形界面上拖曳关键词的交互操作来拓展定义关键词之间的语义关系，得到更好的效果。

Description

文本集合可视化系统

技术领域

本发明涉及一种计算机应用技术领域的系统，具体地说，涉及的是一种文本集合可视化系统。

背景技术

随着web技术的广泛深入，人们对于信息的获取渠道日益拓宽，只要人们使用搜索引擎进行搜索，同一个关键词所引发的搜索结果可能都会是海量的数据。如何从这些结果中提取最能反映用户需要的信息，成为一个越来越被重视的命题，而文本的可视化就是其中一个很好的解决方案。

信息的可视化呈现能够加快人们对信息的处理速度。人眼每秒可以处理超过5百万比特的信息量，而大脑每秒只能理解大约500比特的信息量。普通的关键字搜索过程中，人们往往还是需要通过阅读文字，在大致了解了文章的内容后才能判断是否是所需要的文档。就算只看文章的标题，来决定是不是去读这篇文章，这样对文章内容的查看信息量会更大，而且有时候会遗漏很有价值的文本。但是即使如此，也经常会被大量的文章所淹没。文本集合可视化技术利用视觉处理信息大的特点，用图形表达信息的分布状态，靠视觉来判断该文本是否接近自己需求，可以更快速的处理大量的检索结果。

文本集合可视化的目的是用二维/三维图像来结构化地显示文本的内容，以协助各类分析、检索或文本挖掘工作。因此一般先为文本建立数学模型，然后用二维/三维图像来显示这个模型，以达到直观、形象地展现文本特点的目的。建立模型可以帮助理解文本结构。

文章、段落是扁平的流结构，不宜于分析和处理，如果不建立适当的结构和模型，只能通过人们对文本逐字逐句的理解来实现分析。这种人工检阅的方法在处理和分析大量文本数据的情况下效率极低，另一方面，现在普遍的网络搜索工具如google、yahoo等，都只判断文章中是否包含输入的关键词来返回搜索结果，并不对文本集进行进一步的分类或其它处理，时常会返回一些含有相同文本内容的不同网页，加大了用户审阅文本的工作量。

经对现有技术的文献检索发现，中国专利中有不少是关于“可视化系统”，比如200510086559.1(“计算网格的远程可视化系统”)，03121859.8(“模块化辅助可视化系统”)等等，这些专利技术虽然可以实现可视化，但是都不是以图形的方式显示出来，而且无法应用在文本可视化技术搜索引擎方面。

发明内容

本发明针对现有技术中存在的上述不足，提供了一种文本集合可视化系统，通过建立文本数据模型来对关键词和文本进行度量，根据结构(即文本组成成分)分类文本内容，并以图形化方式显示结果，使用户面对海量的数据时，不仅有办法筛选出自己可能感兴趣的部分，更要以图形化的方式形象的呈现在用户面前，并且能够直观地反映搜索结果中各部分与自己搜索目的的紧密程度，给于用户直接的导向性信息。

本发明是通过以下技术方案实现的：

本发明包括：文本采集模块、中文分词模块、词语权重计算模块、XML文件组织模块、可视化图形界面模块，其中：

文本采集模块在互联网上搜集网页文本，将采集到的文本作为原始数据源传入中文分词模块；

中文分词模块，对文本采集模块中得到的文本内容进行分词处理，获得以词为单位的语料，并统计词频，保存在本地文本，供后续的词语权重计算模块读取词频信息计算权重；

词语权重计算模块，用于对分词后的结果进行特征抽取即特征词权重的计算，将计算结果连同对应的特征词，以及所在文本的标题交给XML文件组织模块；

XML文件组织模块负责将词语权重计算模块传入的数据以设定的数据结构组织成XML文件保留在本地计算机，并为可视化图形界面模块提供读取文本数据结构化处理后的结果；

可视化图形界面模块以上述XML文件组织模块保留在本地的结果数据为基本语料库，通过与用户的交互取得用户命令，并显示出结果。

所述的文本采集模块，包括：下载子模块和存储子模块，其中：下载子模块首先从设定的根网址开始，根据根网址上提供的网页链接，进行设定层数的网页源文件抓取，同时剔除html标记和脚本代码等非正文内容，得到最初的文本内容，然后该模块调用存储子模块，将文本保存在设定的本地目录下，在每个文本保存前，首先判断在同一目录下是否存在与该文本来源(以URL为依据)相同的文本，若存在，则对该文本不进行保存；当采集工作结束后，调用所述的中文分词模块对上面保存的最初文本内容进行分词工作。

所述的中文分词模块对采集到的大量中文文本进行分词，并去掉停止词，使之成为独立的特征词，并得到每个词语在每篇文章中的出现的频率，交给词语权重计算模块；其中，停止词指如“的”、“和”、“关于”等一些介词和语气助词或是非常常用的字词。因为这些字词没有具体涵义，而且在文本中通篇出现的频率通常比较高，影响到对文本的内容分析，所以不在权重计算的考虑范围之内。

所述的词语权重计算模块，包括文件读取子模块和权重计算子模块，其中：文件读取子模块从中文分词模块保存的文件中读出分词及其词频信息，由权重计算子模块中得出特征词的权重，并调用XML文件组织模块，将各篇文档中的特征词及其权重数据组织成树形结构，保存为XML特征库。

所述的XML文件组织模块，定义了文本标题、特征词及其权重的数据组织形式，并提供了写入XML文件功能和读取XML文件功能，分别供词语权重计算模块将输出结果组织成XML文件，和可视化图形界面模块从本地读取XML文件中的数据集合。

所述的可视化图形界面模块，包括控制子模块、图形界面子模块，其中：控制子模块接受用户指令操作，得到输入的关键词及操作参数，在本地保存的XML文件库中检索包含关键词的文档及对应权值，由图形界面子模块显示结果；图形界面子模块从控制子模块中接受用户输入的信息参数，在XML文件库获得与输入参数有关的数据，将数据转换成图形化表示并显示在面板上，同时该子模块允许用户进行关键词拖动操作来调整显示结果。

所述的控制子模块，其可设置的操作参数包括：模糊/精确匹配，显示比例和以文本形式查看检索结果。

所述的模糊匹配，是指只要包含某一关键词就可将该文档计入检索结果，即“或”的关系。

所述的精确匹配，是指检索结果必须包含所有键入的关键词，即“与”的关系。

在形象呈现技术的探索中，开发人员越来越希望能够通过个体的参与，在不断的互动和反馈中使得检索结果更加符合个人需求。检索结果可视化的根本目标就在于设计一个接口以便用户能对检索结果进行浏览和操作。

在本发明中，通过加入用户的参与来更好的获得搜索结果。加入的互动因素包括在所述的控制子模块中的各种操作参数，即上述可视化图形界面模块的控制子模块所接受的操作参数，并且在图形界面子模块的结果显示中，本发明实现了用图形化方式来表示文档与多个关键词关联程度的方法。另一方面，用户可在显示结果中根据需要，挑选更强调某个或某几个关键词内容的文本。如在搜索“文本”-“可视化”这一关键词组合时，如果用户希望寻找含有可视化技术内容更多些的文档时，可以挑选位置上更偏向于“可视化”这个关键词的文本重心；如果要查看关于文本可视化的可视化技术文章时，可以挑选位置上更偏向于“文本”的重心点。用户也可以从整体文本集分布的情况看到，有些文章是着重介绍文本可视化技术的，而有些只是在谈到可视化技术时提到文本可视化这一分支。

另外，通过拖曳关键词以调整关键词的语义联系，如输入关键词组“静态链接库”-“动态链接库”-“区别”，是希望“静态链接库”和“动态链接库”能交替出现，那么他们的关系就要表达的紧密些。将这两个关键词拖近，就能得到这两个关键词组合的检索结果。

与现有技术相比，本发明具有如下有益效果：

1、内容相同，但是来自不同网页的文本因为其数据结构(关键词于所在文本中的权重)相同，在图形界面上显示的位置会重叠，使得用户可以跳过这些内容相同的文本，更多地关注于其它不同内容的文本，防止重复阅读。

2、本发明将文本按其数据结构分布在图形界面上，这种分类文本使得用户可以根据需要，在同类文本集合或异类文本集合中挑选文本查看。

3、本发明加入的界面互动因素扩展了搜索定制的自由性，不仅和普通检索引擎一样提供了“或”、“与”的搜索功能，还能够通过拖曳关键词，让用户调整关键词在可视化界面上的距离以模拟关键词之间的语义联系，来动态调整结果。

附图说明

图1为本发明系统结构框图；

图2为文本采集模块状态流程图。

具体实施方式

下面结合附图对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本实施例包括：文本采集模块、中文分词模块、词语权重计算模块、XML文件组织模块、可视化图形界面模块，其中：

文本采集模块在互联网上搜集网络文本，将采集到的足够多的文本传入中文分词模块；

中文分词模块对采集到的大量中文文本进行分词，并去掉停止词，使之成为独立的关键词，并得到每个词语在每篇文章中的出现的频率，交给权重计算模块；

词语权重计算模块用于对分词后的结果进行特征抽取即特征词权重的计算，将计算结果连同对应的特征词及文档信息交给XML文件组织模块；

XML文件组织模块负责将词语权重计算模块传入的数据组织成XML文件保留在本地，并为可视化图形界面模块提供读取文本数据结构化处理后的结果；

在本地数据库中，先由文本采集模块建立初始语料库。

如图2所示，所述文本采集模块，包括下载子模块和存储子模块，下载子模块先由设定的根网址开始，通过正则表达式不断地找到网页上的链接信息并层层下探，进行设定层次的网页源文件抓取。再通过正则表达式剔除网页源文件中的html标记以及脚本代码，获得中文文本字符串并插入列表中。随后由存储子模块检测插入的文本内容是否重复，若不重复则保存为本地文本文件。

所述的中文分词模块对采集到的大量中文文本进行分词，并去掉停止词，使之成为独立的特征词，并得到每个词语在每篇文章中的出现的频率，交给词语权重计算模块，其中，停止词指介词、语气助词或是非常常用的字词。

中文分词的技术与英文分词略有不同，英语文本是在小字符集上的词串，汉语是在大字符集上的字串。同时，汉语的句子在词与词之间没有明显的分割标记，而是连续的字串。因此，若要计算机智能的进行分词，必须让计算机明白句子中各词的含义，把词正确的切分出来，才不会造成理解上的错误。

目前，中文分词算法模型基本可分为三类：分别是机械分词法(又称词典式切分法)，语义分词法和人工智能法(又称理解分词法)。机械分词指在词库中进行匹配；语义分词法引入了语义分析，对自然语言自身的语言信息进行更多的处理；人工智能是对信息进行智能化处理的一种模式，主要有两种处理方式：一种是基于心理学的符号处理方法，模拟人脑的功能。像专家系统即是希望模拟人脑的功能，构造推理网络，经过符号转换，从而可以进行解释性处理。一种是基于生理学的模拟方法。神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定的功能。

在本发明中采用的分词方法是机械分词法，使用的技术是由中科院研发的FreeICTCLAS分词系统进行分词处理，并计算分离出的特征词在文本中出现的词频，然后将每篇文本中的特征词及其词频以向量的形式保存在文本文档中。另外，此模块还负责去除停止词，如“的”，“和”，“关于”等一些介词和语气助词或是非常常用的字词。

所述权重计算模块读取中文分词模块输出的特征词和词频的文本文件，使用在信息抽取和文本特征时经常使用的TFIDF算法。TFIDF算法是目前信息获取领域较为成熟的方法，也是信息获取和文本特征抽取研究中经常使用的一种加权算法。对于任意给定单词w，其TFIDF值的计算的原始公式表示如下：

Weight(w)＝TF(w)×IDF(w)＝f(w)×log(N/n)

其中，f(w)为该单词在某篇文章(一般称为前景语料)中出现的次数，N为实验全部语料(一般称为背景语料)的文本总数，而n为该词在背景语料文本中出现的次数。一般来说，单词w的出现次数是按照文章计算的，即w只要在某篇文章中出现，不论出现了多少次都记为1次。TF实际上给定的是单词在前景语料中的出现频率，相当于该单词对于前景语料的绝对贡献。一般来说，TF值越高，该词对于前景语料来说就越有代表性。而IDF等于背景语料文本数N和该词在背景语料中出现的文本数n的比值，描述的是该单词使用范围的大小。当某个词在背景语料中经常出现时(即n很大)，认为这个词是大范围内的常用词，对于任何领域来说都没有什么代表性，所以它的IDF值恰好因为n很大而变得很小。通过TF和IDF的相乘，可以使那些真正代表前景语料特点的单词获得较高的权值，而使那些常用的普通词受到抑制。

在实际的使用中，TFIDF算法在原始公式的基础上，根据使用环境的不同，还有许多种变化，以适应不同的需要。在本发明中，采用对上述的原始公式的一种变形，即结合加权算法得出的归一化加权公式来计算结果。公式如下，

W (t, d) = \frac{tf (t, d) \times \log (N / n_{i} + 0.01)}{\sqrt{Σ_{t &Element; d} {[tf (t, d) \times \log (N / n_{i} + 0.01)]}^{2}}}

该公式在原始公式增加了归一化因子，其中，t代表某个关键词，d代表某个文档，tf(t，d)就表示关键词t在文档d中出现的频率。该公式的目的是降低个别高频词汇对其他特征词的抑制作用，对各分量进行标准化。

在上述的特征词权重计算模块中得到的内容(文档名、文档中的特征词以及特征词对应的权重值)传入到XML文本组织模块中组织成具有一定数据结构的XML文件格式。因为可视化图形界面模块可以从两个途径接收输入数据，一是数据源收集分析后直接通过内存上交进行实时处理，另一种是从保存在本地的XML数据文件库中读取数据进行处理。为了保证可视化图形界面模块的读取接口一致，对经过权值计算处理后的内容和从XML文件中读出的内容在组织形式上进行统一。因此，读取XML数据的输出形式即写入XML文件的输入形式。

所述的可视化图形界面模块，包括控制子模块、图形界面子模块，其中：控制子模块接受用户指令操作，得到输入的关键词及操作参数，在本地保存的XML文件库中检索包含关键词的文档及对应权值，由图形界面子模块显示结果。在图形界面子模块的结果显示中，本发明实现了用图形化方式来表示文档与多个关键词关联程度的方法。

图形界面子模块中对文档和多个关键词关联程度的图形化表示的实现方式描述如下：

1.以单位圆内的极坐标系作为结果显示的坐标系，键入的关键词分布在单位圆边缘；

2.每个关键词在单位圆(权值已经过归一化)内对应每一篇包含它的文档有一个权重点，该点的弧度坐标与关键词的弧度坐标相同，半径坐标值为该关键词在该篇文档中的权重值。输入的关键词集在同一篇文档中的权重点连接成关于该“文本-选中关键词”的多边形；

3.计算得出多边形的重心，并显示在图形界面子模块的面板上。该重心与各个关键词的相对位置可以说明该文档与各个关键词的相关紧密程度；

4.允许用户沿圆周拖曳关键词改变各关键词分布，从而调整本次搜索对于各关键词之间的倾向性，借以说明关键词之间的语义联系。

通过上述方式，当几篇文档中的若干个目标关键词组成权重相同时，即文本关于该主题的结构相似，那么在图形界面中显示出来的代表这些文本的多边形重心会聚集或重叠在一起。在查看过其中的一篇后，用户可从聚类的角度决定是否定这一簇文本，或是详细查看该簇文本集。用户可在显示结果中根据需要，挑选更强调某个或某几个关键词内容的文本，并且向用户提供可在图形界面上拖曳关键词的交互操作来拓展定义关键词之间的语义关系，得到更好的效果。

Claims

1、一种文本集合可视化系统，其特征在于，包括：文本采集模块、中文分词模块、词语权重计算模块、XML文件组织模块、可视化图形界面模块，其中：

可视化图形界面模块以上述XML文件组织模块保留在本地的结果数据为基本语料库，通过与用户的交互取得用户命令，并显示出结果；

所述的文本采集模块，包括：下载子模块和存储子模块，其中：下载子模块首先从设定的根网址开始，根据根网址上提供的网页链接，进行设定层数的网页源文件抓取，同时剔除html标记和脚本代码，得到最初的文本内容，然后该模块调用存储子模块，将文本保存在设定的本地目录下，在每个文本保存前，首先判断在同一目录下是否存在与该文本来源相同的文本，若存在，则对该文本不进行保存；当采集工作结束后，调用所述的中文分词模块对上面保存的最初文本内容进行分词工作；

所述的中文分词模块对采集到的大量中文文本进行分词，并去掉停止词，使之成为独立的特征词，并得到每个词语在每篇文章中的出现的频率，交给词语权重计算模块，所述停止词是指：介词或语气助词。

2、根据权利要求1所述的文本集合可视化系统，其特征是，所述的词语权重计算模块，包括文件读取子模块和权重计算子模块，其中：文件读取子模块从中文分词模块保存的文件中读出分词及其词频信息，由权重计算子模块中得出特征词的权重，并调用XML文件组织模块，将各篇文档中的特征词及其权重数据组织成树形结构，保存为XML特征库。

3、根据权利要求1所述的文本集合可视化系统，其特征是，所述的XML文件组织模块定义了文本标题、特征词及其权重的数据组织形式，并提供了写入XML文件功能和读取XML文件功能，分别供词语权重计算模块将输出结果组织成XML文件，和可视化图形界面模块从本地读取XML文件中的数据集合。

4、根据权利要求1所述的文本集合可视化系统，其特征是，所述的可视化图形界面模块，包括控制子模块、图形界面子模块，其中：控制子模块接受用户指令操作，得到输入的关键词及操作参数，在本地保存的XML文件库中检索包含关键词的文档及对应权值，由图形界面子模块显示结果。

5、根据权利要求4所述的文本集合可视化系统，其特征是，所述的控制子模块，其可设置的操作参数包括：模糊/精确匹配，显示比例和以文本形式查看检索结果，其中：所述的模糊匹配，是指只要包含某一关键词就将该文档计入检索结果，即“或”的关系；所述的精确匹配，是指检索结果必须包含所有键入的关键词，即“与”的关系。