CN108415900A

CN108415900A - 一种基于多级共现关系词图的可视化文本信息发现方法及系统

Info

Publication number: CN108415900A
Application number: CN201810112596.2A
Authority: CN
Inventors: 李鹏; 王斌; 郭莉; 梅钰
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2018-08-17

Abstract

本发明提供一种基于多级共现关系词图的可视化文本信息发现方法，其步骤包括：抽取文档的文本内容，对文本内容进行切分，得到文本片段；对文本片段进行切分，提取关键词，并标记词类别标签；根据关键词在文本片段中的共现关系构建多级共现关系词图，图中的节点对应关键词，图中的边对应关键词共现；对图中的每个关键词构建词‑文档倒排索引，用以检索包含关键词的文档；通过共现关系词图获取可视化文本信息。本发明还提供一种基于多级共现关系词图的可视化文本信息发现系统，包括文档预处理模块、关键词提取模块、多级词图构建模块、词‑文档索引构建模块及可视化信息发现模块。

Description

一种基于多级共现关系词图的可视化文本信息发现方法及系统

技术领域

本发明属于文本挖掘、自然语言处理领域，涉及一种基于多级共现关系词图的可视化文本信息发现方法及系统。

背景技术

随着互联网、办公电子化的发展，文本信息呈爆炸式增长趋势，生成的文本数量超越了以往任何时代。一方面文本包含大量有价值的信息，另一方面海量文本显著增加了有效信息的发现代价。对于绝大多数应用(如出版、行研、监管)，用户已经不可能对收集的文档集中的每一篇文档进行阅读来发现有效信息，如何利用计算机从海量文本中辅助挖掘有价值的信息(文本挖掘)成为亟待解决的重要问题。

文本挖掘根据目标信息的特点可以分为2类：第一类是有效信息可以清晰定义的文本挖掘，比如分类或者有明确目标的搜索，现有计算机通过匹配计算基本可以满足日常需要；第二种是有效信息难以清晰定义的文本挖掘，比如搜索需求模糊的场景，现有办法一般通过“探索式”的方式进行信息发现。“探索式”信息发现底层利用搜索功能：用户输入查询词，人工查看搜索结果，形成下一次的查询词继续搜索，该过程不断重复直到找到结果为止。对于“探索式”信息发现，随着用户对结果的理解，最后使用的查询很可能与最初的查询完全不同。

目前“探索式”信息发现方法存在3个问题：一是对搜索结果进行人工排查效率低，人工浏览文档(搜索结果)是一个非常消耗时间的过程，不能快速定位目标信息；二是整个过程缺乏对目标文档集合的全局把控，导致用户在发现过程中往往陷入不知道“从哪里来、到哪里去”的问题，信息检查的状态无法在下一次检查中进行恢复以及有效利用；三是无法对已检查的文档进行过滤，难以避免重复检查。

发明内容

为了克服上述信息发现的不足，本发明提出一种基于多级共现关系词图的可视化文本信息发现方法及系统。

为解决上述技术问题，本发明采用如下技术方案：

一种基于多级共现关系词图的可视化文本信息发现方法，如图1所示，其步骤包括：

抽取文档的文本内容，对文本内容进行切分，得到文本片段；

对文本片段进行切分，提取关键词，并标记词类别标签；

对文本片段进行分析，根据关键词在文本片段中的共现关系构建多级共现关系词图，图中的节点对应关键词，图中的边对应关键词共现；

对图中的每个关键词构建词-文档倒排索引，用以检索包含关键词的文档；

通过共现关系词图获取可视化文本信息。

进一步地，在抽取文档的文本内容之前，先将文档进行格式解析。

进一步地，使用符号进行切分，该符号包括标点符号；或者使用固定窗口进行切分，设定窗口的大小和移动步长，从文本开头向结尾移动，窗口圈定的每个文本片段作为输出。

进一步地，词类别标签包括词性标签、实体词标签、文档核心词标签、语义角色标签、自定义类型标签。

进一步地，实体词标签包括复合实体词。

进一步地，对于文档核心词标签，找到文档核心词的方法包括使用TF-IDF或者TextRank 计算词权重，基于词权重对关键词进行排序，取排名最高的Topk个关键词作为文档核心词。

进一步地，关键词的共现关系包括同一文本片段中共现、在相邻N个文本片段中共现、在整个文档中共现。

进一步地，对于一对关键词，其只能存在于共现关系最近的单个共现关系词图中，共现关系按照由近及远的顺序为同一文本片段中共现、在相邻N个文本片段中共现、在整个文档中共现。

进一步地，通过共现关系词图获取可视化文本信息的方法如图2所示，包括：全局图与局部图的在线浏览、局部图的选择浏览及扩展浏览、共现关系的切换展示及并列展示、词图浏览历史记录、词节点标记以及文档标记。

所述全局图与局部图的在线浏览是指：全局图提供对所有词的展示功能，用户利用该功能可以形成对文档集的概貌性浏览；局部图提供对选定词节点的相邻词节点的展示功能，用户利用该功能可以实现对文档集重点区域的浏览。对于不同的共现窗口，图的展示内容不同。全局图和局部图的功能是通过展示前端按需加载离线绘制的词图信息来实现。

所述局部图的选择浏览及扩展浏览是指：选择浏览包括对全局图中的词进行全文搜索，选择感兴趣的词，展示以该词为中心的局部图，包括根据词类型标签对图中节点进行选择浏览；扩展浏览指用户可以点击局部图中的邻居节点，局部图自动更新为以该邻居节点为中心的局部图。

所述共现关系的切换展示及并列展示是指：切换展示支持用户以一个词为中心，通过选择不同共现级别(窗口大小)来加载不同的局部图；并列展示支持用户以一个词为中心，将不同共现级别下的局部图进行并列展示。切换展示和并列展示便于用户灵活查看词的上下文，发现相关线索。

所述词图浏览历史记录是指：用户在进行扩展浏览的过程中，系统会记录用户点击过的点以及相关路径，路径使用图结构保存，后续用户可以对历史路径进行加载和搜索，便于回忆并恢复检查状态。

所述词节点标记以及文档标记是指：在浏览过程中，用户可以对词节点以及相关的文档进行标记。包括两类标记：一是收藏标记，标记后的节点以及相关文档用户可以在后续进行重点检查；二是删除标记，标记后的节点以及相关文档会被从文档集中删掉，对应的多级共现关系词图也会进行更新。

一种基于多级共现关系词图的可视化文本信息发现系统，如图3所示，包括文档预处理模块、关键词提取模块、多级词图构建模块、词-文档索引构建模块及可视化信息发现模块。

文档预处理模块：该模块输入为文档文件集合，输出为<文档编号，文本片段列表>集合。对每个文档文件的处理包括对文件进行格式解析，抽取其中的文本内容，按照预定义规则对全部文本进行切分，得到文本片段的有序列表。

关键词提取模块：该模块使用文档预处理模块的输出作为输入，为每个文本片段进行编号，并对文本片段进行进一步的切割，得到<词，词类别>集合。词类别的标注可以使用自然语言处理的相关工具，也可以由用户的自定义处理来完成。

多级词图构建模块：该模块以关键词提取模块的输出作为输入，构建多级共现关系词图。多级是指使用不同的窗口大小来考察词的共现情况，从而生成多个共现关系词图。比如在同一文本片段中共现、在相邻N个文本片段中共现、在同一文档中共现等。

词-文档索引构建模块：该模块对词图中的每个词，构建词-文档倒排索引，用于检索包含词的文档。

可视化信息发现模块：该模块提供基于词类别以及词共现关系词图的文档浏览发现功能，提供对文档的标记功能，提供遍历词图的状态保存功能，从多角度实现对感兴趣信息的浏览发现。

本发明方法针对给定文档集进行可视化信息发现，首先利用自然语言处理技术对文档进行切分过滤，形成关键词集合，接着使用不同大小窗口考察词的共现情况，构建多级共现关系词图，该共现关系词图又称词图；用户通过浏览该词图进行可视化信息发现；可视化信息发现支持用户对词图中的词进行搜索；支持选定一个词作中心，通过共现关系查看相关词；支持对包含选定词的文档做重点检查，支持对词节点做删除，来删除相关文档并更新共现关系词图，支持对用户遍历词图的路径进行保存。

利用词图进行信息排查可以提高文档排查效率，词图相当于提供了对文档内容的摘要；利用词图共现关系可以很容易进行扩展检查，记录用户词图遍历路径可以帮助用户掌控检查进度；对词节点做删除标记可以减少后续文档检查数量，并且避免重复检查。

本发明方法灵活便捷，体现在通过自定义窗口大小来调整得到的文本片段大小，文本片段大小不同则得到的词关联情况也不同；可以自定义关键词，抽取哪些词及词的类别可以根据发现需求来确定。

附图说明

图1是一种基于多级共现关系词图的可视化文本信息发现方法流程图。

图2是文本可视化信息发现功能示意图。

图3是一种基于多级共现关系词图的可视化文本信息发现系统图。

图4是文档预处理、关键词提取示意图。

图5是多级词图构建模块使用的共现信息示意图。

图6是一窗口共现图-全局图。

图7是两窗口共现图-全局图。

图8是一窗口共现图-局部图(“唐德川”为中心)。

图9是两窗口共现图-局部图(“唐德川”为中心)。

图10是扩展浏览示意图(中心词从“唐德川”到“盈利企业”)。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本实施例提供一种基于多级共现关系词图的可视化文本信息发现方法，对一个文档集合进行信息发现，该文档集合包含2篇文档，如图1所示，方法步骤包括：

1.文档预处理：

对于文档集中的每一篇文档，输出<文档编号、文本片段列表>。具体处理过程包括：(1) 将文档进行格式解析，抽取有效文本内容；(2)对文本内容进行切分，切分后的文本片段一般对应有意义的语义单元；切分可以使用下面两类方法：(a)使用符号进行切分，符号由用户指定，这些符号包括常用的标点符号，如句号、逗号、换行符、段落缩进符等；(b)使用固定窗口切分，设定窗口大小和移动步长两个参数，从文档的开头向结尾移动，窗口圈定的每个文本片段作为输出。

对于本例的文本内容切分，使用(a)方法，选择逗号作为分隔符来对文档进行切分，得到句子集合，文档预处理的结果如图4所示。

2.关键词提取：

对每篇文档的每个文本片段，该步骤对文本片段进行编号，并且对文本片段进行切分，得到<词，词类别>列表。词类别标签由用户根据需求来确定，可以使用相关的自然语言处理工具包来抽取。常用的词类别标签可以包括：(a)词性标签，如名词、动词等；(b)实体词标签，如时间、地点、人名、机构名等，实体也包括复合实体，即由多个词组合后指代的新实体，如“集团表彰会”，其中“集团”和“表彰会”分别为实体词，二者组合指代新实体； (c)文档核心词标签，实现方法包括使用TF-IDF或者TextRank计算词权重，基于词权重对词进行排序，取排名最高的Topk个词作为核心词；(d)语义角色标签(Semantic Rolelabeling)，如受益人、条件、目的、原因等；(e)自定义类型，可以基于句法解析的结果进行后处理，如OpenIE得到的主语、谓语、宾语等。

对于本例，保留“名词、复合实体、人名、地名、机构名”的词类别标签，基于这些类别词对文档进行信息发现。关键词提取的结果如图4所示。比如，对于句子“唐德川在集团表彰会上表扬南区之时”，经过抽取得到“唐德川/人名”、“集团表彰会/复合实体”、“南区/ 地名”三个词以及词类别的序列。

3.多级词图(即共现关系词图)构建：

词图节点使用步骤2输出的词，词图边通过词的共现关系来确定。多级是指使用不同窗口大小来考察词的共现情况，从而生成多个共现关系词图。比如在同一文本片段中共现、在相邻N个文本片段中共现、在整个文档中共现等。

对于一对特定词，要求只能在单个词图中出现，该词图为关键词对出现的最小窗口所对应的共现关系词图。通过共现得到的词的连边也可以进行过滤删除，过滤规则由用户根据需要进行确定。

对于本例，使用两个级别的共现关系：在同一窗口共现、在相邻两个窗口共现，窗口单位为句子，对应生成的词图分别称为“一窗口共现图”和“两窗口共现图”。得到的词与词共现组合如图5所示，其在词图中体现为连边。具体地，以在同一窗口共现为例，[“唐德川/ 人名”、“集团表彰会/复合实体”、“南区/地名”]这三个词在同一句子中出现，那么通过该句，得到的词图的连边为这三个词的两两组合，即<唐德川，集团表彰会>、<唐德川，南区>、< 集团表彰会，南区>。

以相邻两个窗口共现为例，词列表1[“唐德川/人名”、“集团表彰会/复合实体”、“南区/ 地名”]中的词与词列表2[“南区/地名”、“南区驻集团代表/复合实体”]中的词在两个窗口范围内共现，那么词列表1中的词与词列表2中的词两两组合可以得到两窗口共现图的连边。这里注意的是<唐德川，南区>、<集团表彰会，南区>因为在“一窗口共现图”中出现，根据“对于一对特定词，要求只能在单个词图中出现”，所以这两条连边在“两窗口共现图”中进行删除。

4.词-文档索引构建：

对词图中的每个词，构建词-文档倒排索引，用于检索包含词的文档。

通过步骤1-4生成了多级共现关系词图以及倒排索引的数据结构，后续可视化信息发现通过对数据结构进行按需查找加载来完成。

5.可视化信息发现，核心功能包括：

1)全局图与局部图的在线浏览。

全局图提供对所有词的关联展示功能，用户利用该功能可以形成对文档集的概貌性浏览，图6给出了一窗口共现图的全局图，图7给出了两窗口共现图的全局图。局部图提供对选定词节点的相邻词节点的展示功能，用户利用该功能可以实现对文档集的重点区域的浏览，图 8给出了一窗口共现图的局部图。

对于不同大小的共现窗口，图的展示内容不同。全局图和局部图的功能是通过展示前端按需加载离线绘制的词图信息来实现。

2)局部图的选择浏览及扩展浏览。

选择浏览包括对全局图中的词进行全文搜索，选择感兴趣的词，展示以该词为中心的局部图，包括根据词类型标签对图中节点进行选择浏览。扩展浏览指用户可以点击局部图中的邻居节点，局部图自动更新为以该邻居节点为中心的局部图。

图10给出了扩展浏览的一个示例。用户点击“唐德川”展示以“唐德川”为中心的局部图，局部图中只高亮四个邻居节点，用户点击邻居节点“盈利企业”展示以“盈利企业”为中心的局部图。

3)共现关系的切换展示及并列展示。

切换展示支持用户以一个词为中心，通过选择不同共现级别(窗口大小)来加载不同的局部图，保持中心词位置不变。并列展示支持用户以一个词为中心，将不同共现级别下的局部图进行并列展示。切换展示和并列展示便于用户灵活查看词的上下文，发现相关线索。

图8、图9给出了以“唐德川”为中心词的共现词，图8为一窗口的局部图，图9为两窗口的局部图。切换展示会固定“唐德川”词的位置，图8与图9进行切换；并列展示则会将多个级别的局部图同时展示。

4)词图浏览历史记录。用户通过点击词图中的词对相关文档进行重点检查，常常会用到功能3中的扩展浏览功能。在浏览过程中，系统会记录用户点击的过的点以及相关路径，路径使用树结构保存，用户可以对历史路径进行加载和搜索，便于用户回忆并恢复检查状态。

对于图10，用户点击过的“唐德川”以及“盈利企业”会被保存。

5)词节点标记以及文档标记。

在浏览过程中，用户可以对词节点以及相关的文档进行标记。包括两类标记：

一是收藏标记，标记后的节点以及相关文档用户可以在后续进行重点检查；

二是删除标记，标记后的节点以及相关文档会被从文档集中删掉，对应的多级共现关系词图也会进行更新。

本实施例还提供一种基于多级共现关系词图的可视化文本信息发现系统，用于实现上述方法，组成如图3所示，包括文档预处理模块、关键词提取模块、多级词图构建模块、词- 文档索引构建模块及可视化信息发现模块。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于多级共现关系词图的可视化文本信息发现方法，其步骤包括：

对文本片段进行切分，提取关键词，并标记词类别标签；

根据关键词在文本片段中的共现关系构建多级共现关系词图，图中的节点对应关键词，图中的边对应关键词共现；

通过共现关系词图获取可视化文本信息。

2.根据权利要求1所述的方法，其特征在于，在抽取文档的文本内容之前，先将文档进行格式解析。

3.根据权利要求1所述的方法，其特征在于，对文本内容和文本片段使用符号或固定窗口进行切分，该符号包括标点符号，该固定窗口为从文本开头向结尾移动。

4.根据权利要求1所述的方法，其特征在于，词类别标签包括词性标签、实体词标签、文档核心词标签、语义角色标签、自定义类型标签。

5.根据权利要求4所述的方法，其特征在于，实体词标签包括复合实体词。

6.根据权利要求4所述的方法，其特征在于，对于文档核心词标签，找到文档核心词的方法包括使用TF-IDF或者TextRank计算词权重，基于词权重对关键词进行排序，取排名最高的Topk个关键词作为文档核心词。

7.根据权利要求1所述的方法，其特征在于，关键词的共现关系包括同一文本片段中共现、在相邻N个文本片段中共现、在整个文档中共现。

8.根据权利要求7所述的方法，其特征在于，对于一对关键词，其只能存在于共现关系最近的单个共现关系词图中，共现关系按照由近及远的顺序为同一文本片段中共现、在相邻N个文本片段中共现、在整个文档中共现。

9.根据权利要求1所述的方法，其特征在于，通过共现关系词图获取可视化文本信息的方法，包括：全局图与局部图的在线浏览、局部图的选择浏览及扩展浏览、共现关系的切换展示及并列展示、词图浏览历史记录、词节点标记以及文档标记。

10.一种基于多级共现关系词图的可视化文本信息发现系统，包括：

文档预处理模块，用于对文档进行格式解析，抽取文本内容并进行切分，得到文本片段的有序列表；

关键词提取模块，用于为每个文本片段进行编号，并对文本片段进行进一步的切分，获得<词，词类别>集合；

多级词图构建模块，用于根据关键词在文本片段中的共现关系，构建多级共现关系词图；

词-文档索引构建模块，用于构建词-文档倒排索引，检索包含关键词的文档；

可视化信息发现模块，用于实现基于共现关系词图的文档浏览、标记、状态保存功能。