CN110189393A

CN110189393A - 一种形状词云的生成方法和装置

Info

Publication number: CN110189393A
Application number: CN201910486852.9A
Authority: CN
Inventors: 汪云海; 张鉴; 初晓伟
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2019-08-30
Anticipated expiration: 2039-06-05
Also published as: WO2020244214A1; CN110189393B

Abstract

本公开提供了一种形状词云的生成方法和装置，对输入的文本进行分词处理，并计算出各单词对应的词频，按词频从大到小排序，提取输入的图片的形状轮廓并计算出形状距离场；根据词频计算出单词大小，并在不改变单词词频关系的情况下均匀放缩各单词大小以使单词能最大化填充提取的形状轮廓；根据形状距离场计算出形状螺旋线，利用形状螺旋线放置排序中前N个核心单词；根据是否存在编辑信息，将剩余的单词作为填充单词放置入形状中，将形状中的空隙填补完整，形成形状词云。

Description

一种形状词云的生成方法和装置

技术领域

本公开属于人机交互技术领域，具体涉及一种形状词云的生成方法和装置。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着大数据时代的来临，大量文字信息涌入了人们的生活中，无论是办公、学习还是各种娱乐活动，人们每天都要处理大量的文本信息，如何更简练更高效地表达文本数据中所蕴含的信息成为了信息可视化领域的一个重要问题。

文字云(或词云)生成器是时下流行的文本可视化工具，它能将文本中的单词提取出来，将单词词频映射为单词大小并形成美观的词云。由于单词大小即反映了单词在文章中出现的词频，人们可以清晰直观地看出文章的主要内容和重点。

文字云(或词云)生成器中形状词云尤为受到人们的关注，根据发明人的了解，现有的形状词云生成工具，例如WordArt，Tagxedo等虽然能够满足用户生成形状词云的基本需求，但却难以同时实现形状填充与数据保真，即使用现有技术生成的词云中单词的大小可能不再是单词词频的具体体现而是为了更好地填充形状而做了非均匀变形，这样可能会使用户对数据产生错误的理解。同时，现有的词云生成工具也无法将不同主题的单词指定放置于形状的不同区域，多主题的形状词云可以更好地增强语义，增进用户对于词云的理解。此外，现有的形状词云生成工具无法对单个单词进行平滑的编辑操作，不够便捷和人性化，使用户得不到良好的交互体验。

发明内容

本公开为了解决上述问题，提出了一种形状词云的生成方法和装置，本公开在数据保真的情况下生成高填充率的多主题形状词云，同时支持用户对于形状词云的平滑编辑操作,提高了人机交互的流畅性,增强了用户的体验感.

根据一些实施例，本公开采用如下技术方案：

一种形状词云的生成方法，包括以下步骤：

对输入的文本进行分词处理，并计算出各单词对应的词频，按词频从大到小排序，提取输入的图片的形状轮廓并计算出形状距离场；

根据词频计算出单词大小，并在不改变单词词频关系的情况下均匀放缩各单词大小以使单词能最大化填充提取的形状轮廓；

根据形状距离场计算出形状螺旋线，利用形状螺旋线放置排序中前N个核心单词；

将剩余的单词作为填充单词放置入形状中，将形状中的空隙填补完整，形成形状词云。

一种形状词云的生成方法，包括以下步骤：

确认是否有编辑信息，如果没有将剩余的单词作为填充单词放置入形状中，将形状中的空隙填补完整，形成形状词云，如果有则根据编辑信息对核心单词进行调整，并将剩余的单词作为填充单词放置入形状中，将形状中的空隙填补完整，形成形状词云。

作为可能的实施方式，对输入的图片的处理过程包括：

对图片进行灰度化处理；

对图片进行二值化处理并根据二值化图像计算出图片中的形状轮廓像素点信息；

提取出图片的前景、背景信息，对图像进行分水岭算法分割，以连通的区域作为一个形状分组，得到图片中各个形状分组；

根据形状分组信息，计算出各形状分组的距离场信息。

作为可能的实施方式，根据形状距离场计算出形状螺旋线的具体过程包括：

对原始的阿基米德螺旋线方程进行拓展，将其转写为直角坐标系下形式；

对撰写的形式进行求导，定义螺旋线的移动方向，对于点(x,y)，根据形状距离场，构造点(x,y)处的距离场梯度，与距离场梯度垂直的单位向量，以微分的性质表达求导公式，结合点(x,y)处曲率圆的半径，计算出形状螺旋线。

作为可能的实施方式，核心单词的放置过程包括：

根据各形状分组面积占各形状分组面积总和的比例大小，相适配的分配单词数目到各形状分组中，并根据各形状分组面积与最大形状分组面积比值确定各形状分组所能允许的单词最大权重，确定形状分组中各极点所分配的单词数目与允许的单词最大权重；

在各形状分组中，放置单词于形状的各极点附近；

以单词包围盒信息计算是否重叠，如果单词在放置位置未与任何已放置单词产生重叠，则将此单词放入已放置单词列表；否则，根据形状螺旋线移动单词直至该单词与任何已放置单词都不产生重叠，将该单词放入已放置单词列表。

作为可能的实施方式，使用填充单词填充形状的过程包括：

所有非核心单词的单词均为填充单词，填充单词将以像素为单位保存单词的位置信息，有像素位的点和无像素位的点的置位不同，得到填充单词的二值化像素信息；

扫描画布，将形状外区域与形状内被核心单词所占据的像素，以及形状内未被核心单词占据的像素，进行不同的置位，得到画布可放置区域信息；

将填充单词从靠近画布中心的起始位置出发，根据自身像素信息与画布可放置区域信息判断能否进行放置，如果不能放置，则根据阿基米德螺旋线进行移动，直至能够放置或移出画布，放置后更新画布可放置区域信息；

对填充单词进行一轮放置后，缩小填充单词大小进行下一轮放置，重复多次，直到形状词云被填充完整。

作为可能的实施方式，根据编辑信息对核心单词进行调整的具体过程包括：

编辑包括移动单词、旋转单词、缩放单词大小、更改单词字体和颜色、增加单词以及删除单词；

利用刚体动力学构建单词刚体，针对单词移动或删除过程中产生的空隙，对空隙附近单词施加引力吸附单词以填补空隙，根据接收的编辑信息确定是否添加吸附力。

一种形状词云的生成装置，包括：

输入模块，被配置为接收文本和图片；

分词模块，被配置为对输入的文本进行分词处理，并计算出各单词对应的词频，按词频从大到小排序，形成词语列表；

提取模块，被配置为提取输入的图片的形状轮廓并计算出形状距离场；

缩放模块，被配置为根据词频计算出单词大小，并在不改变单词词频关系的情况下均匀放缩各单词大小以使单词能最大化填充提取的形状轮廓；

生成模块，被配置为根据形状距离场计算出形状螺旋线，利用形状螺旋线放置排序中前N个核心单词，将剩余的单词作为填充单词放置入形状中，将形状中的空隙填补完整，形成形状词云。

一种形状词云的生成装置，包括：

输入模块，被配置为接收文本和图片；

生成模块，被配置为根据形状距离场计算出形状螺旋线，利用形状螺旋线放置排序中前N个核心单词，确认是否有编辑信息，如果没有将剩余的单词作为填充单词放置入形状中，将形状中的空隙填补完整，形成形状词云，如果有则根据编辑信息对核心单词进行调整，并将剩余的单词作为填充单词放置入形状中，将形状中的空隙填补完整，形成形状词云。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种形状词云的生成方法。

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种形状词云的生成方法。

与现有技术相比，本公开的有益效果为：

(1)本公开在预处理阶段，是对输入的文本进行分词处理，并计算出各单词对应的词频，按词频从大到小排序，形成词语列表，并按照词频大小来进行图片形状中的放置和填充，既可以生成美观紧凑的形状词云，又保持形状词云中数据的真实性，即单词的大小直接是词频的映射，不会为了提高填充率而进行不合理的单词放缩。

(2)本公开通过根据单词包围盒信息计算是否发生词语放置重叠，如果单词在放置位置未与任何已放置单词产生重叠，则将此单词放入已放置单词列表；否则，根据形状螺旋线移动单词直至该单词与任何已放置单词都不产生重叠，可以将不同主题的单词安放至不同的形状区域，大大扩展了形状的表现力。同时，支持用户指定放置单词至不同的区域也极大地增强了用户编辑时的自由度，提高了用户的交互体验。

(3)本公开在填充前，会先检验是否存在编辑意图或编辑信息，允许用户对单个单词进行编辑操作，同时支持用户对于形状分区及形状轮廓的微调，有利于用户对形状词云进行更加细致的操作，使用户能够更加方便地创作出富含语义的故事词云。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是一种或多种实施方式的可编辑词云生成方法流程图；

图2是根据一种或多种实施方式的形状螺旋线的示例图；

图3是根据一种或多种实施方式的形状词云初始化布局图；

图4是根据一种或多种实施方式的填充模式形状词云结果图；

图5是根据一种或多种实施方式的编辑模式形状词云效果图；

图6是根据一种或多种实施方式的编辑后的形状词云填充结果图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

首先进行名词解释如下:

极点即极值点，指的是距离场中的场值极小值的极值点。

画布，为绘制形状词云的底，在画布上绘制形状词云与形状轮廓。

刚体是指在运动中和受力作用后，形状和大小不变，而且内部各点的相对位置不变的物体。

一种形状词云的生成方法，该方法包括以下步骤：

根据输入的文本，对文本进行分词处理，并计算出各单词对应的词频，按词频从大到小排序；

根据输入的图片，对图片进行处理，提取出形状轮廓并计算出形状距离场；

根据得到的单词信息，根据词频计算出单词大小，并在不改变单词词频关系的情况下均匀放缩各单词大小以使单词能最大化填充形状；

根据形状距离场计算出形状螺旋线，利用形状螺旋线放置前N个核心单词(N为用户指定的核心单词数量)；

将剩余小单词作为填充单词放置入形状中，将形状中的空隙填补完整。

当然，用户可以对核心单词进行编辑，接收具体的编辑信息，并在编辑完成后可以用填充单词进行形状填充；可以随时在编辑状态与填充状态间进行切换。

具体的，对用户输入的图片进行的图片处理包括：

对图片进行灰度化处理；

根据形状分组信息，计算出各形状分组的距离场信息。

根据形状距离场计算出形状螺旋线的方法为：

对原始的阿基米德螺旋线方程r(θ)＝mθ+b进行拓展，将其转写为直角坐标系下形式

将上述公式根据θ求导得将定义为螺旋线的移动方向U，同时，定义N＝(cosθ,sinθ)^T，T＝(-sinθ,cosθ)^T，则其中N和T都为单位向量；

对于点(x,y)，根据形状距离场，以点(x,y)处的距离场梯度作为N，以与N垂直的单位向量作为T，以微分形式可重写上述公式为其中

由于各点曲率不同，对每个点使用相同的θ并不合适，尤其是曲率值很高的点。因此定义其中R为在点(x,y)处曲率圆的半径，η为用户定义的参量，则上述公式可重写为则可根据此公式计算出形状螺旋线。

核心单词的放置策略为：

根据各形状分组面积占各形状分组面积总和的比例大小合理分配单词数目到各形状分组中，并根据各形状分组面积与最大形状分组面积比值确定各形状分组所能允许的单词最大权重，用类似的方法，确定形状分组中各极点所分配的单词数目与允许的单词最大权重；

在各形状分组中，放置单词于形状的各极点附近；

使用填充单词填充形状的步骤为：

词表中所有非核心单词的单词均为填充单词，填充单词将以像素为单位保存单词的位置信息，为节省空间，将有像素位的点置为1，无像素位的点置为0，得到填充单词的二值化像素信息；

扫描画布，将形状外区域与形状内被核心单词所占据的像素为置为0，形状内未被核心单词占据的像素置为1，得到画布可放置区域信息；

对填充单词进行一轮放置后，缩小填充单词大小进行下一轮放置，重复3-4次，如此可得到被填充完整的形状词云。

用户可以对核心单词进行编辑的步骤包括：

用户可以在剔除填充单词，只保留核心单词的情况下对核心单词进行编辑操作；

编辑包括移动单词、旋转单词、缩放单词大小、更改单词字体颜色、增加单词以及删除单词等操作；

采用刚体动力学设计，构建单词刚体，对单词移动或删除过程中产生的空隙，会对空隙附近单词施加引力吸附单词以填补空隙，用户可以控制是否添加吸附力。

以一种典型的实施例进行说明：

生成可编辑形状词云的方法和装置，该方法包括以下步骤：

S101，获取用户输入的文本和图片，提取词频信息和计算形状螺旋线，为生成形状词云初始化布局做铺垫。

所述步骤S101的具体实现方式如下：

S101-1，根据用户输入的文本，进行分词处理，提取出文本中各单词的词频信息，并按照从大到小的顺序排序。

S101-2，根据用户输入的图片，对图片进行灰度化、二值化处理，对处理后的图片进行分水岭算法计算出形状分组信息，根据形状分组信息计算出形状轮廓并计算出形状距离场。

S101-3，扩展基础的阿基米德螺旋线至任意形状，根据形状距离场与扩展的阿基米德螺旋线公式，计算出距离场中每个点运动的方向向量并进一步计算出形状螺旋线。如图2所示。

在本实施例中，通过对文本和图片的处理，提取出了文本与形状的基础信息，是后续步骤展开的基础。

S102：计算形状词云初始化布局。

所述步骤102的具体实现方式如下：

S102-1，根据各形状分组面积占各形状分组面积总和的比例大小合理分配单词数目到各形状分组中，并确定各形状分组与形状分组中各极点能够接受的单词最大权重；

S102-2，在各形状分组中，放置单词于形状的各极点附近；

S102-3，以单词包围盒信息计算是否重叠，如果单词在放置位置未与任何已放置单词产生重叠，则将此单词放入已放置单词列表；否则，根据形状螺旋线移动单词直至该单词与任何已放置单词都不产生重叠，将该单词放入已放置单词列表。

本实施例中，根据树形螺旋线生成树形词云初始化布局，如图3所示，所生成的结果将均匀放大所有核心单词以提高形状词云填充率，不会改变单词原有的词频信息，保证结果数据真实可靠。

S103：用边缘单词对形状词云中的空隙进行填充。

所述步骤103的具体实现方式如下：

S103-1，词表中用户关心的前N个高频单词为核心单词，允许进行编辑；词表中所有非核心单词的单词为填充单词，用来填充形状词云中的空隙，不允许进行编辑。与核心单词采用包围盒计算是否重叠不同，填充单词将以二值化的像素为单位保存单词的位置信息。计算出各填充单词的二值化像素信息。

S103-2，将填充单词从靠近画布中心的起始位置出发，根据自身像素信息与画布可放置区域信息判断能否进行放置，如能放置则直接放置，不能则按照螺旋线移动单词直至移出画布或找到能放置的位置进行放置。对所有的填充单词进行循环，随后缩减填充单词大小再次进行循环，重复几次后可得到高填充率的形状词云。

图4展示了树形词云在填充后的结果图。

S104：对形状词云中的核心单词进行编辑。

用户可以在剔除填充单词，只保留核心单词的情况下对核心单词进行如移动、旋转、增删等编辑操作，如图5所示。自由度高，最大化发挥用户的主观能动性，使用户可以充分表达自身的设计意图。用户可以在编辑后对形状词云进行填充操作，填充模式和编辑模式可以随时进行切换，填充结果图如图6所示。

从以上的描述中，可以看出，上述的一种或多种实施例实现了如下技术效果：

(1)对任意输入的文本和形状均可生成高填充率，保持数据真实性的形状词云布局，使用户可以直观地从形状词云中了解到文章的主要内容与文章中核心单词之间的词频比例关系。

(2)可以对形状进行分组，允许用户指定地将特定单词布局于特定分组中，方便用户实现单词聚类，使不同主题的内容呈现于形状词云的不同部分，进一步地增强语义，便于人们理解。

(3)允许用户对形状词云中的核心单词进行独立的编辑操作，有利于设计者充分发挥自身创意，充分表达自身的设计意图，使形状词云富有更强的语义信息，提高了形状词云的实用性和美观程度。

提供相应的产品实施例如下：

一种形状词云的生成装置，包括：

输入模块，被配置为接收文本和图片；

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种形状词云的生成方法，其特征是：包括以下步骤：

2.一种形状词云的生成方法，其特征是：包括以下步骤：

3.如权利要求1或2所述的一种形状词云的生成方法，其特征是：对输入的图片的处理过程包括：

对图片进行灰度化处理；

根据形状分组信息，计算出各形状分组的距离场信息。

4.如权利要求1或2所述的一种形状词云的生成方法，其特征是：根据形状距离场计算出形状螺旋线的具体过程包括：

5.如权利要求1或2所述的一种形状词云的生成方法，其特征是：核心单词的放置过程包括：

在各形状分组中，放置单词于形状的各极点附近；

6.如权利要求1或2所述的一种形状词云的生成方法，其特征是：使用填充单词填充形状的过程包括：

7.如权利要求2所述的一种形状词云的生成方法，其特征是：根据编辑信息对核心单词进行调整的具体过程包括：

编辑包括移动单词、旋转单词、缩放单词大小、更改单词字体颜色、增加单词以及删除单词；

8.一种形状词云的生成装置，其特征是：包括：

输入模块，被配置为接收文本和图片；

生成模块，被配置为根据形状距离场计算出形状螺旋线，利用形状螺旋线放置排序中前N个核心单词，将剩余的单词作为填充单词放置入形状中，将形状中的空隙填补完整，形成形状词云；

或，包括：

输入模块，被配置为接收文本和图片；

9.一种计算机可读存储介质，其特征是：其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-7中任一项所述的一种形状词云的生成方法。

10.一种终端设备，其特征是：包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行权利要求1-7中任一项所述的一种形状词云的生成方法。