CN106469138A - 词云的生成方法及装置 - Google Patents
词云的生成方法及装置 Download PDFInfo
- Publication number
- CN106469138A CN106469138A CN201610865885.0A CN201610865885A CN106469138A CN 106469138 A CN106469138 A CN 106469138A CN 201610865885 A CN201610865885 A CN 201610865885A CN 106469138 A CN106469138 A CN 106469138A
- Authority
- CN
- China
- Prior art keywords
- word
- graph outline
- vocabulary
- enclosure body
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/189—Automatic justification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Image Generation (AREA)
- Controls And Circuits For Display Device (AREA)
Abstract
本发明公开了一种词云的生成方法及装置,涉及文本处理技术领域,主要解决词云生成效率低的问题。本发明的方法包括:获取用户输入的图片及词表;识别所述图片中的图形轮廓;将所述词表中的词填入所述图形轮廓内以生成词云。本发明主要用于生成词云。
Description
技术领域
本发明涉及文本处理技术领域,特别是涉及一种词云的生成方法及装置。
背景技术
随着社交媒体的广泛应用,“词云”已经成了各大社交媒体的重要应用之一,越来越多的社交媒体通过词云显示词汇。其中,词云就是对文本中出现频率较高的关键词予以视觉上的突出,形成关键词云层或关键词渲染,从而过滤掉大量的文本信息,词云显示能让观看对象非常直观的了解到某一类信息的重点内容。
目前,大部分词云生成都是人工编辑完成的,有些系统也能进行自动生成词云,但词云的形状受到预置模板的限制,而预置模板往往都是由人工绘制得到,比如某社交媒体想要做一个西瓜相关的词云,背景形状希望使用西瓜的形状。因此现有词云的生成效率低。
发明内容
有鉴于此,本发明提供一种词云的生成方法及装置,主要目的在于提高词云的生成效率。
依据本发明一个方面,提供了一种词云的生成方法,包括:
获取用户输入的图片及词表;
识别所述图片中的图形轮廓;
将所述词表中的词填入所述图形轮廓内以生成词云。
具体的,所述识别所述图片中的图形轮廓包括:
删除所述图片中预置范围内的像素点得到所述图形轮廓;或
接收用户在所述图片中选择的图形轮廓。
进一步地,所述识别所述图片中的图形轮廓之后,所述方法还包括:
最小化处理所述图形轮廓所在的X轴、Y轴;
获取最小化处理后图形轮廓的点集合;
将所述点集合中的各个点转换为轴对齐AABB包围体。
进一步地,所述将所述词表中的词填入所述图形轮廓内以生成词云之前,所述方法还包括:
根据所述词表中各个词的词频大小设置各个词的字体大小;
依据各个词的字体大小为所述词表中的每个词构建包围体。
具体的,所述依据各个词的字体大小为所述词表中的每个词构建包围体包括:
若所述词中包含多个字,则依据所述词的字体大小构建所述词的AABB包围体;或
若所述词中包含一个字,则依据所述词的字体大小构建所述词的圆形包围体。
具体的,所述将所述词表中的词填入所述图形轮廓内以生成词云包括:
生成一个坐标点,所述坐标点在所述图形轮廓范围内,用于放置所述词表中词频最大的词;
检测在所述坐标点显示的词频最大的词的包围体是否与所述点集合中点的包围体或所述图形轮廓中已放置词的包围体发生碰撞;
若发生碰撞,则重新生成一个坐标点;
若未发生碰撞,则在所述坐标点处填入所述词表中词频最大的词;
当所述词表中的词均成功填入所述图形轮廓内时,生成所述词云。
进一步地,所述重新生成一个坐标点之前,所述方法还包括:
判断所述词频最大的词的碰撞次数是否大于预置阈值;
若所述词频最大的词的碰撞次数大于预置阈值,则通过递归算法将所述词表中的词填入所述图形轮廓内;
所述重新生成一个坐标点包括:
若所述词频最大的词的碰撞次数小于等于预置阈值,则重新生成一个坐标点。
依据本发明另一个方面,提供了一种词云的生成装置,包括:
获取单元,用于获取用户输入的图片及词表;
识别单元,用于识别所述图片中的图形轮廓;
生成单元,用于将所述词表中的词填入所述图形轮廓内以生成词云。
具体的,所述识别单元包括:
删除模块,用于删除所述图片中预置范围内的像素点得到所述图形轮廓;
接收模块,用于接收用户在所述图片中选择的图形轮廓。
进一步地,所述装置还包括:
最小化单元,用于最小化处理所述图形轮廓所在的X轴、Y轴;
所述获取单元,还用于获取最小化处理后图形轮廓的点集合;
转换单元,用于将所述点集合中的各个点转换为轴对齐AABB包围体。
进一步地,所述装置还包括:
设置单元,用于根据所述词表中各个词的词频大小设置各个词的字体大小;
构建单元,用于依据各个词的字体大小为所述词表中的每个词构建包围体。
所述构建单元,具体用于若所述词中包含多个字,则依据所述词的字体大小构建所述词的AABB包围体;若所述词中包含一个字,则依据所述词的字体大小构建所述词的圆形包围体。
具体的,所述生成单元包括:
生成模块,用于生成一个坐标点,所述坐标点在所述图形轮廓范围内,用于放置所述词表中词频最大的词;
检测模块,用于检测在所述坐标点显示的词频最大的词的包围体是否与所述点集合中点的包围体或所述图形轮廓中已放置词的包围体发生碰撞;
所述生成模块,用于若在所述坐标点显示的词频最大的词的包围体与所述点集合中点的包围体或所述图形轮廓中已放置词的包围体发生碰撞,则重新生成一个坐标点;
填入模块,用于若在所述坐标点显示的词频最大的词的包围体与所述点集合中点的包围体或所述图形轮廓中已放置词的包围体未发生碰撞,则在所述坐标点处填入所述词表中词频最大的词;
生成模块,用于当所述词表中的词均成功填入所述图形轮廓内时,生成所述词云。
进一步地,所述生成单元还包括:
判断模块,用于判断所述词频最大的词的碰撞次数是否大于预置阈值;
递归模块,用于若所述词频最大的词的碰撞次数大于预置阈值,则通过递归算法将所述词表中的词填入所述图形轮廓内;
所述生成模块,用于若所述词频最大的词的碰撞次数小于等于预置阈值,则重新生成一个坐标点。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例提供的一种词云的生成方法及装置,首先获取用户输入的图片及词表,然后识别所述图片中的图形轮廓,最后将所述词表中的词填入所述图形轮廓内以生成词云。与目前根据人工编辑词云的形状生成词云相比,本发明实施例在接收到用于输入的图片后,自动识别图片中的图形轮廓,然后将词表中的词自动填充到图形轮廓中形成词云,从而减少了人工编辑词云形状的过程,提高了词云的生成效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种词云的生成方法流程图;
图2示出了本发明实施例提供的一种词云的生成装置的结构框图;
图3示出了本发明实施例提供的另一种词云的生成装置的结构框图;
图4示出了本发明实施例提供的一种最小化处理示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种词云的生成方法,如图1所示,该方法包括:
101、获取用户输入的图片及词表。
其中,所述图片为期望使用图形轮廓的图片,该图片的背景为单一色或趋近于单一色,以便系统可以识别图形轮廓。词表中包括词和词频两部分,词频用于表示对应词出现的次数。例如,词表中“赞”的词频为32,“无效”的词频为18,“宝宝”的词频为24。
102、识别所述图片中的图形轮廓。
本发明实施例支持自动识别和手动识别图片中的图形轮廓,自动识别的图形轮廓可通过删除所述图片中预置范围内的像素点得到,其中预置范围可以根据实际需求进行设置,具体可以为10px、11px、12px等,本发明实施例不做具体限定。例如,提取图片相近像素点,将像素10px以内的认为是相近范围,将10px以内的相似像素作为背景色删除,剩余部分的边界作为图片的图形轮廓。手动识别的图像轮廓是由用户手动选择的,即接收用户在所述图片中选择的图形轮廓,用户通过系统提供可视化选择界面,使用类似PS(AdobePhotoshop,图像处理软件)的魔术棒、磁性套选等工具选择图形轮廓,本发明实施例不做具体限定。
本发明在自动识别图片中的图形轮廓后,向用户输出自动识别的图形轮廓,以便用户确认自动识别的图形轮廓是否达到预期目标,若达到预期目标,则直接将自动主动识别的图形轮廓作为词云的形状;若没有达到预期目标,用户可通过手动调整自动识别的图形轮廓,即通过PS等图像处理软件手动的从图片中选择图形轮廓,使手动调整的图形轮廓达到预置目标。
103、将所述词表中的词填入所述图形轮廓内以生成词云。
在本发明实施例中,具体可根据词表中各词对应的词频,将词表中的词填入所述图形轮廓内以生成词云。进一步地,在成功生成词云之后,本发明实施例可利用OpenGL(Open Graphics Library,开源图形库)或canvas(HTML 5Canvas,在网页上绘制图形)等画图API(Application Programming Interface,应用程序编程接口)将生成的词云截取并拷贝到剪切板中,以便使用者能够导出图片。导出的词云支持png、jpeg、jpg、bmp等常用图形格式,本发明实施例不做具体限定。
本发明实施例提供的一种词云的生成方法,在接收到用于输入的图片后,自动识别图片中的图形轮廓,然后根据词表中各词对应的词频,将词表中的词自动填充到图形轮廓中形成词云,从而通过本发明实施例减少了人工编辑词云形状的过程,提高了词云的生成效率。
需要说明的是,在将词表中的词填入所述图形轮廓内的过程中,需要检测填入的词是否与图形轮廓发生碰撞,而检测词是否与图形轮廓是否发生碰撞具体是通过词与图形轮廓对应的包围体实现的。因此在识别所述图片中的图形轮廓之后,所述方法还包括:最小化处理所述图形轮廓所在的X轴、Y轴;获取最小化处理后图形轮廓的点集合;将所述点集合中的各个点转换为轴对齐AABB包围体。如图4所示,最小化处理图形轮廓所在的X轴、Y轴,即将图形轮廓进行有效偏移使图形轮廓所在的X轴、Y轴最小,最小化处理后的X轴、Y轴与图形轮廓相切。然后获取图形轮廓上点的集合,图形轮廓上点的取值范围以当前图片的像素(px)为单位,最终形成的点集合表示为{point1(0,5),point(5,5),point(5,10)…}。最后将点集合中的各个点转换为轴对齐AABB包围,以此实现词与图形轮廓的碰撞检测。
在本发明实施例中,为实现词与词、词与图形轮廓的碰撞检测,因此在将所述词表中的词填入所述图形轮廓内以生成词云之前,所述方法还包括:根据所述词表中各个词的词频大小设置各个词的字体大小;依据各个词的字体大小为所述词表中的每个词构建包围体。需要说明的是,由于词云的特点是词频高的词显示的比词频低的词大。词云中可以通过观察文字大小来了解词频大小。因此要根据用户输入条件设置字体,设置字体的方法为先找到最大最小词频的数值,将最大和最小词频分别对应成系统支持的最大字号和最小字号。其他中间词频按比例关系分别对应各自的字号,其中遇到比值不是整数倍的时候按照四舍五入的原则处理。
具体的,所述依据各个词的字体大小为所述词表中的每个词构建包围体包括:若所述词中包含多个字,则依据所述词的字体大小构建所述词的AABB包围体;若所述词中包含一个字,则依据所述词的字体大小构建所述词的圆形包围体。在本发明实施例中,根据词的字号换算出每个字的大小,根据词中字的个数计算出长度。单个汉字时,根据单字先计算出单字的AABB包围体,然后获取AABB的中心点,并得到中心点到各个边的边长,以到边长最长距离的长度做半径,获取单个字的圆形包围体,然后计算出圆形包围体上的各个点集合。需要说明的是,由于圆形包围体的紧密性好,因此当词为单个字时,构建词的圆形包围体,可减少词的碰撞几率,从而提高词云的生成效率。
具体的,所述将所述词表中的词填入所述图形轮廓内以生成词云包括:生成一个坐标点,所述坐标点在所述图形轮廓范围内,用于放置所述词表中词频最大的词;检测在所述坐标点显示的词频最大的词的包围体是否与所述点集合中点的包围体或所述图形轮廓中已放置词的包围体发生碰撞;若发生碰撞,则重新生成一个坐标点;若未发生碰撞,则在所述坐标点处填入所述词表中词频最大的词;当所述词表中的词均成功填入所述图形轮廓内时,生成所述词云。即本发明实施例通过背包算法,依次从大词频开始向图像轮廓中放置带有包围体的词。
其中,本发明实施例可通过正态分布的随机数生成一个坐标点,为了使词表中的词能够均匀的分布在图像轮廓中,可通过Math.random()函数生成N个随机数,则这N个随机数的平均数趋近与0.5,当N值越大平均数趋近0.5的概率就越大,当N值越小平均数趋近0.5的概率就越小,N个(0,1)之间的随机数的平均数以0.5为中心成正态分布。然后根据生成的随机数得到一个坐标点。
在生成一个坐标点之后,在该坐标点处放置所述词表中词频最大的词,然后检测在所述坐标点显示的词频最大的词的包围体是否与所述点集合中点的包围体或所述图形轮廓中已放置词的包围体发生碰撞。如果在所述坐标点显示的词频最大的词的包围体与点集合中点的包围体发生碰撞,说明在该坐标点放置的词已经超出了图形轮廓的边界范围;如果在所述坐标点显示的词频最大的词的包围图与图形轮廓中已放置词的包围体发生碰撞,说明在该坐标点放置的词已经和图形轮廓中已有的词发生重叠。因此,当在所述坐标点显示的词频最大的词的包围体与所述点集合中点的包围体或所述图形轮廓中已放置词的包围体发生碰撞时,需要从新生成一个坐标点,然后继续检测在从新生成的坐标点处显示的词表中词频最大的词是否与所述点集合中点的包围体或所述图形轮廓中已放置词的包围体发生碰撞,若未发生碰撞,则在所述坐标点处填入所述词表中词频最大的词。
例如,词表中包括4个词,分别为A、B、C,其中A的词频为6,B的词频为5,C的词频为4。则根据词表中词频的大小顺序,首先生成一个坐标点a,然后检测在坐标点a放置的A的包围体是否与点集合中点的包围体发生碰撞,若未发生碰撞,则在坐标点a处填入词A,并从新生成一个坐标点b,然后检测在坐标点b放置的B的包围体是否与A的包围体或点集合中点的包围体发生碰撞,若未发生碰撞,则在坐标点b处填入词B,并从新生成一个坐标点c,然后检测在坐标点c放置的C的包围体是否与A的包围体、B的包围体或点集合中点的包围体发生碰撞,若发生碰撞,则从新生成一个坐标点d,然后检测在坐标点d放置的C的包围体是否与A的包围体、B的包围体或点集合中点的包围体发生碰撞,若未发生碰撞,则在坐标点d处填入词C。当词A、B、C成功填入所述图形轮廓内后生成所述词云。
进一步地,在重新生成一个坐标点之前,所述方法还包括:判断所述词频最大的词的碰撞次数是否大于预置阈值;若所述词频最大的词的碰撞次数大于预置阈值,则通过递归算法将所述词表中的词填入所述图形轮廓内;所述重新生成一个坐标点包括:若所述词频最大的词的碰撞次数小于等于预置阈值,则重新生成一个坐标点。其中,所述预置阈值是根据图形轮廓确定的,即预置阈值可为图像轮廓内像素点的个数。
例如,词表中包含A、B、C、D四个词,对应的词频分别为5、4、3、2。根据词频的大小顺序已成功的将词表中的词A、B、C填入到图形轮廓内,在向图形轮廓填入词D过程中,若发现在生成的所有坐标点处显示的词D的包围体点均与集合中点的包围体或所述图形轮廓中已放置词的包围体发生碰撞,说明图形轮廓中没有足够大的剩余空间放置词D,此时可通过递归算法将剩余的词填入图形轮廓内。即首先从图形轮廓中提取出词C,然后从新生成一个坐标点放置词C,然后继续放置词D,若改变词C的位置后,词D任然无法成功填入图形轮廓中,则再继续向前提取词B,改变词B的位置,接着放置词C、词D,以此类推通过不断的取出放入的方式,将词表中的词填入图形轮廓内。
对于本发明实施例,若通过递归算法也无法将词表中所有的词成功的填入图形轮廓内,则等比缩小词表中各个词的字体大小,然后从新将词表中的词填入所述图形轮廓内以生成词云。
进一步的,作为对上述图1所示方法的实现,本发明实施例提供了一种词云的生成装置,如图2所示,该装置包括:获取单元21、识别单元22、生成单元23。
获取单元21,用于获取用户输入的图片及词表;
其中,所述图片为期望使用图形轮廓的图片,该图片的背景为单一色或趋近于单一色,以便系统可以识别图形轮廓。词表中包括词和词频两部分,词频用于表示对应词出现的次数。例如,词表中“赞”的词频为32,“无效”的词频为18,“宝宝”的词频为24。
识别单元22,用于识别所述图片中的图形轮廓;
本发明实施例支持自动识别和手动识别图片中的图形轮廓,自动识别的图形轮廓可通过删除所述图片中预置范围内的像素点得到,其中预置范围可以根据实际需求进行设置,具体可以为10px、11px、12px等,本发明实施例不做具体限定。例如,提取图片相近像素点,将像素10px以内的认为是相近范围,将10px以内的相似像素作为背景色删除,剩余部分的边界作为图片的图形轮廓。手动识别的图像轮廓是由用户手动选择的,即接收用户在所述图片中选择的图形轮廓,用户通过系统提供可视化选择界面,使用类似PS(AdobePhotoshop,图像处理软件)的魔术棒、磁性套选等工具选择图形轮廓,本发明实施例不做具体限定。
本发明在自动识别图片中的图形轮廓后,向用户输出自动识别的图形轮廓,以便用户确认自动识别的图形轮廓是否达到预期目标,若达到预期目标,则直接将自动主动识别的图形轮廓作为词云的形状;若没有达到预期目标,用户可通过手动调整自动识别的图形轮廓,即通过PS等图像处理软件手动的从图片中选择图形轮廓,使手动调整的图形轮廓达到预置目标。
生成单元23,用于将所述词表中的词填入所述图形轮廓内以生成词云。
在本发明实施例中,具体可根据词表中各词对应的词频,将词表中的词填入所述图形轮廓内以生成词云。进一步地,在成功生成词云之后,本发明实施例可利用OpenGL(Open Graphics Library,开源图形库)或canvas(HTML 5Canvas,在网页上绘制图形)等画图API(Application Programming Interface,应用程序编程接口)将生成的词云截取并拷贝到剪切板中,以便使用者能够导出图片。导出的词云支持png、jpeg、jpg、bmp等常用图形格式,本发明实施例不做具体限定。
进一步地,如图3所示,所述识别单元22包括:
删除模块221,用于删除所述图片中预置范围内的像素点得到所述图形轮廓;
接收模块222,用于接收用户在所述图片中选择的图形轮廓。
进一步地,如图3所示,所述装置还包括:
最小化单元24,用于最小化处理所述图形轮廓所在的X轴、Y轴;
所述获取单元21,还用于获取最小化处理后图形轮廓的点集合;
转换单元25,用于将所述点集合中的各个点转换为轴对齐AABB包围体。
如图4所示,最小化处理图形轮廓所在的X轴、Y轴,即将图形轮廓进行有效偏移使图形轮廓所在的X轴、Y轴最小,最小化处理后的X轴、Y轴与图形轮廓相切。然后获取图形轮廓上点的集合,图形轮廓上点的取值范围以当前图片的像素(px)为单位,最终形成的点集合表示为{point1(0,5),point(5,5),point(5,10)…}。最后将点集合中的各个点转换为轴对齐AABB包围,以此实现词与图形轮廓的碰撞检测。
进一步地,如图3所示,所述装置还包括:
设置单元26,用于根据所述词表中各个词的词频大小设置各个词的字体大小;
构建单元27,用于依据各个词的字体大小为所述词表中的每个词构建包围体。
需要说明的是,由于词云的特点是词频高的词显示的比词频低的词大。词云中可以通过观察文字大小来了解词频大小。因此要根据用户输入条件设置字体,设置字体的方法为先找到最大最小词频的数值,将最大和最小词频分别对应成系统支持的最大字号和最小字号。其他中间词频按比例关系分别对应各自的字号,其中遇到比值不是整数倍的时候按照四舍五入的原则处理。
所述构建单元27,具体用于若所述词中包含多个字,则依据所述词的字体大小构建所述词的AABB包围体;若所述词中包含一个字,则依据所述词的字体大小构建所述词的圆形包围体。
在本发明实施例中,根据词的字号换算出每个字的大小,根据词中字的个数计算出长度。单个汉字时,根据单字先计算出单字的AABB包围体,然后获取AABB的中心点,并得到中心点到各个边的边长,以到边长最长距离的长度做半径,获取单个字的圆形包围体,然后计算出圆形包围体上的各个点集合。需要说明的是,由于圆形包围体的紧密性好,因此当词为单个字时,构建词的圆形包围体,可减少词的碰撞几率,从而提高词云的生成效率。
进一步地,如图3所示,所述生成单元23包括:
生成模块231,用于生成一个坐标点,所述坐标点在所述图形轮廓范围内,用于放置所述词表中词频最大的词;
检测模块232,用于检测在所述坐标点显示的词频最大的词的包围体是否与所述点集合中点的包围体或所述图形轮廓中已放置词的包围体发生碰撞;
所述生成模块231,用于若在所述坐标点显示的词频最大的词的包围体与所述点集合中点的包围体或所述图形轮廓中已放置词的包围体发生碰撞,则重新生成一个坐标点;
填入模块233,用于若在所述坐标点显示的词频最大的词的包围体与所述点集合中点的包围体或所述图形轮廓中已放置词的包围体未发生碰撞,则在所述坐标点处填入所述词表中词频最大的词;
生成模块231,用于当所述词表中的词均成功填入所述图形轮廓内时,生成所述词云。
进一步地,如图3所示,所述生成单元23还包括:
判断模块234,用于判断所述词频最大的词的碰撞次数是否大于预置阈值;
递归模块235,用于若所述词频最大的词的碰撞次数大于预置阈值,则通过递归算法将所述词表中的词填入所述图形轮廓内;
所述生成模块231,用于若所述词频最大的词的碰撞次数小于等于预置阈值,则重新生成一个坐标点。
对于本发明实施例,若通过递归算法也无法将词表中所有的词成功的填入图形轮廓内,则等比缩小词表中各个词的字体大小,然后从新将词表中的词填入所述图形轮廓内以生成词云。
本发明实施例提供的一种词云的生成装置,首先获取用户输入的图片及词表,然后识别所述图片中的图形轮廓,最后将所述词表中的词填入所述图形轮廓内以生成词云。与目前根据人工编辑词云的形状生成词云相比,本发明实施例在接收到用于输入的图片后,自动识别图片中的图形轮廓,然后将词表中的词自动填充到图形轮廓中形成词云,从而减少了人工编辑词云形状的过程,提高了词云的生成效率。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的词云的生成方法及装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种词云的生成方法,其特征在于,包括:
获取用户输入的图片及词表;
识别所述图片中的图形轮廓;
将所述词表中的词填入所述图形轮廓内以生成词云。
2.根据权利要求1所述的方法,其特征在于,所述识别所述图片中的图形轮廓包括:
删除所述图片中预置范围内的像素点得到所述图形轮廓;或
接收用户在所述图片中选择的图形轮廓。
3.根据权利要求2所述的方法,其特征在于,所述识别所述图片中的图形轮廓之后,所述方法还包括:
最小化处理所述图形轮廓所在的X轴、Y轴;
获取最小化处理后图形轮廓的点集合;
将所述点集合中的各个点转换为轴对齐AABB包围体。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述将所述词表中的词填入所述图形轮廓内以生成词云之前,所述方法还包括:
根据所述词表中各个词的词频大小设置各个词的字体大小;
依据各个词的字体大小为所述词表中的每个词构建包围体。
5.根据权利要求4所述的方法,其特征在于,所述依据各个词的字体大小为所述词表中的每个词构建包围体包括:
若所述词中包含多个字,则依据所述词的字体大小构建所述词的AABB包围体;或
若所述词中包含一个字,则依据所述词的字体大小构建所述词的圆形包围体。
6.根据权利要求5所述的方法,其特征在于,所述将所述词表中的词填入所述图形轮廓内以生成词云包括:
生成一个坐标点,所述坐标点在所述图形轮廓范围内,用于放置所述词表中词频最大的词;
检测在所述坐标点显示的词频最大的词的包围体是否与所述点集合中点的包围体或所述图形轮廓中已放置词的包围体发生碰撞;
若发生碰撞,则重新生成一个坐标点;
若未发生碰撞,则在所述坐标点处填入所述词表中词频最大的词;
当所述词表中的词均成功填入所述图形轮廓内时,生成所述词云。
7.根据权利要求6所述的方法,其特征在于,所述重新生成一个坐标点之前,所述方法还包括:
判断所述词频最大的词的碰撞次数是否大于预置阈值;
若所述词频最大的词的碰撞次数大于预置阈值,则通过递归算法将所述词表中的词填入所述图形轮廓内;
所述重新生成一个坐标点包括:
若所述词频最大的词的碰撞次数小于等于预置阈值,则重新生成一个坐标点。
8.一种词云的生成装置,其特征在于,包括:
获取单元,用于获取用户输入的图片及词表;
识别单元,用于识别所述图片中的图形轮廓;
生成单元,用于将所述词表中的词填入所述图形轮廓内以生成词云。
9.根据权利要求8所述的装置,其特征在于,所述识别单元包括:
删除模块,用于删除所述图片中预置范围内的像素点得到所述图形轮廓;
接收模块,用于接收用户在所述图片中选择的图形轮廓。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
最小化单元,用于最小化处理所述图形轮廓所在的X轴、Y轴;
所述获取单元,还用于获取最小化处理后图形轮廓的点集合;
转换单元,用于将所述点集合中的各个点转换为轴对齐AABB包围体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610865885.0A CN106469138B (zh) | 2016-09-29 | 2016-09-29 | 词云的生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610865885.0A CN106469138B (zh) | 2016-09-29 | 2016-09-29 | 词云的生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106469138A true CN106469138A (zh) | 2017-03-01 |
CN106469138B CN106469138B (zh) | 2020-07-17 |
Family
ID=58230779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610865885.0A Active CN106469138B (zh) | 2016-09-29 | 2016-09-29 | 词云的生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106469138B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107742315A (zh) * | 2017-10-10 | 2018-02-27 | 泰康保险集团股份有限公司 | 生成人物词云画像的方法及装置 |
CN110189393A (zh) * | 2019-06-05 | 2019-08-30 | 山东大学 | 一种形状词云的生成方法和装置 |
CN112036158A (zh) * | 2020-09-01 | 2020-12-04 | 北京金堤征信服务有限公司 | 词云数据分布处理方法及装置 |
CN112819917A (zh) * | 2021-01-21 | 2021-05-18 | 北京秒针人工智能科技有限公司 | 一种基于canvas的词云绘制方法和系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030184603A1 (en) * | 2002-03-27 | 2003-10-02 | Marshall Carl S. | Detecting collisions of three-dimensional models |
CN101287143A (zh) * | 2008-05-16 | 2008-10-15 | 清华大学 | 基于实时人机对话的平面视频转立体视频的方法 |
CN102065236A (zh) * | 2009-11-12 | 2011-05-18 | 新奥特(北京)视频技术有限公司 | 一种字幕文件的制作方法及装置 |
CN102521852A (zh) * | 2011-11-24 | 2012-06-27 | 中国船舶重工集团公司第七0九研究所 | 一种独立于三维场景空间的目标标签表现方法 |
CN103473545A (zh) * | 2013-08-01 | 2013-12-25 | 西安交通大学 | 一种基于多特征的文本图像相似度度量方法 |
CN103778213A (zh) * | 2014-01-16 | 2014-05-07 | 北京航空航天大学 | 一种基于占用矩阵的词云图可视化方法 |
CN104699866A (zh) * | 2013-12-04 | 2015-06-10 | 航天科工仿真技术有限责任公司 | 人机界面三维设计系统中的空间表格编辑器的实现方法 |
CN105045780A (zh) * | 2015-07-15 | 2015-11-11 | 广州敦和信息技术有限公司 | 一种发票字条语义信息的识别方法及装置 |
US20160019885A1 (en) * | 2014-07-17 | 2016-01-21 | Verint Systems Ltd. | Word cloud display |
CN105550365A (zh) * | 2016-01-15 | 2016-05-04 | 中国科学院自动化研究所 | 一种基于文本主题模型的可视化分析系统 |
CN106096082A (zh) * | 2016-05-24 | 2016-11-09 | 国网安徽省电力公司宿州供电公司 | 一种基于数据分块及并行处理的碰撞检测方法 |
-
2016
- 2016-09-29 CN CN201610865885.0A patent/CN106469138B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030184603A1 (en) * | 2002-03-27 | 2003-10-02 | Marshall Carl S. | Detecting collisions of three-dimensional models |
CN101287143A (zh) * | 2008-05-16 | 2008-10-15 | 清华大学 | 基于实时人机对话的平面视频转立体视频的方法 |
CN102065236A (zh) * | 2009-11-12 | 2011-05-18 | 新奥特(北京)视频技术有限公司 | 一种字幕文件的制作方法及装置 |
CN102521852A (zh) * | 2011-11-24 | 2012-06-27 | 中国船舶重工集团公司第七0九研究所 | 一种独立于三维场景空间的目标标签表现方法 |
CN103473545A (zh) * | 2013-08-01 | 2013-12-25 | 西安交通大学 | 一种基于多特征的文本图像相似度度量方法 |
CN104699866A (zh) * | 2013-12-04 | 2015-06-10 | 航天科工仿真技术有限责任公司 | 人机界面三维设计系统中的空间表格编辑器的实现方法 |
CN103778213A (zh) * | 2014-01-16 | 2014-05-07 | 北京航空航天大学 | 一种基于占用矩阵的词云图可视化方法 |
US20160019885A1 (en) * | 2014-07-17 | 2016-01-21 | Verint Systems Ltd. | Word cloud display |
CN105045780A (zh) * | 2015-07-15 | 2015-11-11 | 广州敦和信息技术有限公司 | 一种发票字条语义信息的识别方法及装置 |
CN105550365A (zh) * | 2016-01-15 | 2016-05-04 | 中国科学院自动化研究所 | 一种基于文本主题模型的可视化分析系统 |
CN106096082A (zh) * | 2016-05-24 | 2016-11-09 | 国网安徽省电力公司宿州供电公司 | 一种基于数据分块及并行处理的碰撞检测方法 |
Non-Patent Citations (4)
Title |
---|
支林: "《图形创意》", 30 April 2011, 人民美术出版社 * |
温莲芹 朱瑞军: "基于碰撞检测的三维板坯库动态标注模型", 《计算机应用研究》 * |
路强 等: "面向跨语言词云可视化的拓扑保持布局算法研究", 《图学学报》 * |
陆国栋 等: "《动漫玩具快速创意设计方法》", 29 February 2012, 浙江大学出版社 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107742315A (zh) * | 2017-10-10 | 2018-02-27 | 泰康保险集团股份有限公司 | 生成人物词云画像的方法及装置 |
CN107742315B (zh) * | 2017-10-10 | 2020-12-08 | 泰康保险集团股份有限公司 | 生成人物词云画像的方法及装置 |
CN110189393A (zh) * | 2019-06-05 | 2019-08-30 | 山东大学 | 一种形状词云的生成方法和装置 |
WO2020244214A1 (zh) * | 2019-06-05 | 2020-12-10 | 山东大学 | 一种形状词云的生成方法和装置 |
CN112036158A (zh) * | 2020-09-01 | 2020-12-04 | 北京金堤征信服务有限公司 | 词云数据分布处理方法及装置 |
CN112036158B (zh) * | 2020-09-01 | 2023-11-03 | 北京金堤征信服务有限公司 | 词云数据分布处理方法及装置 |
CN112819917A (zh) * | 2021-01-21 | 2021-05-18 | 北京秒针人工智能科技有限公司 | 一种基于canvas的词云绘制方法和系统 |
CN112819917B (zh) * | 2021-01-21 | 2024-04-02 | 北京秒针人工智能科技有限公司 | 一种基于canvas的词云绘制方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106469138B (zh) | 2020-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11010892B2 (en) | Digital pathology system and associated workflow for providing visualized whole-slide image analysis | |
CN106469138A (zh) | 词云的生成方法及装置 | |
CN105574098B (zh) | 知识图谱的生成方法及装置、实体对比方法及装置 | |
CN110120059B (zh) | 一种图标生成方法及装置 | |
US11593975B2 (en) | Systems and methods of generating color palettes with a generative adversarial network | |
CN106484131A (zh) | 一种输入纠错方法和输入法装置 | |
CN109671055B (zh) | 肺结节检测方法及装置 | |
CN103455534A (zh) | 对文档进行聚类的方法和装置 | |
WO2021058867A1 (en) | Image analysis in pathology | |
CN106557566A (zh) | 一种文本训练方法及装置 | |
JP2007159934A (ja) | 比較読影支援装置 | |
CN108108299B (zh) | 一种用户界面测试方法及装置 | |
KR101635309B1 (ko) | 패치 쉬프트를 이용한 텍스처 필터링 방법 및 장치 | |
CN111462278B (zh) | 基于深度的素材排序渲染方法、介质、设备及装置 | |
JP2009509259A5 (zh) | ||
CN112037173A (zh) | 染色体检测方法、装置及电子设备 | |
CN103778210B (zh) | 一种待分析文件的文件具体类型的判断方法及装置 | |
CN107424461B (zh) | 信息屏蔽方法及系统 | |
CN110377741A (zh) | 文本分类方法、智能终端及计算机可读存储介质 | |
CN113269701B (zh) | 一种基于注意力引导和核选择机制的低照度图像增强方法 | |
CN107346543B (zh) | 血管中心线的处理方法及装置、终端及存储介质 | |
EP4288940A1 (en) | System for clustering data points | |
CN105389351A (zh) | 一种指定平台的账号升级的方法和装置 | |
CN108960952A (zh) | 一种违禁信息的检测方法及装置 | |
US11886513B2 (en) | Data analysis system, data analysis method, and computer program product |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |