CN111626023A - 可视化图表高亮与注释的自动生成方法、装置及系统 - Google Patents

可视化图表高亮与注释的自动生成方法、装置及系统 Download PDF

Info

Publication number
CN111626023A
CN111626023A CN202010331453.8A CN202010331453A CN111626023A CN 111626023 A CN111626023 A CN 111626023A CN 202010331453 A CN202010331453 A CN 202010331453A CN 111626023 A CN111626023 A CN 111626023A
Authority
CN
China
Prior art keywords
chart
entity
visual
annotation
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010331453.8A
Other languages
English (en)
Inventor
袁晓如
赖楚凡
林志贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202010331453.8A priority Critical patent/CN111626023A/zh
Publication of CN111626023A publication Critical patent/CN111626023A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种可视化图表高亮与注释的自动生成方法、装置及系统,自动生成方法包括:S100、处理可视化图表,从可视化图表中提取得到图表实体及其视觉属性;S200、处理可视化图表对应的描述文本,从描述文本中提取得到被描述的图表实体及其视觉属性,生成相应的实体查询指令;S300、根据实体查询指令,从提取得到的图表实体中找到相匹配的被描述的图表实体,为其绘制高亮和注释效果,并生成可依序播放的解释性动画。本发明根据用户描述,自动为可视化图表生成高亮与注释效果,用户只需上传图表及相应的描述文本,即可获得准确而生动的、带高亮与注释的解释性动画,以辅助其对数据信息的呈现。

Description

可视化图表高亮与注释的自动生成方法、装置及系统
技术领域
本发明涉及可视化与人机交互领域,具体涉及一种可视化图表高亮与注释的自动生成方法、装置及系统。
背景技术
在数据分析过程中,人们会发现各种有意义的现象。当他们分享、交流这些发现时,可视化图表常扮演着重要的角色。然而,高效地引导观众理解数据却并非易事。当演讲者描述图表时,观众的大脑需要同时处理图表和语言中的大量信息并对其进行匹配。这一过程乏味耗时,甚至会阻碍观众跟上讲者的思路。
高亮与注释是一种十分常见、且简单有效的辅助读图手段。可视化图表高亮的手段可以包括改变颜色,字体,透明度,改变大小,加下划线,方框等。针对每一句描述,我们可以高亮被描述的图中实体,从而快速吸引观众的视觉注意力。描述文本作为注释附着于实体旁边,既方便阅读和回顾,也传达了视觉和语义信息的匹配关系。然而,为图表添加高亮注释往往耗时费力,极大地增加了演讲者在准备阶段的工作负担。当前已有不少商用软件提供了高亮注释时的辅助,但这些工具仍停留在提供素材、简化交互等基础层面,且存在相当的学习和使用成本。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种可视化图表高亮与注释的自动生成方法、装置及系统,根据用户上传的图表及相应的描述文本获得准确而生动、带高亮与注释的解释性动画,以辅助数据信息的呈现。
为实现上述目的,本发明采用的技术方案如下:
一种可视化图表高亮与注释的自动生成方法,所述自动生成方法包括以下步骤:
(1)处理可视化图表,从所述可视化图表中提取得到图表实体及其视觉属性;
(2)处理所述可视化图表对应的描述文本,从所述描述文本中提取得到被描述的图表实体及其视觉属性,生成相应的实体查询指令;
(3)根据所述实体查询指令,从提取得到的图表实体中找到相匹配的被描述的图表实体,为其绘制高亮和注释效果,并生成可依序播放的解释性动画。
进一步,如上所述的一种可视化图表高亮与注释的自动生成方法,步骤 (1)包括:
(1.1)对可视化图表进行图表实体识别,得到所述可视化图表中所有图表实体的类别及其图像区域;
(1.2)根据所述图表实体的类别,从其图像区域中获取其视觉属性;
(1.3)提取所述图表实体的图像区域中的文本信息;
所述图表实体包括数据实体和辅助实体,所述数据实体包括基本形状,所述辅助实体包括图例和数轴,所述视觉属性包括颜色、尺寸、位置、形状,所述文本信息包括数据标签、图例文字、轴上数值。
进一步,如上所述的一种可视化图表高亮与注释的自动生成方法,步骤 (2)包括:
(2.1)通过自然语言处理技术,将描述文本划分为多个独立句子,分割各个句子中的各个单词,提取单词词性以及单词之间的相互依存关系;
(2.2)创建关键词词典,结合单词词性,识别用于描述图表实体与视觉属性的关键词;
(2.3)创建句型库,结合单词之间的相互依存关系,识别视觉属性的关键词与图表实体的关键词之间的修饰关系;
(2.4)根据前述步骤的识别结果,得到所述描述文本的各个独立句子中被描述的图表实体及其视觉属性,生成相应的实体查询指令。
进一步,如上所述的一种可视化图表高亮与注释的自动生成方法,步骤(3)包括:
(3.1)根据所述实体查询指令,从提取得到的图表实体中找到相匹配的被描述的图表实体,并将所述实体查询指令所属句子与找到的图表实体进行绑定,完成视觉与语义信息的匹配;
(3.2)淡化除找到的图表实体外的其余图像区域,以实现该图表实体的高亮;
(3.3)在所述可视化图表上,在找到的图表实体旁的背景图像区域放置注释框,所述注释框内注释有所述描述文本中相应的描述语句;
(3.4)将所述描述文本中的不同语句按顺序划分到不同幕中,每一幕分别显示相应句子的高亮与注释效果,不同幕之间动态过渡,生成可依序播放的解释性动画。
一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行本发明所述的一种可视化图表高亮与注释的自动生成方法。
一种可视化图表高亮与注释的自动生成装置,包括:所述的电子装置,以及输入装置和显示装置;
所述输入装置用于用户将可视化图表和描述文本输入所述电子装置,所述可视化图表的输入形式包括可视化图片、可视化网页地址和可视化矢量图,所述描述文本的输入形式包括录音形式和文字形式;
所述显示装置用于输出所述电子装置自动生成的动画视频,以及与描述文本对应互动的可视化。
一种可视化图表高亮与注释的自动生成系统,所述自动生成系统包括:
图表实体识别模块,用于处理可视化图表,从所述可视化图表中提取得到图表实体及其视觉属性;
自然语言处理模块,用于处理所述可视化图表对应的描述文本,从所述描述文本中提取得到被描述的图表实体及其视觉属性,生成相应的实体查询指令;
匹配绘制模块,用于根据所述实体查询指令,从提取得到的图表实体中找到相匹配的被描述的图表实体,为其绘制高亮和注释效果,并生成可依序播放的解释性动画。
进一步,如上所述的一种可视化图表高亮与注释的自动生成系统,所述图表实体识别模块包括:
样本采集单元,用于采集若干可视化图表,并标注各个可视化图表中的所有图表实体,生成样本图表集;
模型训练模块,用于接收所述样本图表集,训练目标检测模型;
图表实体识别单元,用于通过所述目标检测模型对可视化图表进行图表实体识别,得到所述可视化图表中的所有图表实体的类别、包围盒、初步轮廓及其图像区域;
轮廓修正单元,用于根据每个图表实体的类别、包围盒以及初步轮廓,获取每个图表实体的准确轮廓;
视觉属性获取单元,用于根据每个图表实体的类别、包围盒以及准确轮廓,从其图像区域中获取其视觉属性;
文本信息提取单元,用于提取每个图表实体的图像区域中的文本信息;
所述图表实体包括数据实体和辅助实体,所述数据实体包括基本形状,所述辅助实体包括图例和数轴,所述视觉属性包括颜色、尺寸、位置、形状,所述文本信息包括数据标签、图例文字、轴上数值。
进一步,如上所述的一种可视化图表高亮与注释的自动生成系统,所述自然语言处理模块包括:
预处理单元,用于通过自然语言处理技术,将描述文本划分为多个独立句子,分割各个句子中的各个单词,提取单词词性以及单词之间的相互依存关系;
知识库创建单元,用于创建关键词词典,结合单词词性,识别用于描述图表实体与视觉属性的关键词,还用于创建句型库,结合单词之间的相互依存关系,识别视觉属性的关键词与图表实体的关键词之间的修饰关系;
实体查询指令生成单元,用于根据所述知识库创建单元的识别结果,得到所述描述文本的各个独立句子中被描述的图表实体及其视觉属性,生成相应的实体查询指令。
进一步,如上所述的一种可视化图表高亮与注释的自动生成系统,所述匹配绘制模块包括:
视觉语义匹配单元,用于根据所述实体查询指令,从提取得到的图表实体中找到相匹配的被描述的图表实体,并将所述实体查询指令所属句子与找到的图表实体进行绑定,完成视觉与语义信息的匹配;
注释框布局单元,用于在所述可视化图表上,在找到的图表实体旁的背景图像区域放置注释框;
高亮注释单元,用于淡化除找到的图表实体外的其余图像区域,以实现该图表实体的高亮,并将所述描述文本中相应的描述语句置入所属注释框内;
动画渲染单元,用于将所述描述文本中的不同语句按顺序划分到不同幕中,每一幕分别显示相应句子的高亮与注释效果,渲染不同幕之间的动态过渡效果,生成可依序播放的解释性动画。
本发明的有益效果在于:本发明根据用户描述,自动为可视化图表生成高亮与注释效果,用户只需上传图表及相应的描述文本,即可获得准确而生动的、带高亮与注释的解释性动画,以辅助其对数据信息的呈现;具有学习成本低、使用简便、准确率高、可扩展性强等优点;用户无须具备专业技能或知识背景,也能自行生成生动流畅的解释性动画,以辅助其对数据信息的呈现,这使得演讲者能省去大量繁琐的准备工作,将更多时间精力投入到内容设计中去。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种可视化图表高亮与注释的自动生成方法的流程示意图;
图2为本发明实施例提供的一种可视化图表高亮与注释的自动生成系统的结构示意图;
图3为本发明实施例提供的自动生成系统的数据上传示意图;
图4为本发明实施例提供的自动生成系统所产生的两幕解释性动画图;
图5为本发明实施例提供的自动生成系统的内部架构与运作流程图;
图6为本发明实施例提供的图表实体识别模块的核心运作流程图。
具体实施方式
下下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
如图1所示,一种可视化图表高亮与注释的自动生成方法,自动生成方法包括以下步骤:
S100、处理可视化图表,从可视化图表中提取得到图表实体及其视觉属性;
S200、处理可视化图表对应的描述文本,从描述文本中提取得到被描述的图表实体及其视觉属性,生成相应的实体查询指令;
S300、根据实体查询指令,从提取得到的图表实体中找到相匹配的被描述的图表实体,为其绘制高亮和注释效果,并生成可依序播放的解释性动画。
可选地,作为本发明的一个实施例,步骤S100包括:
S101、采集若干可视化图表,并标注各个可视化图表中的所有图表实体,生成样本图表集;
S102、接收样本图表集,训练Mask-RCNN目标检测模型;
具体地,目标检测模型可以是Mask-RCNN目标检测模型,也可以是现存的能够输出图表实体的类别、包围盒以及轮廓的任意目标检测模型。
S103、通过S102训练好的目标检测模型对S100中的可视化图表进行图表实体识别,得到可视化图表中的所有图表实体的类别、包围盒、初步轮廓及其图像区域,并获取每个图表实体的准确轮廓;
S104、根据每个图表实体的类别、包围盒及其准确轮廓,通过图像处理技术从其图像区域中获取其视觉属性;
S105、通过光学字符识别技术提取每个图表实体的图像区域中的文本信息。
在该实施例中,每个图表实体的准确轮廓,是通过从初步轮廓中识别图表实体的颜色,并在包围盒中勾勒相应的色块来获得。
所述图表实体指包括图表中所有数据实体及辅助实体。其中数据实体指图表中用于映射实际数据的图形元素,如散点图中的数据点、条形图中长方形等。辅助实体指图表中用于提供辅助信息的图形元素,包括但不限于标题、图例、数轴等。所述视觉属性指能够被人类视觉直接感知的基本信息,包括但不限于颜色、尺寸、位置、形状等。所述文本信息包括图表实体附带的所有文字,包括但不限于数据标签、图例文字、轴上数值等。
在本申请所提供的实施例中,应该理解到,所揭露的基于深度学习的目标检测模型,可以通过其他的方式代替实现,例如通过图像处理技术提取图表中的基本几何形状。
可选地,作为本发明的一个实施例,步骤S200包括:
S201、通过自然语言处理技术,将描述文本划分为多个独立句子,分割各个句子中的各个单词,提取单词词性以及单词之间的相互依存关系;
具体地,自然语言处理技术可以是spaCy引擎及其英文识别模型、斯坦福解析器、OpenNLP工具包、FudanNLP工具包、MALLET工具包等,也可以是现存的能够提供分词断句、词性分析和依存性分析三个基本功能的任意自然语言处理引擎;
S202、创建关键词词典,结合单词词性,识别用于描述图表实体与视觉属性的关键词;
S203、创建句型库,结合单词之间的相互依存关系,识别视觉属性的关键词与图表实体的关键词之间的修饰关系;
S204、根据前述步骤的识别结果,得到描述文本的各个独立句子中被描述的图表实体及其视觉属性,生成相应的实体查询指令。
在该实施例中,关键词词典结合单词词性,用于识别描述文本中哪些单词描述了可视化相关的图表实体及视觉属性。此外,S105所提取的图表中文本信息,如部分数据的名称、数值等,亦作为关键词进行识别。
在该实施例中,句型库结合单词依存性信息,用于识别同一种含义的不同表达方式中,视觉属性关键词与图表实体关键词之间的修饰关系。
在本申请所提供的实施例中,应该理解到,所揭露的基于两类知识库(即关键词词典与句型库)的文本信息提取方法,可以通过其他的方式代替实现,例如通过大量语料数据的训练、利用深度学习模型进行提取。
此外,本申请所提供的实施例仅展示了,以键盘输入的文字为自然语言载体的情形。但应该理解到,所揭露的自然语言输入方式可以轻易地替换为其他形式,如实时语音输入等,且不会影响本发明所提供方法的独创性与有效性。
可选地,作为本发明的一个实施例,步骤S300包括:
S301、根据实体查询指令,从提取得到的图表实体中找到相匹配的被描述的图表实体,并将实体查询指令所属句子与找到的图表实体进行绑定,完成视觉与语义信息的匹配;
S302、通过图像掩模技术淡化除找到的图表实体外的其余图像区域,以实现该图表实体的高亮;
S303、通过力导向布局算法在可视化图表上,在找到的图表实体旁的背景图像区域放置注释框,注释框内注释有描述文本中相应的描述语句;
S304、将描述文本中的不同语句按顺序划分到不同幕中,每一幕分别显示相应句子的高亮与注释效果,不同幕之间动态过渡,生成可依序播放的解释性动画。
在该实施例中,步骤S200所生成的实体查询指令提供了实体类别及多种视觉属性作为查询条件,同时满足所有查询条件的图表实体即视为匹配。
在本申请所提供的实施例中,应该理解到,所揭露的基于图像掩模的局部图像高亮方法可以通过其他的方式代替实现,如局部高斯模糊等。同样地,本实施例所揭露的基于力导向算法的注释框布局方法,亦可以通过其他的方式代替实现。
此外,本申请所提供的实施例仅展示了、以可控制播放的动画为载体的输出形式。但应该理解到,所揭露的解释性动画可以轻易地替换为其他形式,如在同一张图表中、同时展现多个语句的高亮与注释效果。输出形式的替换不会影响本发明所提供方法的独创性与有效性。
本发明提供的一种根据用户描述、自动为可视化图表生成高亮与注释的技术,用户只需上传图表及相应的描述文本,即可在顷刻间获得准确而生动的、带高亮与注释的解释性动画,以辅助其对数据信息的呈现。本发明所提出的技术包含三个部分:图表实体识别、自然语言处理、匹配与绘制。图表实体识别主要包括处理可视化图像,并提取图表中所有实体及其视觉属性,从而了解“图中有什么”。自然语言处理主要包括处理描述文本,提取出被描述的实体及其视觉特征,以了解“用户描述了什么”。匹配与绘制包括根据前述步骤的识别结果、找到被描述的图表实体,以绘制高亮与注释、并生成解释性动画。本发明所提出的技术具有学习成本低、使用简便、准确率高、可扩展性强等优点。用户无须具备专业技能或知识背景,也能自行生成生动流畅的解释性动画,以辅助其对数据信息的呈现。这使得演讲者能省去大量繁琐的准备工作,将更多时间精力投入到内容设计中去。
本发明还提供一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行本发明的一种可视化图表高亮与注释的自动生成方法。该存储器属于存储介质,能够存储本发明的一种可视化图表高亮与注释的自动生成方法的计算机程序,存储介质包括以下至少之一:软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC 卡、SM卡、记忆棒、xD卡等。该处理器可以对存储器中的数据进行处理,该电子装置可以是计算机、手机或者其他包括存储器和处理器的任何装置。在计算机启动后,启动处理器运行存储器中的本发明的一种可视化图表高亮与注释的自动生成方法的计算机程序,则可以实现本发明的一种可视化图表高亮与注释的自动生成方法。
本发明还提供一种可视化图表高亮与注释的自动生成装置,包括:本发明的电子装置,以及输入装置和显示装置,输入装置包括语音输入装置和文字输入装置;可以实现用户语音输入和文字输入,具体地,通过麦克风实现语音输入,通过键盘实现文字输入。显示装置可以是显示屏。
输入装置用于用户将可视化图表和描述文本输入电子装置,可视化图表的输入形式包括可视化图片、可视化网页地址和可视化矢量图,描述文本的输入形式包括录音形式和文字形式;
电子装置用于对输入的可视化图表和描述文本进行自动匹配,生成图表实体的高亮与注释效果,以及解释性动画视频;
显示装置用于输出电子装置自动生成的动画视频,以及与描述文本对应互动的可视化。
如图2所示,一种可视化图表高亮与注释的自动生成系统,包括:图表实体识别模块、自然语言处理模块和匹配绘制模块。
(1)图表实体识别模块
图表实体识别模块,用于处理可视化图表,从可视化图表中提取得到图表实体及其视觉属性。
图表实体识别模块包括:
样本采集单元,用于采集若干可视化图表,并标注各个可视化图表中的所有图表实体,生成样本图表集;
模型训练模块,用于接收样本图表集,训练目标检测模型;
图表实体识别单元,用于通过目标检测模型对可视化图表进行图表实体识别,得到可视化图表中的所有图表实体的类别、包围盒、初步轮廓及其图像区域;
轮廓修正单元,用于根据每个图表实体的类别、包围盒以及初步轮廓,获取每个图表实体的准确轮廓;
视觉属性获取单元,用于根据每个图表实体的类别、包围盒以及准确轮廓,从其图像区域中获取其视觉属性;
文本信息提取单元,用于提取每个图表实体的图像区域中的文本信息;
图表实体包括数据实体和辅助实体,数据实体包括基本形状(如柱状图中代表数据的柱状、饼图中代表数据的扇区、散点图中代表数据的圆点等),辅助实体包括图例和数轴,视觉属性包括颜色、尺寸、位置、形状,文本信息包括数据标签、图例文字、轴上数值。
图表实体识别模块用于处理可视化图表,并提取图表中所有实体及其视觉属性,从而了解“图中有什么”。结合深度学习模型与图像处理技术,提取图表中所有的有效实体(形状、数轴、图例等)及其视觉属性(颜色、尺寸、位置等)。图中的文字也通过光学字符识别技术进行提取。
目标检测是计算机视觉领域中一类新兴的技术。它通过大量标注样本的训练,能够从一幅自然图像中识别出各个不同类别的物体,并输出这些物体的确切位置与轮廓。Mask-RCNN模型则是目标检测领域中最前沿、应用最广泛的深度学习模型,理论上可识别任何带有固定视觉特征的实体。然而,对目标检测技术的研究一直停留在自然图像上,未有相关研究证明其适用于可视化图表。
在该模块中,利用Mask-RCNN模型进行图表实体识别,并在实验中得到了较高的识别精度。首先,针对三类基础图表(散点图、直方图、饼图),从网络上收集数百幅图像并一一进行标记,得到包含数千个图表实体的样本图像库。然后,通过样本训练得到Mask-RCNN模型,能够在毫秒之间识别各类图表元素,要将其扩展至其他类型的可视化,只需扩充样本图像库、重新迭代训练即可。与图表实体识别领域的其他技术相比,该方案不但验证了目标检测应用于图表识别的可行性,还具有结构简单、可扩展性强、识别率高等优点。
然而,Mask-RCNN模块输出的轮廓较为粗糙、距离真实轮廓有一定偏差,直接用于实体的高亮,效果一般。针对这一问题,本发明通过在粗轮廓中识别实体颜色、并在包围盒中勾勒相应的色块,来最终获取实体的精细轮廓。得到精细轮廓后,实体的视觉属性便可通过图像处理方法来相应获得。
图表中往往还包含辅助读图的文本信息,如图例文字、轴上数值等。这些信息对人们理解图的描述不可或缺。譬如,图例显示红色代表“苹果”,那么每当描述中提到“苹果”,观众都应该搜寻红色的图表实体。文字没有固定的视觉特征,因而无法应用目标检测。为此,本发明采用光学字符识别技术提取图中文字,以理解它们在图中的角色和意义。
图6示出了图表实体识别模块的核心流程:(a)样本图像,收集大量可视化图表作为样本;(b)图像标注,标注出图表中所有实体及其类别;(c)目标检测结果,经过训练的Mask-RCNN模型准确识别图中实体及其类别,并输出实体的粗轮廓与包围盒;(d)最终输出,参差不齐的粗轮廓经过修正,得到可用于高亮的精细轮廓。
(2)自然语言处理模块
自然语言处理模块,用于处理可视化图表对应的描述文本,从描述文本中提取得到被描述的图表实体及其视觉属性,生成相应的实体查询指令。
自然语言处理模块包括:
预处理单元,用于通过自然语言处理技术,将描述文本划分为多个独立句子,分割各个句子中的各个单词,提取单词词性以及单词之间的相互依存关系;
知识库创建单元,用于创建关键词词典,结合单词词性,识别用于描述图表实体与视觉属性的关键词,还用于创建句型库,结合单词之间的相互依存关系,识别视觉属性的关键词与图表实体的关键词之间的修饰关系;
实体查询指令生成单元,用于根据知识库创建单元的识别结果,得到描述文本的各个独立句子中被描述的图表实体及其视觉属性,生成相应的实体查询指令。
自然语言处理模块用于处理描述文本,提取出被描述的实体及其视觉特征,以了解“用户描述了什么”。通过自然语言处理技术,从描述文本中提取被描述的实体(名称、指代关系等)及其视觉特征。
自然语言处理模块的任务是通过解析文本,提取被描述的实体及其视觉特征,并相应地生成对图中实体的查询。这一过程主要包含三个步骤:
第一步,利用第三方自然语言处理引擎spaCy及其自带的、预先训练好的英文识别模型,对描述文本进行分词断句、词性分析、依存性分析等处理,以获取单词词性、依存性等基本信息,并将文本切分成独立的句子。然而,这些基础处理还无法揭示描述中的语义信息。词性分析能识别出文本中的名词、形容词等,却无法分析哪些词语与可视化元素、视觉特征相关。依存性分析能揭示词语之间的相互修饰关系,却无法解决语言表达的多样性问题,即同一种描述可以有多种表达方式,展现多种句子结构和词语依存性。
第二步,创建两类知识库:关键词词典和句型库,分别用于关键词识别和句子结构分析。其中,关键词词典包含常见的可视化实体名称(如“数轴”、“直方”)、以及描述视觉属性的常见词汇(如“大”,“红”,“左”等)。从图表实体识别中获取的图上文字也被视作关键词。而句型库则囊括了各类常见的表达方式中词汇的相互依存关系。通过比对提取得到的依存性关系和句型模板,便能识别同一种描述的不同表达方式。
第三步,根据关键词识别和句子结构分析的结果,能够揭示描述中哪些视觉属性刻画了哪些图表实体,并由此生成相应的实体查询指令。
自然语言处理模块的核心流程:(a)先对描述文本进行分词断句,并提取各词语的词性、以及它们之间的依存关系。同时,识别其中与可视化、视觉描述相关的关键词;(b)基于句型模板,识别依存关系中的关键结构,从而了解词语之间的修饰关系;(c)经过前述步骤,生成被描述实体的查询指令。
(3)匹配绘制模块
匹配绘制模块,用于根据实体查询指令,从提取得到的图表实体中找到相匹配的被描述的图表实体,为其绘制高亮和注释效果,并生成可依序播放的解释性动画。
匹配绘制模块包括:
视觉语义匹配单元,用于根据实体查询指令,从提取得到的图表实体中找到相匹配的被描述的图表实体,并将实体查询指令所属句子与找到的图表实体进行绑定,完成视觉与语义信息的匹配;
注释框布局单元,用于在可视化图表上,在找到的图表实体旁的背景图像区域放置注释框;
高亮注释单元,用于淡化除找到的图表实体外的其余图像区域,以实现该图表实体的高亮,并将描述文本中相应的描述语句置入所属注释框内;
动画渲染单元,用于将描述文本中的不同语句按顺序划分到不同幕中,每一幕分别显示相应句子的高亮与注释效果,渲染不同幕之间的动态过渡效果,生成可依序播放的解释性动画。
匹配绘制模块根据从图表中提取的图表实体及其视觉属性以及从描述文本中提取的被描述的实体及其视觉特征,找到被描述的图表实体,以绘制高亮与注释,并生成解释性动画。根据所描述的视觉特征,从图表实体中找到被描述的实体,以完成视觉和语义信息的自动匹配;然后在原图表上,为每一句描述绘制相应的高亮和注释效果,并生成可依序播放的解释性动画。
图表实体识别模块用于了解“图中有什么”,而自然语言处理模块则揭示了“演讲者描述了什么”。在此基础上,本模块的任务是匹配这两类信息、以明确“讲者描述了图中的什么”,并相应地绘制高亮和注释。
要理解视觉-语义匹配的过程,首先要了解人们是如何进行视觉描述的。人们通常会以两种方式描述他们看到的事物,即基于名称和基于视觉特征。如果听者知道实体的名称,讲者往往使用该名称来直接表述。譬如图例展示了“公司A”所对应的视觉特征(颜色、形状等),那么讲者可直陈“公司A 的数据”,并让观众自行从图中辨认相应的实体。如果图中并未展示实体的名称、观众亦缺乏相关的背景认知,则讲者需要通过视觉特征来进行指定。譬如对一幅散点图,描述“左上角那个较大的红色圆点”,通过空间位置、尺寸、颜色、形状等视觉属性的交叉指定,帮助观众从视野里找到被描述的实体。事实上,基于名称的描述之所以有效,正在于听者已然了解名称与视觉特征之间的对应关系,能自行完成视觉-语义的翻译和转化。
在图表实体识别模块中,根据图中展示的图例、数轴等,已经提取出图上文字和视觉特征的对应关系,以处理基于名称的描述。而自然语言处理模块生成的实体查询指令,则包含了被描述实体的视觉特征,能够处理基于特征的描述。根据视觉特征对提取得到的图表实体进行查询,便能找到被各个句子所描述的图表实体,从而完成视觉-语义信息的匹配。需要说明书的是,本文中的视觉属性与视觉特征指代同一概念,前者是从图表中提取出,以数值形式表达,后者是从文字中提取出,也转化为数值形式表达,正因为两者存在等价关系,才能根据后者对前者进行匹配和查询。
找到被描述的实体后,利用其精细轮廓、通过图像遮罩技术淡化除它以外的图像区域,即可对其进行高亮。图像中匹配用户描述的焦点区域被选定截取、突显强调,其轮廓可以添加颜色、阴影等样式;而其他部分作为背景区域被加上淡化、去色、暗化、模糊等视觉效果。如果用户描述了特定的数轴范围,该范围将被框选并强调出来。如果用户描述了某个数值作为阈值,对应的网格线将被添加。同时,用户描述语句将被作为注释文字添加在被描述的实体附近。通过力导向布局算法在实体旁的背景区域找到尺寸合适的空处,以放置注释框、并写上相应的描述语句。高亮和注释风格可以由用户交互式自定义修改。为避免视觉上的混杂,将不同语句按顺序划分到不同幕中进行展现,不同幕之间动态过渡,构成一系列动画。讲者可在各幕之间切换,从而有条理地进行介绍。
图3-4示出了本系统的界面以及用户的操作流程。在包括但不限于电脑、移动设备的显示屏上的可视化界面中,用户上传图像格式的可视化图表,并输入相应的描述文本,如图3所示。本系统能够在数秒之内完成图表识别、文本处理、匹配绘制等工序,并生成带注释和高亮的解释性动画,图4展示了动画的其中两幕。用户可以控制动画的播放,并依序展开介绍。显然,本发明所提供的技术允许用户通过各种方式输入对图片的描述,并控制动画的播放,例如通过实时的语音输入和语音控制。
图5-6示出了本系统的内部架构与运作流程。图表实体识别模块接收并处理用户上传的可视化图像,输出图表内所有实体的位置、轮廓及其视觉属性,如图6所示。自然语言处理模块接收并处理用户上传的描述文本,输出被描述的实体及其视觉特征。匹配与绘制模块(匹配绘制模块)接收前述模块的输出,在图表实体和被描述实体间进行视觉-语义匹配,然后为各个描述句绘制相应的高亮和注释效果,并输出解释性动画。
需要说明的是,本发明的附图中具有灰度的附图,仅仅用来展示图像效果,其中的灰度并非用于描述说明,并不影响本发明的目的。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种可视化图表高亮与注释的自动生成方法,其特征在于,所述自动生成方法包括以下步骤:
(1)处理可视化图表,从所述可视化图表中提取得到图表实体及其视觉属性;
(2)处理所述可视化图表对应的描述文本,从所述描述文本中提取得到被描述的图表实体及其视觉属性,生成相应的实体查询指令;
(3)根据所述实体查询指令,从提取得到的图表实体中找到相匹配的被描述的图表实体,为其绘制高亮和注释效果,并生成可依序播放的解释性动画。
2.根据权利要求1所述的一种可视化图表高亮与注释的自动生成方法,其特征在于,步骤(1)包括:
(1.1)对可视化图表进行图表实体识别,得到所述可视化图表中所有图表实体的类别及其图像区域;
(1.2)根据所述图表实体的类别,从其图像区域中获取其视觉属性;
(1.3)提取所述图表实体的图像区域中的文本信息;
所述图表实体包括数据实体和辅助实体,所述数据实体包括基本形状,所述辅助实体包括图例和数轴,所述视觉属性包括颜色、尺寸、位置、形状,所述文本信息包括数据标签、图例文字、轴上数值。
3.根据权利要求1所述的一种可视化图表高亮与注释的自动生成方法,其特征在于,步骤(2)包括:
(2.1)通过自然语言处理技术,将描述文本划分为多个独立句子,分割各个句子中的各个单词,提取单词词性以及单词之间的相互依存关系;
(2.2)创建关键词词典,结合单词词性,识别用于描述图表实体与视觉属性的关键词;
(2.3)创建句型库,结合单词之间的相互依存关系,识别视觉属性的关键词与图表实体的关键词之间的修饰关系;
(2.4)根据前述步骤的识别结果,得到所述描述文本的各个独立句子中被描述的图表实体及其视觉属性,生成相应的实体查询指令。
4.根据权利要求1所述的一种可视化图表高亮与注释的自动生成方法,其特征在于,步骤(3)包括:
(3.1)根据所述实体查询指令,从提取得到的图表实体中找到相匹配的被描述的图表实体,并将所述实体查询指令所属句子与找到的图表实体进行绑定,完成视觉与语义信息的匹配;
(3.2)淡化除找到的图表实体外的其余图像区域,以实现该图表实体的高亮;
(3.3)在所述可视化图表上,在找到的图表实体旁的背景图像区域放置注释框,所述注释框内注释有所述描述文本中相应的描述语句;
(3.4)将所述描述文本中的不同语句按顺序划分到不同幕中,每一幕分别显示相应句子的高亮与注释效果,不同幕之间动态过渡,生成可依序播放的解释性动画。
5.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至4中任一项所述的一种可视化图表高亮与注释的自动生成方法。
6.一种可视化图表高亮与注释的自动生成装置,其特征在于,包括:权利要求5所述的电子装置,以及输入装置和显示装置;
所述输入装置用于用户将可视化图表和描述文本输入所述电子装置,所述可视化图表的输入形式包括可视化图片、可视化网页地址和可视化矢量图,所述描述文本的输入形式包括录音形式和文字形式;
所述显示装置用于输出所述电子装置自动生成的动画视频,以及与描述文本对应互动的可视化。
7.一种可视化图表高亮与注释的自动生成系统,其特征在于,所述自动生成系统包括:
图表实体识别模块,用于处理可视化图表,从所述可视化图表中提取得到图表实体及其视觉属性;
自然语言处理模块,用于处理所述可视化图表对应的描述文本,从所述描述文本中提取得到被描述的图表实体及其视觉属性,生成相应的实体查询指令;
匹配绘制模块,用于根据所述实体查询指令,从提取得到的图表实体中找到相匹配的被描述的图表实体,为其绘制高亮和注释效果,并生成可依序播放的解释性动画。
8.根据权利要求7所述的一种可视化图表高亮与注释的自动生成系统,其特征在于,所述图表实体识别模块包括:
样本采集单元,用于采集若干可视化图表,并标注各个可视化图表中的所有图表实体,生成样本图表集;
模型训练模块,用于接收所述样本图表集,训练目标检测模型;
图表实体识别单元,用于通过所述目标检测模型对可视化图表进行图表实体识别,得到所述可视化图表中的所有图表实体的类别、包围盒、初步轮廓及其图像区域;
轮廓修正单元,用于根据每个图表实体的类别、包围盒以及初步轮廓,获取每个图表实体的准确轮廓;
视觉属性获取单元,用于根据每个图表实体的类别、包围盒以及准确轮廓,从其图像区域中获取其视觉属性;
文本信息提取单元,用于提取每个图表实体的图像区域中的文本信息;
所述图表实体包括数据实体和辅助实体,所述数据实体包括基本形状,所述辅助实体包括图例和数轴,所述视觉属性包括颜色、尺寸、位置、形状,所述文本信息包括数据标签、图例文字、轴上数值。
9.根据权利要求7所述的一种可视化图表高亮与注释的自动生成系统,其特征在于,所述自然语言处理模块包括:
预处理单元,用于通过自然语言处理技术,将描述文本划分为多个独立句子,分割各个句子中的各个单词,提取单词词性以及单词之间的相互依存关系;
知识库创建单元,用于创建关键词词典,结合单词词性,识别用于描述图表实体与视觉属性的关键词,还用于创建句型库,结合单词之间的相互依存关系,识别视觉属性的关键词与图表实体的关键词之间的修饰关系;
实体查询指令生成单元,用于根据所述知识库创建单元的识别结果,得到所述描述文本的各个独立句子中被描述的图表实体及其视觉属性,生成相应的实体查询指令。
10.根据权利要求7所述的一种可视化图表高亮与注释的自动生成系统,其特征在于,所述匹配绘制模块包括:
视觉语义匹配单元,用于根据所述实体查询指令,从提取得到的图表实体中找到相匹配的被描述的图表实体,并将所述实体查询指令所属句子与找到的图表实体进行绑定,完成视觉与语义信息的匹配;
注释框布局单元,用于在所述可视化图表上,在找到的图表实体旁的背景图像区域放置注释框;
高亮注释单元,用于淡化除找到的图表实体外的其余图像区域,以实现该图表实体的高亮,并将所述描述文本中相应的描述语句置入所属注释框内;
动画渲染单元,用于将所述描述文本中的不同语句按顺序划分到不同幕中,每一幕分别显示相应句子的高亮与注释效果,渲染不同幕之间的动态过渡效果,生成可依序播放的解释性动画。
CN202010331453.8A 2020-04-24 2020-04-24 可视化图表高亮与注释的自动生成方法、装置及系统 Pending CN111626023A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010331453.8A CN111626023A (zh) 2020-04-24 2020-04-24 可视化图表高亮与注释的自动生成方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010331453.8A CN111626023A (zh) 2020-04-24 2020-04-24 可视化图表高亮与注释的自动生成方法、装置及系统

Publications (1)

Publication Number Publication Date
CN111626023A true CN111626023A (zh) 2020-09-04

Family

ID=72271811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010331453.8A Pending CN111626023A (zh) 2020-04-24 2020-04-24 可视化图表高亮与注释的自动生成方法、装置及系统

Country Status (1)

Country Link
CN (1) CN111626023A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283248A (zh) * 2021-04-29 2021-08-20 桂林电子科技大学 散点图描述的自然语言自动生成方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986186A (zh) * 2018-08-14 2018-12-11 山东师范大学 文字转化视频的方法和系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986186A (zh) * 2018-08-14 2018-12-11 山东师范大学 文字转化视频的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHUFAN LAI 等: "《Automatic Annotation Synchronizing with Textual Description for Visualization》", 《CHI 2020 PAPER》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283248A (zh) * 2021-04-29 2021-08-20 桂林电子科技大学 散点图描述的自然语言自动生成方法及装置
CN113283248B (zh) * 2021-04-29 2022-06-21 桂林电子科技大学 散点图描述的自然语言自动生成方法及装置

Similar Documents

Publication Publication Date Title
WO2020192463A1 (zh) 一种展示方法及装置
US8682642B2 (en) Translation display apparatus
JP5439454B2 (ja) 電子コミック編集装置、方法及びプログラム
Qian et al. Retrieve-then-adapt: Example-based automatic generation for proportion-related infographics
JP5439455B2 (ja) 電子コミック編集装置、方法及びプログラム
US9529438B2 (en) Printing structured documents
US11386589B2 (en) Method and device for image generation and colorization
JP5661663B2 (ja) 情報抽出装置
CN112115252B (zh) 智能辅助写作处理方法、装置、电子设备及存储介质
KR102187550B1 (ko) 문서에 삽입되는 ole 개체에 대한 요약된 미리보기 화면을 생성할 수 있는 전자 장치 및 그 동작 방법
CN113360608B (zh) 人机结合的中文作文批改系统和方法
Chen et al. UI layers merger: merging UI layers via visual learning and boundary prior
CN111626023A (zh) 可视化图表高亮与注释的自动生成方法、装置及系统
CN109445900B (zh) 用于图片显示的翻译方法和装置
CN115130437B (zh) 一种文档智能填写方法、装置及存储介质
JP6529698B2 (ja) データ分析装置およびデータ分析方法
CN110163975B (zh) 空间直线的绘制方法、装置、设备及存储介质
Joy et al. A prototype Malayalam to sign language automatic translator
CN112434568A (zh) 一种画作识别方法、装置、存储介质及计算设备
CN115376153B (zh) 一种合同比对方法、装置及存储介质
CN114663414B (zh) 一种基于unet卷积神经网络的岩矿识别提取系统及方法
Bradley et al. Textension: Digitally Augmenting Document Spaces in Analog Texts
Bhonsle Generating Datasets with Glyph-level Annotations for Devanagari Text Recognition
CN114970462A (zh) 一种对数据模块自动标注更改标记的方法和系统
CN114118052A (zh) 一种文本标记方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200904

RJ01 Rejection of invention patent application after publication