CN106021228A - 一种利用知识地形图进行文本分析的方法及系统 - Google Patents

一种利用知识地形图进行文本分析的方法及系统 Download PDF

Info

Publication number
CN106021228A
CN106021228A CN201610329206.8A CN201610329206A CN106021228A CN 106021228 A CN106021228 A CN 106021228A CN 201610329206 A CN201610329206 A CN 201610329206A CN 106021228 A CN106021228 A CN 106021228A
Authority
CN
China
Prior art keywords
group
coordinate
descriptor
topography
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610329206.8A
Other languages
English (en)
Other versions
CN106021228B (zh
Inventor
刘玉琴
李军
柳岸
王金秋
李韦
朱东华
李维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
German Rice Global Innovation Network (beijing) Ltd
Original Assignee
German Rice Global Innovation Network (beijing) Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by German Rice Global Innovation Network (beijing) Ltd filed Critical German Rice Global Innovation Network (beijing) Ltd
Priority to CN201610329206.8A priority Critical patent/CN106021228B/zh
Publication of CN106021228A publication Critical patent/CN106021228A/zh
Application granted granted Critical
Publication of CN106021228B publication Critical patent/CN106021228B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种文本分析的方法及系统,属于信息处理领域,具体涉及一种利用知识地形图进行文本分析的方法及系统。知识地形图的建立包括:坐标映射步骤,根据预设的规则将主题词划分为m组,将m组映射至平面中得到m个组坐标;计算各组内节点的坐标,并且将组内的中心点移至组坐标上;图形渲染步骤,用于根据主题词的关系强度建立反映象素点颜色值的密度函数;建立调色板以及所述调色板与密度函数的映射关系,根据所述映射关系渲染图形。利用本发明构建的知识地形图不仅简单易于实现,而且直观,可实现对大规模文本数据的快速浏览,挖掘出文本数据中的关键信息,可扩展性强。

Description

一种利用知识地形图进行文本分析的方法及系统
技术领域
本发明涉及一种文本分析的方法及系统,属于信息处理领域,具体涉及一种利用知识地形图进行文本分析的方法及系统。
背景技术
知识地形图通过类似于地理信息系统中的等高线图实现对文本数据的可视化,通过颜色的深浅区别数据的多少以及数据之间的关系。有些文献中也将其称为景观图或主题图,尽管名称和表现形式不完全相同,其基本思想是一致的。
热力图是知识地形图的一种简单的变换形式,是对自然界的热力成像原理的计算机模拟,通过红黄蓝三种颜色的深浅来区别数据的多少,颜色块区别数据的密集程度。热力图的技术实现相对简单,但与知识地形图相比表现力略显不足。
知识地形图主要应用在文本数据分析中。美国Sandia国家实验室开发的复杂网络分析工具VxInsight是一个影响比较大的知识地形图绘制工具。汤姆森·路透科技信息集团的Aureka专利地图,可视化效果比VxInsight更加精细、美观,其应用更加偏向于商业化用户。
在主题词较多的情况下,知识地形图可视化效果仍然保持清晰。就知识地形图的绘制来说,有典型的等高线地形图、热力图、彩虹图等。等高线图实现简单,但不是所有的等高线绘制方法都能有效的表现分析结果。应用该方法最好的是汤姆森·路透科技的Aureka专利地图。其应用的神经网络算法+渲染技术较为复杂,普通的等高线地形图很难实现同类的表现效果。热力图、彩虹图实现手段简单。但与Aureka地形图相比,其可读性和表现力有所降低。
本发明设计一种知识地形图的绘制方法,既能够达到Aureka地形图的可视化表现力,又能以相对简单的技术加以实现。
发明内容
本发明主要是解决现有技术所存在的表现效果差、实现手段复杂的技术问题,提供了一种利用知识地形图进行文本分析的方法及系统。该方法及系统应用复杂网络Fruchterman-Reingold layout与VosMaping算法进行主题词的平面布局,建立以主题词数量为参数的平面像素点密度函数,映射平面上点的颜色,最后进行知识地形图的渲染,可视化表现力好,并且实现技术简单。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种利用知识地形图进行文本分析的方法,知识地形图的建立包括:
坐标映射步骤,根据预设的规则将主题词划分为m组,将m组映射至平面中得到m个组坐标;计算各组内节点的坐标,并且将组内的中心点移至组坐标上;
图形渲染步骤,用于根据主题词的关系强度建立反映象素点颜色值的密度函数;建立调色板以及所述调色板与密度函数的映射关系,根据所述映射关系渲染图形。
优化的,上述的一种利用知识地形图进行文本分析的方法,所述坐标映射步骤进一步包括:
强度预处理子步骤,用于设定关系强度阀值,其中:大于该阀值的节点强度保留原值,小于等于该阀值的强度重新设定为0;
矩阵变换子步骤,将n个主题词分为m组,每个组内部的主题词关系强度均大于设定阀值;每个组之间存在至少一个节点与其它组的所有节点关系强度都小于等于设定阀值;通过行列变换将主题词的关系强度矩阵变换为Corr′n×n
Corr ′ n × n = Group 1 Group 2 ... Group i ... Group m Group 1 R 1 0 ... 0 ... 0 Group 2 0 R 2 ... 0 ... 0 ... ... ... ... ... ... ... Group i 0 0 ... R i ... 0 ... ... ... ... ... ... ... Group m 0 0 ... 0 ... R m
其中Ri为第i组中主题词的关系强度矩阵,Groupi为第i组;
组坐标映射子步骤,将m个组作为平面中的m个节点,组与组之间的关系强度设定为同一个固定值;采用Fruchterman-Reingold layout算法对m个节点进行坐标计算得到组坐标;
组内坐标映射子步骤,对每个组内的节点采用VosMapping算法进行坐标计算,通过坐标平移将每个组的中心位置设定为组坐标。
优化的,上述的一种利用知识地形图进行文本分析的方法,所述密度函数基于以下公式:
D e n s i t y ( x , y ) = Σ i = 0 n f ( Numer i ) e - α ( ( x - x i ) 2 + ( y - y i ) 2 D i s tan c e ‾ ) β , α > 0 , β > 0 ;
其中,(xi,yi),i=1…n是n个主题词的坐标,是主题词之间的二维欧氏距离平均值;每个主题词的数量为Numer,i=1…n,像素点Point的坐标(x,y);f(Numeri)为主题词数量的标准化值;α,β为非负数。
优化的,上述的一种利用知识地形图进行文本分析的方法,所述图形渲染步骤包括:
函数标准化子步骤,用于将密度函数标准化,使其取值为0-255之间的整数;
调色板建立子步骤,用于建立一个256色的调色板,存储为256个元素的颜色向量;
关系映射子步骤,用于建立像素点密度值与调色板的一一映射关系;并根据映射关系进行图像渲染。
优化的,上述的一种利用知识地形图进行文本分析的方法,所述函数标准化子步骤采用如下变换方式:
( int ) ( γ D e n s i t y ( x , y ) Density m a x × 255 ) ;
( int ) ( 255 - &gamma; D e n s i t y ( x , y ) Density m a x &times; 255 ) , 0 < &gamma; &le; 1 ;
其中,(int)运算表示取整操作;Densitymax表示密度最大值。
一种利用知识地形图进行文本分析的系统,通过下述模块建立知识地形图:
坐标映射模块,根据预设的规则将主题词划分为m组,将m组映射至平面中得到m个组坐标;计算各组内节点的坐标,并且将组内的中心点移至组坐标上;
图形渲染模块,用于根据主题词的关系强度建立反映象素点颜色值的密度函数;建立调色板以及所述调色板与密度函数的映射关系,根据所述映射关系渲染图形。
优化的,上述的述的一种利用知识地形图进行文本分析的系统,所述坐标映射模块进一步包括:
强度预处理单元,用于设定关系强度阀值,其中:大于该阀值的节点强度保留原值,小于等于该阀值的强度重新设定为0;
矩阵变换单元,将n个主题词分为m组,每个组内部的主题词关系强度均大于设定阀值;每个组之间存在至少一个节点与其它组的所有节点关系强度都小于等于设定阀值;通过行列变换将主题词的关系强度矩阵变换为Corr′n×n
Corr &prime; n &times; n = Group 1 Group 2 ... Group i ... Group m Group 1 R 1 0 ... 0 ... 0 Group 2 0 R 2 ... 0 ... 0 ... ... ... ... ... ... ... Group i 0 0 ... R i ... 0 ... ... ... ... ... ... ... Group m 0 0 ... 0 ... R m
其中Ri为第i组中主题词的关系强度矩阵,Groupi为第i组;
组坐标映射单元,将m个组作为平面中的m个节点,组与组之间的关系强度设定为同一个固定值;采用Fruchterman-Reingold layout算法对m个节点进行坐标计算得到组坐标;
组内坐标映射单元,对每个组内的节点采用VosMapping算法进行坐标计算,通过坐标平移将每个组的中心位置设定为组坐标。
优化的,上述的述的一种利用知识地形图进行文本分析的系统,所述密度函数基于以下公式:
D e n s i t y ( x , y ) = &Sigma; i = 0 n f ( Numer i ) e - &alpha; ( ( x - x i ) 2 + ( y - y i ) 2 D i s tan c e &OverBar; ) &beta; , &alpha; > 0 , &beta; > 0 ;
其中,(xi,yi),i=1…n是n个主题词的坐标,是主题词之间的二维欧氏距离平均值;每个主题词的数量为Numer,i=1…n,像素点Point的坐标(x,y);f(Numeri)为主题词数量的标准化值;α,β为非负数。
优化的,上述的述的一种利用知识地形图进行文本分析的系统,所述图形渲染模块包括:
函数标准化单元,用于将密度函数标准化,使其取值为0-255之间的整数;
调色板建立单元,用于建立一个256色的调色板,存储为256个元素的颜色向量;
关系映射单元,用于建立像素点密度值与调色板的一一映射关系;并根据映射关系进行图像渲染。
优化的,上述的述的一种利用知识地形图进行文本分析的系统,所述函数标准化单元采用如下变换方式:
( int ) ( &gamma; D e n s i t y ( x , y ) Density m a x &times; 255 ) ;
( int ) ( 255 - &gamma; D e n s i t y ( x , y ) Density m a x &times; 255 ) , 0 < &gamma; &le; 1 ;
其中,(int)运算表示取整操作;Densitymax表示密度最大值。
因此,本发明具有如下优点:利用本发明构建的知识地形图不仅简单易于实现,而且直观,可实现对大规模文本数据的快速浏览,挖掘出文本数据中的关键信息,可扩展性强。
附图说明
图1:主题词平面布局算法应用示意图
图2:电脑屏幕像素单元格划分示意图
图3:采用本发明绘制的知识地形图效果图
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:
实施例1:
步骤一:采用文本挖掘方法抽取文本数据中的主题词,获取主题词列表。
步骤二:主题词关系强度计算。计算主题词的同现关键矩阵,依据同现矩阵计算各主题词之间的关系强度矩阵,计算方法可以采取倒排文档频率、信息熵、互信息等,也可以直接采用同现数量度量关系强度。假设n个主题词之间的关系强度矩阵为Corrn×n
Corr n &times; n = Keyword 1 Keyword 2 ... Keyword i ... Keyword n Keyword 1 r 11 r 12 ... r 1 i ... r 1 n Keyword 2 r 21 r 22 ... r 2 i ... r 2 n ... ... ... ... ... ... ... Keyword i r i 1 r i 2 ... r i i ... r i n ... ... ... ... ... ... ... Keyword n r n 1 r n 2 ... r n i ... r n n
步骤三:主题词平面布局
为了绘制知识地形图,需要确定主题词在平面图中的位置坐标,操作过程如下:
a.设定关系强度阀值,大于该阀值的节点强度保留原值,小于等于该阀值的强度重新设定为0。
b.将n个主题词分为m组,满足每个组内部的主题词关系强度均大于设定阀值;每个组之间存在至少一个节点与其它组的所有节点关系强度都小于等于设定阀值。通过行列变换将主题词的关系强度矩阵变换为Corr'n×n
其中Ri为第i组中主题词的关系强度矩阵。
c.将m个组作为平面中的m个节点,组与组之间的关系强度设定为同一个固定值。采用Fruchterman-Reingold layout算法对m个节点进行坐标计算。
d.对每个组内的节点采用VosMapping算法进行坐标计算。
步骤四:基于主题词数量与布局坐标构建平面像素点的密度函数
主题词的坐标确定后,将其绘制到计算机屏幕,需要确定每个象素点的颜色。为此,建立一个密度函数,用于影射每个象素点的颜色值。
假设:n个主题词的坐标分别为(xi,yi),i=1…n,主题词之间的二维欧氏距离平均值为每个主题词的数量为Numer,i=1…n,像素点Point的坐标(x,y)。
定义像素点的密度函数公式为:
其中,f(Numeri)为主题词数量的标准化值;α,β为非负数,其取值不同,地形图效果不同。
步骤五:计算像素点的色彩进行地形图渲染
a.将密度函数标准化,使其取值为0-255之间的整数,可以采用如下变换方式:
b.建立一个256色的调色板,存储为256个元素的颜色向量。
c.建立像素点密度值与调色板的一一映射关系。举例:如果像素点标准化后的密度值为200,该像素点对应的颜色为调色板中第200个颜色的色彩。
实施例2:
步骤一:采用文本分词方法获取文本数据集中的主题词。
步骤二:采用主题词同现频数作为主题词关系强度值。
步骤三:应用Fruchterman-Reingold layout算法和VOSMaping算法对主题词平面坐标进行计算。
如图示1,假设有12个主题词,分为A、B、C三组,关系强度矩阵分别为R1,R2,R3。在对12个主题词进行布局的过程中,首先把A、B、C三个组看作三个节点,节点距离(图中虚线)相等。采用Fruchterman-Reingoldlayout算法对这三个节点进行布局,记录每个节点的中心位置。对每个分组内部的节点,如A组内的三个节点、B组内的四个节点、C组内的5个节点分别采用VosMapping算法进行布局,然后通过坐标平移将每个组的中心位置设定为通过Fruchterman-Reingold layout算法得到的三个点的坐标。
步骤四:构建平面像素点的密度函数,α=0.5,β=2
D e n s i t y ( x , y ) = &Sigma; i = 0 n Numer i e - 0.5 ( ( x - x i ) 2 + ( y - y i ) 2 D i s tan c e &OverBar; ) 2
为减少计算量,降低地形图的渲染时间延迟,并不是每个像素的密度函数都需要进行计算,而是将整个屏幕划分为若干格子,每个格子作为一个像素点对待,计算每个格子的密度函数,其示意图如2所示。最后,通过图形拉伸使图形与电脑屏幕重合。
步骤五:计算像素点的色彩进行地形图渲染。建立256色的RGB调色板{-392960,-392448,-391680,-391168,-390656,-389888,-389376,-388608,-388096,-387584,-321280,-321024,-320256,-319744,-319232,-318464,-317952,-317184,-316672,-316160,-315392,-314880,-314368,-313856,-313088,-312576,-312064,-311296,-310784,-310272,-309504,-308992,-242944,-242176,-241664,-241152,-240640,-239872,-239360,-238848,-238080,-237568,-236800,-236288,-235776,-235008,-234752,-233984,-233472,-232960,-232192,-231680,-230912,-164864,-164352,-163584,-163072,-162560,-162048,-161280,-160768,-160256,-159488,-158976,-158208,-157696,-157184,-156416,-155904,-155392,-154880,-154368,-153600,-153088,-152320,-86272,-85760,-84992,-84480,-83968,-83456,-82944,-82176,-81664,-80896,-80384,-79872,-79104,-78592,-78080,-77312,-77056,-76288,-75776,-75008,-74496,-8448,-7680,-7168,-6400,-5888,-5376,-4608,-4352,-3584,-3072,-2560,-133376,-264448,-461056,-592128,-788736,-919808,-1116160,-1181696,-1378304,-1509376,-1705984,-1837056,-2033664,-2164736,-2361344,-2492416,-2623488,-2820096,-2951168,-3082240,-3278592,-3409664,-3540736,-3737344,-3868416,-4065024,-4196096,-4392704,-4523776,-4720384,-4785920,-4982528,-5113600,-5309952,-5441024,-5637632,-5768704,-5965312,-6096384,-6227456,-6424064,-6555136,-6686208,-6882816,-7013888,-7144960,-7341312,-7472384,-7668992,-7800064,-7996672,-8127744,-8324352,-8389888,-8586496,-8717568,-8914176,-9045248,-9241856,-9372928,-9569280,-9700352,-9831424,-10028032,-10159104,-10290176,-10486784,-10617856,-10748928,-10945536,-11076608,-11273216,-11404288,-11600640,-11731712,-11928320,-11993856,-12190464,-12321536,-12518144,-12649216,-12845824,-12976896,-13173504,-13304576,-13435648,-13632000,-13763072,-13894144,-14090752,-14221824,-14352896,-14549504,-14680576,-14877184,-15008256,-15204864,-15335936,-15532544,-15598080,-15794432,-15925504,-16122112,-16253184,-16449792,-16580864,-16712191,-16713211,-16714486,-16715761,-16717037,-16718312,-16719587,-16720606,-16721882,-16723157,-16724432,-16725707,-16726727,-16728002,-16729278,-16730553,-16731572,-16732847,-16734123,-16735143,-16736418,-16737693,-16738968,-16740243,-16741263,-16742538,-16743813,-16745089,-16746364,-16747639,-16748659,-16749934,-16751209,-16752484,-16753759,-16754779,-16756055,-16757330,-16758349,-16759624,-16760899,-16762175,-16762175};
进行像素点密度函数与画板的映射关系,取γ=1,进行地形图的绘制,得到如图3形式的知识地形图。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (10)

1.一种利用知识地形图进行文本分析的方法,其特征在于,知识地形图的建立包括:
坐标映射步骤,根据预设的规则将主题词划分为m组,将m组映射至平面中得到m个组坐标;计算各组内节点的坐标,并且将组内的中心点移至组坐标上;
图形渲染步骤,用于根据主题词的关系强度建立反映象素点颜色值的密度函数;建立调色板以及所述调色板与密度函数的映射关系,根据所述映射关系渲染图形。
2.根据权利要求1所述的一种利用知识地形图进行文本分析的方法,其特征在于,所述坐标映射步骤进一步包括:
强度预处理子步骤,用于设定关系强度阀值,其中:大于该阀值的节点强度保留原值,小于等于该阀值的强度重新设定为0;
矩阵变换子步骤,将n个主题词分为m组,每个组内部的主题词关系强度均大于设定阀值;每个组之间存在至少一个节点与其它组的所有节点关系强度都小于等于设定阀值;通过行列变换将主题词的关系强度矩阵变换为Corr′n×n
Corr &prime; n &times; n = Group 1 Group 2 ... Group i ... Group m Group 1 R 1 0 ... 0 ... 0 Group 2 0 R 2 ... 0 ... 0 ... ... ... ... ... ... ... Group i 0 0 ... R i ... 0 ... ... ... ... ... ... ... Group m 0 0 ... 0 ... R m
其中Ri为第i组中主题词的关系强度矩阵,Groupi为第i组;
组坐标映射子步骤,将m个组作为平面中的m个节点,组与组之间的关系强度设定为同一个固定值;采用Fruchterman-Reingold layout算法对m个节点进行坐标计算得到组坐标;
组内坐标映射子步骤,对每个组内的节点采用VosMapping算法进行坐标计算,通过坐标平移将每个组的中心位置设定为组坐标。
3.根据权利要求1所述的一种利用知识地形图进行文本分析的方法,其特征在于,所述密度函数基于以下公式:
D e n s i t y ( x , y ) = &Sigma; i = 0 n f ( Numer i ) e - &alpha; ( ( x - x i ) 2 + ( y - y i ) 2 D i s tan c e &OverBar; ) &beta; , &alpha; > 0 , &beta; > 0 ;
其中,(xi,yi),i=1…n是n个主题词的坐标,是主题词之间的二维欧氏距离平均值;每个主题词的数量为Numer,i=1…n,像素点Point的坐标(x,y);f(Numeri)为主题词数量的标准化值;α,β为非负数。
4.根据权利要求1所述的一种利用知识地形图进行文本分析的方法,其特征在于,所述图形渲染步骤包括:
函数标准化子步骤,用于将密度函数标准化,使其取值为0-255之间的整数;
调色板建立子步骤,用于建立一个256色的调色板,存储为256个元素的颜色向量;
关系映射子步骤,用于建立像素点密度值与调色板的一一映射关系;并根据映射关系进行图像渲染。
5.根据权利要求5所述的一种利用知识地形图进行文本分析的方法,其特征在于,所述函数标准化子步骤采用如下变换方式:
( int ) ( &gamma; D e n s i t y ( x , y ) Density m a x &times; 255 ) ;
( i n t ) ( 255 - &gamma; D e n s i t y ( x , y ) Density m a x &times; 255 ) , 0 < &gamma; &le; 1 ;
其中,(int)运算表示取整操作;Densitymax表示密度最大值。
6.一种利用知识地形图进行文本分析的系统,其特征在于,通过下述模块建立知识地形图:
坐标映射模块,根据预设的规则将主题词划分为m组,将m组映射至平面中得到m个组坐标;计算各组内节点的坐标,并且将组内的中心点移至组坐标上;
图形渲染模块,用于根据主题词的关系强度建立反映象素点颜色值的密度函数;建立调色板以及所述调色板与密度函数的映射关系,根据所述映射关系渲染图形。
7.根据权利要求6所述的一种利用知识地形图进行文本分析的系统,其特征在于,所述坐标映射模块进一步包括:
强度预处理单元,用于设定关系强度阀值,其中:大于该阀值的节点强度保留原值,小于等于该阀值的强度重新设定为0;
矩阵变换单元,将n个主题词分为m组,每个组内部的主题词关系强度均大于设定阀值;每个组之间存在至少一个节点与其它组的所有节点关系强度都小于等于设定阀值;通过行列变换将主题词的关系强度矩阵变换为Corr′n×n
Corr &prime; n &times; n = Group 1 Group 2 ... Group i ... Group m Group 1 R 1 0 ... 0 ... 0 Group 2 0 R 2 ... 0 ... 0 ... ... ... ... ... ... ... Group i 0 0 ... R i ... 0 ... ... ... ... ... ... ... Group m 0 0 ... 0 ... R m
其中Ri为第i组中主题词的关系强度矩阵,Groupi为第i组;
组坐标映射单元,将m个组作为平面中的m个节点,组与组之间的关系强度设定为同一个固定值;采用Fruchterman-Reingold layout算法对m个节点进行坐标计算得到组坐标;
组内坐标映射单元,对每个组内的节点采用VosMapping算法进行坐标计算,通过坐标平移将每个组的中心位置设定为组坐标。
8.根据权利要求6所述的一种利用知识地形图进行文本分析的系统,其特征在于,所述密度函数基于以下公式:
D e n s i t y ( x , y ) = &Sigma; i = 0 n f ( Numer i ) e - &alpha; ( ( x - x i ) 2 + ( y - y i ) 2 D i s tan c e &OverBar; ) &beta; , &alpha; > 0 , &beta; > 0 ;
其中,(xi,yi),i=1…n是n个主题词的坐标,是主题词之间的二维欧氏距离平均值;每个主题词的数量为Numer,i=1…n,像素点Point的坐标(x,y);f(Numeri)为主题词数量的标准化值;α,β为非负数。
9.根据权利要求6所述的一种利用知识地形图进行文本分析的系统,其特征在于,所述图形渲染模块包括:
函数标准化单元,用于将密度函数标准化,使其取值为0-255之间的整数;
调色板建立单元,用于建立一个256色的调色板,存储为256个元素的颜色向量;
关系映射单元,用于建立像素点密度值与调色板的一一映射关系;并根据映射关系进行图像渲染。
10.根据权利要求9所述的一种利用知识地形图进行文本分析的系统,其特征在于,所述函数标准化单元采用如下变换方式:
( int ) ( &gamma; D e n s i t y ( x , y ) Density m a x &times; 255 ) ;
( i n t ) ( 255 - &gamma; D e n s i t y ( x , y ) Density m a x &times; 255 ) , 0 < &gamma; &le; 1 ;
其中,(int)运算表示取整操作;Densitymax表示密度最大值。
CN201610329206.8A 2016-05-18 2016-05-18 一种利用知识地形图进行文本分析的方法及系统 Active CN106021228B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610329206.8A CN106021228B (zh) 2016-05-18 2016-05-18 一种利用知识地形图进行文本分析的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610329206.8A CN106021228B (zh) 2016-05-18 2016-05-18 一种利用知识地形图进行文本分析的方法及系统

Publications (2)

Publication Number Publication Date
CN106021228A true CN106021228A (zh) 2016-10-12
CN106021228B CN106021228B (zh) 2019-08-20

Family

ID=57098604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610329206.8A Active CN106021228B (zh) 2016-05-18 2016-05-18 一种利用知识地形图进行文本分析的方法及系统

Country Status (1)

Country Link
CN (1) CN106021228B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291918A (zh) * 2017-06-28 2017-10-24 武汉大学 一种兴趣点poi同位模式的可视化挖掘方法
CN108491537A (zh) * 2018-03-31 2018-09-04 北京偏北音乐文化有限公司 用户偏好信息处理方法、装置、设备及介质
CN111581394A (zh) * 2020-04-30 2020-08-25 北京印刷学院 一种大规模知识地形图绘制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100153094A1 (en) * 2008-12-11 2010-06-17 Electronics And Telecommunications Research Institute Topic map based indexing and searching apparatus
US20110191290A1 (en) * 2010-01-29 2011-08-04 Oracle International Corporation Predictive categorization
CN103617219A (zh) * 2013-11-21 2014-03-05 北京国双科技有限公司 获取立体热力图的方法及装置
CN104317897A (zh) * 2014-10-24 2015-01-28 福州大学 一种数字图书馆中基于可视化标签主题图的导航方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100153094A1 (en) * 2008-12-11 2010-06-17 Electronics And Telecommunications Research Institute Topic map based indexing and searching apparatus
US20110191290A1 (en) * 2010-01-29 2011-08-04 Oracle International Corporation Predictive categorization
CN103617219A (zh) * 2013-11-21 2014-03-05 北京国双科技有限公司 获取立体热力图的方法及装置
CN104317897A (zh) * 2014-10-24 2015-01-28 福州大学 一种数字图书馆中基于可视化标签主题图的导航方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李清茂: "基于主题图的旅游文献组织方法研究", 《应用实践》 *
胡娟 等: "基于主题图的学术博客知识组织模型研究", 《图书情报工作》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291918A (zh) * 2017-06-28 2017-10-24 武汉大学 一种兴趣点poi同位模式的可视化挖掘方法
CN108491537A (zh) * 2018-03-31 2018-09-04 北京偏北音乐文化有限公司 用户偏好信息处理方法、装置、设备及介质
CN111581394A (zh) * 2020-04-30 2020-08-25 北京印刷学院 一种大规模知识地形图绘制方法
CN111581394B (zh) * 2020-04-30 2023-06-23 北京印刷学院 一种大规模知识地形图绘制方法

Also Published As

Publication number Publication date
CN106021228B (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
CN108830912A (zh) 一种深度特征对抗式学习的交互式灰度图像着色方法
CN101989178B (zh) 多叉树数据结构的立体环状可视化方法
CN107077474A (zh) 快速颜色搜索
CN109948692A (zh) 基于多颜色空间卷积神经网络及随机森林的计算机生成图片检测方法
CN106156067B (zh) 用于为关系数据创建数据模型的方法和系统
CN108460056A (zh) 一种dxf文件有效图元转换json数据的方法
Gronemann et al. Drawing clustered graphs as topographic maps
Anichini et al. The automatic recognition of ceramics from only one photo: The ArchAIDE app
Ting et al. Image inpainting by global structure and texture propagation
CN106021228A (zh) 一种利用知识地形图进行文本分析的方法及系统
Arundel et al. Preparing The National Map for the 3D Elevation Program–products, process and research
CN103824259B (zh) 一种基于视觉区域比重平衡法则的图像构图美化方法和系统
CN103646118B (zh) 置信优势关系粗糙集模型及属性约简方法
CN109903347A (zh) 一种颜色混合的方法、系统、计算机设备及存储介质
CN103324894B (zh) 一种复合防伪文档生成方法及系统
CN104392489A (zh) 顾及拓扑的三维地理空间实体群的线消隐方法
CN103902516B (zh) 一种数据生成方法及装置
CN101650824A (zh) 基于共形能量的内容敏感图像缩放方法
CN105653881A (zh) 基于多密度层次的流场可视化方法
CN102999660A (zh) 一种将设计数据转换为多变换拼花数据的方法
Zhang Classification of Urban Land Use Based on Graph Theory and Geographic Information System.
KR101063827B1 (ko) 한국토지정보시스템 연속지적도와 수치지형도의 기하학적 지도 변환을 위한 반자동화된 공액점 쌍 추출방법
Abello Hierarchical graph maps
Li et al. A new texture generation method based on pseudo-DCT coefficients
CN106612197A (zh) 一种网络缩略图生成方法及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant