CN106874317A - 数据可视化方法与数据可视化装置 - Google Patents
数据可视化方法与数据可视化装置 Download PDFInfo
- Publication number
- CN106874317A CN106874317A CN201510987817.7A CN201510987817A CN106874317A CN 106874317 A CN106874317 A CN 106874317A CN 201510987817 A CN201510987817 A CN 201510987817A CN 106874317 A CN106874317 A CN 106874317A
- Authority
- CN
- China
- Prior art keywords
- data
- sequence
- click
- section
- broken line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013079 data visualisation Methods 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000000007 visual effect Effects 0.000 claims abstract description 20
- 241001269238 Data Species 0.000 claims description 32
- 238000012800 visualization Methods 0.000 claims description 21
- 238000005070 sampling Methods 0.000 claims description 12
- 239000000203 mixture Substances 0.000 claims description 6
- 238000009738 saturating Methods 0.000 claims description 4
- 230000006399 behavior Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 238000010422 painting Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 239000003973 paint Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
- G06T11/206—Drawing of charts or graphs
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Image Generation (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据可视化方法与数据可视化装置。所述数据可视化方法包括下列步骤。撷取点击数据序列,点击数据序列包括多个点击数据。将各点击数据所对应的第一序列区段与区段样本进行比对,以产生各点击数据所对应的相似度。撷取具有最大相似度的多个点击数据,以及具有最大相似度的多个点击数据分别所对应的第二序列区段。将各第二序列区段可视化于二维空间中,以于二维空间中呈现各第二序列区段所对应的视觉序列数据,并使各视觉序列数据中对应具有最大相似度的点击数据的一位置,对应于第一维度上的基准点。
Description
技术领域
本发明是关于一种基于对应区段样本的相似度而于二维空间中迭绘数据的数据可视化方法与数据可视化装置。
背景技术
受惠于科技的发展,连线网络的通讯质量越来越好,速度也越来越快,再加上各式提供上网功能的电子装置也不断推陈出新,造就了近年来电子商务的市场交易总额有巨幅的成长。因此,已有大量的厂商积极布局于电子商务。
然而,欲从电子商务中精确地掌握消费者的动向,仍是各厂商所面临的最大难题之一。举例来说,目前现有作法可包括:统计热门商品、统计消费者分布(包括时间、地点)、计算预定目标阶段下的转换率,甚至于分析特定促销行为的成效等等。然而上述现有作法,仍无法精确地检视消费者的行为。
除此之外,针对网站分析(web analytics)的现有作法中,通常仅着眼于点击序列资料(clickstream)的整体来进行统计。然而整体的点击序列数据可能会包含许多用户的行为片段。举例来说,使用者可能漫无目的于网页中浏览、比较商品、购物、或者是进行会员数据修改等等。因此,整体的点击序列数据中仍具有大量应用价值偏低的成分。除此之外,在整体的点击序列数据中出现频率较高的行为样式,也不见得可直接对应其应用价值较高。
因此,实务上往往需要数据科学专家,从整体的点击序列资料中来逐一检视,才能进一步找出应用价值较高的行为样式。然而此举高度依赖人为经验,于执行上亦缺乏效率。
发明内容
有鉴于此,本发明提供一种数据可视化方法与数据可视化装置,用以解决上述问题。
本发明提供一种数据可视化方法,包括下列步骤。撷取一点击数据序列,点击数据序列包括多个点击数据。将各点击数据所对应的一第一序列区段与一区段样本进行比对,以产生各点击数据所对应的一相似度。撷取具有最大相似度的多个点击数据,以及具有最大相似度的多个点击数据分别所对应的一第二序列区段。将各第二序列区段可视化于一二维空间中,以于二维空间中呈现各第二序列区段所对应的一视觉序列数据,并使各视觉序列数据中对应具有最大相似度的点击数据的一位置,对应于第一维度上的一基准点。其中,二维空间的一第一维度系关联于多个点击数据之间的一相对顺序,二维空间的一第二维度系关联于各点击数据的一事件状态。
在本发明一实施例中,其中各视觉序列数据为具有多个端点的一折线,各端点对应多个点击数据其中之一,而所述数据可视化方法包括下列步骤。撷取各第二序列区段所对应的折线与折线中所具有的多个端点。依序将各折线迭绘于二维空间中,且使各折线中对应具有最大相似度的点击数据的端点,对齐于第一维度上的基准点。
在本发明另一实施例中,所述数据可视化方法包括下列步骤。计算各折线中的多个端点所分别具有的一透明度。其中各折线中的多个端点分别所具有的透明度系关联于对应的点击数据的相似度。
在本发明另一实施例中,其中当各端点所对应的相似度越大时,则各端点所具有的透明度越小。
在本发明另一实施例中,所述数据可视化方法更包括下列步骤。计算各折线中相邻两端点之间的线段所具有的一透明度。其中各折线中相邻两端点之间的线段所具有的透明度为相邻两端点分别所具有的透明度的内插。
在本发明另一实施例中,所述数据可视化方法更包括下列步骤。计算各折线中的多个端点所分别具有的一色彩。其中各折线中的多个端点所分别具有的色彩关联于对应点击数据的事件状态。
在本发明另一实施例中,其中于第二维度上具有相同位置的多个端点之间,彼此具有相同的色彩,
在本发明另一实施例中,其中于第二维度上具有相异位置的多个端点之间,彼此具有相异的色彩。
在本发明另一实施例中,所述数据可视化方法更包括下列步骤。计算各折线中相邻两端点之间的线段所具有的一色彩。其中各折线中相邻两端点之间的线段所具有的色彩为相邻两端点分别所具有的色彩的混色。
在本发明另一实施例中,所述数据可视化方法包括下列步骤。于一网页日志中,撷取点击数据序列。
在本发明另一实施例中,所述数据可视化方法更包括下列步骤。对点击数据序列执行一滑动窗口法,来逐一撷取各点击数据所对应的第一序列区段,以及第一序列区段对应区段样本的相似度,其中滑动窗口法的一窗口长度相同于区段样本的一区段长度。
本发明提供一种数据可视化装置。所述数据可视化装置包括一数据撷取模块、一相似度判定模块以及一可视化模块。相似度判定模块耦接数据撷取模块,可视化模块耦接数据撷取模块与相似度判定模块。数据撷取模块用以撷取一点击数据序列,点击数据序列包括多个点击数据。相似度判定模块用以将各点击数据所对应的一第一序列区段与一区段样本进行比对,以产生各点击数据所对应的一相似度。可视化模块用以撷取具有最大相似度的多个点击数据,以及具有最大相似度的多个点击数据分别所对应的一第二序列区段,以及将各第二序列区段可视化于一二维空间中,以于二维空间中呈现各第二序列区段所对应的一视觉序列数据,并使各视觉序列数据中所对应的具有最大相似度的点击数据对应于第一维度上的一基准点。其中,二维空间的一第一维度关联于多个点击数据之间的一相对顺序,二维空间的一第二维度关联于各点击数据的一事件状态。
如上所述,本发明根据网路日志撷取点击数据序列,并透过滑动窗口法与一区段样本进行比对,以产生各点击数据所对应的一相似度。此外,撷取具有最大相似度的多个点击数据,以及对应的第二序列区段,以将各第二序列区段可视化于一二维空间中,且于迭绘的过程中,基于第一维度上的基准点而对齐视觉序列数据。如此一来,可以自动化地从二维空间中呈现出给定区段样本在点击数据序列之中的真实序列样貌,以及显示出其他可能的变异性,提供数据科学家理解序列行为的能力。
以上关于本发明内容及以下关于实施方式的说明用以示范与阐明本发明的精神与原理,并提供对本发明的权利要求保护范围更进一步的解释。
附图说明
图1为根据本发明的一实施例的数据可视化装置的方块图。
图2为根据本发明的一实施例的资料可视化方法的流程图。
图3为根据本发明的一实施例的滑动窗口法的示意图。
图4为根据本发明的另一实施例的资料可视化方法的流程图。
图5为根据本发明的一实施例,藉由所撷取的一点击数据序列而于二维空间中呈现的多个折线的迭绘结果的示意图。
图6为根据本发明的一实施例,藉由所撷取的另一点击数据序列而于二维空间中呈现的多个折线的迭绘结果的示意图。
图7A~7C为根据本发明的另一实施例,将各第二序列区段可视化于二维空间的示意图。
【符号说明】
100 数据可视化装置
110 数据撷取模块
120 相似度判定模块
130 可视化模块
T1、T2 区段样本
S 点击数据序列
W 滑动窗口
C1~C12 第二序列区段
X 第一维度
Y 第二维度
E1~E13 事件状态
S210~S240、S241~S246 数据可视化方法的步骤
具体实施方式
以下在实施方式中叙述本发明的详细特征,其内容足以使任何熟习相关技艺者了解本发明的技术内容并据以实施,且依据本说明书所公开的内容、权利要求保护范围及图式,任何熟习相关技艺者可轻易地理解本发明相关的目的及优点。以下实施例进一步说明本发明的诸面向,但非以任何面向限制本发明的范畴。
图1为根据本发明的一实施例的数据可视化装置100的方块图。如图1所示,数据可视化装置100包括数据撷取模块110、相似度判定模块120以及可视化模块130。相似度判定模块120耦接数据撷取模块110,可视化模块130耦接数据撷取模块110与相似度判定模块120。图2为根据本发明的一实施例的资料可视化方法的流程图。如图2所示,在本发明实施例中,数据可视化方法包括步骤S210~S240。下列请同时参照图1与图2。
数据可视化装置100可以是个人计算机、可携式电子装置、云端服务器或者是其他具有计算功能的电子装置,在此不加以限制。数据撷取模块110、相似度判定模块120以及可视化模块130可以是各种芯片或者是为微处理器,在此亦不加以限制。
在步骤S210中,数据撷取模块110撷取一点击数据序列(clickstream),点击数据序列包括多个点击数据。在本发明实施例中,数据撷取模块110可于一网页日志(Weblog)中,撷取所述点击数据序列。举例来说,所述点击数据序列可以是特定购物网站的使用者的点击行为的序列数据,而用户的每一点击行为即对应一点击数据。
在步骤S220中,相似度判定模块120将各点击数据所对应的一第一序列区段与一区段样本进行比对,以产生各点击数据所对应的一相似度。其中,第一序列区段为点击数据序列的其中一部份。
一般来说,区段样本可以是预先所定义的特定序列数据,用以对应用户于所述购物网站中所预设的一连串点击行为。在本发明实施例中,相似度判定模块120可以设定一点击数据与之后连续的n1个(n1为正整数)点击数据为所述第一序列区段。然而,在本发明另一实施例中,相似度判定模块120亦可以设定一点击数据与之前连续的n2个(n2为正整数)点击数据以及之后连续的n3个(n3为正整数)点击数据为所述第一序列区段,在此不加以限制。除此之外,第一序列区段的长度可相同于区段样本的长度,以便于进行上述两者之间相似度的分析。
在本发明实施例中,相似度判定模块120系对点击数据序列执行一滑动窗口法,来逐一撷取各点击数据所对应的第一序列区段,以及第一序列区段对应区段样本的相似度,其中滑动窗口法的一窗口长度相同于区段样本的一区段长度。换句话说,各点击数据即为所对应的滑动窗口的第一笔数据,各第一序列区段即为所对应的滑动窗口所含括的所有数据。
举例来说,当指定一点击数据与之后连续的4个点击数据完全相等区段样本时,则指定的该点击数据所对应的相似度为1。当指定一点击数据与之后连续的4个点击数据与区段样本完全不相等时,则指定的该点击数据对应的相似度为0。比对结果为部分相同时,则相似度可位于0到1之间。下列将辅以图示加以说明。
图3为根据本发明的一实施例的滑动窗口法的示意图。如图3所示,区段样本T1为ABCDE,其中A、B、C、D、E分别为不同的事件状态,点击数据序列S为ABBCDEEB,而滑动窗口的长度与区段样本的长度同为5。藉此,可分别计算出点击数据序列的前4个点击数据A、B、B、C所对应的滑动窗口W分别为ABBCD、BBCDE、BCDEE、CDEEB,且对应区段样本T所符合的部分分别为BCD、BCDE、BCDE、CDE,因而其相较于区段样本T1的相似度分别为0.6、0.8、0.8、0.6。
在步骤S230中,可视化模块130撷取具有最大相似度的多个点击数据,以及具有最大相似度的多个点击数据分别所对应的一第二序列区段。其中,第二序列区段为点击数据序列的其中一部份。
在本发明实施例中,可视化模块130可以设定一点击数据与之前连续的n4个(n4为正整数)点击数据以及之后连续的n5个(n5为正整数)点击数据为所述第二序列区段。而一第二序列区段中,可仅包括单一个上述所撷取之具有最大相似度的点击数据。n4与n5可以自行设定,也就是说,第二序列区段的长度可以自行设定。
在本发明另一实施例中,上述所撷取的具有最大相似度的这些点击数据,可以是用以将点击数据序列划分为多个第二序列区段的边界点。详细来说,第二序列区段可以包括单一具有最大相似度的点击数据与其之前连续的多个点击数据,以及其之后连续的多个点击数据。而所述的具有最大相似度的点击数据之前的连续的多个点击数据,可向前延伸直至下一个具有最大相似度的另一点击数据的后一个点击数据为止。相似地,所述的最大相似度的点击数据之后的连续的多个点击数据,可向后延伸直至下一个具有最大相似度的另一点击数据的前一个点击数据为止。
在步骤S240中,可视化模块130将各第二序列区段可视化于一二维空间中,以于二维空间中呈现各第二序列区段所对应的一视觉序列数据,并使各视觉序列数据中对应具有最大相似度的点击数据的一位置,对应于第一维度上的一基准点。在本发明实施例中,其中二维空间的一第一维度系关联于多个点击数据之间的一相对顺序,二维空间的一第二维度系关联于各点击数据的一事件状态。
在本发明实施例中,所述的视觉序列数据可以是所述二维空间中的多个点。举例来说,这些点可具有坐标(x,y),x对应第一维度X,y对应第二维度Y。换句话说,二维空间中的每一个点即代表一点击数据,x为点击数据的相对顺序,y为点击数据的事件状态。
举例来说,经由上述步骤S210~S240的处理后,可受助于所述二维空间的基准点附近的视觉序列数据,而更统整性地呈现出,使用者于特定购物网站最相似于区段样本的一连串点击行为,以及这些点击行为的前后使用者所执行的其他点击行为。也就是说,从所述二维空间中的视觉序列数据,可以清楚地呈现出有哪些其他可能的变异性。后续将会对此加以详述。
图4为根据本发明的另一实施例的资料可视化方法的流程图。如图4所示,在本发明实施例中,步骤S240可更包括步骤S241~S246。
图5为根据本发明的一实施例,藉由所撷取的一点击数据序列而于二维空间中呈现的多个折线的迭绘结果的示意图。图6为根据本发明的一实施例,藉由所撷取的另一点击数据序列而于二维空间中呈现的多个折线的迭绘结果的示意图。如图5所示,在本发明实施例中,在二维空间的第二维度上可呈现有多个事件状态E1~E6。如图6所示,在本发明实施例中,在二维空间的第二维度上可呈现有多个事件状态E7~E13。下列请同时参照图1、图2、图4、图5与图6。
在步骤S241中,可视化模块130更进一步撷取各第二序列区段所对应的折线与折线中所具有的多个端点。其中,各端点对应多个点击数据其中之一。举例来说,与上述相似,各端点可具有坐标(x,y),x对应第一维度,y对应第二维度。换句话说,二维空间中的每一个点即代表一点击数据,x为点击数据的相对顺序,y为点击数据的事件状态。
在步骤S242中,可视化模块130更进一步设定各折线中的多个端点所分别具有的色彩。在本发明实施例中,各折线中的多个端点所分别具有的色彩系关联于对应的点击数据的事件状态。其中于第二维度上具有相同位置的多个端点之间,彼此具有相同的色彩。而于第二维度上具有相异位置的多个端点之间,彼此具有相异的色彩。如图5所示,多个事件状态E1~E6之间可具有不同的色彩。如图6所示,多个事件状态E7~E13之间可具有不同的色彩。
在步骤S243中,可视化模块130更进一步设定各折线中相邻两端点之间的线段所具有的色彩。在本发明实施例中,各折线中相邻两端点之间的线段所具有的色彩为相邻两端点分别所具有的色彩的混色。或者是说,任相邻两端点之间的线段所具有的色彩,在越靠近其中一相邻端点的位置时,其色彩会越趋近所靠近的相邻端点的色彩,相对地其色彩也会越不趋近所远离的相邻端点的色彩。
举例来说,当一折线中的一线段其相邻两端点的色彩分别为红色与黄色,则此线段大致上将呈现红色与黄色的混色(也就是橘色)。当此线段中的位置越靠近红色端点时,则此线段所呈现的橘色也会逐渐偏红。当此线段中的位置越靠近黄色端点时,则此线段所呈现的橘色也会逐渐偏黄。
在步骤S244中,可视化模块130更进一步设定各折线中的多个端点所分别具有的透明度。在本发明实施例中,各折线中的多个端点分别所具有的透明度系关联于对应的点击数据的相似度。其中当各端点所对应的相似度越大时,则各端点所具有的透明度越小。也就是说,当某一端点越不透明时,则代表此端点所对应的相似度越高。或者是说,为了在所述二维空间中突显出较重要的数据,可以让对应的资料以较不透明的方式来呈现。
在本发明一实施例中,所述端点的透明度可以藉由RGBA色彩格式中A(Alpha)频道来呈现,亦可透过HSV色彩格式来呈现。在HSV色彩格式中,端点与线段颜色利用色相(Hue)来呈现,并将透明度对应至HSV色彩格式中的饱和度(Saturation)或明度(Value)来表现。举例来说,当某一端点越不透明时,则可设定此端点的饱和度或明度越高。当某一端点越透明时,则可设定此端点的饱和度或明度越低。然而,所述端点的透明度亦可透过其他的可视化方法来表现,在此不加以限制。
在步骤S245中,可视化模块130更进一步设定各折线中相邻两端点之间的线段所具有的透明度。在本发明实施例中,各折线中相邻两端点之间的线段所具有的透明度为相邻两端点分别所具有的透明度的内插。更详细来说,各折线中相邻两端点之间的线段所具有的透明度为相邻两端点分别所具有的透明度的线性内插。
在步骤S246中,可视化模块130更进一步依序将各折线迭绘于二维空间中,且使各折线中对应具有最大相似度的点击数据的端点,对齐于第一维度上的基准点。或者是说,各折线中对应具有最大相似度的点击数据的端点,皆对齐于二维空间中的基线。举例来说,在本发明实施例中,如图5与图6所示,所有折线中对应具有最大相似度的点击数据的端点皆对齐于基线x=0。
此外,当可视化模块130藉由上述步骤求得各端点与各线段所欲呈现的色彩与透明度之后,可对应将其转换为端点值与线段值。而迭绘的过程中,可于二维空间中对应各端点或各线段的位置上,逐一累加其对应的端点值或线段值。举例来说,当在同一位置上迭绘有多个端点时,则此位置上的累加总值可根据其对应的端点值而依序加总求得。
藉此,在可视化模块130依据二维空间中的基线x=0来迭绘各折线的过程中,可以发现,随着折线中较不透明的线段的呈现,以及各折线迭加的数量的越来越多,出现频率越高以及相似度越高的部分将被突显出来,如图5与图6所示。一般来说,越不透明的折线表示区段样本在点击数据序列出现如该折线的相对比例越高,而不同程度的透明度则反映出区段样本在点击数据序列中所出现的相对比例。
图7A~7C为根据本发明的另一实施例,将各第二序列区段可视化于二维空间的示意图。在本发明实施例中,在二维空间的第二维度上可呈现有多个事件状态E1~E5,区段样本T2为E1、E2、E3、E4,滑动窗口的长度与区段样本的长度同为4。在图7A~7C中,可求得各第二序列区段C1~C12上点击数据所对应的相似度,并设定具有最大相似度的点击数据(在此设定对应事件状态E1的点击数据)的位置对应于第一维度上的基准点X=0。此外,若于二维空间上有多个点击数据迭绘于同一点,则于该点的相似度值可对应累加上去。
在图7A中,可从点击数据序列中撷取出第二序列区段C1~C4。如第7A图所示,在本发明实施例中,在二维空间中所呈现出的实际序列样式(于X=-2~X=5之间)可长于所给定的区段样本。也就是说,在X=-2、X=-1、X=4、X=5之处亦可呈现出其他的事件状态。
在图7B中,可从点击数据序列中撷取出第二序列区段C5~C8。如图7B所示,在本发明实施例中,除了在二维空间中所呈现出的实际序列样式可长于所给定的区段样本(于X=-1~X=5之间),所呈现出的实际序列样式中间亦存在变异性。也就是说,在X=1之处亦可呈现出其他的事件状态。
在图7C中,可从点击数据序列中撷取出第二序列区段C9~C12。如图7C所示,在本发明实施例中,在二维空间中所呈现出的实际序列样式(于X=1~X=3之间)可短于所给定的区段样本。
综上所述,本发明根据网路日志撷取点击数据序列,并透过滑动窗口法与一区段样本进行比对,以产生各点击数据所对应的一相似度。此外,撷取具有最大相似度的多个点击数据,以及对应的第二序列区段,以将各第二序列区段可视化于一二维空间中,且于迭绘的过程中,基于第一维度上的基准点而对齐视觉序列数据。如此一来,可以自动化地从二维空间中呈现出给定区段样本在点击数据序列之中的真实序列样貌,以及显示出其他可能的变异性,提供数据科学家理解序列行为的能力。
Claims (22)
1.一种数据可视化方法,包括:
撷取一点击数据序列,该点击数据序列包括多个点击数据;
将各该点击数据所对应的一第一序列区段与一区段样本进行比对,以产生各该点击数据所对应的一相似度;
撷取具有最大该相似度的多个点击数据,以及具有最大该相似度的该些点击数据分别所对应的一第二序列区段;以及
将各该第二序列区段可视化于一二维空间中,以于该二维空间中呈现各该第二序列区段所对应的一视觉序列数据,并使各该视觉序列数据中对应具有最大该相似度的该点击数据的一位置,对应于该第一维度上的一基准点;
其中,该二维空间的一第一维度关联于该些点击数据之间的一相对顺序,该二维空间的一第二维度关联于各该点击数据的一事件状态。
2.如权利要求1所述的数据可视化方法,其中各该视觉序列数据为具有多个端点的一折线,各该端点对应该些点击数据其中之一,而在将各该第二序列区段可视化于该二维空间中,以于该二维空间中呈现各该第二序列区段所对应的该视觉序列数据,并使各该视觉序列数据中所对应的具有最大该相似度的该点击数据对应于该第一维度上的该基准点的步骤中,包括:
撷取各该第二序列区段所对应的该折线与该折线中所具有的该些端点;以及
依序将各该折线迭绘于该二维空间中,且使各该折线中对应具有最大该相似度的该点击数据的端点,对齐于该第一维度上的该基准点。
3.如权利要求2所述的数据可视化方法,其中于撷取各该第二序列区段所对应的该折线的步骤中,更包括:
设定各该折线中的该些端点所分别具有的一透明度;
其中各该折线中的该些端点分别所具有的该透明度关联于对应该点击数据的该相似度。
4.如权利要求3所述的数据可视化方法,其中当各该端点所对应的该相似度越大时,则各该端点所具有的该透明度越小。
5.如权利要求4所述的数据可视化方法,其中于撷取各该第二序列区段所对应的该折线的步骤中,更包括:
设定各该折线中相邻两端点之间的线段所具有的一透明度;
其中各该折线中相邻两端点之间的该线段所具有的该透明度为相邻该两端点分别所具有的该透明度的内插。
6.如权利要求2所述的数据可视化方法,其中于撷取各该第二序列区段所对应的该折线的步骤中,更包括:
设定各该折线中的该些端点所分别具有的一色彩;
其中各该折线中的该些端点所分别具有的该色彩关联于对应该点击数据的该事件状态。
7.如权利要求6所述的数据可视化方法,其中于该第二维度上具有相同位置的该些端点之间,彼此具有相同的该色彩。
8.如权利要求7所述的数据可视化方法,其中于该第二维度上具有相异位置的该些端点之间,彼此具有相异的该色彩。
9.如权利要求8所述的数据可视化方法,其中于撷取各该第二序列区段所对应的该折线的步骤中,更包括:
计算各该折线中相邻两端点之间的线段所具有的一色彩;
其中各该折线中相邻两端点之间的该线段所具有的该色彩为相邻该两端点分别所具有的该色彩的混色。
10.如权利要求1所述的数据可视化方法,其中在撷取该点击数据序列的步骤中,包括:
于一网页日志中,撷取该点击数据序列。
11.如权利要求1所述的数据可视化方法,其中在将各该点击数据所对应的该第一序列区段与该区段样本进行比对,以产生各该点击数据所对应的该相似度的步骤中,更包括:
对该点击数据序列执行一滑动窗口法,来逐一撷取各该点击数据所对应的该第一序列区段,以及该第一序列区段对应该区段样本的该相似度,其中该滑动窗口法的一窗口长度相同于该区段样本的一区段长度。
12.一种数据可视化装置,包括:
一数据撷取模块,用以撷取一点击数据序列,该点击数据序列包括多个点击数据;
一相似度判定模块,耦接该数据撷取模块,用以将各该点击数据所对应的一第一序列区段与一区段样本进行比对,以产生各该点击数据所对应的一相似度;
一可视化模块,耦接该数据撷取模块与该相似度判定模块,用以撷取具有最大该相似度的多个点击数据,以及具有最大该相似度的该些点击数据分别所对应的一第二序列区段,以及将各该第二序列区段可视化于一二维空间中,以于该二维空间中呈现各该第二序列区段所对应的一视觉序列数据,并使各该视觉序列数据中对应具有最大该相似度的该点击数据的一位置,对应于该第一维度上的一基准点;
其中,该二维空间的一第一维度关联于该些点击数据之间的一相对顺序,该二维空间的一第二维度关联于各该点击数据的一事件状态。
13.如权利要求12所述的数据可视化装置,其中各该视觉序列数据为具有多个端点的一折线,各该端点对应该些点击数据其中之一,而该可视化模块更进一步撷取各该第二序列区段所对应的该折线与该折线中所具有的多个端点,以及依序将各该折线迭绘于该该二维空间中,且使各该折线中对应具有最大该相似度的该点击数据的端点,对齐于该第一维度上的该基准点。
14.如权利要求13所述的数据可视化装置,其中各该折线中的该些端点分别具有一透明度,且各该折线中的该些端点分别所具有的该透明度为该可视化模块更进一步根据对应该点击数据的该相似度所求得。
15.如权利要求14所述的数据可视化装置,其中当各该端点所对应的该相似度越大时,则各该端点所具有的该透明度越小。
16.如权利要求15所述的数据可视化装置,其中各该折线中相邻两端点之间的线段具有一透明度,且各该折线中相邻两端点之间的该线段所具有的该透明度为该可视化模块更进一步根据对相邻该两端点分别所具有的该透明度执行内插而求得。
17.如权利要求13所述的数据可视化方法,其中各该折线中的该些端点分别具有一色彩,且各该折线中的该些端点分别所具有的该色彩关联于对应该点击数据的该事件状态。
18.如权利要求17所述的数据可视化方法,其中于该第二维度上具有相同位置的该些端点之间,彼此具有相同的该色彩。
19.如权利要求18所述的数据可视化方法,其中于该第二维度上具有相异位置的该些端点之间,彼此具有相异的该色彩。
20.如权利要求19所述的数据可视化方法,其中各该折线中相邻两端点之间的线段具有一色彩,且各该折线中相邻两端点之间的该线段所具有的该色彩为相邻该两端点分别所具有的该色彩的混色。
21.如权利要求12所述的数据可视化装置,其中该数据撷取模块更进一步于一网页日志中,撷取该点击数据序列。
22.如权利要求12所述的数据可视化装置,其中该相似度判定模块更进一步对该点击数据序列执行一滑动窗口法,来逐一撷取各该点击数据所对应的该第一序列区段,以及该第一序列区段对应该区段样本的该相似度,其中该滑动窗口法的一窗口长度相同于该区段样本的一区段长度。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW104141828A TWI564831B (zh) | 2015-12-11 | 2015-12-11 | 資料視覺化方法與資料視覺化裝置 |
TW104141828 | 2015-12-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106874317A true CN106874317A (zh) | 2017-06-20 |
CN106874317B CN106874317B (zh) | 2020-03-06 |
Family
ID=58408073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510987817.7A Active CN106874317B (zh) | 2015-12-11 | 2015-12-24 | 数据可视化方法与数据可视化装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9836757B2 (zh) |
CN (1) | CN106874317B (zh) |
TW (1) | TWI564831B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853720A (zh) * | 2019-10-10 | 2020-02-28 | 重庆金融资产交易所有限责任公司 | 一种业务数据处理方法、装置、设备及存储介质 |
CN111540409A (zh) * | 2020-04-20 | 2020-08-14 | 中南大学 | 基于隐私保护的基因相似度计算方法及基因信息获取方法 |
CN113393216A (zh) * | 2021-07-01 | 2021-09-14 | 上海牵翼网络科技有限公司 | 一种实验室数字化平台 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI635403B (zh) * | 2017-08-09 | 2018-09-11 | 宏碁股份有限公司 | 動態調整資料階層的方法及資料視覺化處理裝置 |
CN107766428B (zh) * | 2017-09-15 | 2021-09-24 | 北京大学 | 一种自动实现数据可视化的方法和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101217392A (zh) * | 2007-12-27 | 2008-07-09 | 华为技术有限公司 | 行为采集分析方法及系统 |
CN102567344A (zh) * | 2010-12-17 | 2012-07-11 | 中国移动通信集团公司 | 信息提供方法及装置 |
CN103138986A (zh) * | 2013-01-09 | 2013-06-05 | 天津大学 | 一种基于可视分析的网站异常访问行为的检测方法 |
CN103488793A (zh) * | 2013-10-09 | 2014-01-01 | 韩金倡 | 一种基于信息检索的用户行为监控方法 |
US20150088808A1 (en) * | 2013-09-23 | 2015-03-26 | Sap Ag | Dynamic Determination of Pattern Type and Chart Type for Visual Analytics |
CN104485648A (zh) * | 2014-12-09 | 2015-04-01 | 北京四方继保自动化股份有限公司 | 一种配电网馈线自动化动作事件的图形可视化表现方法 |
CN104714948A (zh) * | 2013-12-11 | 2015-06-17 | 部落邦(北京)科技有限责任公司 | 一种回放用户网页操作行为的方法、系统及热图展现装置 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7278105B1 (en) | 2000-08-21 | 2007-10-02 | Vignette Corporation | Visualization and analysis of user clickpaths |
US6996536B1 (en) | 2000-09-01 | 2006-02-07 | International Business Machines Corporation | System and method for visually analyzing clickstream data with a parallel coordinate system |
US7266510B1 (en) | 2000-09-01 | 2007-09-04 | International Business Machines Corporation | Method for graphically representing clickstream data of a shopping session on a network with a parallel coordinate system |
US6711577B1 (en) | 2000-10-09 | 2004-03-23 | Battelle Memorial Institute | Data mining and visualization techniques |
US7539677B1 (en) | 2000-10-09 | 2009-05-26 | Battelle Memorial Institute | Sequential pattern data mining and visualization |
US7020643B2 (en) | 2002-01-25 | 2006-03-28 | Microsoft Corporation | Method and system for clickpath funnel analysis |
US9529974B2 (en) * | 2008-02-25 | 2016-12-27 | Georgetown University | System and method for detecting, collecting, analyzing, and communicating event-related information |
US20100169326A1 (en) * | 2008-12-31 | 2010-07-01 | Nokia Corporation | Method, apparatus and computer program product for providing analysis and visualization of content items association |
US8533825B1 (en) * | 2010-02-04 | 2013-09-10 | Adometry, Inc. | System, method and computer program product for collusion detection |
CN102254265A (zh) | 2010-05-18 | 2011-11-23 | 北京首家通信技术有限公司 | 一种富媒体互联网广告内容匹配、效果评估方法 |
WO2012138539A2 (en) * | 2011-04-08 | 2012-10-11 | The Regents Of The University Of California | Interactive system for collecting, displaying, and ranking items based on quantitative and textual input from multiple participants |
US9304984B2 (en) | 2012-03-26 | 2016-04-05 | Hewlett Packard Enterprise Development Lp | Intention statement visualization |
US9275342B2 (en) | 2012-04-09 | 2016-03-01 | 24/7 Customer, Inc. | Method and apparatus for intent modeling and prediction |
CN103578010A (zh) | 2012-07-26 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 生成流量质量比较参数的方法和装置、广告计费方法 |
US9449062B2 (en) * | 2012-09-28 | 2016-09-20 | Sap Se | Data exploration combining visual inspection and analytic search |
US10037121B2 (en) | 2012-10-09 | 2018-07-31 | Paypal, Inc. | Visual mining of user behavior patterns |
-
2015
- 2015-12-11 TW TW104141828A patent/TWI564831B/zh active
- 2015-12-24 CN CN201510987817.7A patent/CN106874317B/zh active Active
-
2016
- 2016-04-15 US US15/130,528 patent/US9836757B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101217392A (zh) * | 2007-12-27 | 2008-07-09 | 华为技术有限公司 | 行为采集分析方法及系统 |
CN102567344A (zh) * | 2010-12-17 | 2012-07-11 | 中国移动通信集团公司 | 信息提供方法及装置 |
CN103138986A (zh) * | 2013-01-09 | 2013-06-05 | 天津大学 | 一种基于可视分析的网站异常访问行为的检测方法 |
US20150088808A1 (en) * | 2013-09-23 | 2015-03-26 | Sap Ag | Dynamic Determination of Pattern Type and Chart Type for Visual Analytics |
CN103488793A (zh) * | 2013-10-09 | 2014-01-01 | 韩金倡 | 一种基于信息检索的用户行为监控方法 |
CN104714948A (zh) * | 2013-12-11 | 2015-06-17 | 部落邦(北京)科技有限责任公司 | 一种回放用户网页操作行为的方法、系统及热图展现装置 |
CN104485648A (zh) * | 2014-12-09 | 2015-04-01 | 北京四方继保自动化股份有限公司 | 一种配电网馈线自动化动作事件的图形可视化表现方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853720A (zh) * | 2019-10-10 | 2020-02-28 | 重庆金融资产交易所有限责任公司 | 一种业务数据处理方法、装置、设备及存储介质 |
CN111540409A (zh) * | 2020-04-20 | 2020-08-14 | 中南大学 | 基于隐私保护的基因相似度计算方法及基因信息获取方法 |
CN111540409B (zh) * | 2020-04-20 | 2023-06-27 | 中南大学 | 基于隐私保护的基因相似度计算方法及基因信息获取方法 |
CN113393216A (zh) * | 2021-07-01 | 2021-09-14 | 上海牵翼网络科技有限公司 | 一种实验室数字化平台 |
Also Published As
Publication number | Publication date |
---|---|
TW201721551A (zh) | 2017-06-16 |
CN106874317B (zh) | 2020-03-06 |
US20170169442A1 (en) | 2017-06-15 |
US9836757B2 (en) | 2017-12-05 |
TWI564831B (zh) | 2017-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106874317A (zh) | 数据可视化方法与数据可视化装置 | |
EP2741254B1 (en) | Color determination device, color determination system, color determination method, information recording medium, and program | |
EP3660784B1 (en) | Segmentation of an image based on color and color differences | |
CA2869385C (en) | Method and apparatus for displaying a simulated application of at least one coating to a digital image | |
CN105741327B (zh) | 提取图片的主色和醒目色的方法和装置 | |
CN106777086A (zh) | 一种网页埋点的动态管理方法及装置 | |
CN107316218A (zh) | 一种网络试衣方法和系统 | |
CN105912728A (zh) | 一种信息查询方法 | |
JP4814364B2 (ja) | 評価支援方法、評価支援プログラム、および評価支援装置 | |
CN106126140B (zh) | 一种渲染文字的方法、装置及电子设备 | |
Unger et al. | Visual support for the understanding of simulation processes | |
KR20180103133A (ko) | 간소화된 질감 비교 엔진 | |
CN102938157A (zh) | 一种基于圆域b样条曲线的风格化手绘生成方法与系统 | |
CN103258021A (zh) | 一种基于行为分析的字符终端特征数据提取方法 | |
CN104915102B (zh) | 图形界面的交互方法及装置 | |
CN105718564A (zh) | 推广行为的检测方法及装置 | |
CN101496392A (zh) | 选择图像插入文件的方法 | |
Walker et al. | Force-directed parallel coordinates | |
JP5103590B2 (ja) | 情報処理装置および情報処理方法 | |
KR20170060595A (ko) | 특허청구범위 분석 방법 및 그 장치 | |
US20140163718A1 (en) | Method for Tailoring Garments | |
CN106610767A (zh) | 用于移动终端界面的交互行为分析方法及装置 | |
CN105279155B (zh) | 一种访问对象的数据处理方法及装置 | |
Lee et al. | Simulating and analysing Jackson Pollock's paintings | |
CN104598118A (zh) | 应用于路由器的用户界面构建系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |