CN112732878A - 非结构化数据分析系统和方法 - Google Patents

非结构化数据分析系统和方法 Download PDF

Info

Publication number
CN112732878A
CN112732878A CN202011265115.5A CN202011265115A CN112732878A CN 112732878 A CN112732878 A CN 112732878A CN 202011265115 A CN202011265115 A CN 202011265115A CN 112732878 A CN112732878 A CN 112732878A
Authority
CN
China
Prior art keywords
data
topic
topics
unstructured data
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011265115.5A
Other languages
English (en)
Inventor
汪晓宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stratifyd Inc
Original Assignee
Stratifyd Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US15/151,572 external-priority patent/US10452698B2/en
Application filed by Stratifyd Inc filed Critical Stratifyd Inc
Publication of CN112732878A publication Critical patent/CN112732878A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种非结构化数据分析系统,包括:非结构化数据分析算法,其驻留在服务器上并可经由浏览器访问,所述非结构化数据分析算法可操作用于:从一个或更多个远程源接收非结构化数据,向非结构化数据应用一个或更多个分析工具,以及向一个或更多个用户显示总结信息;其中在呈现层、探索层和注释层中向所述一个或更多个用户显示所述总结信息。所述非结构化数据分析算法还可操作用于从一个或更多个远程源接收外部数据。所述呈现层显示下述中的一个或更多个:非结构化数据、非结构化数据的总结、以及总结信息。所述探索层允许一个或更多个用户修改总结信息的粒度,由此修改呈现层的粒度。一个或更多个用户可以经由注释层同时与非结构化数据分析系统进行交互。

Description

非结构化数据分析系统和方法
本申请是申请日为2016年6月28日的题为“非结构化数据分析系统和方法”的中国发明专利申请No.201610496280.9的分案申请。
相关申请的交叉引用
本专利申请/专利要求共同未决的在2015年5月11日递交的标题为“UNSTRUCTUREDDATA ANALYTICS SYSTEMS AND METHODS INCLUDING A VISUALIZATION INTERFACE”的美国临时专利申请No.62/159,662以及在2015年5月11日递交的标题为“UNSTRUCTURED DATAANALYTICS SYSTEMS AND METHODS INCLUDING NATURAL LANGUAGE PROCESSING ANDSTATISTICS FUNCTIONS”的美国临时专利申请No.62/159,683的优先权,通过引用将这二者的全部内容并入本文。
技术领域
本发明一般涉及用于分析大文本语料和非结构化数据的方法和系统。更具体地,本发明涉及使用可视化分析和话题建模、可视化界面、以及自然语言处理及统计功能分析大文本语料和非结构化数据的方法和系统。
背景技术
对文本信息和非结构化数据的大量且日益增长的集合的管理是一个挑战性的问题。知识丰富的文本信息的数据存储库已经变得普及,导致要整理、发掘和分析海量数据。随着文档数量的增加,学习文本语料的含义变得认知成本高昂且耗时。
对于自然语言处理(NLP)领域中的研究者,对大文本语料的自动总结这一挑战已经成为主要关注点。为了总结文本语料,研究者已经开发了诸如用于提取并表示词语的上下文使用环境下的含义的隐含语义分析(LSA)之类的技术。LSA产生可以用于文档分类和聚类的概念空间。最近,已经出现了作为用于找到非结构化文本集合中的语义上有意义的话题的有利新技术的概率话题模型。为了进一步提供对文本语料的可视化总结,来自知识发现和可视化社区领域的研究者已经开发了用以基于LSA和概率话题模型(probabilistictopic models)二者支持大文本语料的可视化(visualization)和探索(exploration)的工具和技术。
尽管概率话题模型已经在解释和语义关联方面证明了它们的优势,但是几乎没有交互可视化系统已经利用这种模型来支持对文本语料的探索和分析。基于范例的可视化和概率隐含语义可视化方法已经在估计文本语料的话题的同时将文档投射到语义二维(2D)图表上。尽管文档簇良好地服从所选标签,但是几乎不存在对文档簇的交互探索和分析的机会。一个例外是基于时间的可视化系统TIARA,其应用河流图(ThemeRiver)隐喻以基于话题内容可视化地总结文本集合。通过TIARA系统的分析,用户能够回答诸如以下问题:文档语料中的主要话题是什么?以及话题是如何随时间演进的?
然而,当分析大文本语料时,存在当前文本分析可视化系统难以回答的许多其他现实世界问题。具体地,关于话题和文档之间的关系的问题难以用现有工具解答。这种问题包括:基于文档的话题分布的文档特征是什么?以及什么文档一次包括多个话题(以及这多个话题是什么)?在科学策略的领域中,例如具有多个话题的文档可以指示跨学科的(即,涵盖多于一个知识体)出版物。类似地,在社交媒体分析的上下文中,具有多个话题的文档可以表示与不同的热点话题相关的唯一新闻文章。
为了克服与现有的方法和系统相关联的缺点,以及为了帮助用户更有效地理解大文本语料,本发明提供新颖的可视化分析系统,其将最新的概率话题模型、隐含狄利克雷分布(LDA)与交互可视化整合。为了描述文档语料,本发明的方法和系统首先使用LDA提取一组语义上有意义的话题。与将文档指派给特定簇的大多数传统聚类技术不同,LDA模型考虑每个单独文档的不同话题方面。这准许实现对可包含多个话题的较大文档的高效全面文本分析。为了突出模型的该性质,本发明的方法和系统利用并行坐标隐喻来呈现跨话题文档的概率分布。这种呈现允许用户发现单话题与多话题文档,以及每个话题对于关注的文档的相对重要性。此外,由于大多数文本语料本身是有时间性的,本发明的系统和方法还示出了随时间的话题演进。
此外,本发明使包括分析师、营销人员、商业单元领导、信息技术人员和C型雇员在内的公司能够从任何类型的文本数据获得可操作的见解。该技术允许人们根据数据驱动的基础来增强他们的决策过程。该技术摄取文本数据,并通过深度计算和统计算法,识别每个数据集内的主题、话题和出现的问题。用交互的可视化的格式显示结果,使得公司中的任何人能够整体地或精细地分析数据。可以分析所有类型的文本数据-内部数据(例如电子邮件、聊天、调查、呼叫中心和关注小组),或外部数据(例如社会媒体、评论网站、论坛和新闻网站)。该技术可以处理大量语言,确保可以分析来自全世界的反馈环。然而,令人调整分析效果的高度可定制的特征被选择。大多数公司正坐在非结构化文本数据的宝藏上,但是几乎没有能力挖掘非结构化文本数据取得情报。
发明内容
再次,在各示例实施例中,本发明的方法和系统将交互可视化与最新的概率话题模型紧密整合。具体地,为了解决本文上面提出的问题,本发明的方法和系统利用并行坐标(PC)隐喻来呈现跨话题文档的概率分布。该精心挑选的呈现不仅示出了文档与多少话题相关,还示出了每个话题对文档的重要性。此外,本发明的方法和系统提供了可以帮助用户基于文档中的话题数自动划分文档集合的一组丰富的交互。除了示出话题和文档之间的关系之外,本发明的方法和系统还支持对于理解文档集合必要的其他任务,例如总结文档集合的主要话题,并示出话题随时间如何演进。
本发明的方法和系统在分析大文本语料时可以有效解决的问题集合包括:捕获文档集合的主要话题是什么?基于文档的话题分布的文档特征是什么?什么文档一次涉及多个话题?以及关注的话题如何随时间演进?为了帮助用户回答这些问题,本发明的方法和系统首先使用LDA模型提取一组语义上有意义的话题。为了支持基于话题模型的对文档集合的可视化探索,本发明的方法和系统采用多个协调视图来突出文档语料的话题和时间特征二者。本发明的方法和系统的一个新颖贡献在于:对文档按话题的概率分布的描绘,并支持对单话题和多话题文档的交互识别和更详细的检查。
在一个示例实施例中,本发明提供用于文本数据分析的计算机化的方法,包括:在一个或更多个处理器处从一个或更多个存储器接收要分析的文本数据;使用该一个或更多个处理器对文本数据进行格式化以供后续分析;使用该一个或更多个处理器,向文本数据应用概率话题模型以提取出一组语义上有意义的话题,这组语义上有意义的话题共同描述了文本数据的全部或一部分;使用在该一个或更多个处理器上执行的关键词加权模块,生成将话题表示为标签云的话题云视图,其中每个标签云与多个关键词相关联;使用在该一个或更多个处理器上执行的话题排序模块,生成表示文本数据的全部或一部分在多个话题上的分布的文档分布视图;使用在该一个或更多个处理器上执行的文档熵计算模块,生成表示多少话题可归属于本文数据的全部或一部分的文档散点图视图;使用在该一个或更多个处理器上执行的临时话题趋势计算模块,生成表示关于文本数据的全部或一部分而言话题的发生随时间改变的时间视图;以及在对文本数据的全部或一部分的分析中,向用户显示话题云视图、文档分布视图、文档散点图视图和时间视图中的一个或更多个。文本数据包括下述中的一个或更多个:从多个文档导出的文本数据、从多个文件导出的文本数据、从一个或多个数据存储库导出的文本数据、以及从互联网导出的文本数据。概率话题模型产生一组隐含话题并将每个话题表示为在多个关键词上的多项分布。文本数据被描述为话题的概率混合。可选地,对关键词排序以指示它们对于给定话题的重要性和彼此间的关系。可选地,突出关键词以指示它们对多个话题的重要性。对话题排序,以表示它们的关系。本文还提供各种其他示例功能。
在另一个示例实施例中,本发明提供用于文本数据分析的计算机化的方法,包括:一个或更多个存储器以及一个或更多个处理器,所述存储器可操作用于存储要分析的文本数据,所述处理器可操作用于接收要分析的文本数据;在该一个或更多个处理器上执行的算法,可操作用于:对文本数据进行格式化以供后续分析;在该一个或更多个处理器上执行的算法,可操作用于:向文本数据应用概率话题模型,以提取出一组语义上有意义的话题,该组语义上有意义的话题共同描述了文本数据的全部或一部分;在该一个或更多个处理器上执行的关键词加权模块,可操作用于:生成将话题表示为标签云的话题云视图,其中每个标签云与多个关键词相关联;在该一个或更多个处理器上执行的话题排序模块,可操作用于:生成表示文本数据的全部或一部分在多个话题上的分布的文档分布视图;在该一个或更多个处理器上执行的文档熵计算模块,可操作用于:生成表示多少话题可归属于本文数据的全部或一部分的文档散点图视图;在该一个或更多个处理器上执行的临时话题趋势计算模块,可操作用于:生成表示关于文本数据的全部或一部分而言的话题的发生随时间改变的时间视图;以及显示器可操作用于:在对文本数据的全部或一部分的分析中,向用户显示话题云视图、文档分布视图、文档散点图视图和时间视图中的一个或更多个。文本数据包括下述中的一个或更多个:从多个文档导出的文本数据、从多个文件导出的文本数据、从一个或多个数据存储库导出的文本数据、以及从互联网导出的文本数据。概率话题模型产生一组隐含话题,并将每个话题表示为在多个关键词上的多项分布。文本数据被描述为话题的概率混合。可选地,对关键词排序以指示它们对于给定话题的重要性和彼此间的关系。可选地,突出关键词以指示它们对多个话题的重要性。对话题排序以表示它们间的关系。本文还提供各种其他示例功能。
再次,本发明使包括分析师、营销人员、商业单元领导、信息技术人员和C型雇员在内的公司能够从任何类型的文本数据获得可操作的见解。该技术允许人们根据数据驱动的基础增强他们的决策过程。该技术摄取文本数据,并通过深度计算和统计算法,识别每个数据集内的主题、话题和出现的问题。用交互的可视化的格式显示结果,使得公司中的任何人可以整体地或精细地分析数据。可以分析所有类型的文本数据-内部数据(例如电子邮件、聊天、调查、呼叫中心和关注小组),或外部数据(例如社会媒体、评论网站、论坛和新闻网站)。技术可以处理大量语言,确保可以分析来自全世界的反馈环。然而,令人调整分析效果的高度可定制的特征被选择。大多数公司正坐在非结构化文本数据的宝藏上,但是几乎没有能力挖掘非结构化文本数据取得情报。
在附加示例实施例中,本发明提供了一种非结构化数据分析系统,包括:非结构化数据分析算法,其驻留在服务器上并可经由浏览器访问,所述非结构化数据分析算法能够操作用于从一个或更多个远程源接收非结构化数据,向非结构化数据应用一个或更多个分析工具,以及向一个或更多个用户显示总结信息;其中在呈现(presentation)层、探索(exploration)层和注释层中的一个或更多个中向一个或更多个用户显示总结信息。非结构化数据包括下述中的一个或更多个:客户体验数据、电信数据、电子邮件数据、以及社交媒体数据。所述非结构化数据分析算法还可操作用于:从一个或更多个远程源接收外部数据。外部数据包括以下中的一个或更多个:互联网数据、政府数据、以及商业数据。向非结构化数据应用的一个或更多个分析工具包括以下中的一个或更多个:统计算法、机器学习和、自然语言处理、以及文本挖掘。呈现层显示以下中的一个或更多个:非结构化数据、非结构化数据的总结、以及总结信息。所述探索层允许一个或更多个用户修改总结信息的粒度,由此修改呈现层的粒度。一个或更多个用户可以经由注释层同时与非结构化数据分析系统交互。还在组合层中向一个或更多个用户显示总结信息。
在另一附加示例实施例中,本发明提供了一种非结构化数据分析方法,包括:提供非结构化数据分析算法,其驻留在服务器上并可经由浏览器访问,所述非结构化数据分析算法能够操作用于从一个或更多个远程源接收非结构化数据,向非结构化数据应用一个或更多个分析工具,以及向一个或更多个用户显示总结信息;其中在呈现层、探索层和注释层中的一个或更多个中向一个或更多个用户显示总结信息。非结构化数据包括以下中的一个或更多个:客户体验数据、电信数据、电子邮件数据、以及社交媒体数据。所述非结构化数据分析算法还可操作用于:从一个或更多个远程源接收外部数据。外部数据包括以下中的一个或更多个:互联网数据、政府数据、以及商业数据。向非结构化数据应用的一个或更多个分析工具包括以下中的一个或更多个:统计算法、机器学习、自然语言处理、以及文本挖掘。呈现层显示以下中的一个或更多个:非结构化数据、非结构化数据的总结和总结信息中的一个或更多个。所述探索层允许一个或更多个用户修改总结信息的粒度,由此修改呈现层的粒度。一个或更多个用户可以经由注释层同时与非结构化数据分析系统交互。还在组合层中向一个或更多个用户显示总结信息。
附图说明
本文参照各附图示出并描述了本发明,附图中类似的参考符号用于视情况标识类似的方法步骤/系统组件,并且附图中:
图1是示出本发明的可视化文本语料分析工具的一个示例实施例的示意示图;
图2是示出本发明的可视化文本语料分析工具的话题云视图的示例显示;
图3是示出本发明的可视化文本语料分析工具的文档分布视图的示例显示;
图4是根据本发明的方法和系统示出在一个话题、两个话题和多于两个话题上的文档分布的一系列图表;
图5是示出本发明的可视化文本语料分析工具的话题云视图的示例显示;
图6是示出本发明的可视化文本语料分析工具的时间视图的示例显示;以及
图7是示出根据本发明的非结构化数据分析系统的一个示例实施例的示意示图;
图8是示出本发明的非结构化数据分析系统的另一示例实施例的示意示图;
图9是示出本发明的非结构化的数据分析系统的附加示例实施例的示意示图;
图10是示出本发明的非结构化数据分析系统的另一示例实施例的示意示图;
图11是示出本发明的非结构化数据分析系统的呈现层的一个示例实施例的示意示图;
图12是示出本发明的非结构化数据分析系统的探索层的一个示例实施例的示意示图;以及
图13是示出本发明的非结构化数据分析系统的注释层的一个示例实施例的示意示图。
具体实施方式
双线工作,即文本分析模型和文本可视化技术是本发明的初步设计的主要灵感。然后提炼这些概念并且基于其进行扩展,下面将进行更详细的描述。
文本处理中的第一重大进展是矢量空间模型(VSM)。在该模型中,文本被表示为高维度空间中的矢量,其中每个维度与文档内的一个独特术语相关联。VSM的一个公知示例是TF-IDF,其评估词语对于语料中的文档的重要程度。尽管VSM已经凭实践经验示出了它的有效性,但是它在捕获文档之间和文档内的统计结构方面存在众多固有缺点。
为克服VSM的缺点,研究者已经引入了LSA,LSA是将术语文档矩阵降低到捕获了语料中的大多数变量的低得多的维度子空间的因素分析。尽管LSA克服了VSM的一些缺点,但是它也具有它的局限性。新的特征空间难于解释,原因在于每个维度是来自原始空间的一组词语的线性组合。
意识到LSA的限制后,研究者已经对文档建模提出了生成概率模型。例如,研究者已经引入了代表具有概率话题的词语和文档的内容的生成模型,而不是纯空间表示。这种表示的一种独特优势在于每个话题是可独立解释的,提供了基于用于挑选相关联术语的相干簇的词语的概率分布。LDA模型假设了由一组话题组成的隐含结构;通过下述方式产生每个文档:选择基于话题的分布,然后根据通过使用该分布选择的话题随机产生每个词语。例如,如通过分析科学摘要和报纸档案所示,所提取出的话题捕获其他非结构化数据中的有含义的结构。在认知层面上,LDA模型在各种语言处理和存储任务上的预测词语关联以及语义关联和模糊的效果方面表现良好。
由于LDA模型的各种优点,本发明的方法和系统首先使用该模型来提取给定文本语料的一组语义上有含义的话题。本发明的方法和系统然后用直观方式呈现概率结果,以使得当分析大文本语料时,用户可容易地消费复杂模型。
除了自动文本处理技术中的优点之外,人工智能在分析文本语料时仍发挥关键作用。因此,已经开发了基于文本处理方法的大量可视化系统和技术,以保持用户在进程中。
例如,使用VSM,已经引入了工具以使电子邮件内容可视化,目的在于根据会话历史来描绘关系。基于TF-IDF算法产生可视化内的关键词。
其他工具使用户能够基于隐含语义分析结果通过社交网络隐喻可视化地探索文本语料。其他可视化系统已经使用了多维投影方法(例如主要成分分析(PCA)和/或多维尺度(MDS))以使文本语料可视化。这些投影技术与LSA精神上类似,由于它们将文本表示为将术语频率作为它们特征的矢量,然后识别较低维度投影空间。可视化系统因此基于这些包括IN-SPIRE在内的投影技术。最近,为了使大的分类文档集合可视化,其他人已经提出了用于基于拓扑的投影和可视化工具的二级框架。然而,与将文档指派给特定簇的大多数传统聚类技术不同,本发明的方法和系统考虑每个单独文档的不同话题方面。
自话题模型的初次亮相起,可视化系统已经由于这种模型相对于先前文本处理技术的优势而使用这些模型。基于范例的可视化和概率隐含语义可视化工具已经将文档投射到静态2D图表上,同时估计文本语料的话题。尽管可视化聚类结果比从多维投影方法获得的结果更好,但是其存在若干限制。首先,随着提取话题的数量增长,2D投影中的文档簇不再是可基于话题分离的。此外,在这些可视化工具中几乎不存在用于文档簇的交互挖掘和分析的空间。最近,已经引入了TIARA,即一种基于时间的交互式可视化系统,其以时间敏感的方式呈现从给定文本语料中提取出的话题。TIARA提供了关于话题随时间演进的对话题的良好概述。然而,文档和话题之间的关系不太清楚。
因此,本发明的方法和系统除了描述随时间发展的话题演进之外,还呈现了文档跨提取出的话题的概率分布。因此,本发明的方法和系统提供了基于它们的话题分布的文档特征的概述,并使用户能够识别出一次涉及多个话题的文档。
本发明的方法和系统支持在多个层面上的对文档集合的探索。在概述层面上,系统辅助用户回答以下问题:文档集合的主要话题是什么?以及该集合中文档的特征是什么?在分面(facet)层面上,系统支持例如以下活动:识别特定话题的时间趋势,以及识别与多个关注话题相关的文档。在细节层面上,系统允许根据需要访问每个单独文档的详细内容。基于最新的话题模型,系统采用多个协调视图,每个视图解决上述问题之一。
现在具体参照图1,在一个示例实施例中,本发明的可视化文本语料分析工具10的整体结构包括:离线文本预处理12和话题建模模块14。文本预处理模块12可操作用于将相关文档16的文本置于合适条件下以供后续处理、探索和分析。这种文本预处理可以包括但不限于对来自社交媒体(例如,Twitter张贴和Facebook简档)、书籍(例如,来自Gutenberg在线图书项目的文献)和其他文档(例如,电子邮件、Word文档等)的文本的预处理。
如上所述,话题模型相对于传统文本处理技术具有若干优点。因此,本发明的可视化文本语料分析工具10利用话题建模模块14中的概率话题模型来总结相关文档16。更具体地,LDA被用于首先提取一组语义上有意义的话题。LDA产生一组隐含话题,每个话题被表示为基于关键词的多项分布,并假设每个文档可以被描述为这些话题的概率混合。P(z)是特定文档中基于话题z的分布。假设文本集合16包括D个文档和T个话题。确定话题是使用可视化文本语料分析工具10的迭代过程。该工具10使用户能够交互地指定多个话题被视为在它们的分析域中是必要的。允许用户基于来自他们的可视化交互和调查的发现来修改话题建模模块14,使得它们能够修改话题的数量和/或定义过程的迭代数量。可视化文本语料分析工具10还使用户能够向话题建模模块14添加、移除及合并话题。
因此,文档集合16首先被预处理以移除禁用词等。然后,斯坦福话题建模工具箱(STMT)等被用于从文档集合16中提取话题集合。提取的话题和概率文档分布充当另外的可视化的输入。
本发明的工具10的可视化设计包括四个协调概述,其可被单独地或组合地在合适的图形用户界面(GUI)上显示并操作:(1)显示文档跨话题的概率分布的文档分布视图18;(2)呈现提取的话题的内容的话题云20;(3)突出话题的时间演进的时间视图22;以及(4)促进单话题相对于多话题文档的交互选择的文档散点图视图24。四个概述中的每一个服务于不同的目的,并且它们通过一组丰富的用户交互来协调。此外,在选择任意文档时,详细视图根据需要呈现那个文档的文本内容。
为了帮助用户快速抓住文档集合的要点,在话题云视图20中将主要话题呈现为标签云。在话题云视图20中,每行显示一个话题,其例如包括与那个话题相关的多个关键词。由于每个话题被建模为基于关键词的多项分布,每个关键词的权重指示了它对于话题的重要性。为了在标签云中封装这种信息,从左向右对齐关键词,其中在开始处放置最重要的关键词。此外,由于一个关键词可以在多个话题中出现,每个关键词的显示尺寸或权重反映了它在所有话题内的出现情况。然而,本领域技术人员将显然可以使用其他配置。图2中提供话题云视图20的示例。为了辅助用户理解文档集合16中的主要话题,在序列中呈现话题,使得语义上相似的话题紧靠在一起,使得当依次浏览话题时存在连续性。由于LDA模型不对话题之间的关系建模,通过定义相似性度量来对话题重新排序。可视化文本语料分析工具10利用林格(Hellinger)距离函数来表征表示话题的接近程度的相似性度量。可视化文本语料分析工具10使相似度度量可视化,以向用户提供对话题分布的语义层的理解,并通过对话题空间聚类来帮助减小它们的认知超载。
话题云视图20还为用户提供一组交互以帮助用户快速理解话题。例如,在特定关键词上悬停将使得对标签云中那个关键词的所有其他出现进行突出显示。用户还可以搜索关注的特定关键词。此外,话题云视图20与所有其他视图紧密协作以根据需要迅速提供关于特定话题的信息。
部分通过在线关键词加权模块26产生话题云视图20,在线关键词加权模块26可操作用于聚合话题建模模块的结果。它基于词语在给定话题中的概率来对该给定话题中的词语进行分类,更可能的词语将被放在分类队列的顶部。用话题建模模块14计算出的值标记该概率值。例如,通过该词在整个文本语料中的出现频率来确定该词语在话题云视图中的尺寸,并基于最大词频率进行归一化。例如,频率越高,词语越大。例如,工具10默认表示每个话题的最有可能的50个词。用户可通过交互修改词语的数量。
为了将文档的概述提供为话题的混合,本发明的工具10突出每个文档跨所有提取出的话题的分布。所选表示将文档概率分布转化为表示每个文档的类信号状样式。更具体地,采用并行坐标隐喻,其中每个轴表示一个话题并且每条线表示集合16中的一个文档。在图3中说明了该点。在该所选配置中,所有变量(即话题)均匀间隔并且每个变量共享从0到1的相同值范围。因此,当查看文档分布视图18时,不必要基于文档在每个单独轴上的值来理解文档,而是可以基于整体地在所有轴上的样式来理解文档。然而,本领域技术人员将明显可以使用其他配置。
LDA的一种限制在于它不直接对话题出现之间的互相关性建模,但在大多数文本语料中,很自然地会预期到话题出现之间的互相关性。本发明的工具10通过使话题之间的互相关更突出来使用可视化克服该限制。巧合的是,并行坐标可视化的一个特征在于更容易发现相邻轴之间的关联。因此,可以用使得语义类似的话题彼此相邻的方式对话题排序,使得类似话题之间的关联变得可视化地突出。该话题相似性是根据在全部文档16中两个话题间的欧氏距离来定义的:
Figure BDA0002774685940000121
其中dk是整个集合16中的D个文档之一,并且P(dk)是第k个文档在全部话题上的概率分布。因此,P(dk|z=i)表示在生成文档k时话题i的概率。当将话题绘制为所选界面中的轴时,以概率最集中的话题开始并然后基于话题间的距离查找与当前话题最类似的话题。图3说明在话题重新排序之后跨话题的文档可视化。任意两个最类似的话题之间的关系(即在相邻轴上)变得可视化地可识别。
部分通过在线话题排序模块28产生文档分布视图18,该在线话题排序模块28可操作用于执行上述功能以及单独文档的信号表示。这种信号是对文档的不同性质的说明。视图18示出在单个话题上具有显著分布的文档非常关注特定主题,然而具有在2或3个话题上的分布的文档指示可变动的焦点。
当探索文档在话题上的分布时,可以容易地基于它们具有的话题数发现给定文档呈现不同特征。图4示出了关注仅一个话题的文档30、两个话题的文档32和多于两个话题的文档34。文档内的不同的话题数量可以解释为给定文档集合16的上下文下的不同特征。例如,在科学出版物的集合中,具有一个话题的文档表示与特定的科学研究领域相关的出版物。具有两个或更多个话题的文档更可能表示跨学科的研究文章,其通常整合两个或更多个专业知识体。
此外,文档分布视图18提供了丰富的交互集合,例如刷、高亮等。刷话题上一定比例的范围允许用户选择针对那个特定话题具有特定概率的文档。通过综合来自话题云视图20和文档分布视图18二者的与主话题相关的信息和文档特征,用户能够有效地开发对文档集合16的概述。
文档分布视图18使用户能够通过刷话题上的上部范围来识别关注特定话题的文档。然而,在大语料中识别与两个或更多个话题相关的文档不那么容易,原因在于它们被高概率值的单个话题文档所掩盖。为了缓解该问题,用可以容易分开单话题文档和多话题文档的方式来分离全部文档。这是文档散点图视图24。
如文档分布视图18中可以看出,每个文档被转换为类信号样概率分布样式。在该表示中,具有多话题的文档表现得比那些明确关注一个话题的文档噪声更大。在信息论中,香农熵是与随机变量相关联的不确定度的量的度量。假设话题是针对我们上下文中每个文档的随机变量,香农熵可以用于将干净信号与噪声信号区分开。因此,本发明的工具10应用香农熵来基于文档具有的话题数来区分文档。每个文档的基于它跨话题的概率分布的熵被计算为:
Figure BDA0002774685940000141
其中P(dk)是第k个文档在全部话题上的概率分布。然后可以在文档散点图视图24中基于每个文档的熵和它在话题上的最大概率值(归一化为[0,1])来绘制每个文档(参见图5)。在该呈现中,例如,单话题(具有较高最大值和较低熵)文档处于散点图的左上角,而右下角捕获具有较高话题数量(具有较低最大值和较高熵)的文档。在选择时,示出饼图来描述特定文档的话题分布。在图5中,每个饼图表示所选文档,其中每个颜色表示一个话题。如所示,具有较小熵值的文档表现为实线圆的饼图;而具有较大熵值的文档表现为具有多颜色,指示熵值与输入文档中的话题数相对应。
总之,文档散点图视图24使用户能够通过对不同区域内文档的选择来交互式地识别具有所需数量话题的文档的子组。部分通过文档熵计算模块36产生文档散点图视图24,该文档熵计算模块36可操作用于执行上述功能以及对任意给定文本语料中的文档的分组。文档散点图视图24有意地基于文档的熵对文档分组,并可视化地说明在那个给定语料上的关注,暗示那个语料是关注单个主题还是可变动的主题。
由于大多数文档集合16随时间累积,呈现这种时间信息有助于辅助用户理解语料的话题如何演进。现在具体参照图6,时间视图22被创建为交互式河流图(ThemeRiver),其中每个带表示一个话题。在文本语料中,每个文档与时间戳相关联,因此可以通过对每个时间帧内文档在该话题上的分布加和来确定每个带随时间的高度。时间帧的单位取决于语料,例如,一年可能是对于科学出版物的合适时间单位,而一个月或甚至一天对于新闻语料将更合适。在已经选择时间单位之后,文档基于时间戳被划分到相应时间帧。然而,针对每个时间帧,通过在该时间帧内对来自文档的话题的分布加和来计算每个话题的高度。
例如,在话题云视图20和文档分布视图18二者中,话题的顺序(从上到下)相同。通过在所有相邻话题之间使用归一化距离,通过内插颜色或样式频谱,来为话题指派颜色或样式。结果,越类似的一对话题被指派越相似的颜色或样式。
总之,时间视图22提供文档集合16的话题如何随时间演进的可视化总结。除该表示以外,时间视图22内还支持各种交互。对时间帧(一个垂直时间单位)的选择导致对所选时间帧内发布的所有文档的过滤。类似地,例如,在时间视图22中的话题带和时间帧的交叉点上点击导致对在该时间帧期间发布的在所选话题上具有大于30%概率的文档的选择。因此,可以识别在特定时间段中什么文档对话题的产生做出了共享。时间视图22通过揭示文档集合16中隐藏的时间信息并允许用户基于时间和话题执行过滤来增加了丰富性。
部分通过时间话题趋势计算模块38产生时间视图22,该时间话题趋势计算模块38可操作用于执行上述功能以及对详细文档的检查。时间视图22使用户能够直接选择例如在特定时间范围内的文档并取得相应的数据。时间视图22通过揭示与这种描绘相关联的文档细节在向用户示出识别出的可视化样式和趋势的基础中起关键作用。
在选择任意文档时,本发明的工具10提供关注的文档的实际文本内容的细节。由于任何话题模型都远非完美,详细视图的功能是双重的:首先,它为用户提供上下文以开展对话题和话题关联的关键词的深度理解;其次,它帮助用户验证可视化中示出的样式。
由于理解大文本语料16会涉及对全部四个视图的利用,需要仔细琢磨所有视图之间的协调。在话题层面上,在涉及话题表示的任意视图中的话题上悬停将在其他视图中突出显示相同话题。例如,如果用户在文档分布视图18中的一个轴上悬停,则在话题云视图20和时间视图22二者中突出显示相同话题。因此,用户能够快速综合关于特定话题的关键词、文档分布和时间趋势的信息。此外,还通过颜色或样式协调视图,其中每个话题在全部视图中具有相同颜色或样式。
在文档层面上,在包括各个文档的视图中选择任意文档集合将在其他视图中突出显示同一文档集合。例如,在文档散点图视图20中的刷操作立即反映在文档分布视图18中,并且反之亦然。当用户在文档散点图视图24中选择具有两个突出话题(即中间范围)的几个文档时,查看这些文档的分布帮助用户理解文档的话题组合。
关于时间方面,支持对特定时间段内书写/发布的文档的过滤。例如,在时间视图22中在一时间帧(即一个垂直时间单位)上的点击导致对所选时间跨度内发布的所有文档的过滤。类似地,在时间视图22中的话题带和时间帧的交叉点上的点击导致对在该时间段期间发布的下述文档的选择:那些文档具有的话题对那些文档占主要贡献(例如,大于30%的概率)。在文档分布视图18和文档散点图视图24二者中示出这种选择。该功能允许用户基于关注的时间和话题对文档过滤,并且然后检查在所选时间帧内发布的文档。
本发明的工具10允许用户从多个视点探索并查询大文档语料16。从话题云视图20开始,用户可以查看语料16的总结并识别关注的话题甚或关键词。根据文档分布视图18,用户可以定位关注的话题并通过在垂直轴上进行刷操作来选择关注该话题的文档。用户然后可以通过查看文档分布视图18和文档散点图视图24中的分布,可视化地识别所选的文档集合与哪些其他话题相关。此外,用户总是可以基于选择检查文档的细节。例如,如果用户想要识别语料16中的跨学科/多学科出版物,他/她被配备为在文档散点图视图24中通过选择中间至右下角的文档来实现这一点。此外,如果用户对于通过时间因子查询语料16感兴趣,则他/她可以通过在一个时间帧上进行点击或者在特定时间帧和话题的交叉点上进行点击来在时间视图22中执行选择。总之,本发明的工具10采用多个协调视图来支持文本语料16的交互探索。视图中的每一个被设计为解决四个重要问题中的一个。
为了评估本发明的工具10在回答四个目标问题方面的效率,工具10被应用于探索并分析两个文本语料,这两个文本语料包括从2006年2010年的国家自然基金(NSF)授予的科学提案和IEEE VAST论文集中的出版物。
案例研究1。分析科学提案。在该案例研究中,我们首先描述我们采集的数据。然后我们表征目标域并展现基于我们与NSF的项目管理者的对话总结的一组任务。最后,我们展现工具可以如何辅助专家用户解决这些任务。
数据收集和准备。为了检验该工具是否可以辅助项目管理者做出资金决定并管理授予投资结构,我们首先收集作为计算机与信息科学与工程(CISE)董事会一部分的信息与智能系统(IIS)部门从2000年至2010年授予的提案。该集合由接近4000个授予组成,其中具有关于授予号、董事会、部门、项目、项目管理者、主要研究员和授予日期的结构化数据;以及具有非结构化文本的形式的提案摘要。我们处理所有收集的摘要,其中每个摘要构成语料中的单个文档。我们移除标准禁用字的列表。这给了我们334,447个词语的词汇量。我们然后使用LDA模型从语料中提取出30个话题。
域刻画。NSF的使命的核心部分是:通过对传统学术领域中的研究提供资金(包括识别更广泛的影响),以及向可变动和跨学科的研究提供资金,保持美国处于发现前沿,。为实现前者,NSF的项目管理者需要识别合适的评审者和小组成员以确保最佳可能的同行评审。为了有效地执行后者,项目管理者需要识别新兴的领域和研究话题,以便为跨学科和可变动的研究提供资金。除了做出投资决定之外,项目管理者还需要管理他们的授予投资结构。尽管项目管理者在过去已经做得很好,但是他们需要新方法来帮助他们,原因在于科学的自然快速变化的特性和递交的提案数量的显著增长。将高级任务映射到可执行项,我们设计了与决策和授予投资结构相关的三个任务。任务1关注基于新提案的话题将新提案提交分组。该任务需要理解文本语料的主要话题,并基于它们相对于话题的特征来过滤子文档集合。任务2是识别针对提案提交的合适评审者,其还涉及知晓提交是否与多个话题相关以收集正确的专家。最后,任务3关注涉及发现随时间发展的话题趋势的授予资金结构的时间方面。
专家评估。由于NSF的项目管理者特别繁忙,我们邀请了前NSF项目管理者进行我们的专家评估。参与者具有作为NSF的项目管理者的两年工作经验。在该评估的开始,我们花30分钟证明每个可视化的系统设计和功能。然后,我们要求参与者使用工具执行以下三个任务。
任务1。基于话题对200个新近递交的提案进行分组。从话题云视图开始,参与者快速浏览提取的话题以获得对新近递交提案的概览。由于参与者负责机器人学和计算机视觉领域的提案,她将她的注意力快速关注到这两个话题上。在选择关注关于机器人学的话题的提案时,参与者在详细视图中快速扫视标题以验证它们的相关性。尽管参与者确保每个选择的提案是相关的,她还注意到提案在文档散点图视图中的位置是分散的。由于在右下位置的提案更可能包括两个或更多个话题,参与者有兴趣知道这些提案还涉及哪些其他话题。通过在文档散点图视图中对那些看起来是更交叉学科的提案进行进一步过滤,参与者发现他们涉及例如神经科学和社会通信之类的其他领域。当在文档分布视图中选择相关文档时,调用详细视图使得项目管理者可以查看先前授予的PIs。
任务2。识别合适的评审者。为了识别评审者,参与者首先想将提案粗略地分组。基于初始探索,参与者总结大致存在两组提案:一组关注机器人学领域的核心,而另一组使用来自例如神经科学和社会通信之类的其他领域的知识体。为了识别两组提案的评审者,参与者想要从先前授予的提案中找到PIs。通过检查历史数据,项目管理者在文档分布视图中定位关于机器人学的话题。她然后在轴的顶部范围进行刷操作以选择与该话题有关的提案。最后,参与者转向详细视图以查看机器人学领域中先前授予的PI。针对组2中的跨学科提案,参与者经历类似的过程来识别来自其他相关领域(例如神经科学)的其他专家,以服务于评审图,确保最佳可能的同行评审。
任务3。分析授予投资结构的时间趋势。在投资结构层面上,前项目管理者有兴趣查看她负责的领域近年来的时间趋势。通过探索时间视图,参与者发现机器人学领域中授予的提案的趋势稳定,尽管在2006和2009年期间授予的提案的整体数量在增加。与机器人学的稳定趋势不同,在“使用技术帮助残疾人”的话题上授予的提案数量逐年增长。前项目管理者评论说,该视图对于她是有价值的,原因在于该视图使她能够查看用其他方式难以发现的关于不同话题的投资趋势。
总之,参与者认为工具中的每个视图是具有清楚目的良好设计的。她评论说,该工具可以在项目管理者的工作流程中起促进作用。具体地,她喜欢这一事实:我们的工具可以自动建议更交叉学科的提案,原因在于这用传统方式难于判断。她还喜欢视图之间的协作,这帮助她快速综合来自同一语料不同方面的信息。
案例研究2。分析VAST会议论文集。随着可视化分析领域的成熟,回顾该领域如何演进是有益的。解决该问题的一种方式是分析已被可视化分析中最重要的会场接受的出版物。在该案例研究中,我们招聘四个研究者来探索自从2006年该领域开始起在VAST会议/座谈会中发布的论文。由于所有用户都熟悉可视化分析领域,我们希望鼓励自由探索,这与下面的良好结构的任务相反。在评估之后,我们将参与者的发现归为两组:发现话题的时间演进与资金来源之间的因果关系,以及学习可视化分析领域中的令人感兴趣的子领域。
数据收集和准备。我们首先收集从2006年至2010年在VAST会议/座谈会中发布的全部论文。收集总共123个出版物。我们然后将每个出版物解析为包括标题、作者、发表年限、摘要、主体和参考文献的字段。我们对每篇文章的整个主体执行话题建模(从引言到结论),其中每篇文章构成语料中的一个文档。移除标准禁用字,给我们留下了317,315个词的词汇量。基于我们针对每个VAST会议的不同轨道的记录,我们从语料中提取了19个话题。
用户评估。在我们招聘的四个研究者中,两个是可视化分析领域中的高级研究员,而另两个是将可视化分析作为他们主要研究兴趣的博士生。在该评估中,我们为全部参与者提供高级任务并鼓励更自由的挖掘。在介绍该工具之后,我们要求每个参与者识别领域内的核心话题以及该领域在过去的5年间是如何演进的。我们将使用样式粗略地归为两组:识别上升的/衰落的话题,并使用该系统作为教育工具。
识别上升的/衰落的话题。在话题云视图中扫视过全部话题之后,一个高级研究员评论说:话题良好符合来自VAST会议的论文追踪。当查看每个话题的时间趋势时,参与者注意到几个清楚的上升和衰落的样式。例如,关于视频新闻分析的话题起初吸引了很多关注,但是关注迅速逐年减少。他还注意到在关于网络业务监测和分析的话题上的类似趋势。将该样式与他的知识相关联,参与者解释了所述趋势,因为当所述领域开始时,由作为那时的主要资金来源的国土安全部(DHS)引导了所述关注领域。接下来,参与者转向上升的样式,其指示了近年来产生的那些话题中的关注。具体地,自从2008年以来,话题趋势和不确定性分析以及话题维度分析和降低二者吸引了更多的关注。同样将所述样式与他自身的知识相关联,参与者评论说这很可能是由NSF和DHS联合引入的数据和可视化分析的基金会(FODAVA)项目的结果。
了解可视化分析的领域。另一高级研究员(其那时教授可视化分析课程)评论说:他可以看出该工具对于他的课程有用。学生可以探索全部VAST出版物,并识别与关注话题有关的论文以用于课程演示。类似地,另一参与者想查看在可视化分析领域中已经在文本分析方面做了什么。他首先定位话题,然后选择在文档分布视图中该话题上排名高的出版物。他在详细视图中快速扫视论文标题,并验证全部所选论文均满足他的兴趣。他还注意到该选择中的一些论文似乎与例如实体提取和数据库查询之类的其他话题相关。在该学习之后,他要求对详细视图的屏幕捕获,使得他能够查找他在该学习研究期间识别出的论文。
总之,参与者认为该工具有助于帮助他们探索可视化分析领域的演进,并且基于他们自身兴趣识别出版物以供进一步调查。
本领域技术人员将理解本发明的各种模块和过程是使用计算机等处理设备实现的。这种计算机等处理设备可以包括一个或更多个通用或专用处理器,例如微处理器、数字信号处理器、定制处理器和现场可编程门阵列(FPGA)、以及唯一存储的程序指令(包括软件和固件二者),其控制一个或更多个处理器,结合特定非处理器电路,实现本发明的方法和系统的功能中的一些、大多数或全部功能。备选地,一些或全部功能可以由不具有存储的程序指令的状态机或在一个或更多个专用集成电路(ASIC)中实现,在ASIC中每个功能或功能的一些组合被实现为定制逻辑。当然,可以使用上述方法的组合。此外,可以经由具有在其上存储的用于对计算机、服务器、电器、设备等编程的计算机可读代码的非瞬时性计算机可读存储介质来实现一些示例实施例,计算机、服务器、电器、设备等中的每一个可以包括处理器以执行本文描述和要求的功能。这种计算机可读存储介质的示例包括但不限于:硬盘、光储存设备、磁存储设备、只读存储器(ROM)、可编程只读存储器(PROM)、可擦写可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存等。当在非瞬时性计算机可读介质中存储时,软件可以包括可以由处理器执行的指令,处理器响应于这种执行,使处理器和/或任意其他电路执行一组操作、步骤、方法、过程、算法等。
再次,本发明使包括分析师、营销人员、商业单元领导、信息技术人员和C型雇员在内的公司能够从任何类型的文本数据获得可操作的见解。该技术允许人们根据数据驱动的基础增强他们的决策过程。该技术摄取文本数据,并通过深度计算和统计算法,识别每个数据集内的主题、话题和新出现的问题。用交互的可视化的格式显示结果,使得公司中的任何人可以整体地或精细地分析数据。可以分析所有类型的文本数据-内部数据(例如电子邮件、聊天、调查、呼叫中心和关注小组),或外部数据(例如社会媒体、评论网站、论坛和新闻网站)。该技术可以处理大量语言,确保可以分析来自全世界的反馈环。然而,令人调整分析效果的高度可定制的特征被选择。大多数公司正坐在非结构化文本数据的宝藏上,但是几乎没有能力挖掘非结构化文本数据取得情报。
通常,本发明的软件在复杂的可视化平台中传递基于深度学习的数据分析,其在商业决策领域的广阔范围中揭露、分析并推测可执行的策略。它以发现影响销售、客户服务、操作和风险分析利益相关者的数据内的联系的有利方式将呼叫中心音频、电子邮件、新闻、社交媒体、聊天、交易数据、客户反馈和分析联系起来。结构化数据也被利用,包括零售交易、调查数据、个人简档等,以及国家和国际工业、政府和产品特定的数据源。软件是可由任何浏览器装置访问的,整合了预测建模、人工智能、以及统计NLP,以分析任意类型的非结构化数据。可视化是整体地和/或精细地提供。图7中示意性地示出了整个系统40。系统40使用高吞吐量的多语种API,用于使用复杂术语提取、实体指示符提取、地理空间指示符提取、时间指示符提取和意见情绪分析进行信息标记。系统40还使用数据驱动的语义机器学习和聚类,使用自动术语关联、统计话题总结、影响者干扰、上下文感知的内容排序、内容网络关联和产品中心分析。
现在具体参照图8和9,在一个示例实施例中,本发明提供了帮助公司找到从数据到收入的最短路径的增强的情报平台45。它把片段的数据孤岛集中到一起,创建了顶层的统一的可视化分析层,并使来自多个商业功能的用户能够有效地并协作地提取有价值的见解。平台45安全地位于组织数据湖的顶端并与数据基础结构的多个等级兼容。它通过深度计算和统计算法自动摄取非结构化数据(例如,电子邮件,通话记录)以及结构化数据(例如,销售、预算、金融)。它实时处理数以千万计的反馈点和数据点,并识别组织内的主题、话题、和正出现的问题。它帮助动态地将客户体验趋势与全部公司数据相关联。平台45是完全交互式的并易于使用。组织中的任何人,来自前线的雇员、分析家、销售者到商业单元领导者和C型雇员,可以与数据整体地或精细地交互,定制他们自身的仪表板并与他人共享发现。除了数据分析后台引擎之外,平台45还以完全增强的用户的UI体验得到支持。本发明为用户提供具有可定制的可视化的像素完美的仪表板。这使得呈现用户的分析工作容易得多并更可控。探索层中的丰富交互允许用户快速开始分析细节并保持上下文信息在它周围。本发明确保,并且灵活的数据分析环境保证用户在潜入细节的同时从不失去一般层面的与数据的联系。这超越了仅几个可视化;将用户体验扩展为各种有用的数据分析和可视化。在分析成果上进行注释和协作前所未有地容易。本发明完全更换了人们可以找到、分享并在分析任务上协作的方式。用户能够注释并与同事分享他们的发现,支持在每个数据分析组内部和外部的协作。总之,本发明通过提供数据分析的拟真环境来增强决策。
图10是示出本发明的非结构化数据分析系统50的另一示例实施例的示意示图。通常,例如与商业企业紧密相关的客户体验数据52、电信数据54、电子邮件数据56、社交媒体数据58和其他数据60,在数据存储库62中聚合,并且例如互联网数据、政府数据之类的外部数据源64被拉入非结构化数据分析算法66,该非结构化数据分析算法66例如驻留在网络服务器上,并可以经由浏览器访问。如本文以上具体描述的,非结构化数据分析算法66向数据应用预测建模、人工智能和统计NLP,以揭露、分析、推测并可视化可执行的信息。有利地,可以由各种商业单元68、利益相关者或其他用户查看可执行信息,其全部可以添加或用其他方式修改可视化并经由公共交互用户界面70分享结果。
图11是示出本发明的非结构化数据分析系统50(图8)的呈现层80的一个示例实施例的示意示图;通常,呈现层80允许显示关于非结构化数据和/或结果的各种总结信息。例如,呈现层80被示为显示客户体验数据82、电信数据84和销售数据86。
图12是示出本发明的非结构化的数据分析系统50(图8)的探索层90的一个示例实施例的示意示图。通常,探索层90允许显示关于非结构化数据和/或结果的各种总结信息。探索层90还允许选择时间粒度并用更进一步的细节显示。这种“向下潜入”还相应更新包括呈现层80在内的其他可视化。例如,快照94被示为从客户体验数据92中选择。
图13是示出本发明的非结构化数据分析系统50(图8)的注释层100的一个示例实施例的示意示图。注释层100被配置为显示各种结果,以及客户体验数据102、电信数据104、电子邮件106、社交媒体数据108、其他数据110等,并接收用户注释112,所述用户注释112可以经由共享用户界面114被全部用户或所选用户访问。
尽管本文已经参照优选实施例及其特定示例说明并描述了本发明,但是本领域技术人员将易于理解其他实施例和示例也可以执行类似功能和/或实现类似结果。由此理解,所有这种等价实施例和示例均在本发明的精神和范围内,并旨在由所附权利要求涵盖。

Claims (10)

1.一种非结构化数据分析系统,包括:
驻留在服务器上并能够经由浏览器访问的非结构化数据分析算法,所述非结构化数据分析算法能够操作用于:从一个或更多个远程源接收非结构化数据,向非结构化数据应用一个或更多个分析工具,以及向一个或更多个用户显示总结信息;
其中在呈现层、探索层和注释层中的一个或更多个中向一个或更多个用户显示所述总结信息。
2.根据权利要求1所述的系统,其中所述非结构化数据包括下述中的一个或更多个:客户体验数据、电信数据、电子邮件数据、社交媒体数据、以及交易数据。
3.根据权利要求1所述的系统,其中所述非结构化数据分析算法还能够操作用于:从一个或更多个远程源接收外部数据。
4.根据权利要求3所述的系统,其中所述外部数据包括下述中的一个或更多个:互联网数据、政府数据、以及商业数据。
5.根据权利要求1所述的系统,其中向非结构化数据应用的一个或更多个分析工具包括下述中的一个或更多个:统计算法、机器学习、自然语言处理、以及文本挖掘。
6.根据权利要求1所述的系统,其中所述呈现层显示下述中的一个或更多个:非结构化数据、非结构化数据的总结、以及所述总结信息。
7.根据权利要求1所述的系统,其中所述探索层允许一个或更多个用户修改所述总结信息的粒度,由此修改呈现层的粒度。
8.根据权利要求1所述的系统,其中一个或更多个用户能够经由注释层同时与所述非结构化数据分析系统进行交互。
9.根据权利要求1所述的系统,其中还在组合层中向一个或更多个用户显示所述总结信息。
10.一种非结构化数据分析方法,包括:
提供驻留在服务器上并能够经由浏览器访问的非结构化数据分析算法,所述非结构化数据分析算法能够操作用于:从一个或更多个远程源接收非结构化数据,向非结构化数据应用一个或更多个分析工具,以及向一个或更多个用户显示总结信息;
其中在呈现层、探索层和注释层中的一个或更多个中向一个或更多个用户显示所述总结信息。
CN202011265115.5A 2015-05-11 2016-06-28 非结构化数据分析系统和方法 Pending CN112732878A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201562159662P 2015-05-11 2015-05-11
US15/151,572 US10452698B2 (en) 2015-05-11 2016-05-11 Unstructured data analytics systems and methods
US15/151,572 2016-05-11
CN201610496280.9A CN107368506B (zh) 2015-05-11 2016-06-28 非结构化数据分析系统和方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201610496280.9A Division CN107368506B (zh) 2015-05-11 2016-06-28 非结构化数据分析系统和方法

Publications (1)

Publication Number Publication Date
CN112732878A true CN112732878A (zh) 2021-04-30

Family

ID=60312579

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202011265115.5A Pending CN112732878A (zh) 2015-05-11 2016-06-28 非结构化数据分析系统和方法
CN201610496280.9A Active CN107368506B (zh) 2015-05-11 2016-06-28 非结构化数据分析系统和方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201610496280.9A Active CN107368506B (zh) 2015-05-11 2016-06-28 非结构化数据分析系统和方法

Country Status (1)

Country Link
CN (2) CN112732878A (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170657A (zh) * 2018-01-04 2018-06-15 陆丽娜 一种自然语言长文本生成方法
CN109299286A (zh) * 2018-09-28 2019-02-01 北京赛博贝斯数据科技有限责任公司 非结构化数据的知识挖掘方法及系统
CN110413782B (zh) * 2019-07-23 2022-08-26 杭州城市大数据运营有限公司 一种表自动主题分类方法、装置、计算机设备及存储介质
CN112883186B (zh) * 2019-11-29 2024-04-12 智慧芽信息科技(苏州)有限公司 一种信息地图的生成方法、系统、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100595762C (zh) * 2008-07-03 2010-03-24 上海交通大学 文本集合可视化系统
US9684683B2 (en) * 2010-02-09 2017-06-20 Siemens Aktiengesellschaft Semantic search tool for document tagging, indexing and search
CN102929894A (zh) * 2011-08-12 2013-02-13 中国人民解放军总参谋部第五十七研究所 一种文本在线聚类可视化方法
US9135242B1 (en) * 2011-10-10 2015-09-15 The University Of North Carolina At Charlotte Methods and systems for the analysis of large text corpora
CN102750355B (zh) * 2012-06-11 2014-07-16 清华大学 一种非结构化数据管理系统的可视化管理方法

Also Published As

Publication number Publication date
CN107368506B (zh) 2020-11-06
CN107368506A (zh) 2017-11-21

Similar Documents

Publication Publication Date Title
US11003864B2 (en) Artificial intelligence optimized unstructured data analytics systems and methods
US10452698B2 (en) Unstructured data analytics systems and methods
US9135242B1 (en) Methods and systems for the analysis of large text corpora
Dou et al. Paralleltopics: A probabilistic approach to exploring document collections
Liu et al. Coreflow: Extracting and visualizing branching patterns from event sequences
Liu et al. A survey on information visualization: recent advances and challenges
Zhao et al. Interactive exploration of implicit and explicit relations in faceted datasets
Freire et al. ManyNets: an interface for multiple network analysis and visualization
Xie et al. VAET: A visual analytics approach for e-transactions time-series
Glinka et al. Past Visions and Reconciling Views: Visualizing Time, Texture and Themes in Cultural Collections.
CN107368506B (zh) 非结构化数据分析系统和方法
Sinar Data visualization
Alper et al. Opinionblocks: Visualizing consumer reviews
Chen et al. Supporting effective common ground construction in asynchronous collaborative visual analytics
Salah et al. Combining cultural analytics and networks analysis: Studying a social network site with user-generated content
Roberts et al. Visualising business data: A survey
Verbert et al. Agents vs. users: visual recommendation of research talks with multiple dimension of relevance
Liu et al. SocialBrands: Visual analysis of public perceptions of brands on social media
Basole et al. Visual analytics for converging-business-ecosystem intelligence
Isenberg et al. Toward a deeper understanding of visualization through keyword analysis
Seifert et al. Visual analysis and knowledge discovery for text
Elias Enhancing User Interaction with Business Intelligence Dashboards
Verspoor et al. Commviz: visualization of semantic patterns in large social communication networks
Bista et al. Multifaceted visualisation of annotated social media data
Heer Supporting asynchronous collaboration for interactive visualization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination