CN104598549A - 数据分析方法和系统 - Google Patents

数据分析方法和系统 Download PDF

Info

Publication number
CN104598549A
CN104598549A CN201410854194.1A CN201410854194A CN104598549A CN 104598549 A CN104598549 A CN 104598549A CN 201410854194 A CN201410854194 A CN 201410854194A CN 104598549 A CN104598549 A CN 104598549A
Authority
CN
China
Prior art keywords
content
user
attribute information
analysis
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410854194.1A
Other languages
English (en)
Other versions
CN104598549B (zh
Inventor
钟惠波
王富
杜文滔
王长梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Changyou Tianxia Network Technologies Co Ltd
Original Assignee
Beijing Changyou Tianxia Network Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Changyou Tianxia Network Technologies Co Ltd filed Critical Beijing Changyou Tianxia Network Technologies Co Ltd
Priority to CN201410854194.1A priority Critical patent/CN104598549B/zh
Publication of CN104598549A publication Critical patent/CN104598549A/zh
Application granted granted Critical
Publication of CN104598549B publication Critical patent/CN104598549B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据分析方法和系统,特别是对互联网上的内容进行处理的方法和系统。该方法包括接收用户输入,根据所述用户输入获取互联网上的内容和关于该内容的属性信息,对所述内容进行词频统计和属性信息分析;接收用户关于分析方法的选择,根据用户所选择的分析方法处理所述内容。根据本发明,由用户确定研究变量以及变量间的关系,并根据变量和变量间的关系选择相应分析方法。

Description

数据分析方法和系统
技术领域
本公开的实施例涉及数据分析方法和系统,尤其涉及对互联网上的内容进行处理的方法和系统。
背景技术
社会科学领域课题研究过程中材料的收集、整理和分析是至关重要的一环。如何有效收集和积累与课题研究相关的材料是做好课题研究的前提和保障。没有资料,就无从研究,更谈不上观点和创新。
收集与课题相关联的资料的途径很多,例如问卷调查,课题访谈,课题研讨会等。然而,收集资料通常需要花费大量的时间,通常研究课题一半以上的时间都用在资料的收集上。因此,如何缩短收集资料所需的时间,降低收集资料的成本是人们期望的。
另一方面,随着科技的发展,网络资源越来越丰富。例如,当今快速发展的社交网络为人们提供了在线交流和传播信息,形成新的媒介生态环境,为人们构建了一张巨大的社会网络且不断演化,关键是这些信息都被记录下来,可以让我们能够更好的观察到人类社会的复杂行为模式。
可是,在海量的网络数据中查找有用的信息需要花费大量时间外,还需要大量复杂重复的劳动,例如,需要不断的筛选和重复查找。而且,如何组织和整理查找到的资料也是让人头疼的工作。因此,高效地利用各种网络数据是人们期望的。
发明内容
本发明目的是解决上述问题中的一个或多个。
本发明在一个方面提供一种对互联网上的内容进行处理的方法,包括:
接收用户输入;
根据所述用户输入获取互联网上的内容和关于该内容的属性信息;
对所述内容进行词频统计和属性信息分析;
接收用户关于分析方法的选择;
根据用户所选择的分析方法处理所述内容。
本发明在另一方面提供一种对互联网上的内容进行处理的系统,包括:
一个或多个数据存储服务器;
一个或多个爬虫服务器;以及
一个或多个算法服务器,
所述爬虫服务器根据用户输入获取互联网上的内容和关于该内容的属性信息,
所述数据存储服务器存储所述内容和所述属性信息,
所述算法服务器对所述内容进行词频统计和属性信息分析,并根据用户所选择的分析方法处理所述内容。
本发明在又一方面提供一种对互联网上的内容进行处理的系统,包括:
用于接收用户输入的装置;
用于根据所述用户输入获取互联网上的内容和关于该内容的属性信息的装置;
用于对所述内容进行词频统计和属性信息分析的装置;
用于接收用户关于分析方法的选择的装置;
用于根据用户所选择的分析方法处理所述内容的装置。
本发明在另一方面提供一种计算机可读存储介质,其中存储有用于执行根据本发明的方法的指令。
附图说明
从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明,其中:
图1示出了根据本发明示例实施例的对互联网上的内容进行处理的方法的流程图;
图2示出了根据本发明示例实施例的对互联网上的内容进行处理的系统;
图3示出了根据本发明的示例实施例的计算装置的框图。
具体实施方式
下面将详细描述本发明各个方面的特征和示例性实施例。下面的描述涵盖了许多具体细节,以便提供对本发明的全面理解。但是,对于本领域技术人员来说显而易见的是,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更清楚的理解。本发明绝不限于下面所提出的任何具体配置,而是在不脱离本发明的精神的前提下覆盖了相关元素或部件的任何修改、替换和改进。
社会科学人员在做课题研究时,需查询大量资料和数据,而目前缺少对此类资料信息归类和总结,搜索内容存在大量重复和质量问题,给用户造成重复筛选和不断查找。本发明,基于网络爬虫和数据挖掘技术很好解决了这一难题。网络爬虫和数据挖掘是指互联网上提供检索服务的系统工具。服务器通过网络搜索,将互联网上大量网站的页面信息收集到本地,提供用户所需的信息或相关指引。
同时,社交网络(例如脸书、微博等)产生了海量用户以及实时和完整的数据,同时社交网络也记录了用户群体的情绪,根据本发明可以通过深入挖掘这些数据来了解用户,挖掘用户的行为习惯和喜好。
图1示出了根据本发明的示例实施例对互联网上的内容进行处理的方法的流程图。
当用户通过客户端的用户界面进行登录操作时,本发明的方法开始(步骤210)。例如,用户可以通过在客户端的用户界面处输入用户名或者密码,来进行登录。当然,本领域的技术人员可以理解,用户还可以通过其它方式登录,例如匿名登录。
用户成功登录后,例如可以在用户界面呈现搜索栏,以接收用户输入。
在步骤212,用户在搜索栏输入想要从互联网上查询的内容,即检索主题。例如,用户正在进行的研究课题是“90后上网游戏行为”,用户可以在搜索栏输入“90后上网游戏行为”。可选地,检索主题例如可以通过关键词的形式输入。
根据本发明的可选实施例,用户可以对搜索范围进行限制。例如,用户可以选择所要获取的互联网内容具体的发布(或创建)时间,从而选择只搜索在特定的一段时间内发布的互联网内容。
用户还可以选择要获取的互联网内容发布的地点,例如将搜索内容限定为是从哪个国家或具体地是哪个城市发布的,当然用户还可以更进一步限定为是从哪个小区或具体哪个建筑发布的。
此外,用户还可以选择要获取的互联网内容的来源。例如,用户可以限定只在脸书或者某个具体的微博中进行搜索。通过限定互联网内容的来源(例如互联网上的内容所发布的网站),以提高查询效率和针对性。
在步骤214,根据用户输入获取互联网内容和/或相关的属性信息,并存储搜索结果。
根据本发明的可选实施例,采用网络爬虫获取互联网内容和属性信息。获取的互联网内容可以包括例如社交网络上发布的消息、用户评论等,获取的互联网内容也可以包括网络上发布的各种新闻等。
网络爬虫是一个自动提取网页的程序,它为搜索引擎从互联网上下载网页,是搜索引擎的重要组成。爬虫从一个或若干个初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
根据本发明实施例,除了获取互联网内容外,还获取互联网内容的属性信息。其中属性信息包括互联网内容的发布时间、发布地点、来源等。属性信息还可以包括关于互联网内容的发布者的信息,例如发布者的性别、年龄、身份、出生、家庭背景、收入、职业、教育背景等。
在步骤216,对所获取的互联网内容进行词频统计和/或属性信息分析。
根据本发明的示例实施例,词频统计之前可以选择对获取的互联网内容进行切词。本领域的技术人员可以理解切词并不是必须的。通常对于某些语言的互联网内容,例如中文,切词特别是有益的。通过切词可以删除没有实质意义或专指程度很低的词。
根据本发明的示例实施例,词频统计例如采用TF-IDF方法。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的一份文件的重要程度。字词的重要性随它在文件中出现的次数成正比增加,但同时会随著它在语料库中出现的频率成反比下降。
在一份给定的文件里,词频(term frequency,TF)因子指的是某一个给定的词语在文档中出现的次数。一般来说,词频越高越显得文档和该词相关,就应该给予这个单词更高的权重。这个数字通常会被正规化,以防止它偏向长的文件。
逆文档频率因子(IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。IDF代表的是文档集合范围的一种全局因子,它只和给定的文档集合有关,与具体文档无关。所以IDF考虑的不是文档本身的特征,而是特征单词之间的相对重要性。当越多的文档包含某个单词时,则其IDF值越小,意味着这个词区分不同文档的能力越差。TF*IDF就可以得到该词的权重。
由于互联网,特别是社交网络中包括了大量用户例如对人物、事件、产品等有价值的评论信息。这些评论信息表达了用户的各种感情色彩与情感倾向性,譬如喜、怒、哀、乐、批评、赞扬、支持、反对等。
因此,根据本发明示例实施例,进行词频统计还包括但不限于对互联网内容进行情感分析或观点倾向分析等。根据本发明示例实施例,可以使用情感词典及与其关联信息分析文本情感。
除了对互联网内容进行词频统计分析之外,根据本发明示例实施例,还对还互联网内容的属性信息进行分析,即分析互联网内容针对所述属性信息的分布情况。例如,分析所获取的互联网内容的地理分布,得知这些互联网内容是从哪些地点发布的。如果某个地点发布的较多,则说明这个地点的人们对搜索主题比较关心或者该主题与其有切身厉害关系。同时结合情感分析,还可以知道不同地方人们对搜索主题的情感差异。
根据本发明示例实施例,进行词频统计和属性信息分析还可以包括分析互联网内容发布者(或评论者)的特征(例如人格特征等)。
在步骤218,用户可以选择直接输出步骤216中的结果还是进行进一步分析。选择进一步分析则本发明的方法进行到步骤220,否则进行到步骤226直接输出结果。当然本领域的技术人员可以理解步骤218不是必须的,本发明可以不包括该步骤,而直接从步骤216进行到步骤220。
在步骤220,接收用户关于分析方法的选择。
用户可以选择的述分析方法包括相关分析、方差分析、回归分析、因子分析和聚类分析等。
例如,回归分析可以根据目前所拥有的信息(数据)来建立所关心的变量和其它有关变量的关系,这种关系一般称为模型。如果用Y表示感兴趣的变量,用x表示其它可能与Y有关的变量,则可以建立函数关系Y=f(x)。这里Y称为因变量,x称为自变量。一旦建立了回归模型,除了对变量的关系有了进一步的定量理解之外,还可以利用该模型(函数)通过自变量对因变量做预测。
根据本发明的示例实施例,在选择分析方法之前,用户可以确定感兴趣的(即要研究的)变量和/或参数,以及变量之间的关系。这样用户可以根据所确定的变量和变量间的关系来选择分析方法。
例如,如果要从互联网上用户对产品的评论研究质量和用户满意度之间的因果关系,由于通常产品质量会影响用户的满意情况,因此设用户满意度为因变量,记为Y;则质量为自变量,记为x。通常用户满意度还与产品的价格和形象有关,因此还可以以“用户满意度”为因变量,“质量”、“形象”和“价格”为自变量。在确定好变量之后,可以选择相应的分析方法,例如选择回归分析。
根据本发明的可选实施例,例如,用户可以根据词频统计和/或属性信息分析的结果确定变量和/或变量间的关系。
根据本发明的另一可选实施例,可以以属性信息中包含的一个或多个属性作为变量(例如自变量),还可以选择以研究的课题作为变量(例如因变量)。
在步骤224根据用户所选择的分析方法对所获取的互联网内容进行分析。这可以包括,例如,采用用户选择的分析方法对用户确定的变量进行分析。
分析结果在步骤226输出给用户,之后本发明的方法在步骤228结束。
图2示出了根据本发明的示例实施例的对互联网上的内容进行处理的系统。
该系统例如可以包括一个或多个客户端200、一个或多个数据存储服务器400、一个或多个爬虫服务器600,以及一个或多个算法服务器800。虽然在图2中存储服务器400、爬虫服务器600以及算法服务器800示出为相互独立的服务器,但是根据本发明的可选实施例,可以只使用一个服务器来实现存储服务器400、爬虫服务器600以及算法服务器800的功能。
根据来自客户端200的用户输入(即任务),爬虫服务器600进行信息爬取,获取互联网内容和/或相关的属性信息,并将结果存储至数据存储服务器400中。
算法服务器800访问数据存储服务器400,对所获取的互联网内容进行词频统计和属性信息分析。
算法服务器800还从客户端200接收用户确定的变量以及用户关于分析方法的选择,根据用户所选择的分析方法对所获取的互联网内容进行分析,将分析得出的结果存储至数据存储服务器400,并提供给客户端200。
总之,根据本发明,对互联网上的信息进行检索查询,为用户提供基础的数据统计分析和文本分析,且用户可选择深入分析,系统为用户输出详细的分析报告。根据本发明,简化用户搜索喜欢的内容,提供更便捷的人机交互体验,而且保存每次用户检索到的信息,便于用户对数据的二次观看和分析,为科学研究人员提供方便、准确、高效的信息搜索平台。
虽然上文以互联网的内容为例说明了本发明的数据分析方法和系统,当然本领域的技术人员可以理解本发明中的数据不限于互联网内容。
图3示出示例性计算装置。图3示出的计算装置仅仅是本发明可用的操作环境的一个例子。所述计算装置例如是本发明的算法服务器或者爬虫服务器或者是数据存储服务器。示例性计算装置包括,但不限于,个人计算机、服务器计算机、手持或膝上型装置、移动装置(诸如,移动电话、个人数字助理(PDA)、媒体播放器等等)、多处理器系统、消费者电子装置、小型计算机、大型计算机、包括任何的上述系统或装置的分布式计算环境等等。
示例性实施例是在由一个或多个计算装置执行的“计算机可读指令”的一般上下文中被描述的。计算机可读指令可以经由计算机可读介质(下面讨论的)来分发。计算机可读指令可以被实施为诸如功能、对象、应用编程接口(API)、数据结构等等那样的程序模块,所述程序模块执行特定的任务或实施特定的抽象数据类型。典型地,计算机可读指令的功能性可以如在各种环境中希望的那样被组合或分布。
图3包括被配置成实施这里提供的一个或多个实施例的计算装置1002的例子。在一个配置中,计算装置1002包括至少一个处理单元1006和存储器1008。取决于计算装置的确切配置和类型,存储器1008可以是易失性的(举例而言,诸如RAM)、非易失性的(举例而言,诸如ROM、闪速存储器等等)、或二者的某种组合。这种配置在图3上用虚线1004例示。存储器1008是上文所述的内存的一个例子。
在其它实施例中,装置1002可包括附加特征和/或功能性。例如,装置1002还可包括附加的存储装置(例如,可拆卸和/或不可拆卸的),包括但不限于,磁存储装置、光存储装置等等。这样的附加存储装置在图3上用存储装置1010例示。在一个实施例中,实施这里提供的一个或多个实施例的计算机可读指令可以是在存储装置1010中。存储装置1010还可存储实施操作系统、应用程序等等的其它计算机可读指令。计算机可读指令可被装载在存储器1008中,用于例如由处理单元1006执行。
当在这里使用时,术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令或其它数据那样的信息的任何方法或技术实施的易失性和非易失性、可拆卸和不可拆卸的介质。存储器1008和存储装置1010是计算机存储介质的例子。计算机存储介质包括,但不限于,RAM、ROM、EEPROM、闪速存储器、或其他存储器技术、CD-ROM、数字多功能盘(DVD)、或其它光存储装置、磁带盒、磁带、磁盘存储装置、或其它磁存储装置、或可被使用来存储想要的信息和可被装置1002访问的任何其它介质。任何这样的计算机存储介质可以是装置1002的一部分。
装置1002还可包括允许装置1002与其它装置通信的通信装置1016。通信装置1016可包括但不限于,调制解调器、网络接口卡(NIC)、集成网络接口、射频发射机/接收机、红外端口、USB连接、或用于将计算装置1002连接到其它计算装置的其它接口。通信装置1016可包括有线连接或无线连接。通信装置1016可以发送和/或接收通信介质。
术语“计算机可读介质”可包括通信介质。通信介质典型地体现在诸如载波那样的“调制的数据信号”或其它输送机制中的计算机可读指令或其它数据,并包括任何信息传递介质。术语“调制的数据信号”可包括使其特性以这样的方式设置或改变的信号,即:把信息编码到信号中。
装置1002可包括输入装置1014,诸如键盘、鼠标、笔、话音输入装置、触摸输入装置、红外照相机、视频输入装置、和/或任何其它输入装置。诸如一个或多个显示器、扬声器、打印机、和/或任何其它输出装置那样的输出装置1012也可以被包括在装置1002中。输入装置1014和输出装置1012可以经由有线连接、无线连接或它们的任何组合被连接到装置1002。在一个实施例中,来自另一个计算装置的输入装置或输出装置可被用作用于计算装置1002的输入装置1014或输出装置1012。
计算装置1002的部件可以通过各种互连,诸如总线,而被连接。这样的互连可包括诸如PCI Express那样的外围设备互连(PCI)、通用串行总线(USB)、firewire(IEEE 1394)、光总线结构等等。在另一个实施例中,计算装置1002的部件可以通过网络而互联。例如,存储器1008可以由位于通过网络互连的不同物理位置的多个物理存储器单元组成。
本领域技术人员将认识到,被利用来存储计算机可读指令的存储装置可以跨网络分布。例如,经由网络可访问的另一计算装置可以存储用来实施这里提供的一个或多个实施例的计算机可读指令。计算装置1002可以访问另一计算装置以及下载一部分或所有的计算机可读指令用于执行。替换地,计算装置1002可以按需要下载计算机可读指令的片段,或某些指令可以在计算装置1002上执行而某些指令在另一计算装置上执行。
以上已经参考本发明的具体实施例来描述了本发明,但是本领域技术人员均了解,可以对这些具体实施例进行各种修改、组合和变更,而不会脱离由权利要求或其等同物限定的本发明的精神和范围。

Claims (25)

1.一种对互联网上的内容进行处理的方法,包括:
接收用户输入;
根据所述用户输入获取互联网上的内容和关于该内容的属性信息;
对所述内容进行词频统计和属性信息分析;
接收用户关于分析方法的选择;
根据用户所选择的分析方法处理所述内容。
2.如权利要求1所述的方法,还包括接收用户确定的变量。
3.如权利要求2所述的方法,其中由用户根据所述变量和所述变量间的关系选择所述分析方法。
4.如权利要求2所述的方法,其中由用户根据所述词频统计和属性信息分析确定所述变量。
5.如权利要求2所述的方法,其中,根据用户所选择的分析方法处理所述内容包括采用所述分析方法对所述变量进行分析。
6.如权利要求1所述的方法,其中所述接收用户输入包括接收用户输入的检索主题和限制条件。
7.如权利要求6所述的方法,其中所述检索主题以关键词的形式输入。
8.如权利要求6所述的方法,其中所述限制条件限定要获取的互联网上的内容的发布时间、发布地点和/或来源。
9.如权利要求8所述的方法,其中所述来源指所述互联网上的内容所发布的网站。
10.如权利要求1所述的方法,其中对所述内容进行词频统计包括对所述内容进行情感色彩分析或观点倾向分析。
11.如权利要求1所述的方法,其中所述属性信息包括所述内容的发布时间、发布地点、来源、发布者的性别、发布者年龄、发布者的身份中的一个或多个。
12.如权利要求1所述的方法,其中对所述内容进行词频统计和属性信息分析包括分析所述内容的发布者的特征。
13.如权利要求1所述的方法,其中所述分析方法包括相关分析、方差分析、回归分析、因子分析和聚类分析中的一个或多个。
14.如权利要求1所述的方法,还包括存储所述内容和所述属性信息。
15.如权利要求1所述的方法,其中所述获取采用网络爬虫进行。
16.一种对互联网上的内容进行处理的系统,包括:
一个或多个数据存储服务器;
一个或多个爬虫服务器;以及
一个或多个算法服务器,
所述爬虫服务器根据用户输入获取互联网上的内容和关于该内容的属性信息,
所述数据存储服务器存储所述内容和所述属性信息,
所述算法服务器对所述内容进行词频统计和属性信息分析,并根据用户所选择的分析方法处理所述内容。
17.如权利要求16所述的系统,所述算法服务器包括第一算法服务器和第二算法服务器,其中所述第一算法服务器对所述内容进行词频统计和属性信息分析,所述第二算法服务器根据用户所选择的分析方法处理所述内容。
18.如权利要求16所述的系统,其中所述爬虫服务器从客户端设备接收所述用户输入。
19.如权利要求16所述的系统,其中所述算法服务器从客户端设备接收用户对分析方法的选择。
20.如权利要求19所述的系统,其中所述算法服务器还从客户端设备接收用户确定的变量。
21.一种对互联网上的内容进行处理的系统,包括:
用于接收用户输入的装置;
用于根据所述用户输入获取互联网上的内容和关于该内容的属性信息的装置;
用于对所述内容进行词频统计和属性信息分析的装置;
用于接收用户关于分析方法的选择的装置;
用于根据用户所选择的分析方法处理所述内容的装置。
22.如权利要求21所述的系统,其中所述用于接收用户输入的装置包括用于接收用户输入的检索主题和限制条件的装置。
23.如权利要求21所述的系统,其中对所述内容进行词频统计包括对所述内容进行情感色彩分析。
24.如权利要求21所述的系统,其中所述属性信息包括所述内容的发布时间、发布地点、来源、发布者的性别、发布者年龄、发布者的身份中的一个或多个。
25.如权利要求21所述的系统,还包括用于接收用户确定的变量的装置。
CN201410854194.1A 2014-12-31 2014-12-31 数据分析方法和系统 Expired - Fee Related CN104598549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410854194.1A CN104598549B (zh) 2014-12-31 2014-12-31 数据分析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410854194.1A CN104598549B (zh) 2014-12-31 2014-12-31 数据分析方法和系统

Publications (2)

Publication Number Publication Date
CN104598549A true CN104598549A (zh) 2015-05-06
CN104598549B CN104598549B (zh) 2019-03-05

Family

ID=53124334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410854194.1A Expired - Fee Related CN104598549B (zh) 2014-12-31 2014-12-31 数据分析方法和系统

Country Status (1)

Country Link
CN (1) CN104598549B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804479A (zh) * 2017-05-05 2018-11-13 张汉威 数据分析系统及其分析方法
CN110555454A (zh) * 2018-06-01 2019-12-10 国际商业机器公司 从上下文数据跟踪主题排名的演变
CN112686764A (zh) * 2021-01-08 2021-04-20 北京虹信万达科技有限公司 一种基于保险行业的渠道管理系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000607A (zh) * 2006-01-12 2007-07-18 国际商业机器公司 用于增强搜索结果导航的可视化方法及装置
EP1818839A1 (en) * 2006-02-14 2007-08-15 Accenture Global Services GmbH System and method for online information analysis
CN101183371A (zh) * 2007-12-12 2008-05-21 中兴通讯股份有限公司 一种快速完成大数据处理的方法和报表系统
CN101520784A (zh) * 2008-02-29 2009-09-02 富士通株式会社 信息发布系统和信息发布方法
CN101938475A (zh) * 2010-08-30 2011-01-05 清华大学 互联网信息发布者身份鉴别方法及其系统
CN103034626A (zh) * 2012-12-26 2013-04-10 上海交通大学 情感分析系统及方法
CN103500175A (zh) * 2013-08-13 2014-01-08 中国人民解放军国防科学技术大学 一种基于情感分析在线检测微博热点事件的方法
CN103514369A (zh) * 2013-09-18 2014-01-15 上海交通大学 一种基于主动学习的回归分析系统及方法
CN103562948A (zh) * 2011-06-08 2014-02-05 惠普发展公司,有限责任合伙企业 确定和可视化社交媒体表达的情感

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000607A (zh) * 2006-01-12 2007-07-18 国际商业机器公司 用于增强搜索结果导航的可视化方法及装置
EP1818839A1 (en) * 2006-02-14 2007-08-15 Accenture Global Services GmbH System and method for online information analysis
CN101183371A (zh) * 2007-12-12 2008-05-21 中兴通讯股份有限公司 一种快速完成大数据处理的方法和报表系统
CN101520784A (zh) * 2008-02-29 2009-09-02 富士通株式会社 信息发布系统和信息发布方法
CN101938475A (zh) * 2010-08-30 2011-01-05 清华大学 互联网信息发布者身份鉴别方法及其系统
CN103562948A (zh) * 2011-06-08 2014-02-05 惠普发展公司,有限责任合伙企业 确定和可视化社交媒体表达的情感
CN103034626A (zh) * 2012-12-26 2013-04-10 上海交通大学 情感分析系统及方法
CN103500175A (zh) * 2013-08-13 2014-01-08 中国人民解放军国防科学技术大学 一种基于情感分析在线检测微博热点事件的方法
CN103514369A (zh) * 2013-09-18 2014-01-15 上海交通大学 一种基于主动学习的回归分析系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
沈浩: ""第十二周:社会网络分析分析--每周一讲多变量分析"", 《HTTP://SHENHAOLAOSHI.BLOG.SOHU.COM/148753587.HTML》 *
薄荷馍馍: ""CNKI检索简介"", 《HTTP://WWW.360DOC.COM/CONTENT/09/1028/10/176942_7971672.SHTML》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804479A (zh) * 2017-05-05 2018-11-13 张汉威 数据分析系统及其分析方法
CN108804479B (zh) * 2017-05-05 2022-08-19 张汉威 数据分析系统及其分析方法
CN110555454A (zh) * 2018-06-01 2019-12-10 国际商业机器公司 从上下文数据跟踪主题排名的演变
CN112686764A (zh) * 2021-01-08 2021-04-20 北京虹信万达科技有限公司 一种基于保险行业的渠道管理系统

Also Published As

Publication number Publication date
CN104598549B (zh) 2019-03-05

Similar Documents

Publication Publication Date Title
US20200410401A1 (en) System and Method for Searching and Matching Content Over Social Networks to an Individual
RU2636702C1 (ru) Способ и устройство для выбора сетевого ресурса в качестве источника содержимого для системы рекомендаций
Burgess Platform studies
US10430481B2 (en) Method and apparatus for generating a content recommendation in a recommendation system
KR101322679B1 (ko) 커뮤니티 교환들의 의미 분석을 이용하는 어시스턴트―어드바이저
US20160371709A1 (en) Determining information inter-relationships from distributed group discussions
JP6224731B2 (ja) 個人的ユーザ経験を改善するためにソーシャル・メディアを豊富にする方法および装置
CN102541981A (zh) 追踪在线社交行为来增强搜索体验
CN103136253A (zh) 获取信息的方法和装置
Zelenkauskaite et al. A scholarly divide: Social media, Big Data, and unattainable scholarship
WO2016137690A1 (en) Efficient retrieval of fresh internet content
Bhosale et al. Role of business intelligence in digital marketing
CN104598549A (zh) 数据分析方法和系统
Nirmala et al. Twitter data analysis for unemployment crisis
KR102477245B1 (ko) 향상된 온라인 리서치를 위한 시스템 및 방법
US9996622B2 (en) Browser new tab page generation for enterprise environments
Goodier et al. Academics' online presence: a four-step guide to taking control of your visibility
Becheru et al. Towards social data analytics for smart tourism: A network science perspective
US20220108359A1 (en) System and method for continuous automated universal rating aggregation and generation
Hussain et al. Blog data analytics using blogtrackers
Dhawan et al. R for Social Media Analysis
KR20160131981A (ko) 온라인 상에 게재된 웹 문서 기반 행사 이력 분석 시스템 및 방법
KR20230084706A (ko) 클라우드 기반의 컨텐츠 추천 방법
Buscher Bernard J. Jansen, Amanda Spink, Isak Taksa: Handbook of research on web log analysis: IGI Global, 2009, 628 pp, $265, ISBN: 978-1-59904-974-8
Ma et al. An exploratory study of information re-finding behaviour modes of Chinese college students on social media: video diary analysis from Chinese platforms

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190305

Termination date: 20211231

CF01 Termination of patent right due to non-payment of annual fee