CN110163688A - 商品网络舆情检测系统 - Google Patents
商品网络舆情检测系统 Download PDFInfo
- Publication number
- CN110163688A CN110163688A CN201910465075.XA CN201910465075A CN110163688A CN 110163688 A CN110163688 A CN 110163688A CN 201910465075 A CN201910465075 A CN 201910465075A CN 110163688 A CN110163688 A CN 110163688A
- Authority
- CN
- China
- Prior art keywords
- public
- text
- feelings information
- sentiment
- web page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种能够智能与自动的采集与分析舆情信息的商品网络舆情检测系统,用于对出入境商品在公开网络上的舆情信息进行舆情检测,其特征在于,包括:数据获取模块,用于从公开网络中获取多个包含出入境商品的舆情信息的网页内容;文本处理模块,用于依次对网页内容进行处理从而得到舆情信息文本;文本去重模块,用于对所有的舆情信息文本进行去重处理得到待分析舆情信息文本;情感倾向分析模块,用于依次对各个待分析舆情信息文本进行情感分析从而分别得到与各个待分析舆情信息相对应的舆情情感分;舆情信息输出模块,用于将待分析舆情信息以及相应的舆情情感分进行对应输出,其中,数据获取模块包括网页检索获取部以及网页去重部。
Description
技术领域
本发明属于风险评估领域,具体涉及一种商品网络舆情检测系统。
背景技术
舆情监测是对互联网上公众的言论和观点进行监视和预测的行为。这些言论主要为对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。
具体上讲,舆情监测是指整合互联网信息采集技术及信息智能处理技术,通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦、情感分析,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。行业化、服务化是舆情监测分析的发展趋势,将文本分类、文本聚类、文本摘要、倾向性分析等结合语料库和知识库,建立基于SaaS模式的舆情语义分析基础设施,可更好的实现人机结合,提高舆情研判的准确率。
目前大部分部门和企业的舆情监测和管理工作主要靠人工来完成。这样负责网络舆情监测任务的部门和人员承受着巨大的工作压力。人工进行舆情监测还会遇到很多问题:舆情收集不全面、舆情发现不及时、舆情分析不准确、信息利用不便利。
发明内容
为解决上述问题,提供一种能够智能与自动的采集与分析舆情信息的商品网络舆情检测系统,本发明采用了如下技术方案:
本发明提供了一种商品网络舆情检测系统,用于对出入境商品在公开网络上的舆情信息进行舆情检测,其特征在于,包括:数据获取模块,用于从公开网络中获取多个包含出入境商品的舆情信息的网页内容;文本处理模块,用于依次对网页内容进行处理从而得到舆情信息文本;文本去重模块,用于对所有的舆情信息文本进行去重处理得到待分析舆情信息文本;情感倾向分析模块,用于依次对各个待分析舆情信息文本进行情感分析从而分别得到与各个待分析舆情信息相对应的舆情情感分;舆情信息输出模块,用于将待分析舆情信息以及相应的舆情情感分进行对应输出,其中,数据获取模块包括网页检索获取部以及网页去重部,网页检索获取部根据出入境商品的商品关键词通过元搜索技术对公开网络中的相关网页内容进行检索并获取含有商品关键词的网页内容以及对应的网页地址,网页去重部根据网页地址通过布隆过滤器对各个网页内容进行去重处理。
本发明提供的商品网络舆情检测系统,还可以具有这样的技术特征,其中,数据获取模块还包括热点网站统计判定部、获取控制部以及热点网站存储部,热点网站统计判定部用于对网页地址的被命中次数进行统计从而根据被命中次数判定与网页地址对应的网站是否为热点网站,当一个网站被判定为热点网站时,热点网站存储部就对该热点网站进行存储,网页获取部在对各个公开网络中的网页进行检索并获取网页地址时,优先对常用网页存储部中存储的热点网站所对应的网页地址进行检索。
本发明提供的商品网络舆情检测系统,还可以具有这样的技术特征,其中,文本处理模块对网页内容进行处理的过程包括如下步骤:节点标记步骤,对网页内容中的各个段落进行节点标记;节点合并步骤,根据各个节点的上下文以及网页结构对节点进行合并形成父节点;合并循环步骤,重复节点合并步骤直到完成预定条件;分值计算步骤,根据最终多个父节点内的停用词数量、子节点的分布等因素,计算不同节点的最终分值;舆情信息抽取步骤,根据最终分值最高的节点,从网页内容中抽取得到舆情信息文本。
本发明提供的商品网络舆情检测系统,还可以具有这样的技术特征,其中,文本去重模块对舆情信息文本进行去重处理的过程包括如下步骤:文本选取步骤,将各个舆情信息文本两两组合并选取一对舆情信息文本;相似度计算步骤,使用局部敏感哈希算法计算一对舆情信息文本之间的相似度;文本去重步骤,判断相似度是否高于相似阈值并在判断高于相似阈值时随机剔除一对舆情信息文本中的一个,去重循环步骤,选取下一对舆情信息文本并再次执行相似度计算步骤直至每对舆情信息文本都完成相似度的计算。
本发明提供的商品网络舆情检测系统,还可以具有这样的技术特征,其中,情感分析模块包括:情感词典存储部,存储有预设的情感词典,该情感词典包含多个情感词以及对应的情感评分,情感分计算部,根据情感词典依次对各个待分析舆情信息文本进行舆情情感分的计算,该计算公式为:
score=∑i weight×(-1)t×k×word(i) (1)
式中,score为整个文本的情感分,i表示第i个文本,weight表示每个词的重要程度,t表示词语之前是否有否定词,k代表程度词带来的权重,word(i)是第i个词的情感评分。
本发明提供的商品网络舆情检测系统,还可以具有这样的技术特征,其中,网页地址为统一资源定位符。
发明作用与效果
根据本发明的商品网络舆情检测系统,由于数据采集模块通过元搜索技术自动对网络上与出入境商品相关的网页内容进行检索,并通过文本处理模块、情感倾向分析模块对网页内容进行分析得到舆情信息文本以及相应的舆情情感分,从而实现了对舆情信息的自动抓取以及自动处理。同时,通过数据采集模块的网页去重部以及文本去重模块,通过统一资源定位符去重和文本去重两种技术对海量的网页内容进行筛选优化,更好地剔除了信息中的重复内容。本发明能够实现了针对出入境商品的自动化与智能化的舆情监测功能,通过该系统返回的舆情文本与情感倾向,应用到风险决策、市场分析等场景中时,能够实现用户的网络舆情监测和新闻追踪等信息需求,为用户提供相应的决策与分析依据,全面掌握商品与市场动态,做出正确舆论引导与应对措施。
附图说明
图1是本发明实施例中商品网络舆情检测系统的结构框图;
图2是本发明实施例中数据获取模块的结构框图;
图3是本发明实施例中舆情检测过程的流程图;
图4是本发明实施例中商品网络舆情检测系统的结构以及数据流向的示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的商品网络舆情检测系统作具体阐述。
<实施例>
图1是本发明实施例中商品网络舆情检测系统的结构框图。
如图1所示,商品网络舆情检测系统100包括数据获取模块1、文本处理模块2、文本去重模块3、情感分析模块4、输出模块5、数据存储模块6、显示模块7、通信模块8以及控制模块9。
本实施例中,商品网络舆情检测系统100为监控人员持有的计算机。在其他实施例中,商品网络舆情检测系统100还能够设置在检测服务器以及与该检测服务器相连的管理计算机中。
图2是本发明实施例中数据获取模块的结构框图。
数据获取模块1用于从公开网络(例如互联网)中获取与商品相关的舆情信息。如图2所示,该数据获取模块1包括网页地址存储部11、网页检索获取部12、网页去重部13、热点网站统计判定部14、热点网站存储部15、获取通信部16以及获取控制部17。
网页地址存储部11用于存储与搜索引擎(例如百度、bing等搜索引擎)对应的网页检索配置。
本实施例中,网页检索配置包括url拼接方法、下一页的xpath路径、返回url的xpath路径,以百度搜索引擎为例,网页检索配置如下:
url | http://news.baidu.com/ns?word={}&clk=sortbytime |
next_page | //a[@class=’n’] |
extract_from | //h3[@class=’c-title’]/a |
网页检索获取部12用于根据出入境商品的商品关键词通过元搜索技术对公开网络中的网页内容进行检索并获取含有商品关键词的网页内容以及对应的网页地址。
本实施例中,网页内容为HTML页面,其不包含任何的结构化信息;网页地址为统一资源定位符(即url);商品关键词为商品名称。网页检索获取部12通过爬虫读取网页地址存储部11中存储的网页检索配置以向搜索引擎发送关键词并且返回url列表。
网页去重部13用于网页地址通过布隆过滤器对各个网页内容进行去重处理。
本实施例中,通过布隆过滤器,网页去重部13可以将网页地址相同的网页内容进行去重,从而避免网页检索获取部12获取多个同一网页地址的网页内容。
热点网站统计判定部14用于对网页地址的被命中次数进行统计从而根据被命中次数判定与网页地址对应的网站是否为热点网站。
本实施例中,若热点网站统计判定部14统计某个网站的网页地址在最近10次的搜索中被命中次数超过5次,则判定该网站为热点网站。
热点网站存储部16用于在热点网站统计判定部14判定一个网站为热点网站时,对该热点网站进行存储。
本实施例中,每当网页检索获取部12在根据商品名称对公开网络中的网页内容进行检索时,会先从热点网站存储部16中获取其存储的热点网站,从而在检索时优先对各个热点网站的网页内容进行检索。
获取通信部17用于进行数据获取模块1与其他模块之间以及数据获取模块1的各个部件之间的数据通信。
获取控制部18含有用于对数据获取模块1的各个部件工作进行控制的计算机程序。
文本处理模块2用于依次对数据获取模块1获取的各个网页内容进行处理从而得到舆情信息文本。
本实施例中,舆情信息为政府的正式公告网站上的奖惩等公告与相关的舆情新闻等信息,数据获取模块1根据关键词检索到的网页内容中会含有这些舆情信息。一般的网页内容会呈现如下的格式:
<div class="s"><div><strong>摘要</strong>:升级优化本周,“云私塾”系列之电子商务营运博弈沙盘在原有系统基础上进行了用户体验及系统功能的优化。1.优化了图表渲染方式,减少了学生操作时的卡顿现象2.为营销角色的统计图表优化坐标形式,增强数据可读性...</div></div>
随后,文本处理模块2通过统计与段落分析等方法,会从中提取出有价值的信息,最终得到的结构化数据,如在本示例中会得到:
摘要:升级优化本周,“云私塾”系列之电子商务营运博弈沙盘在原有系统基础上进行了用户体验及系统功能的优化。1.优化了图表渲染方式,减少了学生操作时的卡顿现象2.为营销角色的统计图表优化坐标形式,增强数据可读性…
本实施例中,文本处理模块2对网页内容的进行处理的过程包括如下步骤:
节点标记步骤,对网页内容中的各个段落进行节点标记;
节点合并步骤,根据各个节点的上下文以及网页结构对节点进行合并形成父节点;
合并循环步骤,重复节点合并步骤直到完成预定条件;
分值计算步骤,根据最终多个父节点内的停用词数量、子节点的分布等因素,计算不同节点的最终分值;
舆情信息抽取步骤,根据最终分值最高的节点,从网页内容中抽取得到舆情信息文本。
文本去重模块3用于对所有的舆情信息文本进行去重处理得到待分析舆情信息文本。
本实施例中,文本去重模块3对舆情信息文本进行去重处理的过程包括如下步骤:
文本选取步骤,将各个舆情信息文本两两组合并选取一对舆情信息文本;
相似度计算步骤,使用局部敏感哈希算法计算一对舆情信息文本之间的相似度;
文本去重步骤,判断相似度是否高于相似阈值并在判断高于相似阈值时随机剔除一对舆情信息文本中的一个,
去重循环步骤,选取下一对舆情信息文本并再次执行相似度计算步骤直至每对舆情信息文本都完成相似度的计算。
本实施例中,在去重循环步骤完成后,剩下的舆情信息文本即为文本去重模块3得到的待分析舆情信息文本。
本实施例中,在文本去重模块3的相似度计算步骤以及文本去重步骤中,首先对文本进行分词处理,之后按照预设的算法流程,将文本转化为长度为64位的simhash值,如1110111001101011111110001111100011111111111000011000011110111110,对文本进行这样的处理之后,判断两个文本之间的simhash的海明距离,若大于3,则认为这两个文本内容不相似,否则说明内容重复,需要将其中一个文本删去。
情感分析模块4用于依次对各个待分析舆情信息文本进行情感分析从而分别得到与各个待分析舆情信息相对应的舆情情感分。该情感分析模块4包括情感词典存储部41以及情感分计算部42。
情感词典存储部41用于存储情感词典。本实施例中,情感词典用来进行情感倾向的分析,该情感词典的大体结构如下:
{积极情感词、消极情感词、程度词、否定词}
积极情感词与消极情感词都有着各自的情感评分,程度词决定了情感词的权重,而否定词则会进行极性反转。
情感分计算部42用于根据情感词典依次对各个待分析舆情信息文本进行舆情情感分的计算。
本实施例中,整个文本的情感倾向由情感分计算部42通过该公式进行确定:
score=∑i weight×(-1)t×k×word(i) (1)
式中,score为整个文本的情感分,i表示第i个文本,weight表示每个词的重要程度,t表示词语之前是否有否定词,k代表程度词带来的权重,word(i)是第i个词的情感评分。
最终,若情感分计算部42计算的score大于0则认为该舆情信息文本为正面信息,否则认定为负面信息。
输出模块5用于将待分析舆情信息以及相应的舆情情感分进行对应输出。
本实施例中,输出模块5将待分析舆情信息以及相应的舆情情感分输出至数据存储模块6以及显示模块7。在其他实施例中,输出模块5还能够将待分析舆情信息以及相应的舆情情感分输出至其他分析系统,例如出入境风险检测系统,从而让该出入境风险检测系统根据商品网络舆情检测系统100得到的舆情信息以及舆情情感分对相应的商品进行风险检测。
数据存储模块6用于对输出模块5输出的待分析舆情信息以及相应的舆情情感分进行对应存储,从而供下一次的使用。
显示模块7存储有舆情信息显示画面,用于在接收到待分析舆情信息以及相应的舆情情感分时显示舆情信息显示画面,并在该画面中显示待分析舆情信息以及相应的舆情情感分让监控人员查看。
通信模块8用于进行商品网络舆情检测系统100与其他模块之间以及商品网络舆情检测系统100的各个部件之间的数据通信。
控制模块9含有用于对商品网络舆情检测系统100的各个构成部件的工作进行控制的计算机程序。
图3是本发明实施例中舆情检测过程的流程图。
如图3所示,商品网络舆情检测系统100的舆情检测过程包括如下步骤:
步骤S1,网页检索获取部11通过元搜索引擎从互联网中获取到与出入境商品有关的网页内容以及对应的网页地址,然后进入步骤S2;
步骤S2,网页去重部12通过布隆过滤器对步骤S1中的网页内容进行去重处理,然后进入步骤S3;
步骤S3,文本处理模块2对步骤S3中去重得到的网页内容进行处理从而得到该网页内容中的舆情信息文本,然后进入步骤S4;
步骤S4,文本去重模块3根据局部敏感哈希算法对步骤S3中得到的舆情信息文本进行相似度计算,并根据相似度对舆情信息文本进行去重得到待分析舆情信息文本,然后进入步骤S5;
步骤S5,情感倾向分析模块4依次对步骤S4中得到的各个待分析舆情信息文本计算相应的舆情情感分,然后进入步骤S6;
步骤S6,输出模块5将步骤S4中的得到的待分析舆情信息文本以及步骤S5中得到的舆情情感分输出从而进行相应处理,然后步骤结束。
如图4所示,本实施例的商品网络舆情检测系统100在通过数据获取模块1、文本处理模块2、文本去重模块3以及情感倾向分析模块4得到待分析舆情信息文本以及舆情情感分后,就将该两者存储至数据存储模块6(即图中舆情数据库)中,此后,例如显示模块7等前台系统就可随时访问该数据存储模块6对待分析舆情信息文本以及舆情情感分进行调用,从实现让监控人员查看等作用。
实施例作用与效果
根据本实施例提供的商品网络舆情检测系统,由于数据采集模块通过元搜索技术自动对网络上与出入境商品相关的网页内容进行检索,并通过文本处理模块、情感倾向分析模块对网页内容进行分析得到舆情信息文本以及相应的舆情情感分,从而实现了对舆情信息的自动抓取以及自动处理。同时,通过数据采集模块的网页去重部以及文本去重模块,通过统一资源定位符去重和文本去重两种技术对海量的网页内容进行筛选优化,更好地剔除了信息中的重复内容。本发明能够实现了针对出入境商品的自动化与智能化的舆情监测功能,通过该系统返回的舆情文本与情感倾向,应用到风险决策、市场分析等场景中时,能够实现用户的网络舆情监测和新闻追踪等信息需求,为用户提供相应的决策与分析依据,全面掌握商品与市场动态,做出正确舆论引导与应对措施。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
Claims (6)
1.一种商品网络舆情检测系统,用于对出入境商品在公开网络上的舆情信息进行舆情检测,其特征在于,包括:
数据获取模块,用于从所述公开网络中获取多个包含所述出入境商品的舆情信息的网页内容;
文本处理模块,用于依次对所述网页内容进行处理从而得到舆情信息文本;
文本去重模块,用于对所有的所述舆情信息文本进行去重处理得到待分析舆情信息文本;
情感倾向分析模块,用于依次对各个所述待分析舆情信息文本进行情感分析从而分别得到与各个所述待分析舆情信息相对应的舆情情感分;
舆情信息输出模块,用于将所述待分析舆情信息以及相应的所述舆情情感分进行对应输出,
其中,所述数据获取模块包括网页检索获取部以及网页去重部,
所述网页检索获取部根据所述出入境商品的商品关键词通过元搜索技术对所述公开网络中的相关网页内容进行检索并获取含有所述商品关键词的所述网页内容以及对应的网页地址,
所述网页去重部根据所述网页地址通过布隆过滤器对各个所述网页内容进行去重处理。
2.根据权利要求1所述的商品网络舆情检测系统,其特征在于:
其中,所述数据获取模块还包括热点网站统计判定部、获取控制部以及热点网站存储部,
所述热点网站统计判定部用于对所述网页地址的被命中次数进行统计从而根据所述被命中次数判定与所述网页地址对应的网站是否为热点网站,
当一个所述网站被判定为热点网站时,所述热点网站存储部就对该热点网站进行存储,
所述网页获取部在对各个所述公开网络中的网页进行检索并获取所述网页地址时,优先对所述常用网页存储部中存储的所述热点网站所对应的网页地址进行检索。
3.根据权利要求1所述的商品网络舆情检测系统,其特征在于:
其中,所述文本处理模块对所述网页内容进行处理的过程包括如下步骤:
节点标记步骤,对所述网页内容中的各个段落进行节点标记;
节点合并步骤,根据各个所述节点的上下文以及网页结构对所述节点进行合并形成父节点;
合并循环步骤,重复所述节点合并步骤直到完成预定条件;
分值计算步骤,根据最终多个父节点内的停用词数量、子节点的分布等因素,计算不同所述节点的最终分值;
舆情信息抽取步骤,根据所述最终分值最高的所述节点,从所述网页内容中抽取得到所述舆情信息文本。
4.根据权利要求1所述的商品网络舆情检测系统,其特征在于:
其中,所述文本去重模块对所述舆情信息文本进行去重处理的过程包括如下步骤:
文本选取步骤,将各个所述舆情信息文本两两组合并选取一对所述舆情信息文本;
相似度计算步骤,使用局部敏感哈希算法计算一对所述舆情信息文本之间的相似度;
文本去重步骤,判断所述相似度是否高于相似阈值并在判断高于所述相似阈值时随机剔除一对所述舆情信息文本中的一个,
去重循环步骤,选取下一对所述舆情信息文本并再次执行所述相似度计算步骤直至每对所述舆情信息文本都完成相似度的计算。
5.根据权利要求1所述的商品网络舆情检测系统,其特征在于:
其中,所述情感分析模块包括:
情感词典存储部,存储有预设的情感词典,该情感词典包含多个情感词以及对应的情感评分,
情感分计算部,根据所述情感词典依次对各个所述待分析舆情信息文本进行所述舆情情感分的计算,该计算公式为:
score=∑iweight×(-1)t×k×word(i) (1)
式中,score为整个文本的情感分,i表示第i个文本,weight表示每个词的重要程度,t表示词语之前是否有否定词,k代表程度词带来的权重,word(i)是第i个词的所述情感评分。
6.根据权利要求1所述的商品网络舆情检测系统,其特征在于:
其中,所述网页地址为统一资源定位符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910465075.XA CN110163688A (zh) | 2019-05-30 | 2019-05-30 | 商品网络舆情检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910465075.XA CN110163688A (zh) | 2019-05-30 | 2019-05-30 | 商品网络舆情检测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110163688A true CN110163688A (zh) | 2019-08-23 |
Family
ID=67630608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910465075.XA Pending CN110163688A (zh) | 2019-05-30 | 2019-05-30 | 商品网络舆情检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110163688A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990676A (zh) * | 2019-11-28 | 2020-04-10 | 福建亿榕信息技术有限公司 | 一种社交媒体热点主题提取方法与系统 |
CN111241390A (zh) * | 2019-12-31 | 2020-06-05 | 熵加网络科技(北京)有限公司 | 一种元搜索引擎的检索方法 |
CN111625468A (zh) * | 2020-06-05 | 2020-09-04 | 中国银行股份有限公司 | 一种测试案例去重方法及装置 |
CN112528114A (zh) * | 2019-09-17 | 2021-03-19 | 北京国双科技有限公司 | 一种文章去重方法、装置、设备及存储介质 |
CN112581006A (zh) * | 2020-12-25 | 2021-03-30 | 杭州衡泰软件有限公司 | 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法 |
CN113051455A (zh) * | 2021-03-31 | 2021-06-29 | 合肥供水集团有限公司 | 一种基于网络文本数据的水务舆情识别方法 |
CN116188103A (zh) * | 2023-02-07 | 2023-05-30 | 杭州展俊科技有限公司 | 一种用于跨境电商的大数据智能补货处理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880707A (zh) * | 2012-09-27 | 2013-01-16 | 广州市动景计算机科技有限公司 | 网页主体内容识别方法和装置 |
CN104731773A (zh) * | 2015-04-17 | 2015-06-24 | 深圳证券信息有限公司 | 文本情感分析方法及系统 |
CN105528421A (zh) * | 2015-12-07 | 2016-04-27 | 中国人民大学 | 一种针对海量数据中查询词的搜索维度挖掘方法 |
CN106598944A (zh) * | 2016-11-25 | 2017-04-26 | 中国民航大学 | 一种民航安保舆情情感分析方法 |
CN106649578A (zh) * | 2016-11-17 | 2017-05-10 | 华北理工大学 | 一种基于社交网络平台的舆情分析方法及系统 |
-
2019
- 2019-05-30 CN CN201910465075.XA patent/CN110163688A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880707A (zh) * | 2012-09-27 | 2013-01-16 | 广州市动景计算机科技有限公司 | 网页主体内容识别方法和装置 |
CN104731773A (zh) * | 2015-04-17 | 2015-06-24 | 深圳证券信息有限公司 | 文本情感分析方法及系统 |
CN105528421A (zh) * | 2015-12-07 | 2016-04-27 | 中国人民大学 | 一种针对海量数据中查询词的搜索维度挖掘方法 |
CN106649578A (zh) * | 2016-11-17 | 2017-05-10 | 华北理工大学 | 一种基于社交网络平台的舆情分析方法及系统 |
CN106598944A (zh) * | 2016-11-25 | 2017-04-26 | 中国民航大学 | 一种民航安保舆情情感分析方法 |
Non-Patent Citations (2)
Title |
---|
房勇: "企业多源舆情监测系统研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
胡国平,等: "基于双层决策的新闻网页正 文精确抽取", 《中文信息学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528114A (zh) * | 2019-09-17 | 2021-03-19 | 北京国双科技有限公司 | 一种文章去重方法、装置、设备及存储介质 |
CN110990676A (zh) * | 2019-11-28 | 2020-04-10 | 福建亿榕信息技术有限公司 | 一种社交媒体热点主题提取方法与系统 |
CN111241390A (zh) * | 2019-12-31 | 2020-06-05 | 熵加网络科技(北京)有限公司 | 一种元搜索引擎的检索方法 |
CN111625468A (zh) * | 2020-06-05 | 2020-09-04 | 中国银行股份有限公司 | 一种测试案例去重方法及装置 |
CN111625468B (zh) * | 2020-06-05 | 2024-04-16 | 中国银行股份有限公司 | 一种测试案例去重方法及装置 |
CN112581006A (zh) * | 2020-12-25 | 2021-03-30 | 杭州衡泰软件有限公司 | 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法 |
CN113051455A (zh) * | 2021-03-31 | 2021-06-29 | 合肥供水集团有限公司 | 一种基于网络文本数据的水务舆情识别方法 |
CN113051455B (zh) * | 2021-03-31 | 2022-04-26 | 合肥供水集团有限公司 | 一种基于网络文本数据的水务舆情识别方法 |
CN116188103A (zh) * | 2023-02-07 | 2023-05-30 | 杭州展俊科技有限公司 | 一种用于跨境电商的大数据智能补货处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163688A (zh) | 商品网络舆情检测系统 | |
CN109033387B (zh) | 一种融合多源数据的物联网搜索系统、方法及存储介质 | |
Ahmed et al. | Detection of online fake news using n-gram analysis and machine learning techniques | |
WO2020000847A1 (zh) | 一种基于新闻大数据的恐慌指数监测分析方法及系统 | |
CN112395539B (zh) | 一种基于自然语言处理的舆情风险监测方法及系统 | |
CN101620608A (zh) | 信息采集方法及系统 | |
CN103049435A (zh) | 文本细粒度情感分析方法及装置 | |
CN113962293B (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 | |
CN111967761A (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
CN103617174A (zh) | 一种基于云计算的分布式搜索方法 | |
Nikhil et al. | A survey on text mining and sentiment analysis for unstructured web data | |
Hasan et al. | TwitterNews: Real time event detection from the Twitter data stream | |
Wu et al. | Extracting topics based on Word2Vec and improved Jaccard similarity coefficient | |
Guo et al. | A survey of Internet public opinion mining | |
CN109168051A (zh) | 一种基于蓝光存储的网络直播平台监管取证系统 | |
CN110309234A (zh) | 一种基于知识图谱的客户持仓预警方法、装置及存储介质 | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
US20180089193A1 (en) | Category-based data analysis system for processing stored data-units and calculating their relevance to a subject domain with exemplary precision, and a computer-implemented method for identifying from a broad range of data sources, social entities that perform the function of Social Influencers | |
CN111522950B (zh) | 一种针对非结构化海量文本敏感数据的快速识别系统 | |
CN108228612A (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
Chen et al. | Novelty paper recommendation using citation authority diffusion | |
Wang et al. | Topic discovery method based on topic model combined with hierarchical clustering | |
CN116226494B (zh) | 一种用于信息搜索的爬虫系统及方法 | |
CN103823847A (zh) | 一种关键词的扩充方法及装置 | |
Xu et al. | Generating risk maps for evolution analysis of societal risk events |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190823 |