CN103389998A - 一种基于云服务的新型互联网商业情报语义分析技术 - Google Patents

一种基于云服务的新型互联网商业情报语义分析技术 Download PDF

Info

Publication number
CN103389998A
CN103389998A CN201210144233XA CN201210144233A CN103389998A CN 103389998 A CN103389998 A CN 103389998A CN 201210144233X A CN201210144233X A CN 201210144233XA CN 201210144233 A CN201210144233 A CN 201210144233A CN 103389998 A CN103389998 A CN 103389998A
Authority
CN
China
Prior art keywords
analysis
semantic
data
technology
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210144233XA
Other languages
English (en)
Inventor
贾俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Original Assignee
ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd filed Critical ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Priority to CN201210144233XA priority Critical patent/CN103389998A/zh
Publication of CN103389998A publication Critical patent/CN103389998A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于云服务的新型互联网商业情报语义分析技术,通过计算机网络从多个数据库获取和集成数据的系统。本发明是通过综合多种数据挖掘和文本提取手段,半自动化构建一种语义计算模型的任意行业的本体系统,并用其指导行业数据源自动发现、采集和基于语义的情报信息搜索,以实现提高搜索、分析质量,降低系统对硬件条件的要求。利用独创的基于统计和等级认证的报评价算法、基于最大熵的倾向性分析技术和多种实用数据挖掘技术的结合,实现对情报数据的倾向性、可信度等多角辅助分析,事件、话题、行业类别、竞争对手等多主体多粒度分析,时间序列、地区分布等多维度的辅助分析。本发明的有益效果在于:不仅开发的产品具有良好的市场前景,其推广应用的领域较广,达到的技术水平较高。

Description

一种基于云服务的新型互联网商业情报语义分析技术
技术领域
本发明涉及一种通过计算机网络从多个数据库获取和集成数据的系统,该系统包括一个整合服务器和几个数据代理器。 
背景技术
随着信息化程度不断加深,企业对情报信息化集成的渴求也日益强烈;互联网持续增长信息资源蕴含了巨量的具有商业价值的信息,成为重要的情报信息源头。目前提供信息定制搜索与情报分析相关产品的公司为数不多,且产品对用户本身的基础信息设施要求高,实施周期长,系统建设和维护成本高,主要客户是超大型企业和政府,普通企业无力承受。 
发明内容
为了克服上述现有技术的缺陷,本发明提供了一种针对企业情报搜集与分析中面临的文本性数据难以小粒度多维度分析的困境,引入一种新型的段落级互联网文本语义分析技术。此技术以段落为语义分析主体,通过文本分词、本体标注与推理、语义概念计算,结合篇章主题矫正等手段,归纳段落语义要点、核心概念、自定义维度标识,为文档提供语义信息更加丰富标注性信息,使得对互联网文本分析更加精细化。采用深度网络数据自动抽取、行业数据源侦测等技术,极大降低了系统对企业信息设施的要求,使其能在千差万别的企业基础信息设施上部署;基于本体的语义计算模型和行业本体的半自动化构建技术,使得基 于字典的语义计算技术真正实用化,实现了高质量的语义搜索,并能适用于不同行业的需求;独创的基于统计和等级认证的情报评价算法、基于最大熵的倾向性分析技术和数据挖掘技术的结合,实现了情报信息的多角度分析功能。本系统不但可以提高企业情报分析的准确度、减少冗余,而且可以在更小粒度、更加微观的分析角度上获得良好效果。此外,对微博等较短文本的分析比之一般的语义分析技术更有效,应用前景广泛。本系统能够为中小型企业提供定制搜索与情报分析服务,大大降低了企业商机情报获取成本,提高获取信息的能力,属国内首创。 
本发明是通过以下方案实现的,一种基于云服务的新型互联网商业情报语义分析技术,通过综合多种数据挖掘和文本提取手段,半自动化构建一种适宜本项目提出的语义计算模型的任意行业的本体系统,并用其指导行业数据源自动发现、采集和基于语义的情报信息搜索,以实现提高搜索、分析质量,降低系统对硬件条件的要求。利用独创的基于统计和等级认证的报评价算法、基于最大熵的倾向性分析技术和多种实用数据挖掘技术的结合,实现对情报数据的倾向性、可信度等多角辅助分析,事件、话题、行业类别、竞争对手等多主体多粒度分析,时间序列、地区分布等多维度的辅助分析。 
本发明的有益效果在于:不仅开发的产品具有良好的市场前景,其推广应用的领域较广,达到的技术水平较高,在国民经济发展中具有十分重要的作用。 
具体实施方式
本项目采用时间序列数据挖掘、文本分类、文本聚类、文本情感倾向分析等手段,为中小企业提供全面的情报分析工作。本发明的实施步骤如下: 
1)文档语义表示和语义本体库建设系统。在本体的指导下,分析句子,得到句子的名词性概念、动作概念和倾向性(详细描述见创新点),得到语句的语义描述,接着在本体系统的指导下,统计分析段落主要语义指代,然后利用文档篇章结构总结篇章主要描述对象、语义倾向性等语义基本信息,并与文档一起关联存储,以支持语义搜索和情报分析。 
2)行业相关数据探测和抓取:通过两种途径解决采集问题,一是定点采集,通过用户配置采集已知的数据源;另一方面采用我们独创的web行业信息探针,利用行业本体,通过URL链路、搜索引擎跳板等手段,找备选网站,然后验证网站或者子站、子目录是否为企业相关信息、相关密度是什么,并通过网站拓扑、url结构,form表格等等对深度网络(deep web)进行挖掘,以找潜在数据源,由于deep web很多是结构化良好的数据,便于分析,且往往在通用搜索引擎下无法搜索得到,对客户有巨大价值。这种策略在没有损失行业数据收录量的情况下,极大地节约带宽和数据检索量,并提高了数据入库周期,提高实时度。 
3)WEB页面解析和语义摘要提取。Web页面解析即通过分析标签,解析HTML页面,并提取出正文内容。语义摘要问题在本系统中存在两种情况,一种情况是为了便于客户浏览信息而做的全文摘要;另一种是搜索结果的信息摘要。第一类是以尽量涵盖文档主要信息为出发点,第二类在第一点的前提下还要考虑用户搜索词的密度等问题。本系统中,利用语义分析技术,对篇章每句话作语义分析,标注动词性语义点、名词性语义点和语义倾向性,然后汇总成段落和整个篇章的语义侧重点,最后利用语义侧重点,结合篇章特点,以字数(如400字)为约束条件,来挑选尽可能涵盖全文语义的若干个“句组”组成全文摘要。搜索结果的文档摘要实现上不同之处在于增加搜索词(包括概念接近词)的密度这个约束条件。 
4)基于语义的搜索技术。本系统在语义搜索方面主要技术支撑点包括文档的概念化索引、搜索词的概念化重写、基于用户兴趣的搜索结果过滤以及基于语义搜索技术的推荐技术等。文档的概念化索引基于上文描述的文档语义表示技术,将文档的语义描述(语义本体空间),然后把这些概念以及概念的权重等其他附加语义信息作为索引对象,存储为倒排索引索引文件。搜索词的概念化重写指的是将用户的搜索词也映射到本体所定义的语义空间中。本项目的特点决定了我们了解更多用户的背景可以更加深度地跟踪用户行为,例如操作历史等,使得我们自个性化搜索上具有巨大先天优势。本系统在这个过程中还充分考虑了用户偏好的指导意义,对命中的搜索结果中的各个文档与用户偏好的语义匹配程度,对其排名作适度调整。语义搜索技术在本系统中还是其他若干模块(如重点推荐情报,情报漫游等)的底层支持。实现上将用户高频度搜索词与最近搜索词进行排序,并验证最近采集到的数据与之匹配程度,来估算用户对其感兴趣的程度,作为推荐情报和浏览排序的重要参考依据。 
5)中文分词。分词技术作为自然语言处理的基础环节,同时也是关键环节之一。它的质量好坏直接影响后续搜索、文本分类、文本聚类、情感分析等子系统的准确率。到目前为止,中文分词包括三种方法:1)基于字符串匹配的分词;2)基于理解的分词;3)基于统计的分词。本项目在参考国内外先进中文分词系统基础上,研究实现了使用六字位标注集的基于条件随机场模型的中文分词系统。改变了以往分词系统只使用字标注集,过分依赖统计,无法利用先验知识的缺陷。增加纠错词库,对待分词语句先用纠错词库粗切分,在此基础上再利用条件随机场模型切分。中文分词准确率>99.7%。 
6)词性标记。词性标记(POS Tagging)即是为文本中的词分配词性信 息(例如名词、动词等)。结合分词后的词性特征,能有效提高理解用户搜索准确率。 
7)网页去重。一是网页文本分类,为企业用户提供目录导航服务,进而提高系统的查准率;二是网页文本聚类,将企业用户感兴趣的网页全部聚在一起,提升用户搜索便利性;三是语义个性化搜索,解决不同用户输入搜索词意图不同的问题。 
8)时间序列数据挖掘。发现多时间序列中的频繁结构模式对于人们更彻底的认识各个时间序列的相互影响并据此做出合理的决策具有重要的参考价值。提供企业产品价格、原材料市场库存等变化规律发现和预测。 
9)文本倾向分析,用于监控企业、产品、竞争对手形象。每个企业都需要知道他们自己产品的声誉或者竞争对手产品、品牌的声誉,对他们自己的产品发展、市场和客户关系经营是非常有价值的。通过在线文本的文本内容分析,自动探测和分析对感兴趣话题的“喜爱度”。 

Claims (2)

1.一种基于云服务的新型互联网商业情报语义分析技术,其特征在于:通过综合多种数据挖掘和文本提取手段,半自动化构建一种适宜本项目提出的语义计算模型的任意行业的本体系统,并用其指导行业数据源自动发现、采集和基于语义的情报信息搜索,以实现提高搜索、分析质量,降低系统对硬件条件的要求。
2.如权利要求1所述的一种基于云服务的新型互联网商业情报语义分析技术,其特征在于:利用独创的基于统计和等级认证的报评价算法、基于最大熵的倾向性分析技术和多种实用数据挖掘技术的结合,实现对情报数据的倾向性、可信度等多角辅助分析,事件、话题、行业类别、竞争对手等多主体多粒度分析,时间序列、地区分布等多维度的辅助分析。
CN201210144233XA 2012-05-11 2012-05-11 一种基于云服务的新型互联网商业情报语义分析技术 Pending CN103389998A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210144233XA CN103389998A (zh) 2012-05-11 2012-05-11 一种基于云服务的新型互联网商业情报语义分析技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210144233XA CN103389998A (zh) 2012-05-11 2012-05-11 一种基于云服务的新型互联网商业情报语义分析技术

Publications (1)

Publication Number Publication Date
CN103389998A true CN103389998A (zh) 2013-11-13

Family

ID=49534274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210144233XA Pending CN103389998A (zh) 2012-05-11 2012-05-11 一种基于云服务的新型互联网商业情报语义分析技术

Country Status (1)

Country Link
CN (1) CN103389998A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182465A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于网络的大数据处理方法
CN104182389A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义的大数据分析商业智能服务系统
CN104182464A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义的文本检索方法
CN104182467A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种网络数据源探测方法
CN104281566A (zh) * 2014-10-13 2015-01-14 安徽华贞信息科技有限公司 一种语义化文本描述方法及系统
CN104281692A (zh) * 2014-10-13 2015-01-14 安徽华贞信息科技有限公司 一种实现段落维度化描述方法及系统
CN104281693A (zh) * 2014-10-13 2015-01-14 安徽华贞信息科技有限公司 一种语义搜索方法及系统
CN104317845A (zh) * 2014-10-13 2015-01-28 安徽华贞信息科技有限公司 一种深度网络数据自动抽取方法及系统
CN106776755A (zh) * 2016-11-16 2017-05-31 盐城工学院 一种面向对象式的情报管理系统
CN106844640A (zh) * 2017-01-22 2017-06-13 漳州科技职业学院 一种网页数据分析处理方法
CN106934054A (zh) * 2017-03-17 2017-07-07 前海梧桐(深圳)数据有限公司 基于大数据的企业细分行业精准分析方法及其系统
CN108154382A (zh) * 2016-12-02 2018-06-12 本田技研工业株式会社 评价装置、评价方法及存储介质
CN109032780A (zh) * 2018-07-10 2018-12-18 广州极天信息技术股份有限公司 一种语义网服务接口装置
CN109857933A (zh) * 2019-01-21 2019-06-07 深圳市祥云万维科技有限公司 一种关键词分析系统与方法
CN111026804A (zh) * 2019-12-04 2020-04-17 深圳瑞力网科技有限公司 一种基于语义的大数据分析智能服务系统
CN112905740A (zh) * 2021-02-04 2021-06-04 合肥工业大学 一种竞品层次的主题偏好挖掘方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5781879A (en) * 1996-01-26 1998-07-14 Qpl Llc Semantic analysis and modification methodology
CN101158963A (zh) * 2007-10-31 2008-04-09 中兴通讯股份有限公司 一种情报收集处理和检索系统
CN101866340A (zh) * 2009-04-14 2010-10-20 上海成方信息科技有限公司 一种产品情报的在线检索和智能分析方法与系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5781879A (en) * 1996-01-26 1998-07-14 Qpl Llc Semantic analysis and modification methodology
CN101158963A (zh) * 2007-10-31 2008-04-09 中兴通讯股份有限公司 一种情报收集处理和检索系统
CN101866340A (zh) * 2009-04-14 2010-10-20 上海成方信息科技有限公司 一种产品情报的在线检索和智能分析方法与系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
唐涛 等: "基于数据挖掘的企业竞争情报智能采集模型研究", 《情报科学》 *
张玉峰 等: "基于本体的竞争情报语义整合与分析研究", 《情报理论与实践 》 *
方明 等: "基于最大熵模型的评价搭配识别", 《计算机应用研究》 *
殷之明 等: "基于数据挖掘的竞争情报智能获取模型研究", 《情报探索》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182389A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义的大数据分析商业智能服务系统
CN104182464A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义的文本检索方法
CN104182467A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种网络数据源探测方法
CN104182465A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于网络的大数据处理方法
CN104182389B (zh) * 2014-07-21 2018-01-19 安徽华贞信息科技有限公司 一种基于语义的大数据分析商业智能服务系统
CN104281566A (zh) * 2014-10-13 2015-01-14 安徽华贞信息科技有限公司 一种语义化文本描述方法及系统
CN104281692A (zh) * 2014-10-13 2015-01-14 安徽华贞信息科技有限公司 一种实现段落维度化描述方法及系统
CN104281693A (zh) * 2014-10-13 2015-01-14 安徽华贞信息科技有限公司 一种语义搜索方法及系统
CN104317845A (zh) * 2014-10-13 2015-01-28 安徽华贞信息科技有限公司 一种深度网络数据自动抽取方法及系统
CN106776755A (zh) * 2016-11-16 2017-05-31 盐城工学院 一种面向对象式的情报管理系统
CN108154382A (zh) * 2016-12-02 2018-06-12 本田技研工业株式会社 评价装置、评价方法及存储介质
US11373198B2 (en) 2016-12-02 2022-06-28 Honda Motor Co., Ltd. Evaluation device, evaluation method, and evaluation program
CN106844640B (zh) * 2017-01-22 2020-02-21 漳州科技职业学院 一种网页数据分析处理方法
CN106844640A (zh) * 2017-01-22 2017-06-13 漳州科技职业学院 一种网页数据分析处理方法
CN106934054A (zh) * 2017-03-17 2017-07-07 前海梧桐(深圳)数据有限公司 基于大数据的企业细分行业精准分析方法及其系统
CN109032780A (zh) * 2018-07-10 2018-12-18 广州极天信息技术股份有限公司 一种语义网服务接口装置
CN109857933A (zh) * 2019-01-21 2019-06-07 深圳市祥云万维科技有限公司 一种关键词分析系统与方法
CN111026804A (zh) * 2019-12-04 2020-04-17 深圳瑞力网科技有限公司 一种基于语义的大数据分析智能服务系统
CN112905740A (zh) * 2021-02-04 2021-06-04 合肥工业大学 一种竞品层次的主题偏好挖掘方法
CN112905740B (zh) * 2021-02-04 2022-08-30 合肥工业大学 一种竞品层次的主题偏好挖掘方法

Similar Documents

Publication Publication Date Title
CN103389998A (zh) 一种基于云服务的新型互联网商业情报语义分析技术
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及系统
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
CN103870973B (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
CN105022827B (zh) 一种面向领域主题的Web新闻动态聚合方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN103390051A (zh) 一种基于微博数据的话题发现与追踪方法
CN103838833A (zh) 基于相关词语语义分析的全文检索系统
CN104899268A (zh) 一种分布式企业信息垂直搜索方法
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN103914478A (zh) 网页训练方法及系统、网页预测方法及系统
CN102243661B (zh) 网站内容质量评估方法和装置
CN105653668A (zh) 云环境中基于DOMTree的网页内容分析提取优化方法
CN103473280A (zh) 一种网络可比语料的挖掘方法及装置
CN103617174A (zh) 一种基于云计算的分布式搜索方法
CN102722498A (zh) 搜索引擎及其实现方法
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
Claster et al. Naïve Bayes and unsupervised artificial neural nets for Cancun tourism social media data analysis
CN103177036A (zh) 一种标签自动提取方法和系统
CN102722501A (zh) 搜索引擎及其实现方法
CN102693304A (zh) 一种搜索引擎的反馈信息处理方法及搜索引擎
CN102722499A (zh) 搜索引擎及其实现方法
Nikhil et al. A survey on text mining and sentiment analysis for unstructured web data
CN106649498A (zh) 一种基于爬虫和文本聚类分析的网络舆情分析系统
CN111859065A (zh) 一种基于大数据的舆情聆听系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
DD01 Delivery of document by public notice

Addressee: Anhui Huazhen Information Science & Technology Co., Ltd.

Document name: the First Notification of an Office Action

DD01 Delivery of document by public notice

Addressee: Anhui Huazhen Information Science & Technology Co., Ltd.

Document name: Notification that Application Deemed to be Withdrawn

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20131113