CN107229612A - 一种网络信息语义倾向分析方法及系统 - Google Patents

一种网络信息语义倾向分析方法及系统 Download PDF

Info

Publication number
CN107229612A
CN107229612A CN201710378177.9A CN201710378177A CN107229612A CN 107229612 A CN107229612 A CN 107229612A CN 201710378177 A CN201710378177 A CN 201710378177A CN 107229612 A CN107229612 A CN 107229612A
Authority
CN
China
Prior art keywords
text
speech
sentiment orientation
sequence
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710378177.9A
Other languages
English (en)
Other versions
CN107229612B (zh
Inventor
孙世通
赵江华
刘德彬
严开
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Yijin Technology Co.,Ltd.
Chongqing Yucun Technology Co ltd
Original Assignee
Chongqing Yu Yu Da Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Yu Yu Da Data Technology Co Ltd filed Critical Chongqing Yu Yu Da Data Technology Co Ltd
Priority to CN201710378177.9A priority Critical patent/CN107229612B/zh
Publication of CN107229612A publication Critical patent/CN107229612A/zh
Application granted granted Critical
Publication of CN107229612B publication Critical patent/CN107229612B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于计算机技术领域,提供了一种网络信息语义倾向分析方法及系统,包括获取企业名称;使用网络爬虫在互联网上搜索与该企业相关的信息,并将这些信息以文本的形式存储在数据库中;使用分词器将上述文本分解为符合逻辑的词语序列,并将词语序列存储在分词库中;从分词库中取出所述词语序列,输入语料分析器,得到带词性标注的词语序列;将所述带词性标注的词语序列输入情感倾向分类器,得到文本的情感倾向值,进而得到文本的情感倾向。本发明以互联网海量信息作为信息来源,快速计算和判断企业信息的正面负面倾向,可让公众用户快速、全面的获取企业的经营和舆论信息,也可以为行业、机构、企业用户提供信息检索技术服务。

Description

一种网络信息语义倾向分析方法及系统
技术领域
本发明属计算机技术领域,具体涉及一种一种网络信息语义倾向分析方法及系统。
背景技术
在通常情况下,公众或投资者需要通过不同的信息来源获取企业的经营信息和与企业经营相关的政策和行业信息,例如工商局、税务局、法院、各级行政单位和行业协会,再进行信息的汇总、处理和分析。公众投资者根据分析结论结合自身个性化的风险偏好做出投资决策。
在金融和证券业务领域内,有信息的推送方案可供用户使用,特别是在某些证券交易软件内,软件会将一些与该企业相关的信息经过分类和标注之后推送给用户查看。而该推送方案的信息来源是根据该企业拥有的固有信息发布渠道,比如公司网站、证券信息批露网站等。该技术方案信息来源单一,获取的信息面窄,并且没有运用技术的方法对信息的影响作出判断和评估,仍需要用户以自身经验和倾向对信息内容进行判断和评估。
发明内容
针对以上问题的不足,本发明提供了一种一种网络信息语义倾向分析方法及系统,本发明以互联网海量信息作为信息来源,快速计算和判断企业信息的正面负面倾向,可让公众用户快速、全面的获取企业的经营和舆论信息,也可以为行业、机构、企业用户提供信息检索技术服务。
一种网络信息语义倾向分析方法,包括:
获取企业名称;
使用网络爬虫在互联网上搜索与该企业相关的信息,并将这些信息以文本的形式存储在数据库中;
使用分词器将上述文本分解为符合逻辑的词语序列,并将词语序列存储在分词库中;
从分词库中取出所述词语序列,输入语料分析器,得到带词性标注的词语序列;
将所述带词性标注的词语序列输入情感倾向分类器,得到文本的情感倾向值,进而得到文本的情感倾向。
优选地,所述语料分析器将词组序列里的每个词语与词语感情色彩索引库进行对比,得到情感词性标注的词语序列。
优选地,所述词语感情色彩索引库存储有大量词语、对每个词语的汉语词性标注和对每个词汇的情感词性标注。
优选地,所述情感词性包括四类:褒义、贬义、中性和否定。
优选地,所述词性标注的标注方式为:词语/汉语词性后缀/情感词性后缀,其中,所述情感词性后缀定义包括为:
褒义词性后缀:1;
贬义词性后缀:0;
中性词性后缀:NA;
否定词性后缀:-1。
优选地,所述文本的情感倾向包括三类:积极倾向、消极倾向和中性。
优选地,所述情感倾向分类器的算法步骤如下:
S51:根据词组序列中的汉语词性标注,分句提取每一句的情感词性后缀,得到每一句的情感词性后缀序列,
Sm={Wm1,Wm2……Wmn},
其中,Sm为文本中第m句的所有词的情感词性后缀序列,
Wmn为文本中第m句第n个词的情感词性后缀;
S52:采用逻辑决策法计算每一句的情感倾向值,定义情感倾向值:积极倾向为1,消极倾向为0,中性为NA,
其中,Sem为文本中第m句的情感倾向值,
Wmn为文本中第m句第n个词的情感词性后缀;
N为第m句的词总数;
S53:根据每一句的情感倾向值,得到文本中所有句子的情感倾向值序列,
T={Se1,Se2……Sem},
其中,T为文本中所有句子的情感倾向值序列;
S54:采用逻辑决策法计算文本的情感倾向值,得到该文本信息的情感倾向,
其中,Te为文本的情感倾向值,
Sem为文本中第m句的情感倾向值;
M为文本的句子总数。
优选地,所述逻辑决策法包括以下计算方法:
第一种:Pi=1,Pi+1=1,则PiPi+1=1;
第二种:Pi=0,Pi+1=0,则PiPi+1=0;
第三种:Pi=1,Pi+1=0或Pi=0,Pi+1=1,则PiPi+1=NA;
第四种:Pi=-1,Pi+1=1,则PiPi+1=0;
第五种:Pi=-1,Pi+1=0,则PiPi+1=1;
其中Pi为一句中第i个词语的情感词性后缀;
Pi+1为一句中第i+1个词语的情感词性后缀;
第六种:Rj=1,Rj+1=1,则RjRj+1=1;
第七种:Rj=0,Rj+1=0,则RjRj+1=0;
第八种:Rj=1,Rj+1=0或Rj=0,Rj+1=1,则RjRj+1=NA;
其中Rj为第j句的情感倾向值;
Rj+1为第j+1句的情感倾向值;
所述第四种和第五种为特殊逻辑算法,句子中出现否定词时,否定词的情感词性后缀与后一词的情感词性后缀优先计算,并得到与后一词的情感词性后缀相反的结论。
优选地,还包括获取用户的反馈信息,根据用户的反馈,情感倾向分类器进行自动学习,对自身规则进行更新或增加。
一种网络信息语义倾向分析系统,包括:
输入模块,用于获取企业名称;
信息收集模块,用于使用网络爬虫在互联网上搜索与该企业相关的信息,并将这些信息以文本的形式存储在数据库中;
文本分词模块,用于使用分词器将上述文本分解为符合逻辑的自然词组序列,并将词组序列存储在分词库中;
语义分析模块,用于从分词库中取出词组序列,输入语料分析器,得到带汉语词性标注和情感词性标注的词组序列;
倾向分类模块,用于将带词性标注的词组序列输入情感倾向分类器,对文本进行情感倾向判断,得到文本的情感倾向;
自动学习模块,用于获取用户的反馈信息,根据用户的反馈,情感倾向分类器进行自动学习,对自身规则进行更新或增加。
由上述方案可知,本发明以互联网海量公开信息为作为信息来源,以各个电子政务网站、公司网站、新闻门户网站、行业机构网站等渠道方式,收集全面的政策、新闻、公告等与企业相关的全面信息,解决信息来源单一、信息面窄的问题;通过对这些信息的分析,快速计算和判断企业信息的正面负面倾向,可让公众用户快速、全面的获取企业的经营和舆论信息,也可以为行业、机构、企业用户提供信息检索技术服务。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本实施例中网络信息语义倾向分析方法的流程图;
图2为本实施例中情感分类器的算法流程图;
图3为本实施例中网络信息语义倾向分析系统的原理框图。
具体实施方式
下面将结合附图对本发明的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的产品,因此只是作为示例,而不能以此来限制本发明的保护范围。
实施例:
本发明实施例提供的一种网络信息语义倾向分析方法,如图1所示,包括:
S1,获取企业名称;
S2,使用网络爬虫在互联网上搜索与该企业相关的信息,并将这些信息以文本的形式存储在数据库中;
S3,使用分词器将上述文本分解为符合逻辑的词语序列,并将词语序列存储在分词库中;
S4,从分词库中取出所述词语序列,输入语料分析器,得到带词性标注的词语序列,所述情感词性包括四类:褒义、贬义、中性和否定;
S5,将所述带词性标注的词语序列输入情感倾向分类器,得到文本的情感倾向值,进而得到文本的情感倾向,所述文本的情感倾向包括三类:积极倾向、消极倾向和中性;
S6,获取用户的反馈信息,根据用户的反馈,情感倾向分类器进行自动学习,对自身规则进行更新或增加。
所述S6包括以下具体步骤:
S61,倾向分类器将计算结果输出给用户,结果分为三种情况(1,-1或者NA),分析系统展示的结论为(积极,消极或中性)三种倾向;
S62,用户判断倾向分类器计算结果是否正确,在分析系统的人机交互界面上可以选择(正确或者错误)的选项,用户反馈器将【正确】定义为【1】,将【错误】定义为【-1】,结果定义值直接送入算法进化器运算;
S63,算法进化器接收用户反馈结果,将[倾向分类器计算结果]与用户反馈结果进行对比,将大量用户反馈的异常结果进行算法分析,更新或增加算法规则,通常是多感情色彩词语,或者词性变化引起的句子感情倾向变化;
S64,算法进化器将更新后算法规则送入倾向分类器,倾向分类器对自身规则进行更新或者增加,算法进化完成。
所述网络爬虫是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。
所述分词器是将一段文本分解为按逻辑顺序分解了若干个词的一种算法。
本实施例中通过有关企业的互联网信息可判断出企业的经营和舆论信息的积极倾向或消极倾向或无倾向。本实施例中情感倾向分类器的自动学习,使本算法得到的结果无限接近于人类对自然语言的理解和判断结论。
所述语料分析器将词组序列里的每个词语与词语感情色彩索引库进行对比,得到情感词性标注的词语序列。所述词语感情色彩索引库存储有大量词语、对每个词语的汉语词性标注和对每个词汇的情感词性标注。
所述词性标注的标注方式为:词语/汉语词性后缀/情感词性后缀,其中,所述情感词性后缀定义包括为:
褒义词性后缀:1;
贬义词性后缀:0;
中性词性后缀:NA;
否定词性后缀:-1。
所述情感倾向分类器的算法步骤如下:
S51:根据词组序列中的汉语词性标注,分句提取每一句的情感词性后缀,得到每一句的情感词性后缀序列,
Sm={Wm1,Wm2……Wmn},
其中,Sm为文本中第m句的所有词的情感词性后缀序列,
Wmn为文本中第m句第n个词的情感词性后缀;
S52:采用逻辑决策法计算每一句的情感倾向值,定义情感倾向值:积极倾向为1,消极倾向为0,中性为NA,
其中,Sem为文本中第m句的情感倾向值,
Wmn为文本中第m句第n个词的情感词性后缀;
N为第m句的词总数;
S53:根据每一句的情感倾向值,得到文本中所有句子的情感倾向值序列,
T={Se1,Se2……Sem},
其中,T为文本中所有句子的情感倾向值序列;
S54:采用逻辑决策法计算文本的情感倾向值,得到该文本信息的情感倾向,
其中,Te为文本的情感倾向值,
Sem为文本中第m句的情感倾向值;
M为文本的句子总数。
优选地,所述逻辑决策法包括以下计算方法:
第一种:Pi=1,Pi+1=1,则PiPi+1=1;
第二种:Pi=0,Pi+1=0,则PiPi+1=0;
第三种:Pi=1,Pi+1=0或Pi=0,Pi+1=1,则PiPi+1=NA;
第四种:Pi=-1,Pi+1=1,则PiPi+1=0;
第五种:Pi=-1,Pi+1=0,则PiPi+1=1;
其中Pi为一句中第i个词语的情感词性后缀;
Pi+1为一句中第i+1个词语的情感词性后缀;
第六种:Rj=1,Rj+1=1,则RjRj+1=1;
第七种:Rj=0,Rj+1=0,则RjRj+1=0;
第八种:Rj=1,Rj+1=0或Rj=0,Rj+1=1,则RjRj+1=NA;
其中Rj为第j句的情感倾向值;
Rj+1为第j+1句的情感倾向值;
所述第四种和第五种为特殊逻辑算法,句子中出现否定词时,否定词的情感词性后缀与后一词的情感词性后缀优先计算,并得到与后一词的情感词性后缀相反的结论。
一种网络信息语义倾向分析系统,包括:
输入模块,用于获取企业名称;
信息收集模块,用于使用网络爬虫在互联网上搜索与该企业相关的信息,并将这些信息以文本的形式存储在数据库中;
文本分词模块,用于使用分词器将上述文本分解为符合逻辑的自然词组序列,并将词组序列存储在分词库中;
语义分析模块,用于从分词库中取出词组序列,输入语料分析器,得到带汉语词性标注和情感词性标注的词组序列;
倾向分类模块,用于将带词性标注的词组序列输入情感倾向分类器,对文本进行情感倾向判断,得到文本的情感倾向;
自动学习模块,用于获取用户的反馈信息,根据用户的反馈,情感倾向分类器进行自动学习,对自身规则进行更新或增加。
举例方案一
步骤1,系统在互联网上获取到一则新闻如下:
“乐视网是今年以来A股市场上的焦点公司,先是乐视控股的“生态化反”遭遇种种质疑,后有拖欠供应商货款而被诉诸法庭,还面临着股价破位下跌后可能触发股票质押平仓的危机。”
步骤2,对文本进行汉语词性标注,结果如下:
乐视网/ns 是/vl 今年/nt 以来/nt A/ws 股市/n 场上/nl 的/u 焦点/n 公司/n ,/w 先是/c 乐视控股/n 的/u “/w 生态化反/n ”/w 遭遇/n 种/v 种/v 质疑/v ,/w后/nd 有/v 拖欠/v 供应商/n 货款/n 而/c 被/p 诉诸/v 法庭/n ,/w 还/d 面临/v 着/u 股价/n 破/a 位/q 下跌/v 后/nd 可能/vu 触发/v 股票/n 质押/v 平仓/v 的/u 危机/n 。/w
步骤3:对上述文本进行情感词性标注,结果如下:
乐视网/ns/NA 是/vl/1 今年/nt/NA 以来/nt/NA A/ws/NA 股市/n/NA 场上/nl/NA 的/u/NA 焦点/n/1 公司/n/NA ,/w/NA 先是/c/NA 乐视控股/n/NA 的/u/NA “/w 生态化反/n/NA”/w/NA 遭遇/n/0 种种/v/NA 质疑/v/0 ,/w/NA 后/nd/NA 有/v/1 拖欠/v/0供应商/n/NA 货款/n/NA 而/c/NA 被/p/NA 诉诸/v/NA 法庭/n/NA ,/w/NA 还/d/NA 面临/v/0 着/u/NA 股价/n/NA 破/a/0 位/q/NA 下跌/v/0 后/nd/NA 可能/vu/NA 触发/v/NA 股票/n/NA 质押/v/0 平仓/v/0 的/u/NA 危机/n/0 。/w/NA
步骤4:计算每一句的情感倾向值:
句子1:乐视网/ns/NA 是/vl/1 今年/nt/NA 以来/nt/NA A/ws/NA 股市/n/NA 场上/nl/NA 的/u/NA 焦点/n/1 公司/n/NA ,/w/NA
S1={NA,1,NA,NA,NA,NA,NA,NA,1,NA,NA}
Se1=1;计算结果为1,表示积极情感。
句子2:先是/c/NA 乐视控股/n/NA 的/u/NA “/w/NA 生态化反/n/NA”/w/NA 遭遇/n/0 种种/v/NA 质疑/v/0 ,/w/NA
S2={NA,NA,NA,NA,NA,NA,0,NA,0,NA}
Se2=0;计算结果为0,表示消极情感。
句子3:后/nd/NA 有/v/1 拖欠/v/0 供应商/n/NA 货款/n/NA 而/c/NA 被/p/NA诉诸/v/NA 法庭/n/NA,
S3={NA,1,0,NA,NA,NA,NA,NA,NA}
Se3=0;计算结果为0,表示消极情感。
句子4:还/d/NA 面临/v/0 着/u/NA 股价/n/NA 破/a/0 位/q/NA 下跌/v/0 后/nd/NA 可能/vu/NA 触发/v/NA 股票/n/NA 质押/v/0 平仓/v/0 的/u/NA 危机/n/0 。/w/NA
S4={NA,0,NA,NA,0,NA,0,NA,NA,NA,NA,0,O,NA,0,NA}
Sem4=0;计算结果为0,表示消极情感。
步骤5:对整段文本进行赋值,以句子情感赋值序列:
T={Se1,Sem,Se3,Se4}={1,0,0,0}
Te=0;计算结果为0,表示消极情感。
步骤6:分析系统根据整句计算结果为0(Te=0),将整段新闻判定为消极倾向的新闻。
举例方案二(带否定句式)
例句:我不认为你不是一个好人。
步骤1,对文本进行词性标注:
我/r/NA 不/d/-1 认为/v/NA 你/r/NA 不是/d/-1 一个/r/NA 好人/n/1 。/w/NA
步骤2,获得词性后缀序列:
S={NA,-1,NA,NA,-1,NA,1,NA}
步骤3,执行优先计算步骤:
优先计算W1={不是/d/-1 一个/r/NA 好人/n/1}={-1,NA,1}=0
优先计算W2={不/d/-1 认为/v/NA 你/r/NA W1}={-1,NA,NA,0}=1
步骤4,整句计算:
S={NA,W2,NA}=W2=1
结论:例句“我不认为你不是一个好人。”是一个积极情感倾向的句子。
本实施例以互联网海量公开信息为作为信息来源,以各个电子政务网站、公司网站、新闻门户网站、行业机构网站等渠道方式,收集全面的政策、新闻、公告等与企业相关的全面信息;在获得全量信息的基础之上,通过语义分析得到信息的情感倾向,或积极或消极或中性,积极为正面影响,消极则为负面影响。本实施例可让公众用户快速、全面的获取特定企业的经营和舆论信息,也可以为行业、机构、企业用户提供信息检索技术服务。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种网络信息语义倾向分析方法,其特征在于,包括:
获取企业名称;
使用网络爬虫在互联网上搜索与该企业相关的信息,并将这些信息以文本的形式存储在数据库中;
使用分词器将上述文本分解为符合逻辑的词语序列,并将词语序列存储在分词库中;
从分词库中取出所述词语序列,输入语料分析器,得到带词性标注的词语序列;
将所述带词性标注的词语序列输入情感倾向分类器,得到文本的情感倾向值,进而得到文本的情感倾向。
2.根据权利要求1所述的网络信息语义倾向分析方法,其特征在于,所述语料分析器将词组序列里的每个词语与词语感情色彩索引库进行对比,得到情感词性标注的词语序列。
3.根据权利要求2所述的网络信息语义倾向分析方法,其特征在于,所述词语感情色彩索引库存储有大量词语、对每个词语的汉语词性标注和对每个词汇的情感词性标注。
4.根据权利要求1所述的网络信息语义倾向分析方法,其特征在于,所述情感词性包括四类:褒义、贬义、中性和否定。
5.根据权利要求4所述的网络信息语义倾向分析方法,其特征在于,所述词性标注的标注方式为:词语/汉语词性后缀/情感词性后缀,其中,所述情感词性后缀定义包括为:
褒义词性后缀:1;
贬义词性后缀:0;
中性词性后缀:NA;
否定词性后缀:-1。
6.根据权利要求5所述的网络信息语义倾向分析方法,其特征在于,所述文本的情感倾向包括三类:积极倾向、消极倾向和中性。
7.根据权利要求6所述的网络信息语义倾向分析方法,其特征在于,所述情感倾向分类器的算法步骤如下:
S51:根据词组序列中的汉语词性标注,分句提取每一句的情感词性后缀,得到每一句的情感词性后缀序列,
Sm={Wm1,Wm2……Wmn},
其中,Sm为文本中第m句的所有词的情感词性后缀序列,
Wmn为文本中第m句第n个词的情感词性后缀;
S52:采用逻辑决策法计算每一句的情感倾向值,定义情感倾向值:积极倾向为1,消极倾向为0,中性为NA,
<mrow> <msub> <mi>S</mi> <mrow> <mi>e</mi> <mi>m</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&amp;Pi;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mrow> <mi>m</mi> <mi>n</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
其中,Sem为文本中第m句的情感倾向值,
Wmn为文本中第m句第n个词的情感词性后缀;
N为第m句的词总数;
S53:根据每一句的情感倾向值,得到文本中所有句子的情感倾向值序列,T={Se1,Se2……Sem},
其中,T为文本中所有句子的情感倾向值序列;
S54:采用逻辑决策法计算文本的情感倾向值,得到该文本信息的情感倾向,
<mrow> <msub> <mi>T</mi> <mi>e</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Pi;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mrow> <mi>e</mi> <mi>m</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
其中,Te为文本的情感倾向值,
Sem为文本中第m句的情感倾向值;
M为文本的句子总数。
8.根据权利要求7所述的网络信息语义倾向分析方法,其特征在于,所述逻辑决策法包括以下计算方法:
第一种:Pi=1,Pi+1=1,则PiPi+1=1;
第二种:Pi=0,Pi+1=0,则PiPi+1=0;
第三种:Pi=1,Pi+1=0或Pi=0,Pi+1=1,则PiPi+1=NA;
第四种:Pi=-1,Pi+1=1,则PiPi+1=0;
第五种:Pi=-1,Pi+1=0,则PiPi+1=1;
其中Pi为一句中第i个词语的情感词性后缀;
Pi+1为一句中第i+1个词语的情感词性后缀;
第六种:Rj=1,Rj+1=1,则RjRj+1=1;
第七种:Rj=0,Rj+1=0,则RjRj+1=0;
第八种:Rj=1,Rj+1=0或Rj=0,Rj+1=1,则RjRj+1=NA;
其中Rj为第j句的情感倾向值;
Rj+1为第j+1句的情感倾向值;
所述第四种和第五种为特殊逻辑算法,句子中出现否定词时,否定词的情感词性后缀与后一词的情感词性后缀优先计算,并得到与后一词的情感词性后缀相反的结论。
9.根据权利要求1所述的网络信息语义倾向分析方法,其特征在于,还包括获取用户的反馈信息,根据用户的反馈,情感倾向分类器进行自动学习,对自身规则进行更新或增加。
10.一种网络信息语义倾向分析系统,其特征在于,包括:
输入模块,用于获取企业名称;
信息收集模块,用于使用网络爬虫在互联网上搜索与该企业相关的信息,并将这些信息以文本的形式存储在数据库中;
文本分词模块,用于使用分词器将上述文本分解为符合逻辑的自然词组序列,并将词组序列存储在分词库中;
语义分析模块,用于从分词库中取出词组序列,输入语料分析器,得到带汉语词性标注和情感词性标注的词组序列;
倾向分类模块,用于将带词性标注的词组序列输入情感倾向分类器,对文本进行情感倾向判断,得到文本的情感倾向;
自动学习模块,用于获取用户的反馈信息,根据用户的反馈,情感倾向分类器进行自动学习,对自身规则进行更新或增加。
CN201710378177.9A 2017-05-24 2017-05-24 一种网络信息语义倾向分析方法及系统 Active CN107229612B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710378177.9A CN107229612B (zh) 2017-05-24 2017-05-24 一种网络信息语义倾向分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710378177.9A CN107229612B (zh) 2017-05-24 2017-05-24 一种网络信息语义倾向分析方法及系统

Publications (2)

Publication Number Publication Date
CN107229612A true CN107229612A (zh) 2017-10-03
CN107229612B CN107229612B (zh) 2021-01-08

Family

ID=59933408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710378177.9A Active CN107229612B (zh) 2017-05-24 2017-05-24 一种网络信息语义倾向分析方法及系统

Country Status (1)

Country Link
CN (1) CN107229612B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363699A (zh) * 2018-03-21 2018-08-03 浙江大学城市学院 一种基于百度贴吧的网民学业情绪分析方法
CN108846547A (zh) * 2018-05-06 2018-11-20 成都信息工程大学 一种动态调整的企业信用风险评估方法
CN109032780A (zh) * 2018-07-10 2018-12-18 广州极天信息技术股份有限公司 一种语义网服务接口装置
CN109472470A (zh) * 2018-10-23 2019-03-15 重庆誉存大数据科技有限公司 结合深度学习和逻辑规则的企业新闻数据风险分类方法
CN109543182A (zh) * 2018-11-15 2019-03-29 广东电网有限责任公司信息中心 一种基于solr引擎的电力企业多轮交互语义分析方法
CN109683725A (zh) * 2018-12-03 2019-04-26 广东工业大学 基于搜索引擎的语言处理信息检索系统及方法
CN109783808A (zh) * 2018-12-20 2019-05-21 出门问问信息科技有限公司 一种修正自然语言理解模块的方法、装置及电子设备
CN110377809A (zh) * 2019-06-19 2019-10-25 深圳壹账通智能科技有限公司 预设用户的资源获取资质生成方法及相关设备
CN113836939A (zh) * 2021-09-24 2021-12-24 北京百度网讯科技有限公司 基于文本的数据分析方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678278A (zh) * 2013-12-16 2014-03-26 中国科学院计算机网络信息中心 一种中文文本情感识别方法
CN104899231A (zh) * 2014-03-07 2015-09-09 上海市玻森数据科技有限公司 基于细粒度属性分类的感情分析引擎
CN105022725A (zh) * 2015-07-10 2015-11-04 河海大学 一种应用于金融Web领域的文本情感倾向分析方法
CN105138506A (zh) * 2015-07-09 2015-12-09 天云融创数据科技(北京)有限公司 一种金融文本情感分析方法
CN105843796A (zh) * 2016-03-28 2016-08-10 北京邮电大学 一种微博情感倾向分析方法及装置
US9633007B1 (en) * 2016-03-24 2017-04-25 Xerox Corporation Loose term-centric representation for term classification in aspect-based sentiment analysis
US20170124575A1 (en) * 2015-11-03 2017-05-04 International Business Machines Corporation Analyzing sentiment in product reviews

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678278A (zh) * 2013-12-16 2014-03-26 中国科学院计算机网络信息中心 一种中文文本情感识别方法
CN104899231A (zh) * 2014-03-07 2015-09-09 上海市玻森数据科技有限公司 基于细粒度属性分类的感情分析引擎
CN105138506A (zh) * 2015-07-09 2015-12-09 天云融创数据科技(北京)有限公司 一种金融文本情感分析方法
CN105022725A (zh) * 2015-07-10 2015-11-04 河海大学 一种应用于金融Web领域的文本情感倾向分析方法
US20170124575A1 (en) * 2015-11-03 2017-05-04 International Business Machines Corporation Analyzing sentiment in product reviews
US9633007B1 (en) * 2016-03-24 2017-04-25 Xerox Corporation Loose term-centric representation for term classification in aspect-based sentiment analysis
CN105843796A (zh) * 2016-03-28 2016-08-10 北京邮电大学 一种微博情感倾向分析方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YONAS WOLDEMARIAM: "Sentiment analysis in a cross-media analysis framework", 《2016 IEEE INTERNATIONAL CONFERENCE ON BIG DATA ANALYSIS》 *
张伟: "基于微博文本挖掘的投资者情绪与股票市场表现研究", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363699A (zh) * 2018-03-21 2018-08-03 浙江大学城市学院 一种基于百度贴吧的网民学业情绪分析方法
CN108846547A (zh) * 2018-05-06 2018-11-20 成都信息工程大学 一种动态调整的企业信用风险评估方法
CN109032780A (zh) * 2018-07-10 2018-12-18 广州极天信息技术股份有限公司 一种语义网服务接口装置
CN109472470A (zh) * 2018-10-23 2019-03-15 重庆誉存大数据科技有限公司 结合深度学习和逻辑规则的企业新闻数据风险分类方法
CN109543182A (zh) * 2018-11-15 2019-03-29 广东电网有限责任公司信息中心 一种基于solr引擎的电力企业多轮交互语义分析方法
CN109543182B (zh) * 2018-11-15 2023-04-07 广东电网有限责任公司信息中心 一种基于solr引擎的电力企业多轮交互语义分析方法
CN109683725A (zh) * 2018-12-03 2019-04-26 广东工业大学 基于搜索引擎的语言处理信息检索系统及方法
CN109783808A (zh) * 2018-12-20 2019-05-21 出门问问信息科技有限公司 一种修正自然语言理解模块的方法、装置及电子设备
CN110377809A (zh) * 2019-06-19 2019-10-25 深圳壹账通智能科技有限公司 预设用户的资源获取资质生成方法及相关设备
WO2020253353A1 (zh) * 2019-06-19 2020-12-24 深圳壹账通智能科技有限公司 预设用户的资源获取资质生成方法及相关设备
CN113836939A (zh) * 2021-09-24 2021-12-24 北京百度网讯科技有限公司 基于文本的数据分析方法和装置
CN113836939B (zh) * 2021-09-24 2023-07-21 北京百度网讯科技有限公司 基于文本的数据分析方法和装置

Also Published As

Publication number Publication date
CN107229612B (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
CN107229612A (zh) 一种网络信息语义倾向分析方法及系统
Khedr et al. Predicting stock market behavior using data mining technique and news sentiment analysis
Singh et al. PROSPECT: a system for screening candidates for recruitment
Fisher et al. The role of text analytics and information retrieval in the accounting domain
CN111950932A (zh) 基于多源信息融合的中小微企业综合质量画像方法
WO2009046062A2 (en) Method and system for an automated corporate governance rating system
CN102682124A (zh) 一种文本的情感分类方法及装置
KR102121901B1 (ko) 정책자금 온라인 심사평가 시스템
Ahmed et al. A novel approach for Sentimental Analysis and Opinion Mining based on SentiWordNet using web data
Lüdering et al. Forward or backward looking? The economic discourse and the observed reality
US20090019083A1 (en) System and method for adaptive decision making analysis and assessment
Gerdes Jr EDGAR-Analyzer: automating the analysis of corporate data contained in the SEC's EDGAR database
Lei et al. Examining research topics with a dependency-based noun phrase extraction method: a case in accounting
Anastasopoulos et al. Organizational context and budget orientations: A computational text analysis
Vyas et al. Aspect-based approach to measure performance of financial services using voice of customer
Ao Sentiment analysis based on financial tweets and market information
US20170186091A1 (en) Govbrain™ method, apparatus, and computer software
Al-augby et al. Proposed investment decision support system for stock exchange using text mining method
CN110334112B (zh) 一种简历信息检索方法及装置
CN112084376A (zh) 基于图谱知识的推荐方法、推荐系统及电子装置
Nguyen et al. Analyzing customer experience in hotel services using topic modeling
Liu et al. Hiring now: A skill-aware multi-attention model for job posting generation
Alfaris et al. A Literature Review of Sustain Enterprise Resource Planning
Singh Public sentiment and opinion regarding the CARES Act
Rustanto et al. Media Sentiment Analysis of East Java Province: Lexicon-Based vs Machine Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20191113

Address after: 400042 No.51 dapingzheng street, Yuzhong District, Chongqing

Applicant after: CHONGQING TELECOMMUNICATION SYSTEM INTEGRATION CO.,LTD.

Applicant after: CHONGQING SOCIALCREDITS BIG DATA TECHNOLOGY CO.,LTD.

Address before: 401133, No. 4, No. 23, workers and peasants Road, fish mouth town, Jiangbei District, Chongqing, 22

Applicant before: CHONGQING SOCIALCREDITS BIG DATA TECHNOLOGY CO.,LTD.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: No.51, Daping Main Street, Yuzhong District, Chongqing 400042

Patentee after: Zhongdian Zhi'an Technology Co.,Ltd.

Country or region after: China

Patentee after: Chongqing Yucun Technology Co.,Ltd.

Address before: No.51, Daping Main Street, Yuzhong District, Chongqing 400042

Patentee before: CHONGQING TELECOMMUNICATION SYSTEM INTEGRATION CO.,LTD.

Country or region before: China

Patentee before: CHONGQING SOCIALCREDITS BIG DATA TECHNOLOGY CO.,LTD.

CP03 Change of name, title or address
TR01 Transfer of patent right

Effective date of registration: 20240409

Address after: 401120 Tower B, No. 10 Datagu West Road, Yubei District, Xiantao Street, Yubei District, Chongqing

Patentee after: China Telecom Yijin Technology Co.,Ltd.

Country or region after: China

Patentee after: Chongqing Yucun Technology Co.,Ltd.

Address before: No.51, Daping Main Street, Yuzhong District, Chongqing 400042

Patentee before: Zhongdian Zhi'an Technology Co.,Ltd.

Country or region before: China

Patentee before: Chongqing Yucun Technology Co.,Ltd.

TR01 Transfer of patent right