CN103235818A - 一种基于网页情感倾向性的信息推送方法和装置 - Google Patents

一种基于网页情感倾向性的信息推送方法和装置 Download PDF

Info

Publication number
CN103235818A
CN103235818A CN2013101517735A CN201310151773A CN103235818A CN 103235818 A CN103235818 A CN 103235818A CN 2013101517735 A CN2013101517735 A CN 2013101517735A CN 201310151773 A CN201310151773 A CN 201310151773A CN 103235818 A CN103235818 A CN 103235818A
Authority
CN
China
Prior art keywords
emotion
word
web page
page contents
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013101517735A
Other languages
English (en)
Inventor
王波
唐振江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN2013101517735A priority Critical patent/CN103235818A/zh
Publication of CN103235818A publication Critical patent/CN103235818A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供了一种基于网页情感倾向性的信息推送方法和装置,其中方法包括:S1、对接收到的网页内容进行关键词提取,以及对所述网页内容进行情感倾向性分析;S2、如果情感倾向性分析结果为负向情感,则基于所述网页内容确定网页所属类别对应的主题词包;S3、过滤掉所述主题词包中所述步骤S1提取的关键词,基于所述主题词包中剩余的主题词进行信息推送。通过本发明能够更准确地定位用户需求,提高用户对所推送信息的满意度,提升信息推送者的信息推送效果。

Description

一种基于网页情感倾向性的信息推送方法和装置
【技术领域】
本发明涉及计算机应用技术领域,特别涉及一种基于网页情感倾向性的信息推送方法和装置。
【背景技术】
随着互联网的高速发展,网络已经成为人们获取信息的主要手段,互联网的广泛性和宣传性优势是无与伦比的,借此机遇,很多企业也看准了互联网的商机纷纷开始涉及互联网并进行网站推广。网站推广的方式多种多样,其中基于相关网页上向用户推送推广信息是其中一种。例如当用户在浏览标题为“入门家用笔记本四千元搞定”的网页时,向用户推送笔记本电脑的推广信息,一方面能够激发用户的购买行为,另一方面也方便用户找到相关购买信息。
现有技术中实现基于相关网页推送信息的方法主要是:首先对网页内容进行分析,提取网页的关键词;然后系统自动匹配所有设置了该关键词的推广信息,向浏览该网页的用户推送该推广信息。
然而现有技术的上述方式有时候会存在推送的推广信息与用户需求并不匹配的情况,例如当用户浏览的网页其主要内容是在讲“喝咖啡不利于健康”,在提取网页的关键词时,由于“咖啡”在网页中出现的次数很多,因此其会被提取作为网页的关键词,并向用户展现关于咖啡的推广信息。然而,该网页中描述的内容实际上是对咖啡持否定态度的,浏览该网页的用户对咖啡的需求度很大程度上是很低的,因此在网页上向用户展现咖啡的推广信息是不满足用户的需求的,并不能激发用户的购买行为。
【发明内容】
有鉴于此,本发明提供了一种基于网页情感倾向性的信息推送方法和装置,以便于更准确地定位用户需求。
具体技术方案如下:
一种基于网页情感倾向性的信息推送方法,该方法包括:
S1、对接收到的网页内容进行关键词提取,以及对所述网页内容进行情感倾向性分析;
S2、如果情感倾向性分析结果为负向情感,则基于所述网页内容确定网页所属类别对应的主题词包;
S3、过滤掉所述主题词包中所述步骤S1提取的关键词,基于所述主题词包中剩余的主题词进行信息推送。
根据本发明一优选实施方式,该方法还包括:
如果情感倾向性分析结果为正向情感,则基于所述步骤S1提取的关键词进行信息推送。
根据本发明一优选实施方式,所述对接收到的网页内容进行关键词提取包括:
对接收到的网页内容进行分词处理和词频统计,基于词频对分词得到的各词语进行打分,出现词频越高对应分值越高,选择分值满足预设要求的词语作为关键词;或者,除了词频之外,进一步结合词性、语义或词语出现位置中的至少一种对分词得到的各词语进行打分,选择分值满足预设要求的词语作为关键词。
根据本发明一优选实施方式,对所述网页内容进行情感倾向性分析具体包括:
对所述网页内容进行分词处理,将分词处理后得到的各词语分别与词情感倾向性词典进行匹配,根据匹配到的词语的情感倾向性打分值确定所述网页内容的情感倾向性。
根据本发明一优选实施方式,所述根据匹配到的词语的情感倾向性打分值确定所述网页内容的情感倾向性具体包括:
累加所有匹配到的词语的情感倾向性打分值,根据累加得到的打分值确定所述网页内容的情感倾向性;或者,
分别累加各句子中所有匹配到的词语的情感倾向性打分值,从而确定出各句子的情感倾向性打分值,分别统计正向情感的句子数量和负向情感的句子数量,如果正向情感的句子数量较多或者正向情感和负向情感的句子数量相等,则确定所述网页内容的分析结果为正向情感,否则为负向情感;或者,
根据匹配到的词语的情感倾向性打分值,分别统计正向情感的词语数量和负向情感的词语数量,如果正向情感的词语数量较多或者正向情感和负向情感的数量相等,则确定所述网页内容的分析结果为正向情感,否则为负向情感。
在所述步骤S3中进行信息推送,推送的是与所述剩余的主题词匹配的表达正向情感的信息,或者推送的是与所述剩余的主题词匹配的信息和正向情感指示信息。
一种基于网页情感倾向性的信息推送装置,该装置包括:
关键词提取单元,用于对接收到的网页内容进行关键词提取;
情感分析单元,用于对所述网页内容进行情感倾向性分析;
主题确定单元,用于如果所述情感分析单元的分析结果为负向情感,则基于所述网页内容确定网页所属类别对应的主题词包;
信息推送单元,用于在所述情感分析单元的分析结果为负向情感时,过滤掉所述主题词包中所述关键词提取单元提取的关键词,基于所述主题词包中剩余的主题词进行信息推送。
根据本发明一优选实施方式,所述信息推送单元,还用于如果所述情感分析单元的分析结果为正向情感,则基于所述关键词提取单元提取的关键词进行信息推送。
根据本发明一优选实施方式,所述关键词提取单元在进行关键词提取时,具体执行:
对接收到的网页内容进行分词处理和词频统计,基于词频对分词得到的各词语进行打分,出现词频越高对应分值越高,选择分值满足预设要求的词语作为关键词;或者,除了词频之外,进一步结合词性、语义或词语出现位置中的至少一种对分词得到的各词语进行打分,选择分值满足预设要求的词语作为关键词。
根据本发明一优选实施方式,所述情感分析单元在对所述网页内容进行情感倾向性分析具体执行:
对所述网页内容进行分词处理,将分词处理后得到的各词语分别与词情感倾向性词典进行匹配,根据匹配到的词语的情感倾向性打分值确定所述网页内容的情感倾向性。
根据本发明一优选实施方式,所述情感分析单元在根据匹配到的词语的情感倾向性打分值确定所述网页内容的情感倾向性时,具体执行:
累加所有匹配到的词语的情感倾向性打分值,根据累加得到的打分值确定所述网页内容的情感倾向性;或者,
分别累加各句子中所有匹配到的词语的情感倾向性打分值,从而确定出各句子的情感倾向性打分值,分别统计正向情感的句子数量和负向情感的句子数量,如果正向情感的句子数量较多或者正向情感和负向情感的句子数量相等,则确定所述网页内容的分析结果为正向情感,否则为负向情感;或者,
根据匹配到的词语的情感倾向性打分值,分别统计正向情感的词语数量和负向情感的词语数量,如果正向情感的词语数量较多或者正向情感和负向情感的数量相等,则确定所述网页内容的分析结果为正向情感,否则为负向情感。
根据本发明一优选实施方式,所述信息推送单元在进行信息推送时,推送的是与所述剩余的主题词匹配的表达正向情感的信息,或者推送的是与所述剩余的主题词匹配的信息和正向情感指示信息。
由以上技术方案可以看出,本发明通过对网页内容进行情感倾向性分析,基于情感倾向性分析的结果确定采用何种信息推送方式,如果是负向情感,则浏览该网页内容的用户虽然对该网页主题感兴趣但很可能对该网页的关键词并无需求,因此基于网页所属类别对应的其他主题词进行信息推送,从而更精准地定位用户需求。
【附图说明】
图1为本发明实施例所基于的系统架构图;
图2为本发明实施例一提供的基于网页情感倾向性的信息推送方法流程图;
图3为本发明实施例二提供的基于网页情感倾向性的信息推送装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
一般来说,作者在编辑网页内容时,是会在内容中包含自己的情感倾向信息的,例如对于主要内容在讲“喝咖啡不利于健康”的网页,网页作者是对喝咖啡持否定态度的,因此在网页中推送信息时可以首先分析网页情感倾向性,如果得到的情感倾向性为正向,则从网页中提取的关键词能够准确定位用户需求,基于该关键词进行信息推送即可;如果得到的情感倾向性为负向,则从网页中提取的关键词便不能准确定位用户需求,可以基于与该关键词属于同一主题的其他关键词进行信息推送。
首先对实现信息推送的系统架构进行简单描述,如图1所示,主要包括用户设备和定向推送系统。其中用户设备会将用户正在浏览的网页内容发送给定向推送系统,由定向推送系统对来自用户设备的网页内容进行分析后,确定反映用户需求的关键词,将与该关键词匹配的推送信息推送给用户设备,由用户设备展现给用户。展现的方式可以多种多样,例如以弹出框、浮动框等方式展现,也可以嵌入用户当前浏览的网页等,本发明对推送信息的展现方式并不加以限制。上述用户设备可以是诸如电脑、手机等中的浏览器或客户端,定向推送系统通常以服务器的形式存在,本发明所提供的方法由设置在定向推送系统中的装置实现。
本发明推送的信息可以是推广信息,也可以是其他文本、图片、链接等信息,在本发明的下述实施例一中以推广信息为例进行描述。
实施例一、
图2为本发明实施例一提供的基于网页情感倾向性的信息推送方法流程图,如图2所示,该方法主要包括以下步骤:
步骤201:对接收到的网页内容进行关键词提取。
本发明实施例中仍沿用现有技术中对网页内容进行关键词提取的方法,即基于词频,对接收到的网页内容进行分词和词频统计,基于词频对分词得到的各词语进行打分,出现词频越高对应分值越高,最终选择分值满足预设要求的词语作为关键词,其中预设要求可以是分值排在前N个,N为预设正整数,或者是分值大于预设阈值。在对词语进行打分时还可以进一步结合词性分析、语义分析、词语出现位置等因素,例如将其中的命名实体的分值设置的较高,或者将标题中出现的词语的分值设置的较高等。在此对于关键词的提取方式不做具体描述。
本发明所涉及的网页内容包括但不限于网页标题、网页摘要和网页正文中的一种或任意组合。
步骤202:对网页内容进行情感倾向性分析,如果分析结果为正向情感,则执行步骤203;如果分析结果为负向情感,则执行步骤204。
对网页内容进行的情感倾向性分析是基于词情感倾向性词典进行的,词情感倾向性词典中包含了词语以及词语对应的情感倾向性打分值。该词情感倾向性词典是现有技术中已有的词典,预先收集了各种表征出情感倾向的词语及其对应的情感倾向性打分值,一方面打分值决定了该词的情感是正向还是负向,另一方面打分值的高低决定了该词语所反映的正向情感或负向情感的程度,例如“喜欢”和“赞成”对应的打分值分别为“1”和“0.8”,其值大于0表明为正向情感,分值区间假设规定为0到1,那么说明这两个词反映了较高程度的正向情感;“讨厌”和“反对”对应的打分值分别为“-1”和“-0.8”,那么说明这两个词反映了较高程度的负向情感。
在对网页内容进行情感倾向性分析时,首先对网页内容进行分词处理,该分词处理除了进行分词之外还可以包括基于停用词的过滤等其他辅助处理;将分词处理后得到的各词语分别与词情感倾向性词典进行匹配,根据匹配到的词语的情感倾向性打分值确定该网页内容的情感倾向性。
其中根据匹配到的词语的去情感倾向性打分值确定网页内容的情感倾向性可以采用多种方式,包括但不限于以下方式:
第一种方式:累加所有匹配到的词语的情感倾向性打分值,基于得到的总分值确定该网页内容的情感倾向性,其中在进行累加时优选考虑各词语出现的次数,即在进行累加时对于一个词语的情感倾向性打分值乘以该词语在网页内容中出现的次数。
如果情感倾向性词典中采用正数或零的打分值反映正向情感、负数打分值反映负向情感,则如果网页内容分词后得到的各词语的情感倾向性打分值累加后得到的值为正数或零,则说明对该网页内容的分析结果为正向情感,否则说明对该网页内容的分析结果为负向情感。
第二种方式:分别累加各句子中所有匹配到的词语的情感倾向性打分值,从而确定出各句子的情感倾向性打分值,分别统计正向情感的句子数量和负向情感的句子数量,如果正向情感的句子数量较多或者正向情感和负向情感的句子数量相等,则确定该网页的分析结果为正向情感,如果负向情感的句子数量较多,则确定该网页的分析结果为负向情感。
第三种方式:根据匹配到的词语的情感倾向性打分值,分别统计正向情感的词语数量和负向情感的词语数量,如果正向情感的词语数量较多或者正向情感和负向情感的数量相等,则确定该网页的分析结果为正向情感,如果负向情感的词语数量较多,则确定该网页的分析结果为负向情感。
上述步骤201和步骤202的执行顺序仅为本发明实施例提供的一种方式,也可以同时执行,或者先执行步骤202之后再执行步骤201。
步骤203:基于提取的关键词确定匹配的推广信息并推送,结束流程。
如果分析结果是正向情感,则说明作者在网页内容中对于核心对象抱以喜欢、赞同等肯定的态度,则从网页内容中提取出的关键词很大可能是能够体现出浏览该网页的用户需求的。因此在这种情况下,采用现有技术中确定推广信息的方式,即确定与提取的关键词匹配的推广信息,将匹配的推广信息推送给用户设备。其中采用的匹配策略本发明实施例并不加以限制,例如查找设置了该关键词的推广者,将该推广者的推广信息推送给用户设备。
步骤204:基于上述网页内容确定该网页所属类别对应的主题词包。
本发明中可以采用现有技术中确定网页所属类别的方法,例如基于已有的类别体系,使用机器学习的方法得到网页所属类别,或者使用无监督聚类的方法获得网页所属的类别,或者通过分析该网页所在网站自身的分类体系等等。每一个类别都会存在体现该类别网页主题的主题词所构成的主题词包,例如“服装”类别对应的主题词包包括“衬衫”、“牛仔裤”、“T恤”、“西服”等主题词,“数码”类别对应的主题词包包括“智能手机”、“苹果”、“安卓”、“平板电脑”等主题词。
步骤205:过滤掉主题词包中步骤201提取的关键词,基于主题词包中剩余的主题词确定匹配的推广信息并推送。
如果分析结果是负向情感,则说明作者在网页内容中对于核心对象抱以讨厌、反对等否定的态度,则从网页内容中提取出的关键词很大可能并不是浏览该网页的用户需求,该用户对该网页内容进行浏览又说明用户对该网页的主题感兴趣,用户需求的可能是该主题下除了该网页的关键词之外的其他主题词,因此将主题词包中过滤掉网页的关键词,基于剩下的主题词进行信息推广。
如果剩下一个主题词,则确定与该主题词匹配的推广信息,并推送给用户设备。如果剩下多个主题词,则可以分别确定与各主题词匹配的推广信息,然后将确定的推广信息都推送给用户设备,或者从中选取一个或若干个推广信息推送给用户设备。
举一个例子,假设用户正在浏览养生论坛中一个讲“喝茶有益健康”的网页,用户设备将该网页内容发送给定向推送系统后,定向推送系统提取出关键词为“茶”,对该网页内容进行情感倾向性分析后,分析结果为正向情感,则确定与“茶”匹配的推广信息,将该推广信息推送给用户设备。
再举一个例子,假设用户正在浏览养生论坛中一个讲“喝咖啡不利于健康”的网页,用户设备将该网页内容发送给定向推送系统后,定向推送系统提取出关键词为“咖啡”,对该网页内容进行情感倾向性分析后,分析结果为负向情感,则进一步确定该网页所述类别为“保健养生/饮品”类,该类别对应的主题词包包括“茶”、“牛奶”、“咖啡”、“豆浆”等主题词,将主题词包中的“咖啡”过滤掉后,剩余的主题词为“茶”、“牛奶”和“豆浆”,分别确定与“茶”匹配的推广信息、与“牛奶”匹配的推广信息和与“豆浆”匹配的推广信息,将这些推广信息全部或者从中选取若干推送给用户设备。
优选地,在进行信息推送时,推送的可以是与剩余的主题词匹配的表达正向情感的信息,例如:在“喝咖啡不利于健康”的网页上推送关于“喝茶有利于健康”的推广信息。推送的也可以是与剩余的主题词匹配的信息以及正向情感指示信息,例如:在“喝咖啡不利于健康”的网页上推送关于茶的推广信息,可能这些推广信息中无从判别是否为正向情感或负向情感,诸如仅仅是关于茶广告的链接或者茶广告的图片等等,但可以在推送推广信息的同时指示出“喝茶有利于健康”,从而给用户更直观的引导。
以上是对本发明提供的方法进行的详细描述,下面结合实施例二对本发明所提供的装置进行详细描述。
实施例二、
图3为本发明实施例二提供的基于网页情感倾向性的信息推送装置结构图,该装置设置在如图1中所示的定向推送系统中,如图3所示,该装置主要包括:关键词提取单元01、情感分析单元02、主题确定单元03以及信息推送单元04。
其中,对于用户设备发送至定向推送系统的网页内容,被发送给关键词提取单元01,关键词提取单元01对接收到的网页内容进行关键词提取。
本发明实施例中仍沿用现有技术中对网页内容进行关键词提取的方式,即对接收到的网页内容进行分词处理和词频统计,基于词频对分词得到的各词语进行打分,出现词频越高对应分值越高,选择分值满足预设要求的词语作为关键词,其中预设要求可以是分值排在前N个,N为预设正整数,或者是分值大于预设阈值。或者,除了词频之外,进一步结合词性、语义或词语出现位置中的至少一种对分词得到的各词语进行打分,选择分值满足预设要求的词语作为关键词。
网页内容也会被送至情感分析单元02,情感分析单元02对网页内容进行情感倾向性分析。
对网页内容进行的情感倾向性分析是基于词情感倾向性词典进行的,词情感倾向性词典中包含了词语以及词语对应的情感倾向性打分值。具体地,对网页内容进行分词处理,将分词处理后得到的各词语分别与词情感倾向性词典进行匹配,根据匹配到的词语的情感倾向性打分值确定网页内容的情感倾向性。
其中情感分析单元02在根据匹配到的词语的情感倾向性打分值确定网页内容的情感倾向性时,具体采用但不限于以下方式中的一种:
第一种方式:累加所有匹配到的词语的情感倾向性打分值,根据累加得到的打分值确定网页内容的情感倾向性。其中在进行累加时优先考虑各词语出现的次数,即在进行累加时对于一个词语的情感倾向性打分值乘以该词语在网页内容中出现的次数。
如果情感倾向性词典中采用正数或零的打分值反映正向情感、负数打分值反映负向情感,则如果网页内容分词后得到的各词语的情感倾向性打分值累加后得到的值为正数或零,则说明对该网页内容的分析结果为正向情感,否则说明对该网页内容的分析结果为负向情感。
第二种方式:分别累加各句子中所有匹配到的词语的情感倾向性打分值,从而确定出各句子的情感倾向性打分值,分别统计正向情感的句子数量和负向情感的句子数量,如果正向情感的句子数量较多或者正向情感和负向情感的句子数量相等,则确定网页内容的分析结果为正向情感,否则为负向情感。
第三种方式:根据匹配到的词语的情感倾向性打分值,分别统计正向情感的词语数量和负向情感的词语数量,如果正向情感的词语数量较多或者正向情感和负向情感的数量相等,则确定网页内容的分析结果为正向情感,否则为负向情感。
如果情感分析单元02的分析结果为负向情感,则主题确定单元03基于网页内容确定网页所属类别对应的主题词包。然后由信息推送单元04过滤掉主题词包中关键词提取单元01提取的关键词,基于主题词包中剩余的主题词进行信息推送。
如果情感分析单元02的分析结果为正向情感,则信息推送单元04基于关键词提取单元01提取的关键词进行信息推送。
在本发明实施例中,主题确定单元03可以采用现有技术中确定网页所属类别的方法,例如基于已有的类别体系,使用机器学习的方法得到网页所属类别,或者使用无监督聚类的方法获得网页所属的类别,或者通过分析该网页所在网站自身的分类体系等等。每一个类别都会存在体现该类别网页主题的主题词所构成的主题词包,例如“服装”类别对应的主题词包包括“衬衫”、“牛仔裤”、“T恤”、“西服”等主题词,“数码”类别对应的主题词包包括“智能手机”、“苹果”、“安卓”、“平板电脑”等主题词。
优选地,信息推送单元04在进行信息推送时,推送的可以是与剩余的主题词匹配的表达正向情感的信息,例如:在“喝咖啡不利于健康”的网页上推送关于“喝茶有利于健康”的推广信息。推送的也可以是与剩余的主题词匹配的信息以及正向情感指示信息,例如:在“喝咖啡不利于健康”的网页上推送关于茶的推广信息,可能这些推广信息中无从判别是否为正向情感或负向情感,诸如仅仅是关于茶广告的链接或者茶广告的图片等等,但可以在推送推广信息的同时指示出“喝茶有利于健康”,从而给用户更直观的引导。
本发明实施例提供的上述方法和装置能够更准确地定位用户需求,一方面可以提升推送信息与网页内容的相关性,提高用户对推送信息的满意度;另一方面,如果采用该方式进行信息推广,则更能够激发用户的购买行为,提升推广者的信息推广效果。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种基于网页情感倾向性的信息推送方法,其特征在于,该方法包括:
S1、对接收到的网页内容进行关键词提取,以及对所述网页内容进行情感倾向性分析;
S2、如果情感倾向性分析结果为负向情感,则基于所述网页内容确定网页所属类别对应的主题词包;
S3、过滤掉所述主题词包中所述步骤S1提取的关键词,基于所述主题词包中剩余的主题词进行信息推送。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:
如果情感倾向性分析结果为正向情感,则基于所述步骤S1提取的关键词进行信息推送。
3.根据权利要求1所述的方法,其特征在于,所述对接收到的网页内容进行关键词提取包括:
对接收到的网页内容进行分词处理和词频统计,基于词频对分词得到的各词语进行打分,出现词频越高对应分值越高,选择分值满足预设要求的词语作为关键词;或者,除了词频之外,进一步结合词性、语义或词语出现位置中的至少一种对分词得到的各词语进行打分,选择分值满足预设要求的词语作为关键词。
4.根据权利要求1所述的方法,其特征在于,对所述网页内容进行情感倾向性分析具体包括:
对所述网页内容进行分词处理,将分词处理后得到的各词语分别与词情感倾向性词典进行匹配,根据匹配到的词语的情感倾向性打分值确定所述网页内容的情感倾向性。
5.根据权利要求4所述的方法,其特征在于,所述根据匹配到的词语的情感倾向性打分值确定所述网页内容的情感倾向性具体包括:
累加所有匹配到的词语的情感倾向性打分值,根据累加得到的打分值确定所述网页内容的情感倾向性;或者,
分别累加各句子中所有匹配到的词语的情感倾向性打分值,从而确定出各句子的情感倾向性打分值,分别统计正向情感的句子数量和负向情感的句子数量,如果正向情感的句子数量较多或者正向情感和负向情感的句子数量相等,则确定所述网页内容的分析结果为正向情感,否则为负向情感;或者,
根据匹配到的词语的情感倾向性打分值,分别统计正向情感的词语数量和负向情感的词语数量,如果正向情感的词语数量较多或者正向情感和负向情感的数量相等,则确定所述网页内容的分析结果为正向情感,否则为负向情感。
6.根据权利要求1所述的方法,其特征在于,在所述步骤S3中进行信息推送,推送的是与所述剩余的主题词匹配的表达正向情感的信息,或者推送的是与所述剩余的主题词匹配的信息和正向情感指示信息。
7.一种基于网页情感倾向性的信息推送装置,其特征在于,该装置包括:
关键词提取单元,用于对接收到的网页内容进行关键词提取;
情感分析单元,用于对所述网页内容进行情感倾向性分析;
主题确定单元,用于如果所述情感分析单元的分析结果为负向情感,则基于所述网页内容确定网页所属类别对应的主题词包;
信息推送单元,用于在所述情感分析单元的分析结果为负向情感时,过滤掉所述主题词包中所述关键词提取单元提取的关键词,基于所述主题词包中剩余的主题词进行信息推送。
8.根据权利要求7所述的装置,其特征在于,所述信息推送单元,还用于如果所述情感分析单元的分析结果为正向情感,则基于所述关键词提取单元提取的关键词进行信息推送。
9.根据权利要求7所述的装置,其特征在于,所述关键词提取单元在进行关键词提取时,具体执行:
对接收到的网页内容进行分词处理和词频统计,基于词频对分词得到的各词语进行打分,出现词频越高对应分值越高,选择分值满足预设要求的词语作为关键词;或者,除了词频之外,进一步结合词性、语义或词语出现位置中的至少一种对分词得到的各词语进行打分,选择分值满足预设要求的词语作为关键词。
10.根据权利要求7所述的装置,其特征在于,所述情感分析单元在对所述网页内容进行情感倾向性分析具体执行:
对所述网页内容进行分词处理,将分词处理后得到的各词语分别与词情感倾向性词典进行匹配,根据匹配到的词语的情感倾向性打分值确定所述网页内容的情感倾向性。
11.根据权利要求10所述的装置,其特征在于,所述情感分析单元在根据匹配到的词语的情感倾向性打分值确定所述网页内容的情感倾向性时,具体执行:
累加所有匹配到的词语的情感倾向性打分值,根据累加得到的打分值确定所述网页内容的情感倾向性;或者,
分别累加各句子中所有匹配到的词语的情感倾向性打分值,从而确定出各句子的情感倾向性打分值,分别统计正向情感的句子数量和负向情感的句子数量,如果正向情感的句子数量较多或者正向情感和负向情感的句子数量相等,则确定所述网页内容的分析结果为正向情感,否则为负向情感;或者,
根据匹配到的词语的情感倾向性打分值,分别统计正向情感的词语数量和负向情感的词语数量,如果正向情感的词语数量较多或者正向情感和负向情感的数量相等,则确定所述网页内容的分析结果为正向情感,否则为负向情感。
12.根据权利要求7所述的装置,其特征在于,所述信息推送单元在进行信息推送时,推送的是与所述剩余的主题词匹配的表达正向情感的信息,或者推送的是与所述剩余的主题词匹配的信息和正向情感指示信息。
CN2013101517735A 2013-04-27 2013-04-27 一种基于网页情感倾向性的信息推送方法和装置 Pending CN103235818A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013101517735A CN103235818A (zh) 2013-04-27 2013-04-27 一种基于网页情感倾向性的信息推送方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013101517735A CN103235818A (zh) 2013-04-27 2013-04-27 一种基于网页情感倾向性的信息推送方法和装置

Publications (1)

Publication Number Publication Date
CN103235818A true CN103235818A (zh) 2013-08-07

Family

ID=48883859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013101517735A Pending CN103235818A (zh) 2013-04-27 2013-04-27 一种基于网页情感倾向性的信息推送方法和装置

Country Status (1)

Country Link
CN (1) CN103235818A (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678278A (zh) * 2013-12-16 2014-03-26 中国科学院计算机网络信息中心 一种中文文本情感识别方法
CN104731812A (zh) * 2013-12-23 2015-06-24 北京华易互动科技有限公司 一种基于文本情感倾向识别的舆情检测方法
CN105183731A (zh) * 2014-06-04 2015-12-23 腾讯科技(深圳)有限公司 推荐信息生成方法、装置及系统
CN106095757A (zh) * 2016-06-15 2016-11-09 河南工业大学 一种文本负向情感识别与自动化情感抚慰方法与系统
CN106254904A (zh) * 2016-09-29 2016-12-21 北京赢点科技有限公司 一种基于用户热词的媒体节目素材推荐方法及系统
CN106471494A (zh) * 2014-07-15 2017-03-01 Kddi株式会社 用于分析促销站点对用户心理状态转变的效果的程序、装置和方法
CN106484902A (zh) * 2016-10-21 2017-03-08 天津海量信息技术股份有限公司 基于网络数据对某一事件正负面影响的判断
CN107644084A (zh) * 2017-09-22 2018-01-30 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN107886970A (zh) * 2016-09-30 2018-04-06 本田技研工业株式会社 信息提供装置
WO2018072513A1 (zh) * 2016-10-20 2018-04-26 苏州跃盟信息科技有限公司 一种广告信息推送方法、装置以及系统、服务器、计算机可读介质
CN108073640A (zh) * 2016-11-17 2018-05-25 广州市动景计算机科技有限公司 页面推送方法和系统
CN109241537A (zh) * 2018-09-26 2019-01-18 北京点网聚科技有限公司 信息处理方法及信息处理装置
CN109376293A (zh) * 2018-05-17 2019-02-22 新华网股份有限公司 一种文本信息的过滤方法、装置和电子设备
CN109446405A (zh) * 2018-09-12 2019-03-08 中国科学院自动化研究所 基于大数据的旅游产业推广方法及系统
CN109831472A (zh) * 2017-11-23 2019-05-31 苏州跃盟信息科技有限公司 一种信息推送、信息显示方法和系统
CN109978645A (zh) * 2017-12-28 2019-07-05 北京京东尚科信息技术有限公司 一种数据推荐方法和装置
CN110110217A (zh) * 2018-02-02 2019-08-09 优视科技有限公司 一种对信息的情感倾向性分析及信息推荐方法和装置
CN110688475A (zh) * 2019-09-05 2020-01-14 上海异势信息科技有限公司 基于内容主观倾向的文章推荐方法及系统
CN110727784A (zh) * 2019-09-05 2020-01-24 上海异势信息科技有限公司 基于内容的文章推荐方法及系统
CN112632277A (zh) * 2020-12-15 2021-04-09 五八同城信息技术有限公司 一种目标内容对象的资源处理方法和装置
CN113075996A (zh) * 2020-01-06 2021-07-06 京东方艺云科技有限公司 一种用户情绪改善方法和系统
CN113157858A (zh) * 2021-03-25 2021-07-23 上海柏观数据科技有限公司 一种基于情感词匹配与频度结合的情感程度检测方法
CN113704630A (zh) * 2021-10-27 2021-11-26 武汉卓尔数字传媒科技有限公司 一种信息推送方法、装置、可读存储介质和电子设备
CN113887206A (zh) * 2021-09-15 2022-01-04 北京三快在线科技有限公司 一种模型训练及关键词提取方法及装置
CN114648027A (zh) * 2022-05-23 2022-06-21 每日互动股份有限公司 一种文本信息的处理方法、装置、计算机设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080046415A1 (en) * 2000-08-30 2008-02-21 Kontera Technologies, Inc. System and method for real-time web page context analysis for the real-time insertion of textual markup objects and dynamic content
US20080065602A1 (en) * 2006-09-12 2008-03-13 Brian John Cragun Selecting advertisements for search results
US20110035283A1 (en) * 2009-08-10 2011-02-10 Samsung Electronics Co., Ltd. Sponsor-based advertising apparatus and method using extracted affect
CN102236646A (zh) * 2010-04-20 2011-11-09 得利在线信息技术(北京)有限公司 对象级垂直搜索引擎个性化排序算法iRank
CN102300163A (zh) * 2011-09-22 2011-12-28 宇龙计算机通信科技(深圳)有限公司 信息推送方法、移动终端和系统
CN102486771A (zh) * 2009-11-30 2012-06-06 国际商业机器公司 在网页上发布指定内容的方法和系统
US20120239689A1 (en) * 2011-03-16 2012-09-20 Rovi Technologies Corporation Communicating time-localized metadata
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080046415A1 (en) * 2000-08-30 2008-02-21 Kontera Technologies, Inc. System and method for real-time web page context analysis for the real-time insertion of textual markup objects and dynamic content
US20080065602A1 (en) * 2006-09-12 2008-03-13 Brian John Cragun Selecting advertisements for search results
US20110035283A1 (en) * 2009-08-10 2011-02-10 Samsung Electronics Co., Ltd. Sponsor-based advertising apparatus and method using extracted affect
CN102486771A (zh) * 2009-11-30 2012-06-06 国际商业机器公司 在网页上发布指定内容的方法和系统
CN102236646A (zh) * 2010-04-20 2011-11-09 得利在线信息技术(北京)有限公司 对象级垂直搜索引擎个性化排序算法iRank
US20120239689A1 (en) * 2011-03-16 2012-09-20 Rovi Technologies Corporation Communicating time-localized metadata
CN102300163A (zh) * 2011-09-22 2011-12-28 宇龙计算机通信科技(深圳)有限公司 信息推送方法、移动终端和系统
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678278A (zh) * 2013-12-16 2014-03-26 中国科学院计算机网络信息中心 一种中文文本情感识别方法
CN104731812A (zh) * 2013-12-23 2015-06-24 北京华易互动科技有限公司 一种基于文本情感倾向识别的舆情检测方法
CN105183731B (zh) * 2014-06-04 2020-01-21 腾讯科技(深圳)有限公司 推荐信息生成方法、装置及系统
CN105183731A (zh) * 2014-06-04 2015-12-23 腾讯科技(深圳)有限公司 推荐信息生成方法、装置及系统
CN106471494A (zh) * 2014-07-15 2017-03-01 Kddi株式会社 用于分析促销站点对用户心理状态转变的效果的程序、装置和方法
CN106471494B (zh) * 2014-07-15 2019-12-20 Kddi株式会社 用于分析促销站点对用户心理状态转变的效果的程序、装置和方法
CN106095757A (zh) * 2016-06-15 2016-11-09 河南工业大学 一种文本负向情感识别与自动化情感抚慰方法与系统
CN106095757B (zh) * 2016-06-15 2019-04-23 河南工业大学 一种文本负向情感识别与自动化情感抚慰方法与系统
CN106254904A (zh) * 2016-09-29 2016-12-21 北京赢点科技有限公司 一种基于用户热词的媒体节目素材推荐方法及系统
CN107886970A (zh) * 2016-09-30 2018-04-06 本田技研工业株式会社 信息提供装置
WO2018072513A1 (zh) * 2016-10-20 2018-04-26 苏州跃盟信息科技有限公司 一种广告信息推送方法、装置以及系统、服务器、计算机可读介质
CN106484902A (zh) * 2016-10-21 2017-03-08 天津海量信息技术股份有限公司 基于网络数据对某一事件正负面影响的判断
CN108073640A (zh) * 2016-11-17 2018-05-25 广州市动景计算机科技有限公司 页面推送方法和系统
CN107644084B (zh) * 2017-09-22 2021-05-04 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN107644084A (zh) * 2017-09-22 2018-01-30 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109831472B (zh) * 2017-11-23 2021-04-06 苏州跃盟信息科技有限公司 一种信息推送、信息显示方法和系统
CN109831472A (zh) * 2017-11-23 2019-05-31 苏州跃盟信息科技有限公司 一种信息推送、信息显示方法和系统
CN109978645A (zh) * 2017-12-28 2019-07-05 北京京东尚科信息技术有限公司 一种数据推荐方法和装置
CN109978645B (zh) * 2017-12-28 2022-04-12 北京京东尚科信息技术有限公司 一种数据推荐方法和装置
CN110110217A (zh) * 2018-02-02 2019-08-09 优视科技有限公司 一种对信息的情感倾向性分析及信息推荐方法和装置
CN109376293A (zh) * 2018-05-17 2019-02-22 新华网股份有限公司 一种文本信息的过滤方法、装置和电子设备
CN109446405B (zh) * 2018-09-12 2021-04-30 中国科学院自动化研究所 基于大数据的旅游产业推广方法及系统
CN109446405A (zh) * 2018-09-12 2019-03-08 中国科学院自动化研究所 基于大数据的旅游产业推广方法及系统
CN109241537A (zh) * 2018-09-26 2019-01-18 北京点网聚科技有限公司 信息处理方法及信息处理装置
CN110688475A (zh) * 2019-09-05 2020-01-14 上海异势信息科技有限公司 基于内容主观倾向的文章推荐方法及系统
CN110727784A (zh) * 2019-09-05 2020-01-24 上海异势信息科技有限公司 基于内容的文章推荐方法及系统
CN110727784B (zh) * 2019-09-05 2023-11-10 上海异势信息科技有限公司 基于内容的文章推荐方法及系统
CN113075996A (zh) * 2020-01-06 2021-07-06 京东方艺云科技有限公司 一种用户情绪改善方法和系统
CN112632277A (zh) * 2020-12-15 2021-04-09 五八同城信息技术有限公司 一种目标内容对象的资源处理方法和装置
CN113157858A (zh) * 2021-03-25 2021-07-23 上海柏观数据科技有限公司 一种基于情感词匹配与频度结合的情感程度检测方法
CN113887206A (zh) * 2021-09-15 2022-01-04 北京三快在线科技有限公司 一种模型训练及关键词提取方法及装置
CN113704630A (zh) * 2021-10-27 2021-11-26 武汉卓尔数字传媒科技有限公司 一种信息推送方法、装置、可读存储介质和电子设备
CN114648027A (zh) * 2022-05-23 2022-06-21 每日互动股份有限公司 一种文本信息的处理方法、装置、计算机设备及存储介质
CN114648027B (zh) * 2022-05-23 2022-09-30 每日互动股份有限公司 一种文本信息的处理方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN103235818A (zh) 一种基于网页情感倾向性的信息推送方法和装置
Kumar et al. Sentiment analysis of multimodal twitter data
US11176142B2 (en) Method of data query based on evaluation and device
JP6379093B2 (ja) 製品識別子のラベル付けおよび製品のナビゲーション
CN104239331B (zh) 一种用于实现评论搜索引擎排序的方法和装置
CN106294425B (zh) 商品相关网络文章之自动图文摘要方法及系统
TWI543007B (zh) 將詞彙知識併入支援向量機學習以改良情緒分類
TWI654530B (zh) Method and device for screening and promoting keywords
CN104881458B (zh) 一种网页主题的标注方法和装置
WO2016000555A1 (zh) 基于社交网络的内容、新闻推荐方法和系统
CN103778260A (zh) 一种个性化微博信息推荐系统和方法
CN107544988B (zh) 一种获取舆情数据的方法和装置
US11113722B2 (en) Providing content related to sentiment of product feature
CN109801119B (zh) 界面展示、信息提供、用户行为内容信息处理方法及设备
CN102279890A (zh) 基于微博的情感词提取收集方法
CN105630768A (zh) 一种基于层叠条件随机场的产品名识别方法及装置
CN103377249A (zh) 关键词投放方法及系统
CN109492177A (zh) 一种基于网页语义结构的网页分块方法
CN109033441A (zh) 一种基于大数据分析的推送方法及装置
TWI645348B (zh) 商品相關網路文章之自動圖文摘要方法及系統
CN107368489A (zh) 一种资讯数据处理方法及装置
Yao et al. Online deception detection refueled by real world data collection
KR20160002199A (ko) 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템
CN103942233B (zh) 目录型网页的介绍页识别方法及装置
KR101652433B1 (ko) Sns 문서에서 추출된 토픽을 기반으로 파악된 감정에 따른 개인화 광고 제공 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20130807

RJ01 Rejection of invention patent application after publication