CN106294425B - 商品相关网络文章之自动图文摘要方法及系统 - Google Patents

商品相关网络文章之自动图文摘要方法及系统 Download PDF

Info

Publication number
CN106294425B
CN106294425B CN201510273365.6A CN201510273365A CN106294425B CN 106294425 B CN106294425 B CN 106294425B CN 201510273365 A CN201510273365 A CN 201510273365A CN 106294425 B CN106294425 B CN 106294425B
Authority
CN
China
Prior art keywords
commodity
picture
specific subject
relevant
web documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510273365.6A
Other languages
English (en)
Other versions
CN106294425A (zh
Inventor
骆宏毅
王智敏
张怡君
胡敏君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yuzhan Precision Technology Co ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Shenzhen Yuzhan Precision Technology Co ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yuzhan Precision Technology Co ltd, Hon Hai Precision Industry Co Ltd filed Critical Shenzhen Yuzhan Precision Technology Co ltd
Priority to CN201510273365.6A priority Critical patent/CN106294425B/zh
Publication of CN106294425A publication Critical patent/CN106294425A/zh
Application granted granted Critical
Publication of CN106294425B publication Critical patent/CN106294425B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明提供一种商品相关网络文章之自动图文摘要方法及系统。该方法包括步骤:从互联网上搜集网络文章;从搜集到的网络文章中筛选出与一特定主题的商品相关的网络文章及提取出相应的商品名称,并将该筛选出来的网络文章与相应的商品名称关联后一并存储在一特定主题商品数据库中;以及从该特定主题商品数据库中分别获取与各个商品相关的所有网络文章中嵌入的图片,从与各个商品相关的图片中分别筛选出各个商品的代表图片,并将各个商品的代表图片存储于该特定主题商品数据库中。本发明的自动图文摘要系统,采用自动摘要技术,汇整不同信息来源,提供商品代表图片与评论摘要两方面的商品信息,为用户提供了直观的数据,方便用户查询。

Description

商品相关网络文章之自动图文摘要方法及系统
技术领域
本发明涉及网络信息处理领域,特别涉及一种商品相关网络信息之自动图文摘要方法及系统。
背景技术
随着互联网和Web2.0的快速发展,互联网上的信息量每天都在以惊人的速度增长。越来越多的人喜欢在互联网上发表他们对人、事、物的意见,论坛、博客(Blog)、评论网站、微博等都给Web2.0时代的使用者提供了一个发布信息、表达观点的平台,于是互联网上产生了大量的含有个人主观色彩的评论信息。在购买商品前,例如购买3C产品或美妆产品,或到餐厅进行消费等,消费者往往习惯于在网络上搜寻商品的相关信息或评论。然而,网络信息数量繁多、质量好坏不一、完整度不一,不同来源的评论可能意见相左,想要获得较为可靠的评论之总结,就必须浏览与综合许多不同来源的意见。因此,如何自动综合分析网络上对特定商品的评论信息,如何快速提取出有参考价值的信息,以便减轻消费者阅读大量相关评论信息的工作量,并帮助消费者于短时间内判断及做出购买决策,已经成为自然语言处理领域中的一个研究热点。
发明内容
有鉴于此,有必要提出一种商品相关网络文章之自动图文摘要系统及方法,以解决上述问题。
一种商品相关网络文章之自动图文摘要系统,安装并运行于一服务器中。该自动图文摘要系统包括一信息搜集模块,用于从互联网上搜集网络文章;一信息撷取模块,用于从该信息搜集模块搜集到的网络文章中筛选出与一特定主题的商品相关的网络文章及提取出相应的商品名称,并将该筛选出来的网络文章与相应的商品名称关联后一并存储在一特定主题商品数据库中;以及一影像摘要模块,用于从该特定主题商品数据库中分别获取与各个商品相关的所有网络文章中嵌入的图片,从与各个商品相关的图片中分别筛选出各个商品的代表图片,并将各个商品的代表图片存储于该特定主题商品数据库中。
一种商品相关网络文章之自动图文摘要方法,应用于一服务器中。该自动图文摘要方法包括步骤:从互联网上搜集网络文章;从搜集到的网络文章中筛选出与一特定主题的商品相关的网络文章及提取出相应的商品名称,并将该筛选出来的网络文章与相应的商品名称关联后一并存储在一特定主题商品数据库中;以及从该特定主题商品数据库中分别获取与各个商品相关的所有网络文章中嵌入的图片,从与各个商品相关的图片中分别筛选出各个商品的代表图片,并将各个商品的代表图片存储于该特定主题商品数据库中。
本发明的商品相关网络文章之自动图文摘要方法及系统,采用自动摘要技术,汇整不同信息来源,提供商品代表图片与评论摘要两方面的商品信息,为用户提供了直观的数据,方便用户查询,并帮助消费者于短时间内判断及取得重要购买决策参考信息。
附图说明
图1是本发明一实施方式中的商品相关网络文章之自动图文摘要系统的运行环境示意图。
图2是本发明一实施方式中的商品相关网络文章之自动图文摘要系统的功能模块示意图。
图3是本发明一实施方式中的商品相关网络文章之自动图文摘要方法的流程图。
图4是本发明一实施方式中的筛选出与一特定主题的商品相关的网络文章及提取出相应的商品名称,并将该筛选出来的网络文章与相应的商品名称关联后一并存储在一特定主题商品数据库中的流程图。
图5是本发明一实施方式中的从与各个商品相关的图片中分别筛选出各个商品的代表图片的流程图。
图6是本发明一实施方式中的根据各个商品的属性特征对与各个商品相关的评论信息分别进行自动摘要及分别生成各个商品的评论摘要信息的流程图。
主要元件符号说明
服务器 100
存储单元 11
处理器 12
通信单元 13
自动图文摘要系统 10
信息搜集模块 101
信息撷取模块 102
影像摘要模块 103
文字摘要模块 104
查询模块 105
互联网 200
特定主题商品数据库 300
步骤 301-305、3021-3023、3031-3034、3041-3043
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
如图1所示,是本发明一实施方式中的商品相关网络文章之自动图文摘要系统10的运行环境示意图。
该自动图文摘要系统10为安装并运行于一服务器100中的一系列计算机化程序代码。在本实施方式中,该服务器100可以是网络服务器、云端服务器等计算机装置。
该服务器100还包括,但不限于,存储单元11、处理器12以及通信单元13。该通信单元13用于与一互联网200连接,并从该互联网200中获取信息及/或向该互联网200上传信息。
该存储单元11用于存储各类信息,例如该自动图文摘要系统10的计算机化程序代码。该处理器12用于执行该自动图文摘要系统10以及该服务器100内安装的各类软件的计算机化程序代码。该存储单元11可为闪存卡、硬盘等。该处理器12可为中央处理器、单片机、数字信号处理器等。
在本实施方式中,该自动图文摘要方法及系统,汇整不同来源商品相关网络文章,并采用自动摘要技术,提供商品代表图片与评论摘要两方面的商品信息,为用户提供了直观的数据,方便用户查询,并帮助消费者于短时间内判断及取得重要购买决策参考信息。
如图2所示,是本发明一实施方式中的商品相关网络文章之自动图文摘要系统10的功能模块示意图。
在本实施方式中,该自动图文摘要系统10包括一信息搜集模块101、一信息撷取模块102、一影像摘要模块103、一文字摘要模块104、以及一查询模块105。
本发明所称的模块是指一种能够被计算机的处理器所执行并且能够完成特定功能的一系列计算机化程序代码,其存储在该计算机装置的存储单元中。关于各模块的功能将在下面的流程图中具体描述。根据不同的需求,该流程图步骤的顺序可以改变,某些步骤可以省略。
图3为本发明一实施方式的商品相关网络文章之自动图文摘要方法的流程图。如图3所示,根据本发明一实施方式的商品相关网络文章之自动图文摘要方法,包括以下步骤:
步骤301,该信息搜集模块101透过该通信单元13从互联网200上搜集网络文章,并将搜集到的网络文章传送至该信息撷取模块102。
在本实施方式中,该信息搜集模块101可以采用现有的信息收集方法,例如,采用面向互联网的自动化程序,例如网络爬虫(crawler)、网络机器人(bot)、或网络蜘蛛人(spider)等来定期自动地从互联网200上搜集网络文章。
在本实施方式中,该网络文章可以是博客、微博、论坛等网页文件。
步骤302,该信息撷取模块102从该信息搜集模块101搜集到的网络文章中筛选出与一特定主题的商品相关的网络文章及提取出相应的商品名称,并将该筛选出来的网络文章与相应的商品名称关联后一并存储在一特定主题商品数据库300(例如餐厅数据库)中。
该特定主题的商品可为3C产品、家电、汽车、美妆产品、或餐厅等。
如图4所示,在本实施方式中,该步骤302具体包括以下步骤:
步骤3021,该信息撷取模块102判断该搜集到的网络文章是否与该特定主题的商品相关。
以餐厅及博客信息为例,与该餐厅相关的特定主题为食记(对应于商品,则可为商品开箱文)。该信息撷取模块102判断该博客的主题是否是食记。
在本实施方式中,该信息撷取模块102首先通过现有的语言算法将搜集到的网络文章分别表示成文字字典分布(Bag-Of-Words)特征向量,然后利用预先训练好的机器学习食记分类器,判断该网络文章的主题是否是食记。
机器学习食记分类器的产生方式如下:预先搜集训练信息,食记信息作为正例,非食记信息作为反例。将这些训练信息输入机器学习的分类算法,例如支撑向量机(SupportVector Machine)、随机森林(Random Forests)、类神经网络(Neural Network)等,经过计算机学习计算这些训练数据之后即可产生食记分类器。
在此步骤中,该信息撷取模块102将判断为非食记的博客信息舍弃,即非食记的博客信息不会被送给后续的步骤处理,也不会被存储进该餐厅数据库。该信息撷取模块102将判断为食记的博客信息送往下一个步骤处理。
步骤3022,该信息撷取模块102以结构化样式规则从与该特定主题的商品相关的网络文章中提取出商品名称,并将该网络文章与相应的商品名称关联后一并存储在该特定主题商品数据库300中。
以餐厅为例,该信息撷取模块102从判断为食记的文字信息中,搜寻是否有符合预先定义的结构化样式,并从中撷取出餐厅信息。结构化样式如,店名:○○○、地址:○○○、电话:○○○。当该信息撷取模块102发现这些样式时,即取出店名、地址、电话等信息,并至该餐厅数据库中搜寻是否已有此店家信息。若无此店家,则将店家信息及食记内容存入该餐厅数据库,并将该食记关联至该店家。若已有此店家,则仅将食记内容存入该餐厅数据库,并将该食记关联至该店家。若已找到符合的结构化样式,则完成信息撷取工作;否则,进入步骤3023。
步骤3023,该信息撷取模块102从与该特定主题的商品相关的网络文章的非结构化信息中提取出商品名称,并将该网络文章与相应的商品名称关联后一并存储在该特定主题商品数据库300中。
以餐厅为例,在此步骤中,该信息撷取模块102从判断为食记的文字信息中搜寻非结构化的店名信息。此步骤的执行遵循以下二个假设:店名出现在该博客的标题中,或店名出现在博客内文中次数较高。
对于每一博客食记,该信息撷取模块102首先利用现有的自然语言处理方法对博客标题做断词,并将断词后的每个单位(词)视为可能的候选店名,然后计算每一个词在博客内文中的统计特征,包括该词在内文中出现的次数,以及该词在内文中的前后文出现特定关键词句的次数。前后文特定关键词句由计算机学习计算其他的训练信息之后统计得出,例如:○○○是数十年的老店、○○○的招牌菜是酸菜白肉锅、○○○的地址位于中正路与中山路口。“老店”、“招牌菜”、“地址位于”,这些词都是餐厅名称的前后文关键词。在计算完标题中的候选店名的统计特征后,若有连续几个词的统计特征超过设定的门坎值,则该信息撷取模块102将该连续几个词合并成单一店名。
最后,该信息撷取模块102在该餐厅数据库搜寻是否有符合该店名的店家信息。若没有,则不将该食记内容存入该餐厅数据库。若有单一店家店名符合,则该信息撷取模块102将该食记内容存入该餐厅数据库,并将该食记关联至相对应之店家。若有多笔店家店名符合,则需比对该食记中是否出现某一家店名的地址、电话等信息。若有,则将该食记内容加入该餐厅数据库,并关联至相对应之店家。
步骤303,该影像摘要模块103从该特定主题商品数据库300中分别获取与各个商品相关的所有网络文章中嵌入的图片,从与各个商品相关的图片中分别筛选出各个商品的代表图片,并将各个商品的代表图片存储于该特定主题商品数据库300中。
其中,网络文章中嵌入的图片包括嵌入在商品信息中的图片及嵌入在评论信息中的图片。
以餐厅为例,针对一家餐厅,该影像摘要模块103从餐厅数据库中存储的所有相关博客食记中下载其嵌入的图片。
如图5所示,在本实施方式中,该步骤303中的“从与各个商品相关的图片中分别筛选出各个商品的代表图片”具体包括以下步骤:
步骤3031,针对每一商品,该影像摘要模块103根据预设条件对与该商品相关的所有图片做预过滤。
在本实施方式中,以餐厅为例,该预设条件为下述的一个或多个:去除有人脸的图片(因人物照大多重点不在食物,不容易引发消费者食欲)、去除像素值太低的图片、去除黑白图片。
步骤3032,该影像摘要模块103从经过滤后的每一图片中分别撷取影像特征。
该影像特征包括下述的一个或多个:1)颜色分布;2)饱和度分布;3)明暗度分布;4)对比度;5)清晰度;6)视觉字典(Bag-Of-Visual-Words)分布;7)图片嵌入处的前后文是否出现该餐厅的招牌菜的关键词;8)相似画面的图片是否出现在多个不同的网络文章中。
其中,在这些影像特征中,第1至5项与视觉美观相关。第6项用于判断图片内容属于食物、装潢、或是餐厅建筑外观中的哪一种类别。第7项需先找出店名招牌菜关键词。实现方法是采用词频统计算法,找出经常出现在该店家的不同相关网络文章中的菜名,则该菜名很有可能是该店家的招牌菜(因不同人到该店家,一般都会提到该道菜)。第8项背后的概念是若不同网络文章都嵌入了相似画面的图片,则该图片较有可能是该店家的招牌菜的图片。为达成此目的,首先利用现有算法,例如分群算法找出相似画面的图片群聚,再计算该图片群聚中各自被嵌入不同网络文章数量的多寡。
步骤3033,该影像摘要模块103将从各张图片中撷取出的影像特征提供给一照片选择器,利用该照片选择器给每一张图片评分,并将该评分作为选择代表图片的依据。
该照片选择器的产生方式如下:预先搜集好与不好的代表图片的范例并撷取出各自的影像特征,将这些代表图范例及其影像特征输入机器学习的分类算法,例如支撑向量机(Support Vector Machine)、类神经网络(Neural Network),或是排序学习算法(Learning-to-Rank)等,通过机器学习算法从中归纳出代表图片好坏与其影像特征的关连性而得到判断模型(或是判断规则)。此判断模型便可以作为照片选择器使用。
步骤3034,该影像摘要模块103筛选出综合评分最高的图片作为对应的商品的代表图片。
这样,经过预过滤、撷取影像特征及评分之后筛选出来的代表该餐厅的图片具有以下特征:图片的美观与质量良好、图片较能引发用户的食欲以及去该餐厅的动机、以及图片较能反应出该餐厅的特色,如该餐厅的代表菜色。
步骤304,该文字摘要模块104从该特定主题商品数据库300中分别获取与各个商品相关的所有网络文章中包含的评论信息,根据各个商品的属性特征对与各个商品相关的评论信息分别进行自动摘要及分别生成各个商品的评论摘要信息,并将各个商品的评论摘要信息存储于该特定主题商品数据库300中。
以餐厅为例,针对一家餐厅,该文字摘要模块104从餐厅数据库中存储的所有相关博客食记中提取关于该餐厅的所有评论信息。
如图6所示,在本实施方式中,该步骤304中的“根据各个商品的属性特征对与各个商品相关的评论信息分别进行自动摘要及分别生成各个商品的评论摘要信息”具体包括以下步骤:
步骤3041,针对每一商品,设定商品的若干个属性类别,对该商品的所有相关评论信息中的每一个句子进行属性分类及相应的情感分类。
首先,通过一断词模块对所有相关评论信息进行包括分句、分词、词性标注等在内的各种预处理,以获得包括在该评论信息中的众多评论语句的词、词性向量。
该断词模块可以采用已有的自然语言处理方法来实现,用于对该评论信息进行预处理。例如,对于评论语句“上菜速度快。”,在经过预处理之后可得到类似于如下所示的结果:上菜/v速度/n快/a。/w。其中,“/v”表示动词词性,“/n”表示名词词性,“/a”表示形容词词性,“/w”表示标点符号。
其次,通过训练模型预先训练好的机器学习属性分类器确定经预处理后的每一个评论句子的内容归属的属性类别。
在本实施方式中,以餐厅为例,商品属性类别默认为:味道、服务、环境、价格、及其他。
在本实施方式中,利用一类别特征词库区分每一个句子的内容归属的属性类别。该类别特征词库为预先搜集的信息库,内有味道、服务、环境、价格这四个类别的句子常出现的关键词。如,味道类关键词有:味道、口味、口感、饮料等。
对于一个句子,统计各个属性类别的关键词在该句子中出现的次数,确定具有出现次数最多的属性类别,将该属性类别确定为该句子的内容归属之属性类别。若该句子中都没有包含这四类别的关键词,则该句子的内容归属于其他属性类别,且不进行下一步的处理。
在此,也可以采用基本名词短语识别技术从经预处理的评论句子中提取出候选商品属性类别,然后统计候选商品属性类别在评论句子中出现的次数,并从候选商品属性类别中选择那些出现频率满足预设条件(例如,大于预定门坎值)的商品属性类别作为该句子的内容归属之属性类别。
然后,对每一个属性类别的句子进行情感分类。
在本实施方式中,利用一类别意见词库区分每一句子的情绪为正向或负向。该类别意见词库亦为预先搜集的信息库,内有四个类别的正向情绪与负向情绪的关键词。例如,味道类的正向情绪词有:可口、鲜美、美味等,负向情绪词有:难吃、油腻、不好吃等。
步骤3042,确定每一属性类别对应的情感分类结果。
以餐厅为例,对于每一间餐厅,分别统计出各个属性类别的句子中出现的正向词与负向词的次数。若某一个属性类别正面词次数多,则总结出网络对该餐厅的该属性类别的总体评价为正面评价,反之则总结为负面评价。
步骤3043,对于每一个属性类别,从归属为该属性类别且情感分类与该情感分类结果相符的所有句子中挑选出现次数最多的特征词与意见词,并利用自然语言生成技术将特征词组合意见词来产生评论摘要。
以餐厅为例,例如,对于口味类别,若情感分类结果为正面评价,则从归属为口味类别且为正面评价的所有句子中挑选出现次数最多的特征词,例如料理,与意见词,例如好吃。最后将特征词与意见词组合得到短评,例如「料理好吃、店家贴心、沙发高级、价位小贵」。
步骤305,该查询模块105根据该通信单元13从该互联网200中接收到的一目标商品的搜寻关键词,从该特定主题商品数据库300中搜寻该目标商品的影像摘要信息及评论摘要信息。
在一种实施方式中,通过一在线搜索引擎自该互联网200上接收消费者之搜寻请求,诸如目标商品的搜寻关键词,并将该搜寻请求发送给该自动图文摘要系统10。该自动图文摘要系统10的该查询模块105从该特定主题商品数据库300中查询与该目标商品对应之影像摘要信息及评论摘要信息,并返回给该在线引擎以响应于自该互联网200中所接收到之搜寻请求。
对于实施方式中所阐述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干的变形和改进,这些也应该视为属于本发明的保护范围之内。

Claims (11)

1.一种商品相关网络文章之自动图文摘要系统,安装并运行于一服务器中,其改良在于:该自动图文摘要系统包括:
一信息搜集模块,用于从互联网上搜集网络文章;
一信息撷取模块,用于从该信息搜集模块搜集到的网络文章中筛选出与一特定主题的商品相关的网络文章及提取出相应的商品名称,并将该筛选出来的网络文章与相应的商品名称关联后一并存储在一特定主题商品数据库中;以及
一影像摘要模块,用于从该特定主题商品数据库中分别获取与各个商品相关的所有网络文章中嵌入的图片,从与各个商品相关的图片中分别筛选出各个商品的代表图片,并将各个商品的代表图片存储于该特定主题商品数据库中;
其中,从与各个商品相关的图片中分别筛选出各个商品的代表图片包括:
针对每一商品,根据预设条件对与该商品相关的所有图片做预过滤;
从经过滤后的每一图片中分别撷取影像特征;
将从各张图片中撷取出的影像特征提供给一照片选择器,利用该照片选择器给每一张图片评分,并将该评分作为选择代表图片的依据,其中,所述照片选择器的产生方法包括:预先搜集不同评分的代表图片的范例并撷取出各自的影像特征,将所述代表图范例及其影像特征输入机器学习的分类算法,通过机器学习算法从中归纳出代表图片评分与其影像特征的关联性而得到判断模型,将所述判断模型作为照片选择器;以及
筛选出综合评分最高的图片作为对应的商品的代表图片,其中,所述筛选出的评分最高的代表图片反映了所述图片在美观与质量、是否能引发用户的动机、是否能反映商品的特色方面评分最高。
2.如权利要求1所述的自动图文摘要系统,其特征在于:该信息撷取模块通过下述方式筛选出与一特定主题的商品相关的网络文章及提取出相应的商品名称,并将该筛选出来的网络文章与相应的商品名称关联后一并存储在该特定主题商品数据库中:
判断该搜集到的网络文章是否与该特定主题的商品相关;以及
以结构化样式规则从与该特定主题的商品相关的网络文章中提取出商品名称,并将该网络文章与相应的商品名称关联后一并存储在该特定主题商品数据库中;或
从与该特定主题的商品相关的网络文章的非结构化信息中提取出商品名称,并将该网络文章与相应的商品名称关联后一并存储在该特定主题商品数据库中。
3.如权利要求2所述的自动图文摘要系统,其特征在于:该自动图文摘要系统还包括一文字摘要模块,用于从该特定主题商品数据库中分别获取与各个商品相关的所有网络文章中包含的评论信息,根据各个商品的属性特征对与各个商品相关的评论信息分别进行自动摘要及分别生成各个商品的评论摘要信息,并将各个商品的评论摘要信息存储于该特定主题商品数据库中。
4.如权利要求3所述的自动图文摘要系统,其特征在于:该文字摘要模块通过下述方式从该特定主题商品数据库中分别获取与各个商品相关的网络文章中的评论信息,根据各个商品的属性特征对与各个商品相关的评论信息分别进行自动摘要:
针对每一商品,设定商品的若干个属性类别,对该商品的所有相关评论信息中的每一个句子进行属性分类及相应的情感分类;
确定每一属性类别对应的情感分类结果;以及
对于每一个属性类别,从归属为该属性类别且情感分类与该情感分类结果相符的所有句子中挑选出现次数最多的特征词与意见词,并利用自然语言生成技术将特征词组合意见词来产生评论摘要。
5.如权利要求3所述的自动图文摘要系统,其特征在于:该自动图文摘要系统还包括一查询模块,用于根据从该互联网中接收到的一目标商品的搜寻关键词,从该特定主题商品数据库中搜寻该目标商品的影像摘要信息及评论摘要信息。
6.一种商品相关网络文章之自动图文摘要方法,应用于一服务器中,其改良在于:该自动图文摘要方法包括步骤:
从互联网上搜集网络文章;
从搜集到的网络文章中筛选出与一特定主题的商品相关的网络文章及提取出相应的商品名称,并将该筛选出来的网络文章与相应的商品名称关联后一并存储在一特定主题商品数据库中;以及
从该特定主题商品数据库中分别获取与各个商品相关的所有网络文章中嵌入的图片,从与各个商品相关的图片中分别筛选出各个商品的代表图片,并将各个商品的代表图片存储于该特定主题商品数据库中;
其中,从与各个商品相关的图片中分别筛选出各个商品的代表图片具体包括以下步骤:
针对每一商品,根据预设条件对与该商品相关的所有图片做预过滤;
从经过滤后的每一图片中分别撷取影像特征;
将从各张图片中撷取出的影像特征提供给一照片选择器,利用该照片选择器给每一张图片评分,并将该评分作为选择代表图片的依据,其中,所述照片选择器的产生方法包括:预先搜集不同评分的代表图片的范例并撷取出各自的影像特征,将所述代表图范例及其影像特征输入机器学习的分类算法,通过机器学习算法从中归纳出代表图片评分与其影像特征的关联性而得到判断模型,将所述判断模型作为照片选择器;以及
筛选出综合评分最高的图片作为对应的商品的代表图片,其中,所述筛选出的评分最高的代表图片反映了所述图片在美观与质量、是否能引发用户的动机、是否能反映商品的特色方面评分最高。
7.如权利要求6所述的自动图文摘要方法,其特征在于:筛选出与一特定主题的商品相关的网络文章及提取出相应的商品名称,并将该筛选出来的网络文章与相应的商品名称关联后一并存储在该特定主题商品数据库中具体包括以下步骤:
判断该搜集到的网络文章是否与该特定主题的商品相关;以及
以结构化样式规则从与该特定主题的商品相关的网络文章中提取出商品名称,并将该网络文章与相应的商品名称关联后一并存储在该特定主题商品数据库中;或
从与该特定主题的商品相关的网络文章的非结构化信息中提取出商品名称,并将该网络文章与相应的商品名称关联后一并存储在该特定主题商品数据库中。
8.如权利要求6所述的自动图文摘要方法,其特征在于:该特定主题的商品为餐厅,对于每一家餐厅,该影像特征至少包括图片嵌入处的前后文是否出现该餐厅的招牌菜的关键词,以及相似画面的图片是否出现在多个不同的网络文章中。
9.如权利要求7所述的自动图文摘要方法,其特征在于:该自动图文摘要方法进一步包括步骤:
从该特定主题商品数据库中分别获取与各个商品相关的所有网络文章中包含的评论信息,根据各个商品的属性特征对与各个商品相关的评论信息分别进行自动摘要及分别生成各个商品的评论摘要信息,并将各个商品的评论摘要信息存储于该特定主题商品数据库中。
10.如权利要求9所述的自动图文摘要方法,其特征在于:从该特定主题商品数据库中分别获取与各个商品相关的网络文章中的评论信息,根据各个商品的属性特征对与各个商品相关的评论信息分别进行自动摘要具体包括以下步骤:
针对每一商品,设定商品的若干个属性类别,对该商品的所有相关评论信息中的每一个句子进行属性分类及相应的情感分类;
确定每一属性类别对应的情感分类结果;以及
对于每一个属性类别,从归属为该属性类别且情感分类与该情感分类结果相符的所有句子中挑选出现次数最多的特征词与意见词,并利用自然语言生成技术将特征词组合意见词来产生评论摘要。
11.如权利要求9所述的自动图文摘要方法,其特征在于:该自动图文摘要方法进一步包括步骤:
根据从该互联网中接收到的一目标商品的搜寻关键词,从该特定主题商品数据库中搜寻该目标商品的影像摘要信息及评论摘要信息。
CN201510273365.6A 2015-05-26 2015-05-26 商品相关网络文章之自动图文摘要方法及系统 Active CN106294425B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510273365.6A CN106294425B (zh) 2015-05-26 2015-05-26 商品相关网络文章之自动图文摘要方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510273365.6A CN106294425B (zh) 2015-05-26 2015-05-26 商品相关网络文章之自动图文摘要方法及系统

Publications (2)

Publication Number Publication Date
CN106294425A CN106294425A (zh) 2017-01-04
CN106294425B true CN106294425B (zh) 2019-11-19

Family

ID=57634296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510273365.6A Active CN106294425B (zh) 2015-05-26 2015-05-26 商品相关网络文章之自动图文摘要方法及系统

Country Status (1)

Country Link
CN (1) CN106294425B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019726B (zh) * 2017-12-22 2021-09-21 百度在线网络技术(北京)有限公司 图书书评的生成方法及装置、计算机设备及可读介质
CN109960790B (zh) * 2017-12-25 2023-05-23 北京国双科技有限公司 摘要生成方法及装置
CN108228563A (zh) * 2017-12-29 2018-06-29 广州品唯软件有限公司 一种用户评论分析方法和装置
CN108415959B (zh) * 2018-02-06 2021-06-25 北京捷通华声科技股份有限公司 一种文本分类方法及装置
CN108364199B (zh) * 2018-02-28 2021-08-13 北京搜狐新媒体信息技术有限公司 一种基于互联网用户评论的数据分析方法及系统
CN110555199B (zh) * 2018-06-01 2023-07-04 北京百度网讯科技有限公司 基于热点素材的文章生成方法、装置、设备及存储介质
CN110580332A (zh) * 2018-06-07 2019-12-17 北京京东尚科信息技术有限公司 自动写作产品信息的方法、系统、电子设备及存储介质
CN110597978B (zh) * 2018-06-12 2023-12-08 北京京东尚科信息技术有限公司 物品摘要生成方法、系统、电子设备及可读存储介质
CN108920611B (zh) * 2018-06-28 2019-10-01 北京百度网讯科技有限公司 文章生成方法、装置、设备及存储介质
CN108984688B (zh) * 2018-07-03 2021-03-02 蜜芽宝贝(北京)网络科技有限公司 母婴知识话题推荐方法及装置
CN110020195B (zh) * 2018-08-16 2024-04-09 北京京东尚科信息技术有限公司 文章推荐方法及装置、存储介质、电子设备
CN109711311B (zh) * 2018-12-20 2020-11-20 北京以萨技术股份有限公司 一种基于动态人脸最优帧选取方法
CN110134765B (zh) * 2019-05-05 2021-06-29 杭州师范大学 一种基于情感分析的餐厅用户评论分析系统及方法
CN110489542B (zh) * 2019-08-10 2023-12-12 刘莎 一种互联网网页信息和文本信息的自动摘要方法
CN110738553A (zh) * 2019-10-18 2020-01-31 深圳市比量科技传媒有限公司 一种将不同商城的商品链接进行相互映射的方法及系统
CN111311385B (zh) * 2020-05-15 2020-08-04 成都晓多科技有限公司 一种基于商品卖点的商品推荐话术生成方法及系统
CN111815413A (zh) * 2020-07-09 2020-10-23 湖南数客星球信息技术有限公司 一种基于热点事件的大数据商品预测系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要系统
CN102609412A (zh) * 2011-01-07 2012-07-25 华东师范大学 基于rss的多线程图文信息同步爬取的控制方法及系统
CN103092861A (zh) * 2011-11-02 2013-05-08 阿里巴巴集团控股有限公司 一种商品代表图的选取方法和系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1632787A (zh) * 2003-12-24 2005-06-29 毛新 利用网络对图像进行浏览的方法
US7962461B2 (en) * 2004-12-14 2011-06-14 Google Inc. Method and system for finding and aggregating reviews for a product
US7603620B2 (en) * 2004-12-20 2009-10-13 Ricoh Co., Ltd. Creating visualizations of documents
CN101593335A (zh) * 2008-05-30 2009-12-02 看尚(北京)数字传媒科技有限公司 商品销售柜台及其实现方法
CN103093367A (zh) * 2011-10-28 2013-05-08 聚胜万合信息技术(上海)有限公司 一种互联网广告的精准投放系统及方法
US9449028B2 (en) * 2011-12-30 2016-09-20 Microsoft Technology Licensing, Llc Dynamic definitive image service

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要系统
CN102609412A (zh) * 2011-01-07 2012-07-25 华东师范大学 基于rss的多线程图文信息同步爬取的控制方法及系统
CN103092861A (zh) * 2011-11-02 2013-05-08 阿里巴巴集团控股有限公司 一种商品代表图的选取方法和系统

Also Published As

Publication number Publication date
CN106294425A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN106294425B (zh) 商品相关网络文章之自动图文摘要方法及系统
CN107748754B (zh) 一种知识图谱完善方法和装置
CN107577759B (zh) 用户评论自动推荐方法
US10565313B2 (en) Automatic semantic rating and abstraction of literature
KR102075833B1 (ko) 미술 작품 추천 큐레이션 방법 및 시스템
Zhao et al. Topical keyphrase extraction from twitter
US10032081B2 (en) Content-based video representation
US9201880B2 (en) Processing a content item with regard to an event and a location
WO2020253591A1 (zh) 运用标签知识网络的搜索方法及装置
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的系统
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
CN107784092A (zh) 一种推荐热词的方法、服务器及计算机可读介质
TWI645348B (zh) 商品相關網路文章之自動圖文摘要方法及系統
CN106105096A (zh) 用于连续社交通信的系统和方法
CN109710841A (zh) 评论推荐方法和装置
KR101491628B1 (ko) 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법, 장치 및 시스템
CN109960756A (zh) 新闻事件信息归纳方法
Baralis et al. Analysis of twitter data using a multiple-level clustering strategy
CN105468649B (zh) 一种待展示对象匹配的判断方法及其装置
CN111506831A (zh) 一种协同过滤的推荐模块、方法、电子设备及存储介质
JP2019507425A (ja) サービス処理方法と、データ処理方法及び装置
CN110706028A (zh) 基于属性特征的商品评价情感分析系统
KR20130083092A (ko) 제품 및 서비스 관련 리뷰에 대한 요약 정보 생성 시스템 및 방법
Alksher et al. A review of methods for mining idea from text
Yao et al. Online deception detection refueled by real world data collection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant