CN105593851A - 用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息的方法和装置 - Google Patents
用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息的方法和装置 Download PDFInfo
- Publication number
- CN105593851A CN105593851A CN201480054392.8A CN201480054392A CN105593851A CN 105593851 A CN105593851 A CN 105593851A CN 201480054392 A CN201480054392 A CN 201480054392A CN 105593851 A CN105593851 A CN 105593851A
- Authority
- CN
- China
- Prior art keywords
- image
- message
- relevant
- microblogging
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 125
- 238000001514 detection method Methods 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 description 21
- 230000000007 visual effect Effects 0.000 description 15
- 238000012549 training Methods 0.000 description 13
- 238000013480 data collection Methods 0.000 description 12
- 238000001914 filtration Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 244000097202 Rathbunia alamosensis Species 0.000 description 5
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241001062872 Cleyera japonica Species 0.000 description 1
- 101150064138 MAP1 gene Proteins 0.000 description 1
- 241000282320 Panthera leo Species 0.000 description 1
- 241000282376 Panthera tigris Species 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 102000003800 Selectins Human genes 0.000 description 1
- 108090000184 Selectins Proteins 0.000 description 1
- 241000838698 Togo Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- AAEVYOVXGOFMJO-UHFFFAOYSA-N prometryn Chemical compound CSC1=NC(NC(C)C)=NC(NC(C)C)=N1 AAEVYOVXGOFMJO-UHFFFAOYSA-N 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- Library & Information Science (AREA)
- General Business, Economics & Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用于跟踪微博消息的方法(100),其中所述微博消息与通过关联的文本和关联的图像可识别的实体相关。所述方法,包括(i)基于关联的文本对微博信息进行搜索(102),以获得第一结果集;(ii)基于关联的图像,在所述第一结果集中进行图像检测(104),以获得种子信息集;(iii)基于来源于所述种子信息的特征集对微博信息进行搜索(106),以获得第二结果集;和(iv)基于与所述实体的相关性,从所述第一结果集和第二结果集中选择条目(108),其中所述特征集与所述实体有关。本发明还公开了一种相关的装置。
Description
领域
本发明涉及一种用于跟踪微博消息的方法和装置,其中所述微博消息与通过关联的文本和图像可识别的实体相关。
背景
社交媒体平台[15,17],如推特TM、脸书TM或新浪微博TM,已经成为普遍存在并且必不可少的实时信息来源,具有广泛的用户及应用。消费者在社交媒体平台上发布与品牌相关的信息时,通常会提供正面/负面的评论,而这些评论可能会通过整个社交网络迅速并且广范围地传播。因此对这些评论的集体效应的认识和见解在了解品牌曝光度和消费者认同度方面对企业和机构具有重要的社会和市场价值[8,12,20]。即使对于个人用户,这些见解也能非常有用地帮助他们对感兴趣的品牌的产品做出购买决定。因此,针对在社交媒体流中迅猛增加的生活资讯,需要开发用于数据采集和媒体内容分析的高效品牌跟踪技术[7]。
因此,近年来,从社交媒体流中进行品牌跟踪已经开始吸引研究的关注[14,21],这是不足为奇的。进行品牌跟踪的一个主要目的是从生活社交媒体流中采集品牌相关数据。然而,由于社交媒体流的多个独特特性,品牌跟踪不是一个传统的搜索工作。首先,社交媒体平台上的帖子本质上倾向于简短和会话式,因而其中使用的内容/词汇常常更新的很快。特别地,传统基于关键词的数据抓取方法[2,4,13]受限于相关数据的覆盖程度。因此,使用一个固定的关键词集已不能保证能采集到与实体(如品牌/产品)有关的一个充分具有代表性的社交媒体数据集。第二,针对热门实体采集到的社交媒体数据的数量可能是庞大的。例如,2013年采集到的超级碗大停电游戏每分钟有231,500篇推文,总计有2400万篇。第三,微博内容本质上已经变得越来越多样化和多媒体化。最近的统计数据显示大约30%的微博帖子包含图像(如,对来自新浪微博TM的4亿件推文的研究显示,27%的推文包含图像),并且大多数图像不包含相关文本注释(如,对新浪微博TM的4亿件推文的另一项研究显示,仅有约32%的推文有图像和具有兼容含义的关联文本)。因此,仅使用一个固定的关键词集可能不足以采集相关数据。
应指出的是,现有的解决方案趋于主要关注于查询扩展技术。Chen等人[2]介绍了一种推文采集方法,其中同时应用关键词、候选话题和热门话题进行数据采集。Massoudi等人[13]介绍了一种用于采集相关数据的话题扩展技术,其中通过进行查询扩展来生成目标的动态话题。Massoudi还介绍了利用微博帖子的质量指标,即,转帖、粉丝和时效性,其中这些指标被结合在一起,来评价一篇微博帖子的关联概率。同样,Weerkamp和DeRijke[23]提出了一种用于采集微博帖子的可信度框架。Sakaki等人[18]提出了一种用于推特TM的实时事件信息采集,其中应用一个大的目标事件查询集来进行数据抓取。在B.O’Connor等人[16]的帖子中,通过利用频繁的关键词和副主题,提出了一种命名为“TweetMotif”的探测数据采集方法。Zhou等人[27]建议扩大个性化查询用于数据采集。除了目标,用户的注释和资源也被考虑用于进行进一步的数据抓取。在演进特征图中规划了一个标签主题模型,以探查从社交媒体流获得的文本数据。Leung等人[11]建议利用人类判断来生成语义索引。然而,值得注意的是,以上所讨论的解决方案主要依赖于基于文本的技术,但是考虑到现代社交媒体流的会话式和多模式性质,那些方法在相关数据的覆盖方面受到限制。
因此,本发明的一个目的在于解决至少一个现有技术的问题和/或提供一个对本领域有用的选择。
根据本发明的第一方面,提供了一种用于跟踪微博消息的方法,其中所述微博消息与通过关联的文本和关联的图像可识别的实体相关。所述方法,包括:(i)基于关联的文本对微博消息进行搜索,以获得第一结果集,(ii)基于关联的图像,在所述第一结果集中进行图像检测,以获得种子消息集,(iii)基于来源于所述种子消息的特征集,对微博消息进行搜索,以获得第二结果集,和(iv)基于与所述实体的相关性,从所述第一结果集和第二结果集中选择条目,其中所述特征集与所述实体有关。
所提出的方法的优点在于:通过利用演变的关键字、社交因素(如用户、关系和位置)和视觉内容,从发布在社交媒体平台上的微博消息中采集与所述实体(如品牌)相关/有关的数据。因此,通过利用社交媒体内容数据的异质性,有益于采集更相关和更精确的数据。此外,还利用噪声过滤,从返回的结果中过滤噪声数据。性能评价显示了所提出的方法达到了比传统方法更好的性能。
优选地,所述实体可能包括一个品牌或产品。
优选地,执行图像检测过程可能包括:(i)将从所述第一结果集中获得的每一个图像划分为多个子窗口,和(ii)对所述多个子窗口进行滑动窗口搜索,以确定所述图像是否对应于与实体关联的图像。
优选地,所述特征集可能包括基于社交背景的数据和基于图像的数据。更进一步,所述第二结果集可能包括根据所述基于社交背景的数据和所述基于图像的数据获得的相应结果集。具体地,所述基于社交背景的数据可能包括与所述种子消息的作者有关的信息,与所述种子消息或所述种子消息的作者关联的用户有关的信息,与对所述种子消息发表评论的用户有关的信息,与对应的用户身份里具有关联文本的用户有关的信息,和与发布所述种子消息的地理位置有关的信息。
此外,优选地,对微博消息进行的搜索可能包括利用关联的文本进行的基于文本的搜索。
优选地,从所述第一和第二结果集中选择条目的过程,可能包括:(i)构建一个超图来确定所述第一和第二结果集中的微博消息之间的相互关系,从而获得关联的相互关系结果,(ii)根据所述相互关系结果,确定所述微博消息各自的分数,和(iii)根据所述各自的分数来排名所述微博消息。
本发明的第二方面,提供了一种跟踪有关可被关联文本和图像识别的实体的微博消息的装置。所述装置,包括:一个处理器模块,适用于根据所述关联文本搜索所述微博消息,从而获得第一结果集,根据关联图像,在所述第一结果集中进行图像检测,从而获得一个种子消息集,并且根据一个来源于所述种子消息的特征集搜索所述微博消息,从而获得第二结果集;和一个选择模块,用于根据与所述实体的相关性,从所述第一和第二结果集中选择条目,其中所述特征集与所述实体有关。
显然,与本发明的其中一个方面有关的特征,也可以应用到本发明的其它方面。
本发明的这些方面及其他方面,将参考下文中描述的实施例进行阐述并明了化。
附图的简要说明
将参考附图对本发明中的实施例进行说明:
图1是根据一个实施例的一种用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息的方法的流程图;
图2是详细说明图1中的步骤的流程图;
图3示出在图1方法中使用的一种图像检测方法,用于在微博消息中检测与实体有关的图像;
图4包括图4a和图4b,其分别为图3中的图像检测方法的训练过程和检测过程的流程图;
图5包括图5a和图5b,示出图1的方法所采用的扩展数据采集的示例,分别通过利用关键用户和利用已知位置的社交背景;
图6示出利用视觉内容进行图1的方法的扩展数据采集的示例;
图7示出在图1方法中所使用的一种噪声数据过滤方法的图形化概览;
图8示出一个采集到的候选微博的聚合集,将要通过图7中的噪声去除方法对其进行处理;
图9是图7中的噪声数据过滤方法的流程图;
图10包括图10a和图10b,其分别描述了通过基于文本的超边和基于视觉的超边构建的微博超图的例子;
图11示出用于评价图1方法的品牌-社交-网络数据集;
图12包括图12a至图12c,描述了在图11中的品牌-社交-网络数据集中收集的品牌/产品的分布指标;
图13示出导致生成在图11中的品牌-社交-网络数据集中收集的品牌/产品的数据的事件细节;
图14是对所评价的不同数据采集方法的数据覆盖率结果进行比较的表;
图15包括图15a和图15b,其描述了所评价的数据采集方法的性能结果。
优选实施例的详细描述
1.社交媒体流中的品牌数据采集
根据图1的流程图所示的实施例,公开了一种用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息/帖子的方法100。图2是详细说明图1的特定步骤的另一流程图。在此阐明,所述微博消息/帖子从社交媒体流(如新浪微博TM)中接收。为简洁起见,所述微博消息/帖子在下文中被称为微博,但不能被解释为限制。实体的一个例子是消费者/机构特别感兴趣的目标品牌(即B),下文中将参考所述目标品牌来说明所述方法100,但是同样在任何方面都不能被解释为限制(例如,所述实体也可能是一个产品)。
如图1所示,所述方法100包括四个连续的阶段,即基于文本特征采集数据阶段102(下文中称为数据采集阶段),种子提取和分析阶段104(下文中称为种子采集阶段),扩展数据采集阶段106,和噪声数据过滤阶段108(下文中称为噪声过滤阶段)。参照图2,所述数据采集阶段102包括:首先在步骤202中,采集与所述目标品牌有关的特定查询关键词,其次在步骤204中,利用所述采集到的关键词搜索指定的微博数据集(即目标集),从而获得一个基于文本的结果(即)。应理解的是,所述目标集包含从不同的社交媒体流获得并采集到的微博。因此,所述数据采集阶段102,被安排来执行基于文本的搜索,以获得所述基于文本的结果利用所述基于文本的结果在下一步步骤206中,通过检测与所述目标品牌有关的图像(如标识),生成一个微博种子集(即种子微博),即所述种子采集阶段104。在下文中,所述种子集和种子微博将可互换地被称呼使用。具体地,在步骤206中,对与所述目标品牌有关的文本和视觉内容都进行了分析,以获得从文本和视觉角度都相关的种子微博。因此,所述种子微博被认为与所述目标品牌高度相关,因此可用于通过所述目标品牌的社交背景(例如活跃用户和已知位置)和视觉背景搜索更多的相关数据。以与所述社交背景和视觉背景有关的数据为基础,在步骤208(即所述“扩展数据采集”阶段106)中,进一步对所述目标集进行扩展数据搜索,以获得一个基于社交背景的结果集(即)和一个基于视觉内容的结果集(即)。所述基于文本的结果基于社交背景的结果和基于视觉内容的结果被一并表示为与所述目标品牌有关的候选微博的聚合集(即)。因此,所述方法100也可以被称为一种多方位品牌跟踪方法。
应理解的是,利用所述多方位方法采集到的所述聚合集包含与所述目标品牌有关的大的有代表性的相关微博的集合,同时许多不相关的微博也会被包含在内。为了解决这个问题,所述方法100还被设置成在所述噪声过滤阶段108中分析所述聚合集以过滤和除去不相关的微博。具体地,分别在步骤210和212中,对所述聚合集中的微博进行排名,接着进行分类。因为所述聚合集包含多模式数据(如文本、图像、位置和用户数据等),采用一种基于多模式超图的方法(基于监督式学习)来进行噪声过滤。
关于方法100(如图1所示)的四个阶段102,104,106和108的更多信息将在下文中进一步说明。
1.1基于文本特征进行的数据采集
为了跟踪所述目标品牌,首先在数据采集阶段102进行基于文本的搜索,以生成目标品牌的基于文本的结果在本实施例中,利用相关的查询关键词(例如品牌名称和/或对应的产品名称)来搜索与所述目标品牌有关的微博的目标集。例如,给定的品牌“大众汽车”,除了所述品牌名称自身,相关的关键词可能包括与“大众汽车”有关的产品名,例如“捷达”和“迈腾”,和/或其它扩展关键词,如“汽车”和“引擎”。还应理解的是,如果所述社交媒体流支持多种语言,所述关键词对应各语言的翻译也可能用于所述基于文本的搜索中。
1.2种子采集与分析
应指出的是,利用与所述目标品牌有关的关键词进行的数据采集(在所述数据采集阶段102)倾向于还包括许多噪声数据(即不相关的数据),因为所述目标品牌名称的存在不一定保证所述微博的相关性。因此,还需要检查所述微博的其它方面,以除去所述噪声数据。在这点上,观察到许多微博越来越倾向于包括图像,因此图像内容方面可能会被用来查找一个相关微博的子集(即所述种子微博),所述种子微博,在文本和视觉内容角度方面,都与所述目标品牌高度相关。在所述种子采集阶段104中完成对所述种子微博的定位,其中利用所述目标品牌的代表性标识作为在所述目标集中检测图像的区别视觉特征。假定所述基于文本的结果表示带有图像的nw微博,反之没有图像的no微博被表示为对于用表示对应的nw图像。
图3示出用在所述种子采集阶段104中的一种图像检测方法300的概览,图4a和图4b分别示出所述图像检测方法300的训练过程400和检测过程450的流程图。应指出的是,所述图像检测的目的是在所述基于文本的结果中的每一个图像中检测所述目标品牌的所述标识。具体地,所述图像检测方法300采用了一个级联分类器320,所述级联分类器被Adaboost和SVM[3]共同训练。在进行所述图像检测之前,先进行所述训练过程400。在所述训练过程400中,从(例如)谷歌图像和网络相册(Flickr)中收集一个正样本图像集(确定与所述目标品牌有关),并对它们进行手动标记。所述正样本图像包括指定片段和图像块,其中含有所述目标品牌的所述标识。从谷歌图像和网络相册(Flickr)中还采集一个不包含所述目标品牌的所述标识的负样本图像集,以提供一个初始负样本集和主动错误信息。在此情况下,主动错误信息指的是被错误地分类为正的负样本图像。还应指出的是,所述正样本图像集在训练过程400中是固定的并且保持不变,反之所述负样本图像集被递归地加入新图像(将在下文中解释)。
要强调的是,采用的所述训练过程400本质上是递归的,如在[22]中所列的,通过构建包含多个节点分类器的所述级联分类器320,直到达到满意的性能。在所述训练过程400的每一轮中,从所述正和负样本图像中都提取视觉特征,并将所述视觉特征提供给(所述图像检测方法300中的)学习过程,以训练一个特定的分类器。提取的所述视觉特征包括,但不限于,Harr特征[22],HOG[3],密集LBP[28],SIFT[31]和SURF[32]中的任何一个或它们的组合。但本实施例中,采用Harr特征。并且,采用的所述级联分类器320可能是SVM(即支持向量机),Adaboost算法或随机森林[29]。具体地,在所述训练过程400的每一轮中,Adaboost(例如)被用来选择多个Harr特征,但是不同于[22],最终节点分类器替代线性SVM,以用于训练的当前的正和负样本集为基础,利用所述被选择的Harr特征进行学习。然后按顺序连结每个节点分类器(根据当前一轮训练的结论),以形成所述级联分类器320,其用于在所述负样本图像中进一步彻底地搜索所有的主动错误信息。从而将所述新获得的主动错误信息计入,作为当前的负样本图像集的一部分。所述训练过程400的后续循环也同样按照所述方式进行,直到达到满意的性能(即主动错误信息率被认为充分低),然后终止所述训练过程400。
为清楚起见,应指出的是,所述主动错误信息率被定义为,在被确定为主动错误信息的负样本图像中的图像的百分比,在此情况下,“充分低”的定义,是指所述主动错误信息率达到约5%(这是以经验做出的选择,但不能被解释为限制,因为根据应用也可能选择其它合适的值)。因此,如果所述负样本图像总共包括2000个图像,结果,如果有100个图像被确定是主动错误信息,那么所述主动错误信息率被认为“充分低”。
随后,根据所述基于文本的结果进行所述检测过程450。对于所述检测过程450,为了确定一个候选图像是否与所述目标品牌的所述标识有关,检索所述候选图像,并将其划分为多个尺寸的多个子窗口。随后利用滑动窗口搜索方法扫描所述多个子窗口,其中在所述候选图像的x和y方向上都具有一个像素跨度。应指出的是,通过经验配置所使用的多个尺寸和将被划分成的子窗口,以在检测性能和检测速度之间达到一个最优平衡。其后,将被分类为正的子窗口聚类(根据位置和尺寸),以获得代表对目标品牌的所述标识的检测的最终结果。在此情况下,所述子窗口的聚类(clustering),包括参考使用均值漂移,和非最大值抑制技术。反之,如果没有检测到所述目标品牌的所述标识,所述子窗口被分类为负。应指出的是,实际实施时,设置一个小尺寸的训练模板,如24×18像素的彪马(Puma)标识。事实上,应指出的是,因为所述级联分类器320的每一个节点分类器能够消除大量的被认为是负的子窗口,所以可以非常快地实现所述检测过程450。
根据所述检测,利用性质L,将所述基于文本的结果中的微博中的所有图像标记为含有或不含有(所述目标品牌的)所述标识。对于第i个图像如果第i个图像被检测为含有所述目标品牌的所述标识,那么设定否则设定的确,被确定含有与所述目标品牌有关的相关文本并且还被检测到含有性质为的图像的所述基于文本的结果中的微博,可能与所述目标品牌高度相关,因此被包括到所述种子集(即所述种子微博)中。
1.3扩展数据采集
如上所述,所述基于文本的结果在所述数据采集阶段102中获得。为了进一步探讨社交媒体流中的数据的异质性,所述图1中的方法100还包括在目标集中进行扩展数据采集,以定位超出所述基于文本的搜索范围的更多相关微博。具体地,所述过程在扩展数据采集阶段106进行,其中利用所述种子微博的社交背景和视觉内容方面进行(将在下文中详细说明)。
1.3.1社交背景
在社交媒体平台上,社交背景涵盖微博的社交方面,如用户名,微博的发帖时间,发布微博的位置,用户评论(如果有的话),转帖行为(如果有的话),以及用户之间的关系等。因此,所述方法100被设置以从所述种子集中搜索精确的社交背景,从而进一步(从所述目标集中)采集与所述目标品牌有关的数据。具体在本实施例中,特别感兴趣的是与社交背景有关的两种类型的扩展信息,即从所述种子集中提取的关键用户和已知位置,在图5a和图5b中,分别示出了通过利用关键用户和已知位置的社交背景进行扩展数据采集的示例500和550。
1.3.1.1关键用户
所述关键用户的定义是,被认为对所述目标品牌活跃和有影响力的用户。两个关键用户组被认为是:(1)所述种子微博的作者,和(2)对所述种子微博进行评价的用户。所述两个用户组与所述种子微博高度相关,因此被认为有高度地可能性会在第一预定时期内再次发布相关微博。对于一个种子微博的每个作者ui,从与每个作者ui有关的社交关系中提取时间约束的社交网络并且选择中的所有微博作为候选。对于所述已发表评论的用户,来源于这些作者的微博也被返回作为候选。
1.3.1.2已知位置
从所述种子微博中,需要识别与大量的相关种子微博有关的可能的地理位置。这些地理位置,通常指示了具有与所述目标品牌有关/相关的行为(如产品发布和展览等)的地点。因此,在预定时间段内,在所述目标集之中的来源于所述被识别的位置的其他微博,可能也与所述目标品牌有关。所以,对来自/邻近所述被识别的位置的(在所述目标集中的)所有微博进行采集,并根据发帖时间进行过滤,作为一个可能的相关集。
应指出的是,在此情况下,将用于数据选择的所述第一预定时期的阈值设定到一天。通过利用所述种子微博的所述社交背景,在所述目标集中进行搜索后,获得所述基于社交背景的结果,表示为
1.3.2视觉内容
微博的视觉内容是另一个重要方面,其在社交媒体流中的影响日益增大。两个给定图像之间的相似视觉内容,可能指示在对应微博中的相近语义,所述对应微博中包含所述两个图像。在这里,利用所述种子微博的所述视觉内容作为另一个基础,以从所述目标集中定位可能潜在地与所述目标品牌有关的其他微博。图6示出利用视觉内容进行扩展数据采集的一个示例600。因为在社交媒体平台上,有许多复制图像通过转帖生成,所以首先进行种子图像聚类,以生成一组唯一的图像Λ,用于所述扩展数据采集。具体地,采用层次凝聚聚类法(HAC)[19]进行种子图像聚类。
其次,将Λ中的所述图像与,在所述第一特定时期内,在所述目标集中发布的图像进行比较。为简洁起见,仅考虑一个图像子集,其中所述图像子集被确定属于Λ中的最靠前的k个图像。因为社交媒体流中的数据量大,与集Λ中的所述图像进行比较的所述目标集中的图像集也很大,通常包含接近大约数百万的图像。所以为了效率考虑,特别设计一个高效的微博图像索引系统(没有示出)来实现快速图像匹配。在所述图像索引系统中,为每一个待比较的图像(包括在Λ和所述目标集中的图像)提取一个空间金字塔图像特征[25],所述空间金字塔图像特征在空间布局和局部信息上有很大的区别。具体地,为每一个图像提取一个密集SIFT特征。通过稀疏编码学习尺寸为1024的视觉字典,并且通过多尺度最大合并,生成空间金字塔特征。所述空间金字塔特征包括三个层次,并且为每一个图像生成21504-D特征。利用谱哈希(spectralhashing)[24],为每一个图像进一步生成32-位哈希码。其后,利用PCA为后处理提取200-D特征。
现在,给定Λ中的一个图像,首先,所述图像索引系统通过利用所述32-位哈希码返回一个结果集。随后,利用所述获得的PCA特征,细化所述返回的结果。最终,依据与Λ中的图像的相关性,对所述细化的结果进行排名,并且返回最靠前的ni个图像。因此,获得的所述基于视觉内容的结果被表示为
1.4噪声数据去除
回顾以上内容,在所述数据采集阶段102,种子采集阶段104和扩展数据采集阶段106中,采集被认为与所述目标品牌有关的以下类型的微博候选,即所述基于文本的结果所述基于社交背景的结果和所述基于视觉内容的结果(所有这些属于所述聚合集)。然而,所述扩展数据采集的使用,还包括许多不需要的噪声数据(即不相关信息)。因此在所述噪声过滤阶段108,同时调查所述文本信息和视觉内容方面(针对所述目标集中的所有微博),以探讨所述聚合集中的微博关于所述目标品牌的相关性,用于过滤和除去所述噪声数据。
为了导出所述聚合集中的所述微博之间的制定关系,在这里采用一个超图结构。应指出的是,超图[26]因其在高阶关系模型化中的优越性能,而通常用于多种类型的数据挖掘和信息检索工作[1,5,6,9]中。构建所述超图时,采用半监督学习过程进行噪声数据过滤,图7示出了用在本实施例中的一种噪声数据过滤方法700的图形化概述。
用表示n个候选微博的聚合集(如图8中的800所示)。图9示出了所述噪声数据过滤方法700的流程图900的概览。随后,利用所有所述聚合集中的微博构建微博超图在所述微博超图中,每一个顶点表示一个在所述聚合集中找到的微博。为了研究所述聚合集中的微博之间的相互关系,构建两种类型的超边ε,即基于文本的超边εtext和基于视觉特征的超边ευisual(分别如图10a中的1000和图10b中的1500所示)。
对于所述基于文本的超边εtext,对每个微博的文本语境进行文本解析,并且利用一个获悉的码本Dtext,将所述文本内容中的每一个单词编码成一个代码。应指出的是,仅利用出现频率大于一个特定阈值S(即,在此情况下,S=10)的单词生成所述基于文本的超边εtext。例如,可能除去最高频率的最靠前的200个单词,并且替代地,用其次排名靠前的2000个单词生成所述基于文本的超边εtext。用nc1×1特征向量表示(在所述聚合集中的)每个微博mi,其中表示所述特定微博mi包含所述码本Dtext中的第k个单词。每一个所选择的单词生成一个相关的基于文本的超边∈text,由此连接包含所述单词(即)的所述聚合集中的微博。相应地,总共有nc1个基于文本的超边εtext。
对于所述视觉内容方面,采用星展法研究不同微博图像之间的相关性。将每一个图像看做并设定为一个中心图像,由此连接所述最靠前的k个图像,并产生一个视觉超边ευisual。在此情况下,所述k值设定为5。应指出的是,有nc2(与所述聚合集中的图像数量相同)个基于视觉特征的超边ευisual将被处理。因此,总共有nc1+nc2个基于视觉特征的超边ευisual用于所述微博超图
强调指出,符号“W”在下文中表示所述基于视觉特征的超边ευisual的一个对角矩阵的权重。对于每一个超边ei∈ε,所述相关权重对于所述基于文本的超边εtext和所述基于视觉特征的超边ευisual分别被设定为和所述微博超边的关联矩阵H由方程式(1)表示:
顶点的顶点度数在方程式(2)中定义为:
所述超边e∈ε的边度在方程式(3)中定义为:
两个对角矩阵Dv和De对应于d(υ)和δ(e),其被分别定义为Dv(i,i)=d(υi)和Dv(i,i)=δ(ei)。
应指出的是,所述目标是利用所述微博超图来探讨(所述聚合集中的)所有微博之间的相互关系。随后,对所述微博超图进行半监督学习过程,以通过满足条件:
同时使所述超图结构的经验损失和正则化矩阵最小化。其中,λ是权衡参数;R是与所述目标品牌有关的所有微博的待评价的相关性向量(为清楚起见,R是一个包括多个相关性值的向量。例如,如果总共有100个微博,R包括所述100个微博各自的相关性值);而下文中的Y是由所述基于文本的结果中的相关性评价结果标记的向量,在方程式(5)中定义的Ψ是所述超图结构上的所述正则化矩阵:
并且,在方程式(6)中定义的Γ是所述经验损失:
Γ=||R-Y||2
(6)
在此情况下,假设那么所述目标函数的解决方案可以(根据方程式(7))获得:
有利地,通过使用基于所述相关性向量R计算的相关性分数,可以对所述聚合集中的所有微博进行排名。从而将具有高相关性分数的最靠前的微博结果确定为与所述目标品牌有关。例如,相关性值为0.9(即高相关性分数)的微博与相关性值是0.3(即低相关性分数)的微博相比,排在更靠前的位置。
利用所述方法100,收集尽可能多的与所述目标品牌有关的微博,然后适当排名所述微博,以反映所述目标品牌的当前社交曝光度和用户/消费者的有关意见。这在两个方面有利:(1)从所述文本信息和视觉内容方面,利用所述社交背景和视觉信息覆盖更多的被认为可能与所述目标品牌有关/相关的相关微博。与此相反,传统方法仅仅主要利用文本信息,因此常常忽略很多相关微博,同时也常常产生错误的结果;(2)通过结合所述文本信息和视觉内容,所述微博的排名将会因此更加精确,因为与所述目标品牌更相关的微博可能排名更靠前。作为对照,应指出的是,当前社交媒体平台不提供这样的排名功能。
为了良好的秩序,还应指出的是,所述图1中的方法100可能以装置(未显示)的形式实现,所述装置用于跟踪与通过关联的文本和图像可识别的实体相关(如所述目标品牌)的微博。相应地,所述装置包括一个处理器模块和一个选择模块。所述处理器模块,适用于:根据所述关联文本在所述微博中进行搜索,以获得第一结果集(即所述基于文本的结果);根据所述关联图像,在所述第一结果集中进行图像检测,以获得一个种子消息集(即所述种子微博);并且根据一个来源于所述种子消息的特征集,在所述微博中进行搜索,以获得第二结果集(即全体的所述基于社交背景的结果和基于视觉内容的结果)。另一方面,所述选择模块,用于根据与所述实体的相关性,从所述第一和第二结果集中选择条目,其中所述特征集与所述实体有关。
2.品牌-社交-网络数据集
在这部分,讨论一个含有品牌信息的微博数据集(即品牌-社交-网络),其用于所述方法100的性能评估。
2.1数据集
所述数据集是在2012年六月至七月之间从新浪微博TM中收集的,包含具有120万张图像的300万个微博。每一个微博包含一个文本说明,至少一张图像(如果有的话),与所述微博作者有关的信息,所述微博的发帖时间,发布所述微博的地理位置,以及新浪微博TM上与所述作者有关的用户关系。如图11中的图表2000所示,所述数据集包括100个著名品牌和300个不同产品的标识,这些标识选自汽车、运动、电子产品和化妆品领域。并且,在所述数据集中有大约总数为100万的个人用户(与所述300万个微博有关)。
对于所述100个著名品牌,图12a至图12c中的表3000、3200和3400示出了范围从122至50389的若干相关微博,和用于将所述相关微博分配给各个品牌的相关度量。应指出的是,有20个品牌/产品相关的事件,其导致在所述数据集中收集的数据的产生,并且所述这些事件发生在2012年六月至七月之间,其中所述事件的具体细节在图13中的表4000中示出。
2.2参考注释
所述数据集包括,依据文本说明/图像和每个图像中的物体/产品/标识的位置,每个微博与所述100个品牌的相关性的理论根据(ground-truth)。每一个微博都由三名志愿者注释,并且利用多数投票法来确定所指定的最终注释。
·标识注释。如果存在,对于每一个图像,利用边界框确定标识的准确位置。
·品牌相关性注释。对于每一个微博,将所述文本说明和所述图像(如果存在的话)与每一个品牌的相关性分别标注为1和0。
a)如果确定关联内容与一个目标品牌有关,则标注所述文本说明为Brt=1,否则标注为Brt=0。
b)如果确定关联内容与一个目标品牌有关,则标注所述图像为Bri=1,否则标注为Bri=0。
c)如果所述文本说明的内容或所述图像中的任意一个与一个目标品牌有关,则标注所述微博为Br=1,否则标注为Br=0。
·产品相关性注释。对于每一个微博,将所述文本说明和所述图像(如果有的话)与每一个产品的相关性分别标注为1和0。
a)如果确定关联内容与一个目标产品有关,则标注所述文本说明为Prt=1,否则标注为Prt=0。
b)如果确定关联内容与一个目标产品有关,则标注所述图像为Pri=1,否则标注为Pri=0。
c)如果所述文本说明的内容或所述图像中的任意一个与一个目标产品有关,则将所述微博再次标注为Pr=1,否则标注为Pr=0。
·对象注释。如果一个给定的品牌或产品有相关的对象,则标记这些对象的边界框。
2.3挑战性工作
出于完整性,应指出的是,可在所述数据集上进行的挑战性工作包括,但不限于:
●标识/产品/品牌检测及搜索工作。如上所述,所述数据集包括100个著名品牌和300个不同产品的标识,具有所述标识/产品位置和相关对象的有注释的理论根据(ground-truth)。本工作可以通过利用文本特征、视觉特征、社交特征和/或所有特征的组合来执行;
●品牌/产品数据采集工作。从社交媒体平台获得信息的一个关键挑战是怎样采集与一个品牌或产品有关的代表性数据集;
●社交事件分析工作。定义超过20件品牌相关事件,用于事件检测和跟踪研究;
●社交媒体相关研究。所述数据集包括社交信息,用于支持以下研究:情感分析,社交网络分析,关键用户和热门推特/事件分析等。
3.实验评价
为了评价所述方法100在社交媒体流方面的性能,进行基于所述品牌-社交-网络数据集的实验。实验设置及结果评价将在本节中讨论。
3.1实验设置
实验中,选择一个品牌,并且目标是采集所述品牌-社交-网络数据集中与所述被选择的品牌有关的所有微博(即Br=1)。利用查全率(recallvalue)评价采集到的所述相关微博的数据覆盖率,并且利用归一化折损累积增益(NDCG)[10]测量所述噪声数据过滤方法700的性能。设定所述方程式(4)中的权衡参数λ为0.9。设定所选择的图像ni的个数是100,并且设定实验中被返回的图像的最大数量是10000。对于所述图像检测方法300,平均查准率和查全率分别是0.743和0.383。因为通过所述图像检测获得的结果被认为是用于评价微博图像相关性的正样本图像,所以查准率是用于进一步处理的一个重要标准。图像检测(针对一个标识)的较低查准率表明更多被错误检测到的结果,导致用于后续过程的被错误标记的样本。因此,所述图像检测的较高查准率确保了所述被选择的图像与所述被选择的品牌是高度相关的。
3.2关于不同采集方法的数据覆盖率
在此讨论不同(数据)采集方法的数据覆盖率评价。对于针对所述被选择的品牌进行的数据采集,覆盖率被认为是一个重要的性能指标。较高的覆盖率导致更多有用内容用于进一步分析。实验中利用了三个不同类型的数据资源:所述基于文本的结果所述基于社交背景的结果和所述基于视觉内容的结果相应地,被评价的所述不同的采集方法分别是:(1)仅依赖于所述基于文本的结果的基线法;(2)依赖于所述基于文本的结果和所述基于社交背景的结果(即)的组合的第二方法;(3)依赖于所述基于文本的结果和所述基于视觉内容的结果(即)的组合的第三方法;和(4)依赖于所述基于文本的结果所述基于社交背景的结果和所述基于视觉内容的结果(即)的所述图1中的方法100。
首先评价所述不同采集方法的整体数据覆盖率。如图14中的表5000所示,所述基线法可能达到60.12%的覆盖率,所述覆盖率通过确定(所述数据集中的)所述微博的文本说明中是否存在任一关键词而获得。通过利用基于社交背景、视觉内容及其两者的扩展数据采集,所述第二方法、所述第三方法和所述方法100中的覆盖率被分别提高到62.42%,65.67%和68.13%。总的来说,与所述基线法相比,扩展数据采集的应用会导致所述方法100的数据覆盖率提高13.32%。
另外,也评价所述不同采集方法中的最靠前返回结果的数据覆盖率,其中比较采集到的最靠前的100至1000个结果的数据覆盖率,并在图15a中的图表6000中示出。可以看出,与所述基线法相比,所述方法100能够使最靠前返回结果的覆盖率获得显著增益。与基线法相比,通过包含所述基于社交背景的结果针对召回深度100、200、300、400、500和1000,所述第二方法分别能够分别提高22.90%、22.72%、22.80%、23.36%、26.21%和20.60%。此外,与基线法相比,通过包含所述基于视觉内容的结果所述第三方法能够使数据覆盖率分别提高24.35%、23.30%、25.87%、25.73%、27.51%和21.96%。另一方面,与基线法相比,针对召回深度100、200、300、400、500和1000,所述方法100能够使数据覆盖率分别提高27.82%、26.81%、27.92%、28.10%、32.07%和26.90%。因此,所述方法100的结果证明了扩展数据采集用于在社交媒体流中进行品牌数据采集的有效性。
3.3关于所述噪声数据过滤方法
在本节中,对所述噪声数据过滤方法700的性能进行评价。应指出的是,当在所述扩展数据采集中采用多种资源时,虽然可以达到更高的相关数据覆盖率,但是也会在过程中获得更多的噪声数据。因此,为了采集和获得更相关的结果,噪声数据过滤是必不可少的。为了评价所述噪声数据过滤方法700的性能,计算最靠前返回结果的NDCG值,以比较所述不同的采集方法。图15b中的图表6500示出了所述所有不同的采集方法在这方面的比较,并且如图所示,与所述基线法相比,依赖于多方面数据资源的所述方法100能够获得较高精度的靠前结果。值得注意的是,相比于所述基线法,在各个深度100、200、300、400、500和1000的NDCG值方面,所述方法100分别提高了16.18%、15.24%、13.81%、13.15%、12.21%和9.59%。
4.总结
概括地说,在社交媒体流上产生的大量的实时信息已经导致了对品牌跟踪技术的高要求。为了解决这件挑战性的工作,本发明提出了所述图1中的方法100,用于从大范围的社交媒体内容中采集一个实体(如一个品牌)的代表性数据。因为越来越多的社交媒体帖子还包括多媒体内容,所以所述方法100,以不断发展的关键字、社交因素(如用户、关系和位置)和视觉内容为基础,采集相关数据。所述方法100,有利地利用社交媒体内容数据的异质性,其中,首先获取所述种子微博集,其次利用所述种子微博的社交背景和视觉内容,从大范围的噪声数据中采集更多相关帖子。在所述噪声过滤阶段108,采用噪声过滤从返回的结果中过滤及除去所述噪声数据。应指出的是,所述方法100已对所述品牌-社交-网络数据集进行了评价,所述品牌-社交-网络数据集包括100个著名品牌的300万个微博。利用所述数据集的实验证明,与现有的最先进的方法相比,所述方法100可以始终如一地取得更好的性能。
设想所述方法100的至少两个工业应用:
(1)与传统方法相比,所述方法100能够针对生活社交媒体平台提供改进的品牌/产品搜索。除文本信息外,还考虑与微博有关的图像来提供其他的手段,用于查找与感兴趣的品牌/产品有关/相关的相关信息,因此,可能获取更多有用的信息。另外,因为按照与所述感兴趣的品牌/产品的相关性顺序对所述获得的结果进行排名,可以以用户便于查看的清晰方式显示所述结果。
(2)所述方法100可以作为企业/机构的有用工具,以通过分析不同社交媒体平台上的讨论,确定一个特定品牌/产品的公众接受程度。通过所述方法100,可以获取有价值的统计数据和用户反馈,来辅助所述决定和任何分析(如果需要的话)。可以容易地收集提及/讨论所述特定品牌/产品的微博,用于进一步处理。此外,所述企业/机构可以监视消费者/用户提到和感知到所述特定品牌/产品的频繁程度,从而可以对所述特定品牌/产品的普及和声誉进行进一步分析。此外,通过采集与竞争品牌/产品相关的社交曝光度统计数据,所述方法100还可以被用来对竞争品牌/产品进行竞争分析。
出于完整性,需强调的是,为了解决从社交媒体平台更精确地获取相关数据的问题,未来仍有若干工作。首先,一个重要的问题是怎样对目标对象提取视觉背景,因为当需要所述视觉背景隐含地地帮助发现相关视觉内容时,所述目标对象可能不明确地出现在所述视觉内容中。第二,怎样从一个小型种子集和一个大型数据集合中学习相关社交背景,在采集更相关数据和过滤噪声数据中起到重要作用。第三,所述噪声数据过滤方法700导致昂贵的计算费用,因此需要一个改进的数据过滤算法(在有效性和效率方面)来处理大规模的生活数据。
但是,所述实施例不能被理解为限制。例如,下述类别的用户也可能包括在通过利用社交背景进行扩展数据采集的关键用户(在前述1.3.1.1节中讨论)内:(1)与所述种子集中的微博的作者有社交关系的用户;(2)相关/有关微博的有关转贴的作者及对这些微博进行评论的作者;(3)所述目标品牌的第二组关键用户;(4)与所述第二组关键用户有关系的用户;和(5)与所述种子集中的微博的作者相似的用户。需要说明的是,所述第二组关键用户被定义为名字中包含与所述目标品牌有关的关键词的用户。例如,高比例的所述第二组关键用户可能包括所述目标品牌的官方代理商或指定供应商。因此,所述第二组关键用户发布的微博也有可能与目标品牌相关/有关。关于所述相似用户,相似性通过比较种子微博和用户(在被评估的预定时期内)发布的微博的内容来定义。就此而言,关于所述种子微博的每个作者,搜索从各种社交媒体流获取的所述微博,并且储存最靠前的十个(与所述种子微博的每个作者)最相似的用户作为所述相似用户。还应该理解的是,所述方法100还可以被用来同时搜索多个微博的多个指定的数据集,以找出目标实体的相关/有关信息。
另一种变化涉及通过使用1.3.2节中说明的视觉内容进行的扩展数据采集。具体地,检索给定图像的相似图像,包括三个步骤:(1)特征提取,(2)特征索引,和(3)搜索。将每一个待比较的图像描述成一个包括多个局部特征向量的特征向量。为了提取局部特征,找出所述关联图像中与某些小领域对应的兴趣点,这里通过两种方式找出所述兴趣点。第一种方式是,利用设置成用于检测满足特定数学条件的图像区域的兴趣点检测器,这可以通过(举例)Harris角点检测方法、FAST[35]、SIFT[30]或SURF[32]来执行。第二种方式是,将所述图像整齐地划分为重叠的或不重叠的小区域,每一个图像区域代表一个兴趣点。另外,为了说明尺寸不变性,所述图像被调整成不同尺寸,并且在每一个尺寸提取兴趣点。
一旦获得了所述兴趣点,下一步就是使用一个特征描述符来提取描述每一个兴趣点的特征。所述特征描述符可能是,例如,SIFT[30]、PCA-SIFT[31]、SURF[32]、ORB[33]或BRIEF[34]。一旦完成,下一步就是进行图像索引,可能采用哈希技术,例如,谱哈希或局部敏感哈希。利用所述哈希技术时,将高维特征向量编码为低维特征向量,如32位代码。在搜索阶段,基于所述两个步骤,将所述给定图像编码为哈希码。为了在被调查的微博中找到相似图像,利用非常低维的数据(其可以在后续被快速处理)计算所述微博中到每一个图像的距离。例如,对于所述种子集中的每一个图像,返回具有最相似图像的最靠前的10个微博。
尽管已经在附图和前述说明书中详细图示和说明了本发明,但这种图示和说明应被理解为说明性的或示范性的,而非限制性的;本发明不局限于所公开的实施例。在实践中,本领域的技术人员可以理解并实现本发明公开的实施例的其他变化。
参考文献
[1].J.Bu,S.Tan,C.Chen,C.Wang,H.Wu,L.Zhang和X.He。利用统一超图的音乐推荐:结合社交媒体信息和音乐内容。MM学报,2010。
[2].C.Chen,F.Li,B.C.Ooi和S.Wu。TI:一种在推特上进行实时搜索的高效索引机制。2011年数据管理国际会议论文集,页码649–660,2011。
[3].N.Dalal和B.Triggs。用于人类检测的取向梯度直方图。IEEE计算机视觉与模式识别会议论文集,页码886–893,2005。
[4].M.Efron。微博消息搜索和检索。美国信息科学与技术学会杂志,62(6):996–1008,2011。
[5].Y.Gao,M.Wang,D.Tao,R.Ji和Q.Dai。利用超图分析的三维物体检索和识别。IEEE图像处理汇刊,21(9):4290–4303,2012。
[6].Y.Gao,M.Wang,Z.Zha,J.Shen,X.Li和X.Wu。用于基于标签的社交形象搜索的视觉-文本结合相关性学习。IEEE图像处理汇刊,22(1):363–376,2013。
[7].S.Gaonkar,J.Li,R.R.Choudhury,L.Cox和A.Schmidt。微博:通过移动电话和社交参与共享和查询内容。移动系统、应用和服务国际会议论文集,页码174–186,2008。
[8].C.Gu和S.Wang。以新浪微博为基础的社交媒体的经验研究。商务计算和全球信息化国际会议文集,页码537–540,2012。
[9].Y.Huang,Q.Liu,S.Zhang和D.Metaxas。利用概率超图排名的图像检索。IEEE计算机视觉与模式识别会议论文集,2010。
[10].K.Jarvelin和J.Kekalainen。红外技术的基于累积收益的评价。美国计算机学会信息系统汇刊,20(4):422–466,2002。
[11].C.H.Leung,A.W.Chan,A.Milani,J.Liu和Y.Li。利用自适应索引搜索引擎的智能社交媒体索引和共享。美国计算机学会智能系统和技术汇刊,3(3):47,2012。
[12].G.Li,J.Cao,J.Jiang,Q.Li和L.Yao。品牌推特:怎样普及企业微博。IEEE国际信息技术和人工智能会议文集,卷1,页码136–139,2011。
[13].K.Massoudi,M.Tsagkias,M.deRijke和W.Weerkamp。结合查询扩展和质量指标搜索微博帖子。信息检索进展,页码362–367,2011。
[14].R.Nagmoti,A.Teredesai,M.DeCock等。用于微博搜索的排名方法。网络智能和智能代理技术IEEE/WIC/ACM国际会议文集,2010。
[15].N.Naveed,T.Gottron,J.Kunegis和A.C.Alhadi。搜索微博:处理稀疏度和文档质量。CIKM论文集,页码183–188,2011。
[16].B.O’Connor,M.Krieger和D.Ahn。推特主题:用于推特的探讨性搜索和主题概括。第四届国际AAAI博客和社交媒体会议论文集,2010。
[17].T.Rowlands,D.Hawking和R.Sankaranarayana。利用微博注释的新网络搜索。WWW论文集,页码1293–1296,ACM2010。
[18].T.Sakaki,M.Okazaki和Y.Matsuo。地震震动推特用户:利用社交传感器的实时事件检测。第十九届国际万维网会议论文集,页码851–860,2010。
[19].M.Steinbach,G.Karypis和V.Kumar。文档聚类技术的比较。关于的KDD文本挖掘研讨会论文集,2000。
[20].Y.Sui和X.Yang。微博的潜在市场营销力。通信系统、网络和应用国际会议文集,卷1,页码164–167,2010。
[21].J.Teevan,D.Ramage和M.R.Morris。#推特搜索:微博搜索和网络搜索的比较。第四届ACM网络搜索和数据挖掘国际会议文集,页码35–44,2011。
[22].P.Viola和M.J.Jones。强大的实时人脸检测。计算机视觉国际期刊,57(2):137–154,2004。
[23].W.Weerkamp和M.DeRijke。可信性提高主题博客帖子检索。计算语言学协会(ACL),2008。
[24].Y.Weiss,A.Torralba和R.Fergus。谱哈希。NIPS,2008。
[25].J.Yang,K.Yu,Y.Gong和T.Huang。利用用于图像分类的稀疏编码的线性空间金字塔匹配。IEEE计算机视觉与模式识别会议论文集,页码1794–1801,2009。
[26].D.Zhou,J.Huang和B.Schokopf。利用超图学习:聚集、分类及嵌入。NIPS论文集,2007。
[27].D.Zhou,S.Lawless和V.Wade。通过利用社交媒体的个性化查询扩展改进搜索。信息检索,15(3-4):218–242,2012。
[28].Wang,Xiaoyu,TonyX.Han和ShuichengYan。“部分遮挡处理的HOG-LBP人类探测器。”计算机视觉,2009IEEE第十二届国际会议。IEEE,2009。
[29].Gall,Juergen和VictorLempitsky。“用于目标检测的类特定霍夫森林。”用于计算机视觉和医学图像分析的决策森林。施普林格,伦敦,2013.143-157。
[30].Lowe,DavidG。“来自尺度不变的关键点的独特图像特征。”计算机视觉国际期刊60.2(2004):91-110。
[31].Ke,Yan和RahulSukthankar。“PCA-SIFT:用于局部图像描述符的更有区别性的表示。”计算机视觉和模式识别,2004。CVPR2004。2004IEEE计算机学会会议论文集,Vol.2.IEEE,2004。
[32].Bay,Herbert,TinneTuytelaars,和LucVanGool。“Surf:加速鲁棒特征。”计算机视觉–ECCV2006。施普林格,柏林海德尔堡,2006.404-417。
[33].Rublee,Ethan等。“ORB:对SIFT或SURF的有效替代。”计算机视觉(ICCV),2011年IEEE国际会议。IEEE,2011。
[34].Calonder,Michael等。“BRIEF:二进制鲁棒独立基本特征。”计算机视觉–ECCV2010。施普林格,柏林海德尔堡,2010.778-792。
[35].Rosten,Edward和TomDrummond。“用于高速角点检测的机器学习。”计算机视觉–ECCV2006。施普林格,柏林海德尔堡,2006.430-443。
Claims (9)
1.一种用于跟踪微博消息的方法,其中所述微博消息与通过关联的文本和关联的图像可识别的实体相关,所述方法包括:
(i)基于所述关联的文本,对所述微博消息进行搜索,以获得第一结果集;
(ii)基于所述关联的图像,在所述第一结果集中进行图像检测,以获得种子消息集;
(iii)基于来源于所述种子消息的特征集,对所述微博消息进行搜索,以获得第二结果集;和
(iv)基于与所述实体的相关性,从所述第一结果集和所述第二结果集中选择条目,其中所述种子消息的特征集与所述实体有关。
2.根据权利要求1所述的方法,其中所述实体包括品牌或产品。
3.根据前述任一项权利要求所述的方法,其中所述图像检测包括:
(i)将从所述第一结果集中获得的每一个图像划分为多个子窗口,和
(ii)对所述多个子窗口进行滑动窗口搜索,以确定所述图像是否对应于与所述实体关联的图像。
4.根据前述任一项权利要求所述的方法,其中所述特征集包括基于社交背景的数据和基于图像的数据。
5.根据权利要求4所述的方法,其中所述第二结果集包括,分别根据所述基于社交背景的数据和所述基于图像的数据而获得的相应结果集。
6.根据权利要求4所述的方法,其中所述基于社交背景的数据包括,与所述种子消息的作者有关的信息,与所述种子消息或所述种子消息的作者关联的用户有关的信息,与对所述种子消息发表评论的用户有关的信息,与对应的用户身份里具有所述关联的文本的用户有关的信息,和与发布所述种子消息的地理位置有关的信息。
7.根据前述任一项权利要求所述的方法,其中对所述微博消息进行搜索包括利用所述关联的文本进行基于文本的搜索。
8.根据前述任一项权利要求所述的方法,其中从所述第一结果集和所述第二结果集中选择条目的步骤包括:
(i)构建超图,以确定在所述第一结果集和所述第二结果集中的微博消息之间的相互关系,从而获得关联的相互关系结果;
(ii)根据所述相互关系结果,确定所述微博消息的各自的分数;和
(iii)根据所述各自的分数对所述微博消息进行排名。
9.一种用于跟踪微博消息的装置,其中所述微博消息与通过关联的文本和关联的图像可识别的实体相关,所述装置包括:
处理器模块,其适用于:
根据关联的文本对所述微博消息进行搜索,以获得第一结果集;
根据关联的图像,在所述第一结果集中进行图像检测,以获得种子消息集;和根据来源于所述种子消息的特征集,对所述微博消息进行搜索,以获得第二结果集;和
选择模块,其用于根据与所述实体的相关性,从所述第一结果集和所述第二结果集中选择条目,
其中所述种子消息的特征集与所述实体有关。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361861190P | 2013-08-01 | 2013-08-01 | |
SG61/861,190 | 2013-08-01 | ||
PCT/SG2014/000365 WO2015016784A1 (en) | 2013-08-01 | 2014-07-31 | A method and apparatus for tracking microblog messages for relevancy to an entity identifiable by an associated text and an image |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105593851A true CN105593851A (zh) | 2016-05-18 |
Family
ID=52432178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480054392.8A Pending CN105593851A (zh) | 2013-08-01 | 2014-07-31 | 用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息的方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20160188633A1 (zh) |
CN (1) | CN105593851A (zh) |
WO (1) | WO2015016784A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109816646A (zh) * | 2019-01-21 | 2019-05-28 | 武汉大学 | 一种基于退化决策逻辑的无参考图像质量评价方法 |
CN113569572A (zh) * | 2021-02-09 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 文本实体生成方法、模型训练方法及装置 |
CN117892237A (zh) * | 2024-03-15 | 2024-04-16 | 南京信息工程大学 | 一种基于超图神经网络的多模态对话情绪识别方法及系统 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150172396A1 (en) * | 2013-12-16 | 2015-06-18 | Co Everywhere, Inc. | Systems and methods for enriching geographically delineated content |
US10042845B2 (en) * | 2014-10-31 | 2018-08-07 | Microsoft Technology Licensing, Llc | Transfer learning for bilingual content classification |
US10600060B1 (en) * | 2014-12-19 | 2020-03-24 | A9.Com, Inc. | Predictive analytics from visual data |
SG10201503587XA (en) * | 2015-05-07 | 2016-12-29 | Dataesp Private Ltd | Representing large body of data relationships |
CN106294418B (zh) * | 2015-05-25 | 2019-08-30 | 北京大学 | 检索方法和检索系统 |
CN105868415B (zh) * | 2016-05-06 | 2019-08-09 | 黑龙江工程学院 | 一种基于历史微博的微博实时过滤模型 |
CN106529424B (zh) * | 2016-10-20 | 2019-01-04 | 中山大学 | 一种基于选择性搜索算法的车标检测识别方法及系统 |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
CN108510559B (zh) * | 2017-07-19 | 2022-03-08 | 哈尔滨工业大学深圳研究生院 | 一种基于有监督多视角离散化的多媒体二值编码方法 |
TWI683276B (zh) | 2017-11-10 | 2020-01-21 | 太豪生醫股份有限公司 | 病灶偵測裝置及其方法 |
US10375447B1 (en) | 2018-03-28 | 2019-08-06 | Carl Carpenter | Asynchronous video conversation systems and methods |
US11610080B2 (en) * | 2020-04-21 | 2023-03-21 | Toyota Research Institute, Inc. | Object detection improvement based on autonomously selected training samples |
CN111666268A (zh) * | 2020-05-20 | 2020-09-15 | 安徽火蓝数据有限公司 | 一种微博大数据舆情分析方法 |
CN113434778B (zh) * | 2021-07-20 | 2023-03-24 | 陕西师范大学 | 基于正则化框架和注意力机制的推荐方法 |
CN114065758B (zh) * | 2021-11-22 | 2024-04-19 | 杭州师范大学 | 一种基于超图随机游走的文档关键词抽取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080010288A1 (en) * | 2006-07-08 | 2008-01-10 | Hinton Heather M | Method and system for distributed retrieval of data objects within multi-protocol profiles in federated environments |
CN102591870A (zh) * | 2011-01-11 | 2012-07-18 | 腾讯科技(深圳)有限公司 | 基于微博的富媒体导出方法、微博终端及微博服务器端 |
CN102667763A (zh) * | 2009-08-07 | 2012-09-12 | 谷歌公司 | 带有社交网络辅助的面部识别 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8520979B2 (en) * | 2008-08-19 | 2013-08-27 | Digimarc Corporation | Methods and systems for content processing |
-
2014
- 2014-07-31 CN CN201480054392.8A patent/CN105593851A/zh active Pending
- 2014-07-31 WO PCT/SG2014/000365 patent/WO2015016784A1/en active Application Filing
- 2014-07-31 US US14/909,350 patent/US20160188633A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080010288A1 (en) * | 2006-07-08 | 2008-01-10 | Hinton Heather M | Method and system for distributed retrieval of data objects within multi-protocol profiles in federated environments |
CN102667763A (zh) * | 2009-08-07 | 2012-09-12 | 谷歌公司 | 带有社交网络辅助的面部识别 |
CN102591870A (zh) * | 2011-01-11 | 2012-07-18 | 腾讯科技(深圳)有限公司 | 基于微博的富媒体导出方法、微博终端及微博服务器端 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109816646A (zh) * | 2019-01-21 | 2019-05-28 | 武汉大学 | 一种基于退化决策逻辑的无参考图像质量评价方法 |
CN109816646B (zh) * | 2019-01-21 | 2022-08-30 | 武汉大学 | 一种基于退化决策逻辑的无参考图像质量评价方法 |
CN113569572A (zh) * | 2021-02-09 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 文本实体生成方法、模型训练方法及装置 |
CN113569572B (zh) * | 2021-02-09 | 2024-05-24 | 腾讯科技(深圳)有限公司 | 文本实体生成方法、模型训练方法及装置 |
CN117892237A (zh) * | 2024-03-15 | 2024-04-16 | 南京信息工程大学 | 一种基于超图神经网络的多模态对话情绪识别方法及系统 |
CN117892237B (zh) * | 2024-03-15 | 2024-06-07 | 南京信息工程大学 | 一种基于超图神经网络的多模态对话情绪识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
US20160188633A1 (en) | 2016-06-30 |
WO2015016784A1 (en) | 2015-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105593851A (zh) | 用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息的方法和装置 | |
Gao et al. | Brand data gathering from live social media streams | |
CN103744981B (zh) | 一种基于网站内容用于网站自动分类分析的系统 | |
JP6759844B2 (ja) | 画像を施設に対して関連付けるシステム、方法、プログラム及び装置 | |
US9817908B2 (en) | Systems and methods for news event organization | |
Zhou et al. | A collaborative learning framework to tag refinement for points of interest | |
CN107895303B (zh) | 一种基于ocean模型的个性化推荐的方法 | |
Jiang et al. | Travel recommendation via author topic model based collaborative filtering | |
JP2008203933A (ja) | カテゴリ作成方法および装置、文書分類方法および装置 | |
Alves et al. | A spatial and temporal sentiment analysis approach applied to Twitter microtexts | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
Liu et al. | Event analysis in social multimedia: a survey | |
Jiang et al. | ContextRank: personalized tourism recommendation by exploiting context information of geotagged web photos | |
Rudinac et al. | Multimodal classification of violent online political extremism content with graph convolutional networks | |
Sharma et al. | Fake news detection using deep learning | |
Leung et al. | Land cover classification using geo-referenced photos | |
Jiang et al. | G-wstd: A framework for geographic web search topic discovery | |
Fang et al. | Paint the city colorfully: Location visualization from multiple themes | |
Adelfio et al. | Itinerary retrieval: Travelers, like traveling salesmen, prefer efficient routes | |
Singhal et al. | Leveraging the web for automating tag expansion for low-content items | |
Vadivukarassi et al. | A framework of keyword based image retrieval using proposed Hog_Sift feature extraction method from Twitter Dataset | |
Doulamis et al. | 3D modelling of cultural heritage objects from photos posted over the Twitter | |
Cao | Photo Set Refinement and Tag Segmentation in Georeferencing Flickr Photos. | |
Morchid et al. | Mediaeval benchmark: Social Event Detection using LDA and external resources. | |
Cheng et al. | OSNI: Searching for Needles in a Haystack of Social Network Data. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160518 |