CN107623624A - 提供通知消息的方法及装置 - Google Patents
提供通知消息的方法及装置 Download PDFInfo
- Publication number
- CN107623624A CN107623624A CN201610562656.1A CN201610562656A CN107623624A CN 107623624 A CN107623624 A CN 107623624A CN 201610562656 A CN201610562656 A CN 201610562656A CN 107623624 A CN107623624 A CN 107623624A
- Authority
- CN
- China
- Prior art keywords
- page
- information
- template
- analyzed
- notification message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本申请实施例公开了提供通知消息的方法及装置,其中,所述方法包括:提供待分析页面的地址信息以及信息提取模板信息;所述待分析页面为用于发布通知消息的页面,所述信息提取模板根据所述通知消息的特征生成;根据所述地址信息,提取页面源文件内容;当所述页面源文件内容中存在符合所述信息提取模板的目标消息内容时,提供提取结果,所述提取结果中包括所述目标消息内容及其所在的页面地址信息。通过本申请实施例,能够使得商家能够及时、完整的获得官方通知消息,同时保证送达商家的通知消息的真实性和权威性。
Description
技术领域
本申请涉及通知消息处理技术领域,特别是涉及提供通知消息的方法及装置。
背景技术
在电子商务交易平台中,平台方工作人员(例如,通常称为“运营小二”等)经常会向商家发布一些官方的通知消息,例如,关于参加“双11”活动的招商消息,平台内部对商家的政策性消息,等等。
在现有技术中,通常有多种方式向商家发布官方通知消息,例如,可以在一些论坛性质的页面中通过发帖的形式来发布,商家只有及时查看该页面,才能看到相关的通知消息。但是,大型交易平台所有业务线的通知消息发布页面众多,加上商家人力不足等问题,通常无力及时抓取各业务线最新发布的通知消息,因此,使得商家获得通知消息的过程中,经常会造成延迟或者缺失等情况。
另外,平台方的工作人员还可以通过平台内部的即时通信工具向商家发布通知消息,例如,淘宝平台下,可以通过阿里旺旺向商家发布通知消息,等等。再者,还有一些自媒体(又称“公民媒体”或“个人媒体”,是指私人化、平民化、普泛化、自主化的传播者)也可能会进行通知消息的发布。上述方式丰富了通知消息的发布渠道,但是,会使得官方发布的部分通知消息的送达甚至慢于自媒体,导致官方通知消息渠道的权威性大大折扣。加上现在自媒体圈子鱼龙混杂,部分无良媒体甚至故意歪曲交易平台的政策和方向,因此,对于平台方而言,这“小道消息”会产生很大的负面影响,对于商家而言,因为难以分辨各路信息的真实性和权威性,也会产生极大困扰。
因此,如何使得商家能够及时、完整的获得官方通知消息,同时保证送达商家的通知消息的真实性和权威性,避免受到一些不良媒体的干扰,成为需要本领域技术人员解决的技术问题。
发明内容
本申请提供了提供通知消息的方法及装置,能够使得商家能够及时、完整的获得官方通知消息,同时保证送达商家的通知消息的真实性和权威性。
本申请提供了如下方案:
一种提供通知消息的方法,其特征在于,包括:
提供待分析页面的地址信息以及信息提取模板信息;所述待分析页面为用于发布通知消息的页面,所述信息提取模板根据所述通知消息的特征生成;
根据所述地址信息,提取页面源文件内容;
当所述页面源文件内容中存在符合所述信息提取模板的目标消息内容时,提供提取结果,所述提取结果中包括所述目标消息内容及其所在的页面地址信息。
一种提供通知消息的方法,包括:
服务器提供多种候选的信息提取模板,其中,所述信息提取模板根据通知消息的特征生成,每个信息提取模板关联多个待分析页面的地址信息;
根据客户端对目标提取模板的订阅请求,保存所述客户端关联的用户标识与所述目标提取模板之间的对应关系;
接收到所述客户端的信息提取请求时,利用该客户端关联的用户标识对应的目标提取模板,从对应的多个待分析页面中提取目标消息内容,并返回给客户端。
一种提供通知消息的方法,包括:
客户端展示服务器提供的多种候选的信息提取模板,其中,所述信息提取模板根据通知消息的特征生成,每个信息提取模板关联多个待分析页面的地址信息;
根据第一操作指令,向服务器提交对目标提取模板的订阅请求,以便所述服务器保存所述客户端关联的用户标识与所述目标提取模板之间的对应关系;
根据第二操作指令,向服务器提交信息提取请求,以便所述服务器利用该客户端关联的用户标识对应的目标提取模板,从对应的多个待分析页面中提取目标消息内容;
接收所述服务器返回的目标消息内容。
一种提供通知消息的装置,包括:
信息提供单元,用于提供待分析页面的地址信息以及信息提取模板信息;所述待分析页面为用于发布通知消息的页面,所述信息提取模板根据所述通知消息的特征生成;
源文件内容提取单元,用于根据所述地址信息,提取页面源文件内容;
提取结果提供单元,用于当所述页面源文件内容中是否存在符合所述信息提取模板的目标消息内容时,提供提取结果,所述提取结果中包括所述目标消息内容及其所在的页面地址信息。
一种提供通知消息的装置,应用于服务器,包括:
候选模板提供单元,用于提供多种候选的信息提取模板,其中,所述信息提取模板根据通知消息的特征生成,每个信息提取模板关联多个待分析页面的地址信息;
订阅信息保存单元,用于根据客户端对目标提取模板的订阅请求,保存所述客户端关联的用户标识与所述目标提取模板之间的对应关系;
消息内容提供单元,用于接收到所述客户端的信息提取请求时,利用该客户端关联的用户标识对应的目标提取模板,从对应的多个待分析页面中提取目标消息内容,并返回给客户端。
一种提供通知消息的装置,应用于客户端,包括:
候选模板展示单元,用于展示服务器提供的多种候选的信息提取模板,其中,所述信息提取模板根据通知消息的特征生成,每个信息提取模板关联多个待分析页面的地址信息;
订阅请求提交单元,用于根据第一操作指令,向服务器提交对目标提取模板的订阅请求,以便所述服务器保存所述客户端关联的用户标识与所述目标提取模板之间的对应关系;
提取请求提交单元,用于根据第二操作指令,向服务器提交信息提取请求,以便所述服务器利用该客户端关联的用户标识对应的目标提取模板,从对应的多个待分析页面中提取目标消息内容;
消息内容接收单元,用于接收所述服务器返回的目标消息内容。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
通过本申请实施例,可以按照预先设定的信息提取模板对一些特定的页面进行检测,如果发现其中包括符合特征的通知消息,则可以提取出来,并提供给第一用户,这样,第一用户不需要采用人工监视的方式来获知官方通知消息,可以降低人工成本以及时间成本,实现通知消息更及时、全面的送达第一用户。另外,由于通知消息送达第一用户的及时性以及全面性得到的保证,因此,使得通知消息对发布渠道多样性的依赖降低,因此,也可以避免第一用户受到非通知消息的干扰,保证通知消息的权威性。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的第一方法的流程图;
图2是本申请实施例提供的第二方法的流程图;
图3是本申请实施例提供的第三方法的流程图;
图4是本申请实施例提供的第一装置的示意图;
图5是本申请实施例提供的第二装置的示意图;
图6是本申请实施例提供的第三装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中,为了保证第一用户(例如,电子商务销售平台中的商家用户、卖家用户等)获得通知消息的真实性、及时性以及权威性,可以为提供一种自动化抓取通知消息的工具,该工具可以自动检测是否有新的通知消息发布,如果有,便可以通过对第一用户进行提示等方式,提供给第一用户。其中,具体实现时,考虑到以下两点:平台方通常会通过一些论坛等性质的页面发布通知消息,例如,淘宝平台下,平台方的工作人员(通常称为“小二”等)首选的通知消息发布方式是在“公告栏”、“活动专区”、“卖家之声”等页面中发布,如果能够使得第一用户尽早获知这些页面中包含的通知消息,则通知消息对发布渠道多样性的需求降低,平台方工作人员可以不必通过其他途径另行通知,在第一用户知晓平台方工作人员不再采用某种渠道进行通知消息发布的情况下,如果再通过该渠道收到自称是官方通知消息的信息,则可以将其忽略,因此,可以避免第一用户受到其他非官方通知消息的干扰。另一方面,这些用于发布通知消息的页面中虽然还可能存在其他信息,例如,可能是第一用户发布的跟帖信息等等,但是,通知消息通常会具有一些计算机可识别的特征,使之与其他的非官方通知消息区分开来,这就使得对页面内容的自动化特征提取等操作成为可能。综合以上两点,在本申请实施例中,可以首先确定出待分析的页面,并预先根据通知消息的特征,生成信息提取模板,这样,在终端设备中安装了所述工具后,该工具就可以对这些页面进行源文件内容的抓取,并预先根据信息提取模板,判断源文件内容中是否存在符合信息提取模板的目标消息内容,如果存在,则可以直接将其提取出来,并提供给第一用户。这样,第一用户不再需要通过人为查看的方式从页面中获取通知消息,因此,可以在节省人力资源的同时,提高通知消息的及时性、真实性以及权威性。
下面对具体的实现方式进行详细介绍。
实施例一
参见图1,本申请实施例一首先提供了一种提供通知消息的方法,该方法可以包括以下步骤:
S101:确定待分析页面的地址信息以及信息提取模板信息;所述待分析页面为用于发布通知消息的页面,所述信息提取模板根据所述通知消息的特征生成;
其中,待分析页面的地址信息以及信息提取模板可以是预先配置好的,当然,还可以提供用于修改以上配置信息的操作选项,例如,可以增加或者删除某待分析页面,或者修改信息提取模板,等等。
具体的,待分析页面通常可以根据具体的情况进行设定,具体可以是电子商务销售平台内的论坛类页面,例如,在淘宝平台中,可以包括:“公告栏”、“聚焦热点”、“活动专区”、“卖家之声”、“淘宝家具官方帮派”、“淘宝家居官方帮派”、“淘宝家电官方帮派”等等,以上列举的页面名称是淘宝系统内对对应页面的命名方式,在其他具体实现方式中,也可以使用其他的页面名称,这里仅仅是为了举例说明,而不应看作是对本申请实施例保护范围的限制。
关于待分析页面的地址信息,通常情况下,可以是指待分析页面的URL(UniformResoure Locator,统一资源定位符)地址,通过这种URL地址,可以向对应的服务器发起访问请求,相应的,服务器即可返回该页面的源文件内容。而在本申请实施例的具体实现过程中,由于涉及到的待分析页面通常为论坛等页面,这种页面的特点是,页面内往往有很多条记录,可能无法一次性将所有记录显示出来,而是需要将记录一页一页的显示,通常,可以将这种页面成为分页显示页面,其中的每一页可以称为该页面的子页面。对于这种分页显示页面,官方通知消息具体会出现在哪个子页面中是不确定的,因此,在具体实现时,通常需要对分页显示页面的多个子页面进行检测。但是,同一页面的各个子页面实际上是对应了不同的URL地址,因此,如果在记录待分析页面的地址信息时,分别记录各个子页面的URL地址,需要记录的信息内容会比较多。针对这种情况,为了简化记录的内容,在本申请实施例中,可以采用如下方式实现:
在该步骤中确定的待分析页面的地址信息,可以包括待分析页面URL的前缀部分、后缀部分,以及待分析的页码标识,这样后续在具体访问时,可以将待分析页面URL的前缀部分、待分析的页码标识以及后缀部分组合为目标地址,进而再从目标地址中提取对应的源文件内容。
之所以可以按照上述方式配置页面地址信息,是因为,同一分页显示页面的不同子页面,其URL地址通常具有相似性,其中,URL地址的前缀部分以及后缀部分通常是相同的。例如,淘宝论坛下的“网商讲堂”这一页面,其第一页的URL地址为:
http://wsjt.bbs.taobao.com/list.html?spm=a210m.7841113.0.0.Itpg76&page=0
第二页的URL地址为:
http://wsjt.bbs.taobao.com/list.html?spm=a210m.7841113.0.0.ZcO8ps&page=1
第三页的URL地址为:
http://wsjt.bbs.taobao.com/list.html?spm=a210m.7841113.0.0.SZC6sj&page=2
……
可见,上述各URL地址的前缀部分均为:http://wsjt.bbs.taobao.com,后缀部分均为:list.html?spm=a210m.7841113.0.0。因此,如果需要对上述分页显示页面进行检测,则可以将上述URL前缀以及后缀进行记录,另外,再对需要检测的页码进行记录,例如,配置为检测第1页,这样,具体在提取页面源文件内容时,就可以先根据上述前缀、后缀信息,将URL地址组合为:
http://wsjt.bbs.taobao.com/list.html?spm=a210m.7841113.0.0.Itpg76&page=0
然后,可以通过预置的网页访问协议(例如,HTTP协议等),获取所述目标地址的源文件内容。
关于信息提取模板信息,可以根据通知消息的特征来进行设定。具体实现时,可以从多个维度上来表达通知消息的特征。例如,通知消息通常是由销售平台的工作人员,也即俗称的“小二”等发布的,在论坛类的页面内发布消息时,会使用自己已经注册的账号信息,而这种发布消息使用的账号信息,也会被记录在页面内。因此,可以根据消息发布者的账号特征建立信息提取模板。具体的,可以预先将可能会发布消息的工作人员的账号信息进行统计,记录下这些工作人员的账号信息,还可以记录下账号对应的用户名等信息。当然,在实际应用中,除了销售平台的工作人员之外,还可能有其他的人员进行通知消息的发布,例如,“创业先锋志愿者”、“卖家之声志愿者”等等,因此,也可以将这些人员的账号特征记录到信息提取模板中。也即,在从待分析页面内进行消息提取时,只有当某条消息满足信息提取模板中的发布者账号特征时,才可能被作为目标消息进行提取。
除了发布者账号特征外,还可以通过通知消息的具体消息内容进行特征判断。具体的,如果通知消息是文本类通知消息,也即,具体的消息内容是采用文字形式描述的内容,此时,消息内容通常会具有相对固定的文本描述格式特征,例如,通常是具有几种固定的称呼,如“各位亲爱的卖家”、“Dear掌柜们”等等,因此,可以根据这种描述格式信息,生成信息提取模板。
当然,在实际应用中,可以仅根据其中某一维度上的特征生成信息提取模板,或者,还可以将多个维度上的特征相结合,共同生成信息提取模板。例如,可以根据发布者账号特征以及文本描述格式特征,生成信息提取模板。这样,在进行信息提取时,可以首先根据待分析页面内各条消息的发布者账号信息进行匹配,当符合发布者账号特征时,再对该条消息的具体内容进行判断,确定其是否符合文本描述格式特征,这样可以提高检测结果的准确性。
需要说明的是,关于信息提取模板的具体表达方式也可以有多种,例如,在其中一种具体的实现方式下,可以是采用正则表达式的方式来进行表达,也就是说,在确定出发布者名单、文本描述格式特征等信息后,可以根据这些特征来生成正则表达式,这样,在具体对待分析页面内的源文件内容进行分析时,就可以利用上述正则表达式进行判断。
总之,在具体实现时,可以根据不同类型的通知消息(例如,根据通知消息发布者的不同,可以分为国家法规类型的通知消息、地方政策类型的通知消息、平台发布的通知消息,等等),生成各自对应的信息提取模板,每个信息提取模板根据对应类型的通知消息的特征生成,并对应各自的待分析页面集合。这样,在一种具体的实现方式下,在具体保存信息提取模板信息时,可以通过以下表1的方式进行保存:
表1
信息提取模板id | 正则表达式 | 待分析页面集合 |
模板1 | 正则表达式1 | 页面集合1 |
模板2 | 正则表达式2 | 页面集合2 |
…… | …… | …… |
S102:根据所述地址信息,提取页面源文件内容;
由于步骤S101中确定出了待分析页面的地址信息,因此,可以利用这种地址信息,对对应的网页服务器进行访问,从而可以获取到具体的页面源文件内容。需要说明的是,在本申请实施例中,待分析页面通常是一些论坛类网站的消息列表页面,在这种消息列表页面内,通常会记录有各条记录的名称、链接地址、发布者信息、主题、发布时间等信息。在对该待分析页面的地址进行访问时,源文件内容中就可以记录上述信息,而关于通知消息的具体内容,通常是记录在其中某条记录对应的详情页面内,也即,在某条记录对应的链接地址被访问后,可以获取到该条记录的具体内容。因此,在本申请实施例中,为了进行具体通知消息内容的提取,在根据页面地址信息提取页面源文件内容时,除了可以根据当前待分析页面的页面地址信息提取当前待分析页面的具体源文件内容,还可以根据源文件内容中包含的各条记录的链接地址,提取各条记录的链接地址对应的页面源文件内容。
其中,具体在提取页面内具体记录条目的链接地址对应的具体页面源文件内容时,可以是将各条记录条目都分别进行提取,然后再利用信息提取模板,对提取到的源文件内容进行判断。或者,如果信息提取模板中记录了发布者账号特征,则可以首先利用发布者账号信息对各个记录条目进行判断,当发布者账号信息符合信息提取模板内的发布者账号特征时,再访问对应的链接地址,提取出对应的页面源文件内容,然后再利用信息提取模板内的文本描述格式特征等信息进行进一步判断。
S103:当所述页面源文件内容中是否存在符合所述信息提取模板的目标消息内容时,提供提取结果,所述提取结果中包括所述目标消息内容及其所在的页面地址信息。
在提取到页面源文件内容后,就可以利用预先配置好的信息提取模板对页面源文件内容进行判断,包括对消息发布者账号特征和/或消息内容的文本描述格式特征等信息判断。
需要说明的是,在具体实现时,对于具体的第一用户而言,可能仅需要关心某个方面的通知消息,例如,某第一用户可能仅需要关心与“双11”活动相关的通知消息等。此时,为了避免为该第一用户提供过多无用的通知消息,还可以提供用于配置关键词的操作选项,如果第一用户有该方面的需求,可以通过该操作选项输入其关注的关键词,例如,可以是“双11”等等。这样,具体在对判断所述页面源文件内容中是否存在符合所述信息提取模板的目标消息内容时,还可以利用该关键词对消息进行进一步的筛选。具体实现时,如果根据通知消息的特征生成的信息提取模板是采用正则表达式的形式进行表达,则为了便于实现,可以将该正则表达式称为第一正则表达式,在确定出配置的关键词后,可以将该关键词与通知消息的特征通过字符串拼接等方式,组合成新的正则表达式,称为第二正则表达式,进而,可以利用该第二正则表达式对提取到的页面源文件内容进行信息提取。这样,如果第一正则表达式中包括消息发布者账号特征以及文本描述格式特征这两方面的特征,则在利用第二正则表达式进行判断时,除了对消息发布者账号以及消息的文本描述格式进行判断,还可以进一步对消息正文内容进行关键词判断,只有当满足上述三个条件时,才可以作为目标消息内容进行提取。
在提取出符合各项特征的目标消息内容后,就可以提供出信息提取结果,其中可以包括目标消息内容及其所在的页面地址信息。其中,具体实现时,待分析页面通常可以为多个,因此,在对待分析页面进行检测的过程中,可能会提取出多条符合条件的目标消息内容,这些目标消息内容可能会来自于不同的页面,因此,最终的输出结果通常是目标消息内容的聚合数据,以及多个页面的聚合数据。
需要说明的是,对于论坛类页面,随着新的消息条目的发布,页面通常具有比较高的更新频率,因此,本申请实施例中对各个页面的检测过程可以是按照一定的时间间隔循环进行的。也即,预先配置的信息中除了待分析页面的地址信息、信息提取模板信息等,还可以包括提取时间间隔信息,这样,可以按照该时间间隔信息,对待分析页面重新进行源文件内容的提取以及特征判断。其中,对于不同页面性质的待分析页面,由于更新频度不同,因此,可以设定不同的提取时间间隔,也就是说,可以按照不同的频度对不同性质的页面进行循环检测。
总之,通过本申请实施例,可以按照预先设定的信息提取模板对一些特定的页面进行检测,如果发现其中包括符合特征的通知消息,则可以提取出来,并提供给第一用户,这样,第一用户不需要采用人工监视的方式来获知通知消息,可以降低人工成本以及时间成本,实现通知消息更及时、全面的送达第一用户。另外,由于通知消息送达第一用户的及时性以及全面性得到的保证,因此,使得通知消息对发布渠道多样性的依赖降低,因此,也可以避免第一用户受到非通知消息的干扰,保证通知消息的权威性。
以上对本申请实施例的具体实现方案进行了详细介绍,需要说明的是,在具体产品化的过程中,可以将具体的检测工具提供给第一用户,也即,第一用户可以在其终端设备中安装该检测工具,这样,该检测工作运行所需的脚本代码以及相关的配置信息(包括待分析页面的地址信息、信息提取模板信息,等等)可以通过安装包等文件,被保存到第一用户的终端设备本地,在运行该检测工具时,可以将终端设备本地作为脚本运行环境,运行对应的脚本代码,以执行前述各步骤的操作。也就是说,在具体对页面进行检测的过程中,检测工具的各步骤操作均可以在第一用户终端设备本地来完成。需要说明的是,如果需要对待分析页面的地址信息、信息提取模板信息等配置信息进行修改,则可以由服务器通过发布更新包等方式,将更新包发送到第一用户终端设备,在第一终端设备中对检测工具的配置信息进行更新即可。
实施例二
前述实施例一中从整体上对本申请提供的技术方案进行了介绍,在实际应用中,由于通知消息的类型可能有多种,不同类型的通知消息可能对应了不同的信息提取模板。而对于具体的用户(可能是电商平台中的商家用户、卖家用户等)而言,可能并不是各种类型的通知消息都需要监控,因此,在该实施例二中,还可以允许用户对具体的信息提取模板进行订阅,这样,在针对某用户的需求进行信息提取时,就可以利用该用户订阅的信息提取模板进行提取。下面对此进行介绍。
参见图2,该实施例二从服务器的角度提供了一种提供通知消息的方法,该方法具体可以包括以下步骤:
S201:服务器提供多种候选的信息提取模板,其中,所述信息提取模板根据通知消息的特征生成,每个信息提取模板关联多个待分析页面的地址信息;
具体实现时,可以预先为各个信息提取模板提供对应的名称、id等标识,在向用户客户端提供候选的信息提取模板信息时,还可以提供各模板对应的通知消息的类型信息,这样,用户就可以根据自己的需求,选择其中的一个或者几个信息提取模板进行订阅。其中,具体的信息提取模板可以根据对应类型的通知消息的特征来生成,并且,每个信息提取模板关联多个待分析页面的地址信息,这些地址信息都可以是根据对应类型的通知消息预先配置好的。
S202:根据客户端对目标提取模板的订阅请求,保存所述客户端关联的用户标识与所述目标提取模板之间的对应关系;
在用户选择订阅某提取模板时,客户端可以将订阅请求提交给服务器,服务器对各个用户的订阅结果进行保存。例如,具体的保存形式可以如以下表2所示:
表2
用户id | 信息提取模板 |
10001 | 模板1 |
10002 | 模板2 |
…… | …… |
当然在具体实现时,由于一个信息提取模板关联这多个待分析页面,而用户可能并不需要对关联的全部待分析页面都进行监控,因此,在用户选中目标提取模板后,还可以将该目标提取模板关联的多个待分析页面提供给客户端,并提供复选项,用户可以对这些待分析页面进行选择。
另外,如果用户还需要在目标提取模板关联的正则表达式基础上,对一些信息进行进一步的过滤,则在进行订阅时,还可以提交关键词,这样,服务器在保存用户的订阅信息时,还可以对用户提交的关键词进行保存。后续在进行信息提取时,还可以首先利用关键词,对目标提取模板进行修正,然后砸再用得到的新的提取模板,到具体的页面中进行信息提取。例如,如果目标提取模板的具体形式为正则表达式,则具体在进行修正时,可以将关键词与原正则表达式进行拼接,生成新的正则表达式,然后再利用新的正则表达式进行信息的提取。
也就是说,在具体实现时,在保存用户的订阅信息时,还可以通过以下表3的形式进行保存:
表3
用户id | 信息提取模板 | 待分析页面 | 关键词 |
10001 | 模板1 | 页面a、b…… | 关键词1、2…… |
10002 | 模板2 | 页面c、d…… | 关键词3、4…… |
…… | …… | …… | …… |
S203:接收到所述客户端的信息提取请求时,利用该客户端关联的用户标识对应的目标提取模板,从对应的多个待分析页面中提取目标消息内容,并返回给客户端。
在保存了各用户的订阅信息的情况下,在接收到某用户的信息提取请求时,就可以利用该用户订阅的目标提取模板,进行信息提取。其中,由于每个信息提取模板还对应了各自的待分析页面集合,因此,可以利用表1中保存的信息,确定出对应的页面集合中包括的多个待分析页面,并从对应的多个待分析页面中进行通知消息内容的提取即可。
关于该实施例二中其他的具体实现,可以参见前述实施例一中的介绍,这里不再赘述。
实施例三
该实施例三是与实施例二相对应的,从客户端的角度进行介绍。参见图3,该实施例三提供了一种提供通知消息的方法,该方法具体可以包括以下步骤:
S301:客户端展示服务器提供的多种候选的信息提取模板,其中,所述信息提取模板根据通知消息的特征生成,每个信息提取模板关联多个待分析页面的地址信息;
S302:根据第一操作指令,向服务器提交对目标提取模板的订阅请求,以便所述服务器保存所述客户端关联的用户标识与所述目标提取模板之间的对应关系;
S303:根据第二操作指令,向服务器提交信息提取请求,以便所述服务器利用该客户端关联的用户标识对应的目标提取模板,从对应的多个待分析页面中提取目标消息内容;
S304:接收所述服务器返回的目标消息内容。
关于该实施例三中各步骤的具体实现,可以参见实施例二中的介绍,这里不再赘述。
与实施例一相对应,本申请实施例还提供了一种提供通知消息的装置,其特征在于,包括:
信息提供单元,用于提供待分析页面的地址信息以及信息提取模板信息;所述待分析页面为用于发布通知消息的页面,所述信息提取模板根据所述通知消息的特征生成;
源文件内容提取单元,用于根据所述地址信息,提取页面源文件内容;
提取结果提供单元,用于当所述页面源文件内容中是否存在符合所述信息提取模板的目标消息内容时,提供提取结果,所述提取结果中包括所述目标消息内容及其所在的页面地址信息。
其中,所述待分析页面包括分页显示页面,所述待分析页面的地址信息包括:所述待分析页面统一资源定位符URL的前缀部分、后缀部分,以及待分析的页码标识,所述源文件内容提取单元具体可以用于:
将所述待分析页面URL的前缀部分、待分析的页码标识以及后缀部分组合为目标地址;通过预置的网页访问协议,获取所述目标地址的源文件内容。
具体实现时,所述信息提取规则信息提取模板可以包括:根据所述官方通知消息特征生成的第一正则表达式;
该装置还可以包括:
第一判断单元,用于利用所述第一正则表达式,判断所述页面源文件内容中是否存在符合所述通知消息特征信息提取规则信息提取模板的所述目标消息内容。
或者,所述信息提取规则信息提取模板包括:根据预置的关键词以及所述官方通知消息特征生成的第二正则表达式;
所述装置还可以包括:
第二判断单元,用于利用所述第二正则表达式,判断所述页面源文件内容中是否存在符合所述通知消息特征并且包含所述关键词信息提取规则信息提取模板的所述目标消息内容。
具体实现时,通知消息包括文本类通知消息,所述通知消息的特征包括:通知消息的文本描述格式特征。
其中,所述官方通知消息的特征包括:官方通知消息的发布者账号特征。
另外,该装置还可以包括:
时间间隔确定单元,用于确定为所述待分析页面配置的提取时间间隔信息;
重新执行单元,用于按照所述提取时间间隔对所述待分析页面重新进行源文件内容的提取以及判断。
其中,不同页面性质的待分析页面对应不同的提取时间间隔。
与实施例二相对应,本申请实施例还提供了一种提供通知消息的装置,该装置应用于服务器,参见图5,该装置可以包括:
候选模板提供单元501,用于提供多种候选的信息提取模板,其中,所述信息提取模板根据通知消息的特征生成,每个信息提取模板关联多个待分析页面的地址信息;
订阅信息保存单元502,用于根据客户端对目标提取模板的订阅请求,保存所述客户端关联的用户标识与所述目标提取模板之间的对应关系;
消息内容提供单元503,用于接收到所述客户端的信息提取请求时,利用该客户端关联的用户标识对应的目标提取模板,从对应的多个待分析页面中提取目标消息内容,并返回给客户端。
其中,具体实现时,该装置还可以包括:
页面信息提供单元,用于在接收到对目标提取模板的订阅请求时,提供该目标提取模板关联的多个待分析页面,以及对各待分析页面进行选择的操作选项;
页面选择结果保存单元,用于接收客户端提交的对所述待分析页面的选择结果,并保存到该客户端关联的对应关系中;
此时,所述消息内容提供单元503具体可以用于:
利用该客户端关联的用户标识对应的目标提取模板,从所述对应关系中保存的多个待分析页面中提取目标消息内容。
另外,该装置还可以包括:
关键词选项提供单元,用于在接收到对目标提取模板的订阅请求时,提供用于输入关键词的操作选项;
关键词保存单元,用于接收客户端提交的关键词,并保存到该客户端关联的对应关系中;
此时,所述消息内容提供单元503具体可以用于:
利用所述关键词对所述目标提取模板进行修正,利用修正后的提取模板,从对应的多个待分析页面中提取目标消息内容。
其中,所述目标提取模板包括根据通知消息的特征生成的正则表达式,此时,具体在利用所述关键词对所述目标提取模板进行修正时,可以包括:
将所述关键词与所述目标提取模板对应的正则表达式进行拼接,生成新的正则表达式。
与实施例三相对应,本申请实施例还提供了一种提供通知消息的装置,该装置应用于客户端,参见图6,该装置可以包括:
候选模板展示单元601,用于展示服务器提供的多种候选的信息提取模板,其中,所述信息提取模板根据通知消息的特征生成,每个信息提取模板关联多个待分析页面的地址信息;
订阅请求提交单元602,用于根据第一操作指令,向服务器提交对目标提取模板的订阅请求,以便所述服务器保存所述客户端关联的用户标识与所述目标提取模板之间的对应关系;
提取请求提交单元603,用于根据第二操作指令,向服务器提交信息提取请求,以便所述服务器利用该客户端关联的用户标识对应的目标提取模板,从对应的多个待分析页面中提取目标消息内容;
消息内容接收单元604,用于接收所述服务器返回的目标消息内容。
总之,通过本申请实施例,可以按照预先设定的信息提取模板对一些特定的页面进行检测,如果发现其中包括符合特征的通知消息,则可以提取出来,并提供给第一用户,这样,第一用户不需要采用人工监视的方式来获知官方通知消息,可以降低人工成本以及时间成本,实现通知消息更及时、全面的送达第一用户。另外,由于通知消息送达第一用户的及时性以及全面性得到的保证,因此,使得通知消息对发布渠道多样性的依赖降低,因此,也可以避免第一用户受到非通知消息的干扰,保证通知消息的权威性。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的提供通知消息的方法及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。
Claims (16)
1.一种提供通知消息的方法,其特征在于,包括:
提供待分析页面的地址信息以及信息提取模板信息;所述待分析页面为用于发布通知消息的页面,所述信息提取模板根据所述通知消息的特征生成;
根据所述地址信息,提取页面源文件内容;
当所述页面源文件内容中存在符合所述信息提取模板的目标消息内容时,提供提取结果,所述提取结果中包括所述目标消息内容及其所在的页面地址信息。
2.根据权利要求1所述的方法,其特征在于,所述待分析页面包括分页显示页面,所述待分析页面的地址信息包括:所述待分析页面统一资源定位符URL的前缀部分、后缀部分,以及待分析的页码标识,所述根据所述地址信息,提取页面源文件内容,包括:
将所述待分析页面URL的前缀部分、待分析的页码标识以及后缀部分组合为目标地址;
通过预置的网页访问协议,获取所述目标地址的源文件内容。
3.根据权利要求1所述的方法,其特征在于,所述信息提取模板包括:根据所述通知消息特征生成的第一正则表达式;
所述方法还包括:
利用所述第一正则表达式,判断所述页面源文件内容中是否存在符合所述通知消息特征信息提取模板的所述目标消息内容。
4.根据权利要求1所述的方法,其特征在于,所述信息提取模板包括:根据预置的关键词以及所述通知消息特征生成的第二正则表达式;
所述方法还包括:
利用所述第二正则表达式,判断所述页面源文件内容中是否存在符合所述通知消息特征并且包含所述关键词信息提取模板的所述目标消息内容。
5.根据权利要求3或4所述的方法,其特征在于,所述通知消息包括文本类通知消息,所述通知消息的特征包括:通知消息的文本描述格式特征。
6.根据权利要求3或4所述的方法,其特征在于,所述通知消息的特征包括:通知消息的发布者账号特征。
7.根据权利要求1所述的方法,其特征在于,还包括:
确定为所述待分析页面配置的提取时间间隔信息;
按照所述提取时间间隔对所述待分析页面重新进行源文件内容的提取以及判断。
8.根据权利要求7所述的方法,其特征在于,不同页面性质的待分析页面对应不同的提取时间间隔。
9.一种提供通知消息的方法,其特征在于,包括:
服务器提供多种候选的信息提取模板,其中,所述信息提取模板根据通知消息的特征生成,每个信息提取模板关联多个待分析页面的地址信息;
根据客户端对目标提取模板的订阅请求,保存所述客户端关联的用户标识与所述目标提取模板之间的对应关系;
接收到所述客户端的信息提取请求时,利用该客户端关联的用户标识对应的目标提取模板,从对应的多个待分析页面中提取目标消息内容,并返回给客户端。
10.根据权利要求9所述的方法,其特征在于,在接收到对目标提取模板的订阅请求时,还包括:
提供该目标提取模板关联的多个待分析页面,以及对各待分析页面进行选择的操作选项;
接收客户端提交的对所述待分析页面的选择结果,并保存到该客户端关联的对应关系中;
所述提取目标消息内容,包括:
利用该客户端关联的用户标识对应的目标提取模板,从所述对应关系中保存的多个待分析页面中提取目标消息内容。
11.根据权利要求9所述的方法,其特征在于,在接收到对目标提取模板的订阅请求时,还包括:
提供用于输入关键词的操作选项;
接收客户端提交的关键词,并保存到该客户端关联的对应关系中;
所述提取目标消息内容,包括:
利用所述关键词对所述目标提取模板进行修正,利用修正后的提取模板,从对应的多个待分析页面中提取目标消息内容。
12.根据权利要求11所述的方法,其特征在于,所述目标提取模板包括根据通知消息的特征生成的正则表达式,所述利用所述关键词对所述目标提取模板进行修正,包括:
将所述关键词与所述目标提取模板对应的正则表达式进行拼接,生成新的正则表达式。
13.一种提供通知消息的方法,其特征在于,包括:
客户端展示服务器提供的多种候选的信息提取模板,其中,所述信息提取模板根据通知消息的特征生成,每个信息提取模板关联多个待分析页面的地址信息;
根据第一操作指令,向服务器提交对目标提取模板的订阅请求,以便所述服务器保存所述客户端关联的用户标识与所述目标提取模板之间的对应关系;
根据第二操作指令,向服务器提交信息提取请求,以便所述服务器利用该客户端关联的用户标识对应的目标提取模板,从对应的多个待分析页面中提取目标消息内容;
接收所述服务器返回的目标消息内容。
14.一种提供通知消息的装置,其特征在于,包括:
信息提供单元,用于提供待分析页面的地址信息以及信息提取模板信息;所述待分析页面为用于发布通知消息的页面,所述信息提取模板根据所述通知消息的特征生成;
源文件内容提取单元,用于根据所述地址信息,提取页面源文件内容;
提取结果提供单元,用于当所述页面源文件内容中是否存在符合所述信息提取模板的目标消息内容时,提供提取结果,所述提取结果中包括所述目标消息内容及其所在的页面地址信息。
15.一种提供通知消息的装置,其特征在于,应用于服务器,包括:
候选模板提供单元,用于提供多种候选的信息提取模板,其中,所述信息提取模板根据通知消息的特征生成,每个信息提取模板关联多个待分析页面的地址信息;
订阅信息保存单元,用于根据客户端对目标提取模板的订阅请求,保存所述客户端关联的用户标识与所述目标提取模板之间的对应关系;
消息内容提供单元,用于接收到所述客户端的信息提取请求时,利用该客户端关联的用户标识对应的目标提取模板,从对应的多个待分析页面中提取目标消息内容,并返回给客户端。
16.一种提供通知消息的装置,其特征在于,应用于客户端,包括:
候选模板展示单元,用于展示服务器提供的多种候选的信息提取模板,其中,所述信息提取模板根据通知消息的特征生成,每个信息提取模板关联多个待分析页面的地址信息;
订阅请求提交单元,用于根据第一操作指令,向服务器提交对目标提取模板的订阅请求,以便所述服务器保存所述客户端关联的用户标识与所述目标提取模板之间的对应关系;
提取请求提交单元,用于根据第二操作指令,向服务器提交信息提取请求,以便所述服务器利用该客户端关联的用户标识对应的目标提取模板,从对应的多个待分析页面中提取目标消息内容;
消息内容接收单元,用于接收所述服务器返回的目标消息内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610562656.1A CN107623624B (zh) | 2016-07-15 | 2016-07-15 | 提供通知消息的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610562656.1A CN107623624B (zh) | 2016-07-15 | 2016-07-15 | 提供通知消息的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107623624A true CN107623624A (zh) | 2018-01-23 |
CN107623624B CN107623624B (zh) | 2021-03-16 |
Family
ID=61087751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610562656.1A Active CN107623624B (zh) | 2016-07-15 | 2016-07-15 | 提供通知消息的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107623624B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109003624A (zh) * | 2018-06-29 | 2018-12-14 | 北京百度网讯科技有限公司 | 情绪识别方法、装置、计算机设备及存储介质 |
CN110309388A (zh) * | 2018-03-09 | 2019-10-08 | 阿里巴巴集团控股有限公司 | 数据对象信息违法风险识别方法、装置以及计算机系统 |
CN110460512A (zh) * | 2019-08-01 | 2019-11-15 | 北京达佳互联信息技术有限公司 | 系统消息生成方法、装置、服务器及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101094135A (zh) * | 2006-06-23 | 2007-12-26 | 腾讯科技(深圳)有限公司 | 一种互联网内容信息的提取方法和提取系统 |
US20090089286A1 (en) * | 2007-09-28 | 2009-04-02 | Microsoft Coporation | Domain-aware snippets for search results |
CN101609399A (zh) * | 2008-06-20 | 2009-12-23 | 鸿富锦精密工业(深圳)有限公司 | 基于建模的智能化网站开发系统及方法 |
CN102163203A (zh) * | 2010-02-24 | 2011-08-24 | 富士通株式会社 | 网页下载的方法和装置 |
CN102685155A (zh) * | 2011-03-07 | 2012-09-19 | 联想(北京)有限公司 | 内容传送的方法、内容传送服务器及内容传送代理服务器 |
CN103020179A (zh) * | 2012-11-28 | 2013-04-03 | 北京小米科技有限责任公司 | 一种网页内容的提取方法、装置和设备 |
CN103036970A (zh) * | 2012-12-11 | 2013-04-10 | 北京奇虎科技有限公司 | 一种页面内容订阅方法和系统 |
CN103488675A (zh) * | 2013-07-11 | 2014-01-01 | 哈尔滨工程大学 | 一种多网页新闻评论内容自动精确提取装置 |
CN103699669A (zh) * | 2013-12-30 | 2014-04-02 | 北京奇虎科技有限公司 | 一种浏览器中进行消息推送的方法和一种浏览器终端 |
CN103841154A (zh) * | 2012-11-26 | 2014-06-04 | 腾讯科技(北京)有限公司 | 网络媒介信息发布方法、系统和客户端 |
CN104050281A (zh) * | 2014-06-26 | 2014-09-17 | 北京思特奇信息技术股份有限公司 | 一种基于http协议的网页信息提取方法及装置 |
-
2016
- 2016-07-15 CN CN201610562656.1A patent/CN107623624B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101094135A (zh) * | 2006-06-23 | 2007-12-26 | 腾讯科技(深圳)有限公司 | 一种互联网内容信息的提取方法和提取系统 |
US20090089286A1 (en) * | 2007-09-28 | 2009-04-02 | Microsoft Coporation | Domain-aware snippets for search results |
CN101609399A (zh) * | 2008-06-20 | 2009-12-23 | 鸿富锦精密工业(深圳)有限公司 | 基于建模的智能化网站开发系统及方法 |
CN102163203A (zh) * | 2010-02-24 | 2011-08-24 | 富士通株式会社 | 网页下载的方法和装置 |
CN102685155A (zh) * | 2011-03-07 | 2012-09-19 | 联想(北京)有限公司 | 内容传送的方法、内容传送服务器及内容传送代理服务器 |
CN103841154A (zh) * | 2012-11-26 | 2014-06-04 | 腾讯科技(北京)有限公司 | 网络媒介信息发布方法、系统和客户端 |
CN103020179A (zh) * | 2012-11-28 | 2013-04-03 | 北京小米科技有限责任公司 | 一种网页内容的提取方法、装置和设备 |
CN103036970A (zh) * | 2012-12-11 | 2013-04-10 | 北京奇虎科技有限公司 | 一种页面内容订阅方法和系统 |
CN103488675A (zh) * | 2013-07-11 | 2014-01-01 | 哈尔滨工程大学 | 一种多网页新闻评论内容自动精确提取装置 |
CN103699669A (zh) * | 2013-12-30 | 2014-04-02 | 北京奇虎科技有限公司 | 一种浏览器中进行消息推送的方法和一种浏览器终端 |
CN104050281A (zh) * | 2014-06-26 | 2014-09-17 | 北京思特奇信息技术股份有限公司 | 一种基于http协议的网页信息提取方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309388A (zh) * | 2018-03-09 | 2019-10-08 | 阿里巴巴集团控股有限公司 | 数据对象信息违法风险识别方法、装置以及计算机系统 |
CN110309388B (zh) * | 2018-03-09 | 2024-04-05 | 阿里巴巴集团控股有限公司 | 数据对象信息违法风险识别方法、装置以及计算机系统 |
CN109003624A (zh) * | 2018-06-29 | 2018-12-14 | 北京百度网讯科技有限公司 | 情绪识别方法、装置、计算机设备及存储介质 |
CN110460512A (zh) * | 2019-08-01 | 2019-11-15 | 北京达佳互联信息技术有限公司 | 系统消息生成方法、装置、服务器及存储介质 |
CN110460512B (zh) * | 2019-08-01 | 2021-10-22 | 北京达佳互联信息技术有限公司 | 系统消息生成方法、装置、服务器及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107623624B (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI727202B (zh) | 用於識別欺詐的發布商網路之方法與系統 | |
Malik et al. | A macroscopic analysis of news content in Twitter | |
Williamson et al. | Web 2.0 and social media growth in planning practice: A longitudinal study | |
US9256692B2 (en) | Clickstreams and website classification | |
CN111310061B (zh) | 全链路多渠道归因方法、装置、服务器及存储介质 | |
Majó-Vázquez et al. | The backbone structure of audience networks: A new approach to comparing online news consumption across countries | |
CN107430618A (zh) | 实现与主计算设备进行用户语音交互的系统和方法 | |
JP6145461B2 (ja) | 対話デジタルデータ間のリンクを識別するためのシステム、方法、および装置 | |
WO2018067206A1 (en) | Network based advertisement data traffic latency reduction | |
CN106127535A (zh) | 基于移动终端的广告推送系统及方法 | |
CN107077498A (zh) | 在在线广告中表示实体关系 | |
US8886800B2 (en) | System and method for traffic analysis | |
CN107623624A (zh) | 提供通知消息的方法及装置 | |
CN107784422A (zh) | 柜员机控制方法、装置、计算机设备和介质 | |
CN112765514A (zh) | 一种监测网络舆情方法、装置及存储介质 | |
KR20140138494A (ko) | 스팸 댓글 차단 시스템 및 방법 | |
Zheng et al. | Capturing “human bandwidth”: A multidimensional model for measuring attention on web sites | |
US8719934B2 (en) | Methods, systems and media for detecting non-intended traffic using co-visitation information | |
WO2016026309A1 (zh) | 评论消息处理方法及装置 | |
KR20180122111A (ko) | 공연 및 행사기획 대행 온오프라인 서비스 제공방법 | |
US20130282834A1 (en) | Method and apparatus for determining an effect of characteristics of a message on interaction with the message | |
Hounsel et al. | Supporting early and scalable discovery of disinformation websites | |
Yu et al. | Dynamics of trends and attention in chinese social media | |
US20200193458A1 (en) | A web-based method for enhanced analysis of analytics setup and data | |
CN104462299A (zh) | 资源提供方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1250097 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |