CN107368504A - 一种信息处理方法、系统及相关设备 - Google Patents

一种信息处理方法、系统及相关设备 Download PDF

Info

Publication number
CN107368504A
CN107368504A CN201610320362.8A CN201610320362A CN107368504A CN 107368504 A CN107368504 A CN 107368504A CN 201610320362 A CN201610320362 A CN 201610320362A CN 107368504 A CN107368504 A CN 107368504A
Authority
CN
China
Prior art keywords
calendar event
client
user
website information
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610320362.8A
Other languages
English (en)
Inventor
邢辉峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201610320362.8A priority Critical patent/CN107368504A/zh
Publication of CN107368504A publication Critical patent/CN107368504A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种信息处理方法,包括:客户端获取用户收藏的至少一个网址信息;将获取的至少一个网址信息发送至服务端;接收所述服务端发送的日历事件;所述日历事件为依据所述至少一个网址信息生成的日历事件;在所述日历事件到达约定时间时生成提示信息;所述提示信息用于提示所述用户进行所述日历事件。本发明同时还公开了一种客户端、服务端及信息处理系统。

Description

一种信息处理方法、系统及相关设备
技术领域
本发明涉及通信领域的业务技术,尤其涉及一种信息处理方法、系统及相关设备。
背景技术
日历是现在很多人不可缺少的日常工具,同时也被广泛使用,已经从以前的纸质日历发展到了现在的电子版日历。
电子版日历除了方便人们查看日期外,在日历中新建事件来记录日志和事件(可以称为日历事件信息),也是人们常使用的一种功能,把这些事情绑定在日历指定日期上,这样到了指定时间点就会有提醒了。
同时,借助互联网技术的发展,当今时代信息量在不断增加,速度正在以几何级别增长。信息量增长的速度远比人类理解的速度要快,并以海浪式四面八方涌入人类的生活。这其中就包含了大量的日历事件信息。
然而,目前用户新建日历事件的过程是:根据用户自身手头的资料,手动一个个的添加及手动设置需求内容,并且相关的日历事件需要定时手动进行更新。而手动添加的方式非常容易出错,且效率比较低,导致日历使用的频度不高,活跃度下降。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种信息处理方法、系统及相关设备。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种信息处理方法,应用于客户端,所述方法包括:
获取用户收藏的至少一个网址信息;
将获取的至少一个网址信息发送至服务端;
接收所述服务端发送的日历事件;所述日历事件为依据所述至少一个网址信息生成的日历事件;
在所述日历事件到达约定时间时生成提示信息;所述提示信息用于提示所述用户进行所述日历事件。
上述方案中,所述方法还包括:
接收所述用户的第一操作;所述第一操作是对所述日历事件的管理操作;
响应所述第一操作,对所述日历事件进行管理操作。
上述方案中,所述方法还包括:
接收所述用户的第二操作;所述第二操作是对收藏的至少一个网址信息的管理操作;
响应所述第二操作,对所述至少一个网址信息进行管理操作;
并当所述至少一个网址信息更新时,向所述服务端发送更新后的至少一个网址信息。
上述方案中,所述方法还包括:
接收所述用户的第三操作;所述第三操作为订阅操作;
响应所述第三操作,确定所述用户订阅的日历事件的分类;
将所述分类发送给所述服务端。
本发明实施例还提供了一种信息处理方法,应用于服务端,所述方法包括:
接收客户端发送的用户收藏的至少一个网址信息;
基于所述至少一个网址信息,爬取所述至少一个网址信息对应的发布内容;
对爬取的发布内容进行语义分析,生成日历事件;
将生成的日历事件发送给所述客户端。
上述方案中,所述对爬取的发布内容进行语义分析,生成日历事件,包括:
对爬取的发布内容进行解析,得到文本内容;
利用文本内容,提取出摘要;
对提取出的摘要进行分句处理,得到至少一个语句;
利用训练得到的至少一个事件模型对得到的至少一个语句进行匹配,生成日历事件。
上述方案中,所述利用文本内容,提取出摘要,包括:
对所述文本内容进行分词处理,得到至少一个词语;
确定所述至少一个词语中每个词语的使用次数,并通过利用数据库中的至少一个关键词树对所述至少一个词语的查找,确定所述至少一个词语中每个词语的权重值;
利用确定的使用次数及对应的权重值,得到每个词语的排序参考值;
利用每个词语的排序参考值,对至少一个词语按照降序排列,得到所述文本内容对应的至少一个关键词;
所述文本内容进行分句处理,从分句后的所述文本内容中选择与所述至少一个关键词对应的语句,并按照在所述文本内容中出现的顺序,组成所述摘要;
其中,所述关键词数包括以下至少之一:时间树、位置树、数量树、专有名词树、动作树。
上述方案中,所述利用训练得到的至少一个事件模型对得到的至少一个语句进行匹配,生成日历事件,包括:
为每个语句进行分词并标注对应的词性;
利用每个语句的每个词语的词性依次与所述至少一个事件模型中第N个事件模型中的各词性进行匹配;N为大于等于1的整数;
相应地,当匹配成功时,利用匹配成功的事件模型,生成日历事件。
上述方案中,所述方法还包括:
当匹配成功的事件模型为至少两个时,利用得到的网站的主题,确定生成日历事件所采用的事件模型。
上述方案中,所述方法还包括:
接收所述客户端发送的所述用户订阅的分类;
相应地,将所述用户订阅的分类下的日历事件发送给所述客户端。
上述方案中,所述方法还包括:
利用得到的词语,基于聚类算法,确定所述日历事件的分类。
上述方案中,所述基于所述至少一个网址信息,爬取所述至少一个网址信息对应的发布内容,为:
对爬取的发布内容进行解析,得到消息的发布频率;
利用消息的发布频率,确定对应网站的爬取频率;
利用确定的爬取频率,定时爬取对应网站的发布内容。
上述方案中,所述方法还包括:
接收所述客户端发送的更新后的至少一个网址信息;
相应地,利用更新后的至少一个网址信息,爬取对应的发布内容,生成新日历事件,并将生成的新日历事件发送给所述客户端。
本发明实施例又提供了一种客户端,包括:
获取单元,用于获取用户收藏的至少一个网址信息;
第一发送单元,用于将获取的至少一个网址信息发送至服务端;
第一接收单元,用于接收所述服务端发送的日历事件;所述日历事件为依据所述至少一个网址信息生成的日历事件;
提示单元,用于在所述日历事件到达约定时间时生成提示信息;所述提示信息用于提示所述用户进行所述日历事件。
上述方案中,所述客户端还包括:
第二接收单元,用于接收所述用户的第一操作;所述第一操作是对所述日历事件的管理操作;
第一执行单元,用于响应所述第一操作,对所述日历事件进行管理操作。
上述方案中,所述客户端还包括:
第三接收单元,用于接收所述用户的第二操作;所述第二操作是对收藏的至少一个网址信息的管理操作;
第二执行单元,用于响应所述第二操作,对所述至少一个网址信息进行管理操作;
所述第一发送单元,还用于当所述至少一个网址信息更新时,向所述服务端发送更新后的至少一个网址信息。
上述方案中,所述客户端还包括:
第四接收单元,用于接收所述用户的第三操作;所述第三操作为订阅操作;
第三执行单元,用于响应所述第三操作,确定所述用户订阅的日历事件的分类;
所述第一发送单元,还用于将所述分类发送给所述服务端。
本发明实施例还提供了一种服务端,包括:
第五接收单元,用于接收客户端发送的用户收藏的至少一个网址信息;
内容提取单元,用于基于所述至少一个网址信息,爬取所述至少一个网址信息对应的发布内容;
语义分析单元,用于对爬取的发布内容进行语义分析,生成日历事件;
第二发送单元,用于将生成的日历事件发送给所述客户端。
上述方案中,所述第五接收单元,还用于接收所述客户端发送的更新后的至少一个网址信息;
相应地,所述内容提取单元,还用于利用更新后的至少一个网址信息,爬取对应的发布内容;
所述语义分析单元,还用于对利用更新后的至少一个网址信息爬取的发布内容进行语义分析,生成新日历事件;
所述第二发送单元,还用于将生成的新日历事件发送给所述客户端。
本发明实施例又提供了一种信息处理系统,包括:
客户端,用于获取用户收藏的至少一个网址信息;将获取的至少一个网址信息发送至服务端;接收所述服务端发送的日历事件;并在所述日历事件到达约定时间时生成提示信息;所述提示信息用于提示所述用户进行所述日历事件;
服务端,用于接收客户端发送的用户收藏的至少一个网址信息;基于所述至少一个网址信息,爬取所述至少一个网址信息对应的发布内容;对爬取的发布内容进行语义分析,生成日历事件;以及将生成的日历事件发送给所述客户端。
本发明实施例提供的信息处理方法、系统及相关设备,客户端获取用户收藏的至少一个网址信息;将获取的至少一个网址信息发送至服务端;所述服务端接收客户端发送的用户收藏的至少一个网址信息;基于所述至少一个网址信息,爬取所述至少一个网址信息对应的发布内容;对爬取的发布内容进行语义分析,生成日历事件;将生成的日历事件发送给所述客户端;所述客户端接收到的日历事件后,在所述日历事件到达约定时间时生成提示信息;所述提示信息用于提示所述用户进行所述日历事件,通过对用户收藏的网址进行语义分析得到日历事件,如此,实现了自动新建日历事件,提高了处理效率,提升了用户体验。
附图说明
在附图(其不一定是按比例绘制的)中,相似的附图标记可在不同的视图中描述相似的部件。具有不同字母后缀的相似附图标记可表示相似部件的不同示例。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。
图1为本发明实施例一客户端侧的信息处理方法流程示意图;
图2为本发明实施例一服务端侧的信息处理方法流程示意图;
图3为本发明实施例一信息处理方法流程示意图;
图4为本发明实施例二客户端结构示意图;
图5为本发明实施例二服务端结构示意图;
图6为本发明实施例二信息处理系统结构示意图;
图7为本发明实施例三事件估计系统的整体框架示意图;
图8为本发明实施例三网站的消息内容示意图。
具体实施方式
下面结合附图及实施例对本发明再作进一步详细的描述。
如前所述,迅速增长的包含大量日历事件信息的信息正在不断地涌入人们的生活中。对于人们来说,这种信息爆炸必然存在信息过载的问题,在这些大量信息中,对于用户来说,真正有价值的,与用户需求匹配的信息很少。实际上,用户真正关心的信息(事件)基本上都是用户主动寻找的内容。
具体到日历事件信息来说,日历事件的来源通常是用户看到某个感兴趣的日程,比如:促销信息、网站的新闻、学校的课程设置、健身房的课程设置等等,用户一般都是通过以下渠道获取:
1、通过商家的网站、订阅的电子邮件、微信号、实体传单、应用(App)、简易信息聚合(RSS,Really Simple Syndication);
2、通过第三方的网站、App;
3、搜索引擎。
获取到这些信息后,用户根据看到的信息手动添加到电子版日历中。添加的内容主要包括:
1、标题:事件的标题。
2、地点:事件发生的地点。
3、时间:事件的开始时间和结束时间。
4、全天事件:可以创建从0:00到24:00的整日长度的事件。
5、农历:当这个选项被选中时,那么时间中事件的开始时间和结束时间所对应的日期,则指的是农历日期。
6、重复方式:包含6种事件的重复方式,分别为:每日、每工作日、每星期、每月、每年、以及自定义方式。当设置了重复方式后,事件将按照相应的重复规律来重复出现在电子版日历中,电子版日历也将会按照重复方式在事件每一次发生时都提前提醒。
7、结束:当用户设置了重复方式后,将显示出“结束”选择项。在这个选项中用户可以选择重复事件的结束方式,具体可以有3种结束方式,分别是:永不结束、结束于重复次数、结束于日期。当用户选择相应的结束方式和数据之后,重复事件将重复发生,直到用户设置的结束点为止。
8、提醒:设置在事件开始前提前多长时间提醒用户。
9、日历:设置待创建的这个新建事件被创建在哪个日历中。
10、邀请人:想邀请别人参加时,从联系人里面选择有邮件地址的联系人,以通过邮件的方式邀请联系人。
11、描述:事件的具体描述信息。
现有技术中,需要用户根据看到的内容手动一项一项输入事件的内容,包括标题、时间、地点等。换句话说,在现有技术中,人们新建事件需要根据手头的资料,手动一个个的添加以及进行上述各种设置,并且相关的日历事件需要定时手动更新,再手动添加,非常繁琐,容易出错,因此日历使用的频度不高,活跃度下降。
基于此,在本发明的各种实施例中:客户端获取用户收藏的至少一个网址信息;将获取的至少一个网址信息发送至服务端;所述服务端接收客户端发送的用户收藏的至少一个网址信息;基于所述至少一个网址信息,爬取所述至少一个网址信息对应的发布内容;对爬取的发布内容进行语义分析,生成日历事件;将生成的日历事件发送给所述客户端;所述客户端接收到的日历事件后,在所述日历事件到达约定时间时生成提示信息;所述提示信息用于提示所述用户进行所述日历事件。
实施例一
本实施例提供一种信息处理方法,应用于客户端,如图1所示,该方法包括以下步骤:
步骤101:所述客户端获取用户收藏的至少一个网址信息;
这里,实际应用时,所述客户端根据自身所在载体的不同,可以是:安卓(Andriod)客户端、IOS客户端或Web客户端等。其中,当为Andriod客户端时,客户端所在载体可以是具有Andriod系统的各种移动终端,比如手机、笔记本、平板电脑(Pad)等。当为IOS客户端时,客户端所在载体可以是具有Andriod系统的各种移动终端,比如手机、笔记本、Pad等。当为Web客户端时,客户端所在载体可以是个人电脑(PC,Personal Computer)等。
其中,当所述客户端为Andriod客户端或IOS客户端时,即其所在载体为移动终端时,可以事先在操作系统进行注册,以便当用户使用移动终端的应用(APP)收藏某个消息的网址时,所述客户端可以获取到用户收藏的网址信息。具体地,用户使用移动终端APP提供的浏览器或即时通信APP看到自身感兴趣的某个消息时,比如微信的公众好、或者微博的某个消息等,可以点击对应APP的分享功能,以便可以收藏该消息的网址,由于所述客户端已经在操作系统注册,因此,用户可以选择将收藏的网址保存至所述客户端,此时,操作系统会将用户选择的网址信息发送给所述客户端,从而使得所述客户端获取到所述用户收藏的至少一个网址信息。
当所述客户端为Web客户端时,即其所在载体为PC时,也可以事先在操作系统进行注册,以浏览器插件的方式呈献给用户。当用户使用PC的浏览器,浏览到心仪的网站的特定的网址时,用户点击浏览器日历插件的收藏功能,而操作系统收到用户的操作后,操作系统会将用户选择的网址信息发送给所述客户端,从而使得所述客户端获取到所述用户收藏的至少一个网址信息。
这里,所述客户端还可以通过操作系统去直接读取用户浏览器下收藏夹中用户已经收藏的地址信息,从而获取到所述用户收藏的至少一个网址信息。
步骤102:所述客户端将获取的至少一个网址信息发送至服务端;
步骤103:所述客户端接收所述服务端发送的日历事件;
这里,接收的所述日历事件为所述服务端依据所述至少一个网址信息生成的日历事件。
步骤104:所述客户端在所述日历事件到达约定时间时生成提示信息。
这里,所述提示信息用于提示所述用户进行所述日历事件。
在一实施例中,该方法还可以包括:
所述客户端接收所述用户的第一操作;所述第一操作是对所述日历事件的管理操作;
所述客户端响应所述第一操作,对所述日历事件进行管理操作。
换句话说,所述客户端还具有日历的日常使用功能,包括:日历的日、周、月浏览模式,新建、管理日历等;能够在某一日历内增加、删除、修改、查询、拷贝、粘贴事件等。
在一实施例中,该方法还可以包括:
所述客户端接收所述用户的第二操作;所述第二操作是对收藏的至少一个网址信息的管理操作;
所述客户端响应所述第二操作,对所述至少一个网址信息进行管理操作;
并当所述至少一个网址信息更新时,所述客户端向所述服务端发送更新后的至少一个网址信息。
其中,所述管理操作可以包括:增加、删除、修改、查询等操作,而增加、删除、修改操作会引起所述至少一个网址信息的更新。
实际应用时,用户可以根据自身的喜好去对所述至少一个网址信息进行管理操作,以便后续能收到自身关心的日历事件的提醒。
在一实施例中,该方法还可以包括:
所述客户端接收所述用户的第三操作;所述第三操作为订阅操作;
所述客户端响应所述第三操作,确定所述用户订阅的日历事件的分类;
所述客户端将所述分类发送给所述服务端。
其中,实际应用时,用户收藏的网址形成的日历事件可能会比较多,在这种情况下,需要对其进行分类管理,此时用户可以根据自身的需要,选择日历事件的类别,以便后续能收到自身关心的类别的日历事件的提醒。
本实施例还提供了一种信息处理方法,应用于服务端,如图2所示,该方法包括以下步骤:
步骤201:所述服务端接收客户端发送的用户收藏的至少一个网址信息;
步骤202:所述服务端基于所述至少一个网址信息,爬取所述至少一个网址信息对应的发布内容;
具体地,所述服务端对爬取的发布内容进行解析,得到消息的发布频率;
所述服务端利用消息的发布频率,确定对应网站的爬取频率;
所述服务端利用确定的爬取频率,定时爬取对应网站的发布内容。
这里,实际应用时,对爬取的发布内容进行解析,可以得到各消息的发布时间,根据各消息的发布时间间隔,可以得到消息的发布频率。
步骤203:所述服务端对爬取的发布内容进行语义分析,生成日历事件;
具体地,对爬取的发布内容进行解析,得到文本内容;
利用文本内容,提取出摘要;
对提取出的摘要进行分句处理,得到至少一个语句;
利用训练得到的至少一个事件模型对得到的至少一个语句进行匹配,生成日历事件。
其中,所述利用文本内容,提取出摘要,具体包括:
所述服务端对所述文本内容进行分词处理,得到至少一个词语;
确定所述至少一个词语中每个词语的使用次数,并通过利用数据库中的至少一个关键词树对所述至少一个词语的查找,确定所述至少一个词语中每个词语的权重值;
利用确定的使用次数及对应的权重值,得到每个词语的排序参考值;
利用每个词语的排序参考值,对至少一个词语按照降序排列,得到所述文本内容对应的至少一个关键词;
所述文本内容进行分句处理,从分句后的所述文本内容中选择与所述至少一个关键词对应的语句,并按照在所述文本内容中出现的顺序,组成所述摘要;
其中,所述关键词数包括以下至少之一:时间树、位置树、数量树、专有名词树、动作树。
这里,对于时间树,其根节点为空,根节点的每个子节点仅包含一个月份节点,共12个月子节点,每个月子节点下面包含各自的30天或31天日期子节点,这样从根节点到某一个终止子节点所经过的路径连接起来就是对应的时间。
对于位置树,其根节点为空,根节点的每个子节点仅包含一个国家节点,共229个国家子节点,每个国家子节点,按照其行政区划,下设对应子节点,比如中国共有31个省子节点,以此类推,直至到具体的门牌号码,这样从根节点到某一个终止子节点所经过的路径连接起来就是对应的位置信息。
对于数量树,根节点为空,根节点的每个子节点仅包含10个数字子节点,从0到9,每个数字子节点的子节点以10*n~10*n+9为子节点,n表示上一层的子节点,比如,1的子节点为10到19,以此类推,这样从根节点到某一个终止子节点所经过的路径连接起来就是对应的数量。
对于专有名词树,根节点为空,根节点的每个子节点为一个英文字符,从a到z,每个英文字符子节点的子节点也是从a到z的英文字符子节点,以此类推,这样从根节点到某一个终止节点所经过的路径连接起来就是对应的单词或汉语拼音(可转化为汉字),以形成某个名词。
对于动作树,与专有名词树是相同的,其根节点为空,根节点的每个子节点为一个英文字符,从a到z,每个英文字符子节点的子节点也是从a到z的英文字符子节点,以此类推,这样从根节点到某一个终止节点所经过的路径连接起来就是对应的单词或汉语拼音(可转化为汉字),以形成某个表示动作的动词。
在确定所述至少一个词语中每个词语的权重值时,所述服务端可以根据数据库中的多棵树(时间树、地点树、数量树等)进行查找操作,根据匹配的程度及树节点的深度,确定每个词语的权重值。具体来说,匹配的程度越高、树节点的深度越浅,词语的权重值就越大。相反,匹配的程度越低、树节点的深度越深,词语的权重值就越小。而对于最常见的一些词语(比如“的”、“是”、“来”等)则确定其权重值最小。
实际应用时,对至少一个词语按照降序排列后,根据需要确定几个词语,从而得到所述文本内容对应的至少一个关键词。
所述利用训练得到的至少一个事件模型对得到的至少一个语句进行匹配,生成日历事件,具体包括:
所述服务端为每个语句进行分词并标注对应的词性;
利用每个语句的每个词语的词性依次与所述至少一个事件模型中第N个事件模型中的各词性进行匹配;N为大于等于1的整数;
相应地,当匹配成功时,利用匹配成功的事件模型,生成日历事件。
这里,实际应用时,从每句的第一个分词的词性开始和事件模型T的第一个词性进行比较,若相等,则继续比较两者的后续词性;若不相等,则从第二个分词开始和事件模式T的第一个词性进行比较,重复上述过程,若事件模型T中的词性全部比较完毕,则说明匹配成功;若每句的所有词性全部比较完毕,说明匹配失败。
其中,实际应用时,可能会同时存在多个匹配的情况,此时需要根据网页主题进行筛选。
基于此,当匹配成功的事件模型为至少两个时,利用得到的网站的主题,确定生成日历事件所采用的事件模型。
这里,在进行摘要提取时,利用得到所述文本内容对应的至少一个关键词,可以获得网站的主题。
实际应用时,所述服务端得到的日历事件可能是海量的,因此,需要对得到的日历事件进行分类,以便能根据用户订阅的分类向用户推送相应的日历事件。
基于此,在一实施例中,该方法还可以包括:
利用得到的词语,基于聚类算法,确定所述日历事件的分类。
其中,聚类算法可以是划分法、层次法、密度算法、或网格算法等。
通过聚类算法,可以将日历事件划分为:科技、教育、财经、购物、房产、游戏等类别的事件。
步骤204:所述服务端将生成的日历事件发送给所述客户端。
这里,在一实施例中,该方法还可以包括:
所述服务端接收所述客户端发送的所述用户订阅的分类;
相应地,所述服务端将所述用户订阅的分类下的日历事件发送给所述客户端。
实际应用时,用户可以根据自身的喜好去对所述至少一个网址信息进行管理操作,以便后续能收到自身关心的日历事件的提醒。
基于此,在一实施例中,该方法还可以包括:
所述服务端接收所述客户端发送的更新后的至少一个网址信息;
相应地,利用更新后的至少一个网址信息,爬取对应的发布内容,生成新日历事件,并将生成的新日历事件发送给所述客户端。
本发明实施例还提供了一种信息处理方法,如图3所示,该方法包括以下步骤:
步骤301:客户端获取用户收藏的至少一个网址信息;将获取的至少一个网址信息发送至服务端;
步骤302:所述服务端接收客户端发送的用户收藏的至少一个网址信息;基于所述至少一个网址信息,爬取所述至少一个网址信息对应的发布内容;
步骤303:所述服务端对爬取的发布内容进行语义分析,生成日历事件;将生成的日历事件发送给所述客户端;
步骤304:所述客户端接收到的日历事件后,在所述日历事件到达约定时间时生成提示信息。
这里,所述提示信息用于提示所述用户进行所述日历事件。
需要说明的是:所述客户端和服务端的具体处理过程已在上文详述,这里不再赘述。
本发明实施例提供的信息处理方法,客户端获取用户收藏的至少一个网址信息;将获取的至少一个网址信息发送至服务端;所述服务端接收客户端发送的用户收藏的至少一个网址信息;基于所述至少一个网址信息,爬取所述至少一个网址信息对应的发布内容;对爬取的发布内容进行语义分析,生成日历事件;将生成的日历事件发送给所述客户端;所述客户端接收到的日历事件后,在所述日历事件到达约定时间时生成提示信息;所述提示信息用于提示所述用户进行所述日历事件,通过对用户收藏的网址进行语义分析得到日历事件,如此,实现了自动新建日历事件,提高了处理效率,提升了用户体验。
另外,所述服务端利用得到的词语,基于聚类算法,确定所述日历事件的分类,并将所述用户订阅的分类下的日历事件发送给所述客户端,如此,能根据用户需要向用户推送日历事件,如此,进一步提升了用户体验。
实施例二
为实现本发明实施例一的方法,本实施例提供一种客户端,如图4所示,该客户端包括:
获取单元41,用于获取用户收藏的至少一个网址信息;
第一发送单元42,用于将获取的至少一个网址信息发送至服务端;
第一接收单元43,用于接收所述服务端发送的日历事件;所述日历事件为依据所述至少一个网址信息生成的日历事件;
提示单元44,用于在所述日历事件到达约定时间时生成提示信息;所述提示信息用于提示所述用户进行所述日历事件。
其中,实际应用时,所述客户端根据自身所在载体的不同,可以是:Andriod客户端、IOS客户端或Web客户端等。其中,当为Andriod客户端时,客户端所在载体可以是具有Andriod系统的各种移动终端,比如手机、笔记本、Pad等。当为IOS客户端时,客户端所在载体可以是具有Andriod系统的各种移动终端,比如手机、笔记本、Pad等。当为Web客户端时,客户端所在载体可以是PC等。
其中,当所述客户端为Andriod客户端或IOS客户端时,即其所在载体为移动终端时,可以事先在操作系统进行注册,以便当用户使用移动终端的APP收藏某个消息的网址时,所述客户端可以获取到用户收藏的网址信息。具体地,用户使用移动终端APP提供的浏览器或即时通信APP看到自身感兴趣的某个消息时,比如微信的公众好、或者微博的某个消息等,可以点击对应APP的分享功能,以便可以收藏该消息的网址,由于所述客户端已经在操作系统注册,因此,用户可以选择将收藏的网址保存至所述客户端,此时,操作系统会将用户选择的网址信息发送给所述客户端,从而使得所述获取单元41获取到所述用户收藏的至少一个网址信息。
当所述客户端为Web客户端时,即其所在载体为PC时,也可以事先在操作系统进行注册,以浏览器插件的方式呈献给用户。当用户使用PC的浏览器,浏览到心仪的网站的特定的网址时,用户点击浏览器日历插件的收藏功能,而操作系统收到用户的操作后,操作系统会将用户选择的网址信息发送给所述客户端,从而使得所述获取单元41获取到所述用户收藏的至少一个网址信息。
这里,所述获取单元41还可以通过操作系统去直接读取用户浏览器下收藏夹中用户已经收藏的地址信息,从而获取到所述用户收藏的至少一个网址信息。
在一实施例中,该客户端还可以包括:
第二接收单元,用于接收所述用户的第一操作;所述第一操作是对所述日历事件的管理操作;
第一执行单元,用于响应所述第一操作,对所述日历事件进行管理操作。
换句话说,所述客户端还具有日历的日常使用功能,包括:日历的日、周、月浏览模式,新建、管理日历等;能够在某一日历内增加、删除、修改、查询、拷贝、粘贴事件等。
在一实施例中,该客户端还可以包括:
第三接收单元,用于接收所述用户的第二操作;所述第二操作是对收藏的至少一个网址信息的管理操作;
第二执行单元,用于响应所述第二操作,对所述至少一个网址信息进行管理操作;
所述第一发送单元42,还用于当所述至少一个网址信息更新时,向所述服务端发送更新后的至少一个网址信息。
其中,所述管理操作可以包括:增加、删除、修改、查询等操作,而增加、删除、修改操作会引起所述至少一个网址信息的更新。
实际应用时,用户可以根据自身的喜好去对所述至少一个网址信息进行管理操作,以便后续能收到自身关心的日历事件的提醒。
在一实施例中,该客户端还可以包括:
第四接收单元,用于接收所述用户的第三操作;所述第三操作为订阅操作;
第三执行单元,用于响应所述第三操作,确定所述用户订阅的日历事件的分类;
所述第一发送单元42,还用于将所述分类发送给所述服务端。
其中,实际应用时,用户收藏的网址形成的日历事件可能会比较多,在这种情况下,需要对其进行分类管理,此时用户可以根据自身的需要,选择日历事件的类别,以便后续能收到自身关心的类别的日历事件的提醒。
实际应用时,所述获取单元41、提示单元44、第二接收单元、第一执行单元、第三接收单元、第二执行单元、第四接收单元、第三执行单元可由客户端中的中央处理器(CPU,Central Processing Unit)、微处理器(MCU,Micro ControlUnit)、数字信号处理器(DSP,Digital Signal Processor)或可编程逻辑阵列(FPGA,Field-Programmable Gate Array)实现;所述第一发送单元42及第一接收单元43可由客户端中的收发机实现。
为实现本发明实施例的方法,本实施例还提供了一种服务端,如图5所示,该服务端包括:
第五接收单元51,用于接收客户端发送的用户收藏的至少一个网址信息;
内容提取单元52,用于基于所述至少一个网址信息,爬取所述至少一个网址信息对应的发布内容;
语义分析单元53,用于对爬取的发布内容进行语义分析,生成日历事件;
第二发送单元54,用于将生成的日历事件发送给所述客户端。
其中,所述内容提取单元52,具体用于:
利用消息的发布频率,确定对应网站的爬取频率;
利用确定的爬取频率,定时爬取对应网站的发布内容。
这里,实际应用时,所述内容提取单元52对爬取的发布内容进行解析,可以得到各消息的发布时间,根据各消息的发布时间间隔,可以得到消息的发布频率。
在一实施例中,所述语义分析单元53可以包括:
解析模块,用于对爬取的发布内容进行解析,得到文本内容;
提取模块,用于利用文本内容,提取出摘要;
分句模块,用于对提取出的摘要进行分句处理,得到至少一个语句;
生成模块,用于利用训练得到的至少一个事件模型对得到的至少一个语句进行匹配,生成日历事件。
其中,所述提取模块,具体用于:
对所述文本内容进行分词处理,得到至少一个词语;
确定所述至少一个词语中每个词语的使用次数,并通过利用数据库中的至少一个关键词树对所述至少一个词语的查找,确定所述至少一个词语中每个词语的权重值;
利用确定的使用次数及对应的权重值,得到每个词语的排序参考值;
利用每个词语的排序参考值,对至少一个词语按照降序排列,得到所述文本内容对应的至少一个关键词;
所述文本内容进行分句处理,从分句后的所述文本内容中选择与所述至少一个关键词对应的语句,并按照在所述文本内容中出现的顺序,组成所述摘要;
其中,所述关键词数包括以下至少之一:时间树、位置树、数量树、专有名词树、动作树。
这里,对于时间树,其根节点为空,根节点的每个子节点仅包含一个月份节点,共12个月子节点,每个月子节点下面包含各自的30天或31天日期子节点,这样从根节点到某一个终止子节点所经过的路径连接起来就是对应的时间。
对于位置树,其根节点为空,根节点的每个子节点仅包含一个国家节点,共229个国家子节点,每个国家子节点,按照其行政区划,下设对应子节点,比如中国共有31个省子节点,以此类推,直至到具体的门牌号码,这样从根节点到某一个终止子节点所经过的路径连接起来就是对应的位置信息。
对于数量树,根节点为空,根节点的每个子节点仅包含10个数字子节点,从0到9,每个数字子节点的子节点以10*n~10*n+9为子节点,n表示上一层的子节点,比如,1的子节点为10到19,以此类推,这样从根节点到某一个终止子节点所经过的路径连接起来就是对应的数量。
对于专有名词树,根节点为空,根节点的每个子节点为一个英文字符,从a到z,每个英文字符子节点的子节点也是从a到z的英文字符子节点,以此类推,这样从根节点到某一个终止节点所经过的路径连接起来就是对应的单词或汉语拼音(可转化为汉字),以形成某个名词。
对于动作树,与专有名词树是相同的,其根节点为空,根节点的每个子节点为一个英文字符,从a到z,每个英文字符子节点的子节点也是从a到z的英文字符子节点,以此类推,这样从根节点到某一个终止节点所经过的路径连接起来就是对应的单词或汉语拼音(可转化为汉字),以形成某个表示动作的动词。
在确定所述至少一个词语中每个词语的权重值时,所述提取模块可以根据数据库中的多棵树(时间树、地点树、数量树等)进行查找操作,根据匹配的程度及树节点的深度,确定每个词语的权重值。具体来说,匹配的程度越高、树节点的深度越浅,词语的权重值就越大。相反,匹配的程度越低、树节点的深度越深,词语的权重值就越小。而对于最常见的一些词语(比如“的”、“是”、“来”等)则确定其权重值最小。
实际应用时,对至少一个词语按照降序排列后,根据需要确定几个词语,从而得到所述文本内容对应的至少一个关键词。
所述生成模块,具体用于:
为每个语句进行分词并标注对应的词性;
利用每个语句的每个词语的词性依次与所述至少一个事件模型中第N个事件模型中的各词性进行匹配;N为大于等于1的整数;
相应地,当匹配成功时,利用匹配成功的事件模型,生成日历事件。
这里,实际应用时,所述生成模块从每句的第一个分词的词性开始和事件模型T的第一个词性进行比较,若相等,则继续比较两者的后续词性;若不相等,则从第二个分词开始和事件模式T的第一个词性进行比较,重复上述过程,若事件模型T中的词性全部比较完毕,则说明匹配成功;若每句的所有词性全部比较完毕,说明匹配失败。
其中,实际应用时,可能会同时存在多个匹配的情况,此时需要根据网页主题进行筛选。
基于此,当匹配成功的事件模型为至少两个时,所述生成模块利用得到的网站的主题,确定生成日历事件所采用的事件模型。
这里,在进行摘要提取时,所述生成模块利用得到所述文本内容对应的至少一个关键词,可以获得网站的主题。
实际应用时,所述服务端得到的日历事件可能是海量的,因此,需要对得到的日历事件进行分类,以便能根据用户订阅的分类向用户推送相应的日历事件。
基于此,在一实施例中,所述生成模块,还用于利用得到的词语,基于聚类算法,确定所述日历事件的分类。
其中,聚类算法可以是划分法、层次法、密度算法、或网格算法等。
通过聚类算法,可以将日历事件划分为:科技、教育、财经、购物、房产、游戏等类别的事件。
在一实施例中,所述第五接收单元51,还用于接收所述客户端发送的所述用户订阅的分类;
相应地,所述第二发送单元54,用于将所述用户订阅的分类下的日历事件发送给所述客户端。
实际应用时,用户可以根据自身的喜好去对所述至少一个网址信息进行管理操作,以便后续能收到自身关心的日历事件的提醒。
基于此,在一实施例中,所述第五接收单元51,还用于接收所述客户端发送的更新后的至少一个网址信息;
相应地,所述内容提取单元52,还用于利用更新后的至少一个网址信息,爬取对应的发布内容;
所述语义分析单元53,还用于对利用更新后的至少一个网址信息爬取的发布内容进行语义分析,生成新日历事件;
所述第二发送单元54,还用于将生成的新日历事件发送给所述客户端。
实际应用时,所述第五接收单元51、第二发送单元54可由服务端中的收发机实现;所述内容提取单元52、语义分析单元53、解析模块、提取模块、分句模块、生成模块可由服务端中的CPU、MCU、DSP或FPGA实现。
为实现本发明实施例的方法,本实施例还提供了一种信息处理系统,如图6所示,该系统包括:
客户端61,用于获取用户收藏的至少一个网址信息;将获取的至少一个网址信息发送至服务端62;接收所述服务端62发送的日历事件;并在所述日历事件到达约定时间时生成提示信息;所述提示信息用于提示所述用户进行所述日历事件;
服务端62,用于接收客户端61发送的用户收藏的至少一个网址信息;基于所述至少一个网址信息,爬取所述至少一个网址信息对应的发布内容;对爬取的发布内容进行语义分析,生成日历事件;以及将生成的日历事件发送给所述客户端61。
需要说明的是:所述客户端61和服务端62的具体处理过程已在上文详述,这里不再赘述。
本发明实施例提供的方案,客户端获取用户收藏的至少一个网址信息;将获取的至少一个网址信息发送至服务端;所述服务端接收客户端发送的用户收藏的至少一个网址信息;基于所述至少一个网址信息,爬取所述至少一个网址信息对应的发布内容;对爬取的发布内容进行语义分析,生成日历事件;将生成的日历事件发送给所述客户端;所述客户端接收到的日历事件后,在所述日历事件到达约定时间时生成提示信息;所述提示信息用于提示所述用户进行所述日历事件,通过对用户收藏的网址进行语义分析得到日历事件,如此,实现了自动新建日历事件,提高了处理效率,提升了用户体验。
另外,所述服务端利用得到的词语,基于聚类算法,确定所述日历事件的分类,并将所述用户订阅的分类下的日历事件发送给所述客户端,如此,能根据用户需要向用户推送日历事件,如此,进一步提升了用户体验。
实施例三
在实施例一、二的基础上,本实施例详细描述如何进行日历事件的生成以及推送。
图7为事件估计系统的整体框架示意图。如图7所示,真个系统包括客户端及服务端。其中,
一、对于客户端,可以是Android客户端、IOS客户端、Web客户端等,客户端能够与服务端进行交互,并提供以下两个方面的功能:
(1)日历的使用功能
1、日历的日、周、月浏览模式,新建、管理日历。
2、能够在某一日历内增加、删除、修改、查询、拷贝、粘贴事件等。
3、能够在事件到达约定的时间进行事件提醒功能,并引导用户对事件进行管理,包括:事件进行中、推迟还是完成的管理操作。
4、能够完成服务端事件推送的提示功能,以及日历事件建立功能。
(2)负责收藏、管理用户感兴趣的网址以及订阅相关分类
1、负责收藏用户感兴趣的网址信息,或者收藏用户分享过来的链接网址;并在获取到用户感兴趣的网址信息后,向服务端发送收藏请求,以添加到后台用户的收藏夹内,即添加到位于服务端的用户的收藏夹。
2、允许用户对自身收藏的网址进行增加、删除、修改、查询等管理操作,并能够与后台用户的收藏夹同步。
3、用户收藏的网址形成的日历事件可能会过多,需要对其进行分类管理,允许用户只订阅其中一部分或一个子分类,并通知给服务端,以便服务端根据用户的分类推送日历事件。
二、对于服务端,包括:事件生成、订阅与提醒模块、语义分析模块及内容提取模块。同时,还有数据支持模块。
1、数据支持模块包括:数据库、分布式计算模块及分布式存储模块。其中,
数据库存储了整个系统用到的关系型数据,比如:后台(服务端)爬取数据的历史纪录、用户认证信息、用户订阅网址、用户订阅管理等。
分布式存储模块存储了整个系统的分布式运算所需的基础数据,这些数据主要是海量的非结构化数据,比如:语义分析模块所需要的大量基础数据以及训练数据。其中,所述基础数据是指爬取到的各网址的数据;所述训练数据是指:根据大量基础数据筛选出的训练数据,包括:关键词树(字典树)以及训练得到的事件模型等。
分布式计算模块主要为每一用户的收藏地址进行语义分析,负责语义分析模块所需的大量算法的分布式计算,比如分词、聚类、无监督算法等等。
内容提取模块,
2、内容提取模块
主要有地址收集、地址管理及地址爬取功能;其中,
地址收集功能是指:处理来自客户端的地址收藏请求。将客户端的收藏请求根据用户的账号,存放在数据库内,并建立索引。
地址管理功能是指:处理来自客户端的地址的增加、删除、修改等请求;根据这些请求修改数据库的存储内容,并更新。
地址爬取:根据网站发布消息的频率,动态地爬取网站的消息。其中,通过爬取网站地址的消息、解析,得到消息的发布频率,根据消息的发布频率设定该网站的爬取频率。
举个例子来说,假设网址为:http://news.smzdm.com/xinpin。通过爬取网站地址的消息,得到如图8所示的消息内容;通过解析消息,两个消息对应的发布时间分别为02月27日18:30及02月27日20:29,通过消息的发布时间可以得到消息的发布频率为2小时,因此可以设定该网站的爬取频率为1小时,即每个1小时爬取该网站的发布内容。
3、语义分析模块
主要有离线采集、提取摘要、事件提取以及事件分类功能;其中,
1、离线采集功能是指:利用存储在数据库中的基础数据(内容提取模块爬取的大量网站的消息),形成字典树,并训练得到各种事件模型。
具体地,(1)根据数据的类别,分别积累包含时间、位置、专有名词、数量、动作的字典树。字典树采用树结构的方式,方便数据的增删改查,根据数据的不同形式采用不同的组织方式。
其中,对于时间树,其根节点为空,根节点的每个子节点仅包含一个月份节点,共12个月子节点,每个月子节点下面包含各自的30天或31天日期子节点,这样从根节点到某一个终止子节点所经过的路径连接起来就是对应的时间。
对于位置树,其根节点为空,根节点的每个子节点仅包含一个国家节点,共229个国家子节点,每个国家子节点,按照其行政区划,下设对应子节点,比如中国共有31个省子节点,以此类推,直至到具体的门牌号码,这样从根节点到某一个终止子节点所经过的路径连接起来就是对应的位置信息。
对于数量树,根节点为空,根节点的每个子节点仅包含10个数字子节点,从0到9,每个数字子节点的子节点以10*n~10*n+9为子节点,n表示上一层的子节点,比如,1的子节点为10到19,以此类推,这样从根节点到某一个终止子节点所经过的路径连接起来就是对应的数量。
对于专有名词树,根节点为空,根节点的每个子节点为一个英文字符,从a到z,每个英文字符子节点的子节点也是从a到z的英文字符子节点,以此类推,这样从根节点到某一个终止节点所经过的路径连接起来就是对应的单词或汉语拼音(可转化为汉字),以形成某个名词。
对于动作树,与专有名词树是相同的,其根节点为空,根节点的每个子节点为一个英文字符,从a到z,每个英文字符子节点的子节点也是从a到z的英文字符子节点,以此类推,这样从根节点到某一个终止节点所经过的路径连接起来就是对应的单词或汉语拼音(可转化为汉字),以形成某个表示动作的动词。
(2)通过离线分析其词性,并标注,得到所有日历事件的语义规则,即训练得到各种事件模型,如:“时间成分+主语+谓语+位置成分+数量成分”或“时间成分+主语+谓语”,“主语+谓语+时间成分”等等。对得到事件模型排序,并存储至数据库。
2、提取摘要功能是指:爬取用户收藏的至少一个网址信息对应的发布内容后,先对爬取的发布内容进行解析,到文本内容,基于文本内容提取出摘要;
具体地,由于网站地址的消息或新闻都比较长,如果直接进行分词等处理,一方面会加大数据运算的复杂度,增加后续数据分析的时间和空间的难度,另一方面会将许多不相干的信息引入,增加不必要的干扰。
所以,首先,对首先需要对文本内容进行分词处理;
这里,分词处理的目的是将一段文字的所有句子切分为一个个词语。
然后,统计每一个词语使用的次数,同时确定每个词语的权重值;
这里,所述每个词语的权重值体现每个语词的“重要性”权重。
最常见的词语(“的”、“是”、“来”等)给予最小的权重值,剔除这些最常见的词语外的其它每个词语,与数据库中的多棵树(时间树、地点树、数量树等进行查找操作),根据匹配的程度及树节点的深度,赋予每个词语不同的权重值,具体来说,匹配的程度越高、树节点的深度越浅,词语的权重值就越大。相反,匹配的程度越低、树节点的深度越深,词语的权重值就越小。对于图8所示的例子,词语—“Kobe”、“篮球鞋”、“3月19日”、“在线商城”)给予较大的权重值;
接着,将确定的使用次数及对应的权重值两者相乘,即将两者求积,得到每个词语的排序参考值;
再接着,按降序排列各排序参考值,取排在最前面的几个词,得到对应的关键词;
对于上述列子,就可以得到本网页的主题是关于“Kobe篮球鞋”的。
最后,将网页的文本内容分成一个个句子,选择关键词首先出现的句子,将选中的句子按照出现顺序,组成摘要。
以http://news.smzdm.com/p/25407为例,消息的正文是:
自从Kobe 5开始采用黑黄配色来向一代功夫巨星李小龙致敬后,每一代的Kobe篮球鞋都会推出这个配色。Kobe 11也不例外,今年的Kobe 11Elite Low“Bruce Lee”将于3月19日正式在NIKE美国在线商城发售,发售价格为200美元(约合1300元)。
Kobe 11Elite Low“Bruce Lee”采用了黄黑配色,从足弓开始黑黄相间过度。鞋底和Swoosh标志均为黑色。鞋舌上印有科比的个人Logo。最有新意的地方在于,后鞋跟象征着科比跟腱缝线的4条红色横纹,被改为李小龙标志性的四道血色抓痕,完美的融合了科比与李小龙的主题。
Kobe XI Elite Low的鞋面采用Flyknit和Flywire技术,轻盈透气,与透明的TPU织线串联,并与整个外底一体化设计,保证了出色的脚感和包裹性、支撑性。从第6代Kobe开始的Lunarlon泡棉鞋垫是这双鞋的一大亮点,与其他品牌的球鞋不同,NIKE直接将缓震系统搬到了可拆卸的鞋垫上了,前掌有六角形切割纹路,后掌置入Zoom Air气垫,缓震性和灵活性都很出色。耐磨橡胶外底采用微型抓地纹路,抓地力和耐磨性不错。
经提取后的摘要为:
自从Kobe 5开始采用黑黄配色来向一代功夫巨星李小龙致敬后,每一代的Kobe篮球鞋都会推出这个配色。Kobe 11也不例外,今年的Kobe 11Elite Low“Bruce Lee”将于3月19日正式在NIKE美国在线商城发售,发售价格为200美元(约合1300元)。耐磨橡胶外底采用微型抓地纹路,抓地力和耐磨性不错。
3、事件提取功能是指:利用提取的摘要,生成日历事件
具体地,首先,将提取的摘要进行分句处理,将整个段落分为一句句的,形成多个语句;
其次,为每个语句进行分词并标注对应的词性;
第三,对于每个语句,分别与数据库中的事件模型进行匹配。
具体地,从每句的第一个分词的词性开始和事件模型T的第一个词性进行比较,若相等,则继续比较两者的后续词性;若不相等,则从第二个分词开始和事件模式T的第一个词性进行比较,重复上述过程,若事件模型T中的词性全部比较完毕,则说明匹配成功;若每句的所有词性全部比较完毕,说明匹配失败。
其中,实际应用时,可能会同时存在多个匹配的情况,此时需要根据网页主题进行筛选。
对于上述例子,匹配的事件模型可以是:“时间成分+主语+谓语+位置成分+数量成分”,对应的结果如下:
Kobe 11Elite Low“Bruce Lee”于3月19日在NIKE美国在线商城发售,200美元(1300元)。
4、事件分类功能是指:根据分词的结果,对提取出来的词语进行归类,以便对日历事件进行分类。
具体地,使用词频、单词权重,单词熵、以及提取的实体等作为特征向量,利用分布式存储模块存储的聚类算法进行聚类,并计算所有消息的相似度,将相似的消息归为一类,不断重复这一过程直到达到收敛条件,这样通过聚类将所有的日历事件划分为科技、体育、教育、财经、购物、房产、游戏等类似的事件。
4、事件生成、订阅与提醒模块
主要有日历事件生成、事件订阅与提醒功能;其中,
(1)日历事件生成功能是指:利用语义分析模块提取的事件主题、事件
将语义分析的提取的事件标题,事件的时间,地点,并将语义分析模块的摘要作为事件的备注,形成新的日历事件,并根据语义分析模块得到的事件分类,添加到相应的分类中。
(2)事件订阅与提醒模块是指:根据用户订阅的分类,定时向客户端推送相关的日历事件。
从上面的描述中可以看出,本实施例内容提取模块的功能相当于实施例二中内容提取单元的功能;本实施例语义分析模块的功能及事件生成、订阅与提醒模块的日历事件生成功能相当于实施例二中语义分析单元的功能。
从上面的描述可以得出,采用本发明实施例的方案,通过对用户收藏的网址进行语义分析得到日历事件,可以是实现自动新建日历事件,提高了处理效率,对于用户来说,更加方便、快捷、智能,提升了用户体验。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (20)

1.一种信息处理方法,其特征在于,应用于客户端,所述方法包括:
获取用户收藏的至少一个网址信息;
将获取的至少一个网址信息发送至服务端;
接收所述服务端发送的日历事件;所述日历事件为依据所述至少一个网址信息生成的日历事件;
在所述日历事件到达约定时间时生成提示信息;所述提示信息用于提示所述用户进行所述日历事件。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收所述用户的第一操作;所述第一操作是对所述日历事件的管理操作;
响应所述第一操作,对所述日历事件进行管理操作。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收所述用户的第二操作;所述第二操作是对收藏的至少一个网址信息的管理操作;
响应所述第二操作,对所述至少一个网址信息进行管理操作;
并当所述至少一个网址信息更新时,向所述服务端发送更新后的至少一个网址信息。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收所述用户的第三操作;所述第三操作为订阅操作;
响应所述第三操作,确定所述用户订阅的日历事件的分类;
将所述分类发送给所述服务端。
5.一种信息处理方法,其特征在于,应用于服务端,所述方法包括:
接收客户端发送的用户收藏的至少一个网址信息;
基于所述至少一个网址信息,爬取所述至少一个网址信息对应的发布内容;
对爬取的发布内容进行语义分析,生成日历事件;
将生成的日历事件发送给所述客户端。
6.根据权利要求5所述的方法,其特征在于,所述对爬取的发布内容进行语义分析,生成日历事件,包括:
对爬取的发布内容进行解析,得到文本内容;
利用文本内容,提取出摘要;
对提取出的摘要进行分句处理,得到至少一个语句;
利用训练得到的至少一个事件模型对得到的至少一个语句进行匹配,生成日历事件。
7.根据权利要求6所述的方法,其特征在于,所述利用文本内容,提取出摘要,包括:
对所述文本内容进行分词处理,得到至少一个词语;
确定所述至少一个词语中每个词语的使用次数,并通过利用数据库中的至少一个关键词树对所述至少一个词语的查找,确定所述至少一个词语中每个词语的权重值;
利用确定的使用次数及对应的权重值,得到每个词语的排序参考值;
利用每个词语的排序参考值,对至少一个词语按照降序排列,得到所述文本内容对应的至少一个关键词;
所述文本内容进行分句处理,从分句后的所述文本内容中选择与所述至少一个关键词对应的语句,并按照在所述文本内容中出现的顺序,组成所述摘要;
其中,所述关键词数包括以下至少之一:时间树、位置树、数量树、专有名词树、动作树。
8.根据权利要求6所述的方法,其特征在于,所述利用训练得到的至少一个事件模型对得到的至少一个语句进行匹配,生成日历事件,包括:
为每个语句进行分词并标注对应的词性;
利用每个语句的每个词语的词性依次与所述至少一个事件模型中第N个事件模型中的各词性进行匹配;N为大于等于1的整数;
相应地,当匹配成功时,利用匹配成功的事件模型,生成日历事件。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
当匹配成功的事件模型为至少两个时,利用得到的网站的主题,确定生成日历事件所采用的事件模型。
10.根据权利要求8所述的方法,其特征在于,所述方法还包括:
接收所述客户端发送的所述用户订阅的分类;
相应地,将所述用户订阅的分类下的日历事件发送给所述客户端。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
利用得到的词语,基于聚类算法,确定所述日历事件的分类。
12.根据权利要求5所述的方法,其特征在于,所述基于所述至少一个网址信息,爬取所述至少一个网址信息对应的发布内容,为:
对爬取的发布内容进行解析,得到消息的发布频率;
利用消息的发布频率,确定对应网站的爬取频率;
利用确定的爬取频率,定时爬取对应网站的发布内容。
13.根据权利要求5所述的方法,其特征在于,所述方法还包括:
接收所述客户端发送的更新后的至少一个网址信息;
相应地,利用更新后的至少一个网址信息,爬取对应的发布内容,生成新日历事件,并将生成的新日历事件发送给所述客户端。
14.一种客户端,其特征在于,所述客户端包括:
获取单元,用于获取用户收藏的至少一个网址信息;
第一发送单元,用于将获取的至少一个网址信息发送至服务端;
第一接收单元,用于接收所述服务端发送的日历事件;所述日历事件为依据所述至少一个网址信息生成的日历事件;
提示单元,用于在所述日历事件到达约定时间时生成提示信息;所述提示信息用于提示所述用户进行所述日历事件。
15.根据权利要求14所述的客户端,其特征在于,所述客户端还包括:
第二接收单元,用于接收所述用户的第一操作;所述第一操作是对所述日历事件的管理操作;
第一执行单元,用于响应所述第一操作,对所述日历事件进行管理操作。
16.根据权利要求14所述的客户端,其特征在于,所述客户端还包括:
第三接收单元,用于接收所述用户的第二操作;所述第二操作是对收藏的至少一个网址信息的管理操作;
第二执行单元,用于响应所述第二操作,对所述至少一个网址信息进行管理操作;
所述第一发送单元,还用于当所述至少一个网址信息更新时,向所述服务端发送更新后的至少一个网址信息。
17.根据权利要求14所述的客户端,其特征在于,所述客户端还包括:
第四接收单元,用于接收所述用户的第三操作;所述第三操作为订阅操作;
第三执行单元,用于响应所述第三操作,确定所述用户订阅的日历事件的分类;
所述第一发送单元,还用于将所述分类发送给所述服务端。
18.一种服务端,其特征在于,所述服务端包括:
第五接收单元,用于接收客户端发送的用户收藏的至少一个网址信息;
内容提取单元,用于基于所述至少一个网址信息,爬取所述至少一个网址信息对应的发布内容;
语义分析单元,用于对爬取的发布内容进行语义分析,生成日历事件;
第二发送单元,用于将生成的日历事件发送给所述客户端。
19.根据权利要求18所述的服务端,其特征在于,
所述第五接收单元,还用于接收所述客户端发送的更新后的至少一个网址信息;
相应地,所述内容提取单元,还用于利用更新后的至少一个网址信息,爬取对应的发布内容;
所述语义分析单元,还用于对利用更新后的至少一个网址信息爬取的发布内容进行语义分析,生成新日历事件;
所述第二发送单元,还用于将生成的新日历事件发送给所述客户端。
20.一种信息处理系统,其特征在于,所述系统包括:
客户端,用于获取用户收藏的至少一个网址信息;将获取的至少一个网址信息发送至服务端;接收所述服务端发送的日历事件;并在所述日历事件到达约定时间时生成提示信息;所述提示信息用于提示所述用户进行所述日历事件;
服务端,用于接收客户端发送的用户收藏的至少一个网址信息;基于所述至少一个网址信息,爬取所述至少一个网址信息对应的发布内容;对爬取的发布内容进行语义分析,生成日历事件;以及将生成的日历事件发送给所述客户端。
CN201610320362.8A 2016-05-13 2016-05-13 一种信息处理方法、系统及相关设备 Pending CN107368504A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610320362.8A CN107368504A (zh) 2016-05-13 2016-05-13 一种信息处理方法、系统及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610320362.8A CN107368504A (zh) 2016-05-13 2016-05-13 一种信息处理方法、系统及相关设备

Publications (1)

Publication Number Publication Date
CN107368504A true CN107368504A (zh) 2017-11-21

Family

ID=60304212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610320362.8A Pending CN107368504A (zh) 2016-05-13 2016-05-13 一种信息处理方法、系统及相关设备

Country Status (1)

Country Link
CN (1) CN107368504A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427706A (zh) * 2018-01-17 2018-08-21 链家网(北京)科技有限公司 一种信息发布方法及装置
CN110209829A (zh) * 2018-02-12 2019-09-06 百度在线网络技术(北京)有限公司 信息处理方法和装置
CN110751464A (zh) * 2019-10-24 2020-02-04 中国建设银行股份有限公司 一种信息提示方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361081A (zh) * 2014-11-13 2015-02-18 河海大学 一种基于web文档的自动摘要方法
CN104378441A (zh) * 2014-11-25 2015-02-25 小米科技有限责任公司 日程创建方法和装置
CN104463552A (zh) * 2013-09-22 2015-03-25 中国电信股份有限公司 日历提醒生成方法和装置
CN104899724A (zh) * 2015-06-29 2015-09-09 北京金山安全软件有限公司 一种生成事项提醒的方法及装置
CN104917900A (zh) * 2015-06-24 2015-09-16 上海海漾软件技术有限公司 基于移动终端的提醒事项的生成方法及其装置、终端设备
EP2936299A2 (en) * 2012-12-24 2015-10-28 Microsoft Technology Licensing, LLC Discreetly displaying contextually relevant information

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2936299A2 (en) * 2012-12-24 2015-10-28 Microsoft Technology Licensing, LLC Discreetly displaying contextually relevant information
CN104463552A (zh) * 2013-09-22 2015-03-25 中国电信股份有限公司 日历提醒生成方法和装置
CN104361081A (zh) * 2014-11-13 2015-02-18 河海大学 一种基于web文档的自动摘要方法
CN104378441A (zh) * 2014-11-25 2015-02-25 小米科技有限责任公司 日程创建方法和装置
CN104917900A (zh) * 2015-06-24 2015-09-16 上海海漾软件技术有限公司 基于移动终端的提醒事项的生成方法及其装置、终端设备
CN104899724A (zh) * 2015-06-29 2015-09-09 北京金山安全软件有限公司 一种生成事项提醒的方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427706A (zh) * 2018-01-17 2018-08-21 链家网(北京)科技有限公司 一种信息发布方法及装置
CN110209829A (zh) * 2018-02-12 2019-09-06 百度在线网络技术(北京)有限公司 信息处理方法和装置
CN110209829B (zh) * 2018-02-12 2021-06-29 百度在线网络技术(北京)有限公司 信息处理方法和装置
CN110751464A (zh) * 2019-10-24 2020-02-04 中国建设银行股份有限公司 一种信息提示方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
WO2018036555A1 (zh) 会话处理方法及装置
CN104854583B (zh) 搜索结果排名和呈现
US20240004934A1 (en) Multi-modal virtual experiences of distributed content
CN105068661B (zh) 基于人工智能的人机交互方法和系统
US20190108282A1 (en) Parsing and Classifying Search Queries on Online Social Networks
CN104412265B (zh) 更新用于促进应用搜索的搜索索引
JP6163607B2 (ja) イベント知識データベースの構築方法および装置
US20190108228A1 (en) Translating Search Queries on Online Social Networks
CN108984650B (zh) 计算机可读记录介质及计算机设备
AU2017204239A1 (en) Filtering suggested queries on online social networks
US11907322B2 (en) Generating app or web pages via extracting interest from images
CN102760128A (zh) 一种基于智能客服机器人交互的电信领域套餐推荐方法
CN107977928A (zh) 表情生成方法、装置、终端及存储介质
WO2016192309A1 (zh) 推送信息的处理方法、装置、设备及非易失性计算机存储介质
CN110019647A (zh) 一种关键词搜索方法、装置和搜索引擎
CN105760521A (zh) 信息输入方法和装置
US20160224999A1 (en) Recommending common website features
CN105786880A (zh) 语音识别的方法、客户端及终端设备
WO2014127673A1 (en) Method and apparatus for acquiring hot topics
CN106708802A (zh) 一种信息推荐的方法及系统
CN102999507A (zh) 网络微博名人信息的推荐处理方法和装置
CN104199938B (zh) 基于rss的农用土地信息发送方法和系统
CN104281565B (zh) 语义词典构建方法和装置
CN108363725A (zh) 一种用户评论观点提取和观点标签生成的方法
CN101820475A (zh) 基于智能语义理解的手机彩信生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171121