CN105589871B

CN105589871B - 资讯处理方法和装置

Info

Publication number: CN105589871B
Application number: CN201410568403.6A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2014-10-22
Filing date: 2014-10-22
Publication date: 2020-04-07
Anticipated expiration: 2034-10-22
Also published as: CN105589871A

Abstract

本发明公开了一种资讯处理方法和装置。其中，资讯处理方法包括：获取预设应用类对应的资讯；从获取的资讯的内容中提取第一特征信息；将第一特征信息与预先建立的映射表中的第二特征信息进行匹配，得到匹配结果；根据匹配结果确定与目标应用匹配的第一特征信息；从预设应用类对应的资讯中获取与目标应用的特征信息匹配的第一特征信息对应的资讯；将获取的与目标应用的特征信息匹配的第一特征信息对应的资讯推送给目标应用。通过本发明，解决了现有技术中应用侧资讯获取的时效性低的问题，达到了提高应用侧资讯获取的时效性的效果。

Description

资讯处理方法和装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种资讯处理方法和装置。

背景技术

资讯是指用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息，资讯具有时效性和地域性。及时地获取到对自己有价值的资讯，能够对工作或者生活带来改变。随着计算机以及通信技术的发展，用户通常会利用终端例如电脑、手机等设备来获取资讯。以游戏类应用的资讯为例，现有手机分发应用(比如应用宝)内往往有游戏应用的推荐频道，为了提升该频道的用户转换率，开发者通常会提供一些游戏类app的资讯订阅功能。

目前，对于某一类型应用的资讯订阅功能通常采用以下方案为用户提供资讯：一种是通过人工编辑运营高下载量大的热门应用的资讯；一种是定期地从搜索系统中搜索该类型应用的资讯，将获得的资讯内容展示给用户。

然而，无论是人工编辑资讯还是通过搜索系统来批量获取资讯，由于人工编辑需要大量的时间，通过搜索系统获取的资讯难以确保资讯为最新的资讯，这样，上述方案均无法保证资讯的时效性，导致应用侧获取资讯的时效性低。

针对现有技术中应用侧获取资讯的时效性低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种资讯处理方法和装置，以解决现有技术中获取资讯的时效性低的技术问题。

根据本发明实施例的一个方面，提供了一种资讯处理方法，包括：获取预设应用类对应的资讯，所述预设应用类包括多个属于同一类型的应用；从获取的资讯的内容中提取第一特征信息；将所述第一特征信息与预先建立的映射表中的第二特征信息进行匹配，得到匹配结果，其中，所述第二特征信息为从所述多个属于同一类型的应用提取的特征信息，所述映射表用于反映所述多个属于同一类型的应用与所述第二特征信息之间的映射关系；根据所述匹配结果确定与目标应用匹配的第一特征信息，所述目标应用为所述多个属于所述同一类型的应用中的一个或者多个应用；从所述预设应用类对应的资讯中获取与所述目标应用的特征信息匹配的第一特征信息对应的资讯；以及将获取的与所述目标应用的特征信息匹配的第一特征信息对应的资讯推送给所述目标应用。

根据本发明实施例的另一方面，还提供了一种资讯处理装置，包括：第一获取单元，用于获取预设应用类对应的资讯，所述预设应用类包括多个属于同一类型的应用；第一提取单元，用于从获取的资讯的内容中提取第一特征信息；匹配单元，用于将所述第一特征信息与预先建立的映射表中的第二特征信息进行匹配，得到匹配结果，其中，所述第二特征信息为从所述多个属于同一类型的应用提取的特征信息，所述映射表用于反映所述多个属于同一类型的应用与所述第二特征信息之间的映射关系；第一确定单元，用于根据所述匹配结果确定与目标应用匹配的第一特征信息，所述目标应用为所述多个属于所述同一类型的应用中的一个或者多个应用；第二获取单元，用于从所述预设应用类对应的资讯中获取与所述目标应用的特征信息匹配的第一特征信息对应的资讯；以及推送单元，用于将获取的与所述目标应用的特征信息匹配的第一特征信息对应的资讯推送给所述目标应用。

根据本发明实施例，通过获取预设应用类对应的资讯，并从获取的资讯的内容中提取第一特征信息，再将第一特征信息与预先建立的映射表中的第二特征信息进行匹配，得到匹配结果，然后根据匹配结果确定与目标应用匹配的第一特征信息，从预设应用类对应的资讯中获取与目标应用的特征信息匹配的第一特征信息对应的资讯，将获取的与目标应用的特征信息匹配的第一特征信息对应的资讯推送给目标应用，从而实现从资讯查找应用，然后可以将资讯实时推动给应用，避免了现有技术中由于搜索资讯影响资讯的时效性的情况，解决了现有技术中应用侧资讯获取的时效性低的问题，达到了提高应用侧资讯获取的时效性的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种硬件环境的示意图；

图2是根据本发明实施例的资讯处理方法的流程图；

图3是根据本发明实施例的订阅系统的示意图；

图4是根据本发明实施例的资讯处理装置的示意图；以及

图5是根据本发明实施例的一种服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种资讯处理方法。

可选地，在本实施例中，上述资讯处理方法可以应用于如图1所示的一个或者多个服务器102和一个或者多个终端101所构成的硬件环境中。如图1所示，服务器102通过网络与终端101进行连接，上述网络包括但不限于：广域网、城域网或局域网，终端101并不限定于PC、手机、平板电脑等。本发明实施例的资讯处理方法可以由服务器102来执行。

如图2所示，该资讯处理方法包括：

步骤S202，获取预设应用类对应的资讯，预设应用类包括多个属于同一类型的应用。

预设应用类可以是包括多个属于同一类型的一类应用，例如，游戏类应用、新闻类应用、音乐类应用、视频类应用等等，其中，每一类应用中均包括多个应用，例如游戏类应用包括多个游戏应用，新闻类应用包括多个新闻应用。应用可以是应用程序也可以是应用软件。对于该预设应用类中的应用，其发布者或者研发者会实时地发布关于这应用的资讯，例如游戏类应用，其发布者会在其网站上发布关于某个游戏应用的攻略等。

具体地，可以是服务器102从预设应用类中应用的网站上获取资讯，然后进行后续的处理，获取的资讯可以是获取的当前一段时间发布的资讯，例如24小时，保证了实时性。

步骤S204，从获取的资讯的内容中提取第一特征信息。

在获取到预设应用类对应的资讯后，从该资讯的内容中提取特征信息，得到第一特征信息，该第一特征信息为用于表示获取的资讯的内容的信息。可以是从资讯的标题和/或正文中提取的信息，也可以是通过对标题和/或正文进行切词后得到的关键词。

步骤S206，将第一特征信息与预先建立的映射表中的第二特征信息进行匹配，得到匹配结果，其中，第二特征信息为从多个属于同一类型的应用提取的特征信息，映射表用于反映多个属于同一类型的应用与第二特征信息之间的映射关系。

在映射表上存储具有映射关系的应用的标识和第二特征信息，该第二特征信息即为应用的特征信息。第二特征信息可以是从分别从多个属于同一类型的应用(即预设应用类的应用)的相关信息中提取得到的信息，例如，从应用的名称或者其它属性信息中提取。由于应用为多个，每个应用均可以对应具有一个或者多个特征的第二特征信息，据此建立映射表。

将第一特征信息与映射表中的第二特征信息进行匹配，这样，可以确定出获取的资讯命中了哪些第二特征信息，也既是命中了哪些应用。

步骤S208，根据匹配结果确定与目标应用匹配的第一特征信息，目标应用为多个属于同一类型的应用中的一个或者多个应用。

目标应用可以是预设应用类中的一个或者多个应用，可以是从资讯中提取的第一特征信息能够命中的所有应用。从上述匹配结果中确定出命中目标应用的第一特征信息，以便于由该第一特征信息获取到与其对应的资讯。

步骤S210，从预设应用类对应的资讯中获取与目标应用的特征信息匹配的第一特征信息对应的资讯。

步骤S212，将获取的与目标应用的特征信息匹配的第一特征信息对应的资讯推送给目标应用。

在确定命中目标应用的第一特征信息之后，从之前获取的资讯中再获取与目标应用的特征信息匹配的第一特征信息对应的资讯，该资讯为与目标应用相关的资讯，然后将该资讯推送给目标应用。当目标应用为多个时，则将命中不同应用的资讯分别推送给相应的应用。

具体地，目标应用可以是安装在终端101上的应用，终端101上可以安装一个或者多个目标应用，其中，服务器102将匹配的资讯按照对应关系发送到安装有目标应用的终端101上。

本发明实施例中，通过搜集资讯，并从资讯的内容中提取特征信息，将该特征信息与映射表中应用的特征信息进行匹配，从而确定出命中目标应用的特征信息，在按照命中目标应用的特征信息将其对应资讯分别推送给目标应用。这样，实现通过资讯来确定查找词，从而快速地找出资讯对应的应用，并实时地将资讯推送给应用，既保证了是时效性，又能够提高资讯推送的准确性。

下面通过应用场景来描述本发明实施例。

表1

资讯	第一特征信息	第二特征信息	预设应用类	目标应用
					文档1	特征信息A	特征信息a	应用1	应用1
		特征信息b	应用2
					文档2	特征信息C	特征信息c	应用3	应用3
		特征信息d	应用4
					文档3	特征信息E	特征信息e	应用5	应用5
文档4	特征信息F	特征信息f	应用6	应用6

如表1所示，获取的资讯文档包括文档1、文档2、文档3和文档4，并从中提取得到第一特征信息，依次为：特征信息A、特征信息B、特征信息C和特征信息D。将提取的上述特征信息从映射表中查找，其中，映射表存储具有映射关系的应用与特征信息，其中，如表中预设应用类中的应用与第二特征信息的对应关系，其中，特征信息a至特征信息f为从应用1至应用6中依次提取的特征信息。

将从资讯中提取的特征信息A至特征信息F依次与映射表进行匹配，得到匹配结果，其中，特征信息A匹配到特征信息a，特征信息B匹配到特征信息b，特征信息C匹配到特征信息c，以及特征信息D匹配到特征信息d，也即是依次匹配到的目标应用包括：应用1、应用3、应用5和应用6。最后，将文档1推送给应用1，文档2推送给应用3，文档3推送给应用5，文档4推送给应用6，这样完成资讯的订阅功能。

优选地，在将第一特征信息与预先建立的映射表中的第二特征信息进行匹配，得到匹配结果之前，资讯处理方法还包括：提取多个属于同一类型的应用的特征信息，得到第二特征信息；根据多个属于同一类型的应用与第二特征信息的映射关系生成顺排表；以及将顺排表中的数据填入到倒排表中，将倒排表作为映射表，其中，倒排表包括与多个属于同一类型的应用与第二特征信息的倒排索引，倒排索引用于通过第二特征信息查找多个属于同一类型的应用。

具体地，可以是从应用的名称或者其他属性信息中提取关键词，然后对关键词进行切词，形成第二特征信息。映射表可以通过以下方式建立：

第一步，预处理；

预处理就是对关键词进行分词。在词数过多的时候进行一些虚词的过滤，一些标点符号的处理，回文等其他特殊情况处理。

第二步，顺排；

生成<queryid，wordid，wordidx>形式的顺排结构。在全量顺排的时候还需要按照wordid排序，统计每个wordid后面的queryid的个数。其中，wordid为应用的标识，queryid为切词后的属性值。

第三步，倒排；

将顺排表中的数据填入到倒排表中。在全量倒排的时候按照统计结果分配总内存，然后一次遍历顺排表，将所有queryid填入到倒排表中，从而形成映射表。

第二特征信息的提取主要是读取关键词，通过预处理、顺排、倒排生成<wordid，queryid>这样映射关系的倒排表，提供给下游模块来检索。

根据本发明实施例，通过建立倒排表(即映射表)，这样，可以通过应用的属性值来查找应用，为通过咨询来查找目标应用提供了基础。

优选地，在将第一特征信息与预先建立的映射表中的第二特征信息进行匹配，得到匹配结果之后，资讯处理方法还包括：根据匹配结果确定第二特征信息与预设应用类对应的资讯之间的映射关系；由第二特征信息与预设应用类对应的资讯之间的映射关系建立第二特征信息与预设应用类对应的资讯的映射结构，其中，在接收到资讯查询请求的情况下，基于映射结构查询与资讯查询请求对应的资讯。

在将所有提取的第一特征信息与预先建立的映射表中的第二特征信息进行匹配之后，确定第二特征信息与资讯之间的映射关系，形成映射结构，具体地，可以形成<queryid，docid>这样的映射结构供查询，其中，queryid表示应用的特征信息，docid为资讯文档的标识。这样，在每次匹配之后，形成上述映射结构，将资讯作为历史订阅资讯，当后续用户通过应用发送用于查询历史资讯的资讯查询请求时，可以从该历史订阅资讯中，通过上述映射结构来查找与请求对应的资讯。

优选地，获取预设应用类对应的资讯包括：以预设应用类包括的应用的名称作为查询词来查询具有预设应用类对应的资讯的网址；以及实时从网址的页面上爬取预设应用类对应的资讯。

具体地，获取资讯主要先收集发布该预设应用类对应的资讯的网址，然后从该网址对应的网站上实时爬取有关于该预设应用类的应用的资讯。

以游戏类应用的资讯收集为例，主要包括站点(即网址)收集和资讯下载：

一、游戏app资讯站点收集

将所有游戏类app的名称作为查询词来抓取搜索引擎中的新闻搜索如百度新闻(只命中标题)搜索结果的前3页，抽取这些页面中的url站点。由于这些页面中的站点存在重复的情况，因此需要对站点进行去重处理，去重后形成候选的游戏类app资讯下载站点集。

二、资讯下载及页面解析

使用爬虫系统去定时爬取上述站点集的页面，并抽取其中的标题，正文等字段形成原始资讯库。这样，就获取到了游戏类应用的资讯。

进一步地，在实时从网址的页面上爬取预设应用类对应的资讯之后，资讯处理方法还包括：对实时获取的资讯进行过滤，得到过滤后的资讯，从获取的资讯的内容中提取第一特征信息包括：按照预设规则对过滤后的资讯的标题和/或正文进行切词，得到第一特征信息。

由于资讯具有实时性和时效性，从网站上获取的资讯会存在非即时(不是当天，或者当天很早的数据)数据，有部分数据不符合要求(新闻专题页、正文太少，标题太长，URL在黒名单中等)，这些数据都需要过滤。然后对过滤后的资讯的和/或正文进行切词，得到第一特征信息。

本发明实施例中，通过对资讯进行过滤，能够提高资讯的时效性和准确性。

本发明实施例提供了一种订阅系统，用于实现本发明上述实施例的资讯处理方法。下面根据图3随本发明实施例的资讯处理方法进行详细描述。

如图3所示，该订阅系统的资讯处理主要包括：关键词处理，专项数据处理和检索查询处理，下面将以此进行描述。

一、关键词处理

关键词主要是指本发明上述实施例中的应用的特征信息处理。关键词处理需要从用户侧通过文件接口和Socket接口获取用于反映应用的属性的文件或者数据。

关键词处理主要工作是读取关键词，通过预处理、顺排、倒排生成<wordid，queryid>这样映射关系的倒排表，提供给下游模块来检索。关键词处理的过程就是生成关键词的倒排表。主要包括如下：

(1)预处理

预处理工作就是分词。在词数过多的时候进行一些虚词的过滤，一些标点符号的处理，回文等其他特殊情况处理。

(2)顺排

生成<queryid，wordid，wordidx>。在全量顺排的时候还需要按照wordid排序，统计每个wordid后面的queryid的个数

(3)倒排

将顺排表中的数据填入到倒排表中。在全量倒排的时候按照统计结果分配总内存，然后一次遍历顺排表，将所有queryid填入到倒排表中。

在业务逻辑上，全量关键词重建生成的是一个紧凑的倒排表。通过顺排，依次统计每个wordid的queryid的个数，算出所有wordid对应的queryid列表需要的内存。然后分配倒排表，将顺排数据依次填入到倒排表中(完成后，也可以进行排序)。

紧凑的倒排表结构可以节省一个后向指针的开销(64位下是8个字节)，但是一个坏处就是新增操作需要重新更新倒排表。

在做紧凑的倒排表的时候，可以重新开辟一段内存(倒排表需要的内存)来做，也可以停止后续流程来重建，建好后，在继续后续流程。

在批量(单个关键词)新增中，对这个关键词分词，得到wordid，queryid，wordidx，分配一个节点的内存，插入到非紧凑的倒排表中。

在访问低谷期(例如凌晨4-5点)，重新统计紧凑倒排表的空间，非紧凑的倒排数据合并到紧凑中去。

如果内存充裕的时候，也可以采用块分配方式：每个wordid分配的最小单位是块，在新增的时候，如果块满了，则分配一个新块，前后块通过指针相连。这样新增删除操作都不需要重整。但是没满的块浪费了内存。

二、专项数据处理

专项数据处理主要是对资讯的源数据进行处理。其中，源数据管理主要是用来接收专项数据。跟关键词类似，提供2个接口：文件接口和socket接口。文件接口使模块间耦合比较松。由于垂直下载的数据有部分非即时(不是当天，或者当天很早的数据)，有部分数据不符合要求(新闻专题页、正文太少，标题太长，URL在黑名单中等)，这些数据都需要过滤。

在源数据规模很大的时候，可以还要分机器、分盘存放。

如果垂直提供索引源数据，还需要将正文数据和索引数据关联。

如果是从SMU来取数据，可以同时得到正文数据和索引数据。

源数据处理主要工作就是将每篇符合要求文档的正文数据(包括标题)分词，将分出的词依次遍历wordid倒排，从而判定该篇文档是否命中query，如果命中，将<queryid，docid>写入临时内存，当所有文档处理完成时，将临时内存的数据生成更新的关键词列表文件，并将数据合并到24小时内存索引中。

具体处理流程如下：

(1)文档预处理

a取到url字段，计算docid(8个字节)，取出时间字段(4个字节)

b取到文档中附加的Rank值(如果不是文档中，其他文件提供的，则放在后面来做)

c网页排重，此处可以考虑搭建一个简单的排重系统来完成。

d标题和正文分词，计算worid

(2)命中检查

a通过wordid，计算hash值，找到相应的桶号，取出指针，找到<wordid，offset>的pair

b通过pair取出offset，找到qid倒排表的首地址。

c取出命中的query个数，依次取qid。

d将qid拆成idx和lqid。

e通过下标找到bitmap数组，通过idx将相应的bit置1，记住每个访问过的bitmap下标(为了表示每个文档在query中的标题和正文的命中情况，分别用tbitmap和cbitmap来表示)。

f检查query的词的个数和bitmap中1的个数是否匹配，如果匹配，命中bit置1(如果只算命中，记录<queryid,docid>和命中信息)。

g如果idx为0，则连续命中置1(全部命中置1，也可以不通过这个来解决完全命中)。

h如果idx不为1，而且0-4bit存的值idx_tmp，不满足idx_tmp+1＝idx，则连续命中置0，如果满足，检查命中bit是否为1(如果不计算完全命中，记录<queryid,docid>和连续命中信息)。

I将idx存在0-4bit上。

j返回c继续处理。

k返回a继续处理。

l将所有访问过的bitmap下标对应的bitmap清0。

m终止。

(3)插入到临时内存

为每个命中的pair分配内存。内存有2部分：

query相关的内存：<queryid,docid，query_relate_info>

所有docid都以一个链表的方式串起来。每个docid需要保存一些和query相关的信息，命中信息，摘要信息等。由于这块的内存是跟pair相关，所以有可能摘要内存消耗过大，可以放在另外的服务器来存放。检索的时候通过TCP来取摘要信息。

docid相关的内存：<docid,docid_relate_info>

docid的相关性信息包括docid的dr信息、质量因子等。

(4)离线相关性数据

离线相关性排序：可以通过命中信息、IDF、SDR可以对DOCID进行一些离线相关性排序。

调用摘要生成模块生成查询相关的离线摘要信息。

(5)索引合并

此步比较简单，就是将临时内存的数据合并到24小时的数据中(直接将一个链表插入到另一个链表中)

(6)生成更新名单

将临时内存里面的queryid转成字符串(或者直接发送queryid)，并将queryid命中的文档数目保存下来。

三、检索查询

图3所示的检索模块主要是响应用户的关键词检索需求CGI(响应用户历史订阅查询)，从24小时内存索引中找出符合条件的(时间要求、条目要求等)结果，然后进行在线相关性计算(时间排序等)发送给请求端。

检索模块逻辑实际上比较简单，简单描述如下：

1、解析请求包，找出请求的query，条件要求(时间、条目)等。

2、通过query进行md5运算出queryid，通过映射表找到lqid。

3、取出lqid对应的docid列表(包括相关性信息)。

4、取出docid的离线摘要信息。

5、对docid进行相关性排序。

6、返回结果。

推送模块则用于将资讯推送给用户。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述资讯处理方法的资讯处理装置。

可选地，在本实施例中，上述资讯处理装置可以应用于如图1所示的一个或者多个服务器102和一个或者多个终端101所构成的硬件环境中。如图1所示，服务器102通过网络与终端101进行连接，上述网络包括但不限于：广域网、城域网或局域网，终端101并不限定于PC、手机、平板电脑等。本发明实施例的资讯处理装置可以由服务器102来实现。

如图4所示，本发明实施例的资讯处理装置包括：第一获取单元10、第一提取单元20、匹配单元30、第一确定单元40、第二获取单元50和推送单元60。

第一获取单元10用于获取预设应用类对应的资讯，预设应用类包括多个属于同一类型的应用。

第一提取单元20用于从获取的资讯的内容中提取第一特征信息。

匹配单元30用于将第一特征信息与预先建立的映射表中的第二特征信息进行匹配，得到匹配结果，其中，第二特征信息为从多个属于同一类型的应用提取的特征信息，映射表用于反映多个属于同一类型的应用与第二特征信息之间的映射关系。

第一确定单元40用于根据匹配结果确定与目标应用匹配的第一特征信息，目标应用为多个属于同一类型的应用中的一个或者多个应用。

第二获取单元50用于从预设应用类对应的资讯中获取与目标应用的特征信息匹配的第一特征信息对应的资讯。

推送单元60用于将获取的与目标应用的特征信息匹配的第一特征信息对应的资讯推送给目标应用。

根据本发明实施例，通过第一获取单元来获取预设应用类对应的资讯，第一提取单元从获取的资讯的内容中提取第一特征信息，匹配单元将第一特征信息与预先建立的映射表中的第二特征信息进行匹配，得到匹配结果，第一确定单元根据匹配结果确定与目标应用匹配的第一特征信息，第二获取单元从预设应用类对应的资讯中获取与目标应用的特征信息匹配的第一特征信息对应的资讯，推动单元将获取的与目标应用的特征信息匹配的第一特征信息对应的资讯推送给目标应用，从而实现从资讯查找应用，然后可以将资讯实时推动给应用，避免了现有技术中由于搜索资讯影响资讯的时效性的情况，解决了现有技术中应用侧资讯获取的时效性低的问题，达到了提高应用侧资讯获取的时效性的效果。

优选地，资讯处理装置还包括：第二提取单元，用于在将第一特征信息与预先建立的映射表中的第二特征信息进行匹配，得到匹配结果之前，提取多个属于同一类型的应用的特征信息，得到第二特征信息；生成单元，用于根据多个属于同一类型的应用与第二特征信息的映射关系生成顺排表；以及填入单元，用于将顺排表中的数据填入到倒排表中，将倒排表作为映射表，其中，倒排表包括与多个属于同一类型的应用与第二特征信息的倒排索引，倒排索引用于通过第二特征信息查找多个属于同一类型的应用。

预处理；预处理就是对关键词进行分词。在词数过多的时候进行一些虚词的过滤，一些标点符号的处理，回文等其他特殊情况处理。

顺排；生成<queryid，wordid，wordidx>形式的顺排结构。在全量顺排的时候还需要按照wordid排序，统计每个wordid后面的queryid的个数。其中，wordid为应用的标识，queryid为切词后的属性值。

倒排；将顺排表中的数据填入到倒排表中。在全量倒排的时候按照统计结果分配总内存，然后一次遍历顺排表，将所有queryid填入到倒排表中，从而形成映射表。

优选地，资讯处理装置还包括：第二确定单元，用于在将第一特征信息与预先建立的映射表中的第二特征信息进行匹配，得到匹配结果之后，根据匹配结果确定第二特征信息与预设应用类对应的资讯之间的映射关系；建立单元，用于由第二特征信息与预设应用类对应的资讯之间的映射关系建立第二特征信息与预设应用类对应的资讯的映射结构，其中，在接收到资讯查询请求的情况下，基于映射结构查询与资讯查询请求对应的资讯。

优选地，第一获取单元包括：查询模块，用于以预设应用类包括的应用的名称作为查询词来查询具有预设应用类对应的资讯的网址；以及爬取模块，用于实时从网址的页面上爬取预设应用类对应的资讯。

一、游戏app资讯站点收集

二、资讯下载及页面解析

进一步地，第一获取单元还包括：过滤模块，用于在实时从网址的页面上爬取预设应用类对应的资讯之后，对实时获取的资讯进行过滤，得到过滤后的资讯，第一提取单元包括：切词模块，用于按照预设规则对过滤后的资讯的标题和/或正文进行切词，得到第一特征信息。

由于资讯具有实时性和时效性，从网站上获取的资讯会存在非即时(不是当天，或者当天很早的数据)数据，有部分数据不符合要求(新闻专题页、正文太少，标题太长，URL在黑名单中等)，这些数据都需要过滤。然后对过滤后的资讯的和/或正文进行切词，得到第一特征信息。

实施例3

根据本发明实施例，还提供了一种用于实施上述资讯处理方法的服务器，如图5所示，该服务器包括：处理器501、传输装置502、存储器503和网络接口504。其中，处理器501可以用于执行以下步骤：

步骤S31，获取预设应用类对应的资讯，预设应用类包括多个属于同一类型的应用。

步骤S32，从获取的资讯的内容中提取第一特征信息。

步骤S33，将第一特征信息与预先建立的映射表中的第二特征信息进行匹配，得到匹配结果，其中，第二特征信息为从多个属于同一类型的应用提取的特征信息，映射表用于反映多个属于同一类型的应用与第二特征信息之间的映射关系。

步骤S34，根据匹配结果确定与目标应用匹配的第一特征信息，目标应用为多个属于同一类型的应用中的一个或者多个应用。

步骤S35，从预设应用类对应的资讯中获取与目标应用的特征信息匹配的第一特征信息对应的资讯。

步骤S36，将获取的与目标应用的特征信息匹配的第一特征信息对应的资讯推送给目标应用。

其中，传输装置502用于处理器501与存储器503之间的数据传输。存储器503可以用于存储获取到的资讯和映射表等信息，网络接口504可以用于与站点和用户终端之间的连接。

可选地，本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例，本实施例在此不再赘述。

实施例4

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行本发明实施例的资讯处理方法的程序代码。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S41，获取预设应用类对应的资讯，预设应用类包括多个属于同一类型的应用。

S42，从获取的资讯的内容中提取第一特征信息。

S43，将第一特征信息与预先建立的映射表中的第二特征信息进行匹配，得到匹配结果，其中，第二特征信息为从多个属于同一类型的应用提取的特征信息，映射表用于反映多个属于同一类型的应用与第二特征信息之间的映射关系。

S44，根据匹配结果确定与目标应用匹配的第一特征信息，目标应用为多个属于同一类型的应用中的一个或者多个应用。

S45，从预设应用类对应的资讯中获取与目标应用的特征信息匹配的第一特征信息对应的资讯。

S46，将获取的与目标应用的特征信息匹配的第一特征信息对应的资讯推送给目标应用。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：

S1，提取多个属于同一类型的应用的特征信息，得到第二特征信息；

S2，根据多个属于同一类型的应用与第二特征信息的映射关系生成顺排表；

S3，将顺排表中的数据填入到倒排表中，将倒排表作为映射表，其中，倒排表包括与多个属于同一类型的应用与第二特征信息的倒排索引，倒排索引用于通过第二特征信息查找多个属于同一类型的应用。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，在本实施例中，处理器根据存储介质中已存储的程序代码执行：根据匹配结果确定第二特征信息与预设应用类对应的资讯之间的映射关系；由第二特征信息与预设应用类对应的资讯之间的映射关系建立第二特征信息与预设应用类对应的资讯的映射结构，其中，在接收到资讯查询请求的情况下，基于映射结构查询与资讯查询请求对应的资讯。

可选地，在本实施例中，处理器根据存储介质中已存储的程序代码执行：以预设应用类包括的应用的名称作为查询词来查询具有预设应用类对应的资讯的网址；以及实时从网址的页面上爬取预设应用类对应的资讯。

可选地，在本实施例中，处理器根据存储介质中已存储的程序代码执行：对实时获取的资讯进行过滤，得到过滤后的资讯；以及按照预设规则对过滤后的资讯的标题和/或正文进行切词，得到第一特征信息。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种资讯处理方法，其特征在于，包括：

获取预设应用类对应的资讯，所述预设应用类包括多个属于同一类型的应用；

从获取的资讯的内容中提取第一特征信息；

提取所述多个属于同一类型的应用的特征信息，得到第二特征信息；

根据所述多个属于所述同一类型的应用与所述第二特征信息的映射关系生成顺排表；

将所述顺排表中的数据填入到倒排表中，将所述倒排表作为映射表，其中，所述倒排表包括与所述多个属于所述同一类型的应用与所述第二特征信息的倒排索引，所述倒排索引用于通过所述第二特征信息查找所述多个属于所述同一类型的应用；

将所述第一特征信息与预先建立的所述映射表中的第二特征信息进行匹配，得到匹配结果，其中，所述第二特征信息为从所述多个属于同一类型的应用提取的所述特征信息，所述映射表用于反映所述多个属于同一类型的应用与所述第二特征信息之间的映射关系；

根据所述匹配结果确定与目标应用匹配的第一特征信息，所述目标应用为所述多个属于所述同一类型的应用中的一个或者多个应用；

从所述预设应用类对应的资讯中获取与所述目标应用的特征信息匹配的第一特征信息对应的资讯；以及

将获取的与所述目标应用的特征信息匹配的第一特征信息对应的资讯推送给所述目标应用。

2.根据权利要求1所述的资讯处理方法，其特征在于，在将所述第一特征信息与预先建立的映射表中的第二特征信息进行匹配，得到匹配结果之后，所述资讯处理方法还包括：

根据所述匹配结果确定所述第二特征信息与所述预设应用类对应的资讯之间的映射关系；

由所述第二特征信息与所述预设应用类对应的资讯之间的映射关系建立所述第二特征信息与所述预设应用类对应的资讯的映射结构，

其中，在接收到资讯查询请求的情况下，基于所述映射结构查询与所述资讯查询请求对应的资讯。

3.根据权利要求1所述的资讯处理方法，其特征在于，获取预设应用类对应的资讯包括：

以所述预设应用类包括的应用的名称作为查询词来查询具有所述预设应用类对应的资讯的网址；以及

实时从所述网址的页面上爬取所述预设应用类对应的资讯。

4.根据权利要求3所述的资讯处理方法，其特征在于，

在实时从所述网址的页面上爬取所述预设应用类对应的资讯之后，所述资讯处理方法还包括：对实时获取的资讯进行过滤，得到过滤后的资讯，

从获取的资讯的内容中提取第一特征信息包括：按照预设规则对所述过滤后的资讯的标题和/或正文进行切词，得到所述第一特征信息。

5.一种资讯处理装置，其特征在于，包括：

第一获取单元，用于获取预设应用类对应的资讯，所述预设应用类包括多个属于同一类型的应用；

第一提取单元，用于从获取的资讯的内容中提取第一特征信息；

匹配单元，用于将所述第一特征信息与预先建立的映射表中的第二特征信息进行匹配，得到匹配结果，其中，所述第二特征信息为从所述多个属于同一类型的应用提取的特征信息，所述映射表用于反映所述多个属于同一类型的应用与所述第二特征信息之间的映射关系；

第一确定单元，用于根据所述匹配结果确定与目标应用匹配的第一特征信息，所述目标应用为所述多个属于所述同一类型的应用中的一个或者多个应用；

第二获取单元，用于从所述预设应用类对应的资讯中获取与所述目标应用的特征信息匹配的第一特征信息对应的资讯；以及

推送单元，用于将获取的与所述目标应用的特征信息匹配的第一特征信息对应的资讯推送给所述目标应用；

其中，所述资讯处理装置还包括：

第二提取单元，用于在将所述第一特征信息与预先建立的映射表中的第二特征信息进行匹配，得到匹配结果之前，提取所述多个属于同一类型的应用的特征信息，得到所述第二特征信息；

生成单元，用于根据所述多个属于所述同一类型的应用与所述第二特征信息的映射关系生成顺排表；以及

填入单元，用于将所述顺排表中的数据填入到倒排表中，将所述倒排表作为所述映射表，其中，所述倒排表包括与所述多个属于所述同一类型的应用与所述第二特征信息的倒排索引，所述倒排索引用于通过所述第二特征信息查找所述多个属于所述同一类型的应用。

6.根据权利要求5所述的资讯处理装置，其特征在于，所述资讯处理装置还包括：

第二确定单元，用于在将所述第一特征信息与预先建立的映射表中的第二特征信息进行匹配，得到匹配结果之后，根据所述匹配结果确定所述第二特征信息与所述预设应用类对应的资讯之间的映射关系；

建立单元，用于由所述第二特征信息与所述预设应用类对应的资讯之间的映射关系建立所述第二特征信息与所述预设应用类对应的资讯的映射结构，

7.根据权利要求5所述的资讯处理装置，其特征在于，所述第一获取单元包括：

查询模块，用于以所述预设应用类包括的应用的名称作为查询词来查询具有所述预设应用类对应的资讯的网址；以及

爬取模块，用于实时从所述网址的页面上爬取所述预设应用类对应的资讯。

8.根据权利要求7所述的资讯处理装置，其特征在于，

所述第一获取单元还包括：过滤模块，用于在实时从所述网址的页面上爬取所述预设应用类对应的资讯之后，对实时获取的资讯进行过滤，得到过滤后的资讯，

所述第一提取单元包括：切词模块，用于按照预设规则对所述过滤后的资讯的标题和/或正文进行切词，得到所述第一特征信息。

9.一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至4任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至4任一项中所述的方法。