CN104133830A

CN104133830A - 一种数据获取方法

Info

Publication number: CN104133830A
Application number: CN201410021505.6A
Authority: CN
Inventors: 段光明
Original assignee: LeTV Information Technology Beijing Co Ltd
Current assignee: LeTV Information Technology Beijing Co Ltd
Priority date: 2013-05-02
Filing date: 2014-01-17
Publication date: 2014-11-05

Abstract

本发明涉及一种数据获取方法，所述数据获取的方法包括如下步骤：初始数据分析及分词操作，得到关键词；使用所述关键词进行搜索，得到网站的页面；对所述网站的页面进行信息爬取，根据所述网站的页面的源文件与正则表达式进行正则匹配，得到匹配结果；根据所述关键词或者与标签库进行比对，分别将所述匹配结果中的信息放置于对应的视频属性库的对应字段中去；进行数据分析，根据所述网站的页面的权重和信息重复量来进行数据计算；对于自动填写的内容进行编辑确认和加工。旨在解决将分词、内容抓取、文本数据挖掘、智能的内容糅合等几种技术的整合并且有效运用于发布流程中，实现自动获取数据，并提高数据获取准确性。

Description

一种数据获取方法

本发明请求本申请人于2013年5月2日向中国国家知识产权局提交的申请号为201310158249.0，发明名称为“一种数据获取方法”的中国发明专利申请的优先权，上述申请的全部内容以引用方式并入本文。

技术领域

本发明涉及网络通讯技术，特别是涉及一种数据获取方法。

背景技术

对于视频网站而言，对用户的主要信息表现形式为视频内容，而对于视频内容的相关属性信息大多是由视频编辑手工填写。

视频信息抓取和呈现的对象是网站用户，可以通过优化现有的比较成熟的抓取及信息提取技术进行编辑和实现视频内容相关文字信息的填写的自动化。

当前，对于文字信息的抓取和发布流程一般从主要的各大新闻网站进行爬虫爬取，把文章的标题、副标题和内容整个抓取下来，并放置于网站后台发布器中，在编辑进行再加工后，发布成新闻页面。

例如申请号为CN201110232595.X的中国发明专利，其公开了一种爬虫种子获取方法与设备及爬虫爬取方法与设备，提供了一种爬虫种子获取方法与设备及爬虫爬去方法与设备。爬虫种子获取方法包括：根据预设检索词词典和目标导航网站的URL特性，构造动态页面请求；将动态页面请求发送给目标导航网站的服务器，根据预设提取策略，从服务器根据动态网页请求返回的检索结果页面中提取目标URL，目标URL为检索结果页面中的URL的主域名地址；对目标URL进行唯一化处理，获取唯一化目标URL，将唯一化目标URL作为爬虫种子。该方案能够提供大量的离散度大的爬虫种子，从而缩短形成主流URL的时间，提高主流URL的覆盖性，降低爬虫系统进行爬取时的时间成本。

而对于视频内容的相关属性信息的获取，主要是通过两条途径：其一，通过豆瓣电影或者Mtime时光网的视频ID，利用其开放的API接口，获取视频信息，来找到对应字段进行自动填写；其二，视频编辑手动在搜索引擎中进行搜索，找到相应的信息，对应各个字段，手动填写。

又例如申请号为CN201110095563.X的中国发明专利，其公开了一种数据的获取方法和装置，包括：接收至少一个第一数据获取请求，该第一数据获取请求中携带数据选取条件；根据该数据选取条件，获取所有满足该数据选取条件的数据标识；根据该数据标识，并行获取所有与该数据标识对应的数据，返回该对应的数据，减少了现有技术中由于顺序逐一获取数据而造成的数据反馈延迟，通过并行的获取数据，提高了数据获取的效率，使得数据可以及时的反馈给使用者，提升了数据使用者的满意度。

再例如申请号为201210133394.9的中国发明专利，其公开了一种数据获取方法、系统及设备，所述方法包括：接收来自客户端的数据获取请求，所述数据获取请求包括网页地址；与网页服务器建立至少两条数据信道来并行抓取所述网页地址所对应的数据资源；将抓取到的所述数据资源推送给所述客户端。本发明通过利用代理服务器建立多条数据通道来抓取网页的数据资源，然后主动推送给客户端的方案，解决了客户端在获取网络数据时，浪费流量和响应时间较长的问题，达到了客户端仅需要发起一次数据获取请求，就可以快速获得网页的所有数据资源以显示给用户的效果。

但是，上述发明并没有将分词、内容抓取、文本数据挖掘、智能的内容糅合等几种技术的整合并且有效运用于发布流程中，无法实现自动的数据获取，而且获取的数据信息准确性较低。

发明内容

基于上述问题，本发明提供一种数据获取方法，旨在解决将分词、内容抓取、文本数据挖掘、智能的内容糅合等几种技术的整合并且有效运用于发布流程中,以实现自动化获取数据，和提高数据获取准确率。

为此，本发明采用如下的技术方案一种数据获取方法，包括：步骤1、对初始数据进行分词，获得与初始数据相关的关键词；步骤2、使用所述关键词进行搜索，得到网站的页面；步骤3、对所述网站的页面进行信息爬取，根据所述网站的页面的源文件与正则表达式进行正则匹配，得到匹配结果；步骤4、将匹配结果与所述关键词或者与包含有影片视频标签的标签库进行比对，得到各个页面的权重和信息重复量，分别将根据所述匹配结果得到的各个页面的权重和信息重复量信息放置于对应的视频属性库的对应字段中；步骤5、根据视频属性库的对应字段中的所述网站的页面的权重和信息重复量来计算网站页面的信息权重；步骤6、把符合要求的信息权重对应的页面数据进行显示。

进一步地，所述步骤1中包括：判断初始数据对应的视频内容为长视频或者短视频；其中，所述视频内容与制定的网站地图进行精准匹配，能够匹配到2条以上的信息的视频内容为长视频。

进一步地，对于所述长视频的标题去除空格和特殊符号，得到关键词。

进一步地，对于所述短视频的标题进行分词处理，得到关键词。

进一步地，所述使用所述关键词进行搜索，得到网站的页面进一步包括：通过设定权重来调整所述网站的优先权；得到的所述网站页面的信息权重值与网站的优先权成正比。

进一步地，所述权重的调整方式为人为设定，或者通过机器编辑。

进一步地，所述使用所述关键词进行搜索，得到网站的页面后还包括：通过对所述网站的页面层次进行去噪处理，去除无效页面和信息重复的页面。

进一步地，所述根据视频属性库的对应字段中的所述网站的页面的权重和信息重复量来计算网站页面的信息权重的计算公式为：信息权重=（信息重复出现次数*权重*0.01）/页面数量+tag库完全匹配次数/此次信息中总匹配成功次数。

进一步地，获得信息权重排名最高的1至5个对应信息，用于填写到不同的单选或多选或手动填写的文本框中,进行显示。

本申请还公开了一种数据获取系统，包括如下模块：

分词操作模块：用于分词操作，得到关键词；关键词搜索模块：用于使用所述关键词进行搜索，得到网站的页面；信息爬取和匹配模块：用于对所述网站的页面进行信息爬取，根据所述网站的页面的源文件与正则表达式进行正则匹配，得到匹配结果；信息分类对比模块：用于将匹配结果与所述关键词或者与包含有影片视频标签的标签库进行比对，得到各个页面的权重和信息重复量，分别将根据所述匹配结果得到的各个页面的权重和信息重复量信息放置于对应的视频属性库的对应字段中；数据分析计算模块：进行数据分析，根据视频属性库的对应字段中的所述网站的页面的权重和信息重复量来计算信息权重；显示模块，把符合要求的信息权重对应的页面数据进行显示。本发明的数据获取的方法根据视频内容的关键词进行数据抓取和数据准备，在得到抓取的数据后，对内容进行分析和抽取，根据模式筛选，将内容返回到视频的发布系统中便于自动填写，能够将分词、内容抓取、文本数据挖掘、智能的内容糅合等几种技术的整合并且有效运用于发布流程中，实现自动数据获取，并提高数据获取的有效性。

附图说明

图1为根据本发明的一种数据获取方法的优选实施例的步骤框图；

图2为根据本发明的一种数据获取装置的结构示意框图。

具体实施方式

下面结合附图和优选的实施方式对本发明作进一步详细描述。权利要求中构成要件和实施例中具体实例之间的对应关系可以如下例证。

本发明的数据获取的方法根据视频内容的关键词进行数据抓取和数据准备，在得到抓取的数据后，对内容进行分析和抽取，根据模式筛选，将内容返回到视频的发布系统中便于自动填写，实现自动数据获取，并提高数据获取的有效性。

图1为根据本发明的一种数据获取方法的优选实施例的步骤框图。

所述数据获取的方法步骤如下：步骤1、对初始数据进行分词，获得与初始数据相关的关键词；步骤2、使用所述关键词进行搜索，得到网站的页面；步骤3、对所述网站的页面进行信息爬取，根据所述网站的页面的源文件与正则表达式进行正则匹配，得到匹配结果；步骤4、将匹配结果与所述关键词或者与包含有影片视频标签的标签库进行比对，得到各个页面的权重和信息重复量，分别将根据所述匹配结果得到的各个页面的权重和信息重复量信息放置于对应的视频属性库的对应字段中；步骤5、根据视频属性库的对应字段中的所述网站的页面的权重和信息重复量来计算网站页面的信息权重；步骤6、把符合要求的信息权重对应的页面数据进行显示。

具体实施时，可以采用如图1所示的流程。首先，进行初始数据分析及分词操作。这一步骤中进行初始数据分析包括，判断其是否为电影、电视剧等长视频还是资讯类的短视频。基本的分析方法为与制定的几个影视剧站点的网站地图进行精准匹配，根据其是否能匹配到2条以上的信息来判断是否为影视剧等长视频。并辅助以标题字数判断，一般情况下，标题内容为6字以上（不含6字）的电影比例仅占6.7%。对于长视频的标题内容进行去除空格和特殊符号的处理，对于短视频的标题内容进行分词处理，得到该视频内容对应的关键词。此外,对于部分长视频的标题内容也可以进行分词处理,得到该长视频内容的关键词，例如高清版视频。在一个更为通用的实施方式中，上述初步分析与分词操作是二选一，或者二者同时具有的。

其次，使用得到的对应关键词进行搜索。在搜索的过程中，通过设定权重，来调整网站页面的优先权。对于优先权而言，得到的所述网站页面的信息权重值与网站的优先权成正比，或者成一线性变化的趋势，例如网站页面优先权越靠前的（即权重越大），得到的信息权重也越靠前。网站站点优先权越靠后的，得到的信息权重也越靠后。权重的调整可通过两种方式中任何一种或者两种来完成：一为人工调整，人为编辑将平常经常用于获取信息的网站的权重设为90以上（本领域的技术人员应当理解，该值可以根据权重设置方式以及规则来做适应性的调整），为最高一类；二为机器编辑，机器通过数据分析得到，通过从权重90以下的网站获得信息的匹配度（信息的选用率和不修改率）来逐步调整，其中，信息的选用率为编辑在手动操作阶段，对机器提供的信息进行选择，选择来自该网站的信息次数除以所有机器提供的信息，得到信息选用率；信息的不修改率为编辑在手动操作阶段，对信息选择后，可能会进行手动修改，也可能直接使用，不做变化。直接选用不修改的信息除以来自该网站的所有被选用的信息，得到不修改率。

在该步骤内，对页面层次进行去噪，去除无效页面和信息重复的页面，但信息重复的页面会被统计到信息匹配分析系统中。其中，所述信息匹配分析系统是对不可用页面、信息的选用和不修改及网站权重进行计算的一套系统，主要用于对大量数据的计算和结果的产生。

然后，对上一步骤得到的页面，进行信息爬取，根据页面的源文件和编写的正则表达式进行正则匹配，产生匹配结果。信息爬的方法包括但不限于：与初始URL在一定链接距离内的网页具有主题相关性的概率很大，则在完成当前层次的搜索后，才进行下一层次的搜索，再过滤掉无关的网页。或者，可以从起始网页开始，选择一个URL进入，分析这个网页中的URL，选择一个再进入。如此一个链接一个链接地抓取下去，直到处理完一条路线之后再处理下一条路线。匹配结果包括此次信息中总匹配成功次数，即。

然后，根据关键词或者和包含有影片视频标签的标签（Tag）库进行比对，得到各个页面的权重和信息重复量，以及标签库完全匹配次数；分别将根据所述匹配结果得到的各个页面的权重和信息重复量信息放置于对应的视频属性库的对应字段中，便于随时进行分析和计算。

然后，进行数据分析。对于获得的全部信息，根据各个页面的权重和信息重复量来进行数据计算，公式为：信息权重=（信息重复出现次数*权重*0.01）/页面数量+标签库完全匹配次数/此次信息中总匹配成功次数。获得信息权重排名最高的1至5个对应信息，用于填写不同的单选或多选或手动填写的文本框中去，进行显示。

其中，页面数量为进行信息爬取的网站页面的总数；所述信息重复出现次数为，在前述几步中，每个对应字段，会有大量信息，而来自不同网站的信息都被统计过一次，但是信息有重复现象，每出现一次重复信息，信息重复出现次数+1。比如对于《钢铁侠》的主演，小罗伯特唐尼在豆瓣、时光网、百度百科均出现，则重复次数为3；小唐尼在A网站和B网站出现，重复次数为2。若无标签(tag)库或标签（tag）库匹配次数为0，则信息权重=（信息重复出现次数*权重*0.01）/页面数量+0。

1-5这个数字范围可以人工自由选择，范围可更多。主要作用是针对不同字段的对应信息数不同，如别名，一般影片至多2个；而影片标签可能会在3-5，甚至更多。数字为初步确定，后期可根据需求进行调整。

最后，对于自动填写的内容进行编辑确认和加工。修改的操作会影响信息选用率和不修改率。信息确认无误后进行发布，也就是把符合用户需要的信息权重对应的数据信息进行显示。

本申请另一实施例公开了一种数据获取系统，如图2所示，所述系统包括：分词操作模块、关键词搜索模块、信息爬取和匹配模块、信息分类对比模块、数据分析计算模块和显示模块。其中，

所述分词操作模块，用于分词操作，得到关键词；

所述关键词搜索模块，用于使用所述关键词进行搜索，得到网站的页面；

所述信息爬取和匹配模块，用于对所述网站的页面进行信息爬取，根据所述网站的页面的源文件与正则表达式进行正则匹配，得到匹配结果；

所述信息分类对比模块，用于将匹配结果与所述关键词或者与包含有影片视频标签的标签库进行比对，得到各个页面的权重和信息重复量，分别将根据所述匹配结果得到的各个页面的权重和信息重复量信息放置于对应的视频属性库的对应字段中；

所述数据分析计算模块，用于进行数据分析，根据视频属性库的对应字段中的所述网站的页面的权重和信息重复量来计算信息权重；

所述显示模块，用于把符合要求的信息权重对应的页面数据进行显示。进一步地，所述分词操作模块，还用于判断初始数据对应的视频内容为长视频或者短视频；其中，所述视频内容与制定的网站地图进行精准匹配，能够匹配到2条以上的信息的视频内容为长视频。

所述分词操作模块具体还用于，对于所述长视频的标题去除空格和特殊符号，得到关键词；以及，对于所述短视频的标题进行分词处理，得到关键词。

所述关键词搜索模块，使用所述关键词进行搜索，得到网站的页面进一步包括：通过设定权重来调整所述网站的优先权；得到的所述网站页面的信息权重值与网站的优先权成正比。进一步地，所述权重的调整方式为人为设定，或者通过机器编辑。进一步地，所述使用所述关键词进行搜索，得到网站的页面后还包括：通过对所述网站的页面层次进行去噪处理，去除无效页面和信息重复的页面。

所述数据分析计算模块根据视频属性库的对应字段中的所述网站的页面的权重和信息重复量来计算网站页面的信息权重，具体的计算公式为：信息权重=（信息重复出现次数*权重*0.01）/页面数量+tag库完全匹配次数/此次信息中总匹配成功次数。

所述显示模块，获得信息权重排名最高的1至5个对应信息，用于填写到不同的单选或多选或手动填写的文本框中,进行显示。

本发明的数据获取的装置根据视频内容的关键词进行数据抓取和数据准备，在得到抓取的数据后，对内容进行分析和抽取，根据模式筛选，将内容返回到视频的发布系统中便于自动填写，实现自动数据获取，并提高数据获取的有效性。

上述详细描述通过实施例和/或示意图阐明了系统和/或过程的各种实施例。就这些示意图和/或包含一个或多个功能和/或操作而言，本领域技术人员将理解，这些示意图或实施例中的每一个功能和/或操作都可由各种各样的硬件、软件、固件、或实际上其任意组合来单独地和/或共同地实现。

需要说明的是，本发明的一种数据获取方法的方案的范畴包括但不限于上述各部分之间的任意组合。

尽管具体地参考其优选实施例来示出并描述了本发明，但本领域的技术人员可以理解，可以做出形式和细节上的各种改变而不脱离所附权利要求书中所述的本发明的范围。以上结合本发明的具体实施例做了详细描述，但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改，均仍属于本发明技术方案的范围。

Claims

1.一种数据获取方法，包括如下步骤：

步骤1、对初始数据进行分词，获得与初始数据相关的关键词；

步骤2、使用所述关键词进行搜索，得到网站的页面；

步骤3、对所述网站的页面进行信息爬取，根据所述网站的页面的源文件与正则表达式进行正则匹配，得到匹配结果；

步骤4、将匹配结果与所述关键词或者与包含有影片视频标签的标签库进行比对，得到各个页面的权重和信息重复量，分别将根据所述匹配结果得到的各个页面的权重和信息重复量信息放置于对应的视频属性库的对应字段中；

步骤5、根据视频属性库的对应字段中的所述网站的页面的权重和信息重复量来计算网站页面的信息权重；

步骤6、把符合要求的信息权重对应的页面数据进行显示。

2.如权利要求1所述的数据获取的方法，其特征在于，所述步骤1中包括：判断初始数据对应的视频内容为长视频或者短视频；其中，所述视频内容与制定的网站地图进行精准匹配，能够匹配到2条以上的信息的视频内容为长视频。

3.如权利要求2所述的数据获取的方法，其特征在于，对于所述长视频的标题去除空格和特殊符号，得到关键词。

4.如权利要求2所述的数据获取的方法，其特征在于，对于所述短视频的标题进行分词处理，得到关键词。

5.如权利要求1所述的数据获取的方法，其特征在于，所述使用所述关键词进行搜索，得到网站的页面进一步包括：通过设定权重来调整所述网站的优先权；得到的所述网站页面的信息权重值与网站的优先权成正比。

6.如权利要求5所述的数据获取的方法，其特征在于，所述权重的调整方式为人为设定，或者通过机器编辑。

7.如权利要求1所述的数据获取的方法，其特征在于，所述使用所述关键词进行搜索，得到网站的页面后还包括：通过对所述网站的页面层次进行去噪处理，去除无效页面和信息重复的页面。

8.如权利要求1所述的数据获取的方法，其特征在于，所述根据视频属性库的对应字段中的所述网站的页面的权重和信息重复量来计算网站页面的信息权重的计算公式为：信息权重=（信息重复出现次数*权重*0.01）/页面数量+标签库完全匹配次数/此次信息中总匹配成功次数。

9.如权利要求8所述的数据获取的方法，其特征在于，获得信息权重排名最高的1至5个对应信息，用于填写到不同的单选或多选或手动填写的文本框中,进行显示。

10. 一种数据获取系统，其特征在于，所述系统包括如下模块：

分词操作模块，用于分词操作，得到关键词；

关键词搜索模块，用于使用所述关键词进行搜索，得到网站的页面；

信息爬取和匹配模块，用于对所述网站的页面进行信息爬取，根据所述网站的页面的源文件与正则表达式进行正则匹配，得到匹配结果；

信息分类对比模块，用于将匹配结果与所述关键词或者与包含有影片视频标签的标签库进行比对，得到各个页面的权重和信息重复量，分别将根据所述匹配结果得到的各个页面的权重和信息重复量信息放置于对应的视频属性库的对应字段中；

数据分析计算模块，用于进行数据分析，根据视频属性库的对应字段中的所述网站的页面的权重和信息重复量来计算信息权重；

显示模块，用于把符合要求的信息权重对应的页面数据进行显示。