CN113886661A - 一种信息获取方法、装置及计算设备 - Google Patents

一种信息获取方法、装置及计算设备 Download PDF

Info

Publication number
CN113886661A
CN113886661A CN202111472445.6A CN202111472445A CN113886661A CN 113886661 A CN113886661 A CN 113886661A CN 202111472445 A CN202111472445 A CN 202111472445A CN 113886661 A CN113886661 A CN 113886661A
Authority
CN
China
Prior art keywords
information
link addresses
personal homepage
website information
addresses associated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111472445.6A
Other languages
English (en)
Inventor
马海东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Paratera Technology Co ltd
Original Assignee
Beijing Paratera Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Paratera Technology Co ltd filed Critical Beijing Paratera Technology Co ltd
Priority to CN202111472445.6A priority Critical patent/CN113886661A/zh
Publication of CN113886661A publication Critical patent/CN113886661A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种信息获取方法、装置及计算设备,该方法包括:获取用户输入的网址信息;对网址信息进行处理,以获取网址信息关联的一个或多个个人主页链接地址;对各个人主页链接地址关联的个人主页进行目标数据提取;根据网址信息关联的全部个人主页链接地址对应的目标数据,生成信息文件并保存。

Description

一种信息获取方法、装置及计算设备
技术领域
本发明涉及计算机网络领域,特别涉及一种信息获取方法、装置及计算设备。
背景技术
随着信息技术的发展和网络应用的拓展,越来越多的信息在网络上进行提供和展示,如何快速又准确地获取自己需要的信息成为了新的关注点。网络爬虫是目前比较流行的批量数据及信息获取方式,通过使用网络爬虫,很快就可以获取目标网站上的数据。常见的网络爬虫应用领域包括搜索引擎、电商网站的商品、股票价格走势信息、新闻领域、图像视频类文件的获取等。
常规的网络爬虫一般是通用型的,在进行数据爬取时,往往需要设置目标网页的内容路径标签、翻页动作、数据爬取路径等,且由于网页的数据没有统一的格式,因此每换一个网址就需要重新对爬取数据的路径和流程进行设置,花费了较大时间成本,降低了数据获取效率。而且,若用户不具备一定的HTML(Hyper Text Markup Language,超文本标记语言)网页基础,或者不熟悉网络爬虫,则无法快速掌握具体的使用方法。
此外,上述网络爬虫采用的方式是获取指定路径标签内的文本内容,对于没有固定标签路径的手机号码、电子邮箱这类数据,难以对其精确抓取,获取效率很低。
因此,需要一种新的信息获取方法来优化上述处理过程。
发明内容
为此,本发明提供一种信息获取方案,以力图解决或者至少缓解上面存在的问题。
根据本发明的一个方面,提供一种信息获取方法,该方法包括如下步骤:首先,获取用户输入的网址信息;对网址信息进行处理,以获取网址信息关联的一个或多个个人主页链接地址;对各个人主页链接地址关联的个人主页进行目标数据提取;根据网址信息关联的全部个人主页链接地址对应的目标数据,生成信息文件并保存。
可选地,在根据本发明的信息获取方法中,网址信息至少包括待处理的网络地址,对网址信息进行处理,以获取网址信息关联的一个或多个个人主页链接地址的步骤,包括:对网络地址进行解析,以获取网络地址关联的全部网页链接地址;从网络地址关联的全部网页链接地址中,筛选出网址信息关联的一个或多个个人主页链接地址。
可选地,在根据本发明的信息获取方法中,从网络地址关联的全部网页链接地址中,筛选出网址信息关联的一个或多个个人主页链接地址的步骤,包括:若网址信息还包括关键字信息,则根据关键字信息,对网络地址关联的全部网页链接地址进行识别,以筛选出与关键词信息匹配的网页链接地址作为个人主页链接地址。
可选地,在根据本发明的信息获取方法中,从网络地址关联的全部网页链接地址中,筛选出网址信息关联的一个或多个个人主页链接地址的步骤,包括:若网址信息不包括关键字信息,则根据预设的关键字,对网络地址关联的全部网页链接地址进行识别,以筛选出与预设的关键字匹配的网页链接地址作为个人主页链接地址。
可选地,在根据本发明的信息获取方法中,预设的关键字包括szdw、info、id、js、page、facu、principal和detail中至少一个。
可选地,在根据本发明的信息获取方法中,还包括:生成第一过程日志,第一过程日志包括一个或多个个人主页链接地址的获取过程信息。
可选地,在根据本发明的信息获取方法中,对各个人主页链接地址关联的个人主页进行目标数据提取的步骤,包括:根据预设的匹配规则,对各个人主页链接地址对应的超文本标记语言文本进行数据解析和识别,以提取出与匹配规则相对应的目标数据,匹配规则包括关键字匹配规则和正则表达式匹配规则。
可选地,在根据本发明的信息获取方法中,目标数据包括个人姓名、手机号码、固话号码、电子邮箱、学历、职称、职位和工作领域中至少一种。
可选地,在根据本发明的信息获取方法中,还包括:生成第二过程日志,第二过程日志包括各个人主页链接地址关联的个人主页的目标数据的提取过程信息。
根据本发明的又一个方面,提供一种信息获取装置,该装置包括获取模块、处理模块、提取模块和生成模块。其中,获取模块适于获取用户输入的网址信息;处理模块适于对网址信息进行处理,以获取网址信息关联的一个或多个个人主页链接地址;提取模块适于对各个人主页链接地址关联的个人主页进行目标数据提取;生成模块适于根据网址信息关联的全部个人主页链接地址对应的目标数据,生成信息文件并保存。
根据本发明的又一个方面,提供了一种计算设备,包括:至少一个处理器;以及存储器,存储有程序指令,其中,程序指令被配置为适于由至少一个处理器执行,程序指令包括用于执行如上所述的信息获取方法的指令。
根据本发明的又一个方面,提供了一种存储有程序指令的可读存储介质,当程序指令被计算设备读取并执行时,使得计算设备执行如上所述的信息获取方法。
根据本发明的信息获取方案,对用户输入的网址信息进行处理,通过关键字筛选出与网址信息关联的个人主页链接地址,对个人主页链接地址关联的个人主页进行目标数据提取,并根据目标数据生成信息文件,不仅实现了个人主页链接地址的自动识别,避免人工手动输入或设置造成时间成本的增加,还优化了数据采集流程,去掉了大部分数据采集设置过程,无需用户掌握网页界面或代码知识即可快速上手。
此外,提取目标数据时所采用的匹配规则分为关键字匹配规则和正则表达式匹配规则,分别与不同的目标数据对应,对如手机号码、电子邮箱等目标数据利用正则表达式进行模糊匹配,自动抓取非格式化的网页,不必每换一个网站进行一次采集设置,方便快捷。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明的一个实施例的计算设备100的结构框图;
图2示出了根据本发明的一个实施例的信息获取方法200的流程图;以及
图3示出了根据本发明的一个实施例的信息获取装置300的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明的一个实施例的计算设备100的结构框图。
如图1所示,在基本配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(UP)、微控制器(UC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作系统上由一个或多个处理器104利用程序数据124执行指令。
计算设备100还包括储存设备132,储存设备132包括可移除储存器136和不可移除储存器138。
计算设备100还可以包括储存接口总线134。储存接口总线134实现了从储存设备132(例如,可移除储存器136和不可移除储存器138)经由总线/接口控制器130到基本配置102的通信。操作系统120、应用122以及程序数据124的至少一部分可以存储在可移除储存器136和/或不可移除储存器138上,并且在计算设备100上电或者要执行应用122时,经由储存接口总线134而加载到系统存储器106中,并由一个或者多个处理器104来执行。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图像处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中以编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。当然,计算设备100也可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、数码照相机、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。甚至可以被实现为服务器,如文件服务器、数据库服务器、应用程序服务器和WEB服务器等。本发明的实施例对此均不做限制。
在根据本发明的实施例中,计算设备100被配置为执行根据本发明的信息获取方法200。其中,布置在操作系统上的应用122中包含用于执行本发明的信息获取方法200的多条程序指令,这些程序指令可以指示处理器104执行本发明的信息获取方法200,以便计算设备200通过执行本发明的信息获取方法200来获取信息。
根据本发明的一个实施例,布置在操作系统上的应用122包括信息获取装置300,信息获取装置300中包含用于执行本发明的信息获取方法200的多条程序指令,使得本发明的信息获取方法200可以在信息获取装置300中执行。
图2示出了根据本发明的一个实施例的信息获取方法200的流程图。信息获取方法200可以在计算设备(例如前述计算设备100)的信息获取装置300中执行。
如图2所示,方法200始于步骤S210。在步骤S210中,获取用户输入的网址信息。应理解的是,信息获取装置300会提供一个用户界面(User Interface,UI),方便用户在使用信息获取装置300时,通过用户界面输入和查看信息。用户在用户界面上可输入网址信息,该网址信息至少包括待处理的网络地址,也可能还包括关键字信息、单位名称和部门名称。
换言之,网络地址为必选项,关键字信息、单位名称和部门名称为可选项,后续会根据用户是否输入关键字信息,来确定采取哪种方式来处理网址信息以获取其关联的一个或多个个人主页链接地址。此外,用户还可以在用户界面同时输入多个网络地址,以换行符分隔即可。
随后,进入步骤S220,对网址信息进行处理,以获取网址信息关联的一个或多个个人主页链接地址。根据本发明的一个实施例,先对网络地址进行解析,以获取网络地址关联的全部网页链接地址,再从网络地址关联的全部网页链接地址中,筛选出网址信息关联的一个或多个个人主页链接地址。
在该实施方式中,考虑到网址信息除了包括待处理的网络地址外,还可能包括其他信息,如关键字信息、单位名称、部门名称等,特别是网址信息是否还包括关键字信息的不同情况下,所采取的筛选个人主页链接地址的方式有所不同。
若网址信息还包括关键字信息,则根据关键字信息,对网络地址关联的全部网页链接地址进行识别,以筛选出与关键词信息匹配的网页链接地址作为个人主页链接地址。若网址信息不包括关键字信息,则根据预设的关键字,对网络地址关联的全部网页链接地址进行识别,以筛选出与预设的关键字匹配的网页链接地址作为个人主页链接地址。其中,预设的关键字包括szdw、info、id、js、page、facu、principal和detail中至少一个。当然,预设的关键字并不限于上述内容,可根据实际情况进行增减。
例如,当用户输入的网址信息只包括待处理的网络地址时,该网络地址为www.user_page_list1.com,对其进行解析,得到该网络地址关联的全部网页链接地址如下:
www.main_page.com/main_page/.htm
www.main_page.com/professor/.htm
www.main_page.com/zhangsan/info/.htm
www.main_page.com/lisi/info/.htm
www.main_page.com/Tom/detail/.htm
www.main_page.com/Jerry/detail/.htm
……
www.main_page.com/zhangsan/info/.htm
www.main_page.com/list/department/.htm
www.main_page.com/main_page/.htm
由于网址信息不包括关键字信息,则根据预设的关键字来进行识别处理。比如,通过预设的关键字“info”,对上述网页链接地址进行识别,可以从中筛选出以下与“info”关键字匹配的网页链接地址:
www.main_page.com/zhangsan/info/.htm
www.main_page.com/lisi/info/.htm
www.main_page.com/zhangsan/info/.htm
进一步的,考虑到网页链接地址可能出现重复的情况,对以上筛选出的网页链接地址进行去重处理,最终得到如下网页链接地址作为个人主页链接地址:
www.main_page.com/zhangsan/info/.htm
www.main_page.com/lisi/info/.htm
有的时候,用户可能想要获取与自己设定的关键字匹配的个人主页链接地址,或者预设的关键字难以从用户提供的网络地址中获取关联的个人主页链接地址,则用户在输入网址信息时,除了待处理的网络地址外,还会包括关键字信息。
例如,用户想要对获取的个人主页链接地址包含有“special”,但预设的关键字里面并不包括“special”,此种情况下,用户直接在用户界面输入“special”作为关键字信息,则对网络地址关联的全部网页链接地址进行识别,以筛选如下出包含有“special”的网页链接地址:
http://www.goa.com.cn/special/hejian
http://www.goa.com.cn/special/hejun
上述包含有“special”的网页链接地址即为相应的个人主页链接地址。
根据本发明的一个实施例,方法200还包括生成第一过程日志,第一过程日志包括一个或多个个人主页链接地址的获取过程信息,可以通过用户界面向用户反馈和展示第一过程日志,以便用户更好地了解个人主页链接地址获取过程中的发生事件和数据信息。
在步骤S230中,对各个人主页链接地址关联的个人主页进行目标数据提取。根据本发明的一个实施例,可以通过如下方式对各个人主页进行目标数据提取。在该实施方式中,根据预设的匹配规则,对各个人主页链接地址对应的超文本标记语言文本进行数据解析和识别,以提取出与匹配规则相对应的目标数据,匹配规则包括关键字匹配规则和正则表达式匹配规则。其中,目标数据包括个人姓名、手机号码、固话号码、电子邮箱、学历、职称、职位和工作领域中至少一种。
手机号码、固话号码和电子邮箱的匹配规则为正则表达式匹配规则,通过正则表达式进行模糊匹配,而学历、职称、职位和工作领域的匹配规则为关键字匹配规则,通过内置关键字进行精确匹配,以下给出正则表达式匹配规则和关键字匹配规则的示例:
手机号码:r'\d(17|13|14|15|18)\d{9}\d*'
固话号码:phone_num_key2 = r'(0\d{2}-\d{7,8})|(0\d{3}-\d{7,8})'
电子邮箱:mail_addr_key = r'\w+([-+.]\w+)*(@| AT |#|AT)\w+([-.]\w+)\.\+com|cn)+(\.\
w +|com|cn)'
学历:r'(博士后)|(博士)|(硕士)'
职称:r'(博士生导师)|(博导)|(硕士生导师)|(硕导)'
职位:r'(院士)|(教授)|(研究员)|(副教授)|(助理研究员)|(助理教授)|(实验师)'
工作领域:research_area_re_key = r'(结构分析)|(CAE)|(分子动力)|(动力学仿真)|(磁场仿真)|(气候预测)|(数值预报)|(电磁仿真)|(蛋白质序列)|(分子动力)|(深度学习)|(分子立场)|(大气环境)|(分子生物)|(时域有限积分)|(仿真)|(动力学模拟)|'...
根据上述关键字匹配规则和正则表达式匹配规则,对每一个个人主页链接地址下的HTML文本内各文本标签下的对应数据进行识别,通过正则表达式匹配规则可以提取出手机号码、固话号码和电子邮箱,而通过关键字匹配规则可以提取出学历、职称、职位和工作领域。对于个人姓名,直接获取个人主页链接地址HTML所对应的文本即可。例如,可获取“<aclass="people " target="_blank" href="http://life.sjtu.edu.cn/teacher/MoumouBai">白某某</a>”所对应的文本“白某某”作为个人姓名。
以某大学网络地址关联的一个个人主页链接地址为例,该个人主页链接地址为“https://envi.ruc.edu.cn/index/index/teacher_detail/id/34/cid/29.html”,其对应的HTML文本的部分内容如下:
<div class="font_intr fl">
<h2>刘XX<span>副教授</span></h2>
<p>联系电话:010-825XXXX</p><p>电子邮件:lXX@ruc.edu.cn</p>
<p>办公地址:环境学院楼243</p>
</div>
通过对上述内容进行数据解析,可以得到如下标签内文本:
刘XX
副教授
联系电话:010-825XXXX
电子邮件:lXX@ruc.edu.cn
办公地址:环境学院楼243
进一步识别,提取出与匹配规则相对应的目标数据如下:
职称:副教授
固定电话:010-825XXXX
电子邮箱:lXX@ruc.edu.cn
结合个人姓名“刘XX”,生成上述个人主页链接地址对应的目标数据。当然,生成目标数据完成后,可以通过用户界面提示用户获取该目标数据,并将目标数据暂时保存,待全部个人主页链接地址都提取好目标数据后,对目标数据进行去重以便后续处理。
根据本发明的一个实施例,方法200还包括生成第二过程日志,第二过程日志包括各个人主页链接地址关联的个人主页的目标数据的提取过程信息,可以通过用户界面向用户反馈和展示第二过程日志,以便用户更好地了解个人主页的目标数据提取过程中的发生事件和数据信息。
最后,执行步骤S240,根据网址信息关联的全部个人主页链接地址对应的目标数据,生成信息文件并保存。根据本发明的一个实施例,网址信息关联的全部个人主页链接地址对应的目标数据已经完成了去重,则可将去重后的目标数据写入CSV(Comma-SeparatedValues,逗号分隔值)文件并进行输出,文档格式为.csv。
在单次输入的网络地址及全部个人主页链接地址相应的处理操作完成后,即可生成CSV文件作为信息文件,CSV文件的内容为单次输入的网络地址及全部个人主页链接地址解析、识别、提取出的所有目标数据,CSV文件的名称默认为用户于用户界面输入的“单位名称+部门名称”。若用户输入的网址信息不包括单位名称和部门名称,则CSV文件的名称默认为“no_nameno_ faculty”,且生成CSV文件中单位名称和部门名称按照默认输出空值。通过将目标数据生成CSV文件保存,既实现了格式化数据表格的输出,还降低数据清洗成本。
根据本发明的一个实施例,用户界面除了前述用于用户输入网址信息、展示第一过程日志及第二过程日志的功能,还可以向用户反馈个人主页链接地址数量消息、目标数据展示、信息文件生成完毕消息、信息获取失败的消息日志等。用户界面对日志相关信息更新的频率,取决于日志生成后传递消息的发送频率,一般网页链接抓取间隔为1.5秒,因此当不存在并行的多个信息获取任务且不考虑网址获取报错消息、数据处理及数据提取结果日志消息以及信息文件生成日志消息时,用户界面的日志信息更新频次约为1.5秒/次,若存在两个或以上的并行信息获取进程时,用户界面的日志信息更新频次约为1.5÷爬取进程数量秒/次。以下为一个日志输出示例:
开始爬取...
未输入客户名,跳过客户名
未输入客户院系,跳过客户院系
使用默认关键字抓取网址url路径
开始处理输入的网址...
处理url:https:/XXXXXt.htm
2021-11-19 10:33:39', '去重后网址数:6
2021-11-19 10:33:40解析:<1/6>http://math.XXXXXXn0.htm
<空>
2021-11-19 10:33:41解析:<2/6>http://math.XXXXXXn1.htm
{2021-11-19 10:33:43} {['张三', '139xxxxxxxx', '', '021-6XXXXX2', 'zhangsan@XXXXX.
edu.cn']}
2021-11-19 10:33:46解析:<3/6>http://math.XXXXXXn3.htm
{2021-11-19 10:33:46} {['李四', '150xxxxxxxx', '', '021-6XXXXX7', 'lisi@XXXXX.edu.cn']}
2021-11-19 10:33:48解析:<4/6>http://math.XXXXXXn4.htm
{2021-11-19 10:33:48} {['王五', '158xxxxxxxx', '', '', 'wangwu@XXXXX.edu.cn']}
2021-11-19 10:33:50解析:<5/6>http://math.XXXXXXn5.htm
{2021-11-19 10:33:51} {['Tom', '', '', '', '']}
2021-11-19 10:33:53解析:<6/6http://math.XXXXXXn6.htm
{2021-11-19 10:33:53} {[‘Jerry', '', '', '', '']
共获取:6 {}no_name no_faculty
获取完毕,已生成csv文档。
图3示出了根据本发明的一个实施例的信息获取装置300的示意图。信息获取装置300驻留在计算设备(例如前述计算设备100)中。信息获取装置300通过执行本发明的信息获取方法200来获取信息。
如图3所示,信息获取装置300包括依次相连的获取模块310、处理模块320、提取模块330和生成模块340。
其中,获取模块310可以获取用户输入的网址信息。随后,处理模块320可以对网址信息进行处理,以获取网址信息关联的一个或多个个人主页链接地址。提取模块330可以对各个人主页链接地址关联的个人主页进行目标数据提取。生成模块340可以根据网址信息关联的全部个人主页链接地址对应的目标数据,生成信息文件并保存。
应当指出,获取模块310用于执行前述步骤S210,处理模块320用于执行前述步骤S220,提取模块330用于执行前述步骤S230,生成模块340用于执行前述步骤S240。这里,关于获取模块310、处理模块320、提取模块330和生成模块340的执行逻辑可参见前文方法200中对步骤S210~S240的具体描述,此处不再赘述。
在该实施方式中,获取模块310还可以进一步实现为具有更多交互功能的模块,在提供用户界面以便用户输入网址信息的同时,基于此还可以接收处理模块320发送的第一过程日志、提取模块330发送的第二过程日志和生成模块340发送的信息文件生成完毕消息,并根据接收到内容进行相应展示以反馈信息给用户。此时,提取模块330、生成模块340还分别应与获取模块310相连(图3中未示出)。
根据本发明实施例的信息获取方案,对用户输入的网址信息进行处理,通过关键字筛选出与网址信息关联的个人主页链接地址,对个人主页链接地址关联的个人主页进行目标数据提取,并根据目标数据生成信息文件,不仅实现了个人主页链接地址的自动识别,避免人工手动输入或设置造成时间成本的增加,还优化了数据采集流程,去掉了大部分数据采集设置过程,无需用户掌握网页界面或代码知识即可快速上手。
此外,提取目标数据时所采用的匹配规则分为关键字匹配规则和正则表达式匹配规则,分别与不同的目标数据对应,对如手机号码、电子邮箱等目标数据利用正则表达式进行模糊匹配,自动抓取非格式化的网页,不必每换一个网站进行一次采集设置,方便快捷。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的信息获取方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种信息获取方法,包括:
获取用户输入的网址信息;
对所述网址信息进行处理,以获取所述网址信息关联的一个或多个个人主页链接地址;
对各个人主页链接地址关联的个人主页进行目标数据提取;
根据所述网址信息关联的全部个人主页链接地址对应的目标数据,生成信息文件并保存。
2.如权利要求1所述的方法,其中,所述网址信息至少包括待处理的网络地址,所述对所述网址信息进行处理,以获取所述网址信息关联的一个或多个个人主页链接地址的步骤,包括:
对所述网络地址进行解析,以获取所述网络地址关联的全部网页链接地址;
从所述网络地址关联的全部网页链接地址中,筛选出所述网址信息关联的一个或多个个人主页链接地址。
3.如权利要求2所述的方法,其中,所述从所述网络地址关联的全部网页链接地址中,筛选出所述网址信息关联的一个或多个个人主页链接地址的步骤,包括:
若所述网址信息还包括关键字信息,则根据所述关键字信息,对所述网络地址关联的全部网页链接地址进行识别,以筛选出与所述关键词信息匹配的网页链接地址作为个人主页链接地址。
4.如权利要求2或3所述的方法,其中,所述从所述网络地址关联的全部网页链接地址中,筛选出所述网址信息关联的一个或多个个人主页链接地址的步骤,包括:
若所述网址信息不包括关键字信息,则根据预设的关键字,对所述网络地址关联的全部网页链接地址进行识别,以筛选出与所述预设的关键字匹配的网页链接地址作为个人主页链接地址。
5.如权利要求4所述的方法,其中,所述预设的关键字包括szdw、info、id、js、page、facu、principal和detail中至少一个。
6.如权利要求1所述的方法,还包括:
生成第一过程日志,所述第一过程日志包括所述一个或多个个人主页链接地址的获取过程信息。
7.如权利要求1所述的方法,其中,所述对各个人主页链接地址关联的个人主页进行目标数据提取的步骤,包括:
根据预设的匹配规则,对各个人主页链接地址对应的超文本标记语言文本进行数据解析和识别,以提取出与所述匹配规则相对应的目标数据,所述匹配规则包括关键字匹配规则和正则表达式匹配规则。
8.一种信息获取装置,包括:
获取模块,适于获取用户输入的网址信息;
处理模块,适于对所述网址信息进行处理,以获取所述网址信息关联的一个或多个个人主页链接地址;
提取模块,适于对各个人主页链接地址关联的个人主页进行目标数据提取;
生成模块,适于根据所述网址信息关联的全部个人主页链接地址对应的目标数据,生成信息文件并保存。
9.一种计算设备,包括:
至少一个处理器;以及
存储器,存储有程序指令,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-7中任一项所述的方法的指令。
10.一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如权利要求1-7中任一项所述方法。
CN202111472445.6A 2021-12-06 2021-12-06 一种信息获取方法、装置及计算设备 Pending CN113886661A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111472445.6A CN113886661A (zh) 2021-12-06 2021-12-06 一种信息获取方法、装置及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111472445.6A CN113886661A (zh) 2021-12-06 2021-12-06 一种信息获取方法、装置及计算设备

Publications (1)

Publication Number Publication Date
CN113886661A true CN113886661A (zh) 2022-01-04

Family

ID=79016255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111472445.6A Pending CN113886661A (zh) 2021-12-06 2021-12-06 一种信息获取方法、装置及计算设备

Country Status (1)

Country Link
CN (1) CN113886661A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101094135A (zh) * 2006-06-23 2007-12-26 腾讯科技(深圳)有限公司 一种互联网内容信息的提取方法和提取系统
US20110087646A1 (en) * 2009-10-08 2011-04-14 Nilesh Dalvi Method and System for Form-Filling Crawl and Associating Rich Keywords
CN104765823A (zh) * 2015-04-08 2015-07-08 天脉聚源(北京)传媒科技有限公司 一种网站数据采集的方法及装置
CN112650910A (zh) * 2020-12-30 2021-04-13 北京百度网讯科技有限公司 确定网站更新信息的方法、装置、设备和存储介质
CN113239253A (zh) * 2021-04-09 2021-08-10 北京皮尔布莱尼软件有限公司 一种网络爬虫实现方法、系统、计算设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101094135A (zh) * 2006-06-23 2007-12-26 腾讯科技(深圳)有限公司 一种互联网内容信息的提取方法和提取系统
US20110087646A1 (en) * 2009-10-08 2011-04-14 Nilesh Dalvi Method and System for Form-Filling Crawl and Associating Rich Keywords
CN104765823A (zh) * 2015-04-08 2015-07-08 天脉聚源(北京)传媒科技有限公司 一种网站数据采集的方法及装置
CN112650910A (zh) * 2020-12-30 2021-04-13 北京百度网讯科技有限公司 确定网站更新信息的方法、装置、设备和存储介质
CN113239253A (zh) * 2021-04-09 2021-08-10 北京皮尔布莱尼软件有限公司 一种网络爬虫实现方法、系统、计算设备及存储介质

Similar Documents

Publication Publication Date Title
US20240078386A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
RU2583736C2 (ru) Система и способ отображения результатов поиска
US20140149846A1 (en) Method for collecting offline data
US20150007022A1 (en) Generating websites and business documents from seed input
WO2013152117A2 (en) Web-based content aggregation, organization, and publication system and methods of use
US20170235836A1 (en) Information identification and extraction
CN104063455A (zh) 一种基于搜索获取疾病咨询信息的方法和装置
US9710769B2 (en) Methods and systems for crowdsourcing a task
US20200050906A1 (en) Dynamic contextual data capture
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN112800305A (zh) 一种基于网络爬虫的知识图谱数据抽取方法及装置
Arnaboldi et al. Text mining meets community curation: a newly designed curation platform to improve author experience and participation at WormBase
Nengroo et al. Accessible images (AIMS): a model to build self-describing images for assisting screen reader users
Hou et al. Discovering drug–target interaction knowledge from biomedical literature
US20170235835A1 (en) Information identification and extraction
JP6965773B2 (ja) 提示装置、提示方法および提示プログラム
CN116089732B (zh) 基于广告点击数据的用户偏好识别方法及系统
WO2018208412A1 (en) Detection of caption elements in documents
JP2022073872A (ja) 侵害情報抽出システム、方法及びプログラム
US11314793B2 (en) Query processing
Rasmussen et al. The data documentation initiative: a preservation standard for research
CN113886661A (zh) 一种信息获取方法、装置及计算设备
CN107508705B (zh) 一种http元素的资源树构建方法及计算设备
JP2014010485A (ja) 関連コンテンツ検索装置及び関連コンテンツ検索方法
US10699329B2 (en) Systems and methods for document to order conversion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination