CN113392306A - 信息交互方法、信息交互装置、终端及存储介质 - Google Patents

信息交互方法、信息交互装置、终端及存储介质 Download PDF

Info

Publication number
CN113392306A
CN113392306A CN202110552163.0A CN202110552163A CN113392306A CN 113392306 A CN113392306 A CN 113392306A CN 202110552163 A CN202110552163 A CN 202110552163A CN 113392306 A CN113392306 A CN 113392306A
Authority
CN
China
Prior art keywords
webpage
data
access token
login
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110552163.0A
Other languages
English (en)
Other versions
CN113392306B (zh
Inventor
向舜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Original Assignee
Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuo Erzhi Lian Wuhan Research Institute Co Ltd filed Critical Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority to CN202110552163.0A priority Critical patent/CN113392306B/zh
Publication of CN113392306A publication Critical patent/CN113392306A/zh
Application granted granted Critical
Publication of CN113392306B publication Critical patent/CN113392306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请是关于一种信息交互方法、信息交互装置、终端及存储介质。该信息交互方法利用自动登录代码读取预先存储的登录信息;将登录信息写入网页的登录信息输入位置,用于触发网页向网页服务器请求访问令牌;基于访问令牌以及待获取内容的关键词,生成数据请求指令;发送数据请求指令至网页服务器,用于向网页服务器请求与关键词关联的数据。通过自动登录代码读取预先存储的登录信息;将登录信息写入网页的登录信息输入位置,触发网页向网页服务器请求访问令牌。这一操作可实时进行,相对于人工操作登录网页,可有效提高数据获取效率。尤其是在频繁登录网页去获取最新的数据时,可有效减少人工成本,提高对数据的实时获取能力。

Description

信息交互方法、信息交互装置、终端及存储介质
技术领域
本发明涉及信息技术领域,尤其涉及一种信息交互方法、信息交互装置、终端及存储介质。
背景技术
随着网络技术发展,在各领域的网络应用越来越广泛。在构建网络应用的过程中,获取数据的需求也越来越多。但出于权限的限制,很多数据获取,需要登录网页才可以查找。
发明内容
有鉴于此,本申请实施例期望提供一种信息交互方法、信息交互装置、终端及存储介质。
本申请的技术方案是这样实现的:
一方面,本申请提供一种信息交互方法。
本申请实施例提供的信息交互方法,包括:
利用自动登录代码读取预先存储的登录信息;
将所述登录信息写入网页的登录信息输入位置,其中,写入所述输入位置的登录信息,用于触发所述网页向网页服务器请求访问令牌;
接收并存储所述访问令牌;
基于所述访问令牌以及待获取内容的关键词,生成所述数据请求指令;
发送所述数据请求指令至网页服务器,其中,所述数据请求指令,用于向所述网页服务器请求与所述关键词关联的数据。
在一些实施例中,所述网页向网页服务器请求访问令牌前,所述方法包括:
确定所述网页的DOM文档对象模型树结构中与所述关键词匹配的标签所在目标节点;
基于所述目标节点在所述DOM的位置,生成用于在所述网页中检索所述关键词的路径规则;
输入所述路径规则至所述网页的关键词检索框,获取所述目标节点位置处的所有关键词。
在一些实施例中,所述网页向网页服务器请求访问令牌,包括:
获取登录账号的标识ID以及存储的刷新令牌;
发送所述登录账号的标识ID、所述刷新令牌以及所述关键词至所述网页服务器。
在一些实施例中,所述关键词至少包括:
与所述数据对应的标识信息,和/或,
与所述数据对应的编码信息。
在一些实施例中,所述方法还包括:
在预先设置的请求时间点,所述网页向网页服务器请求所述访问令牌。
在一些实施例中,所述方法还包括:
转换获取的所述数据为预设格式,存储在数据库。
另一方面,本申请提供一种信息交互装置,所述装置包括:
第一处理单元,用于利用自动登录代码读取预先存储的登录信息;
第二处理单元,用于将所述登录信息写入网页的登录信息输入位置,其中,写入所述输入位置的登录信息,用于触发所述网页向网页服务器请求访问令牌;
第三处理单元,用于接收并存储所述访问令牌;
第四处理单元,用于基于所述访问令牌以及待获取内容的关键词,生成所述数据请求指令;
第五处理单元,用于发送所述数据请求指令至网页服务器,其中,所述数据请求指令,用于向所述网页服务器请求与所述关键词关联的数据。
在一些实施例中,所述装置还包括第六处理单元,用于所述网页向网页服务器请求访问令牌前,
确定所述网页的DOM文档对象模型树结构中与所述关键词匹配的标签所在目标节点;
基于所述目标节点在所述DOM的位置,生成用于在所述网页中检索所述关键词的路径规则;
输入所述路径规则至所述网页的关键词检索框,获取所述目标节点位置处的所有关键词。
在一些实施例中,所述第二处理单元,用于触发所述网页向网页服务器请求访问令牌,包括:
所述第二处理单元,具体用于获取登录账号的标识ID以及存储的刷新令牌;
发送所述开发登录账号的标识ID、所述刷新令牌以及所述关键词至所述网页服务器。
在一些实施例中,所述关键词至少包括:
与所述数据对应的标识信息,和/或,
与所述数据对应的编码信息。
在一些实施例中,所述第二处理单元,还用于在预先设置的请求时间点,通过所述网页向网页服务器请求所述访问令牌。
在一些实施例中,所述装置还包括第七处理单元用于转换获取的所述数据为预设格式,存储在数据库。
又一方面,本申请还提供一种终端。
本申请实施例提供的终端,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行所述计算机程序时,执行一方面本申请实施例提供的信息交互方法的步骤。
再一方面,本申请还提供一种计算机可读存储介质。
本申请实施例提供的计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现一方面本申请实施例提供的信息交互方法的步骤。
本申请实施例的信息交互方法利用自动登录代码读取预先存储的登录信息;将登录信息写入网页的登录信息输入位置,其中,写入输入位置的登录信息,用于触发网页向网页服务器请求访问令牌;接收并存储访问令牌;基于访问令牌以及待获取内容的关键词,生成数据请求指令;发送数据请求指令至网页服务器,其中,数据请求指令,用于向网页服务器请求与关键词关联的数据。本申请通过自动登录代码模拟人工操作,进行账号登录。通过自动登录代码读取预先存储的登录信息;将登录信息写入网页的登录信息输入位置,触发网页向网页服务器请求访问令牌,发送数据请求指令来获取请求数据。整个过程不需要人工操作,就可以获取到现有的爬虫技术搜索不到的数据。相对于人工操作登录网页,可有效提高数据获取效率。尤其是在人工操作不方便的时间段,需要频繁登录网页去获取最新的数据时,可有效减少人工成本,提高对数据的实时获取能力。
附图说明
图1是根据一示例性实施例示出的信息交互方法的方法流程图一;
图2是根据一示例性实施例示出的信息交互方法的方法流程图二;
图3是根据一示例性实施例示出的信息交互方法的方法流程图三;
图4是根据一示例性实施例示出的信息交互装置结构示意图;
图5是根据一示例性实施例示出的终端结构示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
随着网络技术发展,在各领域的网络应用越来越广泛。在构建网络应用的过程中,获取数据的需求也越来越多。但出于权限的限制,很多数据获取,需要登录网页才可以查找。但是现有技术通过人工登录网页查找获取数据的效率过低。
本申请提供一种信息交互方法。图1是根据一示例性实施例示出的信息交互方法的方法流程图一。如图1所示,该信息交互方法,包括:
步骤10、利用自动登录代码读取预先存储的登录信息;
步骤11、将所述登录信息写入网页的登录信息输入位置,其中,写入所述输入位置的登录信息,用于触发所述网页向网页服务器请求访问令牌;
步骤12、接收并存储所述访问令牌;
步骤13、基于所述访问令牌以及待获取内容的关键词,生成所述数据请求指令;
步骤14、发送所述数据请求指令至网页服务器,其中,所述数据请求指令,用于向所述网页服务器请求与所述关键词关联的数据。
在本示例性实施例中,自动登录代码可以是由编程语言编写的部分程序段。该部分自动登录代码可以嵌入到爬虫工具中,如此可以使得爬虫工具,能够基于登录到需要登录才能访问的网站,才能访问到需要的信息。例如由python脚本编程语言编写的puppeteer爬虫框架。在登录网页时,自动登录代码可自动读取预先存储的登录信息。
在本示例性实施例中,登录信息输入位置可以是后台脚本中与前端网页中人工输入登录信息的输入控件对应的登录信息输入框。在登录信息输入位置输入登录信息后,对应账号可呈现为成功登录状态。此时,在成功登录状态下,网页可向网页服务器请求访问令牌。其中,成功登录的登录状态可保存在缓存(cookie)文件中。cookie是保存在客户端的纯文本文件,比如txt文件。当客户端通过浏览器进行访问网页的时候,服务器就会生成一个证书并返回给客户端浏览器并写入客户端,这个证书就是cookie。
在本示例性实施例中,登录信息可包括登录账号和与账号对应的登录密码。
在本示例性实施例中,在获得网页服务器反馈的访问令牌后,对该访问令牌进行存储。
访问令牌为表明对应登录账户有访问网页服务器的权限的验证信息。
在本示例性实施例中,向网页服务器发送的数据请求指令可包括请求头和请求体。请求头中可包括访问令牌,请求体中可包括关键词。其中,访问令牌(Access Tokens)可以写入到访问请求中,用于后续网页服务器的访问。当用户登录时,系统创建一个访问令牌,里面包含登录进程返回的SID(Security Identifiers,安全标识符)和由本地安全策略分配给用户和用户的安全组的特权列表。在部分公众平台接口开发中,Access Token占据了一个很重要的地位,相当于进入各种接口的钥匙,拿到这个钥匙才有调用其他各种特殊接口的权限。Access Token是公众号的全局唯一票据,公众号调用各接口时都需使用Access Token。
示例性地,关键词可以是登录账户下的用户标识ID。每一条发布数据均对应一个用户ID。每一条数据均可以是一个广告计划。获取一个广告数据时均需要获取该数据对应的用户ID。用户ID可以用字符串表示。一个登录账号下可以有多个用户ID。
在本示例性实施例中,上述数据请求指令中的请求体还可以包括请求时间、数据提取参数。请求时间可以用于指示获取该时间段下产生的数据。例如,请求时间为2021年2月3号,则获取的数据可以是2021年2月3号产生的数据。
所述数据提取参数,用于确定待提取的数据内容;示例性地,所述数据提取参数可包括:指示待提取数据内容涉及的主题;和/或,待提取数据内容涉及的数据属性。例如,数据提取参数可以设置为a、b、c等。不同的数据提取参数分别对应不同的主题的数据内容。例如,关键词用户ID为IDqwerty时,其下包含的数据内容较多,包括参数a对应的数据内容涉及的主题可以是智能家居、参数b对应的数据内容涉及的主题可以是绿色生活、参数c对应的数据内容涉及的主题可以是便捷出行等。此时可通过不同的数据提取参数提取对应的数据。例如,通过数据提取参数a,提取主题为绿色生活的相关数据。
数据属性类型可包括:标称属性、二元属性、序数属性、数值属性、离散属性与连续属性。不同数据提取参数对应不同属性类型的数据。
1、标称属性的值可以是一些符号或实物的名称,每个值代表某种类别、编码或状态,所以标称属性又被看做是分类型的属性(categorical)。这些值不必具有有意义的序,并且不是定量的。
2、二元属性:
二元属性是一种标称属性,只有两个类别或状态:0或1,其中0常表示不出现,1表示出现。如果将0和1对应于false和true,二元属性则为布尔属性。
3、序数属性:
序数属性可能的取值之间具有有意义的序或秩评定,但相继值之间的差是未知的。例如,学生的成绩属性可以分为优、良、中、差四个等级;某快餐店的饮料杯具有大、中、小三个可能值。然而,具体“大”比“中”大多少是未知的。
4、数值属性:
数值属性是可度量的量,用整数或实数值表示,有区间标度和比率标度两种类型。区间标度属性:区间标度属性用相等的单位尺度度量。区间属性的值有序。所以,除了秩评定之外,这种属性允许比较和定量评估值之间的差;比率标度属性:比率标度属性的度量是比率的,可以用比率来描述两个值,即一个值是另一个值的倍数,也可以计算值之间的差。
5、离散属性与连续属性:
离散属性具有有限或无限可数个值。如一个属性可能取值的值集合是无限的,但可以建立一个与自然数的一一对应,则其是离散属性。例如年龄属性,0~100。如果一个属性不是离散的,则它是连续的。
当然此处仅仅是示例性的,还可以包括其他指示性的数据提取参数。
本申请实施例的信息交互方法通过自动登录代码读取预先存储的登录信息;将登录信息写入网页的登录信息输入位置,触发网页向网页服务器请求访问令牌。这一操作可实时进行,相对于人工操作登录网页,可有效提高数据获取效率。尤其是在人工操作不方便的时间段,需要频繁登录网页去获取最新的数据时,可有效减少人工成本,提高对数据的实时获取能力。
在一些实施例中,所述网页向网页服务器请求访问令牌前,所述方法包括:
确定所述网页的DOM文档对象模型树结构中与所述关键词匹配的标签所在目标节点;
基于所述目标节点在所述DOM的位置,生成用于在所述网页中检索所述关键词的路径规则;
输入所述路径规则至所述网页的关键词检索框,获取所述目标节点位置处的所有关键词。
在本示例性实施例中,文档对象模型(DOM)是超文本标记语言HTML和可扩展标记语言XML文档的编程接口。它提供了对文档的结构化的表述,并定义了一种方式可以使从程序中对该结构进行访问,从而改变文档的结构,样式和内容。DOM将文档解析为一个由节点和对象(包含属性和方法的对象)组成的结构集合。简言之,它会将web页面和脚本或程序语言连接起来。
DOM树结构构成的基本要素是“节点”,而文档的结构就是由层次化的节点组成。在DOM模型中,整个文档(Document)就是一个节点,称为文档节点。除此之外还可以有元素(Element)节点、属性节点、注释(Comment)节点等。在本申请中,以HTMLDocument为根节点,其余节点为子节点,组织成一个树的数据结构的表示就是DOM树。子节点中包含有与关键词匹配的标签节点。该标签节点也可以看成是元素节点。
在本示例性实施例中,生成的路径规则可以指示出目标节点在DOM树中的位置。也可以表示标签在HTML中的相对位置,可以用来快速定位一个XML文本中的内容,或HTML文本中的内容。
在本示例性实施例中,网页中标签可同时匹配多个关键词。即在DOM文档对象模型树结构中目标节点处的标签可隐藏有多个相关联的用户ID。在确定了与一个关键词相匹配的标签所在目标节点的位置后,可生成检索关键词的路径规则。然后在网页的关键词检索框内输入路径规则,可查找到该目标节点处标签下的所有用户ID,从而获取与一个关键词相关联的其他关键词,为后续全面获取相关数据提供帮助。例如,多个不同的用户ID分别对应一个主题下的多条广告数据,在通过标签获取同一个主题下的多个相关联的用户ID,从而有利于获取该主题下更全面的数据内容。
在一些实施例中,所述网页向网页服务器请求访问令牌,包括:
获取登录账号的标识ID以及存储的刷新令牌;
发送所述登录账号的标识ID、所述刷新令牌以及所述关键词至所述网页服务器。
在本示例性实施例中,登录账号的标识ID可为APP管理员ID。
存储的刷新令牌为是用于获取访问令牌的凭据。刷新令牌由授权服务器颁发给客户端(网页端),用于在当前访问令牌失效或过期时,获取一个新的访问令牌(访问令牌可能具有比资源所有者所授权的更短的生命周期和更少的权限)。客户端在第一次获得服务器授权认证时,可以获得一个访问令牌和刷新令牌。刷新令牌的时效时间比访问令牌长,当访问令牌失效时,可用刷新令牌获取新的访问令牌。在获得新的访问令牌的同时,客户端会同时获得一个新的刷新令牌。一个刷新令牌只工作一次。当访问令牌和刷新令牌均失效时,客户端需要重新获取服务器授权认证。
客户端(网页端)获取刷新令牌后,可对其进行存储。刷新令牌可以是一个代表由资源所有者给客户端(网页端)许可的授权的字符串。该字符串通常对于客户端(网页端)是不透明的。该令牌表示一个用于检索授权信息的标识符。
在本示例性实施例中,当网页服务器获取登录账号的标识ID、所述刷新令牌以及所述关键词后,可基于登录账号的标识ID、刷新令牌、关键词以及网页服务器内部设置的令牌生成规则生成访问令牌,从而使得客户端(网页端)凭借访问令牌获得网页服务器的数据访问权限,向网页服务器发送数据请求指令。同时,该令牌生成规则一般客户端(网页端)未知,从而使得仅获取访问令牌的客户端(网页端)具有数据的获取权限,以保证数据的安全性。
在一些实施例中,所述关键词至少包括:
与所述数据对应的标识信息,和/或,
与所述数据对应的编码信息。
在本示例性实施例中,与所述数据对应的标识信息为用户ID标识。用户ID可以用字符串表示。例如,用户ID为asdfgh。
与所述数据对应的编码信息可以是数据编码,可以用数字表示,例如111111,从而使得客户端(网页端)凭借关键词方便、快捷获取对应的数据。
在一些实施例中,所述方法还包括:
在预先设置的请求时间点,所述网页向网页服务器请求所述访问令牌。
在本示例性实施例中,预先设置的请求时间点可以是设置的多个定时时间点,包括固定的时间点,或从登录开始后以固定间隔时间依次延续的多个时间点,或周期性时间点。例如固定的时间点为固定的时刻,3点、4点等。以固定间隔时间依次延续的多个时间点为登录时间点为3点,间隔时间为5分钟,则从3点开始,每过5分钟即为请求时间点,网页向网页服务器请求访问令牌。当服务器内数据进行周期性更新时,网页端可以服务器的更新时间为访问时间点,进行周期性访问。网页服务器的数据一天更新一次,则以一天为一个周期,按照更新的时间点进行访问。合理设置请求时间点可保证及时有效获取请求的数据。
在本示例性实施例中,在成功登录后,可以基于触发操作访问网页服务器,例如在监控到有新网页内容,或者,监控到有用户输入新的信息,访问网页服务器,获取新增加的信息内容。例如,当有针对一个主题的新的网页内容增加时,可以访问网页服务器获取这部分新增加的内容。
在一些实施例中,所述方法还包括:
转换获取的所述数据为预设格式,存储在数据库。
在本示例性实施例中,数据库的数据存储格式为多种,根据需要可转换获取的数据为任意数据存储格式,进行存储。例如,根据数据库的预设格式设定XML文件,根据XML模板填入获取的数据,再通过映射的方式将XML文件中的数据导入数据库,以方便于后续调取。
本申请提供的信息交互方法,采用自动登录代码实现账号自动登录来进行数据获取,相对于现有的http请求的方式可在一定程度上绕过网站的反爬虫检测,实现快速获取信息的目的。
同时,用程序代码模拟用户的登录行为操作,避免重复手工输入账号密码),通过该方法编写的爬虫程序能全自动实现自动验证与登录的过程,可以部署在不同的服务器脚本运行环境中,高效获取信息。
再次,成功登录后,可自动检索到关键词,调用应用程序接口API(爬虫框架接口),向网页服务器发送数据请求指令,获取数据,提高了信息获取效率。
本申请提供另一种信息交互方法。图2是根据一示例性实施例示出的信息交互方法的方法流程图一。如图2所示,该信息交互方法,包括:
基于接收的访问令牌请求生成访问令牌;
向网页端发送访问令牌;
向网页端发送与关键词关联的数据。
在本示例性实施例中,当网页服务器获取登录账号的标识ID、所述刷新令牌以及所述关键词后,可基于登录账号的标识ID、刷新令牌、关键词以及网页服务器内部设置的令牌生成规则生成访问令牌,发送访问令牌至网页端,从而使得客户端(网页端)凭借访问令牌获得网页服务器的数据访问权限,向网页服务器发送数据请求指令,来获取与关键词关联的数据。
图3是根据一示例性实施例示出的信息交互方法的方法流程图三。如图3所示,方法包括:
步骤30、调用模拟登录模块,保持登录状态;模拟登录模块,用于模拟人工操作,进行账号登录。
步骤31、调用网页分析模块,获取用户ID;网页分析模块,用于解析网页,获取关键词。
步骤32、调用数据提取模块,在获取网页服务器内的数据;数据提取模块,用于从网页服务器获取数据。
步骤33、调用更新模块,定时更新访问令牌,获取数据。更新模块,用于更新访问令牌,获取最新的数据。
另一方面,本申请提供一种信息交互装置。图4是根据一示例性实施例示出的信息交互装置结构示意图。如图4所示,所述装置包括:
第一处理单元41,用于利用自动登录代码读取预先存储的登录信息;
第二处理单元42,用于将所述登录信息写入网页的登录信息输入位置,其中,写入所述输入位置的登录信息,用于触发所述网页向网页服务器请求访问令牌;
第三处理单元43,用于接收并存储所述访问令牌;
第四处理单元44,用于基于所述访问令牌以及待获取内容的关键词,生成所述数据请求指令;
第五处理单元45,用于发送所述数据请求指令至网页服务器,其中,所述数据请求指令,用于向所述网页服务器请求与所述关键词关联的数据。
在本示例性实施例中,自动登录代码可以是由编程语言编写的部分程序段,也可以是由编程语言编写的爬虫工具。例如由python脚本编程语言编写的puppeteer爬虫框架。在登录网页时,自动登录代码可自动读取预先存储的登录信息。
在本示例性实施例中,在登录信息输入位置输入登录信息后,对应账号可呈现为成功登录状态。此时,在成功登录状态下,网页可向网页服务器请求访问令牌。其中,成功登录的登录状态可保存在cookie文件中。
在本示例性实施例中,登录信息可包括登录账号和与账号对应的登录密码。
在本示例性实施例中,在获得网页服务器反馈的访问令牌后,对该访问令牌进行存储。
在本示例性实施例中,向网页服务器发送的数据请求指令可包括请求头和请求体。请求头中可包括访问令牌,请求体中可包括关键词。其中,访问令牌(Access Tokens)是Windows操作系统安全性的一个概念。当用户登录时,系统创建一个访问令牌,里面包含登录进程返回的SID(Security Identifiers,安全标识符)和由本地安全策略分配给用户和用户的安全组的特权列表。在部分公众平台接口开发中,Access Token占据了一个很重要的地位,相当于进入各种接口的钥匙,拿到这个钥匙才有调用其他各种特殊接口的权限。Access Token是公众号的全局唯一票据,公众号调用各接口时都需使用Access Token。
在本示例性实施例中,关键词可以是登录账户下的用户ID。每一条发布数据均对应一个用户ID。每一条数据均可以是一个广告计划。获取一个广告数据时均需要获取该数据对应的用户ID。用户ID可以用字符串表示。一个登录账号下可以有多个用户ID。
在本示例性实施例中,上述数据请求指令中的请求体还可以包括请求时间、数据提取参数。请求时间可以用于指示获取该时间段下产生的数据。例如,请求时间为2021年2月3号,则获取的数据可以是2021年2月3号产生的数据。数据提取参数用于指示获取上述用户ID下的具体哪部分数据。例如,关键词用户ID为IDqwerty时,其下包含的数据内容较多,包括数据段A、数据段B、数据段C等。此时可通过数据提取参数提取对应的部分数据。例如,数据提取参数为a,则提取数据中数据提取参数a对应的数据段A。当然此处仅仅是示例性的,还可以包括其他指示性的数据提取参数。
本申请实施例的信息交互装置通过自动登录代码读取预先存储的登录信息;将登录信息写入网页的登录信息输入位置,触发网页向网页服务器请求访问令牌。这一操作可实时进行,相对于人工操作登录网页,可有效提高数据获取效率。尤其是在人工操作不方便的时间段,需要频繁登录网页去获取最新的数据时,可有效减少人工成本,提高对数据的实时获取能力。
在一些实施例中,所述装置还包括第六处理单元,用于所述网页向网页服务器请求访问令牌前,
确定所述网页的DOM文档对象模型树结构中与所述关键词匹配的标签所在目标节点;
基于所述目标节点在所述DOM的位置,生成用于在所述网页中检索所述关键词的路径规则;
输入所述路径规则至所述网页的关键词检索框,获取所述目标节点位置处的所有关键词。
在本示例性实施例中,文档对象模型(DOM)是HTML和XML文档的编程接口。它提供了对文档的结构化的表述,并定义了一种方式可以使从程序中对该结构进行访问,从而改变文档的结构,样式和内容。DOM将文档解析为一个由节点和对象(包含属性和方法的对象)组成的结构集合。简言之,它会将web页面和脚本或程序语言连接起来。
DOM树结构构成的基本要素是“节点”,而文档的结构就是由层次化的节点组成。在DOM模型中,整个文档(Document)就是一个节点,称为文档节点。除此之外还可以有元素(Element)节点、属性节点、Entity节点、注释(Comment)节点等。在本申请中,以HTMLDocument为根节点,其余节点为子节点,组织成一个树的数据结构的表示就是DOM树。子节点中包含有与关键词匹配的标签节点。该标签节点也可以看成是元素节点。
在本示例性实施例中,生成的路径规则可以指示出目标节点在DOM树中的位置。也可以表示标签在HTML中的相对位置,可以用来快速定位一个XML文本中的内容,或HTML文本中的内容。
在本示例性实施例中,网页中标签可同时匹配多个关键词。即在DOM文档对象模型树结构中目标节点处的标签可隐藏有多个相关联的用户ID。在确定了与一个关键词相匹配的标签所在目标节点的位置后,可生成检索关键词的路径规则。然后在网页的关键词检索框内输入路径规则,可查找到该目标节点处标签下的所有用户ID,从而获取与一个关键词相关联的其他关键词,为后续全面获取相关数据提供帮助。
在一些实施例中,所述第二处理单元,用于触发所述网页向网页服务器请求访问令牌,包括:
所述第二处理单元,具体用于获取登录账号的标识ID以及存储的刷新令牌;
发送所述开发登录账号的标识ID、所述刷新令牌以及所述关键词至所述网页服务器。
在本示例性实施例中,登录账号的标识ID为APP管理员ID。存储的刷新令牌为是用于获取访问令牌的凭据。刷新令牌由授权服务器颁发给客户端(网页端),用于在当前访问令牌失效或过期时,获取一个新的访问令牌(访问令牌可能具有比资源所有者所授权的更短的生命周期和更少的权限)。客户端(网页端)获取刷新令牌后,可对其进行存储。刷新令牌相对于访问令牌具有更长的有效时限。刷新令牌可以是一个代表由资源所有者给客户端(网页端)许可的授权的字符串。该字符串通常对于客户端(网页端)是不透明的。该令牌表示一个用于检索授权信息的标识符。
在本示例性实施例中,当网页服务器获取登录账号的标识ID、所述刷新令牌以及所述关键词后,可基于登录账号的标识ID、刷新令牌、关键词以及网页服务器内部设置的令牌生成规则生成访问令牌,从而使得客户端(网页端)凭借访问令牌获得网页服务器的数据访问权限,向网页服务器发送数据请求指令。同时,该令牌生成规则一般客户端(网页端)未知,从而使得仅获取访问令牌的客户端(网页端)具有数据的获取权限,以保证数据的安全性。
在一些实施例中,所述关键词至少包括:
与所述数据对应的标识信息,和/或,
与所述数据对应的编码信息。
在本示例性实施例中,与所述数据对应的标识信息为用户ID标识。用户ID可以用字符串表示。例如,ID:asdfgh。
与所述数据对应的编码信息可以是数据编码,可以用数字表示,例如111111,从而使得客户端(网页端)凭借关键词方便、快捷获取对应的数据。
在一些实施例中,所述第二处理单元,还用于在预先设置的请求时间点,通过所述网页向网页服务器请求所述访问令牌。
在本示例性实施例中,预先设置的请求时间点可以是设置的多个定时时间点,包括固定的时间点,或从登录开始后以固定间隔时间依次延续的多个时间点。例如固定的时间点为固定的时刻,3点、4点等。以固定间隔时间依次延续的多个时间点为登录时间点为3点,间隔时间为5分钟,则从3点开始,每过5分钟即为请求时间点,网页向网页服务器请求访问令牌。合理设置请求时间点可保证及时有效获取请求的数据。
在一些实施例中,所述装置还包括第七处理单元用于转换获取的所述数据为预设格式,存储在数据库。
在本示例性实施例中,数据库的数据存储格式为多种,根据需要可转换获取的数据为任意数据存储格式,进行存储。例如,根据数据库的格式设定XML文件,根据XML模板填入获取的数据,再通过映射的方式将XML文件中的数据导入数据库,以方便于后续调取。
本申请还提供一种终端。图5是根据一示例性实施例示出的终端结构示意图。如图5所示,本申请实施例提供的终端,包括:处理器530和用于存储能够在处理器上运行的计算机程序的存储器520,其中,所述处理器530用于运行所述计算机程序时,执行上述各实施例提供所述方法的步骤。
本申请还提供一种计算机可读存储介质。本申请实施例提供的计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各实施例提供所述方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
在一些情况下,上述任一两个技术特征不冲突的情况下,可以组合成新的方法技术方案。
在一些情况下,上述任一两个技术特征不冲突的情况下,可以组合成新的设备技术方案。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种信息交互方法,其特征在于,所述方法包括:
利用自动登录代码读取预先存储的登录信息;
将所述登录信息写入网页的登录信息输入位置,其中,写入所述输入位置的登录信息,用于触发所述网页向网页服务器请求访问令牌;
接收并存储所述访问令牌;
基于所述访问令牌以及待获取内容的关键词,生成所述数据请求指令;
发送所述数据请求指令至网页服务器,其中,所述数据请求指令,用于向所述网页服务器请求与所述关键词关联的数据。
2.根据权利要求1所述的信息交互方法,其特征在于,所述网页向网页服务器请求访问令牌前,所述方法包括:
确定所述网页的DOM文档对象模型树结构中与所述关键词匹配的标签所在目标节点;
基于所述目标节点在所述DOM的位置,生成用于在所述网页中检索所述关键词的路径规则;
输入所述路径规则至所述网页的关键词检索框,获取所述目标节点位置处的所有关键词。
3.根据权利要求2所述的信息交互方法,其特征在于,所述网页向网页服务器请求访问令牌,包括:
获取登录账号的标识ID以及存储的刷新令牌;
发送所述登录账号的标识ID、所述刷新令牌以及所述关键词至所述网页服务器。
4.根据权利要求1-3任一项所述的信息交互方法,其特征在于,所述关键词至少包括:
与所述数据对应的标识信息,和/或,
与所述数据对应的编码信息。
5.根据权利要求1-3任一项所述的信息交互方法,其特征在于,所述方法还包括:
在预先设置的请求时间点,所述网页向网页服务器请求所述访问令牌。
6.根据权利要求1-3任一项所述的信息交互方法,其特征在于,所述方法还包括:
转换获取的所述数据为预设格式,存储在数据库。
7.一种信息交互装置,其特征在于,所述装置包括:
第一处理单元,用于利用自动登录代码读取预先存储的登录信息;
第二处理单元,用于将所述登录信息写入网页的登录信息输入位置,其中,写入所述输入位置的登录信息,用于触发所述网页向网页服务器请求访问令牌;
第三处理单元,用于接收并存储所述访问令牌;
第四处理单元,用于基于所述访问令牌以及待获取内容的关键词,生成所述数据请求指令;
第五处理单元,用于发送所述数据请求指令至网页服务器,其中,所述数据请求指令,用于向所述网页服务器请求与所述关键词关联的数据。
8.根据权利要求7所述的信息交互装置,其特征在于,所述装置还包括第六处理单元,用于所述网页向网页服务器请求访问令牌前,
确定所述网页的DOM文档对象模型树结构中与所述关键词匹配的标签所在目标节点;
基于所述目标节点在所述DOM的位置,生成用于在所述网页中检索所述关键词的路径规则;
输入所述路径规则至所述网页的关键词检索框,获取所述目标节点位置处的所有关键词。
9.一种终端,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行所述计算机程序时,执行权利要求1至6任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
CN202110552163.0A 2021-05-20 2021-05-20 信息交互方法、信息交互装置、终端及存储介质 Active CN113392306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110552163.0A CN113392306B (zh) 2021-05-20 2021-05-20 信息交互方法、信息交互装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110552163.0A CN113392306B (zh) 2021-05-20 2021-05-20 信息交互方法、信息交互装置、终端及存储介质

Publications (2)

Publication Number Publication Date
CN113392306A true CN113392306A (zh) 2021-09-14
CN113392306B CN113392306B (zh) 2022-07-12

Family

ID=77618139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110552163.0A Active CN113392306B (zh) 2021-05-20 2021-05-20 信息交互方法、信息交互装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN113392306B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115905767A (zh) * 2023-01-07 2023-04-04 珠海金智维信息科技有限公司 基于固定候选框目标检测算法的网页登录方法及系统
WO2024040524A1 (zh) * 2022-08-25 2024-02-29 西门子股份公司 数据提取方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358534A (zh) * 2017-06-29 2017-11-17 浙江理工大学 社交网络的无偏数据采集系统及采集方法
KR20180043156A (ko) * 2016-10-19 2018-04-27 한국전자통신연구원 3d 협업 프린팅 서비스를 제공하는 서비스 서버, 사용자 단말기 및 3d 협업 프린팅 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180043156A (ko) * 2016-10-19 2018-04-27 한국전자통신연구원 3d 협업 프린팅 서비스를 제공하는 서비스 서버, 사용자 단말기 및 3d 협업 프린팅 방법
CN107358534A (zh) * 2017-06-29 2017-11-17 浙江理工大学 社交网络的无偏数据采集系统及采集方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024040524A1 (zh) * 2022-08-25 2024-02-29 西门子股份公司 数据提取方法、装置、电子设备和存储介质
CN115905767A (zh) * 2023-01-07 2023-04-04 珠海金智维信息科技有限公司 基于固定候选框目标检测算法的网页登录方法及系统

Also Published As

Publication number Publication date
CN113392306B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
US9680856B2 (en) System and methods for scalably identifying and characterizing structural differences between document object models
CN103888490B (zh) 一种全自动的web客户端人机识别的方法
CN108399150B (zh) 文本处理方法、装置、计算机设备和存储介质
CN109376291B (zh) 一种基于网络爬虫的网站指纹信息扫描的方法及装置
CN113392306B (zh) 信息交互方法、信息交互装置、终端及存储介质
CN104956362A (zh) 分析web应用程序的结构
CN108268635B (zh) 用于获取数据的方法和装置
WO2014139302A1 (en) Information sharing method and system
CN107590236B (zh) 一种面向建筑施工企业的大数据采集方法和系统
CN103294732A (zh) 网页抓取方法及爬虫
CN102760150A (zh) 基于属性重现和标签路径的网页抽取方法
CN111221711A (zh) 用户行为数据处理方法、服务器及存储介质
RU2632149C2 (ru) Система, способ и постоянный машиночитаемый носитель для проверки веб-страниц
CN113408254A (zh) 一种页面表单信息填写方法、装置、设备和可读介质
CN110276183B (zh) 反向图灵验证方法及装置、存储介质、电子设备
Shen et al. A Catalogue Service for Internet GIS ervices Supporting Active Service Evaluation and Real‐Time Quality Monitoring
CN114021045A (zh) 用户来源渠道标记的方法、装置、设备及存储介质
CN115242638B (zh) 可行触达的筛选方法、装置、电子设备及存储介质
CN111177501B (zh) 一种标签处理方法、装置及系统
Pan et al. Automatically maintaining navigation sequences for querying semi-structured web sources
CN113420234B (zh) 一种微博数据采集方法与系统
CN117492752A (zh) 一种页面动态配置方法、装置、计算机设备及存储介质
Lu Replacing a monolithic web application with a new backend framework
Santos Updating accessibility monitoring tools with sampling capabilities
CN117435238A (zh) 页面配置方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant