CN111639284A - 网页标注方法、装置、电子设备及介质 - Google Patents

网页标注方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN111639284A
CN111639284A CN202010475519.0A CN202010475519A CN111639284A CN 111639284 A CN111639284 A CN 111639284A CN 202010475519 A CN202010475519 A CN 202010475519A CN 111639284 A CN111639284 A CN 111639284A
Authority
CN
China
Prior art keywords
information
webpage
target
labeling
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010475519.0A
Other languages
English (en)
Inventor
周威
王大伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202010475519.0A priority Critical patent/CN111639284A/zh
Publication of CN111639284A publication Critical patent/CN111639284A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Abstract

本发明涉及大数据,提供一种网页标注方法,该方法能够当接收到标注请求时,根据所述标注请求确定待标注网页,监测所述待标注网页上的触发事件,得到目标区域,提取所述目标区域中的信息,并确定所述信息所属的类型,从配置标签库中获取与所述类型对应的多个预设标签,并获取与所述多个预设标签对应的数据,根据所述多个预设标签及所述数据,构建目标模型,将所述信息输入至所述目标模型中,生成标注信息,提高标注信息的生成效率,根据所述目标区域及所述标注信息建立标识并保存所述标识,不仅实现了网页的快速标注,还避免了不同用户对同一区域进行标注时产生的标注信息覆盖。本发明还涉及区块链技术,所述标注信息存储于区块链中。

Description

网页标注方法、装置、电子设备及介质
技术领域
本发明涉及大数据的数据处理技术领域,尤其涉及一种网页标注方法、装置、电子设备及介质。
背景技术
随着大数据及互联网的发展,大量公开数据存储在互联网中,使得互联网成为用户了解数据信息的重要途径。为了帮助用户快速理解互联网上的信息,在很多场景下,都会使用到网页标注。
在现有的技术方案中,首先选中网页上的文字区域,专家进一步对文字区域中对应的文字进行阅读分析,进而得到标注信息,并以标注信息对该文字区域进行标注,然而,这种标注方法只能针对网页上的文字信息,而无法对网页上的图片及按键等进行标注,另外,由于在选中网页上的文字区域时会有较长的时延,以及人为对文字区域内的文字进行分析需要花费较长的时间,因此,这种标注方式也会降低标注效率。
因此,如何构建一种新的网页标注方法,以实现对多种类型的信息进行快速标注,以及实现对多种类型的信息进行标注,成了有待解决的技术问题。
发明内容
鉴于以上内容,有必要提供一种网页标注方法、装置、电子设备及介质,不仅能够实现网页的快速标注,还能避免不同用户对同一区域进行标注时产生的标注信息覆盖,同时,还能够解决只对文字类型进行标注的问题。
一种网页标注方法,所述方法包括:
当接收到标注请求时,根据所述标注请求确定待标注网页;
监测所述待标注网页上的触发事件,得到目标区域;
提取所述目标区域中的信息,并确定所述信息所属的类型;
从配置标签库中获取与所述类型对应的多个预设标签,并获取与所述多个预设标签对应的数据;
根据所述多个预设标签及所述数据,构建目标模型;
将所述信息输入至所述目标模型中,生成标注信息;
根据所述目标区域及所述标注信息建立标识,并保存所述标识。
根据本发明优选实施例,所述根据所述标注请求确定待标注网页包括:
从预设库中获取目标标签,所述目标标签是指页面地址对应的标签;
从所述标注请求中提取与所述目标标签对应的信息,作为页面地址;
根据所述页面地址定位所述待标注网页。
根据本发明优选实施例,所述监测所述待标注网页上的触发事件,得到目标区域包括:
当监测到所述待标注网页上有悬停事件产生时,向所述待标注网页发出超文本传输协议请求,得到所述待标注网页的应答报文;
采用UTF-8技术解码所述应答报文,得到所述待标注网页的源代码;
根据所述源代码生成所述待标注网页对应的文档对象模型;
从所述文档对象模型中确定与所述悬停事件对应的DIV标签,并将所述DIV标签对应的区域作为待标注区域;
当监测到所述待标注区域上有移动事件产生时,确定与所述移动事件对应的子标签,并监测所述子标签对应的区域;
当监测到所述子标签对应的区域上有点击事件产生时,将所述子标签对应的区域确定为所述目标区域。
根据本发明优选实施例,在从配置标签库中获取与所述类型对应的多个预设标签之前,所述方法还包括:
获取多个类型对应的查询日志;
从所述查询日志中筛选出符合预设模式的查询语句,所述预设模式表征所述查询语句中的实体与标签的对应关系;
获取所述查询语句的浏览量;
按照浏览量从多到少的顺序对所述查询语句进行排序,并从排序后的查询语句中提取标签以生成标签列表;
对所述标签列表中的标签进行归一化处理,生成所述配置标签库。
根据本发明优选实施例,所述根据所述多个预设标签及所述数据,构建目标模型包括:
将所述数据输入至遗忘门层进行遗忘处理,得到训练数据;
采用交叉验证法将所述训练数据划分为训练集及验证集;
将所述训练集中的数据输入到输入门层进行训练,得到学习器;
根据所述验证集中的数据,调整所述学习器,得到所述目标模型。
根据本发明优选实施例,所述标注信息存储于区块链中,在生成标注信息后,所述方法还包括:
获取所述标注请求的请求编号;
根据所述请求编号及所述标注信息,生成提示信息;
采用对称加密技术加密所述提示信息,得到密文;
当检测到所述密文解密成功时,显示所述提示信息,并监测所述提示信息对应的修改按键是否被触发;
当监测到所述修改按键被触发时,获取所述修改按键对应的目标信息,并以所述目标信息更改所述标注信息。
根据本发明优选实施例,所述保存所述标识包括以下一种或者多种方式的组合:
建立所述页面地址与所述标识的第一映射关系,并建立所述标识与所述目标区域和所述标注信息的第二映射关系,将所述第一映射关系及所述第二映射关系保存于数据库中;及/或
将所述标注信息以class标签形式插入至所述源代码中,得到目标代码,建立所述页面地址与所述目标代码的第三映射关系,将所述第三映射关系保存于所述数据库中。
一种网页标注装置,所述装置包括:
确定单元,用于当接收到标注请求时,根据所述标注请求确定待标注网页;
监测单元,用于监测所述待标注网页上的触发事件,得到目标区域;
所述确定单元,还用于提取所述目标区域中的信息,并确定所述信息所属的类型;
获取单元,用于从配置标签库中获取与所述类型对应的多个预设标签,并获取与所述多个预设标签对应的数据;
构建单元,用于根据所述多个预设标签及所述数据,构建目标模型;
生成单元,用于将所述信息输入至所述目标模型中,生成标注信息;
保存单元,用于根据所述目标区域及所述标注信息建立标识,并保存所述标识。
根据本发明优选实施例,所述确定单元根据所述标注请求确定待标注网页包括:
从预设库中获取目标标签,所述目标标签是指页面地址对应的标签;
从所述标注请求中提取与所述目标标签对应的信息,作为页面地址;
根据所述页面地址定位所述待标注网页。
根据本发明优选实施例,所述监测单元监测所述待标注网页上的触发事件,得到目标区域包括:
当监测到所述待标注网页上有悬停事件产生时,向所述待标注网页发出超文本传输协议请求,得到所述待标注网页的应答报文;
采用UTF-8技术解码所述应答报文,得到所述待标注网页的源代码;
根据所述源代码生成所述待标注网页对应的文档对象模型;
从所述文档对象模型中确定与所述悬停事件对应的DIV标签,并将所述DIV标签对应的区域作为待标注区域;
当监测到所述待标注区域上有移动事件产生时,确定与所述移动事件对应的子标签,并监测所述子标签对应的区域;
当监测到所述子标签对应的区域上有点击事件产生时,将所述子标签对应的区域确定为所述目标区域。
根据本发明优选实施例,所述获取单元,还用于在从配置标签库中获取与所述类型对应的多个预设标签之前,获取多个类型对应的查询日志;
所述装置还包括:
筛选单元,用于从所述查询日志中筛选出符合预设模式的查询语句,所述预设模式表征所述查询语句中的实体与标签的对应关系;
所述获取单元,还用于获取所述查询语句的浏览量;
排序单元,用于按照浏览量从多到少的顺序对所述查询语句进行排序,并从排序后的查询语句中提取标签以生成标签列表;
所述生成单元,还用于对所述标签列表中的标签进行归一化处理,生成所述配置标签库。
根据本发明优选实施例,所述构建单元具体用于:
将所述数据输入至遗忘门层进行遗忘处理,得到训练数据;
采用交叉验证法将所述训练数据划分为训练集及验证集;
将所述训练集中的数据输入到输入门层进行训练,得到学习器;
根据所述验证集中的数据,调整所述学习器,得到所述目标模型。
根据本发明优选实施例,所述获取单元,还用于在生成标注信息后,获取所述标注请求的请求编号;
所述生成单元,还用于根据所述请求编号及所述标注信息,生成提示信息;
所述装置还包括:
加密单元,用于采用对称加密技术加密所述提示信息,得到密文;
所述监测单元,还用于当检测到所述密文解密成功时,显示所述提示信息,并监测所述提示信息对应的修改按键是否被触发;
更改单元,用于当监测到所述修改按键被触发时,获取所述修改按键对应的目标信息,并以所述目标信息更改所述标注信息。
根据本发明优选实施例,所述保存单元具体用于:
建立所述页面地址与所述标识的第一映射关系,并建立所述标识与所述目标区域和所述标注信息的第二映射关系,将所述第一映射关系及所述第二映射关系保存于数据库中;及/或
将所述标注信息以class标签形式插入至所述源代码中,得到目标代码,建立所述页面地址与所述目标代码的第三映射关系,将所述第三映射关系保存于所述数据库中。
一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,获取所述存储器中存储的指令以实现所述网页标注方法。
一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器获取以实现所述网页标注方法。
由以上技术方案可以看出,本发明能够当接收到标注请求时,根据所述标注请求确定待标注网页,监测所述待标注网页上的触发事件,得到目标区域,不仅能够准确地确定所述目标区域的位置,还能提高所述目标区域的确认效率,提取所述目标区域中的信息,并确定所述信息所属的类型,通过所述目标区域对应的目标代码能够准确地确定所述类型,从配置标签库中获取与所述类型对应的多个预设标签,并获取与所述多个预设标签对应的数据,根据所述多个预设标签及所述数据,构建目标模型,通过训练所述类型中多个预设标签对应的数据,能够从多个维度确定所述目标模型,将所述信息输入至所述目标模型中,生成标注信息,提高标注信息的生成效率,根据所述目标区域及所述标注信息建立标识并保存所述标识,不仅实现了网页的快速标注,还避免了不同用户对同一区域进行标注时产生的标注信息覆盖,此外,由于本发明接收用户对多种类型的目标区域进行标注,为此,本发明还解决了只能对文字类型进行标注的问题。
附图说明
图1是本发明网页标注方法的较佳实施例的流程图。
图2是本发明网页标注装置的较佳实施例的功能模块图。
图3是本发明实现网页标注方法的较佳实施例的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,是本发明网页标注方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
所述网页标注方法应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital SignalProcessor,DSP)、嵌入式设备等。
所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备等。
所述电子设备还可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云。
所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
S10,当接收到标注请求时,根据所述标注请求确定待标注网页。
在本发明的至少一个实施例中,所述标注请求是指用户通过客户端的前端采用诸如超文本传输协议(Hyper Text Transfer Protocol,HTTP)等向客户端的后端发送标注请求指令,再由客户端的后端根据所述标注请求指令向所述电子设备发送的标注请求。进一步地,所述标注请求中的信息包括,但不限于:请求编号、页面地址等。
进一步地,所述待标注网页是指需要进行标注的网页。
在本发明的至少一个实施例中,所述电子设备根据所述标注请求确定待标注网页包括:
所述电子设备从预设库中获取目标标签,所述目标标签是指页面地址对应的标签,进一步地,所述电子设备从所述标注请求中提取与所述目标标签对应的信息,作为页面地址,所述电子设备根据所述页面地址定位所述待标注网页。
其中,所述预设库中存储至少一个标签,所述配置标签库中存储的标签是用来标识所述标注请求中信息所属的成分的。
通过所述页面地址,能够快速地链接到所述待标注网页。
S11,监测所述待标注网页上的触发事件,得到目标区域。
在本发明的至少一个实施例中,所述触发事件是指检测到的用户在所述待标注网页上进行的操作动作。比如,用户鼠标移入、用户鼠标悬停和用户点击等等。
进一步地,所述目标区域是指在所述待标注网页中被选中标注的区域,所述目标区域可以是由坐标点构成的区域,例如,目标区域甲是由坐标点(1,3)、坐标点(5,3)、坐标点(1,5)及坐标点(5,5)围成的区域。
在本发明的至少一个实施例中,所述电子设备监测所述待标注网页上的触发事件,得到目标区域包括:
当监测到所述待标注网页上有悬停事件产生时,所述电子设备向所述待标注网页发出超文本传输协议请求,得到所述待标注网页的应答报文,进一步地,所述电子设备采用UTF-8(8-bit Unicode Transformation Format,8位元)技术解码所述应答报文,得到所述待标注网页的源代码,所述电子设备根据所述源代码生成所述待标注网页对应的文档对象模型(Document Object Model,DOM),更进一步地,所述电子设备从所述文档对象模型中确定与所述悬停事件对应的DIV标签,并将所述DIV标签对应的区域作为待标注区域,当监测到所述待标注区域上有移动事件产生时,所述电子设备确定与所述移动事件对应的子标签,并监测所述子标签对应的区域,当监测到所述子标签对应的区域上有点击事件产生时,所述电子设备将所述子标签对应的区域确定为所述目标区域。
在其他实施例中,在所述待标注区域被确定后,所述电子设备未监测到所述待标注区域上有移动事件产生,并且所述电子设备监测到所述待标注区域上有点击事件产生时,所述电子设备将所述待标注区域确定为所述目标区域。
通过向所述待标注网页发出请求,能够直接获取到所述待标注网页的源代码,进而通过构建所述文档对象模型,能够准确地确定与所述悬停事件对应的待标注区域,所述待标注区域的确定,有效地辅助了用户识别出与所述悬停事件对应的区域,另外,在所述电子设备识别出的待标注区域不符合用户需求时,本发明还能通过监测所述待标注区域上的移动事件确定所述目标区域。
S12,提取所述目标区域中的信息,并确定所述信息所属的类型。
在本发明的至少一个实施例中,所述类型可以包括,但不限于:文字类型、图片类型、按键类型等。
在本发明的至少一个实施例中,所述电子设备确定所述信息所属的类型包括:
所述电子设备从所述源代码中提取与所述目标区域对应的目标代码,进一步地,当检测到所述目标代码中的标签为<img>标签时,所述电子设备将所述图片类型确定为所述信息的类型,当检测到所述目标代码中的标签为<button>标签或者<span>标签时,所述电子设备将所述按键类型确定为所述信息的类型,当检测到所述目标代码中的标签不为<img>标签、<button>标签及<span>标签中的任一标签时,所述电子设备将所述文字类型确定为所述信息的类型。
S13,从配置标签库中获取与所述类型对应的多个预设标签,并获取与所述多个预设标签对应的数据。
在本发明的至少一个实施例中,当所述类型为所述文字类型时,所述多个预设标签可以包括,但不限于:网页正文、评论留言等,当所述类型为所述图片类型时,所述多个预设标签可以包括,但不限于:风景图、人像图等。
在本发明的至少一个实施例中,在从配置标签库中获取与所述类型对应的多个预设标签之前,所述方法还包括:
所述电子设备获取多个类型对应的查询日志,所述电子设备从所述查询日志中筛选出符合预设模式的查询语句,所述预设模式表征所述查询语句中的实体与标签的对应关系,进一步地,所述电子设备获取所述查询语句的浏览量,并按照浏览量从多到少的顺序对所述查询语句进行排序,并从排序后的查询语句中提取标签以生成标签列表,更进一步地,所述电子设备对所述标签列表中的标签进行归一化处理,生成所述配置标签库。
通过对所述查询日志进行分析处理,能够确定出用户的关注度,进而根据用户的关注度确定所述标签列表,使得所述标签列表中的标签更符合用户的需求,进而通过对所述标签列表中的标签进行归一化处理,能够将含义相同且表述不同的标签进行整合,避免了所述配置标签库中出现重复的标签,节约了所述电子设备的内存。
在本发明的至少一个实施例中,所述电子设备采用网络爬虫技术获取与所述多个预设标签对应的数据,并将获取到的数据集合成数据集。
S14,根据所述多个预设标签及所述数据,构建目标模型。
在本发明的至少一个实施例中,所述目标模型是通过所述类型中的多个预设标签及多个预设标签对应的数据训练而来的,因此,所述目标模型与所述类型对应,也就是说,所述类型的种类的数量与所述目标模型的数量相同。例如,目标模型D与文字类型相对应,目标模型F与图片类型相对应。
在本发明的至少一个实施例中,在构建目标模型之前,所述方法还包括:
所述电子设备计算所述类型对应的数据的个数,并检测所述个数是否大于或者等于阈值,当所述个数小于所述阈值时,所述电子设备通过扰动法增加所述类型对应的数据的数量,直至所述个数大于或者等于所述阈值。
通过上述实施方式,能够避免所述类型的样本数量不足导致训练得到的目标模型的泛化能力差。
在本发明的至少一个实施例中,所述电子设备根据所述多个预设标签及所述数据,构建目标模型包括:
所述电子设备将所述数据输入至遗忘门层进行遗忘处理,得到训练数据,进一步地,所述电子设备采用交叉验证法将所述训练数据划分为训练集及验证集,所述电子设备将所述训练集中的数据输入到输入门层进行训练,得到学习器,更进一步地,所述电子设备根据所述验证集中的数据,调整所述学习器,得到所述目标模型。
具体地,所述电子设备采用交叉验证法将所述训练数据划分为训练集及验证集包括:
所述电子设备将所述训练数据按照预设比例随机划分为至少一个数据包,将所述至少一个数据包中的任意一个数据包确定为所述验证集,其余的数据包确定为所述训练集,重复上述步骤,直至所有的数据包全都依次被用作为所述验证集。
其中,所述预设比例可以自定义设置,本发明不作限制。
通过上述实施方式,使所述数据中的每个数据均参与训练及验证,由此,提高训练所述目标模型的拟合度。
具体地,所述电子设备根据所述验证集中的数据,调整所述学习器,得到所述目标模型包括:
所述电子设备采用超参数网格搜索方法从所述验证集中确定最优超参数点,进一步地,所述电子设备通过所述最优超参数点对所述学习器进行调整,得到所述目标模型。
具体地,所述电子设备将所述验证集按照固定步长进行拆分,得到目标子集,遍历所述目标子集上两端端点的参数,通过所述两端端点的参数验证所述学习器,得到每个参数的学习率,将学习率最好的参数确定为第一超参数点,并在所述第一超参数点的邻域内,缩小所述步长继续遍历,直至所述步长为预设步长,即得到的超参数点为所述最优超参数点,更进一步地,所述电子设备根据所述最优超参数点调整所述学习器,得到所述目标模型。
其中,本发明对所述预设步长不作限制。
通过学习率调整所述学习器,能够得到较为精确的目标模型。
S15,将所述信息输入至所述目标模型中,生成标注信息。
在本发明的至少一个实施例中,所述标注信息为所述多个预设标签中的任意标签。
在本发明的至少一个实施例中,在生成标注信息后,所述方法还包括:
所述电子设备获取所述标注请求的请求编号,并根据所述请求编号及所述标注信息,生成提示信息,所述电子设备采用对称加密技术加密所述提示信息,得到密文,当检测到所述密文解密成功时,所述电子设备显示所述提示信息,并监测所述提示信息对应的修改按键是否被触发,当监测到所述修改按键被触发时,所述电子设备获取所述修改按键对应的目标信息,并以所述目标信息更改所述标注信息。需要强调的是,为进一步保证上述标注信息的私密和安全性,上述标注信息还可以存储于一区块链的节点中。
通过生成所述提示信息,能够提醒相关人员对所述标注请求对应的响应结果进行查收,通过对所述提示信息进行加密处理,能够避免所述提示信息被篡改,进而防止相关人员获取到错误的提示信息,另外,在生成的标注信息不符合用户要求时,还能获取到符合用户要求的目标信息,进而确保与所述目标区域建立标识的标注信息的准确性。
在本发明的至少一个实施例中,在监测到所述修改按键被触发后,所述方法还包括:
所述电子设备计算预设时间内所述修改按键被触发的次数,当所述次数超过配置值时,所述电子设备获取所述预设时间内所述修改按键对应的目标信息,及获取所述目标信息对应的目标区域中的信息,并将所述目标信息及所述目标区域中的信息确定为目标数据,进一步地,所述电子设备根据所述目标数据对所述目标模型进行调整。
通过上述实施方式,能够使调整得到的目标模型更为精确。
S16,根据所述目标区域及所述标注信息建立标识,并保存所述标识。
在本发明的至少一个实施例中,所述标识表征所述目标区域与所述标注信息之间的对应关系。
在本发明的至少一个实施例中,所述电子设备保存所述标识包括以下一种或者多种方式的组合:
(1)所述电子设备建立所述页面地址与所述标识的第一映射关系,并建立所述标识与所述目标区域和所述标注信息的第二映射关系,将所述第一映射关系及所述第二映射关系保存于数据库中。
通过上述实施方式,便于用户从所述数据库中调取到标识,另外,将所述标识保存于所述数据库中,能够有效避免不同用户对同一区域进行标注时产生覆盖,进而导致标注信息的缺失。
(2)所述电子设备将所述标注信息以class标签形式插入至所述源代码中,得到目标代码,建立所述页面地址与所述目标代码的第三映射关系,将所述第三映射关系保存于所述数据库中。
通过将所述标注信息插入至所述源代码中,使第三方用户能够快速获取到所述标注信息,以便所述第三方用户快速了解所述目标区域中的信息。
由以上技术方案可以看出,本发明能够当接收到标注请求时,根据所述标注请求确定待标注网页,监测所述待标注网页上的触发事件,得到目标区域,不仅能够准确地确定所述目标区域的位置,还能提高所述目标区域的确认效率,提取所述目标区域中的信息,并确定所述信息所属的类型,通过所述目标区域对应的目标代码能够准确地确定所述类型,从配置标签库中获取与所述类型对应的多个预设标签,并获取与所述多个预设标签对应的数据,根据所述多个预设标签及所述数据,构建目标模型,通过训练所述类型中多个预设标签对应的数据,能够从多个维度确定所述目标模型,将所述信息输入至所述目标模型中,生成标注信息,提高标注信息的生成效率,根据所述目标区域及所述标注信息建立标识并保存所述标识,不仅实现了网页的快速标注,还避免了不同用户对同一区域进行标注时产生的标注信息覆盖,此外,由于本发明接收用户对多种类型的目标区域进行标注,为此,本发明还解决了只能对文字类型进行标注的问题。
如图2所示,是本发明网页标注装置的较佳实施例的功能模块图。所述网页标注装置11包括确定单元110、监测单元111、获取单元112、构建单元113、生成单元114、保存单元115、筛选单元116、排序单元117、加密单元118、更改单元119及计算单元120。本发明所称的模块/单元是指一种能够被处理器13所获取,并且能够完成固定功能的一系列计算机程序段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。
当接收到标注请求时,确定单元110根据所述标注请求确定待标注网页。
在本发明的至少一个实施例中,所述标注请求是指用户通过客户端的前端采用诸如超文本传输协议(Hyper Text Transfer Protocol,HTTP)等向客户端的后端发送标注请求指令,再由客户端的后端根据所述标注请求指令向所述电子设备发送的标注请求。进一步地,所述标注请求中的信息包括,但不限于:请求编号、页面地址等。
进一步地,所述待标注网页是指需要进行标注的网页。
在本发明的至少一个实施例中,所述确定单元110根据所述标注请求确定待标注网页包括:
所述确定单元110从预设库中获取目标标签,所述目标标签是指页面地址对应的标签,进一步地,所述确定单元110从所述标注请求中提取与所述目标标签对应的信息,作为页面地址,所述确定单元110根据所述页面地址定位所述待标注网页。
其中,所述预设库中存储至少一个标签,所述配置标签库中存储的标签是用来标识所述标注请求中信息所属的成分的。
通过所述页面地址,能够快速地链接到所述待标注网页。
监测单元111监测所述待标注网页上的触发事件,得到目标区域。
在本发明的至少一个实施例中,所述触发事件是指检测到的用户在所述待标注网页上进行的操作动作。比如,用户鼠标移入、用户鼠标悬停和用户点击等等。
进一步地,所述目标区域是指在所述待标注网页中被选中标注的区域,所述目标区域可以是由坐标点构成的区域,例如,目标区域甲是由坐标点(1,3)、坐标点(5,3)、坐标点(1,5)及坐标点(5,5)围成的区域。
在本发明的至少一个实施例中,所述监测单元111监测所述待标注网页上的触发事件,得到目标区域包括:
当监测到所述待标注网页上有悬停事件产生时,所述监测单元111向所述待标注网页发出超文本传输协议请求,得到所述待标注网页的应答报文,进一步地,所述监测单元111采用UTF-8(8-bit Unicode Transformation Format,8位元)技术解码所述应答报文,得到所述待标注网页的源代码,所述监测单元111根据所述源代码生成所述待标注网页对应的文档对象模型(Document Object Model,DOM),更进一步地,所述监测单元111从所述文档对象模型中确定与所述悬停事件对应的DIV标签,并将所述DIV标签对应的区域作为待标注区域,当监测到所述待标注区域上有移动事件产生时,所述监测单元111确定与所述移动事件对应的子标签,并监测所述子标签对应的区域,当监测到所述子标签对应的区域上有点击事件产生时,所述监测单元111将所述子标签对应的区域确定为所述目标区域。
在其他实施例中,在所述待标注区域被确定后,所述监测单元111未监测到所述待标注区域上有移动事件产生,并且所述监测单元111监测到所述待标注区域上有点击事件产生时,所述监测单元111将所述待标注区域确定为所述目标区域。
通过向所述待标注网页发出请求,能够直接获取到所述待标注网页的源代码,进而通过构建所述文档对象模型,能够准确地确定与所述悬停事件对应的待标注区域,所述待标注区域的确定,有效地辅助了用户识别出与所述悬停事件对应的区域,另外,在所述监测单元111识别出的待标注区域不符合用户需求时,本发明还能通过监测所述待标注区域上的移动事件确定所述目标区域。
所述确定单元110提取所述目标区域中的信息,并确定所述信息所属的类型。
在本发明的至少一个实施例中,所述类型可以包括,但不限于:文字类型、图片类型、按键类型等。
在本发明的至少一个实施例中,所述确定单元110确定所述信息所属的类型包括:
所述确定单元110从所述源代码中提取与所述目标区域对应的目标代码,进一步地,当检测到所述目标代码中的标签为<img>标签时,所述确定单元110将所述图片类型确定为所述信息的类型,当检测到所述目标代码中的标签为<button>标签或者<span>标签时,所述确定单元110将所述按键类型确定为所述信息的类型,当检测到所述目标代码中的标签不为<img>标签、<button>标签及<span>标签中的任一标签时,所述确定单元110将所述文字类型确定为所述信息的类型。
获取单元112从配置标签库中获取与所述类型对应的多个预设标签,并获取与所述多个预设标签对应的数据。
在本发明的至少一个实施例中,当所述类型为所述文字类型时,所述多个预设标签可以包括,但不限于:网页正文、评论留言等,当所述类型为所述图片类型时,所述多个预设标签可以包括,但不限于:风景图、人像图等。
在本发明的至少一个实施例中,在从配置标签库中获取与所述类型对应的多个预设标签之前,所述获取单元112获取多个类型对应的查询日志,筛选单元116从所述查询日志中筛选出符合预设模式的查询语句,所述预设模式表征所述查询语句中的实体与标签的对应关系,进一步地,所述获取单元112获取所述查询语句的浏览量,排序单元117按照浏览量从多到少的顺序对所述查询语句进行排序,并从排序后的查询语句中提取标签以生成标签列表,更进一步地,生成单元114对所述标签列表中的标签进行归一化处理,生成所述配置标签库。
通过对所述查询日志进行分析处理,能够确定出用户的关注度,进而根据用户的关注度确定所述标签列表,使得所述标签列表中的标签更符合用户的需求,进而通过对所述标签列表中的标签进行归一化处理,能够将含义相同且表述不同的标签进行整合,避免了所述配置标签库中出现重复的标签,节约了电子设备的内存。
在本发明的至少一个实施例中,所述获取单元112采用网络爬虫技术获取与所述多个预设标签对应的数据,并将获取到的数据集合成数据集。
构建单元113根据所述多个预设标签及所述数据,构建目标模型。
在本发明的至少一个实施例中,所述目标模型是通过所述类型中的多个预设标签及多个预设标签对应的数据训练而来的,因此,所述目标模型与所述类型对应,也就是说,所述类型的种类的数量与所述目标模型的数量相同。例如,目标模型D与文字类型相对应,目标模型F与图片类型相对应。
在本发明的至少一个实施例中,在构建目标模型之前,计算单元120计算所述类型对应的数据的个数,并检测所述个数是否大于或者等于阈值,当所述个数小于所述阈值时,所述计算单元120通过扰动法增加所述类型对应的数据的数量,直至所述个数大于或者等于所述阈值。
通过上述实施方式,能够避免所述类型的样本数量不足导致训练得到的目标模型的泛化能力差。
在本发明的至少一个实施例中,所述构建单元113根据所述多个预设标签及所述数据,构建目标模型包括:
所述构建单元113将所述数据输入至遗忘门层进行遗忘处理,得到训练数据,进一步地,所述构建单元113采用交叉验证法将所述训练数据划分为训练集及验证集,所述构建单元113将所述训练集中的数据输入到输入门层进行训练,得到学习器,更进一步地,所述构建单元113根据所述验证集中的数据,调整所述学习器,得到所述目标模型。
具体地,所述构建单元113采用交叉验证法将所述训练数据划分为训练集及验证集包括:
所述构建单元113将所述训练数据按照预设比例随机划分为至少一个数据包,将所述至少一个数据包中的任意一个数据包确定为所述验证集,其余的数据包确定为所述训练集,重复上述步骤,直至所有的数据包全都依次被用作为所述验证集。
其中,所述预设比例可以自定义设置,本发明不作限制。
通过上述实施方式,使所述数据中的每个数据均参与训练及验证,由此,提高训练所述目标模型的拟合度。
具体地,所述构建单元113根据所述验证集中的数据,调整所述学习器,得到所述目标模型包括:
所述构建单元113采用超参数网格搜索方法从所述验证集中确定最优超参数点,进一步地,所述构建单元113通过所述最优超参数点对所述学习器进行调整,得到所述目标模型。
具体地,所述构建单元113将所述验证集按照固定步长进行拆分,得到目标子集,遍历所述目标子集上两端端点的参数,通过所述两端端点的参数验证所述学习器,得到每个参数的学习率,将学习率最好的参数确定为第一超参数点,并在所述第一超参数点的邻域内,缩小所述步长继续遍历,直至所述步长为预设步长,即得到的超参数点为所述最优超参数点,更进一步地,所述构建单元113根据所述最优超参数点调整所述学习器,得到所述目标模型。
其中,本发明对所述预设步长不作限制。
通过学习率调整所述学习器,能够得到较为精确的目标模型。
所述生成单元114将所述信息输入至所述目标模型中,生成标注信息。
在本发明的至少一个实施例中,所述标注信息为所述多个预设标签中的任意标签。
在本发明的至少一个实施例中,在生成标注信息后,所述获取单元112获取所述标注请求的请求编号,所述生成单元114根据所述请求编号及所述标注信息,生成提示信息,加密单元118采用对称加密技术加密所述提示信息,得到密文,当检测到所述密文解密成功时,所述监测单元111显示所述提示信息,并监测所述提示信息对应的修改按键是否被触发,当监测到所述修改按键被触发时,更改单元119获取所述修改按键对应的目标信息,并以所述目标信息更改所述标注信息。需要强调的是,为进一步保证上述标注信息的私密和安全性,上述标注信息还可以存储于一区块链的节点中。
通过生成所述提示信息,能够提醒相关人员对所述标注请求对应的响应结果进行查收,通过对所述提示信息进行加密处理,能够避免所述提示信息被篡改,进而防止相关人员获取到错误的提示信息,另外,在生成的标注信息不符合用户要求时,还能获取到符合用户要求的目标信息,进而确保与所述目标区域建立标识的标注信息的准确性。
在本发明的至少一个实施例中,在监测到所述修改按键被触发后,所述计算单元120计算预设时间内所述修改按键被触发的次数,当所述次数超过配置值时,所述获取单元112获取所述预设时间内所述修改按键对应的目标信息,及获取所述目标信息对应的目标区域中的信息,所述确定单元110将所述目标信息及所述目标区域中的信息确定为目标数据,进一步地,所述构建单元113根据所述目标数据对所述目标模型进行调整。
通过上述实施方式,能够使调整得到的目标模型更为精确。
保存单元115根据所述目标区域及所述标注信息建立标识,并保存所述标识。
在本发明的至少一个实施例中,所述标识表征所述目标区域与所述标注信息之间的对应关系。
在本发明的至少一个实施例中,所述保存单元115保存所述标识包括以下一种或者多种方式的组合:
(1)所述保存单元115建立所述页面地址与所述标识的第一映射关系,并建立所述标识与所述目标区域和所述标注信息的第二映射关系,将所述第一映射关系及所述第二映射关系保存于数据库中。
通过上述实施方式,便于用户从所述数据库中调取到标识,另外,将所述标识保存于所述数据库中,能够有效避免不同用户对同一区域进行标注时产生覆盖,进而导致标注信息的缺失。
(2)所述保存单元115将所述标注信息以class标签形式插入至所述源代码中,得到目标代码,建立所述页面地址与所述目标代码的第三映射关系,将所述第三映射关系保存于所述数据库中。
通过将所述标注信息插入至所述源代码中,使第三方用户能够快速获取到所述标注信息,以便所述第三方用户快速了解所述目标区域中的信息。
由以上技术方案可以看出,本发明能够当接收到标注请求时,根据所述标注请求确定待标注网页,监测所述待标注网页上的触发事件,得到目标区域,不仅能够准确地确定所述目标区域的位置,还能提高所述目标区域的确认效率,提取所述目标区域中的信息,并确定所述信息所属的类型,通过所述目标区域对应的目标代码能够准确地确定所述类型,从配置标签库中获取与所述类型对应的多个预设标签,并获取与所述多个预设标签对应的数据,根据所述多个预设标签及所述数据,构建目标模型,通过训练所述类型中多个预设标签对应的数据,能够从多个维度确定所述目标模型,将所述信息输入至所述目标模型中,生成标注信息,提高标注信息的生成效率,根据所述目标区域及所述标注信息建立标识并保存所述标识,不仅实现了网页的快速标注,还避免了不同用户对同一区域进行标注时产生的标注信息覆盖,此外,由于本发明接收用户对多种类型的目标区域进行标注,为此,本发明还解决了只能对文字类型进行标注的问题。
如图3所示,是本发明实现网页标注方法的较佳实施例的电子设备的结构示意图。
在本发明的一个实施例中,所述电子设备1包括,但不限于,存储器12、处理器13,以及存储在所述存储器12中并可在所述处理器13上运行的计算机程序,例如网页标注程序。
本领域技术人员可以理解,所述示意图仅仅是电子设备1的示例,并不构成对电子设备1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备1还可以包括输入输出设备、网络接入设备、总线等。
所述处理器13可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器13是所述电子设备1的运算核心和控制中心,利用各种接口和线路连接整个电子设备1的各个部分,及获取所述电子设备1的操作系统以及安装的各类应用程序、程序代码等。
所述处理器13获取所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13获取所述应用程序以实现上述各个网页标注方法实施例中的步骤,例如图1所示的步骤。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器13获取,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述电子设备1中的获取过程。例如,所述计算机程序可以被分割成确定单元110、监测单元111、获取单元112、构建单元113、生成单元114、保存单元115、筛选单元116、排序单元117、加密单元118、更改单元119及计算单元120。
所述存储器12可用于存储所述计算机程序和/或模块,所述处理器13通过运行或获取存储在所述存储器12内的计算机程序和/或模块,以及调用存储在存储器12内的数据,实现所述电子设备1的各种功能。所述存储器12可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器12可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
所述存储器12可以是电子设备1的外部存储器和/或内部存储器。进一步地,所述存储器12可以是具有实物形式的存储器,如内存条、TF卡(Trans-flash Card)等等。
所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器获取时,可实现上述各个方法实施例的步骤。
其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可获取文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
结合图1,所述电子设备1中的所述存储器12存储多个指令以实现一种网页标注方法,所述处理器13可获取所述多个指令从而实现:当接收到标注请求时,根据所述标注请求确定待标注网页;监测所述待标注网页上的触发事件,得到目标区域;提取所述目标区域中的信息,并确定所述信息所属的类型;从配置标签库中获取与所述类型对应的多个预设标签,并获取与所述多个预设标签对应的数据;根据所述多个预设标签及所述数据,构建目标模型;将所述信息输入至所述目标模型中,生成标注信息;根据所述目标区域及所述标注信息建立标识,并保存所述标识。
具体地,所述处理器13对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种网页标注方法,其特征在于,所述网页标注方法包括:
当接收到标注请求时,根据所述标注请求确定待标注网页;
监测所述待标注网页上的触发事件,得到目标区域;
提取所述目标区域中的信息,并确定所述信息所属的类型;
从配置标签库中获取与所述类型对应的多个预设标签,并获取与所述多个预设标签对应的数据;
根据所述多个预设标签及所述数据,构建目标模型;
将所述信息输入至所述目标模型中,生成标注信息;
根据所述目标区域及所述标注信息建立标识,并保存所述标识。
2.如权利要求1所述的网页标注方法,其特征在于,所述根据所述标注请求确定待标注网页包括:
从预设库中获取目标标签,所述目标标签是指页面地址对应的标签;
从所述标注请求中提取与所述目标标签对应的信息,作为页面地址;
根据所述页面地址定位所述待标注网页。
3.如权利要求1所述的网页标注方法,其特征在于,所述监测所述待标注网页上的触发事件,得到目标区域包括:
当监测到所述待标注网页上有悬停事件产生时,向所述待标注网页发出超文本传输协议请求,得到所述待标注网页的应答报文;
采用UTF-8技术解码所述应答报文,得到所述待标注网页的源代码;
根据所述源代码生成所述待标注网页对应的文档对象模型;
从所述文档对象模型中确定与所述悬停事件对应的DIV标签,并将所述DIV标签对应的区域作为待标注区域;
当监测到所述待标注区域上有移动事件产生时,确定与所述移动事件对应的子标签,并监测所述子标签对应的区域;
当监测到所述子标签对应的区域上有点击事件产生时,将所述子标签对应的区域确定为所述目标区域。
4.如权利要求1所述的网页标注方法,其特征在于,在从配置标签库中获取与所述类型对应的多个预设标签之前,所述网页标注方法还包括:
获取多个类型对应的查询日志;
从所述查询日志中筛选出符合预设模式的查询语句,所述预设模式表征所述查询语句中的实体与标签的对应关系;
获取所述查询语句的浏览量;
按照浏览量从多到少的顺序对所述查询语句进行排序,并从排序后的查询语句中提取标签以生成标签列表;
对所述标签列表中的标签进行归一化处理,生成所述配置标签库。
5.如权利要求1所述的网页标注方法,其特征在于,所述根据所述多个预设标签及所述数据,构建目标模型包括:
将所述数据输入至遗忘门层进行遗忘处理,得到训练数据;
采用交叉验证法将所述训练数据划分为训练集及验证集;
将所述训练集中的数据输入到输入门层进行训练,得到学习器;
根据所述验证集中的数据,调整所述学习器,得到所述目标模型。
6.如权利要求1所述的网页标注方法,其特征在于,所述标注信息存储于区块链中,在生成标注信息后,所述网页标注方法还包括:
获取所述标注请求的请求编号;
根据所述请求编号及所述标注信息,生成提示信息;
采用对称加密技术加密所述提示信息,得到密文;
当检测到所述密文解密成功时,显示所述提示信息,并监测所述提示信息对应的修改按键是否被触发;
当监测到所述修改按键被触发时,获取所述修改按键对应的目标信息,并以所述目标信息更改所述标注信息。
7.如权利要求1所述的网页标注方法,其特征在于,所述保存所述标识包括以下一种或者多种方式的组合:
建立所述页面地址与所述标识的第一映射关系,并建立所述标识与所述目标区域和所述标注信息的第二映射关系,将所述第一映射关系及所述第二映射关系保存于数据库中;及/或
将所述标注信息以class标签形式插入至所述源代码中,得到目标代码,建立所述页面地址与所述目标代码的第三映射关系,将所述第三映射关系保存于所述数据库中。
8.一种网页标注装置,其特征在于,所述网页标注装置包括:
确定单元,用于当接收到标注请求时,根据所述标注请求确定待标注网页;
监测单元,用于监测所述待标注网页上的触发事件,得到目标区域;
所述确定单元,还用于提取所述目标区域中的信息,并确定所述信息所属的类型;
获取单元,用于从配置标签库中获取与所述类型对应的多个预设标签,并获取与所述多个预设标签对应的数据;
构建单元,用于根据所述多个预设标签及所述数据,构建目标模型;
生成单元,用于将所述信息输入至所述目标模型中,生成标注信息;
保存单元,用于根据所述目标区域及所述标注信息建立标识,并保存所述标识。
9.一种电子设备,其特征在于,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,获取所述存储器中存储的指令以实现如权利要求1至7中任意一项所述的网页标注方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器获取以实现如权利要求1至7中任意一项所述的网页标注方法。
CN202010475519.0A 2020-05-29 2020-05-29 网页标注方法、装置、电子设备及介质 Pending CN111639284A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010475519.0A CN111639284A (zh) 2020-05-29 2020-05-29 网页标注方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010475519.0A CN111639284A (zh) 2020-05-29 2020-05-29 网页标注方法、装置、电子设备及介质

Publications (1)

Publication Number Publication Date
CN111639284A true CN111639284A (zh) 2020-09-08

Family

ID=72330289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010475519.0A Pending CN111639284A (zh) 2020-05-29 2020-05-29 网页标注方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN111639284A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200472A (zh) * 2020-10-15 2021-01-08 平安国际智慧城市科技股份有限公司 伴随车辆检测方法、装置、电子设备及存储介质
CN112270319A (zh) * 2020-11-10 2021-01-26 杭州海康威视数字技术股份有限公司 一种事件标注方法、装置及电子设备
CN112288337A (zh) * 2020-12-15 2021-01-29 平安科技(深圳)有限公司 行为推荐方法、装置、设备及介质
CN112559940A (zh) * 2020-12-23 2021-03-26 平安银行股份有限公司 页面标注方法、装置、设备及介质
CN113157978A (zh) * 2021-01-15 2021-07-23 浪潮云信息技术股份公司 数据的标签建立方法和装置
CN113177543A (zh) * 2021-05-28 2021-07-27 平安国际智慧城市科技股份有限公司 证件识别方法、装置、设备及存储介质
CN113312131A (zh) * 2021-06-11 2021-08-27 北京百度网讯科技有限公司 标注工具的生成、运行方法和装置
CN113792203A (zh) * 2021-09-18 2021-12-14 重庆紫光华山智安科技有限公司 标注数据复用的方法及系统、电子设备、可读存储介质
CN116226557A (zh) * 2022-12-29 2023-06-06 中国科学院信息工程研究所 待标注数据的拾取方法、装置、电子设备和存储介质
CN117421000A (zh) * 2023-09-06 2024-01-19 北京饼干科技有限公司 生成分发网页的方法、装置、电子设备和存储介质
CN112559940B (zh) * 2020-12-23 2024-05-10 平安银行股份有限公司 页面标注方法、装置、设备及介质

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200472B (zh) * 2020-10-15 2023-12-29 平安国际智慧城市科技股份有限公司 伴随车辆检测方法、装置、电子设备及存储介质
CN112200472A (zh) * 2020-10-15 2021-01-08 平安国际智慧城市科技股份有限公司 伴随车辆检测方法、装置、电子设备及存储介质
CN112270319A (zh) * 2020-11-10 2021-01-26 杭州海康威视数字技术股份有限公司 一种事件标注方法、装置及电子设备
CN112270319B (zh) * 2020-11-10 2023-09-05 杭州海康威视数字技术股份有限公司 一种事件标注方法、装置及电子设备
CN112288337A (zh) * 2020-12-15 2021-01-29 平安科技(深圳)有限公司 行为推荐方法、装置、设备及介质
CN112559940A (zh) * 2020-12-23 2021-03-26 平安银行股份有限公司 页面标注方法、装置、设备及介质
CN112559940B (zh) * 2020-12-23 2024-05-10 平安银行股份有限公司 页面标注方法、装置、设备及介质
CN113157978A (zh) * 2021-01-15 2021-07-23 浪潮云信息技术股份公司 数据的标签建立方法和装置
CN113177543A (zh) * 2021-05-28 2021-07-27 平安国际智慧城市科技股份有限公司 证件识别方法、装置、设备及存储介质
CN113177543B (zh) * 2021-05-28 2024-01-23 平安国际智慧城市科技股份有限公司 证件识别方法、装置、设备及存储介质
CN113312131A (zh) * 2021-06-11 2021-08-27 北京百度网讯科技有限公司 标注工具的生成、运行方法和装置
CN113792203B (zh) * 2021-09-18 2023-05-16 重庆紫光华山智安科技有限公司 标注数据复用的方法及系统、电子设备、可读存储介质
CN113792203A (zh) * 2021-09-18 2021-12-14 重庆紫光华山智安科技有限公司 标注数据复用的方法及系统、电子设备、可读存储介质
CN116226557A (zh) * 2022-12-29 2023-06-06 中国科学院信息工程研究所 待标注数据的拾取方法、装置、电子设备和存储介质
CN116226557B (zh) * 2022-12-29 2024-04-19 中国科学院信息工程研究所 待标注数据的拾取方法、装置、电子设备和存储介质
CN117421000A (zh) * 2023-09-06 2024-01-19 北京饼干科技有限公司 生成分发网页的方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN111639284A (zh) 网页标注方法、装置、电子设备及介质
CN111694840B (zh) 数据同步方法、装置、服务器及存储介质
CN111695613B (zh) 数据标注系统、计算机可读存储介质及电子设备
CN108460582B (zh) 制度信息处理方法、装置、计算机设备和存储介质
CN110245469B (zh) 网页的水印生成方法、水印解析方法、装置及存储介质
CN111680634B (zh) 公文文件处理方法、装置、计算机设备及存储介质
CN111797351A (zh) 页面数据管理方法、装置、电子设备及介质
CN111459967A (zh) 结构化查询语句生成方法、装置、电子设备及介质
CN112183091A (zh) 问答对生成方法、装置、电子设备及可读存储介质
CN111796809A (zh) 接口文档生成方法、装置、电子设备及介质
WO2022174491A1 (zh) 基于人工智能的病历质控方法、装置、计算机设备及存储介质
CN112001179A (zh) 命名实体识别方法、装置、电子设备及可读存储介质
CN111552800A (zh) 摘要生成方法、装置、电子设备及介质
CN111985241A (zh) 医学信息查询方法、装置、电子设备及介质
CN112948418A (zh) 动态查询方法、装置、设备及存储介质
CN114035827A (zh) 应用程序更新方法、装置、设备及存储介质
CN111538816A (zh) 基于ai识别的问答方法、装置、电子设备及介质
WO2016188334A1 (zh) 一种用于处理应用访问数据的方法与设备
CN112001159A (zh) 文书生成方法、装置、电子设备及存储介质
CN112148956A (zh) 一种基于机器学习的暗网威胁情报挖掘系统和方法
CN113886204A (zh) 用户行为数据收集方法、装置、电子设备及可读存储介质
CN113204698A (zh) 新闻主题词生成方法、装置、设备及介质
CN116453125A (zh) 基于人工智能的数据录入方法、装置、设备及存储介质
WO2019136920A1 (zh) 话题演变的可视化展现方法、应用服务器及计算机可读存储介质
CN112364068A (zh) 课程标签生成方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination