CN107784056A - 页面数据查找方法及装置 - Google Patents

页面数据查找方法及装置 Download PDF

Info

Publication number
CN107784056A
CN107784056A CN201710090617.0A CN201710090617A CN107784056A CN 107784056 A CN107784056 A CN 107784056A CN 201710090617 A CN201710090617 A CN 201710090617A CN 107784056 A CN107784056 A CN 107784056A
Authority
CN
China
Prior art keywords
data
page
name
page data
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710090617.0A
Other languages
English (en)
Other versions
CN107784056B (zh
Inventor
曹斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201710090617.0A priority Critical patent/CN107784056B/zh
Publication of CN107784056A publication Critical patent/CN107784056A/zh
Application granted granted Critical
Publication of CN107784056B publication Critical patent/CN107784056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种页面数据查找方法及装置。所述方法包括:获取待查找页面的页面数据以及用户输入的数据名;查找所述待查找页面的页面数据中的预设关键字以及所述预设关键字对应的数据名;以及若所述预设关键字对应的数据名与用户输入的数据名一致,则查找所述预设关键字对应的页面数据记录,并提取所述页面数据记录中的数据名所对应的变量值。上述页面数据查找方法及装置,在网页测试的过程中节省的大量的测试时间,同时也降低了查找页面数据的错误率。

Description

页面数据查找方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种页面数据查找方法及装置。
背景技术
在互联网时代,网页的应用无处不在。由于网页每天都会面临的巨大的访问量,因此网页开发完成之后,在网页发布之前都要经过测试的阶段,测试网页的功能和性能。
在网页的测试过程中,为了测试网页的功能和性能,需要在网页页面中获取页面数据,对获取到的页面数据进行进一步处理。然而传统的页面数据查找方式都是通过人工在网页页面进行查找,这样的人工查找方式使得在网页的测试过程中,浪费了大量的时间。
发明内容
基于此,有必要针对网页测试过程中浪费时间的技术问题,提供一种页面上数据查找方法及装置,以节省网页测试的时间。
一种页面数据查找方法,包括:
获取待查找页面的页面数据以及用户输入的数据名;
查找所述待查找页面的页面数据中的预设关键字以及所述预设关键字对应的数据名;以及
若所述预设关键字对应的数据名与用户输入的数据名一致,则查找所述预设关键字对应的页面数据记录,并提取所述页面数据记录中的数据名所对应的变量值。
在其中一个实施例中,所述查找所述待查找页面的页面数据中的预设关键字以及所述预设关键字对应的数据名包括:
查找所述待查找页面的页面数据中的预设内容标签,并提取所述预设内容标签对应的页面内容数据;以及
查找所述页面内容数据中的预设关键字以及所述预设关键字对应的数据名。
在其中一个实施例中,在所述查找所述预设关键字对应的页面数据记录之后还包括:
提取所述预设关键字对应的页面数据记录,并根据所述预设关键字对提取的所述页面数据记录进行分类。
在其中一个实施例中,所述提取所述页面数据记录中的数据名所对应的变量值包括:
提取所述页面数据记录中的数据名所对应的变量类型字符串;以及
若所述变量类型字符串与预设变量类型字符串一致,则提取所述页面数据记录中的所述变量类型字符串所对应的变量值。
在其中一个实施例中,所述提取所述页面数据记录中的数据名所对应的变量类型字符串之前还包括:
提取所述页面数据记录中的字符串,若所述字符串中包含所述变量类型字符串,则执行所述提取所述页面数据记录中的数据名所对应的变量类型字符串步骤。
一种页面数据查找装置,包括:
获取模块,用于获取待查找页面的页面数据以及用户输入的数据名;
查找模块,用于查找所述待查找页面的页面数据中的预设关键字以及所述预设关键字对应的数据名;以及
提取模块,用于若所述预设关键字对应的数据名与用户输入的数据名一致,则查找所述预设关键字对应的页面数据记录,并提取所述页面数据记录中的数据名所对应的变量值。
在其中一个实施例中,所述查找模块还用于查找所述待查找页面的页面数据中的预设内容标签,并提取所述预设内容标签对应的页面内容数据;以及查找所述页面内容数据中的预设关键字以及所述预设关键字对应的数据名。
在其中一个实施例中,所述提取模块还用于提取所述预设关键字对应的页面数据记录,并根据所述预设关键字对提取的所述页面数据记录进行分类。
在其中一个实施例中,所述提取模块还用于提取所述页面数据记录中的数据名所对应的变量类型字符串;以及若所述变量类型字符串与预设变量类型字符串一致,则提取所述页面数据记录中的所述变量类型字符串所对应的变量值。
在其中一个实施例中,所述提取模块还用于提取所述页面数据记录中的字符串,若所述字符串中包含所述变量类型字符串,则执行所述提取所述页面数据记录中的数据名所对应的变量类型字符串步骤。
上述页面数据查找方法及装置,只需用户输入需要查找的数据名,就可以直接在待查找页面中查找到预设关键字,再根据用户输入的数据名和预设关键字就可以提取相应的变量值。在网页测试的过程中,无需人工在网页中查找需要的页面数据,节省的大量的测试时间,同时也降低了查找页面数据的错误率。
附图说明
图1为一个实施例中页面数据查找方法的流程图;
图2为另一个实施例中页面数据查找方法的流程图;
图3为一个实施例中页面数据的结构示意图;
图4为另一个实施例中页面数据查找方法的流程图;
图5为另一个实施例中页面数据查找方法的流程图;
图6为一个实施例中页面数据查找装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中页面数据查找方法的流程图。如图1所示,该页面数据查找方法包括步骤S102、步骤S104和步骤S106,其中:
步骤S102,获取待查找页面的页面数据以及用户输入的数据名。
在本实施例中,待查找页面是指待查找的网页页面,网页页面是构成网站的基本元素,网站的应用都是在网页上完成的。网页页面是一个包含HTML(Hyper Text MarkupLanguage,超文本标记语言)标签的纯文本文件。该纯文本文件存储在网站服务器上,用户终端通过网址读取网站服务器上的相应的纯文本文件,再通过用户终端的浏览器进行解析,加载成网页页面。
其中,网址记录了该纯文本文件的存放地址。HTML标签用于定义网页面内的图片、链接、音乐、程序等非文字元素。网站服务器是提供网站相关计算服务的设备,响应网站相关的服务请求,可以为一台或者多台计算机。浏览器可以显示包含HTML标签的纯文本文件中的内容,用户通过浏览器与这些纯文本文件进行交互。例如,读取该纯文本文件中的数据、向网站服务器中的纯文本文件输入数据等。
在本实施例中,待查找页面的页面数据是指该纯文本文件中的所有数据,包括HTML标签、HTML标签属性、用户自定义数据等。通过待查找页面对应的纯文本文件名获取待查找的纯文本文件,再获取该待查找的纯文本文件中的待查找页面数据。用户输入的数据名是通过用户终端输入的,指用户需要查找的数据名,例如“城市”、“日期”等。
步骤S104,查找待查找页面的页面数据中的预设关键字以及该预设关键字对应的数据名。
在本实施例中,预设关键字是指用户预定义的关键字,该关键字用于定义数据名的属性。例如“title”、“frame”等关键字,分别表示数据名的属性为标题、框架。每一行页面数据定义一个HTML标签,通过符号“<”和“>”来定义该行页面数据的开始和结束。
在本实施例中,当查找到预设的开始符号时开始查找页面数据中是否包含预设关键字,查找到预设的结束符号时结束该行页面数据的查找,继续查找下一行页面数据。例如,开始符号可以是“<”,结束符号可以是“>”。获取到待查找页面的页面数据后,在该页面数据中进行逐行查找预设关键字。若在某一行页面数据中查找到预设关键字,则提取该预设关键字对应的数据名,若未查找到预设关键字则跳转到下一行页面数据继续查找。
步骤S106,若该预设关键字对应的数据名与用户输入的数据名一致,则查找预设关键字对应的页面数据记录,并提取页面数据记录中的数据名所对应的变量值。
在本实施例中,将步骤S104中查找到的预设关键字对应的数据名与用户输入的数据名进行匹配,若查找到的预设关键字对应的数据名与用户输入的数据名一致,则查找该预设关键字对应的页面数据记录。该页面数据记录即为步骤S104中查找到的预设关键字所在行对应的页面数据。进一步提取该页面数据记录中数据名对应的变量值。该变量值即为查找到的预设关键字对应的数据名所对应的值。
例如,某一行页面数据为“<name=’年龄’,value=’20’>”,则该行页面数据中的预设关键字为“name”,查找到“name”后,提取“name”对应的数据名“年龄”。若用户输入的数据名也为“年龄”,则进一步查找该行页面数据“<name=’年龄’,value=’20’>”,并提取数据名“年龄”对应的变量值“20”。若用户输入的不是“年龄”,则放弃该行页面数据,继续查找下一行页面数据。
上述页面数据查找方法及装置,只需用户输入需要查找的数据名,就可以直接在待查找页面中查找到预设关键字,再根据用户输入的数据名和预设关键字就可以提取相应的变量值。在网页测试的过程中,无需人工在网页中查找需要的页面数据,节省大量的测试时间,同时也降低了查找页面数据的错误率。
图2为另一个实施例中页面数据查找方法的流程图。如图2所示,该页面数据查找方法包括步骤S202至步骤S214,其中:
步骤S202,获取待查找页面的页面数据以及用户输入的数据名。
在本实施例中,待查找页面是指待查找的网页页面,网页页面是构成网站的基本元素,网站的应用都是在网页页面上完成的。网页页面是一个包含HTML标签的纯文本文件。
在本实施例中,待查找页面的页面数据是指该纯文本文件中的所有数据。通过待查找页面对应的纯文本文件名获取待查找的纯文本文件,再获取该待查找的纯文本文件中的待查找页面数据。用户输入的数据名是通过用户终端输入的,指用户需要查找的数据名,例如“年龄”、“性别”等。
步骤S204,查找该待查找页面的页面数据中的预设内容标签,并提取该预设内容标签对应的页面内容数据。
在本实施例中,纯文本文件中的页面数据分为系统数据、页面头部数据和页面内容数据。其中,系统数据用于定义页面数据的版本信息,页面头部数据用于定义网页页面的标题,页面内容数据用于定义网页页面的主体内容。
在本实施例中,在该纯文本文件中,页面头部数据和页面内容数据是通过HTML标签来区分的。页面头部数据包含页面头部开始标签和页面头部结束标签,页面内容数据包含页面内容开始标签和页面内容结束标签。图3为一个实施例中页面数据的结构示意图,如图3所示,页面数据302包括系统数据304、页面头部数据306和页面内容数据308。页面头部数据是以页面头部开始标签“<head>”标志开始,以页面头部结束标签“</head>”标志结束。页面内容数据是以页面内容开始标签“<body>”标志开始,以页面内容开始标签“</body>”标志结束。
在本实施例中,预设内容标签即为页面内容开始标签和页面内容结束标签,查找到页面内容开始标签时开始提取页面数据,直到查找到页面内容结束标签则结束提取页面数据,提取的页面数据即为预设内容标签对应的页面内容数据。
在本实施例中,根据预设内容标签直接提取页面内容数据,在页面内容数据中查找数据名对应的变量值,而无需对所有页面数据进行查找,节省了大量的查找时间。
步骤S206,查找该页面内容数据中的预设关键字以及该预设关键字对应的数据名。
在本实施例中,预设关键字是指用户预定义的关键字,该关键字用于定义数据名的属性。例如“title”、“frame”等关键字,分别表示数据名的属性为标题、框架。每一行页面内容数据定义一个HTML标签,通过符号“<”和“>”来定义该行页面内容数据的开始和结束。当查找到符号“<”时开始查找该行页面内容数据中是否包含预设关键字,查找到“>”时结束该行页面内容数据的查找,继续查找下一行页面内容数据。
在本实施例中,只需通过对比每一行页面内容数据的行首关键字来查找预设关键字,而不需要查找整行页面内容数据,这样不仅节省了大量的查找时间,而且提高了查找效率。其中,行首关键字为一行页面内容数据中的第一个关键字。在页面内容数据中检测行首关键字是否为预设关键字,若为预设关键字则提取该行首关键字。若不为预设关键字则丢弃该行页面内容数据。
步骤S208,若该预设关键字对应的数据名与用户输入的数据名一致,则提取该预设关键字对应的页面数据记录,并根据预设关键字对该页面数据记录进行分类。
在本实施例中,将步骤S206中提取的预设关键字对应的数据名与步骤S202中用户输入的数据名进行匹配,若该预设关键字对应的数据名与用户输入的数据名一致,则提取该预设关键字对应的页面数据记录。该页面数据记录即为该预设关键字所在行对应的页面内容数据。
例如,某一行页面内容数据为“<name=’年龄’,value=’20’>”,那么该行页面内容数据的行首关键字即为“name”。若预设关键字为“name”,则提取该行页面数据的预设关键字“name”以及该预设关键字“name”对应的数据名“年龄”。若提取的数据名“年龄”与用户输入的数据名一致,则提取该行页面内容数据即页面数据记录“<name=’年龄’,value=’20’>”。若某一行页面内容数据为<div class="container navigation">,则该行页面内容数据的行首关键字为“div”,与预设关键字不同,则直接跳到下一行页面内容数据中进行查找。
在本实施例中,对页面内容数据中的每一行进行预设关键字的查找,提取页面内容数据中所有包含预设关键字并且该预设关键字对应的数据名与用户输入的数据名一致的页面数据记录,并根据预设关键字将页面数据记录进行分类。其中,同一类的页面数据记录中都包含了同样的预设关键字。例如,预设关键字包括“name”、“title”、“frame”,那么最后提取出来的页面数据记录就根据预设关键字“name”、“title”、“frame”分为三大类。
步骤S210,按照预设关键字分类查找页面数据记录中的字符串,并提取所述页面数据记录中的字符串。
在本实施例中,提取出来的页面数据记录按照预设关键字进行分类,并根据该预设关键字将提取出来的页面数据记录进行分类查找。将每一类页面数据记录分配一条线程,则不同类的页面数据记录分别在不同的线程中进行并发查找。其中,线程是指查找页面数据的系统中的执行程序的最小单元。
在本实施例中,将提取出来的页面数据记录进行分类,再根据分类后的页面数据记录进行分类查找变量值,提高查找的速率。
步骤S212,若该字符串中包含所述变量类型字符串,提取该页面数据记录中的数据名所对应的变量类型字符串。
在本实施例中,根据步骤S208中提取的页面数据记录进行分类提取字符串,若提取的字符串中包含变量类型字符串,则提取该页面数据记录中的数据名所对应的变量类型字符串。其中,变量类型字符串为该页面数据记录中数据名对应的变量值的变量类型。
在本实施例中,提取的页面数据记录中可能存在无关信息,该无关信息包括空格、无关字符串等。在变量类型字符串的提取过程中,若查找到无关信息,则直接跳过该无关信息继续向后查找。
步骤S214,若该变量类型字符串与预设变量类型字符串一致,则提取该页面数据记录中的变量类型字符串所对应的变量值。
在本实施例中,将步骤S212中的变量类型字符串与预设变量类型字符串进行匹配,若该变量类型字符串与预设变量类型字符串一致,则提取该页面数据记录中的变量类型字符串所对应的变量值。
例如,提取的页面数据记录为“<name=’年龄’,javascript,value=’20’>”,从“name”开始逐个查找并判断是否为变量类型字符串,查找到无关字符串“javascript”不为变量类型字符串则直接忽略继续向后查找。查找到字符串“value”为变量类型字符串,则将“value”提取出来。若预设变量类型字符串也为“value”,则将“value”对应的变量值“20”提取出来。
在本实施例中,将变量值提取出来之后,将变量值和数据名的对应关系记录在本地文件中,并记录对应的统计数量。如图3所示,若预设关键字为“name”,预设关键字对应的预设变量类型字符串为“value”,用户输入的数据名为“城市”。那么,在页面内容数据308中提取的变量值就为“深圳”、“北京”、“成都”,记录在本地文件中的对应关系及数据量为:关系“城市:深圳”数量为1、关系“城市:北京”数量为1、关系“城市:成都”数量为1。
在本实施例中,用户只需输入需要查找的数据名,直接定位到待查找页面的页面内容数据中的行首关键字查找预设关键字,再根据用户输入的数据名和预设变量类型字符串就可以提取相应的变量值。在网页测试的过程中,不需要在整个页面数据查找需要的变量值,只在页面内容数据中进行查找,提高了数据查找的效率,节省的大量的测试时间。
图4为另一个实施例中页面数据查找方法的流程图,如图4所示,该页面数据查找方法包括步骤S402至步骤S432,其中:
步骤S402,获取待查找页面的页面数据和用户输入的数据名。
在本实施例中,页面数据是指待查找页面对应的纯文本文件中的所有数据。在测试过程中可以直接根据纯文本文件名去获取该纯文本文件,再根据该纯文本文件获取页面数据。用户输入的数据名是用户终端输入的待查找变量值对应的数据名。其中,页面数据是由多条页面数据记录组成的。
步骤S404,提取页面内容数据。
在本实施例中,待查找页面的页面数据包括页面头部数据和页面内容数据,其中,页面头部数据用于定义页面的标题信息,页面内容数据用于定义显示页面内容的数据。通过预设内容标签就可以将页面内容数据提取出来。
步骤S406,逐行查找行首关键字。
在本实施例中,待查找页面的页面内容数据中通过符号“<”来标志一行页面数据记录的开始,符号“>”来标志一行页面数据记录的结束。通过检测符号“<”来定位到行首关键字。
步骤S408,判断该行首关键字是否为“name”,若不为“name”,则执行步骤S410,若为“name”,则执行步骤S414。
在本实施例中,将行首关键字与预设关键字进行对比,如果行首关键字与预设关键字一致,则提取该行页面数据记录,如果不一致则继续查找下一行页面数据记录。预设关键字可以为一个或者多个。判断该行首关键字是否为预设关键字“name”,若为“name”,则提取该行页面数据记录,若不为“name”,则将该行首关键字与其他预设关键字对比。
步骤S410,判断该行首关键字是否为“title”,若不为“title”,则执行步骤S412,若为“title”,则执行步骤S414。
在本实施例中,如果行首关键字不为“name”,则再将该行首关键字与预设关键字“title”进行对比。判断该行首关键字是否为预设关键字“title”,若为“title”,则提取该行页面数据记录,若不为“title”,则将该行首关键字与其他预设关键字对比。
步骤S412,判断该行首关键字是否为“frame”,若不为“frame”,则执行步骤S414,若为“frame”,则执行步骤S406。
在本实施例中,若通过步骤S408和步骤S410的对比,若行首关键字与预设关键字“name”、“title”不一致,则将该行首关键字与预设关键字“frame”进行对比。判断该行首关键字是否为预设关键字“frame”,若为“frame”,则提取该行页面数据记录,若不为“frame”,则继续查找下一行页面数据中的行首关键字,并将下一行页面数据中的行首关键字与预设关键字进行对比。可以理解的是,在其他实施例中,预设关键字并不仅限于“name”、“title”或者“frame”,也可以是其他的用户定义的预设关键字。
步骤S414,提取并分类存储页面数据记录。
在本实施例中,若查找的页面数据的行首关键字与预设关键字一致,则提取该行页面数据记录。将提取的页面数据记录根据页面数据记录中的行首关键字进行分类,并存储在本地文件中。将页面数据记录进行分类后再查找变量值,对同类页面数据记录一起进行查找,提高了变量值的查找效率。
步骤S416,提取行首关键字对应的数据名。
在本实施例中,根据步骤S414分类存储的页面数据记录提取行首关键字对应的数据名,例如页面数据记录为“<name=’年龄’,value=’20’>”,行首关键字为“name”,提取符号“=”后的字符串“年龄”即为行首关键字对应的数据名。
步骤S418,判断行首关键字对应的数据与用户输入的数据名是否一致,若是,则执行步骤S420,若否,则执行步骤S416。
在本实施例中,判断行首关键字对应的数据名与用户输入的数据名是否一致,若是,则继续查找该页面数据记录中的变量类型字符串,若否,则丢弃该行页面数据记录,继续查找下一行页面数据记录。
步骤S420,在该行页面数据记录中向后查找字符串。
在本实施例中,若行首关键字对应的数据名与用户输入的数据名一致,则向后查找该页面数据记录中的字符串。
步骤S422,查找到的字符串中是否存在无关字符串,若是,则执行步骤S424,若否,则执行步骤S426。
在本实施例中,页面数据记录中除了行首关键字、数据名、变量值和变量类型字符串以外,可能还会存在其他无关字符串,例如空格、间隔符等。
步骤S424,排除无关字符串。
在本实施例中,若查找到页面数据记录中包含无关字符串,则直接忽略无关字符串,继续向后查找,直到查找到变量类型字符串或者页面数据记录的结束符号“>”,则停止查找。
步骤S426,判断是否查找到结束字符,若是,则执行步骤S416,若否,则执行步骤S428。
在本实施例中,查找页面数据记录中的字符串,若查找到结束字符,则停止查找,否则,继续向后查找。
步骤S428,判断是否提取到变量类型字符串,若是,则执行步骤S430,若否,则执行步骤S416。
在本实施例中,变量类型字符串是指与行首关键字对应的变量值的类型,例如,行首关键字为“name”,其对应的变量类型可以为“value”、“option”等。
步骤S430,判断该变量类型字符串是否与预设变量类型字符串一致,若是,则执行步骤S432,若否,则执行步骤S416。
在本实施例中,若该变量类型字符串与预设变量类型字符串一致,则提取该变量类型字符串对应的变量值,否则,丢弃该行页面数据记录,继续查找下一行页面数据记录中的变量值。例如,行首关键字为“name”,其对应的预设变量类型字符串可以为“value”、“option”、“action”,若查找到的变量类型字符串为“type”,与预设变量类型字符串不一致,则丢弃该行页面数据记录,继续查找下一行页面数据记录中的变量值。
步骤S432,提取并存储变量值。
在本实施例中,根据提取的变量类型字符串提取变量值,例如页面数据记录为“<name=’年龄’,value=’20’>”,变量类型字符串为“value”,根据“value”后的符号“=”提取变量值为“20”。将提取的变量值与用户输入的数据名组成一一对应关系,存储在本地文件中,并对提取的变量值进行统计。例如“城市:深圳”数量为12。
在本实施例中,在网页数据中查找变量值的结果有以下几种情况:
一、页面数据记录中的关键字与预设关键字一致,数据名与用户输入的数据名一致,变量类型字符串与预设变量类型字符串一致,则提取该行页面数据记录中的变量值。例如,该行页面数据记录为<name=’abc’,value=’123’>,查找到关键字“name”与预设关键字一致,关键字对应的数据名“abc”与用户输入的数据名一致,变量类型字符串“value”与预设关键字对应的预设变量类型字符串一致,不存在无关字符串,则将该页面数据记录中的变量值“123”提取出来。
二、页面数据记录中的关键字与预设关键字不同,数据名与用户输入的数据名一致,变量类型字符串与预设变量类型字符串一致,则跳转到下一行页面数据记录中进行查找。例如,该行页面数据记录为<nop=’abc’,value=’123’>,查找到关键字“nop”与预设关键字不同,则无需向后匹配变量类型字符串,直接跳转到下一行页面数据记录中进行查找。
三、页面数据记录中的关键字与预设关键字一致,数据名与用户输入的数据名不同,变量类型字符串与预设变量类型字符串一致,则跳转到下一行页面数据记录中进行查找。例如,该行页面数据记录为<name=’def’,value=’123’>,查找到关键字“name”与预设关键字一致,关键字对应的数据名“def”与用户输入的数据名不同,则无需向后匹配变量类型字符串,直接跳转到下一行页面数据记录中进行查找。
四、页面数据记录中的关键字与预设关键字一致,数据名与用户输入的数据名一致,变量类型字符串与预设变量类型字符串不同,则跳转到下一行页面数据记录中进行查找。例如,该行页面数据记录为<name=’abc’,scr=’123’>,查找到关键字“name”与预设关键字一致,关键字对应的数据名“abc”与用户输入的数据名一致,变量类型字符串“scr”与预设关键字对应的预设变量类型字符串不同,则跳转到下一行页面数据记录中进行查找。
图5为另一个实施例中页面数据查找方法的流程图,如图5所示,该页面数据查找方法包括步骤S502至步骤S520,其中:
步骤S502,获取页面数据和用户输入的数据名。
在本实施例中,在测试过程中获取待查找页面对应的纯文本文件,再根据该纯文本文件获取页面数据。其中,页面数据是由多条页面数据记录组成的。页面数据记录是根据页面数据进行逐条获取的。用户输入的数据名是指用户终端输入的数据名。
步骤S504,以“name,value”形式对页面数据记录进行判定,若不符合该形式则执行步骤S506,若符合该形式则执行步骤S520。
在本实施例中,对页面数据中的页面数据记录进行逐行查找。分别将页面数据记录中的关键字与预设关键字进行比对,关键字对应的数据名与用户输入的数据名进行比对,关键字对应的变量类型字符串与预设变量类型字符串进行比对。
在本实施例中,预设关键字为“name”、“title”、“frame”,“name”对应的预设变量类型字符串有“value”、“option”、“action”,“title”对应的预设变量类型字符串有“href”、“type”,“frame”对应的预设变量类型字符串有“action”、“scr”。可以理解的是,在其他实施例中,预设关键字和预设变量类型字符串并不限于上述提到的这些字符串,还可以是用户定义的其他预设关键字和预设变量类型字符串。
在本实施例中,判断页面数据记录是否符合“name,value”形式,即判断页面数据记录中的关键字是否为“name”以及关键字对应的变量类型字符串是否为“value”。若关键字为“name”且关键字对应的变量类型字符串是否为“value”,则继续判断该行页面数据记录中的数据名是否与用户输入的数据名一致,否则,将该行页面数据记录与“name,option”形式进行比对。
步骤S506,以“name,option”形式对页面数据进行判定,若不符合该形式则执行步骤S508,若符合该形式则执行步骤S520。
在本实施例中,若关键字为“name”且关键字对应的变量类型字符串为“option”,则继续判断该行页面数据记录中的数据名是否与用户输入的数据名一致,否则,将该行页面数据记录与“name,action”形式进行比对。
步骤S508,以“name,action”形式对页面数据进行判定,若不符合该形式则执行步骤S510,若符合该形式则执行步骤S520。
在本实施例中,若关键字为“name”且关键字对应的变量类型字符串为“action”,则继续判断该行页面数据记录中的数据名是否与用户输入的数据名一致,否则,将该行页面数据记录与“title,href”形式进行比对。
步骤S510,以“title,href”形式对页面数据进行判定,若不符合该形式则执行步骤S512,若符合该形式则执行步骤S520。
在本实施例中,若关键字为“title”且关键字对应的变量类型字符串为“href”,则继续判断该行页面数据记录中的数据名是否与用户输入的数据名一致,否则,将该行页面数据记录与“title,type”形式进行比对。
步骤S512,以“title,type”形式对页面数据进行判定,若不符合该形式则执行步骤S514,若符合该形式则执行步骤S520。
在本实施例中,若关键字为“title”且关键字对应的变量类型字符串为“type”,则继续判断该行页面数据记录中的数据名是否与用户输入的数据名一致,否则,将该行页面数据记录与“frame,action”形式进行比对。
步骤S514,以“frame,action”形式对页面数据进行判定,若不符合该形式则执行步骤S516,若符合该形式则执行步骤S520。
在本实施例中,若关键字为“frame”且关键字对应的变量类型字符串为“action”,则继续判断该行页面数据记录中的数据名是否与用户输入的数据名一致,否则,将该行页面数据记录与“frame,src”形式进行比对。
步骤S516,以“frame,src”形式对页面数据进行判定,若不符合该形式则执行步骤S516,若符合该形式则执行步骤S520。
在本实施例中,若关键字为“frame”且关键字对应的变量类型字符串为“src”,则继续判断该行页面数据记录中的数据名是否与用户输入的数据名一致,否则,提示该行未找到数据名对应的变量值。
步骤S518,提示该行未找到数据名对应的变量值。
步骤S520,判断该行页面数据记录中的数据名是否与用户输入的数据名一致,若是则执行步骤S520,若否,则执行步骤S518。
在本实施例中,若通过步骤S504至步骤S516判断关键字与变量类型字符串都符合预设的形式,则继续判断该行页面数据记录中的数据名是否与用户输入的数据名一致,若是则提取该行页面数据记录中的变量值,若否,则提示该行未找到数据名对应的变量值。
步骤S522,提取变量值。
在本实施例中,若页面数据记录中的关键字与预设关键字一致,关键字对应的数据名与用户输入的数据名一致,关键字对应的变量类型字符串与预设变量类型字符串一致,则提取该行页面数据记录中的变量值。
在本实施例中,根据页面数据提取页面数据记录,将页面数据记录中的关键字和变量类型字符串与预设形式进行匹配,匹配成功后再将页面数据记录中的数据名与用户输入的数据名进行匹配,若页面数据记录中的数据名与用户输入的数据名一致,则提取该页面数据记录中的变量值。用户只需输入数据名,就可以获取到页面数据中对应于该数据名的变量值,在测试过程中,无需再进行人工查找需要的页面数据,节省了大量的测试时间,同时也提高了测试的效率。
在一个实施例中,一种页面数据查找方法,包括:获取待查找页面的页面数据以及用户输入的数据名;查找该待查找页面的页面数据中的预设内容标签,并提取该预设内容标签对应的页面内容数据;查找该页面内容数据中的预设关键字以及该预设关键字对应的数据名;以及若该预设关键字对应的数据名与用户输入的数据名一致,则查找该预设关键字对应的页面数据记录,并提取页面数据记录中的数据名所对应的变量值。
在本实施例中,待查找页面的页面数据包括页面头部数据和页面内容数据,需要查找的变量值只存在于页面内容数据中。因此,在测试过程中,通过预设内容标签获取页面内容数据,直接在页面内容数据中根据用户输入的数据名查找变量值,无需在页面头部数据中查找,提高了查找效率,也节省了测试时间。
在一个实施例中,一种页面数据查找方法,包括:获取待查找页面的页面数据以及用户输入的数据名;若检测到该待查找页面的页面数据的行首关键字为预设关键字,则提取该行首关键字以及该行首关键字对应的数据名;以及若该预设关键字对应的数据名与用户输入的数据名一致,则查找该预设关键字对应的页面数据记录,并提取该页面数据记录中的数据名所对应的变量值。
在本实施例中,行首关键字是指页面数据记录中的第一个字符串,直接通过对比行首关键字查找预设关键字,无需在所有页面数据中查找预设关键字,提高了查找速率。
在一个实施例中,一种页面数据查找方法,包括:获取待查找页面的页面数据以及用户输入的数据名;查找该待查找页面的页面数据中的预设关键字以及该预设关键字对应的数据名;若该预设关键字对应的数据名与用户输入的数据名一致,则提取该预设关键字对应的页面数据记录,并根据所述预设关键字对提取的所述页面数据记录进行分类;提取该页面数据记录中的数据名所对应的变量类型字符串;以及若该变量类型字符串与预设变量类型字符串一致,则提取该页面数据记录中的变量类型字符串所对应的变量值。
在本实施例中,需要查找的页面数据记录中的数据名、关键字和变量类型字符串都满足匹配条件,才提取页面数据记录中的变量值。增加了匹配条件,提高了查找变量值的准确率。
在一个实施例中,一种页面数据查找方法,包括:获取待查找页面的页面数据以及用户输入的数据名;查找该待查找页面的页面数据中的预设关键字以及该预设关键字对应的数据名;若该预设关键字对应的数据名与用户输入的数据名一致,则提取该预设关键字对应的页面数据记录,并根据所述预设关键字对提取的所述页面数据记录进行分类;提取该页面数据记录中的变量类型字符串所对应的变量值。
在本实施例中,提取到预设关键字对应的页面数据记录后,将页面数据记录根据预设关键字进行分类,再根据分类后的页面数据记录进行分类查找,提高了查找的速率。
在一个实施例中,一种页面数据查找方法,包括:获取待查找页面的页面数据以及用户输入的数据名;查找该待查找页面的页面数据中的预设关键字以及该预设关键字对应的数据名;若该预设关键字对应的数据名与用户输入的数据名一致,则查找该预设关键字对应的页面数据记录;提取该页面数据记录中的字符串,若该字符串中包含变量类型字符串,则提取所述页面数据记录中的数据名所对应的变量类型字符串;以及若该变量类型字符串与预设变量类型字符串一致,则提取所述页面数据记录中的该变量类型字符串所对应的变量值。
在本实施例中,将提取的页面数据记录以队列的形式进行存储,可以存储在本地文件中,也可以存储在本地数据表中。其中,本地文件可以是文本文件,本地数据表可以是办公软件中的表格、数据库中的数据表等形式。
在一个实施例中,一种页面数据查找方法,包括:获取待查找页面的页面数据以及用户输入的数据名;查找该待查找页面的页面数据中的预设内容标签,并提取该预设内容标签对应的页面内容数据;查找该页面内容数据中的预设关键字以及该预设关键字对应的数据名;以及若该预设关键字对应的数据名与用户输入的数据名一致,则提取该预设关键字对应的页面数据记录;提取该页面数据记录中的数据名所对应的变量类型字符串;以及若该变量类型字符串与预设变量类型字符串一致,则提取该页面数据记录中的变量类型字符串所对应的变量值。
在一个实施例中,一种页面数据查找方法,包括:获取待查找页面的页面数据以及用户输入的数据名;查找该待查找页面的页面数据中的预设内容标签,并提取该预设内容标签对应的页面内容数据;查找该页面内容数据中的预设关键字以及该预设关键字对应的数据名;以及若该预设关键字对应的数据名与用户输入的数据名一致,则提取该预设关键字对应的页面数据记录;提取该页面数据记录中的字符串,若该字符串中包含变量类型字符串,则提取所述页面数据记录中的数据名所对应的变量类型字符串;以及若该变量类型字符串与预设变量类型字符串一致,则提取该页面数据记录中的变量类型字符串所对应的变量值。
在一个实施例中,一种页面数据查找方法,包括:获取待查找页面的页面数据以及用户输入的数据名;查找待查找页面的页面数据中的预设关键字以及该预设关键字对应的数据名;若该预设关键字对应的数据名与用户输入的数据名一致,则查找该行首关键字对应的页面数据记录;提取该页面数据记录中的数据名所对应的变量类型字符串;以及若该变量类型字符串与预设变量类型字符串一致,则提取该页面数据记录中的变量类型字符串所对应的变量值。
在一个实施例中,一种页面数据查找方法,包括:获取待查找页面的页面数据以及用户输入的数据名;若检测到该待查找页面的页面数据的行首关键字为预设关键字,则提取该行首关键字以及该行首关键字对应的数据名;若该行首关键字对应的数据名与用户输入的数据名一致,则提取该行首关键字对应的页面数据记录,并根据所述预设关键字对提取的所述页面数据记录进行分类;提取该页面数据记录中的字符串,若该字符串中包含变量类型字符串,则提取所述页面数据记录中的数据名所对应的变量类型字符串;以及若所述变量类型字符串与预设变量类型字符串一致,则提取所述页面数据记录中的该变量类型字符串所对应的变量值。
图6为一个实施例中页面数据查找装置的结构示意图,如图6所示,该装置包括获取模块602、查找模块604和提取模块606,其中:
获取模块602,用于获取待查找页面的页面数据以及用户输入的数据名。
查找模块604,用于查找待查找页面的页面数据中的预设关键字以及该预设关键字对应的数据名。
在其他实施例中,查找模块604还用于查找待查找页面的页面数据中的预设内容标签,并提取该预设内容标签对应的页面内容数据;以及查找页面内容数据中的预设关键字以及该预设关键字对应的数据名。
在其他实施例中,查找模块604还用于提取所述预设关键字对应的页面数据记录,并根据所述预设关键字对提取的所述页面数据记录进行分类。
在其他实施例中,查找模块604还用于若检测到待查找页面的页面数据的行首关键字为预设关键字,则提取行首关键字以及该行首关键字对应的数据名。
提取模块606,用于若预设关键字对应的数据名与用户输入的数据名一致,则查找该预设关键字对应的页面数据记录,并提取页面数据记录中的数据名所对应的变量值。
在其他实施例中,提取模块606还用于提取页面数据记录中的数据名所对应的变量类型字符串;以及若该变量类型字符串与预设变量类型字符串一致,则提取页面数据记录中的该变量类型字符串所对应的变量值。
在其他实施例中,提取模块606还用于按照预设关键字分类查找页面数据记录中的字符串,并提取所述页面数据记录中的字符串。
在其他实施例中,提取模块606还用于提取页面数据记录中的字符串,若该字符串中包含所述变量类型字符串,则执行提取页面数据记录中的数据名所对应的变量类型字符串步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种页面数据查找方法,其特征在于,包括:
获取待查找页面的页面数据以及用户输入的数据名;
查找所述待查找页面的页面数据中的预设关键字以及与所述预设关键字对应的数据名;以及
若所述预设关键字对应的数据名与用户输入的数据名一致,则查找所述预设关键字对应的页面数据记录,并提取所述页面数据记录中的数据名所对应的变量值。
2.根据权利要求1所述的方法,其特征在于,所述查找所述待查找页面的页面数据中的预设关键字以及与所述预设关键字对应的数据名包括:
查找所述待查找页面的页面数据中的预设内容标签,并提取所述预设内容标签对应的页面内容数据;以及
查找所述页面内容数据中的预设关键字以及与所述预设关键字对应的数据名。
3.根据权利要求1所述的方法,其特征在于,在所述查找所述预设关键字对应的页面数据记录之后还包括:
提取所述预设关键字对应的页面数据记录,并根据所述预设关键字对提取的所述页面数据记录进行分类。
4.根据权利要求1所述的方法,其特征在于,所述提取所述页面数据记录中的数据名所对应的变量值包括:
提取所述页面数据记录中的数据名所对应的变量类型字符串;以及
若所述变量类型字符串与预设变量类型字符串一致,则提取所述页面数据记录中的所述变量类型字符串所对应的变量值。
5.根据权利要求4所述的方法,其特征在于,所述提取所述页面数据记录中的数据名所对应的变量类型字符串之前还包括:
提取所述页面数据记录中的字符串,若所述字符串中包含所述变量类型字符串,则执行所述提取所述页面数据记录中的数据名所对应的变量类型字符串步骤。
6.一种页面数据查找装置,其特征在于,包括:
获取模块,用于获取待查找页面的页面数据以及用户输入的数据名;
查找模块,用于查找所述待查找页面的页面数据中的预设关键字以及与所述预设关键字对应的数据名;以及
提取模块,用于若所述预设关键字对应的数据名与用户输入的数据名一致,则查找所述预设关键字对应的页面数据记录,并提取与所述页面数据记录中的数据名所对应的变量值。
7.根据权利要求6所述的装置,其特征在于,所述查找模块还用于查找所述待查找页面的页面数据中的预设内容标签,并提取所述预设内容标签对应的页面内容数据;以及查找所述页面内容数据中的预设关键字以及与所述预设关键字对应的数据名。
8.根据权利要求6所述的装置,其特征在于,所述提取模块还用于提取所述预设关键字对应的页面数据记录,并根据所述预设关键字对提取的所述页面数据记录进行分类。
9.根据权利要求6所述的装置,其特征在于,所述提取模块还用于提取所述页面数据记录中的数据名所对应的变量类型字符串;以及若所述变量类型字符串与预设变量类型字符串一致,则提取所述页面数据记录中的所述变量类型字符串所对应的变量值。
10.根据权利要求9所述的装置,其特征在于,所述提取模块还用于提取所述页面数据记录中的字符串,若所述字符串中包含所述变量类型字符串,则执行所述提取所述页面数据记录中的数据名所对应的变量类型字符串步骤。
CN201710090617.0A 2017-02-20 2017-02-20 页面数据查找方法及装置 Active CN107784056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710090617.0A CN107784056B (zh) 2017-02-20 2017-02-20 页面数据查找方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710090617.0A CN107784056B (zh) 2017-02-20 2017-02-20 页面数据查找方法及装置

Publications (2)

Publication Number Publication Date
CN107784056A true CN107784056A (zh) 2018-03-09
CN107784056B CN107784056B (zh) 2020-03-06

Family

ID=61437715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710090617.0A Active CN107784056B (zh) 2017-02-20 2017-02-20 页面数据查找方法及装置

Country Status (1)

Country Link
CN (1) CN107784056B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140156255A1 (en) * 2012-12-05 2014-06-05 Chegg, Inc. Enhancing automated terms listings in html document publishing based on user searches
CN104462142A (zh) * 2013-09-24 2015-03-25 联想(北京)有限公司 一种搜索网页页面中内容的方法及装置
CN104866517A (zh) * 2014-12-30 2015-08-26 智慧城市信息技术有限公司 一种抓取网页内容的方法及装置
CN104933168A (zh) * 2015-06-30 2015-09-23 南京烽火星空通信发展有限公司 一种网页内容自动采集方法
CN105095525A (zh) * 2015-09-28 2015-11-25 北京奇虎科技有限公司 获取网页页面数据的方法及装置
CN105589913A (zh) * 2015-06-15 2016-05-18 广州市动景计算机科技有限公司 一种提取页面信息的方法及装置
CN105786834A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种社交类网页结构化摘要的生成方法和系统
CN106294392A (zh) * 2015-05-20 2017-01-04 阿里巴巴集团控股有限公司 一种网页显示方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140156255A1 (en) * 2012-12-05 2014-06-05 Chegg, Inc. Enhancing automated terms listings in html document publishing based on user searches
CN104462142A (zh) * 2013-09-24 2015-03-25 联想(北京)有限公司 一种搜索网页页面中内容的方法及装置
CN105786834A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种社交类网页结构化摘要的生成方法和系统
CN104866517A (zh) * 2014-12-30 2015-08-26 智慧城市信息技术有限公司 一种抓取网页内容的方法及装置
CN106294392A (zh) * 2015-05-20 2017-01-04 阿里巴巴集团控股有限公司 一种网页显示方法及装置
CN105589913A (zh) * 2015-06-15 2016-05-18 广州市动景计算机科技有限公司 一种提取页面信息的方法及装置
CN104933168A (zh) * 2015-06-30 2015-09-23 南京烽火星空通信发展有限公司 一种网页内容自动采集方法
CN105095525A (zh) * 2015-09-28 2015-11-25 北京奇虎科技有限公司 获取网页页面数据的方法及装置

Also Published As

Publication number Publication date
CN107784056B (zh) 2020-03-06

Similar Documents

Publication Publication Date Title
CN109033358B (zh) 新闻聚合与智能实体关联的方法
US8458207B2 (en) Using anchor text to provide context
CN104166651B (zh) 基于对同类数据对象整合的数据搜索的方法和装置
US20090089278A1 (en) Techniques for keyword extraction from urls using statistical analysis
WO2014000576A1 (zh) 一种网络搜索方法及网络搜索系统
US20130339840A1 (en) System and method for logical chunking and restructuring websites
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
CN102523130B (zh) 不良网页检测方法及装置
WO2010098178A1 (ja) 情報推薦装置、情報推薦方法および情報推薦プログラム
KR101523450B1 (ko) 관련어 등록 장치, 관련어 등록 방법, 기록 매체 및, 관련어 등록 시스템
JPWO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
CN102779169A (zh) 一种基于html标签的网页正文提取方法及装置
WO2012083874A1 (zh) 一种网页信息探测方法及系统
JP2007072646A (ja) 検索装置、検索方法およびプログラム
JP2008090403A (ja) 文書検索装置、文書検索方法および文書検索プログラム
CN109165373B (zh) 一种数据处理方法及装置
KR20040087205A (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
CN103729178A (zh) 一种浏览器多标签页的处理方法及系统
Nogales et al. Linking from Schema. org microdata to the Web of Linked Data: An empirical assessment
CN114021042A (zh) 网页内容的提取方法、装置、计算机设备和存储介质
CN110297994A (zh) 网页数据的采集方法、装置、计算机设备和存储介质
TWI674511B (zh) 商品資訊顯示系統、商品資訊顯示方法、及程式產品
CN107784056A (zh) 页面数据查找方法及装置
Fan et al. Identification of web article pages using HTML and visual features
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant