CN105224655A - 网站转化设置的检测方法、处理方法和装置 - Google Patents

网站转化设置的检测方法、处理方法和装置 Download PDF

Info

Publication number
CN105224655A
CN105224655A CN201510640152.2A CN201510640152A CN105224655A CN 105224655 A CN105224655 A CN 105224655A CN 201510640152 A CN201510640152 A CN 201510640152A CN 105224655 A CN105224655 A CN 105224655A
Authority
CN
China
Prior art keywords
data
website
visit capacity
configuration information
discriminated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510640152.2A
Other languages
English (en)
Other versions
CN105224655B (zh
Inventor
余韬
叶峻
王晓元
赵继承
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510640152.2A priority Critical patent/CN105224655B/zh
Publication of CN105224655A publication Critical patent/CN105224655A/zh
Application granted granted Critical
Publication of CN105224655B publication Critical patent/CN105224655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种网站转化设置的检测方法、处理方法和装置。所述检测方法包括:获取待判别的网站转化设置信息;获取与所述网站转化设置信息对应的网站的第一访问量数据;根据预设的特征提取规则对所述待判别的网站转化设置信息以及所述第一访问量数据进行特征提取,得到待判别特征向量数据;根据所述待判别特征向量数据和预设的网站转化模型对所述待判别的网站转化设置信息是否正确进行判别,得到判别结果。采用本发明实施例,可以提高对网站转化设置信息的检测效率。

Description

网站转化设置的检测方法、处理方法和装置
技术领域
本发明涉及计算机技术领域,特别涉及一种网站转化设置的检测方法、处理方法和装置。
背景技术
当前对于用户数据的分析越来越深入,从用户数据可以得到很多用户的个人信息,如浏览网页的数量、浏览网页的类型等。
目前网站统计工具记录的网站的数据越来越细化、越来越深入,其中,网站的转化设置信息成为一项重要的信息。然而网站转化设置信息的收集极大地依赖于网站站长的自主设置,而这样会使得网站转化设置信息经常地出现失效或错误的情况,为此,可通过人工标注排查的方法对用户设置的网站转化设置信息是否正确进行检测。
前述网站转化设置的检测方法至少存在以下问题:
通过人工标注排查的方法对用户设置的网站转化设置信息是否正确进行检测,需要消耗大量的人力物力,而且人工标注的处理时间较长,会使得对网站转化设置信息的检测效率较低。
发明内容
本发明的实施例提供一种网站转化设置的检测方法、处理方法和装置,通过对获取的待判别的网站转化设置信息及相应网站的第一访问量数据进行特征提取,得到待判别特征向量数据,并通过预设的网站转化模型对所述待判别的网站转化设置信息是否正确进行判别,得到判别结果,从而提高对网站转化设置信息的检测效率。
为达到上述目的,本发明的实施例提供了一种网站转化设置的检测方法。所述检测方法包括,获取待判别的网站转化设置信息;获取与所述网站转化设置信息对应的网站的第一访问量数据;根据预设的特征提取规则对所述待判别的网站转化设置信息以及所述第一访问量数据进行特征提取,得到待判别特征向量数据;根据所述待判别特征向量数据和预设的网站转化模型对所述待判别的网站转化设置信息是否正确进行判别,得到判别结果。
可选地,所述第一访问量数据包括所述待判别的网站转化设置信息中转化网页的访问量数据、网站的访问量数据、不同深度的网页的访问量数据和/或所述转化网页的前一网页的访问量数据。
可选地,所述根据预设的特征提取规则对所述待判别的网站转化设置信息以及所述第一访问量数据进行特征提取,得到待判别特征向量数据的处理包括:根据预设的网页链接成分分析规则对所述待判别的网站转化设置信息中的网页链接数据进行特征提取,得到基于网页链接成分数据的待判别特征向量数据;根据预设的访问量特征提取规则对所述第一访问量数据进行特征提取,得到基于访问量数据的待判别特征向量数据。
可选地,所述网页链接数据中还包括文字数据,所述根据预设的特征提取规则对所述待判别的网站转化设置信息以及所述第一访问量数据进行特征提取,得到待判别特征向量数据的处理还包括:根据预设的词语语义分析规则对所述待判别的网站转化设置信息中的网页链接数据中的文字数据进行特征提取,得到基于文字数据的待判别特征向量数据。
可选地,所述词语语义分析规则是基于切词、词语组合和/或语义词包匹配处理的分析规则。
为达到上述目的,本发明的实施例提供了一种网站转化设置的处理方法。所述处理方法包括,获取带有正确或错误标注的多个网站转化设置信息;获取与标注的网站转化设置信息对应的网站的第二访问量数据;根据预设的特征提取规则对所述带有正确或错误标注的多个网站转化设置信息以及所述第二访问量数据进行特征提取,得到标注特征向量数据;根据所述标注特征向量数据建立网站转化模型。
可选地,所述第二访问量数据包括所述标注的网站转化设置信息中转化网页的访问量数据、网站的访问量数据、不同深度的网页的访问量数据和/或所述转化网页的前一网页的访问量数据。
可选地,所述根据预设的特征提取规则对所述带有正确或错误标注的多个网站转化设置信息以及所述第二访问量数据进行特征提取,得到标注特征向量数据的处理包括:根据预设的网页链接成分分析规则对所述标注的网站转化设置信息中的网页链接数据进行特征提取,得到基于网页链接成分数据的标注特征向量数据;根据预设的访问量特征提取规则对所述第二访问量数据进行特征提取,得到基于访问量数据的标注特征向量数据。
可选地,所述网页链接数据中还包括文字数据,所述根据预设的特征提取规则对所述带有正确或错误标注的多个网站转化设置信息以及所述第二访问量数据进行特征提取,得到标注特征向量数据的处理还包括:根据预设的词语语义分析规则对所述标注的网站转化设置信息中的网页链接数据中的文字数据进行特征提取,得到基于文字数据的标注特征向量数据。
为达到上述目的,本发明的实施例还提供了一种网站转化设置的检测装置。所述检测装置包括:转化设置获取模块,用于获取待判别的网站转化设置信息;访问量获取模块,用于获取与所述网站转化设置信息对应的网站的第一访问量数据;特征向量获取模块,用于根据预设的特征提取规则对所述待判别的网站转化设置信息以及所述第一访问量数据进行特征提取,得到待判别特征向量数据;判别结果获取模块,用于根据所述待判别特征向量数据和预设的网站转化模型对所述待判别的网站转化设置信息是否正确进行判别,得到判别结果。
可选地,所述第一访问量数据包括所述待判别的网站转化设置信息中转化网页的访问量数据、网站的访问量数据、不同深度的网页的访问量数据和/或所述转化网页的前一网页的访问量数据。
可选地,所述特征向量获取模块包括:网页链接获取单元,用于根据预设的网页链接成分分析规则对所述待判别的网站转化设置信息中的网页链接数据进行特征提取,得到基于网页链接成分数据的待判别特征向量数据;访问量获取单元,用于根据预设的访问量特征提取规则对所述第一访问量数据进行特征提取,得到基于访问量数据的待判别特征向量数据。
可选地,所述网页链接数据中还包括文字数据,所述特征向量获取模块还包括:文字数据获取单元,用于根据预设的词语语义分析规则对所述待判别的网站转化设置信息中的网页链接数据中的文字数据进行特征提取,得到基于文字数据的待判别特征向量数据。
可选地,所述词语语义分析规则是基于切词、词语组合和/或语义词包匹配处理的分析规则。
为达到上述目的,本发明的实施例还提供了一种网站转化设置的处理装置。所述处理装置包括:标注转化获取模块,用于获取带有正确或错误标注的多个网站转化设置信息;标注访问量获取模块,用于获取与标注的网站转化设置信息对应的网站的第二访问量数据;标注特征向量获取模块,用于根据预设的特征提取规则对所述带有正确或错误标注的多个网站转化设置信息以及所述第二访问量数据进行特征提取,得到标注特征向量数据;转化模型建立模块,用于根据所述标注特征向量数据建立网站转化模型。
可选地,所述第二访问量数据包括所述标注的网站转化设置信息中转化网页的访问量数据、网站的访问量数据、不同深度的网页的访问量数据和/或所述转化网页的前一网页的访问量数据。
可选地,所述标注特征向量获取模块包括:标注网页链接获取单元,用于根据预设的网页链接成分分析规则对所述标注的网站转化设置信息中的网页链接数据进行特征提取,得到基于网页链接成分数据的标注特征向量数据;标注访问量获取单元,用于根据预设的访问量特征提取规则对所述第二访问量数据进行特征提取,得到基于访问量数据的标注特征向量数据。
可选地,所述网页链接数据中还包括文字数据,所述标注特征向量获取模块还包括:标注文字数据获取单元,用于根据预设的词语语义分析规则对所述标注的网站转化设置信息中的网页链接数据中的文字数据进行特征提取,得到基于文字数据的标注特征向量数据。
本发明实施例提供的网站转化设置的检测方法、处理方法和装置,通过获取待判别的网站转化设置信息及其对应的网站的访问量数据,并根据预设的特征提取规则对所述待判别的网站转化设置信息以及所述访问量数据进行特征提取,得到待判别特征向量数据,基于预设的网站转化模型对所述待判别的网站转化设置信息是否正确进行判别,得到判别结果,从而提高对网站转化设置信息的检测效率。
附图说明
图1为本发明实施例提供的网站转化设置的检测方法的流程图;
图2为本发明实施例提供的网站转化设置的处理方法的流程图;
图3为本发明实施例提供的网站转化设置的处理方法的流程图;
图4为本发明实施例提供的网站转化设置的检测方法的流程图;
图5为本发明实施例提供的网站转化设置的检测装置的结构示意图;
图6为本发明实施例提供的网站转化设置的检测装置的结构示意图;
图7为本发明实施例提供的网站转化设置的处理装置的结构示意图;
图8为本发明实施例提供的网站转化设置的处理装置的结构示意图。
具体实施方式
本方案的发明构思是,通过获取待判别的网站转化设置信息及其对应的网站的访问量数据,并根据预设的特征提取规则对所述待判别的网站转化设置信息以及所述访问量数据进行特征提取,得到待判别特征向量数据,基于预设的网站转化模型对所述待判别的网站转化设置信息是否正确进行判别,得到判别结果,从而提高对网站转化设置信息的检测效率。
下面结合附图对本发明实施例网站转化设置的检测方法、处理方法和装置进行详细描述。
实施例一
图1是本发明实施例提供的网站转化设置的检测方法的流程图。通过包括如图5所示的装置的计算机系统执行所述方法。所述网站转化设置的检测方法可应用于网站统计分析平台,如百度统计等。
如图1所示,在步骤S110,获取待判别的网站转化设置信息。
其中,网站转化设置信息可为在某网站或网页中完成预定的操作行为对应的信息,所述预定的操作行为可包括用户登录某网站、用户注册为某网站的常驻用户、用户下载预定文件数据、用户提交订单或在某网页中打开基于web的即时通讯页面等。
具体地,当用户需要了解如访客是如何找到并浏览用户的网站,并在该网站中进行了哪些操作、设置了哪些信息等信息时,可登录网站统计分析平台(如百度统计),用户的终端设备可显示该网站统计分析平台的首页,首页中可包括网站统计设置选项,用户可点击所述网站统计设置选项,终端设备显示设置页面,用户可点击设置页面中的新增网站转化目标按键,终端设备显示网站转化设置页面,用户可在该网站转化设置页面中输入网站转化目标的网页链接,并可选择记录方式(如访问次数、浏览量和提交订单的数量),除上述信息外,用户还可以设置收益、路径类型和转化类型(如注册、沟通和提交订单等)等信息。
为了提高对网站转化设置信息的收集准确率,可对用户设置的网站转化设置信息的正确与否进行判别。具体地,当需要对用户设置的网站转化设置信息是否正确进行判别时,可通过网站统计分析平台获取该用户在所述网站转化设置页面中设置的网站转化目标的网页链接、选择的记录方式、收益、路径类型和转化类型等网站转化设置信息,可将其记录为待判别的网站转化设置信息。
在步骤S120,获取与所述网站转化设置信息对应的网站的第一访问量数据。
具体地,用户在所述网站转化设置页面中设置了网站转化设置信息后,可点击确定按键,终端设备可将所述网站转化设置信息发送给网站统计分析平台。与所述网站转化设置信息对应的网站会在预定时长内统计该网站被访问的次数、注册的用户的数目和/或提交的订单的数目等第一访问量数据,并将其记录在统计工具日志中。当需要对所述网站转化设置信息是否正确进行判别时,可从所述统计工具日志中提取所述第一访问量数据。
在步骤S130,根据预设的特征提取规则对所述待判别的网站转化设置信息以及所述第一访问量数据进行特征提取,得到待判别特征向量数据。
其中,特征提取规则可根据实际情况进行设定,特征提取规则可以为基于某种特定类型的数据处理的规则,也可以是基于多种不同类型的数据处理的规则。
具体地,可使用预设的特征提取规则从所述待判别的网站转化设置信息中提取语义特征数据,如网络链接的域名、设置深度等,同时,还可使用预设的特征提取规则从所述第一访问量数据中提取统计特征数据,如访问次数、浏览量和提交订单的数量等,除提取的上述数据外,还可通过预设的特征提取规则从所述待判别的网站转化设置信息和所述第一访问量数据中提取其它特征数据,可将提取的上述特征数据记录为待判别特征数据,然后,可通过预定的数据处理方法将所述待判别特征数据设置为待判别特征向量数据。
在步骤S140,根据所述待判别特征向量数据和预设的网站转化模型对所述待判别的网站转化设置信息是否正确进行判别,得到判别结果。
其中,网站转化模型可以是用于判别网站转化设置信息是否正确的模型,所述网站转化模型可基于预设的网站转化条件或者网站转化设置信息的历史数据而构建。
具体地,可将步骤S130中得到的待判别特征向量数据输入到预设的网站转化模型中进行计算,得到相应的网站转化设置信息,然后,可将得到的网站转化设置信息与所述待判别的网站转化设置信息进行对比,如果两者的差距大于预设阈值,则可确定所述待判别的网站转化设置信息不正确,此时,可输出所述待判别的网站转化设置信息不正确的提示信息。如果两者的差距小于或等于预设阈值,则可确定所述待判别的网站转化设置信息正确,此时,可输出所述待判别的网站转化设置信息正确的提示信息。
图2是本发明实施例提供的网站转化设置的处理方法的流程图。通过包括如图7所示的装置的计算机系统执行所述处理方法。
如图2所示,在步骤S210,获取带有正确或错误标注的多个网站转化设置信息。
具体地,每当用户通过网站统计分析平台设置的网站转化设置信息时,网站统计分析平台可将所述网站转化设置信息及其对应的网站的统计工具日志中记录的第二访问量数据对应存储,其中,用户设置的网站转化设置信息的具体处理可参见上述步骤S110的相关内容,在此不再赘述。当需要使用用户在网站统计分析平台中设置的网站转化设置信息的历史数据时,可在网站统计分析平台中获取存储的多个网站转化设置信息,然后,可通过人工检测的方式确定其中每个网站转化设置信息是否正确,并为每个网站转化设置信息标注相应的正确或错误标记,从而得到带有正确或错误标注的多个网站转化设置信息。
例如表1所示,表1为带有正确或错误标注的网站转化设置信息示例。
表1
其中,转化类型指注册或提交订单等,“0”为注册或提交订单等代码。去重方法指按访问次数算、到访次数、到访人数等。是否有效为人工标注结果。
在步骤S220,获取与标注的网站转化设置信息对应的网站的第二访问量数据。
具体地,通过带有正确或错误标注的多个网站转化设置信息查找到与其相对应的网站,从所述网站的统计工具日志中获取所述网站被访问的次数、注册的用户的数目和/或提交的订单的数目等第二访问量数据。
在步骤S230,根据预设的特征提取规则对所述带有正确或错误标注的多个网站转化设置信息以及所述第二访问量数据进行特征提取,得到标注特征向量数据。
其中,步骤S230的处理可参见上述步骤S130的步骤内容,在此不再赘述。
在步骤S240,根据所述标注特征向量数据建立网站转化模型。
具体地,可在预设的监督学习机制的监督下,对所述标注特征向量数据进行模型训练,并通过每个网站转化设置信息标注的正确或错误标记对上述模型训练过程不断进行调整,以提高通过模型训练得到的相应模型的可靠性和准确率,这样,通过模型训练可建立网站转化模型。
本发明实施例提供的网站转化设置的检测方法和处理方法,通过获取待判别的网站转化设置信息及其对应的网站的访问量数据,并根据预设的特征提取规则对所述待判别的网站转化设置信息以及所述访问量数据进行特征提取,得到待判别特征向量数据,基于预设的网站转化模型对所述待判别的网站转化设置信息是否正确进行判别,得到判别结果,从而提高对网站转化设置信息的检测效率。
实施例二
本发明实施例提供了一种网站转化设置的检测方法,所述检测方法可通过预设的网站转化模型对待判别的网站转化设置信息是否正确进行判别,因此,在执行所述检测方法之前需要建立网站转化模型,其中,建立网站转化模型的处理方法可称为网站转化设置的处理方法。
图3为本发明提供的网站转化设置的处理方法的另一个实施例的流程图,所述实施例可视为图2的又一种具体的实现方案。
如图3所示,在步骤S310,获取带有正确或错误标注的多个网站转化设置信息。
其中,S310的步骤内容与上述实施例一中步骤S210的步骤内容相同,在此不再赘述。
在步骤S320,获取与标注的网站转化设置信息对应的网站的第二访问量数据。
其中,第二访问量数据可包括所述标注的网站转化设置信息中转化网页的访问量数据、网站的访问量数据、不同深度的网页的访问量数据和/或所述转化网页的前一网页的访问量数据等。不同深度的网页如跳转网页和该跳转网页的前一网页等。
其中,S320的步骤内容与上述实施例一中步骤S220的步骤内容相同,在此不再赘述。
表2为从网站的统计工具日志中获取的第二访问量数据的示例,如表2所示,其中,pv可表示转化网站或网页(即网站转化目标的网页链接对应的网站或网页)被访问的次数,uv可表示转化网站或网页的访问人数,“访次”为总访问次数。
表2
表3为从网站的统计工具日志中获取的第二访问量数据的又一示例,如表3所示,其中,pv可表示站点被访问的次数,uv可表示站点的访问人数,“访次”为总访问次数。
表3
站点标识 网页深度 pv uv 访次
2957786 站点总pv 81677 40034 50928
2957786 站点0层pv 3005 1787 1876
2957786 站点1层pv 141 90 101
2957786 站点2层pv 7596 4445 5521
2957786 站点3层pv 62559 31389 31982
2957786 站点4层pv 7163 5923 6024
在步骤S330,根据预设的网页链接成分分析规则对所述标注的网站转化设置信息中的网页链接数据进行特征提取,得到基于网页链接成分数据的标注特征向量数据。
具体地,由于网站转化设置信息中用户设置的网站转化目标的网页链接是网站转化中较关键的信息,因此,可充分利用所述标注的网站转化设置信息中的网站转化目标的网页链接(即url)中的语义信息对所述网页链接进行特征提取。具体地,获取带有正确或错误标注的多个网站转化设置信息中每个网站转化设置信息中的网站转化目标的网页链接,使用预设的网页链接成分分析规则分析所述网页链接的域名、设置深度等信息,从中提取出语义特征信息。然后,可通过预定的数据处理方法将提取的语义特征信息的数据处理为基于网页链接成分数据的标注特征向量数据。
此外,如果所述网页链接的数据中还包括文字数据,可执行下述步骤S340的处理。
在步骤S340,根据预设的词语语义分析规则对所述标注的网站转化设置信息中的网页链接数据中的文字数据进行特征提取,得到基于文字数据的标注特征向量数据。
具体地,可获取带有正确或错误标注的多个网站转化设置信息中每个网站转化设置信息中的网站转化目标的网页链接,从中得到带有文字数据的网页链接。使用预设的词语语义分析规则分析所述网页链接中的文字的语义信息,并从中提取出基于文字数据的语义特征信息。然后,可通过预定的数据处理方法将提取的语义特征信息的数据处理为基于文字数据的标注特征向量数据。
此外,所述词语语义分析规则可以是基于切词、词语组合和/或语义词包匹配处理的分析规则。相应地,使用预设的词语语义分析规则分析所述网页链接中的文字的语义信息的处理可包括:可对所述网页链接中的文字进行切词,得到多个词,然后去除其中的“的”等停用词,得到多个关键词,可对所述多个关键词进行词语组合,并可将特定的关键词归类到特定的语义集合中(即语义词包匹配),从而得到基于文字数据的语义特征信息。
在步骤S350,根据预设的访问量特征提取规则对所述第二访问量数据进行特征提取,得到基于访问量数据的标注特征向量数据。
具体地,由于第二访问量数据对于用户设置的网站转化设置信息是否正确具有重要意义,因此,可对所述第二访问量数据进行特征提取。具体地,获取带有正确或错误标注的多个网站转化设置信息中每个网站转化设置信息对应的网站的第二访问量数据,使用预设的访问量特征提取规则分析所述第二访问量数据中转化网页的访问量数据、网站的访问量数据、不同深度的网页的访问量数据和/或所述转化网页的前一网页的访问量数据等信息,并可结合网站的总访问量、网站同一深度目录等信息,从中提取出访问量特征信息。然后,可通过预定的数据处理方法将提取的访问量特征信息的数据处理为基于访问量数据的标注特征向量数据。
需要说明的是,本发明实施例中步骤S330~S350是按照顺序执行的,在实际应用中,步骤S330、S340和S350可以任意顺序执行,而且,也可以只执行步骤S330、S340和S350中的一个或两个步骤,本发明实施例对步骤S330、S340和S350的执行顺序以及需要执行其中的哪个或哪两个步骤不做限定。
在步骤S360,根据所述标注特征向量数据建立网站转化模型。
具体地,可在预设的监督学习机制的监督下,对通过上述步骤S330~S350得到的基于网页链接成分数据的标注特征向量数据、基于访问量数据的标注特征向量数据和基于文字数据的标注特征向量数据进行模型训练,并通过每个网站转化设置信息标注的正确或错误标记对上述模型训练过程不断进行调整,以提高通过模型训练得到的相应模型的可靠性和准确率,这样,通过模型训练可建立网站转化模型。
进一步地,基于建立的网站转化模型,可对待判别的网站转化设置信息是否正确进行判别。图4为本发明提供的网站转化设置的检测方法的另一个实施例的流程图,所述实施例可视为图1的又一种具体的实现方案。
如图4所示,在步骤S410,获取待判别的网站转化设置信息。
其中,S410的步骤内容与上述实施例一中步骤S110的步骤内容相同,在此不再赘述。
在步骤S420,获取与所述网站转化设置信息对应的网站的第一访问量数据。
其中,第一访问量数据包括所述待判别的网站转化设置信息中转化网页的访问量数据、网站的访问量数据、不同深度的网页的访问量数据和/或所述转化网页的前一网页的访问量数据。
S420的步骤内容与上述实施例一中步骤S120的步骤内容相同,在此不再赘述。
在步骤S430,根据预设的网页链接成分分析规则对所述待判别的网站转化设置信息中的网页链接数据进行特征提取,得到基于网页链接成分数据的待判别特征向量数据。
具体地,获取待判别的网站转化设置信息中的网站转化目标的网页链接,使用预设的网页链接成分分析规则分析所述网页链接的域名、设置深度等信息,从中提取出语义特征信息。然后,可通过预定的数据处理方法将提取的语义特征信息的数据处理为基于网页链接成分数据的待判别特征向量数据。
此外,如果待判别的网站转化设置信息中的网页链接的数据中还包括文字数据,可执行下述步骤S440的处理。
在步骤S440,根据预设的词语语义分析规则对所述待判别的网站转化设置信息中的网页链接数据中的文字数据进行特征提取,得到基于文字数据的待判别特征向量数据。
具体地,可使用预设的词语语义分析规则分析所述网页链接中的文字的语义信息,并从中提取出基于文字数据的语义特征信息。然后,可通过预定的数据处理方法将提取的语义特征信息的数据处理为基于文字数据的待判别特征向量数据。
此外,所述词语语义分析规则可以是基于切词、词语组合和/或语义词包匹配处理的分析规则。相应的处理可参见上述步骤S340的步骤内容,在此不再赘述。
在步骤S450,根据预设的访问量特征提取规则对所述第一访问量数据进行特征提取,得到基于访问量数据的待判别特征向量数据。
具体地,获取待判别的网站转化设置信息对应的网站的第一访问量数据,使用预设的访问量特征提取规则分析所述第一访问量数据中转化网页的访问量数据、网站的访问量数据、不同深度的网页的访问量数据和/或所述转化网页的前一网页的访问量数据等信息,并可结合网站的总访问量、网站同一深度目录等信息,从中提取出访问量特征信息。然后,可通过预定的数据处理方法将提取的访问量特征信息的数据处理为基于访问量数据的待判别特征向量数据。
需要说明的是,本发明实施例中步骤S430~S450是按照顺序执行的,在实际应用中,步骤S430、S440和S450可以任意顺序执行,而且,也可以只执行步骤S430、S440和S450中的一个或两个步骤,本发明实施例对步骤S430、S440和S450的执行顺序以及需要执行其中的哪个或哪两个步骤不做限定。
在步骤S460,根据所述待判别特征向量数据和预设的网站转化模型对所述待判别的网站转化设置信息是否正确进行判别,得到判别结果。
具体地,可将上述步骤S430~S450得到的基于网页链接成分数据的待判别特征向量数据、基于访问量数据的待判别特征向量数据和基于文字数据的待判别特征向量数据输入到预设的网站转化模型中进行计算,得到相应的网站转化设置信息,然后,可将得到的网站转化设置信息与所述待判别的网站转化设置信息进行对比,判别所述待判别的网站转化设置信息是否正确,并输出相应的判别结果。具体处理可参见上述步骤S140的处理,在此不再赘述。
本发明实施例提供的网站转化设置的检测方法和处理方法,通过获取待判别的网站转化设置信息及其对应的网站的访问量数据,并根据预设的特征提取规则对所述待判别的网站转化设置信息以及所述访问量数据进行特征提取,得到待判别特征向量数据,基于预设的网站转化模型对所述待判别的网站转化设置信息是否正确进行判别,得到判别结果,从而提高对网站转化设置信息的检测效率。
实施例三
基于相同的技术构思,本发明实施例还提供了一种网站转化设置的检测装置。如图5所示,所述检测装置包括转化设置获取模块510、访问量获取模块520、特征向量获取模块530和判别结果获取模块540。
转化设置获取模块510用于获取待判别的网站转化设置信息。
访问量获取模块520用于获取与所述网站转化设置信息对应的网站的第一访问量数据。
特征向量获取模块530用于根据预设的特征提取规则对所述待判别的网站转化设置信息以及所述第一访问量数据进行特征提取,得到待判别特征向量数据。
判别结果获取模块540用于根据所述待判别特征向量数据和预设的网站转化模型对所述待判别的网站转化设置信息是否正确进行判别,得到判别结果。
另外,所述第一访问量数据包括所述待判别的网站转化设置信息中转化网页的访问量数据、网站的访问量数据、不同深度的网页的访问量数据和/或所述转化网页的前一网页的访问量数据。
进一步地,在图5所示实施例的基础上,如图6所示的特征向量获取模块530包括:网页链接获取单元531,用于根据预设的网页链接成分分析规则对所述待判别的网站转化设置信息中的网页链接数据进行特征提取,得到基于网页链接成分数据的待判别特征向量数据;访问量获取单元532,用于根据预设的访问量特征提取规则对所述第一访问量数据进行特征提取,得到基于访问量数据的待判别特征向量数据。
进一步地,所述网页链接数据中还包括文字数据,如图6所示的特征向量获取模块530还包括:文字数据获取单元533,用于根据预设的词语语义分析规则对所述待判别的网站转化设置信息中的网页链接数据中的文字数据进行特征提取,得到基于文字数据的待判别特征向量数据。
可选地,所述词语语义分析规则是基于切词、词语组合和/或语义词包匹配处理的分析规则。
本发明实施例提供的网站转化设置的检测装置,通过获取待判别的网站转化设置信息及其对应的网站的访问量数据,并根据预设的特征提取规则对所述待判别的网站转化设置信息以及所述访问量数据进行特征提取,得到待判别特征向量数据,基于预设的网站转化模型对所述待判别的网站转化设置信息是否正确进行判别,得到判别结果,从而提高对网站转化设置信息的检测效率。
实施例四
基于相同的技术构思,本发明实施例还提供了一种网站转化设置的处理装置。如图7所示,所述处理装置包括标注转化获取模块710、标注访问量获取模块720、标注特征向量获取模块730和转化模型建立模块740。
标注转化获取模块710用于获取带有正确或错误标注的多个网站转化设置信息。
标注访问量获取模块720用于获取与标注的网站转化设置信息对应的网站的第二访问量数据。
标注特征向量获取模块730用于根据预设的特征提取规则对所述带有正确或错误标注的多个网站转化设置信息以及所述第二访问量数据进行特征提取,得到标注特征向量数据。
转化模型建立模块740用于根据所述标注特征向量数据建立网站转化模型。
可选地,所述第二访问量数据包括所述标注的网站转化设置信息中转化网页的访问量数据、网站的访问量数据、不同深度的网页的访问量数据和/或所述转化网页的前一网页的访问量数据。
进一步地,在图7所示实施例的基础上,如图8所示的标注特征向量获取模块730包括:标注网页链接获取单元731,用于根据预设的网页链接成分分析规则对所述标注的网站转化设置信息中的网页链接数据进行特征提取,得到基于网页链接成分数据的标注特征向量数据;标注访问量获取单元732,用于根据预设的访问量特征提取规则对所述第二访问量数据进行特征提取,得到基于访问量数据的标注特征向量数据。
进一步地,所述网页链接数据中还包括文字数据,如图8所示的标注特征向量获取模块730还包括:标注文字数据获取单元733,用于根据预设的词语语义分析规则对所述标注的网站转化设置信息中的网页链接数据中的文字数据进行特征提取,得到基于文字数据的标注特征向量数据。
本发明实施例提供的网站转化设置的处理装置,通过获取待判别的网站转化设置信息及其对应的网站的访问量数据,并根据预设的特征提取规则对所述待判别的网站转化设置信息以及所述访问量数据进行特征提取,得到待判别特征向量数据,基于预设的网站转化模型对所述待判别的网站转化设置信息是否正确进行判别,得到判别结果,从而提高对网站转化设置信息的检测效率。
需要指出,根据实施的需要,可将本申请中描述的各个步骤/部件拆分为更多步骤/部件,也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件,以实现本发明的目的。
上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CDROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (18)

1.一种网站转化设置的检测方法,其特征在于,所述检测方法包括:
获取待判别的网站转化设置信息;
获取与所述网站转化设置信息对应的网站的第一访问量数据;
根据预设的特征提取规则对所述待判别的网站转化设置信息以及所述第一访问量数据进行特征提取,得到待判别特征向量数据;
根据所述待判别特征向量数据和预设的网站转化模型对所述待判别的网站转化设置信息是否正确进行判别,得到判别结果。
2.根据权利要求1所述的检测方法,其特征在于,所述第一访问量数据包括所述待判别的网站转化设置信息中转化网页的访问量数据、网站的访问量数据、不同深度的网页的访问量数据和/或所述转化网页的前一网页的访问量数据。
3.根据权利要求2所述的检测方法,其特征在于,所述根据预设的特征提取规则对所述待判别的网站转化设置信息以及所述第一访问量数据进行特征提取,得到待判别特征向量数据的处理包括:
根据预设的网页链接成分分析规则对所述待判别的网站转化设置信息中的网页链接数据进行特征提取,得到基于网页链接成分数据的待判别特征向量数据;
根据预设的访问量特征提取规则对所述第一访问量数据进行特征提取,得到基于访问量数据的待判别特征向量数据。
4.根据权利要求3所述的检测方法,其特征在于,所述网页链接数据中还包括文字数据,所述根据预设的特征提取规则对所述待判别的网站转化设置信息以及所述第一访问量数据进行特征提取,得到待判别特征向量数据的处理还包括:
根据预设的词语语义分析规则对所述待判别的网站转化设置信息中的网页链接数据中的文字数据进行特征提取,得到基于文字数据的待判别特征向量数据。
5.根据权利要求4所述的检测方法,其特征在于,所述词语语义分析规则是基于切词、词语组合和/或语义词包匹配处理的分析规则。
6.一种网站转化设置的处理方法,其特征在于,所述处理方法包括:
获取带有正确或错误标注的多个网站转化设置信息;
获取与标注的网站转化设置信息对应的网站的第二访问量数据;
根据预设的特征提取规则对所述带有正确或错误标注的多个网站转化设置信息以及所述第二访问量数据进行特征提取,得到标注特征向量数据;
根据所述标注特征向量数据建立网站转化模型。
7.根据权利要求6所述的处理方法,其特征在于,所述第二访问量数据包括所述标注的网站转化设置信息中转化网页的访问量数据、网站的访问量数据、不同深度的网页的访问量数据和/或所述转化网页的前一网页的访问量数据。
8.根据权利要求7所述的处理方法,其特征在于,所述根据预设的特征提取规则对所述带有正确或错误标注的多个网站转化设置信息以及所述第二访问量数据进行特征提取,得到标注特征向量数据的处理包括:
根据预设的网页链接成分分析规则对所述标注的网站转化设置信息中的网页链接数据进行特征提取,得到基于网页链接成分数据的标注特征向量数据;
根据预设的访问量特征提取规则对所述第二访问量数据进行特征提取,得到基于访问量数据的标注特征向量数据。
9.根据权利要求8所述的处理方法,其特征在于,所述网页链接数据中还包括文字数据,所述根据预设的特征提取规则对所述带有正确或错误标注的多个网站转化设置信息以及所述第二访问量数据进行特征提取,得到标注特征向量数据的处理还包括:
根据预设的词语语义分析规则对所述标注的网站转化设置信息中的网页链接数据中的文字数据进行特征提取,得到基于文字数据的标注特征向量数据。
10.一种网站转化设置的检测装置,其特征在于,所述检测装置包括:
转化设置获取模块,用于获取待判别的网站转化设置信息;
访问量获取模块,用于获取与所述网站转化设置信息对应的网站的第一访问量数据;
特征向量获取模块,用于根据预设的特征提取规则对所述待判别的网站转化设置信息以及所述第一访问量数据进行特征提取,得到待判别特征向量数据;
判别结果获取模块,用于根据所述待判别特征向量数据和预设的网站转化模型对所述待判别的网站转化设置信息是否正确进行判别,得到判别结果。
11.根据权利要求10所述的检测装置,其特征在于,所述第一访问量数据包括所述待判别的网站转化设置信息中转化网页的访问量数据、网站的访问量数据、不同深度的网页的访问量数据和/或所述转化网页的前一网页的访问量数据。
12.根据权利要求11所述的检测装置,其特征在于,所述特征向量获取模块包括:
网页链接获取单元,用于根据预设的网页链接成分分析规则对所述待判别的网站转化设置信息中的网页链接数据进行特征提取,得到基于网页链接成分数据的待判别特征向量数据;
访问量获取单元,用于根据预设的访问量特征提取规则对所述第一访问量数据进行特征提取,得到基于访问量数据的待判别特征向量数据。
13.根据权利要求12所述的检测装置,其特征在于,所述网页链接数据中还包括文字数据,所述特征向量获取模块还包括:
文字数据获取单元,用于根据预设的词语语义分析规则对所述待判别的网站转化设置信息中的网页链接数据中的文字数据进行特征提取,得到基于文字数据的待判别特征向量数据。
14.根据权利要求13所述的检测装置,其特征在于,所述词语语义分析规则是基于切词、词语组合和/或语义词包匹配处理的分析规则。
15.一种网站转化设置的处理装置,其特征在于,所述处理装置包括:
标注转化获取模块,用于获取带有正确或错误标注的多个网站转化设置信息;
标注访问量获取模块,用于获取与标注的网站转化设置信息对应的网站的第二访问量数据;
标注特征向量获取模块,用于根据预设的特征提取规则对所述带有正确或错误标注的多个网站转化设置信息以及所述第二访问量数据进行特征提取,得到标注特征向量数据;
转化模型建立模块,用于根据所述标注特征向量数据建立网站转化模型。
16.根据权利要求15所述的处理装置,其特征在于,所述第二访问量数据包括所述标注的网站转化设置信息中转化网页的访问量数据、网站的访问量数据、不同深度的网页的访问量数据和/或所述转化网页的前一网页的访问量数据。
17.根据权利要求16所述的处理装置,其特征在于,所述标注特征向量获取模块包括:
标注网页链接获取单元,用于根据预设的网页链接成分分析规则对所述标注的网站转化设置信息中的网页链接数据进行特征提取,得到基于网页链接成分数据的标注特征向量数据;
标注访问量获取单元,用于根据预设的访问量特征提取规则对所述第二访问量数据进行特征提取,得到基于访问量数据的标注特征向量数据。
18.根据权利要求17所述的处理装置,其特征在于,所述网页链接数据中还包括文字数据,所述标注特征向量获取模块还包括:
标注文字数据获取单元,用于根据预设的词语语义分析规则对所述标注的网站转化设置信息中的网页链接数据中的文字数据进行特征提取,得到基于文字数据的标注特征向量数据。
CN201510640152.2A 2015-09-30 2015-09-30 网站转化设置的检测方法、处理方法和装置 Active CN105224655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510640152.2A CN105224655B (zh) 2015-09-30 2015-09-30 网站转化设置的检测方法、处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510640152.2A CN105224655B (zh) 2015-09-30 2015-09-30 网站转化设置的检测方法、处理方法和装置

Publications (2)

Publication Number Publication Date
CN105224655A true CN105224655A (zh) 2016-01-06
CN105224655B CN105224655B (zh) 2019-03-12

Family

ID=54993623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510640152.2A Active CN105224655B (zh) 2015-09-30 2015-09-30 网站转化设置的检测方法、处理方法和装置

Country Status (1)

Country Link
CN (1) CN105224655B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111124847A (zh) * 2018-11-01 2020-05-08 百度在线网络技术(北京)有限公司 网站用户行为分析方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360484A (zh) * 2011-09-30 2012-02-22 奇智软件(北京)有限公司 团购网站销售数据真实性检测方法及装置
CN102663616A (zh) * 2012-03-19 2012-09-12 北京国双科技有限公司 一种基于多触点归因模型的网络广告效果衡量方法和系统
CN103744963A (zh) * 2014-01-06 2014-04-23 北京国双科技有限公司 目标页面转化的处理方法和装置
CN104598511A (zh) * 2014-10-23 2015-05-06 腾讯科技(深圳)有限公司 搜索结果推荐方法、装置及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360484A (zh) * 2011-09-30 2012-02-22 奇智软件(北京)有限公司 团购网站销售数据真实性检测方法及装置
CN102663616A (zh) * 2012-03-19 2012-09-12 北京国双科技有限公司 一种基于多触点归因模型的网络广告效果衡量方法和系统
CN103744963A (zh) * 2014-01-06 2014-04-23 北京国双科技有限公司 目标页面转化的处理方法和装置
CN104598511A (zh) * 2014-10-23 2015-05-06 腾讯科技(深圳)有限公司 搜索结果推荐方法、装置及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111124847A (zh) * 2018-11-01 2020-05-08 百度在线网络技术(北京)有限公司 网站用户行为分析方法及装置

Also Published As

Publication number Publication date
CN105224655B (zh) 2019-03-12

Similar Documents

Publication Publication Date Title
CN104408093B (zh) 一种新闻事件要素抽取方法与装置
CN107707545B (zh) 一种异常网页访问片段检测方法、装置、设备及存储介质
CN107239440B (zh) 一种垃圾文本识别方法和装置
CN103605794A (zh) 一种网站分类方法
EP2657854A1 (en) Method and system for incremental collection of forum replies
CN103299304A (zh) 分类规则生成装置、分类规则生成方法、分类规则生成程序以及记录介质
CN109145180B (zh) 一种基于增量聚类的企业热点事件挖掘方法
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
CN104636407A (zh) 参数取值训练及搜索请求处理方法和装置
CN104915426A (zh) 信息排序方法、用于生成信息排序模型的方法及装置
CN104598632A (zh) 热点事件检测方法和装置
CN104750791A (zh) 一种图像检索方法及装置
CN109948154A (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
CN107436931B (zh) 网页正文抽取方法及装置
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN107086925B (zh) 一种基于深度学习的互联网流量大数据分析方法
CN109815337B (zh) 确定文章类别的方法及装置
CN111126058A (zh) 文本信息自动抽取方法、装置、可读存储介质和电子设备
WO2017000659A1 (zh) 一种富集化url的识别方法和装置
CN114970502A (zh) 一种应用于数字政府的文本纠错方法
CN103605742A (zh) 识别网络资源实体目录页的方法及装置
CN105224655A (zh) 网站转化设置的检测方法、处理方法和装置
CN101908047B (zh) 无效模板生成方法及装置、无效网页识别方法及装置
CN109241438B (zh) 基于要素的跨通道热点事件发现方法、装置及存储介质
CN109064067B (zh) 基于互联网的金融风险运营主体判定方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant