CN114782955A

CN114782955A - 埋点处理方法、电子设备、存储介质

Info

Publication number: CN114782955A
Application number: CN202210439531.5A
Authority: CN
Inventors: 马亿凯
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2022-07-22

Abstract

本发明涉及数据处理领域，本发明提出一种埋点处理方法、电子设备、存储介质。其中，埋点处理方法，包括：获取预设页面布局图，预设页面布局图反映待埋点页面中组件的布局；对预设页面布局图进行图像识别，得到待埋点页面中的组件埋设位置与组件埋设类型；根据组件埋设位置与组件埋设类型，在待埋点页面中埋设用户数据采集点。本发明实施例中的埋点处理方法，以针对预设页面布局图进行图像识别的方式，确定待埋点页面中需要埋点的组件埋设类型，以及确定在待埋点页面中需要埋设组件的位置，从而帮助传达埋设用户数据采集点所需的相关信息，以至于精确、高效地进行用户数据采集点的布设。

Description

埋点处理方法、电子设备、存储介质

技术领域

本发明涉及数据处理领域，尤其是涉及一种埋点处理方法、电子设备、存储介质。

背景技术

随着时代的发展，数据埋点的业务意义越发重要，即帮助定义和获取分析人员真正需要的业务数据及其附带信息。在不同场景下，业务人员关注的信息和角度可能不同。典型的应用场景有面向数字营销领域的分析，以及面向产品运营领域的分析。前者注重来源渠道和广告效果，后者更在意产品本身流程和体验的优化。两者各有侧重，也可以有一些交叉。所以，对于不同的项目和分析目的，应当设计不同的埋点方案。

在互联网产品的通常设计过程中，相关技术仍采用人工转述的办法为前端设计师传达需要埋点的组件相关信息，以至于容易遗漏对底层数据埋点、数据指标的需求，另外人工转述所耗费的时间相对较长，总体来说效率低下。在获得用户的许可或者同意的前提下，如何于客户端或者服务端中埋设合理的用户数据采集点，以帮助精确、高效地采集用户数据，同时遵守相关国家和地区的相关法律法规和标准，成为业内人员亟待解决的问题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种埋点处理方法、电子设备、存储介质，能够精确、高效地进行用户数据采集点的布设。

根据本发明的第一方面实施例的埋点处理方法，包括：

获取预设页面布局图，所述预设页面布局图反映待埋点页面的组件布局；

对所述预设页面布局图进行图像识别，得到所述待埋点页面中的组件埋设位置与组件埋设类型；

根据所述组件埋设位置与所述组件埋设类型，在所述待埋点页面中埋设用户数据采集点。

可选的，根据本发明的一些实施例，所述对所述预设页面布局图进行图像识别，得到所述待埋点页面中的组件埋设位置与组件埋设类型，包括：

基于所述预设页面布局图中像素点的颜色分布对所述预设页面布局图进行区域划分，得到待识别色块；

对所述待识别色块进行光学字符识别，获取所述待识别色块的色块类型信息；

根据所述色块类型信息，得到所述待埋点页面中的组件埋设类型。

可选的，根据本发明的一些实施例，所述基于所述预设页面布局图中像素点的颜色分布对所述预设页面布局图进行区域划分，得到待识别色块，包括：

通过三原色数组对所述预设页面布局图中各个像素点的颜色进行描述；

以各个所述像素点对应的三原色数组为基础，统计颜色处于相同色域的各个所述像素点位置；

根据所述各个像素点位置，得出颜色处于相同色域的所述各个像素点之间的位置间隔；

以处于相同色域且所述位置间隔小于预设距离的所述各个像素点归为同一区域，对所述预设页面布局图进行区域划分，得到所述待识别色块。

可选的，根据本发明的一些实施例，所述对所述待识别色块进行光学字符识别，获取所述待识别色块的色块类型信息，包括：

对所述待识别色块进行光学字符识别,获取所述色块类型信息中所述待识别色块的形状和文字信息。

可选的，根据本发明的一些实施例，根据所述色块类型信息，得到所述待埋点页面中的组件埋设类型，包括：

根据所述待识别色块的形状和文字信息，从组件类型数据库中匹配得到与所述待识别色块对应的所述组件埋设类型。

可选的，根据本发明的一些实施例，所述根据所述组件埋设位置与所述组件埋设类型，在所述待埋点页面中埋设用户数据采集点，包括：

根据所述组件埋设类型，获取与所述组件埋设类型对应的埋点预设数据；

根据所述埋点预设数据生成埋点清单，并以所述埋点清单为基础埋设用户数据采集点。

可选的，根据本发明的一些实施例，所述根据所述埋点预设数据生成埋点清单，并以所述埋点清单为基础埋设用户数据采集点，包括：

根据所述埋点清单生成与所述埋点预设数据对应的埋点代码片段；

基于所述埋点代码片段，在所述待埋点页面中埋设所述用户数据采集点。

可选的，根据本发明的一些实施例，所述根据所述埋点清单，生成与所述埋点预设数据对应的埋点代码片段，包括：

根据所述埋点清单，对所述埋点清单中的所述埋点预设数据进行定义与赋值，并纳入所述埋点代码片段。

第二方面，本发明实施例提供了一种电子设备，包括：存储器、处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如本发明第一方面实施例中任意一项所述的埋点处理方法。

第三方面，本发明实施例提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如本发明第一方面实施例中任意一项所述的埋点处理方法。

本发明的埋点处理方法、电子设备、存储介质，至少具有如下有益效果：

本发明实施例中的埋点处理方法，需要先获取反映待埋点页面组件布局的预设页面布局图，再对预设页面布局图进行图像识别，进一步得到待埋点页面中的组件埋设位置与组件埋设类型，从而根据组件埋设位置与组件埋设类型，在待埋点页面中埋设用户数据采集点。本发明以图像识别的方式，确定待埋点页面中需要埋点的组件埋设类型，以及确定在待埋点页面中需要埋设组件的位置，从而帮助传达埋设用户数据采集点所需的相关信息，以至于精确、高效地进行用户数据采集点的布设。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例提供的一个流程图；

图2为根据本发明实施例提供的另一个流程图；

图3为根据本发明实施例提供的另一个流程图；

图4为根据本发明实施例提供的另一个流程图；

图5为根据本发明实施例提供的另一个流程图；

图6为根据本发明实施例提供的另一个流程图；

图7为根据本发明实施例提供的另一个流程图；

图8为根据本发明实施例提供的一个实现本发明埋点处理方法的电子设备示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、左、右、前、后等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

本发明的描述中，需要说明的是，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。另外，下文中对于具体步骤的标识并不代表对于步骤顺序与执行逻辑的限定，步骤之间的执行顺序与执行逻辑应参照对应的说明性表述进行理解与推定。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据用户信息、用户行为数据，用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时，都会先获得用户的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关国家和地区的相关法律法规和标准。此外，当本申请实施例需要获取用户的敏感个人信息时，会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意，在明确获得用户的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的用户相关数据。

随着时代的发展，用户使用互联网产品所产生的数据记录对于行业人员影响深远，以至于以用户使用数据为基础的监测工作和分析工作成为互联网从业人员工作的重要一环。

“埋点”，是数据采集领域(尤其是用户行为数据采集领域)的术语，指的是针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。

埋点的技术实质，是先监听软件应用运行过程中的事件，当需要关注的事件发生时进行判断和捕获，然后获取必要的上下文信息，最后将信息整理后发送至服务器端。所监听的事件，通常由操作系统、浏览器、APP框架等平台提供，也可以在基础事件之上进行触发条件的自定义(如点击某一个特定按钮)。一般情况下，埋点可以通过监测分析工具提供的SDK来进行编程实现。

埋点的业务意义显而易见，即帮助定义和获取分析人员真正需要的业务数据及其附带信息。在不同场景下，业务人员关注的信息和角度可能不同。典型的应用场景有面向数字营销领域的分析，以及面向产品运营领域的分析。前者注重来源渠道和广告效果，后者更在意产品本身流程和体验的优化。两者各有侧重，也可以有一些交叉。所以，对于不同的项目和分析目的，应当设计不同的埋点方案。

在互联网产品的通常设计过程中，相关技术仍采用人工转述的办法为前端设计师传达需要埋点的组件相关信息，大多数都是依赖产品经理在需求文档中逐一枚举，开发人员再将对应的事件上报到数据埋点接口中，容易存在错报、漏报，以至于容易遗漏应用程序、网站等前端开发项目对于底层的数据埋点、数据指标需求，另外人工转述所耗费的时间相对较长，总体来说效率低下。另外，由于不同开发人员对于同一个事件的文字描述可能存在不同理解，尤其是埋点上报的时机不同会造成数据指标反馈的结果不同，因此可能会影响指标的准确性，从而影响决策层对产品上线效果评价的客观性。如何在客户端或者服务端埋下合理的用户数据采集点，以帮助精确、高效地采集用户数据，成为业内人员亟待解决的问题。

下面参照附图对本发明实施例作进一步说明。

参照图1，根据本发明的第一方面实施例的埋点处理方法，包括：

步骤S101，获取反映待埋点页面组件布局的预设页面布局图；

需要说明的是，预设页面布局图反映待埋点页面组件布局，其中待埋点页面指的是需要埋设用户数据采集点的目标页面。根据本发明一些实施例，预设页面布局图可以是由用户界面设计师(User Interface Designer，UI设计师)根据埋设用户数据采集点的需求设计而成的，也可以是从网络中下载得到的。应理解，本发明提供的一些实施例中，页面布局指的是在应用软件、H5小程序、各类网站或者其他具备前端页面的终端应用程序中，前端页面所显示的文字、图形、颜色、表格或者其他元素的组合排版，而待埋点页面组件布局则指的就是前端页面中所显示的、与待埋点页面组件相关的文字、图形、颜色、表格或者其他元素的组合排版。需要强调，获取预设页面布局图的目的，是为了将埋设用户数据采集点的需求加以明确，以便根据预设页面布局图获取待埋点页面中的组件埋设位置与组件埋设类型。

根据本发明一些较为具体的实施例，预设页面布局图所反映出来的待埋点页面组件布局可以包括以下内容：组件之间的距离规范(如结合标注线注明两组件的横间距步骤S10pt以及纵间距40pt)，组件对齐方式(如两端对齐、居中对齐)，埋点需求标注(如当离开A页面时若收到新消息，显示未读红点或者提示框)，页面切换组件的设置，触发某组件时的反馈提示(如鼠标图案变化、组件对应字体高亮)。由于获取预设页面布局图的目的，是为了将埋设用户数据采集点的需求加以明确，以便根据预设页面布局图获取待埋点页面中的组件埋设位置与组件埋设类型。因此预设页面布局图所反映出来的待埋点页面组件布局所包括的内容多种多样，呈现形式包括但不局限于：文字、图形、颜色、表格或者其他元素，需要强调，本发明包含于预设页面布局图中的信息并不局限于上述举出的几类实施例。

步骤S102，对预设页面布局图进行图像识别，得到待埋点页面中的组件埋设位置与组件埋设类型；

需要说明的是，组件埋设位置指的是在待埋点页面中埋设用户数据采集点对应组件的位置，组件埋设类型指的是在待埋点页面中埋设用户数据采集点对应组件的类型。应理解，对预设页面布局图进行图像识别，是为了通过得到待埋点页面中的组件埋设位置与组件埋设类型，进一步明确埋设用户数据采集点的需求，以便后续埋点工作的进行。在本发明的一些实施例中，对预设页面布局图进行图像识别可以通过多种方式实现，包括但不限于：通过神经网络图像识别模型对预设页面布局图进行图像识别、通过光学字符识别(Optical Character Recognition，OCR)模型对预设页面布局图进行图像识别。考虑到从预设页面布局图中识别得到待埋点页面中的组件埋设位置与组件埋设类型，对识别精度并非有非常严格的要求，因此出于节省算力资源的考量，本发明一个较为优选的实施例选用OCR模型对预设页面布局图进行图像识别，得到待埋点页面中的组件埋设位置与组件埋设类型。

应理解，对预设页面布局图进行图像识别并根据识别结果得到组件埋设类型有多种方式，包括但不限于从预先设置的组件类型数据库中匹配得到。另外，在前端开发的过程中，需要遵循符合业内标准的前端规范，其中一些前端规范就包括有预先设定好的组件类型以及与之相匹配的触发动作、字段。在本发明提供的一些实施例中，对预设页面布局图进行图像识别后，可以根据识别结果从前端规范中匹配得到对应的组件埋设类型。应理解，对预设页面布局图进行图像识别并根据识别结果得到组件埋设类型除了采用业内标准的前端规范，还可以采用业内人员约定俗成的其他规范。

步骤S103，根据组件埋设位置与组件埋设类型，在待埋点页面中埋设用户数据采集点。

需要说明的是，埋点指的是在应用软件、H5小程序、网站或者其他具备前端页面的应用程序中以特定的用户数据采集点收集信息，用来跟踪用户对于应用使用的状况，以便后续进一步优化产品或是提供运营的数据支撑，包括访问数(Visits)、访客数(Visitor)、停留时长(Time On Site)、页面浏览数(Page Views)和跳出率(Bounce Rate)。应理解，在应用软件、H5小程序、网站或者其他具备前端页面的应用程序前端开发过程中，用户数据采集点的埋设，需要将应用程序或者网站对于底层的数据埋点、数据指标的需求写入前端页面的底层代码，来对待埋点页面中的组件进行布局。在本发明的一些实施例中，通过预设页面布局图的方式将应用程序或者网站对于底层的数据埋点、数据指标的需求加以明确，然后进一步对预设页面布局图进行图像识别，得到待埋点页面中的组件埋设位置与组件埋设类型之后，以待埋点页面中的组件埋设位置与组件埋设类型为基础在待埋点页面中埋设用户数据采集点。通过上述方式埋设用户数据采集点，可以解决转述的过程中，应用程序、网站等前端开发项目对于底层的数据埋点、数据指标需求传达效率低下的问题。

参照图2，根据本发明的一些实施例，对预设页面布局图进行图像识别，得到待埋点页面中的组件埋设位置与组件埋设类型，包括：

步骤S201，基于预设页面布局图中像素点的颜色分布对预设页面布局图进行区域划分，得到待识别色块；

需要说明的是，预设页面布局图中包含待埋点页面的组件布局，而布局于待埋点页面中的各类组件能够以其所具备的文字、图形、颜色、表格或者其他元素加以区分，因此对预设页面布局图进行图像识别的过程中，往往需要以预设页面布局图中的文字、图形、颜色、表格或者其他元素为基础来进行图像处理。由于图像像素所呈现的各种颜色能够被三原色(Red Green Blue，RGB)数组加以表示，因此，本发明提供的一些实施例中，基于预设页面布局图中像素点的颜色分布对预设页面布局图进行区域划分，得到待识别色块，再以待识别色块作为处理对象分辨出色块所对应的色块类型信息，从而将与待识别色块对应的组件类型作为组件埋设类型。其中，待识别色块指的是基于预设页面布局图中像素点的颜色分布进行区域划分得出的、颜色类型有待识别的图像色块。应理解，基于预设页面布局图中像素点的颜色分布对预设页面布局图进行区域划分可以在OCR模型中进行，也可以在OCR模型外部进行。需要强调，除了上述提到的以预设页面布局图中的颜色为基础来进行图像处理，本发明还包括以预设页面布局图中的文字、图形、表格或者其他元素为基础来进行图像识别处理，以获取组件埋设位置与组件埋设类型的实施例。

步骤S202，对待识别色块进行光学字符识别，获取待识别色块的色块类型信息；

需要说明的是，光学字符识别(Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程，亦即将图像中的文字进行识别，并以文本的形式返回。应理解，OCR技术处理能够对图像中的文字进行识别，还可以通过对图像像素的处理，将图像中的颜色进行识别与分类。典型的OCR的技术路线包括但不限于以下环节：输入、图像预处理、图像检测、内容识别、输出。

需要说明的是，图像预处理通常是针对图像的成像问题进行修正，常见的预处理包括但不限于：几何变换(透视、扭曲、旋转等)、畸变校正、去除模糊、图像增强和光线校正等过程。传统OCR基于数字图像处理和传统机器学习等方法对图像进行处理和特征提取。常用的二值化处理有利于增强简单场景的文本信息，但对于复杂背景二值化的收效甚微。传统方法上采用方向梯度直方图(Histogram of Oriented Gradient,HOG)对图像进行特征提取，然而HOG对于图像模糊、扭曲等问题鲁棒性很差，对于复杂场景泛化能力不佳。由于深度学习的飞速发展，现在普遍使用基于卷积神经网络(Convolutional Neural Networks,CNN)的神经网络作为特征提取手段。得益于CNN强大的学习能力，配合大量的数据可以增强特征提取的鲁棒性，面临模糊、扭曲、畸变、复杂背景和光线不清等图像问题均可以表现良好的鲁棒性。

图像检测即检测图像组成的各个元素所在位置和范围及其布局，图像检测通常也包括版面分析、文字行检测等，图像检测主要解决的问题是图像中各个元素的位置，图像中各个元素的范围有多大。内容识别是在图像检测的基础上，对图像中各个元素的内容进行识别，例如将图像中的文本信息转化为文本信息、根据图像中色块的颜色信息得出对应的色块类型信息。内容识别主要解决的问题是图像中各个元素所蕴含的信息是什么，识别出的内容通常需要再次核对以保证其正确性，内容校正也被认为属于这一环节。在本发明提供的一些实施例中，对待识别色块进行光学字符识别，获取待识别色块的色块类型信息包括通过OCR模型中的内容识别环节处理预设页面布局图中的待识别色块，进一步获取待识别色块的色块类型信息。

步骤S203，根据色块类型信息，得到待埋点页面中的组件埋设类型。

需要说明的是，色块类型信息指的是反映待识别色块的颜色类型的信息。本发明提供的一些实施例中，色块类型信息可以是待识别色块颜色类型所对应的三原色数组，而色块类型信息所对应的颜色类型包括但不限于：某一颜色的纯色类型、多种颜色的渐变类型、颜色组成图案或者底纹的类型。根据本发明一些实施例，与色块类型信息对应的组件埋设类型可以通过从预先设置的组件类型数据库中匹配得到，也可以从符合业内标准的前端规范中得到，还可以通过其他方式得到。

参照图3，根据本发明提供的一些实施例中的埋点处理方法，还包括：通过光学字符识别待埋点页面中的组件埋设类型，具体包括：

步骤S301，将预设页面布局图输入OCR模型，对预设页面布局图进行图像预处理；

需要说明的是，图像预处理通常是针对图像的成像问题进行修正，对预设页面布局图进行图像预处理包括但不限于：几何变换(透视、扭曲、旋转等)、畸变校正、去除模糊、图像增强和光线校正等过程。

步骤S302，对图像预处理后的预设页面布局图进行图像检测，并划分得到预设页面布局图中的待识别色块；

需要说明的是，图像检测即检测图像组成的各个元素所在位置和范围及其布局，对图像预处理后的预设页面布局图进行图像检测包括识别出预设页面布局图中颜色相同或者相似的待识别色块、各个待识别色块在预设页面布局图中的位置以及各个待识别色块在预设页面布局图中所占的面积比例。

步骤S303，对待识别色块进行内容识别，获取待识别色块的色块类型信息；

需要说明的是，内容识别是在图像检测的基础上，对图像中各个元素的内容进行识别，对待识别色块进行内容识别并获取待识别色块的色块类型信息可以是识别获取预设页面布局图中各个待识别色块的三原色数组。本发明提供的一些实施例中，对待识别色块进行内容识别并获取待识别色块的色块类型信息还包括对获取到的色块类型信息进行校正。

步骤S304，根据内容识别获取的色块类型信息，得到待埋点页面中的组件埋设类型。

根据本发明一些实施例，与色块类型信息对应的组件埋设类型可以通过从预先设置的组件类型数据库中匹配得到，也可以从符合业内标准的前端规范中得到，还可以通过其他方式得到。

参照图4，根据本发明的一些实施例，基于预设页面布局图中像素点的颜色分布对预设页面布局图进行区域划分，得到待识别色块，包括：

步骤S401，通过三原色数组对预设页面布局图中各个像素点的颜色进行描述；

需要说明的是，三原色数组即RGB数组，能够基于三原色原理对像素的颜色进行描述，例如黑色(0，0，0)、黄色(255，255，0)、白色(255，255，0)、天蓝色(135，206，235)，三原色数组所对应的颜色分类可以从RGB颜色色谱表中查询得到。应理解，通过三原色数组对预设页面布局图中各个像素点的颜色进行描述，是为了将颜色转化为数据形式，便于后续步骤对预设页面布局图进行区域划分。

步骤S402，以各个像素点对应的三原色数组为基础，统计颜色处于相同色域的各个像素点位置；

需要说明的是，在计算机图形处理中，色域是颜色的某个完全的子集，例如一个给定的色彩空间或是某个三原色数组集合在RGB颜色色谱中所对应的区域范围。具体而言，例如浅粉色(255，182，193)、粉红(255，192，203)以及深粉色(255，20，147)等与粉色相同或相近的颜色划为一个色域，或者纯蓝(0，0，255)、天蓝色(135，206，235)以及淡钢蓝(176，196，222)等与蓝色相同或相近的颜色划为另一个色域，色域间的临界数组可以根据适用场景、适用范围确定。在本发明提供的一些实施例中，统计颜色处于相同色域的各个像素点位置指的是以预先划定好的色域为比对基础，将步骤S401通过三原色数组对预设页面布局图中各个像素点的颜色进行描述，其中用以描述预设页面布局图中各个像素点颜色的三原色数组与预先划定好的色域进行比对，以便区分出预设页面布局图中分别成块的各类像素点组成的颜色区域。

步骤S403，根据各个像素点位置，得出颜色处于相同色域的各个像素点之间的位置间隔；

根据本发明一些实施例，区分出预设页面布局图中分别成块的各类像素点组成的颜色区域之后，测定在预设页面布局图中各类像素点组成的颜色区域之间的距离，以便后续步骤进一步区分两片像素点组成的颜色区域是否属于同一个待识别色块。

步骤S404，以处于相同色域且位置间隔小于预设距离的各个像素点归为同一区域，对预设页面布局图进行区域划分，得到待识别色块。

需要说明的是，预设距离指的是根据应用场合预先设定的、足以判定各个像素点应当被归为同一区域的像素点间隔距离，预设距离既可以包括个别像素点之间的距离，也可以包括不同片区的像素点之间的平均距离。当两片颜色区域属于相同色域并且两片颜色区域的位置间隔小于预设距离，即可判断这两片颜色区域的关联性较强，进而将上述两片像素点组成的颜色区域进行整合划归为同一区域。在对预设页面布局图中的全部像素点组成的颜色区域进行整合划归之后，即可得到预设页面布局图中各种类型的待识别色块。

应理解，根据本发明提供的一些实施例，获取待识别色块之前，需要先得出预设页面布局图之中各个色域下的颜色区域，例如：将预设页面布局图中与天蓝色(135，206，235)处于同一色域的像素点全部标出、同时将预设页面布局图中与粉红(255，192，203)处于同一色域的像素点也全部标出、另外也将预设页面布局图中与黄色(255,255,0)处于同一色域的像素点全部标出，这样整个预设页面布局图就被识别出天蓝色色域、粉红色色域、黄色色域的三类颜色区域。进一步，对天蓝色色域、粉红色色域、黄色色域的三类颜色区域进行位置间隔的判断，将其中位置间隔小于预设距离的同类颜色区域进行整合划归，判定为同一区域。例如：将预设页面布局图中与粉红(255，192，203)处于同一色域、且位置间隔小于预设距离的颜色区域整合划归为一整块、将预设页面布局图中与黄色(255,255,0)处于同一色域、且位置间隔小于预设距离的颜色区域整合划归为一整块、将预设页面布局图中与天蓝色(135，206，235)处于同一色域、且位置间隔小于预设距离的颜色区域整合划归为一整块。需要说明的是，将其中位置间隔小于预设距离的同类颜色区域进行整合划归，判定为同一区域是为了避免实际属于同一组件的颜色区域被判定为不同的待识别色块。

通过上述方式对预设页面布局图进行区域划分，即可为后续光学字符识别步骤中的内容识别提供可靠的识别基础，如此一来预设页面布局图就能够被合理地进行区域划分，进而得到足以在光学字符识别模型中进行内容识别的待识别色块。

参照图5，根据本发明的一些实施例，对待识别色块进行光学字符识别，获取待识别色块的色块类型信息，包括：

步骤S501，对待识别色块进行光学字符识别,获取色块类型信息中待识别色块的形状和文字信息。

需要说明的是，文本识别在传统技术中采用模板匹配的方式进行分类。但是对于文字行，只能通过识别出每一个字符来确定最终文字行从内容。因此可以对文字行进行字符切分，以得到单个文字。这种方式中，过分割-动态规划是最常见的切分方法。由于单个字符可能会由于切分位置的原因产生多个识别结果，例如“如”字在切分不当时会被切分成“女_口”，因此需要对候选字符进行过分割，使其足够破碎，之后通过动态规划合并分割碎片，得到最优组合，这一过程需要人工设计损失函数。还有另一种方法是通过滑动窗口对每一个可能的字符进行匹配，这种方法的准确率依赖于滑动窗口的滑动窗尺寸，如果滑动窗尺寸过大会造成信息丢失，而太小则会使计算力需求大幅增加。因此引入上下文的信息，成为了提升条目准确率的关键。本发明一些较为优选的实施例中，从深度学习的角度出发，引入上下文序列信息、循环神经网络(Recurrent Neural Network,RNN)或者长短期记忆(Long short-term memory,LSTM)等依赖于时序关系的神经网络是最理想的选择。

根据本发明提供的一些具体实施例，步骤S501对待识别色块进行光学字符识别,获取色块类型信息中待识别色块的形状和文字信息，具体包括：对待识别色块进行内容识别，根据待识别色块的边框轮廓获取待识别色块的形状，并通过文字识别读取待识别色块呈现出的文字信息。例如：对待识别色块进行内容识别，根据待识别色块的边框轮廓，判定待识别色块为圆角矩形，而以圆角矩形这一类型的边框轮廓为载体的组件为按钮组件，既可确定待识别色块所对应的组件预设类型。另外，通过文字识别读取待识别色块所呈现出的文字信息，可以结合待识别色块的边框轮廓一并作为判定依据进行考量。例如：对待识别色块进行内容识别，根据待识别色块的边框轮廓，判定待识别色块为圆角矩形，而以圆角矩形这一类型的边框轮廓为载体的组件为文本框组件，再通过文字识别读取待识别色块所呈现出的文字信息，得到文字信息“用户名：”、“密码：”，即可结合文本框组件、文字信息“用户名：”和“密码：”，进一步判定该组件为用于登陆界面的文本框，因此就可以进一步确认组件预设类型。

需要说明的是，在预设页面布局图所反映的待埋点页面的组件布局中，能够包含各式各样的信息，因此，对待识别色块进行内容识别也可以包括对多种元素的识别。应理解内容识别主要解决的问题是图像中各个元素所蕴含的信息是什么。在本发明提供的一些实施例中，包含于待识别色块中的信息包括但不限于：文字、图形、颜色、表格或者其他元素，需要强调，本发明包含于待识别色块中的信息并不局限于上述举出的几类。另外，识别出的内容通常需要再次核对，以保证其正确性。因此本发明提供的一些实施例中，对待识别色块进行光学字符识别并获取待识别色块的色块类型信息还包括对待识别色块中的形状和文字信息进行校正的环节设置。

步骤S502，根据待识别色块的形状和文字信息，从组件类型数据库中匹配得到与待识别色块对应的组件埋设类型。

根据本发明一些实施例，组件类型数据库指的是预先设置的包含有各种类型组件的数据库，组件的类型可以是广告位、快捷回复、按钮、文本框。应理解，组件类型数据库中除了包含有各种类型的组件，还可以包含有与组件相关的其他内容。与组件相关的其他内容可以是各种触发动作的类型，例如：登录、退出、点击触发、松开鼠标按键触发、改变属性等。与组件相关的其他内容也可以是埋点触发的条件，例如：当账号密码正确则完成系统登录、登陆后进入首页触发浏览量的计算、点击“导航”按钮后更新该按钮的点击次数等。与组件相关的其他内容还可以是各种组件的字段类型，例如：userId、time、label、number、content、isHistory等。与组件相关的其他内容又可以是各类组件触发后所对应的事件名称，例如：完成系统登录、首页曝光、导航菜单栏被点击等。需要强调，组件类型数据库用于匹配待识别色块对于组件埋设类型及其相关的信息，以帮助本发明埋点处理方法精确、高效进行用户数据采集点的布设。

参照图6，根据本发明的一些实施例，根据组件埋设位置与组件埋设类型，在待埋点页面中埋设用户数据采集点，包括：

步骤S601，根据组件埋设类型，获取与组件埋设类型对应的埋点预设数据；

需要说明的是，埋点预设数据指的是埋设用户数据采集点需要用到的、与待埋设组件的类型相匹配的待埋设组件触发动作、待埋设组件触发条件、待埋设组件字段类型、待埋设组件触发后所对应的事件名称以及与待埋设组件相关的其他内容。其中，待埋设组件触发动作可以包括：登录、退出、点击触发、松开鼠标按键触发、改变属性等内容；待埋设组件触发条件可以包括：当账号密码正确则完成系统登录、登陆后进入首页触发浏览量的计算、点击“导航”按钮后更新该按钮的点击次数等内容；待埋设组件字段类型可以包括：userId、time、label、number、content、isHistory等内容。待埋设组件触发后所对应的事件名称可以包括：完成系统登录、首页曝光、导航菜单栏被点击等内容。需要强调，埋点预设数据用于匹配待埋设组件的组件埋设类型及其相关的信息，以帮助本发明埋点处理方法精确、高效进行用户数据采集点的布设。

根据组件埋设类型获取与组件埋设类型对应的埋点预设数据，可以通过多种方式实现，包括但不限于从预先设置的组件类型数据库中匹配得到。另外，在前端开发的过程中，需要遵循符合业内标准的前端规范，其中一些前端规范就包括有预先设定好的埋点预设数据。在本发明提供的一些实施例中，明确了需要埋设的组件埋设类型后，可以根据组件埋设类型从前端规范中匹配得到对应的埋点预设数据。应理解，根据组件埋设类型获取与组件埋设类型对应的埋点预设数据除了采用业内标准的前端规范，还可以采用业内人员约定俗成的其他规范。

根据本发明提供的一些实施例，预设页面布局图所反映的待埋点页面组件布局中还可以包括多种类型的字段，字段类型中的基础字段是指需要默认上报的字段，比如终端信息、网络信息、用户信息、时间信息等，而字段类型中的个性字段则需要根据组件所包含的信息逐个上报。根据本发明提供的一些具体实施例来看，与组件埋设类型对应的埋点预设数据基础字段中的基础信息，包括但不限于以下几类信息：系统信息(如iOS/Android/Web/H5)、应用软件版本号、应用软件安装包名称(如XXX-XXX.apk)、当前设备标识(如设备ID、品牌、型号、网络类型、IP地址)；与组件埋设类型对应的埋点预设数据基础字段中的的用户信息，包括但不限于以下几类信息：埋点编号、用户标识(如userid/openid/um/工号)、用户手机号、用户动作时间、页面停留时长；与组件埋设类型对应的埋点预设数据个性字段中的扩展信息，包括但不限于以下几类信息：元素id(活动id/内容id/产品id/剧本id)、渠道标识(按需新增分配)、元素位置(如同个元素在页面的多个位置出现，可通过定义元素位置来区分)、ABtest标识、商家编号。需要说明的是，与组件埋设类型对应的埋点预设数据个性字段，可以根据埋设用户数据采集点所需要呈现的内容来设置，能够灵活调整。

步骤S602，根据埋点预设数据生成埋点清单，并以埋点清单为基础埋设用户数据采集点。

根据本发明一些实施例，埋设用户数据采集点就是将预设页面布局图中待埋点页面的组件布局，转换为实际前端页面中的组件布局，并在实际前端页面中的组件布局的底层代码中埋设相对应的用户数据采集点。需要说明的是，埋点清单包含有埋设用户数据采集点需要明确的组件埋设类型以及埋设用户数据采集点需要用到的、埋点预设数据中与组件埋设类型相匹配的待埋设组件触发动作、待埋设组件触发条件、待埋设组件字段类型、待埋设组件触发后所对应的事件名称以及与待埋设组件相关的其他内容。应理解，埋点清单能够以表格、文档等形式呈现，由于表格能够更加清晰地表明组件埋设类型以及与其相匹配的待埋设组件触发动作、待埋设组件触发条件、待埋设组件字段类型、待埋设组件触发后所对应的事件名称等内容的对应关系，因此，本发明一个较为优选的实施例选用表格的形式生成埋点清单。需要强调，以埋点清单为基础埋设用户数据采集点，能够精确、高效地进行用户数据采集点的布设。根据本发明提供的一些实施例，根据埋点预设数据生成埋点清单还有助于校正工作的进行，在以埋点清单为基础埋设用户数据采集点之前，还可以包括对埋点清单进行内容校对，当埋点清单满足应用程序、网站等前端开发项目对于底层的数据埋点、数据指标需求，再进一步以埋点清单为基础埋设用户数据采集点，以实现精确、高效地进行用户数据采集点的布设。

参照图7，根据本发明的一些实施例，根据埋点预设数据生成埋点清单，并以埋点清单为基础埋设用户数据采集点，包括：

步骤S701，根据埋点清单，对埋点清单中的埋点预设数据进行定义与赋值，并生成与埋点预设数据对应的埋点代码片段；

需要说明的是，埋设用户数据采集点就是将预设页面布局图中待埋点页面的组件布局，转换为实际前端页面中的组件布局，并在实际前端页面中的组件布局的底层代码中埋设相对应的用户数据采集点。而埋点代码片段指的就是能够纳入实际前端页面中的组件布局的底层代码中的代码片段，并且埋点代码片段所反映的内容包括：埋设用户数据采集点所需要用到的组件埋设类型以及与其相匹配的待埋设组件触发动作、待埋设组件触发条件、待埋设组件字段类型、待埋设组件触发后所对应的事件名称等内容。应理解，生成埋点代码片段的目的是为实际前端页面底层代码的开发过程提供编程所需要的材料，从而便于用户数据采集点在待埋点页面中的埋设。根据本发明提供的一些实施例，生成与埋点预设数据对应的埋点代码片段包括但不限于对埋点清单中的埋点预设数据进行定义与赋值。其中，对埋点清单中的埋点预设数据进行定义与赋值，例如根据埋点清单生成：Event＝homepageShow、Title＝知识锦囊首页、From＝wx、Uid＝1234567890等代码片段。

步骤S702，基于埋点代码片段，在待埋点页面中埋设用户数据采集点。

由于埋点清单包含有埋设用户数据采集点需要明确的组件埋设类型以及埋设用户数据采集点需要用到的、埋点预设数据中与组件埋设类型相匹配的待埋设组件触发动作、待埋设组件触发条件、待埋设组件字段类型、待埋设组件触发后所对应的事件名称以及与待埋设组件相关的其他内容；并且，埋点清单令组件埋设类型以及与其相匹配的待埋设组件触发动作、待埋设组件触发条件、待埋设组件字段类型、待埋设组件触发后所对应的事件名称等内容的对应关系明确且清晰。因此以埋点清单为基础生成的埋点代码片段，能够帮助本发明埋点处理方法精确、高效地进行用户数据采集点的布设。

图8示出了本发明实施例提供的电子设备800。电子设备800包括：处理器801、存储器802及存储在存储器802上并可在处理器801上运行的计算机程序，计算机程序运行时用于执行上述的埋点处理方法。

处理器801和存储器802可以通过总线或者其他方式连接。

存储器802作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序，如本发明实施例描述的埋点处理方法。处理器801通过运行存储在存储器802中的非暂态软件程序以及指令，从而实现上述的埋点处理方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序。存储数据区可存储执行上述的埋点处理方法。此外，存储器802可以包括高速随机存取存储器802，还可以包括非暂态存储器802，例如至少一个储存设备存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中，存储器802可选包括相对于处理器801远程设置的存储器802，这些远程存储器802可以通过网络连接至该电子设备800。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述的埋点处理方法所需的非暂态软件程序以及指令存储在存储器802中，当被一个或者多个处理器801执行时，执行上述的埋点处理方法，例如，执行图1中的方法步骤S101至步骤S103、图2中的方法步骤S201至步骤S203、图3中的方法步骤S301至步骤S304、图4中的方法步骤S401至步骤S404、图5中的方法步骤S501至步骤S502、图6中的方法步骤S601至步骤S602、图7中的方法步骤S701至步骤S702。

所称处理器801可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器802可以是电子设备800的内部存储单元，例如电子设备800的硬盘或内存。存储器802也可以是电子设备800的外部存储设备，例如电子设备800上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。进一步地，存储器802还可以既包括电子设备800的内部存储单元也包括外部存储设备。存储器802用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器802还可以用于暂时地存储已经输出或者将要输出的数据。

本发明实施例还提供了计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令用于执行上述的埋点处理方法。

在一实施例中，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器执行，例如，执行图1中的方法步骤S101至步骤S103、图2中的方法步骤S201至步骤S203、图3中的方法步骤S301至步骤S304、图4中的方法步骤S401至步骤S404、图5中的方法步骤S501至步骤S502、图6中的方法步骤S601至步骤S602、图7中的方法步骤S701至步骤S702。

以上所描述的电子设备实施例、装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、储存设备存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。还应了解，本发明实施例提供的各种实施方式可以任意进行组合，以实现不同的技术效果。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的埋点处理方法、电子设备、存储介质的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的埋点处理方法、电子设备、存储介质，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种埋点处理方法，其特征在于，包括：

获取预设页面布局图，所述预设页面布局图反映待埋点页面中组件的布局；

2.根据权利要求1所述的埋点处理方法，其特征在于，所述对所述预设页面布局图进行图像识别，得到所述待埋点页面中的组件埋设位置与组件埋设类型，包括：

3.根据权利要求2所述的埋点处理方法，其特征在于，所述基于所述预设页面布局图中像素点的颜色分布对所述预设页面布局图进行区域划分，得到待识别色块，包括：

获取所述预设页面布局图中各个像素点的三原色数组；

4.根据权利要求1至3任一项所述的埋点处理方法，其特征在于，所述根据所述组件埋设位置与所述组件埋设类型，在所述待埋点页面中埋设用户数据采集点，包括：

根据所述埋点预设数据生成埋点清单；

根据所述埋点清单在所述待埋点页面中埋设用户数据采集点。

5.根据权利要求4所述的埋点处理方法，其特征在于，所述根据所述埋点清单在所述待埋点页面中埋设用户数据采集点，包括：

6.根据权利要求5所述的埋点处理方法，其特征在于，所述根据所述埋点清单生成与所述埋点预设数据对应的埋点代码片段，包括：

根据所述埋点清单，对所述埋点清单中的所述埋点预设数据进行定义与赋值；

以定义与赋值后的所述埋点预设数据为基础生成所述埋点代码片段。

7.根据权利要求2所述的埋点处理方法，其特征在于，所述对所述待识别色块进行光学字符识别，获取所述待识别色块的色块类型信息，包括：

对所述待识别色块进行光学字符识别,获取所述色块类型信息中所述待识别色块的形状和文字信息；

8.根据权利要求7所述的埋点处理方法，其特征在于，所述根据所述待识别色块的形状和文字信息，从组件类型数据库中匹配得到与所述待识别色块对应的所述组件埋设类型，包括：

根据所述待识别色块中的所述文字信息，从所述组件类型数据库中匹配与所述文字信息相对应的字段类型；

根据匹配到的所述字段类型，得到与所述待识别色块对应的所述组件埋设类型。

9.一种电子设备，其特征在于，包括：存储器、处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至8中任意一项所述的埋点处理方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1至8中任意一项所述的埋点处理方法。