CN110472128B - 基于图像识别的网页取证方法、装置、存储介质及服务器 - Google Patents
基于图像识别的网页取证方法、装置、存储介质及服务器 Download PDFInfo
- Publication number
- CN110472128B CN110472128B CN201910652650.7A CN201910652650A CN110472128B CN 110472128 B CN110472128 B CN 110472128B CN 201910652650 A CN201910652650 A CN 201910652650A CN 110472128 B CN110472128 B CN 110472128B
- Authority
- CN
- China
- Prior art keywords
- image
- element object
- target
- value
- webpage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Abstract
本发明属于计算机技术领域,尤其涉及一种基于图像识别的网页取证方法、装置、计算机可读存储介质及服务器。所述方法接收终端设备发送的网页取证请求,所述网页取证请求中包括目标网页的统一资源定位符和目标图像;从所述网页取证请求中提取出所述统一资源定位符,并根据所述统一资源定位符获取所述目标网页;从所述目标网页中选取动态元素对象,并采集所述动态元素对象的图像序列;从所述网页取证请求中提取出所述目标图像,并分别计算所述图像序列的各帧图像与所述目标图像之间的相似度;从所述图像序列的各帧图像中选取出证据图像。由于对证据图像的取证过程是由取证服务器完成,大大提升了该证据的信服力,从而可以在诉讼过程中被法庭所接受。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种基于图像识别的网页取证方法、装置、计算机可读存储介质及服务器。
背景技术
随着互联网技术的普及,越来越多的信息内容由平面印刷品转移到了互联网的网页中去,在海量的网页信息中包含了众多的可用于司法诉讼的证据内容,例如,目前的网页中往往会存在大量的动图、FLASH动画、视频等动态内容,例如,商家在其网店的页面中可能设置了FLASH动画的方式进行宣传营销,其中包含了某些可用于诉讼的证据内容。这些证据很容易通过截图或者拍照等方式采集到,但是网页极易被修改及删除,在原始的网页已不存在的情况下,受害人自己通过截图或者拍照从网页动态内容中采集到的证据的信服力极低,很难在诉讼过程中被法庭接受。
发明内容
有鉴于此,本发明实施例提供了一种基于图像识别的网页取证方法、装置、计算机可读存储介质及服务器,以解决通过截图或者拍照从网页动态内容中采集到的证据的信服力极低,很难在诉讼过程中被法庭接受的问题。
本发明实施例的第一方面提供了一种基于图像识别的网页取证方法,可以包括:
接收终端设备发送的网页取证请求,所述网页取证请求中包括目标网页的统一资源定位符和目标图像;
从所述网页取证请求中提取出所述统一资源定位符,并根据所述统一资源定位符获取所述目标网页;
从所述目标网页中选取动态元素对象,并采集所述动态元素对象的图像序列;
从所述网页取证请求中提取出所述目标图像,并分别计算所述图像序列的各帧图像与所述目标图像之间的相似度;
从所述图像序列的各帧图像中选取出证据图像,所述证件图像为与所述目标图像之间的相似度大于预设的相似度阈值的一帧图像。
本发明实施例的第二方面提供了一种网页取证装置,可以包括:
取证请求接收模块,用于接收终端设备发送的网页取证请求,所述网页取证请求中包括目标网页的统一资源定位符和目标图像;
目标网页获取模块,用于从所述网页取证请求中提取出所述统一资源定位符,并根据所述统一资源定位符获取所述目标网页;
动态元素对象选取模块,用于从所述目标网页中选取动态元素对象;
图像序列采集模块,用于采集所述动态元素对象的图像序列;
相似度计算模块,用于从所述网页取证请求中提取出所述目标图像,并分别计算所述图像序列的各帧图像与所述目标图像之间的相似度;
证据图像选取模块,用于从所述图像序列的各帧图像中选取出证据图像,所述证件图像为与所述目标图像之间的相似度大于预设的相似度阈值的一帧图像。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:
接收终端设备发送的网页取证请求,所述网页取证请求中包括目标网页的统一资源定位符和目标图像;
从所述网页取证请求中提取出所述统一资源定位符,并根据所述统一资源定位符获取所述目标网页;
从所述目标网页中选取动态元素对象,并采集所述动态元素对象的图像序列;
从所述网页取证请求中提取出所述目标图像,并分别计算所述图像序列的各帧图像与所述目标图像之间的相似度;
从所述图像序列的各帧图像中选取出证据图像,所述证件图像为与所述目标图像之间的相似度大于预设的相似度阈值的一帧图像。
本发明实施例的第四方面提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
接收终端设备发送的网页取证请求,所述网页取证请求中包括目标网页的统一资源定位符和目标图像;
从所述网页取证请求中提取出所述统一资源定位符,并根据所述统一资源定位符获取所述目标网页;
从所述目标网页中选取动态元素对象,并采集所述动态元素对象的图像序列;
从所述网页取证请求中提取出所述目标图像,并分别计算所述图像序列的各帧图像与所述目标图像之间的相似度;
从所述图像序列的各帧图像中选取出证据图像,所述证件图像为与所述目标图像之间的相似度大于预设的相似度阈值的一帧图像。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例预先设置了用于网页取证的服务器(取证服务器,即本实施例的实施主体),当用户在某个网页的动态内容中发现了可用于作为证据的内容后,可以从该网页的动态内容中截取该证据的图像,也即目标图像,然后通过自己的终端设备向取证服务器发送网页取证请求,在该网页取证请求中包括该网页的统一资源定位符和目标图像,取证服务器在接收到该网页取证请求后,可以首先根据其中的统一资源定位符获取到该网页,从该网页中选取动态元素对象,并采集所述动态元素对象的图像序列,再分别计算所述图像序列的各帧图像与所述目标图像之间的相似度,并据此选取出可作为证据的证据图像。由于对证据图像的取证过程并非由用户完成,而是由取证服务器完成,大大提升了该证据的信服力,从而可以在诉讼过程中被法庭所接受。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例中一种基于图像识别的网页取证方法的一个实施例流程图;
图2为从目标网页中选取动态元素对象的一种具体实现方式的示意流程图;
图3为从目标网页中选取动态元素对象的另一种具体实现方式的示意流程图;
图4为本发明实施例中一种网页取证装置的一个实施例结构图;
图5为本发明实施例中一种服务器的示意框图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中一种基于图像识别的网页取证方法的一个实施例可以包括:
步骤S101、接收终端设备发送的网页取证请求。
所述网页取证请求中包括目标网页的统一资源定位符和目标图像。
本实施例中预先设置了用于网页取证的服务器,以下将其称为取证服务器,该取证服务器为本实施例的实施主体,也是整个取证系统的核心。该取证服务器可以由法院设置,也可以由经法院授权的其它单位或组织设置。取证系统可以为用户提供应用程序(APP)、网页、社交平台公众号等等途径的平台接口,用户通过手机、平板、电脑等终端设备在任意一个平台接口上进行注册后,即可使用该取证系统提供的网页取证服务。
由于本实施例主要应用于法律诉讼的场景,为了后续诉讼相关的需求,需要获得证据提供人的真实身份信息,因此,用户在使用该取证系统之前,需要首先通过实名认证,提供身份证件进行查验,预留电话号码、邮箱等联系方式以备后续沟通。
当用户在某个网页的动态内容中发现了可用于作为证据的内容后,即可将该网页作为目标网页,并通过自己的终端设备向所述取证服务器发送网页取证请求。具体地,用户可以首先在取证系统提供的平台接口中找到提交网页取证请求的页面,并在该页面中的指定区域填写目标网页的统一资源定位符(Uniform Resource Locator,URL),其中,URL是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。一般地,当用户通过浏览器浏览网页时,在浏览器的地址栏中都会显示当前网页的URL,用户可以从地址栏中直接复制得到该URL。用户在本地打开目标网页,并监控目标网页的动态内容的变化,当用户在其中发现了可用于诉讼的证据内容时,在本地对该证据内容进行截图,从而得到所述目标图像。当用户完成相关信息的填写后,点击提交按钮,即可向取证服务器发送取证请求,该取证请求中携带了用户的身份信息、目标网页的URL、以及目标图像。
步骤S102、从所述网页取证请求中提取出所述统一资源定位符,并根据所述统一资源定位符获取所述目标网页。
所述取证服务器在接收到所述网页取证请求后,可以从中提取出目标网页的URL,在本地打开浏览器,在浏览器的地址栏中输入该URL,从而从存储着该目标网页的网页服务器中获取到该目标网页,并将其内容显示在浏览器中。
步骤S103、从所述目标网页中选取动态元素对象。
由于取证服务器是要对网页中的动态内容进行证据截图,那么取证服务器首先要在网页中识别出动态内容所在的区域(也即截图区域),考虑到动态内容区域是在不断的变化之中的,而其它区域基本是没有变化的,取证服务器可以根据这一特点在目标网页中识别出截图区域。
在HTML体系中,组成一个页面的各个组件(输入框、文本、图片、FLASH)都是其中的一个元素对象。在本实施例中,可以读取目标网页,并确定目标网页中的各个元素对象。
具体实现该步骤时,可以根据实际应用环境的不同采取不同的方式。例如,当以测试工具对网页编码进行分析时,可以使用测试工具加载目标网页,并确定目标网页中待测的目标元素。也可以调用浏览器加载目标网页,通过向目标网页中注入脚本,并通过所注入的脚本来对目标网页的编码进行分析。
在目标网页加载的过程中,目标网页中的各个元素通常会表示为树状的数据结构,网页中的各个元素唯一与树状结构中的一个节点相对应,而树状结构中的节点可以具有一些属性信息,例如,Name属性、ID属性、TagName属性等。在这些属性信息中可以包括一个唯一的标识信息,如ID属性;在书写规范的网页文件中,元素对象如果对应唯一的Name属性,该Name属性也可以作为标识信息。也即上述标识信息能够唯一标识对应点节点,同时也唯一标识了对应的元素对象。
在本实施例的一种具体实现方式中,步骤S103可以包括图2所示的具体过程:
步骤S201、采集所述目标网页中第m个元素对象的N帧图像。
其中,1≤m≤M,M为所述目标网页中元素对象的总数。
静态元素对象中的各个像素点基本是不会变化的,而动态元素对象中的像素点则是处于不断的变化之中,因此,可以每隔一定的时长(例如,0.2秒、0.5秒、1秒、2秒等等)即采集所述目标网页中第m个元素对象的一帧图像,总共进行N次采集,采集到N帧图像,N为大于1的整数。通过评估各帧图像的变化情况来判断所述目标网页中第m个元素对象是否为动态元素对象。
步骤S202、分别获取第m个元素对象的各个像素点在各帧图像中的像素值。
步骤S203、计算第m个元素对象的像素值累积变化量。
例如,根据下式计算第m个元素对象的像素值累积变化量:
其中,n为第m个元素对象的各帧图像的序号,1≤n≤N,p为第m个元素对象的各个像素点的序号,1≤p≤PixNum,PixNum为第m个元素对象的像素点总数,(Redn,p,Bluen,p,Greenn,p)为第m个元素对象的第p个像素点在第n帧图像中的像素值,Redn,p、Bluen,p、Greenn,p分别为第m个元素对象的第p个像素点在第n帧图像中的像素值的红色分量、蓝色分量和绿色分量,ChgVal为第m个元素对象的像素值累积变化量。
步骤S204、确定第m个元素对象的属性。
若第m个元素对象的像素值累积变化量大于预设的第一阈值,则可选取第m个元素对象作为所述动态元素对象,反之,若第m个元素对象的像素值累积变化量小于或等于所述第一阈值,则可将其作为静态元素对象。所述第一阈值的具体取值可以根据实际情况进行设置,例如,可以将其设置为10、20、50或者其它取值。
在本实施例的另一种具体实现方式中,步骤S103可以包括图3所示的具体过程:
步骤S301、采集所述目标网页中第m个元素对象的N帧图像。
步骤S302、分别获取第m个元素对象的各个像素点在各帧图像中的像素值。
其中,步骤S301与步骤S201相同,步骤S302与步骤S202相同,具体可参照前述详细叙述,此处不再赘述。
步骤S303、计算第m个元素对象的各个像素点在相邻帧图像之间的像素值变化量。
例如,可以根据下式计算第m个元素对象的各个像素点在相邻帧图像之间的像素值变化量:
ChgPixValn,p=(Redn+1,p-Redn,p)2+(Bluen+1,p-Bluen,p)2+(Greenn+1,p-Greenn,p)2
其中,ChgPixValn,p为第m个元素对象的第p个像素点在第n帧图像与第n+1帧图像之间的像素值变化量。
步骤S304、分别统计在相邻帧图像之间的动态像素点的个数。
其中,第n帧图像与第n+1帧图像之间的动态像素点为像素值变化量大于预设的变化量阈值的像素点。所述变化量阈值的具体取值可以根据实际情况进行设置,例如,可以将其设置为0、1、2或者其它取值。
步骤S305、计算第m个元素对象的动态像素点累积个数。
例如,可以根据下式计算第m个元素对象的动态像素点累积个数:
其中,ChgPixNumn为第n帧图像与第n+1帧图像之间的动态像素点的个数,ChgPixTN为第m个元素对象的动态像素点累积个数。
步骤S306、确定第m个元素对象的属性。
若第m个元素对象的动态像素点累积个数大于预设的第二阈值,则可选取第m个元素对象作为所述动态元素对象,反之,若第m个元素对象的动态像素点累积个数小于或等于所述第二阈值,则可将其作为静态元素对象。所述第二阈值的具体取值可以根据实际情况进行设置,优选地,可以根据下式设置所述第二阈值的取值:
Thresh=ω×N×PixNum
其中,Thresh为所述第二阈值,ω为预设的比例系数,0<ω<1,可以根据实际情况将其设置为0.0001、0.001、0.01或者其它取值。
步骤S104、采集所述动态元素对象的图像序列。
当从目标网页中选取出动态元素对象之后,可以每隔一定的时长(例如,0.2秒、0.5秒、1秒、2秒等等)对其进行一次图像采集,从而可以得到所述动态元素对象的图像序列。
步骤S105、从所述网页取证请求中提取出所述目标图像,并分别计算所述图像序列的各帧图像与所述目标图像之间的相似度。
考虑到本实施例中可能会涉及到多次的图像比对,而现有技术中常用的比对方式一般是通过LBP算法、SIFT算法以及其它类似算法提取图像中的特征向量,并将特征向量之间的相似度作为图像之间的相似度,由于特征向量的提取过程会涉及到大量的计算,消耗大量的资源和时间。由于越相近的图像,其像素值分布的情况也会越相似,在本实施例中优选通过对像素值分布的统计来进行相似度计算。
首先,计算所述目标图像中各个颜色分量取值的像素点的分布比率,并分别计算所述图像序列的各帧图像中各个颜色分量取值的像素点的分布比率。
例如,可以根据下式计算所述目标图像中各个颜色分量取值的像素点的分布比率:
其中,PN1为所述目标图像的像素点总数,StRPixNumpv为所述目标图像中红色分量取值为pv的像素点的总数,StBPixNumpv为所述目标图像中蓝色分量取值为pv的像素点的总数,StGPixNumpv为所述目标图像中绿色分量取值为pv的像素点的总数,StRRatiopv为所述目标图像中红色分量取值为pv的像素点的分布比率,StBRatiopv为所述目标图像中蓝色分量取值为pv的像素点的分布比率,StGRatiopv为所述目标图像中绿色分量取值为pv的像素点的分布比率,0≤pv≤PVMax,PVMax为像素值的最大取值,一般地,PVMax的取值为255。
类似地,可以根据下式计算所述图像序列的第n帧图像中各个颜色分量取值的像素点的分布比率:
其中,PN2为所述图像序列的第n帧图像的像素点总数,CdRPixNumpv为第n帧图像中红色分量取值为pv的像素点的总数,CdBPixNumpv为第n帧图像中蓝色分量取值为pv的像素点的总数,CdGPixNumpv为第n帧图像中绿色分量取值为pv的像素点的总数,CdRRatiopv为第n帧图像中红色分量取值为pv的像素点的分布比率,CdBRatiopv为第n帧图像中蓝色分量取值为pv的像素点的分布比率,CdGRatiopv为第n帧图像中绿色分量取值为pv的像素点的分布比率。
然后,根据下式计算所述图像序列的第n帧图像与所述目标图像之间的相似度:
其中,DiffRatiopv=(StRRatiopv-CdRRatiopv)2+(StBRatiopv-CdBRatiopv)2+(StGRatiopv-CdGRatiopv)2,SimDeg为所述图像序列的第n帧图像与所述目标图像之间的相似度,从中可以看出,两个图像的像素值分布的情况越相似,则两者之间的相似度也越高。
步骤S106、从所述图像序列的各帧图像中选取出证据图像。
所述证件图像为与所述目标图像之间的相似度大于预设的相似度阈值的一帧图像。所述相似度阈值的具体取值可以根据实际情况进行设置,例如,可以将其设置为0.9、0.95、0.98或者其它取值。
进一步地,取证服务器在采集到证据图像后,可以通过授时系统为其添加上时间戳,从而表明该证据在当前时间点是存在的。时间戳(timestamp)是指格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00秒)起至现在的总秒数,是能表示一份数据在某个特定时间之前已经存在的、完整的、可验证的数据,通常是一个字符序列,唯一地标识某一刻的时间。
首先,取证服务器对所述证据图像进行哈希运算,得到与所述证据图像对应的哈希值。
哈希运算是把任意长度的输入变换成固定长度的输出,该输出就是哈希值。这种转换是一种压缩映射,也就是,输出的长度通常远小于输入的长度,不同的输入可能会散列成相同的输出,而不可能从输出值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的过程。在本实施例中所使用的哈希运算可以包括但不限于MD4、MD5、SHA1等具体的算法。
然后,取证服务器将所述哈希值发送至所述授时系统。
所述授时系统应为经过法庭认证的具有法律效力的授时系统,在本实施例中,优选采用联合信任时间戳服务中心来提供时间戳服务,联合信任时间戳服务中心是我国中科院国家授时中心与北京联合信任技术服务有限公司负责建设的我国第三方可信时间戳认证服务。由国家授时中心负责时间的授时与守时监测。因其守时监测功能而保障时间戳证书中的时间的准确性和不被篡改。
最后,取证服务器接收所述授时系统反馈的所述证据图像的时间戳证书,并将该时间戳证书添加入所述证据图像中,得到加戳后的证据图像。
所述证据图像的时间戳证书为所述授时系统对所述哈希值和系统时间进行数字签名后得到的数据。所述授时系统在接收到证据的哈希值后,添加入接收到该哈希值时的时间戳,然后对这一整体进行数字签名,从而得到所述证据图像的时间戳证书,并将最终所得的时间戳证书发送至所述取证服务器。
进一步地,为了保证证据的安全性,取证服务器还可以将所述加戳后的证据图像上传到指定的区块链系统中,该区块链系统应为经过法庭认证的具有法律效力的区块链系统,该区块链系统可以是公有链、联盟链或私有链,区块链系统通常都会包括多个节点,本实施例中的取证服务器即为其中的一个写入节点。
取证服务器将所述加戳后的证据图像上传至区块链系统中,该区块链系统中的各个节点通过设定共识机制获取该证据的写入权限,其中,设定共识机制包括但不限于POW、POS、DPOS、PBFT、顺序轮换机制或随机选择机制等等具体机制。取得写入权限的节点将该证据以区块的形式发送给区块链系统中的各个节点,以使得各个节点对该区块进行验证,如果验证通过,则将该区块存储至区块链上;如果验证失败,则将该区块删除。
如果区块没有在区块链系统中得到确认,则会向取证服务器反馈失败结果。相反,若区块得到确认并存储,则会向取证服务器反馈成功结果,以保证向区块链系统中进行存储的信息的状态是明确的,不会发生数据丢失的问题。由于区块链分布式存储的特点,区块链系统中的各个节点共同记录证据信息,不可篡改,共同背书,其公信力和透明性要高于政府单一背书的公信力。
在诉讼过程中,若用户需要向法庭展示相关证据,则可向法庭提出申请,法庭审核批准后,会通过法庭指定的终端设备从区块链系统中获取所述加戳后的证据图像,并在法庭中进行展示。
综上所述,本发明实施例预先设置了用于网页取证的取证服务器,当用户在某个网页的动态内容中发现了可用于作为证据的内容后,可以从该网页的动态内容中截取该证据的图像,也即目标图像,然后通过自己的终端设备向取证服务器发送网页取证请求,在该网页取证请求中包括该网页的统一资源定位符和目标图像,取证服务器在接收到该网页取证请求后,可以首先根据其中的统一资源定位符获取到该网页,从该网页中选取动态元素对象,并采集所述动态元素对象的图像序列,再分别计算所述图像序列的各帧图像与所述目标图像之间的相似度,并据此选取出可作为证据的证据图像。由于对证据图像的取证过程并非由用户完成,而是由取证服务器完成,大大提升了该证据的信服力,从而可以在诉讼过程中被法庭所接受。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的一种基于图像识别的网页取证方法,图4示出了本发明实施例提供的一种网页取证装置的一个实施例结构图。
本实施例中,一种网页取证装置可以包括:
取证请求接收模块401,用于接收终端设备发送的网页取证请求,所述网页取证请求中包括目标网页的统一资源定位符和目标图像;
目标网页获取模块402,用于从所述网页取证请求中提取出所述统一资源定位符,并根据所述统一资源定位符获取所述目标网页;
动态元素对象选取模块403,用于从所述目标网页中选取动态元素对象;
图像序列采集模块404,用于采集所述动态元素对象的图像序列;
相似度计算模块405,用于从所述网页取证请求中提取出所述目标图像,并分别计算所述图像序列的各帧图像与所述目标图像之间的相似度;
证据图像选取模块406,用于从所述图像序列的各帧图像中选取出证据图像,所述证件图像为与所述目标图像之间的相似度大于预设的相似度阈值的一帧图像。
可选地,所述动态元素对象选取模块可以包括:
图像采集单元,用于采集所述目标网页中第m个元素对象的N帧图像,1≤m≤M,M为所述目标网页中元素对象的总数;
像素值获取单元,用于分别获取第m个元素对象的各个像素点在各帧图像中的像素值;
像素值累积变化量计算单元,用于根据下式计算第m个元素对象的像素值累积变化量:
其中,n为第m个元素对象的各帧图像的序号,1≤n≤N,p为第m个元素对象的各个像素点的序号,1≤p≤PixNum,PixNum为第m个元素对象的像素点总数,(Redn,p,Bluen,p,Greenn,p)为第m个元素对象的第p个像素点在第n帧图像中的像素值,Redn,p、Bluen,p、Greenn,p分别为第m个元素对象的第p个像素点在第n帧图像中的像素值的红色分量、蓝色分量和绿色分量,ChgVal为第m个元素对象的像素值累积变化量;
第一选取单元,用于若第m个元素对象的像素值累积变化量大于预设的第一阈值,则选取第m个元素对象作为所述动态元素对象。
可选地,所述动态元素对象选取模块还可以包括:
像素值变化量计算单元,用于根据下式计算第m个元素对象的各个像素点在相邻帧图像之间的像素值变化量:
ChgPixValn,p=(Redn+1,p-Redn,p)2+(Bluen+1,p-Bluen,p)2+(Greenn+1,p-Greenn,p)2
其中,ChgPixValn,p为第m个元素对象的第p个像素点在第n帧图像与第n+1帧图像之间的像素值变化量;
动态像素点统计单元,用于分别统计在相邻帧图像之间的动态像素点的个数,其中,第n帧图像与第n+1帧图像之间的动态像素点为像素值变化量大于预设的变化量阈值的像素点;
累积个数计算单元,用于根据下式计算第m个元素对象的动态像素点累积个数:
其中,ChgPixNumn为第n帧图像与第n+1帧图像之间的动态像素点的个数,ChgPixTN为第m个元素对象的动态像素点累积个数;
第二选取单元,用于若第m个元素对象的动态像素点累积个数大于预设的第二阈值,则选取第m个元素对象作为所述动态元素对象。
进一步地,所述相似度计算模块可以包括:
第一分布比率计算单元,用于计算所述目标图像中各个颜色分量取值的像素点的分布比率;
第二分布比率计算单元,用于分别计算所述图像序列的各帧图像中各个颜色分量取值的像素点的分布比率;
相似度计算单元,用于根据下式计算所述图像序列的第n帧图像与所述目标图像之间的相似度:
其中,DiffRatiopv=(StRRatiopv-CdRRatiopv)2+(StBRatiopv-CdBRatiopv)2+(StGRatiopv-CdGRatiopv)2,CdRRatiopv为第n帧图像中红色分量取值为pv的像素点的分布比率,StRRatiopv为所述目标图像中红色分量取值为pv的像素点的分布比率,CdBRatiopv为第n帧图像中蓝色分量取值为pv的像素点的分布比率,StBRatiopv为所述目标图像中蓝色分量取值为pv的像素点的分布比率,CdGRatiopv为第n帧图像中绿色分量取值为pv的像素点的分布比率,StGRatiopv为所述目标图像中绿色分量取值为pv的像素点的分布比率,0≤pv≤PVMax,PVMax为像素值的最大取值,SimDeg为所述图像序列的第n帧图像与所述目标图像之间的相似度。
进一步地,所述第一分布比率计算单元具体用于根据下式计算所述目标图像中各个颜色分量取值的像素点的分布比率:
其中,PN1为所述目标图像的像素点总数,StRPixNumpv为所述目标图像中红色分量取值为pv的像素点的总数,StBPixNumpv为所述目标图像中蓝色分量取值为pv的像素点的总数,StGPixNumpv为所述目标图像中绿色分量取值为pv的像素点的总数。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
图5示出了本发明实施例提供的一种服务器的示意框图,为了便于说明,仅示出了与本发明实施例相关的部分。
在本实施例中,所述服务器5可以包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52,例如执行上述的基于图像识别的网页取证方法的计算机可读指令。所述处理器50执行所述计算机可读指令52时实现上述各个基于图像识别的网页取证方法实施例中的步骤,例如图1所示的步骤S101至S106。或者,所述处理器50执行所述计算机可读指令52时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块401至406的功能。
示例性的,所述计算机可读指令52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令52在所述服务器5中的执行过程。
所述处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述服务器5的内部存储单元,例如服务器5的硬盘或内存。所述存储器51也可以是所述服务器5的外部存储设备,例如所述服务器5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述服务器5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机可读指令以及所述服务器5所需的其它指令和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种基于图像识别的网页取证方法,其特征在于,包括:
接收终端设备发送的网页取证请求,所述网页取证请求中包括目标网页的统一资源定位符和目标图像;
从所述网页取证请求中提取出所述统一资源定位符,并根据所述统一资源定位符获取所述目标网页;
从所述目标网页中选取动态元素对象,并采集所述动态元素对象的图像序列;
从所述网页取证请求中提取出所述目标图像,并分别计算所述图像序列的各帧图像与所述目标图像之间的相似度;
从所述图像序列的各帧图像中选取出证据图像,所述证据图像为与所述目标图像之间的相似度大于预设的相似度阈值的一帧图像;
所述从所述目标网页中选取动态元素对象包括:
采集所述目标网页中第m个元素对象的N帧图像,1≤m≤M,M为所述目标网页中元素对象的总数;
分别获取第m个元素对象的各个像素点在各帧图像中的像素值;
根据下式计算第m个元素对象的像素值累积变化量:
其中,n为第m个元素对象的各帧图像的序号,1≤n≤N,p为第m个元素对象的各个像素点的序号,1≤p≤PixNum,PixNum为第m个元素对象的像素点总数,(Redn,p,Bluen,p,Greenn,p)为第m个元素对象的第p个像素点在第n帧图像中的像素值,Redn,p、Bluen,p、Greenn,p分别为第m个元素对象的第p个像素点在第n帧图像中的像素值的红色分量、蓝色分量和绿色分量,ChgVal为第m个元素对象的像素值累积变化量;
若第m个元素对象的像素值累积变化量大于预设的第一阈值,则选取第m个元素对象作为所述动态元素对象。
2.根据权利要求1所述的网页取证方法,其特征在于,所述从所述目标网页中选取动态元素对象还包括:
采集所述目标网页中第m个元素对象的N帧图像;
分别获取第m个元素对象的各个像素点在各帧图像中的像素值;
根据下式计算第m个元素对象的各个像素点在相邻帧图像之间的像素值变化量:
ChgPixValn,p=(Redn+1,p-Redn,p)2+(Bluen+1,p-Bluen,p)2+(Greenn+1,p-Greenn,p)2
其中,ChgPixValn,p为第m个元素对象的第p个像素点在第n帧图像与第n+1帧图像之间的像素值变化量;
分别统计在相邻帧图像之间的动态像素点的个数,其中,第n帧图像与第n+1帧图像之间的动态像素点为像素值变化量大于预设的变化量阈值的像素点;
根据下式计算第m个元素对象的动态像素点累积个数:
其中,ChgPixNumn为第n帧图像与第n+1帧图像之间的动态像素点的个数,ChgPixTN为第m个元素对象的动态像素点累积个数;
若第m个元素对象的动态像素点累积个数大于预设的第二阈值,则选取第m个元素对象作为所述动态元素对象。
3.根据权利要求1至2中任一项所述的网页取证方法,其特征在于,所述分别计算所述图像序列的各帧图像与所述目标图像之间的相似度包括:
计算所述目标图像中各个颜色分量取值的像素点的分布比率,并分别计算所述图像序列的各帧图像中各个颜色分量取值的像素点的分布比率;
根据下式计算所述图像序列的第n帧图像与所述目标图像之间的相似度:
其中,DiffRatiopv=(StRRatiopv-CdRRatiopv)2+(StBRatiopv-CdBRatiopv)2+(StGRatiopv-CdGRatiopv)2,CdRRatiopv为第n帧图像中红色分量取值为pv的像素点的分布比率,StRRatiopv为所述目标图像中红色分量取值为pv的像素点的分布比率,CdBRatiopv为第n帧图像中蓝色分量取值为pv的像素点的分布比率,StBRatiopv为所述目标图像中蓝色分量取值为pv的像素点的分布比率,CdGRatiopv为第n帧图像中绿色分量取值为pv的像素点的分布比率,StGRatiopv为所述目标图像中绿色分量取值为pv的像素点的分布比率,0≤pv≤PVMax,PVMax为像素值的最大取值,SimDeg为所述图像序列的第n帧图像与所述目标图像之间的相似度。
5.一种网页取证装置,其特征在于,包括:
取证请求接收模块,用于接收终端设备发送的网页取证请求,所述网页取证请求中包括目标网页的统一资源定位符和目标图像;
目标网页获取模块,用于从所述网页取证请求中提取出所述统一资源定位符,并根据所述统一资源定位符获取所述目标网页;
动态元素对象选取模块,用于从所述目标网页中选取动态元素对象;
图像序列采集模块,用于采集所述动态元素对象的图像序列;
相似度计算模块,用于从所述网页取证请求中提取出所述目标图像,并分别计算所述图像序列的各帧图像与所述目标图像之间的相似度;
证据图像选取模块,用于从所述图像序列的各帧图像中选取出证据图像,所述证据图像为与所述目标图像之间的相似度大于预设的相似度阈值的一帧图像;
所述动态元素对象选取模块包括:
图像采集单元,用于采集所述目标网页中第m个元素对象的N帧图像,1≤m≤M,M为所述目标网页中元素对象的总数;
像素值获取单元,用于分别获取第m个元素对象的各个像素点在各帧图像中的像素值;
像素值累积变化量计算单元,用于根据下式计算第m个元素对象的像素值累积变化量:
其中,n为第m个元素对象的各帧图像的序号,1≤n≤N,p为第m个元素对象的各个像素点的序号,1≤p≤PixNum,PixNum为第m个元素对象的像素点总数,(Redn,p,Bluen,p,Greenn,p)为第m个元素对象的第p个像素点在第n帧图像中的像素值,Redn,p、Bluen,p、Greenn,p分别为第m个元素对象的第p个像素点在第n帧图像中的像素值的红色分量、蓝色分量和绿色分量,ChgVal为第m个元素对象的像素值累积变化量;
第一选取单元,用于若第m个元素对象的像素值累积变化量大于预设的第一阈值,则选取第m个元素对象作为所述动态元素对象。
6.根据权利要求5所述的网页取证装置,其特征在于,所述相似度计算模块包括:
第一分布比率计算单元,用于计算所述目标图像中各个颜色分量取值的像素点的分布比率;
第二分布比率计算单元,用于分别计算所述图像序列的各帧图像中各个颜色分量取值的像素点的分布比率;
相似度计算单元,用于根据下式计算所述图像序列的第n帧图像与所述目标图像之间的相似度:
其中,DiffRatiopv=(StRRatiopv-CdRRatiopv)2+(StBRatiopv-CdBRatiopv)2+(StGRatiopv-CdGRatiopv)2,CdRRatiopv为第n帧图像中红色分量取值为pv的像素点的分布比率,StRRatiopv为所述目标图像中红色分量取值为pv的像素点的分布比率,CdBRatiopv为第n帧图像中蓝色分量取值为pv的像素点的分布比率,StBRatiopv为所述目标图像中蓝色分量取值为pv的像素点的分布比率,CdGRatiopv为第n帧图像中绿色分量取值为pv的像素点的分布比率,StGRatiopv为所述目标图像中绿色分量取值为pv的像素点的分布比率,0≤pv≤PVMax,PVMax为像素值的最大取值,SimDeg为所述图像序列的第n帧图像与所述目标图像之间的相似度。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至4中任一项所述的网页取证方法的步骤。
8.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至4中任一项所述的网页取证方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910652650.7A CN110472128B (zh) | 2019-07-19 | 2019-07-19 | 基于图像识别的网页取证方法、装置、存储介质及服务器 |
PCT/CN2019/118149 WO2021012522A1 (zh) | 2019-07-19 | 2019-11-13 | 基于图像识别的网页取证方法、装置、存储介质及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910652650.7A CN110472128B (zh) | 2019-07-19 | 2019-07-19 | 基于图像识别的网页取证方法、装置、存储介质及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110472128A CN110472128A (zh) | 2019-11-19 |
CN110472128B true CN110472128B (zh) | 2022-09-02 |
Family
ID=68508759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910652650.7A Active CN110472128B (zh) | 2019-07-19 | 2019-07-19 | 基于图像识别的网页取证方法、装置、存储介质及服务器 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110472128B (zh) |
WO (1) | WO2021012522A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969143A (zh) * | 2019-12-19 | 2020-04-07 | 深圳壹账通智能科技有限公司 | 基于图像识别的取证方法、系统、计算机设备及存储介质 |
CN112507271B (zh) * | 2020-12-14 | 2023-03-24 | 杭州趣链科技有限公司 | 网页取证方法、装置及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105577354A (zh) * | 2015-12-10 | 2016-05-11 | 陕西师范大学 | 基于概率区间划分和动态概率事件的图像加密和解密方法 |
CN108133491A (zh) * | 2017-12-29 | 2018-06-08 | 重庆锐纳达自动化技术有限公司 | 一种实现动态目标跟踪的方法 |
CN109614917A (zh) * | 2018-12-06 | 2019-04-12 | 安徽海豚新媒体产业发展有限公司 | 一种基于比对信息的视频画面智能提取方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103501470B (zh) * | 2013-10-17 | 2017-01-25 | 珠海迈科智能科技股份有限公司 | 网络数据筛选方法及装置 |
CN103942285B (zh) * | 2014-04-09 | 2017-12-08 | 北京搜狗科技发展有限公司 | 一种针对页面动态元素的推荐方法和系统 |
CN107832384A (zh) * | 2017-10-28 | 2018-03-23 | 北京安妮全版权科技发展有限公司 | 侵权检测方法、装置、存储介质和电子设备 |
-
2019
- 2019-07-19 CN CN201910652650.7A patent/CN110472128B/zh active Active
- 2019-11-13 WO PCT/CN2019/118149 patent/WO2021012522A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105577354A (zh) * | 2015-12-10 | 2016-05-11 | 陕西师范大学 | 基于概率区间划分和动态概率事件的图像加密和解密方法 |
CN108133491A (zh) * | 2017-12-29 | 2018-06-08 | 重庆锐纳达自动化技术有限公司 | 一种实现动态目标跟踪的方法 |
CN109614917A (zh) * | 2018-12-06 | 2019-04-12 | 安徽海豚新媒体产业发展有限公司 | 一种基于比对信息的视频画面智能提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110472128A (zh) | 2019-11-19 |
WO2021012522A1 (zh) | 2021-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109067541B (zh) | 基于区块链的数据验证方法及装置、电子设备 | |
CN110210883B (zh) | 群控账号识别方法、装置、服务器及存储介质 | |
CN108965950B (zh) | 一种广告监测方法和装置 | |
KR20190014098A (ko) | 일치하는 컨텐츠를 식별하는 시스템 및 방법 | |
CN111901192B (zh) | 一种页面访问数据的统计方法及装置 | |
CN111311136A (zh) | 风控决策方法、计算机设备及存储介质 | |
CN110472128B (zh) | 基于图像识别的网页取证方法、装置、存储介质及服务器 | |
US20180107686A1 (en) | Search method and apparatus | |
CN113538070B (zh) | 用户生命价值周期检测方法、装置和计算机设备 | |
CN110457434B (zh) | 基于搜索的网页取证方法、装置、可读存储介质及服务器 | |
CN112995201B (zh) | 一种基于云平台的资源价值评估处理方法和相关装置 | |
CN107819748A (zh) | 一种抗破解的验证码实现方法及装置 | |
CN112905935A (zh) | 页面录制方法、页面录制动画生成方法、设备和存储介质 | |
CN113011254A (zh) | 一种视频数据处理方法、计算机设备及可读存储介质 | |
CN111865753B (zh) | 媒体信息的参数确定方法和装置、存储介质、电子装置 | |
CN105956173A (zh) | 页面内容获取方法和装置 | |
CN115511645A (zh) | 理赔图片的检测方法、装置、设备及存储介质 | |
US20140258829A1 (en) | Webform monitoring | |
CN108932279A (zh) | 一种应用页面处理方法及装置 | |
CN114885152A (zh) | 视频服务质量评价方法、装置、设备及存储介质 | |
CN114862212A (zh) | 互联网资产的管理方法及其装置、电子设备及存储介质 | |
CN112035205A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN113836464A (zh) | 页面数据处理方法、装置、计算机设备和存储介质 | |
CN109214474B (zh) | 基于信息编码的行为分析、信息编码风险分析方法和装置 | |
CN112019642A (zh) | 一种音频上传方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |