CN115997207B - 使用引导信号来检测在图像中的感兴趣子图像区域 - Google Patents
使用引导信号来检测在图像中的感兴趣子图像区域 Download PDFInfo
- Publication number
- CN115997207B CN115997207B CN202180051492.5A CN202180051492A CN115997207B CN 115997207 B CN115997207 B CN 115997207B CN 202180051492 A CN202180051492 A CN 202180051492A CN 115997207 B CN115997207 B CN 115997207B
- Authority
- CN
- China
- Prior art keywords
- image
- pilot signal
- signal
- column
- row
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims abstract description 78
- 238000000034 method Methods 0.000 claims description 247
- 238000001514 detection method Methods 0.000 claims description 164
- 230000008569 process Effects 0.000 claims description 76
- 230000004044 response Effects 0.000 claims description 62
- 230000006870 function Effects 0.000 claims description 35
- 238000012360 testing method Methods 0.000 claims description 23
- RVRCFVVLDHTFFA-UHFFFAOYSA-N heptasodium;tungsten;nonatriacontahydrate Chemical compound O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W] RVRCFVVLDHTFFA-UHFFFAOYSA-N 0.000 claims 4
- 230000000593 degrading effect Effects 0.000 claims 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 65
- 238000005316 response function Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 25
- 238000012795 verification Methods 0.000 description 21
- 238000000605 extraction Methods 0.000 description 20
- 238000009877 rendering Methods 0.000 description 20
- 238000004891 communication Methods 0.000 description 15
- 238000013461 design Methods 0.000 description 13
- 238000010200 validation analysis Methods 0.000 description 13
- 239000002131 composite material Substances 0.000 description 12
- 239000013598 vector Substances 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000010276 construction Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 239000000523 sample Substances 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- OVBPIULPVIDEAO-LBPRGKRZSA-N folic acid Chemical compound C=1N=C2NC(N)=NC(=O)C2=NC=1CNC1=CC=C(C(=O)N[C@@H](CCC(O)=O)C(O)=O)C=C1 OVBPIULPVIDEAO-LBPRGKRZSA-N 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000000153 supplemental effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 240000005020 Acaciella glauca Species 0.000 description 1
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011020 pilot scale process Methods 0.000 description 1
- 235000003499 redwood Nutrition 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- ORFSSYGWXNGVFB-UHFFFAOYSA-N sodium 4-amino-6-[[4-[4-[(8-amino-1-hydroxy-5,7-disulfonaphthalen-2-yl)diazenyl]-3-methoxyphenyl]-2-methoxyphenyl]diazenyl]-5-hydroxynaphthalene-1,3-disulfonic acid Chemical group COC1=C(C=CC(=C1)C2=CC(=C(C=C2)N=NC3=C(C4=C(C=C3)C(=CC(=C4N)S(=O)(=O)O)S(=O)(=O)O)O)OC)N=NC5=C(C6=C(C=C5)C(=CC(=C6N)S(=O)(=O)O)S(=O)(=O)O)O.[Na+] ORFSSYGWXNGVFB-UHFFFAOYSA-N 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0021—Image watermarking
- G06T1/005—Robust watermarking, e.g. average attack or collusion attack resistant
- G06T1/0064—Geometric transfor invariant watermarking, e.g. affine transform invariant
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/16—Program or content traceability, e.g. by watermarking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6209—Protecting access to data via a platform, e.g. using keys or access control rules to a single file or object, e.g. in a secure envelope, encrypted and accessed using a key, or with access control rules appended to the object itself
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0248—Avoiding fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0021—Image watermarking
- G06T1/0028—Adaptive watermarking, e.g. Human Visual System [HVS]-based watermarking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/32—Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
- H04N1/32101—Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
- H04N1/32144—Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title embedded in the image data, i.e. enclosed or integrated in the image, e.g. watermark, super-imposed logo or stamp
- H04N1/32149—Methods relating to embedding, encoding, decoding, detection or retrieval operations
- H04N1/32267—Methods relating to embedding, encoding, decoding, detection or retrieval operations combined with processing of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2201/00—General purpose image data processing
- G06T2201/005—Image watermarking
- G06T2201/0051—Embedding of the watermark in the spatial domain
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2201/00—General purpose image data processing
- G06T2201/005—Image watermarking
- G06T2201/0052—Embedding of the watermark in the frequency domain
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2201/00—General purpose image data processing
- G06T2201/005—Image watermarking
- G06T2201/0601—Image watermarking whereby calibration information is embedded in the watermark, e.g. a grid, a scale, a list of transformations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Multimedia (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Technology Law (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Editing Of Facsimile Originals (AREA)
- Image Processing (AREA)
Abstract
一种用于处理图像数据的示例设备包括:存储器,其被配置为存储图像;以及一个或多个处理器,其在电路中实现并且被配置为:处理图像以在图像中识别指示图像的一部分的引导信号,引导信号形成在该部分周围的边界并且具有根据与在该部分内的像素值的数学关系而定义的像素值,使得引导信号对于人类用户不是可感知的并且可由设备检测到;使用引导信号来确定图像的该部分;以及进一步处理该部分,以尝试检测该部分的一个或多个内容,而不尝试在图像的在该部分之外的部分中检测图像的一个或多个内容。
Description
本申请要求享有于2021年3月30日递交的美国申请No.17/301,268以及于2020年9月1日递交的美国临时申请No.63/073,280的优先权,上述申请中的每份申请的全部内容通过引用的方式并入本文中。美国申请No.17/301,268要求享有于2020年9月1日递交的美国临时申请No.63/073,280的权益。
技术领域
本公开内容涉及对图像数据的处理,包括对通过网络流式传输的静态图像数据和/或视频数据的处理。
背景技术
许多技术可用于对图像的分析和理解。这些范围从图像和对象检测到水印和信息隐藏。一些应用需要对图像的子区域的分析。例如,被呈现给帧显示缓冲器的图像可以是由若干不同的分量组成的。例如,计算设备可以根据源自网页浏览器、视频数据和静态图像的三个分量来构造最终图像。
广告用于针对各种媒体流式操作产生收入。通常,广告主在其内容被递送给用户装置时被收费。广告欺诈是常见的数字广告问题。通常,当广告主在没有呈现广告的情况下被收费时,对广告主实施了欺诈。欺诈可能影响广告主的数百万或甚至数十亿美元的收入。
在验证数字广告的显示时的一个挑战是确认广告内容到达观看者。在网页内容的情况下,每点击付费模型是确认某种水平的用户交互的一种方法。然而,验证向用户显示了非交互式数字内容也是重要的。例如,内容可能被呈现在网页上,但是可能不是以可见方式显示的。第一示例是,内容可能“在折叠之下”,也就是说,尽管被递送给观看者,但是内容被呈现在网页的实际上未向观看者显示的区域中。在这样的情况下,广告主可能针对从未看过的内容而被收费。或者,内容可能被递送并且显示了,但是由于渲染而被模糊了。本申请的技术挑战是在较大图像(比如全显示缓冲器)的情况下识别感兴趣子图像的存在。
传统的图像分析技术对单个图像和视频进行操作,并且因此,隐含地假定了解感兴趣图像的区域的范围。如果仅处理子图像,则可以降低复杂度并且提高算法性能,即使当分析算法可能对整个图像进行操作时。在显示图像验证的一个示例中,对被放置在显示缓冲器中的合成图像进行验证。这提出了在合成图像内识别子图像的位置的挑战。
与在图像数据(比如静态图像数据和视频数据)中的数字广告相关的另一挑战是避免广告欺诈。通常,广告欺诈涉及非法方使得对所显示的广告过度计数,从而导致对广告主过度计费。
各种此类广告欺诈机制是可能的。一种欺诈机制是使用自动化软件,即“bots”。DrainerBot就是这种自动化软件的一个示例,被Oracle的Moat Analytics如此命名。在Drainerbot的示例中,在移动设备上运行的恶意应用将持续地将视频流式传输到设备,而不显示结果。根据来自Oracle发布的新闻稿:
Oracle今天宣布对“DrainerBot”的发现和针对其的缓解措施,“DrainerBot”是通过受感染的消费者应用的数百万下载而散布的主要移动广告欺诈操作。受感染的应用可能每月消耗超过10GB的数据来下载隐藏的和看不见的视频广告,潜在地使每个设备所有者每年在数据超量费用方面花费100美元或更多。
DrainerBot是通过来自其Moat和Dyn收购的Oracle技术团队的共同努力发现的。现在作为Oracle数据云的一部分,Moat提供可见性、无效流量(IVT)和品牌安全解决方案,而Dyn实现DNS和安全能力作为Oracle云基础设施的一部分。
Oracle,“Oracle Exposes‘DrainerBot’Mobile Ad Fraud Operation(Oracle揭露‘DrainerBot’移动广告欺诈操作)”,新闻稿,加利福尼亚州红杉市,2019年2月20日,www.oracle.com/corporate/pressrelease/mobilebot-fraud-operation-022019.html。
另一欺诈机制是:将由于在递送给显示器之前刚刚在客户端设备上发生的最终渲染而看不见的图像和视频递送给客户端。通常,图像可能未被包括在发送给显示器的区域中,或者可能被其它内容遮挡。这种效果的示例是通过在移动设备上浏览包括多个元素的网页而产生的。移动设备的定向可能导致对广告呈现的遮挡或其它中断。在一个示例中,移动设备可能处于纵向模式,其中所有子图像都是可见的。然而,当相同的移动设备被旋转到横向朝向时,页面可能基于新的朝向而被重新渲染。在横向渲染中,一个子图像可能遮挡包括广告的第二子图像的一部分。该示例说明页面的分量的实际可见性取决于渲染以及其它方面。
在交互式媒体中防止欺诈的一种传统技术是基于执行的“每点击付费”模型,所述模型要求用户“点击”以确认内容被看到。存在规避该技术的方法,比如“刷单军团”(clickfarm)。
用于验证广告可见性的其它传统解决方案限于在客户端设备上的网页浏览器或应用。针对可见性的标准是在网页浏览器中定义的,并且在客户端设备上的JavaScript可以评估这种可见性估计,并且向广告主提供关于这种可见性水平的反馈。例如,在以下文档中描述了“Moat”可见性系统的功能:Moat Analytics,“Description of Methodology”,s3.amazonaws.com/clients.assets/mrc_dom/MRC_DOM_11-2014.pdf:
观看时曝光方法——Moat遵循用于对在观看时的曝光进行计数的IAB指南:对于显示广告,广告的50%或更多的像素必须在屏幕上可见达至少连续一秒。(根据IAB指南,“30%的像素”规则适用于在大小上至少为242,500个像素的广告,包括300x1050和970x250格式。)浏览器窗口必须是活动/焦点对准的,意味着浏览器未被最小化,并且页面不在背景选项卡中。如果浏览器与另一应用是并排的,则在浏览器中的页面仍然被视为是焦点对准的。
Moat在检查可见性时跟踪广告本身,而不是广告的容器。在极少数情况下,当富媒体广告包括多个单独资产时,Moat将替代地跟踪广告容器。
对于视频分析,Moat遵循用于视频可见曝光的IAB指南,并且要求播放器的至少50%的像素必须是在屏幕上可见的,页面必须是聚焦的,并且广告必须播放达至少连续两秒。
Moat采用使用JavaScript来确定广告的位置的位置测量技术以及采用专有浏览器-资源技术,来确定广告是否是可见的。如果Moat标签位于页面上或在一个或多个相同域(“友好”)iframe内,则可见性是在包括移动浏览器的所有浏览器中测量的。如果标签位于一个或多个跨域(“敌意”)iframe内,则可见性是在Chrome、Firefox、Safari和IE中测量的。由于Moat Analytics在浏览器内运行并且不与外部应用交互,因此其在确定广告的可见性时不考虑非浏览器应用。为了确定广告是否满足针对可见曝光的时间要求(连续一秒用于显示,以及连续两秒用于视频),Moat每200ms检查(还被称为“轮询”)广告的可见性。如果针对连续五次检查(对于视频广告为10次检查)广告是可见的,则对可见曝光被计数。尽管MRC推荐测量供应商以100毫秒间隔针对显示广告进行轮询,但是Moat通过实验性证据表明,200毫秒的方法在准确性上是等效的。
测量要求——Moat要求用户启用JavaScript并且不使用广告拦截器,以便测量曝光。这些要求类似于针对服务和显示广告的要求。
发明内容
概括而言,本公开内容描述用于检测较大图像的子图像的技术。例如,这些技术可以用于确定在设备的显示缓冲器中是否存在包括具有子图像的图像的广告。如果在显示缓冲器的帧中检测到子图像,则设备可以确定图像以及因此广告将被显示给设备的用户。
这些技术还可以用于检测与非交互式内容相关的媒体广告欺诈。例如,这些技术可以用于检测与在没有用户反馈事件(例如,在链接上的“点击”)的情况下何时呈现图像和/或视频数据相关的欺诈。这些非交互式广告欺诈检测技术在移动平台上可能特别有利。
在一个示例中,处理图像数据的方法包括:处理图像以在图像中识别指示图像的感兴趣区域(ROI)的引导信号,引导信号形成在ROI周围的边界并且具有根据与在ROI内的像素值的数学关系而定义的像素值,使得引导信号对于人类用户不是可感知的并且可由计算设备检测到;使用引导信号来确定图像的ROI;以及进一步处理ROI,以尝试检测ROI的一个或多个内容,而不尝试在图像的在ROI之外的部分中检测图像的一个或多个内容。
在另一示例中,用于处理图像数据的设备包括:存储器,其被配置为存储图像;以及一个或多个处理器,其在电路中实现并且被配置为:处理图像以在图像中识别指示图像的感兴趣区域(ROI)的引导信号,引导信号形成在ROI周围的边界并且具有根据与在ROI内的像素值的数学关系而定义的像素值,使得引导信号对于人类用户不是可感知的并且可由该设备检测到;使用引导信号来确定图像的ROI;以及进一步处理ROI,以尝试检测ROI的一个或多个内容,而不尝试在图像的在ROI之外的部分中检测图像的一个或多个内容。
在另一示例中,用于处理图像数据的设备备包括:用于处理图像以在图像中识别指示图像的一部分的引导信号的单元,引导信号形成在该部分周围的边界并且具有根据与在该部分内的像素值的数学关系而定义的像素值,使得引导信号对于人类用户不是可感知的并且可由计算设备检测到;用于使用引导信号来确定图像的该部分的单元;以及用于进一步处理该部分,以尝试检测该部分的一个或多个内容,而不尝试在图像的在该部分之外的部分中检测图像的一个或多个内容的单元。
在另一示例中,计算机可读存储介质具有存储在其上的指令,指令在被执行时使得处理器进行以下操作:处理图像以在图像中识别指示图像的一部分的引导信号,引导信号形成在该部分周围的边界并且具有根据与在该部分内的像素值的数学关系而定义的像素值,使得引导信号对于人类用户不是可感知的并且可由计算设备检测到;使用引导信号来确定图像的该部分;以及进一步处理该部分,以尝试检测该部分的一个或多个内容,而不尝试在图像的在该部分之外的部分中检测图像的一个或多个内容。
在另一示例中,处理图像数据的方法包括:确定图像的在图像周围的边界处的像素值;以及处理图像以在图像周围的边界处添加引导信号,引导信号具有根据与子图像的像素值的数学关系而定义的像素值,使得引导信号对于人类用户不是可感知的并且可由计算设备检测到。
在另一示例中,用于处理图像数据的设备包括:存储器,其被配置为存储用于图像的数据;以及一个或多个处理器,其在电路中实现并且被配置为:确定图像的在图像周围的边界处的像素值;以及处理图像以在图像周围的边界处添加引导信号,引导信号具有根据与子图像的像素值的数学关系而定义的像素值,使得引导信号对于人类用户不是可感知的并且可由计算设备检测到。
在另一示例中,用于处理图像数据的设备包括:用于确定图像的在图像周围的边界处的像素值的单元;以及用于处理图像以在图像周围的边界处添加引导信号的单元,引导信号具有根据与子图像的像素值的数学关系而定义的像素值,使得引导信号对于人类用户不是可感知的并且可由计算设备检测到。
在另一示例中,计算机可读存储介质具有存储在其上的指令,指令在被执行时使得处理器进行以下操作:确定图像的在图像周围的边界处的像素值;以及处理图像以在图像周围的边界处添加引导信号,引导信号具有根据与子图像的像素值的数学关系而定义的像素值,使得引导信号对于人类用户不是可感知的并且可由计算设备检测到。
在附图和下面的描述中阐述了一个或多个示例的细节。根据说明书、附图和权利要求,其它特征、目的和优势将是显而易见的。
附图说明
图1是示出可以被配置为执行本公开内容的技术以在图像中使用水印来检测广告(ad)欺诈的示例系统的方块图。
图2是示出图形处理单元(GPU)的可以用于执行本公开内容的技术的示例组件集合的方块图。
图3是示出如下的示例过程的概念图:通过该示例过程,图1的引导信号生成单元生成引导信号并且将其添加到广告(ad)图像中。
图4是示出如下的示例过程的概念图:通过该示例过程,图1的合成单元根据网页、视频数据和带信号的广告图像来形成最终合成图像。
图5是示出如下的示例过程的概念图:通过该示例过程,GPU 136(图1)可以确定由引导信号260指示的感兴趣区域(ROI)并且从ROI中提取水印。
图6A和6B是示出被插入到示例图像中的示例引导信号的概念图。
图7是示出根据本公开内容的技术的如下示例过程的流程图:通过该示例过程,可以生成引导函数。
图8是示出根据本公开内容的技术的如下的另一示例过程的流程图:通过该示例过程,可以使用正交核心值和色彩权重值来生成和增强引导函数。
图9是示出根据本公开内容的技术的在图像中检测定义感兴趣区域(ROI)的引导信号的示例方法的流程图。
图10是示出根据本公开内容的技术的在图像中检测定义感兴趣区域(ROI)的引导信号的另一示例方法的流程图,其中,引导信号是通过正交核心值和色彩权重值来增强的。
图11A和11B是示出根据本公开内容的技术的示例性的带引导信号的广告图像380的概念图,该广告图像380包括在带引导信号的广告图像380的边界周围插入的示例引导信号284。
图12是示出根据本公开内容的技术的包括带引导信号的广告图像380的示例网页388的概念图。
图13A和13B是根据本公开内容的技术的表示用于在图12的网页388的示例中检测引导信号的位置的行和列响应函数的示例的示意图。
图14是示出根据本公开内容的技术的使用引导信号的ROI检测过程的示例第一阶段的概念图。
图15A和15B是根据本公开内容的技术的表示用于在图14的示例图像中检测引导信号的位置的行和列响应函数的示例的示意图。
图16是示出根据本公开内容的技术的使用引导信号的ROI检测过程的示例第二阶段(继续图14的示例)的概念图。
图17是示出根据本公开内容的技术的用于在图像的感兴趣区域(ROI)周围将引导信号插入到图像中的示例过程的流程图。
图18是示出根据本公开内容的技术的用于使用引导信号来检测感兴趣区域(ROI)的示例过程的流程图。
图19是根据本公开内容的某些技术的示例加水印过程。
图20是示出根据本公开内容的某些技术的示例验证过程的流程图。
具体实施方式
本公开内容通常涉及对在图像内的子图像的检测。比如移动设备(例如,智能电话、平板计算机、个人计算机等)之类的客户端设备可以根据多个子元素组装经渲染的帧。例如,客户端设备可以获得网页浏览器数据、图像数据和视频数据,根据这些数据集合来合成最终帧,并且将最终帧插入到帧缓冲器中。客户端设备然后可以从复合渲染的显示缓冲器中检测子区域。
一旦客户端设备在帧缓冲器中检测到与图像的子图像相对应的特定感兴趣区域(ROI),客户端设备就可以对ROI执行适当的分析算法,以进行子图像的对象分析和水印提取。本公开内容的技术可以通过首先识别相关ROI来提高分析算法的有效性。
处理完整的图像缓冲器而不是仅感兴趣的ROI的额外挑战是处理的复杂度。本公开内容的技术提供相对较低复杂度的ROI/存在检测技术。以这种方式,客户端设备可以仅当客户端设备检测到候选ROI时并且仅对在ROI中减少数量的样本执行复杂水印提取过程。因此,客户端设备可以避免对完整图像连续地执行水印提取过程。因此,这些技术可以解决与如何识别特定内容源的ROI(当在经组合的经渲染的图像中存在时)相关的问题。
因此,本公开内容描述用于检测较大图像的子图像的旨在用于处理子图像的技术,比如提取水印或其它感兴趣的方面。例如,这些技术可以包括在内容中添加和/或检测一个或多个引导信号,其中,客户端设备可以使用引导信号来最终形成复合显示缓冲器的子图像。
图1是示出示例系统100的方块图,该示例系统100可以被配置为执行本公开内容的技术,以使用引导信号来指示子图像(比如水印)的位置。此外,根据本公开内容的另外技术,客户端设备130可以被配置为使用水印来检测广告(ad)欺诈。在图1的示例中,系统100包括网页服务器102、广告服务器110、验证服务器120、客户端设备130和网络140。
网络140表示形成用于在网页服务器102、广告服务器110、水印单元114、引导信号生成单元116、验证服务器120和客户端设备130之间交换数据的网络的一组设备。网络140可以表示互联网。通常,网络140可以包括各种传统网络设备,比如路由器、桥接器、集线器、网络安全设备(比如防火墙)、服务器等。
在该示例中,网页服务器102例如使用联网协议(比如超文本传输协议(HTTP)、实时传输协议(RTP)、多播、广播或其它此类协议)来向客户端设备130提供网络内容150。在一些示例中,网页服务器102可以使用分层应用协议(比如基于HTTP的动态自适应流式传输(DASH)、基于单向传输的文件递送(FLUTE)或ROUTE协议)来递送内容。在该示例中,网页服务器102接收要应用于网络内容150的网页的超文本标记语言(HTML)广告(ad)标签104。网页服务器102将HTML广告标签104插入到网络内容150的网页中,以从广告服务器110取回适当的广告。在一些示例中,HTML广告标签104可以额外包括用于从广告服务器110取回对应的广告的JavaScript代码,使得网页服务器102可以向客户端设备130发送用于包含HTML广告标签104和JavaScript代码的网络内容150的网页的数据。
网页服务器102可以托管网页,所述网页包括到由广告服务器110托管并且对应于HTML广告标签104的广告的链接。这些网页还可以包括用于验证广告的JavaScript代码、或者可由网页浏览器132执行的其它此类代码。此类验证代码可以类似于来自Oracle的MoatAnalytics、Integral Ad Science(IAS)、Google Active View或其它验证过程的验证代码。
在该示例中,广告服务器110经由网络140来向客户端设备130提供广告媒体资产112。特别是,如上文所指出的,由网页服务器102提供的网页包括HTML广告标签104,所述HTML广告标签104可以对应于媒体资产112的集合。广告主可以生成用于广告的媒体资产112(例如,图像和/或视频内容)。如下文更详细地解释的,水印单元114可以标记媒体资产112以确定媒体资产112实际上是否已经由客户端设备130显示。此外,在该示例中,水印单元114包括引导信号生成单元116以将引导信号插入在水印周围和/或紧密接近水印,以辅助对水印的定位和检测。通常,客户端设备130可以从广告服务器110请求与HTML广告标签104相对应的广告152。在一些示例中,客户端设备130可以执行用于访问广告的对应JavaScript代码。
根据本公开内容的技术,水印单元114可以被配置为将媒体资产112的图像和视频内容修改为包括强健的不可见水印。在该示例中,水印单元114包括引导信号生成单元116。根据本公开内容的技术,引导信号生成单元116可以设计边界引导信号并且将其插入在水印周围或在其它图像或子图像周围。在实践中,引导信号生成单元116可以被配置为设计引导信号,所述引导信号对于人类用户是几乎不可感知的,但是仍然可由比如客户端设备130之类的计算设备检测到。然而,出于解释和说明的目的,本公开内容的附图通常例如使用虚线来描绘引导信号的视觉表示。
为了在内容递送链以及渲染中继续存在,引导信号生成单元116可以将引导信号设计为对于可能在内容递送和渲染(比如压缩、降尺度、升尺度、色彩空间转换和/或相移(偏移))期间发生的失真是强健的。
水印单元114可以产生可以由传统的媒体播放生态系统处理的经修改的最终广告内容。另外,JavaScript代码或其它代码可以与广告内容一起由广告服务器110、网页服务器102或验证服务器120提供。广告服务器110可以提供最终广告内容(包括水印和/或边界引导信号),而不必具有针对水印和/或边界引导信号的存在的任何调节。
在该示例中,客户端设备130包括网页浏览器132、可见性单元134、图像/视频解码单元146、图形处理单元(GPU)136、水印提取单元138、缓冲器148和合成单元144。客户端设备130通常从网页服务器102接收媒体数据,并且从广告服务器110接收广告,并且渲染要在显示器142上显示的媒体数据。网页浏览器132和可见性单元134可以被植入在软件中,并且由在电路中实现的一个或多个处理器执行。GPU 136可以在电路中实现,而水印提取单元138可以在软件、固件和/或硬件中实现。
缓冲器148表示计算机可读存储介质(即存储器),其可以使用随机存取存储器(RAM)或其它存储介质来实现。缓冲器148还可以被称为帧缓冲器。缓冲器148可以形成GPU136的一部分,或者可以单独地提供。通常,缓冲器148可以存储要输出到显示器142的帧(即图片)。
网页浏览器132可以取回各种不同类型的媒体,比如网页、图像、视频等。在一些示例中,网页浏览器132可以取回网页、一个或多个图像(例如,加水印的广告)和视频数据。网页浏览器132可以向图像/视频解码单元146提供图像和视频数据,图像/视频解码单元146可以解码图像和视频数据。网页浏览器132可以向合成单元144提供网页,并且图像/视频解码单元146可以向合成单元144提供经解码的图像和视频数据。合成单元144可以合成最终渲染的图像以在显示器142上显示。合成单元144可以将最终渲染的图像存储到缓冲器148中以供显示器142后续取回以及输出到显示器142。
如上文所讨论的,传统的网页浏览器包括用于确定广告是否已经被显示给用户的可见性验证。可见性单元134执行用于确定广告是否已经被显示的传统技术。例如,可见性单元134可以确定广告在所显示的网页上是否是活动的和/或焦点对准的,以确保广告图像未被隐藏。然而,传统技术不保证广告图像实际上已经到达显示器142。
除了网页布局之外,广告的可见性还受到成像管道和渲染的影响。传统的解决方案基于针对网页浏览器的网页布局和报告来计算可见性。本公开内容描述用于使用可信GPU(即GPU 136)来确定广告图像是否被呈现给显示器142的技术。此外,GPU 136可以通过网页浏览器132向远程服务器(例如,验证服务器120)提供确认,而不修改除了GPU 136之外的客户端设备130。
通常,除了与GPU 136和广告服务器110/验证服务器120的交互之外,网页浏览器132可以按照传统方式操作。网页浏览器132可以包括用于与GPU 136进行通信以将广告内容传递给GPU 136的接口,比如应用编程接口(API)。网页浏览器132还可以被配置为将报告154提交给验证服务器120。如下文所讨论的,网页浏览器132可以从GPU 136接收消息,该消息包括针对被包括在从广告服务器110接收的广告152中的广告的经签名验证的提取的内容标识符。在递送期间,广告152可能被压缩、转码和/或缩放,这可能使广告152的图像失真(这可能影响被包括在广告152中的引导信号)。因此,引导信号生成单元116可以将引导信号设计为强健的以抵抗这种失真。网页浏览器132可以形成包括验证消息的报告154,所述验证消息包括来自GPU 136的签名内容、针对广告152的预期内容ID和/或针对对应广告主的其它感兴趣参数。
在图1的示例中,验证服务器120是与广告服务器110分开示出的,但是在一些示例中可以对应于同一服务器。通常,验证服务器120从客户端设备130接收指示广告152实际上是否被发送给显示器142的报告154。也就是说,使用本公开内容的技术,GPU 136可以确定广告152中的一个或多个广告是否被发送给显示器142,并且可以将表示被发送给显示器142的广告152的数据发送给可见性单元134。可见性单元134可以进而生成指示广告152中的哪些广告被发送给显示器142的报告154。
根据本公开内容的技术,水印单元114可以将数字水印添加到媒体资产112(例如,图像和视频数据)中。为了辅助可检测性,引导信号生成单元116可以设计引导信号并且将其插入在数字水印周围。GPU 136(并且特别是,水印提取单元138)可以使用引导信号来定位显示缓冲器的子图像(例如,广告图像的水印)。在以下文档中描述图像水印的示例:Paul,“Review of robust video watermarking techniques(强健的视频水印技术的回顾)”,IJCA Special Issue on Computational Science(计算科学的IJCA特刊),2011年第3卷,第90-95页。
水印提取单元138可以被配置为检测引导信号并且指示子图像感兴趣区域(ROI)。如下文更详细地讨论的,GPU 136可以包括ROI检测单元(如在图2中所示出的,未在图1中示出)。GPU 136(例如,其ROI检测单元)可以被配置为在将最终图像渲染并且存储到缓冲器148之前使用可以被应用于子图像的未知缩放。引导信号生成单元116可以将引导信号设计为包括空间频率和色彩权重,GPU 136可以使用所述空间频率和色彩权重来检测引导信号,并且因此检测由引导信号指示的水印。尽管压缩、缩放、以及在媒体资产112的原始媒体资产的形成与由GPU 136和合成单元144对被存储到缓冲器148中的最终图像的渲染之间可能发生的其它图像处理,引导信号的设计可以允许GPU 136检测引导信号。GPU 136可以使用检测到的在引导信号内的ROI来(例如向水印提取单元138)提供子图像以供后续处理。
网页浏览器132通常可以对应于传统的网页浏览器,或可以还被配置为将加水印的图像和视频内容传递给GPU 136以进行渲染。网页浏览器132可以以传统的方式执行JavaScript代码。网页浏览器132可以取回网页数据、图像数据(例如,广告数据)、视频数据等。网络浏览器132可以向图像/视频解码单元146提供经压缩的图像数据(例如,静态图像数据和/或视频数据)。图像/视频解码单元146可以解码图像数据并且向合成单元144提供经解码的图像数据。合成单元144可以根据网页数据、图像数据和视频数据来形成去往缓冲器148的最终渲染的图像,合成单元144可以将各种不同的资产组合成单个图像以供显示。
此外,根据本公开内容的技术,GPU 136可以被配置为从帧缓冲器中识别和提取水印。GPU 136可以首先确定引导信号的位置,如下文更详细地讨论的,引导信号可能概述了水印。然后,GPU 136可以使用水印提取单元138来提取水印。GPU 136可以从水印中读取内容标识符(其可以是加密的),并且GPU 136可以跟踪水印有多长时间是可见的(例如,使用被存储到缓冲器148中的帧数量和显示器142的显示帧速率),以形成关于该可见性的报告。报告可以包括内容标识符、内容被看到的持续时间、以及可选地与客户端设备130的用户相关联的唯一标识符。GPU 136还可以对该报告或其它响应消息进行格式化、签名或加密。GPU136可以向可见性单元134提供该报告或响应消息,可见性单元134可以执行根据本公开内容的技术的指令,以将报告154转发给验证服务器120。
GPU 136可以生成包括如下的纯文本数据的验证消息:
内容标识符:由GPU从水印中提取并且报告回的整数值。这标识将其与在显示缓冲器中可能存在的任何其它内容区分开的内容。
持续时间:定义内容标识符在显示缓冲器中被GPU检测到的以秒为单位的时间量。这被计算为在第一次遇到内容标识符与不包括内容标识符的第一个后续帧之间的时间。
客户端ID:对于客户端设备130唯一的值,比如GPU序列号、MAC地址等。
GPU ID:用于指定用于验证数字签名的密钥的索引,所述数字签名用于针对GPU136对以上字段进行签名。
GPU 136可以将验证消息传递给网页浏览器132。网页浏览器132可以将额外信息添加到验证消息中以形成报告154,报告154包括要被发送给验证服务器120的完整验证消息。GPU 136可以针对在帧中检测到的每个水印,生成单独的消息或者包括所检测到的内容标识符和持续时间的列表的单个验证消息。
验证服务器120可以从可见性单元134和GPU 136接收包括验证消息的报告154。验证服务器120可以经由解密或经由数字签名,将生成用于报告154的数据的GPU 136对照可信GPU列表进行验证。验证服务器120可以将由GPU 136报告的内容标识符与被递送给客户端设备130的广告152的标识符进行相等比较。在匹配的情况下,验证服务器120可以将被包括在报告154中的持续时间信息与广告152(在一些情况下,和客户端设备130的标识符)进行关联。
图2是示出图1的GPU 136的可以用于执行本公开内容的技术的示例组件集合的方块图。在该示例中,GPU 136包括渲染单元162、合成单元144、感兴趣区域(ROI)检测单元164、水印提取单元138、跟踪单元166、消息形成单元168、数字签名单元170和通信单元172。
渲染单元162可以是传统的渲染单元,其例如从网页浏览器132(图1)接收图像和渲染命令,并且使用典型的GPU操作来创建图像180以发送给显示器(例如,图1的显示器142)。例如,合成单元144可以接收网页数据、静态图像数据(例如,广告图像)和视频数据,并且根据网页数据、静态图像数据和视频数据来合成图像。渲染单元162不需要专门被配置为与水印和/或引导信号进行交互。渲染单元162还将图像180发送给ROI检测单元164。
ROI检测单元164扫描图像180以识别包含加水印的区域的ROI,比如ROI 182。这些区域可以由在用于形成包含加水印的区域的ROI 182的图像(或子图像)的边界周围的引导信号指示。除了渲染用于显示的影像之外,GPU 136还可以被配置为支持在图像被呈现给显示器142时扫描像素的渲染显示缓冲器的过程。ROI检测单元164可以检测ROI 182,例如,通过检测描述图像180的广告内容的边界的引导信号。在一些情况下,可以利用效率,例如,在帧缓冲器或ROI未被改变的情况下,在这种情况下,不需要再次执行ROI检测和水印提取。
水印提取单元138可以从ROI检测单元164接收用于ROI 182的数据。水印提取单元138可以对在ROI 182中存在的内容标识符184进行解码。在一些示例中,如果与针对其提取水印的先前图像相比,针对图像180的ROI 182的内容未被改变,则水印提取单元138无需操作。水印提取单元138可以向跟踪单元166提供内容标识符184。
跟踪单元166可以随着时间记录相同的所提取的内容标识符的存在,并且计算内容标识符存在的持续时间,以计算内容标识符184的可见性的持续时间。跟踪单元166可以维护多个提取的内容标识符的列表,并且单独地跟踪所提取的内容标识符中的每个内容标识符的持续时间。跟踪单元166可以将包含内容标识符184的多个连续的帧/图像转换为绝对度量,例如以秒为单位的持续时间。跟踪单元166可以生成表示所检测到的内容标识符中的每个内容标识符以及这些内容标识符在其内可见的对应持续时间的数据186。跟踪单元166可以在不再检测到这些内容标识符中的一个或多个内容标识符之后将数据186输出到消息形成单元168,或者跟踪单元166可以周期性地和/或根据来自消息形成单元168的请求来输出数据186。在面板自刷新(PSR)技术(其被设计为暂停渲染并且在显示器时保持图像)的情况下,如果GPU 136在PSR过程期间不活动的话,则跟踪单元166可以将PSR的持续时间加到内容标识符的持续时间。
消息形成单元168可以使用数据186来形成描述在显示缓冲器中检测到的内容标识符的消息188。消息形成单元168可以形成包括以下各项的消息188:(从水印中提取的)内容标识符的列表、内容标识符被显示的持续时间(以及因此,对应的广告内容)、当前时间、特定于设备的标识符(ID)和关于内容标识符的运动信息。消息形成单元168可以向数字签名单元170提供消息188。下面的表1表示用于消息188的示例消息格式。
表1
字段 | 值 |
内容ID | 545404223 |
持续时间(秒) | 10 |
时间戳 | Sat Jul 23 02:16:57 2005 |
客户端ID | 0x499602D2 |
数字签名单元170可以针对消息188生成安全数字签名,并且准备包括消息188和安全数字签名的经签名消息190。数字签名单元170可以将安全数字签名附加到消息188以用作对消息188的内容的有效性的验证。例如,数字签名单元170可以利用公钥/私钥对中的与GPU 136相关联的私钥(例如,使用RSA)来对消息188进行加密,并且其它方可以使用对应的公钥来对数字签名进行解密,以确定消息188是有效且真实的。数字签名单元170可以向通信单元172提供经签名消息190。
通信单元172提供与图1的浏览器132的通信。特别是,网页浏览器132可以执行JavaScript代码,例如以从GPU 136接收经签名消息190,并且将经签名消息190发送给验证服务器120(图1)。如果网页浏览器132将参数传递给GPU 136,则可以使用在GPU 136与网页浏览器132之间的双向通信例如以发信号。网页浏览器132或应用可以经由通信单元172来向GPU 136发送用于开始或停止对水印的扫描的命令。在一些示例中,网页浏览器132可以经由通信单元172来向GPU 136发送用于接收要由数字签名单元170用来对消息188进行签名的唯一标识符的命令。从GPU 136到网页浏览器132的单向通信异步地提供验证消息,但是使用连续操作或逻辑来控制ROI搜索的激活以及水印检测过程。
图3是示出如下示例过程的概念图:通过该示例过程,引导信号生成单元116(图1)生成引导信号160并且将其添加到广告(ad)图像256中。首先,引导信号生成单元116接收广告图像256,其可以对应于媒体资产112(图1)中的一个媒体资产。虽然本公开内容的引导信号生成技术不一定限于与水印结合使用,但是图1的水印单元114可能已经将水印插入到广告图像256中。例如,引导信号生成单元116可以仅在图像内的水印周围或在整个广告图像周围插入引导信号,例如,如在图3的示例中所示。
在该示例中,引导信号生成单元116生成要在广告图像256周围添加的引导信号260。下面更详细地讨论用于生成引导信号260的技术。通常,引导信号生成单元116可以生成引导信号260,所述引导信号260可由计算设备(比如客户端设备130和/或GPU 136(图1))检测到,但是对于人类用户是不可感知的。引导信号生成单元116接着可以形成带信号的广告图像256’,其包括引导信号260。
彩色图像可以具有三个色彩平面,比如红色、绿色和蓝色(RGB),或者亮度和两个色度(蓝色色调和红色色调、YCbCr或YUV)。引导信号生成单元116可以使用该特性来增加引导信号260的强健性。例如,如果使用RGB色彩平面,则引导信号生成单元116可以在每个色彩平面中放置相同引导信号的不同加权版本,以形成跨平面引导信号。为了检测,ROI检测单元164可以利用用于跨色彩平面引导信号构造的权重对不同的色彩平面进行组合。这相当于在使用单平面引导检测过程之前将多通道图像投影到跨色彩权重的向量上。
为了根据用于单个色彩平面的2D引导信号来构造用于多个色彩通道的引导信号,引导信号生成单元116可以使用色彩平面权重向量,例如,色彩平面权重向量W(p)=[1,-2,1]或W(p)=[1,0,-1]。引导信号生成单元116可以根据先前描述的2D引导信号生成技术,来将引导信号添加到特定色彩平面p中,并且通过W的适当值进行加权。两个权重向量都将遮挡灰度图像,其中R=G=B。第二权重还遮挡纯绿色信号。
很容易认为纯蓝色信号将被第二向量遮挡,因为加权乘积将为负,而引导信号将为正。尽管为负,但是当引导信号被添加到例如蓝色的原始数据中时,信号可能具有负偏移。在由RIO检测单元164执行的检测过程中可以考虑这些权重。
如果引导信号仅被添加到沿着图像的边缘的单个行或列中,则其对于下采样或压缩可能不是强健的。为了增加强健性,引导信号生成单元116可以使用多行或多列来携带引导信号260。这增加了强健性,但是可能增加可见性。引导信号生成单元1116可以通过正交核心来调制引导信号260的线,以降低被加宽的引导信号的可见性。为了保持对于下采样的强健性,正交核心不需要具有最大频率。候选正交核心是[1,1,-1,-1,1,1]。引导信号生成单元116可以针对行和列分别执行引导信号构造过程,并且将每个引导信号(共同形成引导信号260)添加到广告图像256的边缘(顶部、底部、左侧和右侧),以产生带信号的广告图像256’。下文关于图7和8讨论关于用于生成引导信号260的示例技术的额外细节。
图4是示出如下示例过程的概念图:通过该示例过程,图1的合成单元144根据网页252、视频数据254和带信号的广告图像256’形成最终合成图像258。网页252包括文本和表示要插入视频数据和广告图像数据的点的数据。视频数据254和带信号的广告图像256’表示从例如图像/视频解码单元146(图1)接收的用于视频和广告的经解码的图像数据。合成单元144形成最终合成图像258,其包括来自网页252的数据(例如,文本数据)、在如由网页252所指示的适当点处插入的视频数据254的一个帧、以及在如由网页252所指示的适当点处插入的带信号的广告图像256’。
根据本公开内容的技术,引导信号生成单元116可以将引导信号260引入原始广告内容的源图像(比如广告图像256)中。例如,引导信号生成单元116可以通过执行广告图像256的离散小波变换分解并且在分解的一个或多个条带的边缘中设置常数值,来引入引导信号260。
作为计算小波变换并且将引导信号260插入到特定条带中的替代方式,引导信号生成单元116可以在像素域中将信号添加到图像中。这些技术可以是等效的,取决于被添加到图像中的信号的设计。下文更详细地讨论引导信号260的构造和在图像内的包含。
用于产生引导信号260的替代方式是向广告图像256的边缘添加正弦曲线。引导信号260可以满足以下特性中的任何或所有特性:不可见的额外失真、对于按与D一样大的因子的降尺度的强健性、以及低复杂度检测,假定按最多为因子U的升尺度。
在一个示例中,引导信号生成单元116可以定义对于按D的降尺度具有频率强健性的单正弦曲线。为了设计引导信号的频率,在图像的按因子D的降尺度之后,将引导信号的数字频率乘以D。考虑到最高数字频率为1/2,引导信号260应当具有小于D/2的频率分量,以在降尺度过程中继续存在。另外,引导信号260可以具有在与主引导信号长度正交的方向上的至少D个样本的2D覆盖区(footprint),即,对于宽度为W的图像而言,D高和W宽。
图5是示出如下示例过程的概念图:通过该示例过程,GPU 136(图1)可以确定由引导信号260指示的感兴趣区域(ROI)并且从ROI中提取水印。如上文所指示的,最终合成图像258包括网页数据、视频数据254和带信号的广告图像256’。引导信号260包围带信号的广告图像256’,以辅助检测带信号的广告图像256’。也就是说,带信号的广告图像256’表示最终合成图像258的ROI。
如上文关于图2所讨论的,ROI检测单元164可以接收并且处理最终合成图像258。例如,ROI检测单元164可以从显示缓冲器(比如缓冲器148(图1))中取回最终合成图像258。或者,ROI检测单元164可以从合成单元144接收最终合成图像258。
在任一情况下,ROI检测单元164处理最终合成图像258以搜索引导信号,如下文更详细地讨论的。在检测到引导信号260之后,ROI检测单元164可以通过提取由引导信号260包围的像素(其在这种情况下对应于带信号的广告图像256’)来提取带信号的广告图像256’。ROI检测单元164可以接着将所提取的像素(也就是ROI,其对应于带信号的广告图像256’)发送给水印提取单元138。水印提取单元138然后可以针对水印来搜索带信号的广告图像256’,水印可以包括针对带信号的广告图像256’的标识符。如上文关于图2所讨论的,水印提取单元138然后可以将标识符提供给跟踪单元166。在该示例中,水印提取单元138提取标识符262并且将标识符262发送给例如跟踪单元166(图2)。
为了检测,ROI检测单元164可以使用时段探测集合[2,3,…2·D]、对应的频率以及相位0和1/2。ROI检测单元164可以使用以下等式来定义探测信号:
ROI检测单元164可以通过将探测信号中的每个探测信号与感兴趣缓冲器中的图像的行或列进行关联,来检测引导信号260。ROI检测单元164可以将不同相位在量级上的相关性进行组合以产生p个响应函数,其中,每个响应函数是图像行或列的函数。以下等式表示行相关函数,但是可以通过将“行”替换为“列”来执行类似技术:
Rp(row)=|∑fp,0(x)·img(row,x)|2+|∑fp,1/2(x)·img(row,x)|2
ROI检测单元164可以通过将最大响应与门限进行比较,来检测在特定行(或列)中的引导信号。在将行信号进行关联的情况下,门限可以是基于图像宽度的,或者针对列而言是基于高度的。以下等式是针对行的示例,但是可以将“行”替换为“列”以检测在列中的引导信号:
PilotPresent(row)=maxp(Rp(row))>Threshold
下文关于图9和10讨论关于用于检测引导信号的示例技术的额外细节。
给定上文讨论的示例检测过程,引导信号260可以包括用于提供对于按因子U的升尺度的强健性的分量。当按因子U升尺度时,引导的频率按1/U缩放,并且因此等效地,时段按U缩放。考虑到探测信号,引导信号生成单元116可以生成引导信号260以包括具有如下频率的分量:该频率可以在按U升尺度之后通过至少一个探测信号检测到。这可以使用在集合p∈[2·U,3·U,…2·D·U]中的时段。
基于该分析,引导信号生成单元116可以将引导信号260设计为包括两个分量,一个分量具有在极端降尺度下保留的时段2D,以及第二分量具有可以在极端升尺度下对探测信号进行响应的时段2U,如下:
引导信号生成单元116可以形成包括额外分量的引导信号260。这些分量可以用于确保在按D的极端降尺度下的强健性,并且如果按最多U进行升尺度的话,相同的探测信号仍然可以起作用。
图6A和6B是示出被插入到示例图像中的示例引导信号的概念图。图6A描绘原始广告图像256,全大小和在左上角的放大两者。如在图6A的右侧(即,放大部分)可以看出,在广告图像256周围没有引导信号。
图6B描绘包括引导信号260的带信号的广告图像256’。与图6A类似,图6B也描绘带信号的广告图像256’的全大小版本和放大版本两者。图6B的右侧描绘引导信号260的图形化示例。如在图6B中可以看出,引导信号260可以包括交替的较亮和较暗的像素(或像素组)。形成引导信号260的像素的色彩和/或明度(亮度)可以是基于广告图像256的内容的,从而使得引导信号260对于人类观看者是不可感知的,但是可由计算设备检测到。
图7是示出根据本公开内容的技术的可以通过其生成引导函数的示例过程的流程图。出于示例的目的,图7的方法是相对于引导信号生成单元116来解释的,但是该方法或类似方法还可以由其它设备或单元执行。引导信号生成单元116可以接收最大降尺度因子(DS)、色彩权重向量(W)、正交空间核心(K)以及包括引导信号260的带信号的广告图像256’的高度和宽度作为输入。图7的方法是相对于输入广告图像的要向其添加引导信号的单个边界(例如,顶部、底部、左侧或右侧)来解释的。引导信号生成单元116可以针对广告图像(或其它子图像)的要向其添加引导信号的每个边界,执行图7的方法。在一些示例中,引导信号生成单元116可以仅向一行和/或一列添加引导信号。在一些示例中,引导信号未跨越子图像(ROI)的完整的长度或高度,而在其它示例中,引导信号可以完全地包围子图像。
引导信号生成单元116可以接收引导信号幅度值(280)。通常,对于给定方向(行或列),引导信号生成单元116可以基于子图像的关联维度(宽度或高度)来设计一维(1D)信号。引导信号生成单元116可以设计1D信号,使得1D信号具有零低频内容,但具有将在按极端下采样(即,降尺度)因子DS的下采样下保留的能量。因此,引导信号生成单元116还接收极端降尺度(或下采样)值DS(282)。引导信号生成单元116进一步接收长度值(284),该长度值表示要针对其生成引导信号的行的子图像的长度。对于引导信号的列,可以用高度值来替换长度值。引导信号生成单元116可以使用长度、幅度和DS值来构造一维(1D)引导函数f(x)(286),并且将引导信号添加到子图像中(288)。
如果使用单正弦曲线,则数字频率可以是1/2*1/D,使得当引导信号按因子DS进行下采样并且数字频率因此乘以D时,所得到的信号具有1/2的最大数字频率。在步骤(286)中,引导信号生成单元116可以使用下面的示例等式(1)来构造窄带信号,该窄带信号定义对于按因子D的降尺度是强健的单正弦曲线:
fnarrowband(x)=Amplitudepilot·cos(2·pi·Fpilot·x)
x∈[1,Length](1)
对于双正弦曲线示例,可以作出1D引导信号的替代定义。在双正弦曲线示例中,除了窄带引导信号之外,引导信号生成单元116可以在由极端上采样(或升尺度)因子U确定的较高频率处添加额外的正弦曲线。额外频率可以是1/2*1/U。
引导信号生成单元116可以生成宽带引导信号以将能量限制到大于在单正弦曲线窄带示例中使用的极端下采样频率的频率范围。在一些示例中,引导信号生成单元116可以使用Haar小波函数来定义1D引导信号,例如,[1,1,-1,-1,1,1,...]。引导信号生成单元116可以在生成引导信号时使用Zadoff-Chu序列。
以这种方式,图7的方法表示处理图像数据的方法的示例,该方法包括:处理图像以在图像中识别指示图像的感兴趣区域(ROI)的引导信号,引导信号形成在ROI周围的边界并且具有根据与在ROI内的像素值的数学关系而定义的像素值,使得引导信号对于人类用户不是可感知的并且可由计算设备检测到;使用引导信号来确定图像的ROI;以及进一步处理ROI以尝试检测ROI的一个或多个内容,而不尝试在图像的在ROI之外的部分中检测图像的一个或多个内容。
图8是示出根据本公开内容的技术的如下的另一示例过程的流程图:通过该示例过程,可以使用正交核心值和色彩权重值来生成和增强引导函数。出于示例和解释的目的,图8的方法也是相对于引导信号生成单元116来解释的,但是其它设备和单元可以被配置为执行该方法或类似方法。
1D引导信号可能对于压缩、缩放或在图像处理链中可能发生的其它处理不是强健的。因此,在一些示例中,引导信号生成单元116可以生成较宽的1D信号。引导信号生成单元可以使用长度K的正交维度核心来将1D信号增加为二维(2D)信号,而不是仅仅在相邻行/列中复制相同的1D信号。最后,引导信号生成单元116可以通过考虑色彩平面权重函数W,来将2D核心扩展到3D。
如在图7的方法中,引导信号生成单元116可以接收引导信号幅度值(290),接收极端降尺度值(DS)(292),并且构造一维引导函数f(x)(294)。引导信号生成单元116然后可以接收一个或多个正交核心值(296),例如[1,1,-1,-1]。引导信号生成单元116然后可以使用正交核心值来扩展引导函数f(x)(298)。例如,对于在引导信号中的行(并且对于在引导信号中的列,将“行”替换为“列”),引导信号生成单元116可以通过根据以下等式(2),从使用正交核心函数K()来扩展1D引导函数f(x),推导2D引导信号:
引导信号生成单元116还可以接收色彩权重值(300),并且使用色彩权重值来构造跨色彩三维(3D)引导信号(302)。例如,色彩权重值可以是W=[1,-2,1]。引导信号生成单元116可以根据以下等式(3),使用单色平面2D引导信号和色彩权重值W()来推导3D引导信号:
如上文所指出的,类似的过程可以用于针对图像的左侧列和右侧列构造引导信号。
引导信号生成单元116还可以将引导信号添加到子图像中(304)。例如,引导信号生成单元116可以将行和列引导信号添加到子图像的边缘(顶部、底部、左侧和右侧)。特别是,引导信号生成单元116可以针对子图像的边缘中的每个边缘执行以下示例函数(4、5、6、7):
顶部行:
底部行:
左侧列:
右侧列:
以这种方式,图8的方法还表示处理图像数据的方法的示例,该方法包括:处理图像以在图像中识别指示图像的感兴趣区域(ROI)的引导信号,引导信号形成在ROI周围的边界并且具有根据与在ROI内的像素值的数学关系而定义的像素值,使得引导信号对于人类用户不是可感知的,并且可由计算设备检测到;使用引导信号来确定图像的ROI;以及进一步处理ROI以尝试检测ROI的一个或多个内容,而不尝试在图像的在ROI之外的部分中检测图像的一个或多个内容。
图9是示出根据本公开内容的技术的在图像中检测定义感兴趣区域(ROI)的引导信号的示例方法的流程图。图9的方法是相对于GPU 136(图1和2)的ROI检测单元164(图2)来解释的。在其它示例中,GPU 136不需要包括分立的ROI检测单元,或者归属于ROI检测单元164的功能可以在功能上与GPU 136的其它单元整合,或者由GPU 136直接执行,例如以可执行指令的形式。
通常,ROI检测单元164可以执行检测过程,在检测过程中,ROI检测单元164接收候选全色图像作为输入。ROI检测单元164可以被配置有引导信号设计参数,特别是最大降尺度因子。或者,ROI检测单元164可以接收定义最大降尺度因子的数据作为输入。总之,对图9和10的描述集中于在单个帧中检测引导信号。为了解决针对在渲染期间应用未知缩放因子的可能性,可以产生候选测试缩放因子集合,并且在多个帧上循环通过该集合。在这种情况下,ROI检测单元164可以利有假定的缩放因子,针对引导信号搜索每个帧。可以使用在测试缩放因子集合上的高级循环。
首先,ROI检测单元164可以接收定义图像大小的高度和宽度值(350)。ROI检测单元164还可以接收极端降尺度值(DS)(352)。ROI检测单元164还可以接收测试缩放因子(354)。ROI检测单元164然后可以构造一个或多个检测阶段(356)。最终,ROI检测单元164可以检测标记子图像的边界(顶部、底部、左侧和右侧)的引导信号(358)。
以下伪代码定义了用于检测指示一个或多个子图像(ROI)的边界的引导信号的示例算法:
开始于测试缩放因子列表L和空的ROI列表R
Loop遍历i直到在列表L中的测试缩放因子的数量
选择TestScaleFactor=L(i)
选择帧(新的帧或者保持相同的帧)
Rtemp=DetectROI(Frame,TestScaleFactor)
将所检测到的ROI附到ROI列表,R=R+Rtemp
重复Loop
在检测过程中,ROI检测单元164首先产生四个1D函数,针对每行和每列检测的两个相位。ROI检测单元164将假定的缩放因子与引导信号被设计用于最大降尺度因子的配置一起使用。在窄带信号的情况下,ROI检测单元164可以使用降尺度因子来计算在引导构造中使用的频率。ROI检测单元164可以按假定的缩放因子来缩放该频率,以产生测试核心所使用的频率。
换句话说,ROI检测单元164可以执行可以具有相应的门限值的两个不同的检测阶段。在第一检测阶段,ROI检测单元164可以处理图像的行和列,以在图像的行或列中识别具有超过第一门限值的频率响应值的第一对平行边界。在第二检测阶段,ROI检测单元164可以处理图像的在第一对平行边界之间的部分的并且与第一对平行边界正交的行或列,以识别与第一对边界正交的、具有超过第二门限的频率响应值的第二对平行边界。例如,如果第一对平行边界是行,则ROI检测单元164可以仅处理图像的列以识别引导信号的列。或者,如果第一对平行边界是列,则ROI检测单元164可以仅处理图像的行以识别引导信号的行。ROI检测单元164然后可以确定引导信号包括第一对平行边界和第二对平行边界。引导信号可以包括多个行和/或列。
对于单正弦曲线引导信号,ROI检测单元164可以使用以下等式(8)来检测沿着ROI/子图像的边界中的每个边界的引导信号:
/>
例如,ROI检测单元164可以包括用于检测子图像/ROI的相应边(顶部(行0)、底部(行1)、左侧(列0)和右侧(列1))的四个检测核心。
以这种方式,图9的方法表示处理图像数据的方法的示例,该方法包括:确定图像的在图像周围的边界处的像素值;以及处理图像以在图像周围的边界处添加引导信号,引导信号具有根据与子图像的像素值的数学关系而定义的像素值,使得引导信号对于人类用户不是可感知的并且可由计算设备检测到。
图10是示出根据本公开内容的技术的在图像中检测定义感兴趣区域(ROI)的引导信号的另一示例方法的流程图,其中,引导信号通过正交核心值和色彩权重值进行增强。出于示例和解释的目的,图10的方法是再次相对于ROI检测单元164来解释的,但是其它设备或单元可以被配置为执行该方法或类似方法,比如GPU 136(图1和2)。
在该示例中,ROI检测单元164可以包括用于执行包括针对行和列的两个阶段的检测过程的四个检测核心,以检测引导信号在图像的子区域中的存在。输入包括彩色图像、色彩权重向量(W[],例如长度为3)、如先前所描述的四个检测核心和正交空间核心(K)。色彩权重向量和正交空间核心可以与如在引导信号构造过程中所使用的相同。
在图10的示例中,ROI检测单元164可以接收图像(Y、X、C)(360)。ROI检测单元164可以接收色彩权重值(362),例如W=[1,-2,1]。ROI检测单元164然后可以计算单色图像M(y,x)(364)。ROI检测单元164可以通过在每个色彩因子与色彩权重向量W之间取内积来计算单色图像。这是用下面的等式(9)表示的,其中样本数量除以三,即三种色彩转到单色:
ROI检测单元164然后可以将行和列检测阶段进行关联(366)。ROI检测单元164可以将单色图像的行和列参照针对每个阶段的相应行和列核心进行关联,以产生四个响应函数(两个行函数和两个列函数)。下面的示例等式(10,11)表示针对每个阶段的行和列响应函数的计算。ROI检测单元164可以按处于测试的图像的宽度来缩放每个行响应样本。ROI检测单元164可以按处于测试的图像的高度来缩放每个列响应。
示例行等式:
示例列等式:
在函数(10,11)中,W表示图像的宽度,H表示图像的高度,并且M(y,x)表示图像。
ROI检测单元164还可以接收正交核心值(368),例如[1,1,-1,-1]。ROI检测单元164可以使用正交核心值来计算经滤波的响应(370)。也就是说,ROI检测单元164可以根据以下等式(12、13),使用正交空间核心来对响应函数进行滤波以给出经修改的行和列响应函数:
示例行等式:
示例列等式:
/>
在函数(12,13)中,length(K)表示在正交核心值K 中的值的数量,并且其中mod(a,b)表示返回从将a除以b所得到的余数的模函数。
ROI检测单元164最终可以使用经滤波的响应来计算图像的行和列的量级(即,幅度)值(372)。也就是说,ROI检测单元164可以例如根据以下等式(14,15),通过计算行和列幅度响应来消除相位:
示例行幅度等式:
示例列幅度等式:
最终,ROI检测单元164可以使用幅度响应来检测标记子图像的边界的引导信号(374)。例如,ROI检测单元164可以将幅度响应函数与门限值(T)进行比较以确定其中探测核心指示引导信号的存在的行和列。这种比较可以产生两个集合,例如根据以下等式给出响应的一个行集合以及根据以下等式给出响应的第二列集合:
行等式:
Srow={r|Arow(r)>T} (16)
列等式:
Scolumn={c|Acolumn(c)>T} (17)
ROI检测单元164可以将图像的边缘包括这些集合中,即使响应不指示其存在。ROI检测单元164可以使用两个坐标对来指定输入图像的ROI:ROI的左上点的坐标和ROI的右下点的坐标。根据上面指出的行集合和列集合,ROI检测单元164可以产生ROI集合:
SROI={[(Ri,Cj),(Ri+1,Cj+1)|i∈[1,|Srow|-1],j∈[1,|Scolumn|-1]]} (18)
图11A和11B是示出根据本公开内容的技术的示例性的带引导信号的广告图像380的概念图,该示例性的带引导信号的广告图像380包括在带引导信号的广告图像380的边界周围插入的示例引导信号384。
许多图像是高且薄、或者短且宽的。本公开内容认识到,对于一个维度明显长于另一维度的图像,检测一个维度可能是较简单的。为了利用这一点,可以使用顺序过程。在这些情况下,ROI的一个维度比另一维度较容易检测,例如,与列相比较容易检测到短宽图像的行。ROI检测单元164可以使用两级检测过程来支持这些极端图像范围。ROI检测单元164可以按处于测试的图像的宽度来缩放每个行响应样本,并且按处于测试的图像的高度来缩放每个列响应。ROI检测单元164可以被配置有两个门限:主要检测门限(T1)和辅助监测门限(T2)。
主要检测门限可以用于沿着的较长维度检测引导信号,而辅助检测门限可以用于沿着较短的维度检测引导信号。ROI检测单元164可以基于图像的对于子图像被认为存在所需要的一片段,来选择主要检测门限。
对于宽且短的子图像,ROI检测单元164可以使用例如上面讨论的检测过程中的一个检测过程或类似过程,来处理完整的原始帧,以产生如上文所讨论的行和幅度响应函数。ROI检测单元164可以将行和幅度响应函数与如上文所示出的主要检测门限进行比较(但是“T”可以被替换为“T1”)。
ROI检测单元164然后可以仅处理完整图像的在其中检测到引导信号的行内的部分。也就是说,ROI检测单元164可以使用在主要检测过程中检测到的引导信号,来定义完整图像的要在其中以正交方向搜索引导信号的条带。如果在主要检测阶段期间检测到引导信号列,则ROI检测单元164可以替代地在图像的由所述列的位置定义的条带中检测行。ROI检测单元164可以使用如上文所示出的辅助检测门限(但是将“T”替换为“T2”),处理图像的在由如上所讨论的主要检测过程期间检测到的引导信号定义的边界内的所得到的部分。
以这种方式,图10的方法表示处理图像数据的方法的示例,该方法包括:确定图像的在图像周围的边界处的像素值;以及图像以在图像周围的边界处添加引导信号,引导信号具有根据与子图像的像素值的数学关系而定义的像素值,使得引导信号对于人类用户不是可感知的并且可由计算设备检测到。
图11A示出带信号的广告图像380的示例,其包括广告图像386和引导信号384。在图11B中放大示出带信号的广告图像380的子部分382。如在图11B中可以看出,引导信号384包括交替的亮区域和暗区域,这些区域对于用户将是不可感知的(例如,如图11A所示),但是可由计算设备检测到。实际上,引导信号384可以包括色彩和/或亮度(明度)的微小偏差,但在图11B中仅示出灰度。
图12是示出根据本公开内容的技术的包括带信号的广告图像380的示例网页388的概念图。也就是说,网页388包括图11A和11B的带信号的广告图像380。网页388表示ROI检测单元164可以向其应用本公开内容的技术以检测带信号的广告图像380的网页的示例。
根据本公开内容的技术,ROI检测单元164可以首先使用用于插入引导信号384的相同的色彩权重,来将网页388转换为单色图像。ROI检测单元164然后可以分别对网页388的行和列执行主要检测过程的两个实例。
图13A和13B是表示根据本公开内容的技术的用于在图12的网页388的示例中检测引导信号的位置的行和列响应函数的示例的示意图。特别是,图13A示出行响应,以及图13B示出列响应。
在图11A、11B和12的示例中,带信号的广告图像380高度大于宽度,并且因此,在图13B中所示出的绝对列响应是较强的,并且示出网页388的超过门限T1的两个区域。相比之下,尽管在图13A的图中存在若干峰值,但是这些响应中没有响应强到足以超过门限T1。因此,ROI检测单元164可以确定存在高度大于宽度的子图像。
在该示例中,图13B示出与门限T1交叉的两个值,其可对应于引导信号的边缘。
图14是示出根据本公开内容的技术的使用引导信号的ROI检测过程的示例第一阶段的概念图。也就是说,在将主要检测过程应用于网页388(如上面关于图11-13所讨论的)之后,ROI检测单元164可以根据在图13B中所示出的结果来确定在网页388中在位置394A、394B处存在引导信号。也就是说,在图13B中所示的与门限T1交叉的两个峰值可以分别对应于在图14中的位置394A、394B。
因此,ROI检测单元164可以继续仅对网页388的在位置394A、394B内的区域392执行辅助检测过程。相应地,ROI检测单元164可以继续在区域392中检测引导信号的行。可以执行与上面讨论的相同类型的分析来检测行和列,但是在该实例中可以忽略列结果,因为仅网页388的区域392正在被分析,并且引导信号384的列已经被检测到。
图15A和15B是表示根据本公开内容的技术的用于在图14的示例图像中检测引导信号的位置的行和列响应函数的示例的示意图。在该示例中,图15A示出行响应,以及图15B示出列响应。如可以看出的,在图15A中存在超过门限T2的两个峰值,ROI检测单元164可以确定所述两个峰值对应于引导信号384的行。
图16是示出根据本公开内容的技术的使用引导信号的ROI检测过程的示例第二阶段(继续图11-15的示例)的概念图。在图16中,位置396A和396B对应于在图15A的图中所示的超过门限T2的峰值。因此,ROI检测单元164可以使用图15A的图,来确定引导信号384的行对应于在图15A中所示的超过门限T2的峰值,即位置396A和396B。因此,ROI检测单元164可以确定引导信号384被定义为包括沿着位置396A、396B的行和沿着位置394A、394B的列。
关于图12-16描述的技术包括其中ROI检测单元164执行具有相应门限的两个不同检测阶段的示例。在第一检测阶段中,ROI检测单元164可以处理图像的行和列,以在图像的行或列中识别具有超过第一门限的频率响应值的第一对平行边界。在第二检测阶段中,ROI检测单元164可以处理图像的在第一对平行边界之间的部分的并且与第一对平行边界正交的行或列,以识别与第一对边界正交的具有超过第二门限的频率响应值的第二对平行边界。ROI检测单元164然后可以确定引导信号包括第一对平行边界和第二对平行边界。引导信号可以包括多个行和/或列。
图17是示出根据本公开内容的技术的用于在图像的感兴趣区域(ROI)周围将引导信号插入到图像中的示例过程的流程图。图17的方法是相对于图1的引导信号生成单元116来解释的,但是其它设备可以被配置为执行该方法或类似方法。
首先,引导信号生成单元116可以接收图像(400),比如媒体资产112(图1)中的一个媒体资产,其可以是广告(ad)图像。引导信号生成单元116还可以确定极端下采样因子(DS)(402)。例如,引导信号生成单元116可以从配置数据中取回DS,从用户(例如,管理员)接收DS,或者从其它这样的源接收DS。
引导信号生成单元116然后可以确定沿着图像的要向其添加引导信号的维度的长度(404)。例如,该维度可以是图像的高度或宽度,并且长度可以是图像的全高度或全宽度。然后,引导信号生成单元116可以例如根据上面的等式(1)使用该维度的长度、极限下采样值DS和引导信号的幅度,来构造引导函数(406)。或者,引导信号生成单元116可以使用上文的等式(2)和(3)进一步生成2D或3D引导信号。引导信号生成单元116然后可以使用上文的等式(4)-(7)来将引导信号添加到图像中。
以这种方式,图17的方法表示处理图像数据的方法的示例,该方法包括:处理图像以在图像中识别指示图像的感兴趣区域(ROI)的引导信号,引导信号形成在ROI周围的边界并且具有根据与在ROI内的像素值的数学关系而定义的像素值,使得引导信号对于人类用户不是可感知的并且可由计算设备检测到;使用引导信号来确定图像的ROI;以及进一步处理ROI以尝试检测ROI的一个或多个内容,而不尝试在图像的在ROI之外的部分中检测图像的一个或多个内容。
图18是示出根据本公开内容的技术的用于使用引导信号来检测感兴趣区域(ROI)的示例过程的流程图。图18的方法是相对于图2的ROI检测单元164来解释的。然而,其它设备或单元可以被配置为执行该方法或类似方法。
首先,ROI检测单元164可以接收要处理的图像(420)。例如,ROI检测单元164可以从合成单元144(图1和2)接收图像。或者,ROI检测单元164可以处理在缓冲器148(图1)中的图像或者从缓冲器148提取图像。
ROI检测单元164然后可以确定极端降尺度因子(DS)(422)。由ROI检测单元164确定的DS值可以与由例如引导信号生成单元116(图1)用于构造引导信号的DS值相同。例如,定义用于DS的值的数据可以作为元数据或作为用于图像的边信息被包括在图像中。
ROI检测单元164还可以确定测试缩放因子(424)。ROI检测单元164然后可以使用测试缩放因子和极端降尺度因子DS来在图像中检测引导信号(426)。为了在图像中检测引导信号,ROI检测单元164可以使用上文的等式(8)-(18)。引导信号可以包括ROI的顶部边界、底部边界、左侧边界和右侧边界。然后,ROI检测单元164可以从图像中提取以引导信号为界线的子图像(例如,ROI)(428)。ROI检测单元164可以将所提取的子图像提供给用于额外处理的另一处理单元,比如水印提取单元138(图2)。
图19是根据本公开内容的技术的示例加水印过程。图19的过程是相对于图1的水印单元114来描述的,但是其它设备可以被配置为执行该过程或类似过程。
首先,水印单元114接收原始内容(200),例如,用于广告152的媒体资产112。媒体资产112可以包括图像或视频内容(例如,一系列图像或帧)。水印单元114还接收内容标识符(ID)(202)。水印单元114将不可感知的表示内容ID的水印添加到媒体资产112(204)。在一些示例中,水印单元114还可以例如根据本公开内容的引导信号生成技术(比如关于图7、8和17描述的技术),在水印(206)周围插入引导信号。如水印一样,引导信号也可以对于人类用户是不可感知的,但是可由计算设备检测到。水印单元114然后可以输出最终内容(208),即包括媒体资产112的广告152、表示内容ID的水印和引导信号。
图20是示出根据本公开内容的技术的示例验证过程的流程图。出于示例的目的,图20的验证过程是相对于图1的验证服务器120来描述的。然而,其它设备(比如广告服务器110)可以被配置为执行该过程或类似过程。
如上面关于图2所讨论的,GPU 136可以添加数字签名以形成经签名消息190(图2)。网页浏览器132可以包括经签名消息190的形成报告154。验证服务器120可以使用被包括在报告154中的数字签名来验证来自GPU 136的消息的内容,GPU 136可以对应于可信GPU。
首先,验证服务器120接收包括经签名消息190的报告154,经签名消息190本身包括数字签名(230)。验证服务器120可以从报告154中提取用于GPU 136的GPU密钥标识符(ID)(232)。验证服务器120然后可以使用GPU密钥ID来选择GPU验证密钥(234),例如,与GPU136相关联的公钥。GPU密钥ID允许验证服务器120根据需要刷新用于数字签名的GPU验证密钥,并且提供如下的机制:通过该机制,不同的GPU模型可以具有被存储在公共位置上的不同的验证密钥。验证服务器120然后可以验证数字签名(236),例如,通过利用公钥来对经加密的内容进行解密并且将经解密的内容与经签名消息190的纯文本内容进行比较。
假定消息被验证为是真实的并且源自GPU 136,则验证服务器120可以从用于对应广告的报告154确定GPU提供的内容ID(238)。验证服务器120还可以接收用于对应广告的实际内容ID(240)。实际内容ID可以是从外部源接收的,或者可以是预先确定的值。验证服务器120可以将GPU提供的内容ID与实际内容ID进行比较(242),以确定ID是否匹配。如果ID匹配,则验证服务器120可以验证对应广告的显示(244)。例如,验证服务器120可以将表示广告被显示的持续时间的数据(使用来自报告154的持续时间数据)发送给广告主和/或计费服务器。验证服务器120还可以验证广告被显示了足够的持续时间、具有有限的移动和/或其它特性。
在以下条款中概述本公开内容的某些技术。
条款1:一种将引导信号添加到图像中的方法,包括:接收图像;以及将引导信号添加到图像中,包括:修改在图像的边界上的行和列的集合;指定至少一个色彩平面;产生用于图像的宽度的第一基函数f(x);产生用于图像的高度的第二基函数g(y);以及使用第一基函数f(x)和第二基函数g(y)来修改图像的边界的值和在图像的边界处的色彩平面。
条款2:根据条款1所述的方法,其中,修改值包括:将引导信号与图像值相加。
条款3:根据条款1和2中任何条款所述的方法,其中,修改值包括:确定正交核心函数的长度;以及使用正交核心函数的值来修改沿着正交方向产生变化的一维信号。
条款4:根据条款1-3中任何条款所述的方法,还包括:使用色彩加权,以对在图像的不同色彩平面中的引导信号不同地进行加权。
条款5:一种在图像中检测感兴趣区域的方法,包括:选择用于图像的测试缩放因子;根据极端下采样因子和测试缩放因子来构造一个或多个一维测试核心;使用图像和色彩权重向量来计算单色图像;将单色图像的行和列参照测试核心进行关联以产生行响应函数和列响应函数;使用正交权重向量来对行响应函数和列响应函数进行滤波,以产生经滤波的行响应函数和经滤波的列响应函数;针对经滤波的行响应函数和经滤波的列响应函数中的每者计算幅度响应,包括:添加核心函数的平方相位或交替相位;将幅度响应与相应门限进行比较;确定超过门限的行和列包括对应的候选行和候选列;以及根据候选行和候选列的连续行和连续列的组合对来形成感兴趣区域列表。
条款6;根据条款5所述的方法,还包括:在构造候选行和候选列之前对行响应函数和列响应函数进行聚类。
条款7:根据条款5和6中任何条款所述的方法,还包括:获得多个测试缩放因子;以及针对测试缩放因子中的每个测试缩放因子执行根据条款5所述的方法,以形成针对多个测试缩放因子的完整的感兴趣区域(ROI)列表。
条款8:根据条款5-7中任何条款所述的方法,还包括:当选择包括主要门限和辅助门限的两个检测门限时执行两级检测,包括:对使用行函数和列函数的幅度响应与主要门限的比较而确定的行和列的主要集合执行第一级检测;以及执行第二级检测,包括获得独立的第一子元素和第二子元素;在第一子元素中,根据定义子图像中的每个子图像的顶部和底部的主要行的对,来构造子图像;针对在子图像中的每个子图像上的列,计算绝对响应函数;将绝对响应函数与辅助门限进行比较,以确定与子图像相对应的列的集合;以及根据主要行的对和辅助列的对,来定义感兴趣区域(ROI);在第二子元素中,根据定义子图像中的每个子图像的左侧边和右侧边的主要列的对,来构造子图像;针对在子图像中的每个子图像上的行,计算绝对响应函数;将绝对响应函数与辅助门限进行比较,以确定对应于子图像的行的集合;以及根据主要列的对和辅助行的对,来定义ROI。
条款9:主要系统通过生成独特的内容ID进行操作。所述内容ID经由不可见水印被包括在图像视频内容的一部分中。网页主机包括到所述图像内容的链接。在客户端处的GPU包括用于从所述不可见水印中提取所述内容ID的能力。GPU响应于检测到所述水印来创建报告。验证过程接收所述报告并且记录与所述内容ID相对应的内容的可见性。
条款10:对条款9的细化,其中,数字签名用于验证由可信GPU进行的检测。在创建报告之后,GPU使用私钥来计算数字签名,并且将具有消息内容的所述签名连同指示公共验证密钥的标识符包括在一起。验证过程使用所述标识符来选择公共验证密钥,并且然后确认所述数字签名的有效性。
条款11:对条款9和/或条款10的细化,其中,内容包括在图像/视频内容的边界中的引导信号,并且在GPU处的ROI检测过程检测引导信号以识别所述水印的存在。
条款12:对条款9-11中任何条款的细化,其中,执行跟踪以记录持续时间。响应于对内容标识符值的第一次检测,GPU对包含相同标识符的连续帧的数量进行计数,以计算内容标识符被呈现在GPU的显示缓冲器上的持续时间。GPU报告内容标识符和持续时间对的列表,验证过程确定匹配以确定持续时间。
条款13:对条款9-12中任何条款的细化,其中,跟踪ROI信息。在检测过程期间,在每个帧中确定子图像ROI的位置。可以在连续帧中跟踪该位置以确定ROI的移动程度或稳定性。例如,可以将在各帧之间的绝对位移的平均和分析帧范围包括在由GPU产生的消息中。
条款14:对条款9-13中任何条款的细化,其中,消息包括客户端特定信息。消息被形成为包括对于客户端设备唯一的一条信息。这可以与数字签名结合使用,以防止响应消息的重复。
条款15:对条款9-14中任何条款的细化,其中,存在经由帧数据的通信。消息是经由存储器的共享部分从GPU和客户端浏览器或应用传送的,所述共享部分可由GPU以及在客户端浏览器上的JavaScript或在该应用上的代码两者访问。
条款16:对条款9-15中任何条款的细化,其中,存在经由在客户端设备上的接口(例如API)的通信。消息是经由API从GPU传送到客户端的,所述API在所述客户端的硬件元件之间实现通信。
条款17:对条款9-16中任何条款的细化,其中,在GPU与CPU之间存在通信。GPU进行操作以收集水印和观看信息。GPU消息被传递给CPU。可以添加GPU可能不可访问的额外的上下文数据。来自GPU的广告检测数据和来自CPU的额外数据可以从设备发送给验证服务器。该额外数据可以由CPU进行签名以提供对额外数据的验证。
条款18:一种验证图像内容的显示的方法,方法包括:从要显示的图像内容中提取水印;根据水印来确定用于图像内容的标识符;以及输出表示标识符的数据。
条款19:根据条款18所述的方法,其中,方法是由子电路中实现的图形处理单元(GPU)执行的。
条款20:根据条款18和19中任何条款所述的方法,还包括:从网络浏览器接收针对图像内容的数据。
条款21:根据条款18-20中任何条款所述的方法,还包括:将图像内容输出到显示设备。
条款22:根据条款18-21中任何条款所述的方法,还包括:确定包括水印的图像内容被显示的持续时间,其中,输出数据还包括输出表示持续时间的数据。
条款23:根据条款22所述的方法,其中,确定持续时间包括确定图像内容的包括水印的连续帧的数量。
条款24:根据条款22和23中任何条款所述的方法,其中,持续时间包括在面板自刷新(PSR)过程期间的不活动的处理时间。
条款25:根据条款18-24中任何条款所述的方法,其中,提取水印包括对图像内容执行感兴趣区域(ROI)检测,以确定包括水印的子区域。
条款26:根据条款18-25中任何条款所述的方法,其中,输出数据包括:形成包括标识符的消息;以及对消息进行签名。
条款27:根据条款26所述的方法,其中,对消息进行签名包括:使用与确定标识符的图形处理单元(GPU)相关联的密钥,来对消息进行签名。
条款28:根据条款18-27中任何条款所述的方法,还包括:从网页浏览器接收用于开始或停止对在图像内容中的水印的检测的指令。
条款29:根据条款18-28中任何条款所述的方法,其中,图像内容包括广告内容。
条款30:根据条款18-29中任何条款所述的方法,其中,提取水印包括:使用引导信号来确定水印的位置。
条款31:根据条款18-30中任何条款所述的方法,还包括:确定水印在图像内容的连续帧中的位置以确定图像内容的移动,其中,输出数据包括:输出表示所确定的移动的数据。
条款32:一种验证图像数据的显示的方法,方法包括:从客户端设备接收包括针对图像内容的客户端设备确定的图像内容标识符的数据;确定针对图像内容的实际图像内容标识符;以及当客户端设备确定的图像内容标识符与实际图像内容标识符匹配时,验证图像内容被显示。
条款33:根据条款32所述的方法,其中,所接收的数据包括签名,方法还包括:使用针对客户端设备的密钥和签名,对来自客户端设备的数据进行认证。
条款34:一种设备,其包括用于执行根据条款1-33中任何条款所述的方法的单元的。
条款35:根据条款34所述的设备,还包括存储器。
条款36:一种具有存储在其上的指令的计算机可读存储介质,所述指令在被执行时使得设备的处理器执行根据条款1-33中任何条款所述的方法。
要认识到的是,根据示例,本文描述的技术中的任何技术的某些动作或事件可以以不同的顺序执行,可以被添加、合并或完全省略(例如,并非所有描述的动作或事件对于所述技术的实践都是必要的)。此外,在某些示例中,动作或事件可以例如通过多线程处理、中断处理或多个处理器并发地而不是顺序地执行。
在一个或多个示例中,所描述的功能可以在硬件、软件、固件或其任何组合中实现。如果在软件中实现,则所述功能可以作为一个或多个指令或代码存储在计算机可读介质上或者通过计算机可读介质进行发送,并且由基于硬件的处理单元来执行。计算机可读介质可以包括计算机可读存储介质或者通信介质,计算机可读存储介质对应于比如数据存储介质的有形介质,通信介质包括例如根据通信协议促进计算机程序从一个地方传送到另一个地方的任何介质。以这种方式,计算机可读介质通常可以对应于(1)非暂时性的有形计算机可读存储介质、或者(2)比如信号或载波的通信介质。数据存储介质可以是可以由一个或多个计算机或者一个或多个处理器访问以取回用于实现在本公开内容中描述的技术的指令、代码和/或数据结构的任何可用的介质。计算机程序产品可以包括计算机可读介质。
通过示例而非限制的方式,这样的计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、闪存、或者能够用于以指令或数据结构的形式存储期望的程序代码并且能够由计算机访问的任何其它介质。此外,任何连接被适当地称为计算机可读介质。例如,如果指令是使用同轴电缆、光纤光缆、双绞线、数字用户线(DSL)或者无线技术(比如红外线、无线电和微波)来从网站、服务器或其它远程源发送的,则同轴电缆、光纤光缆、双绞线、DSL或者无线技术(比如红外线、无线电和微波)被包括在介质的定义中。然而,应当理解的是,计算机可读存储介质和数据存储介质不包括连接、载波、信号或其它暂时性介质,而是替代地针对非暂时性的有形存储介质。如本文所使用的,磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘,其中,磁盘通常磁性地复制数据,而光盘利用激光来光学地复制数据。上述各项的组合也应当被包括在计算机可读介质的范围之内。
指令可以由一个或多个处理器来执行,比如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其它等效的集成或分立逻辑电路。相应地,如本文所使用的术语“处理器”和“处理电路”可以指代前述结构中的任何结构或者适于实现本文描述的技术的任何其它结构。另外,在一些方面中,本文描述的功能可以在被配置用于编码和解码或者被并入组合的编解码器中的专用硬件和/或软件模块内提供。此外,所述技术可以充分地在一个或多个电路或逻辑元件中实现。
本公开内容的技术可以在各种各样的设备或装置中实现,包括无线手机、集成电路(IC)或一组IC(例如,芯片组)。在本公开内容中描述各个组件、模块或单元以强调被配置为执行所公开的技术的设备的功能性方面,但是不一定需要通过不同的硬件单元来实现。确切地说,如上文所描述的,各个单元可以被组合在编解码器硬件单元中,或者由一组可互操作的硬件单元(包括如上文所描述的一个或多个处理器)结合适当的软件和/或固件来提供。
已经描述各个示例。这些和其它示例在以下权利要求的范围内。
Claims (39)
1.一种处理图像数据的方法,所述方法包括:
处理图像以在所述图像中识别指示所述图像的一部分的引导信号,所述引导信号形成在所述部分周围的边界并且具有根据与在所述部分内的像素值的数学关系而定义的像素值,使得所述引导信号对于人类用户不是可感知的并且可由计算设备检测到;
使用所述引导信号来确定所述图像的所述部分;以及
进一步处理所述部分,以尝试检测所述部分的一个或多个内容,而不尝试在所述图像的在所述部分之外的部分中检测所述图像的所述一个或多个内容。
2.根据权利要求1所述的方法,其中,处理所述图像以识别所述引导信号包括:
确定降尺度因子D;
确定测试缩放因子T;
将核心值计算为等于1/(2*D*T);以及
进行以下操作中的至少一项:
将行响应值计算为等于cos(2*π*所述核心值*x)或者sin(2*π*所述核心值*x)中的一项,其中,x表示行在所述图像中的位置;或者
将列响应值计算为等于cos(2*π*所述核心值*y)或者sin(2*π*所述核心值*y)中的一项,其中,y表示列在所述图像中的位置。
3.根据权利要求2所述的方法,还包括以下各项中的至少一项:
根据以下等式来缩放所述行响应值f1(x):
根据以下等式来缩放所述列响应值f2(y):
其中,W包括所述图像的宽度,H包括所述图像的高度,并且M(y,x)包括所述图像。
4.根据权利要求3所述的方法,还包括:
接收一个或多个正交核心值K;以及
进行以下操作中的至少一项操作:
根据以下等式,使用所述正交核心值K来对经缩放的行响应值进行滤波:
或者
根据以下等式,使用所述正交核心值K来对经缩放的行响应值进行滤波:
其中,length(K)包括在所述正交核心值K中的值的数量,并且其中,mod(a,b)包括返回从a除以b所得到的余数的模函数。
5.根据权利要求4所述的方法,还包括计算幅度值,包括以下操作中的至少一项操作:
根据以下等式来计算行幅度Arow(y):
或者
根据以下等式来计算列幅度Acolumn(x):
6.根据权利要求5所述的方法,还包括接收门限值T,以及确定以下各项中的至少一项:
当Arow(r)>T时,所述图像的行r包括所述引导信号的一部分;或者
当Acolumn(c)>T时,所述图像的列c包括所述引导信号的一部分。
7.根据权利要求1所述的方法,其中,所述图像包括单色图像,还包括根据以下等式,从彩色图像形成所述单色图像:其中,M(y,x)包括所述单色图像的在位置(y,x)处的像素值,W(c)包括色彩权重值,image(y,x,c)包括在位置(y,x)处的所述彩色图像,并且针对色彩分量c,H包括所述彩色图像的高度,并且W包括所述彩色图像的宽度。
8.根据权利要求1所述的方法,其中,处理所述图像以识别所述引导信号包括处理所述图像以识别所述引导信号的顶部行、所述引导信号的底部行、所述引导信号的左侧列和所述引导信号的右侧列。
9.根据权利要求8所述的方法,其中,处理所述图像以识别所述引导信号包括:
确定降尺度因子D;
确定测试缩放因子T;
将核心值计算为等于1/(2*D*T);
将顶部行响应值计算为等于cos(2*π*所述核心值*x1),其中,x1表示所述引导信号的所述顶部行在所述图像中的位置;
将底部行响应值计算为等于sin(2*π*所述核心值*x2),其中,x2表示所述引导信号的所述底部行在所述图像中的位置;
将左侧列响应值计算为等于cos(2*π*所述核心值*y1),其中,y1表示所述引导信号的所述左侧列在所述图像中的位置;以及
将右侧列响应值计算为等于sin(2*π*所述核心值*y2),其中,y2表示所述引导信号的所述右侧列在所述图像中的位置。
10.根据权利要求9所述的方法,其中,处理所述图像以识别所述引导信号包括:
确定所述引导信号的所述顶部行位于对其而言所述顶部行响应值超过门限值的位置处;
确定所述引导信号的所述底部行位于对其而言所述底部行响应值超过所述门限值的位置处;
确定所述引导信号的所述左侧列位于对其而言所述左侧列响应值超过所述门限值的位置处;以及
确定所述引导信号的所述右侧列位于对其而言所述右侧列响应值超过所述门限值的位置处。
11.根据权利要求1所述的方法,其中,处理所述图像以识别所述引导信号包括:
在第一检测阶段中,处理所述图像的行和列,以在所述图像的所述行或列中识别具有超过第一门限的频率响应值的第一对平行边界;
在第二检测阶段中,处理所述图像的在所述第一对平行边界之间的部分的并且与所述第一对平行边界正交的行或列,以识别与所述第一对边界正交的、具有超过第二门限的频率响应值的第二对平行边界;以及
确定所述引导信号包括所述第一对平行边界和所述第二对平行边界。
12.根据权利要求1所述的方法,其中,进一步处理所述部分包括检测在所述部分内的水印。
13.根据权利要求12所述的方法,还包括:
从所述水印中提取标识符;
生成指示与所述标识符相关联的图像数据已经被呈现给用户的报告;以及
将所述报告发送给报告服务器。
14.根据权利要求1所述的方法,其中,所述图像的所述部分包括所述图像的感兴趣区域(ROI)。
15.一种用于处理图像数据的设备,所述设备包括:
存储器,其被配置为存储图像;以及
一个或多个处理器,其在电路中实现并且被配置为:
处理所述图像以在所述图像中识别指示所述图像的一部分的引导信号,所述引导信号形成在所述部分周围的边界并且具有根据与在所述部分内的像素值的数学关系而定义的像素值,使得所述引导信号对于人类用户不是可感知的并且可由所述设备检测到;
使用所述引导信号来确定所述图像的所述部分;以及
进一步处理所述部分,以尝试检测所述部分的一个或多个内容,而不尝试在所述图像的在所述部分之外的部分中检测所述图像的所述一个或多个内容。
16.根据权利要求15所述的设备,其中,为了处理所述图像以识别所述引导信号,所述一个或多个处理器被配置为:
确定降尺度因子D;
确定测试缩放因子T;
将核心值计算为等于1/(2*D*T);以及
进行以下操作中的至少一项:
将行响应值计算为等于cos(2*π*所述核心值*x)或者sin(2*π*所述核心值*x)中的一项,其中,x表示行在所述图像中的位置;或者
将列响应值计算为等于cos(2*π*所述核心值*y)或者sin(2*π*所述核心值*y)中的一项,其中,y表示列在所述图像中的位置。
17.根据权利要求16所述的设备,其中,所述一个或多个处理器还被配置为:
根据以下等式来缩放所述行响应值f1(x):
或者
根据以下等式来缩放所述列响应值f2(y):
其中,W包括所述图像的宽度,H包括所述图像的高度,并且M(y,x)包括所述图像。
18.根据权利要求17所述的设备,其中,所述一个或多个处理器还被配置为:
接收一个或多个正交核心值K;以及
进行以下操作中的至少一项操作:
根据以下等式,使用所述正交核心值K来对经缩放的行响应值进行滤波:
或者
根据以下等式,使用所述正交核心值K来对经缩放的行响应值进行滤波:
其中,length(K)包括在所述正交核心值K中的值的数量,并且其中,mod(a,b)包括返回从a除以b所得到的余数的模函数。
19.根据权利要求18所述的设备,其中,所述一个或多个处理器还被配置为根据以下各项中的至少一项来计算一个或多个幅度值:
根据以下等式的行幅度Arow(y):
或者
根据以下等式的列幅度Acolumn(x):
20.根据权利要求19所述的设备,其中,所述一个或多个处理器还被配置为接收门限值T,以及确定以下各项中的至少一项:
当Arow(r)>T时,所述图像的行r包括所述引导信号的一部分;或者
当Acolumn(c)>T时,所述图像的列c包括所述引导信号的一部分。
21.根据权利要求15所述的设备,其中,所述图像包括单色图像,并且其中,所述一个或多个处理器还被配置为:根据以下等式,从彩色图像形成所述单色图像:
其中,M(y,x)包括所述单色图像的在位置(y,x)处的像素值,W(c)包括色彩权重值,image(y,x,c)包括在位置(y,x)处的所述彩色图像,并且针对色彩分量c,H包括所述彩色图像的高度,并且W包括所述彩色图像的宽度。
22.根据权利要求15所述的设备,其中,所述一个或多个处理器被配置为:处理所述图像以识别所述引导信号的顶部行、所述引导信号的底部行、所述引导信号的左侧列和所述引导信号的右侧列。
23.根据权利要求22所述的设备,其中,为了处理所述图像以识别所述引导信号,所述一个或多个处理器被配置为:
确定降尺度因子D;
确定测试缩放因子T;
将核心值计算为等于1/(2*D*T);
将顶部行响应值计算为等于cos(2*π*所述核心值*x1),其中,x1表示所述引导信号的所述顶部行在所述图像中的位置;
将底部行响应值计算为等于sin(2*π*所述核心值*x2),其中,x2表示所述引导信号的所述底部行在所述图像中的位置;
将左侧列响应值计算为等于cos(2*π*所述核心值*y1),其中,y1表示所述引导信号的所述左侧列在所述图像中的位置;以及
将右侧列响应值计算为等于sin(2*π*所述核心值*y2),其中,y2表示所述引导信号的所述右侧列在所述图像中的位置。
24.根据权利要求23所述的设备,其中,为了处理所述图像以识别所述引导信号,所述一个或多个处理器被配置为:
确定所述引导信号的所述顶部行位于对其而言所述顶部行响应值超过门限值的位置处;
确定所述引导信号的所述底部行位于对其而言所述底部行响应值超过所述门限值的位置处;
确定所述引导信号的所述左侧列位于对其而言所述左侧列响应值超过所述门限值的位置处;以及
确定所述引导信号的所述右侧列位于对其而言所述右侧列响应值超过所述门限值的位置处。
25.根据权利要求15所述的设备,其中,为了处理所述图像以识别所述引导信号,所述一个或多个处理器被配置为:
在第一检测阶段中,处理所述图像的行和列,以在所述图像的所述行或列中识别具有超过第一门限的频率响应值的第一对平行边界;
在第二检测阶段中,处理所述图像的在所述第一对平行边界之间的部分的并且与所述第一对平行边界正交的行或列,以识别与所述第一对边界正交的、具有超过第二门限的频率响应值的第二对平行边界;以及
确定所述引导信号包括所述第一对平行边界和所述第二对平行边界。
26.根据权利要求15所述的设备,其中,所述一个或多个处理器还被配置为检测在所述部分内的水印。
27.根据权利要求26所述的设备,其中,所述一个或多个处理器还被配置为:
从所述水印中提取标识符;
生成指示与所述标识符相关联的图像数据已经被呈现给用户的报告;以及
将所述报告发送给报告服务器。
28.一种用于处理图像数据的设备,所述设备包括:
用于处理图像以在所述图像中识别指示所述图像的一部分的引导信号的单元,所述引导信号形成在所述部分周围的边界并且具有根据与在所述部分内的像素值的数学关系而定义的像素值,使得所述引导信号对于人类用户不是可感知的并且可由计算设备检测到;
用于使用所述引导信号来确定所述图像的所述部分的单元;以及
用于进一步处理所述部分,以尝试检测所述部分的一个或多个内容,而不尝试在所述图像的在所述部分之外的部分中检测所述图像的所述一个或多个内容的单元。
29.一种具有存储在其上的指令的计算机可读存储介质,所述指令在被执行时使得用于解码视频数据的设备的处理器进行以下操作:
处理图像以在所述图像中识别指示所述图像的一部分的引导信号,所述引导信号形成在所述部分周围的边界并且具有根据与在所述部分内的像素值的数学关系而定义的像素值,使得所述引导信号对于人类用户不是可感知的并且可由计算设备检测到;
使用所述引导信号来确定所述图像的所述部分;以及
进一步处理所述部分,以尝试检测所述部分的一个或多个内容,而不尝试在所述图像的在所述部分之外的部分中检测所述图像的所述一个或多个内容。
30.一种处理数据的方法,所述方法包括:
确定在图像的一部分周围的边界处的像素值;以及
处理所述图像以在所述图像的所述部分周围的所述边界处添加引导信号,所述引导信号具有根据与所述图像的所述部分内的像素值的数学关系而定义的像素值,使得所述引导信号对于人类用户不是可感知的并且可由计算设备检测到。
31.根据权利要求30所述的方法,其中,处理所述图像以添加所述引导信号包括:
确定针对所述引导信号的幅度;
确定降尺度因子,所述降尺度因子表示在不使所述引导信号降级的情况下能够应用于所述图像的降尺度量;
确定在所述图像周围的所述边界的行或列的长度;以及
使用所述幅度、所述降尺度因子和所述长度来针对所述行或列构造所述引导信号。
32.根据权利要求31所述的方法,其中,针对所述行或列构造所述引导信号(fnarrowband(x))包括根据以下等式来构造所述引导信号:
其中,Amplitudepilot包括针对所述引导信号的所述幅度,D包括所述降尺度因子,Length包括所述行或列的长度,并且x表示沿着所述行或列的位置。
33.根据权利要求32所述的方法,还包括:接收升尺度因子,其中,构造所述引导信号包括另外使用所述升尺度因子来构造双正弦曲线。
34.根据权利要求31所述的方法,还包括:
接收具有多个值的正交维度核心,所述正交维度核心是与所述行或列正交的;以及
接收用于对所述图像的相应色彩分量进行加权的色彩平面权重函数,
其中,针对所述行或列构造所述引导信号包括使用所述正交维度核心和所述色彩权重函数来针对所述图像的所述色彩分量中的每个色彩分量构造相应的引导信号分量。
35.根据权利要求34所述的方法,其中,构造所述引导信号包括以下操作中的至少一项操作:
当针对所述行构造所述引导信号时:
根据以下等式来构造一维行引导信号 其中,Amplitudepilot包括针对所述引导信号的所述幅度,D包括所述降尺度因子,Length包括所述行的长度,并且x表示沿着所述行的位置;
根据以下等式来构造二维行引导信号 其中,K()包括所述正交维度核心,并且K包括所述正交维度核心中的值的数量,其中,y表示列在所述图像中的位置;以及
根据以下等式来构造三维行引导信号 其中,W表示所述色彩平面权重函数,并且c表示所述色彩分量中的当前分量;或者
当针对所述列构造所述引导信号时:
根据以下等式来构造一维列引导信号 其中,Length包括所述列的长度,并且x表示沿着所述列的位置;
根据以下等式来构造二维列引导信号以及
根据以下等式来构造三维列引导信号
36.根据权利要求35所述的方法,其中,处理所述图像以添加所述引导信号包括:
根据以下等式来将顶部行引导信号添加到在所述图像周围的所述边界的顶部行中:其中,image(y,x,c)包括所述图像的所述色彩分量中的一个色彩分量;
根据以下等式来将底部行引导信号添加到在所述图像周围的所述边界的底部行中:
根据以下等式来将左侧列引导信号添加到在所述图像周围的所述边界的左侧列中:以及
根据以下等式来将右侧列引导信号添加到在所述图像周围的所述边界的右侧列中:
37.一种用于处理图像数据的设备,所述设备包括:
存储器,其被配置为存储用于图像的数据;以及
一个或多个处理器,其在电路中实现并且被配置为:
确定在图像的一部分周围的边界处的像素值;以及
处理所述图像以在所述图像的所述部分周围的所述边界处添加引导信号,所述引导信号具有根据与所述图像的所述部分内的像素值的数学关系而定义的像素值,使得所述引导信号对于人类用户不是可感知的并且可由计算设备检测到。
38.一种用于处理图像数据的设备,所述设备包括:
用于确定在图像的一部分周围的边界处的像素值的单元;以及
用于处理所述图像以在所述图像的所述部分周围的所述边界处添加引导信号的单元,所述引导信号具有根据与所述图像的所述部分内的像素值的数学关系而定义的像素值,使得所述引导信号对于人类用户不是可感知的并且可由计算设备检测到。
39.一种具有存储在其上的指令的计算机可读存储介质,所述指令在被执行时使得用于编码视频数据的设备的处理器进行以下操作:
确定在图像的一部分周围的边界处的像素值;以及
处理所述图像以在所述图像的所述部分周围的所述边界处添加引导信号,所述引导信号具有根据与所述图像的所述部分内的像素值的数学关系而定义的像素值,使得所述引导信号对于人类用户不是可感知的并且可由计算设备检测到。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063073280P | 2020-09-01 | 2020-09-01 | |
US63/073,280 | 2020-09-01 | ||
US17/301,268 | 2021-03-30 | ||
US17/301,268 US11417076B2 (en) | 2020-09-01 | 2021-03-30 | Detecting a sub-image region of interest in an image using pilot signals |
PCT/US2021/046168 WO2022051080A1 (en) | 2020-09-01 | 2021-08-16 | Detecting a sub-image region of interest in an image using pilot signals |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115997207A CN115997207A (zh) | 2023-04-21 |
CN115997207B true CN115997207B (zh) | 2024-05-07 |
Family
ID=77655700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180051492.5A Active CN115997207B (zh) | 2020-09-01 | 2021-08-16 | 使用引导信号来检测在图像中的感兴趣子图像区域 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11417076B2 (zh) |
EP (1) | EP4208843A1 (zh) |
CN (1) | CN115997207B (zh) |
TW (1) | TW202211159A (zh) |
WO (1) | WO2022051080A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11277658B1 (en) * | 2020-08-21 | 2022-03-15 | Beam, Inc. | Integrating overlaid digital content into displayed data via graphics processing circuitry |
US11481933B1 (en) | 2021-04-08 | 2022-10-25 | Mobeus Industries, Inc. | Determining a change in position of displayed digital content in subsequent frames via graphics processing circuitry |
US11477020B1 (en) | 2021-04-30 | 2022-10-18 | Mobeus Industries, Inc. | Generating a secure random number by determining a change in parameters of digital content in subsequent frames via graphics processing circuitry |
US11682101B2 (en) | 2021-04-30 | 2023-06-20 | Mobeus Industries, Inc. | Overlaying displayed digital content transmitted over a communication network via graphics processing circuitry using a frame buffer |
US11601276B2 (en) | 2021-04-30 | 2023-03-07 | Mobeus Industries, Inc. | Integrating and detecting visual data security token in displayed data via graphics processing circuitry using a frame buffer |
US11586835B2 (en) | 2021-04-30 | 2023-02-21 | Mobeus Industries, Inc. | Integrating overlaid textual digital content into displayed data via graphics processing circuitry using a frame buffer |
US11475610B1 (en) * | 2021-04-30 | 2022-10-18 | Mobeus Industries, Inc. | Controlling interactivity of digital content overlaid onto displayed data via graphics processing circuitry using a frame buffer |
US11483156B1 (en) | 2021-04-30 | 2022-10-25 | Mobeus Industries, Inc. | Integrating digital content into displayed data on an application layer via processing circuitry of a server |
US11562153B1 (en) | 2021-07-16 | 2023-01-24 | Mobeus Industries, Inc. | Systems and methods for recognizability of objects in a multi-layer display |
CN114782676B (zh) * | 2022-04-02 | 2023-01-06 | 北京广播电视台 | 一种视频感兴趣区域的提取方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003062960A2 (en) * | 2002-01-22 | 2003-07-31 | Digimarc Corporation | Digital watermarking and fingerprinting including symchronization, layering, version control, and compressed embedding |
WO2016176056A1 (en) * | 2015-04-30 | 2016-11-03 | Verance Corporation | Watermark based content recognition improvements |
CN107103315A (zh) * | 2010-05-21 | 2017-08-29 | 手持产品公司 | 用于在图像信号中捕获文档的交互式用户接口 |
CN109155865A (zh) * | 2016-05-24 | 2019-01-04 | 高通股份有限公司 | 在图像中的最感兴趣的区域的先进信号传送 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6965683B2 (en) | 2000-12-21 | 2005-11-15 | Digimarc Corporation | Routing networks for use with watermark systems |
GB201505553D0 (en) | 2015-03-31 | 2015-05-13 | Irdeto Bv | Online advertisements |
-
2021
- 2021-03-30 US US17/301,268 patent/US11417076B2/en active Active
- 2021-08-16 CN CN202180051492.5A patent/CN115997207B/zh active Active
- 2021-08-16 WO PCT/US2021/046168 patent/WO2022051080A1/en unknown
- 2021-08-16 EP EP21766342.6A patent/EP4208843A1/en active Pending
- 2021-08-17 TW TW110130351A patent/TW202211159A/zh unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003062960A2 (en) * | 2002-01-22 | 2003-07-31 | Digimarc Corporation | Digital watermarking and fingerprinting including symchronization, layering, version control, and compressed embedding |
CN107103315A (zh) * | 2010-05-21 | 2017-08-29 | 手持产品公司 | 用于在图像信号中捕获文档的交互式用户接口 |
WO2016176056A1 (en) * | 2015-04-30 | 2016-11-03 | Verance Corporation | Watermark based content recognition improvements |
CN109155865A (zh) * | 2016-05-24 | 2019-01-04 | 高通股份有限公司 | 在图像中的最感兴趣的区域的先进信号传送 |
Also Published As
Publication number | Publication date |
---|---|
US20220067415A1 (en) | 2022-03-03 |
EP4208843A1 (en) | 2023-07-12 |
US11417076B2 (en) | 2022-08-16 |
TW202211159A (zh) | 2022-03-16 |
CN115997207A (zh) | 2023-04-21 |
WO2022051080A1 (en) | 2022-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115997207B (zh) | 使用引导信号来检测在图像中的感兴趣子图像区域 | |
Begum et al. | Digital image watermarking techniques: a review | |
US9607348B2 (en) | Position information adding apparatus, position information adding method, and computer program for adding position information and position detection apparatus | |
Verma et al. | An overview of robust digital image watermarking | |
US20150371613A1 (en) | Obscurely rendering content using image splitting techniques | |
US11908038B2 (en) | Image transformation method and apparatus, storage medium, and computer device | |
US9177199B2 (en) | Semantic magazine pages | |
Kamil Khudhair et al. | Secure reversible data hiding using block-wise histogram shifting | |
US9036941B2 (en) | Reducing moiré patterns | |
Kerbiche et al. | A robust video watermarking based on feature regions and crowdsourcing | |
Bertini et al. | Are social networks watermarking us or are we (unawarely) watermarking ourself? | |
Darwish et al. | A new colour image copyright protection approach using evolution-based dual watermarking | |
Kot et al. | Image and video source class identification | |
Cui et al. | Research on region selection strategy for visible watermark embedding | |
Jambhale et al. | A deep learning approach to invisible watermarking for copyright protection | |
Ramakrishnan et al. | Video copyright protection using chaotic maps and singular value decomposition in wavelet domain | |
US9846982B2 (en) | Document geometric deformation watermarking and tracking | |
Wan et al. | Improved spread transform dither modulation based on robust perceptual just noticeable distortion model | |
Ma et al. | OAcode: Overall Aesthetic 2D Barcode on Screen | |
Jahromi et al. | Deep learning semantic image synthesis: a novel method for unlimited capacity, high noise resistance coverless video steganography | |
Bashir et al. | A DCT domain smart vicinity reliant fragile watermarking technique for DIBR 3D-TV | |
CN116391200A (zh) | 缩放不可知水印提取 | |
CN117597702A (zh) | 缩放无关的水印提取 | |
Hua et al. | Steganography for medical record image | |
KR20120076541A (ko) | 증강 현실 코드를 이용한 광고 방법 및 그 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |