CN117455515A - 一种在线侵权商品自动化巡检系统 - Google Patents

一种在线侵权商品自动化巡检系统 Download PDF

Info

Publication number
CN117455515A
CN117455515A CN202311638340.2A CN202311638340A CN117455515A CN 117455515 A CN117455515 A CN 117455515A CN 202311638340 A CN202311638340 A CN 202311638340A CN 117455515 A CN117455515 A CN 117455515A
Authority
CN
China
Prior art keywords
information
infringement
text
library
brand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202311638340.2A
Other languages
English (en)
Inventor
马治国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Spin Technology Co ltd
Original Assignee
Hangzhou Spin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Spin Technology Co ltd filed Critical Hangzhou Spin Technology Co ltd
Priority to CN202311638340.2A priority Critical patent/CN117455515A/zh
Publication of CN117455515A publication Critical patent/CN117455515A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • Probability & Statistics with Applications (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种在线侵权商品自动化巡检系统,系统能够自动检测商家售卖的产品是否存在侵权行为,并将结果反馈给相关人员。其中该方法包括:品牌库模块,包括各大品牌的相关信息如品牌名称、LOGO、专利信息等的品牌库;页面识别与信息提取模块,识别商家上传的产品页面信息包括产品文本、图像和视频等;信息融合与分类模块,将不同类型的信息整合,并使用分类算法对其进行分类存储;侵权检测模块,将信息各类内容分别输入侵权检测模块,与品牌库中的数据判断是否存在潜在侵权行为;授权库管理模块,存储商家已获得的品牌授权信息,当检测到潜在侵权行为时,系统查询授权库后查看商家是否有相应的授权;结果反馈模块:将侵权检测结果以报告或通知的形式发送给相关人员,如平台管理人员、商家等。本发明有助于维护原创产品的知识产权,保护创作者和企业的利益;提高对侵权行为的发现速度和准确性,降低人工巡查的成本和时间消耗。

Description

一种在线侵权商品自动化巡检系统
技术领域
本发明涉及机器学习技术领域,尤其是涉及一种在线侵权商品自动化巡检系统。
背景技术
随着互联网的迅速发展,电子商务平台上的商品种类和数量不断增加,给品牌保护带来了巨大挑战。为了维护品牌形象和消费者权益,需要对这些在线销售的产品进行监测与管理,以防止侵权行为的发生。然而,由于商品数量庞大且更新迅速,人工巡检的效率和准确性难以满足实际需求。为解决这一问题,研究者们开始尝试利用机器学习、计算机视觉、自然语言处理等技术来实现产品自动化巡检。通过自动识别和提取网络页面上的文本、图像、音频和视频信息,并与品牌库及授权库进行比对,可以更高效地发现潜在侵权行为并采取相应措施。然而,在现有技术中仍存在一些问题:如特征提取方法可能不够完善;多模态信息融合策略可能较为简单;分类器性能可能有待提高等。因此,开发一种更高效、准确且易于使用的在线侵权商品自动化巡检系统具有重要意义。
发明内容
本发明的目的是提供一种在线侵权商品自动化巡检系统,用以维护原创产品的知识产权,且提高对侵权行为的发现速度和准确性,降低人工巡查的成本和时间消耗。
为实现上述目的,本发明提供了提供一种在线侵权商品自动化巡检系统,包括以下步骤:
品牌库模块,储存各大品牌的相关信息;
授权库管理模块,储存商家已获得的品牌授权信息;
页面识别与信息提取模块,负责识别并提取商家出售产品页面上的商品文本信息、图像、音频和视频信息等;
信息融合与分类模块,将不同类型的信息整合,并使用分类算法对其进行分类存储;
侵权检测模块,接收页面识别与信息提取模块传来的数据,并与品牌库和授权库进行比对,判断是否存在潜在侵权行为。如果发现潜在侵权行为,将结果传递给结果反馈模块;
结果反馈模块,接收侵权检测模块传来的结果。
优选的,所述品牌库模块具体包括以下步骤:
获取各大品牌的信息建立分属不同类别库,所述类别库包括文本信息库、图像信息库和视频信息库。每一类库中包含相应类别的信息以及每一信息的来源。
优选的,所述授权库管理模块具体包括以下步骤:
储存和维护商家已获得的品牌授权信息,这些信息包括但不限于品牌名称、授权期限、授权范围等关键数据。同时能够实时监测商家的授权状态,及时更新品牌授权信息,并向商家推送相关通知。
优选的,所述页面识别与信息提取模块,包括以下步骤:
(1)针对提取网页中的文本、图片和视频内容,首先获取网页源代码,使用网络爬虫技术,结合HTML解析库和正则表达式来实现。其中利用BeautifulSoup库解析HTML标签,找到需要的文本信息所在的标签,并提取出其中的文本内容;图片通常放在img标签中,在src属性中存储着图片链接,通过解析img标签来获取图片链接;视频通常放在video或者iframe标签中,通过解析这些标签来获取视频链接。
(2)针对产品页面的文本内容,运用自然语言处理技术中的实体识别,实现从文本中识别出特定类型的命名实体,其主要利用深度学习中BERT(Bidirectional EncoderRepresentations from Transformers)预训练模型结合微调(Fine-tuning)方法来提高实体识别的准确性和效果。提取出的文本内容进行关键词,找出可能涉及侵权的关键词或者敏感词汇。具体来说,可以在BERT模型的基础上添加一个分类层,用于对输入序列中的每个单词进行实体类别标注:
(a)假设我们有一个输入序列X=[x1,x2,...,xn],其中xi表示第i个单词。经过BERT模型处理后,我们得到一个隐藏状态向量序列H=[h1,h2,...,hn],其中hn是第i个单词对应的隐藏状态向量。
(b)在这些隐藏状态向量上添加一个线性分类层,用于将每个向量映射到实体类别空间。分类层可以表示为:
O=W*H+b
其中W是权重矩阵,b是偏置项,O为输出结果矩阵。
(c)然后对输出矩阵O进行逐行softmax操作以获得每个单词对应各实体类别的概率分布。
P(yi|xi)=softmax(Oi)
(d)在训练过程中使用交叉熵损失函数优化模型参数:
L=-∑∑yij*log(P(yij|xi))
其中yij表示第i个单词正确类别j的真实标签(0或1),P(yij|xi)表示预测概率。
(3)针对图像内容中的形状特征,使用Speeded-Up Robust Features(SURF)算法,用于图像特征提取以及描述图像中物体边缘和形状信息,具体如下:
(a)SURF通过高斯滤波器近似LoG(Laplacian of Gaussian)来检测关键点。在此过程中,使用Hessian矩阵近似代替LoG。对于图像I(x,y),Hessian矩阵H在点(x,y)处定义为:
其中,Lxx、Lxy和Lyy分别表示二阶偏导数。
(b)利用Hessian行列式来检测关键点,在点(x,y)处,行列式值为:
Det(H)=Lxx*Lyy-(k*Lxy)2
其中k是一个经验常数。通过在尺度空间中寻找极值点来确定关键点的位置和尺度。
(c)使用非极大值抑制(Non-Maximum Suppression,NMS)方法对关键点进行精确定位。这包括在图像的每个像素处计算Hessian行列式的极值,并将其与邻域内的其他像素进行比较。只有当前像素的行列式值大于或小于其所有相邻像素时,才将其视为关键点。
(d)在关键点周围选取一个窗口,并将其划分为若干个子区域。然后,在每个子区域内计算Haar小波响应:
dx=∑I(x,y)*w(x,y)
dy=∑I(x,y)*w′(x,y)
其中w(x,y)和w′(x,y)分别表示水平和垂直方向上的Haar小波核函数。将每个子区域内计算得到的dx和dy累加,形成一个向量,再将所有子区域的向量串联起来构成SURF描述子。
(4)针对视频内容,使用长短时记忆网络(LSTM)来提取特征,首先利用卷积神经网络(CNN)将每一帧图像转换为特征向量,然后将得到的特征向量序列输入到LSTM中,来分析视频序列,并提取关键帧。其中,LSTM由三个门控单元(输入门、遗忘门和输出门)组成,它们共同决定了信息如何被存储、更新和访问。以下是LSTM的定义公式:
输入门:
it=σ(Wi*[h(t-1),xt]+bi)
遗忘门:
ft=σ(Wf*[h(t-1),xt]+bf)
输出门:
ot=σ(Wo*[h(t-1),xt]+bo)
单元状态更新:
c′t=tanh(Wc*[h(t-1),xt]+bc)
ct=ft⊙c(t-1)+it⊙c′t
隐藏状态更新:
ht=ot⊙tanh(ct)
其中,xt表示在时间步t的输入特征向量,c′t表示当前候选单元状态,c(t-1)表示上一个时间步的单元状态,h(t-1)表示上一个时间步的隐藏状态Wi、Wf、Wo和Wc分别表示输入门、遗忘门、输出门和单元状态更新的权重矩阵;bi、bf、bo和bc分别表示相应偏置项;σ表示sigmoid激活函数,tanh表示双曲正切激活函数,⊙表示逐元素相乘。
在处理视频序列时,可以将每个时间步t对应的图像帧特征xt输入到LSTM中,并得到一系列隐藏状态ht。这些隐藏状态可以用来提取视频的时序特征。
优选的,所述信息融合与分类模块,包括以下步骤:
(1)使用主成分分析(PCA)算法对文本、图像和视频特征分别进行降维处理,具体PCA算法的步骤:
(a)对于输入数据X(包括文本、图像或视频特征),首先需要进行标准化处理,使每个特征具有零均值和单位方差。这可以通过计算每个特征的均值μ和标准差σ,并对原始数据进行归一化操作实现:
Xstd=(X-μ)/σ
(b)计算标准化后的数据Xstd的协方差矩阵C:
其中n表示样本数量。
(c)计算协方差矩阵C的特征值和特征向量:求解C的特征值λ和相应的特征向量v。
(d)按照所需降维后的目标维数k(k<原始维数),选取前k个最大特征值对应的特征向量组成一个投影矩阵W。
(e)将标准化后的数据Xstd乘以投影矩阵W得到降维后的数据Xpca
Xpca=Xstd*W
(2)在输入层将降维后的不同模态特征拼接,形成一个大的特征向量;
(3)将拼接后的特征向量输入到神经网络中进行多模态学习,采用卷积神经网络(CNN)结构来实现多模态信息融合;
(4)在输出层设计适当数量的神经元以实现分类任务,使用Softmax激活函数对多个类别进行概率分布计算;
优选的,所述侵权检测模块,包括以下步骤:
(1)基于阈值的规则判断,针对从多模态学习提取的特征,设定一定的阈值规则来进行侵权行为的初步筛选。如计算文本相似度和图像匹配度等指标。
(2)针对文本数据,使用余弦相似度方法与品牌库和授权库中的文本进行比较。假设我们有两个文本向量A和B,则它们之间的余弦相似度可以通过以下公式定义:
cos(θ)=(A·B)/(||A||*||B||)
其中,“·”表示向量点积,“||||”表示向量的范数(长度),θ表示两个向量之间的夹角。余弦相似度的取值范围为[-1,1],值越接近1,表示两个文本越相似;值越接近-1,表示两个文本越不相似。当与品牌库和授权库中的文本进行比较时,如果某个输入文本与库中条目的余弦相似度超过预设阈值(如0.8),可以认为存在潜在侵权行为。
(3)针对图像内容,使用尺度不变特征转换(SIFT)图像特征匹配方法。将输入图像与品牌库和授权库中的图像进行比较。若关键帧间具有较高匹配程度并超过预设阈值,则可能存在潜在侵权行为。
(a)对两幅图像进行特征点的提取和描述:
{(x1,y1,σ1,O1),...(xn,yn,σn,On)}img1
{(x′1,y′1,σ′1,O′1),...(x′m,y′m,σ′m,O′m)}img2
(b)对特征向量进行归一化:
其中,di表示归一化后的特征向量,Vi表示第i个特征向量。
(c)计算点对之间的欧几里得距离:
其中,p和q表示两个特征点的向量。
(e)通过比较距离,选择最近邻的匹配点并应用ratio-based测量。
其中,d1为最近点距离,d2为次近点距离,通过比较r值来判断匹配点的真实性。
(f)通过设定阈值判断是否为匹配点。如果匹配点数量超过预设阈值,便可以认为输入图像存在潜在的侵权行为。
(4)针对视频内容,在关键帧上使用RANSAC算法进行特征点匹配。RANSAC是随机抽样一致性算法(Random Sample Consensus)的缩写,它是一种用于估计数学模型参数的迭代方法。其公式定义如下:
给定一组数据点D={p1,p2,...,pn},一种模型M,一个距离阈值T和一个置信度p:
(a)随机从数据集D中选择最少的点k,用这些点拟合模型M。
(b)用模型M测试数据集中的所有点,得到符合阈值T的内点集合S。
(c)如果内点数量S大于某个阈值N,并且内点数量超过当前最大内点数量,则用内点重新拟合一个更准确的模型,并更新当前最大内点数量S。
(d)重复执行步骤a-c,直到达到迭代次数k{max}或者满足置信度p。
(f)最后,用所有内点重新拟合一次模型,并返回该模型。
其中,内点指用模型拟合后,距离小于阈值T的数据点。RANSAC算法的核心是通过随机采样一小部分数据来估计模型参数,并通过阈值来识别内点和外点,从而拟合出更准确的模型。由于采用了随机采样的方法,因此RANSAC算法能够在面对复杂的数据分布时保持良好的鲁棒性。
(5)综合考虑文本、图像和视频的相似度评分,将各模态的评分进行加权求和。若加权后的总评分超过预设阈值,则认为存在潜在侵权行为。具体:
(a)加权求和的公式定义为:
总评分=α×文本相似度评分+β×图像匹配度评分+γ×视频相似度评分其中,α、β和γ分别表示文本、图像和视频相似度评分的权重,它们之和应等于1(即α+β+γ=1)。
(b)加权求和的公式定义为:
阈值的选择,首先设定一个较为宽泛的范围,例如0.5至0.9。在这个范围内进行交叉验证(Cross-Validation),通过比较不同阈值下测试集上侵权检测准确率或F1-score等指标,选择一个表现最佳的阈值作为预设阈值。例如,在应用场景中,我们经过交叉验证后发现阈值为0.7时具有较高的侵权检测准确率。因此,在这种情况下,可以将预设阈值设定为0.7。当总评分大于或等于0.7时,认为存在潜在侵权行为;反之,则认为不存在侵权行为。
优选的,所述结果反馈模块,包括以下步骤:
(1)接收侵权检测模块传来的结果,包括潜在侵权行为的详细信息,如相似度评分、匹配度评分等;
(2)对检测结果进行整理和归类,将相似类型的侵权行为进行汇总,并生成易于理解的报告或通知
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明实施例中一种在线侵权商品自动化巡检系统的结构示意图;
图2为本发明实施例中一种在线侵权商品自动化巡检系统的页面识别与信息提取模块的;
图3为本发明实施例中一种在线侵权商品自动化巡检系统的信息融合与分类模块的流程图;
图4为本发明实施例中一种在线侵权商品自动化巡检系统的侵权检测模块的流程图;
具体实施方式
以下通过附图和实施例对本发明的技术方案作进一步说明。
如图1所示,一种在线侵权商品自动化巡检系统,包括:
品牌库模块储存各大品牌的相关信息;
授权库管理模块则储存商家已获得的品牌授权信息,其与所述品牌库模块相互连接,共享和交换信息;
页面识别与信息提取模块负责从商家出售产品页面上提取商品文本、图像、音频和视频信息等;
信息融合与分类模块,其与所述页面识别与信息提取连接,将其处理后不同类型的信息整合并进行分类存储;
侵权检测模块,其与所述品牌库模块和授权库管理模连接,需要使用这些数据来进行比对判断是否存在潜在侵权行为,其还与所述信息融合与分类模块连接,用于进一步判断是否存在潜在侵权行为;
结果反馈模块,其与所述侵权检测模块连接,将判断结果传递给结果反馈模块。结果反馈模块负责处理和展示这些结果。
实施例1
所述页面识别与信息提取模块:
(1)针对提取网页中的文本、图片和视频内容,首先获取网页源代码,使用网络爬虫技术,结合HTML解析库和正则表达式来实现。其中利用BeautifulSoup库解析HTML标签,找到需要的文本信息所在的标签,并提取出其中的文本内容;图片通常放在img标签中,在src属性中存储着图片链接,通过解析img标签来获取图片链接;视频通常放在video或者iframe标签中,通过解析这些标签来获取视频链接。
(2)针对产品页面的文本内容,运用自然语言处理技术中的实体识别,实现从文本中识别出特定类型的命名实体,其主要利用深度学习中BERT(Bidirectional EncoderRepresentations from Transformers)预训练模型结合微调(Fine-tuning)方法来提高实体识别的准确性和效果。提取出的文本内容进行关键词,找出可能涉及侵权的关键词或者敏感词汇。具体来说,可以在BERT模型的基础上添加一个分类层,用于对输入序列中的每个单词进行实体类别标注:
(a)假设我们有一个输入序列X=[x1,x2,...,xn],其中xi表示第i个单词。经过BERT模型处理后,我们得到一个隐藏状态向量序列H=[h1,h2,...,hn],其中hn是第i个单词对应的隐藏状态向量。
(b)在这些隐藏状态向量上添加一个线性分类层,用于将每个向量映射到实体类别空间。分类层可以表示为:
O=W*H+b
其中W是权重矩阵,b是偏置项,O为输出结果矩阵。
(c)然后对输出矩阵O进行逐行softmax操作以获得每个单词对应各实体类别的概率分布。
P(yi|xi)=softmax(Oi)
(d)在训练过程中使用交叉熵损失函数优化模型参数:
L=-∑∑yij*log(P(yij|xi))
其中yij表示第i个单词正确类别j的真实标签(0或1),P(yij|xi)表示预测概率。
(3)针对图像内容中的形状特征,使用Speeded-Up Robust Features(SURF)算法,用于图像特征提取以及描述图像中物体边缘和形状信息,具体如下:
(a)SURF通过高斯滤波器近似LoG(Laplacian of Gaussian)来检测关键点。在此过程中,使用Hessian矩阵近似代替LoG。对于图像I(x,y),Hessian矩阵H在点(x,y)处定义为:
其中,Lxx、Lxy和Lyy分别表示二阶偏导数。
(b)利用Hessian行列式来检测关键点,在点(x,y)处,行列式值为:
Det(H)=Lxx*Lyy-(k*Lxy)2
其中k是一个经验常数。通过在尺度空间中寻找极值点来确定关键点的位置和尺度。
(c)使用非极大值抑制(Non-Maximum Suppression,NMS)方法对关键点进行精确定位。这包括在图像的每个像素处计算Hessian行列式的极值,并将其与邻域内的其他像素进行比较。只有当前像素的行列式值大于或小于其所有相邻像素时,才将其视为关键点。
(d)在关键点周围选取一个窗口,并将其划分为若干个子区域。然后,在每个子区域内计算Haar小波响应:
dx=∑I(x,y)*w(x,y)
dy=∑I(x,y)*w′(x,y)
其中w(x,y)和w′(x,y)分别表示水平和垂直方向上的Haar小波核函数。将每个子区域内计算得到的dx和dy累加,形成一个向量,再将所有子区域的向量串联起来构成SURF描述子。
(4)针对视频内容,使用长短时记忆网络(LSTM)来提取特征,首先利用卷积神经网络(CNN)将每一帧图像转换为特征向量,然后将得到的特征向量序列输入到LSTM中,来分析视频序列,并提取关键帧。其中,LSTM由三个门控单元(输入门、遗忘门和输出门)组成,它们共同决定了信息如何被存储、更新和访问。以下是LSTM的定义公式:
输入门:
it=σ(Wi*[h(t-1),xt]+bi)
遗忘门:
ft=σ(Wf*[h(t-1),xt]+bf)
输出门:
ot=σ(Wo*[h(t-1),xt]+bo)
单元状态更新:
c′t=tanh(Wc*[h(t-1),xt]+bc)
ct=ft⊙c(t-1)+it⊙c′t
隐藏状态更新:
ht=ot⊙tanh(ct)
其中,xt表示在时间步t的输入特征向量,c′t表示当前候选单元状态,c(t-1)表示上一个时间步的单元状态,h(t-1)表示上一个时间步的隐藏状态Wi、Wf、Wo和Wc分别表示输入门、遗忘门、输出门和单元状态更新的权重矩阵;bi、bf、bo和bc分别表示相应偏置项;σ表示sigmoid激活函数,tanh表示双曲正切激活函数,⊙表示逐元素相乘。
在处理视频序列时,可以将每个时间步t对应的图像帧特征xt输入到LSTM中,并得到一系列隐藏状态ht。这些隐藏状态可以用来提取视频的时序特征。
实施例2
所述信息融合与分类模块:
(1)使用主成分分析(PCA)算法对文本、图像和视频特征分别进行降维处理,具体PCA算法的步骤:
(a)对于输入数据X(包括文本、图像或视频特征),首先需要进行标准化处理,使每个特征具有零均值和单位方差。这可以通过计算每个特征的均值μ和标准差σ,并对原始数据进行归一化操作实现:
Xstd=(X-μ)/σ
(b)计算标准化后的数据Xstd的协方差矩阵C:
其中n表示样本数量。
(c)计算协方差矩阵C的特征值和特征向量:求解C的特征值λ和相应的特征向量v。
(d)按照所需降维后的目标维数k(k<原始维数),选取前k个最大特征值对应的特征向量组成一个投影矩阵W。
(e)将标准化后的数据Xstd乘以投影矩阵W得到降维后的数据Xpca
Xpca=Xstd*W
(2)在输入层将降维后的不同模态特征拼接,形成一个大的特征向量;
(3)将拼接后的特征向量输入到神经网络中进行多模态学习,采用卷积神经网络(CNN)结构来实现多模态信息融合;
(4)在输出层设计适当数量的神经元以实现分类任务,使用Softmax激活函数对多个类别进行概率分布计算;
实施例3
所述侵权检测模块:
(1)基于阈值的规则判断,针对从多模态学习提取的特征,设定一定的阈值规则来进行侵权行为的初步筛选。如计算文本相似度和图像匹配度等指标。
(2)针对文本数据,使用余弦相似度方法与品牌库和授权库中的文本进行比较。假设我们有两个文本向量A和B,则它们之间的余弦相似度可以通过以下公式定义:
cos(θ)=(A·B)/(||A||*||B||)
其中,“·”表示向量点积,“||||”表示向量的范数(长度),θ表示两个向量之间的夹角。余弦相似度的取值范围为[-1,1],值越接近1,表示两个文本越相似;值越接近-1,表示两个文本越不相似。当与品牌库和授权库中的文本进行比较时,如果某个输入文本与库中条目的余弦相似度超过预设阈值(如0.8),可以认为存在潜在侵权行为。
(3)针对图像内容,使用尺度不变特征转换(SIFT)图像特征匹配方法。将输入图像与品牌库和授权库中的图像进行比较。若关键帧间具有较高匹配程度并超过预设阈值,则可能存在潜在侵权行为。
(a)对两幅图像进行特征点的提取和描述:
{(x1,y1,σ1,O1),...(xn,yn,σn,On)}img1
{(x′1,y′1,σ′1,O′1),...(x′m,y′m,σ′m,O′m)}img2
(b)对特征向量进行归一化:
其中,di表示归一化后的特征向量,Vi表示第i个特征向量。
(c)计算点对之间的欧几里得距离:
其中,p和q表示两个特征点的向量。
(e)通过比较距离,选择最近邻的匹配点并应用ratio-based测量。
其中,d1为最近点距离,d2为次近点距离,通过比较r值来判断匹配点的真实性。
(f)通过设定阈值判断是否为匹配点。如果匹配点数量超过预设阈值,便可以认为输入图像存在潜在的侵权行为。
(4)针对视频内容,在关键帧上使用RANSAC算法进行特征点匹配。RANSAC是随机抽样一致性算法(Random Sample Consensus)的缩写,它是一种用于估计数学模型参数的迭代方法。其公式定义如下:
给定一组数据点D={p1,p2,...,pn},一种模型M,一个距离阈值T和一个置信度p:
(a)随机从数据集D中选择最少的点k,用这些点拟合模型M。
(b)用模型M测试数据集中的所有点,得到符合阈值T的内点集合S。
(c)如果内点数量S大于某个阈值N,并且内点数量超过当前最大内点数量,则用内点重新拟合一个更准确的模型,并更新当前最大内点数量S。
(d)重复执行步骤a-c,直到达到迭代次数k{max}或者满足置信度p。
(f)最后,用所有内点重新拟合一次模型,并返回该模型。
其中,内点指用模型拟合后,距离小于阈值T的数据点。RANSAC算法的核心是通过随机采样一小部分数据来估计模型参数,并通过阈值来识别内点和外点,从而拟合出更准确的模型。由于采用了随机采样的方法,因此RANSAC算法能够在面对复杂的数据分布时保持良好的鲁棒性。
(5)综合考虑文本、图像和视频的相似度评分,将各模态的评分进行加权求和。若加权后的总评分超过预设阈值,则认为存在潜在侵权行为。具体:
(a)加权求和的公式定义为:
总评分=α×文本相似度评分+β×图像匹配度评分+γ×视频相似度评分其中,α、β和γ分别表示文本、图像和视频相似度评分的权重,它们之和应等于1(即α+β+γ=1)。
(b)加权求和的公式定义为:
阈值的选择,首先设定一个较为宽泛的范围,例如0.5至0.9。在这个范围内进行交叉验证(Cross-Validation),通过比较不同阈值下测试集上侵权检测准确率或F1-score等指标,选择一个表现最佳的阈值作为预设阈值。例如,在应用场景中,我们经过交叉验证后发现阈值为0.7时具有较高的侵权检测准确率。因此,在这种情况下,可以将预设阈值设定为0.7。当总评分大于或等于0.7时,认为存在潜在侵权行为;反之,则认为不存在侵权行为。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims (7)

1.一种在线侵权商品自动化巡检系统,其特征在于,包括以下步骤:
品牌库模块,储存各大品牌的相关信息;
授权库管理模块,储存商家已获得的品牌授权信息;
页面识别与信息提取模块,负责识别并提取商家出售产品页面上的商品文本信息、图像、音频和视频信息等;
信息融合与分类模块,将不同类型的信息整合,并使用分类算法对其进行分类存储;
侵权检测模块,接收页面识别与信息提取模块传来的数据,并与品牌库和授权库进行比对,判断是否存在潜在侵权行为。如果发现潜在侵权行为,将结果传递给结果反馈模块;
结果反馈模块,接收侵权检测模块传来的结果。
2.根据权利要求1所述的方法,其特征在于,所述品牌库模块具体包括:
获取各大品牌的信息建立分属不同类别库,所述类别库包括文本信息库、图像信息库和视频信息库。每一类库中包含相应类别的信息以及每一信息的来源。
3.根据权利要求1所述的方法,其特征在于,所述授权库管理模块具体包括:
储存和维护商家已获得的品牌授权信息,这些信息包括但不限于品牌名称、授权期限、授权范围等关键数据。同时能够实时监测商家的授权状态,及时更新品牌授权信息,并向商家推送相关通知。
4.根据权利要求1所述的方法,其特征在于,所述页面识别与信息提取模块具体包括以下步骤:
(1)针对提取网页中的文本、图片和视频内容,首先获取网页源代码,使用网络爬虫技术,结合HTML解析库和正则表达式来实现。其中利用BeautifulSoup库解析HTML标签,找到需要的文本信息所在的标签,并提取出其中的文本内容;图片通常放在img标签中,在src属性中存储着图片链接,通过解析img标签来获取图片链接;视频通常放在video或者iframe标签中,通过解析这些标签来获取视频链接。
(2)针对产品页面的文本内容,运用自然语言处理技术中的实体识别,实现从文本中识别出特定类型的命名实体,其主要利用深度学习中BERT(Bidirectional EncoderRepresentations from Transformers)预训练模型结合微调(Fine-tuning)方法来提高实体识别的准确性和效果。提取出的文本内容进行关键词,找出可能涉及侵权的关键词或者敏感词汇。具体来说,可以在BERT模型的基础上添加一个分类层,用于对输入序列中的每个单词进行实体类别标注:
(a)假设我们有一个输入序列X=[x1,x2,...,xn],其中xi表示第i个单词。经过BERT模型处理后,我们得到一个隐藏状态向量序列H=[h1,h2,...,hn],其中hn是第i个单词对应的隐藏状态向量。
(b)在这些隐藏状态向量上添加一个线性分类层,用于将每个向量映射到实体类别空间。分类层可以表示为:
O=W*H+b
其中W是权重矩阵,b是偏置项,O为输出结果矩阵。
(c)然后对输出矩阵O进行逐行softmax操作以获得每个单词对应各实体类别的概率分布。
P(yi|xi)=softmax(Oi)
(d)在训练过程中使用交叉熵损失函数优化模型参数:
L=-∑∑yij*log(P(yij|xi))
其中yij表示第i个单词正确类别j的真实标签(0或1),P(yij|xi)表示预测概率。
(3)针对图像内容中的形状特征,使用Speeded-Up Robust Features(SURF)算法,用于图像特征提取以及描述图像中物体边缘和形状信息,具体如下:
(a)SURF通过高斯滤波器近似LoG(Laplacian of Gaussian)来检测关键点。在此过程中,使用Hessian矩阵近似代替LoG。对于图像I(x,y),Hessian矩阵H在点(x,y)处定义为:
其中,Lxx、Lxy和Lyy分别表示二阶偏导数。
(b)利用Hessian行列式来检测关键点,在点(x,y)处,行列式值为:
Det(H)=Lxx*Lyy-(l*Lxy)2
其中k是一个经验常数。通过在尺度空间中寻找极值点来确定关键点的位置和尺度。
(c)使用非极大值抑制(Non-Maximum Suppression,NMS)方法对关键点进行精确定位。这包括在图像的每个像素处计算Hessian行列式的极值,并将其与邻域内的其他像素进行比较。只有当前像素的行列式值大于或小于其所有相邻像素时,才将其视为关键点。
(d)在关键点周围选取一个窗口,并将其划分为若干个子区域。然后,在每个子区域内计算Haar小波响应:
dx=ΣI(x,y)*w(x,y)
dy=ΣI(x,y)*w′(x,y)
其中w(x,y)和w′(x,y)分别表示水平和垂直方向上的Haar小波核函数。将每个子区域内计算得到的dx和dy累加,形成一个向量,再将所有子区域的向量串联起来构成SURF描述子。
(4)针对视频内容,使用长短时记忆网络(LSTM)来提取特征,首先利用卷积神经网络(CNN)将每一帧图像转换为特征向量,然后将得到的特征向量序列输入到LSTM中,来分析视频序列,并提取关键帧。其中,LSTM由三个门控单元(输入门、遗忘门和输出门)组成,它们共同决定了信息如何被存储、更新和访问。以下是LSTM的定义公式:
输入门:
it=σ(Wi*[h(t-1),xt]+bi)
遗忘门:
ft=σ(Wf*[h(t-1),xt]+bf)
输出门:
ot=σ(Wo*[h(t-1),xt]+bo)
单元状态更新:
c′t=tanh(Wc*[h(t-1),xt]+bc)
ct=ft⊙c(t-1)+it⊙c′t
隐藏状态更新:
ht=ot⊙tanh(ct)
其中,xt表示在时间步t的输入特征向量,c′t表示当前候选单元状态,c(t-1)表示上一个时间步的单元状态,h(t-1)表示上一个时间步的隐藏状态Wi、Wf、Wo和Wc分别表示输入门、遗忘门、输出门和单元状态更新的权重矩阵;bi、bf、bo和bc分别表示相应偏置项;σ表示sigmoid激活函数,tanh表示双曲正切激活函数,⊙表示逐元素相乘。
在处理视频序列时,可以将每个时间步t对应的图像帧特征xt输入到LSTM中,并得到一系列隐藏状态ht。这些隐藏状态可以用来提取视频的时序特征。
5.根据权利要求1所述的方法,其特征在于,所述信息融合与分类模块具体包括以下步骤:
(1)使用主成分分析(PCA)算法对文本、图像和视频特征分别进行降维处理,具体PCA算法的步骤:
(a)对于输入数据X(包括文本、图像或视频特征),首先需要进行标准化处理,使每个特征具有零均值和单位方差。这可以通过计算每个特征的均值μ和标准差σ,并对原始数据进行归一化操作实现:
Xstd=(X-μ)/σ
(b)计算标准化后的数据Xstd的协方差矩阵C:
其中n表示样本数量。
(c)计算协方差矩阵C的特征值和特征向量:求解C的特征值λ和相应的特征向量v。
(d)按照所需降维后的目标维数k(k<原始维数),选取前k个最大特征值对应的特征向量组成一个投影矩阵W。
(e)将标准化后的数据Xstd乘以投影矩阵W得到降维后的数据Xpca
Xpca=Xstd*W
(2)在输入层将降维后的不同模态特征拼接,形成一个大的特征向量;
(3)将拼接后的特征向量输入到神经网络中进行多模态学习,采用卷积神经网络(CNN)结构来实现多模态信息融合;
(4)在输出层设计适当数量的神经元以实现分类任务,使用Softmax激活函数对多个类别进行概率分布计算。
6.根据权利要求1所述的方法,其特征在于,所述侵权检测模块具体包括以下步骤:
(1)基于阈值的规则判断,针对从多模态学习提取的特征,设定一定的阈值规则来进行侵权行为的初步筛选。如计算文本相似度和图像匹配度等指标。
(2)针对文本数据,使用余弦相似度方法与品牌库和授权库中的文本进行比较。假设我们有两个文本向量A和B,则它们之间的余弦相似度可以通过以下公式定义:
cos(θ)=(A·B)/(||A||*||B||)
其中,“·”表示向量点积,“||||”表示向量的范数(长度),θ表示两个向量之间的夹角。余弦相似度的取值范围为[-1,1],值越接近1,表示两个文本越相似;值越接近-1,表示两个文本越不相似。当与品牌库和授权库中的文本进行比较时,如果某个输入文本与库中条目的余弦相似度超过预设阈值(如0.8),可以认为存在潜在侵权行为。
(3)针对图像内容,使用尺度不变特征转换(SIFT)图像特征匹配方法。将输入图像与品牌库和授权库中的图像进行比较。若关键帧间具有较高匹配程度并超过预设阈值,则可能存在潜在侵权行为。
(a)对两幅图像进行特征点的提取和描述:
{(x1,y11,O1),...(xn,ynn,On)}img1
{(x′1,y′1,σ′1,O′1),…(x′m,y′m,σ′m,O′m)}img2
(b)对特征向量进行归一化:
其中,di表示归一化后的特征向量,Vi表示第i个特征向量。
(c)计算点对之间的欧几里得距离:
其中,p和q表示两个特征点的向量。
(e)通过比较距离,选择最近邻的匹配点并应用ratio-based测量。
其中,d1为最近点距离,d2为次近点距离,通过比较r值来判断匹配点的真实性。
(f)通过设定阈值判断是否为匹配点。如果匹配点数量超过预设阈值,便可以认为输入图像存在潜在的侵权行为。
(4)针对视频内容,在关键帧上使用RANSAC算法进行特征点匹配。RANSAC是随机抽样一致性算法(Random Sample Consensus)的缩写,它是一种用于估计数学模型参数的迭代方法。其公式定义如下:
给定一组数据点D={p1,p2,...,pn},一种模型M,一个距离阈值T和一个置信度p:
(a)随机从数据集D中选择最少的点k,用这些点拟合模型M。
(b)用模型M测试数据集中的所有点,得到符合阈值T的内点集合S。
(c)如果内点数量S大于某个阈值N,并且内点数量超过当前最大内点数量,则用内点重新拟合一个更准确的模型,并更新当前最大内点数量S。
(d)重复执行步骤a-c,直到达到迭代次数k{max}或者满足置信度p。
(f)最后,用所有内点重新拟合一次模型,并返回该模型。
其中,内点指用模型拟合后,距离小于阈值T的数据点。RANSAC算法的核心是通过随机采样一小部分数据来估计模型参数,并通过阈值来识别内点和外点,从而拟合出更准确的模型。由于采用了随机采样的方法,因此RANSAC算法能够在面对复杂的数据分布时保持良好的鲁棒性。
(5)综合考虑文本、图像和视频的相似度评分,将各模态的评分进行加权求和。若加权后的总评分超过预设阈值,则认为存在潜在侵权行为。具体:
(a)加权求和的公式定义为:
总评分=α×文本相似度评分+β×图像匹配度评分+γ×视频相似度评分其中,α、β和γ分别表示文本、图像和视频相似度评分的权重,它们之和应等于1(即α+β+γ=1)。
(b)加权求和的公式定义为:
阈值的选择,首先设定一个较为宽泛的范围,例如0.5至0.9。在这个范围内进行交叉验证(Cross-Validation),通过比较不同阈值下测试集上侵权检测准确率或F1-score等指标,选择一个表现最佳的阈值作为预设阈值。例如,在应用场景中,我们经过交叉验证后发现阈值为0.7时具有较高的侵权检测准确率。因此,在这种情况下,可以将预设阈值设定为0.7。当总评分大于或等于0.7时,认为存在潜在侵权行为;反之,则认为不存在侵权行为。
7.根据权利要求1所述的方法,其特征在于,结果反馈模块具体包括:
(1)接收侵权检测模块传来的结果,包括潜在侵权行为的详细信息,如相似度评分、匹配度评分等;
(2)对检测结果进行整理和归类,将相似类型的侵权行为进行汇总,并生成易于理解的报告或通知。
CN202311638340.2A 2023-12-03 2023-12-03 一种在线侵权商品自动化巡检系统 Withdrawn CN117455515A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311638340.2A CN117455515A (zh) 2023-12-03 2023-12-03 一种在线侵权商品自动化巡检系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311638340.2A CN117455515A (zh) 2023-12-03 2023-12-03 一种在线侵权商品自动化巡检系统

Publications (1)

Publication Number Publication Date
CN117455515A true CN117455515A (zh) 2024-01-26

Family

ID=89583768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311638340.2A Withdrawn CN117455515A (zh) 2023-12-03 2023-12-03 一种在线侵权商品自动化巡检系统

Country Status (1)

Country Link
CN (1) CN117455515A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118116609A (zh) * 2024-04-23 2024-05-31 上海森亿医疗科技有限公司 医疗数据项资产敏感性识别方法、系统、终端及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118116609A (zh) * 2024-04-23 2024-05-31 上海森亿医疗科技有限公司 医疗数据项资产敏感性识别方法、系统、终端及介质

Similar Documents

Publication Publication Date Title
Bergmann et al. The MVTec anomaly detection dataset: a comprehensive real-world dataset for unsupervised anomaly detection
Zafar et al. Face recognition with Bayesian convolutional networks for robust surveillance systems
CN113657425B (zh) 基于多尺度与跨模态注意力机制的多标签图像分类方法
Mansanet et al. Local deep neural networks for gender recognition
US7412425B2 (en) Partially supervised machine learning of data classification based on local-neighborhood Laplacian Eigenmaps
US8126274B2 (en) Visual language modeling for image classification
Yu et al. Face biometric quality assessment via light CNN
Blaschko et al. Semi-supervised laplacian regularization of kernel canonical correlation analysis
Singh et al. A study of moment based features on handwritten digit recognition
CN117455515A (zh) 一种在线侵权商品自动化巡检系统
Demirkus et al. Hierarchical temporal graphical model for head pose estimation and subsequent attribute classification in real-world videos
Boranbayev et al. Analyzing methods of recognition, classification and development of a software system
US20230147685A1 (en) Generalized anomaly detection
Hernández et al. Human activity recognition based on kinematic features
US20220327678A1 (en) Machine learning-based analysis of computing device images included in requests to service computing devices
CN112241470B (zh) 一种视频分类方法及系统
Veerashetty et al. Face recognition with illumination, scale and rotation invariance using multiblock LTP-GLCM descriptor and adaptive ANN
El_Tokhy Development of precise forgery detection algorithms in digital radiography images using convolution neural network
Chakraborty Category identification technique by a semantic feature generation algorithm
CN116740421A (zh) 基于无监督公共子空间学习模型的遥感图像分类方法和装置
US20230069960A1 (en) Generalized anomaly detection
Wang et al. Recognition and distance estimation of an irregular object in package sorting line based on monocular vision
Hauri Detecting signatures in scanned document images
Shojaei et al. Semi-supervised domain adaptation for pedestrian detection in video surveillance based on maximum independence assumption
Weizman et al. Detection of urban zones in satellite images using visual words

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20240126