CN116484830B - 基于大数据的互联网广告智能监测系统 - Google Patents
基于大数据的互联网广告智能监测系统 Download PDFInfo
- Publication number
- CN116484830B CN116484830B CN202310752534.9A CN202310752534A CN116484830B CN 116484830 B CN116484830 B CN 116484830B CN 202310752534 A CN202310752534 A CN 202310752534A CN 116484830 B CN116484830 B CN 116484830B
- Authority
- CN
- China
- Prior art keywords
- text
- similarity
- data
- character
- corresponding group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 13
- 238000009826 distribution Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 abstract description 4
- 239000006185 dispersion Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及用于数据处理技术领域,具体涉及基于大数据的互联网广告智能监测系统,包括:采集数据文本和对比文本;利用相似度对数据文本和对比文本进行分组得到对应分组;计算每个对应分组的字符频率差异程度参数、交集字符位置分布权重影响参数和数据位置相似程度权重参数共三个参数;根据三个参数得到Dice相似度权重;利用Dice相似度权重得到文本相似度并判断互联网广告是否涉嫌抄袭。本发明根据文本数据特征计算Dice交集数据的频率、位置分布和结构的相似性,并结合Dice算法综合判断文本与对比文本的相似性,提高了利用Dice算法判断两个广告文本的相似性的准确性。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及基于大数据的互联网广告智能监测系统。
背景技术
广告相似的恶意竞争是指竞争对手在广告中使用与其他公司类似的商标、标志、品牌名称、产品名称或广告语,以混淆消费者并获取不当竞争优势的行为。这种行为违反了商标法和不正当竞争法。现有技术是通过对比广告文本的Dice相似度来判断广告是否存在抄袭,模仿等不正当竞争关系。Dice相似度是一种用于衡量两个集合相似程度的度量方法,它是通过计算两个集合中共同元素的数量来衡量它们的相似度。但是dice相似度只能通过相同字符占比确定文本相似度,无法通过结构,位置等信息确定文本相似度,且无法处理相同的重复字符,对文本相似性判断不够准确。
发明内容
本发明提供基于大数据的互联网广告智能监测系统,以解决现有的问题。
本发明的基于大数据的互联网广告智能监测系统采用如下技术方案:
本发明一个实施例提供了基于大数据的互联网广告智能监测系统,该系统包括以下模块:
文本采集模块,用于采集数据文本和对比文本;
数据分组模块,用于利用相似度对数据文本和对比文本进行分组得到对应分组;
参数计算模块,用于计算每个对应分组的字符频率差异程度参数、交集字符位置分布权重影响参数和数据位置相似程度权重参数;
权重拟合模块,用于将每个对应分组的字符频率差异程度参数、交集字符位置分布权重影响参数和数据位置相似程度权重参数得到相似度权数,并利用相似度权数得到Dice相似度权重;
相似判定模块,用于利用Dice相似度权重得到整个数据文本和对比文本的相似度并判断互联网广告是否涉嫌抄袭。
优选的,所述数据文本和对比文本的获取方法为:
在所有互联网广告文本中,按照文本的出现时间进行采集,在所有采集到的文本中选择两个文本,将两个文本中出现时间较为靠前的文本记为对比文本,两个文本中出现时间较为靠后的文本记为数据文本。
优选的,所述利用相似度对数据文本和对比文本进行分组得到对应分组,包括的具体步骤如下:
对每个数据文本和每个对比文本进行Dice相似度计算得到每个数据文本和每个对比文本的相似度,将每个数据文本和与其相似度最高的对比文本进行关联,得到对应字符,最后把所有的对应字符放入一个集合中,将该集合记为对应分组。
优选的,所述字符频率差异程度参数的具体计算公式如下:
其中,为第i个对应分组下的字符频率差异程度参数,i表示所有的I个对应分组中第i个对应分组且有/>,/>为第i个对应分组下第q个交集字符在数据文本中出现的次数,/>为第i个对应分组下第q个交集字符在对比文本中出现的次数,q为每个分组中数据文本和对比文本字符集合的交集中的第q个字符,共Q个且有/>。
优选的,所述交集字符位置分布权重影响参数的具体获取步骤如下:
在每个对应分组中,将每个交集字符在数据文本和对比文本中的位置分别记为和/>,并计算如下公式:
其中,为第i个对应分组下的交集字符位置分布权重影响参数,/>表示第/>个交集字符在第i个对应分组内数据文本中的位置,/>表示第/>个交集字符在第i个对应分组内对比文本中的位置,/>和/>分别为第i个对应分组内数据文本和对比文本的交集字符分别在数据文本和对比文本中的位置的平均值,/>为第i个对应分组内交集字符在数据文本中占用的位置的数量,/>为第i个对应分组内交集字符在对比文本中占用的位置的数量,为第i个对应分组下第q个交集字符在数据文本中出现的次数,/>为第i个对应分组下第q个交集字符在对比文本中出现的次数,q为每个分组中数据文本和对比文本字符集合的交集中的第q个字符,共Q个且有/>。
优选的,所述数据位置相似程度权重参数的具体获取步骤如下:
获取每个对应分组中的每种字符在数据文本和对比文本中的位置,计算所有对应分组中的所有字符在数据文本和对比文本中的平均位置,并计算每个对应分组中的每种字符在数据文本和对比文本中的位置与所有字符的平均位置的差异值,并将差异值进行求和,得到每个对应分组的数据位置相似程度权重参数。
优选的,所述将每个对应分组的字符频率差异程度参数、交集字符位置分布权重影响参数和数据位置相似程度权重参数得到相似度权数,并利用相似度权数得到Dice相似度权重,包括的具体步骤如下:
相似度权数的计算过程为:
其中,为第i个对应分组下数据文本和对比文本的相似度权数,/>、/>和/>分别为第i个对应分组的字符频率差异程度参数、交集字符位置分布权重影响参数和数据位置相似程度权重参数;
最后,再将每个对应分组下数据文本和对比文本的相似度权数进行归一化操作,得到每个对应分组的Dice相似度权重。
优选的,所述利用Dice相似度权重得到整个数据文本和对比文本的相似度,包括的具体步骤如下:
计算每个对应分组内数据文本和对比文本的Dice相似度,将每个对应分组内数据文本和对比文本的Dice相似度与每个对应分组的Dice相似度权重相乘,得到每个对应分组的相似因子,计算所有对应分组的相似因子的算数均值,将算术均值作为整个数据文本和对比文本的相似度。
本发明的技术方案的有益效果是:根据文本数据特征,计算Dice交集数据的频率,位置分布,和结构的相似性结合Dice算法综合判断文本与对比文本的相似性,解决了dice相似度无法通过结构,位置等信息确定文本相似度,且无法处理相同的重复字符的问题,可以更准确的判断两个广告文本的相似性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于大数据的互联网广告智能监测系统的系统结构图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于大数据的互联网广告智能监测系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的基于大数据的互联网广告智能监测系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的基于大数据的互联网广告智能监测系统的步骤流程图,该系统包括以下模块:
文本采集模块S001,用于采集数据文本和对比文本。
在所有互联网广告文本中,按照文本的出现时间进行采集,在所有采集到的文本中选择两个文本,将两个文本中出现时间较为靠前的文本记为对比文本,两个文本中出现时间较为靠后的文本记为数据文本。需要说明的是,本实施例中的对比文本和数据文本是一个相对概念而不是绝对的,两者不能独立出现。对采集到的所有文本进行无关信息(如标点符号、语助词等)进行去除,得到了数据文本和对比文本。
数据分组模块S002,用于利用相似度对数据文本和对比文本进行分组得到对应分组。
由于Dice相似算法对于长文本的处理效果并不理想,而根据断句对文本数据分组可以利用标点符号将长文本分割成数个短文本,提高了算法的准确性,且根据断句对文本数据进行分组,尽可能地使文本的结构信息保留在同一个分组之内,有助于后续分析结构信息。故本实施例在利用原标点符号位置进行断句的基础上,对每个数据文本和每个对比文本进行Dice相似度计算,将每个数据文本和与其对应的相似度最高的对比文本进行关联,得到对应字符,将所有的对应字符放入一个集合中,则该集合就是对应分组,见如下表示:
其中,表示第i个对应分组,其中/>表示第i个数据文本,/>表示与第i个数据文本最相似的对比文本。I表示对应分组的总个数且有/>。
参数计算模块S003,用于计算每个对应分组的字符频率差异程度参数、交集字符位置分布权重影响参数和数据位置相似程度权重参数。
由于Dice相似度算法只考虑了文本中字符的相似度,对于字符出现的频率和位置及结构信息并未考虑,从而导致对广告文本相似性判断并不准确,所以需要添加对应分组内字符的字符频率差异程度参数、交集字符位置分布权重影响参数和数据位置相似程度权重参数。
首先,当数据文本与对比文本中交集字符在文本中出现频率越接近,则数据文本与对比文本的相似度越高。记某分组下数据文本和对比文本字符集合分别为,且,/>为每个分组中数据文本和对比文本字符集合的交集中的第q个字符,简记为第i个分组的第q个交集字符,共Q个则有/>,同时把每个交集字符在第i个对应分组内数据文本和对比文本中出现的次数分别记为/>和/>,其中/>表示交集中的第q个字符在第i个对应分组内数据文本中出现的次数,/>表示交集中的第q个字符在第i个对应分组内对比文本中出现的次数;累加每个交集字符在数据文本中出现次数和对比文本中出现次数之差,可以得到交集字符在数据文本和对比文本中出现次数的差异,但由于两组对比文本的长度可能不同,所以计算两组数据文本交集字符出现的次数与其组内数据总量的比值之差,即计算两组数据文本交集字符出现的频率之差得到每个对应分组下字符频率差异程度参数的公式如下:
其中,为第i个对应分组的字符频率差异程度参数,/>为第i个对应分组下第q个交集字符在数据文本中出现的次数,/>为第i个对应分组下第q个交集字符在对比文本中出现的次数。/>差值的绝对值越小,则说明第i个对应分组下第q个交集字符出现频率越接近,数据文本和对比文本的相似性越高,并通过累加所有交集字符在数据文本和对比文本中出现频率的差值的绝对值,和越小,则说明第i个对应分组下其所有交集字符出现频率的差异性越小,数据相似性越高。
本实施例首先得到了每个对应分组的字符频率差异程度参数。
其次,相似度高的文本在字符的位置分布上会比较接近,而相似度低的文本在字符的位置分布上差异较大,故同一对应分组下数据文本与对比文本的交集字符在各自数据文本和对比文本中的位置的离散程度反映了数据文本和对比文本的相似性。如果两个文本相似度高,则它们的交集字符位置分布会比较接近,因为它们在内容和语言结构上有很多相似之处,相反,如果两个文本相似度较低,则它们的交集字符位置分布差异会比较大,因为它们在内容和语言上的相似之处很少。在第i个对应分组中,每个交集字符在数据文本和对比文本中的位置分别为和/>(由于数据文本和对比文本的长度可能不一致,故交集字符在数据文本和对比文本中的位置的区间也可能不一致,故E与R在数值上相等但是表示的位置不相等,例如/>表示的是某对应分组下第3个交集字符在数据文本中的位置,这个位置在数据文本中的位置等于4,而/>表示的是某对应分组下第3个交集字符在对比文本中的位置,这个位置在对比文本中的位置等于9。另外在本实施例中当一个交集字符在数据文本或者对比文本中存在多个位置时,取这多个位置的均值作为其在数据文本或者对比文本中的位置),则有以下公式:
其中,为第i个对应分组的交集字符位置分布权重影响参数,/>表示第q个交集字符在第i个对应分组内数据文本中的位置,/>表示第/>个交集字符在第i个对应分组内对比文本中的位置,/>和/>分别为第i个对应分组内数据文本和对比文本的交集字符分别在数据文本和对比文本中的位置的平均值,/>为第i个对应分组内交集字符在数据文本中占用的位置的数量,/>为第i个对应分组内交集字符在对比文本中占用的位置的数量,/>和/>则分别表示了第i个对应分组内数据文本和对比文本中交集字符出现次数的总数。离散程度可以作为一种指标来衡量数据的相似性,数据文本和对比文本中数据分布情况越接近则其数据位置的离散程度越接近,而数据文本中数据分布差异越大则其数据位置的离散程度差异越大,数据分布相似性越高,数据文本和对比文本离散程度差的绝对值越小,数据分布相似性越低,数据文本和对比文本离散程度差的绝对值越大。
本实施例其次得到了每个对应分组的交集字符位置分布权重影响参数。
最后,虽然交集字符位置分布的离散程度可以一定程度上判断数据的相似性,但交集字符种类很多,可能存在交集数据分布情况相同但字符位置不同的情况,且交集数据种类较多,同一对应分组下的两个文本中相同的交集字符的数量可能不同,导致无法对相同的每个字符位置一一进行对比,所以计算每个字符在其分组内平均位置再进行差异分析可以得到该字符在分组内存在的大致位置分布,如果数据文本和对比文本的字符交集位置分布相似程度很高,那么它们可能具有相似的数据结构和内容。反之,如果原文本和对比文本的字符交集位置分布相似程度很低,那么它们可能不具有相似的数据结构和内容。得到每个对应分组中的每种字符分布情况的差异值具体公式如下。
其中,为第i个对应分组中的第f种字符分布情况的差异值,/>为第f种字符在第i个对应分组下的数据文本中存在的数量,/>为第f种字符在第i个对应分组下的对比文本中存在的数量;/>为第f种字符在第i个对应分组下的数据文本中第/>次出现的位置,为第f种字符在第i个对应分组下的对比文本中第/>次出现的位置;/>为第i个对应分组下数据文本中的字符总数量,/>为第i个对应分组下对比文本中的字符总数量;公式计算了第i个对应分组中的第f种字符在数据文本和对比文本中的平均位置,并对位置信息进行归一化,方便对比数据文本和对比文本该字符的位置信息,/>的值越小,则说明第i个对应分组中的第f种字符在数据文本和对比文本中的位置越接近。
通过上述公式可以计算分组交集内每种字符的平均位置,其中n为交集字符种类数量,即上述步骤中去重后的数据交集数量,所以分组内数据位置相似程度权重用以下公式表示:
其中,为第i个对应分组的数据位置相似程度权重参数,F为第i个对应分组中字符种类的总数,且有/>,/>为第i个对应分组中的第f种字符分布情况的差异程度。累加每个分组中所有种类字符在数据文本和对比文本中的位置差异程度可以得到这组数据总的位置差异程度,位置差异程度越小,数据文本和对比文本的相似性越高。
本实施例最后得到了每个对应分组的数据位置相似程度权重参数。
至此,本实施例获得了每个对应分组的字符频率差异程度参数、交集字符位置分布权重影响参数和数据位置相似程度权重参数。
权重拟合模块S004,用于将每个对应分组的字符频率差异程度参数、交集字符位置分布权重影响参数和数据位置相似程度权重参数得到相似度权数,并利用相似度权数得到Dice相似度权重。
根据模块S003得到的三个参数得到每个对应分组下数据文本和对比文本的相似度权数的计算公式如下所示:
其中,为第i个对应分组下数据文本和对比文本的相似度权数,/>、/>和/>分别为第i个对应分组的字符频率差异程度参数、交集字符位置分布权重影响参数和数据位置相似程度权重参数。三个参数的参数值越大,数据的相似程度越低,即权重越小参数大小和相似程度为负相关关系,即参数大小与Dice相似度权重为负相关关系,所以在计算权数时需要取倒数,且避免参数为0时公式不成立,所以需要给分母加1。而对于加权运算中,权重需要满足归一化条件,故可以用以下公式对/>进行归一化:
其中,是第i个对应分组的Dice相似度权重,/>是第i个对应分组下数据文本和对比文本的相似度权数。
至此,得到了每个对应分组的Dice相似度权重。
相似判定模块S005,用于利用Dice相似度权重得到整个数据文本和对比文本的相似度并判断互联网广告是否涉嫌抄袭。
利用Dice相似度判定并结合所有对应分组Dice相似度判定的权重,可以得到整个数据文本和对比文本的相似度:
其中,DIC为整个数据文本和对比文本的相似度,I为对应分组的总个数且有,/>为第i个对应分组的原始Dice相似度,具体计算为现有公知技术,/>为与之对应的权重。对所有对应分组的原始Dice相似度进行加权平均,可以得到数据文本和对比文本的相似度,再除以总的对应分组的数目,就得到了归一化的数据文本和对比文本的Dice相似度。
至此,得到了归一化的数据文本和对比文本的Dice相似度,在实际判断互联网广告是否涉嫌抄袭的过程中,可以人为设定抄袭阈值,当某数据文本和对比文本的相似度超过抄袭阈值时,则认为该数据文本相较于对比文本存在抄袭现象,将判断结果传输给相应工作人员进行解决处理。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.基于大数据的互联网广告智能监测系统,其特征在于,该系统包括:
文本采集模块,用于采集数据文本和对比文本;
数据分组模块,用于利用相似度对数据文本和对比文本进行分组得到对应分组;
参数计算模块,用于计算每个对应分组的字符频率差异程度参数、交集字符位置分布权重影响参数和数据位置相似程度权重参数;
权重拟合模块,用于将每个对应分组的字符频率差异程度参数、交集字符位置分布权重影响参数和数据位置相似程度权重参数得到相似度权数,并利用相似度权数得到Dice相似度权重;
相似判定模块,用于利用Dice相似度权重得到整个数据文本和对比文本的相似度并判断互联网广告是否涉嫌抄袭;
所述利用相似度对数据文本和对比文本进行分组得到对应分组,包括的具体步骤如下:
对每个数据文本和每个对比文本进行Dice相似度计算得到每个数据文本和每个对比文本的相似度,将每个数据文本和与其相似度最高的对比文本进行关联,得到对应字符,最后把所有的对应字符放入一个集合中,将该集合记为对应分组;
所述字符频率差异程度参数的具体计算公式如下:
其中,为第i个对应分组下的字符频率差异程度参数,i表示所有的I个对应分组中第i个对应分组且有/>,/>为第i个对应分组下第q个交集字符在数据文本中出现的次数,/>为第i个对应分组下第q个交集字符在对比文本中出现的次数,q为每个分组中数据文本和对比文本字符集合的交集中的第q个字符,共Q个且有/>;
所述交集字符位置分布权重影响参数的具体获取步骤如下:
在每个对应分组中,将每个交集字符在数据文本和对比文本中的位置分别记为和/>,并计算如下公式:
其中,为第i个对应分组下的交集字符位置分布权重影响参数,/>表示第/>个交集字符在第i个对应分组内数据文本中的位置,/>表示第/>个交集字符在第i个对应分组内对比文本中的位置,/>和/>分别为第i个对应分组内数据文本和对比文本的交集字符分别在数据文本和对比文本中的位置的平均值,/>为第i个对应分组内交集字符在数据文本中占用的位置的数量,/>为第i个对应分组内交集字符在对比文本中占用的位置的数量,/>为第i个对应分组下第q个交集字符在数据文本中出现的次数,/>为第i个对应分组下第q个交集字符在对比文本中出现的次数,q为每个分组中数据文本和对比文本字符集合的交集中的第q个字符,共Q个且有/>;
第i个对应分组中的第f种字符分布情况的差异值的具体获取步骤如下:
其中,为第i个对应分组中的第f种字符分布情况的差异值,/>为第f种字符在第i个对应分组下的数据文本中存在的数量,/>为第f种字符在第i个对应分组下的对比文本中存在的数量;/>为第f种字符在第i个对应分组下的数据文本中第/>次出现的位置,/>为第f种字符在第i个对应分组下的对比文本中第/>次出现的位置;/>为第i个对应分组下数据文本中的字符总数量,/>为第i个对应分组下对比文本中的字符总数量;
将差异值进行求和,得到每个对应分组的数据位置相似程度权重参数;
所述将每个对应分组的字符频率差异程度参数、交集字符位置分布权重影响参数和数据位置相似程度权重参数得到相似度权数,并利用相似度权数得到Dice相似度权重,包括的具体步骤如下:
相似度权数的计算过程为:
其中,为第i个对应分组下数据文本和对比文本的相似度权数,/>、/>和/>分别为第i个对应分组的字符频率差异程度参数、交集字符位置分布权重影响参数和数据位置相似程度权重参数;
最后,再将每个对应分组下数据文本和对比文本的相似度权数进行归一化操作,得到每个对应分组的Dice相似度权重;
所述利用Dice相似度权重得到整个数据文本和对比文本的相似度,包括的具体步骤如下:
计算每个对应分组内数据文本和对比文本的Dice相似度,将每个对应分组内数据文本和对比文本的Dice相似度与每个对应分组的Dice相似度权重相乘,得到每个对应分组的相似因子,计算所有对应分组的相似因子的算数均值,将算术均值作为整个数据文本和对比文本的相似度。
2.根据权利要求1所述基于大数据的互联网广告智能监测系统,其特征在于,所述数据文本和对比文本的获取方法为:
在所有互联网广告文本中,按照文本的出现时间进行采集,在所有采集到的文本中选择两个文本,将两个文本中出现时间较为靠前的文本记为对比文本,两个文本中出现时间较为靠后的文本记为数据文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310752534.9A CN116484830B (zh) | 2023-06-26 | 2023-06-26 | 基于大数据的互联网广告智能监测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310752534.9A CN116484830B (zh) | 2023-06-26 | 2023-06-26 | 基于大数据的互联网广告智能监测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116484830A CN116484830A (zh) | 2023-07-25 |
CN116484830B true CN116484830B (zh) | 2023-12-26 |
Family
ID=87219952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310752534.9A Active CN116484830B (zh) | 2023-06-26 | 2023-06-26 | 基于大数据的互联网广告智能监测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116484830B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009043189A (ja) * | 2007-08-10 | 2009-02-26 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
CN105488031A (zh) * | 2015-12-09 | 2016-04-13 | 北京奇虎科技有限公司 | 一种检测相似短信的方法及装置 |
CN105630767A (zh) * | 2015-12-22 | 2016-06-01 | 北京奇虎科技有限公司 | 一种文本相似性的比较方法以及装置 |
CN106095841A (zh) * | 2016-06-05 | 2016-11-09 | 西华大学 | 一种基于协同过滤的移动互联网广告推荐方法 |
CN106611041A (zh) * | 2016-09-29 | 2017-05-03 | 四川用联信息技术有限公司 | 一种新的文本相似度求解方法 |
CN109635077A (zh) * | 2018-12-18 | 2019-04-16 | 武汉斗鱼网络科技有限公司 | 文本相似度的计算方法、装置、电子设备及存储介质 |
CN111159333A (zh) * | 2019-12-09 | 2020-05-15 | 芜湖乐哈哈信息科技有限公司 | 藏文期刊论文检索系统 |
CN111859901A (zh) * | 2020-07-15 | 2020-10-30 | 大连理工大学 | 一种英文重复文本检测方法、系统、终端及存储介质 |
KR20210012495A (ko) * | 2019-07-25 | 2021-02-03 | (주) 다각형컴퍼니 | Sns 텍스트와 광고 컨텐츠의 유사성 및 광고 노출 분포의 공정성을 조합한 광고 추천 기술 및 방법 |
CN112395851A (zh) * | 2020-11-18 | 2021-02-23 | 北京北大英华科技有限公司 | 一种文本比对方法、装置、计算机设备及可读存储介质 |
CN113326688A (zh) * | 2021-06-16 | 2021-08-31 | 黑龙江八一农垦大学 | 一种基于思想政治词语查重处理方法和装置 |
WO2023071118A1 (zh) * | 2021-10-25 | 2023-05-04 | 苏州浪潮智能科技有限公司 | 一种计算文本相似度的方法、系统、设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7925652B2 (en) * | 2007-12-31 | 2011-04-12 | Mastercard International Incorporated | Methods and systems for implementing approximate string matching within a database |
-
2023
- 2023-06-26 CN CN202310752534.9A patent/CN116484830B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009043189A (ja) * | 2007-08-10 | 2009-02-26 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
CN105488031A (zh) * | 2015-12-09 | 2016-04-13 | 北京奇虎科技有限公司 | 一种检测相似短信的方法及装置 |
CN105630767A (zh) * | 2015-12-22 | 2016-06-01 | 北京奇虎科技有限公司 | 一种文本相似性的比较方法以及装置 |
CN106095841A (zh) * | 2016-06-05 | 2016-11-09 | 西华大学 | 一种基于协同过滤的移动互联网广告推荐方法 |
CN106611041A (zh) * | 2016-09-29 | 2017-05-03 | 四川用联信息技术有限公司 | 一种新的文本相似度求解方法 |
CN109635077A (zh) * | 2018-12-18 | 2019-04-16 | 武汉斗鱼网络科技有限公司 | 文本相似度的计算方法、装置、电子设备及存储介质 |
KR20210012495A (ko) * | 2019-07-25 | 2021-02-03 | (주) 다각형컴퍼니 | Sns 텍스트와 광고 컨텐츠의 유사성 및 광고 노출 분포의 공정성을 조합한 광고 추천 기술 및 방법 |
CN111159333A (zh) * | 2019-12-09 | 2020-05-15 | 芜湖乐哈哈信息科技有限公司 | 藏文期刊论文检索系统 |
CN111859901A (zh) * | 2020-07-15 | 2020-10-30 | 大连理工大学 | 一种英文重复文本检测方法、系统、终端及存储介质 |
CN112395851A (zh) * | 2020-11-18 | 2021-02-23 | 北京北大英华科技有限公司 | 一种文本比对方法、装置、计算机设备及可读存储介质 |
CN113326688A (zh) * | 2021-06-16 | 2021-08-31 | 黑龙江八一农垦大学 | 一种基于思想政治词语查重处理方法和装置 |
WO2023071118A1 (zh) * | 2021-10-25 | 2023-05-04 | 苏州浪潮智能科技有限公司 | 一种计算文本相似度的方法、系统、设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
String Comparators for Chinese-Characters-Based Record Linkages;SENLIN XU 等;《IEEE》;第2021年卷;第3735-3743页 * |
基于Levenshtein和TFRSF的文本相似度计算方法;藏润强 等;《计算机与现代化》;2018年(第4期);第84-89页 * |
基于深度学习的文本模糊抄袭和剽窃活动检测研究;周世豪;《知网》;第2020年卷(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116484830A (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107798600A (zh) | 互联网金融小微贷款的信用风险识别方法及装置 | |
CN104216876B (zh) | 信息文本过滤方法及系统 | |
CN104750674B (zh) | 一种人机会话满意度预测方法及系统 | |
CN110826618A (zh) | 一种基于随机森林的个人信用风险评估方法 | |
CN108090628A (zh) | 一种基于pso-lssvm算法的粮情安全检测分析方法 | |
CN116739541B (zh) | 一种基于ai技术的智能人才匹配方法及系统 | |
CN111079283B (zh) | 对信息饱和度不均衡数据的处理方法 | |
WO2022121163A1 (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
CN117241306B (zh) | 一种4g网络异常流量数据实时监测方法 | |
CN109214444B (zh) | 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法 | |
CN117078490A (zh) | 基于多项因素进行同步分析的城市小微水体风险评估方法 | |
CN106611016B (zh) | 一种基于可分解词包模型的图像检索方法 | |
CN107516370A (zh) | 一种票据识别的自动化测试及评价方法 | |
CN114398891B (zh) | 基于日志关键词生成kpi曲线并标记波段特征的方法 | |
CN111339385A (zh) | 基于cart的舆情类型识别方法及系统、存储介质、电子设备 | |
CN116484830B (zh) | 基于大数据的互联网广告智能监测系统 | |
CN116681056B (zh) | 基于价值量表的文本价值计算方法及装置 | |
CN110096708B (zh) | 一种定标集确定方法及装置 | |
CN116955624A (zh) | 文本的识别方法、装置、处理器以及电子设备 | |
CN111340125A (zh) | 基于随机森林算法训练子宫内膜异位囊肿破裂数据的方法 | |
CN114650239B (zh) | 一种数据的刷量识别方法、存储介质和电子设备 | |
CN113657726B (zh) | 基于随机森林的人员的危险性分析方法 | |
CN111860299B (zh) | 目标对象的等级确定方法、装置、电子设备及存储介质 | |
WO2022011827A1 (zh) | 一种采用错因强化方式优化损失函数的方法 | |
CN113933334A (zh) | 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |