CN111881304B - 一种作者识别方法、装置、设备和存储介质 - Google Patents
一种作者识别方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN111881304B CN111881304B CN202010707502.3A CN202010707502A CN111881304B CN 111881304 B CN111881304 B CN 111881304B CN 202010707502 A CN202010707502 A CN 202010707502A CN 111881304 B CN111881304 B CN 111881304B
- Authority
- CN
- China
- Prior art keywords
- author
- account
- content
- similarity
- content distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000011218 segmentation Effects 0.000 claims description 51
- 238000004364 calculation method Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 5
- 230000008450 motivation Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 230000003442 weekly effect Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种作者识别方法、装置、设备和存储介质,涉及智能搜索、信息流和内容识别领域。具体实现方案为:获取至少两个内容发布平台中各作者账号的身份描述信息,所述身份描述信息包括:作者属性信息,和/或发布内容属性信息;根据各所述作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标;根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者。本申请实施例的技术方案可以根据各发布平台中各作者账号的身份描述信息,对全部作者进行识别,提高了相同作者识别准确率,且极大的释放了运营人力成本。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及大数据、智能搜索和信息流技术,具体涉及一种作者识别方法、装置、设备和存储介质。
背景技术
随着互联网技术的不断发展,用户可以在不同的信息发布平台中发布各种UGC(User Generated Content,用户生产内容)。同一用户可能会选择入驻不同信息发布平台,或者,同一用户在不同信息发布平台中的发文活跃度不相同。
现有技术中,为了提高用户在各个信息发布平台的内容生产量,特别是,提高新增信息发布平台的内容生产量,需要能够将一些现有平台的优质作者在新平台中引入。但是,由于同一用户可以在不同信息发布平台使用不同的账号名,因此,如何在不同平台中有效甄别相同作者,是目前有待解决的一个重要技术难点。
发明内容
本申请提供了一种作者识别方法、装置、设备以及存储介质。
根据本申请的一方面,提供了一种作者识别方法,包括:
获取至少两个内容发布平台中各作者账号的身份描述信息,所述身份描述信息包括:作者属性信息,和/或发布内容属性信息;
根据各所述作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标;
根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者。
根据本申请的另一方面,提供了一种作者识别装置,包括:
身份描述信息获取模块,用于获取至少两个内容发布平台中各作者账号的身份描述信息,所述身份描述信息包括:作者属性信息,和/或发布内容属性信息;
相似度指标计算模块,用于根据各所述作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标;
相同作者识别模块,用于根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者。
根据本申请的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请实施例中任一项所述的方法。
根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本申请实施例中任一项所述的方法。
根据本申请的技术提供了一种在不同信息发布平台中有效甄别相同作者识别的实现方式。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例的一种作者识别方法的示意图;
图2是根据本申请实施例的一种作者识别方法的示意图;
图3是根据本申请实施例的一种作者识别方法的示意图;
图4根据本申请实施例的一种作者识别装置的结构示意图;
图5是用来实现本申请实施例的作者识别方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是本申请实施例中的一种作者识别方法的示意图,本实施例的技术方案适用于通过多个内容发布平台中各作者账号的身份描述信息来识别不同内容发布平台中相同作者的情况,该方法可以由作者识别装置执行,该装置可以通过软件,和/或硬件的方式实现,并一般可以集成在电子设备中,例如终端设备中,本实施例的方法具体包括以下步骤:
步骤110、获取至少两个内容发布平台中各作者账号的身份描述信息,身份描述信息包括:作者属性信息,和/或发布内容属性信息。
本实施例中,同一个作者可能会在多个内容发布平台注册账号并发布内容,且同一作者在不同内容发布平台的账号可能不相同,为了识别不同内容发布平台中的相同作者,首先获取至少两个内容发布平台中各作者账号的身份描述信息,以便于根据不同内容发布平台中作者账号的身份描述信息来识别相同作者,其中,身份描述信息包括作者属性信息,和/或发布内容属性信息,作者属性信息可以包括作者的账号名称以及作者类型等信息,发布内容属性信息可以包括发布内容的标题和正文等信息。示例性的,分别获取不同内容发布平台中多个作者账号对应的作者账号名称、作者类型、发布内容等信息,以根据上述信息来识别不同内容发布平台中的相同作者。
步骤120、根据各作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标。
其中,身份相似度指标是用于表示不同内容发布平台中各作者账号之间相似度的指标,身份相似度指标越高,各作者账号对应于同一作者的可能性越大。示例性的,身份相似度指标可以包括作者名称相似度、发布内容的正文相似度以及发布内容的标题相似度等。
本实施例中,为了识别在不同内容发布平台中发布内容的同一作者,根据各作者账号对应的身份描述信息,计算不同内容发布平台中作者账号之间的身份相似度指标,具体的,可以计算不同内容发布平台中作者账号之间各维度的相似度,例如,计算作者名称相似度、近一周发布内容的正文相似度以及近一个月发布内容的标题相似度等。
步骤130、根据不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者。
本实施例中,在计算得到不同维度的相似度指标后,根据不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者,具体的,可以根据设定的判断规则,基于作者名称相似度、发布内容的正文相似度以及发布内容的标题相似度,来判断不同内容发布平台的作者账号是否为相同作者。
示例性的,设定的判断规则可以是当作者名称相似度大于80%,同时在一周内发布内容的正文相似度大于25%,或者一个月内发布内容的标题相似度大于20%,则认为当前判断的不同内容发布平台的作者账号对应相同作者。
本申请实施例的技术方案,首先获取至少两个内容发布平台中各作者账号的身份描述信息,然后根据各作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标,最终根据不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者,解决了现有技术中通过用户在不同平台的账号名称、发文情况等因素,人为识别不同平台中的相同作者的方式,识别准确率低且人力成本高的问题,利用大数据技术,根据各发布平台中各作者账号的身份描述信息,对全部作者进行识别,提高了相同作者识别准确率,且极大的释放了运营人力成本。
可选的,在根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者之后,还包括:
根据同一作者在不同内容发布平台的内容发布情况,向作者提供匹配的发布提示信息。
本可选的实施例中,提供了在不同内容发布平台中识别出相同作者之后的操作,具体为,当识别出同一作者在不同内容发布平台进行内容发布时,根据同一作者在不同内容发布平台的内容发布情况,向作者提供匹配的发布提示信息。示例性的,当作者在内容发布平台A和B中都发布过内容时,可以获取该作者在两个平台中的活跃度,并向活跃度较低的平台账号发送提示信息,例如,当监测到该作者在内容发布平台A的活跃度高于B时,可以该作者向内容发布平台B的账号发送激励信息,以激励作者提高在内容发布平台B中的活跃度;又示例性的,当检测到一个作者在内容发布平台A和B中都发布过内容,而且该作者是内容发布平台A的独家签约作者时,可以向该作者在内容发布平台A或B的账号发送签约保护提醒,提示用户只能在独家签约平台进行内容发布。
图2是本申请实施例中的一种作者识别方法的示意图,本实施例在上述实施例的基础上进一步细化,提供了根据各作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标的具体步骤,以及根据不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者具体步骤。下面结合图2对本申请实施例提供的一种作者识别方法进行说明,包括以下步骤:
步骤210、获取至少两个内容发布平台中各作者账号的身份描述信息,身份描述信息包括:作者属性信息,和/或发布内容属性信息。
可选的,作者属性信息包括:作者账号名称;发布内容属性信息包括:发布内容中的标题以及正文。
本可选的实施例中,提供了作者属性信息和发布内容属性信息的具体内容,其中作者属性信息包括作者账号名称;发布内容属性信息包括发布内容中的标题和正文。上述身份描述信息包含的内容可以充分代表全网数据,能够提高相同作者识别准确度。
步骤220、根据各作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标。
可选的,身份相似度指标包括下述至少一项:作者名称相似度、至少一个设定时间区间内的发布内容的正文相似度,以及发布内容的标题相似度;
设定时间区间包括:最近一周、最近一月以及全部历史时间。
本可选的实施例中,提供了多项身份相似度指标,包括作者名称相似度、至少一个设定时间区间内的发布内容的正文相似度,以及发布内容的标题相似度,即上述相似度均可以作为判断是否为相同作者的指标,其中,设定时间区间包括最近一周、最近一月以及全部历史时间。根据上述身份相似度指标,可以从多维度获取作者账号的信息,进一步提高相同作者识别准确度。
可选的,根据各作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标,包括:
获取第一内容发布平台中第一作者账号的第一账号名称以及第二内容发布平台中第二作者账号的第二账号名称;
分别对第一账号名称以及第二账号名称进行分词处理,得到第一分词集合以及第二分词集合;
计算第一分词集合以及第二分词集合中包括的相同分词的数量值;
根据相同分词的数量值,计算第一作者账号与第二作者账号之间的作者名称相似度。
本可选的实施例中,提供了一种根据各作者账号的身份描述信息,计算不同内容发布平台作者账号之间的作者名称相似度的方式,具体为,首先获取第一内容发布平台中第一作者账号的第一账号名称,并获取第二内容发布平台中第二作者账号的第二账号名称,然后对第一账号名称以及第二账号名称进行分词处理,得到第一分词集合以及第二分词集合,并计算第一分词集合以及第二分词集合中包括的相同分词的数量值,最终根据相同分词的数量值,计算第一作者账号与第二作者账号之间的作者名称相似度,具体的,可以先计算第一分词集合和第二分词集合中包含的总分词数量,并对总分词数量和相同分词的数量值作差,最终将相同分词的数量和作差结果的比值作为作者名称相似度,此时可以将作者名称相似度作为相同作者识别的其中一个指标。
示例性的,获取第一内容发布平台中第一作者账号的第一账号名称为“翱翔在蔚蓝的天空”,并获取第二内容发布平台中第二作者账号的第二账号名称为“梦想的天空”,然后对获取到的两个账号名称做分词处理,得到与第一账号名称对应的第一分词集合T1={翱翔,在,蔚蓝,的,天空},以及与第二账号名称对应的第二分词集合T2={梦想,的,天空},进一步的,计算第一分词集合T1以及第二分词集合T2中包括的相同分词的数量值为2,即两个分词集合中仅有“的”和“天空”两个分词相同,最终根据相同分词的数量值,计算第一作者账号和第二作者账号的作者名称相似度,具体为,第一分词集合中分词数量为5,第二分词集合中分词数量为3,相同分词的数量值为2,最终可以得到作者名称相似度为2/(5+3-2)=33%。
可选的,根据各作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标,包括:
获取第一内容发布平台中第一作者账号在设定时间区间内所发布内容的第一正文集合,以及第二内容发布平台中第二作者账号在设定时间区间内所发布内容的第二正文集合;
分别计算第一正文集合和第二正文集合中各第一正文和第二正文间的内容相似度;
根据内容相似度,在第一正文集合和第二正文集合中确定相似正文对;
根据所述相似正文对的数量,计算所述第一作者账号与所述第二作者账号之间的所述设定时间区间内的发布内容的正文相似度。
本可选的实施例中,提供了一种根据各作者账号的身份描述信息,计算不同内容发布平台作者账号之间设定时间区间内发布内容的正文相似度的方式,具体为,首先获取第一内容发布平台中第一作者账号在设定时间区间内所发布内容的第一正文集合,并获取第二内容发布平台中第二作者账号在所述设定时间区间内所发布内容的第二正文集合,然后计算第一正文集合和第二正文集合中各第一正文和第二正文间的内容相似度,即将第一正文集合中的各正文和第二正文集合中的各正文进行一一比对,得到第一正文集合中每篇正文与第二正文集合中各正文的相似度,并将相似度高于设定阈值的两篇正文确定为相似正文对,最终根据相似正文对的数量,计算第一作者账号与第二作者账号之间的设定时间区间内的发布内容的正文相似度,具体的,将上述两个正文集合中总的正文数量与相似正文对的数量作差,将相似正文对的数量与作差结果的比值作为设定时间区间内的发布内容的正文相似度,此时可以将发布内容的正文相似度作为相同作者识别的其中一个指标。
示例性的,获取第一内容发布平台中第一作者账号近3天所发布的第一正文集合X1={A1,A2,A3,A4,A5},并获取第二内容发布平台中第二作者账号近3天所发布的第二正文集合X2={B1,B2,B3,B4,B5,B6,B7,B8},其中,A1~A5以及B1~B8均表示一篇正文,进一步的,计算正文A1与第二正文集合中各正文的相似度,以及正文A2与第二正文集合中各正文的相似度,直至完成上述两个正文集合中各正文的两两比对,然后将内容相似度高于65%的两篇正文作为相似正文对,例如,共存在A1和B2,A3和B4两个相似正文对,最终根据相似正文对数量计算3天内发布内容的正文相似度,具体的,第一正文集合中正文数量为5,第二正文集合中分词数量为8,相似正文对的数量值为2,最终可以得到发布内容的正文相似度为2/(5+8-2)=18%。
可选的,根据各作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标,包括:
获取第一内容发布平台中第一作者账号最近发布的设定数量的发布内容的标题构成第一标题集合;
获取第二内容发布平台中第二作者账号最近发布的设定数量的发布内容的标题构成第二标题集合;
计算第一标题集合以及第二标题集合中包括的相同标题的数量值;
根据相同标题的数量值,计算第一作者账号与第二作者账号之间的发布内容的标题相似度。
本可选的实施例中,提供了一种根据各作者账号的身份描述信息,计算不同内容发布平台中作者账号之间设定时间区间内的发布内容的标题相似度的方式,具体为,首先获取第一内容发布平台中第一作者账号最近发布的设定数量的发布内容的标题构成第一标题集合,并获取第二发布内容平台中第二作者账号最近发布的设定数量的发布内容的标题构成第二标题集合,然后计算第一标题集合以及第二标题集合中包括的相同标题的数量值,最终根据相同标题的数量值,计算第一作者账号与第二作者账号之间的发布内容的标题相似度,此时可以将发布内容的标题相似度作为相同作者识别的其中一个指标。
示例性的,首先获取第一内容发布平台中第一作者账号最近30天发布的设定数量的发布内容的标题构成第一标题集合Y1={C1,C2,C3},并获取第二内容发布平台中第二作者账号最近30天发布的设定数量的发布内容的标题构成第二标题集合Y2={C1,C5,C6},则可以确定第一标题集合以及第二标题集合中相同标题的数量值为1,最终可以根据相同标题数量值,计算第一作者账号与第二作者账号之间的发布内容的标题相似度,具体的,第一标题集合中正文数量为3,第二标题集合中分词数量为3,相同标题的数量值为1,最终可以得到发布内容的标题相似度为1/(3+3-1)=20%。
步骤230、获取与第一内容发布平台中第一作者账号以及第二内容发布平台中第二作者账号之间的目标身份相似度指标。
本实施例中,为了在不同内容发布平台中识别相同作者,首先获取第一内容发布平台中第一作者账号以及第二内容发布平台中第二作者账号之间的目标身份相似度指标,目标身份相似度标识可以是作者名称相似度、至少一个设定时间区间内的发布内容的正文相似度,以及发布内容的标题相似度。
步骤240、确定目标身份相似度指标中的作者名称相似度所属的名称相似度数值区间,并根据名称相似度数值区间,获取与数值区间匹配的目标内容相似度阈值集合。
本实施例中,因为同一作者在不同的内容发布平台注册账号时,容易使用相同或者相近的账号名称,因此为了识别相同作者,可以先确定目标身份相似度指标中的作者名称相似度所属的相似度数值区间,然后根据预先设定的名称相似度数值区间和目标内容相似度阈值集合的对应关系,获取与数值区间匹配的目标内容相似度阈值集合,当目标内容相似度超过目标内容相似度阈值,则可以认为当前判断的不同内容发布平台的作者账号对应相同作者,其中,目标内容相似度阈值集合可以包括设定时间区间的发布内容的正文相似度阈值,以及设定时间区间的发布内容的标题相似度阈值。
示例性的,当作者名称相似度阈值为100%时,对应的目标内容相似度阈值集合包括,历史发布内容的正文相似度阈值为10%,月度发布内容的正文相似度阈值为15%,周发布内容的正文相似度阈值为20%,以及40天内发布内容的标题相似度阈值为10%;
当作者名称相似度阈值在80%~100%范围内时,对应的目标内容相似度阈值集合包括,历史发布内容的正文相似度阈值为15%,月度发布内容的正文相似度阈值为20%,周发布内容的正文相似度阈值为25%,以及40天内发布内容的标题相似度阈值为20%;
当作者名称相似度阈值在50%~80%范围内时,对应的目标内容相似度阈值集合包括,历史发布内容的正文相似度阈值为20%,月度发布内容的正文相似度阈值为25%,周发布内容的正文相似度阈值为30%,以及40天内发布内容的标题相似度阈值为30%;
当作者名称相似度阈值在0~50%范围内时,对应的目标内容相似度阈值集合包括,历史发布内容的正文相似度阈值为25%,月度发布内容的正文相似度阈值为30%,周发布内容的正文相似度阈值为35%,以及40天内发布内容的标题相似度阈值为35%;
当作者名称相似度阈值为0时,对应的目标内容相似度阈值集合包括,历史发布内容的正文相似度阈值为30%,月度发布内容的正文相似度阈值为35%,周发布内容的正文相似度阈值为40%,以及40天内发布内容的标题相似度阈值为40%。
步骤250、如果确定目标身份相似度指标中至少一个设定时间区间内的发布内容的正文相似度以及发布内容的标题相似度中的任一项满足目标内容相似度阈值集合中匹配的内容相似度阈值条件,则确定第一作者账号与第二作者账号属于相同作者;
其中,名称相似度数值区间越大,与名称相似度数值区间匹配的内容相似度阈值集合中的各项内容相似度阈值越小。
本实施例中,当获取到目标内容相似度阈值集合后,如果确定目标身份相似度指标中至少一个设定时间区间内的发布内容的正文相似度以及发布内容的标题相似度中的任一项满足目标内容相似度阈值集合中匹配的内容相似度阈值条件,则确定第一作者账号与第二作者账号属于相同作者。
示例性的,当确定作者名称相似度阈值为90%,可以确定作者名称相似度阈值在80%~100%范围内时,对应的目标内容相似度阈值集合包括,历史发布内容的正文相似度阈值为15%,月度发布内容的正文相似度阈值为20%,周发布内容的正文相似度阈值为25%,以及40天内发布内容的标题相似度阈值为20%。获取历史发布内容的正文相似度,月度发布内容的正文相似度,周发布内容的正文相似度,以及40天内发布内容的标题相似度,若其中一项超过相应阈值,则可以确定第一作者账号与第二作者账号属于相同作者。
本申请实施例的技术方案,首先获取至少两个内容发布平台中各作者账号的身份描述信息,然后根据各作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标,最终根据不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者,解决了现有技术中通过用户在不同平台的账号名称、发文情况等因素,人为识别不同平台中的相同作者的方式,识别准确率低且人力成本高的问题,一方面,利用大数据技术,对相同作者进行识别,降低了运营人力成本,另一方面,根据各发布平台中全部作者账号的身份描述信息,识别不同内容发布平台中的相同作者,能够充分代表全网数据,提高作者识别准确率,且能够对已注册用户进行持续追踪,时效性更佳。
图3是本申请实施例中的一种作者识别方法的示意图,本实施例在上述实施例的基础上进一步细化,提供了根据不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者之后的具体步骤。下面结合图3对本申请实施例提供的一种作者识别方法进行说明,包括以下步骤:
步骤310、获取至少两个内容发布平台中各作者账号的身份描述信息,身份描述信息包括:作者属性信息,和/或发布内容属性信息。
步骤320、根据各作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标。
步骤330、根据不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者。
步骤340、获取用户在至少一个内容发布平台中主动上报的,针对其他内容发布平台的账号绑定信息。
本实施例中,用户在一个内容发布平台上注册账号时,可能会绑定其在其他内容发布平台的注册账号,因此,可以获取用户在各内容发布平台中主动上报的,针对其他内容发布平台的账号绑定信息,根据账号绑定信息,可以对根据身份相似度指标识别的相同作者进行补充和校正。
步骤350、获取与各账号绑定信息分别对应用户账号集合,并确定各用户账号集合中的各用户账号属于相同作者。
本实施例中,在获取到用户主动上报的账号绑定信息后,获取与各账号绑定信息分别对应用户账号集合,将用户账号集合中的各用户账号确定为相同作者对应的账号。
示例性的,用户在内容发布平台A注册账号时,添加了针对内容发布平台B的账号绑定信息和针对内容发布平台C的账号绑定信息,则可以获取与各账号绑定信息分别对应的内容发布平台B的用户账号和内容发布平台C的用户账号,并确定这三个用户账号属于相同作者。
可选的,在根据不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者之后,还包括:
在第一目标内容发布平台中获取目标优质作者账号;
根据在不同内容发布平台中识别的与相同作者对应的各用户账号,判断至少一个其他内容发布平台中是否存在与目标优质作者账号属于相同作者的关联作者账号;
如果确定在第二目标内容发布平台中不存在关联作者账号,则向目标优质作者账号发送针对第二目标内容发布平台的内容发布邀请信息。
本可选的实施例中,为了在内容发布平台中引入优质作者,可以在第一目标内容发布平台中获取目标优质作者账号,然后根据在不同内容发布平台中识别的与相同作者对应的各用户账号,判断至少一个其他内容发布平台中是否存在与目标优质作者账号属于相同作者的关联作者账号,如果确定在第二目标内容发布平台中不存在关联作者账号,则向目标优质作者账号发送针对第二目标内容发布平台的内容发布邀请信息。
示例性的,在内容发布平台A中获取目标优质作者账号后,根据在不同内容发布平台中识别的与相同作者对应的各用户账号,判断内容发布平台B中是否存在与上述目标优质作者账号属于相同作者的关联作者账号,如果不存在,则向目标优质作者账号发送针对该内容发布平台B的内容发布邀请信息,以将内容发布平台A中的优质作者引入到内容发布平台B中。
可选的,在根据不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者之后,还包括:
在第一目标内容发布平台中获取目标独家签约作者账号;
根据在不同内容发布平台中识别的与相同作者对应的各用户账号,判断至少一个其他内容发布平台中是否存在与目标独家签约作者账号属于相同作者的关联作者账号;
如果确定在第二目标内容发布平台中存在关联作者账号,则向目标独家签约作者账号,和/或关联作者账号发送签约保护提醒信息。
本可选的实施例中,提供了一种在独家签约作者注册了多个内容发布平台的账号时,向该独家签约作者发送签约保护提醒的策略,具体的,在第一目标内容发布平台中获取目标独家签约作者账号,并根据在不同内容发布平台中识别的与相同作者对应的各用户账号,判断至少一个其他内容发布平台中是否存在与目标独家签约作者账号属于相同作者的关联作者账号,如果确定在第二目标内容发布平台中存在关联作者账号,则向目标独家签约作者账号,和/或关联作者账号发送签约保护提醒信息。
示例性的,在内容发布平台A中获取独家签约作者账号,然后根据在不同内容发布平台中识别的与相同作者对应的各用户账号,判断在其他内容发布平台中是否存在与当前内容发布平台A的独家签约作者账号属于相同作者的关联作者账号,若发现内容发布平台B中存在与当前内容发布平台A的独家签约作者账号属于相同作者的关联作者账号,则向当前内容发布平台A的独家签约作者账号,和/或内容发布平台B中的关联作者账号发送签约保护提醒信息,以提醒独家签约作者停止在非签约平台发布内容。
可选的,在根据不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者之后,还包括:
根据在不同内容发布平台中识别的与相同作者对应的各用户账号,获取相同作者在不同内容发布平台的活跃度;
向活跃度低的内容发布平台的作者账号发送活跃度激励信息。
本实施例中,为了提高作者账号的活跃度,首先根据在不同内容发布平台中识别的与相同作者对应的各用户账号,获取相同作者在不同内容发布平台的活跃度,然后向活跃度低的内容发布平台的作者账号发送活跃度激励信息。示例性的,获取同一个作者在内容发布平台A和内容发布平台B中的活跃度,当内容发布平台A中的活跃度低于内容发布平台B中的活跃度时,向该作者在内容发布平台A的账号发送活跃度激励信息,以提示作者提高在内容发布平台A中的活跃度,其中,活跃度可以是指作者在内容发布平台中发布内容的频率。
本申请实施例的技术方案,首先获取至少两个内容发布平台中各作者账号的身份描述信息,然后根据各作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标,最终根据不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者,进一步的可以根据获取到的与相同作者对应的各用户账号,将一个内容发布平台中的优质作者引入到其他内容发布平台,并提高作者在内容发布平台的活跃度,在提高相同作者识别准确率,且降低运营人力成本的同时,可以将目标优质作者引入平台,并提高作者活跃度。
图4是本申请实施例中的一种异常账号的识别装置的结构示意图,该异常账号的识别装置,包括:身份描述信息获取模块410、相似度指标计算模块420以及相同作者识别模块430。
身份描述信息获取模块410,用于获取至少两个内容发布平台中各作者账号的身份描述信息,身份描述信息包括:作者属性信息,和/或发布内容属性信息;
相似度指标计算模块420,用于根据各作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标;
相同作者识别模块430,用于根据不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者。
本申请实施例的技术方案,首先获取至少两个内容发布平台中各作者账号的身份描述信息,然后根据各作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标,最终根据不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者,解决了现有技术中通过用户在不同平台的账号名称、发文情况等因素,人为识别不同平台中的相同作者的方式,识别准确率低且人力成本高的问题,利用大数据技术,根据各发布平台中各作者账号的身份描述信息,对全部作者进行识别,提高了相同作者识别准确率,且极大的释放了运营人力成本。
可选的,所述作者识别装置,还包括:
提示信息提供模块,用于在根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者之后,根据同一作者在不同内容发布平台的内容发布情况,向所述作者提供匹配的发布提示信息。
可选的,所述作者识别装置,还包括:
作者账号获取模块,用于在根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者之后,在第一目标内容发布平台中获取目标优质作者账号;
关联作者账号判断模块,用于根据在不同内容发布平台中识别的与相同作者对应的各用户账号,判断至少一个其他内容发布平台中是否存在与所述目标优质作者账号属于相同作者的关联作者账号;
邀请信息发布模块,用于如果确定在第二目标内容发布平台中不存在所述关联作者账号,则向所述目标优质作者账号发送针对所述第二目标内容发布平台的内容发布邀请信息。
可选的,所述作者识别装置,还包括:
签约作者账号获取模块,用于在根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者之后,在第一目标内容发布平台中获取目标独家签约作者账号;
关联作者账号判断模块,用于根据在不同内容发布平台中识别的与相同作者对应的各用户账号,判断至少一个其他内容发布平台中是否存在与所述目标独家签约作者账号属于相同作者的关联作者账号;
提醒信息发送模块,用于如果确定在第二目标内容发布平台中存在所述关联作者账号,则向所述目标独家签约作者账号,和/或所述关联作者账号发送签约保护提醒信息。
可选的,所述作者识别装置,还包括:
活跃度获取模块,用于在根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者之后,根据在不同内容发布平台中识别的与相同作者对应的各用户账号,获取相同作者在不同内容发布平台的活跃度;
激励信息发送模块,用于向活跃度低的内容发布平台的作者账号发送活跃度激励信息。
可选的,作者属性信息包括:作者账号名称;发布内容属性信息包括:发布内容中的标题以及正文;
身份相似度指标包括下述至少一项:作者名称相似度、至少一个设定时间区间内的发布内容的正文相似度,以及发布内容的标题相似度;
设定时间区间包括:最近一周、最近一月以及全部历史时间。
可选的,相似度指标计算模块420,包括:
账号名称获取单元,用于获取第一内容发布平台中第一作者账号的第一账号名称以及第二内容发布平台中第二作者账号的第二账号名称;
分词集合获取单元,用于分别对第一账号名称以及第二账号名称进行分词处理,得到第一分词集合以及第二分词集合;
数量计算单元,用于计算第一分词集合以及第二分词集合中包括的相同分词的数量值;
名称相似度计算单元,用于根据相同分词的数量值,计算第一作者账号与第二作者账号之间的作者名称相似度;和/或
正文集合获取单元,用于获取第一内容发布平台中第一作者账号在设定时间区间内所发布内容的第一正文集合,以及第二内容发布平台中第二作者账号在设定时间区间内所发布内容的第二正文集合;
内容相似度计算单元,用于分别计算第一正文集合和第二正文集合中各第一正文和第二正文间的内容相似度;
相似正文对确定单元,用于根据内容相似度,在第一正文集合和第二正文集合中确定相似正文对;
正文相似度计算单元,用于根据相似正文对的数量,计算第一作者账号与第二作者账号之间的设定时间区间内的发布内容的正文相似度;和/或
第一标题集合获取单元,用于获取第一内容发布平台中第一作者账号最近发布的设定数量的发布内容的标题构成第一标题集合;
第二标题集合获取单元,用于获取第二内容发布平台中第二作者账号最近发布的设定数量的发布内容的标题构成第二标题集合;
数量计算单元,用于计算第一标题集合以及第二标题集合中包括的相同标题的数量值;
标题相似度计算单元,用于根据相同标题的数量值,计算第一作者账号与第二作者账号之间的发布内容的标题相似度。
可选的,相同作者识别模块430,具体用于:
获取与第一内容发布平台中第一作者账号以及第二内容发布平台中第二作者账号之间的目标身份相似度指标;
确定目标身份相似度指标中的作者名称相似度所属的名称相似度数值区间,并根据名称相似度数值区间,获取与数值区间匹配的目标内容相似度阈值集合;
如果确定目标身份相似度指标中至少一个设定时间区间内的发布内容的正文相似度以及发布内容的标题相似度中的任一项满足目标内容相似度阈值集合中匹配的内容相似度阈值条件,则确定第一作者账号与第二作者账号属于相同作者;
其中,名称相似度数值区间越大,与名称相似度数值区间匹配的内容相似度阈值集合中的各项内容相似度阈值越小。
可选的,作者识别装置,还包括:
绑定信息获取模块,用于在根据不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者之后,获取用户在至少一个内容发布平台中主动上报的,针对其他内容发布平台的账号绑定信息;
相同作者确定模块,用于获取与各账号绑定信息分别对应用户账号集合,并确定各用户账号集合中的各用户账号属于相同作者。
本申请实施例所提供的作者识别装置可执行本申请任意实施例所提供的作者识别方法,具备执行方法相应的功能模块和有益效果。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本申请实施例的作者识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的作者识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的作者识别方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的作者识别方法对应的程序指令/模块(例如,附图4所示的身份描述信息获取模块410、相似度指标计算模块420以及相同作者识别模块430)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的作者识别方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据作者识别电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至作者识别电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
作者识别方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与作者识别电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
本申请实施例的技术方案,首先获取至少两个内容发布平台中各作者账号的身份描述信息,然后根据各作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标,最终根据不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者,解决了现有技术中通过用户在不同平台的账号名称、发文情况等因素,人为识别不同平台中的相同作者的方式,识别准确率低且人力成本高的问题,利用大数据技术,根据各发布平台中各作者账号的身份描述信息,对全部作者进行识别,提高了相同作者识别准确率,且极大的释放了运营人力成本。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (16)
1.一种作者识别方法,包括:
获取至少两个内容发布平台中各作者账号的身份描述信息,所述身份描述信息包括:作者属性信息和发布内容属性信息;所述作者属性信息包括:作者账号名称;所述发布内容属性信息包括:发布内容中的标题以及正文;
根据各所述作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标;所述身份相似度指标包括下述至少一项:作者名称相似度、至少一个设定时间区间内的发布内容的正文相似度,以及发布内容的标题相似度;所述设定时间区间包括:最近一周、最近一月以及全部历史时间;
根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者;
其中,根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者,包括:
获取与第一内容发布平台中第一作者账号以及第二内容发布平台中第二作者账号之间的目标身份相似度指标;
确定目标身份相似度指标中的作者名称相似度所属的名称相似度数值区间,并根据所述名称相似度数值区间,获取与所述数值区间匹配的目标内容相似度阈值集合;其中,目标内容相似度阈值集合可以包括设定时间区间的发布内容的正文相似度阈值,以及设定时间区间的发布内容的标题相似度阈值;
如果确定目标身份相似度指标中至少一个设定时间区间内的发布内容的正文相似度以及发布内容的标题相似度中的任一项满足所述目标内容相似度阈值集合中匹配的内容相似度阈值条件,则确定所述第一作者账号与所述第二作者账号属于相同作者;
其中,名称相似度数值区间越大,与所述名称相似度数值区间匹配的内容相似度阈值集合中的各项内容相似度阈值越小。
2.根据权利要求1所述的方法,在根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者之后,还包括:
根据同一作者在不同内容发布平台的内容发布情况,向所述作者提供匹配的发布提示信息。
3.根据权利要求2所述的方法,其特征在于,根据同一作者在不同内容发布平台的内容发布情况,向所述作者提供匹配的发布提示信息,包括:
在第一目标内容发布平台中获取目标优质作者账号;
根据在不同内容发布平台中识别的与相同作者对应的各用户账号,判断至少一个其他内容发布平台中是否存在与所述目标优质作者账号属于相同作者的关联作者账号;
如果确定在第二目标内容发布平台中不存在所述关联作者账号,则向所述目标优质作者账号发送针对所述第二目标内容发布平台的内容发布邀请信息。
4.根据权利要求2所述的方法,其特征在于,根据同一作者在不同内容发布平台的内容发布情况,向所述作者提供匹配的发布提示信息,包括:
在第一目标内容发布平台中获取目标独家签约作者账号;
根据在不同内容发布平台中识别的与相同作者对应的各用户账号,判断至少一个其他内容发布平台中是否存在与所述目标独家签约作者账号属于相同作者的关联作者账号;
如果确定在第二目标内容发布平台中存在所述关联作者账号,则向所述目标独家签约作者账号,和/或所述关联作者账号发送签约保护提醒信息。
5.根据权利要求2所述的方法,其特征在于,根据同一作者在不同内容发布平台的内容发布情况,向所述作者提供匹配的发布提示信息,包括:
根据在不同内容发布平台中识别的与相同作者对应的各用户账号,获取相同作者在不同内容发布平台的活跃度;
向活跃度低的内容发布平台的作者账号发送活跃度激励信息。
6.根据权利要求1所述的方法,其中,根据各所述作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标,包括:
获取第一内容发布平台中第一作者账号的第一账号名称以及第二内容发布平台中第二作者账号的第二账号名称;
分别对所述第一账号名称以及所述第二账号名称进行分词处理,得到第一分词集合以及第二分词集合;
计算所述第一分词集合以及第二分词集合中包括的相同分词的数量值;
根据所述相同分词的数量值,计算所述第一作者账号与所述第二作者账号之间的作者名称相似度;和/或
获取第一内容发布平台中第一作者账号在设定时间区间内所发布内容的第一正文集合,以及第二内容发布平台中第二作者账号在所述设定时间区间内所发布内容的第二正文集合;
分别计算所述第一正文集合和所述第二正文集合中各第一正文和第二正文间的内容相似度;
根据所述内容相似度,在所述第一正文集合和所述第二正文集合中确定相似正文对;
根据所述相似正文对的数量,计算所述第一作者账号与所述第二作者账号之间的所述设定时间区间内的发布内容的正文相似度;和/或
获取第一内容发布平台中第一作者账号最近发布的设定数量的发布内容的标题构成第一标题集合;
获取第二内容发布平台中第二作者账号最近发布的设定数量的发布内容的标题构成第二标题集合;
计算所述第一标题集合以及第二标题集合中包括的相同标题的数量值;
根据所述相同标题的数量值,计算所述第一作者账号与所述第二作者账号之间的发布内容的标题相似度。
7.根据权利要求1-6任一项所述的方法,在根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者之后,还包括:
获取用户在至少一个内容发布平台中主动上报的,针对其他内容发布平台的账号绑定信息;
获取与各所述账号绑定信息分别对应用户账号集合,并确定各所述用户账号集合中的各用户账号属于相同作者。
8.一种作者识别装置,包括:
身份描述信息获取模块,用于获取至少两个内容发布平台中各作者账号的身份描述信息,所述身份描述信息包括:作者属性信息和发布内容属性信息;所述作者属性信息包括:作者账号名称;所述发布内容属性信息包括:发布内容中的标题以及正文;
相似度指标计算模块,用于根据各所述作者账号的身份描述信息,计算不同内容发布平台作者账号之间的身份相似度指标;所述身份相似度指标包括下述至少一项:作者名称相似度、至少一个设定时间区间内的发布内容的正文相似度,以及发布内容的标题相似度;所述设定时间区间包括:最近一周、最近一月以及全部历史时间;
相同作者识别模块,用于根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者;
其中,所述相同作者识别模块还用于:
获取与第一内容发布平台中第一作者账号以及第二内容发布平台中第二作者账号之间的目标身份相似度指标;
确定目标身份相似度指标中的作者名称相似度所属的名称相似度数值区间,并根据所述名称相似度数值区间,获取与所述数值区间匹配的目标内容相似度阈值集合 ;其中,目标内容相似度阈值集合可以包括设定时间区间的发布内容的正文相似度阈值,以及设定时间区间的发布内容的标题相似度阈值;
如果确定目标身份相似度指标中至少一个设定时间区间内的发布内容的正文相似度以及发布内容的标题相似度中的任一项满足所述目标内容相似度阈值集合中匹配的内容相似度阈值条件,则确定所述第一作者账号与所述第二作者账号属于相同作者;
其中,名称相似度数值区间越大,与所述名称相似度数值区间匹配的内容相似度阈值集合中的各项内容相似度阈值越小。
9.根据权利要求8所述的装置,其中,所述作者识别装置,还包括:
提示信息提供模块,用于在根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者之后,根据同一作者在不同内容发布平台的内容发布情况,向所述作者提供匹配的发布提示信息。
10.根据权利要求9所述的装置,所述作者识别装置,还包括:
作者账号获取模块,用于在根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者之后,在第一目标内容发布平台中获取目标优质作者账号;
关联作者账号判断模块,用于根据在不同内容发布平台中识别的与相同作者对应的各用户账号,判断至少一个其他内容发布平台中是否存在与所述目标优质作者账号属于相同作者的关联作者账号;
邀请信息发布模块,用于如果确定在第二目标内容发布平台中不存在所述关联作者账号,则向所述目标优质作者账号发送针对所述第二目标内容发布平台的内容发布邀请信息。
11.根据权利要求9所述的装置,所述作者识别装置,还包括:
签约作者账号获取模块,用于在根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者之后,在第一目标内容发布平台中获取目标独家签约作者账号;
关联作者账号判断模块,用于根据在不同内容发布平台中识别的与相同作者对应的各用户账号,判断至少一个其他内容发布平台中是否存在与所述目标独家签约作者账号属于相同作者的关联作者账号;
提醒信息发送模块,用于如果确定在第二目标内容发布平台中存在所述关联作者账号,则向所述目标独家签约作者账号,和/或所述关联作者账号发送签约保护提醒信息。
12.根据权利要求9所述的装置,所述作者识别装置,还包括:
活跃度获取模块,用于在根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者之后,根据在不同内容发布平台中识别的与相同作者对应的各用户账号,获取相同作者在不同内容发布平台的活跃度;
激励信息发送模块,用于向活跃度低的内容发布平台的作者账号发送活跃度激励信息。
13.根据权利要求8所述的装置,其中,所述相似度指标计算模块,包括:
账号名称获取单元,用于获取第一内容发布平台中第一作者账号的第一账号名称以及第二内容发布平台中第二作者账号的第二账号名称;
分词集合获取单元,用于分别对所述第一账号名称以及所述第二账号名称进行分词处理,得到第一分词集合以及第二分词集合;
数量计算单元,用于计算所述第一分词集合以及第二分词集合中包括的相同分词的数量值;
名称相似度计算单元,用于根据所述相同分词的数量值,计算所述第一作者账号与所述第二作者账号之间的作者名称相似度;和/或
正文集合获取单元,用于获取第一内容发布平台中第一作者账号在设定时间区间内所发布内容的第一正文集合,以及第二内容发布平台中第二作者账号在所述设定时间区间内所发布内容的第二正文集合;
内容相似度计算单元,用于分别计算所述第一正文集合和所述第二正文集合中各第一正文和第二正文间的内容相似度;
相似正文对确定单元,用于根据所述内容相似度,在所述第一正文集合和所述第二正文集合中确定相似正文对;
正文相似度计算单元,用于根据所述相似正文对的数量,计算所述第一作者账号与所述第二作者账号之间的所述设定时间区间内的发布内容的正文相似度;和/或
第一标题集合获取单元,用于获取第一内容发布平台中第一作者账号最近发布的设定数量的发布内容的标题构成第一标题集合;
第二标题集合获取单元,用于获取第二内容发布平台中第二作者账号最近发布的设定数量的发布内容的标题构成第二标题集合;
数量计算单元,用于计算所述第一标题集合以及第二标题集合中包括的相同标题的数量值;
标题相似度计算单元,用于根据所述相同标题的数量值,计算所述第一作者账号与所述第二作者账号之间的发布内容的标题相似度。
14.根据权利要求8-13任一项所述的装置,所述作者识别装置,还包括:
绑定信息获取模块,用于在根据所述不同内容发布平台作者账号之间的身份相似度指标,在不同内容发布平台中识别相同作者之后,获取用户在至少一个内容发布平台中主动上报的,针对其他内容发布平台的账号绑定信息;
相同作者确定模块,用于获取与各所述账号绑定信息分别对应用户账号集合,并确定各所述用户账号集合中的各用户账号属于相同作者。
15. 一种电子设备,其中,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010707502.3A CN111881304B (zh) | 2020-07-21 | 2020-07-21 | 一种作者识别方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010707502.3A CN111881304B (zh) | 2020-07-21 | 2020-07-21 | 一种作者识别方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111881304A CN111881304A (zh) | 2020-11-03 |
CN111881304B true CN111881304B (zh) | 2024-04-26 |
Family
ID=73155165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010707502.3A Active CN111881304B (zh) | 2020-07-21 | 2020-07-21 | 一种作者识别方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881304B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113158064A (zh) * | 2021-05-11 | 2021-07-23 | 两比特(北京)科技有限公司 | 一种云合数据短视频数据抓取以及统计汇总分析算法 |
CN113626624B (zh) * | 2021-10-12 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 一种资源识别方法和相关装置 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102768659A (zh) * | 2011-05-03 | 2012-11-07 | 阿里巴巴集团控股有限公司 | 重复账号自动识别方法和系统 |
CN104317784A (zh) * | 2014-09-30 | 2015-01-28 | 苏州大学 | 一种跨平台用户识别方法和系统 |
WO2016127720A1 (zh) * | 2015-02-12 | 2016-08-18 | 腾讯科技(深圳)有限公司 | 一种数据互通的方法,及数据互通设备 |
CN108154379A (zh) * | 2016-12-06 | 2018-06-12 | 腾讯科技(深圳)有限公司 | 媒体信息的发布方法和装置 |
CN108846422A (zh) * | 2018-05-28 | 2018-11-20 | 中国人民公安大学 | 跨社交网络的账号关联方法及系统 |
CN110324278A (zh) * | 2018-03-29 | 2019-10-11 | 北大方正集团有限公司 | 账号主体一致性检测方法、装置及设备 |
CN110390584A (zh) * | 2019-07-24 | 2019-10-29 | 秒针信息技术有限公司 | 一种异常用户的识别方法、识别装置及可读存储介质 |
CN110598126A (zh) * | 2019-09-05 | 2019-12-20 | 河南科技大学 | 基于行为习惯的跨社交网络用户身份识别方法 |
CN110826605A (zh) * | 2019-10-24 | 2020-02-21 | 北京明略软件系统有限公司 | 一种跨平台识别用户的方法及装置 |
CN111083141A (zh) * | 2019-12-13 | 2020-04-28 | 广州市百果园信息技术有限公司 | 一种仿冒账号的识别方法、装置、服务器和存储介质 |
CN111160130A (zh) * | 2019-12-12 | 2020-05-15 | 中国电子科技网络信息安全有限公司 | 一种多平台虚拟身份账号的多维碰撞识别方法 |
CN111242218A (zh) * | 2020-01-13 | 2020-06-05 | 河南科技大学 | 融合用户多属性信息的跨社交网络用户身份识别方法 |
-
2020
- 2020-07-21 CN CN202010707502.3A patent/CN111881304B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102768659A (zh) * | 2011-05-03 | 2012-11-07 | 阿里巴巴集团控股有限公司 | 重复账号自动识别方法和系统 |
CN104317784A (zh) * | 2014-09-30 | 2015-01-28 | 苏州大学 | 一种跨平台用户识别方法和系统 |
WO2016127720A1 (zh) * | 2015-02-12 | 2016-08-18 | 腾讯科技(深圳)有限公司 | 一种数据互通的方法,及数据互通设备 |
CN108154379A (zh) * | 2016-12-06 | 2018-06-12 | 腾讯科技(深圳)有限公司 | 媒体信息的发布方法和装置 |
CN110324278A (zh) * | 2018-03-29 | 2019-10-11 | 北大方正集团有限公司 | 账号主体一致性检测方法、装置及设备 |
CN108846422A (zh) * | 2018-05-28 | 2018-11-20 | 中国人民公安大学 | 跨社交网络的账号关联方法及系统 |
CN110390584A (zh) * | 2019-07-24 | 2019-10-29 | 秒针信息技术有限公司 | 一种异常用户的识别方法、识别装置及可读存储介质 |
CN110598126A (zh) * | 2019-09-05 | 2019-12-20 | 河南科技大学 | 基于行为习惯的跨社交网络用户身份识别方法 |
CN110826605A (zh) * | 2019-10-24 | 2020-02-21 | 北京明略软件系统有限公司 | 一种跨平台识别用户的方法及装置 |
CN111160130A (zh) * | 2019-12-12 | 2020-05-15 | 中国电子科技网络信息安全有限公司 | 一种多平台虚拟身份账号的多维碰撞识别方法 |
CN111083141A (zh) * | 2019-12-13 | 2020-04-28 | 广州市百果园信息技术有限公司 | 一种仿冒账号的识别方法、装置、服务器和存储介质 |
CN111242218A (zh) * | 2020-01-13 | 2020-06-05 | 河南科技大学 | 融合用户多属性信息的跨社交网络用户身份识别方法 |
Non-Patent Citations (3)
Title |
---|
基于信息熵的跨社交网络用户身份识别方法;吴铮;于洪涛;刘树新;朱宇航;;计算机应用(第08期);全文 * |
跨平台的用户匹配研究综述;倪亚晨;张凯强;;现代计算机(第08期);全文 * |
跨社交平台的用户识别方法研究;文玥琪;周安民;;现代计算机(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111881304A (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111881304B (zh) | 一种作者识别方法、装置、设备和存储介质 | |
CN113051446A (zh) | 拓扑关系查询方法、装置、电子设备和介质 | |
CN112561332B (zh) | 模型管理方法、装置、电子设备、存储介质和程序产品 | |
CN111860644A (zh) | 一种异常账号的识别方法、装置、设备和存储介质 | |
CN111563198B (zh) | 一种物料召回方法、装置、设备及存储介质 | |
CN111460791B (zh) | 文本分类方法、装置、设备以及存储介质 | |
CN112434952A (zh) | 业务数据规则判断方法、装置、设备及存储介质 | |
CN112559522A (zh) | 数据存储方法、装置、查询方法、电子设备及可读介质 | |
CN112269706A (zh) | 接口参数校验方法、装置、电子设备以及计算机可读介质 | |
CN113763066A (zh) | 用于分析信息的方法和装置 | |
CN110781200A (zh) | 一种区块链异常数据的处理方法、装置、设备和介质 | |
CN111966846B (zh) | 图像查询方法、装置、电子设备和存储介质 | |
CN110995687B (zh) | 一种猫池设备识别方法、装置、设备及存储介质 | |
US20150358215A1 (en) | Shared risk influence evaluation system, shared risk influence evaluation method, and program | |
CN111625612A (zh) | 高精地图的纠偏方法和装置、电子设备和存储介质 | |
CN112148979B (zh) | 事件关联用户的识别方法、装置、电子设备和存储介质 | |
WO2018205460A1 (zh) | 获取目标用户的方法、装置、电子设备及介质 | |
CN112328807A (zh) | 反作弊方法、装置、设备以及存储介质 | |
CN111125362B (zh) | 一种异常文本确定方法、装置、电子设备和介质 | |
WO2021115111A1 (zh) | 一种信息展示方法、展示装置、电子设备及存储介质 | |
CN112446728B (zh) | 广告召回方法、装置、设备及存储介质 | |
CN113961797A (zh) | 资源推荐方法、装置、电子设备和可读存储介质 | |
CN112860840A (zh) | 一种搜索处理方法、装置、设备和存储介质 | |
CN112738567B (zh) | 平台内容处理方法、装置、电子设备和存储介质 | |
CN112925482B (zh) | 数据处理方法、装置、系统、电子设备和计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |