CN103631834B - 发掘可疑帐号的分身群组的方法与系统 - Google Patents

发掘可疑帐号的分身群组的方法与系统 Download PDF

Info

Publication number
CN103631834B
CN103631834B CN201210379865.4A CN201210379865A CN103631834B CN 103631834 B CN103631834 B CN 103631834B CN 201210379865 A CN201210379865 A CN 201210379865A CN 103631834 B CN103631834 B CN 103631834B
Authority
CN
China
Prior art keywords
group
vocabulary
account
monitoring
account number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210379865.4A
Other languages
English (en)
Other versions
CN103631834A (zh
Inventor
沈民新
李青宪
邱中人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Technology Research Institute ITRI
Original Assignee
Industrial Technology Research Institute ITRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Technology Research Institute ITRI filed Critical Industrial Technology Research Institute ITRI
Publication of CN103631834A publication Critical patent/CN103631834A/zh
Application granted granted Critical
Publication of CN103631834B publication Critical patent/CN103631834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Abstract

发掘可疑帐号的分身群组的方法与系统,该发掘可疑帐号的分身群组的方法根据在一第一时间区间内,一第一组帐号的每一帐号的发文内容,建立此帐号的一语言模型来描述此帐号的语言风格,并且比较此第一组帐号的多个语言模型的相似度,以将此第一组帐号分群;以及针对在一第二时间区间内新增的多笔数据,挖掘出至少一监控词组的多重变异词汇,并且将此多重变异词汇更新至一第二组帐号的多个语言模型,进而汇整此第一组帐号与此第二组帐号,并且将一组汇整后的帐号重新分群。

Description

发掘可疑帐号的分身群组的方法与系统
技术领域
本公开涉及一种发掘可疑帐号的分身群组(account group)的方法与系统。
背景技术
社群网络(social network)的普及引发了许多网络犯罪(network crime)的行为,例如在网络上利用多重分身(multiple accounts)来散布色情(pornography)讯息或是进行网络诈欺(network deception)等行为。网民为了规避追缉,会更改帐号及上网发文、或是逐渐改变所使用的关键词用语。这些网络犯罪的行为会在各式的社群网络上留下蛛丝马迹(traces)。
现有的追缉技术,例如警用网络侦搜系统,在进行案件的通联分析前,先厘清帐号分身群组的特性;在犯罪信息的系统领域(system domain)里,根据两个词的词汇特征的同义词(common synonym)来辨识帐号之间的互动关联。例如,可提取两个词之间最长的共同子字串,来计算此子字串的长度与此两词中较长词的长度的比例,以确认比例是否大于一第一阈值。再计算此两词的编辑距离(edit-distance)是否大于一第二阈值。当上述两条件成立时,确定此两词属于同义词。
图1所示是一种决定语句的主题(theme)的内文处理系统,主要包含一主题向量处理器(theme vector processor)110来决定输入语句112的主题。其技术是先分析输入语句112中每一词汇的词性,再利用知识库(Ontology)分析此语句,包括找出每一词汇的语意以组成语意主题向量、以及比对此语句的语意主题向量和训练语料120中的语意主题向量,来决定此语句的主题及类别。
有一种监听与分析犯罪相关信息的技术是利用事件识别码(event identifier)或词汇搜寻(word search)的方法来标记警方关注的犯罪相关信息区段,以提醒调查员监听此区段的原始语音数据。此事件识别码例如是警方关注事件的书签(bookmark),包含此关注事件的关键词汇或是特定人物的语音数据等。
有一种将数据集合(dataset)结构化的技术是根据使用者提供的个人数据来分群,再利用一连串事先定义的问题题库,找出疑似包含诈欺行为的通联纪录的群组。其中,作为分群依据的使用者的结构化的属性数据可包括如姓名、电话号码、或地址等。有一种网络犯罪侦防技术是利用使用者上网时,其上网装置的来源辨识码,同步在犯罪侦防网站中与使用者上网装置的电话号码及授权码进行比对,以确认使用者的真实身份。
有一种寻找犯罪者的多重身份的技术是利用个人的基本特征数据如姓名、性别、身高、体重等,来比对多重分身,再根据个人在犯罪数据库中的角色和之间的连结关系,来比对犯罪者的多重分身。有一种检测犯罪群体的技术是从文件中通过人名辨识及关联法则分析,找出频繁且共同出现的人名群(共犯)。
揭示寻找或检测多重身份的技术还有针对著作者身份的辨识(authorshipidentification)、线上书写辨识(online Writeprint identification)、著作者身份属性的辨识(authorship attribution identification)等文献。其中,有一种针对著作者身份的辨识技术是利用个人书写文字中的Ngram特征来比对多重分身;有一种针对著作者身份属性的辨识技术是通过可变长度的Ngram特征来比对多重分身。有一种针对著作者身份属性的辨识技术是通过以局部的统计图(local histogram)调整N-gram特征权重来比对多重分身。
在时下以及未来的网络上,一个良好的可疑的帐号群组的发掘技术须具有变异词扩充的语言模型调适功能,来分析帐号发文内容的语言风格的相似程度,进而找出语言风格同质性高的可疑帐号分身群组。并且,找出帐号分身之后,此技术也能结合通联分析技术,检视帐号之间的互动关联。此类可疑的帐号群组的发掘技术是一个待被深入探索的议题。
发明内容
本公开实施例可提供一种发掘可疑帐号的分身群组的方法与系统。
所公开的一实施例是关于一种发掘可疑帐号的分身群组的方法。此方法包含︰在至少一硬件处理器的控制下,根据在一第一时间区间内,一第一组帐号的每一帐号的发文内容,建立此帐号的一语言模型(language model)来描述此帐号的语言风格,并且比较此第一组帐号的多个语言模型的相似度,以将此第一组帐号分群;以及针对在一第二时间区间内新增的多笔数据,挖掘出至少一监控词组的多重变异词汇,并且将此多重变异词汇更新至一第二组帐号的多个语言模型,进而汇整此第一组帐号与此第二组帐号,并且将一组汇整后的帐号重新分群。
所公开的另一实施例是关于一种发掘可疑帐号的分身群组的系统。此系统包含:一语言模型训练装置(language model training device)、一帐号分群装置(accountclustering device)、一变异词辨识器(changed word identification device)、以及一渐进式帐号分群装置(incremental account clustering device)。此语言模型训练装置根据在一第一时间区间内,一第一组帐号的每一帐号的发文内容,建立此帐号的一语言模型来描述此帐号的语言风格。此帐号分群装置根据此第一组帐号所属的一第一组语言模型的相似度,将此第一组帐号分群。此变异词辨识器针对在一第二时间区间内,新增的多笔数据,挖掘出至少一监控词组的多重变异词汇,并且将此多重变异词汇更新至一第二组帐号所属的一第二组语言模型。此渐进式帐号分群装置汇整此第一组帐号与此第二组帐号,并且将一组汇整后的帐号重新分群。
现在配合下列图示、实施例的详细说明及申请专利范围,将上述及本发明的其他优点详述于后。
附图说明
图1是一种决定语句的主题的内文处理系统。
图2是根据本公开一实施例,说明一种发掘可疑帐号的分身群组的方法。
图3是根据本公开一实施例,从监控网站中下载的一组帐号及每一帐号各自对应的发文内容的范例。
图4是根据本公开一实施例的帐号分身群组的发文范例。
图5是根据本公开一实施例,分别从一目标视窗及一候选视窗取出其关键词汇序列模式的范例。
图6是根据本公开一实施例,采用机率式上下文无关的概念文法剖析的范例。
图7是根据本公开一实施例,通过双弯曲函数的转换,来计算变异词的权重的范例。
图8是根据本公开一实施例,说明渐进式分群算法的流程。
图9是根据本公开一实施例,说明一种发掘可疑帐号的分身群组的系统。
【主要元件符号说明】
110主题向量处理器 112输入语句
120训练语料
210根据在一第一时间区间内,一第一组帐号的每一帐号的发文内容,建立此帐号的一语言模型来描述此帐号的语言风格
220比较此第一组帐号的多个语言模型的相似度,以将此第一组帐号分群
230针对在一第二时间区间内,新增的多笔数据,挖掘出至少一监控词组的多重变异词汇
240将此多重变异词汇更新至一第二组帐号的多个语言模型,进而汇整此第一组帐号与此第二组帐号,并且将一组汇整后的帐号重新分群
600文法树 610目标视窗T的发文
711~714四个双弯曲函数
810从一组帐号中取出第一笔帐号数据x1,并设定群组数目m等于1且x1为群组C1的一中心帐号
820从尚未分群的帐号中取出任一未分群的帐号xi,计算xi与目前所有群组(C1…Cm)的中心帐号的相似度
830当xi与群组Cwin的中心帐号的相似度大于等于一阈值时,2≦win≦m,则将xi归类为群组Cwin,并重新计算Cwin群组的中心帐号
840当xi与群组Cwin的中心帐号的相似度小于此阈值时,则设定群组数目m=m+1,以及xi为一新群组Cm的中心帐号。
900发掘可疑帐号的分身群组的系统
910语言模型训练装置 920帐号分群装置
930变异词辨识器 940渐进式帐号分群装置
932新增的多笔数据
具体实施方式
本公开实施例在信息传播及沟通媒介,如网络社群中,将可疑的帐号群组发掘出来。本公开实施例提出一种具有变异词扩充的语言模型调适技术,能够分析这些描述帐号的发文内容的语言风格的相似程度。此技术根据在一时间区间内一组帐号的每一帐号的发文内容,建立此帐号的一语言模型来描述此帐号的语言风格,以将此组帐号分群,并且在另一时间区间内,针对新增的多笔数据,挖掘出至少一监控词组的多重变异词汇,以判断这些变异词汇的特征及其重要程度,再更新此另一时间区间内另一组帐号的每一帐号的语言模型,进一步更新帐号的分身群组的结果。
承上述,图2是根据本公开一实施例,说明一种发掘可疑帐号的分身群组的方法。参考图2,此方法可在至少一硬件处理器的控制下,根据在一第一时间区间内,一第一组帐号的每一帐号的发文内容,建立此帐号的一语言模型来描述此帐号的语言风格(步骤210),并且比较此第一组帐号的多个语言模型的相似度,以将此第一组帐号分群(步骤220)。此方法针对在一第二时间区间内新增的多笔数据,挖掘出至少一监控词组的多重变异词汇(步骤230),并且将此多重变异词汇更新至一第二组帐号的多个语言模型,进而汇整此第一组帐号与此第二组帐号,并且将一组汇整后的帐号重新分群(步骤240)。
对于每一更新的时间区间,此方法可重复执行前述步骤230至步骤240,以持续发掘可疑帐号的分身群组。也就是说,此方法可针对在每一更新时间区间内新增的多笔数据,挖掘出至少一监控词组的多重变异词汇,并且将此多重变异词汇更新至一个不同组帐号的多个语言模型,进而将此不同组帐号与其前一组帐号汇整后,重新分群,以持续发掘可疑帐号的分身群组。
承接上述,在步骤220中,此方法对于此第一组帐号的每一帐号,可计算及比较此第一组帐号所对应的此多个语言模型的相似度,并根据此相似度的比较结果来将此第一组帐号分群。在步骤230中,此方法可在此第一时间区间内,从一或多个监控网站中下载多笔新增数据,从其中的新增数据来挖掘至少一监控词组的多重变异词汇。对于每一更新时间区间,此方法可将多重变异词汇更新于既有的语言模型中,并且,针对此不同组帐号中与其前一组帐号不同的每一新帐号,重新建立此新帐号的一语言模型来描述其发文内容。然后,重新计算及比较此不同组帐号的多个语言模型的相似度,并根据重新比较的相似度结果,汇整此不同组帐号与其前一组帐号,并将一组汇整后的帐号重新分群。
上述步骤的一应用情境与细节说明如下。可先从一或多个网站来接收一监控网站列表及一指定时间,并取得一监控词组,此监控词组包含了多个词汇(phrase)。监控词组的范例如一组有关色情援交的关键词,例如是做援、兼差、援助、援交、兼职等。再根据此监控词组及此指定时间,从监控网站中下载此指定时间区间内的所有帐号及每一帐号对应的发文内容。根据一监控词组,从监控网站中下载的一组帐号(例如包括有帐号A与帐号B)及每一帐号各自对应的发文内容的范例如图3所示。
有了每一帐号对应的发文内容后,根据其发文内容来建立此发文内容对应的一语言模型,此语言模型可描述此帐号的语言风格。每一帐号对应的发文内容例如可先经过内文正规化处理后,再通过断词处理、以及语言风格特征提取后,即可训练出一语言模型。内文正规化处理是指针对一发文内容,将其统一资源定位符(Universal Resource Locator,URL)、电话、即时通(Windows Live Messenger,MSN)、电子邮件(Email)等进行正规化处理。将一发文内容进行正规化的范例如下。
正规化前的发文内容:…哥哥安安我是小薇34d/6k援交请洽0910220021…。
正规化后的发文内容:…哥哥安安我是小薇34d//6k援交请洽0910220021(TEL)…。
一发文内容的断词处理例如可使用一词库长词优先断词方法。此断词方法是指利用一词库长词优先法断词器,将启始数据所属发文、以及候选存储库中的发文分别断词。例如,将上述正规化前的发文内容进行断词后的发文内容如下。哥哥□安安□我□是□小薇□34□d□/□6□k□援交□请洽□0910220021…。
词库长词优先法断词方法的范例简述如下。先将输入的句子从左至右取出n个字元,n为一预定的长度,并设定一起始索引(start index)的值为1、以及一结束索引(endindex)的值为n。然后将取出的n个字元进行词库索引搜寻,其搜寻深度为n;当在词库索引中找到配对时,则传回(return)此n个字元,并设定此起始索引的值为1+n,结束索引的值为1+n+n;当无法找到配对时,则索引回到上一层,直到可以找到配对为止。找到时则设定此起始索引的值为1+k,结束索引的值为1+k+n,其中k表示索引深度为k时,找到配对的词汇。依此,重复执行前述步骤,直到此起始索引的值为-1,也就是输入的句子的都已经处理过了,此时即结束处理。
语言风格特征提取是指针对起始数据中每一帐号所属文章,通过特征提取如n-gram特征提取,提取出所属语言风格;将进行断词后的一发文内容通过n-gram特征提取的范例如下。
帐号A的发文内容:…安□我□叫□雪□儿□清纯□水□水□学生□妹□初次□兼职□!□...
则帐号A的发文内容通过n-gram特征提取,n=5,所提取的n-gram如下:
安□我□叫、□我□叫□、我□叫□雪、□叫□雪□、叫□雪□儿、…。
然后利用所提取的n-gram,训练一语言模型。此语言模型的范例可以下列公式来表示。
其中,wi表示句子中第i个词汇,m表示句子中词汇个数,count()表示词汇序列在语料中出现的次数,而n表示根据wi的前n个词汇来统计其ngram机率。
训练出每一帐号的语言模型后,可根据各帐号的语言模型相似度将帐号分群,说明如下。首先,计算各帐号所属的语言模型的相似度;然后,通过一分群算法,如K-means分群算法,将相似特征(相似度高)的帐号群集成一群;当一群集的相似度超过一阈值时,判定此群里所包含的帐号为同一帐号的分身。一语言模型的相似度的计算方式说明如下。将此语言模型中每一元件(element)所对应的机率值转换成向量,再对两向量之间求取相似度,如正弦相似度(cosine similarity)。以下以一范例来说明。
Doc1(cat:0.3,dog:0.4,tiger:0.01)表示帐号Doc1的语言模型中,元件cat对应的机率值为0.3、元件dog对应的机率值为0.4,元件tiger对应的机率值为0.01。Doc2(cat:0.28,dog:0.31,tiger:0.21)表示帐号Doc2中,元件cat对应的机率值为0.28、元件dog对应的机率值为0.31,元件tiger对应的机率值为0.21。将帐号Doc1转换成以{cat,dog,tiger}表达的向量[0.3,0.4,0.01],将帐号doc2,转换成以{cat,dog,tiger}表达的向量[0.28,0.31,0.21]。所以,帐号doc1和doc2可以通过如正弦函数(cosine)来衡量其相似度similarity,其计算式如下。
一组帐号的各帐号的语言模型相似度被算出后,通过一种分群法,如渐进式分群(incremental clustering)的K-means分群算法来将一组帐号分群。利用K-means的分群结果的例子如{0001、0002、0005}及{0011、0013、A0022}。此分群结果的例子表示帐号0001、帐号0002、以及帐号0005是同一真实帐号的分身群组,即{0001、0002、0005};而帐号0011、帐号0013、以及帐号A0022是同一真实帐号的分身群组,即{0011、0013、A0022}。帐号分身群组的发文范例如图4所示。
针对在第一时间区间内新增的多笔数据,根据本公开一实施例,此方法挖掘出至少一监控词组的多重变异词汇,并且可通过此至少一监控词组中每一监控词的前后特征视窗,从中提取一或多个特征,来判断此新增的多笔数据中一或多个新词汇是否属在此监控词的变异词汇。提取出的一或多个特征例如是关键词汇序列模式(keyword pattern)、或是词性序列模式(POS pattern)、或是概念序列模式(concept pattern)、或是词汇字串相似度等、或是前述特征的其中一或两种以上特征。
根据本公开一实施例,此变异词汇的判断还可包括如建立一目标项目表(targetitem table)、建立一词汇配对表(pair table)、取出特征视窗、针对特征视窗取出关键词汇序列模式、针对特征视窗取出词性序列模式、针对特征视窗取出概念序列模式、针对对应词汇计算其距离、整合所有距离等。
建立一目标项目表是指从一发文内容经断词处理后的结果来产生一目标项目表。根据一实施例,可先将发文内容经断词处理后的处理结果中的每一词汇与此至少一监控词组进行比对,找出含有其中至少一个监控词汇的发文,再将此监控词汇与此发文存储到一目标项目表。以一范例说明如下。以监控词组为{援交}为例,一则发文内容经断词处理后的结果为:哥哥安安我是小薇34d/6k援交请洽0910220021…。则,经过逐一比对,发现上述发文内容中的“援交”为符合词汇。所以监控“援交”和上述发文内容被存到目标项目表中。
建立一词汇配对表是指对更新时间区间内多笔新增数据的每笔发文经断词处理后的结果,将其中每一词汇分别与此目标项目表中的每一词汇配对,产生一词汇配对表(Pair Table)。范例说明如下。一目标项目表中包含“援交”,一则发文内容经断词处理后的结果为:你好 我 是 可爱 的 呢呢 学生 兼职吃鱼 快到http://www.wretch.cc/blog/a1984nini留言给我。则,建立的词汇配对表为:(援交,你好)、(援交,呢呢)…(援交,吃鱼)。其中,此词汇配对表中的每一配对(pair)的左边的词汇是原有的监控词汇,称为目标词汇(target item),而右边的词汇即为候选变异词汇(candidate item)。所以,候选变异词为:你好、呢呢、吃鱼。换句话说,词汇配对表中每一配对包含一第一词汇与一第二词汇,第一词汇是至少一监控词组中的一监控词汇,而第二词汇是一候选变异词汇。
取出特征视窗是指针对词汇配对表中每一配对中的两个相对应词汇,即目标词汇与候选变异词汇,分别取其所属发文中的部分词汇,分别存成一目标视窗(target window)T及一候选视窗(candidate window)C。例如,以该词汇为中心,前后n个词汇形成特征视窗(feature window),分别存成视窗T及视窗C,其中n为一正整数。以配对(援交,吃鱼)为例,说明如下。
取出目标词汇“援交”所属发文P1:哥哥 安安 我 是 小薇 34d/6k 援交 请洽0910220021…。然后以“援交”为中心点,取发文P1前后例如n=10个词汇,形成目标视窗T:哥哥 安安 我 是 小薇 34d/6k 援交 请洽091022002。取出候选变异词汇所属发文P2:你好我 是 可爱 的 呢呢 学生兼职 吃鱼 快到http://www.wretch.cc/blog/a1984nini留言给 我。然后以“援交”为中心点,取发文P2前后例如n=10个词汇,形成候选视窗C:你好 我是可爱 的 呢呢 学生 兼职 吃鱼 快到http://www.wretch.cc/blog/a1984nini留言 给我。
针对词汇配对表中每一配对中的两个相对应词汇取出其特征视窗后,可针对目标视窗T及候选视窗C分别取出其关键词汇序列模式、词性序列模式、以及概念序列模式。进行关键词汇序列模式的提取可根据此两特征视窗中每一词汇的属性,从特征视窗中取出一或多个关键词汇;例如,可根据每一词汇的词汇权重及是否为一停止词(stop word),滤除权重过高或过低的词汇,或是滤除停止词的词汇。图5是根据本公开一实施例,分别从一目标视窗T及一候选视窗C取出其关键词汇序列模式的范例。在图5的范例中,目标视窗T的关键词汇序列模式是从目标视窗T中,根据每一词汇的词汇权重及是否为一停止词(stopword),滤除词汇“哥哥”、词汇“我”、以及词汇“是”。候选视窗C的关键词汇序列模式是从候选视窗C中,根据每一词汇的词汇权重及是否为一停止词(stop word),滤除词汇“我”、词汇“是”、词汇“给”、以及词汇“我”。
进行词性序列模式的提取可根据目标视窗T及候选视窗C中每一词汇,进行词性标记与词性过滤,并保留名词与动词两类词性的词性序列。常见的词性标记法如隐藏式马可夫模型算法(Hidden Markov Model,HMM),此处不再描述;词性过滤可利用如正规表达式(regular expression)进行过滤,仅保留名词与动词两类词性的词汇。范例说明如下。目标视窗T的发文:哥哥 安安 我是 小薇 34d/6k 援交 请洽 0910220021。则提取出的词性序列模式:n n ncc nn cd fw sym cd fw v v cd,其中n,nn表示名词(noun),cc表示对等连接词(coordinating conjunction),cd表示基数(cardinal number),fw表示外来的词汇(foreign word),v表示动词(verb),sym则表示符号(symbol)。
提取概念序列模式的方法可采用机率式上下文无关剖析(probabilisticcontext free grammar),来建立概念序列模型,并利用此模型来标记输入句子的概念。图6是根据本公开一实施例,采用机率式上下文无关的概念文法剖析的范例。在图6的文法树600的范例中,文法树600可有多种概念栏位(field),例如问候(Greeting)、名称(Name)、个人信息(Personal Information)、联络(Contact)等;并且可利用文法树600的模型来标记输入句子的概念。
在图6的范例中,利用文法树600的多种概念栏位来剖析目标视窗T的发文:哥哥安安 我 是 小薇 34d/6k 援交 请洽 0910220021,如标号610所示。依此,“安安”标记为问候概念、“小薇”标记为名称概念、“34d/6k”标记为个人信息概念、“0910220021”标记为联络概念,并且个人信息概念“34d/6k”中,“34“与“6”是数字(number)概念“d”、“/”、及“k”是符号(symbol)概念。所以,针对目标视窗T,所提取的概念序列模式就是:问候、名称、个人信息、联络。类似地,利用文法树600的多种概念栏位来剖析候选视窗C的发文:你好 我 是 可爱 的 呢呢 学生 兼职 吃鱼 快到http://www.wretch.cc/blog/a1984nini留言 给 我,所提取的概念序列模式就是:问候、名称、个人信息、联络。
根据本公开实施例,针对词汇配对表中每一配对中的两个相对应词汇,也可以计算此两词汇之间的词汇距离(Lexicon Distance)。例如,可利用下列Jaccard距离(Distance)公式来计算两词汇A与B之间的相似距离。
本公开实施例也可以整合词汇距离(Lexicon Distance)和前述三种特征(模式)距离,并根据词汇相似距离的计算公式来计算两词汇之间的相似度。以下列公式来说明。
Dist(wi,wj)=wlex×Distlex(wi,wj)+
wconcept×Distconcept(WindowTwi,WindowCwj)+
wpos×Distpos(WindowTwi,WindowCwj)+
wkeyword×Distkeyword(WindowTwi,WindowCwj)
其中wlex+wconcept+wpos+wword=1
此公式中,
Dist(wi,wj)代表两词汇wi与wj之间的距离,
Distlex(wi,wj)代表两词汇wi与wj之间的相似距离,
Distconcept(wi,wj)代表概念序列模式的目标视窗T中词汇wi与候选视窗C中词汇wj之间的距离,
Distpos(wi,wj)代表词性序列模式的目标视窗T中词汇wi与候选视窗C中词汇wj之间的距离,
Distkeyword(wi,wj)代表关键词汇序列模式的目标视窗T中词汇wi与候选视窗C中词汇wj之间的距离,并且
wlex、wconcept、wpos、以及wkeyword分别为词汇权重、概念权重、词性权重、以及关键词汇权重。
也就是说,本公开实施例可采用一线性方程式来整合词汇距离和三种特征的距离,并根据整合的距离来计算两词汇之间的相似度。
利用上述所得的变异词汇与预定的至少一监视词组可能并非同义词,而是具有不同程度的相似度。所以,在步骤240的变异词汇更新至语言模型的动作中,本公开实施例可包括计算变异词的权重,可包括转换原始的词汇权重来得到变异词的权重、以及利用变异词的权重去重新计算监控词组与变异词在的语言模型。当原始的词汇权重为已知时,可根据前述公式来计算两词汇之间的相似度。换句话说,当原始的词汇权重为已知时,可通过转换原始的词汇权重来得到变异词的权重。常用的此类转换例如是双弯曲函数(Sigmoidfunction),即
图7是根据本公开一实施例,通过双弯曲函数转换,来计算变异词的权重的范例。在图7的范例中,标号711~714分别代表四个不同参数的双弯曲函数,横轴上的任一数值代表原始的监控词汇与变异词之间的相似度,纵轴上的任一数值代表变异词的权重。当本公开一实施例采用双弯曲函数712转换,来计算变异词的权重时,如果一原始的监控词汇(例如援交)与一变异词(例如吃鱼)之间的相似度是0.62,则通过双弯曲函数712转换,可得到此变异词的权重为0.812,如双弯曲函数712g上的点(0.62,0.812)所在位置其纵轴上的值。
得到变异词的权重后,可利用变异词的权重去重新计算变异词在的语言模型。根据本公开一实施例,重新计算变异词在的语言模型可将相同含意的变异词词汇机率加总后,再乘上该变异词的权重,其公式如下:
以变异词“吃鱼”相对于原始的监控词汇“援交”的权重等于0.812为例,则根据上式,变异词“吃鱼”在的语言模型可计算如下:
承接上述,本公开实施例可通过转换至少一监控词组中每一词汇的权重,而得到其多重变异词汇中每一变异词汇的权重,以将此多重变异词汇更新至或重建于第i+1组帐号的多个语言模型。
如之前所述,本公开实施例可将多重变异词汇更新于既有的语言模型中,并且,针对第k组帐号中与第k-1组帐号不同的每一新帐号,重新建立此新帐号的一语言模型。每一帐号的语言模型建立后,可计算各帐号所属的语言模型的相似度;再通过一分群算法,如渐进式分群算法,将相似特征(相似度高)的帐号群集成一群;当一群集的相似度超过一阈值时,判定此群里所包含的帐号为同一帐号的分身。当一新帐号的语言模型相似度低于一阈值而无法归类到任一群组时,则为新的群组。也就是说,本公开实施例可通过一渐进式分群算法,根据新的语言模型重新进行帐号分群,找出新的帐号分身群组。
例如,帐号1、帐号2、以及帐号5为同一帐号的分身群组A;帐号11、帐号13、以及帐号22为同一帐号的分身群组B;一新帐号77和A群组相似度高于一阈值,所以新帐号77属于群组A。一新帐号33因为和A群组相似度低于阈值,并且和B群组相似度也低于阈值,所以无法归属于任一群组,因此产生新的群组。
图8是根据本公开一实施例,说明渐进式分群算法的流程。参考图8,在步骤810中,从一组帐号中取出第一笔帐号数据x1,并设定群组数目m等于1且x1为群组C1的一中心帐号。在步骤820中,从尚未分群的帐号中取出任一未分群的帐号xi,计算xi与目前所有群组(C1…Cm)的中心帐号的相似度。在步骤830中,当xi与群组Cwin的中心帐号的相似度大于等于一阈值时,2≦win≦m,则将xi归类为群组Cwin,并重新计算Cwin群组的中心帐号;返回步骤820,直到没有未分群的帐号为止。在步骤840中,当xi与群组Cwin的中心帐号的相似度小于此阈值时,则设定群组数目m=m+1,以及xi为一新群组Cm的中心帐号;返回步骤820,直到没有未分群的帐号为止。
承接上述,图9是根据本公开一实施例,说明一种发掘可疑帐号的分身群组的系统。参考图9,一发掘可疑帐号的分身群组的系统900可包含一语言模型训练装置910、一帐号分群装置920、一变异词辨识器930、以及一渐进式帐号分群装置940。语言模型训练装置910根据在一第一时间区间内,一第一组帐号的每一帐号的发文内容,建立此帐号的一语言模型来描述此帐号的语言风格。帐号分群装置920根据此第一组帐号所属的一第一组语言模型的相似度,将此第一组帐号分群。变异词辨识器930针对在一第二时间区间内,新增的多笔数据932,挖掘出至少一监控词组的多重变异词汇,并且将此多重变异词汇更新至一第二组帐号所属的一第二组语言模型。渐进式帐号分群装置940针对此第二组帐号,根据第二组语言模型的相似度,汇整此第一组帐号与此第二组帐号,并且将一组汇整后的帐号重新分群。
根据本公开实施例,系统900还可包括一词汇配对表,此词汇配对表中每一配对包含至少一监控词组中的一监控词汇,以及此监控词汇的一候选变异词汇。变异词辨识器930会在每一更新时间区间内,将此多重变异词汇更新于既有的语言模型中,并且对每一新帐号,重新建立此新帐号的一语言模型来描述此新帐号的发文内容。变异词辨识器930也会通过至少一监控词组中每一监控词的前后特征视窗,从中提取一或多个特征,来判断新增的多笔数据中新进的一或多个词汇是否属在此监控词的变异词汇。变异词辨识器930也会针对词汇配对表中每一配对中的监控词汇与候选变异词,分别取其所属发文中的部分词汇,并分别存成一目标视窗及一候选视窗。变异词辨识器930可从目标视窗与候选视窗提取出前述的一或多个特征。
综上所述,本公开实施例提供一种能够自动寻找可疑帐号的分身群组的方法与系统。其技术是一种具有变异词扩充的语言模型调适技术,能够分析帐号发文内容的语言风格的相似程度,进而找出语言风格同质性高的可疑帐号的分身群组。找出帐号分身后,此技术可结合现有的通联分析技术,来检视这些帐号间的互动关联。
以上所述者仅为本公开实施例,当不能依此限定本公开实施的范围。即大凡本发明申请专利范围所作的均等变化与修饰,皆应仍属本发明专利涵盖的范围。

Claims (19)

1.一种发掘可疑帐号的分身群组的方法,包含︰
在至少一硬件处理器的控制下,
根据在一第一时间区间内,一第一组帐号的每一帐号的发文内容,建立该帐号的一语言模型来描述该帐号的语言风格,并且比较该第一组帐号的多个语言模型的相似度,以将该第一组帐号分群;
针对在一第二时间区间内,新增的多笔数据,挖掘出至少一监控词组的多重变异词汇,并且将该多重变异词汇更新至一第二组帐号的多个语言模型,进而汇整该第一组帐号与该第二组帐号,并且将一组汇整后的帐号重新分群;
通过此至少一监控词组中每一监控词的前后特征视窗,从中提取一或多个特征;
转换原始的词汇权重来得到变异词的权重;以及
利用变异词的权重去重新计算监控词组与变异词所在的语言模型。
2.如权利要求1所述的方法,该方法还包括:
针对在多个更新时间区间的每一更新时间区间内新增的多笔数据,挖掘出至少一监控词组的多重变异词汇,并且将该多重变异词汇更新至或重建于一不同组帐号的多个语言模型,进而将该不同组帐号与其前一组帐号汇整后,重新分群,以持续发掘可疑帐号的分身群组。
3.如权利要求2所述的方法,该方法还包括:
针对在该每一更新时间区间内,将该多重变异词汇更新于既有的语言模型中,并且对该每一更新时间区间中与与其前一组帐号不同的每一新帐号,重新建立该新帐号的一语言模型来描述其发文内容。
4.如权利要求1所述的方法,该方法还包括:
对于该第一组帐号的每一帐号,计算及比较该第一组帐号所对应的该多个语言模型的相似度,并根据该相似度的比较结果来将该第一组帐号分群。
5.如权利要求4所述的方法,该方法还包括:
重新计算及比较该第二组帐号的多个语言模型的相似度,并根据重新比较的相似度结果,汇整该第一组帐号与该第二组帐号,并将该组汇整后的帐号重新分群。
6.如权利要求1所述的方法,其中挖掘出该至少一监控词组的多重变异词汇通过该至少一监控词组中每一监控词的前后特征视窗,提取一或多个特征,来判断该新增的多笔数据中一或多个新词汇是否属于该监控词的变异词汇。
7.如权利要求6所述的方法,其中该一或多个特征是一关键词汇序列模式、一词性序列模式、一概念序列模式、以及一词汇字串相似度,之前述特征的其中一种特征或两种以上的特征。
8.如权利要求1所述的方法,其中建立该帐号的该语言模型还包括:
将该帐号对应的发文内容通过断词处理、以及语言风格特征提取,来训练出该语言模型。
9.如权利要求1所述的方法,该方法还包括:
建立一词汇配对表,该词汇配对表中每一配对包含一第一词汇与一第二词汇,该第一词汇是该至少一监控词组中的一监控词汇,而该第二词汇是一候选变异词汇。
10.如权利要求9所述的方法,该方法还包括:
建立该配对的一目标视窗与一候选视窗,并分别从该目标视窗与该候选视窗提取一或多个特征;以及
整合该第一词汇与该第二词汇之间的一词汇距离和该一或多个特征的距离,并根据该整合的距离来计算该第一词汇与该第二词汇之间的相似度。
11.如权利要求1所述的方法,该方法还包括:
通过转换该至少一监控词组中每一词汇的一第一权重,得到该多重变异词汇中每一变异词汇的一第二权重,以将该多重变异词汇更新至该第二组帐号的该多个语言模型。
12.如权利要求1所述的方法,该方法还包括:
通过一渐进式分群算法,根据该第二组帐号的多个语言模型将该组汇整后的帐号重新分群,找出一或多个新的帐号分身群组。
13.一种发掘可疑帐号的分身群组的系统,包含:
一语言模型训练装置,根据在一第一时间区间内,一第一组帐号的每一帐号的发文内容,建立该帐号的一语言模型来描述该帐号的语言风格;
一帐号分群装置,根据建立的该第一组帐号的一第一组语言模型的相似度,来将该第一组帐号分群;
一变异词辨识器,针对在一第二时间区间内新增的多笔数据,挖掘出至少一监控词组的多重变异词汇,该多重变异词汇被更新至一第二组帐号所属的一第二组语言模型;以及
一渐进式帐号分群装置,根据该第二组语言模型的相似度,汇整该第一组帐号与该第二组帐号,并将一组汇整后的帐号重新分群,
其中,该系统被配置以:
通过此至少一监控词组中每一监控词的前后特征视窗,从中提取一或多个特征;
转换原始的词汇权重来得到变异词的权重;以及
利用变异词的权重去重新计算监控词组与变异词所在的语言模型。
14.如权利要求13所述的系统,其中在多个更新时间区间的每一更新时间区间内,该变异词辨识器将该多重变异词汇更新于既有的语言模型中,并且对该每一更新时间区间中与其前一组帐号不同的每一新帐号,重新建立该新帐号的一语言模型来描述其发文内容。
15.如权利要求13所述的系统,其中该变异词辨识器通过该至少一监控词组中每一监控词的前后特征视窗,从中提取一或多个特征,来判断新增的该多笔数据中一或多个新词汇是否属于该监控词的变异词汇。
16.如权利要求15所述的系统,其中该一或多个特征是一关键词汇序列模式、一词性序列模式、一概念序列模式、以及一词汇字串相似度的前述特征的其中一种特征或两种以上的特征。
17.如权利要求13所述的系统,该系统还包括:
一词汇配对表,该词汇配对表中每一配对包含该至少一监控词组中的一监控词汇,以及该监控词汇的一候选变异词汇。
18.如权利要求17所述的系统,其中该变异词辨识器针对该词汇配对表中每一配对中的该监控词汇与该候选变异词,分别取其所属发文中的部分词汇并分别存成一目标视窗及一候选视窗。
19.如权利要求18所述的系统,其中该变异词辨识器从该目标视窗与该候选视窗提取一或多个特征。
CN201210379865.4A 2012-08-21 2012-10-09 发掘可疑帐号的分身群组的方法与系统 Active CN103631834B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW101130272A TWI465950B (zh) 2012-08-21 2012-08-21 發掘可疑帳號之分身群組的方法與系統
TW101130272 2012-08-21

Publications (2)

Publication Number Publication Date
CN103631834A CN103631834A (zh) 2014-03-12
CN103631834B true CN103631834B (zh) 2017-04-26

Family

ID=50148787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210379865.4A Active CN103631834B (zh) 2012-08-21 2012-10-09 发掘可疑帐号的分身群组的方法与系统

Country Status (3)

Country Link
US (1) US9684649B2 (zh)
CN (1) CN103631834B (zh)
TW (1) TWI465950B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9131369B2 (en) 2013-01-24 2015-09-08 Nuance Communications, Inc. Protection of private information in a client/server automatic speech recognition system
US9264532B2 (en) * 2013-01-31 2016-02-16 International Business Machines Corporation Technology for combating mobile phone criminal activity
US9514741B2 (en) 2013-03-13 2016-12-06 Nuance Communications, Inc. Data shredding for speech recognition acoustic model training under data retention restrictions
US9514740B2 (en) * 2013-03-13 2016-12-06 Nuance Communications, Inc. Data shredding for speech recognition language model training under data retention restrictions
US9280536B2 (en) * 2013-03-28 2016-03-08 Hewlett Packard Enterprise Development Lp Synonym determination among n-grams
CA2932069A1 (en) * 2013-11-29 2015-06-04 Ge Aviation Systems Limited Method of construction of anomaly models from abnormal data
CN104239490B (zh) * 2014-09-05 2017-05-10 电子科技大学 一种用于ugc网站平台的多账户检测方法及装置
US10915543B2 (en) 2014-11-03 2021-02-09 SavantX, Inc. Systems and methods for enterprise data search and analysis
US9341490B1 (en) * 2015-03-13 2016-05-17 Telenav, Inc. Navigation system with spelling error detection mechanism and method of operation thereof
CN105389722B (zh) * 2015-11-20 2019-12-13 小米科技有限责任公司 恶意订单识别方法及装置
US11176206B2 (en) 2015-12-01 2021-11-16 International Business Machines Corporation Incremental generation of models with dynamic clustering
US11093494B2 (en) * 2016-12-06 2021-08-17 Microsoft Technology Licensing, Llc Joining tables by leveraging transformations
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US11328128B2 (en) * 2017-02-28 2022-05-10 SavantX, Inc. System and method for analysis and navigation of data
EP3590053A4 (en) * 2017-02-28 2020-11-25 SavantX, Inc. SYSTEM AND METHOD OF ANALYSIS AND DATA TRAVEL
US10073831B1 (en) * 2017-03-09 2018-09-11 International Business Machines Corporation Domain-specific method for distinguishing type-denoting domain terms from entity-denoting domain terms
CN107609006B (zh) * 2017-07-24 2021-01-29 华中师范大学 一种基于地方志研究的搜索优化方法
US10891338B1 (en) * 2017-07-31 2021-01-12 Palantir Technologies Inc. Systems and methods for providing information
KR102102388B1 (ko) * 2017-11-20 2020-04-21 주식회사 마인즈랩 학습 문장 생성 시스템 및 이를 이용한 유사 문장 생성 방법
CN108346107B (zh) * 2017-12-28 2020-11-10 创新先进技术有限公司 一种社交内容风险识别方法、装置以及设备
US10664656B2 (en) * 2018-06-20 2020-05-26 Vade Secure Inc. Methods, devices and systems for data augmentation to improve fraud detection
US11017046B2 (en) * 2019-03-11 2021-05-25 Microsoft Technology Licensing, Llc Counter with obsolescence of outdated values
US11361395B2 (en) * 2020-05-27 2022-06-14 Coupang Corp. Computerized systems and methods for fraud detection and user account deduplication
CN114021564B (zh) * 2022-01-06 2022-04-01 成都无糖信息技术有限公司 一种针对社交文本的切分取词方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6484136B1 (en) * 1999-10-21 2002-11-19 International Business Machines Corporation Language model adaptation via network of similar users
US7698335B1 (en) * 2005-06-27 2010-04-13 Microsoft Corporation Cluster organization of electronically-stored items
CN101924660A (zh) * 2009-06-09 2010-12-22 阿尔卡特朗讯公司 检测网络恶意行为的方法和装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5887120A (en) 1995-05-31 1999-03-23 Oracle Corporation Method and apparatus for determining theme for discourse
US5835893A (en) * 1996-02-15 1998-11-10 Atr Interpreting Telecommunications Research Labs Class-based word clustering for speech recognition using a three-level balanced hierarchical similarity
US6104989A (en) * 1998-07-29 2000-08-15 International Business Machines Corporation Real time detection of topical changes and topic identification via likelihood based methods
US7860222B1 (en) 2003-11-24 2010-12-28 Securus Technologies, Inc. Systems and methods for acquiring, accessing, and analyzing investigative information
US7400245B1 (en) 2003-06-04 2008-07-15 Joyce Claire Johnson Personal safety system for evidence collection and retrieval to provide critical information for rescue
GB2418499A (en) 2004-09-24 2006-03-29 Advanced Forensic Solutions Lt Information analysis arrangement
US7242751B2 (en) * 2004-12-06 2007-07-10 Sbc Knowledge Ventures, L.P. System and method for speech recognition-enabled automatic call routing
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
US20080189789A1 (en) 2007-02-01 2008-08-07 Elaine Lamontagne System, method and apparatus for the detection and capturing of technological crime instances
US8001136B1 (en) 2007-07-10 2011-08-16 Google Inc. Longest-common-subsequence detection for common synonyms
US8813050B2 (en) 2008-06-03 2014-08-19 Isight Partners, Inc. Electronic crime detection and tracking
TWI403146B (zh) 2009-01-21 2013-07-21 Chung Yu Lin Method and system for establishing network crime by telephone number and authorization code and source identification code
US8510098B2 (en) * 2010-01-29 2013-08-13 Ipar, Llc Systems and methods for word offensiveness processing using aggregated offensive word filters
US8862102B2 (en) * 2010-02-15 2014-10-14 TTSL IITB Center for Excellence in Telecom (TICET) Method for facilitating and analyzing social interactions and context for targeted recommendations in a network of a telecom service provider
US20140067368A1 (en) * 2012-08-29 2014-03-06 Microsoft Corporation Determining synonym-antonym polarity in term vectors

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6484136B1 (en) * 1999-10-21 2002-11-19 International Business Machines Corporation Language model adaptation via network of similar users
US7698335B1 (en) * 2005-06-27 2010-04-13 Microsoft Corporation Cluster organization of electronically-stored items
CN101924660A (zh) * 2009-06-09 2010-12-22 阿尔卡特朗讯公司 检测网络恶意行为的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Towards Discovering Criminal Communities from Textual Data;Rabeah Al-Zaidy等;《SAC’11 Proceedings of the 2011 ACM Symposium on Applied Computing》;20110325;第172-177页 *
互联网跟踪与发现探析;尹浩然 等;《警察技术》;20120107(第1期);第4-7页 *

Also Published As

Publication number Publication date
CN103631834A (zh) 2014-03-12
US9684649B2 (en) 2017-06-20
US20140058723A1 (en) 2014-02-27
TWI465950B (zh) 2014-12-21
TW201409261A (zh) 2014-03-01

Similar Documents

Publication Publication Date Title
CN103631834B (zh) 发掘可疑帐号的分身群组的方法与系统
Karim et al. Classification benchmarks for under-resourced bengali language based on multichannel convolutional-lstm network
CN109635273B (zh) 文本关键词提取方法、装置、设备及存储介质
CN107766585B (zh) 一种面向社交网络的特定事件抽取方法
CN111950273B (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN110032632A (zh) 基于文本相似度的智能客服问答方法、装置及存储介质
CN102929861B (zh) 一种文本情感指数计算方法和系统
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN106547875B (zh) 一种基于情感分析和标签的微博在线突发事件检测方法
CN109918556B (zh) 一种综合微博用户社交关系和文本特征抑郁情绪识别方法
CN110879834B (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
CN110162632B (zh) 一种新闻专题事件发现的方法
CN112559684A (zh) 一种关键词提取及信息检索方法
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN110837601A (zh) 一种警情的自动分类与预测方法
CN106570112A (zh) 基于改进的蚁群算法实现文本聚类
CN113962293A (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
CN108536781B (zh) 一种社交网络情绪焦点的挖掘方法及系统
Galal et al. Classifying Arabic text using deep learning
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN108846033B (zh) 特定领域词汇的发现及分类器训练方法和装置
Prabowo et al. Hierarchical multi-label classification to identify hate speech and abusive language on Indonesian twitter
CN109857869A (zh) 一种基于Ap增量聚类和网络基元的热点话题预测方法
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
Tembhurnikar et al. Topic detection using BNgram method and sentiment analysis on twitter dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant