CN112100318A - 一种多维度信息合并方法、装置、设备及存储介质 - Google Patents
一种多维度信息合并方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112100318A CN112100318A CN202011257378.1A CN202011257378A CN112100318A CN 112100318 A CN112100318 A CN 112100318A CN 202011257378 A CN202011257378 A CN 202011257378A CN 112100318 A CN112100318 A CN 112100318A
- Authority
- CN
- China
- Prior art keywords
- fingerprint
- library
- sub
- feature
- hash
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 230000002035 prolonged effect Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 239000007769 metal material Substances 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- CWYNVVGOOAEACU-UHFFFAOYSA-N Fe2+ Chemical group [Fe+2] CWYNVVGOOAEACU-UHFFFAOYSA-N 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000505 pernicious effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/325—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种多维度信息合并方法、装置、设备及存储介质,方法包括:提取文本的特征主题词;对特征主题词分别进行哈希计算,从而得到包含多个哈希值的集合,对集合中的所有哈希值取和作为主指纹;对所述集合中的各哈希值进行组合取和作为从指纹集合;将从指纹集合与主指纹合并为并集,将并集作为Key、主指纹作为Value构成键值对作为指纹特征子库;以指纹特征子库到指纹特征总库中匹配,若匹配成功,则将指纹特征子库舍弃,若匹配失败,则将特征主题词的哈希值进行组合取和作为指纹特征子库的Value,并将文本的指纹特征子库添加到指纹特征总库中。本发明解决了simhash计算速度慢、指数级增长的问题。可提供高质量的去重数据,减少推送数据的重报、漏报现象。
Description
技术领域
本发明涉及文本分析领域下,海量文本相似合并方面。对网络舆情信息进行相似合并,从而达到去重效果。具体地说,涉及一种多维度信息合并方法、装置、设备及存储介质。
背景技术
随着互联网的普及,互联网日渐成为人们发布信息、获取信息和传递信息的主要载体。伴随自媒体时代的到来,每个个体都可以成为报道着和传话人,舆情数据对及时了解民 意、反映社会信息、控制引导舆论正确的发展、社会稳定和国家发展至关重要。对舆情进行分析有助于了解事件的发展态势,避免事件的恶性蔓延,为舆情事件应急管理提供重要的决策支持。然而,互联网舆情信息具有海量数据和高重复性的特性,并且信息的数量以前所未有的速度膨胀着,因此舆情的发展会在很短的时间内爆发和消失,若不进行高效去重,将对用户的及时查看造成压力,在人力的浪费。
目前常用的文本去重方法simhash,是将所有文本都分别变换为二进制以后进行两两比较,存在数据量大的时候指数级的计算增量,在海量的数据中会造成无法使用。
发明内容
本发明将simhash的两两比较相似度的方式转变为对于信息指纹的查表法,信息
指纹融合了TF-IDF提取的特征主题词,特征主题词变形计算、重点特征top三句、原贴url
等互联网数据多维特征,结合时间衰减和防偏移方法,形成信息合并的一种综合方法。
本申请所采用的技术方案如下:
一种多维度信息合并方法,包括:
提取文本的特征主题词;
对所述特征主题词分别进行哈希计算,从而得到包含多个哈希值的集合Set-H,对所述集合Set-H中的所有哈希值取和作为主指纹Hash_M;
将所述从指纹集合Set_S与主指纹Hash_M合并为并集,将所述并集作为Key、所述主指纹Hash_M作为Value构成键值对作为指纹特征子库;
以所述指纹特征子库到所述指纹特征总库中匹配,若匹配成功,则将所述指纹特征子
库舍弃,若匹配失败,则将所述特征主题词的哈希值进行组合取和作为所述指纹特征子
库的Value,并将所述文本的指纹特征子库添加到指纹特征总库中,其中,在所述指纹特征
总库中包含有对应多篇文本的指纹特征子库。
可选地,所述以所述指纹特征子库到所述指纹特征总库中匹配是指:
以所述指纹特征子库中的Key与所述指纹特征总库中的各指纹特征子库的Key进行匹配。
可选地,所述从指纹集合Set_S还包括所述文本中字符数超过设定的长度阈值的k句话连接起来计算的哈希值。
可选地,所述从指纹集合Set_S还包括所述文本的原贴url计算的哈希值。
可选地,所述指纹特征总库中的各指纹特征子库在设定时间段内有效,且在有效期内,若有指纹特征子库匹配上指纹特征总库中的任一指纹特征子库,并且所述任一指纹特征子库的有效期小于设定的到期阈值,则将所述任一指纹特征子库延长一段时间。
可选地,所述延长一段时间是指延长不少于一小时,且最多延长至有效期不超过72小时。
可选地,所述到期阈值是不超过一小时。
可选地,所述提取文本的特征主题词包括:
采用TF-IDF进行特征主题词提取。
可选地,所述指纹特征总库和指纹特征子库是redis数据库。
本发明还提供一种多维度信息合并装置,包括:
主题词提取模块,用于提取文本的特征主题词;
指纹特征子库构建模块,用于对所述特征主题词分别进行哈希计算,从而得到包含多
个哈希值的集合Set-H,对所述集合Set-H中的所有哈希值取和作为主指纹Hash_M;对所述
集合Set-H中的各哈希值进行组合取和作为从指纹集合Set_S,其中,n和m为正整数,m<
n;将所述从指纹集合Set_S与主指纹Hash_M合并为并集,将所述并集作为Key、所述主指纹
Hash_M作为Value构成键值对作为指纹特征子库;
特征匹配模块,用于以所述指纹特征子库到所述指纹特征总库中匹配,若匹配成功,则
将所述指纹特征子库舍弃,若匹配失败,则将所述特征主题词的哈希值进行组合取和作
为所述指纹特征子库的Value,并将所述文本的指纹特征子库添加到指纹特征总库中,其
中,在所述指纹特征总库中包含有对应多篇文本的指纹特征子库。
本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的多维度信息合并方法。
本发明还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的多维度信息合并方法。
本发明利用文本的特征主题词、文本重点内容top三句、原贴url等互联网数据的多维特征,构成指纹特征子库,并在将指纹特征子库并入到指纹特征总库中时引入时间衰减控制和防偏移控制。将simhash计算两两比对的时间复杂度O(log(n!)),优化成了O(1)。其中O()是指复杂度。因为simhash计算的文本去重是取当前信息的特征集合,与多个历史信息的特征集合轮循,所以其时间复杂度是O(1)~O(n),n=历史信息的数量。而本发明是建立主从指纹的hash映射构成哈希链表,对于从指纹特征,每个从指纹特征去哈希链表中查找的复杂度是O(1),因为一个信息通常最多有8个从特征,所以时间复杂度O(1)~O(8)。这显著提高了信息初步合并的准确率、召回率。解决了传统simhash计算速度慢、指数级增长的问题。整体互联网信息的合并率(召回),从传统simhash 41%提升到了60%。保证信息的最终高效去重,提高推送给用户的数据质量。
本发明大幅提高了信息一次合并的准确率、召回率,大幅降低了二次合并空间和时间上处理的复杂度,显著提高了低热度舆情合并效果。可以提供高质量的去重数据,大幅减少推送数据的重报,漏报现象。
附图说明
通过结合下面附图对其实施例进行描述,本发明的上述特征和技术优点将会变得更加清楚和容易理解。
图1为本发明提供的多维度信息合并方法一实施例的流程示意图;
图2为本发明提供的多维度信息合并装置一实施例的模块示意图;
图3为本发明提供的实现多维度信息合并方法的电子设备一实施例的结构示意图。
具体实施方式
下面将参考附图来描述本发明的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
多维度信息合并方法包括:
S1,通过TF-IDF(一种用于信息检索与数据挖掘的常用加权技术)提取每篇文本的特征主题词。
所述特征主题词是指能够表明该篇文本的主要意思的词语。例如下面一篇文本:
1.金属材料的种类
金属材料具体是指有光泽、能够导电、可以延展的材料,虽然金属材料的种类比较多,但却可将之归纳为两类,一类是黑色金属,另一类是有色金属……。
2.金属材料在航空航天领域中的应用
在航空航天领域中,金属材料的应用非常广泛,下面就一些典型金属材料的应用进行分析……。
其中,“金属材料”、“航空航天”、“应用”都可以说是代表了文本的主要意思,从而可以作为特征主题词。
上述TF-IDF是一种用于信息检索与文本挖掘的算法,用以评估字词对于一篇文本的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。也就是说,一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少,越能够代表该文章。
对于一篇文本,计算文本的特征主题词所采用的TF-IDF的公式如下:
通过对于文章中的每个词进行打分,分数越高的表示其越能够代表文章的主要意思,就可以作为特征主题词。可以根据需要选择一个或多个作为特征主题词。
S2,对于每篇文本,对其特征主题词分别进行hash计算,从而对应得到多个哈希值
的集合Set-H;对集合Set-H中的所有哈希值取和作为主指纹Hash_M,对集合Set-H中的各哈
希值进行C(n,m)(同)组合取和,得到多个从指纹集合Set_S={x|x=SUM(Set-H(C(n,
m)))}。X是从指纹集合中的一个元素。所述C(n,m)组合是指从n个哈希值中选取m个进行组
合。其中,n和m为正整数,m<n。
例如,一篇文本中,具有权重较高的5个特征主题词,对这5个特征主题词分别计算哈希值,得到hash1,hash2,hash3,hash4,hash5,构成Set-H={hash1,hash2,hash3,hash4,hash5}。对Set-H中的hash1,hash2,hash3,hash4,hash5取和,得到Hash_M=SUM(Set-H)作为主指纹。从hash1,hash2,hash3,hash4,hash5中选取4个进行组合取和,得到[hash1+hash2+hash3+hash4],[hash1+hash2+hash3+hash5],[hash2+hash3+hash4+hash5],[hash1+hash3+hash4+hash5],[hash1+hash2+hash4+hash5],构成从指纹集合Set_S={x|x= SUM(Set-H(C(5,4)))}。
所述hash计算是将任意长度的二进制值映射为较短的固定长度的二进制值,这个小的二进制值称为哈希值。哈希值是一段数据唯一且极其紧凑的数值表示形式。可以采用例如MD5和SHA等算法来计算哈希值。
优选地,对于每篇文本,选取文本中较长的k句话,并将这k句话连接起来取哈希值,从而获得hash6。获取该篇文本的原贴url,并对该url取哈希值,从而获得hash7。由此获得了两个从指纹,并将这两个从指纹加入到从指纹集合Set_S中。还以上文中的具有5个特征主题词的文本为例,则其Set_S={[hash1+hash2+hash3+hash4],[hash1+hash2+hash3+hash5],[hash2+hash3+hash4+hash5],[hash1+hash3+hash4+hash5],[hash1+hash2+hash4+hash5],hash6,hash7}。
所述较长是指按照每句话所含的字符数来判定,字符数超过设定的长度阈值,则认为较长。并对超过长度阈值的k句话依次排列,选取其中最长的三句话,并将这三句话连接起来取哈希值。
S3,将从指纹集合Set_S与主指纹Hash_M合并形成并集,将所述并集与主指纹Hash_M形成键值对作为指纹特征子库,具体地,该指纹特征子库包含一篇文本的所述并集的元素为Key(从特征),主指纹Hash_M为Value(主特征)。并将该指纹特征子库合并入指纹特征总库中,所述指纹特征总库中包含有多篇文章形成的指纹特征子库。
S4,以所述并集到指纹特征总库匹配,若在指纹特征总库中匹配到与其一致的Key,则将匹配到的Key所对应的Value作为该篇文本的分类id,也就是舍弃该指纹特征子库。
所述指纹特征总库可以是redis数据库。所述redis数据库是以哈希链表的形式来存储Key和Value构成的键值对。所述匹配是指以所述并集中的每个哈希值去哈希链表进行哈希查找,例如,以hash6去哈希链表中进行哈希查找,则一次哈希查找的时间复杂度为O(1)。对其中的各哈希值去哈希链表中进行哈希查找,如果找到与其key中的哈希值至少有一个相同的key,或者说,这两个key具有交集,则认为这两个key匹配成功。由于总共就几个哈希值,那时间复杂度自然就较小。
还以上述的文本为例,其5个特征主题词的哈希值是hash1,hash2,hash3,hash4,hash5,进行C(5,5)组合求和作为该篇文本的分类id,即是将[hash1+hash2+hash3+hash4+hash5]作为该篇文本的分类id(Value)
所述指纹特征库的形式如表1所述:
表1
Key | Value(分类id) |
从指纹集合Set_S和主指纹Hash_M的并集 | Hahs_M |
从指纹集合Set_S和主指纹Hash_M的并集 | Hahs_M |
从指纹集合Set_S和主指纹Hash_M的并集 | Hahs_M |
从指纹集合Set_S和主指纹Hash_M的并集 | Hahs_M |
在S4中,指纹特征子库在并入指纹特征总库时,以指纹特征子库的key到指纹特征总库中匹配到key后,由于并不是将其特征合并到匹配的指纹特征子库中,而是将该指纹特征子库舍弃,具有防偏移的效果。具体说,假设指纹特征总库里有两个指纹特征子库Key1-Value1,Key2-Value2。对于新来的指纹特征子库(Key3-Value3),如果Key3与指纹特征库中的Key都不匹配,则将Key3与Value3组成键值对添加到指纹特征总库中。如果Key3与Key1匹配,则舍弃Key3-Value3。由于Value1与Value3的匹配是由于key1与key3具有交集,所以,Value3的一个或多个从指纹已经记录到了指纹特征总库里,并与Value1映射,而Key3剩余的区别于key1的特征与Value1的关联性不强,若不舍弃会造成Value1的从指纹集合逐渐与Value偏离。
下面说明一下若不进行防偏移控制,信息合并产生偏移的过程:
同样地,假设文本C的key包括{,,,,,,},文本C的key若是
匹配到了文本A,文本A={,,}。但实际是匹配上的文本B的从指纹上,
若将文本C的从指纹也归纳到文本A的主指纹下,则新加入的和文本A的关联性进
一步衰退。
然后文本D、E、F....逐渐合并入该指纹特征子库,最终会造成信息合并的严重偏移,直至合并误判;极大的影响信息合并的准确率。
进一步地,还具有时间衰减控制,在指纹特征子库添加到指纹特征总库后,所述指纹特征总库中的各指纹特征子库在设定时间段内有效,且在有效期内,若有指纹特征子库匹配上指纹特征总库中的任一指纹特征子库,并且所述任一指纹特征子库的有效期小于设定的到期阈值,则将所述任一指纹特征子库延长一段时间。
所述延长一段时间是指延长不少于一小时,且最多延长至有效期不超过72小时。
所述到期阈值是不超过一小时。
例如初始24小时有效,若是有指纹特征子库匹配上指纹特征总库中的任一指纹特征子库,且该指纹特征子库将在1小时内过期,则延长一小时有效期,且最多延长至72小时。
如图3所示,是本发明多维度信息合并装置一实施例的功能模块示意图。
本发明的多维度信息合并装置100可以安装于电子设备中。根据实现的功能,所述多维度信息合并装置100可以包括主题词提取模块101、指纹特征子库构建模块102、特征匹配模块103。本发明所述模块是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块的功能如下:
主题词提取模块101,用于通过TF-IDF(一种用于信息检索与数据挖掘的常用加权技术)提取每篇文本的特征主题词。
所述特征主题词是指能够表明该篇文本的主要意思的词语。例如下面一篇文本:
上述TF-IDF是一种用于信息检索与文本挖掘的算法,用以评估字词对于一篇文本的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。也就是说,一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少,越能够代表该文章。
对于一篇文本,计算文本的特征主题词所采用的TF-IDF的公式如下:
通过对于文章中的每个词进行打分,分数越高的表示其越能够代表文章的主要意思,就可以作为特征主题词。可以根据需要选择一个或多个作为特征主题词。
指纹特征子库构建模块102,用于对于每篇文本,对其特征主题词分别进行hash计
算,从而对应得到多个哈希值的集合Set-H;对集合Set-H中的所有哈希值取和作为主指纹
Hash_M,对集合Set-H中的各哈希值进行C(n,m)(同)组合取和,得到多个从指纹集合
Set_S={x|x=SUM(Set-H(C(n,m)))}。所述C(n,m)组合是指从n个哈希值中选取m个进行组
合。其中,n和m为正整数,m<n。
例如,一篇文本中,具有权重较高的5个特征主题词,对这5个特征主题词分别计算哈希值,得到hash1,hash2,hash3,hash4,hash5,构成Set-H={hash1,hash2,hash3,hash4,hash5}。对Set-H中的hash1,hash2,hash3,hash4,hash5取和,得到Hash_M=SUM(Set-H)作为主指纹。从hash1,hash2,hash3,hash4,hash5中选取4个进行组合取和,得到[hash1+hash2+hash3+hash4],[hash1+hash2+hash3+hash5],[hash2+hash3+hash4+hash5],[hash1+hash3+hash4+hash5],[hash1+hash2+hash4+hash5],构成从指纹集合Set_S={x|x= SUM(Set-H(C(5,4)))}。
所述hash计算是将任意长度的二进制值映射为较短的固定长度的二进制值,这个小的二进制值称为哈希值。哈希值是一段数据唯一且极其紧凑的数值表示形式。可以采用例如MD5和SHA等算法来计算哈希值。
优选地,对于每篇文本,选取文本中较长的k句话,并将这k句话连接起来取哈希值,从而获得hash6。获取该篇文本的原贴url,并对该url取哈希值,从而获得hash7。由此获得了两个从指纹,并将这两个从指纹加入到从指纹集合Set_S中。还以上文中的具有5个特征主题词的文本为例,则其Set_S={[hash1+hash2+hash3+hash4],[hash1+hash2+hash3+hash5],[hash2+hash3+hash4+hash5],[hash1+hash3+hash4+hash5],[hash1+hash2+hash4+hash5],hash6,hash7}。
所述较长是指按照每句话所含的字符数来判定,字符数超过设定的长度阈值,则认为较长。并对超过长度阈值的k句话依次排列,选取其中最长的三句话,并将这三句话连接起来取哈希值。
将从指纹集合Set_S与主指纹Hash_M合并形成并集,将所述并集与主指纹Hash_M形成键值对作为指纹特征子库,具体地,该指纹特征子库包含一篇文本的所述并集的元素为Key(从特征),主指纹Hash_M为Value(主特征)。并将该指纹特征子库合并入指纹特征总库中,所述指纹特征总库中包含有多篇文章形成的指纹特征子库。
特征匹配模块103,用于以所述并集到指纹特征总库匹配,若在指纹特征总库中匹配到与其一致的Key,则将匹配到的Key所对应的Value作为该篇文本的分类id,也就是舍弃该指纹特征子库。
若所述并集没有在指纹特征总库中匹配到,则将该篇文本的特征主题词的哈希值
进行C(n,n)(同)组合求和作为该篇文本的Value,并将该篇文本的Key和Value构成键值
对添加到指纹特征总库中。所述指纹特征总库可以是redis数据库。
还以上述的文本为例,其5个特征主题词的哈希值是hash1,hash2,hash3,hash4,hash5,进行C(5,5)组合求和作为该篇文本的分类id,即是将[hash1+hash2+hash3+hash4+hash5]作为该篇文本的分类id(Value)
所述指纹特征库的形式如表1:
S4中,指纹特征子库在并入指纹特征总库时,以指纹特征子库的key到指纹特征总库中匹配到key后,由于并不是将其特征合并到匹配的指纹特征子库中,而是将该指纹特征子库舍弃,具有防偏移的效果。具体说,假设指纹特征总库里有两个指纹特征子库Key1-Value1,Key2-Value2。对于新来的指纹特征子库(Key3-Value3),如果Key3与指纹特征库中的Key都不匹配,则将Key3与Value3组成键值对添加到指纹特征总库中。如果Key3与Key1匹配,则舍弃Key3-Value3。由于Value1与Value3的匹配是由于key1与key3具有交集,所以,Value3的一个或多个从指纹已经记录到了指纹特征总库里,并与Value1映射,而Key3剩余的区别于key1的特征与Value1的关联性不强,若不舍弃会造成Value1的从指纹集合逐渐与Value偏离。
如图3所示,是本发明实现多维度信息合并方法的电子设备一实施例的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如多维度信息合并程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(SecureDigital, SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如多维度信息合并程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如多维度信息合并程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),可选的,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的多维度信息合并程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
S1,通过TF-IDF(一种用于信息检索与数据挖掘的常用加权技术)提取每篇文本的特征主题词。
所述特征主题词是指能够表明该篇文本的主要意思的词语。对于一篇文本,计算文本的特征主题词所采用的TF-IDF的公式如下:
通过对于文章中的每个词进行打分,分数越高的表示其越能够代表文章的主要意思,就可以作为特征主题词。可以根据需要选择一个或多个作为特征主题词。
S2,对于每篇文本,对其特征主题词分别进行hash计算,从而对应得到多个哈希值
的集合Set-H;对集合Set-H中的所有哈希值取和作为主指纹Hash_M,对集合Set-H中的各哈
希值进行C(n,m)(同)组合取和,得到多个从指纹集合Set_S={x|x=SUM(Set-H(C(n,
m)))}。所述C(n,m)组合是指从n个哈希值中选取m个进行组合。其中,n和m为正整数,m<n。
优选地,对于每篇文本,选取文本中较长的k句话,并将这k句话连接起来取哈希值,从而获得hash6。获取该篇文本的原贴url,并对该url取哈希值,从而获得hash7。由此获得了两个从指纹,并将这两个从指纹加入到从指纹集合Set_S中。还以上文中的具有5个特征主题词的文本为例,则其Set_S={[hash1+hash2+hash3+hash4],[hash1+hash2+hash3+hash5],[hash2+hash3+hash4+hash5],[hash1+hash3+hash4+hash5],[hash1+hash2+hash4+hash5],hash6,hash7}。
所述较长是指按照每句话所含的字符数来判定,字符数超过设定的长度阈值,则认为较长。并对超过长度阈值的k句话依次排列,选取其中最长的三句话,并将这三句话连接起来取哈希值。
S3,将从指纹集合Set_S与主指纹Hash_M合并形成并集,将所述并集与主指纹Hash_M形成键值对作为指纹特征子库,具体地,该指纹特征子库包含一篇文本的所述并集的元素为Key(从特征),主指纹Hash_M为Value(主特征)。并将该指纹特征子库合并入指纹特征总库中,所述指纹特征总库中包含有多篇文章形成的指纹特征子库。
S4,以所述并集到指纹特征总库匹配,若在指纹特征总库中匹配到与其一致的Key,则将匹配到的Key所对应的Value作为该篇文本的分类id,也就是舍弃该指纹特征子库。
若所述并集没有在指纹特征总库中匹配到,则将该篇文本的特征主题词的哈希值
进行C(n,n)(同)组合求和作为该篇文本的Value,并将该篇文本的Key和Value构成键值
对添加到指纹特征总库中。所述指纹特征总库可以是redis数据库。
具体的运行流程如图1所示的多维度信息合并方法流程类型,具体可参见图2的多维度信息合并方法的描述,此处不再赘述。
进一步地,所述电子设备1集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种多维度信息合并方法,其特征在于,包括:
提取文本的特征主题词;
对所述特征主题词分别进行哈希计算,从而得到包含多个哈希值的集合Set-H,对所述集合Set-H中的所有哈希值取和作为主指纹Hash_M;
将所述从指纹集合Set_S与主指纹Hash_M合并为并集,将所述并集作为Key、所述主指纹Hash_M作为Value构成键值对作为指纹特征子库;
2.根据权利要求1所述的多维度信息合并方法,其特征在于,所述以所述指纹特征子库到所述指纹特征总库中匹配是指:
以所述指纹特征子库中的Key与所述指纹特征总库中的各指纹特征子库的Key进行匹配。
3.根据权利要求2所述的多维度信息合并方法,其特征在于,
所述从指纹集合Set_S还包括所述文本中字符数超过设定的长度阈值的k句话连接起来计算的哈希值;
所述从指纹集合Set_S还包括所述文本的原贴url计算的哈希值。
4.根据权利要求1所述的多维度信息合并方法,其特征在于,
所述指纹特征总库中的各指纹特征子库在设定时间段内有效,且在有效期内,若有指纹特征子库匹配上指纹特征总库中的任一指纹特征子库,并且所述任一指纹特征子库的有效期小于设定的到期阈值,则将所述任一指纹特征子库延长一段时间。
5.根据权利要求4所述的多维度信息合并方法,其特征在于,
所述延长一段时间是指延长不少于一小时,且最多延长至有效期不超过72小时,所述到期阈值是不超过一小时。
6.根据权利要求1所述的多维度信息合并方法,其特征在于,
所述提取文本的特征主题词包括:
采用TF-IDF进行特征主题词提取。
7.根据权利要求1所述的多维度信息合并方法,其特征在于,
所述指纹特征总库和指纹特征子库是redis数据库。
8.一种多维度信息合并装置,其特征在于,包括:
主题词提取模块,用于提取文本的特征主题词;
指纹特征子库构建模块,用于对所述特征主题词分别进行哈希计算,从而得到包含多
个哈希值的集合Set-H,对所述集合Set-H中的所有哈希值取和作为主指纹Hash_M;对所述
集合Set-H中的各哈希值进行组合取和作为从指纹集合Set_S,其中,n和m为正整数,m<
n;将所述从指纹集合Set_S与主指纹Hash_M合并为并集,将所述并集作为Key、所述主指纹
Hash_M作为Value构成键值对作为指纹特征子库;
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的多维度信息合并方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的多维度信息合并方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011257378.1A CN112100318B (zh) | 2020-11-12 | 2020-11-12 | 一种多维度信息合并方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011257378.1A CN112100318B (zh) | 2020-11-12 | 2020-11-12 | 一种多维度信息合并方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112100318A true CN112100318A (zh) | 2020-12-18 |
CN112100318B CN112100318B (zh) | 2021-02-26 |
Family
ID=73785038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011257378.1A Active CN112100318B (zh) | 2020-11-12 | 2020-11-12 | 一种多维度信息合并方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100318B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115659167A (zh) * | 2022-09-06 | 2023-01-31 | 中国电信股份有限公司 | 多特征库合并方法及装置、设备、计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7433869B2 (en) * | 2005-07-01 | 2008-10-07 | Ebrary, Inc. | Method and apparatus for document clustering and document sketching |
CN101807208A (zh) * | 2010-03-26 | 2010-08-18 | 上海全土豆网络科技有限公司 | 视频指纹快速检索方法 |
CN106649218A (zh) * | 2016-11-16 | 2017-05-10 | 中国人民解放军国防科学技术大学 | 一种基于SimHash算法的二进制文件快速比较方法 |
CN107515931A (zh) * | 2017-08-28 | 2017-12-26 | 华中科技大学 | 一种基于聚类的重复数据检测方法 |
CN108132929A (zh) * | 2017-12-25 | 2018-06-08 | 上海大学 | 一种海量非结构化文本的相似性计算方法 |
CN110866088A (zh) * | 2019-08-22 | 2020-03-06 | 中国人民解放军军事科学院评估论证研究中心 | 一种语料库之间的快速全文检索方法及系统 |
CN111859063A (zh) * | 2019-04-30 | 2020-10-30 | 北京智慧星光信息技术有限公司 | 一种用于监控互联网中转载文章信息的控制方法及装置 |
-
2020
- 2020-11-12 CN CN202011257378.1A patent/CN112100318B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7433869B2 (en) * | 2005-07-01 | 2008-10-07 | Ebrary, Inc. | Method and apparatus for document clustering and document sketching |
CN101807208A (zh) * | 2010-03-26 | 2010-08-18 | 上海全土豆网络科技有限公司 | 视频指纹快速检索方法 |
CN106649218A (zh) * | 2016-11-16 | 2017-05-10 | 中国人民解放军国防科学技术大学 | 一种基于SimHash算法的二进制文件快速比较方法 |
CN107515931A (zh) * | 2017-08-28 | 2017-12-26 | 华中科技大学 | 一种基于聚类的重复数据检测方法 |
CN108132929A (zh) * | 2017-12-25 | 2018-06-08 | 上海大学 | 一种海量非结构化文本的相似性计算方法 |
CN111859063A (zh) * | 2019-04-30 | 2020-10-30 | 北京智慧星光信息技术有限公司 | 一种用于监控互联网中转载文章信息的控制方法及装置 |
CN110866088A (zh) * | 2019-08-22 | 2020-03-06 | 中国人民解放军军事科学院评估论证研究中心 | 一种语料库之间的快速全文检索方法及系统 |
Non-Patent Citations (4)
Title |
---|
PANFENGZHANG: "Resemblance and mergence based indexing for high performance data deduplication", 《JOURNAL OF SYSTEMS AND SOFTWARE》 * |
任民山 蔡红霞: "基于Simhash算法的海量文本相似性检测方法研究", 《计量与测试技术》 * |
公众号:码海: "浅谈基于simhash的文本去重原理", 《HTTPS://BLOG.CSDN.NET/WEIXIN_41385912/ARTICLE/DETAILS/105885434》 * |
赏月斋: "simhash算法", 《HTTPS://WWW.CNBLOGS.COM/SDDAI/P/10088007.HTML》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115659167A (zh) * | 2022-09-06 | 2023-01-31 | 中国电信股份有限公司 | 多特征库合并方法及装置、设备、计算机可读存储介质 |
CN115659167B (zh) * | 2022-09-06 | 2024-02-09 | 中国电信股份有限公司 | 多特征库合并方法及装置、设备、计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112100318B (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022121171A1 (zh) | 相似文本匹配方法、装置、电子设备及计算机存储介质 | |
US9798831B2 (en) | Processing data in a MapReduce framework | |
CN110929125B (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN111258966A (zh) | 一种数据去重方法、装置、设备及存储介质 | |
WO2012096388A1 (ja) | 意外性判定システム、意外性判定方法およびプログラム | |
CN113312461A (zh) | 基于自然语言处理的智能问答方法、装置、设备及介质 | |
CN113095076A (zh) | 敏感词识别方法、装置、电子设备及存储介质 | |
CN112686026B (zh) | 基于信息熵的关键词提取方法、装置、设备及介质 | |
CN112287682B (zh) | 一种主题词提取方法、装置、设备及存储介质 | |
CN112883730B (zh) | 相似文本匹配方法、装置、电子设备及存储介质 | |
JP2002245070A (ja) | データ表示方法及び装置並びにその処理プログラムを記憶した媒体 | |
CN105589894A (zh) | 文档索引建立方法和装置、文档检索方法和装置 | |
CN113886708A (zh) | 基于用户信息的产品推荐方法、装置、设备及存储介质 | |
CN112100318B (zh) | 一种多维度信息合并方法、装置、设备及存储介质 | |
CN113505117A (zh) | 基于数据指标的数据质量评估方法、装置、设备及介质 | |
Sohrabi et al. | Finding similar documents using frequent pattern mining methods | |
WO2020132852A1 (en) | Coding information extractor | |
CN115438048A (zh) | 表搜索方法、装置、设备及存储介质 | |
CN114490667A (zh) | 多维度的数据分析方法、装置、电子设备及介质 | |
CN115827817A (zh) | 一种文本类别的确定方法、相关装置以及设备 | |
CN112733537B (zh) | 文本去重方法、装置、电子设备及计算机可读存储介质 | |
US12086193B2 (en) | Identifying similar documents in a file repository using unique document signatures | |
CN113342941B (zh) | 文本搜索方法、装置、电子设备及计算机可读存储介质 | |
CN115525731B (zh) | 基于改进pagerank算法的网页权重计算方法、装置及电子设备 | |
CN111444413B (zh) | 一种数据查询方法、装置和计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |