CN112364124A - 一种文本相似度匹配及计算方法、系统和装置 - Google Patents

一种文本相似度匹配及计算方法、系统和装置 Download PDF

Info

Publication number
CN112364124A
CN112364124A CN202011301241.1A CN202011301241A CN112364124A CN 112364124 A CN112364124 A CN 112364124A CN 202011301241 A CN202011301241 A CN 202011301241A CN 112364124 A CN112364124 A CN 112364124A
Authority
CN
China
Prior art keywords
text data
text
feature vector
array
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011301241.1A
Other languages
English (en)
Other versions
CN112364124B (zh
Inventor
康维
孔泽平
周珞
陈光林
胡梓钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Red Net New Media Group Co ltd
Original Assignee
Hunan Red Net New Media Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Red Net New Media Group Co ltd filed Critical Hunan Red Net New Media Group Co ltd
Priority to CN202011301241.1A priority Critical patent/CN112364124B/zh
Publication of CN112364124A publication Critical patent/CN112364124A/zh
Application granted granted Critical
Publication of CN112364124B publication Critical patent/CN112364124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种文本相似度匹配及计算方法、系统和装置。本申请包括采集待处理文本数据T和待处理文本数据T1,对文本数据T1进行分词,获取文本数据T1的特征词及权重数据;获取文本数据T1对应的n位特征值S;将特征值S均分为k等分,得到数组P1,并将特征向量数组P1逐一与特征向量数组P对比,根据匹配命中的特征值召回原文本内容T2;获取文本数据T1和文本数据T2的分词和权重结果;对分词结果进行向量化处理,分别获取本文数据T1的特征向量V1和本文数据T2的特征向量V2;计算特征向量V1和特征向量V2的余弦值,根据余弦值得到本文数据T1与被匹配文本数据T2的相似度值,具有的适应不同的数据量和提高计算速度效果。

Description

一种文本相似度匹配及计算方法、系统和装置
技术领域
本申请涉及文本相似度匹配的领域,尤其是涉及一种文本相似度匹配及计算方法、系统和装置。
背景技术
目前常用的距离和相似度计算方法包括闵可夫斯基距离、欧几里得距离、曼哈顿距离、切比雪夫距离、马氏距离、余弦相似度、皮尔逊相关系数、汉明距离、杰卡德相似系数、编辑距离、DTW 距离、KL 散度等,而现有相似度匹配技术对于自然语言文本处理存在处理速度慢,对于长文本或短文本适配性不佳等问题。
其中,余弦定理和汉明距离都能实现文本相似度的计算。余弦相似度算法是基于余弦定理在向量中的应用,生成的向量数组大小与文本特征词数量呈线性相关,导致向量维度很高,计算速度比较慢,而由于要对整篇文章实时计算特征向量,难以实现面向基于大量样本的相似度计算需求;基于汉明距离的SimHash算法则事先把每篇文章降维到一个局部哈希数字,计算相似度的时候只需要计算对应的hash值,因此速度比较快;但是SimHash算法对短文本误判率较高,存在召回率与准确度之间的矛盾,仅适用于大于500字以上的文本内容使用。
发明内容
为了适应不同的数据量和提高计算速度,本申请提供一种文本相似度匹配及计算方法、系统和装置。
第一方面,本申请提供的一种文本相似度匹配及计算方法,采用如下的技术方案:
一种文本相似度匹配及计算方法,包括:
采集待处理文本数据T,对所述文本数据T进行向量化处理,得到所述文本数据T对应的特征向量数组P;
对所述特征向量数组P分类储存,建立所述文本数据T与所述特征向量之间的对应关系;
获取待处理文本数据T1,对所述文本数据T1进行分词,获取所述文本数据T1的特征词及权重数据;
对分词结果进行降维处理,获取所述文本数据T1对应的n位特征值S;
将所述特征值S均分为k等分,得到数组P1=[p1,p2,p3……pk],并将所述特征向量数组P1逐一与所述特征向量数组P对比,根据匹配命中的特征值召回原文本内容T2;
将所述文本数据T1与所述匹配命中特征值对应文本内容T2进行分词处理,分别获取所述文本数据T1和所述文本数据T2的分词和权重结果;
对分词结果进行向量化处理,分别获取所述本文数据T1的特征向量V1和所述本文数据T2的特征向量V2;
计算所述特征向量V1和所述特征向量V2的余弦值,即根据所述余弦值得到所述本文数据T1与被所述被匹配文本数据T2的相似度值。
通过采用上述技术方案,在获取到两组文本的特征值后,若两组n位特征值中存在k个相同的值,即两组特征值的海明距离为k,k即为相似度容忍度,k值越大,检索出的相似文本越多;
根据第二抽屉原理,对两组文本的特征值进行k等分后得到的向量数组P和P1中,必定至少存在一组x,y,使得px=py。由此可将原本需要逐一进行的相似度值计算操作,转换为较易于实现的查询操作,即通过查找k等分后符合相等条件的所有向量数组P,并根据查询结果对原文本进行找回,即可在海量数据中按照所设置的相似度容忍度实现相似文本查找,再此基础上对返回的符合海明距离的特征值对应的找回文本进行实时的预先相似度计算;
以上方法既发挥了Simhash算法将文本内容转化为特征值后便于存储和对比的优势,又利用余弦相似度对于相似文本实时计算的高准确率特性,实现了高效率的大数据量调价下相似文本实时查询及高精度相似度计算。
本发明在一较佳示例中可以进一步配置为:所述对分词结果进行降维处理,获取所述文本数据T1对应的n位特征值S包括:
获取所述分词结果的特征向量,为每一个所述特征向量设置1到5等5个级别的权重;
通过hash函数计算所述各个特征向量的hash值,所述hash值为二进制数01组成的n-bit签名;
在所述hash值的基础上,给所述所有特征向量进行加权;
将所述各个特征向量和所述加权结果累加,获取序列串;
对所述序列串进行降维,若大于0则置1,若小于0则置0,从而获取所述本文数据T1对应的n位特征值S。
通过采用上述技术方案,对分词结果进行降维,使数据更简便,从而使计算速度更快,得到的结果更为准确。
本发明在一较佳示例中可以进一步配置为:所述将所述特征向量数组P1逐一与所述特征向量数组P对比包括:
将所述特征向量数组P1逐一与所述特征向量P对比;
若无匹配数据,则对所述本文数据T1进行加权处理,以提高关键词权重;
对所述加权处理过后的文本数据T1进行降维,并再次逐一与所述特征向量数组P对比。
通过采用上述技术方案,对于Simhash不适用的短文本内容,则可在设置合理k值的基础上,对原文本分词结果进行加权处理,通过提高关键词在生成特征向量时的TF-IDF权重,实现短文本对于Simhash方法的适配。
本发明在一较佳示例中可以进一步配置为:当将所述特征值S均分为k等分,得到数组P1=[p1,p2,p3……pk]时,所述方法还包括:
将所述数组P1按照文本标识分类储存,以填充数据库中的文本内容。
通过采用上述技术方案,将每次检索的文本填充至数据库中,以使数据库的文本内容更为丰富,从而提高计算准确率。
第二方面,本申请提供的一种文本相似度匹配及计算系统,采用如下的技术方案:
一种文本相似度匹配及计算系统,包括:
采集装置,采集待处理文本数据T,对所述文本数据T进行向量化处理,得到所述文本数据T对应的特征向量数组P;
储存装置,对所述特征向量数组P分类储存,建立所述文本数据T与所述特征向量之间的对应关系;
第一获取装置,获取待处理文本数据T1,对所述文本数据T1进行分词,获取所述文本数据T1的特征词及权重数据;
降维装置,对分词结果进行降维处理,获取所述文本数据T1对应的n位特征值S;
匹配装置,将所述特征值S均分为k等分,得到数组P1=[p1,p2,p3……pk],将所述特征向量数组P1逐一与所述特征向量数组P对比,根据匹配命中的特征值召回原文本内容T2;
第二获取装置,将所述文本数据T1与所述匹配命中特征值对应文本内容T2进行分词处理,分别获取所述文本数据T1和所述文本数据T2的分词和权重结果;
第三获取装置,对分词结果进行向量化处理,分别获取所述本文数据T1的特征向量V1和所述本文数据T2的特征向量V2;
计算装置,计算所述特征向量V1和所述特征向量V2的余弦值,即根据所述余弦值得到所述本文数据T1与被所述被匹配文本数据T2的相似度值。
通过采用上述技术方案,在获取到两组文本的特征值后,若两组n位特征值中存在k个相同的值,即两组特征值的海明距离为k,k即为相似度容忍度,k值越大,检索出的相似文本越多;
根据第二抽屉原理,对两组文本的特征值进行k等分后得到的向量数组P和P1中,必定至少存在一组x,y,使得px=py。由此可将原本需要逐一进行的相似度值计算操作,转换为较易于实现的查询操作,即通过查找k等分后符合相等条件的所有向量数组P,并根据查询结果对原文本进行找回,即可在海量数据中按照所设置的相似度容忍度实现相似文本查找,再此基础上对返回的符合海明距离的特征值对应的找回文本进行实时的预先相似度计算;
以上方法既发挥了Simhash算法将文本内容转化为特征值后便于存储和对比的优势,又利用余弦相似度对于相似文本实时计算的高准确率特性,实现了高效率的大数据量调价下相似文本实时查询及高精度相似度计算。
本发明在一较佳示例中可以进一步配置为:所述降维装置具体用于:
获取所述分词结果的特征向量,为每一个所述特征向量设置1到5等5个级别的权重;
通过hash函数计算所述各个特征向量的hash值,所述hash值为二进制数01组成的n-bit签名;
在所述hash值的基础上,给所述所有特征向量进行加权;
将所述各个特征向量和所述加权结果累加,获取序列串;
对所述序列串进行降维,若大于0则置1,若小于0则置0,从而获取所述本文数据T1对应的n位特征值S。
通过采用上述技术方案,对分词结果进行降维,使数据更简便,从而使计算速度更快,得到的结果更为准确。
本发明在一较佳示例中可以进一步配置为:所述匹配装置具体用于:
将所述特征向量数组P1逐一与所述特征向量P对比;
若无匹配数据,则对所述本文数据T1进行加权处理,以提高关键词权重;
对所述加权处理过后的文本数据T1进行降维,并再次逐一与所述特征向量数组P对比。
通过采用上述技术方案,对于Simhash不适用的短文本内容,则可在设置合理k值的基础上,对原文本分词结果进行加权处理,通过提高关键词在生成特征向量时的TF-IDF权重,实现短文本对于Simhash方法的适配。
本发明在一较佳示例中可以进一步配置为:所述系统还包括填充装置,所述填充装置具体用于:
将所述数组P1按照文本标识分类储存,以填充数据库中的文本内容。
通过采用上述技术方案,将每次检索的文本填充至数据库中,以使数据库的文本内容更为丰富,从而提高计算准确率。
第三方面,本申请提供的一种文本相似度匹配及计算装置,采用如下的技术方案:
一种文本相似度匹配及计算装置,包括:
采集模块,采集待处理文本数据T,对所述文本数据T进行向量化处理,得到所述文本数据T对应的特征向量数组P;
储存模块,对所述特征向量数组P分类储存,建立所述文本数据T与所述特征向量之间的对应关系;
第一获取模块,获取待处理文本数据T1,对所述文本数据T1进行分词,获取所述文本数据T1的特征词及权重数据;
降维模块,对分词结果进行降维处理,获取所述文本数据T1对应的n位特征值S;
匹配模块,将所述特征值S均分为k等分,得到数组P1=[p1,p2,p3……pk],将所述特征向量数组P1逐一与所述特征向量数组P对比,根据匹配命中的特征值召回原文本内容T2;
填充模块,将所述数组P1按照文本标识分类储存,以填充数据库中的文本内容;
第二获取模块,将所述文本数据T1与所述匹配命中特征值对应文本内容T2进行分词处理,分别获取所述文本数据T1和所述文本数据T2的分词和权重结果;
第三获取模块,对分词结果进行向量化处理,分别获取所述本文数据T1的特征向量V1和所述本文数据T2的特征向量V2;
计算模块,计算所述特征向量V1和所述特征向量V2的余弦值,即根据所述余弦值得到所述本文数据T1与被所述被匹配文本数据T2的相似度值。
通过采用上述技术方案,在获取到两组文本的特征值后,若两组n位特征值中存在k个相同的值,即两组特征值的海明距离为k,k即为相似度容忍度,k值越大,检索出的相似文本越多;
根据第二抽屉原理,对两组文本的特征值进行k等分后得到的向量数组P和P1中,必定至少存在一组x,y,使得px=py。由此可将原本需要逐一进行的相似度值计算操作,转换为较易于实现的查询操作,即通过查找k等分后符合相等条件的所有向量数组P,并根据查询结果对原文本进行找回,即可在海量数据中按照所设置的相似度容忍度实现相似文本查找,再此基础上对返回的符合海明距离的特征值对应的找回文本进行实时的预先相似度计算;
以上装置既发挥了Simhash算法将文本内容转化为特征值后便于存储和对比的优势,又利用余弦相似度对于相似文本实时计算的高准确率特性,实现了高效率的大数据量调价下相似文本实时查询及高精度相似度计算。
第四方面,本申请提供的一种计算机可读存储介质,存储有能够被处理器加载并执行上述任一种新闻内容安全监测方法的计算机程序。
综上所述,本申请包括以下至少一种有益技术效果:
1.本方案中,对文本的特征化和特征值降维,通过对特征值切分实现了特征值高效存储和快速查找匹配,通过结合余弦相似度算法实现了相似度的精确输出和筛选;
2.本方案中,通过有针对性的加权方法实现对各种长度文本的适应和匹配,并看而通过调整k值,动态地适应实际业务需求;
3.本方案中,在获取文本数据与数据库中的文本数据比对时,将获取的文本数据填充至数据库中,以使数据库数据更多,提高匹配的准确度。
附图说明
图1是本申请其中第一实施例中的流程示意图框图。
图2是本申请其中第二实施例中的系统示意图。
图3是本申请其中第三实施例中的结构框图。
具体实施方式
以下结合附图1-3对本申请作进一步详细说明。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例作出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
实施例一:
一种文本相似度匹配及计算方法,参考图1,包括:
101、采集待处理文本数据T,对所述文本数据T进行向量化处理,得到所述文本数据T对应的特征向量数组P。
具体的,先获取大量文本数据T储存至数据库中,大量文本数据可以是杂质、新闻和报纸等。
其中,将大量文本数据T进行分词处理,具体可用基于词典分词算法,该算法应用广泛,分词速度快,提高数据运算效率。分词后获取对应文本数据T的特征词及权重数据,具体可TF-IDF法获取:
第一步,计算词频,即某词在文章中出现的次数/文章总词数;
第二步,计算逆文档频率,即需要一个词料库,用来模拟语言的使用环境。逆文档频率(IDF)=log(词料库的文档总数/包含该词的文档数+1),词料库具体可为数数据库,若一个词越常见,分母则越大,逆文档频率则越小,分母加1则为了避免分母为0的情况,即不包含该词,log表示对得到的值取对数;
第三步,TF-IDF=TF*IDF,即TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比,即自动提取关键词的算法为计算出文档的每个词的TF-IDF值,按降序排列,取排在最前面的几个词。
其中,根据分词结果,使用基于随机超平面投影方法的Simhash算法对分词数据进行降维处理,得到文本数据T对应的n位特征值S1,n应满足存在正整数m,使m可被n整除。
将所得到的n位特征值S1均分为k等分,得到文本数据T对应的特征向量数组P=[p1,p2,p3,……pk],其中k=n/m,m即为P中数组的位数。
102、对所述特征向量数组P分类储存,建立所述文本数据T与所述特征向量之间的对应关系。
具体的,按照文本标识(如id)将特征向量数组P分类储存,建立原文本T与特征向量p1, p2, p3 …… pk之间的对应关系,即将特征数组P切割成多等分,多等分的特征数组P均对应同一个文本id,即可通过特征值对应的文本id能反查到文本数据T1。
103、获取待处理文本数据T1,对所述文本数据T1进行分词,获取所述文本数据T1的特征词及权重数据。
具体的,获取待处理文本数据T1即为需查询相似度的文本数据,对该文本数据T1进行分词,具体步骤与步骤101中的方法相同,在此不再赘述。
104、对分词结果进行降维处理,获取所述文本数据T1对应的n位特征值S。
具体的,根据分词结果,使用基于随机超平面投影方法的Simhash算法对分词数据进行降维处理,得到文本数据T1对应的n位特征值S,n应满足存在正整数m,使m可被n整除。
进一步的,获取所述分词结果的特征向量,为每一个所述特征向量设置1到5等5个级别的权重;
通过hash函数计算所述各个特征向量的hash值,所述hash值为二进制数01组成的n-bit签名;
在所述hash值的基础上,给所述所有特征向量进行加权;
将所述各个特征向量和所述加权结果累加,获取序列串;
对所述序列串进行降维,若大于0则置1,若小于0则置0,从而获取所述本文数据T1对应的n位特征值S。
具体的,例如给一段语句“12306出现服务器故障:车次加载失败、购买不了票或卡在候补订单支付界面等问题。官方给到消费者的建议是:卸载或重装APP,并切换网络耐心等待。”,则使用分词后得到的特征词为“12306/服务器/故障/车次/加载失败/购买/候补订单/支付/官方/消费者/建议/卸载/重装/切换网络/耐心/等待”,使用词频表示特征词的权重,即某个关键词的次数,可使用TF-IDF算法;使用分词方法和权重分配将文本分隔成若干个带权重的实词后,即可把原语句处理成如下方式“12306(5)/服务器(4)/故障(4)/车次(4)/加载失败(3)/购买(2)/候补订单(4)/支付(2)/官方(2)/消费者(3)/建议(1)/卸载(3)/重装(3)/切换网络(2)/耐心(1)/等待(1)”;对各个特征词进行二值化哈希值计算,即可得到n-bit签名,n可以为8,例如:
12306 10011100;
服务器 01110101;
故障 00110011;
车次 11001010;
…。
其中,1代表+1,0代表-1,依次进行权重相乘,则可得到:
12306 10011100 --> 5 -5 -5 5 5 5 -5 -5
服务器 01110101 --> -4 4 4 4 -4 4 -4 4
故障 00110011 --> -4 -4 4 4 -4 -4 4 4
车次 11001010 --> 4 4 -4 -4 4 -4 4 -4
…。
将所有哈希值累加,将累加结果二值化:
12306的带权重哈希值为5 -5 -5 5 5 5 -5 -5
服务器的带权重哈希值为-4 4 4 4 -4 4 -4 4
二者累加为 1 -1 -1 9 1 9 -9 -1
依次累加所有的带权重哈希值,假定最终结果为 18 9 -6 -9 22 -35 12 -5
再按照正数1负数0的规则将上述结果二值化为:11001010。从而获取文本数据T1的对应的n位特征值S。
105、将所述特征值S均分为k等分,得到数组P1=[p1,p2,p3……pk],并将所述特征向量数组P1逐一与所述特征向量数组P对比,根据匹配命中的特征值召回原文本内容T2。
具体的,将特征值S均分为k等分,得到数据P1,将该数组P1与数据库中的数组依次比对,根据匹配命中的特征值召回原文本内容T2,其中匹配命中的特征值数超过预设值,则判定该文本内容为文本数据T1的相似文本。
进一步的,将所述特征向量数组P1逐一与所述特征向量P对比;
若无匹配数据,则对所述本文数据T1进行加权处理,以提高关键词权重;
对所述加权处理过后的文本数据T1进行降维,并再次逐一与所述特征向量数组P对比。
当匹配过程中,若未发现匹配数据,则对文本数据T1进行加权处理,通过提高关键词在生成特征向量时的TF-IDF权重,实现短文本对于Simhash方法的适配,具体可为整个文本数据T1重复一次再进行计算,即相当于提高了关键词的词频
再重复步骤104,再次与数据库中的特征向量数组P比对。
优选的,当文本数据T1为新闻等用词严谨的文本时,则可设定较低的K值,K值即为相似容忍度,以提高计算精度;当文本数据T1为论坛帖子一类时,文本数据用词较为随意,则可设定较高的K值,以提高适配性。
106、将所述数组P1按照文本标识分类储存,以填充数据库中的文本内容。
具体的,每次对文本数据进行相似度计算时,将该文本数据分成数组后按照分类储存至数据库中,以填充数据库的文本内容,则进一步提高文本匹配时的准确性。
107、将所述文本数据T1与所述匹配命中特征值对应文本内容T2进行分词处理,分别获取所述文本数据T1和所述文本数据T2的分词和权重结果。
具体的,若有匹配数据后,根据匹配命中的特征值召回原文本内容T2,即从数据库中召回与文本数据T1有可能是相似的文档,并对该文档进行分词处理,分别获取所述文本数据T1和所述文本数据T2的分词和权重结果。具体步骤与步骤101中相同,在此不再赘述。
108、对分词结果进行向量化处理,分别获取所述本文数据T1的特征向量V1和所述本文数据T2的特征向量V2。
具体的,对分词结果进行向量化处理,具体为分词之后,通过统计每个词在文本中出现的次数,可以得到该文本基于词的特征,如果将各个文本样本的这些词与对应的词频放在一起,即向量化处理。根据此方法获取文本数据T1的特征向量V1和文本数据T2的特征向量V2。
109、计算所述特征向量V1和所述特征向量V2的余弦值,根据所述余弦值得到所述本文数据T1与所述被匹配文本数据T2的相似度值。
具体的,通过公式计算特征向量V1和特征向量V2的余弦值,
Figure DEST_PATH_IMAGE001
则可得到想对应的文本数据T1与召回文本T2的相似度值。
本实施例的实施原理为:
在获取到两组文本的特征值后,若两组n位特征值中存在k个相同的值,即两组特征值的海明距离为k,k即为相似度容忍度,k值越大,检索出的相似文本越多;
根据第二抽屉原理,对两组文本的特征值进行k等分后得到的向量数组P和P1中,必定至少存在一组x,y,使得px=py。由此可将原本需要逐一进行的相似度值计算操作,转换为较易于实现的查询操作,即通过查找k等分后符合相等条件的所有向量数组P,并根据查询结果对原文本进行找回,即可在海量数据中按照所设置的相似度容忍度实现相似文本查找,再此基础上对返回的符合海明距离的特征值对应的找回文本进行实时的预先相似度计算;
通过SimHash方法实现了文本的特征化和特征值降维,通过对特征值切分实现了特征值高效存储和快速查找匹配,通过结合余弦相似度算法实现了相似度的精确输出和筛选,通过有针对性的加权方法实现了对各种长度文本的适应和匹配,并可通过灵活调整以上各方法的具体参数,动态地适应实际业务需求,高效地达到输出文本对比相似度数据、相似度排序、相似文本召回等功能。
以上方法既发挥了Simhash算法将文本内容转化为特征值后便于存储和对比的优势,又利用余弦相似度对于相似文本实时计算的高准确率特性,实现了高效率的大数据量调价下相似文本实时查询及高精度相似度计算。
实施例二:
一种文本相似度匹配及计算系统,参考图2,包括:
采集装置201,采集待处理文本数据T,对所述文本数据T进行向量化处理,得到所述文本数据T对应的特征向量数组P。
储存装置202,对所述特征向量数据P分类储存,建立所述文本数据T与所述特征向量之间的对应关系。
第一获取装置203,获取待处理文本数据T1,对所述文本数据T1进行分词,获取所述文本数据T1的特征词及权重数据。
降维装置204,对分词结果进行降维处理,获取所述文本数据T1对应的n位特征值S。
进一步的,获取所述分词结果的特征向量,为每一个所述特征向量设置1到5等5个级别的权重;
通过hash函数计算所述各个特征向量的hash值,所述hash值为二进制数01组成的n-bit签名;
在所述hash值的基础上,给所述所有特征向量进行加权;
将所述各个特征向量和所述加权结果累加,获取序列串;
对所述序列串进行降维,若大于0则置1,若小于0则置0,从而获取所述本文数据T1对应的n位特征值S。
匹配装置205,将所述特征值S均分为k等分,得到数组P1=[p1,p2,p3……pk],将所述特征向量数组P1逐一与所述特征向量数据P对比,根据匹配命中的特征值召回原文本内容T2。
进一步的,将所述特征向量数据P1逐一与所述特征向量P对比;
若无匹配数据,则对所述本文数据T1进行加权处理,以提高关键词权重;
对所述加权处理过后的文本数据T1进行降维,并再次逐一与所述特征向量数据P对比。
填充装置206,将所述数组P1按照文本标识分类储存,以填充数据库中的文本内容。
第二获取装置207,将所述文本数据T1与所述匹配命中特征值对应文本内容T2进行分词处理,分别获取所述文本数据T1和所述文本数据T2的分词和权重结果。
第三获取装置208,对分词结果进行向量化处理,分别获取所述本文数据T1的特征向量V1和所述本文数据T2的特征向量V2。
计算装置209,计算所述特征向量V1和所述特征向量V2的余弦值,根据所述余弦值得到所述本文数据T1与所述被匹配文本数据T2的相似度值。
实施例三:
一种文本相似度匹配及计算装置,参考图3,包括:
采集模块301,采集待处理文本数据T,对所述文本数据T进行向量化处理,得到所述文本数据T对应的特征向量数组P。
储存模块302,对所述特征向量数据P分类储存,建立所述文本数据T与所述特征向量之间的对应关系。
第一获取模块303,获取待处理文本数据T1,对所述文本数据T1进行分词,获取所述文本数据T1的特征词及权重数据。
降维模块304,对分词结果进行降维处理,获取所述文本数据T1对应的n位特征值S。
进一步的,获取所述分词结果的特征向量,为每一个所述特征向量设置1到5等5个级别的权重;
通过hash函数计算所述各个特征向量的hash值,所述hash值为二进制数01组成的n-bit签名;
在所述hash值的基础上,给所述所有特征向量进行加权;
将所述各个特征向量和所述加权结果累加,获取序列串;
对所述序列串进行降维,若大于0则置1,若小于0则置0,从而获取所述本文数据T1对应的n位特征值S。
匹配模块305,将所述特征值S均分为k等分,得到数组P1=[p1,p2,p3……pk],将所述特征向量数组P1逐一与所述特征向量数据P对比,根据匹配命中的特征值召回原文本内容T2。
进一步的,将所述特征向量数据P1逐一与所述特征向量P对比;
若无匹配数据,则对所述本文数据T1进行加权处理,以提高关键词权重;
对所述加权处理过后的文本数据T1进行降维,并再次逐一与所述特征向量数据P对比。
填充模块306,将所述数组P1按照文本标识分类储存,以填充数据库中的文本内容。
第二获取模块307,将所述文本数据T1与所述匹配命中特征值对应文本内容T2进行分词处理,分别获取所述文本数据T1和所述文本数据T2的分词和权重结果。
第三获取模块308,对分词结果进行向量化处理,分别获取所述本文数据T1的特征向量V1和所述本文数据T2的特征向量V2。
计算模块309,计算所述特征向量V1和所述特征向量V2的余弦值,根据所述余弦值得到所述本文数据T1与所述被匹配文本数据T2的相似度值。
需要说明的是:上述实施例提供的文本相似度匹配及计算的装置和系统在执行文本相似度匹配及计算方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备和设备的内部构造划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文本相似度匹配及计算方法、系统和装置实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
可以理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
非易失性存储器可以是ROM、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electricallyEPROM,EEPROM)或闪存。
易失性存储器可以是RAM,其用作外部高速缓存。RAM有多种不同的类型,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器。
上述任一处提到的处理器,可以是一个CPU,微处理器,ASIC,或一个或多个用于控制上述工业机器人坐标系校准方法的程序执行的集成电路。该处理模块和该存储模块可以解耦,分别设置在不同的物理设备上,通过有线或者无线的方式连接来实现该处理模块和该存储模块的各自的功能,以支持该系统芯片实现上述实施例中的各种功能。或者,该处理模块和该存储器也可以耦合在同一个设备上。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文本相似度匹配及计算方法,其特征在于,包括:
采集待处理文本数据T,对所述文本数据T进行向量化处理,得到所述文本数据T对应的特征向量数组P;
对所述特征向量数组P分类储存,建立所述文本数据T与所述特征向量之间的对应关系;
获取待处理文本数据T1,对所述文本数据T1进行分词,获取所述文本数据T1的特征词及权重数据;
对分词结果进行降维处理,获取所述文本数据T1对应的n位特征值S;
将所述特征值S均分为k等分,得到数组P1=[p1,p2,p3……pk],并将所述特征向量数组P1逐一与所述特征向量数组P对比,根据匹配命中的特征值召回原文本内容T2;
将所述文本数据T1与所述匹配命中特征值对应文本内容T2进行分词处理,分别获取所述文本数据T1和所述文本数据T2的分词和权重结果;
对分词结果进行向量化处理,分别获取所述本文数据T1的特征向量V1和所述本文数据T2的特征向量V2;
计算所述特征向量V1和所述特征向量V2的余弦值,根据所述余弦值得到所述本文数据T1与所述被匹配文本数据T2的相似度值。
2.根据权利要求1所述的方法,其特征在于,所述对分词结果进行降维处理,获取所述文本数据T1对应的n位特征值S包括:
获取所述分词结果的特征向量,为每一个所述特征向量设置1到5等5个级别的权重;
通过hash函数计算所述各个特征向量的hash值,所述hash值为二进制数01组成的n-bit签名;
在所述hash值的基础上,给所述所有特征向量进行加权;
将所述各个特征向量和所述加权结果累加,获取序列串;
对所述序列串进行降维,若大于0则置1,若小于0则置0,从而获取所述本文数据T1对应的n位特征值S。
3.根据权利要求2所述的方法,其特征在于,所述将所述特征向量数组P1逐一与所述特征向量数组P对比包括:
将所述特征向量数组P1逐一与所述特征向量P对比;
若无匹配数据,则对所述本文数据T1进行加权处理,以提高关键词权重;
对所述加权处理过后的文本数据T1进行降维,并再次逐一与所述特征向量数组P对比。
4.根据权利要求1所述的方法,其特征在于,当将所述特征值S均分为k等分,得到数组P1=[p1,p2,p3……pk]时,所述方法还包括:
将所述数组P1按照文本标识分类储存,以填充数据库中的文本内容。
5.一种文本相似度匹配及计算系统,其特征在于,包括:
采集装置,采集待处理文本数据T,对所述文本数据T进行向量化处理,得到所述文本数据T对应的特征向量数组P;
储存装置,对所述特征向量数组P分类储存,建立所述文本数据T与所述特征向量之间的对应关系;
第一获取装置,获取待处理文本数据T1,对所述文本数据T1进行分词,获取所述文本数据T1的特征词及权重数据;
降维装置,对分词结果进行降维处理,获取所述文本数据T1对应的n位特征值S;
匹配装置,将所述特征值S均分为k等分,得到数组P1=[p1,p2,p3……pk],将所述特征向量数组P1逐一与所述特征向量数组P对比,根据匹配命中的特征值召回原文本内容T2;
第二获取装置,将所述文本数据T1与所述匹配命中特征值对应文本内容T2进行分词处理,分别获取所述文本数据T1和所述文本数据T2的分词和权重结果;
第三获取装置,对分词结果进行向量化处理,分别获取所述本文数据T1的特征向量V1和所述本文数据T2的特征向量V2;
计算装置,计算所述特征向量V1和所述特征向量V2的余弦值,根据所述余弦值得到所述本文数据T1与所述被匹配文本数据T2的相似度值。
6.根据权利要求5所述的系统,其特征在于,所述降维装置具体用于:
获取所述分词结果的特征向量,为每一个所述特征向量设置1到5等5个级别的权重;
通过hash函数计算所述各个特征向量的hash值,所述hash值为二进制数01组成的n-bit签名;
在所述hash值的基础上,给所述所有特征向量进行加权;
将所述各个特征向量和所述加权结果累加,获取序列串;
对所述序列串进行降维,若大于0则置1,若小于0则置0,从而获取所述本文数据T1对应的n位特征值S。
7.根据权利要求5所述的系统,其特征在于,所述匹配装置具体用于:
将所述特征向量数组P1逐一与所述特征向量P对比;
若无匹配数据,则对所述本文数据T1进行加权处理,以提高关键词权重;
对所述加权处理过后的文本数据T1进行降维,并再次逐一与所述特征向量数组P对比。
8.根据权利要求5所述的系统,其特征在于,所述系统还包括填充装置,所述填充装置具体用于:
将所述数组P1按照文本标识分类储存,以填充数据库中的文本内容。
9.一种文本相似度匹配及计算装置,其特征在于,包括:
采集模块,采集待处理文本数据T,对所述文本数据T进行向量化处理,得到所述文本数据T对应的特征向量数组P;
储存模块,对所述特征向量数组P分类储存,建立所述文本数据T与所述特征向量之间的对应关系;
第一获取模块,获取待处理文本数据T1,对所述文本数据T1进行分词,获取所述文本数据T1的特征词及权重数据;
降维模块,对分词结果进行降维处理,获取所述文本数据T1对应的n位特征值S;
匹配模块,将所述特征值S均分为k等分,得到数组P1=[p1,p2,p3……pk],将所述特征向量数组P1逐一与所述特征向量数组P对比,根据匹配命中的特征值召回原文本内容T2;
填充模块,将所述数组P1按照文本标识分类储存,以填充数据库中的文本内容;
第二获取模块,将所述文本数据T1与所述匹配命中特征值对应文本内容T2进行分词处理,分别获取所述文本数据T1和所述文本数据T2的分词和权重结果;
第三获取模块,对分词结果进行向量化处理,分别获取所述本文数据T1的特征向量V1和所述本文数据T2的特征向量V2;
计算模块,计算所述特征向量V1和所述特征向量V2的余弦值,根据所述余弦值得到所述本文数据T1与所述被匹配文本数据T2的相似度值。
10.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至4中任一种方法的计算机程序。
CN202011301241.1A 2020-11-19 2020-11-19 一种文本相似度匹配及计算方法、系统和装置 Active CN112364124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011301241.1A CN112364124B (zh) 2020-11-19 2020-11-19 一种文本相似度匹配及计算方法、系统和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011301241.1A CN112364124B (zh) 2020-11-19 2020-11-19 一种文本相似度匹配及计算方法、系统和装置

Publications (2)

Publication Number Publication Date
CN112364124A true CN112364124A (zh) 2021-02-12
CN112364124B CN112364124B (zh) 2022-04-26

Family

ID=74533007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011301241.1A Active CN112364124B (zh) 2020-11-19 2020-11-19 一种文本相似度匹配及计算方法、系统和装置

Country Status (1)

Country Link
CN (1) CN112364124B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378950A (zh) * 2021-06-22 2021-09-10 深圳市查策网络信息技术有限公司 一种长文本的无监督分类方法
CN113407576A (zh) * 2021-06-28 2021-09-17 浪潮软件科技有限公司 基于降维算法的数据关联方法及系统
CN114676774A (zh) * 2022-03-25 2022-06-28 北京百度网讯科技有限公司 数据处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123618A (zh) * 2011-11-21 2013-05-29 北京新媒传信科技有限公司 文本相似度获取方法和装置
CN108334513A (zh) * 2017-01-20 2018-07-27 阿里巴巴集团控股有限公司 一种识别相似文本的处理方法、装置及系统
CN110597949A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种基于词向量和词频的法院相似案件推荐模型

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123618A (zh) * 2011-11-21 2013-05-29 北京新媒传信科技有限公司 文本相似度获取方法和装置
CN108334513A (zh) * 2017-01-20 2018-07-27 阿里巴巴集团控股有限公司 一种识别相似文本的处理方法、装置及系统
CN110597949A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种基于词向量和词频的法院相似案件推荐模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张广庆等: "基于Simhash的海量相似文档快速搜索优化方法", 《指挥信息系统与技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378950A (zh) * 2021-06-22 2021-09-10 深圳市查策网络信息技术有限公司 一种长文本的无监督分类方法
CN113407576A (zh) * 2021-06-28 2021-09-17 浪潮软件科技有限公司 基于降维算法的数据关联方法及系统
CN114676774A (zh) * 2022-03-25 2022-06-28 北京百度网讯科技有限公司 数据处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112364124B (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
CN112364124B (zh) 一种文本相似度匹配及计算方法、系统和装置
WO2019223103A1 (zh) 文本相似度的获取方法、装置、终端设备及介质
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
Perronnin et al. Large-scale image retrieval with compressed fisher vectors
Xu et al. Document clustering by concept factorization
US8625907B2 (en) Image clustering
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
WO2020114100A1 (zh) 一种信息处理方法、装置和计算机存储介质
CN111797239B (zh) 应用程序的分类方法、装置及终端设备
CN105975459B (zh) 一种词项的权重标注方法和装置
CN110297879B (zh) 一种基于大数据的数据去重的方法、装置及存储介质
CN113255370B (zh) 基于语义相似度的行业类型推荐方法、装置、设备及介质
CN110825894A (zh) 数据索引建立、数据检索方法、装置、设备和存储介质
CN111325033B (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN117235546B (zh) 多版本文件比对方法、装置、系统及存储介质
CN112579783B (zh) 基于拉普拉斯图谱的短文本聚类方法
CN111723206B (zh) 文本分类方法、装置、计算机设备和存储介质
CN111552810B (zh) 实体抽取与分类方法、装置、计算机设备和存储介质
Moldovan et al. Latent semantic indexing for patent documents
CN111694928A (zh) 数据指标推荐方法、装置、计算机设备及可读存储介质
CN116028722A (zh) 一种基于词向量的岗位推荐方法、装置及计算机设备
CN113515627B (zh) 文档检测方法、装置、设备及存储介质
US20230267281A1 (en) Systems and methods for short text similarity based clustering
US9830355B2 (en) Computer-implemented method of performing a search using signatures
CN106776531B (zh) 语料处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant