CN112364647A - 一种基于余弦相似度算法的查重方法 - Google Patents

一种基于余弦相似度算法的查重方法 Download PDF

Info

Publication number
CN112364647A
CN112364647A CN202011326607.0A CN202011326607A CN112364647A CN 112364647 A CN112364647 A CN 112364647A CN 202011326607 A CN202011326607 A CN 202011326607A CN 112364647 A CN112364647 A CN 112364647A
Authority
CN
China
Prior art keywords
word
cosine similarity
text
coding
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011326607.0A
Other languages
English (en)
Inventor
陈文博
胡微
王鹏
王保强
陈余
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern Power Grid Digital Grid Research Institute Co Ltd
Hainan Digital Power Grid Research Institute of China Southern Power Grid Co Ltd
Original Assignee
Hainan Digital Power Grid Research Institute of China Southern Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan Digital Power Grid Research Institute of China Southern Power Grid Co Ltd filed Critical Hainan Digital Power Grid Research Institute of China Southern Power Grid Co Ltd
Priority to CN202011326607.0A priority Critical patent/CN112364647A/zh
Publication of CN112364647A publication Critical patent/CN112364647A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于余弦相似度算法的查重方法,包括下列步骤:对待查重文本以及对比文本分别进行分词处理,形成第一词集;对第一词集进行向量化处理,形成特征向量集;根据特征向量集,对第一词集进行第一编码处理,形成包含若干编码子集的第二词集组,对第二词集组分别进行第二编码处理,形成包含若干词频向量集的第三词集组;基于余弦相似度算法,计算两两词频向量集的余弦相似度,若余弦相似度大于阈值,则将对比文本作为查重结果。

Description

一种基于余弦相似度算法的查重方法
技术领域
本发明涉及数据查重技术领域,尤其涉及一种基于余弦相似度算法的查重方法。
背景技术
随着计算机文本信息挖掘等各种自然语言处理应用的普及,当今社会对基于文本相似度的文档检索系统需求日益增加,同时人们对计算机文本处理也提出了更高的要求。在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性,是此方法的重点。在相似度检索领域,现有的相似度检索方法,要么在检索效率上存在不足,要么在准确度方面不能令人满意。
发明内容
本发明的目的在于提供一种基于余弦相似度算法的查重方法,以解决上述背景技术中提出的问题。
本发明是通过以下技术方案实现的:一种基于余弦相似度算法的查重方法,包括下列步骤:
对待查重文本以及对比文本分别进行分词处理,形成第一词集;
对第一词集进行向量化处理,形成特征向量集;
根据特征向量集,对第一词集进行第一编码处理,形成包含若干编码子集的第二词集组,对第二词集组分别进行第二编码处理,形成包含若干词频向量集的第三词集组;
基于余弦相似度算法,计算两两词频向量集的余弦相似度;
重复上述步骤,计算待查重文本以及其他待对比文本的余弦相似度,选取余弦相似度最大的待对比文本作为查重结果。
优选的,对待查重文本以及对比文本分别进行分词处理,形成第一词集,包括:
对待查重文本分词处理,形成包含多个单词的第一分词集,对对比文本进行分词处理,形成包含多个单词的第二分词集;
将第一分词集、第二分词集中的单词进行逐一对比,若存在相同单词,则选取一个相同单词放入第一词集中;
若存在不同单词,则将不同单词均放入第一词集中。
优选的,所述分词处理包括结巴分词法中的一种或多种。
优选的,对第一词集进行向量化处理,形成特征向量集,包括:
对第一词集中的单词的出现顺序进行数字标号,形成包含单词以及数字的特征向量集。
优选的,所述第一编码处理包括:
根据特征向量集,将第一分词集转换为包含数字的第一编码子集,将第二分词集转换为包含数字的第二编码子集,所述第一编码子集、第二编码子集组成第二词集组。
优选的,第二编码处理,包括:
对第一编码子集进行oneHot编码处理,获得第一词频向量集;
对第二编码子集进行oneHot编码处理,获得第二词频向量集;
所述第一词频向量集、第二词频向量集组成第三词集组。
与现有技术相比,本发明达到的有益效果如下:
本发明提供的一种基于余弦相似度算法的查重方法,可提高系统查重效率及准确率,减少人力资源浪费。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的优选实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于余弦相似度算法的查重方法的流程图。
具体实施方式
为了更好理解本发明技术内容,下面提供具体实施例,并结合附图对本发明做进一步的说明。
参见图1,一种基于余弦相似度算法的查重方法,包括下列步骤:
步骤101:对待查重文本以及对比文本分别进行分词处理,形成第一词集;
具体的,对待查重文本分词处理,形成包含多个单词的第一分词集,对对比文本进行分词处理,形成包含多个单词的第二分词集;
将第一分词集、第二分词集中的单词进行逐一对比,若存在相同单词,则选取一个相同单词放入第一词集中;
若存在不同单词,则将不同单词均放入第一词集中。
在本实施例的一种实施方式中,所述分词处理包括结巴分词法中的一种或多种。
步骤102:对第一词集进行向量化处理,形成特征向量集;
具体的,对第一词集中的单词的出现顺序进行数字标号,形成包含单词以及数字的特征向量集。
步骤103:根据特征向量集,对第一词集进行第一编码处理,形成包含若干编码子集的第二词集组,对第二词集组分别进行第二编码处理,形成包含若干词频向量集的第三词集组;
具体的,第一编码处理包括:根据特征向量集,将第一分词集转换为包含数字的第一编码子集,将第二分词集转换为包含数字的第二编码子集,所述第一编码子集、第二编码子集组成第二词集组。
第二编码处理,包括:
对第一编码子集进行oneHot编码处理,获得第一词频向量集;
对第二编码子集进行oneHot编码处理,获得第二词频向量集;
所述第一词频向量集、第二词频向量集组成第三词集组。
步骤104:基于余弦相似度算法,计算两两词频向量集的余弦相似度;
步骤105:重复步骤101-104,计算待查重文本以及其他待对比文本的余弦相似度,选取余弦相似度最大的待对比文本作为查重结果。
若余弦相似度大于阈值,则将对比文本作为查重结果。
下面以句子A以及句子B为例进行说明。
句子A为待查重文本:这只皮靴号码大了。那只号码合适。
句子B为对比文本:这只皮靴号码不小,那只更合适。
对句子A以结巴分词的方式进行分词处理,得到第一分词集:
第一分词集=[‘这‘,‘只‘,‘皮靴‘,‘号码‘,‘大‘,‘了‘,‘那‘,‘只‘,‘号码‘,‘合适‘];
对句子B以结巴分词的方式进行分词处理,得到第二分词集:
第二分词集=[‘这‘,‘只‘,‘皮靴‘,‘号码‘,‘不小‘,‘那‘,‘只‘,‘更合‘,‘合适‘]。
对比第一分词集、第二分词集,将第一分词集、第二分词集中的单词进行逐一对比,若存在相同单词,则选取一个相同单词放入第一词集中,最终获得如下第一词集:
第一词集={'不小','了','合适','那','只','皮靴','更合','号码','这','大'}。
按照第一词集中各个单词出现的顺序进行标号,用以实现第一词集的向量化处理,最终结果如下:
特征向量集={'不小':0,'了':1,'合适':2,'那':3,'只':4,'皮靴':5,'更合':6,'号码':7,'这':8,'大':9}
根据特征向量集对第一分词集、第二分词集进行第一编码处理,获得如下结果:
第一编码子集=[8,4,5,7,9,1,3,4,7,2];
第二编码子集=[8,4,5,7,0,3,4,6,2];
对第一编码子集、第二编码子集进行oneHot编码处理,就是计算每个分词出现的次数,其结果如下:
第一词频向量集=[0,1,1,1,2,1,0,2,1,1];
第二词频向量集[1,0,1,1,2,1,1,1,1,0];
得出两个句子的词频向量之后,就变成了计算第一词频向量集、第二词频向量集之间夹角的余弦值,值越大相似度越高,其具体的计算公式如下:
Figure BDA0002794505570000051
同理,重新计算句子A与句子C之间的余弦相似度,计算句子A与句子D之间的余弦相似度,对三个余弦相似度进行比较,选取余弦相似度最大的待对比文本作为查重结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (6)

1.一种基于余弦相似度算法的查重方法,其特征在于,包括下列步骤:
对待查重文本以及任一待对比文本分别进行分词处理,形成第一词集;
对第一词集进行向量化处理,形成特征向量集;
根据特征向量集,对第一词集进行第一编码处理,形成包含若干编码子集的第二词集组,对第二词集组分别进行第二编码处理,形成包含若干词频向量集的第三词集组;
基于余弦相似度算法,计算两两词频向量集的余弦相似度;
重复上述步骤,计算待查重文本以及其他待对比文本的余弦相似度,选取余弦相似度最大的待对比文本作为查重结果。
2.根据权利要求1所述的一种基于余弦相似度算法的查重方法,其特征在于,对待查重文本以及任一待对比文本分别进行分词处理,形成第一词集,包括:
对待查重文本分词处理,形成包含多个单词的第一分词集,对任一待对比文本进行分词处理,形成包含多个单词的第二分词集;
将第一分词集、第二分词集中的单词进行逐一对比,若存在相同单词,则选取一个相同单词放入第一词集中;
若存在不同单词,则将不同单词均放入第一词集中。
3.根据权利要求2所述的一种基于余弦相似度算法的查重方法,其特征在于,所述分词处理包括结巴分词法中的一种或多种。
4.根据权利要求1-3任一项所述的一种基于余弦相似度算法的查重方法,其特征在于,对第一词集进行向量化处理,形成特征向量集,包括:
对第一词集中的单词的出现顺序进行数字标号,形成包含单词以及数字的特征向量集。
5.根据权利要求4所述的一种基于余弦相似度算法的查重方法,其特征在于,所述第一编码处理包括:
根据特征向量集,将第一分词集转换为包含数字的第一编码子集,将第二分词集转换为包含数字的第二编码子集,所述第一编码子集、第二编码子集组成第二词集组。
6.根据权利要求5所述的一种基于余弦相似度算法的查重方法,其特征在于,第二编码处理,包括:
对第一编码子集进行oneHot编码处理,获得第一词频向量集;
对第二编码子集进行oneHot编码处理,获得第二词频向量集;
所述第一词频向量集、第二词频向量集组成第三词集组。
CN202011326607.0A 2020-11-24 2020-11-24 一种基于余弦相似度算法的查重方法 Pending CN112364647A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011326607.0A CN112364647A (zh) 2020-11-24 2020-11-24 一种基于余弦相似度算法的查重方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011326607.0A CN112364647A (zh) 2020-11-24 2020-11-24 一种基于余弦相似度算法的查重方法

Publications (1)

Publication Number Publication Date
CN112364647A true CN112364647A (zh) 2021-02-12

Family

ID=74533195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011326607.0A Pending CN112364647A (zh) 2020-11-24 2020-11-24 一种基于余弦相似度算法的查重方法

Country Status (1)

Country Link
CN (1) CN112364647A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115878759A (zh) * 2023-01-05 2023-03-31 京华信息科技股份有限公司 一种文本查找方法、装置及存储介质
CN116680367A (zh) * 2023-08-04 2023-09-01 深圳市智慧城市科技发展集团有限公司 数据匹配方法、数据匹配装置及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070185871A1 (en) * 2006-02-08 2007-08-09 Telenor Asa Document similarity scoring and ranking method, device and computer program product
CN108595418A (zh) * 2018-04-03 2018-09-28 上海透云物联网科技有限公司 一种商品分类方法及系统
CN109766547A (zh) * 2018-12-26 2019-05-17 重庆邮电大学 一种句子相似度计算方法
CN111695349A (zh) * 2019-02-28 2020-09-22 北京京东尚科信息技术有限公司 文本匹配方法和文本匹配系统
US20200364270A1 (en) * 2019-05-14 2020-11-19 General Electric Company Feedback-based improvement of cosine similarity

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070185871A1 (en) * 2006-02-08 2007-08-09 Telenor Asa Document similarity scoring and ranking method, device and computer program product
CN108595418A (zh) * 2018-04-03 2018-09-28 上海透云物联网科技有限公司 一种商品分类方法及系统
CN109766547A (zh) * 2018-12-26 2019-05-17 重庆邮电大学 一种句子相似度计算方法
CN111695349A (zh) * 2019-02-28 2020-09-22 北京京东尚科信息技术有限公司 文本匹配方法和文本匹配系统
US20200364270A1 (en) * 2019-05-14 2020-11-19 General Electric Company Feedback-based improvement of cosine similarity

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115878759A (zh) * 2023-01-05 2023-03-31 京华信息科技股份有限公司 一种文本查找方法、装置及存储介质
CN116680367A (zh) * 2023-08-04 2023-09-01 深圳市智慧城市科技发展集团有限公司 数据匹配方法、数据匹配装置及计算机可读存储介质
CN116680367B (zh) * 2023-08-04 2023-11-24 深圳市智慧城市科技发展集团有限公司 数据匹配方法、数据匹配装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN113792818B (zh) 意图分类方法、装置、电子设备及计算机可读存储介质
CN111897949B (zh) 一种基于Transformer的引导性文本摘要生成方法
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN107085581B (zh) 短文本分类方法和装置
CN106776548B (zh) 一种文本的相似度计算的方法和装置
Shi et al. Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval
CN111460807A (zh) 序列标注方法、装置、计算机设备和存储介质
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN110619051A (zh) 问题语句分类方法、装置、电子设备及存储介质
CN112364647A (zh) 一种基于余弦相似度算法的查重方法
CN113946684A (zh) 电力基建知识图谱构建方法
CN113434636A (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN112417891A (zh) 一种基于开放式信息抽取的文本关系自动标注方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN116050352A (zh) 文本编码方法和装置、计算机设备及存储介质
CN108664464B (zh) 一种语义相关度的确定方法及确定装置
CN111506726A (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
CN111680146A (zh) 确定新词的方法、装置、电子设备及可读存储介质
CN114611529B (zh) 意图识别方法和装置、电子设备及存储介质
CN114398903B (zh) 意图识别方法、装置、电子设备及存储介质
CN112749251B (zh) 文本处理方法、装置、计算机设备和存储介质
CN115033683A (zh) 摘要生成方法、装置、设备及存储介质
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及系统
CN109992716B (zh) 一种基于itq算法的印尼语相似新闻推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination