CN112364647A - 一种基于余弦相似度算法的查重方法 - Google Patents
一种基于余弦相似度算法的查重方法 Download PDFInfo
- Publication number
- CN112364647A CN112364647A CN202011326607.0A CN202011326607A CN112364647A CN 112364647 A CN112364647 A CN 112364647A CN 202011326607 A CN202011326607 A CN 202011326607A CN 112364647 A CN112364647 A CN 112364647A
- Authority
- CN
- China
- Prior art keywords
- word
- cosine similarity
- text
- coding
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 43
- 230000011218 segmentation Effects 0.000 claims abstract description 37
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 238000002372 labelling Methods 0.000 claims description 3
- 239000010985 leather Substances 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于余弦相似度算法的查重方法,包括下列步骤:对待查重文本以及对比文本分别进行分词处理,形成第一词集;对第一词集进行向量化处理,形成特征向量集;根据特征向量集,对第一词集进行第一编码处理,形成包含若干编码子集的第二词集组,对第二词集组分别进行第二编码处理,形成包含若干词频向量集的第三词集组;基于余弦相似度算法,计算两两词频向量集的余弦相似度,若余弦相似度大于阈值,则将对比文本作为查重结果。
Description
技术领域
本发明涉及数据查重技术领域,尤其涉及一种基于余弦相似度算法的查重方法。
背景技术
随着计算机文本信息挖掘等各种自然语言处理应用的普及,当今社会对基于文本相似度的文档检索系统需求日益增加,同时人们对计算机文本处理也提出了更高的要求。在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性,是此方法的重点。在相似度检索领域,现有的相似度检索方法,要么在检索效率上存在不足,要么在准确度方面不能令人满意。
发明内容
本发明的目的在于提供一种基于余弦相似度算法的查重方法,以解决上述背景技术中提出的问题。
本发明是通过以下技术方案实现的:一种基于余弦相似度算法的查重方法,包括下列步骤:
对待查重文本以及对比文本分别进行分词处理,形成第一词集;
对第一词集进行向量化处理,形成特征向量集;
根据特征向量集,对第一词集进行第一编码处理,形成包含若干编码子集的第二词集组,对第二词集组分别进行第二编码处理,形成包含若干词频向量集的第三词集组;
基于余弦相似度算法,计算两两词频向量集的余弦相似度;
重复上述步骤,计算待查重文本以及其他待对比文本的余弦相似度,选取余弦相似度最大的待对比文本作为查重结果。
优选的,对待查重文本以及对比文本分别进行分词处理,形成第一词集,包括:
对待查重文本分词处理,形成包含多个单词的第一分词集,对对比文本进行分词处理,形成包含多个单词的第二分词集;
将第一分词集、第二分词集中的单词进行逐一对比,若存在相同单词,则选取一个相同单词放入第一词集中;
若存在不同单词,则将不同单词均放入第一词集中。
优选的,所述分词处理包括结巴分词法中的一种或多种。
优选的,对第一词集进行向量化处理,形成特征向量集,包括:
对第一词集中的单词的出现顺序进行数字标号,形成包含单词以及数字的特征向量集。
优选的,所述第一编码处理包括:
根据特征向量集,将第一分词集转换为包含数字的第一编码子集,将第二分词集转换为包含数字的第二编码子集,所述第一编码子集、第二编码子集组成第二词集组。
优选的,第二编码处理,包括:
对第一编码子集进行oneHot编码处理,获得第一词频向量集;
对第二编码子集进行oneHot编码处理,获得第二词频向量集;
所述第一词频向量集、第二词频向量集组成第三词集组。
与现有技术相比,本发明达到的有益效果如下:
本发明提供的一种基于余弦相似度算法的查重方法,可提高系统查重效率及准确率,减少人力资源浪费。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的优选实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于余弦相似度算法的查重方法的流程图。
具体实施方式
为了更好理解本发明技术内容,下面提供具体实施例,并结合附图对本发明做进一步的说明。
参见图1,一种基于余弦相似度算法的查重方法,包括下列步骤:
步骤101:对待查重文本以及对比文本分别进行分词处理,形成第一词集;
具体的,对待查重文本分词处理,形成包含多个单词的第一分词集,对对比文本进行分词处理,形成包含多个单词的第二分词集;
将第一分词集、第二分词集中的单词进行逐一对比,若存在相同单词,则选取一个相同单词放入第一词集中;
若存在不同单词,则将不同单词均放入第一词集中。
在本实施例的一种实施方式中,所述分词处理包括结巴分词法中的一种或多种。
步骤102:对第一词集进行向量化处理,形成特征向量集;
具体的,对第一词集中的单词的出现顺序进行数字标号,形成包含单词以及数字的特征向量集。
步骤103:根据特征向量集,对第一词集进行第一编码处理,形成包含若干编码子集的第二词集组,对第二词集组分别进行第二编码处理,形成包含若干词频向量集的第三词集组;
具体的,第一编码处理包括:根据特征向量集,将第一分词集转换为包含数字的第一编码子集,将第二分词集转换为包含数字的第二编码子集,所述第一编码子集、第二编码子集组成第二词集组。
第二编码处理,包括:
对第一编码子集进行oneHot编码处理,获得第一词频向量集;
对第二编码子集进行oneHot编码处理,获得第二词频向量集;
所述第一词频向量集、第二词频向量集组成第三词集组。
步骤104:基于余弦相似度算法,计算两两词频向量集的余弦相似度;
步骤105:重复步骤101-104,计算待查重文本以及其他待对比文本的余弦相似度,选取余弦相似度最大的待对比文本作为查重结果。
若余弦相似度大于阈值,则将对比文本作为查重结果。
下面以句子A以及句子B为例进行说明。
句子A为待查重文本:这只皮靴号码大了。那只号码合适。
句子B为对比文本:这只皮靴号码不小,那只更合适。
对句子A以结巴分词的方式进行分词处理,得到第一分词集:
第一分词集=[‘这‘,‘只‘,‘皮靴‘,‘号码‘,‘大‘,‘了‘,‘那‘,‘只‘,‘号码‘,‘合适‘];
对句子B以结巴分词的方式进行分词处理,得到第二分词集:
第二分词集=[‘这‘,‘只‘,‘皮靴‘,‘号码‘,‘不小‘,‘那‘,‘只‘,‘更合‘,‘合适‘]。
对比第一分词集、第二分词集,将第一分词集、第二分词集中的单词进行逐一对比,若存在相同单词,则选取一个相同单词放入第一词集中,最终获得如下第一词集:
第一词集={'不小','了','合适','那','只','皮靴','更合','号码','这','大'}。
按照第一词集中各个单词出现的顺序进行标号,用以实现第一词集的向量化处理,最终结果如下:
特征向量集={'不小':0,'了':1,'合适':2,'那':3,'只':4,'皮靴':5,'更合':6,'号码':7,'这':8,'大':9}
根据特征向量集对第一分词集、第二分词集进行第一编码处理,获得如下结果:
第一编码子集=[8,4,5,7,9,1,3,4,7,2];
第二编码子集=[8,4,5,7,0,3,4,6,2];
对第一编码子集、第二编码子集进行oneHot编码处理,就是计算每个分词出现的次数,其结果如下:
第一词频向量集=[0,1,1,1,2,1,0,2,1,1];
第二词频向量集[1,0,1,1,2,1,1,1,1,0];
得出两个句子的词频向量之后,就变成了计算第一词频向量集、第二词频向量集之间夹角的余弦值,值越大相似度越高,其具体的计算公式如下:
同理,重新计算句子A与句子C之间的余弦相似度,计算句子A与句子D之间的余弦相似度,对三个余弦相似度进行比较,选取余弦相似度最大的待对比文本作为查重结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (6)
1.一种基于余弦相似度算法的查重方法,其特征在于,包括下列步骤:
对待查重文本以及任一待对比文本分别进行分词处理,形成第一词集;
对第一词集进行向量化处理,形成特征向量集;
根据特征向量集,对第一词集进行第一编码处理,形成包含若干编码子集的第二词集组,对第二词集组分别进行第二编码处理,形成包含若干词频向量集的第三词集组;
基于余弦相似度算法,计算两两词频向量集的余弦相似度;
重复上述步骤,计算待查重文本以及其他待对比文本的余弦相似度,选取余弦相似度最大的待对比文本作为查重结果。
2.根据权利要求1所述的一种基于余弦相似度算法的查重方法,其特征在于,对待查重文本以及任一待对比文本分别进行分词处理,形成第一词集,包括:
对待查重文本分词处理,形成包含多个单词的第一分词集,对任一待对比文本进行分词处理,形成包含多个单词的第二分词集;
将第一分词集、第二分词集中的单词进行逐一对比,若存在相同单词,则选取一个相同单词放入第一词集中;
若存在不同单词,则将不同单词均放入第一词集中。
3.根据权利要求2所述的一种基于余弦相似度算法的查重方法,其特征在于,所述分词处理包括结巴分词法中的一种或多种。
4.根据权利要求1-3任一项所述的一种基于余弦相似度算法的查重方法,其特征在于,对第一词集进行向量化处理,形成特征向量集,包括:
对第一词集中的单词的出现顺序进行数字标号,形成包含单词以及数字的特征向量集。
5.根据权利要求4所述的一种基于余弦相似度算法的查重方法,其特征在于,所述第一编码处理包括:
根据特征向量集,将第一分词集转换为包含数字的第一编码子集,将第二分词集转换为包含数字的第二编码子集,所述第一编码子集、第二编码子集组成第二词集组。
6.根据权利要求5所述的一种基于余弦相似度算法的查重方法,其特征在于,第二编码处理,包括:
对第一编码子集进行oneHot编码处理,获得第一词频向量集;
对第二编码子集进行oneHot编码处理,获得第二词频向量集;
所述第一词频向量集、第二词频向量集组成第三词集组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011326607.0A CN112364647A (zh) | 2020-11-24 | 2020-11-24 | 一种基于余弦相似度算法的查重方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011326607.0A CN112364647A (zh) | 2020-11-24 | 2020-11-24 | 一种基于余弦相似度算法的查重方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112364647A true CN112364647A (zh) | 2021-02-12 |
Family
ID=74533195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011326607.0A Pending CN112364647A (zh) | 2020-11-24 | 2020-11-24 | 一种基于余弦相似度算法的查重方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364647A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115878759A (zh) * | 2023-01-05 | 2023-03-31 | 京华信息科技股份有限公司 | 一种文本查找方法、装置及存储介质 |
CN116680367A (zh) * | 2023-08-04 | 2023-09-01 | 深圳市智慧城市科技发展集团有限公司 | 数据匹配方法、数据匹配装置及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070185871A1 (en) * | 2006-02-08 | 2007-08-09 | Telenor Asa | Document similarity scoring and ranking method, device and computer program product |
CN108595418A (zh) * | 2018-04-03 | 2018-09-28 | 上海透云物联网科技有限公司 | 一种商品分类方法及系统 |
CN109766547A (zh) * | 2018-12-26 | 2019-05-17 | 重庆邮电大学 | 一种句子相似度计算方法 |
CN111695349A (zh) * | 2019-02-28 | 2020-09-22 | 北京京东尚科信息技术有限公司 | 文本匹配方法和文本匹配系统 |
US20200364270A1 (en) * | 2019-05-14 | 2020-11-19 | General Electric Company | Feedback-based improvement of cosine similarity |
-
2020
- 2020-11-24 CN CN202011326607.0A patent/CN112364647A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070185871A1 (en) * | 2006-02-08 | 2007-08-09 | Telenor Asa | Document similarity scoring and ranking method, device and computer program product |
CN108595418A (zh) * | 2018-04-03 | 2018-09-28 | 上海透云物联网科技有限公司 | 一种商品分类方法及系统 |
CN109766547A (zh) * | 2018-12-26 | 2019-05-17 | 重庆邮电大学 | 一种句子相似度计算方法 |
CN111695349A (zh) * | 2019-02-28 | 2020-09-22 | 北京京东尚科信息技术有限公司 | 文本匹配方法和文本匹配系统 |
US20200364270A1 (en) * | 2019-05-14 | 2020-11-19 | General Electric Company | Feedback-based improvement of cosine similarity |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115878759A (zh) * | 2023-01-05 | 2023-03-31 | 京华信息科技股份有限公司 | 一种文本查找方法、装置及存储介质 |
CN116680367A (zh) * | 2023-08-04 | 2023-09-01 | 深圳市智慧城市科技发展集团有限公司 | 数据匹配方法、数据匹配装置及计算机可读存储介质 |
CN116680367B (zh) * | 2023-08-04 | 2023-11-24 | 深圳市智慧城市科技发展集团有限公司 | 数据匹配方法、数据匹配装置及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113792818B (zh) | 意图分类方法、装置、电子设备及计算机可读存储介质 | |
CN111897949B (zh) | 一种基于Transformer的引导性文本摘要生成方法 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN108416058B (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN107085581B (zh) | 短文本分类方法和装置 | |
CN106776548B (zh) | 一种文本的相似度计算的方法和装置 | |
Shi et al. | Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval | |
CN111460807A (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN106610951A (zh) | 改进的基于语义分析的文本相似度求解算法 | |
CN110619051A (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN112364647A (zh) | 一种基于余弦相似度算法的查重方法 | |
CN113946684A (zh) | 电力基建知识图谱构建方法 | |
CN113434636A (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN112417891A (zh) | 一种基于开放式信息抽取的文本关系自动标注方法 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN116050352A (zh) | 文本编码方法和装置、计算机设备及存储介质 | |
CN108664464B (zh) | 一种语义相关度的确定方法及确定装置 | |
CN111506726A (zh) | 基于词性编码的短文本聚类方法、装置及计算机设备 | |
CN111680146A (zh) | 确定新词的方法、装置、电子设备及可读存储介质 | |
CN114611529B (zh) | 意图识别方法和装置、电子设备及存储介质 | |
CN114398903B (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN112749251B (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN115033683A (zh) | 摘要生成方法、装置、设备及存储介质 | |
CN115358227A (zh) | 一种基于短语增强的开放域关系联合抽取方法及系统 | |
CN109992716B (zh) | 一种基于itq算法的印尼语相似新闻推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |