CN116127942B - 文本比对方法、装置、设备和存储介质 - Google Patents

文本比对方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN116127942B
CN116127942B CN202310180514.9A CN202310180514A CN116127942B CN 116127942 B CN116127942 B CN 116127942B CN 202310180514 A CN202310180514 A CN 202310180514A CN 116127942 B CN116127942 B CN 116127942B
Authority
CN
China
Prior art keywords
text
similarity
comparison unit
repeated
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310180514.9A
Other languages
English (en)
Other versions
CN116127942A (zh
Inventor
杨海霞
安慧丽
王硕
娄元杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Siqian Software Co ltd
Original Assignee
Beijing Siqian Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Siqian Software Co ltd filed Critical Beijing Siqian Software Co ltd
Priority to CN202310180514.9A priority Critical patent/CN116127942B/zh
Publication of CN116127942A publication Critical patent/CN116127942A/zh
Application granted granted Critical
Publication of CN116127942B publication Critical patent/CN116127942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种文本比对方法、装置、设备和存储介质,该方法包括:获取至少两份文本;对各文本进行分割,得到各文本的分词;计算各文本之间的重复分词,并基于重复分词确定至少两份文本的相似度。由于本公开中是以多个文本之间的重复分词为重点进行相似度比对的,使得文本比对的重点更加突出,从而可以提高文本比对效率。

Description

文本比对方法、装置、设备和存储介质
技术领域
本公开涉及数据处理技术领域,尤其涉及一种文本比对方法、装置、设备和存储介质。
背景技术
日常工作中时常会涉及到文本的比对,以便确定两份文本之间的相似度。目前,在进行文本对比时,通常是先对两份文本分别进行分句和分词,然后直接根据两份文本中的所有的分句和分词结果计算文本的相似度,这就导致相似度比对的重点不突出,比对效率较低。
发明内容
有鉴于此,本公开提出了一种文本比对方法、装置、设备和存储介质,可以提高文本比对效率。
根据本公开的第一方面,提供了一种文本比对方法,包括:
获取至少两份文本;
对各所述文本进行分割,得到各所述文本的分词;
计算各所述文本之间的重复分词,并基于所述重复分词确定至少两份所述文本的相似度。
在一种可能的实现方式中,在对所述文本进行分割,得到所述文本的分词时,包括:
将所述文本进行分段,得到所述文本的段落;
对所述文本的段落进行分句,得到所述文本的分句;
采用至少两种分词算法对所述文本的分句进行分词,得到至少两种分词结果,并根据至少两种分词结果,得到所述文本的分词。
在一种可能的实现方式中,在计算各所述文本之间的重复分词时,包括:
将各所述文本的分词连接成树形结构,得到各所述文本的树形分词结构;
基于各所述文本的树形分词结构,采用DFA算法,计算各所述文本之间的重复分词。
在一种可能的实现方式中,在基于所述重复分词确定至少两份所述文本的相似度时,包括:
获取所述重复分词在各所述文本中的权重;
基于所述重复分词在各所述文本中的权重,确定至少两份所述文本的相似度。
在一种可能的实现方式中,在获取所述重复分词在所述文本中的权重时,包括:
获取所述重复分词在所述文本中的词频以及所述重复分词在至少两份所述文本中的逆文本频率;
基于所述词频和所述逆文本频率,计算所述重复分词在所述文本中的权重。
在一种可能的实现方式中,在基于所述重复分词在各所述文本中的权重,确定至少两份所述文本的相似度时,基于余弦相似度算法和BM25算法中的至少一种相似度算法实现。
在一种可能的实现方式中,所述文本比对方法还包括:
获取忽略文本;
对所述忽略文本进行分割,得到所述忽略文本的分词;
在计算得到各所述文本之间的重复分词之后,判断所述重复分词是否存与所述忽略文本的分词一致,在判断所述重复分词与所述忽略文本的分词一致时,忽略所述重复分词。
根据本公开的第二方面,提供了一种文本比对装置,包括:
文本获取模块,用于获取至少两份文本;
文本分割模块,用于对各所述文本进行分割,得到各所述文本的分词;
相似度比对模块,用于计算各所述文本之间的重复分词,并基于所述重复分词确定至少两份所述文本的相似度。
根据本公开的第三方面,提供了一种文本比对设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行本公开第一方面所述的方法。
根据本公开的第四方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现本公开第一方面所述的方法。
本公开在进行文本比对时,先获取至少两份文本;对各文本进行分割,得到各文本的分词;计算各文本之间的重复分词,并基于重复分词确定至少两份文本的相似度。由于本公开中是以多个文本之间的重复分词为重点进行相似度比对的,使得文本比对的重点更加突出,从而可以提高文本比对效率。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开一实施例文本比对方法的流程图;
图2示出根据本公开一实施例的文本比对装置的示意性框图;
图3示出根据本公开一实施例的文本比对设备的示意性框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
<方法实施例>
本公开提供的文本对比方法可以适用于两个文本之间的相似度比对,也可以试用于多个文本(即三个或者三个以上文本)之间的相似度比对。在本实施例中,将以两个文本之间的相似度比对为例,对本公开中的文本比对方法进行说明。
图1示出根据本公开一实施例文本比对方法的流程图。如图1所示,该方法包括步骤S1100-S1300。
S1100,获取至少两份文本。在本实施例中即为获取需要进行相似度比对的文本A和文本B。S1200,对各文本进行分割,得到各文本的分词。在本实施中即为对文本A进行文本分割,得到文本A的分词,对文本B进行文本分割,得到文本B的文词。S1300,计算各文本之间的重复分词,并基于重复分词确定至少两份文本的相似度。在本实施例中即为计算文本A和文本B之间的重复分词,并基于重复分词确定文本A和文本B之间的相似度。其中,重复分词即各文本中都包括的分词。举例来说,经过文本分割处理后文本A中包括质量管理体系这个分词,文本B中也包括质量管理体系这个分词,则质量管理体系即为A文本和B文本之间的重复分词。
由于本实施例中是以文本A和文本B之间的重复分词为重点进行相似度比对的,这使得文本比对的重点更加突出,从而可以提高文本比对效率。
在一种可能的实现方式中,步骤S1200,在对文本进行分割,得到文本的分词时,可以包括以下步骤:
第一,将文本进行分段,得到文本的段落。具体地,可以根据文本中的换行符“/n”对文本进行段落划分,得到多个文本的段落。
第二,对文本的段落进行分句,得到文本的分句。具体地,针对第一步中划分出的每个段落,可以根据段落中各标点符号的符号等级对该段落进行分句,得到多个分句,即得到多个句子。举例来说,符号等级中包括第一符号等级,该第一符号等级种包括句号(。)、问号(?)、感叹号(!)以及省略号(……)等表征一句话结束的标点符号。在对段落进行分句时,遍历段落中的标点符号,当遍历到第一符号等级的标点符号时,将当前第一符号等级的标点符号与上一个第一等级的标点符号之间的内容截取出来作为一个分句。遍历结束,得到该段落中的所有分句。
第三,采用至少两种分词算法对文本的分句进行分词,得到至少两种分词结果,并根据至少两种分词结果,得到文本的分词。其中,采用的分词算法可以是两种,可以是多种(即三种或者三种以上),在此不作具体限定。
在采用的分词算法为两种的可实现方式中,针对第二步中划分出的每个分句,先采用第一分词算法进行分词,得到第一分词结果;再采用第二分词算法进行分词,得到第二分词结果;最后,将第一分词结果和第二分词结果合并去重后作为该分句的最终分词结果。优选地,第一分词算法可以是最大概率分词算法,第二分词算法可以是HMM2分词算法。
在该可实现方式中,综合至少两种分词算法的分词结果来确定分句的最终分词结果,因此可以使得分词结果更加准确。
采用上述步骤分别对文本A和文本B进行文本分割后,即可以得到文本A的分词以及文本B的分词。在得到文本A的分词和文本B的分词后,便可以执行计算文本A和文本B中的重复分词的步骤。
在一种可能的实现方式中,可以基于DFA算法计算文本之间的重复分词。具体步骤包括:将各文本的分词连接成树形结构,得到各文本的树形分词结构;基于各文本的树形分词结构,采用DFA算法,计算各文本之间的重复分词。通过DFA算法可以快速完成文本之间的分词比对,从而可以提高文本之间的重复分词计算效率。
在该可实现方式中,先对文本A的所有分词连接成树形结构,得到文本A的树形分词结构。再将文本B的所有分词连接成树形结构,得到文本B的树形分词结构。最后,基于文本A的树形分词结构和文本B的树形分词结构,采用DFA算法,即可计算出文本A和文本B之间的重复分词。
此处需要说明的是,在计算各文本之间的重复分词时,还将同时计算出重复分词在各文本中出现的次数,并基于重复分词和重复分词在各文本中出现的次数生成第一比对结果,这样,便可以通过第一比对结果快速地了解各文本之间的分词重复情况。
表1
举例来说,在对A文本和B文本进行比对时,计算出A文本和B文本之间的重复分词包括质量管理体系、项目实施过程、JAVA开发工程师、系统功能和宅基地管理。其中,A文本中:质量管理体系出现了9次,项目实施过程出现了7次,JAVA开发工程师出现了4次,系统功能出现了10次,宅基地管理出现了13次。B文本中:质量管理体系出现了8次,项目实施过程出现了12次,JAVA开发工程师出现了5次,系统功能出现了10次,宅基地管理出现了1次。此时输出的第一比对结果可以如表1所示。
在计算得到文本A和文本B之间的重复分词后,并可以基于文本A和文本B之间的重复分词确定文本A和文本B的相似度。
在一种可能的实现方式中,步骤S1300,在基于各文本之间的重复分词确定至少两份文本的相似度时,可以包括以下步骤:
第一,获取重复分词在各文本中的权重。具体地,先获取重复分词在各文本中的词频以及重复分词的逆文本频率;然后基于重复分词在各文本中的词频以及重复分词的逆文本频率,计算重复分词在各文本中的权重。
在一种可能的实现方式中,重复分词在文本中的词频可以基于重复分词在文本中的出现次数和文本中的分词总数确定。具体地,重复分词在文本中的词频可以通过公式(1)计算得到。
式中,TF(d,ω)为重复分词ω在文本d中的词频,count(d,ω)为重复分词ω在文本d中的出现次数,count(d,*)为文本d中的分词总数。
在一种可能的实现方式中,重复分词的逆文本频率可以基于参与对比的文本总数和出现重复分词的文本总数确定。具体地,重复分词在至少两份文本中的逆文本频率可以通过公式(2)计算得到。
式中,IDF(ω)为重复分词ω的逆文本频率,N为参与对比的文本总数,N(ω)为出现重复分词ω的文本总数。
在一种可能的实现方式中,重复分词在文本中的权重是通过重复分词在文本中的词频和重复分词的逆文本频率进行逻辑运算得到。具体地,重复分词在文本中的权重可以通过公式(3)计算得到。
TF-IDF(d,ω)=TF(d,ω)*IDF(ω)(3)
式中,TF-IDF(d,ω)为重复分词ω在文本d中的权重。
下面结合一个具体示例对计算重复分词在各文本中的权重的过程进行再一次说明。
举例来说,文本A和文本B的第一比对结果如表1所示。针对质量管理体系这个重复分词,在A文本中出现了9次,且对A文本进行分割后得到的分词总数为100,则根据公式(1)计算出质量管理体系在A文本中词频=9/100=0.09。同理,质量管理体系这个重复分词在B文本中出现了8次,且对B文本进行分割后得到的分词总数为150,则根据公式(1)计算出质量管理体系在B文本中词频=8/100=0.08。由于是对A文本和B文本两份文本进行比对,所以参与对比的文本总数为2,两份文本中均出现了质量管理体系这个重复分词,所以出现质量管理体系这个重复分词的文本总数也为2,则根据公式(2)计算出的质量管理体系的逆文本频率=log((2+1/2+1)+1)=0.3。进一步地,根据公式(3)计算出质量管理体系在A文本中的权重=0.09*0.3=0.027。根据公式(3)计算出质量管理体系在B文本中的权重=0.08*0.3=0.024。参照质量管理体系在A文本和B文本中权重计算过程,可以得到表1中所有重复分词在文本A和文本B中的权重。
第二,基于重复分词在各文本中的权重,确定至少两份文本的相似度。
在一种可能的实现方式中,在基于重复分词在各文本中的权重,确定至少两份文本的相似度时,基于余弦相似度算法和BM25算法中的至少一种相似度算法实现。
在基于重复分词在各文本中的权重,采用余弦相似度算法确定至少两份文本的相似度时,可以包括以下步骤:
第一,分别由各文本中截取出对比单元。其中,该比对单元可以是一个分句,可以是一行文本,还可以是一个段落,在此不作具体限定。
举例来说,在以一行文本为比对单元对文本A和文本B进行比对的实施例中,可以先由文本A中截取出一行作为文本A的对比单元D1,由文本B中截取出一行作为文本B的对比单元D2
第二,基于各比对单元中包括的重复分词以及各重复分词在对应文本中的权重,确定各对比单元对应的对比向量。
续上实施例,文本A的对比单元D1中包括的重复分词分别为a,b,c,d,文本B的对比单元D2中包括的重复分词分别为a,c,d,e,则比对单元对应的比对向量为(wa,wb,wc,wd,we),其中,wa为重复分词a的权重,wb为重复分词b的权重,wc为重复分词c的权重,wd为重复分词d的权重,we为重复分词e的权重。在重复分词分别为a,b,c,d在文本A中的权重分别为1.17,1,0.5,0.1的情况下,对比单元D1对应的比对向量m为(1.17,1,0.5,0.1)。在重复分词a,c,d,e在文本B中的权重分别为0.7,1.17,0.5,0.9,的情况下,对比单元D2对应的比对向量n为(0.7,1.17,0.5,0.9)。
第三,基于各比对单元的比对向量,计算各对比单元的余弦相似度。
在一种可能的实现方式中,可以通过公式(4)计算各比对单元的相似度。
式中,sim(D1,D2)为比对比单元D1和对比单元D2之间的余弦相似度,m为对比单元D1对应的比对向量,n为对比单元D2对应的比对向量,W1k为比对向量m中第k个重复分词对应的权重,W2k为比对向量n中第k个重复分词对应的权重。
此处需要说明的是,在文本A和文本B中均包括多个比对单元的情况下,需要将文本A中的每个比对单元与文本B中每个对比单元逐一进行余弦相似度比对,并综合所有比对得到的余弦相似度确定文本A和文本B之间的余弦相似度。
举例来说,文本A中包括2个比对单元,分别为D11和D12,文本B中包括2个比对单元,分别为D21和D22,则需要比对D11和D21相似度,得到余弦相似度C1;比对D11和D22相似度,得到余弦相似度C2;比对D12和D21相似度,得到余弦相似度C3;比对D12和D22相似度,得到余弦相似度C4。最后将余弦相似度C1、C2、C3和C4的平均值作为文本A和文本B的余弦相似度。
在基于重复分词在各文本中的权重,采用BM25算法确定至少两份文本的相似度时,可以包括以下步骤:
第一,分别由各文本中截取出对比单元。具体参见余弦相似度算法,在此不再赘述。
第二,根据各比对单元中的重复分词,构建检索向量Q和样本向量D。具体地,将各比对单元中的重复分词作为检索向量Q的检索词,构建检索向量Q,基于对比文本构建样本向量D。
举例来说,文本A的对比单元为D1中重复分词分别为a,b,c,d,文本B的比对单元为D2中重复分词分别为a,c,d,e,则检索向量Q中的检索词分别为a,b,c,d,e,构建的检索向量Q为(a,b,c,d,e)。样本向量D即为文本A和文本B中的全部文本内容。
第三,基于检索向量Q和样本向量D,计算各比对单元的BM25相似度。
在一种可能的实现方式中,可以通过公式(5)计算BM25相似度。
式中,Score(D,Q)为各比对单元之间的BM25相似度,f(qi,D)是检索向量Q中的检索词qi在样本向量D中的出现的次数,|D|表示样本向量D的长度,即样本向量D中包括的词语个数(包括重复词语),avgdl为检索向量Q中检索到的全部样本的平均长度,k1和b为自由参数,可以根据具体需求进行设定,例如,k1可以设置为33,b可以设置为0.75,IDF(qi)为检索词qi的逆文本频率。
在一种可能的实现方式中,IDF(qi)的计算式可以如公式(6)所示。
式中,N为参与比对的文本数量,n(qi)为包含检索词qi的文本数量,其中,0.5为平滑系数,该平滑系数可以根据具体应用场景进行调整,此处仅给出了一个优选的平滑系数为0.5。
在该可以实现方式中,通过以上公式(6)即可以计算各比对单元的BM25相似度。
此处需要说明的是,在文本A和文本B中均包括多个比对单元的情况下,需要将文本A中的每个比对单元与文本B中每个对比单元逐一进行BM25相似度比对,并综合所有比对得到的BM25相似度确定文本A和文本B之间的BM25相似度。具体参照余弦相似度比对部分内容,在此不再赘述。
在一种可能的实现方式中,可以同时采用余弦相似度算法和BM25算法确定至少两份文本的相似度。
举例来说,以一行文本为对单元,采用余弦相似度算法和BM25算法对文本A和文本B进行相似度比对,得到的比对结果可以如表2所示。
在该示例中,所有余弦相似度的平均值即为文本A和文本B的余弦相似度,其中,余弦相似度的取值范围为[0,1],余弦相似度越大表示文本A和文本B的相似度越高。同理,所有BM25相似度的平均值即为文本A和文本B的BM25相似度。其中,BM25相似度的取值范围为[0,k1+1],BM25相似度越大表示文本A和文本B的相似度越高。其中,k1为公式(6)中的自由参数k1
在该示例中,可以对文本的整体余弦相似度和BM25相似度进行展示,方便用户了解文本的整体相似度情况,还可以对各比对单元的余弦相似度和BM25相似度进行逐一展示,方便用户快速定位重复度较高的比对单元,以对重复度较高的比对单元进行排查修订。
表2
在招投标过程中,针对同一招标文本,会同时收到多份投标文本,为了判断是否存在围标现象,通常会对收到的多份投标文本进行相似度比对,但是由于多份投标文本是针对同一招标文本编制的,因此,在多份投标文本中都会存与招标文本中相同的内容,而这部分重复的内容会对围标判断造成干扰。因此,在一种可能的实现方式中,该文本比对方法还包括以下步骤:
第一,获取忽略文本。其中,忽略文本中记载了不需要比对的文本内容,例如,该忽略文本可以是招标文本。
第二,对忽略文本进行分割,得到忽略文本的分词。具体参见步骤S1200,在此不再赘述。
第三,在计算得到各文本之间的重复分词之后,判断重复分词是否存与忽略文本的分词一致,在判断重复分词与忽略文本的分词一致时,忽略重复分词,这样便可以在文本比对时,忽略掉忽略文本中存在的重复分词,从而提高文本比对的针对性,提高文本比对效率。
在对多个文本进行比对时,将遍历每一文本。对于当前文本,将分别与其它文本进行对比,以得到当前文本与其它各文本之间的相似度。举例来说,在对A、B、C3个文本进行比对时,将分别进行A文本和B文本的相似度对比,A文本和C文本的相似度对比,以及B文本和C文本的相似度对比,并分别生成对应的比对结果。各文本之间进行两两比对的过程参见文本A和文本B比对的实施例,在此不再赘述。
<装置实施例>
图2示出根据本公开一实施例的文本比对装置的示意性框图。如图2所示,该文本比对装置100包括:
文本获取模块110,用于获取至少两份文本;
文本分割模块120,用于对各所述文本进行分割,得到各所述文本的分词;
相似度比对模块130,用于计算各所述文本之间的重复分词,并基于所述重复分词确定至少两份所述文本的相似度。
<设备实施例>
图3示出根据本公开一实施例的文本比对设备的示意性框图。如图3所示,该文本比对设备200包括处理器210以及用于存储处理器210可执行指令的存储器220。其中,处理器210被配置为执行可执行指令时实现前面任一所述的文本比对方法。
此处,应当指出的是,处理器210的个数可以为一个或多个。同时,在本公开实施例的文本比对设备200中,还可以包括输入装置230和输出装置240。其中,处理器210、存储器220、输入装置230和输出装置240之间可以通过总线连接,也可以通过其他方式连接,此处不进行具体限定。
存储器220作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序和各种模块,如:本公开实施例的文本比对方法所对应的程序或模块。处理器210通过运行存储在存储器220中的软件程序或模块,从而执行文本比对设备200的各种功能应用及数据处理。
输入装置230可用于接收输入的数字或信号。其中,信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置240可以包括显示屏等显示设备。
<存储介质实施例>
根据本公开的第四方面,还提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令被处理器210执行时实现前面任一所述的文本比对方法。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (7)

1.一种文本比对方法,其特征在于,包括:
获取至少两份文本;
对各所述文本进行分割,得到各所述文本的分词;
计算各所述文本之间的重复分词,并基于各所述文本之间的所述重复分词确定至少两份所述文本的相似度;
在基于各所述文本之间的所述重复分词确定至少两份所述文本的相似度时,包括:
获取所述重复分词在各所述文本中的权重;
分别由各所述文本中截取出对比单元,其中,各所述文本包括文本A和文本B;
针对所述文本A,遍历所述文本A中的每个比对单元;针对遍历到的当前比对单元,顺次获取所述文本B中的比对单元,并依次计算所述当前比对单元与所述文本B中各比对单元的余弦相似度和BM25相似度,遍历结束,得到所述文本A中各比对单元与所述文本B中各比对单元的余弦相似度和BM25相似度,并以列表的形式进行展示;
计算所有余弦相似度的平均值作为文本A与文本B的余弦相似度,计算所所有BM25相似度的平均值作为文本A与文本B的BM25相似度,并对文本A与文本B的余弦相似度和BM25相似度进行展示;
也就是说,文本A和文本B的相似度比对结果中,包括文本A中各比对单元与所述文本B中各比对单元的余弦相似度和BM25相似度,以及文本A与文本B的整体余弦相似度和BM25相似度;
其中,在计算所述当前比对单元与所述文本B中比对单元的余弦相似度时,包括:
由所述重复分词中筛选出各比对单元中所包括的重复分词,并基于各所述比对单元中包括的重复分词以及各重复分词在对应文本中的权重,确定各对比单元对应的对比向量;基于各比对单元的比对向量,计算各对比单元的余弦相似度;
在计算当前比对单元与文本B中比对单元的BM25相似度时,包括:
由所述重复分词中筛选出各比对单元中所包括的重复分词,并基于各所述比对单元中包括的重复分词,构建检索向量Q和样本向量D;基于检索向量Q和样本向量D,计算各比对单元的BM25相似度;其中,BM25相似度计算公式如下所示:
式中,Score(D,Q)为各比对单元之间的BM25相似度,f(qi,D)是检索向量Q中的检索词qi在样本向量D中的出现的次数,|D|表示样本向量D的长度,即样本向量D中包括的词语个数(包括重复词语),avgdl为检索向量Q中检索到的全部样本的平均长度,k1和b为自由参数,k1被设置为33,b被设置为0.75,IDF(qi)为检索词qi的逆文本频率,IDF(qi)的计算式如下所示:
式中,N为参与比对的文本数量,n(qi)为包含检索词qi的文本数量,0.5为平滑系数;
在获取所述重复分词在所述文本中的权重时,包括:
获取所述重复分词在所述文本中的词频以及所述重复分词在至少两份所述文本中的逆文本频率;
基于所述词频和所述逆文本频率,计算所述重复分词在所述文本中的权重。
2.根据权利要求1所述的方法,其特征在于,在对所述文本进行分割,得到所述文本的分词时,包括:
将所述文本进行分段,得到所述文本的段落;
对所述文本的段落进行分句,得到所述文本的分句;
采用至少两种分词算法对所述文本的分句进行分词,得到至少两种分词结果,并根据至少两种分词结果,得到所述文本的分词。
3.根据权利要求1所述的方法,其特征在于,在计算各所述文本之间的重复分词时,包括:
将各所述文本的分词连接成树形结构,得到各所述文本的树形分词结构;
基于各所述文本的树形分词结构,采用DFA算法,计算各所述文本之间的重复分词。
4.根据权利要求1-3中任一项所述的方法,其特征在于,还包括:
获取忽略文本;
对所述忽略文本进行分割,得到所述忽略文本的分词;
在计算得到各所述文本之间的重复分词之后,判断所述重复分词是否存与所述忽略文本的分词一致,在判断所述重复分词与所述忽略文本的分词一致时,忽略所述重复分词。
5.一种文本比对装置,其特征在于,包括:
文本获取模块,用于获取至少两份文本;
文本分割模块,用于对各所述文本进行分割,得到各所述文本的分词;
相似度比对模块,用于计算各所述文本之间的重复分词,并基于各所述文本之间的所述重复分词确定至少两份所述文本的相似度;
相似度比对模块,在基于各所述文本之间的所述重复分词确定至少两份所述文本的相似度时,具体用于:
获取所述重复分词在各所述文本中的权重;
分别由各所述文本中截取出对比单元,其中,各所述文本包括文本A和文本B;
针对所述文本A,遍历所述文本A中的每个比对单元;针对遍历到的当前比对单元,顺次获取所述文本B中的比对单元,并依次计算所述当前比对单元与所述文本B中各比对单元的余弦相似度和BM25相似度,遍历结束,得到所述文本A中各比对单元与所述文本B中各比对单元的余弦相似度和BM25相似度,并以列表的形式进行展示;
计算所有余弦相似度的平均值作为文本A与文本B的余弦相似度,计算所所有BM25相似度的平均值作为文本A与文本B的BM25相似度,并对文本A与文本B的余弦相似度和BM25相似度进行展示;
也就是说,文本A和文本B的相似度比对结果中,包括文本A中各比对单元与所述文本B中各比对单元的余弦相似度和BM25相似度,以及文本A与文本B的整体余弦相似度和BM25相似度;
相似度比对模块,在计算所述当前比对单元与所述文本B中比对单元的余弦相似度时,具体用于:
由所述重复分词中筛选出各比对单元中所包括的重复分词,并基于各所述比对单元中包括的重复分词以及各重复分词在对应文本中的权重,确定各对比单元对应的对比向量;基于各比对单元的比对向量,计算各对比单元的余弦相似度;
相似度比对模块,在计算当前比对单元与文本B中比对单元的BM25相似度时,具体用于:
由所述重复分词中筛选出各比对单元中所包括的重复分词,并基于各所述比对单元中包括的重复分词,构建检索向量Q和样本向量D;基于检索向量Q和样本向量D,计算各比对单元的BM25相似度;其中,BM25相似度计算公式如下所示:
式中,Score(D,Q)为各比对单元之间的BM25相似度,f(qi,D)是检索向量Q中的检索词qi在样本向量D中的出现的次数,|D|表示样本向量D的长度,即样本向量D中包括的词语个数(包括重复词语),avgdl为检索向量Q中检索到的全部样本的平均长度,k1和b为自由参数,k1被设置为33,b被设置为0.75,IDF(qi)为检索词qi的逆文本频率,IDF(qi)的计算式如下所示:
式中,N为参与比对的文本数量,n(qi)为包含检索词qi的文本数量,0.5为平滑系数;
相似度比对模块,在获取所述重复分词在所述文本中的权重时,具体用于:
获取所述重复分词在所述文本中的词频以及所述重复分词在至少两份所述文本中的逆文本频率;
基于所述词频和所述逆文本频率,计算所述重复分词在所述文本中的权重。
6.一种文本比对设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令时实现权利要求1至4中任意一项所述的方法。
7.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至4中任意一项所述的方法。
CN202310180514.9A 2023-02-17 2023-02-17 文本比对方法、装置、设备和存储介质 Active CN116127942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310180514.9A CN116127942B (zh) 2023-02-17 2023-02-17 文本比对方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310180514.9A CN116127942B (zh) 2023-02-17 2023-02-17 文本比对方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN116127942A CN116127942A (zh) 2023-05-16
CN116127942B true CN116127942B (zh) 2024-02-13

Family

ID=86310044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310180514.9A Active CN116127942B (zh) 2023-02-17 2023-02-17 文本比对方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN116127942B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9384409B1 (en) * 2015-01-29 2016-07-05 Konica Minolta Laboratory U.S.A., Inc. Word segmentation for document image using recursive segmentation
CN107908796A (zh) * 2017-12-15 2018-04-13 广州市齐明软件科技有限公司 电子政务查重方法、装置以及计算机可读存储介质
CN108829780A (zh) * 2018-05-31 2018-11-16 北京万方数据股份有限公司 文本检测方法、装置、计算设备及计算机可读存储介质
CN110059156A (zh) * 2019-03-13 2019-07-26 平安城市建设科技(深圳)有限公司 基于关联词的协同检索方法、装置、设备及可读存储介质
CN111639496A (zh) * 2020-05-12 2020-09-08 中信银行股份有限公司 一种基于智能加权分词技术的文本相似度计算方法和系统
CN112883158A (zh) * 2021-02-25 2021-06-01 北京精准沟通传媒科技股份有限公司 对短文本分类的方法、装置、介质以及电子设备
CN113204953A (zh) * 2021-05-27 2021-08-03 武汉红火蚁智能科技有限公司 基于语义识别的文本匹配方法、设备及设备可读存储介质
CN115204181A (zh) * 2022-07-22 2022-10-18 哈尔滨工业大学(深圳) 文本检测方法、装置、电子设备以及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015084360A1 (en) * 2013-12-05 2015-06-11 Hewlett-Packard Development Company, L.P. Regular expression matching
US10394956B2 (en) * 2015-12-31 2019-08-27 Shanghai Xiaoi Robot Technology Co., Ltd. Methods, devices, and systems for constructing intelligent knowledge base

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9384409B1 (en) * 2015-01-29 2016-07-05 Konica Minolta Laboratory U.S.A., Inc. Word segmentation for document image using recursive segmentation
CN107908796A (zh) * 2017-12-15 2018-04-13 广州市齐明软件科技有限公司 电子政务查重方法、装置以及计算机可读存储介质
CN108829780A (zh) * 2018-05-31 2018-11-16 北京万方数据股份有限公司 文本检测方法、装置、计算设备及计算机可读存储介质
CN110059156A (zh) * 2019-03-13 2019-07-26 平安城市建设科技(深圳)有限公司 基于关联词的协同检索方法、装置、设备及可读存储介质
CN111639496A (zh) * 2020-05-12 2020-09-08 中信银行股份有限公司 一种基于智能加权分词技术的文本相似度计算方法和系统
CN112883158A (zh) * 2021-02-25 2021-06-01 北京精准沟通传媒科技股份有限公司 对短文本分类的方法、装置、介质以及电子设备
CN113204953A (zh) * 2021-05-27 2021-08-03 武汉红火蚁智能科技有限公司 基于语义识别的文本匹配方法、设备及设备可读存储介质
CN115204181A (zh) * 2022-07-22 2022-10-18 哈尔滨工业大学(深圳) 文本检测方法、装置、电子设备以及计算机可读存储介质

Also Published As

Publication number Publication date
CN116127942A (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN106874441B (zh) 智能问答方法和装置
CN108509474B (zh) 搜索信息的同义词扩展方法及装置
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
CN108073902B (zh) 基于深度学习的视频总结方法、装置及终端设备
TWI582619B (zh) Method and apparatus for providing referral words
CN110569335B (zh) 基于人工智能的三元组校验方法、装置及存储介质
US10565253B2 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN110990533B (zh) 确定查询文本所对应标准文本的方法及装置
CN113326420B (zh) 问题检索方法、装置、电子设备和介质
WO2023029356A1 (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN110019640B (zh) 涉密文件检查方法及装置
CN110347782A (zh) 文章查重方法、装置和电子设备
CN111708909B (zh) 视频标签的添加方法及装置、电子设备、计算机可读存储介质
CN112328805B (zh) 基于nlp的漏洞描述信息与数据库表的实体映射方法
CN106407316B (zh) 基于主题模型的软件问答推荐方法和装置
CN105989001A (zh) 图像搜索方法及装置、图像搜索系统
CN111400448A (zh) 对象的关联关系分析方法及装置
CN109992659B (zh) 用于文本排序的方法和装置
CN113408660B (zh) 图书聚类方法、装置、设备和存储介质
CN105786858A (zh) 信息搜索系统及方法
CN112506864B (zh) 文件检索的方法、装置、电子设备及可读存储介质
CN111950267B (zh) 文本三元组的抽取方法及装置、电子设备及存储介质
CN116127942B (zh) 文本比对方法、装置、设备和存储介质
WO2018205391A1 (zh) 信息检索准确性评估方法、系统、装置及计算机可读存储介质
CN110399464B (zh) 一种相似新闻判别方法、系统及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant