CN110781272A - 一种文本匹配方法和装置、存储介质 - Google Patents
一种文本匹配方法和装置、存储介质 Download PDFInfo
- Publication number
- CN110781272A CN110781272A CN201910851165.2A CN201910851165A CN110781272A CN 110781272 A CN110781272 A CN 110781272A CN 201910851165 A CN201910851165 A CN 201910851165A CN 110781272 A CN110781272 A CN 110781272A
- Authority
- CN
- China
- Prior art keywords
- text
- matching
- target text
- detected
- sliding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000011218 segmentation Effects 0.000 claims abstract description 98
- 239000011159 matrix material Substances 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 20
- 238000012216 screening Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种文本匹配方法和装置、存储介质,其中,所述方法包括:获取待检测文本,所述待检测文本为包含有至少两个第一分词的第一分词组;将所述第一分词组与语料库中的文本进行分词匹配,并从语料库中选取出与所述第一分词组的匹配程度满足预设规则的至少一个疑似目标文本;控制滑动窗口按照确定出的滑动步长并通过在所述疑似目标文本中滑动的方式,从所述疑似目标文本中截取出至少两个第二分词以形成第二分词组;将所述第一分词组与所述第二分词组进行匹配,至少基于匹配结果确定所述疑似目标文本是否为与所述待检测文本相匹配的目标文本。如此,为准确、高效地判断出待检测文本是否为抄袭文本奠定了基础。
Description
技术领域
本发明涉及自然语言处理领域,更具体地,涉及一种文本匹配方法和装置、存储介质。
背景技术
文本匹配是自然语言处理中的一个核心问题,很多自然语言处理的任务都可以抽象成文本匹配问题,如此,来解决实际应用中所遇到的问题,比如文章抄袭等。
但是,如何高效准确地基于文本匹配方法来判断待检测文本是否为抄袭文本仍是亟待解决的问题。
发明内容
鉴于上述问题,本发明提出了一种用于检索的方法和装置、存储介质,以为准确、高效地判断出待检测文本是否为抄袭文本奠定了基础。
本发明实施例的技术方案是这样实现的:
第一方面,本发明实施例提供了一种文本匹配方法,包括:
获取待检测文本,所述待检测文本为包含有至少两个第一分词的第一分词组;
将所述第一分词组与语料库中的文本进行分词匹配,并从语料库中选取出与所述第一分词组的匹配程度满足预设规则的至少一个疑似目标文本;
控制滑动窗口按照确定出的滑动步长并通过在所述疑似目标文本中滑动的方式,从所述疑似目标文本中截取出至少两个第二分词以形成第二分词组;
将所述第一分词组与所述第二分词组进行匹配,至少基于匹配结果确定所述疑似目标文本是否为与所述待检测文本相匹配的目标文本。
上述方案中,所述将所述第一分词组与所述第二分词组进行匹配,包括:
确定所述第一分词组中各第一分词的特征向量,并形成表征所述待检测文本的第一特征矩阵;
确定所述第二分词组中各第二分词的特征向量,并形成表征所述第二分词组的第二特征矩阵;
将所述第一特征矩阵与所述第二特征矩阵进行相似度匹配。
上述方案中,落入所述滑动窗口的第二分词的分词数量大于等于所述第一分词组的分词数量。
上述方案中,当落入所述滑动窗口的第二分词的分词数量大于所述第一分词组的分词数量时,所述方法还包括:
从落入所述滑动窗口中的所有第二分词中选出部分第二分词,形成第二分词组,以使所述第二分词组中的分词数量与所述第一分词组中的分词数量相同。
上述方案中,所述控制滑动窗口按照确定出的滑动步长并通过在所述疑似目标文本中滑动的方式,从所述疑似目标文本中截取出至少两个第二分词以形成第二分词组,包括:
定位所述滑动窗口在所述疑似目标文本所处位置,作为初始位置;
控制所述滑动窗口从所述初始位置开始移动N个字符数到第一位置,使在所述初始位置中落入所述滑动窗口中的至少部分第二字符移出所述滑动窗口,未落入所述滑动窗口中的至少部分第二分词落入所述滑动窗口,以更新所述滑动窗口中的第二分词;
所述N是基于所述滑动步长确定出的,所述N为自然数,且大于等于1,小于等于所述滑动步长所对应的最大字符数。
上述方案中,所述方法还包括:
将预设长度作为滑动步长;或者,
确定所述待检测文本的字符数,基于所述待检测文本的字符数计算得到滑动步长;或者,
确定所述待检测文本的字符数,基于所述待检测文本的字符数计算得到最大步长;
基于最大步长确定出滑动步长,其中,所述滑动步长小于等于最大步长。
上述方案中,所述至少基于匹配结果确定所述疑似目标文本是否为与所述待检测文本相匹配的目标文本,包括:
至少基于所述第二分词组与所述第一分词组进行匹配后得到的一次匹配结果,确定出所述疑似目标文本是否为与所述待检测文本相匹配的目标文本;或者,
通过滑动窗口在所述疑似目标文本中滑动的方式,完成所述第一分词组与所述疑似目标文本的全文匹配,并基于全文匹配结果确定出所述疑似目标文本是否为与所述待检测文本相匹配的目标文本。
第二方面,本发明实施例提供了一种文本匹配装置,包括:
获取单元,用于获取待检测文本,所述待检测文本为包含有至少两个第一分词的第一分词组;
初筛单元,用于将所述第一分词组与语料库中的文本进行分词匹配,并从语料库中选取出与所述第一分词组的匹配程度满足预设规则的至少一个疑似目标文本;
文本匹配单元,用于控制滑动窗口按照确定出的滑动步长并通过在所述疑似目标文本中滑动的方式,从所述疑似目标文本中截取出至少两个第二分词以形成第二分词组;将所述第一分词组与所述第二分词组进行匹配,至少基于匹配结果确定所述疑似目标文本是否为与所述待检测文本相匹配的目标文本。
上述方案中,所述文本匹配单元,还用于确定所述第一分词组中各第一分词的特征向量,并形成表征所述待检测文本的第一特征矩阵;确定所述第二分词组中各第二分词的特征向量,并形成表征所述第二分词组的第二特征矩阵;将所述第一特征矩阵与所述第二特征矩阵进行相似度匹配。
上述方案中,落入所述滑动窗口的第二分词的分词数量大于等于所述第一分词组的分词数量。
上述方案中,所述文本匹配单元,还用于确定落入所述滑动窗口的第二分词的分词数量大于所述第一分词组的分词数量时,从落入所述滑动窗口中的所有第二分词中选出部分第二分词,形成第二分词组,以使所述第二分词组中的分词数量与所述第一分词组中的分词数量相同。
上述方案中,所述文本匹配单元,还用于定位所述滑动窗口在所述疑似目标文本所处位置,作为初始位置;控制所述滑动窗口从所述初始位置开始移动N个字符数到第一位置,使在所述初始位置中落入所述滑动窗口中的至少部分第二字符移出所述滑动窗口,未落入所述滑动窗口中的至少部分第二分词落入所述滑动窗口,以更新所述滑动窗口中的第二分词;
所述N是基于所述滑动步长确定出的,所述N为自然数,且大于等于1,小于等于所述滑动步长所对应的最大字符数。
上述方案中,所述文本匹配单元,还用于将预设长度作为滑动步长;或者,确定所述待检测文本的字符数,基于所述待检测文本的字符数计算得到滑动步长;或者,确定所述待检测文本的字符数,基于所述待检测文本的字符数计算得到最大步长;基于最大步长确定出滑动步长,其中,所述滑动步长小于等于最大步长。
上述方案中,所述文本匹配单元,还用于至少基于所述第二分词组与所述第一分词组进行匹配后得到的一次匹配结果,确定出所述疑似目标文本是否为与所述待检测文本相匹配的目标文本;或者,通过滑动窗口在所述疑似目标文本中滑动的方式,完成所述第一分词组与所述疑似目标文本的全文匹配,并基于全文匹配结果确定出所述疑似目标文本是否为与所述待检测文本相匹配的目标文本。
第三方面,本发明实施例还提供了一种文本匹配装置,包括:
一个或多个处理器;
与所述一个或多个处理器通信连接的存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被配置为执行以上所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现以上所述的方法。
本发明实施例所述的文本匹配方法和装置、存储介质,能够将待检测文本所对应的第一分词组与语料库中的文本进行分词匹配,并从语料库中初步筛选出与所述第一分词组的匹配程度满足预设规则的至少一个疑似目标文本;进而控制滑动窗口按照确定出的滑动步长并通过在所述疑似目标文本中滑动的方式,从所述疑似目标文本中截取出至少两个第二分词以形成第二分词组;然后,将所述第一分词组与所述第二分词组进行匹配,最终至少基于匹配结果确定所述疑似目标文本是否为与所述待检测文本相匹配的目标文本。这里,本发明实施例通过分词匹配的方式进行初步筛检,降低匹配复杂度,为工程化奠定了基础;同时,在初步筛检后,利用分词组的匹配方式进行精细筛查,又为提高准确度奠定了基础;如此,本发明实施例能够为准确、高效地判断出待检测文本是否为抄袭文本奠定了基础。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例的文本匹配方法流程示意图。
图2示出了根据本发明实施例的文本匹配装置的逻辑单元结构示意图。
图3示出了根据本发明实施例的文本匹配装置的硬件结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了根据本发明实施例的文本匹配方法流程示意图,如图1所示,本发明实施例所述文本匹配方法包括:
步骤101:获取待检测文本,所述待检测文本为包含有至少两个第一分词的第一分词组。
这里,本发明实施例中,当获取到待检测文本后,对待检测文本进行分词处理,进而得到能够表征该待检测文本的至少两个第一分词,所述至少两个第一分词形成第一分词组。进一步地,为了精确匹配,第一分词组中的分词是有序的,该顺序延续文本中分词之间的顺序,以便为后续精确匹配奠定基础。
当然,实际应用中,为完成匹配过程,还需要建立语料库,所述语料库中包含有至少两个文本,比如存储有多篇授权文章;进一步地,为了便于进行分词匹配,所述语料库中的文本也是以有序分词组形成进行存储的,如语料库可按下述步骤建立:
获取预设文本集合,该预设文本集合中包含有至少两个预设文本;
将预设文本集合中各预设文本进行分词处理后得到与各预设文本对应的至少两个分词;
基于各预设文本对应的至少两个分词,形成与预设文本对应的分词组,进而得到语料库。
也就是说,语料库中存储的文本是通过分词组来表征的,当然,为便于后续匹配,表征语料库中文本的分词组是有序的。
步骤102:将所述第一分词组与语料库中的文本进行分词匹配,并从语料库中选取出与所述第一分词组的匹配程度满足预设规则的至少一个疑似目标文本。
这里,步骤102的目的是完成初筛,如此,降低整个文本匹配过程的复杂度,为实现工程化奠定了基础。
本发明实施例中,所述分词匹配指的是分词本身是否相同,若相同,即表征匹配成功,否则,不成功,比如,第一分词组中存在分词“数组”,第二分词组中也存在分词“数组”,则两者分词本身相同,匹配成功;或者,所述分词匹配还可以指分词表征的语义是否相近,若语义相近,则匹配成功,否则,不成功。
这里,以分词匹配指分词本身相同为例来说明初筛过程,具体地,步骤102的初步筛查过程中,可以仅判断第一分词组中的各第一分词是否在语料库的特定文本中出现过,以及,在特定文本中全部出现的概率(也称命中率);若命中率满足预设规则,则认为该特定文本为疑似目标文本。比如,第一分词组中的第一分词,在特定文本中的命中率大于预设阈值(90%或95%),则认为该特定文本即为疑似目标文本。实际应用中,预设阈值为经验值,可以根据实际需求而设置,本实施例对此不作限制。
需要说明的是,满足预设规则的疑似目标文本可能为多个(如两个,或两个以上),也可能不存在;当为多个时,对每一疑似目标文本按照本发明实施例所述的匹配方式进行匹配,进而精确查找出与待检测文本匹配的目标文本。相反,若不存在,则表征未找到与待检测文本相匹配的目标文本,终止匹配流程。
需要说明的是,第一分词组中的第一分词在特定文本中可以是无序出现的,即出现顺序与第一分词组中第一分词之间的顺序不相同,当然也可以是有序的,本发明实施例对此不作限制。
实际场景中,还可以存在如下情况,即便存在多个疑似目标文本,但在进行精确匹配时,则无法精确匹配出与待检测文本相关的目标文本,此时,可以认定未找到与待检测文本相关的目标文本;相反,当在精确匹配后,也可能两个或两个以上的疑似目标文本均为与待检测文本相关的目标文本,此时,可以输出包含有多个目标文本的目标文本列表,以供用户查阅。
步骤103:控制滑动窗口按照确定出的滑动步长并通过在所述疑似目标文本中滑动的方式,从所述疑似目标文本中截取出至少两个第二分词以形成第二分词组。
本发明实施例中,为便于将疑似目标文本中的全文与待检测文本进行匹配,设置滑动窗口,通过滑动窗口的滑动来逐次从疑似目标文本选取与第一分词组进行精确匹配的第二分词组。实际应用中,滑动窗口可为虚拟窗口,该虚拟窗口仅是后台用于选出第二分词,进而选出第二分词组时使用,用户不可感知;当然,也可以为用户可感知到的,如可视化的滑动框,本实施例对此不作限制。
这里,滑动窗口按照提前设置的滑动步长进行滑动,其中,在一次全文匹配过程中,滑动窗口每次滑动的滑动步长可以相同,也可以不相同,比如,一次全文匹配过程中,滑动步长在预设范围内随机选取,或者,滑动步长为固定值,或者,在预设范围内选取出的多个滑动步长符合正态分布规律,等等,可根据实际匹配开销,以及匹配效率来决定每次滑动的滑动步长,本发明实施例对此不作限制。
进一步地,实际应用中,所述滑动步长可以按如下方式进行设置,包括:
方式一:将预设长度作为滑动步长,比如,预设步长为一个字符的长度,或者,为M(大于等于1的自然数)个字符的长度。
方式二:确定所述待检测文本的字符数,基于所述待检测文本的字符数计算得到滑动步长。比如,将(所述待检测文本的字符数/经验值)作为滑动步长。
方式三:确定所述待检测文本的字符数,基于所述待检测文本的字符数计算得到最大步长;基于最大步长确定出滑动步长,其中,所述滑动步长小于等于最大步长。比如,将(所述待检测文本的字符数/经验值)作为最大步长,将一个字符数作为最小步长,滑动步长在[最小步长,最大步长]范围内选取,如,一次全文匹配过程中,滑动步长在该[最小步长,最大步长]范围内随机选取;或者,滑动步长为固定值,该固定值处于[最小步长,最大步长]范围内;或者,在[最小步长,最大步长]范围内多次选取出的多个值作为滑动步长,该多次选出的多个值符合正态分布规律。
需要说明的是,上述三种方式择一执行即可,当然,在一次全文匹配过程中,三种方式也可兼用,本实施例对此不作限制。
在一具体示例中,所述滑动窗口可按如下方式进行滑动,如此,来选取出第二分词,进而确定出与第一分词组进行匹配的第二分词组,具体步骤包括:
定位所述滑动窗口在所述疑似目标文本所处位置,作为初始位置;
控制所述滑动窗口从所述初始位置开始移动N个字符数到第一位置,使在所述初始位置中落入所述滑动窗口中的至少部分第二字符移出所述滑动窗口,所述初始位置中未落入所述滑动窗口中的至少部分第二分词落入所述滑动窗口,以更新所述滑动窗口中的第二分词;
其中,所述N是基于所述滑动步长确定出的,所述N为自然数,且大于等于1,小于等于所述滑动步长所对应的最大字符数。
本实施例中,所述初始位置上落入所述滑动窗口的第二分词,与所述第一位置上落入所述滑动窗口的第二分词,不完成相同,或者说是至少部分相同,如此,来通过滑动的方式来更新落入所述滑动窗口中的第二分词,为实现全文匹配奠定了基础。
这里,需要说明的是,该初始位置可以为疑似目标文本的文本头所处位置,也可以为疑似目标文本的中间位置或者为结尾位置,本发明实施例对此不作限制;这里,实际应用中,无论初始位置在哪,只要能够通过滑动窗口的滑动实现全文匹配即可。
进一步地,需要说明的是,首次选取第二分词组时,滑动窗口无需滑动,只需直接定位滑动窗口,进而基于落入滑动窗口的第二分词形成第二分词组即可。
步骤104:将所述第一分词组与所述第二分词组进行匹配,至少基于匹配结果确定所述疑似目标文本是否为与所述待检测文本相匹配的目标文本。
在一具体实施例中,可以采用矩阵相似度的匹配方式来实现精确匹配,具体包括:
确定所述第一分词组中各第一分词的特征向量,并形成表征所述待检测文本的第一特征矩阵;
确定所述第二分词组中各第二分词的特征向量,并形成表征所述第二分词组的第二特征矩阵;
将所述第一特征矩阵与所述第二特征矩阵进行相似度匹配。
比如,第一分词可从多个维度并通过向量来表示,得到1×P1的特征向量,进而形成表征第一分词组的Q1×P1的矩阵,其中,P1表征第一分词的维度数,Q1表征第一分词组中第一分词的个数(也即分词数量)。同理,第二分词可从多个维度并通过向量来表示,得到1×P2的特征向量,进而形成表征第二分词组的Q2×P2的矩阵,其中,P2表征第二分词的维度数,Q2表征第二分词组中第二分词的个数(也即分词数量)。如此,将两个向量进行相似度匹配,实现精确匹配的目的。
在一具体示例中,落入所述滑动窗口的第二分词的分词数量大于等于所述第一分词组的分词数量,也就是说,实际应用中,为便于精确匹配,落入滑动窗口的第二分词的分词数量不得小于所述第一分词组的分词数量。
当然,为提高匹配效率,实现效率最大化,落入滑动窗口的第二分词的分词数量等于所述第一分词组的分词数量,也即,以上所述的Q1与Q2相同;进一步地,当P1与P2也相同时,即可实现维度的矩阵之间的相似度计算,此时,匹配效率可以达到最大化。
在实际应用中,当落入所述滑动窗口的第二分词的分词数量大于所述第一分词组的分词数量,此时,为最大化提高匹配效率,还可以从落入所述滑动窗口中的所有第二分词中选出部分第二分词,形成第二分词组,以使所述第二分词组中的分词数量与所述第一分词组中的分词数量相同。这里,可以依照疑似目标文本中第二分词的顺序,选出形成第二分词组中的第二分词,以使所述第二分词组中的第二分词有序,该有序指的是与疑似目标文本中的分词顺序相同。
在一具体示例中,所述至少基于匹配结果确定所述疑似目标文本是否为与所述待检测文本相匹配的目标文本,包括:
至少基于所述第二分词组与所述第一分词组进行匹配后得到的一次匹配结果,确定出所述疑似目标文本是否为与所述待检测文本相匹配的目标文本,比如,在一次匹配过程中,第一分词组与第二分词组匹配后即匹配成功,此时,可直接将该疑似目标文本作为所述待检测文本相匹配的目标文本,停止该疑似目标文本的全文匹配过程。
或者,通过滑动窗口在所述疑似目标文本中滑动的方式,完成所述第一分词组与所述疑似目标文本的全文匹配,并基于全文匹配结果确定出所述疑似目标文本是否为与所述待检测文本相匹配的目标文本。
这里,本发明实施例向量相似度匹配的过程中,可以设置匹配成功条件,即向量相似度匹配结果满足匹配条件,即可认为两个特征向量匹配成功,否则,匹配不成功。
当然,实际应用中,在匹配的过程中,即使匹配成功后,仍然继续进行匹配流程,直至达成终止条件才停止匹配,该终止条件的匹配要求高于普通匹配条件,当然,是否匹配成功后仍然进行后续匹配流程,以及是否设置终止条件,与精确度相关,可根据实际场景需求而定,本发明实施例对此不作限制。
这样,本发明实施例所述方法通过分词匹配的方式进行初步筛检,降低了匹配复杂度,为工程化奠定了基础;同时,在初步筛检后,利用分词组的匹配方式进行精细筛查,又为提高匹配准确度、且高效匹配奠定了基础。
本发明实施例还提供了一种文本匹配装置,如图2所示,所述装置包括:
获取单元21,用于获取待检测文本,所述待检测文本为包含有至少两个第一分词的第一分词组;
初筛单元22,用于将所述第一分词组与语料库中的文本进行分词匹配,并从语料库中选取出与所述第一分词组的匹配程度满足预设规则的至少一个疑似目标文本;
文本匹配单元23,用于控制滑动窗口按照确定出的滑动步长并通过在所述疑似目标文本中滑动的方式,从所述疑似目标文本中截取出至少两个第二分词以形成第二分词组;将所述第一分词组与所述第二分词组进行匹配,至少基于匹配结果确定所述疑似目标文本是否为与所述待检测文本相匹配的目标文本。
在一具体示例中,所述文本匹配单元23,还用于确定所述第一分词组中各第一分词的特征向量,并形成表征所述待检测文本的第一特征矩阵;确定所述第二分词组中各第二分词的特征向量,并形成表征所述第二分词组的第二特征矩阵;将所述第一特征矩阵与所述第二特征矩阵进行相似度匹配。
在另一具体示例中,落入所述滑动窗口的第二分词的分词数量大于等于所述第一分词组的分词数量。
在另一具体示例中,所述文本匹配单元23,还用于确定落入所述滑动窗口的第二分词的分词数量大于所述第一分词组的分词数量时,从落入所述滑动窗口中的所有第二分词中选出部分第二分词,形成第二分词组,以使所述第二分词组中的分词数量与所述第一分词组中的分词数量相同。
在另一具体示例中,所述文本匹配单元23,还用于定位所述滑动窗口在所述疑似目标文本所处位置,作为初始位置;控制所述滑动窗口从所述初始位置开始移动N个字符数到第一位置,使在所述初始位置中落入所述滑动窗口中的至少部分第二字符移出所述滑动窗口,未落入所述滑动窗口中的至少部分第二分词落入所述滑动窗口,以更新所述滑动窗口中的第二分词;
所述N是基于所述滑动步长确定出的,所述N为自然数,且大于等于1,小于等于所述滑动步长所对应的最大字符数。
在另一具体示例中,所述文本匹配单元23,还用于将预设长度作为滑动步长;或者,确定所述待检测文本的字符数,基于所述待检测文本的字符数计算得到滑动步长;或者,确定所述待检测文本的字符数,基于所述待检测文本的字符数计算得到最大步长;基于最大步长确定出滑动步长,其中,所述滑动步长小于等于最大步长。
在另一具体示例中,所述文本匹配单元23,还用于至少基于所述第二分词组与所述第一分词组进行匹配后得到的一次匹配结果,确定出所述疑似目标文本是否为与所述待检测文本相匹配的目标文本;或者,通过滑动窗口在所述疑似目标文本中滑动的方式,完成所述第一分词组与所述疑似目标文本的全文匹配,并基于全文匹配结果确定出所述疑似目标文本是否为与所述待检测文本相匹配的目标文本。
这里需要指出的是:以上装置实施例项的描述,与上述方法描述是类似的,具有同方法实施例相同的有益效果,因此不做赘述。对于本发明装置实施例中未披露的技术细节,本领域的技术人员请参照本发明方法实施例的描述而理解,为节约篇幅,这里不再赘述。
第三方面,本发明实施例提供了一种文本匹配装置,包括:
一个或多个处理器;
与所述一个或多个处理器通信连接的存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被配置为执行以上所述的方法。
在一具体示例中,本发明实施例所述的文本匹配装置可具体为如图3所示的结构,所述装置包括处理器31、存储介质32以及至少一个外部通信接口33;所述处理器31、存储介质32以及外部通信接口33均通过总线34连接。所述处理器31可为微处理器、中央处理器、数字信号处理器或可编程逻辑阵列等具有处理功能的电子元器件。所述存储介质中存储有计算机可执行代码,所述计算机可执行代码能够执行以上任一实施例所述的图像处理方法。在实际应用中,所述获取单元21、初筛单元22以及文本匹配单元23均可以通过所述处理器31实现。
这里需要指出的是:以上装置实施例项的描述,与上述方法描述是类似的,具有同方法实施例相同的有益效果,因此不做赘述。对于本发明装置实施例中未披露的技术细节,本领域的技术人员请参照本发明方法实施例的描述而理解,为节约篇幅,这里不再赘述。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取待检测文本,所述待检测文本为包含有至少两个第一分词的第一分词组;
将所述第一分词组与语料库中的文本进行分词匹配,并从语料库中选取出与所述第一分词组的匹配程度满足预设规则的至少一个疑似目标文本;
控制滑动窗口按照确定出的滑动步长并通过在所述疑似目标文本中滑动的方式,从所述疑似目标文本中截取出至少两个第二分词以形成第二分词组;
将所述第一分词组与所述第二分词组进行匹配,至少基于匹配结果确定所述疑似目标文本是否为与所述待检测文本相匹配的目标文本。
在一具体示例中,所述将所述第一分词组与所述第二分词组进行匹配,包括:
确定所述第一分词组中各第一分词的特征向量,并形成表征所述待检测文本的第一特征矩阵;
确定所述第二分词组中各第二分词的特征向量,并形成表征所述第二分词组的第二特征矩阵;
将所述第一特征矩阵与所述第二特征矩阵进行相似度匹配。
在另一具体示例中,落入所述滑动窗口的第二分词的分词数量大于等于所述第一分词组的分词数量。
在另一具体示例中,当落入所述滑动窗口的第二分词的分词数量大于所述第一分词组的分词数量时,该程序被处理器执行时实现以下步骤::
从落入所述滑动窗口中的所有第二分词中选出部分第二分词,形成第二分词组,以使所述第二分词组中的分词数量与所述第一分词组中的分词数量相同。
在另一具体示例中,所述控制滑动窗口按照确定出的滑动步长并通过在所述疑似目标文本中滑动的方式,从所述疑似目标文本中截取出至少两个第二分词以形成第二分词组,包括:
定位所述滑动窗口在所述疑似目标文本所处位置,作为初始位置;
控制所述滑动窗口从所述初始位置开始移动N个字符数到第一位置,使在所述初始位置中落入所述滑动窗口中的至少部分第二字符移出所述滑动窗口,未落入所述滑动窗口中的至少部分第二分词落入所述滑动窗口,以更新所述滑动窗口中的第二分词;
所述N是基于所述滑动步长确定出的,所述N为自然数,且大于等于1,小于等于所述滑动步长所对应的最大字符数。
在另一具体示例中,该程序被处理器执行时实现以下步骤::
将预设长度作为滑动步长;或者,
确定所述待检测文本的字符数,基于所述待检测文本的字符数计算得到滑动步长;或者,
确定所述待检测文本的字符数,基于所述待检测文本的字符数计算得到最大步长;
基于最大步长确定出滑动步长,其中,所述滑动步长小于等于最大步长。
在另一具体示例中,所述至少基于匹配结果确定所述疑似目标文本是否为与所述待检测文本相匹配的目标文本,包括:
至少基于所述第二分词组与所述第一分词组进行匹配后得到的一次匹配结果,确定出所述疑似目标文本是否为与所述待检测文本相匹配的目标文本;或者,
通过滑动窗口在所述疑似目标文本中滑动的方式,完成所述第一分词组与所述疑似目标文本的全文匹配,并基于全文匹配结果确定出所述疑似目标文本是否为与所述待检测文本相匹配的目标文本。
这里需要指出的是:以上存储介质实施例项的描述,与上述方法描述是类似的,具有同方法实施例相同的有益效果,因此不做赘述。对于本发明存储介质实施例中未披露的技术细节,本领域的技术人员请参照本发明方法实施例的描述而理解,为节约篇幅,这里不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种文本匹配方法和装置、存储介质进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种文本匹配方法,其特征在于,所述方法包括:
获取待检测文本,所述待检测文本为包含有至少两个第一分词的第一分词组;
将所述第一分词组与语料库中的文本进行分词匹配,并从语料库中选取出与所述第一分词组的匹配程度满足预设规则的至少一个疑似目标文本;
控制滑动窗口按照确定出的滑动步长并通过在所述疑似目标文本中滑动的方式,从所述疑似目标文本中截取出至少两个第二分词以形成第二分词组;
将所述第一分词组与所述第二分词组进行匹配,至少基于匹配结果确定所述疑似目标文本是否为与所述待检测文本相匹配的目标文本。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一分词组与所述第二分词组进行匹配,包括:
确定所述第一分词组中各第一分词的特征向量,并形成表征所述待检测文本的第一特征矩阵;
确定所述第二分词组中各第二分词的特征向量,并形成表征所述第二分词组的第二特征矩阵;
将所述第一特征矩阵与所述第二特征矩阵进行相似度匹配。
3.根据权利要求1或2所述的方法,其特征在于,落入所述滑动窗口的第二分词的分词数量大于等于所述第一分词组的分词数量。
4.根据权利要求3所述的方法,其特征在于,当落入所述滑动窗口的第二分词的分词数量大于所述第一分词组的分词数量时,所述方法还包括:
从落入所述滑动窗口中的所有第二分词中选出部分第二分词,形成第二分词组,以使所述第二分词组中的分词数量与所述第一分词组中的分词数量相同。
5.根据权利要求1或2所述的方法,其特征在于,所述控制滑动窗口按照确定出的滑动步长并通过在所述疑似目标文本中滑动的方式,从所述疑似目标文本中截取出至少两个第二分词以形成第二分词组,包括:
定位所述滑动窗口在所述疑似目标文本所处位置,作为初始位置;
控制所述滑动窗口从所述初始位置开始移动N个字符数到第一位置,使在所述初始位置中落入所述滑动窗口中的至少部分第二字符移出所述滑动窗口,未落入所述滑动窗口中的至少部分第二分词落入所述滑动窗口,以更新所述滑动窗口中的第二分词;
所述N是基于所述滑动步长确定出的,所述N为自然数,且大于等于1,小于等于所述滑动步长所对应的最大字符数。
6.根据权利要求1或5所述的方法,其特征在于,所述方法还包括:
将预设长度作为滑动步长;或者,
确定所述待检测文本的字符数,基于所述待检测文本的字符数计算得到滑动步长;或者,
确定所述待检测文本的字符数,基于所述待检测文本的字符数计算得到最大步长;
基于最大步长确定出滑动步长,其中,所述滑动步长小于等于最大步长。
7.根据权利要求1或2所述的方法,其特征在于,所述至少基于匹配结果确定所述疑似目标文本是否为与所述待检测文本相匹配的目标文本,包括:
至少基于所述第二分词组与所述第一分词组进行匹配后得到的一次匹配结果,确定出所述疑似目标文本是否为与所述待检测文本相匹配的目标文本;或者,
通过滑动窗口在所述疑似目标文本中滑动的方式,完成所述第一分词组与所述疑似目标文本的全文匹配,并基于全文匹配结果确定出所述疑似目标文本是否为与所述待检测文本相匹配的目标文本。
8.一种文本匹配装置,其特征在于,所述装置包括:
获取单元,用于获取待检测文本,所述待检测文本为包含有至少两个第一分词的第一分词组;
初筛单元,用于将所述第一分词组与语料库中的文本进行分词匹配,并从语料库中选取出与所述第一分词组的匹配程度满足预设规则的至少一个疑似目标文本;
文本匹配单元,用于控制滑动窗口按照确定出的滑动步长并通过在所述疑似目标文本中滑动的方式,从所述疑似目标文本中截取出至少两个第二分词以形成第二分词组;将所述第一分词组与所述第二分词组进行匹配,至少基于匹配结果确定所述疑似目标文本是否为与所述待检测文本相匹配的目标文本。
9.一种文本匹配装置,其特征在于,包括:
一个或多个处理器;
与所述一个或多个处理器通信连接的存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被配置为执行权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910851165.2A CN110781272A (zh) | 2019-09-10 | 2019-09-10 | 一种文本匹配方法和装置、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910851165.2A CN110781272A (zh) | 2019-09-10 | 2019-09-10 | 一种文本匹配方法和装置、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110781272A true CN110781272A (zh) | 2020-02-11 |
Family
ID=69383441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910851165.2A Pending CN110781272A (zh) | 2019-09-10 | 2019-09-10 | 一种文本匹配方法和装置、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110781272A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312525A (zh) * | 2021-06-07 | 2021-08-27 | 浙江工业大学 | 一种通过java进行反向校准钢印编码的方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701085A (zh) * | 2016-01-13 | 2016-06-22 | 湖南通远网络科技有限公司 | 一种网络查重方法及系统 |
CN106126734A (zh) * | 2016-07-04 | 2016-11-16 | 北京奇艺世纪科技有限公司 | 文档的分类方法和装置 |
CN106844314A (zh) * | 2017-02-21 | 2017-06-13 | 北京焦点新干线信息技术有限公司 | 一种文章的查重方法及装置 |
US20170185671A1 (en) * | 2015-12-29 | 2017-06-29 | EMC IP Holding Company LLC | Method and apparatus for determining similar document set to target document from a plurality of documents |
CN106997339A (zh) * | 2016-01-22 | 2017-08-01 | 阿里巴巴集团控股有限公司 | 文本特征提取方法、文本分类方法及装置 |
CN107992470A (zh) * | 2017-11-08 | 2018-05-04 | 中国科学院计算机网络信息中心 | 一种基于相似度的文本查重方法及系统 |
CN108509407A (zh) * | 2017-02-27 | 2018-09-07 | 广东神马搜索科技有限公司 | 文本语义相似度计算方法、装置及用户终端 |
CN109885813A (zh) * | 2019-02-18 | 2019-06-14 | 武汉瓯越网视有限公司 | 一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质 |
-
2019
- 2019-09-10 CN CN201910851165.2A patent/CN110781272A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170185671A1 (en) * | 2015-12-29 | 2017-06-29 | EMC IP Holding Company LLC | Method and apparatus for determining similar document set to target document from a plurality of documents |
CN105701085A (zh) * | 2016-01-13 | 2016-06-22 | 湖南通远网络科技有限公司 | 一种网络查重方法及系统 |
CN106997339A (zh) * | 2016-01-22 | 2017-08-01 | 阿里巴巴集团控股有限公司 | 文本特征提取方法、文本分类方法及装置 |
CN106126734A (zh) * | 2016-07-04 | 2016-11-16 | 北京奇艺世纪科技有限公司 | 文档的分类方法和装置 |
CN106844314A (zh) * | 2017-02-21 | 2017-06-13 | 北京焦点新干线信息技术有限公司 | 一种文章的查重方法及装置 |
CN108509407A (zh) * | 2017-02-27 | 2018-09-07 | 广东神马搜索科技有限公司 | 文本语义相似度计算方法、装置及用户终端 |
CN107992470A (zh) * | 2017-11-08 | 2018-05-04 | 中国科学院计算机网络信息中心 | 一种基于相似度的文本查重方法及系统 |
CN109885813A (zh) * | 2019-02-18 | 2019-06-14 | 武汉瓯越网视有限公司 | 一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312525A (zh) * | 2021-06-07 | 2021-08-27 | 浙江工业大学 | 一种通过java进行反向校准钢印编码的方法 |
CN113312525B (zh) * | 2021-06-07 | 2024-02-09 | 浙江工业大学 | 一种通过java进行反向校准钢印编码的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111858869B (zh) | 一种数据匹配方法、装置、电子设备和存储介质 | |
CN105051741A (zh) | 并行局部序列对齐 | |
CN110502664A (zh) | 视频标签索引库创建方法、视频标签生成方法及装置 | |
CN110135413B (zh) | 一种字符识别图像的生成方法、电子设备和可读存储介质 | |
CN106445918A (zh) | 一种中文地址处理方法及系统 | |
CN109117854A (zh) | 关键点匹配方法、装置、电子设备以及存储介质 | |
CN111159329A (zh) | 敏感词检测方法、装置、终端设备和计算机可读存储介质 | |
CN110781272A (zh) | 一种文本匹配方法和装置、存储介质 | |
CN111222328A (zh) | 标签提取方法、装置和电子设备 | |
CN108319985B (zh) | 图像语义标注的方法和装置 | |
CN110287460B (zh) | 电子书的展示方法、计算设备及计算机存储介质 | |
CN109255106A (zh) | 一种文本处理方法及终端 | |
CN107220317B (zh) | 基于人工智能的匹配度评估方法、装置、设备及存储介质 | |
US20230267710A1 (en) | Method, system and apparatus for training object recognition model | |
CN116225956A (zh) | 自动化测试方法、装置、计算机设备和存储介质 | |
CN106815191B (zh) | 修正词的确定方法和装置 | |
CN109977130B (zh) | 一种热词展示方法及系统 | |
CN111309850B (zh) | 一种数据特征提取方法、装置、终端设备及介质 | |
CN114510936A (zh) | 敏感词检测方法、装置、设备和计算机可读存储介质 | |
CN114357996A (zh) | 时序文本特征提取方法、装置、电子设备及存储介质 | |
CN113011182A (zh) | 一种对目标对象进行标签标注的方法、装置和存储介质 | |
CN112085788A (zh) | 回环检测方法、装置、计算机可读存储介质及移动装置 | |
EP2657887A1 (en) | Improvements in and relating to data comparison | |
CN117892140B (zh) | 视觉问答及其模型训练方法、装置、电子设备、存储介质 | |
CN111695333B (zh) | 一种商标字形相似度检测方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200211 |
|
RJ01 | Rejection of invention patent application after publication |