CN112307159B - 相似文本的检索方法 - Google Patents

相似文本的检索方法 Download PDF

Info

Publication number
CN112307159B
CN112307159B CN201911367736.1A CN201911367736A CN112307159B CN 112307159 B CN112307159 B CN 112307159B CN 201911367736 A CN201911367736 A CN 201911367736A CN 112307159 B CN112307159 B CN 112307159B
Authority
CN
China
Prior art keywords
sentence
text
temporary
similarity
clause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911367736.1A
Other languages
English (en)
Other versions
CN112307159A (zh
Inventor
傅孙奇
张浩波
朱俊华
金旭龙
陆宏兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jining Computer Technology Co ltd
Original Assignee
Shanghai Jining Computer Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jining Computer Technology Co ltd filed Critical Shanghai Jining Computer Technology Co ltd
Priority to CN201911367736.1A priority Critical patent/CN112307159B/zh
Publication of CN112307159A publication Critical patent/CN112307159A/zh
Application granted granted Critical
Publication of CN112307159B publication Critical patent/CN112307159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请是一种相似文本的检索方法,包括以下步骤:提供文本数据库,库存文本具有多个第一暂存子句与多个第一文句指纹特征;输入文本拆分为多个第二暂存子句,计算第二文句指纹特征;选择相同内容的第一文句指纹特征与第二文句指纹特征;将取得的第一暂存子句定义为第三暂存子句,所取得的第二暂存子句为第四暂存子句;将第三暂存子句与第四暂存子句切分为多个特征片段;交互取特征片段的片段交集与片段并集;计算每一种组合的第一相似度值;第三暂存子句与第四暂存子句切分为切分字符串;对片段交集与片段并集的每一组合给予赋值,计算每一组合的赋值与第二相似度值;选择最大值的文本相似度与对应的库存文本,由句子相似度,汇总计算文本相似度。

Description

相似文本的检索方法
技术领域
一种数字文本的检索方法,特别有关于一种相似文本的检索方法。
背景技术
在现有的机械研制系统中,存在海量的非结构化文档,当用户输入关键词进行搜索时,只能匹配搜索到包含该关键词的文档,存在一些语义相似的文档未能被搜索出来,因此需要实现相似性文档搜索,即需要计算海量文本的相似性。传统的方法将文本相似性问题转化为关键词、关键项或关键语句的相似性问题,容易出现以偏概全或以点带面现象,影响结果的准确性和完整性。另外,这些关键特征的提取需要耗费很多时间,且需要多种特征同时参与检索,在数据规模很大时则明显执行效率会大幅的降低。
发明内容
本申请所要解决的技术问题在于,库存的数字文本与输入文本的相似性比对。
为了解决上述问题,本申请的相似文本的检索方法包括以下步骤:提供文本数据库,用于记录至少一库存文本,库存文本具有多个第一暂存子句与所属的多个第一文句指纹特征;取得输入文本;将输入文本拆分为多个第二暂存子句,并计算每一第二暂存子句对应的第二文句指纹特征;选择相同内容的第一文句指纹特征与第二文句指纹特征;根据选出的第一文句指纹特征与第二文句指纹特征取得对应的第一暂存子句与第二暂存子句,将所取得的第一暂存子句定义为第三暂存子句,所取得的第二暂存子句定义为第四暂存子句;将第三暂存子句与第四暂存子句切分为多个特征片段;以第三暂存子句与第四暂存子句为索引,并交互取特征片段的片段交集与片段并集;遍历片段交集与片段并集的相互排列组合,并计算每一种组合所相应的第一相似度值;以固定长度将第三暂存子句与第四暂存子句切分为多组切分字符串;对片段交集与片段并集的相互组合以连续字符串的方式对每一组合给予赋值,并计算每一组和的赋值所对应的一第二相似度值;选出大于预设阀值的第二相似度值与相应的组合,前述选出的组合定义为比对目标组;根据比对目标组、第二暂存子句与所选出的第一暂存子句计算文本相似度;选择最大值的文本相似度与对应的库存文本。
本申请的相似文本的检索方法是利用文句切分与比对,并依据文句的切分片段在赋予相似度的比较,使得输入文本可以有效的比对到对应的库存文本。本申请的相似文本的检索方法更适用于局部敏感的文本,通过字符串特征的加权用于查找出合适的库存文本。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本申请的系统架构示意图。
图2A为本申请的库存文本的切分运作流程示意图。
图2B为本申请的库存文本的拆分句子示意图。
图2C为本申请的库存文本的正规化前示意图。
图2D为本申请的库存文本的正规化后示意图。
图2E为本申请的文句指纹特征的转换示意图。
图2F为本申请的第一文句指纹特征示意图。
图3为本申请的文本相似检测的运作示意图。
图4A为本申请的输入文本的句子切分示意图。
图4B为本申请的输入文本的第二文句指纹特征的示意图。
图4C为本申请的库存文本与输入文本的相同特征比对示意图。
图4D为本申请的特征片段与输入文本字符串比较的示意图。
图4E为本申请的片段交集与片段并集的第一相似度值计算示意图。
图4F为本申请的第二相似度值计算示意图。
图4G为本申请的文本相似度的比对列表。
具体实施方式
以下请配合附图及实施例来详细说明本申请的实施方式,藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
本申请的相似文本的检索方法应用于数位文本的比对与检索,特别是数字计算机的单机检索或通过因特网的检索服务。为方便本申请的说明,在本申请中以单机的数字文本作为检索说明。本申请的数字文本检索系统100包括:处理模块110、输入模块120、存储模块130、检索程序与输出模块140,如图1所示。处理模块110电性连接于输入模块120、存储模块130与输出模块140,输入模块120可以是但不限定为键盘或其他可输入文句或文本的周边装置。存储模块130除了记录检索程序外,也储存检索时的暂存数据与检索结果,输出模块140用于显示输入文本410或检索结果,输出模块140可以是显示屏幕或打印机等周边。
本申请的相似文本的检索处理可分为前置的库存文本210的处理与输入文本的检索比对处理。以下针对前置的库存文本210的处理进行相应的说明,并请参考图2A~图2E的流程说明。本申请的库存文本210的处理包括以下步骤:
步骤S210:提供文本数据库,用于记录至少一库存文本;
步骤S220:将每一库存文本拆分为若干段的第一组子句;
步骤S230:对每一的第一组子句进行正规化处理,输出相应的第一暂存子句;
步骤S240:将第一暂存子句进行SimHash算法处理并以其结果切分为固定数量的位元组合,用于得到第一文句指纹特征;以及
步骤S250:保存库存文本的每一第一文句指纹特征。
首先,使用者通过输入模块120将文本输入至存储模块130的文本数据库中,对于输入的文本则定义为库存文本210。处理模块110在接获新的文本时,处理模块110会将库存文本210进行句子的拆分。所述的拆分处理主要是根据单一句子为本体,将库存文本210拆分成多句的第一组子句210a。举例来说,输入的库存文本210具有{A1,A2,A3…An}的句子(n为句子数量)。
接着,处理模块110对每一句第一组子句210a进行正规化处理。所述的正规化处理是将句子中不属于文字部分的空格去除、将数字一致化为阿拉伯数字、大小写一致化、全角半角文字一致化或中文语系一致化。举例来说,句子中的标点符号、空格获千分位符号等。将句子正规化的目的在于减少前述符号对于比对时的干扰。而经过正规化的句子则定义为第一暂存子句210b。
处理模块110完成第一组子句210a的正规化后,处理模块110将第一组子句210a进行SimHash算法的计算,用于生成第一组子句210a的第一哈希串210c,如图2E所示。将第一哈希串210c切分为多组定量长度的位元组合并计算每一位元组合的第一文句指纹特征210d。处理模块110记录所有位元组合的第一指纹值并定义为第一文句指纹特征210d。其中,处理模块110得到SimHash算法所输出的结果后,处理模块110会对输出结果数字定长的处理。当第一哈希串210c的输出结果长度不足时,则对第一哈希串210c进行补位,使得该组的第一哈希串210c的长度与其他输出结果的长度一致。
处理模块110将每一个数字位元组合再进行数字进制的转换。在本申请中经过SimHash算法的输出结果为二进制的数字符串,处理模块110将每一位元组合的二进制的数字符串转换为十进制的数字符串。换言之,每一组的第一组子句210a会具有相同长度的数字组合。在图2E中假设以输出32位元长的第一哈希串210c且以每8位元作为切分长度为例,并由右侧的最低位元往左开始计数。处理模块110将第一哈希串210c的各数字组合分别由二进制转换为十进制。处理模块110对所有第一组子句210a生成相应的第一文句指纹特征210d后,处理模块110将第一文句指纹特征210d储存于存储模块130之中。
为清楚说明实际的运作方式,在此以一库存文本210作为示例说明。在此一库存文本210中包括三组第一组子句210a,如图2B所示。接着,将库存文本210的句子拆分为如图2C所示,其中Bm表示An句子的拆分子句。处理模块110对每一项子句在进行正规化处理,并输出为图2D所示的第一暂存子句210b。Cxy表示An句子所对应的正规化输出。处理模块110针对每一个第一暂存子句210b在进行SimHash算法,并输出如图2E的虚线框所示部分。虚线框圈选处则为该第一暂存子句210b的第一文句指纹特征210d。在图2F中以四组数字位元组合为例(分别为表格中的d1、d2、d3、d4),但可以根据运算的复杂度调整数字位元组合的数量。
接下来,数字文本检索系统100可以对输入的文本进行有无相似库存文本210的检索。请配合图3所示,其为本申请的相似度比对的处理流程示意图。本申请的的相似度比对方法包括:
步骤S30a:提供文本数据库;
步骤S30b:取得输入文本;
步骤S30c:将输入文本拆分为多个第二暂存子句,并计算每一第二暂存子句对应的第二文句指纹特征;
步骤S30d:选择相同内容的第一文句指纹特征与第二文句指纹特征;
步骤S30e:根据选出的第一文句指纹特征与第二文句指纹特征取得对应的第一暂存子句与第二暂存子句,将所取得的第一暂存子句定义为第三暂存子句,所取得的第二暂存子句定义为第四暂存子句;
步骤S30f:将第三暂存子句与第四暂存子句切分为多个特征片段;
步骤S30g:以第三暂存子句与第四暂存子句为索引,并交互取特征片段的片段交集与片段并集;
步骤S30h:遍历片段交集与片段并集的相互排列组合,并计算每一种组合所相应的第一相似度值;
步骤S30i:以固定长度将第三暂存子句与第四暂存子句切分为多组切分字符串;
步骤S30j:对片段交集与片段并集的相互组合以连续字符串的方式对每一组合给予赋值,并计算每一组和的赋值所对应的第二相似度值;
步骤S30k:选出大于预设阀值的第二相似度值与相应的组合,前述选出的组合定义为比对目标组;
步骤S30l:根据比对目标组、第一暂存子句与所选出的第二暂存子句计算文本相似度;以及;
步骤S30m:选择最大值的文本相似度与对应的库存文本。
将欲检索的文本定义为一输入文本410。处理模块110会根据前述的处理方式将输入文本410输出为多组第二暂存子句410a,并生成相应的第二哈希串410b。处理模块110将第二哈希串410b切分并记录为第二指纹值。处理模块110记录所有位元组合的第二指纹值并定义为第二文句指纹特征410c。处理模块110根据第二文具指纹特征比对文本数据库中有无相同特征内容的的第一文句指纹特征210d与相应的第一暂存子句210b。只要第一暂存子句210b中存在任一指纹特征与第二暂存子句410a的指纹特征相同,则将第一暂存子句210b选出并记录于缓存空间中。
为进一步区分所选出的第一暂存子句210b与具有相同特征的第二暂存子句410a。在此将所选出的第一暂存子句210b定义为第三暂存子句。而所取得的第二暂存子句410a定义为第四暂存子句。第三暂存子句与第四暂存子句可以是复数文句。接着,将第三暂存子句与第四暂存子句切分为多个特征片段。处理模块110以固定长度的方式将第三暂存子句(与第四暂存子句)进行切分,而切分时以滑窗(slide window)的方式逐字切分。处理模块110根据第一相似度决定切分的固定长度。如果最后的切分字数不足时,则取小于特定长度的字符串。举例来说,若第三暂存子句为「ABGDEFC」且以2字节为固定切分的长度,则切分后的特征片段为「AB」、「BG」、「GD」、「DE」、「EF」与「FC」。
处理模块110以第三暂存子句与第四暂存子句为索引,分别交互取两暂存子句的特征片段的片段交集与片段并集。片段交集意即第三暂存子句与第四暂存子句的特征片段的具有相同交集的组合。承接前例,若第四暂存子句为「ABGHEF」,则切分后的特征片段为「AB」、「BG」、「GH」、「HE」与「EF」。第三暂存子句与第四暂存子句的片段交集为「AB」与「EF」。片段并集意即第三暂存子句与第四暂存子句的特征片段的具有相同并集的组合。仍以前述两例为说明,在第三暂存子句与第四暂存子句的特征片段中两组所构成的并集为;「AB」、「BG」、「GD」、「DE」、「EF」、「FC」、「BG」、「GH」与「HE」。
接着,处理模块会遍历片段交集与片段并集的相互排列组合,并计算每一种组合所相应的第一相似度值。其中,遍历段交集与片段并集的相互排列组合是根据第三暂存子句与第四暂存子句中具有相同特征片段的交互索引的构成组合。第一相似度值pi的计算方式为i为第三暂存子句与第四暂存子句的索引,ui为片段交集的元素个数,vi为片段并集的元素个数。
处理模块110根据片段交集与片段并集的组合的第一相似度值,所述的第一相似度值的计算是片段交集除于片段并集。以前例计算第一相似度值,假设两片段交集「AB」与「EF」的设定分数为「2」,而片段并集的设定分数为「9」。则第一相似度值的分数则为2/9。处理模块110判断每一组第一相似度值是否大于预设的阀值,并保留大于阀值的第一相似度与所相应的第四暂存子句。
在取得第一相似度值后,处理模块110以对片段交集与片段并集的相互组合以连续字符串的方式对每一组合给予赋值。处理模块110计算每一组和的赋值所对应的一第二相似度值。当片段交集与片段并集具有相同且连续的字符串时,则计算字符串的最大长度,并将最大长度视为所数字符串的设定分数。在前文的例子中第三暂存子句与第四暂存子句都具有「AB」、「BG」,因此「ABG」可以被视为最大长度的字符串。因此「AB」、「BG」会被设定为「3」分。其他字符串则会被赋值为「2」分。
处理模块110将第三暂存子句与第四暂存子句的所有字符串与赋值进行统计,并得到每一组第三暂存子句与第四暂存子句的第二相似度值。第二相似度值的计算方式为片段交集中的所有赋值总和除上片段并集的所有赋值总和。第二相似度值其中ui为片段交集的元素个数,xj为对应元素在第三暂存子句中的切分字符串长度,ui为片段并集的元素个数,yj为对应元素在第三暂存子句中的切分字符串长度。
以前述例子来说,片段交集的字符串与所属赋值分别为「AB」(3)、「BG」(3)、「GH」(2)、「HE」(2)与「EF」(2)。其中,字符串后的括号与数字代表该字符串的赋值。而片段并集的字符串与赋值为「AB」(3)、「BG」(3)、「GD」(2)、「DE」(2)、「EF」(2)、「FC」(2)、「C」(2)、「BG」(2)、「GH」(2)与「HE」(2)。第二相似度值则为(3+3+2+2+2)/(3+3+2+2+2+2+2+2)=9/18。
处理模块110将所有第二相似度值进行比对,并从中选出大于预设阀值的第二相似度值与所属输入文本及库存文本。在此将所选的库存文本与输入文本的组合定义为比对目标组。处理模块110根据输入文本的第四暂存子句的句子长度统计归类库存文本中有无对应句子长度的第三暂存子句。如果库存文本中存在相应的第三暂存子句时,则处理模块110对比对目标组中的输入文本会与库存文本交互排序第二相似度值。
之后,处理模块110根据排序后的第一相似度、第二相似度並列表计算全文对应文本相似度R。文本相似度R包括,文本相似度n为第二暂存子句的数量,li为第二暂存子句的文字符串长度,si为第二相似度值。若第四暂存子句无对应的库存文本210时,则将该笔的第四暂存文本则文本的第二相似度设定为0。相较于第二相似度值而言,第一相似度值的计算速率是很高效的。第一相似度值的作用是对数据进行一次快速的过滤,用于降低第二相似度值的计算数量。
为能进一步说明本申请的相似比对,将以下述例子与前文图2B~2E的库存文本210作为说明,并请配合图4A~4G所示。在此一例子中输入文本410的内容为『大家都非常感谢小明。因为小明经常主动帮助学习有困难的同学。』。处理模块110根据步骤S210~S250将输入文本410拆分为两第二暂存子句410a,如图4A所示。为能区分不同的第二暂存子句410a,因此分别指派为第二暂存子句C1与C2。图4B为第二暂存子句410a(C1与C2)所对应的第二文句指纹特征410c。
处理模块110比对第二文句指纹特征410c与第一文句指纹特征210d,并找出具有相同特征的第一暂存子句210b与第二暂存子句410a,如图4C所示且对应步骤S30d。在图4C中最左列为库存文本210,中间列为输入文本410,最右侧列为两文本间具有相同的指纹特征。接着,将所选取得的第一暂存子句210b定义为第三暂存子句,所取得的第二暂存子句410a定义为第四暂存子句。
处理模块110将第三暂存子句与第四战存子句切分为多个特征片段,如图4D所示且对应步骤S30f。其中,En表示由输入文本410Cn所产生的特征片段;Fab表示由库存文本210Cxy所产生的特征片段。在此一示例中切分的长度设定为两字符长。
接着,处理模块110计算特征片段的片段交集与片段并集的第一相似度值(对应步骤S30g与S30h),如图4E所示。处理模块110在遍励第三暂存子句与第四暂存子句的过程中,处理模块110可以根据图4C的具有相同指纹特征的第三暂存子句与第四暂存子句作为片段交集与片段并集的计算。在图4E中间两列分别为第三暂存子句与第四暂存子句的切分片段,右侧列为第一相似度值。特别需要注意的是,由于正规化的处理所以切分片段中的标点符号也会被列为计次的对象。从图4E中可以得知各组的切分片段的片段交集数量分别7、16、1、10个,而片段并集的数量为15、18、23、29个。因此遍励具有相同特征的第一相似度值分别为7/15、16/18、1/23、10/29。假设第一相似度值的阀值为0.3,则图4E的第三行的第四暂存子句将会被剔除。
在完成第一相似度值的计算后,处理模块110对片段交集与片段并集的相互组合以连续字符串的方式对每一组合给予赋值,并计算每一组合的赋值所对应的第二相似度值,请参考图4F所示。由于原本图4E中的第三行已经删除,因此在图4F中仅剩三组第三暂存子句与第四暂存子句进行各字符串的赋值。诚如前文所述,「大家都」一词在第三暂存子句与第四暂存子句中是属于相同的连续字符串。因此「大家都」一词的赋值则为「3」分。同理「感谢小明.」也分属两暂存子句之中,而连续字的赋值为「5」分。处理模块110计算每一组第三暂存子句与第四暂存子句的第二相似度值,请参考图4F右侧。
接下来,处理模块110比对各组的第二相似度值是否大于预设阀值。在本申请中,处理模块110会保留大于预设阀值的第三暂存子句与第四暂存子句。为方便说明这一阶段所选出的第三暂存子句与第四暂存子句,将其组合定义为比对目标组。在此假设预设阀值为0.5,但实际上可以根据文本的情况另外调整。因此图4F中的三组均符合预设阀值。
处理模块110根据第三暂存子句与第四暂存子句的字符串长度与相应的第二相似度值进行文本相似度的计算,请配合图4G。在图4G中,最左列是库存文本210的第三暂存子句,左二列为输入文本410的第四暂存子句,右二列是第四暂存子句的长度,最右列为第二相似度值。若第三暂存子句无对应第四暂存子句,则该笔的第二相似度值设定为零。处理模块110依据文本相似度R的计算方式,分别得到对应两组库存文本210的比对对象,其计算分别如下:
处理模块110从中选择最大的文本相似度,意即为R1。由图4G可以反推输入文本410『大家都非常感谢小明。因为小明经常主动帮助学习有困难的同学。』,而与其最为接近的库存文本210为A1『小明经常主动帮助学习有困难的同学。大家都从心里非常很感谢小明。』。最后,由输出模块140将比对结果输出,用于通知用户。
本申请的相似文本的检索方法利用文句切分与比对,并依据文句的切分片段在赋予相似度的比较,使得输入文本可以有效的比对到对应的库存文本。本申请的相似文本的检索方法更适用于局部敏感的文本,通过字符串特征的加权用于查找出合适的库存文本。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。

Claims (10)

1.一种相似文本的检索方法,搜寻库存文本中与输入文本最相近的检索结果,其特征在于,所述相似文本的检索方法包括以下步骤:
提供一文本数据库,用于记录至少一库存文本,所述库存文本具有多个第一暂存子句与所属的多个第一文句指纹特征;
取得一输入文本;
将所述输入文本拆分为多个第二暂存子句,并计算每一所述第二暂存子句对应的一第二文句指纹特征;
选择相同内容的所述第一文句指纹特征与所述第二文句指纹特征;
根据选出的所述第一文句指纹特征与所述第二文句指纹特征取得对应的所述第一暂存子句与所述第二暂存子句,将所取得的所述第一暂存子句定义为一第三暂存子句,所取得的所述第二暂存子句定义为一第四暂存子句;
将所述第三暂存子句与所述第四暂存子句切分为多个特征片段;
以所述第三暂存子句与所述第四暂存子句为索引,并交互取所述特征片段的一片段交集与一片段并集;
遍历所述片段交集与所述片段并集的相互排列组合,并计算每一种组合所相应的一第一相似度值;
对所述片段交集与所述片段并集的相互组合以连续字符串的方式对每一组合给予赋值,并计算每一组和的赋值所对应的一第二相似度值;
选出大于一预设阈值的所述第二相似度值与相应的组合,所述选出的组合定义为一比对目标组;
根据所述第四暂存子句统计归类所述库存文本,并选出相似的所述第一暂存子句;
根据所述比对目标组、所述第一暂存子句与所选出的所述第二暂存子句计算一文本相似度;以及
选择最大值的所述文本相似度与对应的所述库存文本。
2.根据权利要求1所述的相似文本的检索方法,其特征在于,取得所述输入文本中还包括:正规化所述输入文本。
3.根据权利要求1所述的相似文本的检索方法,其特征在于,生成所述第一文句指纹特征与所述第二文句指纹特征的步骤还包括:所述第一暂存子句通过SimHash算法输出一第一哈希串,所述第二暂存子句通过SimHash算法输出一第二哈希串。
4.根据权利要求3所述的相似文本的检索方法,其特征在于,生成所述第一文句指纹特征与所述第二文句指纹特征的步骤还包括:
将所述第一哈希串切分为定量的位元组合并计算每一位元组合的一第一指纹值;
记录所有位元组合的所述第一指纹值并定义为所述第一文句指纹特征;
将所述第二哈希串切分为定量的位元组合并计算每一位元组合的一第二指纹值;以及
记录所有位元组合的所述第二指纹值并定义为所述第二文句指纹特征。
5.根据权利要求1所述的相似文本的检索方法,其特征在于,计算所述第一相似度值后的步骤还包括:
根据第一相似度决定切分的固定长度。
6.根据权利要求1所述的相似文本的检索方法,其特征在于,选出所述第三暂存子句的步骤还包括:
根据所述第二文句指纹特征查找出相同内容的所述第一文句指纹特征。
7.根据权利要求1所述的相似文本的检索方法,其特征在于,计算所述第一相似度值pi,其包括i为所述第三暂存子句与所述第四暂存子句的索引,ui为所述片段交集,vi为所述片段并集。
8.根据权利要求1所述的相似文本的检索方法,其特征在于,计算所述第二相似度值qi包括,所述第二相似度值ui为所述片段交集的元素个数,xj为所述片段交集的元素的对应元素在所述第三暂存子句中的切分字符串长度,ui为所述片段并集的元素个数,yj为所述片段并集的对应元素在所述第三暂存子句中的切分字符串长度。
9.根据权利要求1所述的相似文本的检索方法,其特征在于,计算所述文本相似度R包括,所述文本相似度n为所述第二暂存子句的数量,li为第二暂存子句的文字符串长度,si为所述第二相似度值。
10.根据权利要求8所述的相似文本的检索方法,其特征在于,统计归类所述库存文本的步骤还包括:
若所述库存文本中不存在与所述第二暂存子句,则所述文本相似度R设定为零。
CN201911367736.1A 2019-12-26 2019-12-26 相似文本的检索方法 Active CN112307159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911367736.1A CN112307159B (zh) 2019-12-26 2019-12-26 相似文本的检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911367736.1A CN112307159B (zh) 2019-12-26 2019-12-26 相似文本的检索方法

Publications (2)

Publication Number Publication Date
CN112307159A CN112307159A (zh) 2021-02-02
CN112307159B true CN112307159B (zh) 2024-05-28

Family

ID=74336211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911367736.1A Active CN112307159B (zh) 2019-12-26 2019-12-26 相似文本的检索方法

Country Status (1)

Country Link
CN (1) CN112307159B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101626247B1 (ko) * 2015-01-06 2016-06-01 인하대학교 산학협력단 온라인 서비스 가능한 유의어 사전 기반의 표절문서 탐색 시스템
CN107729526A (zh) * 2017-10-30 2018-02-23 清华大学 一种文本结构化的方法
CN108846031A (zh) * 2018-05-28 2018-11-20 同方知网数字出版技术股份有限公司 一种面向电力行业的项目相似性对比方法
WO2019196314A1 (zh) * 2018-04-10 2019-10-17 平安科技(深圳)有限公司 文本信息相似度匹配方法、装置、计算机设备及存储介质
CN110457690A (zh) * 2019-07-26 2019-11-15 南京邮电大学 一种专利创造性的判断方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101626247B1 (ko) * 2015-01-06 2016-06-01 인하대학교 산학협력단 온라인 서비스 가능한 유의어 사전 기반의 표절문서 탐색 시스템
CN107729526A (zh) * 2017-10-30 2018-02-23 清华大学 一种文本结构化的方法
WO2019196314A1 (zh) * 2018-04-10 2019-10-17 平安科技(深圳)有限公司 文本信息相似度匹配方法、装置、计算机设备及存储介质
CN108846031A (zh) * 2018-05-28 2018-11-20 同方知网数字出版技术股份有限公司 一种面向电力行业的项目相似性对比方法
CN110457690A (zh) * 2019-07-26 2019-11-15 南京邮电大学 一种专利创造性的判断方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Privacy-preserving similarity-based text retrieval;Hweehwa Pang;ACM Transactions on Internet Technology;20100208;第10卷(第1期);1–39 *
文本相似度计算方法研究综述;王春柳等;情报科学;20190331;第37卷(第3期);159-168 *

Also Published As

Publication number Publication date
CN112307159A (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
CN108573045B (zh) 一种基于多阶指纹的比对矩阵相似度检索方法
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
US7558725B2 (en) Method and apparatus for multilingual spelling corrections
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
JP5605583B2 (ja) 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム
CN109522547B (zh) 基于模式学习的中文同义词迭代抽取方法
KR19980079586A (ko) 한자 문장 세그멘테이션 방법 및 한자 에러 점검(cec) 시스템에의 응용
Chen et al. A study of language modeling for Chinese spelling check
Ahmed et al. Revised n-gram based automatic spelling correction tool to improve retrieval effectiveness
Cerra et al. Authorship analysis based on data compression
CN109885641B (zh) 一种数据库中文全文检索的方法及系统
CN110705291A (zh) 基于无监督学习的思想政治教育领域文献分词方法及系统
WO2012108006A1 (ja) 検索プログラム、検索装置、および検索方法
CN113065349A (zh) 基于条件随机场的命名实体识别方法
Friedrich Complexity and entropy in legal language
CN115858474A (zh) 一种基于aigc的文件整理系统
CN117291192B (zh) 一种政务文本语义理解分析方法及系统
CN112307159B (zh) 相似文本的检索方法
Saini et al. Intrinsic plagiarism detection system using stylometric features and DBSCAN
JPH06282587A (ja) 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置
CN112949287B (zh) 热词挖掘方法、系统、计算机设备和存储介质
CN115718791A (zh) 文本元素的特定性排序及其应用
CN111881678B (zh) 一种基于无监督学习的领域词发现方法
Sherkat et al. A new approach for multi-pattern string matching in large text corpora
Patra et al. A novel word clustering and cluster merging technique for named entity recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant