CN107451125B - 一种针对顺序无关项组进行快速相近语义匹配的方法 - Google Patents

一种针对顺序无关项组进行快速相近语义匹配的方法 Download PDF

Info

Publication number
CN107451125B
CN107451125B CN201710714945.3A CN201710714945A CN107451125B CN 107451125 B CN107451125 B CN 107451125B CN 201710714945 A CN201710714945 A CN 201710714945A CN 107451125 B CN107451125 B CN 107451125B
Authority
CN
China
Prior art keywords
item
items
sequence
independent
item group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710714945.3A
Other languages
English (en)
Other versions
CN107451125A (zh
Inventor
洪志令
王备战
林凡
吴梅红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201710714945.3A priority Critical patent/CN107451125B/zh
Publication of CN107451125A publication Critical patent/CN107451125A/zh
Application granted granted Critical
Publication of CN107451125B publication Critical patent/CN107451125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

现有管理系统在数据库设计时通常将不好描述的属性统归为用一个长字符串属性维度进行管理,该方式随着数据应用需求的深化,在数据相似性检索上存在一些问题。本发明从存在的问题点出发,将问题提升描述为通用化的顺序无关项组的相似性匹配问题,并提出了一种针对顺序无关项组进行快速相近语义匹配的有效解决方法。方法的主要思想是通过设计有效的编号方式,将原来由各属性名称组成的顺序无关项组编码变换为由编号值组成的顺序相关项组,之后对顺序相关项组进行快速的匹配计算。

Description

一种针对顺序无关项组进行快速相近语义匹配的方法
技术领域
本发明涉及字符串相似检索领域,尤其是涉及一种针对顺序无关项组进行快速相近语义匹配的方法。
背景技术
在一些管理信息系统中,特别是制造业领域的管理系统,当对一事物的属性不好描述或者为了系统设计的灵活性考虑,通常在数据库设计时将这些不好描述的属性统归为一个长字符串的属性维度。
举例来说,制造业领域中,当对贴片电容的规格进行描述时,由于其规格涉及多个方面,可能的属性不好确定,同时后续还可能引入其他的属性,因此在数据库设计时,为了简化或可扩展性上的考虑,直接将规格设计为一长字符串字段,而其规格则描述为:X7R~2.2ΜF~25V~0805~10%~编带~白,之后整个字符串存入到数据库字段里。
这种设计方式在存储上是简单了,但是随着应用的深化及对数据的深度挖掘应用需求,一些企业需要对该字段进行相似性判断,以确定描述的是否为同一事物或相似事物。这时发现这些属性的描述放置位置是不固定,同一描述值可能放在第一个位置,也可能放在第三个位置;另外,由于人工录入这些属性值时,由于没有事先的属性值约束,输入的属性值即使要表达同一个意思,却也可能存在轻微的偏差,如属性值描述为“白”和“白色”,等等类似的问题。
目前企业对此问题束手无策,寻求管理系统提供商给予帮助支持,却始终得不到有效的解决办法。解决思路要么是需要对数据库进行重新设计,要么是拆分后逐项进行复杂的语义相似度计算,但计算效率相当低,无法进行实用。
针对此问题,本发明提出了一种针对顺序无关项组进行快速相近语义匹配的方法。方法不仅可以有效解决上面提到的问题,更可以扩展到解决通用的顺序无关项组的快速语义匹配问题。
发明内容
本发明提出了一种针对顺序无关项组进行快速相近语义匹配的方法。发明中所说的项是对某一事物相关属性的描述,描述可以是短语、符号标记等。当对一事物从不同角度进行描述时,就有了多个项,这些项没有先后的顺序关系,项的随机顺序组合就构成了顺序无关项组。在存储时,通过统一的间隔符(如逗号,波浪号等)将各个属性连在一起,形成一个长字符串。一个由间隔符连接多个项而组成的长字符串就是一个顺序无关项组。一个顺序无关项组Ri可以表示如下:
Ri = Ai~Bi~Ci~Di~Ei~…
其中Ai Bi Ci Di Ei等分别表示从不同角度对某事物的描述,它们在项组中的放置位置是随机的。波浪号“~”为间隔符或连接符,其将这些顺序无关的属性描述连接在一起。
为了达到对顺序无关项组进行检索的目的,即对于输入的某个顺序无关项组,可以在原有的所有项组中快速找出相似的匹配项,本发明设计了一种针对顺序无关项组进行快速相近语义匹配的方法。方法的主要思想是通过设计有效的编号方式,将原来由各属性名称组成的顺序无关项组编码变换为由编号值组成的顺序相关项组,之后对顺序相关项组进行快速的匹配计算。为了能够允许属性描述的细微偏差,变换后的编号值需要能够反映语义,即当属性的语义相近时,要求其编号值的差距也是相近的。
本发明方法的步骤如下:
(1)对所有顺序无关项组进行排重;
(2)提取顺序无关项组中的项,并对项进行排重存储;
(3)对排重后的项进行排序和编号;
(4)根据项的编号,对所有的顺序无关项组进行排序编码;
(5)对两个顺序无关项组所对应的排序编码进行快速相近语义匹配;
(6)以某个顺序无关项组作为输入,检索相似的顺序无关项组。
其中,步骤(1)的对所有顺序无关项组进行排重,具体为: 随着长时间历史数据的积累,顺序无关项组所对应的长字符串存在大量的重复。排重的目的是去掉重复的顺序无关项组,使得保留下来的对应长字符串具有唯一性。排重过程依据顺序无关项组所对应长字符串的当前存储方式使用不同的处理方法,如存储在数据库中,此时仅需SelectDistinct操作即可完成;存储在文件或内存时,仅需逐行读入,借助Hashtable中key的唯一性则可进行排重。
其中,步骤(2)的提取顺序无关项组中的项,并对项进行排重存储,具体为: 对于每个长字符串,根据预先定义或可能的间隔符进行分割,每个长字符串分割后可以得到多个项。如顺序无关项组Ri = Ai~Bi~Ci~Di~Ei~…,对其进行分割后,可以得到Ai Bi CiDi Ei等项。对所有得到的项,类似步骤(1)的排重方法进行排重后存储。如对顺序无关项组Rj = Aj~Bj~Cj~Dj~Ej~…,分割后得到Aj Bj Cj Dj Ej等项,在存储时假设刚好Cj=Ai,即表示项Cj先前已经有一样的项被存储了,此时则不再存储项Cj。最后,我们得到所有顺序无关项组拆解后的所有可能的项,并对项的存储是唯一的。
其中,步骤(3)的对排重后的项进行排序和编号,具体为: 分为排序子步骤和编号子步骤。
排序子步骤的过程为:如果项是存储在数据库中的,仅需根据数据库排序规则选择并Order By即可;如果是存储在文件或内存中的,则需按数字/字母/字符拼音依次进行排序。
编号子步骤的过程为:首先对排序好的项从1开始顺序进行编号。假设编号后的最大编号为N,接下来进行编号修正。需要编号修正的对象为:以项的第一个字符进行统计,该字符在所有项中重复出现的数量超过t次的项;如果排重后的项的数量量级不是相当大,此时t可以设置为1,以保证后续比较有较好的精度。编号修正的方法为:根据修正对象的首字符的分组数量,顺序从1开始,构建修正系数,假设当前为第k个分组,则该分组的修正系数为:k*10len(N)+1;将该修正系数加上待修正项的原编号,即可得其更新后的新编号。编号修正的目的是使得具有可能相似语义的符号能够与不相似语义的符号在编号数值上具有较大距离。
其中,步骤(4)的根据项的编号,对所有的顺序无关项组进行排序编码,具体为:对每个顺序无关项组分解为多个单独项后,用步骤(3)所得的项编号值替换每个项,此时可得一编号数组;对该项组所对应的编号数组的数值按从小到大进行排序,以排序后的编号值重新组合构成新项组并存储。对所有的顺序无关项组都进行排序编码操作。此时,原本由各属性名称组成的顺序无关项组变换为由编号值组成的顺序相关项组。
其中,步骤(5)的对两个顺序无关项组所对应的排序编码进行快速相近语义匹配,具体为: 对于两个由编号值组成的顺序相关项组A和B,A=[a1,a2,…,ai,…,an], B=[b1,b2,…bj,…,bm]。项组A的长度为n,B的长度为m。n和m不一定相等。A中各元素a1,a2,…,ai,…,an按从小到大排序;同样B中各元素b1,b2,…bj,…,bm也是按从小到大排序的。A和B进行快速相近语义的匹配过程具体如下:
(1)令i=0,j=0,匹配计数器count=0,相似阈值th(th的可调参数,用于控制语义相近的程度判断);
(2)当i<n并且j<m时,重复执行以下操作,直至循环条件不满足,
(2.1)若Math.Abs(ai-bj)<=th,则判断为相似,匹配计数器加1,即 count++;
同时待比较项各往前走一步,即i++,j++;
(2.2)若ai-bj>th,则判断为不相似,j++;
(2.3)若2.1和2.2条件都不满足,则依旧判断为不相似,此时i++;
(3)计算相似度值 sim=2*count/(n+m)。
其中,步骤(6)的以某个顺序无关项组作为输入,检索相似的顺序无关项组,具体为: 当有某个顺序无关项组作为输入进行相似性检索时,其具体过程如下:
(A)系统预先加载。加载包括两方面内容:在步骤(1)中排重后的顺序无关项组所对应的在步骤(4)中计算所得的由编号值组成的顺序相关项组;在步骤(3)提取的项及其对应的编号值,项-编号值的一一映射关系可以放到哈希映射表中,以便后续快速取用;
(B)对输入的顺序无关项组进行编码。假设输入的顺序无关项组S=S1~S2~S3~S4~S5~…,对S根据间隔符进行分割后,利用项-编号值的哈希映射表,以类似步骤(4)的过程对S进行快速排序编码,得到一由编号值组成的顺序相关项组;
(C)将S对应的顺序相关项组与预先已加载的排重后顺序相关项组逐一进行比较。对两个顺序相关项组的相似度计算过程如步骤(5)所述,同时记录S与每个项组进行比较的相似度值;
(D)对相似度值进行按从大到小进行排序,输出最相似的前L个项组。
附图说明
图1为本发明实施例的流程图。
图2为本发明实施例中应用本发明方法进行相似检索的一个示例图。其中输入为“X7R~2.2ΜF~25V~0805~10%~编带”这样的一个顺序无关项组长字符串,经过匹配后,输出最相似的前20个项组。输出结果中,括号内部值为相似度值,第一行相似度为1,即为原输入转换后的顺序相关项组;输出中原由编号值组成的顺序相关项组,在输出时已经借助编号值-项的哈希映射表转换回由各属性名称组成的顺序相关项组。
具体实施方式
下面结合附图和实例,对本发明方法进行详细的描述。
本发明中所说的项是对某一事物相关属性的描述,描述可以是短语、符号标记等。当对一事物从不同角度进行描述时,就有了多个项,这些项没有先后的顺序关系,项的随机顺序组合就构成了顺序无关项组。在存储时,通过统一的间隔符(如逗号,波浪号等)将各个属性连在一起,形成一个长字符串。一个由间隔符连接多个项组成的长字符串就是一个顺序无关项组。
一个顺序无关项组Ri可以表示如下:
Ri = Ai~Bi~Ci~Di~Ei~…
其中Ai Bi Ci Di Ei等分别表示从不同角度对某事物的描述,它们在项组中的放置位置是随机的。波浪号“~”为间隔符或连接符,其将这些顺序无关的属性描述连接在一起。
举例来说,在制造业领域,数据中对某个贴片电容的规格可能描述成:X7R~2.2μF~25V~0805~10%~编带~白;同样规格贴片电容的描述当放置顺序不一样时,则可能为:25V~X7R~10%~2.2μF~白料~0805~编带;而相似规格的描述则可能为:1μF~25V~0805~白色~X7R~10%~编带。这里,项组中描述项的数量可能是不一样的;另外属性描述中类似“白”、“白料”、“白色”的项因其语义相近应判断为同一项。
本发明方法是一种针对顺序无关项组进行快速相近语义匹配的方法。目的是对于输入的某个顺序无关项组,可以在原有的所有顺序无关项组中快速找出相似的匹配项。相似匹配不仅要求允许项的位置是随机的,同时允许项的描述语义词有细微的偏差。
本发明方法的具体步骤如下。
一、对所有顺序无关项组进行排重。
顺序无关项组是由间隔符连接多个项而组成的长字符串。虽然项组是由顺序无关的项组成,但是随着长时间历史数据的积累,其所对应的长字符串也将存在大量的重复。因此在进行后续步骤之前,先对所有顺序无关项组进行排重。
排重的目的是去掉重复的顺序无关项组,使得保留下来的对应长字符串具有唯一性。
排重过程依据顺序无关项组所对应长字符串的当前存储方式使用不同的处理方法,如存储在数据库中,此时仅需Select Distinct操作即可完成;存储在文件或内存时,仅需逐行读入,借助Hashtable中key的唯一性则可进行排重。
二、提取顺序无关项组中的项,并对项进行排重存储。
上一步骤得到排重后的多个顺序无关项组对应的长字符串。
对于每个长字符串,根据预先定义或可能的间隔符进行分割,每个长字符串分割后可以得到多个项。如顺序无关项组Ri = Ai~Bi~Ci~Di~Ei~…,对其进行分割后,可以得到Ai Bi Ci Di Ei等项。
对所有得到的项,类似上一步骤的排重方法进行排重后存储。如对顺序无关项组Rj = Aj~Bj~Cj~Dj~Ej~…,分割后得到Aj Bj Cj Dj Ej等项,在存储时假设刚好Cj=Ai,即表示项Cj先前已经有一样的项被存储了,此时则不再存储项Cj
至此,我们得到所有顺序无关项组拆解后的所有可能的项,并对项的存储是唯一的。
三、对排重后的项进行排序和编号。
本步骤对排重后的项进行排序并编号,具体分为排序子步骤和编号子步骤。
排序子步骤的过程为:如果项是存储在数据库中的,仅需根据数据库排序规则选择并Order By即可。如果是存储在文件或内存中的,则需按数字/字母/字符拼音依次进行排序。
编号子步骤的过程为:首先对排序好的项从1开始顺序进行编号。假设编号后的最大编号为N,接下来进行编号修正。需要编号修正的对象为:以项的第一个字符进行统计,该字符在所有项中重复出现的数量超过t次的项;如果排重后的项的数量量级不是相当大,此时t可以设置为1,以保证后续比较有较好的精度。编号修正的方法为:根据修正对象的首字符的分组数量,顺序从1开始,构建修正系数,假设当前为第k个分组,则该分组的修正系数为:k*10len(N)+1;将该修正系数加上待修正项的原编号,即可得其更新后的新编号。编号修正的目的是使得具有可能相似语义的符号能够与不相似语义的符号在编号数值上具有较大距离。
本步骤排序并编号的目的是为了使后续步骤可以快速的进行相似匹配,同时匹配时还能兼顾语义。
四、根据项的编号,对所有的顺序无关项组进行排序编码。
根据上一步骤,每个项都得到了唯一的数值编号。对顺序无关项组进行排序编码的过程为:对每个顺序无关项组分解为多个单独项后,用编号值替换每个项,此时可得一编号数组;对该项组所对应的编号数组的数值按从小到大进行排序,以排序后的编号值重新组合构成新项组并存储。对所有的顺序无关项组都进行排序编码操作。
经过本步骤,此时原本由各属性名称组成的顺序无关项组变换为由编号值组成的顺序相关项组。
五、对两个顺序无关项组所对应的排序编码进行快速相近语义匹配。
通过上述步骤的编码变换,由各属性名称组成的顺序无关项组已变换为由编号值组成的顺序相关项组,因此该步骤的匹配过程在此基础上进行。
对于两个由编号值组成的顺序相关项组A和B,
A=[a1,a2,…,ai,…,an], B=[b1,b2,…bj,…,bm]
项组A的长度为n,B的长度为m。n和m不一定相等。A中各元素a1,a2,…,ai,…,an按从小到大排序;同样B中各元素b1,b2,…bj,…,bm也是按从小到大排序的。A和B进行快速相近语义的匹配过程具体如下:
(1)令i=0,j=0,匹配计数器count=0,相似阈值th(th的可调参数,用于控制语义相近的程度判断);
(2)当i<n并且j<m时,重复执行以下操作,直至循环条件不满足,
(2.1)若Math.Abs(ai-bj)<=th,则判断为相似,匹配计数器加1,即 count++;
同时待比较项各往前走一步,即i++,j++;
(2.2)若ai-bj>th,则判断为不相似,j++;
(2.3)若2.1和2.2条件都不满足,则依旧判断为不相似,此时i++;
(3)计算相似度值 sim=2*count/(n+m)。
上述计算过程,最多仅需n+m次循环即可完成计算。另外由于前述步骤已经对项进行了顺序编码和编码修正,当ai与bj直接相减其所得数值可以在一定程度上体现项的语义差异。
六、以某个顺序无关项组作为输入,检索相似的顺序无关项组。
上述步骤一到步骤四的计算过程为系统后台可以预先计算准备好的。当有某个顺序无关项组作为输入进行相似性检索时,其具体过程如下。
(A)系统预先加载。加载包括两方面内容:在步骤一中排重后的顺序无关项组所对应的在步骤四中计算所得的由编号值组成的顺序相关项组;在步骤三提取的项及其对应的编号值,项-编号值的一一映射关系可以放到哈希映射表中,以便后续快速取用。
(B)对输入的顺序无关项组进行编码。假设输入的顺序无关项组S=S1~S2~S3~S4~S5~…,对S根据间隔符进行分割后,利用项-编号值的哈希映射表,以类似步骤四的过程对S进行快速排序编码,得到一由编号值组成的顺序相关项组。
(C)将S对应的顺序相关项组与预先已加载的排重后顺序相关项组逐一进行比较。对两个顺序相关项组的相似度计算过程如步骤五所述,同时记录S与每个项组进行比较的相似度值。
(D)对相似度值进行按从大到小进行排序,输出最相似的前L个项组。需要注意的是,由编号值组成的顺序相关项组输出时需要借助编号值-项的哈希映射表转换成由各属性名称组成的顺序相关项组。
综上所述,本发明提出了一种针对顺序无关项组进行快速相近语义匹配的方法。方法的主要思想是通过设计有效的编号方式,将原来由各属性名称组成的顺序无关项组编码变换为由编号值组成的顺序相关项组,之后对顺序相关项组进行快速的匹配计算。
本发明方法尽管为说明目的公开了具体的实施例和附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是不可能的。因此,本发明不应局限于最佳实施例和附图所公开的内容。当前公开的实施例在所有方面应被理解为说明性的而非对其请求保护的范围的限制。

Claims (2)

1.一种针对顺序无关项组进行快速相近语义匹配的方法,其特征在于所述方法包括如下步骤:
(1)对所有顺序无关项组进行排重,使得保留下来的对应长字符串具有唯一性;排重过程依据顺序无关项组所对应长字符串的当前存储方式使用不同的处理方法,如存储在数据库中,此时仅需Select Distinct操作即可完成;存储在文件或内存时,仅需逐行读入,借助Hashtable中key的唯一性则可进行排重;
(2)提取顺序无关项组中的项,并对项进行排重存储;对于每个长字符串,根据预先定义或可能的间隔符进行分割,每个长字符串分割后可以得到多个项;对所有得到的项,类似步骤(1)的排重方法进行排重后存储;最后,得到所有顺序无关项组拆解后的所有可能的项,并对项的存储是唯一的;
(3)对排重后的项进行排序和编号;具体分为排序子步骤和编号子步骤;排序子步骤的过程为:如果项是存储在数据库中的,仅需根据数据库排序规则选择并Order By即可;如果是存储在文件或内存中的,则需按数字/字母/字符拼音依次进行排序;编号子步骤的过程为:首先对排序好的项从1开始顺序进行编号;接着通过构造修正系数对编号进行修正,将该修正系数加上待修正项的原编号,即可得其更新后的新编号,通过编号修正使得具有可能相似语义的符号能够与不相似语义的符号在编号数值上具有较大距离;
(4)根据项的编号,对所有的顺序无关项组进行排序编码;对每个顺序无关项组分解为多个单独项后,用步骤(3)所得的项编号值替换每个项,此时可得一编号数组;对该项组所对应的编号数组的数值按从小到大进行排序,以排序后的编号值重新组合构成新项组并存储;对所有的顺序无关项组都进行排序编码操作;原本由各属性名称组成的顺序无关项组此时变换为由编号值组成的顺序相关项组;(5)对两个顺序无关项组所对应的排序编码进行快速相近语义匹配;原来由各属性名称组成的顺序无关项组经编码变换为由编号值组成的顺序相关项组,此时匹配计算对象是两个排序的编码;对于两个由编号值组成的顺序相关项组A和B,A=[a1,a2,…,ai,…,an],B=[b1,b2,…bj,…,bm]; 项组A的长度为n,B的长度为m; n和m不一定相等; A中各元素a1,a2,…,ai,…,an按从小到大排序;同样B中各元素b1,b2,…bj,…,bm也是按从小到大排序的;对两个排序编码A和B的比较,匹配过程具体如下:
1)令i=0,j=0,匹配计数器count=0,相似阈值th(th的可调参数,用于控制语义相近的程度判断);
2)当i<n并且j<m时,重复执行以下操作,直至循环条件不满足,
(2.1)若Math.Abs(ai-bj)<=th,则判断为相似,匹配计数器加1,即count++;
同时待比较项各往前走一步,即i++,j++;
(2.2)若ai-bj>th,则判断为不相似,j++;
(2.3)若2.1和2.2条件都不满足,则依旧判断为不相似,此时i++;
3)计算相似度值sim=2*count/(n+m);
计算过程最多仅需n+m次循环即可完成计算;同时根据前述编号的方式,排序编码A和B中当ai与bj直接相减其所得数值可以在一定程度上体现项的语义差异;
(6)以某个顺序无关项组作为输入,检索相似的顺序无关项组,过程为:a.预先加载两方面内容,由编号值组成的顺序相关项组和项的编号值,项-编号值的一一映射关系放到哈希映射表中;b.对输入的顺序无关项组S进行编码,得到一由编号值组成的顺序相关项组;c.将S对应的顺序相关项组与预先已加载的排重后顺序相关项组逐一进行比较,同时记录S与每个项组进行比较的相似度值;d.对相似度值进行按从大到小进行排序,输出最相似的前L个项组。
2.根据权利要求1所述的对排重后的项进行排序和编号,其特征在于,对项首先按数据库排序规则或按数字/字母/字符拼音进行排序,之后在此基础上所进行的编号方式;编号分两阶段进行:顺序编号和编号修正;编号修正的对象为以项的第一个字符进行统计,该字符在所有项中重复出现的数量超过t次的项;编号修正的方法为根据修正对象的首字符的分组数量,顺序从1开始,构建修正系数,假设当前为第k个分组,则该分组的修正系数为k*10len(N)+1;将该修正系数加上待修正项的原编号,即可得其更新后的新编号;所得新编号使得具有可能相似语义的符号能够与不相似语义的符号在编号数值上具有较大距离。
CN201710714945.3A 2017-08-19 2017-08-19 一种针对顺序无关项组进行快速相近语义匹配的方法 Active CN107451125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710714945.3A CN107451125B (zh) 2017-08-19 2017-08-19 一种针对顺序无关项组进行快速相近语义匹配的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710714945.3A CN107451125B (zh) 2017-08-19 2017-08-19 一种针对顺序无关项组进行快速相近语义匹配的方法

Publications (2)

Publication Number Publication Date
CN107451125A CN107451125A (zh) 2017-12-08
CN107451125B true CN107451125B (zh) 2021-05-18

Family

ID=60491592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710714945.3A Active CN107451125B (zh) 2017-08-19 2017-08-19 一种针对顺序无关项组进行快速相近语义匹配的方法

Country Status (1)

Country Link
CN (1) CN107451125B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193993A (zh) * 2011-04-20 2011-09-21 北京百度网讯科技有限公司 用于确定字符串信息间相似度信息的方法、装置和设备
CN102750379A (zh) * 2012-06-25 2012-10-24 华南理工大学 一种基于过滤型的字符串快速匹配方法
CN104484391A (zh) * 2014-12-11 2015-04-01 北京国双科技有限公司 字符串相似度的计算方法和装置
CN104750673A (zh) * 2013-12-31 2015-07-01 中国移动通信集团公司 文本匹配过滤方法及装置
CN106980620A (zh) * 2016-01-18 2017-07-25 阿里巴巴集团控股有限公司 一种对中文字串进行匹配的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0413743D0 (en) * 2004-06-19 2004-07-21 Ibm Method and system for approximate string matching

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193993A (zh) * 2011-04-20 2011-09-21 北京百度网讯科技有限公司 用于确定字符串信息间相似度信息的方法、装置和设备
CN102750379A (zh) * 2012-06-25 2012-10-24 华南理工大学 一种基于过滤型的字符串快速匹配方法
CN104750673A (zh) * 2013-12-31 2015-07-01 中国移动通信集团公司 文本匹配过滤方法及装置
CN104484391A (zh) * 2014-12-11 2015-04-01 北京国双科技有限公司 字符串相似度的计算方法和装置
CN106980620A (zh) * 2016-01-18 2017-07-25 阿里巴巴集团控股有限公司 一种对中文字串进行匹配的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
名称相似度匹配算法(文本相似度匹配);子夜;《https://www.cnblogs.com/zsyzsj/articles/2801794.html》;20121204;第1-3页 *

Also Published As

Publication number Publication date
CN107451125A (zh) 2017-12-08

Similar Documents

Publication Publication Date Title
CN110413611B (zh) 数据存储、查询方法及装置
CN103514201B (zh) 一种非关系型数据库的数据查询方法和装置
CN109325032B (zh) 一种索引数据存储及检索方法、装置及存储介质
EP2924594A1 (en) Data encoding and corresponding data structure in a column-store database
CN105843918B (zh) 一种从职位数据库中快速筛选职位的方法
US5553284A (en) Method for indexing and searching handwritten documents in a database
CN111801665A (zh) 用于大数据应用的分层局部敏感哈希(lsh)分区索引
EP3955256A1 (en) Non-redundant gene clustering method and system, and electronic device
CN105447205A (zh) 检索结果排序的方法和装置
CN105550353A (zh) 基于正则表达式的表单录入方法及系统
CN102467544A (zh) 基于空间模糊编码的信息智能搜索方法及系统
JPH09245043A (ja) 情報検索装置
CN109657060B (zh) 安全生产事故案例推送方法及系统
CN112380445B (zh) 数据查询方法、装置、设备和存储介质
CN111984673B (zh) 一种电网电能量计量系统树形结构模糊检索方法和装置
CN117763077A (zh) 数据查询方法及装置
CN110245118B (zh) 一种bim资料信息三维网格化检索归档方法及其归档系统
CN107451125B (zh) 一种针对顺序无关项组进行快速相近语义匹配的方法
US7302377B1 (en) Accelerated event queue for logic simulation
CN109213972A (zh) 确定文档相似度的方法、装置、设备和计算机存储介质
CN111723286A (zh) 一种数据处理的方法及装置
CN104978395A (zh) 视觉词典构建及应用方法和装置
CN113495901B (zh) 一种面向可变长数据块的快速检索方法
CN110909551B (zh) 语言预训练模型更新方法、装置、电子设备及存储介质
JP3534471B2 (ja) マージソート方法及びマージソート装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant