CN111459970A

CN111459970A - 一种对象信息唯一性的检验方法

Info

Publication number: CN111459970A
Application number: CN202010246139.XA
Authority: CN
Inventors: 王鹏
Original assignee: Bank of Communications Co Ltd
Current assignee: Bank of Communications Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-28

Abstract

本发明涉及一种对象信息唯一性的检验方法，包括以下步骤：S1、获取待检验的对象信息；S2、将待检验对象信息按照字段组装顺序进行分割处理，得到待检验对象摘要数据；S3、根据分词匹配规则，计算待检验对象摘要数据与数据库中已有对象摘要数据之间的相似度分数；S4、判断相似度分数是否大于或等于预设值，若判断为是，则表明待检验对象信息为重复的对象信息，否则表明待检验的对象信息具有唯一性。与现有技术相比，本发明通过将对象信息进行分词处理，并利用分词匹配计算对象之间的相似度分数，克服了缺乏主键标识情况下对象信息唯一性检验的困难，能够准确判断出待检验对象是否为重复对象、是否具有唯一性。

Description

一种对象信息唯一性的检验方法

技术领域

本发明涉及数据对象信息处理技术领域，尤其是涉及一种对象信息唯一性的检验方法。

背景技术

目前银行的业务不仅种类繁多，且数据操作过程十分复杂，很多业务场景在系统登记信息时需要保证信息的一致性和唯一性，由于银行内部系统众多，一项业务往往需要横跨多个系统，并最终由多个系统协同完成，只有保证信息的一致性和唯一性，才能使各个系统能够正常串接。

传统方法是通过主键标识一笔数据或者一笔业务，由主键控制唯一性，以进行对象信息唯一性的检验。但从业务角度来说，某些场景下的信息唯一性检验存在困难：在贷款业务引入客户抵质押物时，通常需要登记押品信息，以房贷为例，房产作为押品时，如果是期房，则在贷款业务发起时，房产并没有房产登记证，没有房产编号，即该押品不存在主键标识，对于此类押品信息唯一性的检验，就无法通过业务属性编号作为验证唯一性的标准，从而导致系统在进行唯一性验证时会受到阻碍，无法准确判断出押品的相似性，而一旦业务上存在一房多押或者押品信息重复时，就会产生数据冗余的情况，不利于后续的业务信息处理。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种对象信息唯一性的检验方法，通过分词匹配计算，得到对象信息的相似度分数，以此检验对象信息的唯一性。

本发明的目的可以通过以下技术方案来实现：一种对象信息唯一性的检验方法，包括以下步骤：

S1、获取待检验的对象信息；

S2、将待检验对象信息按照字段组装顺序进行分割处理，得到待检验对象摘要数据；

S3、根据分词匹配规则，计算待检验对象摘要数据与数据库中已有对象摘要数据之间的相似度分数；

S4、判断相似度分数是否大于或等于预设值，若判断为是，则表明待检验对象信息为重复的对象信息，否则表明待检验的对象信息具有唯一性。

进一步地，所述步骤S2中将待检验对象信息按照字段组装顺序进行分割处理，具体是按照字段组装顺序，将待检验对象信息的数据字段分割成多个分词，所述摘要数据具体为包含多个分词的字符串。

进一步地，所述步骤S3具体包括以下步骤：

S31、基于待检验对象摘要数据，提取数据库查询条件；

S32、从数据库中返回符合数据库查询条件的已有对象摘要数据集，其中，已有对象摘要数据集中包括多个已有对象摘要数据；

S33、根据分词匹配规则，分别计算待检验对象摘要数据与各个已有对象摘要数据之间的相似度分数；

S34、返回相似度分数最高的前N个相似度分数值，依次判断这N个相似度分数值是否大于或等于预设值，若判断为是，则表明待检验的对象信息为重复的对象信息，否则表明待检验的对象信息具有唯一性。

进一步地，所述数据库查询条件包括大中小类编码、国家省市和县的查询条件。

进一步地，所述分词匹配规则具体是对两个摘要数据之间相互对应的分词字段进行匹配，以得到分词匹配分值，所述待检验对象摘要数据与已有对象摘要数据之间的相似度分数具体为两个摘要数据中各分词匹配分值之和。

进一步地，所述分词匹配规则包括准入匹配、完全相等匹配、相似匹配和模糊匹配，其中，相似匹配规则与准入匹配规则一致。

进一步地，所述准入匹配具体是判断2个字符串是否相互包含，若判断为是，则相似度分数需要累加上预设的准入匹配分值，否则维持当前相似度分数不变。

进一步地，所述完全相等匹配具体是判断2个字符串是否完全相等，若判断为是，则相似度分数需要累加上预设的完全相等匹配分值，否则维持当前相似度分数不变。

进一步地，所述模糊匹配具体是判断分词的相同字段数，结合预设的模糊匹配总分值，得到分词模糊匹配分值，最后将相似度分数累加上分词模糊匹配分值。

进一步地，所述分词模糊匹配分值的计算公式为：

其中，M表示分词模糊匹配分值，W_e表示待检验对象摘要数据与已有对象摘要数据之间相同的分词字段数，W_m表示待检验对象摘要数据与已有对象摘要数据之中最大的分词字段数，S表示预设的模糊匹配总分值。

与现有技术相比，本发明通过将待检验对象信息进行分词处理，结合分词匹配计算，克服了缺乏主键标识情况下对象信息唯一性检验的困难，能够准确得到待检验对象与数据库中已有对象之间的相似度分数，从而判断待检验对象是否具有唯一性、是否与数据库中已有对象重复，避免了数据冗余问题的发生。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

如图1所示，一种对象信息唯一性的检验方法，包括以下步骤：

S1、获取待检验的对象信息；

本实施例将上述方法应用于房屋对象作为押品的业务场景中，涉及的字段组装顺序如表1所示：

表1

根据表1中表字段和字段组装顺序，将房屋对象信息按字段分割组装成一个字符串，即得到房屋对象的摘要数据，实施例中是将各小类表的数据字段组装成用竖线分割的字符串，得到房屋对象的摘要数据为：2123层商铺4|469002|XXX小区|||1|海南省～琼海市～嘉积镇～人民路～南段XXX小区～2123层～4～商铺||嘉积镇。

其中，字符串“海南省～琼海市～嘉积镇～人民路～南段XXX小区～2123层～4～商铺”表示的是房屋对象的其他详细地址字段，这是将其他详细地址字段用波浪线进行分割，以得到不同的分词。

在计算房屋对象的相似度分数时，运用房屋对象摘要数据中的分词作为匹配内容，通过不同的匹配规则对分词进行匹配并记分，如表2所示：

表2

其中，匹配方式为1时，表示准入匹配，即判断2个字符串是否相互包含如满足则二个押品相似度匹配上的分数累加；

匹配方式为2时，表示完全相等匹配，即判断2个字符串是否完全相等，如满足则二个押品相似度匹配上的分数累加；

匹配方式为3时，表示相似匹配，与准入匹配的方式一致；

匹配方式为4时，表示模糊匹配，且模糊匹配对应的“是否分词”字段的值都是1，表示是对各个分词字段进行匹配，具体是对用波浪线分割后的分词进行模糊匹配：比如押品A分词后的其他详细地址为——世纪路～西段；

押品B分词后的其他详细地址为——世纪路～西段～70-5号；

本实施例预设的其他详细地址匹配的总分为20分，那么A、B二个押品用波浪线分词后最大的段数为3段，A、B二个押品用波浪线分词后能匹配上的段数为2段，所以A、B两个押品在其他详细地址匹配最后得分为20/3*2。

将房屋对象的摘要数据与数据库中将要被匹配押品的摘要数据进行分词匹配计算，得到各分词匹配分值，将各分词匹配分值累加后得到房屋对象与数据库中已有押品之间的相似度分数，通过判断该相似度分数是否达到预设值，即可判断出该房屋对象是否为重复押品、是否具有唯一性。

综上所述，本发明提出的方法是利用分词匹配并计算，从而得到对象之间的相似度分数，以此判断对象之间的相似程度，能够广泛应用于缺乏主键标识情况下的对象唯一性验证，通过对各字段分词依次进行匹配，能够保证对象信息唯一性检验的准确性。

Claims

1.一种对象信息唯一性的检验方法，其特征在于，包括以下步骤：

S1、获取待检验的对象信息；

2.根据权利要求1所述的一种对象信息唯一性的检验方法，其特征在于，所述步骤S2中将待检验对象信息按照字段组装顺序进行分割处理，具体是按照字段组装顺序，将待检验对象信息的数据字段分割成多个分词，所述摘要数据具体为包含多个分词的字符串。

3.根据权利要求2所述的一种对象信息唯一性的检验方法，其特征在于，所述步骤S3具体包括以下步骤：

S31、基于待检验对象摘要数据，提取数据库查询条件；

4.根据权利要求3所述的一种对象信息唯一性的检验方法，其特征在于，所述数据库查询条件包括大中小类编码、国家省市和县的查询条件。

5.根据权利要求3所述的一种对象信息唯一性的检验方法，其特征在于，所述分词匹配规则具体是对两个摘要数据之间相互对应的分词字段进行匹配，以得到分词匹配分值，所述待检验对象摘要数据与已有对象摘要数据之间的相似度分数具体为两个摘要数据中各分词匹配分值之和。

6.根据权利要求3所述的一种对象信息唯一性的检验方法，其特征在于，所述分词匹配规则包括准入匹配、完全相等匹配、相似匹配和模糊匹配，其中，相似匹配规则与准入匹配规则一致。

7.根据权利要求6所述的一种对象信息唯一性的检验方法，其特征在于，所述准入匹配具体是判断2个字符串是否相互包含，若判断为是，则相似度分数需要累加上预设的准入匹配分值，否则维持当前相似度分数不变。

8.根据权利要求6所述的一种对象信息唯一性的检验方法，其特征在于，所述完全相等匹配具体是判断2个字符串是否完全相等，若判断为是，则相似度分数需要累加上预设的完全相等匹配分值，否则维持当前相似度分数不变。

9.根据权利要求6所述的一种对象信息唯一性的检验方法，其特征在于，所述模糊匹配具体是判断分词的相同字段数，结合预设的模糊匹配总分值，得到分词模糊匹配分值，最后将相似度分数累加上分词模糊匹配分值。

10.根据权利要求9所述的一种对象信息唯一性的检验方法，其特征在于，所述分词模糊匹配分值的计算公式为：