CN111459970A - 一种对象信息唯一性的检验方法 - Google Patents
一种对象信息唯一性的检验方法 Download PDFInfo
- Publication number
- CN111459970A CN111459970A CN202010246139.XA CN202010246139A CN111459970A CN 111459970 A CN111459970 A CN 111459970A CN 202010246139 A CN202010246139 A CN 202010246139A CN 111459970 A CN111459970 A CN 111459970A
- Authority
- CN
- China
- Prior art keywords
- matching
- object information
- score
- detected
- uniqueness
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000011218 segmentation Effects 0.000 claims abstract description 37
- 238000001514 detection method Methods 0.000 abstract description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Automation & Control Theory (AREA)
- Technology Law (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种对象信息唯一性的检验方法,包括以下步骤:S1、获取待检验的对象信息;S2、将待检验对象信息按照字段组装顺序进行分割处理,得到待检验对象摘要数据;S3、根据分词匹配规则,计算待检验对象摘要数据与数据库中已有对象摘要数据之间的相似度分数;S4、判断相似度分数是否大于或等于预设值,若判断为是,则表明待检验对象信息为重复的对象信息,否则表明待检验的对象信息具有唯一性。与现有技术相比,本发明通过将对象信息进行分词处理,并利用分词匹配计算对象之间的相似度分数,克服了缺乏主键标识情况下对象信息唯一性检验的困难,能够准确判断出待检验对象是否为重复对象、是否具有唯一性。
Description
技术领域
本发明涉及数据对象信息处理技术领域,尤其是涉及一种对象信息唯一性的检验方法。
背景技术
目前银行的业务不仅种类繁多,且数据操作过程十分复杂,很多业务场景在系统登记信息时需要保证信息的一致性和唯一性,由于银行内部系统众多,一项业务往往需要横跨多个系统,并最终由多个系统协同完成,只有保证信息的一致性和唯一性,才能使各个系统能够正常串接。
传统方法是通过主键标识一笔数据或者一笔业务,由主键控制唯一性,以进行对象信息唯一性的检验。但从业务角度来说,某些场景下的信息唯一性检验存在困难:在贷款业务引入客户抵质押物时,通常需要登记押品信息,以房贷为例,房产作为押品时,如果是期房,则在贷款业务发起时,房产并没有房产登记证,没有房产编号,即该押品不存在主键标识,对于此类押品信息唯一性的检验,就无法通过业务属性编号作为验证唯一性的标准,从而导致系统在进行唯一性验证时会受到阻碍,无法准确判断出押品的相似性,而一旦业务上存在一房多押或者押品信息重复时,就会产生数据冗余的情况,不利于后续的业务信息处理。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种对象信息唯一性的检验方法,通过分词匹配计算,得到对象信息的相似度分数,以此检验对象信息的唯一性。
本发明的目的可以通过以下技术方案来实现:一种对象信息唯一性的检验方法,包括以下步骤:
S1、获取待检验的对象信息;
S2、将待检验对象信息按照字段组装顺序进行分割处理,得到待检验对象摘要数据;
S3、根据分词匹配规则,计算待检验对象摘要数据与数据库中已有对象摘要数据之间的相似度分数;
S4、判断相似度分数是否大于或等于预设值,若判断为是,则表明待检验对象信息为重复的对象信息,否则表明待检验的对象信息具有唯一性。
进一步地,所述步骤S2中将待检验对象信息按照字段组装顺序进行分割处理,具体是按照字段组装顺序,将待检验对象信息的数据字段分割成多个分词,所述摘要数据具体为包含多个分词的字符串。
进一步地,所述步骤S3具体包括以下步骤:
S31、基于待检验对象摘要数据,提取数据库查询条件;
S32、从数据库中返回符合数据库查询条件的已有对象摘要数据集,其中,已有对象摘要数据集中包括多个已有对象摘要数据;
S33、根据分词匹配规则,分别计算待检验对象摘要数据与各个已有对象摘要数据之间的相似度分数;
S34、返回相似度分数最高的前N个相似度分数值,依次判断这N个相似度分数值是否大于或等于预设值,若判断为是,则表明待检验的对象信息为重复的对象信息,否则表明待检验的对象信息具有唯一性。
进一步地,所述数据库查询条件包括大中小类编码、国家省市和县的查询条件。
进一步地,所述分词匹配规则具体是对两个摘要数据之间相互对应的分词字段进行匹配,以得到分词匹配分值,所述待检验对象摘要数据与已有对象摘要数据之间的相似度分数具体为两个摘要数据中各分词匹配分值之和。
进一步地,所述分词匹配规则包括准入匹配、完全相等匹配、相似匹配和模糊匹配,其中,相似匹配规则与准入匹配规则一致。
进一步地,所述准入匹配具体是判断2个字符串是否相互包含,若判断为是,则相似度分数需要累加上预设的准入匹配分值,否则维持当前相似度分数不变。
进一步地,所述完全相等匹配具体是判断2个字符串是否完全相等,若判断为是,则相似度分数需要累加上预设的完全相等匹配分值,否则维持当前相似度分数不变。
进一步地,所述模糊匹配具体是判断分词的相同字段数,结合预设的模糊匹配总分值,得到分词模糊匹配分值,最后将相似度分数累加上分词模糊匹配分值。
进一步地,所述分词模糊匹配分值的计算公式为:
其中,M表示分词模糊匹配分值,We表示待检验对象摘要数据与已有对象摘要数据之间相同的分词字段数,Wm表示待检验对象摘要数据与已有对象摘要数据之中最大的分词字段数,S表示预设的模糊匹配总分值。
与现有技术相比,本发明通过将待检验对象信息进行分词处理,结合分词匹配计算,克服了缺乏主键标识情况下对象信息唯一性检验的困难,能够准确得到待检验对象与数据库中已有对象之间的相似度分数,从而判断待检验对象是否具有唯一性、是否与数据库中已有对象重复,避免了数据冗余问题的发生。
附图说明
图1为本发明的方法流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
如图1所示,一种对象信息唯一性的检验方法,包括以下步骤:
S1、获取待检验的对象信息;
S2、将待检验对象信息按照字段组装顺序进行分割处理,得到待检验对象摘要数据;
S3、根据分词匹配规则,计算待检验对象摘要数据与数据库中已有对象摘要数据之间的相似度分数;
S4、判断相似度分数是否大于或等于预设值,若判断为是,则表明待检验对象信息为重复的对象信息,否则表明待检验的对象信息具有唯一性。
本实施例将上述方法应用于房屋对象作为押品的业务场景中,涉及的字段组装顺序如表1所示:
表1
根据表1中表字段和字段组装顺序,将房屋对象信息按字段分割组装成一个字符串,即得到房屋对象的摘要数据,实施例中是将各小类表的数据字段组装成用竖线分割的字符串,得到房屋对象的摘要数据为:2123层商铺4|469002|XXX小区|||1|海南省~琼海市~嘉积镇~人民路~南段XXX小区~2123层~4~商铺||嘉积镇。
其中,字符串“海南省~琼海市~嘉积镇~人民路~南段XXX小区~2123层~4~商铺”表示的是房屋对象的其他详细地址字段,这是将其他详细地址字段用波浪线进行分割,以得到不同的分词。
在计算房屋对象的相似度分数时,运用房屋对象摘要数据中的分词作为匹配内容,通过不同的匹配规则对分词进行匹配并记分,如表2所示:
表2
其中,匹配方式为1时,表示准入匹配,即判断2个字符串是否相互包含如满足则二个押品相似度匹配上的分数累加;
匹配方式为2时,表示完全相等匹配,即判断2个字符串是否完全相等,如满足则二个押品相似度匹配上的分数累加;
匹配方式为3时,表示相似匹配,与准入匹配的方式一致;
匹配方式为4时,表示模糊匹配,且模糊匹配对应的“是否分词”字段的值都是1,表示是对各个分词字段进行匹配,具体是对用波浪线分割后的分词进行模糊匹配:比如押品A分词后的其他详细地址为——世纪路~西段;
押品B分词后的其他详细地址为——世纪路~西段~70-5号;
本实施例预设的其他详细地址匹配的总分为20分,那么A、B二个押品用波浪线分词后最大的段数为3段,A、B二个押品用波浪线分词后能匹配上的段数为2段,所以A、B两个押品在其他详细地址匹配最后得分为20/3*2。
将房屋对象的摘要数据与数据库中将要被匹配押品的摘要数据进行分词匹配计算,得到各分词匹配分值,将各分词匹配分值累加后得到房屋对象与数据库中已有押品之间的相似度分数,通过判断该相似度分数是否达到预设值,即可判断出该房屋对象是否为重复押品、是否具有唯一性。
综上所述,本发明提出的方法是利用分词匹配并计算,从而得到对象之间的相似度分数,以此判断对象之间的相似程度,能够广泛应用于缺乏主键标识情况下的对象唯一性验证,通过对各字段分词依次进行匹配,能够保证对象信息唯一性检验的准确性。
Claims (10)
1.一种对象信息唯一性的检验方法,其特征在于,包括以下步骤:
S1、获取待检验的对象信息;
S2、将待检验对象信息按照字段组装顺序进行分割处理,得到待检验对象摘要数据;
S3、根据分词匹配规则,计算待检验对象摘要数据与数据库中已有对象摘要数据之间的相似度分数;
S4、判断相似度分数是否大于或等于预设值,若判断为是,则表明待检验对象信息为重复的对象信息,否则表明待检验的对象信息具有唯一性。
2.根据权利要求1所述的一种对象信息唯一性的检验方法,其特征在于,所述步骤S2中将待检验对象信息按照字段组装顺序进行分割处理,具体是按照字段组装顺序,将待检验对象信息的数据字段分割成多个分词,所述摘要数据具体为包含多个分词的字符串。
3.根据权利要求2所述的一种对象信息唯一性的检验方法,其特征在于,所述步骤S3具体包括以下步骤:
S31、基于待检验对象摘要数据,提取数据库查询条件;
S32、从数据库中返回符合数据库查询条件的已有对象摘要数据集,其中,已有对象摘要数据集中包括多个已有对象摘要数据;
S33、根据分词匹配规则,分别计算待检验对象摘要数据与各个已有对象摘要数据之间的相似度分数;
S34、返回相似度分数最高的前N个相似度分数值,依次判断这N个相似度分数值是否大于或等于预设值,若判断为是,则表明待检验的对象信息为重复的对象信息,否则表明待检验的对象信息具有唯一性。
4.根据权利要求3所述的一种对象信息唯一性的检验方法,其特征在于,所述数据库查询条件包括大中小类编码、国家省市和县的查询条件。
5.根据权利要求3所述的一种对象信息唯一性的检验方法,其特征在于,所述分词匹配规则具体是对两个摘要数据之间相互对应的分词字段进行匹配,以得到分词匹配分值,所述待检验对象摘要数据与已有对象摘要数据之间的相似度分数具体为两个摘要数据中各分词匹配分值之和。
6.根据权利要求3所述的一种对象信息唯一性的检验方法,其特征在于,所述分词匹配规则包括准入匹配、完全相等匹配、相似匹配和模糊匹配,其中,相似匹配规则与准入匹配规则一致。
7.根据权利要求6所述的一种对象信息唯一性的检验方法,其特征在于,所述准入匹配具体是判断2个字符串是否相互包含,若判断为是,则相似度分数需要累加上预设的准入匹配分值,否则维持当前相似度分数不变。
8.根据权利要求6所述的一种对象信息唯一性的检验方法,其特征在于,所述完全相等匹配具体是判断2个字符串是否完全相等,若判断为是,则相似度分数需要累加上预设的完全相等匹配分值,否则维持当前相似度分数不变。
9.根据权利要求6所述的一种对象信息唯一性的检验方法,其特征在于,所述模糊匹配具体是判断分词的相同字段数,结合预设的模糊匹配总分值,得到分词模糊匹配分值,最后将相似度分数累加上分词模糊匹配分值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010246139.XA CN111459970A (zh) | 2020-03-31 | 2020-03-31 | 一种对象信息唯一性的检验方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010246139.XA CN111459970A (zh) | 2020-03-31 | 2020-03-31 | 一种对象信息唯一性的检验方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111459970A true CN111459970A (zh) | 2020-07-28 |
Family
ID=71680954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010246139.XA Pending CN111459970A (zh) | 2020-03-31 | 2020-03-31 | 一种对象信息唯一性的检验方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111459970A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183949A (zh) * | 2015-08-13 | 2015-12-23 | 中国铁道科学研究院 | 一种铁路主数据的清洗方法及系统 |
CN105824798A (zh) * | 2016-03-03 | 2016-08-03 | 云南电网有限责任公司教育培训评价中心 | 基于试题关键字相似性的试题库中的试题去重方法 |
CN110287383A (zh) * | 2019-06-28 | 2019-09-27 | 深圳前海微众银行股份有限公司 | 一种字段信息检验方法及装置 |
-
2020
- 2020-03-31 CN CN202010246139.XA patent/CN111459970A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183949A (zh) * | 2015-08-13 | 2015-12-23 | 中国铁道科学研究院 | 一种铁路主数据的清洗方法及系统 |
CN105824798A (zh) * | 2016-03-03 | 2016-08-03 | 云南电网有限责任公司教育培训评价中心 | 基于试题关键字相似性的试题库中的试题去重方法 |
CN110287383A (zh) * | 2019-06-28 | 2019-09-27 | 深圳前海微众银行股份有限公司 | 一种字段信息检验方法及装置 |
Non-Patent Citations (1)
Title |
---|
王东;林宏;: "一种试题智能提取与批量导入方法" * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110222170B (zh) | 一种识别敏感数据的方法、装置、存储介质及计算机设备 | |
US11327975B2 (en) | Methods and systems for improved entity recognition and insights | |
CN113254844B (zh) | 一种基于知识图谱和图片特征的诈骗网站识别方法与系统 | |
CN109033249B (zh) | 公检法领域结构化文书的信息提取方法、装置及存储介质 | |
US9292581B2 (en) | System and method for contextual and free format matching of addresses | |
RU2727720C1 (ru) | Способ и устройство распознавания личности | |
CN108053545B (zh) | 证件验真方法和装置、服务器、存储介质 | |
CN108363717B (zh) | 一种数据安全级别的识别检测方法及装置 | |
CN110427375B (zh) | 字段类别的识别方法及装置 | |
CN113111063B (zh) | 一种应用于多数据源的医疗患者主索引发现方法 | |
CN114328808A (zh) | 地址模糊匹配方法、地址处理方法、装置和电子设备 | |
CN109543712B (zh) | 时态数据集上的实体识别方法 | |
CN111459970A (zh) | 一种对象信息唯一性的检验方法 | |
CN114611515B (zh) | 一种基于企业舆情信息识别企业实际控制人的方法和系统 | |
CN113988878B (zh) | 一种基于图数据库技术的反欺诈方法及系统 | |
CN115982388A (zh) | 案件质控图谱建立、案件文书质检方法、设备及存储介质 | |
CN113569005B (zh) | 一种基于数据内容的大规模数据特征智能化提取方法 | |
CN115186138A (zh) | 一种配电网数据的比对方法及终端 | |
CN111881309B (zh) | 电子证照检索方法、装置和计算机可读介质 | |
CN109685094B (zh) | 一种基于网络指纹的身份识别方法和装置 | |
CN113220843A (zh) | 确定信息关联关系的方法、装置、存储介质和设备 | |
CN113868601A (zh) | 一种数据资产切分校验方法及设备 | |
CN106920107B (zh) | 一种商务绑定方法及系统 | |
US20150324813A1 (en) | System and method for determining by an external entity the human hierarchial structure of an rganization, using public social networks | |
CN115640369B (zh) | 一种应用星形数据模型的办件信息库数据存储方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |