CN116821395A

CN116821395A - 基于全文检索的贸易数据疑似命中检索方法及系统

Info

Publication number: CN116821395A
Application number: CN202311110241.7A
Authority: CN
Inventors: 钟鸿敏; 陈昕; 容绍俊; 王骏光; 孔彪; 张远航
Original assignee: Simple Information Technology Guangzhou Co ltd
Current assignee: Simple Information Technology Guangzhou Co ltd
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2023-09-29
Anticipated expiration: 2043-08-31
Also published as: CN116821395B

Abstract

本发明公开一种基于全文检索的贸易数据疑似命中检索方法及系统，全文检索方法包括：获取原始文本影像件，原始文本影像件为原始文本的影像文件；对原始文本影像件进行OCR识别，获取原始文本中每个文字对应的多个候选字；根据预设的关键字，对获取到的原始文本中每个文字对应的多个候选字进行全文检索，在全文检索时，通过字符串算法机制，遍历原始文本中的所有子字符串，并针对每个字符进行循环对比，确定与关键字最匹配的候选字。本发明通过减少在原文字符匹配时关键字与原文字符对比次数，能够有效提高全文检索效率，本发明替代人工对比候选字，每个字符的OCR候选值均参与对比，提高了原始文本影像件检索关键字的准确度。

Description

基于全文检索的贸易数据疑似命中检索方法及系统

技术领域

本发明涉及全文检索技术领域，更具体地，涉及一种基于全文检索的贸易数据疑似命中检索方法及系统。

背景技术

在金融领域中，金单业务和供票业务的运营和风险岗位人员需要审核贸易背景资料。为了提高审核效率，通常使用基于OCR（光学字符识别）的工具来快速识别各种票据信息。然而，OCR工具在实际使用中存在一些问题。

首先，影像件样本格式多种多样，可能是不同的文件类型（如PDF、图片等），这给识别过程带来了挑战。此外，影像清晰度参差不齐，有些影像件可能模糊不清或者有噪点，这导致OCR工具无法准确地提取关键信息。

由于上述问题，OCR工具对于关键信息的识别准确率无法保证百分之百。当OCR无法正确识别影像件中的关键信息时，就需要专业审批人员进行人工审核和逐一对比。他们需要利用OCR识别得到的候选关键字与影像件文本进行对照，这需要消耗大量的人力资源，而且人工对比的遗漏和错误率较高。

此外，这种人工审核过程是耗时的，无法快速有效地进行业务请求的决策判断。业务流程也会受到阻塞，无法满足实时业务的需求。因此需要寻求解决方案来克服OCR识别准确性的限制，提高审核效率并实现快速、准确的业务决策。

全文检索是一种通过扫描整个文本内容来查找包含指定关键字的文档或记录的技术。但现有的全文检索需要关键字与原文所有的字符进行一一比对，检索速度相对较慢。

发明内容

本发明的首要目的是提供一种全文检索方法，解决现有全文检索中需要关键字与原文所有的字符进行一一比对，检索速度相对较慢的问题。

本发明的进一步目的是提供一种全文检索系统。

本发明的第三个目的是提供一种贸易数据疑似命中检索方法，解决现有人工审核过程时耗时长，无法快速有效地进行业务请求的决策判断的问题。

本发明的第四个目的是提供一种贸易数据疑似命中检索系统。

为解决上述技术问题，本发明的技术方案如下：

一种全文检索方法，包括以下步骤：

获取原始文本影像件，所述原始文本影像件为原始文本的影像文件；

对所述原始文本影像件进行OCR识别，获取所述原始文本中每个文字对应的多个候选字；

根据预设的关键字，对获取到的所述原始文本中每个文字对应的多个候选字进行全文检索，在所述全文检索时，通过字符串算法机制，遍历所述原始文本中的所有子字符串，并针对每个字符进行循环对比，确定与所述关键字最匹配的候选字。

优选地，所述根据预设的关键字，对获取到的所述原始文本中的每个文字对应的多个候选字进行全文检索，具体为：

1）初始化前缀匹配数数组next；

2）分别逐个字符遍历原始文本和关键字进行对比，关键字的每个字符与原始文本字符对比时需逐一与所有的候选字进行对比，任意匹配一个候选字皆为匹配；

3）若单个字符匹配成功，则返回步骤2）中，令关键字与原始文本进行下一个字符匹配，若关键字所有的字符均匹配成功则代表命中，流程结束，若关键字有字符匹配不成功，则进入步骤4）；

4）若关键字第一个字符匹配不成功，则将对比位置从原始文本当前字符向后移动一位，返回步骤2）中进行匹配；

若关键字第一个字符匹配成功但其它字符匹配不成功，则根据所述前缀匹配数数组next，定位关键字下一轮比较的开始字符，返回步骤2）中进行匹配。

优选地，所述前缀匹配数数组next的计算方法具体为：

所述前缀匹配数数组next的数组长度与所述关键字长度相同，且next[0]=-1，next[n]为前缀匹配数数组next的第n位；

从所述关键字第2位往后逐步遍历计算所述前缀匹配数数组next，每次查找关键字字符key[0]到key[i]之间字符组成的字符串的前缀子串和后缀子串的最大公共字符串数，其中，key[0]为关键字的第一个字符，key[i]为关键字的第i个字符，i为当前遍历次数，每次遍历后，i加1；所述前缀子串为{“key[0]”，“key[0]key[1]”，…，“key[0]… key[i-1]”}，所述后缀子串为{“key[i]”，“key[i-1] key[i]”，…，“key[1]… key[i]”}；

将第i次遍历时获取到的最大公共字符串数减1后，设置到next[i]中。

优选地，所述根据所述前缀匹配数数组next，定位关键字下一轮比较的开始字符，具体为：

读取next[k]的值，k为当前关键字字符下标减1，next[k]的值为下一轮关键字开始与所述原始文本进行匹配的第一个字符所在的位置。

一种全文检索系统，其特征在于，包括：

影像件获取模块，所述影像件获取模块用于获取原始文本影像件，所述原始文本影像件为原始文本的影像文件；

OCR识别模块，所述OCR识别模块用于对所述原始文本影像件进行OCR识别，获取所述原始文本中每个文字对应的多个候选字；

匹配模块，所述匹配模块用于根据预设的关键字，对获取到的所述原始文本中每个文字对应的多个候选字进行全文检索，在所述全文检索时，通过字符串算法机制，遍历所述原始文本中的所有子字符串，并针对每个字符进行循环对比，确定与所述关键字最匹配的候选字。

优选地，所述匹配模块中根据预设的关键字，对获取到的所述原始文本中每个文字对应的多个候选字进行全文检索，具体为：

1）初始化前缀匹配数数组next；

优选地，所述前缀匹配数数组next的计算方法具体为：

一种贸易数据疑似命中检索方法，包括以下步骤：

根据融资业务审批请求，发起根据文件ID下载影像件请求；

下载影像件，利用上述所述的全文检索方法进行字符串匹配；

返回疑似命中结果。

一种贸易数据疑似命中检索系统，包括：

请求模块，所述请求模块根据融资业务审批请求，发起根据文件ID下载影像件请求；

全文检索模块，所述全文检索模块用于下载影像件，并利用上述所述的全文检索方法进行字符串匹配；

返回模块，所述返回模块用于返回疑似命中结果。

与现有技术相比，本发明技术方案的有益效果是：

本发明针对全文检索过程进行了优化，根据关键字自身文字重合度情况，优化与原文字符匹配时减少关键字与原文字符对比次数，能够有效减少检索对比的次数，提高检索的效率。同时还进一步支持了后续的处理与决策，提高了审核流程的效率与准确性。

附图说明

图1为本发明实施例提供的全文检索方法流程示意图。

图2为本发明实施例提供的下一轮关键字开始与所述原始文本进行匹配的第一个字符所在的位置的示意图。

图3为本发明实施例提供的全文检索系统模块示意图。

图4为本发明实施例提供的贸易数据疑似命中检索方法流程示意图。

图5为本发明实施例提供的贸易业务时序图。

图6为本发明实施例提供的贸易数据疑似命中检索系统模块示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本发明的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例一种全文检索方法，如图1所示，包括以下步骤：

在进一步的实施例中，所述根据预设的关键字，对获取到的所述原始文本中的每个文字对应的多个候选字进行全文检索，具体为：

1）初始化前缀匹配数数组next；

在进一步的实施例中，所述前缀匹配数数组next的计算方法具体为：

在具体的实施例中，以关键字‘ablabd’为例，对应的next数组的计算方法如下：

next数组长度与关键字长度相同；

next[0]=-1；

从关键字第2位往后逐步遍历计算next，每次查找关键keys[0]到keys[i]之间字符组成的字符串的前缀和后缀的最大公共串。next [i] 值为公共子串数-1。例如遍历第二位时字符串是’ab’，’ab’的前缀子串是{‘a’}，后缀子串是{‘b’}，两者没有公共子串；当遍历到第5个字符（i=4），前5个字符组成‘ablab’，前缀子串为{‘a’，‘ab’，‘abl’，‘abla’}和后缀子串是{‘b’，‘ab’，‘lab’，‘blab’ }，则公共子串是{‘ab’}，next[4]=1-1=0；

用遍历每个字符求得的前后缀公共子串数-1设置到next数组对应位置，例如‘ablabd’对应的next数组是[-1,-1,-1,0,0,-1]。

在进一步的实施例中，所述根据所述前缀匹配数数组next，定位关键字下一轮比较的开始字符，具体为：

在具体的实施例中，原文是‘ablaed ablabd for test’，ocr返回结果如表1所示：

表1

实际关键字第一个字符‘a’与原文第一个字符比较时，需要依次与‘a’和‘@’两个候选字进行比较，任意一个匹配都视为该字符疑似匹配（所有关键字字符连续疑似匹配时，关键字在原文中疑似命中）。

对于关键字‘ablabd’，对应的next数组是[-1,-1,-1,0,0,-1]，当第5个字符匹配补上时，此时，i=4，k=3，next[k]= next[3]=0，代表下一轮关键字开始的位置是next[k]+1=1，即keys[1]，keys=[‘a’，‘b’，‘l’，‘a’，‘b’，‘d’]，下一轮开始字符keys[1]= ‘b’，如图2所示。

综上所述，该匹配算法主要是根据关键字自身文字重合度情况，优化与原文字符匹配时减少关键字与原文字符对比次数。原文长度为m个字符，关键字长度n的情况。其空间复杂度为 O(n)。匹配时主串不会回退，子串回退不会超过n，总体算法时间复杂度为O(m+n)。

例如，对于候选字列表如表2所示。

表2

总体字符长度m=5，子串长度n=2，查询“02”、“o2”、“O2”：

k = 10/5 = 2

1）常规查询法复杂度：2*2*5 = 20

2）采用本发明实施例方法复杂度：2*5+2 = 12

查询“la”、“1a”、“|a”：

k = 9/6 = 1.5

1）常规查询法复杂度：1.5*2*5 = 15

2）采用本发明实施例方法复杂度：1.5*5+2 = 9.5

上述例子表明，总体字符长度m值越大，采用本发明实施例的方法效率提高越明显。

实施例2

本实施例提供一种全文检索系统，如图3，包括：

在进一步的实施例中，所述匹配模块中根据预设的关键字，对获取到的所述原始文本中每个文字对应的多个候选字进行全文检索，具体为：

1）初始化前缀匹配数数组next；

实施例3

本实施例提供一种贸易数据疑似命中检索方法，如图4所示，包括以下步骤：

根据融资业务审批请求，发起根据文件ID下载影像件请求；

下载影像件，利用实施例1所述的全文检索方法进行字符串匹配；

返回疑似命中结果。

在具体的实施例中，具体的时序流程如图5所示，具体为：

1.运营用户发起融资业务审批请求至业务交易系统；

2.业务交易系统向文件系统发起根据文件ID下载影像件请求；

3.业务交易系统从文件系统中下载影像件；

4.业务交易系统向OCR影像识别系统发起影像件OCR识别；

5.OCR影像识别系统返回OCR识别结果和候选字符至业务交易系统；

6.业务交易系统根据需求检索关键字，想影像件检索系统发起对影像件全文检索疑似命中请求；

7.影像件检索系统根据最优候选字符识别，没有结果才进行其它候选字符识别；

8.影像件检索系统对关键字结合OCR返回的候选字，进行字符串匹配算法检索；

9.影像件检索系统把疑似或者意思相近的字符结果返回至业务交易系统；

10.业务交易系统返回疑似命中结果给运营用户。

实施例4

本实施例提供一种贸易数据疑似命中检索系统，如图6所示，包括：

全文检索模块，所述全文检索模块用于下载影像件，并利用实施例1所述的全文检索方法进行字符串匹配；

返回模块，所述返回模块用于返回疑似命中结果。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种全文检索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的全文检索方法，其特征在于，所述根据预设的关键字，对获取到的所述原始文本中的每个文字对应的多个候选字进行全文检索，具体为：

1）初始化前缀匹配数数组next；

3.根据权利要求2所述的全文检索方法，其特征在于，所述前缀匹配数数组next的计算方法具体为：

从所述关键字第2位往后逐步遍历计算所述前缀匹配数数组next，每次查找关键字字符key[0]到key[i]之间字符组成的字符串的前缀子串和后缀子串的最大公共字符串数，其中，key[0]为关键字的第一个字符，key[i] 为关键字的第i个字符，i为当前遍历次数，每次遍历后，i加1；所述前缀子串为{“key[0]”，“key[0] key[1]”，…，“key[0]… key[i-1]”}，所述后缀子串为{“key[i]”，“key[i-1] key[i]”，…，“key[1]… key[i]”}；

4.根据权利要求3所述的全文检索方法，其特征在于，所述根据所述前缀匹配数数组next，定位关键字下一轮比较的开始字符，具体为：

5.一种全文检索系统，其特征在于，包括：

6.根据权利要求5所述的全文检索系统，其特征在于，所述匹配模块中根据预设的关键字，对获取到的所述原始文本中每个文字对应的多个候选字进行全文检索，具体为：

1）初始化前缀匹配数数组next；

7.根据权利要求6所述的全文检索系统，其特征在于，所述前缀匹配数数组next的计算方法具体为：

8.根据权利要求7所述的全文检索系统，其特征在于，所述根据所述前缀匹配数数组next，定位关键字下一轮比较的开始字符，具体为：

9.一种贸易数据疑似命中检索方法，其特征在于，包括以下步骤：

根据融资业务审批请求，发起根据文件ID下载影像件请求；

下载影像件，利用权利要求1至4任一项所述的全文检索方法进行字符串匹配；

返回疑似命中结果。

10.一种贸易数据疑似命中检索系统，其特征在于，包括：

全文检索模块，所述全文检索模块用于下载影像件，并利用权利要求1至4任一项所述的全文检索方法进行字符串匹配；

返回模块，所述返回模块用于返回疑似命中结果。