CN115221874A

CN115221874A - 倒排索引的构建方法、名单筛查方法、装置、电子设备

Info

Publication number: CN115221874A
Application number: CN202210862916.2A
Authority: CN
Inventors: 余孟泽
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-10-21

Abstract

本发明提供一种倒排索引的构建方法、名单筛查方法、装置、电子设备、存储介质及程序产品，其中，倒排索引的构建方法包括：获取目标名单数据，所述目标名单数据中包括目标名称队列；对所述目标名单数据中的名称进行分词，得到预处理名单数据；对所述预处理名单数据中的每条名称，剔除高频词，得到倒排索引用名单数据；基于所述倒排索引用数据，建立倒排索引。根据本发明实施例的倒排索引的构建方法，在倒排索引的建立过程中，对名称进行预处理，剔除高频词，利用剩余的单词建立该名称的倒排索引，按照该方式建立的倒排索引中，跟普通词汇的数量基本在相同的量级，在利用其进行名单筛查时，即便输入的待筛查名称中含有高频词，也能实现快速筛查。

Description

倒排索引的构建方法、名单筛查方法、装置、电子设备

技术领域

本发明涉及数据处理技术领域，具体涉及一种倒排索引的构建方法、名单筛查方法、装置、电子设备、存储介质及程序产品。

背景技术

按照反洗钱和反恐融资法要求，银行需要对交易进行制裁名单筛查，确保不与制裁名单里的客户进行交易。面对频繁更新和种类繁杂的黑名单和海量的名单数据，依靠传统的手工筛查方法已经远远的不能满足当前合规工作的需要，银行急需建立精准，全面，高效的名单筛查系统。现有名单筛查的步骤嵌入客户开户和交易的过程，为了不影响用户体验，对于筛查的响应时间要求较高。

现有的名单筛查的一般流程通常为：首先，基于外购的名单数据进行分词并建立倒排索引；在输入待检索名单时，对输入的待检索名单中的每个单词，从倒排索引中找出含有该单词或相似单词的名称；对输入的待检索名单，和检索得到的名称，进行相似度计算，输出相似度高于阈值的名称。

然而，在名单名称中有些单词出现的频率异常的高(频率高于预定阈值的词，简称高频词)，如公司名称中import，export；阿拉伯姓名中bin，bint，muhammad，abu；英文名称中alex，allen，ben，david，james，maria出现的频率都非常的高。如果在筛查时输入名称包含有高频词，则在初筛过程中匹配的名单数量非常巨大，从lucence库中查询的响应时间较长(达到五六秒甚至十多秒)，后续名称相似度计算不仅耗时相应增加且占用大量的CPU资源，而且最终导致该次名单筛查时间的总体响应时间过长，无法满足实时性要求。

发明内容

针对现有技术的上述问题，本发明的目的在于提供一种倒排索引的构建方法、名单筛查方法、装置、电子设备、存储介质及程序产品，能够实现名单的快速筛查、快速计算相似度、整体响应时间短。

本发明第一方面提供一种能够用于快速响应输入名单进行初筛的倒排索引的构建方法。

根据本发明第一方面实施例的倒排索引的构建方法，包括：

获取目标名单数据，所述目标名单数据中包括目标名称队列；

对所述目标名单数据中的名称进行分词，得到预处理名单数据；

对所述预处理名单数据中的每条名称，剔除高频词，得到倒排索引用名单数据，其中，所述高频词为在所述目标名单数据中的出现频次高于词频阈值的词；

基于所述倒排索引用数据，建立所述倒排索引，其中，所述倒排索引中的名称带有名称标识，根据所述名称标识能够确定其所对应的目标名称。

进一步地，所述对所述目标名单数据中的名称进行分词，得到预处理名单数据包括：

对所述目标名单数据中的名称进行分词；

去除分词结果中的非单词字符并统一转成小写，所述非单词字符包括标点符号、特殊字符中的任意一种或多种；

去除其中的停顿词，得到所述预处理名单数据。

进一步地，所述对所述预处理名单数据中的每条名称，剔除高频词，得到倒排索引用数据包括：

基于所述预处理名单数据，建立高频词库；

对于所述预处理名单数据中的每条名称，剔除其中属于所述高频词库中的高频词，得到所述倒排所引用名单数据。

进一步地，所述基于所述预处理名单数据，建立高频词库包括：

对于所述预处理名单数据中的每个单词，统计其在所述预处理名单数据中的出现频次；

抽取其中出现频次高于所述词频阈值的词，建立所述高频词库。

进一步地，所述对于所述预处理名单数据中的每条名单，剔除其中属于所述高频词库中的高频词，得到所述倒排所引用名单数据包括：

确定每条名称中的每个单词是否属于所述高频词库中的高频词；

计算每条名称中属于所述高频词的单词数量占该名单所有单词数量的占比，

当所述占比为预定值以下时，则删除所有高频词，

当所述占比高于预定值时，则保留所有单词。

进一步地，所述基于所述倒排索引用数据，建立所述倒排索引包括：

对于所述倒排索引用数据中的每个名称，利用Lucence中间件建立其中的单词和该条名称的倒排索引。

本发明第二方面还提供一种倒排索引构建装置，包括：

第一获取模块，用于获取目标名单数据，所述目标名单数据中包括目标名称队列；

预处理模块，用于对所述目标名单数据中的名称进行分词，得到预处理名单数据；

处理模块，用于对所述预处理名单数据中的每条名称，剔除高频词，得到倒排索引用名单数据，其中，所述高频词为在所述目标名单数据中的出现频次高于词频阈值的词；

构建模块，基于所述倒排索引用数据，建立所述倒排索引，其中，所述倒排索引中的名称带有名称标识，根据所述名称标识能够确定其所对应的目标名称。

本发明第三方面还提供一种名单筛查方法，包括：

输入待筛查名称；

基于所述待筛查名称通过倒排索引进行检索，得到检索结果名称表，其中，所述倒排索引中保存有倒排索引名称队列，所述倒排索引名称队列中的名称不含高频词，且所述倒排索引名称队列中的名称带有名称标识，通过所述名称标识能够获取所对应的目标名称，所述高频词为出现频率高于词频阈值的单词；

基于所述检索结果名称表以及各名称的名称标识，确定对应的目标名称结果表；

计算待筛查名称与所述目标名称结果表中的名称相似度；

输出相似度高于相似度阈值的目标名称。

所述基于所述待筛查名称通过倒排索引进行检索，得到检索结果名称表包括：

对所述待筛查名称进行预处理，得到待检索用词；

基于所述待检索用词中的每个单词，通过所述倒排索引检索包含该单词的名称，得到所述检索结果名称表。

进一步地，所述对所述待筛查名称进行预处理，得到待检索用词包括：

对所述待筛查名称进行分词；

去除其中的停顿词，得到所述待检索用词。

进一步地，所述计算待筛查名称与所述目标名称结果表中的名称相似度包括：

计算所述待筛查名称与所述目标名称结果表中每个目标名称的匹配单词串，基于所述匹配单词串计算相似度。

进一步地，所述输出相似度高于相似度阈值的目标名称包括：

确定相似度高于相似度阈值的目标名称；

获取该目标名称的关联信息，所述关联信息包括名单发布机构，国籍，地址中的一个或多个；

输出相似度高于相似度阈值的目标名称及其对应的关联信息。

本发明第四方面还提供一种名单筛查装置，包括：

第二获取模块，用于获取待筛查名称；

检索模块，用于基于所述待筛查名称通过倒排索引进行检索，得到检索结果名称表，其中，所述倒排索引中保存有倒排索引名称队列，所述倒排索引名称队列中的名称不含高频词，且所述倒排索引名称队列中的名称带有名称标识，通过所述名称标识能够获取所对应的目标名称，所述高频词为出现频率高于词频阈值的单词；

检索结果处理模块，用于基于所述检索结果名称表以及各名称的名称标识，确定对应的目标名称结果表；

计算模块，用于计算待筛查名称与所述目标名称结果表中的名称相似度；

输出模块，用于输出相似度高于相似度阈值的目标名称。

本发明第五方面提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述第一方面任一实施例所述的倒排索引的构建方法。

本发明第六方面还提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述第三方面任一实施例所述的名单筛查方法。

本发明第七方面还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如上述第一方面任一实施例所述的倒排索引的构建方法。

本发明第八方面还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如上述第三方面任一实施例所述的名单筛查方法。

本发明第九方面还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述第一方面任一实施例所述的倒排索引的构建方法的步骤。

本发明第十方面还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现如上述第三方面任一实施例所述的名单筛查方法的步骤。

本发明的上述技术方案至少具有如下有益效果之一：

根据本发明实施例的倒排索引的构建方法，在倒排索引的建立过程中，对名称进行预处理，剔除高频词，利用剩余的单词建立该名称的倒排索引，按照该方式建立的倒排索引中，含有高频词的名称数量会大大降低，跟普通词汇的数量基本在相同的量级，在利用其进行名单筛查时，即便输入的待检索名称中含有高频词，筛查的响应时间也不会受太大影响；

此外，在构建倒排索引时通过对高频词的删除规则进行限定，可以确保名称中都为高频词或大部分为高频词时不会漏报。

附图说明

图1为本发明实施例的名单筛查方法的实施环境示意图；

图2为本发明一实施例的倒排索引的构建方法的流程示意图；

图3为本发明另一实施例的倒排索引的构建方法的流程示意图；

图4a为本发明又一实施例的倒排索引的构建方法的流程示意图；

图4b为本发明又一实施例的倒排索引的构建方法的流程示意图；

图5为本发明实施例的倒排索引构建装置的结构示意图；

图6为本发明一实施例的名单筛查方法的流程示意图；

图7为本发明另一实施例的名单筛查方法的流程示意图；

图8为本发明实施例的名单筛查装置的结构示意图；

图9为本发明一些实施例提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了使本发明实施例公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明实施例进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明实施例，并不用于限定本发明实施例。本发明各个实施例的技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

说明书附图1示出了本发明一个实施例提供的名单筛查方法的实施环境示意图。如图1所示，该实施环境可以至少包括名单筛查服务器110和至少一个名单筛查终端120，所述名单筛查服务器110和各个名单筛查终端120可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例对此不做限制。

所述名单筛查服务器110可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群，也可以包括提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

所述至少一个名单筛查终端120可以包括智能手机、平板电脑、笔记本电脑、台式计算机、数字助理、服务器等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等，但并不局限于此。所述至少一个名单筛查终端120上运行的操作系统可以包括但不限于安卓系统、iOS系统、linux系统、windows系统等。

本发明实施例中，所述名单筛查终端120可以包括名单筛查应用(Application，APP)程序，业务人员可以通过APP程序输入待筛查名称，所述名单筛查服务器110可以利用本发明实施例提供的名单筛查方法基于所述待筛查名单，通过倒排索引进行筛查，并将筛查得到的名称与待筛查名称进行相似度计算，并将相似度高于相似度阈值的目标名称传给名单筛查终端120。

需要说明的是，图1仅仅是一种示例。本领域技术人员可以理解，虽然图1中只示出了2个名单筛查120，但并不构成对本发明实施例的限定，可以包括比图示更多或更少的名单筛查终端120。

根据本发明实施例的名单筛查方法，利用本发明实施例提供的构建方法所构建的倒排索引进行名单筛查。也就是说，名单筛查服务器110在进行名单筛查时，其利用自身所构建的倒排索引进行筛查，以实现快速响应。

(一)下面，首先结合附图2-5具体描述根据本发明实施例的倒排索引的构建方法和构建装置。

如图2所示，根据本发明实施例的倒排索引的构建方法，包括：

S210：获取目标名单数据，所述目标名单数据中包括目标名称队列。

也就是说，目标名单数据可以包括一个队列，该队列中记载了多条目标名称。

此外，为了更详细地了解每条目标名称的信息，每条目标名称还可以对应有关联信息，例如名单发布机构、国籍、地址等。此外，关联信息还可以包括相关事件信息、信用级别等。

此外，目标名称，既可以是公司名称，也可以是人员姓名，也就是说即可以用于筛查公司名，也可以用于筛查人名。

此外，需要说明的是，基于不同属性的待筛查名称，可以基于与其同属性的目标名单建立对应的倒排索引，在后续进行名单筛查时，只要选择利用相应的倒排索引进行检索即可。由此，可以根据不同属性的待筛查名称，尽可能减少不必要的噪音数据，以更快、更精确实现筛查。

需要说明的是，所谓目标名称队列，即可以是以表格的形式给出的，也可以是非表格形式给出，例如可以是带有分隔符、回车符等文本格式符的文本等。下面，为了便于说明，以表格形式的目标名称队列即目标名称列表为例进行说明，对于其他形式的目标名称队列，可以参考此进行类似操作，在此不再赘述。

下面，通过表1示例性地示出目标名称列表。

表1目标名称列表

此外，对于目标名单数据，可以是金融系统通用的黑名单数据，也可以是特定的待告警名单数据，本发明对此不做限定。

名单筛查服务器110例如可以通过网络获得该目标名单数据，具体地，例如可以通过任意的业务终端上传至该名单筛查服务器110，或者通过其他任意平台或服务器获取该目标名单数据。当然，本申请中的目标名单数据也可以是来自不同的名单发布机构、不同的平台或服务器所发布的、不同数据库所提供的名单数据。

S220：对所述目标名单数据中的名称进行分词，得到预处理名单数据。

也就是说，在获得目标名单数据后，为了建立单词与名称的关系以建立倒排索引，同时也为了确定其中的每个单词的词频等，首先需要对该目标名单数据中的名称进行分词，得到预处理名单数据。

关于分词方法，可以采用现有的常规的分词方法，例如通过单词之间的空格进行分割等。

根据本发明的一些实施例，如图3所示，该预处理可以进一步包括如下步骤：

S221：对所述目标名单数据中的名称进行分词；

S222：去除分词结果中的非单词字符并统一转成小写，所述非单词字符包括标点符号、特殊字符中的任意一种或多种；

S223：去除其中的停顿词，得到所述预处理名单数据。

不管是英语还是中文还是其他国家语言，不管是公司名称还是人名，由于记载方式不同、获取该名单数据的来源不同等，通常在名单列表数据中含有大量的非单词字符，例如“-”、“/”等特殊字符，以及“，”、“。”等标点符号。此外，在目标名单数据是通过语音识别得到的情况下，通常还含有停顿词，例如“a”、“an”、“um”等。为了更准确地统计词频、建立单词与名称之间的倒排索引，在对名称进行分词之后，还需要去除这些非单词字符、停顿词等。

此外，由于数据来源不同，有的单词采用全大写字母，有的只有首字母采用大写，有的整个单词均采用小写，为了提高后续筛查的响应速度和相似度计算的速度，优选将其统一转成小写。

此外，在进行上述处理时，可以仅针对名称部分进行预处理，对于关联信息等可以不用处理。

以上述表1的目标名称列表为例，经过预处理后，其中，标号为1的目标名称变成“abc nano material import export company”这6个独立的单词组成的名称。其他类推。

S230:对所述预处理名单数据中的每条名称，剔除高频词，得到倒排索引用名单数据，其中，所述高频词为在所述目标名单数据中的出现频次高于词频阈值的词。

根据本发明实施例，为了提高响应速度，在构建倒排索引时进行了优化。具体而言，在构建倒排索引时去除了原始的目标名单列表中出现频次较高(词频阈值)的“高频词”。

例如，对于上述标号为1的预处理后的名称“abc nano material import exportcompany”而言，发现其中“import”、“export”、“company”这三个词在原始目标名称队列中出现频次达到20％以上，频次显著高与其他词，因此进行剔除，得到对应的倒排索引用名称“abc nano material”。其他标号的名称类推，不再赘述。

在整理倒排索引用数据时，如果针对每一个词条中的每一个单词，先统计其在整个预处理名单数据中出现的频次，此后在进行相应剔除，则占用的CPU资源极大，且处理速度慢。

为此，根据本发明的一些实施例，如图4a所示，首先基于预处理名单数据，统计高频词，建立高频词库，此后，只要确定每个单词是否属于高频词库中的单词即可。具体如下：

S231：基于所述预处理名单数据，建立高频词库。

作为一个示例，如图4b所示，建立高频词库具体包括：

S2311：对于所述预处理名单数据中的每个单词，统计其在所述预处理名单数据中的出现频次；

S2312：抽取其中出现频次高于所述词频阈值的词，建立所述高频词库。

在此，需要说明的是，关于词频阈值，对于不同的名单属性、不同的精度/响应时间要求，可以适当设定，对于其具体值不作特殊限制。

此外，收录进高频词库中的单词的排列顺序，既可以以首字母进行排序，另外，也可以以出现频次从高到低的顺序进行排序。这样有助于后续排查高频词的过程中，尽快确定出现频次较高的单词并尽快剔除，降低整体的排查时间，提高效率。

S232：对于所述预处理名单数据中的每条名称，剔除其中属于所述高频词库中的高频词，得到所述倒排所引用名单数据。

此外，在确定了高频词之后，可以直接剔除。另外，也可以在剔除高频词的同时，以相应的字符进行填充，例如，每剔除一个高频词，以该高频词的首字母进行替代，这样在后续进行名单筛查时可以通过单词数量进一步删除掉不必要的噪点，极大地加速响应。

此外，对于有些名称，可能其中含有大量的“高频词”，如果将所有高频词都删除，可能该名称也将消失或难以得到有效的信息。

为此，根据本发明的一些实施例，如图4b所示，在构建倒排索引时通过对高频词的删除规则进行限定，可以确保名称中都为高频词或大部分为高频词时不会漏报。

S2321:确定每条名称中的每个单词是否属于所述高频词库中的高频词；

S2322:计算每条名称中属于所述高频词的单词数量占该名单所有单词数量的占比，当所述占比为预定值以下时，则删除所有高频词；当所述占比高于预定值时，则保留所有单词。

此外，在高频词库中的单词带有其出现频次的情况下，也可以按照出现频次由高到低删除相应占比(即预定值)的高频词。由此，一方面可以提高筛查的响应时间，同时也能够极大地避免发生漏报。

S240：基于所述倒排索引用数据，建立倒排索引，其中，所述倒排索引中的名称带有名称标识，根据所述名称标识能够确定其所对应的目标名称。

也就是说，在获得倒排索引用数据，在倒排索引用数据的各个单词与其对应的名称之间，建立倒排索引。以便于后续根据检索用单词通过倒排索引查到对应的名称。

关于建立倒排索引的具体方法，没有特殊的限定。

根据本发明的一些实施例，例如：对于所述倒排索引用数据中的每个名称，利用Lucence中间件建立其中的单词和该条名称的倒排索引。

此外，倒排索引中名称与原始的目标名单数据中的名称有一一对应关系，根据利用倒排索引得到的检索结果，可以获得原始的目标名称。

例如，在利用“abc”单词通过倒排索引进行检索时，作为其中一条检索结果，将得到标号1的“abc nano material”，而根据标号1(作为名称标识)，则可以从原始的目标名单数据中获得整个信息即如表1中的第二行标号1所对应的目标名称的信息以及关联信息。

本发明一个实施例还提供一种倒排索引构建装置300，如图5所示，包括：第一获取模块310、预处理模块320、处理模块330、以及构建模块340。

其中，获取模块310用于获取目标名单数据，所述目标名单数据中包括目标名称队列。

预处理模块320用于对所述目标名单数据中的名称进行分词，得到预处理名单数据。

处理模块330用于对所述预处理名单数据中的每条名称，剔除高频词，得到倒排索引用名单数据，其中，所述高频词为在所述目标名单数据中的出现频次高于词频阈值的词。

构建模块340基于所述倒排索引用数据，建立所述倒排索引，其中，所述倒排索引中的名称带有名称标识，根据所述名称标识能够确定其所对应的目标名称。

需要说明的是，上述实施例提供的倒排索引构建装置300，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的倒排索引构建装置与相应方法实施例属于同一构思，其具体实现过程详见对应方法实施例，这里不再赘述。

(二)接下来，结合附图描述根据本发明实施例的名单筛查方法及名单筛查装置。

如图6所示，根据本发明实施例的名单筛查方法，包括：

S410：获取待筛查名称。

也就是说，当业务人员需要进行名单筛查时，如图1所示，通过业务终端110输入待筛查名称。业务终端110获得该待筛查名称后，向服务器120发出名单筛查请求。由此，服务器120获取待筛查名称。

S420：基于所述待筛查名称通过倒排索引进行检索，得到检索结果名称表，其中，所述倒排索引中保存有倒排索引名称队列，所述倒排索引名称队列中的名称不含高频词，且所述倒排索引名称队列中的名称带有名称标识，通过所述名称标识能够获取所对应的目标名称，所述高频词为出现频率高于词频阈值的单词。

也就是说，服务器120在收到名单筛查请求之后，基于所述待筛查名称通过倒排索引进行检索，得到检索结果名称表。

关于倒排索引，参考上述对于倒排索引的构建方法中所记载的，本发明的名单筛查方法，通过对所利用的倒排索引进行优化，以便在输入的待筛查名称中含有高频词时服务器120也能够做到快速响应。

具体而言，在构建倒排索引时，剔除掉高频词，换言之，所构建的倒排索引中，作为检索对象的名称中极大地降低了高频词出现的频次(例如，只有在高频词占原名称的单词数量占比高于预定值时才进行保留)。在待检索名称中含有高频词的情况下，由于检索对象的名称中极大地降低了高频词出现的频次，因此筛查时间得到极大缩短，能够实现快速响应。

例如，在待筛查名称为“Cde Nano-Material Export Company”的情况下，由于该待筛查名称中含有“Export”这一高频词，通过现有的倒排索引进行名称筛查时由于所对标的目标名称很多将花去较长的筛查时间，响应也变慢，而通过上述介绍的根据本发明的倒排索引，由于剔除了高频词，使得本发明的倒排索引中对标的目标名称大幅减少，从而能够实现快速响应。关于倒排索引中如何去除高频词，可以参考上述倒排索引的构建方法中的记载，在此省略其详细说明。

根据本发明的一些实施例，如图7所示，步骤S420具体可以包括：

S421：对所述待筛查名称进行预处理，得到待检索用词。

关于预处理，可以参考上述在构建倒排索引时对于目标名称的预处理过程。具体而言，可以包括：对所述待筛查名称进行分词；去除分词结果中的非单词字符并统一转成小写，所述非单词字符包括标点符号、特殊字符中的任意一种或多种；去除其中的停顿词，得到所述待检索用词。

关于具体的细节，可以参考上述倒排索引的构建方法中的记载，在此不再进行详细说明。

S422：基于所述待检索用词中的每个单词，通过所述倒排索引检索包含该单词的名称，得到所述检索结果名称表。

也就是说，在得到检索词之后，利用每个单词，逐一在倒排索引中进行检索，得到倒排索引中的一条或多条标的的名称(即：进行了剔除高频词处理的名称)，在每个单词检索之后汇总所有的检索结果，得到所述检索结果名称表。

S430：基于所述检索结果名称表以及各名称的名称标识，确定对应的目标名称结果表。

由于在构建倒排索引时，每个倒排索引中的名称中带有名称标识(例如在目标名称队列中的标号)，通过该名称标识即可获得对应的原始的目标名称，汇总得到目标名称结果表。

S440：计算待筛查名称与所述目标名称结果表中的名称相似度。

也就是说，将输入的“待筛查名称”，以及原始的“目标名称”进行比对，确定名称相似度。

关于计算相似度的具体算法没有特殊限制，例如可以包括：

S450：输出相似度高于相似度阈值的目标名称。

也就是说，服务器120在筛查、计算结束后，作为响应，向业务终端110输出。

在此，需要说明的是，对于不同的检索需求、精度要求，相似度阈值可以进行相应调整。

此外，为了更多的了解其相应信息，在原始的目标名单数据含有目标名称的关联信息的情况下，在输出相似度高于相似度阈值的目标名称的同时，还可以获取该目标名称的关联信息并与目标名称一并输出。

本发明一个实施例还提供一种名单筛查装置500，如图8所示，包括：第二获取模块510、检索模块520、检索结果处理模块530、计算模块540、以及输出模块550。

其中，第二获取模块510用于获取待筛查名称。

检索模块520用于基于所述待筛查名称通过倒排索引进行检索，得到检索结果名称表。其中，所述倒排索引中保存有倒排索引名称队列，所述倒排索引名称队列中的名称不含高频词，且所述倒排索引名称队列中的名称带有名称标识，通过所述名称标识能够获取所对应的目标名称，所述高频词为出现频率高于词频阈值的单词。

检索结果处理模块530用于基于所述检索结果名称表以及各名称的名称标识，确定对应的目标名称结果表。

计算模块540用于计算待筛查名称与所述目标名称结果表中的名称相似度；

输出模块550用于输出相似度高于相似度阈值的目标名称。

需要说明的是，上述实施例提供的名单筛查装置500，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的倒排索引构建装置与相应方法实施例属于同一构思，其具体实现过程详见对应方法实施例，这里不再赘述。

本发明一个实施例还提供了一种电子设备，该电子设备包括处理器和存储器，该存储器中存储有至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的倒排索引的构建方法。

此外，本发明一个实施例还提供了另一种电子设备，该电子设备包括处理器和存储器，该存储器中存储有至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的名单筛查方法。

这两种电子设备，除了存储器中所存储的指令或程序不同之外，其他没有特殊限制。下面合并在一起进行说明。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

结合参考说明书附图9，所示为根据本发明一个实施例的电子设备800的框图。电子设备800可以包括一个或多个处理器802，与处理器802中的至少一个连接的系统控制逻辑808，与系统控制逻辑808连接的系统内存804，与系统控制逻辑808连接的非易失性存储器(NVM)806，以及与系统控制逻辑808连接的网络接口810。

处理器802可以包括一个或多个单核或多核处理器。处理器802可以包括通用处理器和专用处理器(例如，图形处理器，应用处理器，基带处理器等)的任何组合。在本文的一些实施例中，处理器802可以被配置为执行根据如图2至图4所示的关于倒排索引的构建方法的各种实施例的一个或多个实施例。在本文的一些实施例中，处理器802可以被配置为执行根据如图6至图7所示的各种实施例的一个或多个实施例。

在一些实施例中，系统控制逻辑808可以包括任意合适的接口控制器，以向处理器802中的至少一个和/或与系统控制逻辑808通信的任意合适的设备或组件提供任意合适的接口。

在一些实施例中，系统控制逻辑808可以包括一个或多个存储器控制器，以提供连接到系统内存804的接口。系统内存804可以用于加载以及存储数据和/或指令。在一些实施例中设备800的内存804可以包括任意合适的易失性存储器，例如合适的动态随机存取存储器(DRAM)。

NVM/存储器806可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性的计算机可读介质。在一些实施例中，NVM/存储器806可以包括闪存等任意合适的非易失性存储器和/或任意合适的非易失性存储设备，例如HDD(Hard Disk Drive，硬盘驱动器)，CD(Compact Disc，光盘)驱动器，DVD(Digital Versatile Disc，数字通用光盘)驱动器中的至少一个。

NVM/存储器806可以包括安装在设备800的装置上的一部分存储资源，或者它可以由设备访问，但不一定是设备的一部分。例如，可以经由网络接口810通过网络访问NVM/存储806。

特别地，系统内存804和NVM/存储器806可以分别包括：指令820的暂时副本和永久副本。指令820可以包括：由处理器802中的至少一个执行时导致设备800实施如图2至图4所示的倒排索引的构建方法的指令。在另一些实施例中，指令820可以包括：由处理器802中的至少一个执行时导致设备800实施如图6-7所示的名单筛查的指令。在一些实施例中，指令820、硬件、固件和/或其软件组件可另外地/替代地置于系统控制逻辑808，网络接口810和/或处理器802中。

网络接口810可以包括收发器，用于为设备800提供无线电接口，进而通过一个或多个网络与任意其他合适的设备(如前端模块，天线等)进行通信。在一些实施例中，网络接口810可以集成于设备800的其他组件。例如，网络接口810可以集成于处理器802的通信模块，系统内存804，NVM/存储器806，和具有指令的固件设备(未示出)中的至少一种，当处理器802中的至少一个执行所述指令时，设备800实现如图2至图4所示的关于倒排索引的构建方法的各种实施例的一个或多个实施例。在另一些实施例中，当处理器802中的至少一个执行所述指令时，设备800实现根据如图6至图7所示的各种实施例的一个或多个实施例。

网络接口810可以进一步包括任意合适的硬件和/或固件，以提供多输入多输出无线电接口。例如，网络接口810可以是网络适配器，无线网络适配器，电话调制解调器和/或无线调制解调器。

在一个实施例中，处理器802中的至少一个可以与用于系统控制逻辑808的一个或多个控制器的逻辑封装在一起，以形成系统封装(SiP)。在一个实施例中，处理器802中的至少一个可以与用于系统控制逻辑808的一个或多个控制器的逻辑集成在同一管芯上，以形成片上系统(SoC)。

设备800可以进一步包括：输入/输出(I/O)设备812。I/O设备812可以包括用户界面，使得用户能够与设备800进行交互；外围组件接口的设计使得外围组件也能够与设备800交互。在一些实施例中，设备800还包括传感器，用于确定与设备800相关的环境条件和位置信息的至少一种。

在一些实施例中，用户界面可包括但不限于显示器(例如，液晶显示器，触摸屏显示器等)，扬声器，麦克风，一个或多个相机(例如，静止图像照相机和/或摄像机)，手电筒(例如，发光二极管闪光灯)和键盘。

在一些实施例中，外围组件接口可以包括但不限于非易失性存储器端口、音频插孔和电源接口。

在一些实施例中，传感器可包括但不限于陀螺仪传感器，加速度计，近程传感器，环境光线传感器和定位单元。定位单元还可以是网络接口810的一部分或与网络接口810交互，以与定位网络的组件(例如，全球定位系统(GPS)卫星)进行通信。

可以理解的是，本发明实施例示意的结构并不构成对电子设备800的具体限定。在本发明另一些实施例中，电子设备800可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

本发明一个实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质可设置于电子设备之中以保存用于实现一种理赔处理方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的倒排索引的构建方法。

本发明一个实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质可设置于电子设备之中以保存用于实现一种理赔处理方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的名单筛查方法。

可选地，在本发明实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本发明一个实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序/指令，当计算机程序产品在电子设备上运行时，该计算机程序/指令被处理器加载并执行以实现上述各种可选实施例中提供的倒排索引的构建方法的步骤。

本发明一个实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序/指令，当计算机程序产品在电子设备上运行时，该计算机程序/指令被处理器加载并执行以实现上述各种可选实施例中提供的名单筛查方法的步骤。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种倒排索引的构建方法，其特征在于，包括：

基于所述倒排索引用数据，建立倒排索引，其中，所述倒排索引中的名称带有名称标识，根据所述名称标识能够确定其所对应的目标名称。

2.根据权利要求1所述的构建方法，其特征在于，所述对所述目标名单数据中的名称进行分词，得到预处理名单数据包括：

对所述目标名单数据中的名称进行分词；

去除其中的停顿词，得到所述预处理名单数据。

3.根据权利要求1所述的构建方法，其特征在于，所述对所述预处理名单数据中的每条名称，剔除高频词，得到倒排索引用数据包括：

基于所述预处理名单数据，建立高频词库；

4.根据权利要求3所述的构建方法，其特征在于，所述基于所述预处理名单数据，建立高频词库包括：

5.根据权利要求3所述的构建方法，其特征在于，所述对于所述预处理名单数据中的每条名单，剔除其中属于所述高频词库中的高频词，得到所述倒排所引用名单数据包括：

当所述占比为预定值以下时，则删除所有高频词，

当所述占比高于预定值时，则保留所有单词。

6.根据权利要求1所述的构建方法，其特征在于，所述基于所述倒排索引用数据，建立所述倒排索引包括：

7.一种倒排索引构建装置，其特征在于，包括：

8.一种名单筛查方法，其特征在于，包括：

输入待筛查名称；

计算待筛查名称与所述目标名称结果表中的名称相似度；

输出相似度高于相似度阈值的目标名称。

9.根据权利要求8所述的名单筛查方法，其特征在于，所述基于所述待筛查名称通过倒排索引进行检索，得到检索结果名称表包括：

对所述待筛查名称进行预处理，得到待检索用词；

10.根据权利要求9所述的名单筛查方法，其特征在于，所述对所述待筛查名称进行预处理，得到待检索用词包括：

对所述待筛查名称进行分词；

去除其中的停顿词，得到所述待检索用词。

11.根据权利要求8所述的名单筛查方法，其特征在于，所述计算待筛查名称与所述目标名称结果表中的名称相似度包括：

12.根据权利要求8所述的名单筛查方法，其特征在于，所述输出相似度高于相似度阈值的目标名称包括：

确定相似度高于相似度阈值的目标名称；

13.一种名单筛查装置，其特征在于，包括：

第二获取模块，用于获取待筛查名称；

输出模块，用于输出相似度高于相似度阈值的目标名称。

14.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-6任意一项所述的倒排索引的构建方法。

15.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求8-12任意一项所述的名单筛查方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-6任意一项所述的倒排索引的构建方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求8-12任意一项所述的名单筛查方法。

18.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-6任意一项所述的倒排索引的构建方法的步骤。

19.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求8-12任意一项所述的名单筛查方法的步骤。