CN107122222B

CN107122222B - 一种字符串的搜索系统及方法

Info

Publication number: CN107122222B
Application number: CN201710262622.5A
Authority: CN
Inventors: 裴舒逸; 杨庆
Original assignee: Shenzhen Dapu Microelectronics Co Ltd
Current assignee: Shenzhen Dapu Microelectronics Co Ltd
Priority date: 2017-04-20
Filing date: 2017-04-20
Publication date: 2019-02-19
Anticipated expiration: 2037-04-20
Also published as: CN107122222A

Abstract

本发明公开了一种字符串的搜索系统及方法，该搜索系统包括：RE搜索引擎，RE搜索引擎包括RE编译器和RE处理器，RE处理器设于固态硬盘上；RE编译器用于获取用户输入的正则表达式和待匹配文件信息，将正则表达式编译成指令序列，把指令序列发送给RE处理器，把待匹配文件信息发送给CPU核；RE处理器用于接收所述指令序列，及接收Flash控制器发送的根据CPU核的数据获取请求从Flash阵列中获取的待匹配数据，从待匹配数据中搜索符合指令序列的数据，并将搜索结果返回给RE编译器；所述数据获取请求由CPU核根据所述待匹配文件信息向Flash控制器发送。本发明提供的搜索系统搜索和查询是在离数据最近的存储系统进行，大大地减轻了服务器CPU的负载、提高了搜索查询速度。

Description

一种字符串的搜索系统及方法

技术领域

本发明涉及数据搜索技术领域，尤其涉及一种字符串的搜索系统及方法。

背景技术

在企业大数据中，85％的数据是非结构化的文本日志数据。在这类数据中快速查找、搜索信息对企业决策至关重要，例如在社交网上分析消费者的走向和趋势可直接指导如何发放产品广告，金融分析可能会在茫茫的大数据中寻找“我买了房子”，公安部门在反恐过程中可能会寻找并分析有关穆斯林极端分子的某些术语等等。在没有预先设计好的以关键字为索引的结构数据的情况下，随机字符串的搜索还是以扫描整个文件的方式来找，主要的扫描搜索工具有Grep和AWK，但这些软件工具的数度很慢，用最快的服务器运行，最快也只能达到100－300MBPS，远远落后于如今最基本的网络数度和存储数度。最近，密齿根大学的科研人员提出了附在CPU旁的硬件加速器来完成在文件里的字符搜索，大大地提高了扫描的数度。

但是，如果利用目前的扫描工具查找字符串，则需要把数据一一从存储系统调到内存，然后服务器的CPU用类似Grep的软件工具扫描、查找，要花几个小时的时间，并且占用了大量的服务器资源；而硬件加速器虽然提高了纯软件的扫描数度，但是还是要首先将大量的数据从存储系统读进内存然后进行扫描搜索，其存储瓶颈以及存储与CPU的瓶颈问题依然没有解决。

因此，需要一种速度快、能够避免存储瓶颈的字符串的搜索系统。

发明内容

本发明所要解决的技术问题在于提供了一种字符串的搜索系统及方法，该搜索系统大大地减轻了服务器CPU的负载、提高了搜索查询速度。

为解决上述技术问题，本发明采用以下技术方案：

一方面，提供了一种字符串的搜索系统，该搜索系统包括：RE搜索引擎，及位于固态硬盘上的CPU核、Flash控制器和Flash阵列；所述RE搜索引擎包括RE编译器和RE处理器，所述RE处理器设于固态硬盘上；

所述RE编译器用于获取用户输入的正则表达式和待匹配文件信息，将所述正则表达式编译成指令序列，把所述指令序列发送给RE处理器，把所述待匹配文件信息发送给CPU核；

所述RE处理器用于接收所述指令序列，及接收Flash控制器发送的根据CPU核的数据获取请求从Flash阵列中获取的待匹配数据，从所述待匹配数据中搜索符合所述指令序列的数据，并将搜索结果返回给RE编译器；所述数据获取请求由CPU核根据所述待匹配文件信息向Flash控制器发送。

其中，所述RE编译器包括编译预处理模块、词法分析模块、语法分析模块和随机数产生模块，编译预处理模块用于对用户输入的正则表达式进行输入合法性检查和优化处理；词法分析模块和语法分析模块用于将经过优化的正则表达式翻译成指令序列；RE编译器还包括随机数产生模块，用于产生在预置数值范围的预置个数的随机数，作为RE处理器中的初始随机种子。

其中，所述RE处理器包括数据过滤模块、多路调度模块、运算模块和多级归并排序模块：

所述数据过滤模块用于根据所述指令序列中的前缀匹配规则，结合正则表达式的字边界规则或一位负向零宽断言对所述待匹配数据进行过滤；

所述多路调度模块用于利用所述初始随机种子采用伪随机洗牌算法得到运算模块中的运算单元的调度结果；

所述运算模块包括若干个的运算单元，用于根据调度结果按照指令序列中的指令编码和操作数完成过滤后的待匹配数据的搜索运算；

所述多级归并排序模块对搜索运算产生的结果按照偏移地址从小到大的顺序排列得到搜索结果，并把所述搜索结果返回给RE编译器。

其中，所述RE编译器位于主机上或所述固态硬盘的CPU核上，主机与固态硬盘通过PCIe接口进行数据传输。

其中，所述RE编译器在主机上由C语言实现。

其中，所述RE处理器基于FPGA由硬件描述语言Verilog或VHDL实现。

其中，所述运算模块包括16个运算单元。

其中，所述多级归并排序模块由级联的多路归并排序算法实现。

其中，所述编译预处理模块还用于将正则表达式中的重复操作进行展开，语法错误检查，对于纯字符的匹配快速生成指令序列。

另一方面，提供了一种字符串的搜索方法，该搜索方法包括：

RE编译器获取用户输入的正则表达式和待匹配文件信息，将用户输入的正则表达式编译成指令序列，把所述指令序列发送给RE处理器，把所述待匹配文件信息发送给CPU核；

CPU核根据所述待匹配文件信息向Flash控制器发送数据获取请求；

Flash控制器根据所述数据获取请求从Flash阵列中获取待匹配数据，把所述待匹配数据发送给RE处理器；

RE处理器接收所述指令序列和所述待匹配数据，从所述待匹配数据中搜索符合所述指令序列的数据，并将搜索结果返回给RE编译器。

与现有技术相比，本发明的有益效果为：本发明搜索和查询是在离数据最近的存储设备或存储系统进行，无需将大量的数据调到服务器CPU内存，大大地减轻了服务器CPU的负载、提高了搜索查询速度，接近总线传输速度，与现有技术相比，查找速度可提高数十倍、甚至上百倍，从根本上解决了在大数据查找分析的存储瓶颈和存储系统与CPU接口的瓶颈问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据本发明实施例的内容和这些附图获得其他的附图。

图1是本发明具体实施方式中提供的一种字符串的搜索系统的实施例的结构框图。

图2是本发明具体实施方式中提供的RE编译器的实施例的结构框图。

图3是本发明具体实施方式中提供的RE处理器的实施例的结构框图。

图4是本发明具体实施方式中提供的一种字符串的搜索方法的实施例的方法流程图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面将结合附图对本发明实施例的技术方案作进一步的详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图1～3对本发明实施例作进一步的详细描述。请参考图1，其是本发明具体实施方式中提供的一种字符串的搜索系统的实施例的方法流程图，如图1所示，在一些实施例中，该搜索系统包括：RE(Regular Expression，正则表达式)搜索引擎，及位于固态硬盘2上的CPU核21、Flash控制器23和Flash阵列24；RE搜索引擎包括RE编译器11和RE处理器22，所述RE处理器22设于固态硬盘2上；RE编译器11用于用于获取用户输入的正则表达式和待匹配文件信息，将所述正则表达式编译成指令序列，把所述指令序列发送给RE处理器22，把所述待匹配文件信息发送给CPU核21；RE处理器22用于接收所述指令序列，及接收Flash控制器23发送的根据CPU核21的数据获取请求从Flash阵列24中获取的待匹配数据，从所述待匹配数据中搜索符合所述指令序列的数据，并将搜索结果返回给RE编译器11；所述数据获取请求由CPU核21根据所述待匹配文件信息向Flash控制器23发送。用户通过主机输入正则表达式和待匹配文件信息，RE编译器11获取用户输入的正则表达式和待匹配文件信息，RE处理器22完成搜索之后将搜索结果返回给RE编译器11，RE编译器11对搜索结果进行处理，并通过主机呈现给用户，用户便可操作主机从RE编译器中获取搜索结果对应的数据。

本发明实施例提供的搜索系统搜索和查询由设于离数据最近的固态硬盘的RE处理器进行，Flash控制器将待匹配数据发送给RE处理器，RE处理器从待匹配数据中搜索符合所述指令序列的数据，在离数据最近的存储设备或存储系统进行搜索和查询，无需将大量的数据调到服务器CPU内存，大大地减轻了服务器CPU的负载、提高了搜索查询速度，接近总线传输速度，与现有技术相比，查找速度可提高数十倍、甚至上百倍，从根本上解决了在大数据查找分析的存储瓶颈和存储系统与CPU接口的瓶颈问题。

图2是本发明具体实施方式中提供的RE编译器的实施例的结构框图，如图2所示，在一些实施例中，RE编译器11包括编译预处理模块112、词法分析模块113、语法分析模块114和随机数产生模块111，编译预处理模块112用于对用户输入的正则表达式进行输入合法性检查和优化处理；词法分析模块113和语法分析模块114用于将经过优化的正则表达式翻译成指令序列；随机数产生模块111用于产生在预置数值范围的预置个数的随机数，作为RE处理器中的初始随机种子。

在一些优选的实施例中，编译预处理模块112还用于将正则表达式中的重复操作进行展开，语法错误检查，对于纯字符的匹配快速生成指令序列。

图3是本发明具体实施方式中提供的RE处理器的实施例的结构框图，如图3所示，在一些优选的实施例中，RE处理器22包括数据过滤模块221、多路调度模块222、运算模块223和多级归并排序模块224：数据过滤模块221用于根据所述指令序列中的前缀匹配规则，结合正则表达式的字边界规则或一位负向零宽断言对所述待匹配数据进行过滤；多路调度模块222用于利用所述初始随机种子采用伪随机洗牌算法得到运算模块223中的运算单元的调度结果；运算模块223包括若干个的运算单元2231～223N，用于根据调度结果按照指令序列中的指令编码和操作数完成过滤后的待匹配数据的搜索运算；多级归并排序模块224对搜索运算产生的结果按照偏移地址从小到大的顺序排列得到搜索结果，并把所述搜索结果返回给RE编译器11。

数据过滤模块221根据所述指令序列中的前缀匹配规则，结合正则表达式的字边界规则或一位负向零宽断言对待匹配数据进行过滤，使得搜索系统可根据用户的需求查找100％的匹配、部分匹配、带有通配符的字符串、变长的字符串、带有特殊字符的字符串等等，数据过滤221加载字符串的同时对待匹配数据进行过滤，将前缀匹配的字符地址传给RE处理器22，不保存前缀不匹配的字符的地址，支持向前一位的零宽断言过滤，用户可配置，这一步骤大大减轻RE处理器22的压力。

多路调度模块222采用伪随机洗牌算法得到运算单元2231～223N的调度结果，使运算单元2231～223N根据调度结果按照指令序列中的指令编码和操作数完成过滤后的待匹配数据的搜索运算，采用伪随机洗牌算法可以避免由于待匹配数据固定格式造成单路繁忙问题，每个地址按调度结果传给N个运算单元，N为2的n次方，n为正整数。作为一个优选的实施例，运算模块包括16个运算单元，16个运算单元并行处理，各个运算单元相互独立地执行指令系列，大大提高了搜索查询速度。N取16，与选择的总线宽度匹配，有利于提高搜索查询速度。作为一个优选的实施例，N也可为其他2的n次方，如32、64等。

其中，采用伪随机洗牌算法每一时刻都随机产生一个0～15的排列，例如某一时刻产生的随机排列为(14，8，9，2，10，5，13，0，4，15，7，1，6，11，12)，每个数出现且仅出现一次，即实现0～15的随机洗牌算法，实现对16个运算单元的调度。作为一个优选的实施例，RE编译器内部的随机数产生模块产生32个互不相同的1～255的随机数，其中4个随机数为1组，用来计算一个0～23的随机数。计算方法如下：每个随机数在FPGA中作为lfsr(线性反馈移位寄存器)的初始状态，在每个时钟到来的时候会产生1个0～31的随机数。每个lfsr模块产生的随机数在0～23的概率为0.875，在24～31之间的概率为0.125。因此4个lfsr中产生的4个随机数中至少有一个随机数在0～23范围内的概率为0.996。当随机数都不在0～23之间时，默认数值为0。这样8个0～23的随机数用来产生0～15的排列。如果是0～32的随机序列则需要32+16个随机数，这和具体算法有关，但整体框架不变，都是由RE编译器产生初始随机种子，再由FPGA上的RE运算器产生随机数。

在一些优选的实施例中，RE编译器11设置于主机1上，如图1所示。作为另一个优选的实施例RE编译器11也可设置于固态硬盘2的CPU核21上。在一些优选的实施例中，主机1与固态硬盘2通过PCIe接口3进行数据传输，通过AXI(Advanced eXtensible Interface)总线传输数据。在一些优选的实施例中，RE编译器11在主机1上由C语言实现，RE处理器22在固态硬盘2上基于FPGA(Field－Programmable Gate Array，现场可编程门阵列)由硬件描述语言Verilog或VHDL(Very-High-Speed Integrated Circuit Hardware DescriptionLanguage，超高速集成电路硬件描述语言)等实现。

在一些优选的实施例中，所述多级归并排序模块224由级联的多路归并排序算法实现，将搜索结果按照在文本中的偏移地址从小到大的顺序进行排列，并将最后结果返回给RE编译器11，返回结果的格式为：{行号+偏移地址+长度}。RE编译器对返回的结果进行处理，并通过主机呈现给用户。

本发明实施提供的搜索系统搜索和查询由设于离数据最近的固态硬盘的RE处理器进行，Flash控制器将待匹配数据发送给RE处理器，RE处理器从待匹配数据中搜索符合所述指令序列的数据，在离数据最近的存储设备或存储系统进行搜索和查询，无需将大量的数据调到服务器CPU内存，大大地减轻了服务器CPU的负载、提高了搜索查询速度，接近总线传输速度，与现有技术相比，查找速度可提高数十倍、甚至上百倍，从根本上解决了在大数据查找分析的存储瓶颈和存储系统与CPU接口的瓶颈问题，而且可根据用户的需求查找100％的匹配、部分匹配、带有通配符的字符串、变长的字符串、带有特殊字符的字符串等等，该搜索系统具有并行和流水线的特殊设计，有效提高了搜索查询速度，具有反向查找功能，根据字母出现的频率，在所查找的字符串内任意一点开始搜索，能快速在非结构化的数据里查找随机任意字符串。

以下是本发明具体实施方式中提供的一种字符串的搜索方法的实施例，系统的实施例基于上述的一种字符串的搜索系统的实施例实现，在搜索方法中未尽的描述，请参考前述搜素系统的实施例。

请参考图4，其是本发明具体实施方式中提供的一种字符串的搜索方法的实施例的方法流程图，如图4所示，在一些优选的实施例中，该搜索方法包括：

步骤S101：RE编译器获取用户输入的正则表达式和待匹配文件信息，将所述正则表达式编译成指令序列，把所述指令序列发送给RE处理器，把所述待匹配文件信息发送给CPU核。

步骤S102：CPU核根据所述待匹配文件信息向Flash控制器发送数据获取请求。

步骤S103：Flash控制器根据所述数据获取请求从Flash阵列中获取待匹配数据，把所述待匹配数据发送给RE处理器。

步骤S104：RE处理器接收和所述待匹配数据，从所述待匹配数据中搜索符合所述指令序列的数据，并将搜索结果返回给RE编译器。

用户可操作主机从RE编译器中获取搜索结果对应的数据，以搜索美国电话号码为例，对搜索系统的搜索流程做进一步说明。如美国电话号码的正则表达式如下：(？<＝\s)\d{3}[-.]？\d{3}[-.]？\d{4}，其中“(？<＝\s)”表示匹配串的前面必须是空格字符，但是该空格字符不计入匹配串的长度；“\d”表示0-9的数字，后面的{3}表示前面的元素重复3次；“[-.]”表示“-”或“.”，后面的“？”表示前面的元素，即“[-.]”出现0次或1次。以此类推，该正表达式匹配的内容如下加黑部分所示：

p:444-555-1234f:246.555.8888m:1235554567

具体处理流程如下：

(1)RE编译器将用户输入的正则表达式编译成指令序列，将指令序列发送给RE处理器，并将用户输入的待匹配文件信息发送给CPU核。示例的正则表达式产生的指令序列如表1所示：

表1指令序列

0.lsplit 3,3,3

1.prange 48,57

2.ljmp 3,3,0

3.split 4,5

4.ppair 45,46

5.lsplit 3,3,8

6.prange 48,57

7.ljmp 3,3,5

8.split 9,10

9.ppair 45,46

10.lsplit 4,4,13

11.prange 48,57

12.ljmp 4,4,10

13.match

其中“lsplit”表示循环开始，后面参数依次为循环次数上限、下限和循环结束的下一条指令地址；“prange 48，57”表示匹配ascii码介于48到57之间的字符；“ljmp”表示循环结束，后面的参数依次为循环次数上限、下限和循环起始指令地址；“ppair 45，46”表示匹配ascii码为54或46的字符；“match”表示匹配结束。

(2)CPU核根据待匹配文件信息向Flash控制器发送数据获取请求。

(3)Flash控制器根据数据获取请求从Flash阵列中获取待匹配数据，将待匹配数据发送给RE运算器。

(4)RE处理器接收所述指令序列、及所述待匹配数据，根据所述指令序列从所述待匹配数据中搜索符合指令序列的数据，并将搜索结果返回给RE编译器。若运算器包括16个运算单元，具体过程如下：

a)前缀检查：每16B数据为一组，因此输入数据分为三组“p:_444-555-1234”、“f:_246.555.8888”和“m:_1235554567”。过滤器按照“\d”规则对前缀进行匹配，只有偏移为3的“4”、偏移为19的“2”和偏移为35的“1”符合要求(见下划线处)。

b)多路调度器产生为三组数据分别产生三组16个伪随机洗牌的结果，因此偏移3、19、35分别进入不同的运算单元。否则，由于3、19、35除以16的余数均为3，则都会被发送给运算单元3，造成运算单元3繁忙，其他运算器空闲的状态。

b)以偏移为3为例，运算单元N根据指令序列依次对后续“246.555.8888”进行匹配，结果为匹配成功。

c)多级归并排序模块采用归并排序算法对16个运算单元的搜索结果进行排序。归并排序分为二级，{0，1，2，3}分为一组进行归并排序，以此类推，16个运算单元会得到4个结果，再将这个结果进行归并排序，系统最终输出的搜索结果({行号，偏移地址，长度})为：{0，3，12}，{0，19，12}，{0，35，10}。

d)RE处理器把搜索结果返回给RE编译器。RE编译器对搜索结果进行处理，并通过主机呈现给用户。

本发明实施搜索和查询是在离数据最近的存储设备或存储系统进行，无需将大量的数据调到服务器CPU内存，大大地减轻了服务器CPU的负载、提高了搜索查询速度，接近总线传输速度，与现有技术相比，查找速度可提高数十倍、甚至上百倍，从根本上解决了在大数据查找分析的存储瓶颈和存储系统与CPU接口的瓶颈问题，而且可根据用户的需求查找100％的匹配、部分匹配、带有通配符的字符串、变长的字符串、带有特殊字符的字符串等等，该搜索系统具有并行和流水线的特殊设计，有效提高了搜索查询速度，具有反向查找功能，根据字母出现的频率，在所查找的字符串内任意一点开始搜索，能快速在非结构化的数据里查找随机任意字符串。

以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理，而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式，这些方式都将落入本发明的保护范围之内。

Claims

1.一种字符串的搜索系统，其特征在于，该搜索系统包括：RE搜索引擎，及位于固态硬盘上的CPU核、Flash控制器和Flash阵列；所述RE搜索引擎包括RE编译器和RE处理器，所述RE处理器设于固态硬盘上；

2.根据权利要求1所述的一种字符串的搜索系统，其特征在于，所述RE编译器包括编译预处理模块、词法分析模块、语法分析模块和随机数产生模块，编译预处理模块用于对用户输入的正则表达式进行输入合法性检查和优化处理；词法分析模块和语法分析模块用于将经过优化的正则表达式翻译成指令序列；RE编译器还包括随机数产生模块，用于产生在预置数值范围的预置个数的随机数，作为RE处理器中的初始随机种子。

3.根据权利要求2所述的一种字符串的搜索系统，其特征在于，所述RE处理器包括数据过滤模块、多路调度模块、运算模块和多级归并排序模块：

4.根据权利要求3所述的一种字符串的搜索系统，其特征在于，所述RE编译器位于主机上或所述固态硬盘的CPU核上，主机与固态硬盘通过PCIe接口进行数据传输。

5.根据权利要求2所述的一种字符串的搜索系统，其特征在于，所述RE编译器在主机上由C语言实现。

6.根据权利要求3所述的一种字符串的搜索系统，其特征在于，所述RE处理器基于FPGA由硬件描述语言Verilog或VHDL实现。

7.根据权利要求3所述的一种字符串的搜索系统，其特征在于，所述运算模块包括16个运算单元。

8.根据权利要求3所述的一种字符串的搜索系统，其特征在于，所述多级归并排序模块由级联的多路归并排序算法实现。

9.根据权利要求2所述的一种字符串的搜索系统，其特征在于，所述编译预处理模块还用于将正则表达式中的重复操作进行展开，语法错误检查，对于纯字符的匹配快速生成指令序列。

10.一种基于如权利要求1至9任意一项所述的字符串的搜索系统的一种字符串的搜索方法，其特征在于，该搜索方法包括：

RE编译器获取用户输入的正则表达式和待匹配文件信息，将所述正则表达式编译成指令序列，把所述指令序列发送给RE处理器，把所述待匹配文件信息发送给CPU核；