CN110019638A

CN110019638A - 一种基于冷热词分离的索引方法

Info

Publication number: CN110019638A
Application number: CN201710579852.4A
Authority: CN
Inventors: 王武韬; 杨永盛; 魏世凯; 王峥
Original assignee: Nanjing Fiberhome Software Technology Co Ltd
Current assignee: NANJING FENGHUO TIANDI COMMUNICATION TECHNOLOGY Co.,Ltd.
Priority date: 2017-07-17
Filing date: 2017-07-17
Publication date: 2019-07-16

Abstract

本发明是一种基于海量数据的冷热词提取和分离方法以及其倒排索引的存储策略和检索技术，具体是指一种基于冷热词分离的索引方法，包括冷热词分离的索引创建方法和存储策略，包括：读取热词的正则表达式，用于文档内容里的冷热词提取；读取文档内容，该文档的内容用于创建倒排索引和检索；给文档分配唯一的id标识，该id分别存储在冷热词的倒排索引里；对文档的内容进行分词，以实现词到文档id的映射表；对切分的词进行正则表达式匹配，检查是否命中，如果命中，则将该词加入热词的倒排索引H中，如果未命中，则将该词加入冷词倒排索引C中。

Description

一种基于冷热词分离的索引方法

技术领域

本发明是一种基于海量数据的冷热词提取和分离方法以及其倒排索引的存储策略和检索技术，具体是指一种基于冷热词分离的索引方法。

背景技术

目前对于海量数据的检索，大多采用倒排索引的方法进行检索。由于海量数据的倒排索引过于庞大(TB级以上)，一般都是将其存储到容量较大且较便宜的低速SATA或SAS盘上，而不会将其存储到容量较小且较昂贵的高速SSD盘上。

对于大容量的海量数据索引，如果将其全部放在SATA或SAS盘上，那么检索数据的速度将受限于机械硬盘的读取性能。相对于高速的SSD盘，SATA盘或SAS的读取性能(IOPS)相对较差。如果要将大容量的海量索引全部存储在较昂贵的SSD盘上，虽然其检索数据的速度有较多幅度的提升，但这较为昂贵的价格让人难以承受。

发明内容

本发明的目的在于，提供一种基于冷热词分离的索引方法可通过文本匹配规则或方法，识别出冷词和热词，然后再对热词和冷词分别做存储和建索引处理。

发明解决其技术问题所采用的技术方案是：一种基于冷热词分离的索引方法，包括冷热词分离的索引创建方法和存储策略，包括如下步骤：

步骤一、读取热词的正则表达式，用于文档内容里的冷热词提取；

步骤二、初始化文档id为0，给每篇文档一个唯一的编号；

步骤三、读取文档内容，并为文档赋上当前的id值，该文档的内容用于创建倒排索引和检索；

步骤四、对文档的内容进行分词，分词是倒排索引必须做的重要步骤，以实现词到文档id的映射表，也即倒排表；

步骤五、对刚刚切分的词进行正则表达式匹配，并标示匹配结果；

步骤六、检查分词的匹配结果。如果匹配，则将该词加入热词的倒排索引H中，如果不匹配，则将该词加入冷词倒排索引C中。倒排索引H和倒排索引C是2个独立的倒排索引；

步骤七、判断是否还有文档，如果有则将文档id增1，并执行步骤三，否则执行步骤八；

步骤八：将热词数据的倒排索引H存储到高速的SSD盘上。通过正则表达式提取的热词数据的倒排索引大小不会太大，存储在高速的SSD盘上，可以提高热词数据的检索速度；

步骤九：将冷词的倒排索引C存储在相对低速的SATA盘或SAS盘上。

作为优选，还包括冷热词分离的倒排索引检索方法，其具体操作步骤描述如下：

步骤一：读取热词的正则表达式，该正则表达式和创建索引时的正则表达式一致，用于检索分离出查询串中的冷热词；

步骤二：读取查询关键词；

步骤三：对查询串进行分词，分词是为了在倒排索引中查找词的倒排表；

步骤四：对刚刚切分的词进行正则表达式匹配，检查是否命中，如果命中，则表明是热词，需要从高速的SSD盘上读取该词的倒排表，如果未命中，则表明是冷词，需要从低速的SATA盘或SAS盘上读取该词的倒排表；

步骤五：判断查询串是否分词完毕，如果是，则转步骤6，否则转3；

步骤六：对切分后的每个词以在查询串中的逻辑关系(AND,OR)，对各个倒排表进行相应的交并集运算；

步骤七：输出运算结果，也就是该查询串的检索结果，是一批文档id集或空集。

本发明的有益效果是：通过文本匹配规则或方法(不限于正则表达式，关键词匹配等方法)，识别出冷词和热词，然后再对热词和冷词分别做存储和建索引处理。热词的数据量远远小于冷词的数据量，故将数据量相对较少的热词的索引存储到高速的SSD盘上，而将数据量相对较多的冷词的倒排索引存储到相对低速的SATA盘或SAS盘上。通过这种冷热词分离的方法来提高热词数据的检索速度，同时降低SSD盘的使用成本，达到一种性能和成本上的平衡。

附图说明

图1为本发明的基于冷热词分离的索引方法的冷热词的索引创建和存储流程图。

图2为本发明的基于冷热词分离的索引方法的冷热词的索引检索流程图。

具体实施方式

现在结合附图对发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明发明的基本结构，因此其仅显示与发明有关的构成。

一种基于冷热词分离的索引方法，其特征在于：包括热词的种类识别。其主要思想是分析领域内大量的查询串的组成和特征，获取常用查询串(热词)的种类。例如某领域内，通过观察大量的查询串，发现其中的热词种类为手机号码和固定电话号码。

一种基于冷热词分离的索引方法，其特征在于：包括热词的提取方法。其主要思想是为热词提供合适的正则表达式或匹配规则。例如，提取手机号码和固定电话号码的正则表达式如下表格所示：

匹配手机号码的正则表达式为表格1所示：

表格1：匹配手机号码的正则表达式

匹配固定电话号码的正则表达式为表格2所示：

表格2：匹配固定电话号码的正则表达式

一种基于冷热词分离的索引方法，包括冷热词分离的索引创建方法和存储策略。具体操作步骤描述如下：

步骤一：读取热词的正则表达式，用于文档内容里的冷热词提取；

步骤二：初始化文档id为0，给每篇文档一个唯一的编号；(id分别存储在冷热词的倒排索引里，用于检索时，方便来自不同倒排索引的多个词的倒排表做交并集运算)

步骤三：读取文档内容，并为文档赋上当前的id值，该文档的内容用于创建倒排索引和检索；

步骤四：对文档的内容进行分词，分词是倒排索引必须做的重要步骤，以实现词到文档id的映射表，也即倒排表；

步骤五：对刚刚切分的词进行正则表达式匹配，并标示匹配结果；

步骤六：检查分词的匹配结果。如果匹配，则将该词加入热词的倒排索引H中，如果不匹配，则将该词加入冷词倒排索引C中。倒排索引H和倒排索引C是2个独立的倒排索引；

步骤七：判断是否还有文档，如果有则将文档id增1，并执行步骤三，否则执行步骤八；

本专利的冷热词识别和分离方法，能够将数据量相对较少的热词数据的倒排索引放入高速的SSD盘上，而将数据量相对较多的冷词数据的倒排索引放入SATA盘或SAS盘上。相对于将全部数据(不分冷热词)的放入SSD盘上，本专利提供的方法，降低了硬件的使用成本；相对于将全部数据放入SATA盘或SAS盘上，本专利提供的方法，提高了热词数据的检索速度。

本实施样例为创建索引样例，描述如下：

I.基于用户的查询日志，获取所有的查询串，例如某场景下的用户查询串列表

192.168.1.1
	127.0.0.1
255.255.255.255
	root

通过分析这些查询串，获取热词的组成和种类，本例中大部分的查询串都是ipv4地址，即热词的种类是ipv4地址

定义热词的匹配规则，本例中需要对热词ipv4地址设定一个正则表达式：“[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}”

对文档进行分词，并利用正则表达式识别热词和冷词，然后分别对热词和冷词建索引，并把热词的索引存储在SSD盘上，把冷词的索引存储在SATA盘上，具体的操作流程如下：

1：读取热词的匹配规则(可以有多种)，本例中是ipv4的正则表达式：

[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}

2：初始化文档id为0

3：读取文档，并把当前的文档id 0赋给给文档，例如当前文档的内容如下：

你登陆的ip为：127.0.0.1，浏览器为IE8

4：对文档的内容进行分词，上面的文档经过分词后，得到如下词集合

5：对上面的词分别进行正则表达式匹配(本例中是ipv4的表达式)，匹配结果如下：

你	不匹配
		登陆	不匹配
ip	不匹配
		127.0.0.1	匹配
浏览器	不匹配
		IE8	不匹配

6：将匹配的词(即热词)放到热词的倒排索引中，将不匹配的词(即冷词)放到冷词的倒排索引中

7：继续读取下一个文档，如果还有文档，则将文档id增1，并执行步骤3，否则执行步骤8

8：将热词的倒排索引存储到SSD盘上，冷词的倒排索引存储到SATA盘上。

以上述依据发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改，本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于冷热词分离的索引方法，其特征在于：包括冷热词分离的索引创建方法和存储策略，包括如下步骤：

步骤二、初始化文档id为0，给每篇文档一个唯一的编号；

2.根据权利要求1基于冷热词分离的索引方法，其特征在于：还包括冷热词分离的倒排索引检索方法，其具体操作步骤描述如下：

步骤二：读取查询关键词；