CN107330057A

CN107330057A - 一种ElasticSearch搜索相关度算法优化方法及系统

Info

Publication number: CN107330057A
Application number: CN201710512775.0A
Authority: CN
Inventors: 谭云峰
Original assignee: SCIENCE PARK DEVELOPMENT Co Ltd OF HARBIN ENGINEERING UNIVERSITY
Current assignee: SCIENCE PARK DEVELOPMENT Co Ltd OF HARBIN ENGINEERING UNIVERSITY
Priority date: 2017-06-29
Filing date: 2017-06-29
Publication date: 2017-11-07
Anticipated expiration: 2037-06-29
Also published as: CN107330057B

Abstract

本发明提出了一种ElasticSearch搜索相关度算法优化方法和系统，属于相关度算法优化技术领域。解决了现有相关度算法不准确的问题，该相关度算法优化方法和系统通过把相关度算法计算出来的评分作为新算法中的一个维度，然后结合字符相关度评分维度进行评分，得到评分后，把两个评分根据倍数进行缩放并相加，然后将搜索推荐文档按照评分大小排序并获得匹配最准确字符。所述相关度算法优化方法和系统适用于各种搜索相关度算法的优化中。

Description

一种ElasticSearch搜索相关度算法优化方法及系统

技术领域

本发明涉及一种搜索相关度算法优化系统和方法，属于相关度算法优化技术领域。

背景技术

在这个互联网无处不在的年代，各种各样的数据存在我们生活中，比如说我们每日微信的聊天记录，朋友圈每日看不完的状态，还有每日更新的新闻信息，公司内部的各种邮件，电商网站的商品信息等等。

我们想快速的查找目标数据，用传统的数据库like不能很好的匹配目标数据，于是产生了一项互联网技术搜索，搜索是根据相关度算法去给搜索中的每个文档打分，分数最高的就是搜索推荐的最匹配的数据。

现有相关度算法由如下部分组成：

score(q,d)＝queryNorm(q)*coord(q,d)*∑(tf(t in d)*idf(t)²*t.getBoost()*norm(t,d))(t inq)

queryNorm(q)对查询进行一个归一化，不影响排序，因为对于同一个查询这个值是相同的，但是对term于ES来说，必须在分片是1的时候才不影响排序，否则的话，还是会有一些细小的区别，有几个分片就会有几个不同的queryNorm值

coord(q,d)＝overlap/maxoverlap其中overlap是检索命中query中term的个数，maxoverlap是query中总共的term个数。

tf(t in d)＝√frequency即term t在文档中出现的次数。

idf(t)＝1+log(numDocs/(docFreq+1))log是以e为底的，不是以10或者以2为底，这点需要注意，numDocs是指所有的文档个数，如果有分片的话，就是指的是在当前分片下总的文档个数，docFreq是指相关文档的个数，如果有分片对应的也是在当前分片下相关的个数。

norm(d)＝1/√numTerms numTerms是文档的总长度。

可见现有相关度算法为了实现相关度算法的准确性，利用多个维度从多个不同维度给文档打分，分别是(1)coord(q,d)关键词分词之后，文档命中个数除以分词总数维度；(2)tf(t ind)每个分词在文档中出现的频率维度；(3)idf(t)每个分词的总文档数除以分词相关文档总数维度；(4)norm(d)每个相关文档的长度维度

但是，现有的搜索相关度算法经常出现其匹配的数据不是用户想要目标数据缺陷，不能准确的为用户推荐目标数据，浪费用户查找目标数据的时间的问题。

发明内容

本发明为了解决现有技术中ElasticSearch搜索服务器的相关度算法搜索推荐结果不准确的问题，提出了一种ElasticSearch搜索相关度算法优化系统和方法。

一种ElasticSearch搜索相关度算法优化系统，所采取的技术方案如下：所述相关度算法优化系统包括：

用于对输入的文字或字符进行搜索的搜索模块；

用于判断输入的文字或字符是否是汉字的判断模块；

用于将输入的汉字解析成汉语拼音的解析模块；

用于将每个汉语拼音、拼音首字母或英文字符与索引库中的内容进行匹配并生成匹配结果的匹配模块；

用于判断是否对所述匹配模块生成的匹配结果进行相关度算法优化的相关度优化判断模块；

用于在所述相关度优化判断模块对所述匹配结果判断为不进行相关度算法优化后，将所述匹配结果确定为查询无结果并返回空值的返回空值模块；

用于在所述相关度优化判断模块对所述匹配结果判断为进行相关度算法优化后，对所述匹配结果进行相关度算法优化的相关度优化模块。

进一步地，所述相关度算法优化系统还包括：

用于将所述搜索模块的搜索结果发送至所述判断模块的搜索结果发送模块；

用于将所述判断模块判断出的汉字数据发送至所述解析模块的汉字发送模块；

用于将所述判断模块判断出的非汉字数据发送至所述解析模块的非汉字发送模块；

用于将所述解析模块获得的解析数据发送至匹配模块的解析数据发送模块；

用于将所述匹配模块生成的匹配结果发送至相关度优化判断模块的匹配数据发送模块；

用于所述相关度优化判断模块确定进行相关度优化后，将所述匹配模块生成的匹配结果发送至相关度优化模块的优化数据发送模块；

用于所述相关度优化判断模块确定不进行相关度优化后，将所述匹配模块生成的匹配结果发送至所述返回空值模块的非优化数据发送模块。

进一步地，所述相关度优化模块包括：

用于采用循环遍历原算法推荐文档列表的文档列表模块；

用于将所述匹配结果中的关键词拆分成一个个字符的关键词拆分模块；

用于判断关键词拆分模块拆分出的字符在所述文档列表的文档中是否命中的字符命中判断模块；

用于对所述关键词拆分模块拆分出的字符进行字符评分的字符评分模块；

用于计算所述字符命中判断模块判断出的命中字符在关键词中的位置权重的关键词位置权重计算模块；

用于计算所述字符命中判断模块判断出的命中字符在所述文档中的位置权重的文档位置权重计算模块；

用于递推判断与所述命中字符相邻的上一个字符是否连续相关的递推判断模块；

用于将所述递推判断模块判断出的连续相关字符进行字符评分的连续相关字符评分模块；

用于计算连续相关字符的连续权重的连续权重计算模块；

用于根据缩放比例，将所述命中字符在关键词中的位置权重、在所述文档中的位置权重和连续相关字符的连续权重相加并获得最终评分结果的相加模块；

用于按照最终评分结果从高到低重新进行排列并生成新文档列表并获得最终评分最高即为匹配最准确字符的文档重新排列模块。

进一步地，所述相关度优化模块还包括：

用于将字符命中判断模块判断出的命中字符发送至所述字符评分模块、关键词位置权重计算模块和文档位置权重计算模块的命中字符发送模块；

用于将所述字符评分模块、关键词位置权重计算模块和文档位置权重计算模块将生成的结果发送至递推判断模块的数据发送模块；

用于所述递推判断模块将判断出的连续相关字符发送至所述连续相关字符评分模块、连续相关字符关键词位置权重计算模块和连续相关字符文档位置权重计算模块的连续相关字符发送模块；

用于将所述连续相关字符评分模块、连续相关字符关键词位置权重计算模块和连续相关字符文档位置权重计算模块生成的结果发送至相加模块的结果发送模块；

用于将相加模块生成的相加结果发送至文档重新排列模块的相加结果发送模块。

进一步地，所述缩放比例的数值为0.3至0.7。

一种ElasticSearch搜索相关度算法优化方法，所采取的技术方案如下：所述相关度算法优化方法包括：

用于对输入的文字或字符进行搜索的搜索步骤；

用于判断输入的文字或字符是否是汉字的判断步骤；

用于将输入的汉字解析成汉语拼音的解析步骤；

用于将每个汉语拼音、拼音首字母或英文字符与索引库中的内容进行匹配并生成匹配结果的匹配步骤；

用于判断是否对所述匹配步骤生成的匹配结果进行相关度算法优化的相关度优化判断步骤；

用于在所述相关度优化判断步骤对所述匹配结果判断为不进行相关度算法优化后，将所述匹配结果确定为查询无结果并返回空值的返回空值步骤；

用于在所述相关度优化判断步骤对所述匹配结果判断为进行相关度算法优化后，对所述匹配结果进行相关度算法优化的相关度优化步骤。

进一步地，所述相关度算法优化方法还包括：

用于将所述搜索步骤的搜索结果发送至所述判断步骤的搜索结果发送步骤；

用于将所述判断步骤判断出的汉字数据发送至所述解析步骤的汉字发送步骤；

用于将所述判断步骤判断出的非汉字数据发送至所述解析步骤的非汉字发送步骤；

用于将所述解析步骤获得的解析数据发送至匹配步骤的解析数据发送步骤；

用于将所述匹配步骤生成的匹配结果发送至相关度优化判断步骤的匹配数据发送步骤；

用于所述相关度优化判断步骤确定进行相关度优化后，将所述匹配步骤生成的匹配结果发送至相关度优化步骤的优化数据发送步骤；

用于所述相关度优化判断步骤确定不进行相关度优化后，将所述匹配步骤生成的匹配结果发送至所述返回空值步骤的非优化数据发送步骤。

进一步地，所述相关度优化步骤包括：

用于采用循环遍历原算法推荐文档列表的文档列表步骤；

用于将所述匹配结果中的关键词拆分成一个个字符的关键词拆分步骤；

用于判断关键词拆分步骤拆分出的字符在所述文档列表的文档中是否命中的字符命中判断步骤；

用于采用循环遍历原算法推荐文档列表的文档列表步骤；

用于对所述关键词拆分步骤拆分出的字符进行字符评分的字符评分步骤；

用于计算所述字符命中判断步骤判断出的命中字符在关键词中的位置权重的关键词位置权重计算步骤；

用于计算所述字符命中判断步骤判断出的命中字符在所述文档中的位置权重的文档位置权重计算步骤；

用于递推判断与所述命中字符相邻的上一个字符是否连续相关的递推判断步骤；

用于将所述递推判断步骤判断出的连续相关字符进行字符评分的连续相关字符评分步骤；

用于计算连续相关字符的连续权重的连续权重计算步骤；

用于根据缩放比例，将所述命中字符在关键词中的位置权重、在所述文档中的位置权重和连续相关字符的连续权重相加并获得最终评分结果的相加步骤；

用于按照最终评分结果从高到低重新进行排列并生成新文档列表获得最终评分最高即为匹配最准确字符的文档重新排列步骤。

进一步地，所述相关度优化步骤还包括：

用于将字符命中判断步骤判断出的命中字符发送至所述字符评分步骤、关键词位置权重计算步骤和文档位置权重计算步骤的命中字符发送步骤；

用于将所述字符评分步骤、关键词位置权重计算步骤和文档位置权重计算步骤将生成的结果发送至递推判断步骤的数据发送步骤；

用于所述递推判断步骤将判断出的连续相关字符发送至所述连续相关字符评分步骤、连续相关字符关键词位置权重计算步骤和连续相关字符文档位置权重计算步骤的连续相关字符发送步骤；

用于将所述连续相关字符评分步骤、连续相关字符关键词位置权重计算步骤和连续相关字符文档位置权重计算步骤生成的结果发送至相加步骤的结果发送步骤；

用于将相加步骤生成的相加结果发送至文档重新排列步骤的相加结果发送步骤。

进一步地，所述缩放比例的数值为为0.3至0.7。

本发明有益效果：

本发明所述一种ElasticSearch搜索相关度算法优化方法和系统，通过省略idf(t)和norm(d)两个维度的评价，而通过计算命中字符获得评价结果和在关键词中的位置权重、在文档中的位置权重，同时计算与命中字符连续相关的上一个字符的连续权重，将三个权重根据倍数进行缩放并相加，进而获得匹配最准确字符的方法实现对现有的相关度算法进行了优化。

本发明所述ElasticSearch搜索相关度算法优化方法和系统通过上述手段有效避免了现有相关度算法由于每个输入分词只要在搜索的所有文档中命中数越小，其相关度评分越大而导致偏离搜索系统推荐行为，进而导致搜索匹配不准确的问题。同时，也避免了现有相关度中当命中字符一样时，相关度算法根据文档长度越小相关度越高的原则来评价相关度，忽略命中字符内容相关度进而导致搜索匹配结果不准确的问题。

此外，本发明通过省略idf(t)和norm(d)两个维度的评价，而通过计算命中字符获得评价结果和在关键词中的位置权重、在文档中的位置权重，同时计算与命中字符连续相关的上一个字符的连续权重，将三个权重根据倍数进行缩放并相加，进而获得匹配最准确字符的方法有效提高了搜索匹配目标的准确性，与原相关度算法相比，本发明提出的优化方法和系统使相关度算法的准确性提高了95％以上，是匹配错误率降低到了0.002％，极大程度上克服了原有搜索相关度算法的缺陷，能够准确的为用户推荐目标数据，极大程度上节省用户查找目标数据的时间。

附图说明

图1为本发明所述一种ElasticSearch搜索相关度算法优化系统的系统结构示意图。

图2为本发明所述一种ElasticSearch搜索相关度算法优化系统的相关度优化模块的模块结构示意图。

图3为本发明所述一种ElasticSearch搜索相关度算法优化方法的整体处理流程图。

图4为本发明所述一种ElasticSearch搜索相关度算法优化方法的相关度优化流程图。

具体实施方式

下面结合具体实施例对本发明做进一步说明，但本发明不受实施例的限制。

实施例一、结合图1详细说明本实施例，一种ElasticSearch搜索相关度算法优化系统，所采取的技术方案如下：所述相关度算法优化系统包括：

用于对输入的文字或字符进行搜索的搜索模块；

用于判断输入的文字或字符是否是汉字的判断模块；

用于将输入的汉字解析成汉语拼音的解析模块；

本实施例通过对输入文字或字符的进一步判断和分解为更小单元的字符，提高了目标匹配的精确性，有效提高了匹配过程中的准确性。

实施例二、结合图1详细说明本实施例，本实施例是对实施例一所述一种ElasticSearch搜索相关度算法优化系统的进一步限定，所述相关度算法优化系统还包括：

本实施例增加了搜索结果发送模块、汉字发送模块、非汉字发送模块、解析数据发送模块、匹配数据发送模块、优化数据发送模块和非优化数据发送模块，用于实现所述相关度算法优化系统中相关数据信息的传输。

实施例三、结合图2详细说明本实施例，本实施例是对实施例一所述一种ElasticSearch搜索相关度算法优化系统的进一步限定，所述相关度优化模块包括：

用于采用循环遍历原算法推荐文档列表的文档列表模块；

用于计算连续相关字符的连续权重的连续权重计算模块；

本实施例是对相关度优化模块的进一步限定，通过省略idf(t)和norm(d)两个维度的评价，减小nort(t,d)文档长度所占计算的权重，减小idf(t)总文档数和命中文档数权重，同时加上每个字符在文档中的位置命中情况和连续命中情况。有效避免了现有相关度算法由于每个输入分词只要在搜索的所有文档中命中数越小，其相关度评分越大而导致偏离搜索系统推荐行为，进而导致搜索匹配不准确的问题。同时，也避免了现有相关度中当命中字符一样时，相关度算法根据文档长度越小相关度越高的原则来评价相关度，忽略命中字符相关连续内容的相关度进而导致搜索匹配结果不准确的问题。

并且，通过计算命中字符获得评价结果和在关键词中的位置权重、在文档中的位置权重，同时计算与命中字符连续相关的上一个字符的连续权重，将三个权重根据倍数进行缩放并相加的方法评价与命中字符连续相关的字符，进而增加命中字符相关连续内容的评价，实现对现有相关度算法准确性的进一步优化，使相关度算法的准确性提高了95％以上，是匹配错误率降低到了0.01％，极大程度上克服了原有搜索相关度算法的缺陷，能够准确的为用户推荐目标数据，极大程度上节省用户查找目标数据的时间。

实施例四、结合图2详细说明本实施例，本实施例是对实施例三所述一种ElasticSearch搜索相关度算法优化系统的进一步限定，所述相关度优化模块还包括：

本实施例增加了命中字符发送模块、数据发送模块、连续相关字符发送模块、结果发送模块和相加结果发送模块，用于实现相关度优化模块内部各数据的传输。

实施例五、结合图2详细说明本实施例，本实施例是对实施例三所述一种ElasticSearch搜索相关度算法优化系统的进一步限定，所述相关度优化模块还包括：所述缩放比例的数值为为0.3至0.7。

本实施例进一步细化了缩放比例数值，使相关度算法的准确性提高了95％以上，是匹配错误率降低到了0.01％，极大程度上克服了原有搜索相关度算法的缺陷，能够准确的为用户推荐目标数据，极大程度上节省用户查找目标数据的时间。

实施例六、结合图3说明本实施例。一种ElasticSearch搜索相关度算法优化方法，所采取的技术方案如下：所述相关度算法优化方法包括：

用于对输入的文字或字符进行搜索的搜索步骤；

用于判断输入的文字或字符是否是汉字的判断步骤；

用于将输入的汉字解析成汉语拼音的解析步骤；

实施例七、结合图3详细说明本实施例，本实施例是对实施例六所述一种ElasticSearch搜索相关度算法优化方法的进一步限定，所述相关度算法优化方法还包括：

本实施例增加了搜索结果发送步骤、汉字发送步骤、非汉字发送步骤、解析数据发送步骤、匹配数据发送步骤、优化数据发送步骤和非优化数据发送步骤，用于实现所述相关度算法优化系统中相关数据信息的传输。

实施例八、结合图4详细说明本实施例，本实施例是对实施例六所述一种ElasticSearch搜索相关度算法优化方法的进一步限定，所述相关度优化步骤包括：

用于采用循环遍历原算法推荐文档列表的文档列表步骤；

用于计算连续相关字符的连续权重的连续权重计算步骤；

本实施例把原来相关度算法，计算出来的评分作为我们新算法中的一个维度，然后结合字符相关度评分维度评分，两个评分根据倍数就行缩放，两个评分相加，搜索推荐文档按照评分大小排序。

字符相关度评分(算法的核心)：把搜索关键词拆成一个个字符，判断每个字符在文档中是否命中，命中就计算在关键词中的位置计算权重，同时计算该字符在文档中出现的位置计算权重，如果这个字符有上一个字符，这个字符和上一个字符在文档都命中，需要加上连续权重，三个权重相加，就是字符相关度评分。

本实施例是对相关度优化步骤的进一步限定，通过省略idf(t)和norm(d)两个维度的评价，减小nort(t,d)文档长度所占计算的权重，减小idf(t)总文档数和命中文档数权重，同时加上每个字符在文档中的位置命中情况和连续命中情况。有效避免了现有相关度算法由于每个输入分词只要在搜索的所有文档中命中数越小，其相关度评分越大而导致偏离搜索系统推荐行为，进而导致搜索匹配不准确的问题。同时，也避免了现有相关度中当命中字符一样时，相关度算法根据文档长度越小相关度越高的原则来评价相关度，忽略命中字符相关连续内容的相关度进而导致搜索匹配结果不准确的问题。

实施例九、结合图4详细说明本实施例，本实施例是对实施例八所述一种ElasticSearch搜索相关度算法优化方法的进一步限定，所述相关度优化步骤还包括：

本实施例增加了命中字符发送步骤、数据发送步骤、连续相关字符发送步骤、结果发送模块和相加结果发送步骤，用于实现相关度优化步骤内部各数据的传输。

实施例十、结合图4详细说明本实施例，本实施例是对实施例八所述一种ElasticSearch搜索相关度算法优化方法的进一步限定，实施例所述缩放比例的数值为为0.3至0.7。

实施例十一、本实施例是对实施例一所述一种ElasticSearch搜索相关度算法优化系统的详细描述，所述一种ElasticSearch搜索相关度算法优化系统的相关度算法优化代码具体如下：

虽然本发明已以较佳的实施例公开如上，但其并非用以限定本发明，任何熟悉此技术的人，在不脱离本发明的精神和范围内，都可以做各种改动和修饰，因此本发明的保护范围应该以权利要求书所界定的为准。

Claims

1.一种ElasticSearch搜索相关度算法优化系统，其特征在于，所述相关度算法优化系统包括：

用于对输入的文字或字符进行搜索的搜索模块；

用于判断输入的文字或字符是否是汉字的判断模块；

用于将输入的汉字解析成汉语拼音的解析模块；

2.根据权利要求1所述相关度算法优化系统，其特征在于，所述相关度算法优化系统还包括：

3.根据权利要求1所述相关度算法优化系统，其特征在于，所述相关度优化模块包括：

用于采用循环遍历原算法推荐文档列表的文档列表模块；

用于计算连续相关字符的连续权重的连续权重计算模块；

4.根据权利要求3所述相关度算法优化系统，其特征在于，所述相关度优化模块还包括：

用于所述递推判断模块将判断出的连续相关字符发送至所述连续相关字符评分模块和连续权重计算模块的连续相关字符发送模块；

用于将所述连续相关字符评分模块和连续权重计算模块生成的结果发送至相加模块的结果发送模块；

5.根据权利要求3所述相关度算法优化系统，其特征在于，所述缩放比例的数值为0.3至0.7。

6.一种ElasticSearch搜索相关度算法优化方法，其特征在于，所述相关度算法优化方法包括：

用于对输入的文字或字符进行搜索的搜索步骤；

用于判断输入的文字或字符是否是汉字的判断步骤；

用于将输入的汉字解析成汉语拼音的解析步骤；

7.根据权利要求6所述相关度算法优化方法，其特征在于，所述相关度算法优化方法还包括：

8.根据权利要求6所述相关度算法优化方法，其特征在于，所述相关度优化步骤包括：

用于采用循环遍历原算法推荐文档列表的文档列表步骤；

用于计算连续相关字符的连续权重的连续权重计算步骤；

9.根据权利要求8所述相关度算法优化方法，其特征在于，所述相关度优化步骤还包括：

用于将所述字符评分步骤、关键词位置权重计算步骤和文档位置权重计算步骤将生成的结果发送至递推判断模块的数据发送步骤；

用于所述递推判断步骤将判断出的连续相关字符发送至所述连续相关字符评分步骤和连续权重计算步骤的连续相关字符发送步骤；

用于将所述连续相关字符评分步骤和连续权重计算步骤生成的结果发送至相加步骤的结果发送步骤；

10.根据权利要求8所述相关度算法优化方法，其特征在于，所述缩放比例的数值为0.3至0.7。