CN111190948A

CN111190948A - 一种基于关键字排序的检索编码方法

Info

Publication number: CN111190948A
Application number: CN201911367338.XA
Authority: CN
Inventors: 赵成军; 雷艳玲; 孟祥乾; 郭奇; 孟凡涛; 王恒峰
Original assignee: Aerospace Information Co Ltd Enterprise Service Branch
Current assignee: Aerospace Information Co Ltd Enterprise Service Branch
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-05-22

Abstract

本发明提出了基于关键字排序的检索编码方法，该方法包括：获得关键字有序集合，其中每个关键字具有索引；将所述关键字有序集合中的关键字进行组合，形成不同的子集；将所述子集分级、排序，得到关键字有序组合集合；分别针对所述子集和所述关键字有序组合集合进行分级元组编码。本方法所涉及的集合数据多、过程复杂，分级性、有序性原则如何编码体现，一套简明易懂、合理高效的编码方法显的非常重要。使用“分级元组编码”方式，可以很好的继承关键字有序组合集合中的分级性、有序性原则，不仅有利于计算机系统实现，并且能有效提高检索结果的匹配度。

Description

一种基于关键字排序的检索编码方法

技术领域

本发明涉及的是计算机技术检索领域，尤其涉及搜索引擎、排序、优选结果集的相关技术和方法，具体涉及一种基于关键字排序的检索编码方法。

背景技术

当今社会是信息爆炸的时代，如何从海量数据搜索、提取想要的信息，是一门重要的技术。基于关键字检索、排序、选优相关技术也比较多，一般方法多是按某一个或多个关键字简单而机械的查询或者联合查询。比较好一点方法，或是加入包含权重系统等特征的字典，或是引入算法以计算权重等特征，进行结果上的排序和选优，这在一定程度上提高了的查询的匹配度。另外，检索所涉及的集合数据多、过程复杂，系统如何编码？一套简明易懂、合理高效的编码方法显的非常重要。

本文提供了一种更优的检索、排序、选优的技术编码方法，本方法基于“关键字顺序集合”和“关键字有序组合集合”的分级元组编码，强调有序顺序性、组合分级性，并支持关键字、词、句多样化处理，从整体上准确匹配结果，有效提高检索精度，并有一定的灵活性和易用性。

发明内容

为了解决现有技术的问题，本发明提供了一种基于关键字排序的检索编码方法，该方法包括：

获得关键字有序集合，其中每个关键字具有索引；

将所述关键字有序集合中的关键字进行组合，形成不同的子集；

将所述子集分级、排序，得到关键字有序组合集合；

分别针对所述子集和所述关键字有序组合集合进行分级元组编码。

进一步地，所述子集的分级包括：

第N级，对应由N个关键字组合而成的子集。

进一步地，所述子集的索引由组合该子集的关键字的索引从小到大组合而成；

同一级别的所述子集按照索引排序，索引越小排序时越靠前，查优度越高。

进一步地，针对所述子集的分级元组编码为：

(Lev级别，构成子集Key的序列)，进一步表示为：

(n，Ki序列)

其中n为当前子集级别，i为构成子集Key的顺序索引，Key的数量和n相等。

进一步地，由各个子集的分级元组编码组成关键字有序组合集合的分级元组编码列表，其中各个子集的分级元组编码在分级元组编码列表中的分级和排序，与子集在关键字有序组合集合中的分级和排序一致。

进一步地，将所述关键字有序集合中的关键字分成多组，将每个组内的关键字进行组合形成不同的子集，多组关键字形成多组不同的子集。

进一步地，将多组不同的子集进行分级、排序，得到关键字有序组合集合。

进一步地，获得关键字有序集合包括按照用户输入关键字的次序为关键字设置索引；

针对用户输入的句子，使用分词法提取各个关键字；

为提取到的关键字分配权重系数，基于权重系数为关键字设置索引。

进一步地，使用每一个子集元素进行查询检索，获得相应的结果集合。

进一步地，所述结果集合中的每个结果与对应的子集具有相同的分级和索引，并按照分级和索引排序。

本发明提供了一种基于关键字排序的检索编码方法，该方法具有以下特点和优势：

一、有序顺序性。本方法基于“关键字有序集合”和“关键字有序组合集合”，强调了关键字顺序和关键字组合顺序的重要性。权重系数的大小、用户输入的次序、词性等各种维度都可以看作顺序索引的体现。索引越小的排序应当越靠前。越靠前的子集表示查优度越高，即依此集合顺序进行信息检索所获取的结果是优的。

二、组合分级性。本方法中将关键字分组、分级构成各个子集。子集中关键字数量越多，则该子集等级越高，则查优度越高，即依高等级子集进行信息检索所获取的结果相对是优的。

三、基于分级元组编码。本方法所涉及的集合数据多、过程复杂，分级性、有序性原则如何编码体现，一套简明易懂、合理高效的编码方法显的非常重要。使用“分级元组编码”方式，可以很好的继承关键字有序组合集合中的分级性、有序性原则，不仅有利于计算机系统实现，并且能有效提高检索结果的匹配度。

四、支持关键字、词、句多样化。针对包含关键字序列的短语或词句，使用数据清洗或分词技术进行处理、分析、提取。用户输入是字、或词、或句，都可有效处理，提高应用的灵活性、易用性。

本方法基于“关键字有序集合”和“关键字有序组合集合”的分级元组编码，强调有序顺序性、组合分级性，且支持关键字、词、句多样化处理，从整体上准确匹配结果，有效提高检索精度，并有一定的灵活性和易用性。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本发明的基于关键字排序的检索编码方法的流程图。

图2是本发明实施例一的基于关键字排序的检索编码方法流程图。

图3是本发明实施例二的基于关键字排序的检索编码方法流程图。

图4是本发明实施例四的有两个关键字时关键字有序组合集合中子集特性示意图。

图5是本发明实施例四的有两个关键字时关键字有序组合集合中子集特性对应关系表。

图6是本发明实施例五的有三个关键字时关键字有序组合集合中子集特性示意图。

图7是本发明实施例五的有三个关键字时关键字有序组合集合中子集特性对应关系表。

图8是本发明实施例六的检索信息形成有序结果集合的流程图。

图9是本发明实施例七的检索信息形成有序结果集合的优化和扩展过程的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

如图1所示，本发明提供一种基于关键字排序的检索编码方法，该方法包括：

获得关键字有序集合，其中每个关键字具有索引；

将所述子集分级、排序，得到关键字有序组合集合；

具体地，获得关键字有序集合之前首先输入文本。输入文本的格式可以是包含关键字/词(以下统称为“关键字”Key，简写为K)的序列短语，也可以是完整的句子。

接下来，获取关键字有序集合。

1、针对关键字序列短语

进行数据清洗，包括去空格、去无意义的符号、去重复等过程。

2、针对完整的句子

使用分词法，提取各个关键字。

3、本步骤最终形成了关键字集合：{Ka，Kb，Kc…}

将集合中的关键字按顺序排序，得到“关键字有序集合”，即关键字的有序集合：

{K1，K2…Kn}，其中，n为索引；

所述“有序”，即有序性、索引化。关键字按顺序排序具体是指：

1、针对关键字序列：

以用户输入序列的次序为顺序索引，因为用户输入次序从某种程度上代表潜在想要搜寻内容的重要程度，在一定程度上也代表权重系数的大小。越靠前的关键字，重要程度越高、权重系数越大。

2、针对句子：

以分词法得到的关键字特征值按权重、词性等维度进行优先排序的次序为顺序索引。

顺序索引越小，表示排序时越靠前，所对应的查优度越高。所述“查优度”，是指按某关键字或其集合进行信息检索所获取的结果的优劣程度。查优度越高，表示查询所得的结果越佳。

理论上，权重系数越大的关键字或集合查优度越高；查询匹配、命中的关键字的数量越多，则查优度越高。

例如：由三个关键字形成的关键字有序集合：{K1，K2，K3}，其中包含K1、K2、K3共计三个关键字，且查优度K1>K2>K3，这是顺序性的体现。进一步的，两个关键字K1、K2对应的结果集比仅有一个关键字K1对应的结果集要优。

接下来，将关键字组合形成子集Kc。

将关键字有序集合{K1，K2…Kn}中不同的关键字Ki…Kj进行组合，可形成不同的子集(简称为Kc，表示为Ki…j，其中i，j为Key的顺序索引)。后续过程使用每一个子集进行查询、检索，都可对应相应的查询结果集合(表示为Si…j，其中i，j为Key的顺序索引)。

例如：两个Key的情况中，关键字有序集合为：{K1，K2}，可以相互组合形成子集：{K1，K2，K12}，对应查询结果集：{S1，S2，S12}。其中，K12表示由两个关键字K1和K2形成的一个关键字组合子集。对应的S12表示按K12查询、检索所得到的结果集。

最后，形成“关键字有序组合集合”。经上述步骤，形成的各个子集Kc再经过按顺序、分级排序，得到“关键字有序组合集合”。同样的，后续使用每一个子集元素进行查询、检索也对应着相应的结果集合，区别是相应的结果集合在整体上是有序化的，索引越小的、等级越高的，结果越优。

例如，各个子集按顺序排序过程遵循以下原则：

1、有序性(Sequential，简写Seq)：

子集进行顺序排序时，尽可能的与关键字有序集合中的索引顺序保持一致——索引越小的越靠前，排序时应当越向前排。越靠前的子集表示查优度越高，即依此集合顺序进行信息检索所获取的结果是优的。

2、分级性(Leveled，简写Lev)：

Lev1，对应有1个关键字的组合子集；Lev2，对应有两个关键字的组合子集；LevN对应有N个关键字组合的子集。子集中关键字数量越多，则该子集等级越高，则查优度越高，即依高等级子集进行信息检索所获取的结果相对是优的。

上述子集排序过程的有序性、分级性原则，决定了：

针对同一级别Lev的子集(即具有相同数量的关键字数量)中关键字的索引顺序与“关键字排序表”顺序索引越一致，查优度越高。例如：同一Lev中查优度：K12>K13，排序K12比K13靠前；

不同级别Lev集合，等级越高的集合，其排序应当越靠前，这样才能获取相对较高的查优度。即：不同Lev时查优度：LevN中的子集>LevN-1中的子集，排序：LevN中的子集比LevN-1的子集靠前。

本方法所涉及的集合多、过程复杂，分级性、有序性原则如何通过编码体现，是目前的主要问题。因此，一套简明易懂、合理高效的编码方法显的非常重要。

本发明中涉及的集合如下：

关键字集合：

{Ka，Kb，Kc…}，其中，a,b,c...为了表示不同的关键字；

关键字有序集合：

{K1，K2…Kn}，其中，n为索引，是大于等于1的正整数；

关键字组合子集和相应结果子集：

关键字组合子集：Kc，表示为Ki…j，其中i，j为Key的顺序索引，例如K12，表示K1和K2两个关键字的组合。

结果子集：Sc，表示为Si…j，其中i,j为Key的顺序索引。例如：S12表示按K12查询、检索所得到的结果子集。

关键字组合集合和相应结果集合：

关键字组合集合即：各个关键字组合子集Kc，所形成的集合。

相应结果集合即：各个结果子集Sc，所形成的集合。

例如：两个Key的情况中，关键字有序集合为：{K1,K2}，可以相互组合形成子集：{K1,K2,K12}，对应查询结果集：{S1,S2,S12}。其中，K12表示由两个关键字K1和K2形成的一个关键字组合子集。对应的S12表示按K12查询、检索所得到的结果集。

使用“分级元组编码”方式，可以很好的继承关键字有序组合集合中的分级性、有序性原则，不仅有利于计算机系统实现，并且能有效提高检索结果的匹配度。关键字组合子集、关键字有序组合集合、结果集合等都可使用此方式进行编码。

具体地，分级元组编码包括：

元组：使用小括号包含的元素序列，各元素以逗号分割。

分级元组：第一个元素包含级别的元组。可表示为：

(级别，其它元素序列)

具体方式如下：

1、关键字组合子集

针对所述子集的分级元组编码为：

(Lev级别，构成子集Key的序列)，进一步表示为：

(n，Ki序列)

例如，某一个级别的关键字组合子集：Kc，使用“分级元组编码”方式在计算机系统中进行编码表示如下：

(Lev级别，构成子集Key的序列)，进一步表示为：

(n，Ki序列)

例如：设定有三个关键字K1、K2、K3。

lev3级别的某子集K123，使用“元组编码”可表示为：(3，K1，K2，K3)；

lev3级别的某子集K23，使用“元组编码”可表示为：(2，K2，K3)；

2、关键字有序组合集合

由各个子集的分级元组编码组成关键字有序组合集合的分级元组编码列表，其中各个子集的分级元组编码在分级元组编码列表中的分级和排序，与子集在关键字有序组合集合中的分级和排序一致。

关键字有序组合集合即：在“关键字组合集合”的基础上，按上述所述的有序性、分级性原则，进一步排序调整后所形成的有序集合。

关键字组合集合是由不同的Kc组成。Kc可使用“分级元组编码”表示，则关键字有序组合集合可以使用“分级元组编码”的列表来表示，这种编码方式很好的继承了有序组合集合的分级性、有序性原则。编码如下：

[(n，Ki序列)，…]

例如：以下是具有两个关键字的有序组合集合的编码例子：

[(2，K1，K2)，

(1，K1)，

(1，K2)]

为便于理解本发明实施例的方案及其效果，以下给出本发明方法的具体应用示例。本领域技术人员应理解，该示例仅为了便于理解本发明，其任何具体细节并非意在以任何方式限制本发明。

本发明包含有以下步骤，为了详细阐述各个步骤的实施，结合了必要的附图、表、流程。简单的步骤简单阐述，重要、复杂的步骤加入了更细化步骤以进一步的解释说明。

实施例一：

图2是本发明实施例的基于关键字排序的检索编码方法流程图。如图2所示，根据“关键字有序集合”形成“关键字有序组合集合”的详细步骤，如下：

1、计算关键字有序集合{K1，K2…Kn}中关键字的数量N。如果N为0，直接结束，否则继续以下步骤；

2、初始化M＝N、空集合S＝{}；

3、从高级别至低级别，依次计算各个级别LevM对应的集合，并将所得所有子集Kc追加至集合S的末尾；

4、令M＝M-1，如果M不为0，则重复步骤3，否则结束，S即所得关键字有序组合集合。

实施例二：

图3是本发明实施例二的基于关键字排序的检索编码方法流程图。如图3所示，LevM中的子集即由M个Key组合而成的子集构成。其计算方法详细步骤，如下：

2、初始化i＝1，j＝m，空集合S＝{}；

3、从集合中按索引号取出连续的关键字Ki，Ki+1…Kj，共取M个关键字，以形成本级别的子集之一Kc；

4、将子集Kc追加至集合S的末尾；

5、新一轮取Kc过程：令j＝j+1；

6、如果j<＝N，则同样取出上一轮Kc的前M-1个关键字且顺序不变，再取出新的Kj+1，做为新的子集Kc。重复步骤4；

否则令i＝i+1，如果i+M-1>＝N，结束程序，集合S即LevM中的子集结果。否则，重复步骤3。

实施例三：

本实施例给出了只有一个Key(K1)的情况：

只有一个关键字K1为最简单的形式。K1只能形成包含一个关键字的关键字集合，级别也只有一个，即Lev1。K1关键字，对应的查询结果集相应为S1，也是总的结果集S。

实施例四：

图4是本发明实施例四的有两个关键字时关键字有序组合集合中子集特性示意图。如图4所示，两个Key(K1、K2)的情况：

关键字顺序集合：{K1，K2}

关键字有序组合集合：{K12，K1，K2}，查优度：K12>K1>K2

级别：Lev2，Lev1，查优度：Lev2>Lev1

有序查询结果子集{S12，S1，S2}，count(S)＝3

“关键字有序组合集合”的分级元组编码表示：

[(2，K1，K2)，

(1，K1)，

(1，K2)]

两个Key的情况下，关键字有序组合集合中子集特性对应关系表参照图5。

实施例五：

图6是本发明实施例五的有三个关键字时关键字有序组合集合中子集特性示意图。如图6所示，三个Key的情况：

关键字顺序集合：{K1，K2，K3}

关键字有序组合集合：{K123，K12，K13，K23，K1，K2，K3}

级别：Lev3，Lev2，Lev1。查优度：Lev3>Lev2>Lev1

查询结果集S：{S123，S12，S13，S23，S1，S2，S3}

count(S)＝7

“关键字有序组合集合”的分级元组编码表示：

[(3，K1，K2，K3)，

(2，K1，K2)，

(2，K1，K3)，

(2，K2，K3)，

(1，K1)，

(1，K2)，

(1，K3)]

三个Key的情况下，关键字有序组合集合中子集特性参照图7。

接下来，描述利用本发明方法形成的关键字有序组合集合进行检索信息，形成有序结果集合的过程。

1、遍历“关键字有序组合集合”，按索引顺序依次提取子集；

2、依次使用提取出的子集来检索信息，并得到相应的结果集合；

3、将各个子集检索的结果集合进行追加融合，形成最终的结果集S。这样形成的结果也是有顺序性的。顺序索引越小的结果越优。

实施例六：

图8是本发明实施例六的检索信息形成有序结果集合的流程图。如图8所示，1、初始化空的结果集合S；

2、遍历关键字有序组合集合，按索引顺序依次提取子集；

3、使用提取出的子集来检索信息，并得到相应的结果集合Sc；

4、将结果集合Sc追加至结果集合S的末尾；

5、是否已遍历所有的子集，如果没有则返回步骤2；否则结束。

通过以上步骤，得出了优选的结果集合，可以输出或推送该结果。

进一步地，在“检索信息，形成有序结果集合”步骤中，可以引入结果数量MaxCount(S)限制，当达到Max Count时，可直接结束本检索过程并返回查询结果，以优化整个过程的检索效率和资源消耗。

实施例七：

图9是本发明实施例七的检索信息形成有序结果集合的优化和扩展过程的流程图。如图9所示：

1、首先约定Max_Count限制，初始化空的结果集合S，初始化还需获取结果数Num为Max_Count；

2、遍历关键字有序组合集合，按索引顺序依次提取子集；

3、使用提取出的子集来检索信息，并得到相应的结果集合Sc和结果数量Ci；

4、比较Num是否大于Ci，如果是则将结果集合Sc追加至结果集合S的末尾，更新Num＝Num-Ci；如果否，则从结果集合Sc中提取前Num个结果，将结果追加至结果集合S的末尾；

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于关键字排序的检索编码方法，其特征在于，该方法包括：

获得关键字有序集合，其中每个关键字具有索引；

将所述子集分级、排序，得到关键字有序组合集合；

2.根据权利要求1所述的基于关键字排序的检索编码方法，其特征在于，所述子集的分级包括：

第一级，对应包括1个关键字的子集；

第二级，对应由2个关键字组合而成的子集；

第N级，对应由N个关键字组合而成的子集。

3.根据权利要求2所述的基于关键字排序的检索编码方法，其特征在于，所述子集的索引由组合该子集的关键字的索引从小到大组合而成；

4.根据权利要求3所述的基于关键字排序的检索编码方法，其特征在于，针对所述子集的分级元组编码为：

(Lev级别，构成子集Key的序列)，进一步表示为：

(n，Ki序列)

5.根据权利要求4所述的基于关键字排序的检索编码方法，其特征在于，由各个子集的分级元组编码组成关键字有序组合集合的分级元组编码列表，其中各个子集的分级元组编码在分级元组编码列表中的分级和排序，与子集在关键字有序组合集合中的分级和排序一致。

6.根据权利要求1所述的基于关键字排序的检索编码方法，其特征在于，将所述关键字有序集合中的关键字分成多组，将每个组内的关键字进行组合形成不同的子集，多组关键字形成多组不同的子集。

7.根据权利要求6所述的基于关键字排序的检索编码方法，其特征在于，将多组不同的子集进行分级、排序，得到关键字有序组合集合。

8.根据权利要求1所述的基于关键字排序的检索编码方法，其特征在于，获得关键字有序集合包括按照用户输入关键字的次序为关键字设置索引；

针对用户输入的句子，使用分词法提取各个关键字；

9.根据权利要求1所述的基于关键字排序的检索编码方法，其特征在于，使用每一个子集元素进行查询检索，获得相应的结果集合。

10.根据权利要求9所述的基于关键字排序的检索编码方法，其特征在于，所述结果集合中的每个结果与对应的子集具有相同的分级和索引，并按照分级和索引排序。