CN111209378B

CN111209378B - 一种基于业务字典权重的有序分级排序方法

Info

Publication number: CN111209378B
Application number: CN201911367312.5A
Authority: CN
Inventors: 赵成军
Original assignee: Aerospace Information Co ltd Enterprise Service Branch
Current assignee: Aerospace Information Co ltd Enterprise Service Branch
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2024-03-12
Anticipated expiration: 2039-12-26
Also published as: CN111209378A

Abstract

本发明提出了一种基于业务字典权重的有序分级排序方法，该方法包括：获得关键字初步顺序集合，其中每个关键字具有索引；基于专属业务字典进行索引顺序调整，获得关键字有序集合；将所述关键字有序集合中的关键字进行组合，形成不同的子集；将所述子集分级、排序，得到关键字有序组合集合。本方法基于业务字典权重，强调有序顺序性、组合分级性，并支持关键字、词、句多样化处理，从整体上多维度准确匹配结果，有效提高检索精度，尤其使专属业务领域的检索精度大幅提高，并具备扩展性、灵活性和易用性的特点。

Description

一种基于业务字典权重的有序分级排序方法

技术领域

本发明涉及的是计算机技术检索领域，尤其涉及搜索引擎、排序、优选结果集的相关技术和方法，具体涉及一种基于业务字典权重的有序分级排序方法。

背景技术

当今社会是信息爆炸的时代，如何从海量数据搜索、提取想要的信息，是一门重要的技术。基于关键字检索、排序、选优相关技术也比较多，一般方法多是按某一个或多个关键字简单而机械的查询或者联合查询。比较好一点方法，或是加入包含权重系统等特征的字典，或是引入算法以计算权重等特征，进行结果上的排序和选优，这在一定程度上提高了的查询的匹配度。

本文提供了一种更优的检索、排序、选优的技术方法，本方法基于业务字典权重，强调有序顺序性、组合分级性，并支持关键字、词、句多样化处理，从整体上多维度准确匹配结果，有效提高检索精度，尤其使专属业务领域的检索精度大幅提高，并具备扩展性、灵活性和易用性的特点。。

发明内容

为了解决现有技术的问题，本发明提供了一种基于业务字典权重的有序分级排序方法，该方法包括：

获得关键字初步顺序集合，其中每个关键字具有索引；

基于专属业务字典进行索引顺序调整，获得关键字有序集合；

将所述关键字有序集合中的关键字进行组合，形成不同的子集；

将所述子集分级、排序，得到关键字有序组合集合。

进一步地，基于专属业务字典进行索引顺序调整包括：

获得初步权重Wi和专业权重Vi；

调整后的权重Ui为：

其中，K为专业权重Vi的权重系数。

进一步地，通过专属业务字典获取关键字的专业权重Vi；以及

通过曲线拟合的方式进行权重量化，获得初步权重Wi。

进一步地，所述子集的分级包括：

第一级，对应包括1个关键字的子集；

第二级，对应由2个关键字组合而成的子集；

……

第N级，对应由N个关键字组合而成的子集，N为自然数。

进一步地，所述关键字有序集合中子集的索引由组合该子集的关键字的索引从小到大组合而成；

同一级别的所述子集按照索引排序，索引越小排序时越靠前，查优度越高。

进一步地，从第一级到第N级，等级逐级增高，等级越高排序时越靠前，查优度越高。

进一步地，将所述关键字有序集合中的关键字分成多组，将每个组内的关键字进行组合形成不同的子集，多组关键字形成多组不同的子集。

进一步地，将多组不同的子集进行分级、排序，得到关键字有序组合集合。

进一步地，使用每一个子集元素进行查询检索，获得相应的结果集合。

进一步地，所述结果集合中的每个结果与对应的子集具有相同的分级和索引，并按照分级和索引排序。

本发明提供了基于业务字典权重的有序分级排序方法。该方法具有以下特点和优势：

一、基于业务字典权重。业务字典中包含有带有权重属性的专属业务领域的关键字信息，并引入权重量化、曲线拟合和动态调优机制。在句法分析、提取关键字阶段，可以更加准确的进行业务领域的分词，同时将关键字按权重大小、重要程度依次按顺序排序，使得为后续的精准优选检索提供了必要支持。

二、有序顺序性。本方法基于“关键字有序集合”和“关键字有序组合集合”，强调了关键字顺序和关键字组合顺序的重要性。权重系数的大小、用户输入的次序、词性等各种维度都可以看作顺序索引的体现。索引越小的排序应当越靠前。越靠前的子集表示查优度越高，即依此集合顺序进行信息检索所获取的结果相对是优的。

三、组合分级性。本方法中将关键字分组、分级构成各个子集。子集中关键字数量越多，则该子集等级越高，则查优度越高，即依高等级子集进行信息检索所获取的结果相对是优的。

四、支持关键字、词、句多样化。针对包含关键字序列的短语或词句，使用数据清洗或分词技术进行处理、分析、提取。用户输入是字、或词、或句，都可有效处理，提高应用的灵活性、易用性。

本方法基于业务字典权重，强调有序顺序性、组合分级性，并支持关键字、词、句多样化处理，从整体上多维度准确匹配结果，有效提高检索精度，尤其使专属业务领域的检索精度大幅提高，并具备扩展性、灵活性和易用性的特点。

专属业务字典中包含有带有权重属性的专属业务领域的关键字信息，并引入权重量化、曲线拟合和动态调优机制。在句法分析、提取关键字阶段，可以更加准确的进行业务领域的分词，同时将关键字按权重大小、重要程度依次按顺序排序，使得为后续的精准优选检索提供了必要支持。

基于专属业务字典调优关键字顺序索引，可以有效克服用户输入短语的随意性，极大提高在专业领域的分词准确度，且增强扩展性和易用性。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本发明的基于业务字典权重的有序分级排序方法的流程图。

图2是本发明的一个专属业务字典的示意图表。

图3展示了三条拟合曲线，其中包含一条直线和两条弧线。

图4给出了当n＝3时关键字权重表。

图5给出了当n＝3时拟合曲线图。

图6展示了初步权重Wi和专业权重Vi的对比图表。

图7展示了初步权重Wi、专业权重Vi和调整后权重Ui的对比。

图8是本发明实施例一的基于关键字有序集合的分级排序方法流程图。

图9是本发明实施例二的基于关键字有序集合的分级排序方法流程图。

图10是本发明实施例四的有两个关键字时关键字有序组合集合中子集特性示意图。

图11是本发明实施例四的有两个关键字时关键字有序组合集合中子集特性对应关系表。

图12是本发明实施例五的有三个关键字时关键字有序组合集合中子集特性示意图。

图13是本发明实施例五的有三个关键字时关键字有序组合集合中子集特性对应关系表。

图14是本发明实施例六的检索信息形成有序结果集合的流程图。

图15是本发明实施例七的检索信息形成有序结果集合的优化和扩展过程的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

如图1所示，本发明提供一种基于业务字典权重的有序分级排序方法，该方法包括：

获得关键字初步顺序集合，其中每个关键字具有索引；

将所述子集分级、排序，得到关键字有序组合集合。

具体地，获得关键字有序集合之前首先输入文本。输入文本的格式可以是包含关键字/词(以下统称为“关键字”Key，简写为K)的序列短语，也可以是完整的句子。

接下来，获取关键字初步顺序集合。

将集合中的关键字按顺序排序，得到“关键字初步顺序集合”：

{K1，K2…Kn}，其中，n为索引；

所述“顺序”，即有序性、索引化。关键字按顺序排序具体步骤方法如下：

1、针对关键字序列：

以用户输入序列的次序为顺序索引。得到关键字初步顺序集合A：

{Ka，Kb…Kc}，其中，a，b，c…为索引；

因为用户输入次序从某种程度上代表潜在想要搜寻内容的重要程度，在一定程度上也代表权重系数的大小。越靠前的关键字，重要程度越高、权重系数越大。

2、针对句子

以分词法得到的关键字特征值按权重、词性(特指按通用字典默认的权重、词性，而非专属业务领域的词典，注意区分)等维度进行优先排序的次序为顺序索引。得到关键字初步顺序集合A：

{Ka，Kb…Kc}，其中，a，b，c…为索引。

其中通用字典是指分词过程一般会加入一个包含有默认权重等维度的字典，其分词结果对于一般日常语句有较高的准确度，而对于专属业务领域(如金融、医药等)的分词能力较低。

接下来，基于专属业务字典进行索引顺序调整，获得关键字有序集合。

引入专属业务字典，定量的调整关键字初步顺序集合A中元素的权重，进而调整索引的顺序。

前面所述的权重系数大小是一个定性的概念，通过权重定性的大小能排出顺序即可，过程并没有量化。其结果是得到关键字初步顺序集合A。试图对权重调优，就需要量化权重。

如图2所示，给出了一个专属业务字典的例子，名称：business.dict。表中的“关键字”、“权重”属性是必选项，其它为可选项。该示意图表给出了专属业务字典中关键字的专业权重。

具体地，基于专属业务字典进行索引顺序调整包括：

获得初步权重Wi和专业权重Vi；

调整后的权重Ui为：

其中，K为专业权重Vi的权重系数。

通过曲线拟合的方式进行权重量化，获得初步权重Wi。

具体地，假设：在初步有序关键字集合A中，关键字数量为n，各个关键字表示为Ki，相应权重为Wi，专属业务字典中该关键字的权重为Vi(若无对应则为0)，调优后的权重为Ui，其中i：0，1…n。

量化权重是后续权重调优的基础。可以通过曲线拟合的方式进行权重量化。曲线拟合过程需遵循以下原则：

Wi在0～1之间线性分布，且是逐渐下降的(顺序性)；

曲线过坐标系(0，1.0)点、(n+1，0)两点。

如图3所示，展示了三条拟合曲线，其中包含一条直线和两条弧线：

选择不同的曲线，拟合的结果也是不同，但原理是相同的。为了方便计算，本实例中选择直线式拟合。根据上述权重曲线拟合的两项原则，可推导出直线式权重曲线拟合公式：

据此，当n＝3时，关键字权重表如图4所示，图形化表示如图5所示。

接下来，引入专属业务字典，获取相应关键字权重Vi。实例结果如图6中表所示，展示了初步权重Wi和专业权重Vi的对比。

接下来进行权重调整，调整后的权重Ui在0～1区间之内。

调整后的权重Ui，兼顾了初步权重Wi和专业权重Vi。可以调整参数，从而相应调整Wi和Vi分别对结果的影响程度。据此，可设计权重调整公式如下：

其中，K为专业权重Vi的权重系数，可理解为权重的权重。其越大表示专业权重对结果影响越大，反之则影响越小。例如K＝1时，表明两种权重对结果影响相同；K＝2时，表示Vi对结果的影响是Wi对结果影响的两倍。

如图7所示，将K设置为2，让专业权重对结果影响大一些。实例结果如表所示，展示了Wi、Vi和Ui的对比。经过权重调整，关键字的索引可能会发生变化。如上示例，按Ui从大到小调整后的关键字顺序集合为：{Kb，Ka，Kc}。例如，此时可以给索引赋值，使得c>a>b。

一般的，顺序索引越小，表示排序时越靠前，所对应的查优度越高。所述“查优度”，是指按某关键字或其集合进行信息检索所获取的结果的优劣程度。查优度越高，表示查询所得的结果越佳。

理论上，权重系数越大的关键字或集合查优度越高；查询匹配、命中的关键字的数量越多，则查优度越高。

例如：由三个关键字形成的关键字顺序集合：{K1，K2，K3}，其中包含K1、K2、K3共计三个关键字，且查优度K1>K2>K3，这是顺序性的体现。进一步的，两个关键字K1、K2对应的结果集比仅有一个关键字K1对应的结果集要优。

接下来，关键字组合形成子集Kc。

将关键字顺序集合{K1，K2…Kn}中不同的关键字Ki…Kj进行组合，可形成不同的子集(简称为Kc，表示为Ki…j，其中i，j为Key的顺序索引)。后续过程使用每一个子集进行查询、检索，都可对应相应的查询结果集合(表示为Si…j，其中i，j为Key的顺序索引)。

例如：两个Key的情况中，关键字顺序集合为：{K1，K2}，可以相互组合形成子集：{K1，K2，K12}，对应查询结果集：{S1，S2，S12}。其中，K12表示由两个关键字K1和K2形成的一个关键字组合子集。对应的S12表示按K12查询、检索所得到的结果集。

最后，形成“关键字有序组合集合”。

经上述步骤，形成的各个子集Kc再经过按顺序、分级排序，得到“关键字有序组合集合”。同样的，后续使用每一个子集元素进行查询、检索也对应着相应的结果集合，区别是相应的结果集合在整体上是有序化的，索引越小的、等级越高的，结果越优。

各个子集按顺序排序过程应当遵循以下原则：

1、有序性(Sequential，简写Seq)：

子集进行顺序排序时，尽可能的与关键字顺序集合中的索引顺序保持一致——索引越小的越靠前，排序时应当越向前排。越靠前的子集表示查优度越高，即依此集合顺序进行信息检索所获取的结果是优的；

2、分级性(Leveled，简写Lev)：

Lev1，对应有1个关键字的组合子集；Lev2，对应有2个关键字的组合子集；LevN对应有N个关键字组合的子集。子集中关键字数量越多，则该子集等级越高，则查优度越高，即依高等级子集进行信息检索所获取的结果相对是优的。

上述子集排序过程的有序性、分级性原则，决定了：

针对同一级别Lev的子集(即具有相同数量的关键字数量)中关键字的索引顺序与“关键字排序表”顺序索引越一致，查优度越高。例如：同一Lev中查优度：K12>K13，排序K12比K13靠前；

不同级别Lev集合，等级越高的集合，其排序应当越靠前，这样才能获取相对较高的查优度。即：不同Lev时查优度：LevN中的子集>LevN-1中的子集，排序：LevN中的子集比LevN-1的子集靠前。

本发明提供了基于业务字典权重的有序分级排序方法。该方法引入业务字典权重，业务字典中包含有带有权重属性的专属业务领域的关键字信息，并引入权重量化、曲线拟合和动态调优机制。在句法分析、提取关键字阶段，可以更加准确的进行业务领域的分词，同时将关键字按权重大小、重要程度依次按顺序排序，使得为后续的精准优选检索提供了必要支持。

本方法基于“关键字顺序集合”和“关键字有序组合集合”，强调了关键字顺序和关键字组合顺序的重要性。权重系数的大小、用户输入的次序、词性等各种维度都可以看作顺序索引的体现。索引越小的排序应当越靠前。越靠前的子集表示查优度越高，即依此集合顺序进行信息检索所获取的结果相对是优的。

本方法中将关键字分组、分级构成各个子集。子集中关键字数量越多，则该子集等级越高，则查优度越高，即依高等级子集进行信息检索所获取的结果相对是优的。

本发明的方法支持关键字、词、句多样化。针对包含关键字序列的短语或词句，使用数据清洗或分词技术进行处理、分析、提取。用户输入是字、或词、或句，都可有效处理，提高应用的灵活性、易用性。

为便于理解本发明实施例的方案及其效果，以下给出一个具体应用示例。本领域技术人员应理解，该示例仅为了便于理解本发明，其任何具体细节并非意在以任何方式限制本发明。

实施例一：

图8是本发明实施例的基于关键字有序集合的分级排序方法流程图。如图8所示，根据“关键字有序集合”形成“关键字有序组合集合”的详细步骤，如下，：

根据“关键字有序集合”形成“关键字有序组合集合”的详细步骤，如下：

1、计算关键字顺序集合{K1，K2…Kn}中关键字的数量N。如果N为0，直接结束，否则继续以下步骤；

2、初始化M＝N、空集合S＝{}；

3、从高级别至低级别，依次计算各个级别LevM对应的集合，并将所有子集Kc追加至集合S的末尾；

4、令M＝M-1，如果M不为0，则重复步骤3，否则结束，S即所得关键字有序组合集合。

实施例二：

图9是本发明实施例二的基于关键字有序集合的分级排序方法流程图。如图9所示，LevM中的子集即由M个Key组合而成的子集构成。其计算方法详细步骤，如下：

LevM中的子集即由M个Key组合而成的子集构成。其计算方法详细步骤，如下：

2、初始化i＝1，j＝m，空集合S＝{}；

3、从集合中按索引号取出连续的关键字Ki，Ki+1…Kj，共取M个关键字，以形成本级别的子集之一Kc；

4、将子集Kc追加至集合S的末尾；

5、新一轮取Kc过程：令j＝j+1；

6、如果j<＝N，则同样取出上一轮Kc的前M-1个关键字且顺序不变，再取出新的Kj+1，做为新的子集Kc。重复步骤4；

否则令i＝i+1，如果i+M-1>＝N，结束程序，集合S即LevM中的子集结果。否则，重复步骤3。

实施例三：

本实施例给出了只有一个Key(K1)的情况：

只有一个关键字K1为最简单的形式。K1只能形成包含一个关键字的关键字集合，级别也只有一个，即Lev1。K1关键字，对应的查询结果集相应为S1，也是总的结果集S。

实施例四：

图10是本发明实施例四的有两个关键字时关键字有序组合集合中子集特性示意图。如图10所示，两个Key(K1、K2)的情况：

关键字有序集合：{K1，K2}

关键字有序组合集合：{K12，K1，K2},查优度：K12>K1>K2

级别：Lev2，Lev1，查优度：Lev2>Lev1

有序查询结果子集{S12，S1，S2}，count(S)＝3。

两个Key的情况下，关键字有序组合集合中子集特性对应关系表参照图11。

实施例五：

图12是本发明实施例五的有三个关键字时关键字有序组合集合中子集特性示意图。如图12所示，三个Key的情况：

关键字有序集合：{K1，K2，K3}

关键字有序组合集合：{K123，K12，K13，K23，K1，K2，K3}

级别：Lev3，Lev2，Lev1。查优度：Lev3>Lev2>Lev1

查询结果集S：{S123，S12，S13，S23，S1，S2，S3}

count(S)＝7。

三个Key的情况下，关键字有序组合集合中子集特性参照图13。

接下来，描述利用本发明方法形成的关键字有序组合集合进行检索信息，形成有序结果集合的过程。

1、遍历“关键字有序组合集合”，按索引顺序依次提取子集；

2、依次使用提取出的子集来检索信息，并得到相应的结果集合；

3、将各个子集检索的结果集合进行追加融合，形成最终的结果集S。这样形成的结果也是有顺序性的。顺序索引越小的结果越优。

实施例六：

图14是本发明实施例六的检索信息形成有序结果集合的流程图。如图14所示，1、初始化空的结果集合S；

2、遍历关键字有序组合集合，按索引顺序依次提取子集；

3、使用提取出的子集来检索信息，并得到相应的结果集合Sc；

4、将结果集合Sc追加至结果集合S的末尾；

5、是否已遍历所有的子集，如果没有则返回步骤2；否则结束。

通过以上步骤，得出了优选的结果集合，可以输出或推送该结果。

进一步地，在“检索信息，形成有序结果集合”步骤中，可以引入结果数量MaxCount(S)限制，当达到Max Count时，可直接结束本检索过程并返回查询结果，以优化整个过程的检索效率和资源消耗。

实施例七：

图15是本发明实施例七的检索信息形成有序结果集合的优化和扩展过程的流程图。如图15所示：

1、首先约定Max_Count限制，初始化空的结果集合S，初始化还需获取结果数Num为Max_Count；

2、遍历关键字有序组合集合，按索引顺序依次提取子集；

3、使用提取出的子集来检索信息，并得到相应的结果集合Sc和结果数量Ci；

4、比较Num是否大于Ci，如果是则将结果集合Sc追加至结果集合S的末尾，更新Num＝Num-Ci；如果否，则从结果集合Sc中提取前Num个结果，将结果追加至结果集合S的末尾；

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于业务字典权重的有序分级排序方法，其特征在于，该方法包括：

获得关键字初步顺序集合，其中每个关键字具有索引；

将所述子集分级、排序，得到关键字有序组合集合；

基于专属业务字典进行索引顺序调整包括：

获得初步权重Wi和专业权重Vi；

调整后的权重Ui为：

其中，K为专业权重Vi的权重系数；

通过专属业务字典获取关键字的专业权重Vi；以及

通过曲线拟合的方式进行权重量化，获得初步权重Wi为：

其中，n为关键字数量，i：0，1…n；

其中，使用每一个子集元素进行查询检索，获得相应的结果集合；

其中，所述结果集合中的每个结果与对应的子集具有相同的分级和索引，并按照分级和索引排序。

2.根据权利要求1所述的基于业务字典权重的有序分级排序方法，其特征在于，所述子集的分级包括：

第N级，对应由N个关键字组合而成的子集，N为自然数。

3.根据权利要求1所述的基于业务字典权重的有序分级排序方法，其特征在于，所述关键字有序集合中子集的索引由组合该子集的关键字的索引从小到大组合而成；

4.根据权利要求2所述的基于业务字典权重的有序分级排序方法，其特征在于，从第一级到第N级，等级逐级增高，等级越高排序时越靠前，查优度越高。

5.根据权利要求1所述的基于业务字典权重的有序分级排序方法，其特征在于，将所述关键字有序集合中的关键字分成多组，将每个组内的关键字进行组合形成不同的子集，多组关键字形成多组不同的子集。

6.根据权利要求5所述的基于业务字典权重的有序分级排序方法，其特征在于，将多组不同的子集进行分级、排序，得到关键字有序组合集合。