CN111190947B - 一种基于反馈的有序分级排序方法 - Google Patents

一种基于反馈的有序分级排序方法 Download PDF

Info

Publication number
CN111190947B
CN111190947B CN201911367304.0A CN201911367304A CN111190947B CN 111190947 B CN111190947 B CN 111190947B CN 201911367304 A CN201911367304 A CN 201911367304A CN 111190947 B CN111190947 B CN 111190947B
Authority
CN
China
Prior art keywords
keywords
feedback
ordered
keyword
professional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911367304.0A
Other languages
English (en)
Other versions
CN111190947A (zh
Inventor
赵成军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Information Co ltd Enterprise Service Branch
Original Assignee
Aerospace Information Co ltd Enterprise Service Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Information Co ltd Enterprise Service Branch filed Critical Aerospace Information Co ltd Enterprise Service Branch
Priority to CN201911367304.0A priority Critical patent/CN111190947B/zh
Publication of CN111190947A publication Critical patent/CN111190947A/zh
Application granted granted Critical
Publication of CN111190947B publication Critical patent/CN111190947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于反馈的有序分级排序方法,该方法包括:获得关键字初步顺序集合,其中每个关键字具有索引;基于检索结果反馈调整专属业务字典的专业权重,并基于专业权重进行索引顺序调整,获得关键字有序集合;将所述关键字有序集合中的关键字进行组合,形成不同的子集;将所述子集分级、排序,得到关键字有序组合集合。本方法引入了个性化的反馈机制,对检索的整体结果或单个结果进行反馈,经过反馈分级转换、反馈增益量化和调优等过程,以便动态调整专业字典中的权重,使其调优过程更具备个性化、自学习能力。

Description

一种基于反馈的有序分级排序方法
技术领域
本发明涉及的是计算机技术检索领域,尤其涉及搜索引擎、排序、优选结果集的相关技术和方法,具体涉及一种基于反馈的有序分级排序方法。
背景技术
当今社会是信息爆炸的时代,如何从海量数据搜索、提取想要的信息,是一门重要的技术。基于关键字检索、排序、选优相关技术也比较多,一般方法多是按某一个或多个关键字简单而机械的查询或者联合查询。比较好一点方法,或是加入包含权重系统等特征的字典,或是引入算法以计算权重等特征,进行结果上的排序和选优,这在一定程度上提高了的查询的匹配度。
本文提供了一种更优的检索、排序、选优的技术方法,本方法基于动态业务字典,支持用户反馈,具备自学习能力,强调有序顺序性、组合分级性,并支持关键字、词、句多样化处理,从整体上准确匹配结果,有效提高检索精度,并具备个性化、灵活性和易用性的特点。
发明内容
为了解决现有技术的问题,本发明提供了一种基于反馈的有序分级排序方法,该方法包括:
获得关键字初步顺序集合,其中每个关键字具有索引;
基于检索结果反馈调整专属业务字典的专业权重,并基于专业权重进行索引顺序调整,获得关键字有序集合;
将所述关键字有序集合中的关键字进行组合,形成不同的子集;
将所述子集分级、排序,得到关键字有序组合集合。
进一步地,基于专业权重进行索引顺序调整包括:
获得初步权重Wi和专业权重Vi;
调整后的权重Ui为:
其中,K为专业权重Vi的权重系数。
进一步地,通过专属业务字典获取关键字的专业权重Vi;以及
通过曲线拟合的方式进行权重量化,获得初步权重Wi。
进一步地,基于反馈调整专属业务字典的专业权重Vi,并基于调整后的权重Ui重新排序,获得新的关键字有序集合。
进一步地,基于检索结果反馈调整专属业务字典的专业权重包括:
利用关键字有序组合集合的每一个子集元素进行查询检索,进行检索结果展示;
获得用户对检索结果的反馈,并将用户反馈进行分级转换;
根据用户反馈分级评价等级计算增益度;
根据增益度调整专业权重。
进一步地,根据以下增益度计算公式,进行计算:
其中,x为评价分级的级别数量,为大于1的整数;y为评价等级索引,取值范围:1~x。
进一步地,Vi增益调优公式:
其中,V′i为Vi增益调整后的值,Vi为专业字典中第一关键字的专业权重,k为增益范围系数,大于等于1。
进一步地,所述子集的分级包括:
第一级,对应包括1个关键字的子集;
第二级,对应由2个关键字组合而成的子集;
……
第N级,对应由N个关键字组合而成的子集,N为自然数。
进一步地,将所述关键字有序集合中的关键字分成多组,将每个组内的关键字进行组合形成不同的子集,多组关键字形成多组不同的子集。
进一步地,将多组不同的子集进行分级、排序,得到关键字有序组合集合。
本发明提供了基于反馈的有序分级排序方法。该方法具有以下特点和优势:
一、基于业务字典权重。业务字典中包含有带有权重属性的专属业务领域的关键字信息,并引入权重量化、曲线拟合和动态调优机制。在句法分析、提取关键字阶段,可以更加准确的进行业务领域的分词,同时将关键字按权重大小、重要程度依次按顺序排序,使得为后续的精准优选检索提供了必要支持。
二、有序顺序性。本方法基于“关键字有序集合”和“关键字有序组合集合”,强调了关键字顺序和关键字组合顺序的重要性。权重系数的大小、用户输入的次序、词性等各种维度都可以看作顺序索引的体现。
三、组合分级性。本方法中将关键字分组、分级构成各个子集。子集中关键字数量越多,则该子集等级越高,则查优度越高。
四、基于结果反馈。本方法引入了个性化的反馈机制,对检索的整体结果或单个结果进行反馈,经过反馈分级转换、反馈增益量化和调优等过程,以便动态调整业务字典中的权重,使其调优过程更具备个性化、自学习能力。
五、支持关键字、词、句多样化。针对包含关键字序列的短语或词句,使用数据清洗或分词技术进行处理、分析、提取。用户输入是字、或词、或句,都可有效处理,提高应用的灵活性、易用性。
本方法基于动态业务字典,支持结果反馈,具备自学习能力,强调有序顺序性、组合分级性,并支持关键字、词、句多样化处理,从整体上准确匹配结果,有效提高检索精度,并具备个性化、灵活性和易用性的特点。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1是本发明的基于业务字典权重的有序分级排序方法的流程图。
图2是本发明的一个专属业务字典的示意图表。
图3展示了三条拟合曲线,其中包含一条直线和两条弧线。
图4给出了当n=3时关键字权重表。
图5给出了当n=3时拟合曲线图。
图6展示了初步权重Wi和专业权重Vi的对比图表。
图7展示了初步权重Wi、专业权重Vi和调整后权重Ui的对比。
图8是本发明实施例一的基于关键字有序集合的分级排序方法流程图。
图9是本发明实施例二的基于关键字有序集合的分级排序方法流程图。
图10是本发明实施例四的有两个关键字时关键字有序组合集合中子集特性示意图。
图11是本发明实施例四的有两个关键字时关键字有序组合集合中子集特性对应关系表。
图12是本发明实施例五的有三个关键字时关键字有序组合集合中子集特性示意图。
图13是本发明实施例五的有三个关键字时关键字有序组合集合中子集特性对应关系表。
图14是本发明实施例六的检索信息形成有序结果集合的流程图。
图15是本发明实施例七的检索信息形成有序结果集合的优化和扩展过程的流程图。
图16是本发明实施例八的个性化反馈机制的流程图。
图17是本发明实施例八的第一顺序关键字在专业字典中的权重信息表。
图18是本发明实施例八的第一顺序关键字的增益调整信息表。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
如图1所示,本发明提供一种基于业务字典权重的有序分级排序方法,该方法包括:
获得关键字初步顺序集合,其中每个关键字具有索引;
基于检索结果反馈调整专属业务字典的专业权重,并基于专业权重进行索引顺序调整,获得关键字有序集合;
将所述关键字有序集合中的关键字进行组合,形成不同的子集;
将所述子集分级、排序,得到关键字有序组合集合。
具体地,获得关键字有序集合之前首先输入文本。输入文本的格式可以是包含关键字/词(以下统称为“关键字”Key,简写为K)的序列短语,也可以是完整的句子。
接下来,获取关键字初步顺序集合。
将集合中的关键字按顺序排序,得到“关键字初步顺序集合”:
{K1,K2…Kn},其中,n为索引;
所述“顺序”,即有序性、索引化。关键字按顺序排序具体步骤方法如下:
1、针对关键字序列:
以用户输入序列的次序为顺序索引。得到关键字初步顺序集合A:
{Ka,Kb…Kc},其中,a,b,c…为索引;
因为用户输入次序从某种程度上代表潜在想要搜寻内容的重要程度,在一定程度上也代表权重系数的大小。越靠前的关键字,重要程度越高、权重系数越大。
2、针对句子
以分词法得到的关键字特征值按权重、词性(特指按通用字典默认的权重、词性,而非专属业务领域的词典,注意区分)等维度进行优先排序的次序为顺序索引。得到关键字初步顺序集合A:
{Ka,Kb…Kc},其中,a,b,c…为索引。
其中通用字典是指分词过程一般会加入一个包含有默认权重等维度的字典,其分词结果对于一般日常语句有较高的准确度,而对于专属业务领域(如金融、医药等)的分词能力较低。
接下来,基于检索结果反馈调整专属业务字典的专业权重,并基于专业权重进行索引顺序调整,获得关键字有序集合。
本方法引入了个性化的反馈机制,对检索的整体结果或单个结果进行反馈,经过反馈分级转换、反馈增益量化和调优等过程,以便动态调整业务字典中的权重,使其调优过程更具备个性化、自学习能力。首次检索时,没有检索结果的反馈,则基于检索结果反馈调整专属业务字典的专业权重可以不实施,或者默认为专业权重调整为零。在进行了初次检索后,用户可以对检索的整体结果或单个结果进行反馈,根据反馈的分级,对专属业务字典的专业权重进行量化调整。
具体地,反馈机制的具体步骤如下:
1)、检索结果展示
将检索结果按顺序在前端页面中进行展示,相关检索关键字以突出格式(不限于颜色、粗体、斜体、下划线等)显示。
2)、用户对检索(单项或整体)结果给出反馈
对结果的反馈类型包括但不限于:
满意度分级评价,用户对检索结果给出评价等级,例如:不满意、满意、非常满意等,或者等级A、B、C、D诸如此类。
打分评价(可选项),用户对检索的结果进行打分,分数区间也可以对应评价等级。例如:
[85,100]:非常满意,全闭区间;
[60,85):满意,区间左闭右开;
[0,60):不满意,区间左闭右开;
对检索结果的选中/删除(可选项),即视为该结果的满意/不满意。该场景一般可应用于用户选择一条或多条检索结果,然后在选择结果的基础上进行进一步的操作;
对检索结果的人工排序(可选项)。
3)、将用户反馈进行分级转换
即将用户反馈转化为分级评价的形式。除了满意度分级评价,其它反馈类型都可视为分级评价的扩展或变种,也都可相应转换为分级评价的形式。此为后续的权重增益调优提供统一数据接口。
4)、反馈增益量化
根据用户反馈分级评价等级进行增益量化,这是Vi增益调优的前提。
假设:Ly表示用户给出的反馈分级评价等级(即第三步的结果),所有等级(满意度)由低向高可以形成一个反馈等级列表:
{L1,L2…Lx}
其中,x为评价分级的级别数量,为大于1的整数;y为评价等级索引,取值范围:[1~x]。
根据以下增益度计算公式,进行计算:
备注:该公式自动支持正负向增益,且自适应x为奇数或偶数的情况。其中,(x+1)/2为中间的等级,y与其相等时,增益度为0,即不增不减;大于时则为正向增益,否则为负向增益。1/(x-1)为紧邻级别间增益的程度。
例如:当x=3,y=2时,y=(x+1)/2,增益度为0;
又如:当x=3,y=3时,Δd为50%,正向增益;
又如:当x=4,y=3时,Δd为17%,正向增益;
再如:当x=4,y=1时,Δd为-50%,负向增益。
5)、获取第一顺序关键字Key在专业字典中的权重Vi
所述第一顺序关键字Key,定义为关键字顺序集合中的第一个关键字,因其对检索结果的影响程度最大,后续的增益调优也是针对第一关键字进行的。例如:关键字顺序集合:{K1,K2,K3},K1即为第一顺序关键字。
6)、Vi增益调优并保存
Vi增益具体分三种情况:
当增益度Δd为0时,Vi增益为0;
当增益度Δd为正向增益时,Vi增益也为正向增益;
当增益度Δd为负向增益时,Vi增益也为负向增益。
例如,Vi增益调优公式:
其中:
V′i为Vi增益调优的值,Vi为专业字典中第一关键字的权重;
k为增益范围系数。一般大于等于1。典型的,在大数据多样本训练时,可控制增益速度的快慢。如果希望快速增益,则调小k值,否则增大k值;
Δd为反馈增益量化的增益度。其为包含正负符号的百分比;
当增益为0时,结果和Vi相同;当正向增益时,1-Vi为增益的最大值,其限定了增益的范围为[0,1-Vi];当负向增益时,Vi即增益的最大值,其限定了增益范围为[0,Vi]。
7)、如果是训练模式,可以重复以上步骤,进行大数据训练学习(可选步骤)。
接下来,基于调整后的专业权重进行索引顺序调整,获得关键字有序集合。
通过专属业务字典的专业权重,定量的调整关键字初步顺序集合A中元素的权重,进而调整索引的顺序。
地一个步骤中,也考虑到了关键字的权重大小,通过权重定性的大小能排出顺序即可,过程并没有量化。其结果是得到关键字初步顺序集合A。试图对权重调优,就需要量化权重。
专属业务字典中包含有带有权重属性的专属业务领域的关键字信息,并引入权重量化、曲线拟合和动态调优机制。在句法分析、提取关键字阶段,可以更加准确的进行业务领域的分词,同时将关键字按权重大小、重要程度依次按顺序排序,使得为后续的精准优选检索提供了必要支持。
基于专属业务字典调优关键字顺序索引,可以有效克服用户输入短语的随意性,极大提高在专业领域的分词准确度,且增强扩展性和易用性。
如图2所示,给出了一个专属业务字典的例子,名称:business.dict。表中的“关键字”、“权重”属性是必选项,其它为可选项。该示意图表给出了专属业务字典中关键字的专业权重。
具体地,基于专属业务字典进行索引顺序调整包括:
获得初步权重Wi和专业权重Vi;
调整后的权重Ui为:
其中,K为专业权重Vi的权重系数。
进一步地,通过专属业务字典获取关键字的专业权重Vi;以及
通过曲线拟合的方式进行权重量化,获得初步权重Wi。
具体地,假设:在初步有序关键字集合A中,关键字数量为n,各个关键字表示为Ki,相应权重为Wi,专属业务字典中该关键字的权重为Vi(若无对应则为0),调优后的权重为Ui,其中i:0,1…n。
量化权重是后续权重调优的基础。可以通过曲线拟合的方式进行权重量化。曲线拟合过程需遵循以下原则:
Wi在0~1之间符合线性分布,且是逐渐下降的(顺序性);
曲线过坐标系(0,1.0)点、(n+1,0)两点。
如图3所示,展示了三条拟合曲线,其中包含一条直线和两条弧线:
选择不同的曲线,拟合的结果也是不同,但原理是相同的。为了方便计算,本实例中选择直线式拟合。根据上述权重曲线拟合的两项原则,可推导出直线式权重曲线拟合公式:
据此,当n=3时,关键字权重表如图4所示,图形化表示如图5所示。
接下来,引入专属业务字典,获取相应关键字权重Vi。实例结果如图6中表所示,展示了初步权重Wi和专业权重Vi的对比。
接下来进行权重调整,调整后的权重Ui在0~1区间之内。
调整后的权重Ui,兼顾了初步权重Wi和专业权重Vi。可以调整参数,从而相应调整Wi和Vi分别对结果的影响程度。据此,可设计权重调整公式如下:
其中,K为专业权重Vi的权重系数,可理解为权重的权重。其越大表示专业权重对结果影响越大,反之则影响越小。例如K=1时,表明两种权重对结果影响相同;K=2时,表示Vi对结果的影响是Wi对结果影响的两倍。
如图7所示,将K设置为2,让专业权重对结果影响大一些。实例结果如表所示,展示了Wi、Vi和Ui的对比。经过权重调整,关键字的索引可能会发生变化。如上示例,按Ui从大到小调整后的关键字顺序集合为:{Kb,Ka,Kc}。例如,此时可以给索引赋值,使得c>a>b。
一般的,顺序索引越小,表示排序时越靠前,所对应的查优度越高。所述“查优度”,是指按某关键字或其集合进行信息检索所获取的结果的优劣程度。查优度越高,表示查询所得的结果越佳。
理论上,权重系数越大的关键字或集合查优度越高;查询匹配、命中的关键字的数量越多,则查优度越高。
例如:由三个关键字形成的关键字顺序集合:{K1,K2,K3},其中包含K1、K2、K3共计三个关键字,且查优度K1>K2>K3,这是顺序性的体现。进一步的,两个关键字K1、K2对应的结果集比仅有一个关键字K1对应的结果集要优。
接下来,关键字组合形成子集Kc。
将关键字顺序集合{K1,K2…Kn}中不同的关键字Ki…Kj进行组合,可形成不同的子集(简称为Kc,表示为Ki…j,其中i,j为Key的顺序索引)。后续过程使用每一个子集进行查询、检索,都可对应相应的查询结果集合(表示为Si…j,其中i,j为Key的顺序索引)。
例如:两个Key的情况中,关键字顺序集合为:{K1,K2},可以相互组合形成子集:{K1,K2,K12},对应查询结果集:{S1,S2,S12}。其中,K12表示由两个关键字K1和K2形成的一个关键字组合子集。对应的S12表示按K12查询、检索所得到的结果集。
最后,形成“关键字有序组合集合”。
经上述步骤,形成的各个子集Kc再经过按顺序、分级排序,得到“关键字有序组合集合”。同样的,后续使用每一个子集元素进行查询、检索也对应着相应的结果集合,区别是相应的结果集合在整体上是有序化的,索引越小的、等级越高的,结果越优。
各个子集按顺序排序过程应当遵循以下原则:
1、有序性(Sequential,简写Seq):
子集进行顺序排序时,尽可能的与关键字顺序集合中的索引顺序保持一致——索引越小的越靠前,排序时应当越向前排。越靠前的子集表示查优度越高,即依此集合顺序进行信息检索所获取的结果是优的;
2、分级性(Leveled,简写Lev):
Lev1,对应有1个关键字的组合子集;Lev2,对应有2个关键字的组合子集;LevN对应有N个关键字组合的子集。子集中关键字数量越多,则该子集等级越高,则查优度越高,即依高等级子集进行信息检索所获取的结果相对是优的。
上述子集排序过程的有序性、分级性原则,决定了:
针对同一级别Lev的子集(即具有相同数量的关键字数量)中关键字的索引顺序与“关键字排序表”顺序索引越一致,查优度越高。例如:同一Lev中查优度:K12>K13,排序K12比K13靠前;
不同级别Lev集合,等级越高的集合,其排序应当越靠前,这样才能获取相对较高的查优度。即:不同Lev时查优度:LevN中的子集>LevN-1中的子集,排序:LevN中的子集比LevN-1的子集靠前。
本发明提供了基于业务字典权重的有序分级排序方法。该方法引入业务字典权重,业务字典中包含有带有权重属性的专属业务领域的关键字信息,并引入权重量化、曲线拟合和动态调优机制。在句法分析、提取关键字阶段,可以更加准确的进行业务领域的分词,同时将关键字按权重大小、重要程度依次按顺序排序,使得为后续的精准优选检索提供了必要支持。
本方法基于“关键字顺序集合”和“关键字有序组合集合”,强调了关键字顺序和关键字组合顺序的重要性。权重系数的大小、用户输入的次序、词性等各种维度都可以看作顺序索引的体现。索引越小的排序应当越靠前。越靠前的子集表示查优度越高,即依此集合顺序进行信息检索所获取的结果相对是优的。
本方法中将关键字分组、分级构成各个子集。子集中关键字数量越多,则该子集等级越高,则查优度越高,即依高等级子集进行信息检索所获取的结果相对是优的。
本发明的方法支持关键字、词、句多样化。针对包含关键字序列的短语或词句,使用数据清洗或分词技术进行处理、分析、提取。用户输入是字、或词、或句,都可有效处理,提高应用的灵活性、易用性。
本发明的方法引入了个性化的反馈机制,对检索的整体结果或单个结果进行反馈,经过反馈分级转换、反馈增益量化和调优等过程,以便动态调整业务字典中的权重,使其调优过程更具备个性化、自学习能力。
为便于理解本发明实施例的方案及其效果,以下给出一个具体应用示例。本领域技术人员应理解,该示例仅为了便于理解本发明,其任何具体细节并非意在以任何方式限制本发明。
实施例一:
图8是本发明实施例的基于关键字有序集合的分级排序方法流程图。如图8所示,根据“关键字有序集合”形成“关键字有序组合集合”的详细步骤,如下,:
根据“关键字有序集合”形成“关键字有序组合集合”的详细步骤,如下:
1、计算关键字顺序集合{K1,K2…Kn}中关键字的数量N。如果N为0,直接结束,否则继续以下步骤;
2、初始化M=N、空集合S={};
3、从高级别至低级别,依次计算各个级别LevM对应的集合,并将所有子集Kc追加至集合S的末尾;
4、令M=M-1,如果M不为0,则重复步骤3,否则结束,S即所得关键字有序组合集合。
实施例二:
图9是本发明实施例二的基于关键字有序集合的分级排序方法流程图。如图9所示,LevM中的子集即由M个Key组合而成的子集构成。其计算方法详细步骤,如下:
LevM中的子集即由M个Key组合而成的子集构成。其计算方法详细步骤,如下:
1、计算关键字顺序集合{K1,K2…Kn}中关键字的数量N。如果N为0,直接结束,否则继续以下步骤;
2、初始化i=1,j=m,空集合S={};
3、从集合中按索引号取出连续的关键字Ki,Ki+1…Kj,共取M个关键字,以形成本级别的子集之一Kc;
4、将子集Kc追加至集合S的末尾;
5、新一轮取Kc过程:令j=j+1;
6、如果j<=N,则同样取出上一轮Kc的前M-1个关键字且顺序不变,再取出新的Kj+1,做为新的子集Kc。重复步骤4;
否则令i=i+1,如果i+M-1>=N,结束程序,集合S即LevM中的子集结果。否则,重复步骤3。
实施例三:
本实施例给出了只有一个Key(K1)的情况:
只有一个关键字K1为最简单的形式。K1只能形成包含一个关键字的关键字集合,级别也只有一个,即Lev1。K1关键字,对应的查询结果集相应为S1,也是总的结果集S。
实施例四:
图10是本发明实施例四的有两个关键字时关键字有序组合集合中子集特性示意图。如图10所示,两个Key(K1、K2)的情况:
关键字有序集合:{K1,K2}
关键字有序组合集合:{K12,K1,K2},查优度:K12>K1>K2
级别:Lev2,Lev1,查优度:Lev2>Lev1
有序查询结果子集{S12,S1,S2},count(S)=3。
两个Key的情况下,关键字有序组合集合中子集特性对应关系表参照图11。
实施例五:
图12是本发明实施例五的有三个关键字时关键字有序组合集合中子集特性示意图。如图12所示,三个Key的情况:
关键字有序集合:{K1,K2,K3}
关键字有序组合集合:{K123,K12,K13,K23,K1,K2,K3}
级别:Lev3,Lev2,Lev1。查优度:Lev3>Lev2>Lev1
查询结果集S:{S123,S12,S13,S23,S1,S2,S3}
count(S)=7。
三个Key的情况下,关键字有序组合集合中子集特性参照图13。
接下来,描述利用本发明方法形成的关键字有序组合集合进行检索信息,形成有序结果集合的过程。
1、遍历“关键字有序组合集合”,按索引顺序依次提取子集;
2、依次使用提取出的子集来检索信息,并得到相应的结果集合;
3、将各个子集检索的结果集合进行追加融合,形成最终的结果集S。这样形成的结果也是有顺序性的。顺序索引越小的结果越优。
实施例六:
图14是本发明实施例六的检索信息形成有序结果集合的流程图。如图14所示,1、初始化空的结果集合S;
2、遍历关键字有序组合集合,按索引顺序依次提取子集;
3、使用提取出的子集来检索信息,并得到相应的结果集合Sc;
4、将结果集合Sc追加至结果集合S的末尾;
5、是否已遍历所有的子集,如果没有则返回步骤2;否则结束。
通过以上步骤,得出了优选的结果集合,可以输出或推送该结果。
进一步地,在“检索信息,形成有序结果集合”步骤中,可以引入结果数量MaxCount(S)限制,当达到Max Count时,可直接结束本检索过程并返回查询结果,以优化整个过程的检索效率和资源消耗。
实施例七:
图15是本发明实施例七的检索信息形成有序结果集合的优化和扩展过程的流程图。如图15所示:
1、首先约定Max_Count限制,初始化空的结果集合S,初始化还需获取结果数Num为Max_Count;
2、遍历关键字有序组合集合,按索引顺序依次提取子集;
3、使用提取出的子集来检索信息,并得到相应的结果集合Sc和结果数量Ci;
4、比较Num是否大于Ci,如果是则将结果集合Sc追加至结果集合S的末尾,更新Num=Num-Ci;如果否,则从结果集合Sc中提取前Num个结果,将结果追加至结果集合S的末尾;
5、是否已遍历所有的子集,如果没有则返回步骤2;否则结束。
实施例八:
图16是本发明实施例八的个性化反馈机制的流程图。如图16所示,个性化反馈机制的步骤如下:
1、检索结果展示
将检索结果按顺序在前端页面中进行展示,相关检索关键字以突出格式,如红色粗体显示。
2、用户对检索(单项或整体)结果给出反馈—满意度分级评价,用户对检索结果给出评价等级。本例中设定为三级:A、B、C三个级别,由低到高排序,等级越高评价越高,分别对应不满意、满意、非常满意。
3、将用户反馈进行分级评价转换
由于用户评价类型本身就是满意度分级评价,因此本步骤可省略。如果是其它类型,如打分,需要转换。
本实施例假设用户给出了评价C级—非常满意。
4、反馈增益量化
根据以下增益度计算公式,进行计算:
本例中,x=3,y=3,(x+1)/2为中间的等级,y与其相等时,增益度为0,即不增不减;大于时则为正向增益,否则为负向增益。1/(x-1)为紧邻级别间增益的程度。
由公式计算:当x=3,y=3时,Δd为+50%,正向增益。
5、获取第一顺序关键字Key在专业字典中的权重Vi
本实施例中,设定以三个关键字基于上述所述的专业字典检索,如图表17所示:则关键字顺序集合为:{Kb,Ka,Kc},Kb即为第一顺序关键字。
6、Vi增益调优并保存
Vi增益调优公式:
其中:
V′i为Vi增益调优的值,Vi为专业字典中第一关键字的权重,由第五步得知第一关键字为Kb,相应Vi=0.9;
k为增益范围系数,此处设定k=2。典型的,在大数据多样本训练时,可控制增益速度的快慢。如果希望快速增益,则调小k值,否则增大k值;
Δd为反馈增益量化的增益度。由第四步计算,Δd为+50%,正向增益。
将上述参数带入公式,计算V′i=0.925。
图18是本发明实施例八的第一顺序关键字的增益调整信息表。如图表所示,调整后的最终索引顺序,Kb排在第一位。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (7)

1.一种基于反馈的有序分级排序方法,其特征在于,该方法包括:
获得关键字初步顺序集合,其中每个关键字具有索引;
基于检索结果反馈调整专属业务字典的专业权重,并基于增益调优后的专业权重进行索引顺序调整,获得关键字有序集合;
将所述关键字有序集合中的关键字进行组合,形成不同的子集;
将所述子集分级、排序,得到关键字有序组合集合;
基于专业权重进行索引顺序调整包括:
获得初步权重Wi和专业权重Vi;
调整后的权重Ui为:
其中,K为专业权重Vi的权重系数;
基于反馈调整专属业务字典的专业权重Vi,并基于调整后的权重Ui重新排序,获得新的关键字有序集合;
通过专属业务字典获取关键字的专业权重Vi;以及
通过曲线拟合的方式进行权重量化,获得初步权重Wi为
其中,n为关键字数量,i:0,1…n。
2.根据权利要求1所述的基于反馈的有序分级排序方法,其特征在于,基于检索结果反馈调整专属业务字典的专业权重包括:
利用关键字有序组合集合的每一个子集元素进行查询检索,进行检索结果展示;
获得用户对检索结果的反馈,并将用户反馈进行分级转换;
根据用户反馈分级评价等级计算增益度;
根据增益度调整专业权重。
3.根据权利要求2所述的基于反馈的有序分级排序方法,其特征在于,根据以下增益度计算公式,进行计算:
其中,x为评价分级的级别数量,为大于1的整数;y为评价等级索引,取值范围:1~x。
4.根据权利要求3所述的基于反馈的有序分级排序方法,其特征在于,Vi增益调优公式:
其中,Vi′为Vi增益调整后的值,Vi为专业字典中关键字的专业权重,k为增益范围系数,大于等于1。
5.根据权利要求1所述的基于反馈的有序分级排序方法,其特征在于,所述子集的分级包括:
第N级,对应由N个关键字组合而成的子集,N为自然数。
6.根据权利要求1所述的基于反馈的有序分级排序方法,其特征在于,将所述关键字有序集合中的关键字分成多组,将每个组内的关键字进行组合形成不同的子集,多组关键字形成多组不同的子集。
7.根据权利要求4所述的基于反馈的有序分级排序方法,其特征在于,将多组不同的子集进行分级、排序,得到关键字有序组合集合。
CN201911367304.0A 2019-12-26 2019-12-26 一种基于反馈的有序分级排序方法 Active CN111190947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911367304.0A CN111190947B (zh) 2019-12-26 2019-12-26 一种基于反馈的有序分级排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911367304.0A CN111190947B (zh) 2019-12-26 2019-12-26 一种基于反馈的有序分级排序方法

Publications (2)

Publication Number Publication Date
CN111190947A CN111190947A (zh) 2020-05-22
CN111190947B true CN111190947B (zh) 2024-02-23

Family

ID=70708014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911367304.0A Active CN111190947B (zh) 2019-12-26 2019-12-26 一种基于反馈的有序分级排序方法

Country Status (1)

Country Link
CN (1) CN111190947B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930022A (zh) * 2012-10-31 2013-02-13 中国运载火箭技术研究院 面向用户的信息搜索引擎系统及方法
CN103440253A (zh) * 2013-07-25 2013-12-11 清华大学 语音检索方法及系统
CN104134374A (zh) * 2014-05-06 2014-11-05 天津工业大学 一种基于词句排序动态评估掌握程度的电子词典方法
CN104376065A (zh) * 2014-11-05 2015-02-25 百度在线网络技术(北京)有限公司 检索词重要度的确定方法和装置
CN109800284A (zh) * 2018-12-19 2019-05-24 中国电子科技集团公司第二十八研究所 一种面向任务的非结构化信息智能问答系统构建方法
CN110377684A (zh) * 2019-07-19 2019-10-25 辽宁工程技术大学 一种基于用户反馈的空间关键字个性化语义查询方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005182280A (ja) * 2003-12-17 2005-07-07 Ibm Japan Ltd 情報検索システム、検索結果加工システム及び情報検索方法並びにプログラム
US20100131563A1 (en) * 2008-11-25 2010-05-27 Hongfeng Yin System and methods for automatic clustering of ranked and categorized search objects
US10592541B2 (en) * 2015-05-29 2020-03-17 Intel Corporation Technologies for dynamic automated content discovery

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930022A (zh) * 2012-10-31 2013-02-13 中国运载火箭技术研究院 面向用户的信息搜索引擎系统及方法
CN103440253A (zh) * 2013-07-25 2013-12-11 清华大学 语音检索方法及系统
CN104134374A (zh) * 2014-05-06 2014-11-05 天津工业大学 一种基于词句排序动态评估掌握程度的电子词典方法
CN104376065A (zh) * 2014-11-05 2015-02-25 百度在线网络技术(北京)有限公司 检索词重要度的确定方法和装置
CN109800284A (zh) * 2018-12-19 2019-05-24 中国电子科技集团公司第二十八研究所 一种面向任务的非结构化信息智能问答系统构建方法
CN110377684A (zh) * 2019-07-19 2019-10-25 辽宁工程技术大学 一种基于用户反馈的空间关键字个性化语义查询方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
余强 ; 周良 ; 丁秋林.基于用户浏览行为的用户模型调整算法研究.计算机与数字工程.2010,(11),全文. *
许琦 ; 顾新建 ; 胡恒杰.一种个性化智能搜索引擎的研究.情报学报.2007,26(04),正文第1-6节. *
贾永刚.档案个性化检索研究.兰台世界.2010,(08),正文第1-4节. *

Also Published As

Publication number Publication date
CN111190947A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
US5649023A (en) Method and apparatus for indexing a plurality of handwritten objects
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
US7542966B2 (en) Method and system for retrieving documents with spoken queries
US7444356B2 (en) Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors
CN103870001B (zh) 一种生成输入法候选项的方法及电子装置
CN107590128B (zh) 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法
US20050198027A1 (en) Document retrieval system recognizing types and values of numeric search conditions
GB2362238A (en) Automatic text classification
EP3049966A1 (en) Methods and systems for data management and analysis
CN111914062A (zh) 一种基于关键词的长文本问答对生成系统
CN110442702A (zh) 搜索方法、装置、可读存储介质和电子设备
CN109933216B (zh) 一种用于智能输入的词语联想提示方法、装置、设备以及计算机存储介质
WO2015051481A1 (en) Determining collection membership in a data graph
JP2669601B2 (ja) 情報検索方法及びシステム
CN112307182A (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN113190593A (zh) 一种基于数字人文知识图谱的搜索推荐方法
CN116010552A (zh) 一种基于关键词词库的工程造价数据解析系统及其方法
CN117453861A (zh) 基于对比学习与预训练技术的代码搜索推荐方法和系统
CN113742292B (zh) 基于ai技术的多线程数据检索及所检索数据的访问方法
CN117171331B (zh) 基于大型语言模型的专业领域信息交互方法、装置及设备
CN111209378B (zh) 一种基于业务字典权重的有序分级排序方法
CN106570196A (zh) 视频节目的搜索方法和装置
CN111737482B (zh) 一种适用于数据挖掘的全景可视化图谱生成方法及装置
CN111190947B (zh) 一种基于反馈的有序分级排序方法
CN112199461B (zh) 基于块索引结构的文档检索方法、装置、介质和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant