CN117272995B - 一种重复工单推荐方法及装置 - Google Patents

一种重复工单推荐方法及装置 Download PDF

Info

Publication number
CN117272995B
CN117272995B CN202311551499.0A CN202311551499A CN117272995B CN 117272995 B CN117272995 B CN 117272995B CN 202311551499 A CN202311551499 A CN 202311551499A CN 117272995 B CN117272995 B CN 117272995B
Authority
CN
China
Prior art keywords
work order
text
recall
milvus
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311551499.0A
Other languages
English (en)
Other versions
CN117272995A (zh
Inventor
林韶军
黄河
黄炳裕
戴文艳
谢学赐
叶威鑫
刘骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Evecom Information Technology Development Co ltd
Original Assignee
Evecom Information Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Evecom Information Technology Development Co ltd filed Critical Evecom Information Technology Development Co ltd
Priority to CN202311551499.0A priority Critical patent/CN117272995B/zh
Publication of CN117272995A publication Critical patent/CN117272995A/zh
Application granted granted Critical
Publication of CN117272995B publication Critical patent/CN117272995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种重复工单推荐方法及装置,包括如下步骤:对输入的输入的工单文本进行ElasticSearch召回和Milvus召回,并对Milvus召回结果进行筛选过滤,然后将两路找回结果通过线性加权粗排,最后再通过SimBERTv2模型精排,输出重复工单推荐列表。本发明优点在于:1、能够将相似工单区分开,准确识别重复工单。

Description

一种重复工单推荐方法及装置
技术领域
本发明涉及计算机数据处理领域,尤其涉及一种重复工单推荐方法及装置。
背景技术
现有的相似案件推荐算法根据相近的案件类型、相近的诉求部门和相似的诉求标题与内容作为相似案件的判断依据。案件类型和诉求部门通过数据库表字段完成过滤筛选。诉求标题与内容的相似性,采用文本相似性算法模型计算,文本相似度算法采用召回-排序策略,即从数据中召回目标案件的相似案件的候选子集,然后采用排序模型将候选子集进行相似度排序,最后取最相似的TopK作为相似案件推荐结果。上述技术方案的不足在于:1、上述技术方案可以在寻找相似案件取得很好的成果,但大部分相似案件是同一类案件,比如都是违章停车,并不是代表一件事。2、相似案件的召回范围更大,可以不同时间不同地点,而非相同事件的重复案件。而本发明提出的重复工单是指同一件事,比如都是投诉某小区门口有违章停车,因此,上述技术方案无法将相似案件和重复案件区分开来,还不足以实现重复工单的推荐。
发明内容
为了解决上述问题,本发明的目的在于提供一种重复工单推荐方法,实现了在事件平台上,通过输入的诉求件工单信息,有效地将相似工单区分开,推荐出与该工单具有重复性的已建工单,可用于工单的并案处理或提高处理优先级等。
为实现上述目的,本发明采用以下技术方案:
一种重复工单推荐方法,包括如下步骤:对输入的工单文本进行分词后,在历史工单数据库中进行基于分词的ElasticSearch召回,从召回结果中取前top_M的工单文本作为召回结果返回;将所述输入的工单文本转换为输入文本特征向量后进行基于语义的Milvus召回,从召回结果中取前top_N的文本特征向量对应的工单文本作为初步召回结果,按照预设的过滤规则对所述初步召回结果进行过滤筛选后,得到Milvus最终召回结果;加权线性粗排:根据预设权重值,对获取到的ElasticSearch召回结果和Milvus最终召回结果进行线性加权求和,得到最终得分,按照最终得分从大到小排序,取前top_K的工单文本作为粗排结果;将所述输入的工单文本和粗排结果输入SimBERTv2模型,对粗排结果进行精排:所述SimBERTv2模型将所述输入的工单文本和top_K的粗排结果生成的特征向量并进行输入文本特征向量与所述top_K粗排文本特征向量的相似度计算,根据相似度值对top_K的粗排工单文本进行重排,得到精排结果,将精排结果作为重复工单推荐列表。
更优地,所述基于语义的Milvus召回执行如下步骤:收集工单作为训练数据集,对训练数据集中的工单做如下标记:以工单的重复工单为正例,工单的相似工单或无关联工单为反例;在此训练数据集上微调M3E基础模型,得到用于区分重复工单和相似工单的微调后的M3E模型;将所述输入的工单文本输入微调后的M3E模型,生成输入工单文本向量,将工单的ID和对应的文本特征向量保存至Milvus向量库中,所述Milvus向量库中存储所有工单的文本特征向量;在Milvus计算引擎中配置相似度的计算公式,通过Milvus计算引擎计算输入文本特征向量与Milvus向量库中除所述输入文本特征向量外所有文本特征向量进行向量间的相似度计算,按照相似度分值从大到小进行排序,取前top_N的文本特征向量对应的工单文本作为初步召回结果。
更优地,将Milvus初步召回结果,关联至数据库表,进一步通过数据库表字段完成过滤筛选:根据时间区间筛选:通过限定的时间区间,过滤发生时间不在该时间区间的召回工单文本;根据事件类型筛选:过滤掉与所述输入的工单本文的事件类型不同的召回工单文本;根据工单地点经纬度筛选:对不同事件类型预先设定不同的重复工单判定距离;计算所述输入的工单文本的事件发生地经纬度与初步召回结果中工单事件发生地经纬度之间的距离,根据所述输入的工单文本的事件类型查询出该事件类型对应的重复工单判定距离,过滤掉在重复工单判定距离之外的召回工单文本;将筛选后的召回工单文本作为Milvus最终召回结果。
更优地,所述加权线性粗排的步骤为:将所述ElasticSearch召回结果中各召回工单文本对应的原始分值按照原有的大小顺序进行再赋值,得到各工单对应的赋值分r,该赋值介于[0,1];获取Milvus最终召回结果中各召回工单文本对应的相似度分值s;根据ElasticSearch召回结果中原始分值总和与Milvus最终召回结果中相似度分值总和进行动态分配权重{we,wm},其中,we为ElasticSearch召回结果的权重值,wm为Milvus最终召回结果的权重值,计算各工单的最终分值y=we*r+wm*s;按照最终得分从大到小排序,取前top_K的工单文本作为粗排结果。
本发明还提供一种重复工单推荐装置。
一种重复工单推荐装置,包括ElasticSearch召回模块:对输入的工单文本进行分词后,在历史工单数据库中进行基于分词的ElasticSearch召回,从召回结果中取前top_M的工单文本作为召回结果返回;Milvus召回模块:将所述输入的工单文本转换为输入文本特征向量后进行基于语义的Milvus召回,从召回结果中取前top_N的文本特征向量对应的工单文本作为初步召回结果,按照预设的过滤规则对所述初步召回结果进行过滤筛选后,得到Milvus最终召回结果;加权线性粗排模块:根据预设权重值,对获取到的ElasticSearch召回结果和Milvus最终召回结果进行线性加权求和,得到最终得分,按照最终得分从大到小排序,取前top_K的工单文本作为粗排结果;SimBERTv2精排模块:将所述输入的工单文本和粗排结果输入SimBERTv2模型,对粗排结果进行精排:所述SimBERTv2模型将所述输入的工单文本和top_K的粗排结果生成的特征向量并进行输入文本特征向量与所述top_K粗排文本特征向量的相似度计算,根据相似度值对top_K的粗排工单文本进行重排,得到精排结果,将精排结果作为重复工单推荐列表。
本发明具有如下有益效果:
1、本发明同时采用基于关键字的ElasticSearch召回和基于特征向量的Milvus召回,再通过加权线性粗排综合了两路召回结果,避免了只用一路召回的偶然性和不稳定性,有效排除了相似工单得干扰,给出更准确的重复工单粗排结果。
2、本发明采用微调后的基础模型生成输入工单的文本特征向量,可以准确地识别输入工单的重复工单,并有效地将相似工单区分开。
3、本发明改进了经纬度距离判定算法,可以根据不同工单类别给出不同的经纬度距离值,避免了所有数据都采用同样的距离值,这样有效地利用了工单的类别信息更好地进行重复工单的判断。
4、本发明通过SimBERTv2模型对粗排结果进行重排,进一步提升重复工单推荐结果的准确度。
附图说明
图1为本发明一种重复工单推荐方法的流程示意图;
图2为本发明一种重复工单推荐装置的系统框图。
具体实施方式
以下结合附图和具体实施例对本发明做进一步详细说明。
实施例一
参见图1,一种重复工单推荐方法,包括召回、粗排以及精排。
召回过程如下:1)对输入的工单文本进行分词后,在历史工单数据库中进行基于分词的ElasticSearch召回,从召回结果中取前top_M的工单文本作为召回结果返回。基于分词的ElasticSearch召回为现有技术,返回的结果中,每一条召回的工单文本都带有结果分值,即原始分值,选取原始分值最高的M条工单作为召回结果,该原始分值还用于粗排中最终分值的计算;2)将所述输入的工单文本转换为输入文本特征向量后进行基于语义的Milvus召回,从召回结果中取前top_N的文本特征向量对应的工单文本作为初步召回结果。在本实施例中,选用M3E(M3E是Moka Massive Mixed Embedding 的缩写)作为基础模型,可以将自然语言转换成稠密的向量,从而支持中文文本相似度计算。但是现有的M3E在向量转换时,无法较好地区分重复工单和相似工单,因此,必须对现有的M3E进行微调:收集工单文本作为训练数据集,并做如下标记:以工单的重复工单为正例,工单的相似工单或无关联工单为反例;在这样设置正负例的训练数据集上微调M3E基础模型,模型生成的实际重复工单特征向量与输入文本特征向量的相似度会远远大于相似工单特征向量与输入文本特征向量的相似度,这样,我们可以得到较好区分重复工单特征向量和相似工单特征向量的M3E模型。将所有的工单文本都通过微调后的M3E模型,生成文本特征向量,并将文本特征向量保存至Milvus向量库中。在进行召回过程中,所述输入的工单文本输入微调后的M3E模型,生成输入工单文本向量,将工单的ID和对应的文本特征向量保存至Milvus向量库中。通过Milvus计算引擎中自带的相似度计算公式计算输入文本特征向量与Milvus向量库中除所述输入文本特征向量外所有文本特征向量的相似度,进行向量间的相似度计算,得到相似度分值,按照相似度分值从大到小进行排序,取前top_N的文本特征向量对应的工单文本作为初步召回结果。为了提高召回结果的准确度,本实施例还按照预设的过滤规则对所述初步召回结果进行过滤筛选,具体过程为:将Milvus初步召回结果,关联至数据库表,进一步通过数据库表字段完成过滤筛选,包括如下三种过滤规则,可选择其中任意一种或任意组合,以同时采用三种过滤规则为最优方案。1)根据时间区间筛选:通过限定的时间区间,过滤发生时间不在该时间区间的召回工单文本;2)根据事件类型筛选:过滤掉与所述输入的工单本文的事件类型不同的召回工单文本;3)根据工单地点经纬度筛选:由于不同工单事件类型在空间距离上对重复工单的判定条件并非一成不变,例如,对于“生活垃圾”事件类型,其重复工单的距离判定为50米内较为合理;对于“商业噪声”事件类型,其重复工单的距离判定为200米内较为合理。因此,本实施例改进重复工单推荐对经纬度距离范围的判定使用固定经验值(如500米)的方法,通过计算不同事件类型的重复工单经纬度距离,提供更精细化的重复工单距离判定。重复工单经纬度距离判定算法通过分析历史重复工单数据,计算不同事件类型的重复工单经纬度距离,用户在发现重复工单时,标记并记录重复工单数据,想成历史重复工单数据。原理如下:
分组:根据事件类型,将数据划分为不同事件类型组;
聚类:在每个事件类型组内(根据标记),进行重复工单聚类;
聚类内处理:计算两两事件之间的经纬度距离,对距离异常值处理,计算聚类内最大距离;
根据聚类内最大距离,计算各事件类型组的最大距离,作为各事件类型组最终判定的距离。
算法每隔一段时间定时运行,如三个月。
基于上述步骤,完成了不同事件类型的重复工单判定距离的预设定。在召回过程中,先计算所述输入的工单文本的事件发生地经纬度与初步召回结果中工单事件发生地经纬度之间的距离,根据所述输入的工单文本的事件类型查询出该事件类型对应的重复工单判定距离,过滤掉在重复工单判定距离之外的召回工单文本。在本实施例中,将经过上述三种过滤规则筛选后的召回工单文本作为Milvus最终召回结果。在完成上述召回后,对两路召回结果以线性加权求和的方式进行粗排,能够避免只用一路召回的偶然性和不稳定性,给出更准确的粗排结果。
粗排过程如下:首先,根据ElasticSearch召回结果中各工单的原始分值总和与Milvus最终召回结果中各工单的相似度分值总和进行动态分配权重{we,wm},其中,we为ElasticSearch召回结果的权重值,wm为Milvus最终召回结果的权重值。例如,对这两权重值分别设计一个基准值,如果ElasticSearch召回结果的原始分值的总和高于基准值,Milvus召回结果的相似度分值总和低于基准值,则取较大值,反之一样。
如果es原始得分和Milvus相似度均大于或小于各自基准值,
如果es原始得分大于基准值,Milvus相似度小于基准值,
如果es原始得分小于基准值,Milvus相似度大于基准值。
其次,对获取到的ElasticSearch召回结果和Milvus最终召回结果进行线性加权求和,得到最终得分:将所述ElasticSearch召回结果中各召回工单文本对应的原始分值按照原始分值的大小顺序进行再赋值,得到各工单对应的赋值分r,
其中,score为原始分值,为原始分值中的最大值,该赋值介于[0,1];由于相似度分值在[0,1],直接获取Milvus最终召回结果中各召回工单文本对应的相似度分值s。计算两路召回结果中各工单的最终分值y,y=we*r+wm*s。假设ElasticSearch召回三个结果/>,根据原始分值排序进行赋值,/>。假设Milvus召回的前三个结果为/>,对应的相似度为/>,最终,我们可以算出各召回结果的最终分值。
最后,按照最终得分从大到小排序,取前top_K的工单文本作为粗排结果。所述K的取值≤M或K≤N。
在完成粗排后,进一步通过SimBERTv2模型进行精排,进一步提高排序的准确性,以实现高准确率的重复工单识别。由于SimBERTv2模型较大,精度较高,推理时间较长,不适合在前期对所有的工单生成文本向量,因此我们将其应用在top_K个结果生成文本向量。所述SimBERTv2模型将所述输入的工单文本和top_K的粗排结果分别生成特征向量,将输入文本的特征向量分别与所述top_K个粗排结果的文本特征向量进行相似度计算,根据相似度值对top_K的粗排工单文本进行重排,得到精排结果,将精排结果作为重复工单推荐列表。
需要说明的是,本实施例中,所述top_M、top_N、top_K为自定义的正整数。
本发明的优点在于:1、同时采用基于关键字的ElasticSearch召回和基于特征向量的Milvus召回,再通过加权线性粗排综合了两路召回结果,避免了只用一路召回的偶然性和不稳定性,给出更准确的粗排结果。2、采用微调后的基础模型生成输入工单的文本特征向量,可以准确地识别输入工单的重复工单,并有效地将相似工单区分开。3、改进了经纬度距离判定算法,可以根据不同工单类别给出不同的经纬度距离值,避免了所有数据都采用同样的距离值,这样有效地利用了工单的类别信息更好地进行重复工单的判断。4、通过SimBERTv2模型对粗排结果进行重排,进一步提升重复工单推荐结果的准确度。
实施例二
请参阅图1和图2,一种重复工单推荐装置,包括ElasticSearch召回模块:对输入的工单文本进行分词后,在历史工单数据库中进行基于分词的ElasticSearch召回,从召回结果中取前top_M的工单文本作为召回结果返回;Milvus召回模块:将所述输入的工单文本转换为输入文本特征向量后进行基于语义的Milvus召回,从召回结果中取前top_N的文本特征向量对应的工单文本作为初步召回结果,按照预设的过滤规则对所述初步召回结果进行过滤筛选后,得到Milvus最终召回结果;加权线性粗排模块:根据预设权重值,对获取到的ElasticSearch召回结果和Milvus最终召回结果进行线性加权求和,得到最终得分,按照最终得分从大到小排序,取前top_K的工单文本作为粗排结果;SimBERTv2精排模块:将所述输入的工单文本和粗排结果输入SimBERTv2模型,对粗排结果进行精排:所述SimBERTv2模型将所述输入的工单文本和top_K的粗排结果分别生成特征向量,将输入文本的特征向量分别与所述top_K个粗排结果的文本特征向量进行相似度计算,根据相似度值对top_K的粗排工单文本进行重排,得到精排结果,将精排结果作为重复工单推荐列表。
所述Milvus召回模块执行如下步骤:收集工单作为训练数据集,对训练数据集中的工单做如下标记:以工单的重复工单为正例,工单的相似工单或无关联工单为反例;在此训练数据集上微调M3E基础模型,得到用于区分重复工单和相似工单的微调后的M3E模型;将所述输入的工单文本输入微调后的M3E模型,生成输入工单文本向量,将工单的ID和对应的文本特征向量保存至Milvus向量库中,所述Milvus向量库中存储所有工单的文本特征向量;在Milvus计算引擎中配置相似度的计算公式,通过Milvus计算引擎计算输入文本特征向量与Milvus向量库中除所述输入文本特征向量外所有文本特征向量进行向量间的相似度计算,按照相似度分值从大到小进行排序,取前top_N的文本特征向量对应的工单文本作为初步召回结果。
所述按照预设的过滤规则进行过滤筛选,包括:将Milvus初步召回结果,关联至数据库表,进一步通过数据库表字段完成过滤筛选:根据时间区间筛选:通过限定的时间区间,过滤发生时间不在该时间区间的召回工单文本;根据事件类型筛选:过滤掉与所述输入的工单本文的事件类型不同的召回工单文本;根据工单地点经纬度筛选:对不同事件类型预先设定不同的重复工单判定距离;计算所述输入的工单文本的事件发生地经纬度与初步召回结果中工单事件发生地经纬度之间的距离,根据所述输入的工单文本的事件类型查询出该事件类型对应的重复工单判定距离,过滤掉在重复工单判定距离之外的召回工单文本;将筛选后的召回工单文本作为Milvus最终召回结果。
所述加权线性粗排模块具体执行如下步骤为:将所述ElasticSearch召回结果中各召回工单文本对应的原始分值按照原有的大小顺序进行再赋值,得到各工单对应的赋值分r,该赋值介于[0,1];获取Milvus最终召回结果中各召回工单文本对应的相似度分值s;根据ElasticSearch召回结果中原始分值总和与Milvus最终召回结果中相似度分值总和进行动态分配权重{we,wm},其中,we为ElasticSearch召回结果的权重值,wm为Milvus最终召回结果的权重值,计算各工单的最终分值y=we*r+wm*s;按照最终得分从大到小排序,取前top_K的工单文本作为粗排结果。
由于本发明实施例二所介绍的装置,为实施本发明实施例一的方法的虚拟装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体实施方式,故而在此不再赘述。凡是本发明实施例一所采用的方法都属于本发明所欲保护的范围。
以上所述仅为本发明的具体实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种重复工单推荐方法,其特征在于,包括如下步骤:
对输入的工单文本进行分词后,在历史工单数据库中进行基于分词的ElasticSearch召回,从召回结果中取前top_M的工单文本作为召回结果返回;
将所述输入的工单文本转换为输入文本特征向量后进行基于语义的Milvus召回,从召回结果中取前top_N的文本特征向量对应的工单文本作为初步召回结果,按照预设的过滤规则对所述初步召回结果进行过滤筛选后,得到Milvus最终召回结果;所述基于语义的Milvus召回执行如下步骤:收集工单作为训练数据集,以工单的重复工单为正例,工单的相似工单或无关联工单为反例;在此训练数据集上微调M3E基础模型,得到用于区分重复工单和相似工单的微调后的M3E模型;将所述输入的工单文本输入微调后的M3E模型,生成输入工单文本向量,将工单的ID和对应的文本特征向量保存至Milvus向量库中,所述Milvus向量库中存储所有工单的文本特征向量;在Milvus计算引擎中配置相似度的计算公式,通过Milvus计算引擎计算输入文本特征向量与Milvus向量库中除所述输入文本特征向量外所有文本特征向量间的相似度,按照相似度分值从大到小进行排序,取前top_N的文本特征向量对应的工单文本作为初步召回结果;
加权线性粗排:根据预设权重值,对获取到的ElasticSearch召回结果和Milvus最终召回结果进行线性加权求和,得到最终得分,按照最终得分从大到小排序,取前top_K的工单文本作为粗排结果;
将所述输入的工单文本和粗排结果输入SimBERTv2模型,对粗排结果进行精排:所述SimBERTv2模型将所述输入的工单文本和top_K的粗排结果分别生成特征向量,将输入文本的特征向量分别与所述top_K个粗排结果的文本特征向量进行相似度计算,根据相似度值对top_K的粗排工单文本进行重排,得到精排结果,将精排结果作为重复工单推荐列表;
所述top_M、top_N、top_K为自定义的正整数。
2.根据权利要求1所述的一种重复工单推荐方法,其特征在于:所述按照预设的过滤规则进行过滤筛选,包括:将Milvus初步召回结果,关联至数据库表,进一步通过数据库表字段完成过滤筛选:
根据时间区间筛选:通过限定的时间区间,过滤发生时间不在该时间区间的召回工单文本;
根据事件类型筛选:过滤掉与所述输入的工单本文的事件类型不同的召回工单文本;
根据工单地点经纬度筛选:对不同事件类型预先设定不同的重复工单判定距离;计算所述输入的工单文本的事件发生地经纬度与初步召回结果中工单事件发生地经纬度之间的距离,根据所述输入的工单文本的事件类型查询出该事件类型对应的重复工单判定距离,过滤掉在重复工单判定距离之外的召回工单文本;
将筛选后的召回工单文本作为Milvus最终召回结果。
3.根据权利要求1所述的一种重复工单推荐方法,其特征在于:所述加权线性粗排的步骤为:
将所述ElasticSearch召回结果中各召回工单文本对应的原始分值按照原有的大小顺序进行再赋值,得到各工单对应的赋值分r,该赋值介于[0,1];
获取Milvus最终召回结果中各召回工单文本对应的相似度分值s;
根据ElasticSearch召回结果中原始分值总和与Milvus最终召回结果中相似度分值总和进行动态分配权重{we,wm},其中,we为ElasticSearch召回结果的权重值,wm为Milvus最终召回结果的权重值;
计算各工单的最终分值y=we*r+wm*s;
按照最终得分从大到小排序,取前top_K的工单文本作为粗排结果。
4.一种重复工单推荐装置,其特征在于:包括
ElasticSearch召回模块:对输入的工单文本进行分词后,在历史工单数据库中进行基于分词的ElasticSearch召回,从召回结果中取前top_M的工单文本作为召回结果返回;
Milvus召回模块:将所述输入的工单文本转换为输入文本特征向量后进行基于语义的Milvus召回,从召回结果中取前top_N的文本特征向量对应的工单文本作为初步召回结果,按照预设的过滤规则对所述初步召回结果进行过滤筛选后,得到Milvus最终召回结果;所述基于语义的Milvus召回执行如下步骤:收集工单作为训练数据集,以工单的重复工单为正例,工单的相似工单或无关联工单为反例;在此训练数据集上微调M3E基础模型,得到用于区分重复工单和相似工单的微调后的M3E模型;将所述输入的工单文本输入微调后的M3E模型,生成输入工单文本向量,将工单的ID和对应的文本特征向量保存至Milvus向量库中,所述Milvus向量库中存储所有工单的文本特征向量;在Milvus计算引擎中配置相似度的计算公式,通过Milvus计算引擎计算输入文本特征向量与Milvus向量库中除所述输入文本特征向量外所有文本特征向量间的相似度,按照相似度分值从大到小进行排序,取前top_N的文本特征向量对应的工单文本作为初步召回结果;
加权线性粗排模块:根据预设权重值,对获取到的ElasticSearch召回结果和Milvus最终召回结果进行线性加权求和,得到最终得分,按照最终得分从大到小排序,取前top_K的工单文本作为粗排结果;
SimBERTv2精排模块:将所述输入的工单文本和粗排结果输入SimBERTv2模型,对粗排结果进行精排:所述SimBERTv2模型将所述输入的工单文本和top_K的粗排结果分别生成特征向量,将输入文本的特征向量分别与所述top_K个粗排结果的文本特征向量进行相似度计算,根据相似度值对top_K的粗排工单文本进行重排,得到精排结果,将精排结果作为重复工单推荐列表;
所述top_M、top_N、top_K为自定义的正整数。
5.根据权利要求4所述的一种重复工单推荐装置,其特征在于:所述按照预设的过滤规则进行过滤筛选,包括:将Milvus初步召回结果,关联至数据库表,进一步通过数据库表字段完成过滤筛选:
根据时间区间筛选:通过限定的时间区间,过滤发生时间不在该时间区间的召回工单文本;
根据事件类型筛选:过滤掉与所述输入的工单本文的事件类型不同的召回工单文本;
根据工单地点经纬度筛选:对不同事件类型预先设定不同的重复工单判定距离;计算所述输入的工单文本的事件发生地经纬度与初步召回结果中工单事件发生地经纬度之间的距离,根据所述输入的工单文本的事件类型查询出该事件类型对应的重复工单判定距离,过滤掉在重复工单判定距离之外的召回工单文本;
将筛选后的召回工单文本作为Milvus最终召回结果。
6.根据权利要求4所述的一种重复工单推荐装置,其特征在于:
所述加权线性粗排模块具体执行如下步骤为:
将所述ElasticSearch召回结果中各召回工单文本对应的原始分值按照原有的大小顺序进行再赋值,得到各工单对应的赋值分r,该赋值介于[0,1];
获取Milvus最终召回结果中各召回工单文本对应的相似度分值s;
根据ElasticSearch召回结果中原始分值总和与Milvus最终召回结果中相似度分值总和进行动态分配权重{we,wm},其中,we为ElasticSearch召回结果的权重值,wm为Milvus最终召回结果的权重值;
计算各工单的最终分值y=we*r+wm*s;
按照最终得分从大到小排序,取前top_K的工单文本作为粗排结果。
CN202311551499.0A 2023-11-21 2023-11-21 一种重复工单推荐方法及装置 Active CN117272995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311551499.0A CN117272995B (zh) 2023-11-21 2023-11-21 一种重复工单推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311551499.0A CN117272995B (zh) 2023-11-21 2023-11-21 一种重复工单推荐方法及装置

Publications (2)

Publication Number Publication Date
CN117272995A CN117272995A (zh) 2023-12-22
CN117272995B true CN117272995B (zh) 2024-01-30

Family

ID=89202962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311551499.0A Active CN117272995B (zh) 2023-11-21 2023-11-21 一种重复工单推荐方法及装置

Country Status (1)

Country Link
CN (1) CN117272995B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688163B (zh) * 2024-01-29 2024-04-23 杭州有赞科技有限公司 基于指令微调和检索增强生成的在线智能问答方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676346A (zh) * 2022-03-17 2022-06-28 平安科技(深圳)有限公司 新闻事件处理方法、装置、计算机设备和存储介质
CN115238053A (zh) * 2022-07-19 2022-10-25 东北大学 基于bert模型的新冠知识智能问答系统及方法
CN115309872A (zh) * 2022-10-13 2022-11-08 深圳市龙光云众智慧科技有限公司 一种基于Kmeans召回的多模型熵加权检索方法及系统
CN115438147A (zh) * 2022-08-03 2022-12-06 交控科技股份有限公司 面向轨道交通领域的信息检索方法及系统
CN115495555A (zh) * 2022-09-26 2022-12-20 中国科学院深圳先进技术研究院 一种基于深度学习的文献检索方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676346A (zh) * 2022-03-17 2022-06-28 平安科技(深圳)有限公司 新闻事件处理方法、装置、计算机设备和存储介质
CN115238053A (zh) * 2022-07-19 2022-10-25 东北大学 基于bert模型的新冠知识智能问答系统及方法
CN115438147A (zh) * 2022-08-03 2022-12-06 交控科技股份有限公司 面向轨道交通领域的信息检索方法及系统
CN115495555A (zh) * 2022-09-26 2022-12-20 中国科学院深圳先进技术研究院 一种基于深度学习的文献检索方法和系统
CN115309872A (zh) * 2022-10-13 2022-11-08 深圳市龙光云众智慧科技有限公司 一种基于Kmeans召回的多模型熵加权检索方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
投诉工单聚类算法在问答系统中的研究;李洪巍 等;电子技术与软件工程;206-209 *

Also Published As

Publication number Publication date
CN117272995A (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
CN110245981B (zh) 一种基于手机信令数据的人群类型识别方法
CN109271477B (zh) 一种借助互联网构建分类语料库的方法及系统
CN103810299B (zh) 基于多特征融合的图像检索方法
CN117272995B (zh) 一种重复工单推荐方法及装置
CN101650746B (zh) 一种对排序结果进行验证的方法和系统
CN111008262B (zh) 一种基于知识图谱的律师评估方法和推荐方法
US10387805B2 (en) System and method for ranking news feeds
CN102456016B (zh) 一种对搜索结果进行排序的方法及装置
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和系统
CN103902597A (zh) 确定目标关键词所对应的搜索相关性类别的方法和设备
CN101957859B (zh) 基于集成支撑矢量机排序的信息检索方法
CN111984873B (zh) 一种服务推荐系统和方法
CN113177101B (zh) 用户轨迹识别方法、装置、设备及存储介质
CN114595850A (zh) 基于机器学习的政务预约服务推荐方法
CN111369294B (zh) 软件造价估算方法及装置
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
JPH11167581A (ja) 情報分類方法、装置及びシステム
CN105740434A (zh) 网络信息评分方法及装置
CN102004796A (zh) 一种网页文本的无阻滞层次分类方法与装置
CN105787004A (zh) 一种文本分类方法及装置
CN107423759B (zh) 低维逐次投影寻踪聚类模型综合评价方法、装置及应用
CN114168733B (zh) 一种基于复杂网络的法规检索方法及系统
CN112506930B (zh) 一种基于机器学习技术的数据洞察系统
CN116244426A (zh) 地理功能区识别方法、装置、设备及存储介质
CN111382265B (zh) 搜索方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant