CN113987134A - 工单检索方法、装置、电子设备及存储介质 - Google Patents

工单检索方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113987134A
CN113987134A CN202111346808.1A CN202111346808A CN113987134A CN 113987134 A CN113987134 A CN 113987134A CN 202111346808 A CN202111346808 A CN 202111346808A CN 113987134 A CN113987134 A CN 113987134A
Authority
CN
China
Prior art keywords
work order
similarity
description text
keyword
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111346808.1A
Other languages
English (en)
Inventor
任梅
许翔
赵雁榕
李嘉荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202111346808.1A priority Critical patent/CN113987134A/zh
Publication of CN113987134A publication Critical patent/CN113987134A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开关于一种工单检索方法、装置、电子设备及存储介质,涉及金融领域。用户可以在工单检索界面中输入第一工单的描述文本,作为检索条件,而无需人为地从该工单的描述文本中挑选出关键词,从而避免关键词挑选不准确而导致的检索结果不准确的问题。为了检索到与第一工单相关的第二工单,本申请在考虑第一工单中包含的目标关键词与的第二工单包含的关键词的相似度的同时,还考虑了第一工单的描述文本与的第二工单的描述文本之间的相似度,并综合基于关键词的相似度和基于文本的相似度,得到第一工单与的第二工单的匹配程度。从而,避免由于只考虑基于关键词的相似度而导致的检索结果两极化的问题。

Description

工单检索方法、装置、电子设备及存储介质
技术领域
本公开涉及金融领域或者其他技术领域,尤其涉及一种工单检索方法、装置、电子设备及存储介质。
背景技术
工单即工作单据,是常见于银行业务系统中的一种业务作业记录信息。在工单检索场景中,通常是人为的选定出可作为检索条件的关键词,输入到系统中,系统将利用正则匹配的方式在工单数据库中查询包含该关键词的相关工单。其中,人为选定的关键词可以来源于某一特定工单,那么检索结果则可看成是该特定工单的相关工单。
然而在上述工单检索的实现方案中,如果输入的关键词较少或者常见,则会导致检索结果多且不够准确,而如果输入的关键词过多,则会导致检索结果极少,甚至是没有检索结果。也就是说,利用正则匹配规则检索包含指定关键词的工单的方法,极易出现检索结果两极化的现象。
发明内容
本公开提供一种工单检索方法、装置、电子设备及存储介质,以至少解决相关技术中利用正则匹配规则检索包含指定关键词的工单的方法,极易出现检索结果两极化的现象的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种工单检索方法,包括:获取第一工单的描述文本;生成所述第一工单对应的第一关键词集,所述第一关键词集包括从所述第一工单的描述文本中抽取出的目标关键词;在预先构建的关键词库中检索所述目标关键词的相关词,并查询包含至少一个所述相关词的第二工单,每个所述第二工单对应于一个预先生成的第二关键词集;基于所述第一工单对应的第一关键词集和所述第二工单对应的第二关键词集,确定所述第一工单与第二工单的第一相似度,以及,基于所述第一工单的描述文本和所述第二工单的描述文本,确定所述第一工单与第二工单的第二相似度;根据所述第一工单与所述第二工单的所述第一相似度和所述第二相似度确定所述第一工单与所述第二工单的第一匹配度;根据所述第一工单与每个第二工单的第一匹配度确定所述第一工单相关的工单。
结合第一方面,在第一方面可能的实现方式中,基于所述第一工单对应的第一关键词集和所述第二工单对应的第二关键词集确定所述第一工单与第二工单的第一相似度,包括:计算所述第一关键词集中每个目标关键词与所述第二关键词集中每个关键词的余弦距离,得到第一代价矩阵;利用匈牙利算法计算所述第一代价矩阵对应的最小代价;对所述第一代价矩阵对应的最小代价进行归一化处理,得到所述第一工单与所述第二工单的第一相似度。
结合第一方面,在第一方面可能的实现方式中,基于所述第一工单的描述文本和所述第二工单的描述文本确定所述第一工单与第二工单的第二相似度,包括:计算所述第一工单的描述文本中每个词语与所述第二工单的描述文本中每个词语的余弦距离和位置距离;根据所述第一工单的描述文本中每个词语与所述第二工单的描述文本中每个词语的余弦距离和位置距离,得到第二代价矩阵;利用匈牙利算法计算所述第二代价矩阵对应的最小代价;对所述第二代价矩阵对应的最小代价进行归一化处理,得到所述第一工单与所述第二工单的第二相似度。
结合第一方面,在第一方面可能的实现方式中,计算所述第一工单的描述文本中每个词语与所述第二工单的描述文本中每个词语的位置距离,包括:
Figure BDA0003354295300000021
其中,dp-pq表示第一工单的描述文本中第p个词语与第二工单的描述文本中第q个词语的位置距离,n表示第一工单的描述文本中的词语总数,m表示第二工单的描述文本中的词语总数。
结合第一方面,在第一方面可能的实现方式中,根据所述第一工单与所述第二工单的所述第一相似度和所述第二相似度确定所述第一工单与所述第二工单的第一匹配度,包括:获取所述第一相似度及第二相似度预设的权重系数;利用所述第一相似度及第二相似度预设的权重系数对所述第一相似度和第二相似度进行加权求和,得到所述第一匹配度。
结合第一方面,在第一方面可能的实现方式中,根据所述第一工单与每个第二工单的第一匹配度确定所述第一工单相关的工单,包括:若所述第二工单与所述第一工单的第一匹配度大于预设阈值,则将所述第二工单确定为所述第一工单相关的工单。
结合第一方面,在第一方面可能的实现方式中,根据所述第一工单与每个第二工单的第一匹配度确定所述第一工单相关的工单,包括:若与所述第一工单的第一匹配度大于预设阈值的第二工单的数量大于预设数量,则基于所述第一工单的描述文本的长度和每个第二工单的描述文本的长度,确定所述第一工单与每个第二工单的第三相似度;根据所述第一工单与每个第二工单的所述第一相似度、第二相似度及第三相似度确定所述第一工单与每个第二工单的第二匹配度;根据所述第一工单与每个第二工单的第二匹配度确定所述第一工单相关的工单。
结合第一方面,在第一方面可能的实现方式中,基于所述第一工单的描述文本的长度和每个第二工单的描述文本的长度,确定所述第一工单与每个第二工单的第三相似度,包括:
Figure BDA0003354295300000031
其中,dl表示第一工单与第二工单的第三相似度,n表示第一工单的描述文本中词语的个数,m表示第二工单的描述文本中词语的个数。
结合第一方面,在第一方面可能的实现方式中,所述关键词库是按照下述步骤构建的:获取工单文本集,所述工单文本集包括若干工单描述文本;对所述工单描述文本进行预处理,以去除所述工单描述文本中的无效字符;利用预设的关键词提取规则从经过预处理的工单描述文本中提取关键词;将提取出的关键词添加到关键词库中。
结合第一方面,在第一方面可能的实现方式中,生成所述第一工单对应的第一关键词集,包括:利用所述预设的关键词提取规则从所述第一工单的描述文本中抽取出候选关键词;判断所述候选关键词是否为指定词;若所述候选关键词不是指定词,则将所述候选关键词确定为所述目标关键词。
第二方面,本申请实施例提供一种工单检索装置,包括:检索条件获取模块,用于获取第一工单的描述文本;目标关键词获取模块,用于生成所述第一工单对应的第一关键词集,所述第一关键词集包括从所述第一工单的描述文本中抽取出的目标关键词;工单获取模块,用于在预先构建的关键词库中检索所述目标关键词的相关词,并查询包含至少一个所述相关词的第二工单,每个所述第二工单对应于一个预先生成的第二关键词集;相似度计算模块,用于基于所述第一工单对应的第一关键词集和所述第二工单对应的第二关键词集,确定所述第一工单与第二工单的第一相似度,以及,基于所述第一工单的描述文本和所述第二工单的描述文本,确定所述第一工单与第二工单的第二相似度;匹配度计算模块,用于根据所述第一工单与所述第二工单的所述第一相似度和所述第二相似度确定所述第一工单与所述第二工单的第一匹配度;确定模块,用于根据所述第一工单与每个第二工单的第一匹配度确定所述第一工单相关的工单。
第三方面,本申请实施例提供一种电子设备,包括:存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序,以执行第一方面中任意一种实现方式所述的工单检索方法。
第四方面,本申请实施例提供计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,当所述计算机程序在电子设备上运行时,使得所述电子设备执行第一方面中任意一种实现方式所述的工单检索方法。
由以上实施例可以看出,用户可以在工单检索界面中输入第一工单的描述文本,作为检索条件,而无需人为地从该工单的描述文本中挑选出关键词,从而避免关键词挑选不准确而导致的检索结果不准确的问题。为了检索到与第一工单相关的第二工单,本申请在考虑第一工单中包含的目标关键词与第二工单包含的关键词的相似度的同时,还考虑了第一工单的描述文本与的第二工单的描述文本之间的相似度,并综合基于关键词的相似度和基于文本的相似度,得到第一工单与的第二工单的匹配程度。从而,避免由于只考虑基于关键词的相似度而导致的检索结果两极化的问题。
另外,由于若在计算第一相似度时就引入文本长度的影响,会导致漏掉部分与第一工单语义相似但文本长度差异较大的第二工单,进而导致检索结果不全面。基于此,本申请在基于第一匹配度确定出与第二工单相关的第二工单后,判断相关的第二工单的数量是否超过预设数量,若是,则进一步考虑文本长度的影响,即计算上述第三相似度,基于第一相似度、第二相似度及第三相似度重新计算第一工单与第二工单的匹配程度,即上述第二匹配度,并基于第二匹配度确定与第一工单相关的第二工单。这样,可以避免文本长度对语义相似判断的影响,同时在检索出的工单数据较多时,基于文本长度对检索出的工单重新排序,以滤除掉与第一工单的文本长度差异较大的工单。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种工单检索系统结构示意图;
图2是根据一示例性实施例示出的一种工单检索方法流程图;
图3是根据一示例性实施例示出的另一种工单检索方法流程图;
图4是根据一示例性实施例示出的一种工单检索装置框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本申请实施例提供一种工单检索方法,该方法可以应用于工单检索系统,该工单检索系统用于针对用户输入的检索条件检索与之匹配的工单,并呈现给用户。示例性的,图1为一种工单检索系统结构示意图,如图1所示,该工单检索系统10包括工单检索装置11和与工单检索装置11通信连接的服务器12。
工单检索装置11用于执行本申请实施例提供的工单检索方法,以从工单数据库中检索出符合输入的检索条件的工单。工单数据库可以配置在工单检索装置11上,也可以配置在服务器12上,或者独立于工单检索装置11和服务器12。
工单检索装置11可以与服务器12进行数据交互。例如,工单检索装置11可以从服务器12获取检索条件信息,如用户输入的某个工单的描述文本。又如,工单检索装置11可以将检索结果返回给服务器12,以由服务器12返回给用户设备,呈现给用户。
服务器12用于接收用户设备发送的检索条件信息。此外,服务器12还可以用于接收工单检索装置11返回的检索结果。服务器12还可以用于将检索结果返回给用户设备。其中,检索结果可以是与检索条件匹配的工单信息,如工单的ID、名称、描述文本等。
需要说明的是,工单检索装置11和服务器12可以为相互独立的设备,也可以集成于同一设备中,本发明对此不作具体限定。这种情况下,二者之间的通信流程与“工单检索装置11和服务器12之间相互独立的情况下,二者之间的通信流程”相同。
在本发明提供的以下实施例中,主要以工单检索装置11和服务器12相互独立设置为例进行说明。
图2为本申请根据一示例性实施例示出的一种工单检索方法流程图,如图2所示,该方法可以包括:
S201,获取第一工单的描述文本。
工单的描述文本可以包含工单中涉及的所有文本内容。以银行客服工单为例,工单的描述内容可以包括卡号、户名、电话、业务名称、客户问题简述、客服处理方式、处理时间、处理结果、客服人员姓名及工号等描述内容。
在本申请实施例中,用户可以在工单检索界面中输入某个工单的描述文本,作为检索条件,而无需人为地从该工单的描述文本中挑选出关键词,从而避免关键词挑选不准确而导致的检索结果不准确的问题。为便于说明,本申请实施例中,将用户输入的工单的描述文本称为第一工单的描述文本。
在可能的实现方式中,用户可操作用户设备显示工单检索界面,并在工单检索界面中的指定位置处输入某个工单的描述文本。用户设备接收到用户输入的某个工单的描述文本后,将该描述文本发送给服务器。服务器将该描述文本发送给工单检索装置,以由工单检索装置根据该描述文本检索工单数据库。其中,用户设备可以是终端设备,如计算机设备,包括但不限于手机、平板电脑、台式电脑、笔记本电脑、车载终端、掌上终端等具有图形显示、数据处理及通信功能的设备。本申请对用户设备的具体形态不作特殊限制。其可以与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互。
S202,生成第一工单对应的第一关键词集,第一关键词集包括从第一工单的描述文本中抽取出的目标关键词。
在一些可能的实现方式中,利用预设的关键词提取规则从第一工单的描述文本中抽取出目标关键词。具体的,首先对第一工单的描述文本进行数据预处理,以去除文本中的无效字符,无效字符包括但不限于标点符号、格式符号(如空格、回车符)。然后对经过预处理的文本进行分词,并去除停用词,得到与第一工单的描述文本对应的候选词集;再利用预先训练的GloVe模型将所述候选词集转换成词向量矩阵,词向量矩阵中包括候选词集中每个分词对应的词向量;最后利用基于互信息和左右熵的新词发现算法对前述词向量矩阵进行处理,以抽取出候选词集中的目标关键词。
结合上述实现方式,在另一些可能的实现方式中,将利用预设的关键词提取规则从第一工单的描述文本中抽取出的词,确定为候选关键词。在从第一工单的描述文本中抽取出候选关键词后,判断候选关键词是否为指定词。其中,指定词可以是根据场景需求预先设定的词。比如,对于银行业务工单而言,如“卡号”、“账号”、“交易金额”等词汇会出现在每一个工单中,因此根据此类词汇并不能有效的检索到特定的工单,进而可以将此类词汇作为指定词,用于对候选关键词进行过滤,以得到将此类词汇排除在外的目标关键词。具体的,若候选关键词不是指定词,则将该候选关键词确定为目标关键词,若候选关键词是指定词,则确定该候选关键词不是目标关键词。最后,得到包含所有目标关键词的第一关键词集。
S203,在预先构建的关键词库中检索所述目标关键词的相关词,并查询包含至少一个所述相关词的第二工单,每个所述第二工单对应于一个预先生成的第二关键词集。
在一些实施例中,目标关键词的相关词可以包括与目标关键词完全匹配的词,换句话说,关键词库中的与目标关键词相同的为目标关键词的相关词。示例性的,假设目标关键词为“销户”,那么如果检索到关键词库中也包含“销户”,那么即可确定“销户”是与目标关键词“销户”的相关词之一。目标关键词的相关词还可以包括与目标关键词满足预设相似条件的词。其中,可以根据需要设定相似条件,例如,可以是基于两个词语之间的余弦距离的相似条件。示例性的,如果目标关键词与关键词库中的某个关键词之间的余弦距离小于0.2,则将该关键词确定为目标关键词的相关词。
在一些实施例中,预先构建的关键词库中包括从大量的工单的描述文本中提取出的关键词。具体来说,关键词库可以是按照图3示出的下述步骤构建的:
S301,获取工单文本集,工单文本集包括若干工单描述文本。
实际应用中,可以将业务系统中每隔一段时间产生的工单的描述文本构成工单文本集。例如,获取银行业务系统中每周产生的工单,并获取工单的描述文本,构成工单文本集。
S302,对所述工单描述文本进行预处理,以去除所述工单描述文本中的无效字符。
其中,无效字符包括但不限于标点符号、格式符号(如空格、回车符)等。
S303,利用预设的关键词提取规则从经过预处理的工单描述文本中提取关键词。
S304,将提取出的关键词添加到关键词库中。
在一些可能的实现方式中,首先对经过预处理的文本进行分词,并去除停用词,得到与工单描述文本对应的候选词集;再利用预先训练的GloVe模型将候选词集转换成词向量矩阵,词向量矩阵中包括候选词集中每个分词对应的词向量;最后利用基于互信息和左右熵的新词发现算法对前述词向量矩阵进行处理,以抽取出候选词集中的关键词,并将抽取出的关键词添加到关键词库中。
结合上述实现方式,在另一些可能的实现方式中,将从工单描述文本中抽取出的关键词确定为候选关键词。判断候选关键词是否为指定词。若候选关键词不是指定词,则将该候选关键词确定为工单描述文本的关键词,若候选关键词是指定词,则确定该候选关键词不是工单描述文本的关键词。最后确定的关键词添加到关键词库中。
在一些实施例中,对于每个工单的描述文本,在从其中抽取出关键词后,生成包含该工单对应的所有关键词的关键词集,并建立工单与关键词集的对应关系。这样,当给定工单时,可以根据预先建立的对应关系,直接查找到该工单对应的关键词集。另外,当给定某一个关键词时,通过判断各个工单对应的关键词集是否包含该给定的关键词,即可判断出各个工单是否包含该给定的关键词。
在可能的实现方式中,预先构建的关键词库、工单文本集以及每个工单对应的关键词集均保存在工单数据库中。为区别于作为检索条件的第一工单及其对应的第一关键词集,在下述实施例中,将根据某种条件从工单数据中查找到的工单称为第二工单,将第二工单对应的关键词集称为第二关键词集。例如,可以根据目标关键词,将从工单数据库中查找到的包含至少一个目标关键词的工单称为第二工单。
S204,基于第一工单对应的第一关键词集和第二工单对应的第二关键词集,确定第一工单与第二工单的第一相似度,以及,基于第一工单的描述文本和第二工单的描述文本,确定第一工单与第二工单的第二相似度。
在一些可能的实现方式中,首先计算第一关键词集中每个目标关键词与第二关键词集中每个关键词的余弦距离,得到第一代价矩阵;然后利用匈牙利算法计算第一代价矩阵对应的最小代价;最后对第一代价矩阵对应的最小代价进行归一化处理,得到第一工单与所述第二工单的第一相似度。可以看出,第一相似度是基于第一工单与第二工单各自的关键词得出的相似度。
示例性的,假设第一关键词集中包含k个目标关键词,分别为a1,a2,……,ak;第二关键词集中包括s个关键词,分别为b1,b2,……,bs;若将第一关键词集中的任意一个目标关键词ai(1≤i≤k)与第二关键词集中任意一个关键词bj(1≤j≤s)之间的余弦距离表示为dij,那么第一代价矩阵为:
Figure BDA0003354295300000081
在一些可能的实现方式中,首先计算第一工单的描述文本中每个词语与第二工单的描述文本中每个词语的余弦距离和位置距离;然后根据第一工单的描述文本中每个词语与第二工单的描述文本中每个词语的余弦距离和位置距离,得到第二代价矩阵;再利用匈牙利算法计算第二代价矩阵对应的最小代价;最后对第二代价矩阵对应的最小代价进行归一化处理,得到第一工单与所述第二工单的第二相似度。可以看出,第二相似度是基于第一工单与第二工单各自的描述文本得出的相似度。值得注意的是,本申请在确定第一工单与第二工单的文本相似度(即上述第二相似度)时,考虑了词语在文本中的位置信息,从而提高相似度计算结果的准确度。
在更为具体的实现方式中,可以按照下式计算第一工单的描述文本中每个词语与第二工单的描述文本中每个词语的位置距离,包括:
Figure BDA0003354295300000091
其中,dp-pq表示第一工单的描述文本中第p个词语与第二工单的描述文本中第q个词语的位置距离,n表示第一工单的描述文本中的词语总数,m表示第二工单的描述文本中的词语总数。
在一些可能的实现方式中,根据第一工单的描述文本中每个词语与第二工单的描述文本中每个词语的余弦距离和位置距离,得到第一工单的描述文本中每个词语与第二工单的描述文本中每个词语的距离,并进一步得到包含第一工单的描述文本中每个词语与第二工单的描述文本中每个词语的距离的第二代价矩阵。
在更为具体的实现方式中,可以按照下式计算第一工单的描述文本中每个词语与第二工单的描述文本中每个词语的距离:
dc-pq=w1dθ-pq+w2dp-pq
其中,dp-pq表示第一工单的描述文本中第p个词语与第二工单的描述文本中第q个词语的位置距离,dθ-pq表示第一工单的描述文本中第p个词语与第二工单的描述文本中第q个词语的余弦距离,w1和w2为预设的权重系数。
那么第二代价矩阵为:
Figure BDA0003354295300000092
S205,根据所述第一工单与所述第二工单的所述第一相似度和所述第二相似度确定所述第一工单与所述第二工单的第一匹配度。
在一些实现方式中,获取第一相似度及第二相似度预设的权重系数;利用第一相似度及第二相似度预设的权重系数对第一相似度和第二相似度进行加权求和,得到第一匹配度。
示例性的,根据第一相似度和第二相似度计算第一匹配度的公式为:
d1=u1dk+u2dt
其中,dk表示第一相似度,dt表示第二相似度,u1表示第一相似度预设的权重系数,u2表示第二相似度预设的权重系数。
S206,根据所述第一工单与每个第二工单的第一匹配度确定所述第一工单相关的工单。
在一些可能的实现方式中,若第二工单与所述第一工单的第一匹配度大于预设阈值,则将第二工单确定为第一工单相关的工单。
由以上实施例可以看出,为了检索到与第一工单相关的第二工单,本申请在考虑第一工单中包含的目标关键词与的第二工单包含的关键词的相似度(即上述第一相似度)的同时,还考虑了第一工单的描述文本与的第二工单的描述文本之间的相似度(即上述第二相似度),并综合基于关键词的相似度和基于文本的相似度,得到第一工单与的第二工单的匹配程度(即第一匹配度)。从而,避免由于只考虑基于关键词的相似度而导致的检索结果两极化的问题。
在一些实施例中,若与第一工单的第一匹配度大于预设阈值的第二工单的数量大于预设数量,则基于第一工单的描述文本的长度和每个第二工单的描述文本的长度,确定第一工单与每个第二工单的第三相似度;根据第一工单与每个第二工单的第一相似度、第二相似度及第三相似度确定第一工单与每个第二工单的第二匹配度;根据第一工单与每个第二工单的第二匹配度确定第一工单相关的工单。
在更为具体的实现方式中,可以按照下式,确定第一工单与每个第二工单的第三相似度:
Figure BDA0003354295300000101
其中,dl表示第一工单与第二工单的第三相似度,n表示第一工单的描述文本中词语的个数,m表示第二工单的描述文本中词语的个数。
在更为具体的实现方式中,可以按照下式,确定第一工单与每个第二工单的第二匹配度:
d2=u1dk+u2dt+u3dl
其中,u3表示第三相似度预设的权重系数。
由以上实施例可以看出,由于若在计算第一相似度时就引入文本长度的影响,会导致漏掉部分与第一工单语义相似但文本长度差异较大的第二工单,进而导致检索结果不全面。基于此,本申请在基于第一匹配度确定出与第二工单相关的第二工单后,判断相关的第二工单的数量是否超过预设数量,若是,则进一步考虑文本长度的影响,即计算上述第三相似度,基于第一相似度、第二相似度及第三相似度重新计算第一工单与第二工单的匹配程度,即上述第二匹配度,并基于第二匹配度确定与第一工单相关的第二工单。这样,可以避免文本长度对语义相似判断的影响,同时在检索出的工单数据较多时,基于文本长度对检索出的工单重新排序,以滤除掉与第一工单的文本长度差异较大的工单。
上述主要从方法的角度对本申请实施例提供的方案进行了介绍。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对上述设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。可选的,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
如图4所示,为本申请实施例提供的一种工单检索装置的结构示意图。该工单检索装置包括:检索条件获取模块401,用于获取第一工单的描述文本;目标关键词获取模块402,用于生成第一工单对应的第一关键词集,第一关键词集包括从第一工单的描述文本中抽取出的目标关键词;工单获取模块403,用于在预先构建的关键词库中检索所述目标关键词的相关词,并查询包含至少一个相关词的第二工单,每个第二工单对应于一个预先生成的第二关键词集;相似度计算模块404,用于基于第一工单对应的第一关键词集和第二工单对应的第二关键词集,确定第一工单与第二工单的第一相似度,以及,基于第一工单的描述文本和第二工单的描述文本,确定第一工单与第二工单的第二相似度;匹配度计算模块405,用于根据第一工单与第二工单的第一相似度和第二相似度确定第一工单与第二工单的第一匹配度;确定模块406,用于根据第一工单与每个第二工单的第一匹配度确定第一工单相关的工单。
在一些实现方式中,相似度计算模块404,具体用于计算第一关键词集中每个目标关键词与第二关键词集中每个关键词的余弦距离,得到第一代价矩阵;利用匈牙利算法计算第一代价矩阵对应的最小代价;对第一代价矩阵对应的最小代价进行归一化处理,得到第一工单与所述第二工单的第一相似度。
在一些实现方式中,相似度计算模块404,具体用于:计算第一工单的描述文本中每个词语与第二工单的描述文本中每个词语的余弦距离和位置距离;根据第一工单的描述文本中每个词语与第二工单的描述文本中每个词语的余弦距离和位置距离,得到第二代价矩阵;利用匈牙利算法计算第二代价矩阵对应的最小代价;对第二代价矩阵对应的最小代价进行归一化处理,得到第一工单与第二工单的第二相似度。
在一些实现方式中,相似度计算模块404,具体用于按照下式计算第一工单的描述文本中每个词语与第二工单的描述文本中每个词语的位置距离:
Figure BDA0003354295300000121
其中,dp-pq表示第一工单的描述文本中第p个词语与第二工单的描述文本中第q个词语的位置距离,n表示第一工单的描述文本中的词语总数,m表示第二工单的描述文本中的词语总数。
在一些实现方式中,匹配度计算模块405,具体用于获取第一相似度及第二相似度预设的权重系数;利用第一相似度及第二相似度预设的权重系数对第一相似度和第二相似度进行加权求和,得到第一匹配度。
在一些实现方式中,确定模块406,具有用于若第二工单与第一工单的第一匹配度大于预设阈值,则将第二工单确定为第一工单相关的工单。
在一些实现方式中,相似度计算模块404,还用于若与第一工单的第一匹配度大于预设阈值的第二工单的数量大于预设数量,基于第一工单的描述文本的长度和每个第二工单的描述文本的长度,确定第一工单与每个第二工单的第三相似度;匹配度计算模块405,还用于根据第一工单与每个第二工单的第一相似度、第二相似度及第三相似度确定第一工单与每个第二工单的第二匹配度;确定模块406还用于根据第一工单与每个第二工单的第二匹配度确定第一工单相关的工单。
在一些实现方式中,相似度计算模块404,具体用于按照下式确定第一工单与每个第二工单的第三相似度,包括:
Figure BDA0003354295300000122
其中,dl表示第一工单与第二工单的第三相似度,n表示第一工单的描述文本中词语的个数,m表示第二工单的描述文本中词语的个数。
在一些实现方式中,工单检索装置还包括关键词库构建模块407,用于获取工单文本集,工单文本集包括若干工单描述文本;对工单描述文本进行预处理,以去除工单描述文本中的无效字符;利用预设的关键词提取规则从经过预处理的工单描述文本中提取关键词;将提取出的关键词添加到关键词库中。
在一些实现方式中,目标关键词获取模块402,具体用于利用预设的关键词提取规则从第一工单的描述文本中抽取出候选关键词;判断候选关键词是否为指定词;若候选关键词不是指定词,则将候选关键词确定为目标关键词。
关于上述可选方式的具体描述参见前述的方法实施例,此处不再赘述。此外,上述提供的任一种工单检索装置的解释以及有益效果的描述均可参考上述对应的方法实施例,不再赘述。
需要说明的是,上述各个模块对应执行的动作仅是具体举例,各个单元实际执行的动作参照上述基于图2、图3所述的实施例的描述中提及的动作或步骤。
本申请实施例还提供了一种电子设备,包括:存储器和处理器;该存储器用于存储计算机程序,该处理器用于调用该计算机程序,以执行上文提供的任一实施例中提及的动作或步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当该计算机程序在电子设备上运行时,使得该电子设备执行上文提供的任一实施例中提及的动作或步骤。
本申请实施例还提供了一种芯片。该芯片中集成了用于实现上述工单检索装置的功能的电路和一个或者多个接口。可选的,该芯片支持的功能可以包括基于图2或图3所述的实施例中的处理动作,此处不再赘述。本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可通过程序来指令相关的硬件完成。所述的程序可以存储于一种计算机可读存储介质中。上述提到的存储介质可以是只读存储器,随机接入存储器等。上述处理单元或处理器可以是中央处理器,通用处理器、特定集成电路(application specificintegrated circuit,ASIC)、微处理器(digital signal processor,DSP),现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。
本申请实施例还提供了一种包含指令的计算机程序产品,当该指令在电子设备上运行时,使得电子设备执行上述实施例中的任意一种方法。该计算机程序产品包括一个或多个计算机指令。在电子设备上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
应注意,本申请实施例提供的上述用于存储计算机指令或者计算机程序的器件,例如但不限于,上述存储器、计算机可读存储介质和通信芯片等,均具有非易失性(non-transitory)。
在实施所要求保护的本申请过程中,本领域技术人员通过查看附图、公开内容、以及所附权利要求书,可理解并实现公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
尽管结合具体特征及其实施例对本申请进行了描述,在不脱离本申请的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。

Claims (13)

1.一种工单检索方法,其特征在于,包括:
获取第一工单的描述文本;
生成所述第一工单对应的第一关键词集,所述第一关键词集包括从所述第一工单的描述文本中抽取出的目标关键词;
在预先构建的关键词库中检索所述目标关键词的相关词,并查询包含至少一个所述相关词的第二工单,每个所述第二工单对应于一个预先生成的第二关键词集;
基于所述第一工单对应的第一关键词集和所述第二工单对应的第二关键词集,确定所述第一工单与所述第二工单的第一相似度,以及,基于所述第一工单的描述文本和所述第二工单的描述文本,确定所述第一工单与所述第二工单的第二相似度;
根据所述第一工单与所述第二工单的所述第一相似度和所述第二相似度确定所述第一工单与所述第二工单的第一匹配度;
根据所述第一工单与每个所述第二工单的第一匹配度确定所述第一工单相关的工单。
2.根据权利要求1所述的工单检索方法,其特征在于,基于所述第一工单对应的第一关键词集和所述第二工单对应的第二关键词集确定所述第一工单与所述第二工单的第一相似度,包括:
确定所述第一关键词集中每个目标关键词与所述第二关键词集中每个关键词的余弦距离,得到第一代价矩阵;
利用匈牙利算法确定所述第一代价矩阵对应的最小代价;
对所述第一代价矩阵对应的最小代价进行归一化处理,得到所述第一工单与所述第二工单的第一相似度。
3.根据权利要求1所述的工单检索方法,其特征在于,基于所述第一工单的描述文本和所述第二工单的描述文本确定所述第一工单与所述第二工单的第二相似度,包括:
确定所述第一工单的描述文本中每个词语与所述第二工单的描述文本中每个词语的余弦距离和位置距离;
根据所述第一工单的描述文本中每个词语与所述第二工单的描述文本中每个词语的余弦距离和位置距离,得到第二代价矩阵;
利用匈牙利算法确定所述第二代价矩阵对应的最小代价;
对所述第二代价矩阵对应的最小代价进行归一化处理,得到所述第一工单与所述第二工单的第二相似度。
4.根据权利要求3所述的工单检索方法,其特征在于,确定所述第一工单的描述文本中每个词语与所述第二工单的描述文本中每个词语的位置距离,包括:
Figure FDA0003354295290000021
其中,dp-pq表示所述第一工单的描述文本中第p个词语与所述第二工单的描述文本中第q个词语的位置距离,n表示所述第一工单的描述文本中的词语总数,m表示所述第二工单的描述文本中的词语总数。
5.根据权利要求1所述的工单检索方法,其特征在于,根据所述第一工单与所述第二工单的所述第一相似度和所述第二相似度确定所述第一工单与所述第二工单的第一匹配度,包括:
获取所述第一相似度及第二相似度预设的权重系数;
利用所述第一相似度及第二相似度预设的权重系数对所述第一相似度和第二相似度进行加权求和,得到所述第一匹配度。
6.根据权利要求1所述的工单检索方法,其特征在于,根据所述第一工单与每个所述第二工单的第一匹配度确定所述第一工单相关的工单,包括:
若所述第二工单与所述第一工单的第一匹配度大于预设阈值,则将所述第二工单确定为所述第一工单相关的工单。
7.根据权利要求1所述的工单检索方法,其特征在于,根据所述第一工单与每个所述第二工单的第一匹配度确定所述第一工单相关的工单,包括:
若与所述第一工单的第一匹配度大于预设阈值的第二工单的数量大于预设数量,则基于所述第一工单的描述文本的长度和每个第二工单的描述文本的长度,确定所述第一工单与每个第二工单的第三相似度;
根据所述第一工单与每个所述第二工单的所述第一相似度、所述第二相似度及所述第三相似度确定所述第一工单与每个所述第二工单的第二匹配度;
根据所述第一工单与每个所述第二工单的所述第二匹配度确定所述第一工单相关的工单。
8.根据权利要求7所述的工单检索方法,其特征在于,基于所述第一工单的描述文本的长度和每个第二工单的描述文本的长度,确定所述第一工单与每个第二工单的第三相似度,包括:
Figure FDA0003354295290000031
其中,dl表示第一工单与第二工单的第三相似度,n表示第一工单的描述文本中词语的个数,m表示第二工单的描述文本中词语的个数。
9.根据权利要求1所述的工单检索方法,其特征在于,所述关键词库是按照下述步骤构建的:
获取工单文本集,所述工单文本集包括若干工单描述文本;
对所述工单描述文本进行预处理,以去除所述工单描述文本中的无效字符;
利用预设的关键词提取规则从经过预处理的工单描述文本中提取关键词;
将提取出的关键词添加到关键词库中。
10.根据权利要求9所述的工单检索方法,其特征在于,生成所述第一工单对应的第一关键词集,包括:
利用所述预设的关键词提取规则从所述第一工单的描述文本中抽取出候选关键词;
判断所述候选关键词是否为指定词;
若所述候选关键词不是指定词,则将所述候选关键词确定为所述目标关键词。
11.一种工单检索装置,其特征在于,包括:
检索条件获取模块,用于获取第一工单的描述文本;
目标关键词获取模块,用于生成所述第一工单对应的第一关键词集,所述第一关键词集包括从所述第一工单的描述文本中抽取出的目标关键词;
工单获取模块,用于在预先构建的关键词库中检索所述目标关键词的相关词,并查询包含至少一个所述相关词的第二工单,每个所述第二工单对应于一个预先生成的第二关键词集;
相似度计算模块,用于基于所述第一工单对应的第一关键词集和所述第二工单对应的第二关键词集,确定所述第一工单与所述第二工单的第一相似度,以及,基于所述第一工单的描述文本和所述第二工单的描述文本,确定所述第一工单与第二工单的第二相似度;
匹配度计算模块,用于根据所述第一工单与所述第二工单的所述第一相似度和所述第二相似度确定所述第一工单与所述第二工单的第一匹配度;
确定模块,用于根据所述第一工单与每个第二工单的第一匹配度确定所述第一工单相关的工单。
12.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序,以执行权利要求1-10中任意一项所述的工单检索方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,当所述计算机程序在电子设备上运行时,使得所述电子设备执行权利要求1-10中任意一项所述的工单检索方法。
CN202111346808.1A 2021-11-15 2021-11-15 工单检索方法、装置、电子设备及存储介质 Pending CN113987134A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111346808.1A CN113987134A (zh) 2021-11-15 2021-11-15 工单检索方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111346808.1A CN113987134A (zh) 2021-11-15 2021-11-15 工单检索方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113987134A true CN113987134A (zh) 2022-01-28

Family

ID=79748456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111346808.1A Pending CN113987134A (zh) 2021-11-15 2021-11-15 工单检索方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113987134A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117992620A (zh) * 2024-04-03 2024-05-07 华东交通大学 一种基坑工程评估方法、系统、存储介质及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117992620A (zh) * 2024-04-03 2024-05-07 华东交通大学 一种基坑工程评估方法、系统、存储介质及电子设备
CN117992620B (zh) * 2024-04-03 2024-06-04 华东交通大学 一种基坑工程评估方法、系统、存储介质及电子设备

Similar Documents

Publication Publication Date Title
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
US11514235B2 (en) Information extraction from open-ended schema-less tables
US9767144B2 (en) Search system with query refinement
US8782061B2 (en) Scalable lookup-driven entity extraction from indexed document collections
CN110069698B (zh) 信息推送方法和装置
CN105408890A (zh) 基于声音输入执行与列表数据有关的操作
CN107992523B (zh) 移动应用的功能选项查找方法及终端设备
CN110325987B (zh) 语境语音驱动深度书签
CN103885966A (zh) 电子商务交易平台中的问答交互方法和系统
CN110909120B (zh) 简历搜索/投递方法、装置、系统及电子设备
CN110427453B (zh) 数据的相似度计算方法、装置、计算机设备及存储介质
CN112070550A (zh) 基于搜索平台的关键词确定方法、装置、设备及存储介质
CN110532229B (zh) 证据文件检索方法、装置、计算机设备和存储介质
CN113987134A (zh) 工单检索方法、装置、电子设备及存储介质
CN111858966B (zh) 知识图谱的更新方法、装置、终端设备及可读存储介质
CN111737607B (zh) 数据处理方法、装置、电子设备以及存储介质
US20180157744A1 (en) Comparison table automatic generation method, device and computer program product of the same
CN104240107A (zh) 社群数据筛选系统及其方法
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质
CN110378378B (zh) 事件检索方法、装置、计算机设备及存储介质
JP7131075B2 (ja) 検索処理装置およびプログラム
CN102750278B (zh) 信息的获取方法和装置
US9311392B2 (en) Document analysis apparatus, document analysis method, and computer-readable recording medium
CN115510201A (zh) 信息录入方法、装置、计算机设备、存储介质和程序产品
CN116958987A (zh) 作品识别方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination