CN113836888A - 一种确定工单主题的方法、装置、介质及计算机设备 - Google Patents

一种确定工单主题的方法、装置、介质及计算机设备 Download PDF

Info

Publication number
CN113836888A
CN113836888A CN202111408118.4A CN202111408118A CN113836888A CN 113836888 A CN113836888 A CN 113836888A CN 202111408118 A CN202111408118 A CN 202111408118A CN 113836888 A CN113836888 A CN 113836888A
Authority
CN
China
Prior art keywords
work order
target historical
historical work
theme
similarity value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111408118.4A
Other languages
English (en)
Inventor
李晓东
李浩浩
罗建萌
吴光宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongguancun Smart City Co Ltd
Original Assignee
Zhongguancun Smart City Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongguancun Smart City Co Ltd filed Critical Zhongguancun Smart City Co Ltd
Priority to CN202111408118.4A priority Critical patent/CN113836888A/zh
Publication of CN113836888A publication Critical patent/CN113836888A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种确定工单主题的方法、装置、介质及计算机设备,包括:确定第一目标历史工单主题与第二目标历史工单主题之间的第一相似值;确定第一目标历史工单内容与第二目标历史工单内容之间的第二相似值;根据第一相似值及第二相似值确定第一参考相似值;若第一参考相似值大于第一相似度阈值,则将第一目标历史工单及第二目标历史工单的工单主题聚类为同一主题类别,并获得若干个参考工单主题;对参考工单主题进行迭代,获得目标工单主题;如此,将满足相似度阈值的工单进行聚类,并不断对参考工单主题进行聚类迭代,实现对工单主题的标准化分类,在接到新的业务单时,确保每个业务工单都能精准派发至对应的工作人员,提高对工单处理的效率。

Description

一种确定工单主题的方法、装置、介质及计算机设备
技术领域
本发明属于数据处理技术领域,尤其涉及一种确定工单主题的方法、装置、介质及计算机设备。
背景技术
政府服务热线领域的工单,包含群众向政府进行咨询、投诉、建议、举报等诸多方面问题。
由于工单涵盖方面广泛,相关技术中,是由坐席人员(话务员)接线后将个人理解的案件主题填写到网页中,但是由于不同的人员对主题理解和内容记录有自己的理解,即使是针对相同的主题,也由于千人千面的因素,导致确定出的主题存在标准不一、内容冗余的情况。以至于对后续来单时,无法精准地派发给对应的工作人员进行处理,直接影响对工单进行处理的效率以及城市进行精细化治理的质量。
发明内容
针对现有技术存在的问题,本发明实施例提供了一种确定工单主题的方法、装置、介质及计算机设备,用于解决现有技术中无法对政府服务热线的工单的主题进行标准化分类,后续来单时,无法精准地派发给对应的工作人员进行处理,导致对工单进行处理的效率以及对城市进行精细化治理的质量均不能得到确保的技术问题。
本发明的第一方面,提供一种确定工单主题的方法,所述方法包括:
基于所有历史工单的工单主题,确定第一目标历史工单主题与第二目标历史工单主题之间的第一相似值;第一目标历史工单与第二目标历史工单为所有历史工单中的任意两个不同的工单;
基于所述所有历史工单的工单内容,确定第一目标历史工单内容与第二目标历史工单内容之间的第二相似值;
根据所述第一相似值及所述第二相似值确定第一目标历史工单与第二目标历史工单之间的第一参考相似值;
若确定所述第一参考相似值大于预设的第一相似度阈值,则将所述第一目标历史工单及所述第二目标历史工单的工单主题聚类为同一主题类别;
遍历所述所有历史工单,聚类出若干个主题类别,并获得所述若干个主题类别对应的参考工单主题;
对所述若干个主题类别对应的参考工单主题进行聚类迭代,获得目标工单主题。
上述方案中,所述确定第一目标历史工单主题与第二目标历史工单主题之间的第一相似值,包括:
对所述第一目标历史工单主题进行切词,获得若干个第一关键词;
对所述第二目标历史工单主题进行切词,获得若干个第二关键词;
根据各所述第一关键词的词频将所述第一目标历史工单主题转换为第一文本向量;
根据各所述第二关键词的词频将所述第二目标历史工单主题转换为第二文本向量;
根据余弦相似定理确定所述第一文本向量与所述第二文本向量的第一相似度,所述第一相似度为第一目标历史工单主题与第二目标历史工单主题之间的第一相似值。
上述方案中,所述确定第一目标历史工单内容与第二目标历史工单内容之间的第二相似值,包括:
对所述第一目标历史工单内容进行切词,获得若干个第三关键词;
对所述第二目标历史工单内容进行切词,获得若干个第四关键词;
根据各所述第三关键词的词频将所述第一目标历史工单内容转换为第三文本向量;
根据各所述第四关键词的词频将所述第二目标历史工单内容转换为第四文本向量;
根据余弦相似定理确定所述第三文本向量与所述第四文本向量的第二相似度,所述第二相似度为第一目标历史工单内容与第二目标历史工单内容之间的第二相似值。
上述方案中,根据所述第一相似值及所述第二相似值确定第一目标历史工单与第二目标历史工单之间的第一参考相似值,包括:
根据公式
Figure 106012DEST_PATH_IMAGE001
确定所述第一目标历史工单与所述第二目标历史工单之间的第一参考相似值sim;其中,
所述
Figure 137421DEST_PATH_IMAGE002
为所述第一相似值的权重系数,所述
Figure 623285DEST_PATH_IMAGE003
为所述第二相似值的权重系数,所述sim1为所述第一相似值,所述sim2为所述第二相似值。
上述方案中,所述获得所述若干个主题类别对应的参考工单主题,包括:
针对每个所述主题类别,获得所述主题类别中各历史工单各自对应的初始工单主题;
确定各初始工单主题对应的工单数量;
将最多工单数量对应的初始工单主题确定为所述参考工单主题。
本发明的第二方面,提供一种确定工单主题的装置,所述装置包括:
第一确定单元,基于所有历史工单的工单主题,确定第一目标历史工单主题与第二目标历史工单主题之间的第一相似值;第一目标历史工单与第二目标历史工单为所有历史工单中的任意两个不同的工单;
第二确定单元,用于基于所述所有历史工单的工单内容,确定第一目标历史工单内容与第二目标历史工单内容之间的第二相似值;
第三确定单元,用于根据所述第一相似值及所述第二相似值确定第一目标历史工单与第二目标历史工单之间的第一参考相似值;
聚类单元,用于在确定所述第一参考相似值大于预设的第一相似度阈值时,则将所述第一目标历史工单及所述第二目标历史工单的工单主题聚类为同一主题类别;
遍历单元,用于遍历所述所有历史工单,聚类出若干个主题类别,并获得所述若干个主题类别对应的参考工单主题;
迭代单元,用于对所述若干个主题类别对应的参考工单主题进行聚类迭代,获得目标工单主题。
上述方案中,所述第一确定单元具体用于:
对所述第一目标历史工单主题进行切词,获得若干个第一关键词;
对所述第二目标历史工单主题进行切词,获得若干个第二关键词;
根据各所述第一关键词的词频将所述第一目标历史工单主题转换为第一文本向量;
根据各所述第二关键词的词频将所述第二目标历史工单主题转换为第二文本向量;
根据余弦相似定理确定所述第一文本向量与所述第二文本向量的第一相似度,所述第一相似度为第一目标历史工单主题与第二目标历史工单主题之间的第一相似值。
上述方案中,所述第二确定单元具体用于:
对所述第一目标历史工单内容进行切词,获得若干个第三关键词;
对所述第二目标历史工单内容进行切词,获得若干个第四关键词;
根据各所述第三关键词的词频将所述第一目标历史工单内容转换为第三文本向量;
根据各所述第四关键词的词频将所述第二目标历史工单内容转换为第四文本向量;
根据余弦相似定理确定所述第三文本向量与所述第四文本向量的第二相似度,所述第二相似度为第一目标历史工单内容与第二目标历史工单内容之间的第二相似值。
本发明的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述的方法。
本发明的第四方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面中任一项所述的方法。
本发明提供了一种确定工单主题的方法、装置、介质及计算机设备,方法包括:基于所有历史工单的工单主题,确定第一目标历史工单主题与第二目标历史工单主题之间的第一相似值;第一目标历史工单与第二目标历史工单为所有历史工单中的任意两个不同的工单;基于所述所有历史工单的工单内容,确定第一目标历史工单内容与第二目标历史工单内容之间的第二相似值;根据所述第一相似值及所述第二相似值确定第一目标历史工单与第二目标历史工单之间的第一参考相似值;若确定所述第一参考相似值大于预设的第一相似度阈值,则将所述第一目标历史工单及所述第二目标历史工单的工单主题聚类为同一主题类别;遍历所述所有历史工单,聚类出若干个主题类别,并获得所述若干个主题类别对应的参考工单主题;对所述若干个主题类别对应的参考工单主题进行聚类迭代,获得目标工单主题;如此,通过对历史工单的主题及内容进行语义分析,确定文本相似度,将满足相似度阈值的工单进行聚类,并不断对重新确定的参考工单主题进行聚类迭代,最终实现对工单主题的标准化分类,从而在接到新的业务单时,确保每个业务工单都能精准派发至对应的工作人员,提高对工单处理的效率;同时也提高对城市进行精细化治理的质量。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的确定工单主题的方法流程示意图;
图2为本发明实施例提供的确定工单主题的装置结构示意图;
图3为本发明实施例提供的计算机设备结构示意图;
图4为本发明实施例提供的计算机可读存储介质示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明提供一种确定工单主题的方法,如图1所示,方法主要包括以下步骤:
S110,基于所有历史工单的工单主题,确定第一目标历史工单主题与第二目标历史工单主题之间的第一相似值;第一目标历史工单与第二目标历史工单为所有历史工单中的任意两个不同的工单;
在遍历所有历史工单之前,需要获取预设历史时间段内的所有历史工单,并对历史工单进行数据清洗,统计初始工单主题以及每个初始工单主题对应的工单数量。历史时间段可以包括:6个月、3个月或者1个月;在实际应用中,历史时间段可基于具体的服务场景进行设置,在此不做限制。
比如,对历史工单进行过数据清洗后的结果可如表1所示:
表1
Figure 627013DEST_PATH_IMAGE004
在表1中,初始工单主题包括有10种,其中第一行的“未发放残疾人补贴”的工单量是最多的。那么后续确定目标工单主题时,是以工单量最多的初始工单主题作为最终的目标工单主题。也即在此类业务中,对工单主题进行聚类迭代时是把“未发放残疾人补贴”作为此类业务的标准工单主题。
这里,每个历史工单存储在预设的存储表格中,每个历史工单包括有工单主题和工单内容。具体的,存储表格中的APPEAL_THEME字段代表工单主题,存储表格中的APPEAL_CONTONT字段代表工单内容。
获取到所有历史工单之后,基于所有历史工单的工单主题,确定第一目标历史工单主题与第二目标历史工单主题之间的第一相似值;其中,第一目标历史工单与第二目标历史工单为所有历史工单中的任意两个不同的工单。第一目标历史工单主题为第一目标历史工单的工单主题,第二目标历史工单主题为第二目标历史工单的工单主题。
举例来说,若历史工单包括A、B和C三个工单,那么在确定第一相似值时,需要确定工单A和工单B的主题之间的第一相似值,确定工单A和工单C的主题之间的第一相似值以及确定工单B和工单C的主题之间的第一相似值。
在一种可选的实施例中,确定第一目标历史工单主题与第二目标历史工单主题之间的第一相似值,包括:
对第一目标历史工单主题进行切词,获得若干个第一关键词;
对第二目标历史工单主题进行切词,获得若干个第二关键词;
根据各第一关键词的词频将第一目标历史工单主题转换为第一文本向量;
根据各第二关键词的词频将所述第二目标历史工单主题转换为第二文本向量;
根据余弦相似定理确定第一文本向量与第二文本向量的第一相似度,第一相似度为第一目标历史工单主题与第二目标历史工单主题之间的第一相似值。
举例来说,假设第一目标历史工单的工单主题为:“未发放残疾人补贴”,第二目标历史工单的工单主题为:“未发放残疾人补贴的问题”,对第一目标历史工单的工单主题进行切词后,对应的第一关键词包括:“未”、“发放”、“残疾人”、“补贴”;对第二目标历史工单的工单主题进行切词后,对应的第二关键词包括:“未”、“发放”、“残疾人”、“补贴”、“的”、“问题”。
那么第一目标历史工单中第一关键词的词频为:未1、发放1、残疾人1、补贴1、的0、问题0;
第二目标历史工单中第二关键词的词频为:未1、发放1、残疾人1、补贴1、的1、问题1;
第一目标历史工单对应的第一文本向量为X=[1、1、1、1、0、0];第二目标历史工单对应的第二文本向量为Y=[1、1、1、1、1、1]。
根据余弦相似定理公式
Figure 802780DEST_PATH_IMAGE005
确定第一文本向量与第二文本向量之间的第一相似度
Figure 55906DEST_PATH_IMAGE006
;其中,i为第一关键词和第二关键词的序号,n为第一关键词和第二关键词的数量;
Figure 342531DEST_PATH_IMAGE007
为第i个第一关键词,
Figure 466345DEST_PATH_IMAGE008
为第i个第二关键词。
这样即可确定出第一目标历史工单主题与第二目标历史工单主题之间的第一相似值。
当然,本实施例也可以利用其他相似度算法来确定第一目标历史工单主题与第二目标历史工单主题之间的第一相似值,比如BM25算法等,在此不做限制。
S111,基于所述所有历史工单的工单内容,确定第一目标历史工单内容与第二目标历史工单内容之间的第二相似值;
进一步地,为了确保后续主题的聚类精度,本步骤还需基于所有历史工单的工单内容,确定第一目标历史工单内容与第二目标历史工单内容之间的第二相似值。
其中,第一目标历史工单内容为第一目标历史工单的工单内容,第二目标历史工单内容为第二目标历史工单的工单内容。
在一种可选的实施例中,确定第一目标历史工单内容与第二目标历史工单内容之间的第二相似值,包括:
对第一目标历史工单内容进行切词,获得若干个第三关键词;
对第二目标历史工单内容进行切词,获得若干个第四关键词;
根据各第三关键词的词频将第一目标历史工单内容转换为第三文本向量;
根据各第四关键词的词频将第二目标历史工单内容转换为第四文本向量;
根据余弦相似定理确定所第三文本向量与第四文本向量的第二相似度,第二相似为第一目标历史工单内容与第二目标历史工单内容之间的第二相似值。
其中,对工单内容的切词方法与上述对工单主题的切词方法相同,工单内容之间的第二相似度确定方法与上述对工单主题间的第一相似度确定方法相同,在此不再赘述。
这样即确定出了第一目标历史工单内容与第二目标历史工单内容之间的第二相似值。
S112,根据所述第一相似值及所述第二相似值确定第一目标历史工单与第二目标历史工单之间的第一参考相似值;
第一相似值及第二相似值确定出之后,根据第一相似值及第二相似值确定第一目标历史工单与第二目标历史工单之间的第一参考相似值。
在一种可选的实施例中,根据第一相似值及第二相似值确定第一目标历史工单与第二目标历史工单之间的第一参考相似值,包括:
根据公式
Figure 547433DEST_PATH_IMAGE009
确定第一目标历史工单与所述第二目标历史工单之间的第一参考相似值sim;其中,
Figure 756698DEST_PATH_IMAGE010
为第一相似值的权重系数,
Figure 847014DEST_PATH_IMAGE011
为第二相似值的权重系数,sim1为第一相似值,sim2为所述第二相似值。
其中,
Figure 105562DEST_PATH_IMAGE010
+
Figure 91972DEST_PATH_IMAGE012
=1,
Figure 788533DEST_PATH_IMAGE010
的初始值可以为0~1,比如为0.5,
Figure 416960DEST_PATH_IMAGE012
的初始值可以为0~1,比如为0.5。
值得注意的是,在后续迭代过程中,
Figure 46525DEST_PATH_IMAGE010
Figure 797312DEST_PATH_IMAGE012
的具体取值可根据实际情况进行调整,以确保聚类精度更加精准。
S113,若确定所述第一参考相似值大于预设的第一相似度阈值,则将所述第一目标历史工单及所述第二目标历史工单的工单主题聚类为同一主题类别;
第一目标历史工单与第二目标历史工单之间的第一参考相似值确定出之后,若确定第一参考相似值大于预设的第一相似度阈值,则将第一目标历史工单及第二目标历史工单的工单主题聚类为同一主题类别。
举例来说,假设第一相似度阈值为0.8,若第一参考相似值为0.85;那么可以将第一目标历史工单和第二目标历史的工单主题聚类为同一主题类别。
这样针对任意两个目标历史工单来说,即完成了两个目标历史工单之间的工单主题聚类。
S114,遍历所述所有历史工单,聚类出若干个主题类别,并获得所述若干个主题类别对应的参考工单主题;
然后遍历所有历史工单,当对所有的历史工单的工单主题及工单内容遍历完毕时,按照上述步骤S110~S113的方法可聚类出若干个主题类别。
这里,因每个工单的工单主题存储在字段APPEAL_THEME中,因此在对工单主题进行遍历时,一般是遍历每个历史工单的APPEAL_THEME字段。
因每个工单的工单内容存储在字段APPEAL_CONTONT中,因此在对工单内容进行遍历时,一般是遍历每个历史工单的APPEAL_CONTONT字段。
聚类出若干个主题类别时,相应也就获得若干个主题类别对应的参考工单主题。在一种可选的实施例中,获得若干个主题类别对应的参考工单主题,包括:
针对每个主题类别,获得主题类别中各历史工单各自对应的初始工单主题;
确定各初始工单主题对应的工单数量;
将最多工单数量对应的初始工单主题确定为参考工单主题。
然后将该主题类别中与参考工单主题不一致的初始工单主题进行重新命名,使得聚类后,同一个主题类别中的工单主题保持一致。
这样,最终将所有的历史工单遍历完成后,相当于对所有的初始工单主题进行了重新命名,从而获得参考工单主题。
继续以表1为例进行说明,初始工单主题包括表1种的10种,第一次遍历完成后(可以理解为第一次聚类后),获得的参考工单主题如表2所示,表2中的工单主题last_1为第一次聚类后确定出的参考工单主题。
表2
Figure 981169DEST_PATH_IMAGE013
以表2中的初始工单主题“未发放残疾人补贴的问题”为例进行说明,在进行工单主题聚类时,此工单主题和“未发放残疾人补贴”这一工单主题聚类为同一主题类别,那么因该主题类别中“未发放残疾人补贴”的工单量是12个,因此将“未发放残疾人补贴”这一工单主题作为该主题类别的参考工单主题。因此在第一次遍历结束后,初始工单主题为“未发放残疾人补贴的问题”需要对应重命名为“未发放残疾人补贴”。
本步骤通过对历史工单进行初次聚类,获得对应的参考工单主题,对具有相同含义的业务单的工单主题进行初步标准化。
S115,对所述若干个主题类别对应的参考工单主题进行聚类迭代,获得目标工单主题。
实际上,从表2也可以看出,对工单主题进行一次聚类是远远不够的,一次聚类后形成的参考工单主题还是包括有很多不同名称的主题。因此本步骤还需要对参考工单主题进行多次聚类迭代,获得目标工单主题,使得具有相同含义的业务单的工单主题具有统一的目标工单主题。
继续以上述表1和表2为例进行说明,工单主题last_1(参考工单主题)进行2次迭代后获得最终的目标工单主题,具体如表3所示:
表3
Figure 416217DEST_PATH_IMAGE014
从表3可以看出,最终确定出“未发放残疾人补贴”为目标工单主题。
本实施例中,对参考工单主题进行聚类迭代,获得目标工单主题时,是按照上述步骤S110~S114提供的聚类方法,进行至少一次聚类迭代,直至得到最终的目标工单主题。
具体来讲,对参考工单主题进行每次迭代时,首先基于所有历史工单的参考工单主题,确定第三目标历史工单参考主题与第四目标历史工单参考主题之间的第三相似值。其中,为了能够清楚的描述,和上述第一目标历史工单、第二目标历史工单作以区分,这里使用第三目标历史工单与第四目标历史工单进行描述。但是在实际应用中,第三目标历史工单与第四目标历史工单也为所有历史工单中的任意两个不同的工单,第三目标历史工单可能和第一目标历史工单相同,也可能不同;第四目标工单可能和第二目标历史工单相同,也可能不同。
然后基于所有历史工单的工单内容,确定第三目标历史工单内容与第四目标历史工单内容之间的第四相似值;
根据第三相似值及第四相似值确定第三目标历史工单与第四目标历史工单之间的第二参考相似值;
若确定第二参考相似值大于预设的第二相似度阈值,则将第三目标历史工单及所述第四目标历史工单的参考工单主题聚类为同一主题类别;
遍历所有历史工单,聚类出若干个迭代主题类别,并获得若干个迭代主题类别对应的迭代工单主题;
对若干个迭代主题类别对应的迭代工单主题进行聚类迭代,获得目标工单主题。
然后再基于上述同样的方法对迭代工单主题进行循环迭代,直至到达预设的迭代条件时,即可获得目标工单主题。
这里,第二相似度阈值和第一相似度阈值可以相同,也可以不同;若想进一步提高后续迭代的聚类精度,第二相似度阈值可以大于第一相似度阈值;比如:若第一相似度阈值为0.8,那么第二相似度阈值可以为0.9。
迭代条件可以为迭代次数,迭代次数可以预先根据经验值设置。比如到达预设的迭代次数,可视为到达预设的迭代条件。
迭代条件也可以为判断当前次的迭代结果是否满足预设的收敛值。比如若当前次迭代后,获得的所有参考工单主题有90%是相同的,大于预设的收敛值85%,那么也可视为到达预设的迭代条件,此时可结束迭代。
这样经过不断的循环迭代,可提高最终的工单主题聚类精度,进而在后续来单时,提高派发精度。
值得注意的是,若一直未满足预设的收敛值时,也可由人工进行筛选。
本实施例中,在每次的迭代过程中,涉及到的第一相似值的权重系数
Figure 103550DEST_PATH_IMAGE015
,第二相似值的权重系数
Figure 431763DEST_PATH_IMAGE016
以及相似度阈值均可根据上一次的迭代结果进行调整。
进一步的,本实施例在获取到最终的目标工单主题后,可根据聚类结果对本实施例提供的方法进行有效性验证,根据验证结果反向调节迭代参数,实现闭环控制,提高工单主题的聚类精度。
具体来讲,确定出初始工单主题与目标工单主题不一致的工单,利用步骤S110提供的方法,确定初始工单主题与目标工单主题的第一相似值;利用步骤S111提供的方法,确定初始工单内容与目标工单内容的第二相似值;利用第一相似值和第二相似值来判断初始工单主题和目标工单主题的聚类结果是否准确。也即利用步骤S112提供的方法确定初始工单与目标工单之间的目标参考相似值,若目标参考相似值大于预设的目标相似度阈值,则说明聚类结果是准确的;若目标参考相似值不大于预设的目标相似度阈值,则说明聚类结果是不准确的,此时可通过调节迭代参数或者人工筛选工单的方式对聚类结果进行调整。
这里,目标相似度阈值可以为85~95%,优选地为90%;初始工单可以理解为初始工单主题对应的工单,目标工单可以理解为目标工单主题对应的工单。
本实施例提供的确定工单主题的方法,通过对历史工单的主题及内容进行语义分析,确定文本相似度,将满足相似度阈值的工单进行聚类,并不断对重新确定的参考工单主题进行聚类迭代,最终实现对工单主题的标准化聚类,有利于对工单数据的精准分析,从而在接到新的业务工单时,确保每个业务工单都能精准派发至对应的工作人员,提高对工单处理的效率;同时也提高对城市进行精细化治理的质量。
基于同一发明构思,本发明实施例还提供了一种确定工单主题的装置,如图2所示,装置包括:
第一确定单元21,基于所有历史工单的工单主题,确定第一目标历史工单主题与第二目标历史工单主题之间的第一相似值;第一目标历史工单与第二目标历史工单为所有历史工单中的任意两个不同的工单;
第二确定单元22,用于基于所述所有历史工单的工单内容,确定第一目标历史工单内容与第二目标历史工单内容之间的第二相似值;
第三确定单元23,用于根据所述第一相似值及所述第二相似值确定第一目标历史工单与第二目标历史工单之间的第一参考相似值;
聚类单元24,用于在确定所述第一参考相似值大于预设的第一相似度阈值时,则将所述第一目标历史工单及所述第二目标历史工单的工单主题聚类为同一主题类别;
遍历单元25,用于遍历所述所有历史工单,聚类出若干个主题类别,并获得所述若干个主题类别对应的参考工单主题;
迭代单元26,用于对所述若干个主题类别对应的参考工单主题进行聚类迭代,获得目标工单主题。
在一种可选的实施例中,第一确定单元21具体用于:
对所述第一目标历史工单主题进行切词,获得若干个第一关键词;
对所述第二目标历史工单主题进行切词,获得若干个第二关键词;
根据各所述第一关键词的词频将所述第一目标历史工单主题转换为第一文本向量;
根据各所述第二关键词的词频将所述第二目标历史工单主题转换为第二文本向量;
根据余弦相似定理确定所述第一文本向量与所述第二文本向量的第一相似度,所述第一相似度为第一目标历史工单主题与第二目标历史工单主题之间的第一相似值。
所述第二确定单元22具体用于:
对所述第一目标历史工单内容进行切词,获得若干个第三关键词;
对所述第二目标历史工单内容进行切词,获得若干个第四关键词;
根据各所述第三关键词的词频将所述第一目标历史工单内容转换为第三文本向量;
根据各所述第四关键词的词频将所述第二目标历史工单内容转换为第四文本向量;
根据余弦相似定理确定所述第三文本向量与所述第四文本向量的第二相似度,所述第二相似度为第一目标历史工单内容与第二目标历史工单内容之间的第二相似值。
需要说明的是,该装置可以为计算机、服务器等有计算或存储功能的设备装置。该装置可以为独立的服务器,在此不作限制。
由于本发明实施例所介绍的装置,为实施本发明实施例的方法所采用的装置,故而基于本发明实施例所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例的方法所采用的装置都属于本发明所欲保护的范围。
本实施例还提供一种计算机设备300,如图3所示,包括存储器310、处理器320及存储在存储器310上并可在处理器320上运行的计算机程序311,处理器320执行计算机程序311时实现以下步骤:
基于所有历史工单的工单主题,确定第一目标历史工单主题与第二目标历史工单主题之间的第一相似值;第一目标历史工单与第二目标历史工单为所有历史工单中的任意两个不同的工单;
基于所述所有历史工单的工单内容,确定第一目标历史工单内容与第二目标历史工单内容之间的第二相似值;
根据所述第一相似值及所述第二相似值确定第一目标历史工单与第二目标历史工单之间的第一参考相似值;
若确定所述第一参考相似值大于预设的第一相似度阈值,则将所述第一目标历史工单及所述第二目标历史工单的工单主题聚类为同一主题类别;
遍历所述所有历史工单,聚类出若干个主题类别,并获得所述若干个主题类别对应的参考工单主题;
对所述若干个主题类别对应的参考工单主题进行聚类迭代,获得目标工单主题。
在具体实施过程中,处理器320执行计算机程序311时,可以实现前述实施例任一实施方式。
由于本实施例所介绍的计算机设备为实施本申请实施例一种确定工单主题方法所采用的设备,故而基于本申请实施例中所介绍的方法,本领域所属技术人员能够了解本实施例的计算机设备的具体实施方式以及其各种变化形式,所以在此对于该服务器如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的设备,都属于本申请所欲保护的范围。
基于同一发明构思,本实施例提供一种计算机可读存储介质400,如图4所示,其上存储有计算机程序411,该计算机程序411被处理器执行时实现以下步骤:
基于所有历史工单的工单主题,确定第一目标历史工单主题与第二目标历史工单主题之间的第一相似值;第一目标历史工单与第二目标历史工单为所有历史工单中的任意两个不同的工单;
基于所述所有历史工单的工单内容,确定第一目标历史工单内容与第二目标历史工单内容之间的第二相似值;
根据所述第一相似值及所述第二相似值确定第一目标历史工单与第二目标历史工单之间的第一参考相似值;
若确定所述第一参考相似值大于预设的第一相似度阈值,则将所述第一目标历史工单及所述第二目标历史工单的工单主题聚类为同一主题类别;
遍历所述所有历史工单,聚类出若干个主题类别,并获得所述若干个主题类别对应的参考工单主题;
对所述若干个主题类别对应的参考工单主题进行聚类迭代,获得目标工单主题。
在具体实施过程中,该计算机程序411被处理器执行时,可以实现前述实施例中任一实施方式。
本发明提供的确定工单主题的方法、装置、介质及计算机设备能够带来的有益效果至少是:
本发明提供一种确定工单主题的方法、装置、介质及计算机设备,方法包括:基于所有历史工单的工单主题,确定第一目标历史工单主题与第二目标历史工单主题之间的第一相似值;第一目标历史工单与第二目标历史工单为所有历史工单中的任意两个不同的工单;基于所述所有历史工单的工单内容,确定第一目标历史工单内容与第二目标历史工单内容之间的第二相似值;根据所述第一相似值及所述第二相似值确定第一目标历史工单与第二目标历史工单之间的第一参考相似值;若确定所述第一参考相似值大于预设的第一相似度阈值,则将所述第一目标历史工单及所述第二目标历史工单的工单主题聚类为同一主题类别;遍历所述所有历史工单,聚类出若干个主题类别,并获得所述若干个主题类别对应的参考工单主题;对所述若干个主题类别对应的参考工单主题进行聚类迭代,获得目标工单主题;如此,通过对历史工单的主题及内容进行语义分析,确定文本相似度,将满足相似度阈值的工单进行聚类,并不断对重新确定的参考工单主题进行聚类迭代,最终实现对工单主题的标准化分类,从而在接到新的业务单时,确保每个业务工单都能精准派发至对应的工作人员,提高对工单处理的效率;同时也提高对城市进行精细化治理的质量。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种确定工单主题的方法,其特征在于,所述方法包括:
基于所有历史工单的工单主题,确定第一目标历史工单主题与第二目标历史工单主题之间的第一相似值;第一目标历史工单与第二目标历史工单为所有历史工单中的任意两个不同的工单;
基于所述所有历史工单的工单内容,确定第一目标历史工单内容与第二目标历史工单内容之间的第二相似值;
根据所述第一相似值及所述第二相似值确定第一目标历史工单与第二目标历史工单之间的第一参考相似值;
若确定所述第一参考相似值大于预设的第一相似度阈值,则将所述第一目标历史工单及所述第二目标历史工单的工单主题聚类为同一主题类别;
遍历所述所有历史工单,聚类出若干个主题类别,并获得所述若干个主题类别对应的参考工单主题;
对所述若干个主题类别对应的参考工单主题进行聚类迭代,获得目标工单主题。
2.如权利要求1所述的方法,其特征在于,所述确定第一目标历史工单主题与第二目标历史工单主题之间的第一相似值,包括:
对所述第一目标历史工单主题进行切词,获得若干个第一关键词;
对所述第二目标历史工单主题进行切词,获得若干个第二关键词;
根据各所述第一关键词的词频将所述第一目标历史工单主题转换为第一文本向量;
根据各所述第二关键词的词频将所述第二目标历史工单主题转换为第二文本向量;
根据余弦相似定理确定所述第一文本向量与所述第二文本向量的第一相似度,所述第一相似度为第一目标历史工单主题与第二目标历史工单主题之间的第一相似值。
3.如权利要求1所述的方法,其特征在于,所述确定第一目标历史工单内容与第二目标历史工单内容之间的第二相似值,包括:
对所述第一目标历史工单内容进行切词,获得若干个第三关键词;
对所述第二目标历史工单内容进行切词,获得若干个第四关键词;
根据各所述第三关键词的词频将所述第一目标历史工单内容转换为第三文本向量;
根据各所述第四关键词的词频将所述第二目标历史工单内容转换为第四文本向量;
根据余弦相似定理确定所述第三文本向量与所述第四文本向量的第二相似度,所述第二相似度为第一目标历史工单内容与第二目标历史工单内容之间的第二相似值。
4.如权利要求1所述的方法,其特征在于,根据所述第一相似值及所述第二相似值确定第一目标历史工单与第二目标历史工单之间的第一参考相似值,包括:
根据公式
Figure 856773DEST_PATH_IMAGE001
确定所述第一目标历史工单与所述第二目标历史工单之间的第一参考相似值sim;其中,
所述
Figure 801595DEST_PATH_IMAGE002
为所述第一相似值的权重系数,所述
Figure 216396DEST_PATH_IMAGE003
为所述第二相似值的权重系数,所述sim1为所述第一相似值,所述sim2为所述第二相似值。
5.如权利要求1所述的方法,其特征在于,所述获得所述若干个主题类别对应的参考工单主题,包括:
针对每个所述主题类别,获得所述主题类别中各历史工单各自对应的初始工单主题;
确定各初始工单主题对应的工单数量;
将最多工单数量对应的初始工单主题确定为所述参考工单主题。
6.一种确定工单主题的装置,其特征在于,所述装置包括:
第一确定单元,基于所有历史工单的工单主题,确定第一目标历史工单主题与第二目标历史工单主题之间的第一相似值;第一目标历史工单与第二目标历史工单为所有历史工单中的任意两个不同的工单;
第二确定单元,用于基于所述所有历史工单的工单内容,确定第一目标历史工单内容与第二目标历史工单内容之间的第二相似值;
第三确定单元,用于根据所述第一相似值及所述第二相似值确定第一目标历史工单与第二目标历史工单之间的第一参考相似值;
聚类单元,用于在确定所述第一参考相似值大于预设的第一相似度阈值时,则将所述第一目标历史工单及所述第二目标历史工单的工单主题聚类为同一主题类别;
遍历单元,用于遍历所述所有历史工单,聚类出若干个主题类别,并获得所述若干个主题类别对应的参考工单主题;
迭代单元,用于对所述若干个主题类别对应的参考工单主题进行聚类迭代,获得目标工单主题。
7.如权利要求6所述的装置,其特征在于,所述第一确定单元具体用于:
对所述第一目标历史工单主题进行切词,获得若干个第一关键词;
对所述第二目标历史工单主题进行切词,获得若干个第二关键词;
根据各所述第一关键词的词频将所述第一目标历史工单主题转换为第一文本向量;
根据各所述第二关键词的词频将所述第二目标历史工单主题转换为第二文本向量;
根据余弦相似定理确定所述第一文本向量与所述第二文本向量的第一相似度,所述第一相似度为第一目标历史工单主题与第二目标历史工单主题之间的第一相似值。
8.如权利要求6所述的装置,其特征在于,所述第二确定单元具体用于:
对所述第一目标历史工单内容进行切词,获得若干个第三关键词;
对所述第二目标历史工单内容进行切词,获得若干个第四关键词;
根据各所述第三关键词的词频将所述第一目标历史工单内容转换为第三文本向量;
根据各所述第四关键词的词频将所述第二目标历史工单内容转换为第四文本向量;
根据余弦相似定理确定所述第三文本向量与所述第四文本向量的第二相似度,所述第二相似度为第一目标历史工单内容与第二目标历史工单内容之间的第二相似值。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5任一项所述的方法。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至5任一项所述的方法。
CN202111408118.4A 2021-11-25 2021-11-25 一种确定工单主题的方法、装置、介质及计算机设备 Pending CN113836888A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111408118.4A CN113836888A (zh) 2021-11-25 2021-11-25 一种确定工单主题的方法、装置、介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111408118.4A CN113836888A (zh) 2021-11-25 2021-11-25 一种确定工单主题的方法、装置、介质及计算机设备

Publications (1)

Publication Number Publication Date
CN113836888A true CN113836888A (zh) 2021-12-24

Family

ID=78971675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111408118.4A Pending CN113836888A (zh) 2021-11-25 2021-11-25 一种确定工单主题的方法、装置、介质及计算机设备

Country Status (1)

Country Link
CN (1) CN113836888A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804641A (zh) * 2018-06-05 2018-11-13 鼎易创展咨询(北京)有限公司 一种文本相似度的计算方法、装置、设备和存储介质
CN109657240A (zh) * 2018-12-12 2019-04-19 中国移动通信集团江苏有限公司 确定故障类型的方法、装置、设备和介质
CN109885768A (zh) * 2019-02-18 2019-06-14 中国联合网络通信集团有限公司 工单处理方法、装置及系统
CN110851602A (zh) * 2019-11-13 2020-02-28 精硕科技(北京)股份有限公司 一种主题聚类的方法及装置
CN111475601A (zh) * 2020-04-09 2020-07-31 云南电网有限责任公司电力科学研究院 一种电力工单热点主题获取方法及装置
CN112270191A (zh) * 2020-11-18 2021-01-26 国网北京市电力公司 提取工单文本主题的方法及装置
CN112632965A (zh) * 2020-12-25 2021-04-09 上海德拓信息技术股份有限公司 一种针对政府服务热线领域的工单自动分类方法
CN112667805A (zh) * 2019-09-30 2021-04-16 北京沃东天骏信息技术有限公司 一种工单类别确定方法、装置、设备及介质
CN113239691A (zh) * 2021-05-11 2021-08-10 中国石油大学(华东) 一种基于主题模型的相似诉求工单筛选方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804641A (zh) * 2018-06-05 2018-11-13 鼎易创展咨询(北京)有限公司 一种文本相似度的计算方法、装置、设备和存储介质
CN109657240A (zh) * 2018-12-12 2019-04-19 中国移动通信集团江苏有限公司 确定故障类型的方法、装置、设备和介质
CN109885768A (zh) * 2019-02-18 2019-06-14 中国联合网络通信集团有限公司 工单处理方法、装置及系统
CN112667805A (zh) * 2019-09-30 2021-04-16 北京沃东天骏信息技术有限公司 一种工单类别确定方法、装置、设备及介质
CN110851602A (zh) * 2019-11-13 2020-02-28 精硕科技(北京)股份有限公司 一种主题聚类的方法及装置
CN111475601A (zh) * 2020-04-09 2020-07-31 云南电网有限责任公司电力科学研究院 一种电力工单热点主题获取方法及装置
CN112270191A (zh) * 2020-11-18 2021-01-26 国网北京市电力公司 提取工单文本主题的方法及装置
CN112632965A (zh) * 2020-12-25 2021-04-09 上海德拓信息技术股份有限公司 一种针对政府服务热线领域的工单自动分类方法
CN113239691A (zh) * 2021-05-11 2021-08-10 中国石油大学(华东) 一种基于主题模型的相似诉求工单筛选方法和装置

Similar Documents

Publication Publication Date Title
CN110619506B (zh) 一种岗位画像生成方法、岗位画像生成装置及电子设备
CN103530334B (zh) 基于比较模板的数据匹配系统和方法
CN102890698B (zh) 微博话题标签自动化描述方法
JP2005526311A5 (zh)
Shan et al. An efficient and exact approach for detecting trends with binary endpoints
CN113765881A (zh) 异常网络安全行为的检测方法、装置、电子设备及存储介质
CN106897340A (zh) 一种数据表更新方法及装置
CN105099729A (zh) 一种识别用户身份标识的方法和装置
CN111611786B (zh) 文本相似度的计算方法及装置
CN107092650B (zh) 一种网络日志分析方法及装置
CN113792084A (zh) 数据热度的分析方法、装置、设备及存储介质
CN107870913B (zh) 有效时间的高期望权重项集挖掘方法、装置及处理设备
CN113836888A (zh) 一种确定工单主题的方法、装置、介质及计算机设备
CN106775962B (zh) 一种规则执行方法及装置
CN109726290B (zh) 投诉分类模型的确定方法及装置、计算机可读存储介质
CN107329956B (zh) 一种项目信息标准化方法及装置
CN114139636B (zh) 异常作业处理方法及装置
CN105786929A (zh) 一种信息监测方法及装置
CN113127459B (zh) 一种数据治理的实现方法、装置、可读介质及电子设备
CN113129057A (zh) 软件造价信息的处理方法、装置、计算机设备及存储介质
CN113627148A (zh) 一种知识库中知识的自动关联方法及装置
CN113837527A (zh) 企业评级方法、装置、设备以及存储介质
EP3480821B1 (en) Clinical trial support network data security
CN113010517B (zh) 数据表管理方法及装置
CN111737555A (zh) 热点关键词的选取方法、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211224

RJ01 Rejection of invention patent application after publication