CN116611453B - 基于大数据的智能派单跟单方法及系统、存储介质 - Google Patents

基于大数据的智能派单跟单方法及系统、存储介质 Download PDF

Info

Publication number
CN116611453B
CN116611453B CN202310883291.2A CN202310883291A CN116611453B CN 116611453 B CN116611453 B CN 116611453B CN 202310883291 A CN202310883291 A CN 202310883291A CN 116611453 B CN116611453 B CN 116611453B
Authority
CN
China
Prior art keywords
work order
training
semantic
semantic understanding
dispatched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310883291.2A
Other languages
English (en)
Other versions
CN116611453A (zh
Inventor
于富龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Qili Software Technology Co ltd
Original Assignee
Tianjin Qili Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Qili Software Technology Co ltd filed Critical Tianjin Qili Software Technology Co ltd
Priority to CN202310883291.2A priority Critical patent/CN116611453B/zh
Publication of CN116611453A publication Critical patent/CN116611453A/zh
Application granted granted Critical
Publication of CN116611453B publication Critical patent/CN116611453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Machine Translation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)

Abstract

本申请公开了一种基于大数据的智能派单跟单方法及系统、存储介质。其首先获取待派发工单,接着,对所述待派发工单进行语义分析以得到工单语义理解特征,然后,基于所述工单语义理解特征,确定承办单位的类型标签。这样,可以避免工作人员的介入,实现自动化的派单和跟单过程,提高工作效率和客户满意度。

Description

基于大数据的智能派单跟单方法及系统、存储介质
技术领域
本申请涉及智能派单领域,且更为具体地,涉及一种基于大数据的智能派单跟单方法及系统、存储介质。
背景技术
在传统的热线派单工作中,工作人员需要根据工单的描述内容和过往的处理经验来确定将不同的诉求工单分派给相应的承办单位,以通过承办单位的办理来解决人们反映的诉求。然而,随着社会的发展,工单受理量呈现庞大的趋势,传统的分派操作会消耗大量的人力、物力和财力,并且其准确率并不高。并且,根据工单处理流程,如果分派给的承办单位不准确,将会导致回退并重新分派,这个过程会显著增加工单的处理时间。
因此,期望一种优化的基于大数据的智能派单跟单方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于大数据的智能派单跟单方法及系统、存储介质。其可以避免工作人员的介入,实现自动化的派单和跟单过程,提高工作效率和客户满意度。
根据本申请的一个方面,提供了一种基于大数据的智能派单跟单方法,其包括:
获取待派发工单;
对所述待派发工单进行语义分析以得到工单语义理解特征;
以及基于所述工单语义理解特征,确定承办单位的类型标签。
根据本申请的另一个方面,提供了一种基于大数据的智能派单跟单系统,其包括:
工单获取模块,用于获取待派发工单;
语义分析模块,用于对所述待派发工单进行语义分析以得到工单语义理解特征;
以及类型标签确认模块,用于基于所述工单语义理解特征,确定承办单位的类型标签。
根据本申请的另一个方面,提供了一种存储介质,所述存储介质中存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行前述的基于大数据的智能派单跟单方法。
与现有技术相比,本申请提供的基于大数据的智能派单跟单方法及系统、存储介质,其首先获取待派发工单,接着,对所述待派发工单进行语义分析以得到工单语义理解特征,然后,基于所述工单语义理解特征,确定承办单位的类型标签。这样,可以避免工作人员的介入,实现自动化的派单和跟单过程,提高工作效率和客户满意度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,以下附图并未刻意按实际尺寸等比例缩放绘制,重点在于示出本申请的主旨。
图1为根据本申请实施例的基于大数据的智能派单跟单方法的流程图。
图2为根据本申请实施例的基于大数据的智能派单跟单方法的架构示意图。
图3为根据本申请实施例的基于大数据的智能派单跟单方法的子步骤S120的流程图。
图4为根据本申请实施例的基于大数据的智能派单跟单方法的子步骤S122的流程图。
图5为根据本申请实施例的基于大数据的智能派单跟单方法的子步骤S123的流程图。
图6为根据本申请实施例的基于大数据的智能派单跟单方法进一步包括的训练步骤的流程图。
图7为根据本申请实施例的基于大数据的智能派单跟单系统的框图。
图8为根据本申请实施例的基于大数据的智能派单跟单方法的应用场景图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述,显而易见地,所描述的实施例仅仅是本申请的部分实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,也属于本申请保护的范围。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
针对上述技术问题,本申请的技术构思为在派单之前,通过对于待派发工单进行语义理解,从而更好地理解待派发工单的内容和要求,以此来进行承办单位的类型选择,通过这样的方式,能够避免工作人员的介入,以实现自动化的派单和跟单过程,提高工作效率和客户满意度。
图1为根据本申请实施例的基于大数据的智能派单跟单方法的流程图。图2为根据本申请实施例的基于大数据的智能派单跟单方法的架构示意图。如图1和与图2所示,根据本申请实施例的基于大数据的智能派单跟单方法,包括步骤:S110,获取待派发工单;S120,对所述待派发工单进行语义分析以得到工单语义理解特征;以及,S130,基于所述工单语义理解特征,确定承办单位的类型标签。
进一步地,在步骤S120中,如图3所示,对所述待派发工单进行语义分析以得到工单语义理解特征,包括:S121,对所述待派发工单进行数据清洗和格式转换以得到预处理后待派发工单;S122,对所述预处理后待派发工单进行基于字符关联语义理解以得到字符粒度工单语义理解特征向量;S123,对所述预处理后待派发工单进行基于词关联语义理解以得到词粒度工单语义理解特征向量;以及,S124,融合所述字符粒度工单语义理解特征向量和所述词粒度工单语义理解特征向量以得到工单语义理解特征向量作为所述工单语义理解特征。
具体地,在本申请的技术方案中,首先,获取待派发工单。接着,考虑到所述待派发工单可能存在有诸多问题,例如数据缺失、错误和重复等,并且不同来源的工单数据可能采用不同的格式和结构,例如文本、表格、数据库等。因此,为了能够便于后续进行所述待派发工单的语义理解,差异来进行承办单位的分配,在本申请的技术方案中,进一步向对所述待派发工单进行数据清洗和格式转换以得到预处理后待派发工单。应可以理解,通过对于所述待派发工单进行数据清洗,可以避免所述待派发工单中有问题的数据信息对于后续语义理解的干扰,以提高数据的准确性和可靠性。而通过格式转换能够将这些不同格式的数据转化为统一的数据结构,方便进行后续的语义理解和处理。
应可以理解,数据清洗是指对待派发工单数据进行处理,以去除其中的错误、缺失和重复等问题,保证数据的准确性和完整性,数据清洗的目的是为了提高后续语义理解的准确性和可靠性,避免问题数据对分析和处理的影响。格式转换是将待派发工单数据从不同的格式和结构(如文本、表格、数据库)转换为统一的数据结构,以便于后续的语义理解和处理,通过格式转换,可以将不同来源的工单数据统一为相同的数据格式,使得对工单数据的处理更加方便和高效。数据清洗和格式转换在本技术方案中的作用包括:提高数据准确性和可靠性,通过清洗数据,去除错误、缺失和重复等问题,可以确保待派发工单数据的准确性和完整性,提高后续处理和分析的准确性和可靠性;统一数据结构,通过格式转换,将不同格式和结构的工单数据转换为统一的数据结构,方便后续的语义理解和处理。统一的数据结构可以减少处理过程中的复杂性,提高处理效率和一致性。
接着,考虑到由于所述待派发工单中包含有大量的语义信息,并且所述待派发工单中是由各个字符组成的,因此,进一步对所述预处理后待派发工单进行以字符为单位的划分以得到工单描述字符的序列。这样,能够将所述待派发工单分解为单个字符的序列,以便于更细粒度地处理所述待派发工单,例如进行字符级别的语义分析或处理特定字符的格式要求,有利于进行所述待派发工单的语义理解。
然后,考虑到由于所述待派发工单中的所述工单描述字符的序列是以字符划分的数据信息,所述各个字符之间具有着上下文的语义关联关系。因此,为了能够捕捉到所述待派发工单的语义信息,在本申请的技术方案中,需要将所述工单描述字符的序列通过包含word2Vec模型的第一语义编码器以得到字符粒度工单语义理解特征向量。应可以理解,所述word2Vec模型是一种用于将单词或字符映射到向量表示的技术,它可以将相似的单词或字符映射到相似的向量空间中,从而便于进行语义理解。在将所述工单描述字符的序列通过word2Vec模型中,以将相似的字符映射到相似的向量空间中以得到输入字符向量的序列后,再使用第一语义编码器的上下文语义理解模块,例如双向长短期记忆网络模型来进行上下文的语义关联编码,以此来提取出所述待派发工单中基于字符粒度之间的上下文语义关联特征信息。
应可以理解,双向长短期记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)是一种循环神经网络(Recurrent Neural Network,RNN)模型的变体。它在传统的长短期记忆网络(LSTM)的基础上增加了一个反向的LSTM层。LSTM是一种特殊的RNN,主要用于处理序列数据,具有较强的记忆能力,它通过门控机制来控制信息的流动,可以有效地解决传统RNN中的梯度消失和梯度爆炸等问题,从而更好地捕捉序列中的长期依赖关系。而BiLSTM则在传统的LSTM的基础上进行了改进,引入了一个反向的LSTM层,BiLSTM通过同时考虑序列数据的前向和后向信息,能够更全面地捕捉序列中的上下文信息。在处理序列任务时,BiLSTM可以同时从序列的起始和结束位置进行信息提取,从而更好地理解序列的语义和结构。BiLSTM的工作原理如下:1.对于输入序列,BiLSTM首先通过前向LSTM层从左到右依次处理每个时间步的输入,得到前向的隐藏状态序列;2.然后,通过反向LSTM层从右到左依次处理每个时间步的输入,得到反向的隐藏状态序列;3.最后,将前向和反向的隐藏状态进行拼接或合并操作,得到最终的双向隐藏状态序列,作为输出或传递给后续的模型进行进一步处理。通过双向的信息流动,BiLSTM能够更好地捕捉序列中的上下文信息,提高序列任务的性能。
相应地,如图4所示,对所述预处理后待派发工单进行基于字符关联语义理解以得到字符粒度工单语义理解特征向量,包括:S1221,对所述预处理后待派发工单进行以字符为单位的划分以得到工单描述字符的序列;以及,S1222,将所述工单描述字符的序列通过包含word2Vec模型的第一语义编码器以得到所述字符粒度工单语义理解特征向量。
进一步地,还考虑到仅仅以字符为单位划分的序列往往无法捕捉到词语层面的语义信息,可能导致对于所述待派发工单的理解不准确或缺乏上下文的连贯性。因此,在本申请的技术方案中,进一步对所述预处理后待派发工单进行以词为单位的划分以得到工单描述词的序列,以此有利于更好地捕捉到所述待派发工单中词语的语义信息和上下文关系,从而提高理解的准确性和连贯性。
然后,将所述工单描述词的序列通过包含word2Vec模型的第二语义编码器以得到词粒度工单语义理解特征向量将。这样,在将所述工单描述词的序列通过所述word2Vec模型中,以将相似的词映射到相似的向量空间中以得到输入词向量的序列后,再使用第二语义编码器的双向长短期记忆网络模型来进行输入词向量的序列上下文的语义关联编码,以此来提取出所述待派发工单中基于词粒度的上下文语义关联特征信息。
相应地,如图5所示,对所述预处理后待派发工单进行基于词关联语义理解以得到词粒度工单语义理解特征向量,包括:S1231,对所述预处理后待派发工单进行以词为单位的划分以得到工单描述词的序列;以及,S1232,将所述工单描述词的序列通过包含word2Vec模型的第二语义编码器以得到所述词粒度工单语义理解特征向量。
继而,再融合所述字符粒度工单语义理解特征向量和所述词粒度工单语义理解特征向量,以此来融合所述待派发工单的基于字符粒度的上下文语义关联特征信息和基于词粒度的上下文语义关联特征信息。特别地,在本申请的技术方案中,使用级联函数来融合所述字符粒度工单语义理解特征向量和所述词粒度工单语义理解特征向量以得到工单语义理解特征向量。应可以理解,所述级联函数能够使网络具有一定逻辑推理能力,促进网络挖掘所述待派发工单基于字符粒度的语义理解特征和基于词粒度的语义理解特征之间的语义关联特征信息。
相应地,融合所述字符粒度工单语义理解特征向量和所述词粒度工单语义理解特征向量以得到工单语义理解特征向量作为所述工单语义理解特征,包括:使用级联函数来融合所述字符粒度工单语义理解特征向量和所述词粒度工单语义理解特征向量以得到所述工单语义理解特征向量。应可以理解,级联函数是一种将两个向量连接起来的函数,在本申请中,级联函数被用来融合字符粒度和词粒度的特征向量,以得到工单的综合语义理解特征向量。具体而言,级联函数将字符粒度和词粒度特征向量按照一定的顺序连接在一起,形成一个更长的向量,该向量包含了字符粒度和词粒度特征的信息。通过级联函数的操作,可以将不同粒度的特征融合在一起。级联函数的作用是将字符粒度和词粒度的特征向量结合起来,形成一个综合的工单语义理解特征向,这样做的好处包括:提供更全面的语义理解,字符粒度和词粒度的特征向量分别捕捉了不同层次的语义信息,通过级联函数的操作,将它们结合起来可以得到更全面、更丰富的语义理解特征,提供更准确的工单语义表示;提高模型性能,融合不同粒度的特征可以提供更多的上下文信息,有助于提高模型的性能,级联函数能够将这些特征有机地结合在一起,使得模型能够更好地理解工单的语义;支持多样化的工单处理任务,综合的工单语义理解特征向量可以适应不同的工单处理任务,如分类、聚类、意图识别等,通过融合不同粒度的特征,可以提供更灵活、更全面的特征表示,从而支持更多样化的工单处理需求。换言之,级联函数的使用可以提高工单语义理解的准确性和可靠性,为后续的工单处理任务提供更好的基础。
接着,进一步再将所述工单语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示承办单位的类型标签。也就是说,以所述待派发工单的基于字符粒度的上下文语义理解特征和基于词粒度的上下文语义理解特征之间的语义融合关联特征信息来进行分类,以此来充分且准确地进行所述待派发工单的内容和要求的语义分析,从而进行所述待派发工单与承办单位类型的匹配。通过这样的方式,能够避免工作人员的介入,以实现自动化的派单和跟单过程,提高工作效率和客户满意度。
相应地,基于所述工单语义理解特征,确定承办单位的类型标签,包括:将所述工单语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示承办单位的类型标签。其中,将所述工单语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示承办单位的类型标签,包括:使用所述分类器的全连接层对所述工单语义理解特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。
应可以理解,分类器的作用是利用给定的类别、已知的训练数据来学习分类规则和分类器,然后对未知数据进行分类(或预测)。逻辑回归(logistics)、SVM等常用于解决二分类问题,对于多分类问题(multi-class classification),同样也可以用逻辑回归或SVM,只是需要多个二分类来组成多分类,但这样容易出错且效率不高,常用的多分类方法有Softmax分类函数。
进一步地,本申请所述的基于大数据的智能派单跟单方法,其还包括用于对所述包含word2Vec模型的第一语义编码器、所述包含word2Vec模型的第二语义编码器和所述分类器进行训练的训练步骤。应可以理解,训练步骤是指对基于大数据的智能派单跟单方法中所涉及的模型进行训练的过程,在这个方法中,涉及到三个模型的训练:第一语义编码器、第二语义编码器和分类器。其中,第一语义编码器的训练:第一语义编码器使用word2Vec模型来将文本数据转换为语义向量表示,通过输入大量的文本数据,如工单描述、派单记录等,来训练word2Vec模型,该模型通过学习词语之间的语义关系,将每个词语映射到一个向量表示,训练完成后,第一语义编码器能够将工单描述等文本数据转换为语义向量表示;第二语义编码器的训练,第二语义编码器是基于第一语义编码器的输出,对工单进行进一步的语义编码,使用已标注的工单数据集,将工单描述的语义向量表示作为输入,经过深度学习模型(如BiLSTM)进行训练,以获得更高层次的语义表示,通过训练第二语义编码器,可以提高工单的语义理解能力;分类器的训练,分类器是用于对工单进行分类的模型,根据工单的语义表示将其归类到不同的类别或进行意图识别,使用已标注的工单数据集,将工单的语义表示作为输入,经过分类模型(如逻辑回归、支持向量机等)进行训练,以学习不同类别之间的辨别特征,通过训练分类器,可以实现对工单的自动分类和派单。训练步骤的目的是通过大量的数据和深度学习模型的训练,提高工单的语义理解能力和分类准确性,从而实现智能派单和跟单的功能。训练步骤的结果是得到经过训练的模型,可以用于实际的工单处理任务中。
更具体地,在一个示例中,如图6所示,所述训练步骤,包括:S210,获取训练数据,所述训练数据包括训练待派发工单,以及,所述承办单位的类型标签的真实值;S220,对所述训练待派发工单进行数据清洗和格式转换以得到训练预处理后待派发工单;S230,对所述训练预处理后待派发工单进行以字符为单位的划分以得到训练工单描述字符的序列;S240,对所述训练预处理后待派发工单进行以词为单位的划分以得到训练工单描述词的序列;S250,将所述训练工单描述字符的序列通过所述包含word2Vec模型的第一语义编码器以得到训练字符粒度工单语义理解特征向量;S260,将所述训练工单描述词的序列通过所述包含word2Vec模型的第二语义编码器以得到训练词粒度工单语义理解特征向量;S270,使用级联函数来融合所述训练字符粒度工单语义理解特征向量和所述训练词粒度工单语义理解特征向量以得到训练工单语义理解特征向量;S280,将所述训练工单语义理解特征向量通过所述分类器以得到分类损失函数值;以及,S290,基于所述分类损失函数值并通过梯度下降的方向传播来对所述包含word2Vec模型的第一语义编码器、所述包含word2Vec模型的第二语义编码器和所述分类器进行训练,其中,在所述训练的每一轮迭代中,对所述分类器的权重矩阵进行基于跨域注意力的转移优化。
特别地,在本申请的技术方案中,所述训练字符粒度工单语义理解特征向量和所述训练词粒度工单语义理解特征向量分别表达所述工单描述字符的不同粒度下的语义编码特征,这样,所述训练字符粒度工单语义理解特征向量和所述训练词粒度工单语义理解特征向量虽然是基于同源数据的文本语义编码,但划分粒度的不同也使得各自粒度的单位语义及其语义关联之间的特征表示存在差异,使得所述训练字符粒度工单语义理解特征向量和所述训练词粒度工单语义理解特征向量包含差异化的特征分布。
这样,在通过级联函数的点卷积和激活操作获得所述训练字符粒度工单语义理解特征向量和所述训练词粒度工单语义理解特征向量的一定关联性的同时,考虑到在引入了不同粒度下的语义关联的同时,也使得所述训练工单语义理解特征向量的特征分布进一步多样化。
这样,在所述训练工单语义理解特征向量通过分类器进行分类时,考虑到在分类过程的特征域到分类目标域的域转移中,多样化的特征分布会存在分布可转移性差异,例如同粒度语义关联分布的可转移性要显著高于不同粒度语义关联分布的可转移性,期望通过进一步针对所述分类器的权重矩阵对于所述训练工单语义理解特征向量进行自适应优化,来提升所述训练工单语义理解特征向量通过分类器进行分类训练的训练效果,即提升分类速度和得到的训练分类结果的准确性。因此,本申请的申请人在每次分类器的权重矩阵的迭代过程中,对于所述权重矩阵进行基于跨域注意力的转移优化。
相应地,在一个具体示例中,在所述训练的每一轮迭代中,以如下优化公式对所述分类器的权重矩阵进行基于跨域注意力的转移优化;其中,所述优化公式为:
其中,是所述分类器的权重矩阵,/>的尺度为/>,/>到/>是所述权重矩阵/>的/>个行向量,/>表示特征向量的二范数,/>表示转置操作,/>是对所述权重矩阵/>的每个行向量的求和值排列得到的行向量,且/>和/>均表示单层卷积操作,表示矩阵乘法,/>表示迭代后的所述分类器的权重矩阵。
这里,所述基于跨域注意力的转移优化针对所述训练工单语义理解特征向量的特征分布在特征空间域和分类目标域内存在的不同表示,所述分类器的权重矩阵相对于待分类的特征向量的跨域多样性特征表示也会具有相应的结构化的行和列空间结构,由此,通过对所述权重矩阵/>的空间结构化特征分布以卷积操作来给予注意力,可以增强多样化特征分布中的良好转移特征分布的跨域间隙的可转移性,同时抑制不良转移特征分布的消极转移(negative transfer),从而基于所述权重矩阵/>自身相对于待分类的特征向量的分布结构来实现权重矩阵/>的无监督的域转移自适应优化,从而提升所述训练工单语义理解特征向量通过分类器进行分类训练的训练效果。这样,能够基于待派发工单的内容和要求等信息来综合进行承办单位的类型选择,从而提高派单的准确性和效率,以确保工单被正确地分配给合适的承办单位,提高工作效率和客户满意度。
值得一提的是,向量的二范数,也称为欧几里德范数(Euclidean Norm),是指向量中所有元素的平方和的平方根。对于一个n维向量,其二范数表示为/>,计算方式为:/> 。二范数衡量了向量的长度或大小,可以理解为向量从原点到其在n维空间中的终点的距离。它具有以下性质:非负性,/>≥0,且只有当/>的所有元素都为零时,/>才等于零;齐次性,对于任意实数/>,有/>;三角不等式,对于任意两个向量/>和/>,有。二范数在机器学习和优化算法中经常被用作正则化项,用于约束模型的复杂度,防止过拟合,同时,二范数也可以用于衡量向量之间的相似度或距离。
值得一提的是,转置操作用于改变矩阵或向量的行和列的位置,即将矩阵的行变为列,列变为行,将得原来的列向量变为行向量,或者将行向量变为列向量。
综上,基于本申请实施例的基于大数据的智能派单跟单方法被阐明,其可以避免工作人员的介入,实现自动化的派单和跟单过程,提高工作效率和客户满意度。
图7为根据本申请实施例的基于大数据的智能派单跟单系统100的框图。如图7所示,根据本申请实施例的基于大数据的智能派单跟单系统100,包括:工单获取模块110,用于获取待派发工单;语义分析模块120,用于对所述待派发工单进行语义分析以得到工单语义理解特征;以及,类型标签确认模块130,用于基于所述工单语义理解特征,确定承办单位的类型标签。
这里,本领域技术人员可以理解,上述基于大数据的智能派单跟单系统100中的各个模块的具体功能和操作已经在上面参考图1到图6的基于大数据的智能派单跟单方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的基于大数据的智能派单跟单系统100可以实现在各种无线终端中,例如具有基于大数据的智能派单跟单算法的服务器等。在一个示例中,根据本申请实施例的基于大数据的智能派单跟单系统100可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如,该基于大数据的智能派单跟单系统100可以是该无线终端的操作系统中的一个软件模块,或者可以是针对于该无线终端所开发的一个应用程序;当然,该基于大数据的智能派单跟单系统100同样可以是该无线终端的众多硬件模块之一。
替换地,在另一示例中,该基于大数据的智能派单跟单系统100与该无线终端也可以是分立的设备,并且该基于大数据的智能派单跟单系统100可以通过有线和/或无线网络连接到该无线终端,并且按照约定的数据格式来传输交互信息。
图8为根据本申请实施例的基于大数据的智能派单跟单方法的应用场景图。如图8所示,在该应用场景中,首先,获取待派发工单(例如,图8中所示意的D),然后,将所述待派发工单输入至部署有基于大数据的智能派单跟单算法的服务器中(例如,图8中所示意的S),其中,所述服务器能够使用所述基于大数据的智能派单跟单算法对所述待派发工单进行处理以得到用于表示承办单位的类型标签的分类结果。
根据本申请的另一方面,还提供了一种存储介质,所述存储介质中存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行前述的基于大数据的智能派单跟单方法。
技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”,通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如,各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。
所有软件或其中的一部分有时可能会通过网络进行通信,如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如:从视频目标检测设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台,或其他实现系统的计算机环境,或与提供目标检测所需要的信息相关的类似功能的系统。因此,另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接,例如光波、电波、电磁波等,通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备,也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质,其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
上面是对本发明的说明,而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解,上面是对本发明的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims (5)

1.一种基于大数据的智能派单跟单方法,其特征在于,包括:
获取待派发工单;
对所述待派发工单进行语义分析以得到工单语义理解特征;
以及基于所述工单语义理解特征,确定承办单位的类型标签;
其中,对所述待派发工单进行语义分析以得到工单语义理解特征,包括:
对所述待派发工单进行数据清洗和格式转换以得到预处理后待派发工单;
对所述预处理后待派发工单进行基于字符关联语义理解以得到字符粒度工单语义理解特征向量;
对所述预处理后待派发工单进行基于词关联语义理解以得到词粒度工单语义理解特征向量;
以及融合所述字符粒度工单语义理解特征向量和所述词粒度工单语义理解特征向量以得到工单语义理解特征向量作为所述工单语义理解特征;
所述对所述预处理后待派发工单进行基于字符关联语义理解以得到字符粒度工单语义理解特征向量,包括:
对所述预处理后待派发工单进行以字符为单位的划分以得到工单描述字符的序列;
以及将所述工单描述字符的序列通过包含word2Vec模型的第一语义编码器以得到所述字符粒度工单语义理解特征向量;
所述对所述预处理后待派发工单进行基于词关联语义理解以得到词粒度工单语义理解特征向量,包括:
对所述预处理后待派发工单进行以词为单位的划分以得到工单描述词的序列;
以及将所述工单描述词的序列通过包含word2Vec模型的第二语义编码器以得到所述词粒度工单语义理解特征向量;
所述方法还包括用于对所述包含word2Vec模型的第一语义编码器、所述包含word2Vec模型的第二语义编码器和分类器进行训练的训练步骤;
所述训练步骤,包括:
获取训练数据,所述训练数据包括训练待派发工单,以及,所述承办单位的类型标签的真实值;
对所述训练待派发工单进行数据清洗和格式转换以得到训练预处理后待派发工单;
对所述训练预处理后待派发工单进行以字符为单位的划分以得到训练工单描述字符的序列;
对所述训练预处理后待派发工单进行以词为单位的划分以得到训练工单描述词的序列;
将所述训练工单描述字符的序列通过所述包含word2Vec模型的第一语义编码器以得到训练字符粒度工单语义理解特征向量;
将所述训练工单描述词的序列通过所述包含word2Vec模型的第二语义编码器以得到训练词粒度工单语义理解特征向量;
使用级联函数来融合所述训练字符粒度工单语义理解特征向量和所述训练词粒度工单语义理解特征向量以得到训练工单语义理解特征向量;
将所述训练工单语义理解特征向量通过所述分类器以得到分类损失函数值;
以及基于所述分类损失函数值并通过梯度下降的方向传播来对所述包含word2Vec模型的第一语义编码器、所述包含word2Vec模型的第二语义编码器和所述分类器进行训练,其中,在所述训练的每一轮迭代中,对所述分类器的权重矩阵进行基于跨域注意力的转移优化;
在所述训练的每一轮迭代中,以如下优化公式对所述分类器的权重矩阵进行基于跨域注意力的转移优化;
其中,所述优化公式为:
其中,/>是所述分类器的权重矩阵,/>的尺度为/>,/>到/>是所述权重矩阵/>的/>个行向量,/>表示特征向量的二范数,/>表示转置操作,/>是对所述权重矩阵/>的每个行向量的求和值排列得到的行向量,且/>和/>均表示单层卷积操作,/>表示矩阵乘法,/>表示迭代后的所述分类器的权重矩阵。
2.根据权利要求1所述的基于大数据的智能派单跟单方法,其特征在于,融合所述字符粒度工单语义理解特征向量和所述词粒度工单语义理解特征向量以得到工单语义理解特征向量作为所述工单语义理解特征,包括:
使用级联函数来融合所述字符粒度工单语义理解特征向量和所述词粒度工单语义理解特征向量以得到所述工单语义理解特征向量。
3.根据权利要求2所述的基于大数据的智能派单跟单方法,其特征在于,基于所述工单语义理解特征,确定承办单位的类型标签,包括:
将所述工单语义理解特征向量通过分类器以得到分类结果,所述分类结果用于表示承办单位的类型标签。
4.一种基于大数据的智能派单跟单系统,其特征在于,包括:
工单获取模块,用于获取待派发工单;
语义分析模块,用于对所述待派发工单进行语义分析以得到工单语义理解特征;
以及类型标签确认模块,用于基于所述工单语义理解特征,确定承办单位的类型标签;
其中,所述语义分析模块,进一步用于:
对所述待派发工单进行数据清洗和格式转换以得到预处理后待派发工单;
对所述预处理后待派发工单进行基于字符关联语义理解以得到字符粒度工单语义理解特征向量;
对所述预处理后待派发工单进行基于词关联语义理解以得到词粒度工单语义理解特征向量;
以及融合所述字符粒度工单语义理解特征向量和所述词粒度工单语义理解特征向量以得到工单语义理解特征向量作为所述工单语义理解特征;
所述语义分析模块,进一步用于:
对所述预处理后待派发工单进行以字符为单位的划分以得到工单描述字符的序列;
以及将所述工单描述字符的序列通过包含word2Vec模型的第一语义编码器以得到所述字符粒度工单语义理解特征向量;
所述语义分析模块,进一步用于:
对所述预处理后待派发工单进行以词为单位的划分以得到工单描述词的序列;
以及将所述工单描述词的序列通过包含word2Vec模型的第二语义编码器以得到所述词粒度工单语义理解特征向量;
所述系统还用于对所述包含word2Vec模型的第一语义编码器、所述包含word2Vec模型的第二语义编码器和分类器进行训练;
所述系统进一步用于:
获取训练数据,所述训练数据包括训练待派发工单,以及,所述承办单位的类型标签的真实值;
对所述训练待派发工单进行数据清洗和格式转换以得到训练预处理后待派发工单;
对所述训练预处理后待派发工单进行以字符为单位的划分以得到训练工单描述字符的序列;
对所述训练预处理后待派发工单进行以词为单位的划分以得到训练工单描述词的序列;
将所述训练工单描述字符的序列通过所述包含word2Vec模型的第一语义编码器以得到训练字符粒度工单语义理解特征向量;
将所述训练工单描述词的序列通过所述包含word2Vec模型的第二语义编码器以得到训练词粒度工单语义理解特征向量;
使用级联函数来融合所述训练字符粒度工单语义理解特征向量和所述训练词粒度工单语义理解特征向量以得到训练工单语义理解特征向量;
将所述训练工单语义理解特征向量通过所述分类器以得到分类损失函数值;
以及基于所述分类损失函数值并通过梯度下降的方向传播来对所述包含word2Vec模型的第一语义编码器、所述包含word2Vec模型的第二语义编码器和所述分类器进行训练,其中,在所述训练的每一轮迭代中,对所述分类器的权重矩阵进行基于跨域注意力的转移优化;
在所述训练的每一轮迭代中,以如下优化公式对所述分类器的权重矩阵进行基于跨域注意力的转移优化;
其中,所述优化公式为:
其中,/>是所述分类器的权重矩阵,/>的尺度为/>,/>到/>是所述权重矩阵/>的/>个行向量,/>表示特征向量的二范数,/>表示转置操作,/>是对所述权重矩阵/>的每个行向量的求和值排列得到的行向量,且/>和/>均表示单层卷积操作,/>表示矩阵乘法,/>表示迭代后的所述分类器的权重矩阵。
5.一种存储介质,其特征在于,所述存储介质中存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1-3中任一项所述的基于大数据的智能派单跟单方法。
CN202310883291.2A 2023-07-19 2023-07-19 基于大数据的智能派单跟单方法及系统、存储介质 Active CN116611453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310883291.2A CN116611453B (zh) 2023-07-19 2023-07-19 基于大数据的智能派单跟单方法及系统、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310883291.2A CN116611453B (zh) 2023-07-19 2023-07-19 基于大数据的智能派单跟单方法及系统、存储介质

Publications (2)

Publication Number Publication Date
CN116611453A CN116611453A (zh) 2023-08-18
CN116611453B true CN116611453B (zh) 2023-10-03

Family

ID=87676797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310883291.2A Active CN116611453B (zh) 2023-07-19 2023-07-19 基于大数据的智能派单跟单方法及系统、存储介质

Country Status (1)

Country Link
CN (1) CN116611453B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034093B (zh) * 2023-10-10 2024-05-14 尚宁智感(北京)科技有限公司 基于光纤系统的入侵信号识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908716A (zh) * 2017-11-10 2018-04-13 国网山东省电力公司电力科学研究院 基于词向量模型的95598工单文本挖掘方法和装置
CN112528031A (zh) * 2021-02-09 2021-03-19 中关村科学城城市大脑股份有限公司 一种工单智能派发方法和系统
CN114021582A (zh) * 2021-12-30 2022-02-08 深圳市北科瑞声科技股份有限公司 结合语音信息的口语理解方法、装置、设备及存储介质
CN114418327A (zh) * 2021-12-27 2022-04-29 广西壮族自治区公众信息产业有限公司 一种客服系统自动录单和智能派单方法
CN114915689A (zh) * 2022-04-26 2022-08-16 北京京东拓先科技有限公司 一种视频问诊处理方法和装置
CN115878805A (zh) * 2022-12-27 2023-03-31 维沃移动通信有限公司 情感分析方法、装置、电子设备及存储介质
CN115935245A (zh) * 2023-03-10 2023-04-07 吉奥时空信息技术股份有限公司 一种政务热线案件自动分类分拨方法
CN116341518A (zh) * 2023-03-10 2023-06-27 杭州图灵数科信息技术有限公司 用于大数据统计分析的数据处理方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908716A (zh) * 2017-11-10 2018-04-13 国网山东省电力公司电力科学研究院 基于词向量模型的95598工单文本挖掘方法和装置
CN112528031A (zh) * 2021-02-09 2021-03-19 中关村科学城城市大脑股份有限公司 一种工单智能派发方法和系统
CN114418327A (zh) * 2021-12-27 2022-04-29 广西壮族自治区公众信息产业有限公司 一种客服系统自动录单和智能派单方法
CN114021582A (zh) * 2021-12-30 2022-02-08 深圳市北科瑞声科技股份有限公司 结合语音信息的口语理解方法、装置、设备及存储介质
CN114915689A (zh) * 2022-04-26 2022-08-16 北京京东拓先科技有限公司 一种视频问诊处理方法和装置
CN115878805A (zh) * 2022-12-27 2023-03-31 维沃移动通信有限公司 情感分析方法、装置、电子设备及存储介质
CN115935245A (zh) * 2023-03-10 2023-04-07 吉奥时空信息技术股份有限公司 一种政务热线案件自动分类分拨方法
CN116341518A (zh) * 2023-03-10 2023-06-27 杭州图灵数科信息技术有限公司 用于大数据统计分析的数据处理方法及系统

Also Published As

Publication number Publication date
CN116611453A (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN111753081B (zh) 基于深度skip-gram网络的文本分类的系统和方法
US11455527B2 (en) Classification of sparsely labeled text documents while preserving semantics
US7885859B2 (en) Assigning into one set of categories information that has been assigned to other sets of categories
CN112966522A (zh) 一种图像分类方法、装置、电子设备及存储介质
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
CN116611453B (zh) 基于大数据的智能派单跟单方法及系统、存储介质
CN116610803B (zh) 基于大数据的产业链优企信息管理方法及系统
CN111143567B (zh) 一种基于改进神经网络的评论情感分析方法
US11640493B1 (en) Method for dialogue summarization with word graphs
CN112749274A (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN111325264A (zh) 一种基于熵的多标签数据分类方法
CN111898704B (zh) 对内容样本进行聚类的方法和装置
Li et al. Intention understanding in human–robot interaction based on visual-NLP semantics
CN116226785A (zh) 目标对象识别方法、多模态识别模型的训练方法和装置
Ciaburro et al. Python Machine Learning Cookbook: Over 100 recipes to progress from smart data analytics to deep learning using real-world datasets
CN113254655A (zh) 文本分类方法、电子设备及计算机存储介质
CN116340506A (zh) 一种基于bert和无池化卷积神经网络的文本分类方法
CN116624903A (zh) 一种用于油烟管道的智能监测方法及系统
CN118113849A (zh) 基于大数据的信息咨询服务系统及方法
CN111259147A (zh) 基于自适应注意力机制的句子级情感预测方法及系统
CN116561814B (zh) 纺织化纤供应链信息防篡改方法及其系统
CN116756605A (zh) 一种基于ernie_cn-gru语步自动识别方法、系统、设备及介质
Yagfarov et al. Traffic sign classification using embedding learning approach for self-driving cars
CN115098681A (zh) 一种基于有监督对比学习的开放服务意图检测方法
Thakur et al. Offline handwritten mathematical recognition using adversarial learning and transformers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant