CN117952112A - 工单要素提取方法及装置 - Google Patents
工单要素提取方法及装置 Download PDFInfo
- Publication number
- CN117952112A CN117952112A CN202211287455.7A CN202211287455A CN117952112A CN 117952112 A CN117952112 A CN 117952112A CN 202211287455 A CN202211287455 A CN 202211287455A CN 117952112 A CN117952112 A CN 117952112A
- Authority
- CN
- China
- Prior art keywords
- character
- work order
- name
- matched
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 111
- 238000000034 method Methods 0.000 claims abstract description 66
- 238000012545 processing Methods 0.000 claims abstract description 50
- 238000003860 storage Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 9
- 238000005304 joining Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 18
- 239000003795 chemical substances by application Substances 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- BASFCYQUMIYNBI-UHFFFAOYSA-N platinum Chemical compound [Pt] BASFCYQUMIYNBI-UHFFFAOYSA-N 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 229910052697 platinum Inorganic materials 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 241000590419 Polygonia interrogationis Species 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 101100421536 Danio rerio sim1a gene Proteins 0.000 description 1
- 101100495431 Schizosaccharomyces pombe (strain 972 / ATCC 24843) cnp1 gene Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种工单要素提取方法及装置,所述方法包括:根据预设的符号集,对第一工单文本进行符号去除处理,得到第二工单文本;根据预设的统计字典,从所述第二工单文本中提取候选名称,得到候选名称集合;从所述候选名称集合中,选取目标名称,所述目标名称为所述候选名称集合中与所述统计字典中的第二标准名称的语义相似度最高的候选名称;将所述统计字典中与所述目标名称对应的第一标准名称,确定为从所述第一工单文本中提取出的工单要素。本申请的实施例能够提高工单要素提取的准确率。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种工单要素提取方法及装置。
背景技术
客服中心的坐席每天接听大量用户的电话,并在坐席工作台上进行处理。通常情况下,坐席与用户通话结束后,会根据通话内容填写工单要素,工作重复性高、劳动强度大。因此,需要对工单要素实现智能填写,以优化坐席填写工单的时长。
在智能填写工单要素时,需要从坐席与用户的通话内容中提取工单要素。相关技术中,进行工单要素提取时,通常首先通过语音识别(automatic speech recognition,ASR)技术将坐席与用户的通话内容转写为工单文本,然后基于实体识别模型对工单文本进行工单要素提取。然而,由于通过语音识别ASR技术得到的工单文本通常存在噪声干扰(例如存在错别字、标点符号位置不正确等),基于实体识别模型对工单文本进行工单要素提取时,其准确率并不高。
发明内容
有鉴于此,提出了一种工单要素提取方法及装置。
第一方面,本申请的实施例提供了一种工单要素提取方法,所述方法包括:根据预设的符号集,对第一工单文本进行符号去除处理,得到第二工单文本;根据预设的统计字典,从所述第二工单文本中提取候选名称,得到候选名称集合,所述统计字典包括多个第一标准名称以及各所述第一标准名称对应的第二标准名称,所述第二标准名称是指对第一标准名称进行符号去除处理后得到的名称;从所述候选名称集合中,选取目标名称,所述目标名称为所述候选名称集合中与所述统计字典中的第二标准名称的语义相似度最高的候选名称;将所述统计字典中与所述目标名称对应的第一标准名称,确定为从所述第一工单文本中提取出的工单要素。
本申请的实施例,能够根据预设的符号集,对第一工单文本进行符号去除处理,得到第二工单文本,然后根据预设的统计字典,从第二工单文本中提取候选名称,得到候选名称集合,之后从候选名称集合中,选取目标名称,该目标名称为候选名称集合中与统计字典中的第二标准名称的语义相似度最高的候选名称,将统计字典中与目标名称对应的第一标准名称,确定为从第一工单文本中提取出的工单要素。通过这种方式,能够基于统计字典及语义相似度,从第一工单文本中提取工单要素,从而能够降低工单文本中的噪声干扰对工单要素提取过程的影响,提高工单要素提取的准确率。
根据第一方面,在所述工单要素提取方法的第一种可能的实现方式中,所述统计字典还包括多个首字符、与各首字符对应的最大长度,所述根据预设的统计字典,从所述第二工单文本中提取候选名称,得到候选名称集合,包括:所述统计字典还包括多个首字符、与各首字符对应的最大长度,所述根据预设的统计字典,从所述第二工单文本中提取候选名称,得到候选名称集合,包括:将所述第二工单文本的第1个字符作为待匹配字符;判断所述待匹配字符是否为所述统计字典中的首字符;在所述待匹配字符为所述统计字典中的首字符的情况下,将所述待匹配字符作为起点,将所述统计字典中与所述待匹配字符对应的最大长度加1作为截取长度,从所述第二工单文本中截取第一字符串;判断所述第一字符串是否满足预设的语义相似度条件;在所述第一字符串满足所述语义相似度条件的情况下,将所述第一字符串作为候选名称,加入所述候选名称集合;将所述第二工单文本中所述第一字符串之后的第1个字符作为新的待匹配字符,并从下述步骤开始重新执行:判断所述待匹配字符是否为所述统计字典中的首字符。
在本实施例中,根据预设的统计字典,从第二工单文本中提取候选名称时,能够首先将第二工单文本的第1个字符作为待匹配字符,并判断待匹配字符是否为统计字典中的首字符;在待匹配字符为统计字典中的首字符的情况下,将待匹配字符作为起点,将统计字典中与待匹配字符对应的最大长度加1作为截取长度,从第二工单文本中截取第一字符串;然后判断第一字符串是否满足语义相似度条件;在第一字符串满足语义相似度条件的情况下,将第一字符串作为候选名称,加入候选名称集合,并将第二工单文本中第一字符串之后的第1个字符作为新的待匹配字符,并从步骤“判断待匹配字符是否为统计字典中的首字符”开始重新执行。通过这种方式,能够基于根据待匹配字符及统计字典确定的动态步长滑动窗口、预设的语义相似度条件,从第二工单文本中提取候选名称,得到候选名称集合,从而能够降低工单文本中的噪声干扰对候选名称提取的影响,进而提高工单要素提取的准确率。
根据第一方面的第一种可能的实现方式,在所述工单要素提取方法的第二种可能的实现方式中,所述判断所述第一字符串是否满足预设的语义相似度条件,包括:分别确定所述第一字符串与各第二标准名称之间的第一语义相似度;将与所述第一语义相似度中的最大值对应的第二标准名称,确定为第三标准名称;在所述第一语义相似度中的最大值与第二语义相似度的差值小于或等于预设的相似度阈值的情况下,确定所述第一字符串满足预设的语义相似度条件,所述第二语义相似度为所述第三标准名称与对应的第一标准名称之间的语义相似度。
在本实施例中,判断第一字符串是否满足预设的语义相似度条件时,能够分别确定第一字符串与各第二标准名称之间的第一语义相似度,将与第一语义相似度中的最大值对应的第二标准名称,确定为第三标准名称,并在第一语义相似度中的最大值与第二语义相似度(第三标准名称与对应的第一标准名称之间的语义相似度)的差值小于或等于预设的相似度阈值的情况下,确定第一字符串满足预设的语义相似度条件,从而能够确定出满足语义相似度条件的第一字符串,进而提高候选名称提取的准确率。
根据第一方面的第一种可能的实现方式,在所述工单要素提取方法的第三种可能的实现方式中,所述统计字典还包括与各首字符对应的最小长度,所述根据预设的统计字典,从所述第二工单文本中提取候选名称,得到候选名称集合,还包括:在所述待匹配字符不是所述统计字典中的首字符的情况下,或者,在所述第一字符串不满足所述语义相似度条件的情况下,在所述第二工单文本中,确定第一位置,所述第一位置为所述待匹配字符之后且距离所述待匹配字符第一长度的位置,所述第一长度为所述统计字典中与各首字符对应的最小长度中的最小值;将所述第一位置的字符,作为新的待匹配字符,并从下述步骤开始重新执行:判断所述待匹配字符是否为所述统计字典中的首字符。
在本实施例中,从第二工单文本中提取候选名称时,在待匹配字符不是统计字典中的首字符或者在第一字符串不满足语义相似度条件的情况下,能够在第二工单文本中,确定第一位置,并将第一位置的字符,作为新的待匹配字符,并从步骤“判断待匹配字符是否为统计字典中的首字符”开始重新执行。通过这种方式,能够基于根据待匹配字符及统计字典确定的动态步长滑动窗口、预设的语义相似度条件,从第二工单文本中提取候选名称,得到候选名称集合,从而能够降低工单文本中的噪声干扰对候选名称提取的影响,进而提高工单要素提取的准确率。
根据第一方面的第一种可能的实现方式,在所述工单要素提取方法的第四种可能的实现方式中,所述统计字典还包括多个第2字符、与各第2字符对应的最大长度,所述根据预设的统计字典,从所述第二工单文本中提取候选名称,得到候选名称集合,还包括:在所述待匹配字符不是所述统计字典中的首字符的情况下,或者,在所述第一字符串不满足所述语义相似度条件的情况下,判断所述待匹配字符是否为所述统计字典中的第2字符;在所述待匹配字符为所述统计字典中的第2字符的情况下,将所述待匹配字符作为起点,将所述统计字典中与所述待匹配字符对应的最大长度加1作为截取长度,从所述第二工单文本中截取第二字符串;判断所述第二字符串是否满足所述语义相似度条件;在所述第二字符串满足所述语义相似度条件的情况下,将所述第二字符串作为候选名称,加入所述候选名称集合;将所述第二工单文本中所述第二字符串之后的第1个字符作为新的待匹配字符,并从下述步骤开始重新执行:判断所述待匹配字符是否为所述统计字典中的首字符。
在本实施例中,从第二工单文本中提取候选名称时,在待匹配字符不是统计字典中的首字符的情况下,能够判断待匹配字符是否为统计字典中的第2字符;在待匹配字符为统计字典中的第2字符的情况下,将待匹配字符作为起点,将统计字典中与待匹配字符(作为第2字符)对应的最大长度加1作为截取长度,从第二工单文本中截取第二字符串,并判断第二字符串是否满足语义相似度条件;在第二字符串满足语义相似度条件的情况下,将第二字符串作为候选名称,加入候选名称集合,并将第二工单文本中第二字符串之后的第1个字符作为新的待匹配字符,并从步骤“判断待匹配字符是否为统计字典中的首字符”开始重新执行。通过这种方式,能够进一步降低工单文本中的噪声干扰(尤其是工单文本中的转写错别字、多字少字)对候选名称提取的影响,从而提高工单要素提取的准确率。
根据第一方面或第一方面的第一种可能的实现方式至第一方面的第四种可能的实现方式中的任意一种,在所述工单要素提取方法的第五种可能的实现方式中,所述方法还包括:根据多个第一标准名称,建立统计字典。
在本实施例中,能够根据多个第一标准名称,建立统计字典,以便基于统计字典进行工单要素提取,进而提高工单要素提取的准确率。
根据第一方面的第五种可能的实现方式,在所述工单要素提取方法的第六种可能的实现方式中,所述根据多个第一标准名称,建立统计字典,包括:根据预设的符号集,对各第一标准名称进行符号去除处理,得到对应的第二标准名称;根据各所述第二标准名称的首字符,对各所述第二标准名称进行分类,得到与各首字符对应的第二标准名称;确定与各首字符对应的最大长度及最小长度;根据各第一标准名称、各首字符、与各首字符对应的第二标准名称、与各首字符对应的最大长度及最小长度,建立统计字典。
在本实施例中,能够建立包括各第一标准名称、各首字符、与各首字符对应的第二标准名称、与各首字符对应的最大长度及最小长度的统计字典,基于该统计字典进行工单要素提取,能够提高工单要素提取的准确率。
根据第一方面的第五种可能的实现方式或第一方面的第六种可能的实现方式,在所述工单要素提取方法的第七种可能的实现方式中,所述根据多个第一标准名称,建立统计字典,还包括:根据各所述第二标准名称的第2字符,对各所述第二标准名称进行分类,得到与各第2字符对应的第二标准名称;确定与各第2字符对应的最大长度及最小长度;将各第2字符、与各第2字符对应的第二标准名称、与各第2字符对应的最大长度及最小长度,加入所述统计字典。
在本实施例中,能够根据各第二标准名称的第2字符,对各第二标准名称进行分类,得到与各第2字符对应的第二标准名称,并确定与各第2字符对应的最大长度及最小长度,然后将各第2字符、与各第2字符对应的第二标准名称、与各第2字符对应的最大长度及最小长度,加入统计字典,从而能够将第2字符相关的信息加入统计字典,使得统计字典包括的信息更为丰富,以提高基于该统计字典进行工单要素提取时的准确率。
第二方面,本申请的实施例提供了一种工单要素提取装置,所述装置包括:符号去除模块,用于根据预设的符号集,对第一工单文本进行符号去除处理,得到第二工单文本;候选名称提取模块,用于根据预设的统计字典,从所述第二工单文本中提取候选名称,得到候选名称集合,所述统计字典包括多个第一标准名称以及各所述第一标准名称对应的第二标准名称,所述第二标准名称是指对第一标准名称进行符号去除处理后得到的名称;目标名称选取模块,用于从所述候选名称集合中,选取目标名称,所述目标名称为所述候选名称集合中与所述统计字典中的第二标准名称的语义相似度最高的候选名称;工单要素确定模块,用于将所述统计字典中与所述目标名称对应的第一标准名称,确定为从所述第一工单文本中提取出的工单要素。
本申请的实施例,能够根据预设的符号集,对第一工单文本进行符号去除处理,得到第二工单文本,然后根据预设的统计字典,从第二工单文本中提取候选名称,得到候选名称集合,之后从候选名称集合中,选取目标名称,该目标名称为候选名称集合中与统计字典中的第二标准名称的语义相似度最高的候选名称,将统计字典中与目标名称对应的第一标准名称,确定为从第一工单文本中提取出的工单要素。通过这种方式,能够基于统计字典及语义相似度,从第一工单文本中提取工单要素,从而能够降低工单文本中的噪声干扰对工单要素提取过程的影响,提高工单要素提取的准确率。
根据第二方面,在所述工单要素提取装置的第一种可能的实现方式中,所述统计字典还包括多个首字符、与各首字符对应的最大长度,所述候选名称提取模块,包括:第一待匹配字符确定子模块,用于将所述第二工单文本的第1个字符作为待匹配字符;第一判断子模块,用于判断所述待匹配字符是否为所述统计字典中的首字符;第一字符串截取子模块,用于在所述待匹配字符为所述统计字典中的首字符的情况下,将所述待匹配字符作为起点,将所述统计字典中与所述待匹配字符对应的最大长度加1作为截取长度,从所述第二工单文本中截取第一字符串;第二判断子模块,用于判断所述第一字符串是否满足预设的语义相似度条件;第一加入集合子模块,用于在所述第一字符串满足所述语义相似度条件的情况下,将所述第一字符串作为候选名称,加入所述候选名称集合;第二待匹配字符确定子模块,用于将所述第二工单文本中所述第一字符串之后的第1个字符作为新的待匹配字符,并从下述步骤开始重新执行:判断所述待匹配字符是否为所述统计字典中的首字符。
在本实施例中,根据预设的统计字典,从第二工单文本中提取候选名称时,能够首先将第二工单文本的第1个字符作为待匹配字符,并判断待匹配字符是否为统计字典中的首字符;在待匹配字符为统计字典中的首字符的情况下,将待匹配字符作为起点,将统计字典中与待匹配字符对应的最大长度加1作为截取长度,从第二工单文本中截取第一字符串;然后判断第一字符串是否满足语义相似度条件;在第一字符串满足语义相似度条件的情况下,将第一字符串作为候选名称,加入候选名称集合,并将第二工单文本中第一字符串之后的第1个字符作为新的待匹配字符,并从步骤“判断待匹配字符是否为统计字典中的首字符”开始重新执行。通过这种方式,能够基于根据待匹配字符及统计字典确定的动态步长滑动窗口、预设的语义相似度条件,从第二工单文本中提取候选名称,得到候选名称集合,从而能够降低工单文本中的噪声干扰对候选名称提取的影响,进而提高工单要素提取的准确率。
根据第二方面的第一种可能的实现方式,在所述工单要素提取装置的第二种可能的实现方式中,所述第二判断子模块,用于:分别确定所述第一字符串与各第二标准名称之间的第一语义相似度;将与所述第一语义相似度中的最大值对应的第二标准名称,确定为第三标准名称;在所述第一语义相似度中的最大值与第二语义相似度的差值小于或等于预设的相似度阈值的情况下,确定所述第一字符串满足预设的语义相似度条件,所述第二语义相似度为所述第三标准名称与对应的第一标准名称之间的语义相似度。
在本实施例中,判断第一字符串是否满足预设的语义相似度条件时,能够分别确定第一字符串与各第二标准名称之间的第一语义相似度,将与第一语义相似度中的最大值对应的第二标准名称,确定为第三标准名称,并在第一语义相似度中的最大值与第二语义相似度(第三标准名称与对应的第一标准名称之间的语义相似度)的差值小于或等于预设的相似度阈值的情况下,确定第一字符串满足预设的语义相似度条件,从而能够确定出满足语义相似度条件的第一字符串,进而提高候选名称提取的准确率。
根据第二方面的第一种可能的实现方式,在所述工单要素提取装置的第三种可能的实现方式中,所述统计字典还包括与各首字符对应的最小长度,所述候选名称提取模块,还包括:位置确定子模块,用于在所述待匹配字符不是所述统计字典中的首字符的情况下,或者,在所述第一字符串不满足所述语义相似度条件的情况下,在所述第二工单文本中,确定第一位置,所述第一位置为所述待匹配字符之后且距离所述待匹配字符第一长度的位置,所述第一长度为所述统计字典中与各首字符对应的最小长度中的最小值;第三待匹配字符确定子模块,用于将所述第一位置的字符,作为新的待匹配字符,并从下述步骤开始重新执行:判断所述待匹配字符是否为所述统计字典中的首字符。
在本实施例中,从第二工单文本中提取候选名称时,在待匹配字符不是统计字典中的首字符或者在第一字符串不满足语义相似度条件的情况下,能够在第二工单文本中,确定第一位置,并将第一位置的字符,作为新的待匹配字符,并从步骤“判断待匹配字符是否为统计字典中的首字符”开始重新执行。通过这种方式,能够基于根据待匹配字符及统计字典确定的动态步长滑动窗口、预设的语义相似度条件,从第二工单文本中提取候选名称,得到候选名称集合,从而能够降低工单文本中的噪声干扰对候选名称提取的影响,进而提高工单要素提取的准确率。
根据第二方面的第一种可能的实现方式,在所述工单要素提取装置的第四种可能的实现方式中,所述统计字典还包括多个第2字符、与各第2字符对应的最大长度,所述候选名称提取模块,还包括:第三判断子模块,用于在所述待匹配字符不是所述统计字典中的首字符的情况下,或者,在所述第一字符串不满足所述语义相似度条件的情况下,判断所述待匹配字符是否为所述统计字典中的第2字符;第二字符串截取子模块,用于在所述待匹配字符为所述统计字典中的第2字符的情况下,将所述待匹配字符作为起点,将所述统计字典中与所述待匹配字符对应的最大长度加1作为截取长度,从所述第二工单文本中截取第二字符串;第四判断子模块,用于判断所述第二字符串是否满足所述语义相似度条件;第二加入集合子模块,用于在所述第二字符串满足所述语义相似度条件的情况下,将所述第二字符串作为候选名称,加入所述候选名称集合;第四待匹配字符确定子模块,用于将所述第二工单文本中所述第二字符串之后的第1个字符作为新的待匹配字符,并从下述步骤开始重新执行:判断所述待匹配字符是否为所述统计字典中的首字符。
在本实施例中,从第二工单文本中提取候选名称时,在待匹配字符不是统计字典中的首字符的情况下,能够判断待匹配字符是否为统计字典中的第2字符;在待匹配字符为统计字典中的第2字符的情况下,将待匹配字符作为起点,将统计字典中与待匹配字符(作为第2字符)对应的最大长度加1作为截取长度,从第二工单文本中截取第二字符串,并判断第二字符串是否满足语义相似度条件;在第二字符串满足语义相似度条件的情况下,将第二字符串作为候选名称,加入候选名称集合,并将第二工单文本中第二字符串之后的第1个字符作为新的待匹配字符,并从步骤“判断待匹配字符是否为统计字典中的首字符”开始重新执行。通过这种方式,能够进一步降低工单文本中的噪声干扰(尤其是工单文本中的转写错别字、多字少字)对候选名称提取的影响,从而提高工单要素提取的准确率。
根据第二方面或第二方面的第一种可能的实现方式至第一方面的第四种可能的实现方式中的任意一种,在所述工单要素提取装置的第五种可能的实现方式中,所述装置还包括:统计字典建立模块,用于根据多个第一标准名称,建立统计字典。
在本实施例中,能够根据多个第一标准名称,建立统计字典,以便基于统计字典进行工单要素提取,进而提高工单要素提取的准确率。
根据第二方面的第五种可能的实现方式,在所述工单要素提取装置的第六种可能的实现方式中,所述统计字典建立模块,包括:符号去除子模块,用于根据预设的符号集,对各第一标准名称进行符号去除处理,得到对应的第二标准名称;第一分类子模块,用于根据各所述第二标准名称的首字符,对各所述第二标准名称进行分类,得到与各首字符对应的第二标准名称;第一对应长度确定子模块,用于确定与各首字符对应的最大长度及最小长度;建立子模块,用于根据各第一标准名称、各首字符、与各首字符对应的第二标准名称、与各首字符对应的最大长度及最小长度,建立统计字典。
在本实施例中,能够建立包括各第一标准名称、各首字符、与各首字符对应的第二标准名称、与各首字符对应的最大长度及最小长度的统计字典,基于该统计字典进行工单要素提取,能够提高工单要素提取的准确率。
根据第二方面的第五种可能的实现方式或第二方面的第六种可能的实现方式,在所述工单要素提取装置的第七种可能的实现方式中,所述统计字典建立模块,还包括:第二分类子模块,用于根据各所述第二标准名称的第2字符,对各所述第二标准名称进行分类,得到与各第2字符对应的第二标准名称;第二对应长度确定子模块,用于确定与各第2字符对应的最大长度及最小长度;加入子模块,用于将各第2字符、与各第2字符对应的第二标准名称、与各第2字符对应的最大长度及最小长度,加入所述统计字典。
在本实施例中,能够根据各第二标准名称的第2字符,对各第二标准名称进行分类,得到与各第2字符对应的第二标准名称,并确定与各第2字符对应的最大长度及最小长度,然后将各第2字符、与各第2字符对应的第二标准名称、与各第2字符对应的最大长度及最小长度,加入统计字典,从而能够将第2字符相关的信息加入统计字典,使得统计字典包括的信息更为丰富,以提高基于该统计字典进行工单要素提取时的准确率。
第三方面,本申请的实施例提供了一种工单要素提取装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令时实现上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的工单要素提取方法。
第四方面,本申请的实施例提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的工单要素提取方法。
第五方面,本申请的实施例提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的工单要素提取方法。
本申请的这些和其他方面在以下(多个)实施例的描述中会更加简明易懂。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面,并且用于解释本申请的原理。
图1示出根据本申请一实施例的工单要素提取方法的应用场景的示意图。
图2示出根据本申请一实施例的坐席操作台的示意图。
图3示出根据本申请一实施例的工单要素提取方法的流程图。
图4示出根据本申请一实施例的工单要素提取方法的处理过程的示意图。
图5示出根据本申请一实施例的工单要素提取方法的处理过程的示意图。
图6示出根据本申请一实施例的工单要素提取装置的框图。
具体实施方式
以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
工单要素的提取通常基于实体识别模型。在使用实体识别模型之前,需基于具体场景的已包含标注数据的工单文本,对实体识别模型进行训练,得到已训练的实体识别模型。在进行工单要素提取时,可首先通过语音识别ASR技术将坐席与用户的通话内容转写为工单文本,然后将该工单文本输入已训练的实体识别模型,通过已训练的实体识别模型对该工单文本进行实体识别,得到实体预测结果,再根据实体预测结果的概率值,确定工单要素。
然而,该方式中,实体识别模型的训练依赖于标注数据,而目前没有开源的包含标注数据的数据集可供使用,现有的历史工单文本也缺乏标注数据,需要人工标注,工作量巨大;而且,通过语音识别ASR技术得到的工单文本通常存在噪声干扰,例如存在错别字、标点符号位置不正确等噪声,这会影响实体识别模型的实体识别准确率,进而导致工单要素提取的准确率不高。
为了解决上述技术问题,本申请提供了一种工单要素提取方法,所述方法包括:根据预设的符号集,对第一工单文本进行符号去除处理,得到第二工单文本;根据预设的统计字典,从所述第二工单文本中提取候选名称,得到候选名称集合,所述统计字典包括多个第一标准名称以及各所述第一标准名称对应的第二标准名称,所述第二标准名称是指对第一标准名称进行符号去除处理后得到的名称;从所述候选名称集合中,选取目标名称,所述目标名称为所述候选名称集合中与所述统计字典中的第二标准名称的语义相似度最高的候选名称;将所述统计字典中与所述目标名称对应的第一标准名称,确定为从所述第一工单文本中提取出的工单要素。
本申请实施例的工单要素提取方法,能够根据预设的符号集,对第一工单文本进行符号去除处理,得到第二工单文本,然后根据预设的统计字典,从第二工单文本中提取候选名称,得到候选名称集合,之后从候选名称集合中,选取目标名称,该目标名称为候选名称集合中与统计字典中的第二标准名称的语义相似度最高的候选名称,将统计字典中与目标名称对应的第一标准名称,确定为从第一工单文本中提取出的工单要素。通过这种方式,能够基于统计字典及语义相似度,从第一工单文本中提取工单要素,从而能够降低工单文本中的噪声干扰对工单要素提取过程的影响,提高工单要素提取的准确率。
此外,本申请实施例的工单要素提取方法,无需基于实体识别模型,也就无需对历史工单文本进行人工标注以用于实体识别模型的训练,从而能够避免人工标注带来的巨大工作量。
本申请实施例的工单要素提取方法可应用电子设备。该电子设备可以是服务器、终端设备等,其中,终端设备可以是个人计算机、上网本、平板电脑、笔记本电脑等。本申请对电子设备的具体类型不作限制。
本申请实施例的工单要素提取方法可应用于智能客服的工单要素预填场景。在智能客服的工单要素预填场景中,在坐席与用户通话过程中或者在坐席与用户通话结束后,可通过语音识别ASR技术将坐席与用户的通话内容转写为工单文本,然后使用本申请实施例的工单要素提取方法从工单文本中提取工单要素,预填至工单的预设位置。
图1示出根据本申请一实施例的工单要素提取方法的应用场景的示意图。如图1所示,本申请实施例的工单要素提取方法应用于智能客服的工单要素预填场景100。在智能客服的工单要素预填场景100中,用户110通过交互式语音应答引擎(interactive voiceresponse,IVR)120与坐席140建立通话连接,其中,交互式语音应答引擎120用于根据预定义流程进行语音呼叫;建立通话连接后,用户110可与坐席140进行通话,通话过程中,可通过语音识别引擎/语音合成引擎130进行相关处理,其中,语音识别ASR引擎用于将用户110的语音转写为文本在坐席操作台展示,语音合成(text to speech,TTS)引擎用于将坐席140的话术合成语音并播放给用户110。
用户110与坐席140通话结束后,工单要素提取引擎150通过本申请实施例的工单要素提取方法,从通话内容对应的工单文本中,提取出工单要素,并预填至工单160的预设位置。
图2示出根据本申请一实施例的坐席操作台的示意图。如图2所示,坐席操作台包括两个窗口,分别为左侧窗口210及右侧窗口220。
左侧窗口210用于实时显示坐席与用户之间的通话内容转写的文本,即工单文本,可基于图1中的语音识别引擎/语音合成引擎130实现。右侧窗口220用于显示工单,通话结束后,可从左侧窗口210的工单文本中提取活动名称,预填至工单中的“活动名称”处,可基于图1中的工单要素提取引擎150实现。
图2中的工单除了包括从工单文本中提取的工单要素(即活动名称)外,还可包括工单流水号、受理时间等其他信息,本申请对工单包括的具体内容不作限制。
以上仅以图2中的活动名称作为工单要素,对本申请实施例的工单要素提取方法的应用场景进行了示例性地说明,提取其他工单要素时的场景与此类似,这里不再赘述。本申请对工单要素的具体内容不作限制。
除了上述应用场景外,本申请实施例的工单要素提取方法还可应用于其他类似场景。例如,本申请实施例的工单要素提取方法还可应用于从长文本中提取与标准名称集中最相关的文本字符串(例如子句或字符串)的场景。本申请对工单要素提取方法的具体应用场景不作限制。
在一种可能的实现方式中,在使用本申请实施例的工单要素提取方法进行工单要素提取之前,需根据多个第一标准名称,建立统计字典。其中,第一标准名称可以是服务提供商提供的服务的原始标准名称。第一标准名称与应用场景相关。举例来说,假设应用场景为通信运营商的智能客服的工单要素预填场景,在该应用场景中,第一标准名称可以为通信运营商提供的业务活动的原始标准名称,第一标准名称可例如是:30元5G大流量包、咪咕视频尊享包(前两个月1元)、充值50元享50元消费红包优惠(承诺在网6个月)、动感地带5G通行证-30元、花卡专享网易云音乐定向流量权益包、花卡专享新浪微博定向流量权益包等。本领域技术人员可根据具体的应用场景来确定第一标准名称的具体内容,本申请对此不作限制。
在一种可能的实现方式中,根据多个第一标准名称,建立统计字典时,可首先根据预设的符号集,对各第一标准名称进行符号去除处理,得到对应的第二标准名称。也就是说,第二标准名称是指对第一标准名称进行符号去除处理后得到的名称,第二标准名称与第一标准名称一一对应。
其中,预设的符号集可包括需去除的多个标点符号。例如,预设的符号集可包括括号、双引号、单引号、问号、顿号、连字符、逗号、句号等标点符号。在实际应用中,本领域技术人员可根据实际情况设置符号集中包括的具体标点符号,例如,可将对工单要素提取没有意义的标点符号均加入符号集,本申请对符号集中包括的具体符号不作限制。
举例来说,假设符号集包括括号、双引号、单引号、连字符、逗号、句号,第一标准名称为咪咕视频尊享包(前两个月1元),根据符号集,对该第一标准名称进行符号去除处理后,得到的第二标准名称为咪咕视频尊享包前两个月1元。
在得到与各第一标准名称对应的第二标准名称后,可根据各第二标准名称的首字符,对各第二标准名称进行分类,得到与各首字符对应的第二标准名称。这里的首字符是指第二标准名称中的第一个字符。例如,第二标准名称为咪咕视频尊享包前两个月1元,其首字符为“咪”。再例如,第二标准名称为动感地带5G通行证30元,其首字符为“动”。
举例来说,假设各第二标准名称分别为:咪咕视频尊享包前两个月1元、咪咕视频尊享包、充值50元享50元消费红包优惠承诺在网6个月、动感地带5G通行证202030元首月1元版、动感地带通行证30元、充值100元享100元消费红包优惠承诺在网6个月、花卡专享网易云音乐定向流量权益包、花卡专享新浪微博定向流量权益包、花卡语音体验包80分钟24个月、动感地带5G通行证202030元、咪咕音乐白金会员生活、充值50元享受每月赠送15元任我换权益券6个月、咪咕视频首次月1元会员体育专享包、充值送20元月租减免优惠。
可根据首字符,对各第二标准名称进行分类:
与首字符“咪”对应的第二标准名称为:咪咕视频尊享包前两个月1元、咪咕视频尊享包、咪咕音乐白金会员生活、咪咕视频首次月1元会员体育专享包;
与首字符“充”对应的第二标准名称为:充值50元享50元消费红包优惠承诺在网6个月、充值100元享100元消费红包优惠承诺在网6个月、充值50元享受每月赠送15元任我换权益券6个月、充值送20元月租减免优惠;
与首字符“动”对应的第二标准名称为:动感地带5G通行证202030元首月1元版、动感地带通行证30元、动感地带5G通行证202030元;
与首字符“花”对应的第二标准名称为:花卡专享网易云音乐定向流量权益包、花卡专享新浪微博定向流量权益包、花卡语音体验包80分钟24个月。
在得到与各首字符对应的第二标准名称后,可确定与各首字符对应的最大长度及最小长度。其中,与首字符对应的最大长度是指与首字符对应的第二标准名称中首字符之后的字符串的长度的最大值,与首字符对应的最小长度是指与首字符对应的第二标准名称中首字符之后的字符串的长度的最小值。
例如,上述与首字符“咪”对应第二标准名称中,“咪”之后的字符串的长度分别为12、6、9、15,最大值为15,最小值为6,可确定出与首字符“咪”对应的最大长度为15,最小长度为6;通过类似的方式,可确定出与首字符“充”对应的最大长度为23,最小长度为11;与首字符“动”对应的最大长度为20,最小长度为9;与首字符“花”对应的最大长度为15,最小长度为14。
这里计算长度时,是将数值中的每一位看作一个字符,例如,将数值100看作三个字符。在实际应用中,也可将一个数值看作一个字符,例如,将数值100看作一个字符,本领域技术人员可根据实际情况进行设置,本申请对此不作限制。
然后可根据各第一标准名称、各首字符、与各首字符对应的第二标准名称、与各首字符对应的最大长度及最小长度,建立统计字典。下面的表1示例性地示出了统计字典的一种表示方法。
表1统计字典示意
通过这种方式,能够建立包括各第一标准名称、各首字符、与各首字符对应的第二标准名称、与各首字符对应的最大长度及最小长度的统计字典,基于该统计字典进行工单要素提取,能够提高工单要素提取的准确率。
在一种可能的实现方式中,还可根据各第二标准名称的第2字符,对各第二标准名称进行分类,得到与各第2字符对应的第二标准名称。其中,这里的第2字符是指第二标准名称中的第2个字符。例如,第二标准名称为咪咕视频尊享包前两个月1元,其第2字符为“咕”。再例如,第二标准名称为动感地带5G通行证30元,其第2字符为“感”。
举例来说,假设各第二标准名称分别为:咪咕视频尊享包前两个月1元、咪咕视频尊享包、充值50元享50元消费红包优惠承诺在网6个月、动感地带5G通行证202030元首月1元版、动感地带通行证30元、充值100元享100元消费红包优惠承诺在网6个月、花卡专享网易云音乐定向流量权益包、花卡专享新浪微博定向流量权益包、花卡语音体验包80分钟24个月、动感地带5G通行证202030元、咪咕音乐白金会员生活、充值50元享受每月赠送15元任我换权益券6个月、咪咕视频首次月1元会员体育专享包、充值送20元月租减免优惠。
可根据第2字符,对各第二标准名称进行分类:
与第2字符“咕”对应的第二标准名称为:咪咕视频尊享包前两个月1元、咪咕视频尊享包、咪咕音乐白金会员生活、咪咕视频首次月1元会员体育专享包;
与第2字符“值”对应的第二标准名称为:充值50元享50元消费红包优惠承诺在网6个月、充值100元享100元消费红包优惠承诺在网6个月、充值50元享受每月赠送15元任我换权益券6个月、充值送20元月租减免优惠;
与第2字符“感”对应的第二标准名称为:动感地带5G通行证202030元首月1元版、动感地带通行证30元、动感地带5G通行证202030元;
与第2字符“卡”对应的第二标准名称为:花卡专享网易云音乐定向流量权益包、花卡专享新浪微博定向流量权益包、花卡语音体验包80分钟24个月。
在得到与第2字符对应的第二标准名称后,可确定与各第2字符对应的最大长度及最小长度。其中,与第2字符对应的最大长度是指与第2字符对应的第二标准名称中第2字符之后的字符串的长度的最大值,与第2字符对应的最小长度是指与第2字符对应的第二标准名称中第2字符之后的字符串的长度的最小值。
例如,上述与第2字符“咕”对应第二标准名称中,“咕”之后的字符串的长度分别为11、5、8、14,最大值为14,最小值为5,可确定出与第2字符“咕”对应的最大长度为14,最小长度为4;通过类似的方式,可确定出与第2字符“值”对应的最大长度为22,最小长度为10;与第2字符“感”对应的最大长度为19,最小长度为8;与第2字符“卡”对应的最大长度为14,最小长度为15。这里计算长度时,是将数值中的每一位看作一个字符,例如,将数值100看作三个字符。
然后将各第2字符、与各第2字符对应的第二标准名称、与各第2字符对应的最大长度及最小长度,加入统计字典。通过这种方式,能够将第2字符相关的信息加入统计字典,使得统计字典包括的信息更为丰富,从而提高基于该统计字典进行工单要素提取时的准确率。
在一种可能的实现方式中,还可通过与上述第2字符类似的方式,根据各第二标准名称的第3字符,对各第二标准名称进行分类,得到与各第3字符对应的第二标准名称,并确定与各第3字符对应的最大长度及最小长度,然后将各第3字符、与各第3字符对应的第二标准名称、与各第3字符对应的最大长度及最小长度,加入统计字典。通过这种方式,能够将第3字符相关的信息加入统计字典,使得统计字典包括的信息更为丰富,从而提高基于该统计字典进行工单要素提取时的准确率。
在实际应用中,本领域技术人员可根据工单要素提取时的计算开销及延时要求等信息,确定统计字典中是否包括第2字符、第3字符或更多字符的相关信息,本申请对此不作具体限制。
在一种可能的实现方式中,还可通过相似度算法,例如通过无监督的句相似度算法,分别确定各第二标准名称与对应的第一标准名称之间的第二语义相似度,并将第二语义相似度加入统计字典,从而能够在工单要素提取过程中直接使用第二语义相似度,以提高工单要素提取的效率。
图3示出根据本申请一实施例的工单要素提取方法的流程图。如图3所示,该工单要素提取方法包括:
步骤S310,根据预设的符号集,对第一工单文本进行符号去除处理,得到第二工单文本。
第一工单文本是指通过语音识别ASR技术对坐席与用户之间的通话内容进行转写后得到的文本。第一工单文本可包括文字、标点符号等内容。得到第一工单文本后,可根据预设的符号集,对第一工单文本进行符号去除处理,得到第二工单文本。
其中,预设的符号集可包括需去除的多个标点符号。例如,预设的符号集可包括括号、双引号、单引号、问号、顿号、连字符、逗号、句号等标点符号。在实际应用中,本领域技术人员可根据实际情况设置符号集中包括的具体标点符号,例如,可将对工单要素提取没有意义的标点符号均加入符号集,本申请对符号集中包括的具体符号不作限制。
步骤S320,根据预设的统计字典,从所述第二工单文本中提取候选名称,得到候选名称集合。
在一种可能的实现方式中,统计字典可包括多个第一标准名称以及各第一标准名称对应的第二标准名称,其中,第二标准名称是指对第一标准名称进行符号去除处理后得到的名称。第二标准名称与第一标准名称一一对应。统计字典还可包括多个首字符、与各首字符对应的最大长度及最小长度。在一个示例中,统计字典还可包括与各首字符对应的第二标准名称。
在一种可能的实现方式中,根据预设的统计字典,从第二工单文本中提取候选名称时,可依次对第二工单文本中的字符进行匹配,具体过程可示例如下:
可首先将第二工单文本中的第1个字符作为待匹配字符;然后通过查找、比对等方式,判断待匹配字符是否为统计字典中的首字符。在待匹配字符为统计字典中的首字符的情况下,将待匹配字符作为起点,将统计字典中与待匹配字符对应的最大长度加1作为截取长度,从第二工单文本中截取第一字符串。然后判断第一字符串是否满足预设的语义相似度条件。
其中,判断第一字符串是否满足预设的语义相似度条件时,可首先通过相似度算法,例如通过无监督的句相似度算法,分别确定第一字符串与各第二标准名称之间的第一语义相似度。在一个示例中,在统计字典还包括与各首字符对应的第二标准名称的情况下,可将统计字典中与待匹配字符对应的第二标准名称看作第四标准名称,并分别计算第一字符串与各第四标准名称之间的第一语义相似度,从而可以减少计算量,提高处理效率。然后从第一语义相似度中选取最大值,并将与第一语义相似度中的最大值对应的第二标准名称,确定为第三标准名称;之后,计算第一语义相似度中的最大值与第二语义相似度之间的差值,这里的第二语义相似度是指第三标准名称与对应的第一标准名称之间的语义相似度,第二语义相似度可实时计算,也可从统计字典中获取。在第一语义相似度中的最大值与第二语义相似度之间的差值小于或等于预设的相似度阈值的情况下,确定第一字符串满足预设的语义相似度条件;否则,确定第一字符串不满足预设的语义相似度条件。
在一个示例中,可通过下述公式(1)来表示语义相似度条件:
|Sim1-Sim2|≤threshold (1)
公式(1)中,Sim1表示第一语义相似度中的最大值;Sim2表示第二语义相似度,即第三标准名称与对应的第一标准名称之间的语义相似度;threshold表示预设的相似度阈值,其取值例如是0.15。本领域技术人员可根据实际情况确定threshold的具体取值,本申请对此不作限制。
在第一字符串满足预设的语义相似度条件的情况下,可将第一字符串作为候选名称,加入候选名称集合。然后将第二工单文本中第一字符串之后的第1个字符作为新的待匹配字符,并从步骤“判断待匹配字符是否为统计字典中的首字符”开始重新执行。
在待匹配字符不是统计字典中的首字符的情况下,或者,在第一字符串不满足语义相似度条件的情况下,可在第二工单文本中,确定第一位置,该第一位置为待匹配字符之后且距离待匹配字符第一长度的位置,这里的第一长度为统计字典中与各首字符对应的最小长度中的最小值;然后将第一位置的字符,作为新的待匹配字符,并从步骤“判断待匹配字符是否为统计字典中的首字符”开始重新执行。
重复上述处理过程,直到第二工单文本结束,得到最终的候选名称集合。在从第二工单文本中提取候选名称的过程中,使用了动态步长滑动窗口(dynamic step slidingwindow),即根据待匹配字符及统计字典,动态调整滑动窗口的步长大小,具体示例如下:
在待匹配字符为统计字典中的首字符且截取的第一字符串满足语义相似度条件的情况下,新的待匹配字符的位置为:StartIndex′=StartIndex+MaxLen+1,其中,StartIndex表示待匹配字符的位置,StartIndex′表示新的待匹配字符的位置,MaxLen表示统计字典中与待匹配字符对应的最大长度,滑动窗口的步长为MaxLen+1;
在待匹配字符不是统计字典中的首字符的情况下,或者,在第一字符串不满足语义相似度条件的情况下,新的待匹配字符的位置为:StartIndex′=StartIndex+MinLen+1,其中MinLen表示统计字典中各首字符对应的最小长度中的最小值,滑动窗口的步长为MinLen+1。
通过这种方式,能够降低工单文本中的噪声干扰对候选名称提取的影响,例如,能够降低工单文本中的转写错别字、多字少字、标点符号插入不正确导致长短句带来的语义匹配误差等问题对候选名称提取的影响,从而提高工单要素提取的准确率。
在一种可能的实现方式中,统计字典还可包括多个第2字符、与各第2字符对应的最大长度及最小长度。在根据预设的统计字典,从所述第二工单文本中提取候选名称时,在待匹配字符不是统计字典中的首字符的情况下,或者在第一字符串不满足语义相似度条件的情况下,可通过查找、比对等方式,判断待匹配字符是否为统计字典中的第2字符。
在待匹配字符为统计字典中的第2字符的情况下,将待匹配字符作为起点,将统计字典中与待匹配字符(作为第2字符)对应的最大长度加1作为截取长度,从第二工单文本中截取第二字符串;然后判断第二字符串是否满足语义相似度条件,其判断方式与判断第一字符串是否满足语义相似度条件的方式类似,这里不再赘述。
在第二字符串满足所述语义相似度条件的情况下,可将第二字符串作为候选名称,加入候选名称集合。然后将第二工单文本中第二字符串之后的第1个字符作为新的待匹配字符,并从步骤“判断待匹配字符是否为统计字典中的首字符”开始重新执行。
在待匹配字符不是统计字典中的第2字符的情况下,或者,在第二字符串不满足语义相似度条件的情况下,可在第二工单文本中,确定第二位置,该第二位置为待匹配字符之后且距离待匹配字符第二长度的位置,这里的第二长度为统计字典中与各第2字符对应的最小长度中的最小值;然后将第二位置的字符,作为新的待匹配字符,并从步骤“判断待匹配字符是否为统计字典中的首字符”开始重新执行。重复上述处理过程,直到第二工单文本结束,得到最终的候选名称集合。
通过这种方式,能够进一步降低工单文本中的噪声干扰(尤其是工单文本中的转写错别字、多字少字)对候选名称提取的影响,从而提高工单要素提取的准确率。
在一种可能的实现方式中,统计字典还可包括多个第3字符、与各第3字符对应的最大长度及最小长度。在根据预设的统计字典,从所述第二工单文本中提取候选名称时,在待匹配字符不是统计字典中的首字符也不是第2字符的情况下,或者在第二字符串不满足语义相似度条件的情况下,可通过查找、比对等方式,判断待匹配字符是否为统计字典中的第3字符。
在待匹配字符为统计字典中的第3字符的情况下,将待匹配字符作为起点,将统计字典中与待匹配字符(作为第3字符)对应的最大长度加1作为截取长度,从第二工单文本中截取第三字符串;然后判断第三字符串是否满足语义相似度条件,其判断方式与判断第一字符串是否满足语义相似度条件的方式类似,这里不再赘述。
在第三字符串满足所述语义相似度条件的情况下,可将第三字符串作为候选名称,加入候选名称集合。然后将第二工单文本中第三字符串之后的第1个字符作为新的待匹配字符,并从步骤“判断待匹配字符是否为统计字典中的首字符”开始重新执行。
在待匹配字符不是统计字典中的第3字符的情况下,或者,在第三字符串不满足语义相似度条件的情况下,可在第二工单文本中,确定第三位置,该第三位置为待匹配字符之后且距离待匹配字符第三长度的位置,这里的第三长度为统计字典中与各第3字符对应的最小长度中的最小值;然后将第三位置的字符,作为新的待匹配字符,并从步骤“判断待匹配字符是否为统计字典中的首字符”开始重新执行。重复上述处理过程,直到第二工单文本结束,得到最终的候选名称集合。
通过这种方式,能够进一步降低工单文本中的噪声干扰(尤其是工单文本中的转写错别字、多字少字)对候选名称提取的影响,从而提高工单要素提取的准确率。
在实际应用中,本领域技术人员可根据工单要素提取时的计算开销及延时要求等信息,确定提取候选名称时对待匹配字符是否为首字符、第2字符、第3字符或更多字符的判断,例如,只判断首字符,或者判断首字符及第2字符,或者判断首字符、第2字符及第3字符,本申请对此不作具体限制。
步骤S330,从所述候选名称集合中,选取目标名称。
得到候选名称集合后,对于候选名称集合中的任一候选名称,可确定该候选名称与各第二标准名称之间的第一语义相似度,并将该候选名称与各第二标准名称之间的第一语义相似度中的最大值,确定为该候选名称的第三语义相似度;然后确定出第三语义相似度的最大值,并将候选名称集合中与第三语义相似度的最大值对应的候选名称,确定为目标名称。也就是说,目标名称是候选名称集中与统计字典中的第二标准名称的语义相似度最高的候选名称。
举例来说,假设候选名称集合中包括3个候选名称,分别为候选名称1、候选名称2及候选名称3,选取目标名称时,可计算候选名称1与各第二标准名称之间的第一语义相似度,并将候选名称1与各第二标准名称之间的第一语义相似度中的最大值,确定为候选名称1的第三语义相似度(假设为0.98),并通过类似的方式,确定出候选名称2的第三语义相似度(假设为0.92)及候选名称3的第三语义相似度(假设为0.89);然后确定第三语义相似度中的最大值为0.98,之后将候选名称1(即与第三语义相似度的最大值0.98对应的候选名称),确定为目标名称。
步骤S340,将所述统计字典中与所述目标名称对应的第一标准名称,确定为从所述第一工单文本中提取出的工单要素。
确定出目标名称后,可从统计字典中,确定出与目标名称对应的第二标准名称(即统计字典中与目标名称的第一语义相似度的最大值对应的第二标准名称),进而根据统计字典中第二标准名称与第一标准名称的一一对应关系,确定出统计字典中与目标名称对应的第一标准名称,并将统计字典中与目标名称对应的第一标准名称,确定为从第一工单文本中提取出的工单要素,然后将提取出的工单要素填写至工单的预设位置。
通过这种方式,提取出的工单要素为第一标准名称(即服务提供商提供的服务的原始标准名称),能够避免将从工单文本中提取的目标名称(可能存在错别字、名称不全等问题)直接作为工单要素,从而提高工单要素的标准性及规范性。
图4示出根据本申请一实施例的工单要素提取方法的处理过程的示意图。本实施例的统计字典包括多个第一标准名称、各第一标准名称对应的第二标准名称、多个首字符、与各首字符对应的最大长度及最小长度。如图4所示,本实施例的工单要素提取方法的处理过程包括:
步骤S401,根据预设的符号集,对第一工单文本进行符号去除处理,得到第二工单文本;
步骤S402,将第二工单文本的第1个字符作为待匹配字符;
步骤S403,判断待匹配字符是否为统计字典中的首字符;
在待匹配字符为统计字典中的首字符的情况下,执行步骤S404,将待匹配字符作为起点,将统计字典中与待匹配字符(作为首字符)对应的最大长度加1作为截取长度,从第二工单文本中截取第一字符串;步骤S405,判断第一字符串是否满足预设的语义相似度条件;
在第一字符串满足语义相似度条件的情况下,执行步骤S406,将第一字符串作为候选名称,加入候选名称集合;步骤S407,将第二工单文本中第一字符串之后的第1个字符作为新的待匹配字符,然后从步骤S403开始重新执行;
在待匹配字符不是统计字典中的首字符的情况下,或者在第一字符串不满足语义相似度条件的情况下,执行步骤S408,在第二工单文本中,确定第一位置,该第一位置为待匹配字符之后且距离待匹配字符第一长度的位置,第一长度为统计字典中与各首字符对应的最小长度中的最小值;步骤S409,将第一位置的字符,作为新的待匹配字符,从步骤S403开始重新执行;
重复上述处理过程(步骤S403->步骤S404->步骤S405->步骤S406->步骤S407->步骤S403,或者,步骤S403->步骤S408->步骤S409->步骤S403),直到第二工单文本结束,得到最终的候选名称集合。
然后执行步骤S410,第二工单文本结束后,从候选名称集合中,选取目标名称,目标名称为候选名称集合中与统计字典中的第二标准名称的语义相似度最高的候选名称;步骤S411,将统计字典中与目标名称对应的第一标准名称,确定为从第一工单文本中提取出的工单要素,填写至工单的预设位置。
图5示出根据本申请一实施例的工单要素提取方法的处理过程的示意图。本实施例的统计字典包括多个第一标准名称、各第一标准名称对应的第二标准名称、多个首字符、与各首字符对应的最大长度及最小长度、多个第2字符、与各第2字符对应的最大长度及最小长度。
如图5所示,本实施例的工单要素提取方法的处理过程包括:
步骤S501,根据预设的符号集,对第一工单文本进行符号去除处理,得到第二工单文本;
步骤S502,将第二工单文本的第1个字符作为待匹配字符;
步骤S503,判断待匹配字符是否为统计字典中的首字符;
在待匹配字符为统计字典中的首字符的情况下,执行步骤S504,将待匹配字符作为起点,将统计字典中与待匹配字符(作为首字符)对应的最大长度加1作为截取长度,从第二工单文本中截取第一字符串;步骤S505,判断第一字符串是否满足预设的语义相似度条件;
在第一字符串满足语义相似度条件的情况下,执行步骤S506,将第一字符串作为候选名称,加入候选名称集合;步骤S507,将第二工单文本中第一字符串之后的第1个字符作为新的待匹配字符,然后从步骤S503开始重新执行;
在待匹配字符不是统计字典中的首字符的情况下,或者在第一字符串不满足语义相似度条件的情况下,执行步骤S508,判断待匹配字符是否为统计字典中的第2字符;在待匹配字符为统计字典中的第2字符的情况下,执行步骤S509,将待匹配字符作为起点,将统计字典中与待匹配字符(作为第2字符)对应的最大长度加1作为截取长度,从第二工单文本中截取第二字符串;步骤S510,判断第二字符串是否满足语义相似度条件;
在第二字符串满足语义相似度条件的情况下,执行步骤S511,将第二字符串作为候选名称,加入候选名称集合;步骤S512,将第二工单文本中第二字符串之后的第1个字符作为新的待匹配字符,然后从步骤S503开始重新执行;
在待匹配字符不是统计字典中的第2字符的情况下,或者在第二字符串不满足语义相似度条件的情况下,执行步骤S513,在第二工单文本中,确定第二位置,该第二位置为待匹配字符之后且距离待匹配字符第二长度的位置,第二长度为统计字典中与各第2字符对应的最小长度中的最小值;步骤S514,将第二位置的字符,作为新的待匹配字符,从步骤S503开始重新执行;
重复上述处理过程(步骤S503->步骤S504->步骤S505->步骤S506->步骤S507->步骤S503,或者,步骤S503->步骤S508->步骤S509->步骤S510->步骤S511->步骤S512->步骤S503,或者,步骤S503->步骤S504->步骤S505->步骤S508->步骤S509->步骤S510->步骤S511->步骤S512->步骤S503,或者,步骤S503->步骤S508->步骤S513->步骤S514->步骤S503,或者步骤S503->步骤S504->步骤S505->步骤S508->步骤S513->步骤S514->步骤S503),直到第二工单文本结束,得到最终的候选名称集合。
然后执行步骤S515,第二工单文本结束后,从候选名称集合中,选取目标名称,目标名称为候选名称集合中与统计字典中的第二标准名称的语义相似度最高的候选名称;步骤S516,将统计字典中与目标名称对应的第一标准名称,确定为从第一工单文本中提取出的工单要素,填写至工单的预设位置。
上述图4、图5的实施例,分别以判断首字符、判断首字符及第2字符作为示例,对本申请实施例的工单要素提取方法进行了示例性地说明。在工单要素提取过程中,判断更多个字符的处理方式与上述实施例类似,这里不再赘述。
本申请实施例的工单要素提取方法,能够基于统计字典及动态步长滑动窗口并结合无监督的句相似度匹配算法,从ASR转写的工单文本中提取目标名称,并将与目标名称对应的原始标准名称作为工单要素,填写至工单的预设位置,不仅实现了工单要素的预填(即智能填写),而且能够提升填单的标准性及规范性,从而能够有效降低坐席的工作量,提升坐席工单的处理效率及规范性。
图6示出根据本申请一实施例的工单要素提取装置的框图。如图6所示,所述工单要素提取装置包括:
符号去除模块61,用于根据预设的符号集,对第一工单文本进行符号去除处理,得到第二工单文本;
候选名称提取模块62,用于根据预设的统计字典,从所述第二工单文本中提取候选名称,得到候选名称集合,所述统计字典包括多个第一标准名称以及各所述第一标准名称对应的第二标准名称,所述第二标准名称是指对第一标准名称进行符号去除处理后得到的名称;
目标名称选取模块63,用于从所述候选名称集合中,选取目标名称,所述目标名称为所述候选名称集合中与所述统计字典中的第二标准名称的语义相似度最高的候选名称;
工单要素确定模块64,用于将所述统计字典中与所述目标名称对应的第一标准名称,确定为从所述第一工单文本中提取出的工单要素。
在一种可能的实现方式中,所述统计字典还包括多个首字符、与各首字符对应的最大长度,所述候选名称提取模块62,包括:第一待匹配字符确定子模块,用于将所述第二工单文本的第1个字符作为待匹配字符;第一判断子模块,用于判断所述待匹配字符是否为所述统计字典中的首字符;第一字符串截取子模块,用于在所述待匹配字符为所述统计字典中的首字符的情况下,将所述待匹配字符作为起点,将所述统计字典中与所述待匹配字符对应的最大长度加1作为截取长度,从所述第二工单文本中截取第一字符串;第二判断子模块,用于判断所述第一字符串是否满足预设的语义相似度条件;第一加入集合子模块,用于在所述第一字符串满足所述语义相似度条件的情况下,将所述第一字符串作为候选名称,加入所述候选名称集合;第二待匹配字符确定子模块,用于将所述第二工单文本中所述第一字符串之后的第1个字符作为新的待匹配字符,并从下述步骤开始重新执行:判断所述待匹配字符是否为所述统计字典中的首字符。
在一种可能的实现方式中,所述第二判断子模块,用于:分别确定所述第一字符串与各第二标准名称之间的第一语义相似度;将与所述第一语义相似度中的最大值对应的第二标准名称,确定为第三标准名称;在所述第一语义相似度中的最大值与第二语义相似度的差值小于或等于预设的相似度阈值的情况下,确定所述第一字符串满足预设的语义相似度条件,所述第二语义相似度为所述第三标准名称与对应的第一标准名称之间的语义相似度。
在一种可能的实现方式中,所述统计字典还包括与各首字符对应的最小长度,所述候选名称提取模块62,还包括:位置确定子模块,用于在所述待匹配字符不是所述统计字典中的首字符的情况下,或者,在所述第一字符串不满足所述语义相似度条件的情况下,在所述第二工单文本中,确定第一位置,所述第一位置为所述待匹配字符之后且距离所述待匹配字符第一长度的位置,所述第一长度为所述统计字典中与各首字符对应的最小长度中的最小值;第三待匹配字符确定子模块,用于将所述第一位置的字符,作为新的待匹配字符,并从下述步骤开始重新执行:判断所述待匹配字符是否为所述统计字典中的首字符。
在一种可能的实现方式中,所述统计字典还包括多个第2字符、与各第2字符对应的最大长度,所述候选名称提取模块62,还包括:第三判断子模块,用于在所述待匹配字符不是所述统计字典中的首字符的情况下,或者,在所述第一字符串不满足所述语义相似度条件的情况下,判断所述待匹配字符是否为所述统计字典中的第2字符;第二字符串截取子模块,用于在所述待匹配字符为所述统计字典中的第2字符的情况下,将所述待匹配字符作为起点,将所述统计字典中与所述待匹配字符对应的最大长度加1作为截取长度,从所述第二工单文本中截取第二字符串;第四判断子模块,用于判断所述第二字符串是否满足所述语义相似度条件;第二加入集合子模块,用于在所述第二字符串满足所述语义相似度条件的情况下,将所述第二字符串作为候选名称,加入所述候选名称集合;第四待匹配字符确定子模块,用于将所述第二工单文本中所述第二字符串之后的第1个字符作为新的待匹配字符,并从下述步骤开始重新执行:判断所述待匹配字符是否为所述统计字典中的首字符。
在一种可能的实现方式中,所述装置还包括:统计字典建立模块,用于根据多个第一标准名称,建立统计字典。
在一种可能的实现方式中,所述统计字典建立模块,包括:符号去除子模块,用于根据预设的符号集,对各第一标准名称进行符号去除处理,得到对应的第二标准名称;第一分类子模块,用于根据各所述第二标准名称的首字符,对各所述第二标准名称进行分类,得到与各首字符对应的第二标准名称;第一对应长度确定子模块,用于确定与各首字符对应的最大长度及最小长度;建立子模块,用于根据各第一标准名称、各首字符、与各首字符对应的第二标准名称、与各首字符对应的最大长度及最小长度,建立统计字典。
在一种可能的实现方式中,所述统计字典建立模块,还包括:第二分类子模块,用于根据各所述第二标准名称的第2字符,对各所述第二标准名称进行分类,得到与各第2字符对应的第二标准名称;第二对应长度确定子模块,用于确定与各第2字符对应的最大长度及最小长度;加入子模块,用于将各第2字符、与各第2字符对应的第二标准名称、与各第2字符对应的最大长度及最小长度,加入所述统计字典。
本申请的实施例提供了一种工单要素提取装置,包括:处理器以及用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令时实现上述方法。
本申请的实施例提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。
本申请的实施例提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述方法。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RandomAccess Memory,RAM)、只读存储器(Read Only Memory,ROM)、可擦式可编程只读存储器(Electrically Programmable Read-Only-Memory,EPROM或闪存)、静态随机存取存储器(Static Random-Access Memory,SRAM)、便携式压缩盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、数字多功能盘(Digital Video Disc,DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
这里所描述的计算机可读程序指令或代码可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(Instruction Set Architecture,ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(Local Area Network,LAN)或广域网(WideArea Network,WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(Field-ProgrammableGate Array,FPGA)或可编程逻辑阵列(Programmable Logic Array,PLA),该电子电路可以执行计算机可读程序指令,从而实现本申请的各个方面。
这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本申请的多个实施例的装置、系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行相应的功能或动作的硬件(例如电路或ASIC(Application SpecificIntegrated Circuit,专用集成电路))来实现,或者可以用硬件和软件的组合,如固件等来实现。
尽管在此结合各实施例对本发明进行了描述,然而,在实施所要求保护的本发明过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其它变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其它单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (19)
1.一种工单要素提取方法,其特征在于,所述方法包括:
根据预设的符号集,对第一工单文本进行符号去除处理,得到第二工单文本;
根据预设的统计字典,从所述第二工单文本中提取候选名称,得到候选名称集合,所述统计字典包括多个第一标准名称以及各所述第一标准名称对应的第二标准名称,所述第二标准名称是指对第一标准名称进行符号去除处理后得到的名称;
从所述候选名称集合中,选取目标名称,所述目标名称为所述候选名称集合中与所述统计字典中的第二标准名称的语义相似度最高的候选名称;
将所述统计字典中与所述目标名称对应的第一标准名称,确定为从所述第一工单文本中提取出的工单要素。
2.根据权利要求1所述的方法,其特征在于,所述统计字典还包括多个首字符、与各首字符对应的最大长度,
所述根据预设的统计字典,从所述第二工单文本中提取候选名称,得到候选名称集合,包括:
将所述第二工单文本的第1个字符作为待匹配字符;
判断所述待匹配字符是否为所述统计字典中的首字符;
在所述待匹配字符为所述统计字典中的首字符的情况下,将所述待匹配字符作为起点,将所述统计字典中与所述待匹配字符对应的最大长度加1作为截取长度,从所述第二工单文本中截取第一字符串;
判断所述第一字符串是否满足预设的语义相似度条件;
在所述第一字符串满足所述语义相似度条件的情况下,将所述第一字符串作为候选名称,加入所述候选名称集合;
将所述第二工单文本中所述第一字符串之后的第1个字符作为新的待匹配字符,并从下述步骤开始重新执行:判断所述待匹配字符是否为所述统计字典中的首字符。
3.根据权利要求2所述的方法,其特征在于,所述判断所述第一字符串是否满足预设的语义相似度条件,包括:
分别确定所述第一字符串与各第二标准名称之间的第一语义相似度;
将与所述第一语义相似度中的最大值对应的第二标准名称,确定为第三标准名称;
在所述第一语义相似度中的最大值与第二语义相似度的差值小于或等于预设的相似度阈值的情况下,确定所述第一字符串满足预设的语义相似度条件,所述第二语义相似度为所述第三标准名称与对应的第一标准名称之间的语义相似度。
4.根据权利要求2所述的方法,其特征在于,所述统计字典还包括与各首字符对应的最小长度,
所述根据预设的统计字典,从所述第二工单文本中提取候选名称,得到候选名称集合,还包括:
在所述待匹配字符不是所述统计字典中的首字符的情况下,或者,在所述第一字符串不满足所述语义相似度条件的情况下,在所述第二工单文本中,确定第一位置,所述第一位置为所述待匹配字符之后且距离所述待匹配字符第一长度的位置,所述第一长度为所述统计字典中与各首字符对应的最小长度中的最小值;
将所述第一位置的字符,作为新的待匹配字符,并从下述步骤开始重新执行:判断所述待匹配字符是否为所述统计字典中的首字符。
5.根据权利要求2所述的方法,其特征在于,所述统计字典还包括多个第2字符、与各第2字符对应的最大长度,
所述根据预设的统计字典,从所述第二工单文本中提取候选名称,得到候选名称集合,还包括:
在所述待匹配字符不是所述统计字典中的首字符的情况下,或者,在所述第一字符串不满足所述语义相似度条件的情况下,判断所述待匹配字符是否为所述统计字典中的第2字符;
在所述待匹配字符为所述统计字典中的第2字符的情况下,将所述待匹配字符作为起点,将所述统计字典中与所述待匹配字符对应的最大长度加1作为截取长度,从所述第二工单文本中截取第二字符串;
判断所述第二字符串是否满足所述语义相似度条件;
在所述第二字符串满足所述语义相似度条件的情况下,将所述第二字符串作为候选名称,加入所述候选名称集合;
将所述第二工单文本中所述第二字符串之后的第1个字符作为新的待匹配字符,并从下述步骤开始重新执行:判断所述待匹配字符是否为所述统计字典中的首字符。
6.根据权利要求1-5中任意一项所述的方法,其特征在于,所述方法还包括:
根据多个第一标准名称,建立统计字典。
7.根据权利要求6所述的方法,其特征在于,所述根据多个第一标准名称,建立统计字典,包括:
根据预设的符号集,对各第一标准名称进行符号去除处理,得到对应的第二标准名称;
根据各所述第二标准名称的首字符,对各所述第二标准名称进行分类,得到与各首字符对应的第二标准名称;
确定与各首字符对应的最大长度及最小长度;
根据各第一标准名称、各首字符、与各首字符对应的第二标准名称、与各首字符对应的最大长度及最小长度,建立统计字典。
8.根据权利要求6或7所述的方法,其特征在于,所述根据多个第一标准名称,建立统计字典,还包括:
根据各所述第二标准名称的第2字符,对各所述第二标准名称进行分类,得到与各第2字符对应的第二标准名称;
确定与各第2字符对应的最大长度及最小长度;
将各第2字符、与各第2字符对应的第二标准名称、与各第2字符对应的最大长度及最小长度,加入所述统计字典。
9.一种工单要素提取装置,其特征在于,所述装置包括:
符号去除模块,用于根据预设的符号集,对第一工单文本进行符号去除处理,得到第二工单文本;
候选名称提取模块,用于根据预设的统计字典,从所述第二工单文本中提取候选名称,得到候选名称集合,所述统计字典包括多个第一标准名称以及各所述第一标准名称对应的第二标准名称,所述第二标准名称是指对第一标准名称进行符号去除处理后得到的名称;
目标名称选取模块,用于从所述候选名称集合中,选取目标名称,所述目标名称为所述候选名称集合中与所述统计字典中的第二标准名称的语义相似度最高的候选名称;
工单要素确定模块,用于将所述统计字典中与所述目标名称对应的第一标准名称,确定为从所述第一工单文本中提取出的工单要素。
10.根据权利要求9所述的装置,其特征在于,所述统计字典还包括多个首字符、与各首字符对应的最大长度,
所述候选名称提取模块,包括:
第一待匹配字符确定子模块,用于将所述第二工单文本的第1个字符作为待匹配字符;
第一判断子模块,用于判断所述待匹配字符是否为所述统计字典中的首字符;
第一字符串截取子模块,用于在所述待匹配字符为所述统计字典中的首字符的情况下,将所述待匹配字符作为起点,将所述统计字典中与所述待匹配字符对应的最大长度加1作为截取长度,从所述第二工单文本中截取第一字符串;
第二判断子模块,用于判断所述第一字符串是否满足预设的语义相似度条件;
第一加入集合子模块,用于在所述第一字符串满足所述语义相似度条件的情况下,将所述第一字符串作为候选名称,加入所述候选名称集合;
第二待匹配字符确定子模块,用于将所述第二工单文本中所述第一字符串之后的第1个字符作为新的待匹配字符,并从下述步骤开始重新执行:判断所述待匹配字符是否为所述统计字典中的首字符。
11.根据权利要求10所述的装置,其特征在于,所述第二判断子模块,用于:
分别确定所述第一字符串与各第二标准名称之间的第一语义相似度;
将与所述第一语义相似度中的最大值对应的第二标准名称,确定为第三标准名称;
在所述第一语义相似度中的最大值与第二语义相似度的差值小于或等于预设的相似度阈值的情况下,确定所述第一字符串满足预设的语义相似度条件,所述第二语义相似度为所述第三标准名称与对应的第一标准名称之间的语义相似度。
12.根据权利要求10所述的装置,其特征在于,所述统计字典还包括与各首字符对应的最小长度,所述候选名称提取模块,还包括:
位置确定子模块,用于在所述待匹配字符不是所述统计字典中的首字符的情况下,或者,在所述第一字符串不满足所述语义相似度条件的情况下,在所述第二工单文本中,确定第一位置,所述第一位置为所述待匹配字符之后且距离所述待匹配字符第一长度的位置,所述第一长度为所述统计字典中与各首字符对应的最小长度中的最小值;
第三待匹配字符确定子模块,用于将所述第一位置的字符,作为新的待匹配字符,并从下述步骤开始重新执行:判断所述待匹配字符是否为所述统计字典中的首字符。
13.根据权利要求10所述的装置,其特征在于,所述统计字典还包括多个第2字符、与各第2字符对应的最大长度,
所述候选名称提取模块,还包括:
第三判断子模块,用于在所述待匹配字符不是所述统计字典中的首字符的情况下,或者,在所述第一字符串不满足所述语义相似度条件的情况下,判断所述待匹配字符是否为所述统计字典中的第2字符;
第二字符串截取子模块,用于在所述待匹配字符为所述统计字典中的第2字符的情况下,将所述待匹配字符作为起点,将所述统计字典中与所述待匹配字符对应的最大长度加1作为截取长度,从所述第二工单文本中截取第二字符串;
第四判断子模块,用于判断所述第二字符串是否满足所述语义相似度条件;
第二加入集合子模块,用于在所述第二字符串满足所述语义相似度条件的情况下,将所述第二字符串作为候选名称,加入所述候选名称集合;
第四待匹配字符确定子模块,用于将所述第二工单文本中所述第二字符串之后的第1个字符作为新的待匹配字符,并从下述步骤开始重新执行:判断所述待匹配字符是否为所述统计字典中的首字符。
14.根据权利要求9-13中任意一项所述的装置,其特征在于,所述装置还包括:
统计字典建立模块,用于根据多个第一标准名称,建立统计字典。
15.根据权利要求14所述的装置,其特征在于,所述统计字典建立模块,包括:
符号去除子模块,用于根据预设的符号集,对各第一标准名称进行符号去除处理,得到对应的第二标准名称;
第一分类子模块,用于根据各所述第二标准名称的首字符,对各所述第二标准名称进行分类,得到与各首字符对应的第二标准名称;
第一对应长度确定子模块,用于确定与各首字符对应的最大长度及最小长度;
建立子模块,用于根据各第一标准名称、各首字符、与各首字符对应的第二标准名称、与各首字符对应的最大长度及最小长度,建立统计字典。
16.根据权利要求14或15所述的装置,其特征在于,所述统计字典建立模块,还包括:
第二分类子模块,用于根据各所述第二标准名称的第2字符,对各所述第二标准名称进行分类,得到与各第2字符对应的第二标准名称;
第二对应长度确定子模块,用于确定与各第2字符对应的最大长度及最小长度;
加入子模块,用于将各第2字符、与各第2字符对应的第二标准名称、与各第2字符对应的最大长度及最小长度,加入所述统计字典。
17.一种工单要素提取装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令时实现权利要求1-8中任意一项所述的方法。
18.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1-8中任意一项所述的方法。
19.一种计算机程序产品,其特征在于,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行权利要求1-8中任意一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211287455.7A CN117952112A (zh) | 2022-10-20 | 2022-10-20 | 工单要素提取方法及装置 |
PCT/CN2023/092725 WO2024082612A1 (zh) | 2022-10-20 | 2023-05-08 | 工单要素提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211287455.7A CN117952112A (zh) | 2022-10-20 | 2022-10-20 | 工单要素提取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117952112A true CN117952112A (zh) | 2024-04-30 |
Family
ID=90736769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211287455.7A Pending CN117952112A (zh) | 2022-10-20 | 2022-10-20 | 工单要素提取方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117952112A (zh) |
WO (1) | WO2024082612A1 (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247707B (zh) * | 2017-06-27 | 2020-08-04 | 鼎富智能科技有限公司 | 基于补全策略的企业关联关系信息提取方法和装置 |
CN109543002B (zh) * | 2018-10-19 | 2020-12-11 | 中南民族大学 | 简写字符的还原方法、装置、设备及存储介质 |
CN112417102B (zh) * | 2020-11-26 | 2024-03-22 | 中国科学院自动化研究所 | 一种语音查询方法、装置、服务器和可读存储介质 |
CN115101042A (zh) * | 2022-05-10 | 2022-09-23 | 网易(杭州)网络有限公司 | 一种文本处理方法、装置及设备 |
-
2022
- 2022-10-20 CN CN202211287455.7A patent/CN117952112A/zh active Pending
-
2023
- 2023-05-08 WO PCT/CN2023/092725 patent/WO2024082612A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2024082612A1 (zh) | 2024-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10210865B2 (en) | Method and apparatus for inputting information | |
US10650311B2 (en) | Suggesting resources using context hashing | |
US11216510B2 (en) | Processing an incomplete message with a neural network to generate suggested messages | |
US11050685B2 (en) | Method for determining candidate input, input prompting method and electronic device | |
US9881614B1 (en) | Method and system for real-time summary generation of conversation | |
CN107731229B (zh) | 用于识别语音的方法和装置 | |
CN103916513A (zh) | 在通信终端记录通话信息的方法和设备 | |
CN106601254A (zh) | 信息输入方法和装置及计算设备 | |
US9870345B2 (en) | Textual message ordering based on message content | |
CN113360700B (zh) | 图文检索模型的训练和图文检索方法、装置、设备和介质 | |
CN112579733B (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
CN112966081A (zh) | 处理问答信息的方法、装置、设备和存储介质 | |
CN111159334A (zh) | 用于房源跟进信息处理的方法及系统 | |
CN112765364A (zh) | 群聊会话排序方法、装置、存储介质和电子设备 | |
CN112052316A (zh) | 模型评估方法、装置、存储介质及电子设备 | |
EP3961433A2 (en) | Data annotation method and apparatus, electronic device and storage medium | |
JP7499946B2 (ja) | インテリジェント推奨用のソートモデルトレーニング方法及び装置、インテリジェント推奨方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
CN117952112A (zh) | 工单要素提取方法及装置 | |
CN116303937A (zh) | 回复方法、装置、电子设备及可读存储介质 | |
EP4047474A1 (en) | Method for annotating data, related apparatus and computer program product | |
CN110399615B (zh) | 交易风险监控方法及装置 | |
CN113254579A (zh) | 语音检索方法、装置及电子设备 | |
CN111695350B (zh) | 一种文本的分词方法及分词装置 | |
CN110931014A (zh) | 基于正则匹配规则的语音识别方法及装置 | |
CN112632241A (zh) | 智能会话的方法、装置、设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |