CN114490934A - 业务环节的要素检测方法、装置、计算机设备和存储介质 - Google Patents

业务环节的要素检测方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN114490934A
CN114490934A CN202210073172.6A CN202210073172A CN114490934A CN 114490934 A CN114490934 A CN 114490934A CN 202210073172 A CN202210073172 A CN 202210073172A CN 114490934 A CN114490934 A CN 114490934A
Authority
CN
China
Prior art keywords
text
target
target text
detected
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210073172.6A
Other languages
English (en)
Inventor
孙泽烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202210073172.6A priority Critical patent/CN114490934A/zh
Publication of CN114490934A publication Critical patent/CN114490934A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及人工智能领域,通过将预处理后的目标文本输入要素预测模型进行要素预测,并对要素预测结果进行要素筛选,可以快速、准确获得目标文本对应的要素预测结果,避免通过人工核验,提高了要素检测的可靠性与效率。涉及一种业务环节的要素检测方法、装置、计算机设备和存储介质,该方法包括:获取待检测文本,对待检测文本进行预处理,获得目标文本;将目标文本输入要素预测模型进行要素预测,获得目标文本对应的要素预测结果;对要素预测结果进行要素筛选,获得目标文本对应的目标要素;确定目标文本对应的目标业务,根据目标业务与目标要素,确定目标文本对应的要素检测结果。此外,本申请还涉及区块链技术,要素预测模型可存储于区块链中。

Description

业务环节的要素检测方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能领域,尤其涉及一种业务环节的要素检测方法、装置、计算机设备和存储介质。
背景技术
在很多业务处理过程中,坐席人员需要按照规定的业务环节与客户进行业务沟通,以满足业务服务质量的要求。为了提高业务服务质量,例如在坐席人员与客户通话结束后,随机抽取部分通话记录进行人工核验,确定坐席人员是否按照规定的业务环节中的要素与客户进行业务沟通。现有的业务环节的要素检测方式,一般是人工对坐席人员的通话记录进行检测,确定通话记录是否覆盖所有的要素。但是采用人工核验的方式,不仅效率较低,而且无法确保可靠性。
因此,如何提高业务环节的要素检测的效率与可靠性成为亟需解决的问题。
发明内容
本申请提供了一种业务环节的要素检测方法、装置、计算机设备和存储介质,通过将预处理后的目标文本输入要素预测模型进行要素预测,并对要素预测结果进行要素筛选,可以快速、准确获得目标文本对应的要素检测结果,避免通过人工核验,提高了要素检测的可靠性与效率。
第一方面,本申请提供了一种业务环节的要素检测方法,所述方法包括:
获取待检测文本,对所述待检测文本进行预处理,获得目标文本;
将所述目标文本输入要素预测模型进行要素预测,获得所述目标文本对应的要素预测结果;
对所述要素预测结果进行要素筛选,获得所述目标文本对应的目标要素;
确定所述目标文本对应的目标业务,根据所述目标业务与所述目标要素,确定所述目标文本对应的要素检测结果。
第二方面,本申请还提供了一种业务环节的要素检测装置,所述装置包括:
预处理模块,用于获取待检测文本,对所述待检测文本进行预处理,获得目标文本;
要素预测模块,用于将所述目标文本输入要素预测模型进行要素预测,获得所述目标文本对应的要素预测结果;
要素筛选模块,用于对所述要素预测结果进行要素筛选,获得所述目标文本对应的目标要素;
结果生成模块,用于确定所述目标文本对应的目标业务,根据所述目标业务与所述目标要素,确定所述目标文本对应的要素检测结果。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的业务环节的要素检测方法。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的业务环节的要素检测方法。
本申请公开了一种业务环节的要素检测方法、装置、计算机设备和存储介质,通过对待检测文本进行预处理,可以获得词组纠错、语句拼接后的目标文本,提高了后续将目标文本输入要素预测模型进行要素预测的召回率;通过将目标文本输入要素预测模型进行要素预测,可以快速、准确地获得包含多个要素的要素预测结果,避免通过人工核验,提高了要素预测的可靠性与效率;通过对要素预测结果进行要素筛选,可以对要素预测结果中的要素进行补充和剔除,使得要素预测结果中的要素都是有效要素,进而提高了要素检测的可靠性;通过确定目标文本对应的目标业务,并将目标业务与目标要素为确定目标文本对应的要素检测结果,后续可以基于目标业务准确地判断坐席人员是否完成了目标业务对应的全部要素,提高了要素检测的效率与可靠性,保证了业务环节的管理质量。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种业务环节的要素检测方法的示意性流程图;
图2是本申请实施例提供的一种文本纠错处理的子步骤的示意性流程图;
图3是本申请实施例提供的一种训练要素预测模型的子步骤的示意性流程图;
图4是本申请实施例提供的一种要素筛选的子步骤的示意性流程图;
图5是本申请实施例提供的一种确定目标要素的示意图;
图6是本申请实施例提供的一种业务环节的要素检测装置的示意性框图;
图7是本申请实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请的实施例提供了一种业务环节的要素检测方法、装置、计算机设备和存储介质。其中,该业务环节的要素检测方法可以应用于服务器或终端中,通过将预处理后的目标文本输入要素预测模型进行要素预测,并对要素预测结果进行要素筛选,可以快速、准确获得目标文本对应的要素检测结果,避免通过人工核验,提高了要素检测的可靠性与效率。
其中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑和台式电脑等电子设备。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
如图1所示,业务环节的要素检测方法包括步骤S10至步骤S40。
步骤S10、获取待检测文本,对所述待检测文本进行预处理,获得目标文本。
需要说明的是,本申请实施例提供的业务环节的要素检测方法可以应用于坐席人员与客户进行业务沟通的场景中,例如通过电话进行沟通或通过聊天应用程序进行沟通,通过对沟通内容进行要素检测,可以实时提示坐席人员在业务沟通时业务环节中未涉及的要素,提升了业务沟通的效率和要素完成率。而在现有技术中,要素检测的实时性较低,一般是在通话结束后才由人工抽取部分通话记录进行人工核验,无法在通话过程中实时提示坐席,从而无法帮助坐席人员针对性地对特定业务环节进行要素的覆盖,导致业务沟通的效率以及要素完成率较低。
其中,要素是指业务环节中的一些关键词或关键性内容。例如,要素可以包括“自我介绍”、“通话有录音”、“产品名称”、“免责内容”以及“保障范围”等等。
示例性的,待检测文本可以是通话文本,也可以是其它形式得到的文本,比如从聊天应用程序中的文字沟通内容等等。例如,当待检测文本是通话文本时,通话文本是上游系统对通话语音进行语音识别得到,也可以对上游系统发送的通话语音进行语音识别得到。又例如,当待检测文本是文字沟通内容时,可以对聊天应用程序中的聊天界面进行文字复制得到,还可以对聊天应用程序中的聊天界面截图进行文字识别得到。
示例性的,在获取待检测文本之后,可以对待检测文本进行预处理,获得目标文本。其中,预处理可以包括文本纠错处理和/或语句拼接处理。需要说明的是,为了提高要素预测模型进行要素预测的召回率,需要对待检测文本进行预处理。例如,可以对待检测文本进行文本纠错处理,也可以对待检测文本进行语句拼接处理,还可以对待检测文本进行文本纠错处理,再进行语句拼接处理。当然,也可以对待检测文本进行语句拼接处理,再进行文本纠错处理。
在本申请实施例中,以对待检测文本进行文本纠错处理为例进行详细说明。需要说明的是,由于待检测文本可能存在一些专业名称或相似词组误识别的问题,因此,通过对待检测文本进行文本纠错处理,可以实现将待检测文本中的一些误识别的词组纠正为标准词组。
通过对待检测文本进行预处理,可以获得词组纠错、语句拼接后的目标文本,提高了后续将目标文本输入要素预测模型进行要素预测的召回率。
请参阅图2,图2是本申请实施例提供的一种文本纠错处理的子步骤的示意性流程图,具体可以包括以下步骤S101至步骤S103。
步骤S101、将所述待检测文本输入词组匹配模型进行词组匹配,获得所述待检测文本对应至少一个相似词组。
示例性的,词组匹配模块可以是AC自动机(Aho-Corasick automaton)。其中,AC自动机由词语列表、前缀树、失配指针构成。需要说明的是,AC自动机在前缀树的基础上加上了失配指针,每个结点都有自己的失配指针,表示由root节点到该节点所组成的字符序列的后缀与整个词语列表(即整个前缀树)的前缀,两者的最长公共部分。失配指针的作用就是在查找过程中,如果当前结点的子结点中没有找到,就可以从失配指针指向的结点继续查找,而不是从根结点从头找起。词语列表包括多个预设的相似词组;其中,相似词组可以是专业名称或专业名词的别名、同音词等等。
在本申请实施例中,词组匹配模型可以通过词语列表,对待检测文本进行词组匹配,获得待检测文本对应至少一个相似词组。示例性的,将待检测文本中的每个语句输入词组匹配模型进行词组匹配,获得待检测文本对应至少一个相似词组。其中,词组匹配的具体过程,在此不作限定。
步骤S102、对预设的标准词组列表进行查询,获得每个所述相似词组对应的标准词组。
示例性的,预设的标准词组列表包括多个标准词组以及每个标准词组对应的相似词组。需要说明的是,可以预先根据AC自动机中的词语列表的相似词组,采集每个相似词组对应的标准词组,并将每个相似词组与对应的标准词组建立关联关系,从而可以得到标准词组列表。
示例性的,对预设的标准词组列表进行查询,获得每个相似词组对应的标准词组。例如,对于相似词组“医XX”,通过标准词组列表进行查询,得到相似词组“医XX”对应的标准词组为“eXX”。
步骤S103、将所述待检测文本中的每个相似词组替换为每个所述相似词组对应的标准词组,将词组替换后的待检测文本确定为所述目标文本。
示例性的,在获得每个相似词组对应的标准词组之后,可以将待检测文本中的每个相似词组替换为每个相似词组对应的标准词组。例如,对于待检测文本中的相似词组“医XX”,可以将待检测文本中的相似词组“医XX”替换为标准词组“eXX”。
通过对待检测文本进行文本纠错处理,可以实现对待检测文本的非专业名称或同音词等识别错误进行纠错,提高了后续目标文本通过要素预测模型进行要素预测的召回率。
在一些实施例中,将词组替换后的待检测文本确定为目标文本之前,还可以包括:将词组替换后的待检测文本进行语句拼接处理,获得语句拼接处理后的待检测文本。
在一些实施例中,将词组替换后的待检测文本确定为目标文本,可以包括:将语句拼接处理后的待检测文本确定为目标文本。
需要说明的是,在本申请实施例中,在将待检测文本中的每个相似词组替换为每个相似词组对应的标准词组之后,可以将词组替换后的待检测文本确定为目标文本。此外,为了解决语音识别或文字识别时产生的断句问题,还可以对词组替换后的待检测文本进行语句拼接处理,将语句拼接处理后的待检测文本确定为目标文本。
可以理解的是,在进行语音识别或文字识别时,可能存在将完整的一个语句切分成两个语句;若将切分后的两个语句输入要素预测模型分别进行要素预测,会存在遗漏或错误预测要素的情况,因此需要将一个完整的语句输入要素预测模型进行要素预测,以确保要素预测的准确性。
在一些实施方式中,将词组替换后的待检测文本进行语句拼接处理,获得语句拼接处理后的待检测文本,可以包括:对词组替换后的待检测文本中的每个语句进行角色判断,获得目标角色对应的至少一个语句;将目标角色对应的每个语句,确定为词组替换后的待检测文本的语句集合;依次将语句集合中的每个语句确定为当前语句,并确定预设的缓存区是否存在语句;若缓存区存在语句,则将当前语句和缓存区中的语句进行拼接,并将拼接后的语句存储至缓存区;若缓存区未存在语句,则将当前语句存储至缓存区。
其中,目标角色可以是坐席人员。预设的缓存区可以是运行内存,也可以是其它用于临时缓存数据的存储空间。
需要说明的是,在本申请实施例中,可以通过缓存机制实现语句拼接处理。示例性的,在获得语句集合之后,可以依次将语句集合中的每个当前语句缓存至缓存区。在缓存时,判断缓存区是否存储有语句;若缓存区存储有语句,则将当前语句和缓存区中的语句进行拼接,并将拼接后的语句更新至缓存区。
通过对词组替换后的待检测文本进行语句拼接处理,解决语音识别或文字识别时产生的断句问题,提高了后续目标文本通过要素预测模型进行要素预测的召回率。
步骤S20、将所述目标文本输入要素预测模型进行要素预测,获得所述目标文本对应的要素预测结果。
在本申请实施例中,通过将目标文本输入要素预测模型进行要素预测,不仅可以快速、准确地获得目标文本对应的要素预测结果,而且还可以对每个坐席人员的通话记录或聊天内容进行要素检测,提高了要素检测的覆盖面,实现全部坐席人员的质量管理的目标。而在现有技术中,一般是按比例随机抽取一部分的通话记录进行要素检测,覆盖面较低,无法实现全部坐席人员的质量管理的目标。
示例性的,要素预测模型可以是FastText模型。需要说明的是,FastText模型是一种文本分类模型,包括输入层、隐含层以及输出层。在本申请实施例中,FastText模型用于预测待检测文本中的要素。
其中,FastText模型的具体计算公式如下:
Figure BDA0003482850120000071
其中,x={x1,x2,…,xn-1,xn}∈Rn是输入的语句中每个词组对应的编号,其中;A是n×k矩阵,n表示词表大小,k表示词向量维度;B是k×d矩阵,d表示要素的个数。其中,编号是指每个词组在词表中的编号;需要说明的是,词表由所有汉字、标点以及英文组成,词表中每个字符都有自己的编号。
在现有技术中,FastText模型默认的目标优化公式为:
Figure BDA0003482850120000081
式中,yi表示预测结果,其中,
Figure BDA0003482850120000082
在实际应用中,一个语句可能会命中多个要素,而上述默认的目标优化公式只能输出单个要素,无法实现输出多个要素。在上述默认的目标优化公式中,
Figure BDA0003482850120000083
表示输入的词组x属于第i个要素的概率,且
Figure BDA0003482850120000084
当词组x命中3个要素时,在优化过程中需要使得这3个要素的概率更大,其余要素的概率更小。由于所有要素的概率之和需要等于1,如果将其中一个要素的概率提升,则会使得其余要素的概率减小,因此优化过程会不断震荡,无法收敛。即使能够收敛,最终的计算结果也会偏向单个要素,无法输出多个要素。而本申请实施例中FastText模型的目标优化公式为:
Figure BDA0003482850120000085
式中,
Figure BDA0003482850120000086
通过上述的目标优化公式,可以解决“所有要素的概率之和等于1”的限制,每个要素的概率是独立的,不依赖于其他要素的概率取值。因此在FastText模型对多个要素的优化过程中,每个要素的优化目标是独立的,最终结果能够收敛,且保证计算结果无偏向。
通过对FastText模型的目标优化公式进行改进,可以使得FastText模型能够同时预测并输出多个要素,提高了FastText模型预测的效率与准确性。
需要说明的是,在将目标文本输入要素预测模型进行要素预测,获得目标文本对应的要素预测结果之前,需要对要素预测模型进行训练。
请参阅图3,图3是本申请实施例提供的一种训练要素预测模型的子步骤的示意性流程图,具体可以包括以下步骤S201至步骤S204。
步骤S201、获取正样本数据与负样本数据,所述正样本数据为包含至少一个要素的样本语句,所述负样本数据为不包含要素的样本语句。
示例性的,可以从本地数据库或本地磁盘获取预设数量的正样本数据与负样本数据。其中,正样本数据为包含至少一个要素的样本语句,负样本数据为不包含要素的样本语句。
步骤S202、对所述负样本数据进行筛选,获得筛选后的负样本数据。
需要说明的是,由于实际的待检测文本复杂多变,两句相似的语句会出现一个语句会命中要素,而另一个语句却没有命中要素,最终导致要素预测模型对于容易混淆的语句的召回率较低。因此,为了提高要素预测模型的召回率,需要对负样本数据进行筛选,以剔除负样本数据中的命中要素的语句。
在一些实施例中,对负样本数据进行筛选,获得筛选后的负样本数据,可以包括:依次将负样本数据中的每个语句确定为待筛选语句;将每个待筛选语句输入要素预测模型进行要素预测,获得每个待筛选语句对应的至少一个预测要素与每个预测要素对应的预测概率;将对应的预测概率大于预设概率阈值的待筛选语句删除,获得筛选后的负样本数据。
示例性的,若待筛选语句存在至少一个预测要素对应的预测概率大于预设概率阈值,则需要将该待筛选语句删除。其中,预设概率阈值可以根据实际情况设定,具体数值在此不作限定。
例如,将待筛选语句A输入要素预测模型进行要素预测,要素预测模型输出的预测概率为(0,0.99,0.001,0.002,…,0.8);若预设概率阈值为0.3,则待筛选语句存在预测概率大于预设概率阈值0.3的预测要素,因此需要将负样本数据中的待筛选语句A删除。
可以理解的是,负样本数据中的每个待筛选语句应该是负例,若待筛选语句的预测要素对应的预测概率大于预设概率阈值,说明该待筛选语句是正例。因此,需要将负样本数据中的正例删除。
步骤S203、根据所述正样本数据与筛选后的所述负样本数据,确定训练样本数据。
示例性的,可以将正样本数据与筛选后的负样本数据,确定训练样本数据。
通过根据正样本数据与筛选后的负样本数据构建训练样本数据并对要素预测模型进行训练,可以提升训练好的要素预测模型的召回率以及预测的准确性。
步骤S204、根据所述训练样本数据对所述要素预测模型进行迭代训练,直至所述要素预测模型收敛。
示例性的,根据训练样本数据对要素预测模型进行迭代训练,直至要素预测模型收敛,可以包括:确定每一轮的训练样本数据以及训练样本数据对应的要素标签;将当前轮训练样本数据输入初始的要素预测模型进行要素预测训练,获得当前轮训练样本数据对应的要素训练结果;基于预设的损失函数,根据要素标签与要素训练结果,确定当前轮训练样本数据对应的损失函数值;若损失函数值大于预设的损失值阈值,则调整要素预测模型的参数,并进行下一轮训练,直至得到的损失函数值小于或等于损失值阈值,结束训练,得到训练好的要素预测模型。
示例性的,预设的损失函数可以包括但不限于0-1损失函数、绝对值损失函数、对数损失函数、平方损失函数以及指数损失函数等等。其中,预设的损失值阈值可以根据实际情况进行设定,具体数值在此不作限定。
示例性的,在调整要素预测模型的参数时,可以通过梯度下降算法或反向传播算法实现。其中,具体的参数调整,在此不作限定。
通过计算每一轮训练的损失函数值,并根据损失函数值调整要素预测模型的参数,可以减少要素预测模型收敛所需的时间,提高训练速度。
为进一步保证上述要素预测模型的私密和安全性,上述要素预测模型可以存储于一区块链的节点中。
示例性的,将目标文本输入训练好的要素预测模型进行要素预测,获得目标文本对应的要素预测结果。其中,要素预测结果包括至少一个要素。
通过将目标文本输入要素预测模型进行要素预测,可以快速、准确地获得包含多个要素的要素预测结果,避免通过人工核验,提高了要素预测的可靠性与效率。
步骤S30、对所述要素预测结果进行要素筛选,获得所述目标文本对应的目标要素。
需要说明的是,对于大多数业务环节,业务方可以预先设定有效要素的条件,例如要素必须命中关键词列表中的至少一个关键词,才是有效要素。为了确保要素预测结果中的要素都是有效要素,在本申请实施例中,需要对要素预测结果进行要素筛选,获得目标文本对应的目标要素。
请参阅图4,图4是本申请实施例提供的一种要素筛选的子步骤的示意性流程图,具体可以包括以下步骤S301至步骤S304。
步骤S301、基于包括多个样本要素对应的关键词的关键词列表,对所述目标文本进行关键词匹配,获得每个所述样本要素的关键词匹配成功次数。
示例性的,关键词列表是根据实际情况事先生成的,包括多个样本要素和每个样本要素对应的关键词。例如,对于样本要素“自我介绍”,关键词可以是“公司名称”或“公司地址”等等。对于样本要素“通话有录音”,关键词可以是“录音”。
示例性的,可以根据关键词列表中的每个样本要素对应的关键词,对目标文本中的每个语句进行关键词匹配,获得每个样本要素的关键词匹配成功次数。例如,对于样本要素“自我介绍”,若目标文本中的其中一个语句存在关键词“公司名称”,则可以确定样本要素“自我介绍”关键词匹配成功,并记录关键词匹配成功次数为1。若目标文本中的另一个语句存在关键词“公司地址”,则可以确定样本要素“自我介绍”关键词匹配成功,并记录关键词匹配成功次数为2。
步骤S302、选取对应的关键词匹配成功次数大于或等于预设次数的样本要素,生成候选要素集合。
示例性的,预设次数可以根据实际情况设定,具体数值在此不作限定。
例如,当预设次数为1时,可以选取关键词匹配成功次数大于或等于预设次数1的样本要素,生成候选要素集合。例如,生成候选要素集合包括要素A、要素B、要素C。
步骤S303、确定所述候选要素集合中的第一要素,以及确定所述要素预测结果中的第二要素,所述第一要素为所述要素预测结果中不存在的要素,所述第二要素为所述候选要素集合中不存在的要素。
步骤S304、将所述第一要素添加至所述要素预测结果以及删除所述要素预测结果中的所述第二要素,将得到的要素预测结果中的要素确定为所述目标要素。
请参阅图5,图5是本申请实施例提供的一种确定目标要素的示意图,如图5所示,若要素预测结果包括要素B、要素C、要素D,候选要素集合包括要素A、要素B以及要素C,则可以确定第一要素为要素A,第二要素为要素D。然后,将要素A添加至要素预测结果,以及将要素D从要素预测结果中删除,得到的要素预测结果包括要素A、要素B、要素C。最后,将得到的要素预测结果中的要素确定为目标要素。即目标要素为要素A、要素B、要素C。
通过对要素预测结果进行要素筛选,可以对要素预测结果中的要素进行补充和剔除,使得要素预测结果中的要素都是有效要素,进而提高了要素检测的可靠性。
步骤S40、确定所述目标文本对应的目标业务,根据所述目标业务与所述目标要素,确定所述目标文本对应的要素检测结果。
需要说明的是,业务可以包括健康险、意外险、年金险以及寿险等等。不同的业务对应的业务环节有所差异,导致需要的要素也有所不同。因此,需要确定目标文本对应的目标业务,通过结合目标业务,才能准确地判断坐席人员是否完成了目标业务对应的全部要素。
在一些实施例中,确定目标文本对应的目标业务,可以包括:基于包括至少一个样本业务的业务词典,对目标文本中的每个语句进行业务匹配,获得每个样本业务对应的业务匹配成功次数;将最大的业务匹配成功次数对应的样本业务,确定为目标业务。
其中,业务词典包括至少一个样本业务,例如,样本业务可以是健康险、意外险、年金险以及寿险等等。
示例性的,可以根据业务词典中的每个样本业务,对目标文本中的每个语句进行业务匹配,获得每个样本业务对应的业务匹配成功次数。例如,对于样本业务“XX健康险”,若目标文本中的其中一个语句存在“XX健康险”,则可以确定样本业务“XX健康险”业务匹配成功,并记录业务匹配成功次数为1。依次类推,对目标文本中的剩余语句进行业务匹配,获得样本业务“XX健康险”的业务匹配成功次数。
示例性的,在获得每个样本业务对应的业务匹配成功次数之后,可以将最大的业务匹配成功次数对应的样本业务,确定为目标业务。例如,目标业务为“XX健康险”。
通过将最大的业务匹配成功次数对应的样本业务确定为目标业务,可以确保目标业务的识别的准确性。
示例性的,可以根据目标业务与目标要素,确定目标文本对应的要素检测结果。例如,要素检测结果包括{XX健康险,要素A、要素B、要素C}。
通过将目标业务与目标要素为确定目标文本对应的要素检测结果,后续可以基于目标业务准确地判断坐席人员是否完成了目标业务对应的全部要素,提高了要素检测的效率与可靠性,保证了业务环节的质量管理。
上述实施例提供的业务环节的要素检测方法,通过对待检测文本进行预处理,可以获得词组纠错、语句拼接后的目标文本,提高了后续将目标文本输入要素预测模型进行要素预测的召回率;通过对待检测文本进行文本纠错处理,可以实现对待检测文本的非专业名称或同音词等识别错误进行纠错,提高了后续目标文本通过要素预测模型进行要素预测的召回率;通过对词组替换后的待检测文本进行语句拼接处理,解决语音识别或文字识别时产生的断句问题,提高了后续目标文本通过要素预测模型进行要素预测的召回率;通过对FastText模型的目标优化公式进行改进,可以使得FastText模型能够同时预测并输出多个要素,提高了FastText模型预测的效率与准确性;通过将目标文本输入要素预测模型进行要素预测,可以快速获得包含多个要素的要素预测结果,避免通过人工核验,提高了要素预测的可靠性与效率;通过对要素预测结果进行要素筛选,可以对要素预测结果中的要素进行补充和剔除,使得要素预测结果中的要素都是有效要素,进而提高了要素检测的可靠性;通过将最大的业务匹配成功次数对应的样本业务确定为目标业务,可以确保目标业务的识别的准确性;通过将目标业务与目标要素为确定目标文本对应的要素检测结果,后续可以基于目标业务准确地判断坐席人员是否完成了目标业务对应的全部要素,提高了要素检测的效率与可靠性,保证了业务环节的质量管理。
请参阅图6,图6是本申请的实施例还提供一种业务环节的要素检测装置1000的示意性框图,该业务环节的要素检测装置用于执行前述的业务环节的要素检测方法。其中,该业务环节的要素检测装置可以配置于服务器或终端中。
如图6所示,该业务环节的要素检测装置1000,包括:预处理模块1001、要素预测模块1002、要素筛选模块1003和结果生成模块1004。
预处理模块1001,用于获取待检测文本,对所述待检测文本进行预处理,获得目标文本。
要素预测模块1002,用于将所述目标文本输入要素预测模型进行要素预测,获得所述目标文本对应的要素预测结果。
要素筛选模块1003,用于对所述要素预测结果进行要素筛选,获得所述目标文本对应的目标要素。
结果生成模块1004,用于确定所述目标文本对应的目标业务,根据所述目标业务与所述目标要素,确定所述目标文本对应的要素检测结果。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
上述的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图7所示的计算机设备上运行。
请参阅图7,图7是本申请实施例提供的一种计算机设备的结构示意性框图。
请参阅图7,该计算机设备包括通过系统总线连接的处理器和存储器,其中,存储器可以包括存储介质和内存储器。其中,存储介质可以是非易失性存储介质,也可以是易失性存储介质。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种业务环节的要素检测方法。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取待检测文本,对所述待检测文本进行预处理,获得目标文本;将所述目标文本输入要素预测模型进行要素预测,获得所述目标文本对应的要素预测结果;对所述要素预测结果进行要素筛选,获得所述目标文本对应的目标要素;确定所述目标文本对应的目标业务,根据所述目标业务与所述目标要素,确定所述目标文本对应的要素检测结果。
在一个实施例中,所述处理器在实现对所述待检测文本进行预处理,获得目标文本时,用于实现:
将所述待检测文本输入词组匹配模型进行词组匹配,获得所述待检测文本对应至少一个相似词组;对预设的标准词组列表进行查询,获得每个所述相似词组对应的标准词组;将所述待检测文本中的每个相似词组替换为每个所述相似词组对应的标准词组,将词组替换后的待检测文本确定为所述目标文本。
在一个实施例中,所述处理器在实现将词组替换后的待检测文本确定为所述目标文本之前,还用于实现:
将词组替换后的所述待检测文本进行语句拼接处理,获得语句拼接处理后的待检测文本。
在一个实施例中,所述处理器在实现将词组替换后的待检测文本确定为所述目标文本时,用于实现:
将语句拼接处理后的所述待检测文本确定为所述目标文本。
在一个实施例中,所述处理器在实现将所述目标文本输入要素预测模型进行要素预测,获得所述目标文本对应的要素预测结果之前,还用于实现:
获取正样本数据与负样本数据,所述正样本数据为包含至少一个要素的样本语句,所述负样本数据为不包含要素的样本语句;对所述负样本数据进行筛选,获得筛选后的负样本数据;根据所述正样本数据与筛选后的所述负样本数据,确定训练样本数据;根据所述训练样本数据对所述要素预测模型进行迭代训练,直至所述要素预测模型收敛。
在一个实施例中,所述处理器在实现对所述负样本数据进行筛选,获得筛选后的负样本数据时,用于实现:
依次将所述负样本数据中的每个语句确定为待筛选语句;将每个所述待筛选语句输入所述要素预测模型进行要素预测,获得每个所述待筛选语句对应的至少一个预测要素与每个预测要素对应的预测概率;将对应的预测概率大于预设概率阈值的待筛选语句删除,获得筛选后的负样本数据。
在一个实施例中,所述处理器在实现对所述要素预测结果进行要素筛选,获得所述目标文本对应的目标要素时,用于实现:
基于包括多个样本要素对应的关键词的关键词列表,对所述目标文本进行关键词匹配,获得每个所述样本要素的关键词匹配成功次数;选取对应的关键词匹配成功次数大于或等于预设次数的样本要素,生成候选要素集合;确定所述候选要素集合中的第一要素,以及确定所述要素预测结果中的第二要素,所述第一要素为所述要素预测结果中不存在的要素,所述第二要素为所述候选要素集合中不存在的要素;将所述第一要素添加至所述要素预测结果以及删除所述要素预测结果中的所述第二要素,将得到的要素预测结果中的要素确定为所述目标要素。
在一个实施例中,所述处理器在实现确定所述目标文本对应的目标业务时,用于实现:
基于包括至少一个样本业务的业务词典,对所述目标文本中的每个语句进行业务匹配,获得每个所述样本业务对应的业务匹配成功次数;将最大的业务匹配成功次数对应的样本业务,确定为所述目标业务。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项业务环节的要素检测方法。
例如,该程序被处理器加载,可以执行如下步骤:
获取待检测文本,对所述待检测文本进行预处理,获得目标文本;将所述目标文本输入要素预测模型进行要素预测,获得所述目标文本对应的要素预测结果;对所述要素预测结果进行要素筛选,获得所述目标文本对应的目标要素;确定所述目标文本对应的目标业务,根据所述目标业务与所述目标要素,确定所述目标文本对应的要素检测结果。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字卡(Secure Digital Card,SD Card),闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种业务环节的要素检测方法,其特征在于,包括:
获取待检测文本,对所述待检测文本进行预处理,获得目标文本;
将所述目标文本输入要素预测模型进行要素预测,获得所述目标文本对应的要素预测结果;
对所述要素预测结果进行要素筛选,获得所述目标文本对应的目标要素;
确定所述目标文本对应的目标业务,根据所述目标业务与所述目标要素,确定所述目标文本对应的要素检测结果。
2.根据权利要求1所述的业务环节的要素检测方法,其特征在于,所述对所述待检测文本进行预处理,获得目标文本,包括:
将所述待检测文本输入词组匹配模型进行词组匹配,获得所述待检测文本对应至少一个相似词组;
对预设的标准词组列表进行查询,获得每个所述相似词组对应的标准词组;
将所述待检测文本中的每个相似词组替换为每个所述相似词组对应的标准词组,将词组替换后的待检测文本确定为所述目标文本。
3.根据权利要求2所述的业务环节的要素检测方法,其特征在于,所述将词组替换后的待检测文本确定为所述目标文本之前,还包括:
将词组替换后的所述待检测文本进行语句拼接处理,获得语句拼接处理后的待检测文本;
所述将词组替换后的待检测文本确定为所述目标文本,包括:
将语句拼接处理后的所述待检测文本确定为所述目标文本。
4.根据权利要求1所述的业务环节的要素检测方法,其特征在于,所述将所述目标文本输入要素预测模型进行要素预测,获得所述目标文本对应的要素预测结果之前,还包括:
获取正样本数据与负样本数据,所述正样本数据为包含至少一个要素的样本语句,所述负样本数据为不包含要素的样本语句;
对所述负样本数据进行筛选,获得筛选后的负样本数据;
根据所述正样本数据与筛选后的所述负样本数据,确定训练样本数据;
根据所述训练样本数据对所述要素预测模型进行迭代训练,直至所述要素预测模型收敛。
5.根据权利要求4所述的业务环节的要素检测方法,其特征在于,所述对所述负样本数据进行筛选,获得筛选后的负样本数据,包括:
依次将所述负样本数据中的每个语句确定为待筛选语句;
将每个所述待筛选语句输入所述要素预测模型进行要素预测,获得每个所述待筛选语句对应的至少一个预测要素与每个预测要素对应的预测概率;
将对应的预测概率大于预设概率阈值的待筛选语句删除,获得筛选后的负样本数据。
6.根据权利要求1所述的业务环节的要素检测方法,其特征在于,所述对所述要素预测结果进行要素筛选,获得所述目标文本对应的目标要素,包括:
基于包括多个样本要素对应的关键词的关键词列表,对所述目标文本进行关键词匹配,获得每个所述样本要素的关键词匹配成功次数;
选取对应的关键词匹配成功次数大于或等于预设次数的样本要素,生成候选要素集合;
确定所述候选要素集合中的第一要素,以及确定所述要素预测结果中的第二要素,所述第一要素为所述要素预测结果中不存在的要素,所述第二要素为所述候选要素集合中不存在的要素;
将所述第一要素添加至所述要素预测结果以及删除所述要素预测结果中的所述第二要素,将得到的要素预测结果中的要素确定为所述目标要素。
7.根据权利要求1所述的业务环节的要素检测方法,其特征在于,所述确定所述目标文本对应的目标业务,包括:
基于包括至少一个样本业务的业务词典,对所述目标文本中的每个语句进行业务匹配,获得每个所述样本业务对应的业务匹配成功次数;
将最大的业务匹配成功次数对应的样本业务,确定为所述目标业务。
8.一种业务环节的要素检测装置,其特征在于,包括:
预处理模块,用于获取待检测文本,对所述待检测文本进行预处理,获得目标文本;
要素预测模块,用于将所述目标文本输入要素预测模型进行要素预测,获得所述目标文本对应的要素预测结果;
要素筛选模块,用于对所述要素预测结果进行要素筛选,获得所述目标文本对应的目标要素;
结果生成模块,用于确定所述目标文本对应的目标业务,根据所述目标业务与所述目标要素,确定所述目标文本对应的要素检测结果。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7任一项所述的业务环节的要素检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7任一项所述的业务环节的要素检测方法。
CN202210073172.6A 2022-01-21 2022-01-21 业务环节的要素检测方法、装置、计算机设备和存储介质 Pending CN114490934A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210073172.6A CN114490934A (zh) 2022-01-21 2022-01-21 业务环节的要素检测方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210073172.6A CN114490934A (zh) 2022-01-21 2022-01-21 业务环节的要素检测方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN114490934A true CN114490934A (zh) 2022-05-13

Family

ID=81472257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210073172.6A Pending CN114490934A (zh) 2022-01-21 2022-01-21 业务环节的要素检测方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN114490934A (zh)

Similar Documents

Publication Publication Date Title
US11900056B2 (en) Stylistic text rewriting for a target author
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
AU2020327704B2 (en) Classification of data using aggregated information from multiple classification modules
US10637826B1 (en) Policy compliance verification using semantic distance and nearest neighbor search of labeled content
US20220414523A1 (en) Information Matching Using Automatically Generated Matching Algorithms
CN112256863B (zh) 一种确定语料意图的方法、装置及电子设备
CN111368130A (zh) 客服录音的质检方法、装置、设备及存储介质
CN111552798B (zh) 基于名称预测模型的名称信息处理方法、装置、电子设备
WO2019227629A1 (zh) 文本信息的生成方法、装置、计算机设备及存储介质
CN112417887A (zh) 敏感词句识别模型处理方法、及其相关设备
CN111930949B (zh) 搜索串处理方法、装置、计算机可读介质及电子设备
CN113177405A (zh) 基于bert的数据纠错方法、装置、设备及存储介质
CN113177407A (zh) 数据字典的构建方法、装置、计算机设备及存储介质
CN113436614A (zh) 语音识别方法、装置、设备、系统及存储介质
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备
US20220043934A1 (en) System and method for entity resolution of a data element
CN114490934A (zh) 业务环节的要素检测方法、装置、计算机设备和存储介质
CN114817523A (zh) 摘要生成方法、装置、计算机设备和存储介质
US20220092096A1 (en) Automatic generation of short names for a named entity
CN112149389A (zh) 简历信息结构化处理方法、装置、计算机设备和存储介质
US11899910B2 (en) Multi-location copying and context based pasting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination