CN116050383A - 一种理财产品销售环节飞单话术检测方法及系统 - Google Patents

一种理财产品销售环节飞单话术检测方法及系统 Download PDF

Info

Publication number
CN116050383A
CN116050383A CN202310318022.1A CN202310318022A CN116050383A CN 116050383 A CN116050383 A CN 116050383A CN 202310318022 A CN202310318022 A CN 202310318022A CN 116050383 A CN116050383 A CN 116050383A
Authority
CN
China
Prior art keywords
text
bill
flyer
detecting
business process
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310318022.1A
Other languages
English (en)
Other versions
CN116050383B (zh
Inventor
廖万里
金卓
黄继安
肖飞
刘金朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Kingsware Information Technology Co Ltd
Original Assignee
Zhuhai Kingsware Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Kingsware Information Technology Co Ltd filed Critical Zhuhai Kingsware Information Technology Co Ltd
Priority to CN202310318022.1A priority Critical patent/CN116050383B/zh
Publication of CN116050383A publication Critical patent/CN116050383A/zh
Application granted granted Critical
Publication of CN116050383B publication Critical patent/CN116050383B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Acoustics & Sound (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Strategic Management (AREA)
  • Medical Informatics (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种理财产品销售环节飞单话术检测方法及系统,所述检测方法包括以下步骤:实时质检步骤:实时采集业务场景下的现场音频,采取滑动检测与最大池化结合的方式对现场音频的飞单话术进行实时检测;检测到飞单话术,予以告警;长文本检测步骤:每个业务流程结束后,将整个业务流程中的对话整合成一个长文本,通过首尾截断与最大池化结合的方法去做长文本检测,由此判断该业务流程中是否存在飞单话术;检测到飞单话术,予以告警;对于同一业务流程,在实时质检步骤和长文本检测步骤均未检测到飞单话术的情况下,认定该业务流程为正常业务流程,不存在飞单。本发明能够很好解决文本中信息丢失导致飞单检测准确率下降的问题。

Description

一种理财产品销售环节飞单话术检测方法及系统
技术领域
本发明涉及文本分类领域,特别涉及一种理财产品销售环节飞单话术检测方法及系统。
背景技术
随着银行业理财业务的发展,“飞单”现象(“飞单”通常指银行客户经理/理财经理私下推荐销售非本行发行或代销的理财产品)频发,对于银行或者监管部门而言,如何智能化解决“飞单”现象是一个问题。
智能化解决“飞单”现象,目前一种解决方式是将对话进行文本分类,例如基于Transformer的预训练模型,预训练模型包括BERT、RoBERTa,在文本分类任务以及诸多自然语言处理任务中,已经取得较满意的结果,但也存在以下不足:Transformer 是一种深度学习模型,它可以用于自然语言处理任务,Transformer 通常使用批处理训练,这意味着它在训练过程中一次处理多个输入,这种方法的优点在于可以有效地利用计算资源,加快训练速度。但是由于Transformer 一次处理多个输入,因此 [CLS] 分词可能会包含多个句子的信息,如果这些句子之间没有直接的关系,那么[CLS]分词中包含的信息就可能是冗余的。在这种情况下,Transformer 的性能可能会受到影响。
此外,由于 Transformer 使用的是批处理训练,因此在训练过程中,它可能会捕获到许多不相关的句子之间的关系,这可能会导致模型在预测时的泛化能力降低,同时Transformer批处理训练可能会使 [CLS] 分词包含冗余信息,这可能会影响模型的性能。
同时Transformer限制了输入长度,对较长的输入直接截断会导致信息的丢失,以及批处理训练使[CLS]分词包含冗余信息,该分词作为分类特征影响分类的准确率。这是因为现实中的飞单话术并不是一句两句话,而是整段较长的对话,而为了能够做到在销售过程中及时的去发现飞单的行为,必须对现场的音频实时获取并进行检测,那么这就对每一句话的上下文关系有要求了,如果简单的用深度网络模型对每一句话做分类是很难去分辨出飞单的,需要结合上下文信息,这是实时质检部分。为了防止实时质检的时候由于现场环境音等影响导致检测不准确的问题,系统还会在每一次销售结束以后对这次销售的所有对话做一个整合,得到一个长文本,本专利通过研究发现:关键的销售特征信息是隐藏在文本的后端,这时候如果是使用传统的Transformer网络,直接截取前512长度的文本,很容易就会丢失关键的特征信息从而导致关键的飞单特征词无法被检测,影响飞单话术检测的准确率。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种理财产品销售环节飞单话术检测方法。
本发明的另一目的在于一种理财产品销售环节飞单话术检测系统。
本发明的目的通过以下的技术方案实现:
一种理财产品销售环节飞单话术检测方法,基于Transformer网络,包括以下步骤:
S1、实时质检步骤:实时采集业务场景下的现场音频,采取滑动检测与最大池化结合的方式对现场音频的飞单话术进行实时检测;检测到飞单话术,予以告警;
S2、长文本检测步骤:每个业务流程结束后,将整个业务流程中的对话整合成一个长文本,通过首尾截断与最大池化结合的方法去做长文本检测,由此判断该业务流程中是否存在飞单话术;检测到飞单话术,予以告警;
S3、对于同一业务流程,在实时质检步骤和长文本检测步骤均未检测到飞单话术的情况下,认定该业务流程为正常业务流程,不存在飞单。
所述实时质检步骤,具体为:
(1)对于获取的现场音频,将其转为长度为L的文本;先将长度为M的文本转为文本矩阵,接着随机生成一个卷积核矩阵,使用卷积核按照设定的步长对文本矩阵做扫描;其中L大于M;
(2)长度为M的文本扫描完成后,后移N个长度在再次形成新的长度为M的文本,再转为新的文本矩阵,然后同样通过卷积核进行扫描;由此实现滑动检测完长度为L的文本;
(3)对于长度为L的文本,多次扫描所得到的结果进行拼接,得到一个新的矩阵,再将该矩阵做一个最大池化的处理,将最大池化的处理结果矢量化,作为Transformer网络的softmax层的输入,最终得出是否为飞单的结论;
(4)每间隔预设时间段,再次获取现场录音,重复步骤(1)至(3),由此实现飞单话术的实时质检。
步骤(1)中,所述现场音频通过ASR技术转为长度为L的文本。
步骤(1)中,所述长度为M的文本是通过word embedding(词嵌入技术)转为文本矩阵。
所述长文本检测步骤,具体为:
a、将所有现场音频转化的文本进行拼接,得到长文本;
b、对长度超过第一阈值分词的长文本进行首尾截断,然后将首尾截断后得到的文本转换成文本向量;多个文本向量然后沿着待检测文本长度的维度求出最大值,将作为最大值的文本向量拼接成列向量,将该列向量作为Transformer网络的softmax层的输入,最终得出是否为飞单的结论。
步骤b中,所述首尾截断后得到的文本通过词嵌入技术(word embedding)转换成文本向量。
所述列向量是通过将属于行向量的文本向量进行转置,再横向的拼接起来而得到的。
所述实时质检步骤、所述长文本检测步骤,均需要:首先通过专家先验知识,对相关飞单话术的特征做加权处理,使得包含飞单话术的文本向量在经过预处理之后,向量得分较高,从中取最大值,即通过最大池化处理后得到最重要的飞单话术特征,然后输入到Transformer网络的softmax层,就能够检测出是否为飞单。
本发明的另一目的通过以下的技术方案实现:
一种理财产品销售环节飞单话术检测系统,基于Transformer网络,包括实时质检模块、长文本检测模块;其中,
实时质检模块,用于实时采集业务场景下的现场音频,采取滑动检测与最大池化结合的方式对现场音频的飞单话术进行实时检测;检测到飞单话术,予以告警;
长文本检测模块,在每个业务流程结束后,将整个业务流程中的对话整合成一个长文本,通过首尾截断与最大池化结合的方法去做长文本检测,由此判断该业务流程中是否存在飞单话术;检测到飞单话术,予以告警;
对于同一业务流程,在实时质检模块和长文本检测模块均未检测到飞单话术的情况下,认定该业务流程为正常业务流程,不存在飞单。
本发明还提供一种计算机可读存储介质,所述存储介质中存储有至少一段程序,所述程序由处理器加载并执行以实现所述理财产品销售环节飞单话术检测方法。
本发明与现有技术相比,具有如下优点和有益效果:
1、卷积池化一般用于图像处理的操作,本发明将卷积池化改用到文本处理中,并且创新性的将卷积扫描的形式和实时检测结合,实现每次传入的文本都不会丢失上下文的信息,从而达到实时检测的效果。
2、本发明使用首尾截断和最大池化的方法,用于解决文本中信息丢失导致飞单检测准确率下降的问题,可以理解为其发力点是在输入数据/训练数据的预处理上,通过首尾截断和最大池化使得待检测文本的质量得以提高。而对于Transformer限制输入长度的问题,本领域一般技术人员不会使用收尾截断的方法去做,而是直接对512长度以后的字符串做一个截断,丢弃不做处理,即使能考虑到飞单场景的特殊性,也只是采用首位截断的方式去处理。
3、本发明所使用的Transformer网络,在模型训练的时候,就已经将银行自营的理财产品和飞单产品进行收集,作为基础训练数据;在融入到银行各网点的时候,还会提前收集一份该银行网点的理财产品已经让相关业务人员针对可能出现的飞单产品给出一份清单,做模型的二次训练,从而可以在垂直领域做到更加精细的效果。
附图说明
图1为本发明实时质检步骤中,卷积层扫描方式示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
一种理财产品销售环节飞单话术检测方法,对于飞单话术的检测主要分为两部分:一部分是在检测的时候实时检测现场传回的音频,另一部分是在后端当每个流程结束以后,对整个业务流程中的对话整合成一个长文本,对这个长文本做一个检测,下面具体介绍本发明在飞单话术检测中的创新点以及整个检测系统的创新性。
首先考虑到实时质检是一句一句的话,没有包含更多的上下文信息,所以本文首次提出采取滑动检测与最大池化结合的方式去做检测,目的是尽可能的多提取到每句话内包含的特征信息,避免漏检,错检。
针对长文本检测,就用首尾截断与最大池化结合的方法去检测。
关键技术点:
实时质检:在实时检测的过程中,由现场回传的录音设置为15s传一次,那么这15s的句子可能会包含有冗余的信息,也可能包含有飞单话术的特征,我们采用滑动检测的方法具体体现为,首先检测端每隔15s去获取一次现场的录音,通过ASR技术将音频文件转为文本字符串,通过word embedding(词嵌入技术)每次将长度为32的文本(对应图1中“您好!请问您需要办理什么业务呢?帮我转一个岁月流金吧,我上次办理”)转为矩阵,接着随机生成一个K为3×3×1的卷积核矩阵,使用卷积核不停地去对文本矩阵做一个扫描,此为卷积层,具体扫描方式如图1。
这样做的好处是可以将文本中的特征有效的提取出来,并减少文本矩阵的大小。设定好相应的步长,该长度为32的文本扫描完了以后,后移5个长度(此时的句子变成“您需要办理什么业务呢?帮我转一个岁月流金吧,我上次办理的已经到账”),再生成相应的矩阵以后通过卷积核去进行扫描,并将扫描的结果拼在一起,以此类推,将会得到一个新的矩阵,再将该矩阵做一个最大池化的处理,将最大池化的处理结果矢量化后,作为Transformer网络softmax层的输入,最终得出是否为飞单的结论。
卷积运算的目的是从输入的文本矩阵里面提取出飞单话术特征之类的隐含在文本中的高级特征。
池化层与卷积层相似,池化层负责减小卷积特征空间的大小。这是通过降维来减少处理数据所需要的的算力,这对于提取相关旋转和不变位置的主要特征十分有用,从而保持模型训练有效的过程。池化有两种类型:最大池化和平均池化。最大池化从内核覆盖的文本部分返回最大值,平均池化从内核覆盖的文本部分返回所有值的平均值。
本发明所采用的最大池化还可以充当噪声抑制器,它完全丢弃了复杂的激活,并且还执行了降维和降噪。而平均池化仅是执行降维作为噪声抑制的机制,所以本发明认为最大池化的性能要比平均池化好得多。
长文本检测:下面介绍长文本检测的创新点,首先对输入的飞单话术进行分词处理,在飞单话术检测的相关研究调查中,本发明首次提出使用首尾截断和最大池化的方法减少文本中信息丢失导致飞单检测准确率下降的问题,针对于现有的文本检测技术,做了以下的优化:
针对粗暴截取导致文本信息丢失和[CLS]分词包含冗余信息影响分类准确率的问题:提出首尾截取、最大池化方法。文本开头和结尾包含更丰富的语义情感信息,最大池化过滤各分词间冗余信息,得到输入序列最重要的文本特征信息。使用首尾截取和最大池化,提高了飞单话术检测任务上的表现。
具体的检测步骤如下,因为在实时检测的步骤中已经收集了相应的现场音频,先对所有ASR转化的文本做一个拼接处理,如此可以得到一个长文本,然后对于长度超过512分词的文本进行首尾的一个截断,截取策略为150个分词的文首加上362个分词的文尾。其次,将截图得到的文本通过word embedding(词嵌入技术)转换成文本向量,然后沿着待检测文本长度的维度求出最大值,再拼接成列向量(将文本行向量转置,再横向的拼接起来),作为模型的输入特性。通过取最大值,可以得到待检测文本中最重要的飞单话术特征信息(我们通过专家先验知识,对相关飞单话术的特征做一个加权的处理,这就会导致文本向量在经过预处理以后如果包含相关的飞单话术,那么这句文本的向量得分就会比较高,总体再取一个最大值,即可得到最重要的飞单话术特征从而实现检测飞单话术的效果),减少各分词之间的冗余信息,提高模型的预测能力。
一种理财产品销售环节飞单话术检测系统,基于Transformer网络,包括实时质检模块、长文本检测模块;其中,
实时质检模块,用于实时采集业务场景下的现场音频,采取滑动检测与最大池化结合的方式对现场音频的飞单话术进行实时检测;检测到飞单话术,予以告警;
长文本检测模块,在每个业务流程结束后,将整个业务流程中的对话整合成一个长文本,通过首尾截断与最大池化结合的方法去做长文本检测,由此判断该业务流程中是否存在飞单话术;检测到飞单话术,予以告警;
对于同一业务流程,在实时质检模块和长文本检测模块均未检测到飞单话术的情况下,认定该业务流程为正常业务流程,不存在飞单。
本发明涉及到专业词语含义如下:
飞单话术:是金融业内的俗称,通常指银行客户经理/理财经理私下推荐销售非本行发行或代销的理财产品。
Transformer网络:主要用于解决sequence to sequence问题,该网络使用全Attention的结构代替了LSTM,抛弃了之前传统的encoder-decoder模型必须结合CNN或者RNN的固有模式。在减少计算量和提高并行效率的同时还取得了更好的结果。
分词:是自然语言处理的基本操作之一。分词的直译是词形化,顾名思义,就是把连续的文本分割成一个个独立的词元。
ASR:语音识别(Automatic Speech Recognition),一般简称ASR;是将声音转化为文字的过程,相当于人类的耳朵。
最大池化:最大池化(max-pooling)即取局部接受域中值最大的点。
[CLS]分词:[CLS]标志放在第一个句子的首位,经过 BERT 得到的的表征向量 C可以用于后续的分类任务。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种理财产品销售环节飞单话术检测方法,基于Transformer网络,其特征在于,包括以下步骤:
S1、实时质检步骤:实时采集业务场景下的现场音频,采取滑动检测与最大池化结合的方式对现场音频的飞单话术进行实时检测;检测到飞单话术,予以告警;
具体为:
(1)对于获取的现场音频,将其转为长度为L的文本;先将长度为M的文本转为文本矩阵,接着随机生成一个卷积核矩阵,使用卷积核按照设定的步长对文本矩阵做扫描;其中L大于M;
(2)长度为M的文本扫描完成后,后移N个长度在再次形成新的长度为M的文本,再转为新的文本矩阵,然后同样通过卷积核进行扫描;由此实现滑动检测完长度为L的文本;
(3)对于长度为L的文本,多次扫描所得到的结果进行拼接,得到一个新的矩阵,再将该矩阵做一个最大池化的处理,将最大池化的处理结果矢量化,作为Transformer网络的softmax层的输入,最终得出是否为飞单的结论;
(4)每间隔预设时间段,再次获取现场录音,重复步骤(1)至(3),由此实现飞单话术的实时质检;
S2、长文本检测步骤:每个业务流程结束后,将整个业务流程中的对话整合成一个长文本,通过首尾截断与最大池化结合的方法去做长文本检测,由此判断该业务流程中是否存在飞单话术;检测到飞单话术,予以告警;
具体为:
a、将所有现场音频转化的文本进行拼接,得到长文本;
b、对长度超过第一阈值分词的长文本进行首尾截断,然后将首尾截断后得到的文本转换成文本向量;多个文本向量然后沿着待检测文本长度的维度求出最大值,将作为最大值的文本向量拼接成列向量,将该列向量作为Transformer网络的softmax层的输入,最终得出是否为飞单的结论;
S3、对于同一业务流程,在实时质检步骤和长文本检测步骤均未检测到飞单话术的情况下,认定该业务流程为正常业务流程,不存在飞单。
2.根据权利要求1所述理财产品销售环节飞单话术检测方法,其特征在于,步骤(1)中,所述现场音频通过ASR技术转为长度为L的文本。
3.根据权利要求1所述理财产品销售环节飞单话术检测方法,其特征在于,步骤(1)中,所述长度为M的文本是通过word embedding转为文本矩阵。
4.根据权利要求1所述理财产品销售环节飞单话术检测方法,其特征在于,步骤b中,所述首尾截断后得到的文本通过词嵌入技术转换成文本向量。
5.根据权利要求1所述理财产品销售环节飞单话术检测方法,其特征在于,所述列向量是通过将属于行向量的文本向量进行转置,再横向的拼接起来而得到的。
6.根据权利要求1所述理财产品销售环节飞单话术检测方法,其特征在于,所述实时质检步骤、所述长文本检测步骤,均需要:首先通过专家先验知识,对相关飞单话术的特征做加权处理,使得包含飞单话术的文本向量在经过预处理之后,向量得分较高,从中取最大值,即通过最大池化处理后得到最重要的飞单话术特征,然后输入到Transformer网络的softmax层,就能够检测出是否为飞单。
7.一种理财产品销售环节飞单话术检测系统,基于Transformer网络,其特征在于:用于实现权利要求1-6任一项所述理财产品销售环节飞单话术检测方法;包括实时质检模块、长文本检测模块;其中,
实时质检模块,用于实时采集业务场景下的现场音频,采取滑动检测与最大池化结合的方式对现场音频的飞单话术进行实时检测;检测到飞单话术,予以告警;
长文本检测模块,在每个业务流程结束后,将整个业务流程中的对话整合成一个长文本,通过首尾截断与最大池化结合的方法去做长文本检测,由此判断该业务流程中是否存在飞单话术;检测到飞单话术,予以告警;
对于同一业务流程,在实时质检模块和长文本检测模块均未检测到飞单话术的情况下,认定该业务流程为正常业务流程,不存在飞单。
8.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一段程序,所述程序由处理器加载并执行以实现如权利要求1-6任一项所述理财产品销售环节飞单话术检测方法。
CN202310318022.1A 2023-03-29 2023-03-29 一种理财产品销售环节飞单话术检测方法及系统 Active CN116050383B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310318022.1A CN116050383B (zh) 2023-03-29 2023-03-29 一种理财产品销售环节飞单话术检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310318022.1A CN116050383B (zh) 2023-03-29 2023-03-29 一种理财产品销售环节飞单话术检测方法及系统

Publications (2)

Publication Number Publication Date
CN116050383A true CN116050383A (zh) 2023-05-02
CN116050383B CN116050383B (zh) 2023-06-23

Family

ID=86124082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310318022.1A Active CN116050383B (zh) 2023-03-29 2023-03-29 一种理财产品销售环节飞单话术检测方法及系统

Country Status (1)

Country Link
CN (1) CN116050383B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918648A (zh) * 2019-01-31 2019-06-21 内蒙古工业大学 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN110147726A (zh) * 2019-04-12 2019-08-20 财付通支付科技有限公司 业务质检方法和装置、存储介质及电子装置
CN110597964A (zh) * 2019-09-27 2019-12-20 神州数码融信软件有限公司 一种双录质检语义分析方法、装置及双录质检系统
CN111753828A (zh) * 2020-05-19 2020-10-09 重庆邮电大学 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN111966917A (zh) * 2020-07-10 2020-11-20 电子科技大学 一种基于预训练语言模型的事件检测与摘要方法
CN112328791A (zh) * 2020-11-09 2021-02-05 济南大学 一种基于DiTextCNN的中文政务信息的文本分类方法
CN112464661A (zh) * 2020-11-25 2021-03-09 马上消费金融股份有限公司 模型训练方法、语音对话检测方法及相关设备
US20210144110A1 (en) * 2019-11-07 2021-05-13 D8AI Inc. Systems and methods of instant-messaging bot for robotic process automation and robotic textual-content extraction from images
CN113051924A (zh) * 2021-04-30 2021-06-29 中国工商银行股份有限公司 一种录制数据分段质检方法及系统
WO2021212998A1 (zh) * 2020-04-24 2021-10-28 深圳壹账通智能科技有限公司 基于多层次逻辑的语音话术检测方法、装置、计算机设备及存储介质
CN113935312A (zh) * 2021-09-24 2022-01-14 秒针信息技术有限公司 长文本匹配方法及装置、电子设备及计算机可读存储介质
CN114020881A (zh) * 2022-01-10 2022-02-08 珠海金智维信息科技有限公司 话题定位的方法及系统
WO2022078346A1 (zh) * 2020-10-13 2022-04-21 深圳壹账通智能科技有限公司 文本意图识别方法、装置、电子设备及存储介质
US20230073602A1 (en) * 2021-08-20 2023-03-09 University Of Central Florida Research Foundation, Inc. System of and method for automatically detecting sarcasm of a batch of text

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918648A (zh) * 2019-01-31 2019-06-21 内蒙古工业大学 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN110147726A (zh) * 2019-04-12 2019-08-20 财付通支付科技有限公司 业务质检方法和装置、存储介质及电子装置
CN110597964A (zh) * 2019-09-27 2019-12-20 神州数码融信软件有限公司 一种双录质检语义分析方法、装置及双录质检系统
US20210144110A1 (en) * 2019-11-07 2021-05-13 D8AI Inc. Systems and methods of instant-messaging bot for robotic process automation and robotic textual-content extraction from images
WO2021212998A1 (zh) * 2020-04-24 2021-10-28 深圳壹账通智能科技有限公司 基于多层次逻辑的语音话术检测方法、装置、计算机设备及存储介质
CN111753828A (zh) * 2020-05-19 2020-10-09 重庆邮电大学 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN111966917A (zh) * 2020-07-10 2020-11-20 电子科技大学 一种基于预训练语言模型的事件检测与摘要方法
WO2022078346A1 (zh) * 2020-10-13 2022-04-21 深圳壹账通智能科技有限公司 文本意图识别方法、装置、电子设备及存储介质
CN112328791A (zh) * 2020-11-09 2021-02-05 济南大学 一种基于DiTextCNN的中文政务信息的文本分类方法
CN112464661A (zh) * 2020-11-25 2021-03-09 马上消费金融股份有限公司 模型训练方法、语音对话检测方法及相关设备
CN113051924A (zh) * 2021-04-30 2021-06-29 中国工商银行股份有限公司 一种录制数据分段质检方法及系统
US20230073602A1 (en) * 2021-08-20 2023-03-09 University Of Central Florida Research Foundation, Inc. System of and method for automatically detecting sarcasm of a batch of text
CN113935312A (zh) * 2021-09-24 2022-01-14 秒针信息技术有限公司 长文本匹配方法及装置、电子设备及计算机可读存储介质
CN114020881A (zh) * 2022-01-10 2022-02-08 珠海金智维信息科技有限公司 话题定位的方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SHUIFEI ZENG;YAN MA: "Term-based poooling in convolutional neural networks for text classification", CHINA COMMUNICATIONS, pages 109 - 124 *
伏冠宇: "面向金融新闻长文本的事件句抽取方法", 《中国优秀硕士论文电子期刊》 *
何鸿业;郑瑾;张祖平;: "结合词性特征与卷积神经网络的文本情感分析", 计算机工程, no. 11, pages 215 - 220 *
张彦楠;黄小红;马严;丛群;: "基于深度学习的录音文本分类方法", 浙江大学学报(工学版), no. 07, pages 21 - 28 *

Also Published As

Publication number Publication date
CN116050383B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN106156365B (zh) 一种知识图谱的生成方法及装置
CN107958091A (zh) 一种基于金融垂直知识图谱的nlp人工智能方法及交互系统
CN111475615B (zh) 一种情感增强的细粒度情感预测方法、装置、系统及存储介质
CN110858269B (zh) 事实描述文本预测方法及装置
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN110188781A (zh) 一种基于深度学习的古诗文自动识别方法
CN111858878B (zh) 从自然语言文本中自动提取答案的方法、系统及存储介质
CN112818742A (zh) 一种用于智能面试的表达能力维度评价方法及装置
CN111782793A (zh) 智能客服处理方法和系统及设备
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN112507124A (zh) 一种基于图模型的篇章级别事件因果关系抽取方法
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN112036705A (zh) 一种质检结果数据获取方法、装置及设备
CN110610003A (zh) 用于辅助文本标注的方法和系统
CN114398480A (zh) 基于关键信息抽取的金融舆情细分方面检测方法和设备
CN112434514B (zh) 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备
CN116050383B (zh) 一种理财产品销售环节飞单话术检测方法及系统
CN116738198A (zh) 信息识别方法、装置、设备、介质及产品
CN115731030A (zh) 一种银行消费贷款客户需求挖掘方法、装置及存储介质
CN115186051A (zh) 敏感词检测方法、装置及计算机可读存储介质
CN115080732A (zh) 投诉工单处理方法、装置、电子设备和存储介质
CN114356982A (zh) 营销合规性检查方法、装置、计算机设备及存储介质
CN114764913A (zh) 融入标签信息的案情要素识别方法
CN114969195A (zh) 对话内容挖掘方法和对话内容评估模型的生成方法
JP7216627B2 (ja) 入力支援方法、入力支援システム、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant