CN111797194A - 文本风险检测方法、装置、电子设备及存储介质 - Google Patents
文本风险检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111797194A CN111797194A CN202010432860.8A CN202010432860A CN111797194A CN 111797194 A CN111797194 A CN 111797194A CN 202010432860 A CN202010432860 A CN 202010432860A CN 111797194 A CN111797194 A CN 111797194A
- Authority
- CN
- China
- Prior art keywords
- text
- risk
- attribute
- detected
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 57
- 239000013598 vector Substances 0.000 claims abstract description 77
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 42
- 230000008447 perception Effects 0.000 claims abstract description 37
- 238000004138 cluster model Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 20
- 238000011176 pooling Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 208000014674 injury Diseases 0.000 description 2
- 208000012260 Accidental injury Diseases 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种文本风险检测方法、装置、电子设备及存储介质,该方法包括:对待检测文本进行多个风险属性的二分类处理,得到待检测文本的风险属性特征;将待检测文本编码为隐向量;提取隐向量的文本语义特征;根据风险属性特征,从所述隐向量中提取与风险属性特征相关联的特征,作为属性感知特征;根据文本语义特征和属性感知特征,确定待检测文本的风险等级。本申请实施例通过聚类来确定风险属性,可以避免人工确定风险属性的不准确性,可以避免人工确定的风险属性遗漏文本样本中的风险属性导致的学习偏差,而且结合文本语义特征和属性感知特征,可以使得小样本类别得到很好的效果提升,从而可以提高文本风险检测结果的准确性。
Description
技术领域
本申请实施例及自然语言处理技术领域,特别是涉及一种文本风险检测方法、装置、电子设备及存储介质。
背景技术
用户在使用产品服务时会遇到一些问题,这时可以通过客服聊天系统向客服平台投诉,客服人员对用户投诉的事实进行描述形成客服工单。通过理解客服工单中投诉的问题,分析问题的风险,对有效预防舆情风险有着至关重要的作用。
当前对于工单内容的理解既属于文本分类范畴,又因为其稀疏性可以使用小样本的检测方法来识别文本风险。现有技术中,对文本中的少量样本进行识别可以使用如下方法:基于规则的方法、基于异常点检测的方法、使用无监督或半监督聚类的方法、使用单分类(one-class)的分类方法、使用预训练模型调优的方法。
其中,基于规则使用关键词进行文本匹配的方法,可以有效过滤出带有某些关键词的工单,然后进行人工处理,但是命中率有限,且误伤比较严重,文本表述的多样性和语义表达的隐含性导致这种方法在召回率和准确率上都很难有效提升。使用异常点检测的方式需要将文本向量化,而向量化的质量很大程度上决定了最终检测的质量,如使用TF-IDF、One-Hot或互信息等方法能在一定程度上体现文本中词的出现情况,但对于文本语义却很难刻画,若使用深度语义模型,则受限于那些样本较少的风险案例,异常点检测的方法具有一定的效果,但是难以提高其识别精度。无监督的方法进行风险等级的聚类则不一定能将人为定义的风险等级聚集在一起,聚类的结果很难控制。而若使用半监督分类方法,则分类的效果同样受限于小样本的数量,样本数量越小,所能学习到的信息就越少,加之对无标签样本的学习更是依赖于有标签样本的表征,这种表征同样也依赖数据的丰富性和一致性。使用one-class模型进行分类的方法,一方面由于单类别中存在一定噪声,使得结果会有偏差,其次这种方法也较难提取文本语义信息,很难理解风险案例,也很难进行等级划分。对于使用预训练(pre-train)模型再进行微调(fine-tune)的方法,这种方法可以一定程度上解决小样本类别难以分类的问题,但其解决该问题的程度是有限的,一方面,预训练模型通常都是在一个比较大的通用数据集上进行训练,然后再放到工单文本风险检测领域进行调优,很显然它对小样本的学习与对普通样本的学习程度是存在偏差的,当普通样本已经具有较好的分类效果且鲁棒性较强时,小样本可能依然未能得到充分的学习,导致其检测能力和鲁棒性都较差。
综上,现有方式对于小样本数据的风险检测能力都较低,导致风险检测准确性低。
发明内容
本申请实施例提供一种文本风险检测方法、装置、电子设备及存储介质,以提高文本风险检测准确性。
为了解决上述问题,第一方面,本申请实施例提供了一种文本风险检测方法,包括:
对待检测文本进行多个风险属性的二分类处理,得到待检测文本的风险属性特征,所述多个风险属性为使用文本聚类算法对文本样本进行聚类得到的;
将待检测文本编码为隐向量;
提取所述隐向量的文本语义特征;
根据所述风险属性特征,从所述隐向量中提取与风险属性特征相关联的特征,作为属性感知特征;
根据所述文本语义特征和所述属性感知特征,确定所述待检测文本的风险等级。
可选的,所述对待检测文本进行多个风险属性的二分类处理,得到待检测文本的风险属性特征,包括:
将所述待检测文本输入训练完成的风险属性聚类模型,通过所述风险属性聚类模型对待检测文本进行多个风险属性的二分类处理,得到所述待检测文本的风险属性特征。
可选的,在所述将所述待检测文本输入训练完成的风险属性聚类模型之前,还包括:
获取待聚类的类别数量和文本样本;
根据所述类别数量和文本样本,对基于文本聚类算法的风险属性聚类模型进行训练,以将所述文本样本聚类为所述类别数量的簇,并得到每个簇的中心点;
将每个簇作为一个风险属性,并将簇的中心点作为风险属性的中心点,得到所述类别数量的风险属性。
可选的,所述通过所述风险属性聚类模型对待检测文本进行多个风险属性的二分类处理,得到所述待检测文本的风险属性特征,包括:
通过风险属性聚类模型确定待检测文本与每个风险属性的中心点的距离;
根据所述距离和预设阈值,对待检测文本进行多个风险属性的二分类处理,得到所述待检测文本的风险属性特征。
可选的,所述根据所述风险属性特征,从所述隐向量中提取与风险属性特征相关联的特征,作为属性感知特征,包括:
根据所述风险属性特征,通过注意力机制从所述隐向量中提取与风险属性特征相关联的特征,作为属性感知特征。
可选的,提取所述向量矩阵的文本语义特征,包括:
对所述隐向量进行池化处理,以提取所述隐向量的文本语义特征。
第二方面,本申请实施例提供了一种文本风险检测装置,包括:
聚类模块,用于对待检测文本进行多个风险属性的二分类处理,得到待检测文本的风险属性特征,所述多个风险属性为使用文本聚类算法对文本样本进行聚类得到的;
编码模块,用于将待检测文本编码为隐向量;
文本特征提取模块,用于提取所述隐向量的文本语义特征;
属性特征提取模块,用于根据所述风险属性特征,从所述隐向量中提取与风险属性特征相关联的特征,作为属性感知特征;
风险等级确定模块,用于根据所述文本语义特征和所述属性感知特征,确定所述待检测文本的风险等级。
可选的,所述聚类模块具体用于:
将所述待检测文本输入训练完成的风险属性聚类模型,通过所述风险属性聚类模型对待检测文本进行多个风险属性的二分类处理,得到所述待检测文本的风险属性特征。
可选的,所述装置还包括:
训练数据获取模块,用于获取待聚类的类别数量和文本样本;
聚类模型训练模块,用于根据所述类别数量和文本样本,对基于文本聚类算法的风险属性聚类模型进行训练,以将所述文本样本聚类为所述类别数量的簇,得到每个簇的中心点;
风险属性确定模块,用于将每个簇作为一个风险属性,并将簇的中心点作为风险属性的中心点,得到所述类别数量的风险属性。
可选的,所述聚类模块包括:
距离确定单元,用于通过风险属性聚类模型确定待检测文本与每个风险属性的中心点的距离;
风险属性确定单元,用于根据所述距离和预设阈值,对待检测文本进行多个风险属性的二分类处理,得到所述待检测文本的风险属性特征。
可选的,所述属性特征提取模块具体用于:
根据所述风险属性特征,通过注意力机制从所述隐向量中提取与风险属性特征相关联的特征,作为属性感知特征。
可选的,所述文本特征提取模块具体用于:
对所述隐向量进行池化处理,以提取所述隐向量的文本语义特征。
第三方面,本申请实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的文本风险检测方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的文本风险检测方法的步骤。
本申请实施例提供的文本风险检测方法、装置、电子设备及存储介质,通过对待检测文本进行多个风险属性的二分类处理,得到待检测文本的风险属性特征,提取待检测文本的文本语义特征,从待检测文本的隐向量中提取与风险属性特征相关联的特征,作为属性感知特征,根据文本语义特征和属性感知特征确定待检测文本的风险等级,从而通过对待检测文本进行多个风险属性的二分类处理来确定待检测文本的风险属性特征,可以避免人工确定风险属性的不准确性,可以避免人工确定的风险属性遗漏文本样本中的风险属性导致的学习偏差,而且结合文本语义特征和属性感知特征,可以使得小样本类别得到很好的效果提升,从而可以提高文本风险检测结果的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一的文本风险检测方法的流程图;
图2是本申请实施例中每个风险等级下的文本样本覆盖于不同属性簇的平面映射图;
图3是本申请实施例中的文本风险检测模型的网络结构图;
图4是本申请实施例二的文本风险检测装置的结构示意图;
图5是本申请实施例三的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
本实施例提供的一种文本风险检测方法,可以适用于对客服工单中的投诉问题进行风险检测,如图1所示,该方法包括:步骤110至步骤150。
步骤110,对待检测文本进行多个风险属性的二分类处理,得到待检测文本的风险属性特征,所述多个风险属性为使用文本聚类算法对文本样本进行聚类得到的。
其中,待检测文本为一个客服工单中描述投诉问题的文本。在客服工单的风险中,包含人身安全、隐私泄露、盗窃、交通安全、食品安全等多种事件类型,每种事件类型按照其造成伤害的严重程度进行划分,可以划分为预设等级的风险,例如划分为三个等级的风险,即一级、二级和三级风险,其严重程度可以依次递减,风险等级的划分可以由人工确定。一般对于较高的风险等级,如一级、二级,风险案例较少,即能获取到的对应该等级的文本样本较少,而对于较低的风险等级,风险案例较多,即能获取到的对应该等级的文本样本较多,从而各个风险等级的文本样本不平衡,采用一般的模型无法对小样本的较高风险等级进行准确预测,而本申请实施例通过聚类模型来确定风险属性,并结合文本的本身语义特征和与风险属性相关联的属性感知特征来进行预测,可以解决这种小样本的问题。
本申请实施例中根据待检测文本所具有的风险属性特征来确定待检测文本的风险等级,因此,需要确定待检测文本的风险属性特征。首先对待检测文本进行预处理,即对待检测文本进行分词,得到分词结果,对各个分词结果进行编码,得到待检测文本对应的编码向量。从而通过文本聚类算法对待检测文本的编码向量进行多个风险属性的二分类处理,即针对每个风险属性,分别确定待检测文本是否包含该风险属性,从而得到待检测文本的风险属性特征,即确定待检测文本所具有的风险属性。
其中,所述风险属性例如可以是“是否造成重大伤亡”、“食物是否导致身体不适”、“是否就医”等。可以预先设置每个属性的取值,如相关取0,不相关取1,例如对于待检测文本“骑手在小区门口发生交通事故,造成头部出血,现已送往医院”,则“是否造成重大伤亡”、“食物是否导致身体不适”、“是否就医”这三个属性分别取0、1、0,从而得到待检测文本的风险属性特征。
在将待检测文本编码为编码向量时,可以按照预设的方式对待检测文本进行编码,例如可以将分词结果分别与预设词语进行比较,分词结果中存在的预设词语编码为1,不存在的预设词语编码为0,从而按照预设词语的一定顺序得到待检测文本的编码向量;或者,还可以确定各个分词结果的词向量,对各个分词结果的词向量取平均,将得到的平均向量作为待检测文本的编码向量。
在本申请的一个实施例中,所述对待检测文本进行多个风险属性的二分类处理,得到待检测文本的风险属性特征,包括:将所述待检测文本输入训练完成的风险属性聚类模型,通过所述风险属性聚类模型对待检测文本进行多个风险属性的二分类处理,得到所述待检测文本的风险属性特征。
其中,所述风险属性聚类模型是基于文本聚类算法的聚类模型,可以使用LDA(Latent Dirichlet Allocation,隐狄利克雷分配)主题模型,也可以使用K-Means或DBSCAN等。LDA是一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息,采用了词袋的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。
通过训练完成的风险属性聚类模型对待检测文件进行多个风险属性的二分类处理,来确定待检测文本的风险属性特征,可以得到较为准确的风险属性特征,从而可以提高风险检测结果的准确性。
在本申请的一个实施例中,在所述将所述待检测文本输入训练完成的风险属性聚类模型之前,还包括:获取待聚类的类别数量和文本样本;根据所述类别数量和文本样本,对基于文本聚类算法的风险属性聚类模型进行训练,以将所述文本样本聚类为所述类别数量的簇,得到每个簇的中心点;将每个簇作为一个风险属性,并将簇的中心点作为风险属性的中心点,得到所述类别数量的风险属性。
其中,文本样本是一些客服工单中的文本和对应的风险等级标签,风险等级标签是由人工标注的风险等级。
在对风险属性聚类模型进行训练时,需要由人工确定所需要的风险属性的数量,即待聚类的类别数量,从而电子设备在对风险属性聚类模型进行训练时首先获取待聚类的类别数量和文本样本,风险属性聚类模型生成所述类别数量的中心点,即首先生成各个簇的中心点,在训练的过程中通过训练样本来调整各个簇的中心点,计算文本样本与各个簇的中心点的距离,根据距离与预设阈值的关系确定文本样本所属的簇,在训练时使得每一个文本样本至少归属于一个簇,但不归属于所有簇,在中心点收敛时,风险属性聚类模型训练完成,从而将文本样本聚类为所述类别数量的簇,得到每个簇的中心点,将每个簇作为一个风险属性,并将簇的中心点作为风险属性的中心点,得到所述类别数量的风险属性。每个簇的簇大小的确定可以按照相关聚类算法的整体损失值进行设定。
在风险属性聚类模型训练完成后,对于每个文本样本可以通过风险属性聚类模型得到对应的风险属性特征,从而结合文本样本的风险等级标签,可以确定每个风险等级的文本样本所包含的风险属性,可以将包含的风险属性取值为0,即文本样本对该风险属性敏感,将不包含的风险属性取值为1,即文本样本对该风险属性不敏感,从而可以确定每个风险等级下的每个文本样本对应的0-1编码,作为风险属性特征。图2是本申请实施例中每个风险等级下的文本样本覆盖于不同风险属性的平面映射图,如图2所示,每一个文本样本至少归属于一个风险属性,但不归属于所有风险属性,所有文本样本都会划分到不同风险属性中,这些风险属性将所有文本样本覆盖,而每个风险属性可能跨越多个风险等级,每个文本样本也可能归属多个风险属性。每个风险等级下不同文本样本对同一个风险属性的敏感程度可能不同。假设通过聚类得到13个风险属性,则将风险等级与每个风险属性的可能的一种对应情况以表格呈现可以如表1所示。
通过风险属性聚类模型来对文本样本进行风险属性聚类,而不是由人工确定每个等级的风险属性,可以提高风险属性的覆盖性,并可以减少属性设计上的人为偏差。
表1风险等级与每个风险属性的对应情况
在本申请的一个实施例中,所述通过所述风险属性聚类模型对待检测文本进行多个风险属性的二分类处理,得到所述待检测文本的风险属性特征,包括:通过风险属性聚类模型确定待检测文本与每个风险属性的中心点的距离;根据所述距离和预设阈值,对待检测文本进行多个风险属性的二分类处理,得到所述待检测文本的风险属性特征。
其中,所述距离可以是曼哈顿距离、欧几里得距离或者汉明距离,还可以使用其他度量方法确定。
风险属性聚类模型训练完成后,每个风险属性的中心点就确定了,从而将待检测文本输入风险属性聚类模型后,风险属性聚类模型可以确定待检测文本与每个风险属性的中心点的距离,将得到的每个距离与预设阈值进行比较,若距离小于或等于预设阈值,则确定待检测文本包含该风险属性,若距离大于预设阈值,则确定待检测文本不包含该风险属性,从而得到待检测文本的风险属性特征。通过风险属性聚类模型确定的待检测文本的风险属性特征,可以作为后续风险属性检测的先验特征,以提高检测结果的准确性。
步骤120,将待检测文本编码为隐向量。
先通过预训练好的词向量将待检测文本编码为向量矩阵,然后对向量矩阵进行处理,将向量矩阵编码为隐向量。可以使用LSTM(Long Short-Term Memory,长短期记忆网络)来将向量矩阵编码为隐向量。LSTM是RNN的一个变体,它可以捕捉长期依赖关系,捕捉到待检测文本中的语义事实。其中,隐向量可以是一个向量,也可以是一个矩阵。
其中,通过预训练好的词向量将待检测文本编码为向量矩阵,可以使用Word2Vec模型、Glove模型、Elmo模型或BERT模型等来实现。
步骤130,提取所述隐向量的文本语义特征。
对所述隐向量进行处理,以提取隐向量中潜在的文本语义特征,提取到的文本语义特征是与风险属性无关的特征,可以称之为属性无关特征。可以采用池化、卷积等方式来提取文本语义特征。
在本申请的一个实施例中,所述提取所述向量矩阵的文本语义特征,包括:对所述隐向量进行池化处理,以提取所述隐向量的文本语义特征。
其中,所述池化处理可以采用最大池化处理、K-最大池化处理(K-Max Pooling)、平均池化处理等。
通过对隐向量进行池化处理来提取隐向量的文本语义特征,可以提取到待检测文本中潜在的语义特征,而且池化处理方式处理速度较快,可以提高处理速度。
步骤140,根据所述风险属性特征,从所述隐向量中提取与风险属性特征相关联的特征,作为属性感知特征。
可以使用注意力机制或者Transfome模型来从隐向量中提取与风险属性特征相关联的特征,得到属性感知特征。提取属性感知特征的过程相当于是进行多个二分类的过程,即确定隐向量在各个风险属性的取值。
在本申请的一个实施例中,所述根据所述风险属性特征,从所述隐向量中提取与风险属性特征相关联的特征,作为属性感知特征,包括:根据所述风险属性特征,通过注意力机制从所述隐向量中提取与风险属性特征相关联的特征,作为属性感知特征。
从而根据风险属性特征和隐向量,计算隐向量中的各个元素属于各个风险属性的注意力权重,并基于注意力权重对隐向量中的各个元素进行计算,得到属性感知特征。由于风险属性特征是通过聚类得到的待检测文本的先验特征,从而结合风险属性特征,来提取隐向量中的属性感知特征,可以提取到较为准确的属性感知特征,从而可以进一步提高风险检测结果的准确性。
步骤150,根据所述文本语义特征和所述属性感知特征,确定所述待检测文本的风险等级。
文本语义特征可以抽取到文本本身的特征,这些特征可以直接用作风险等级的文本表征,而属性感知特征则可以抽取到与各风险属性相关的关键词或关键词组表达,从而刻画各风险属性与待检测文本的语义相关关系,通过融合文本语义特征和属性感知特征,可以得到待检测文本的风险等级。最终的风险等级输出是将文本语义特征与属性感知特征以线性的方式进行融合输出。
本申请实施例中的文本风险检测方法可以通过文本风险检测模型来实现,图3是本申请实施例中的文本风险检测模型的网络结构图,如图3所示,所述文本风险检测模型包括:编码层、聚类层、池化层、属性预测层、融合层和输出层。其中,编码层用于将待检测文本编码为隐向量;聚类层用于确定待检测文本的风险属性特征;池化层用于提取隐向量的文本语义特征;属性预测层根据聚类层确定的风险属性特征提取隐向量中与风险属性特征相关联的特征,作为属性感知特征;融合层用于融合文本语义特征和属性感知特征,即将文本语义特征和属性感知特征拼接为一个整体的特征;输出层可以采用Softmax函数对融合层融合得到的特征进行处理,使之映射为风险等级,从而得到待检测文本的风险等级。
聚类层即采用上述的风险属性聚类模型,先使用文本样本对聚类层使用的风险属性聚类模型进行训练,使得风险属性聚类模型将文本样本聚类为所要求的类别数量的风险属性,在风险属性聚类模型训练完成后,确定各个文本样本的风险属性特征,从而根据各个文本样本的风险等级标签,建立风险属性特征与风险等级标签的映射关系,从而得到每个文本样本在属性预测层的属性标签。之后,采用所述文本样本对文本风险检测模型的其他层进行训练,学习文本样本对每一个风险属性的取值情况,即学习属性感知特征,以及属性感知特征与风险等级的关系,根据文本的属性标签和风险等级对池化层、属性预测层、融合层和输出层的网络参数进行调整,直至文本风险检测模型训练完成。
在对文本风险检测模型进行训练时,对于属性预测层中,对风险属性和取值的设计需要遵循以下原则:一个文本样本对一个风险属性只能标记为是或否(即0或1);针对某个风险属性,相同风险等级下的每一个文本样本的标签应该是相同的或者没有冲突的;这些风险属性可以囊括所有的文本样本。
由于风险属性可以提供有关如何区分风险等级的明确知识,而且这些风险属性由所有风险等级共享,并且知识可以从多样本的风险等级转换为小样本的风险等级,即使对于小样本也可学习用于预测的有效的属性感知特征,从而可以提高文本风险检测结果的准确性和召回率。
本申请实施例提供的文本风险检测方法,通过对待检测文本进行多个风险属性的二分类处理,得到待检测文本的风险属性特征,提取待检测文本的文本语义特征,从待检测文本的隐向量中提取与风险属性特征相关联的特征,作为属性感知特征,根据文本语义特征和属性感知特征确定待检测文本的风险等级,从而通过对待检测文本进行多个风险属性的二分类处理来确定待检测文本的风险属性特征,可以避免人工确定风险属性的不准确性,可以避免人工确定的风险属性遗漏文本样本中的风险属性导致的学习偏差,而且结合文本语义特征和属性感知特征,可以使得小样本类别得到很好的效果提升,从而可以提高文本风险检测结果的准确性和召回率。
实施例二
本实施例提供的一种文本风险检测装置,如图4所示,所述文本风险检测装置400包括:
聚类模块410,用于对待检测文本进行多个风险属性的二分类处理,得到待检测文本的风险属性特征,所述多个风险属性为使用文本聚类算法对文本样本进行聚类得到的;
编码模块420,用于将待检测文本编码为隐向量;
文本特征提取模块430,用于提取所述隐向量的文本语义特征;
属性特征提取模块440,用于根据所述风险属性特征,从所述隐向量中提取与风险属性特征相关联的特征,作为属性感知特征;
风险等级确定模块450,用于根据所述文本语义特征和所述属性感知特征,确定所述待检测文本的风险等级。
可选的,所述聚类模块具体用于:
将所述待检测文本输入训练完成的风险属性聚类模型,通过所述风险属性聚类模型对待检测文本进行多个风险属性的二分类处理,得到所述待检测文本的风险属性特征。
可选的,所述装置还包括:
训练数据获取模块,用于获取待聚类的类别数量和文本样本;
聚类模型训练模块,用于根据所述类别数量和文本样本,对基于文本聚类算法的风险属性聚类模型进行训练,以将所述文本样本聚类为所述类别数量的簇,得到每个簇的中心点;
风险属性确定模块,用于将每个簇作为一个风险属性,并将簇的中心点作为风险属性的中心点,得到所述类别数量的风险属性。
可选的,所述聚类模块包括:
距离确定单元,用于通过风险属性聚类模型确定待检测文本与每个风险属性的中心点的距离;
风险属性确定单元,用于根据所述距离和预设阈值,对待检测文本进行多个风险属性的二分类处理,得到所述待检测文本的风险属性特征。
可选的,所述属性特征提取模块具体用于:
根据所述风险属性特征,通过注意力机制从所述隐向量中提取与风险属性特征相关联的特征,作为属性感知特征。
可选的,所述文本特征提取模块具体用于:
对所述隐向量进行池化处理,以提取所述隐向量的文本语义特征。
本申请实施例提供的文本风险检测装置,用于实现本申请实施例一中所述的文本风险检测方法的各步骤,装置的各模块的具体实施方式参见相应步骤,此处不再赘述。
本申请实施例提供的文本风险检测装置,通过聚类模块对待检测文本进行多个风险属性的二分类处理,得到待检测文本的风险属性特征,文本特征提取模块提取待检测文本的文本语义特征,属性特征提取模块从待检测文本的隐向量中提取与风险属性特征相关联的特征,作为属性感知特征,风险等级确定模块根据文本语义特征和属性感知特征确定待检测文本的风险等级,从而通过对待检测文本进行多个风险属性的二分类处理来确定风险属性特征,可以避免人工确定风险属性的不准确性,可以避免人工确定的风险属性遗漏文本样本中的风险属性导致的学习偏差,而且结合文本语义特征和属性感知特征,可以使得小样本类别得到很好的效果提升,从而可以提高文本风险检测结果的准确性和召回率。
实施例三
本申请实施例还提供了一种电子设备,如图5所示,该电子设备500可以包括一个或多个处理器510以及与处理器510连接的一个或多个存储器520。电子设备500还可以包括输入接口530和输出接口540,用于与另一装置或系统进行通信。被处理器510执行的程序代码可存储在存储器520中。
电子设备500中的处理器510调用存储在存储器520的程序代码,以执行上述实施例中的文本风险检测方法。
上述电子设备中的上述元件可通过总线彼此连接,总线例如数据总线、地址总线、控制总线、扩展总线和局部总线之一或其任意组合。
本申请实施例还公提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例一所述的文本风险检测方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请实施例提供的一种文本风险检测方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
Claims (10)
1.一种文本风险检测方法,包括:
对待检测文本进行多个风险属性的二分类处理,得到待检测文本的风险属性特征,所述多个风险属性为使用文本聚类算法对文本样本进行聚类得到的;
将待检测文本编码为隐向量;
提取所述隐向量的文本语义特征;
根据所述风险属性特征,从所述隐向量中提取与风险属性特征相关联的特征,作为属性感知特征;
根据所述文本语义特征和所述属性感知特征,确定所述待检测文本的风险等级。
2.根据权利要求1所述的方法,所述对待检测文本进行多个风险属性的二分类处理,得到待检测文本的风险属性特征,包括:
将所述待检测文本输入训练完成的风险属性聚类模型,通过所述风险属性聚类模型对待检测文本进行多个风险属性的二分类处理,得到所述待检测文本的风险属性特征。
3.根据权利要求2所述的方法,在所述将所述待检测文本输入训练完成的风险属性聚类模型之前,还包括:
获取待聚类的类别数量和文本样本;
根据所述类别数量和文本样本,对基于文本聚类算法的风险属性聚类模型进行训练,以将所述文本样本聚类为所述类别数量的簇,并得到每个簇的中心点;
将每个簇作为一个风险属性,并将簇的中心点作为风险属性的中心点,得到所述类别数量的风险属性。
4.根据权利要求3所述的方法,所述通过所述风险属性聚类模型对待检测文本进行多个风险属性的二分类处理,得到所述待检测文本的风险属性特征,包括:
通过风险属性聚类模型确定待检测文本与每个风险属性的中心点的距离;
根据所述距离和预设阈值,对待检测文本进行多个风险属性的二分类处理,得到所述待检测文本的风险属性特征。
5.根据权利要求1-4任一项所述的方法,所述根据所述风险属性特征,从所述隐向量中提取与风险属性特征相关联的特征,作为属性感知特征,包括:
根据所述风险属性特征,通过注意力机制从所述隐向量中提取与风险属性特征相关联的特征,作为属性感知特征。
6.根据权利要求1-4任一项所述的方法,提取所述向量矩阵的文本语义特征,包括:
对所述隐向量进行池化处理,以提取所述隐向量的文本语义特征。
7.一种文本风险检测装置,包括:
聚类模块,用于对待检测文本进行多个风险属性的二分类处理,得到待检测文本的风险属性特征,所述多个风险属性为使用文本聚类算法对文本样本进行聚类得到的;
编码模块,用于将待检测文本编码为隐向量;
文本特征提取模块,用于提取所述隐向量的文本语义特征;
属性特征提取模块,用于根据所述风险属性特征,从所述隐向量中提取与风险属性特征相关联的特征,作为属性感知特征;
风险等级确定模块,用于根据所述文本语义特征和所述属性感知特征,确定所述待检测文本的风险等级。
8.根据权利要求7所述的装置,所述聚类模块具体用于:
将所述待检测文本输入训练完成的风险属性聚类模型,通过所述风险属性聚类模型对待检测文本进行多个风险属性的二分类处理,得到所述待检测文本的风险属性特征。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至6任意一项所述的文本风险检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1至6任意一项所述的文本风险检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010432860.8A CN111797194B (zh) | 2020-05-20 | 2020-05-20 | 文本风险检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010432860.8A CN111797194B (zh) | 2020-05-20 | 2020-05-20 | 文本风险检测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111797194A true CN111797194A (zh) | 2020-10-20 |
CN111797194B CN111797194B (zh) | 2024-04-02 |
Family
ID=72806719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010432860.8A Active CN111797194B (zh) | 2020-05-20 | 2020-05-20 | 文本风险检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797194B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861511A (zh) * | 2021-03-03 | 2021-05-28 | 深圳前海微众银行股份有限公司 | 风险文本的提取方法、装置、电子设备及存储介质 |
CN112861511B (zh) * | 2021-03-03 | 2024-06-07 | 深圳前海微众银行股份有限公司 | 风险文本的提取方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710651A (zh) * | 2018-05-08 | 2018-10-26 | 华南理工大学 | 一种大规模客户投诉数据自动分类方法 |
GB201904719D0 (en) * | 2019-04-03 | 2019-05-15 | Mashtraxx Ltd | Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content |
CN109829154A (zh) * | 2019-01-16 | 2019-05-31 | 中南民族大学 | 基于语义的人格预测方法、用户设备、存储介质及装置 |
CN110046251A (zh) * | 2019-03-22 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 社区内容风险评估方法及装置 |
US20190294874A1 (en) * | 2018-03-23 | 2019-09-26 | Abbyy Production Llc | Automatic definition of set of categories for document classification |
CN110516073A (zh) * | 2019-08-30 | 2019-11-29 | 北京百度网讯科技有限公司 | 一种文本分类方法、装置、设备和介质 |
CN111061877A (zh) * | 2019-12-10 | 2020-04-24 | 厦门市美亚柏科信息股份有限公司 | 文本主题提取方法和装置 |
-
2020
- 2020-05-20 CN CN202010432860.8A patent/CN111797194B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190294874A1 (en) * | 2018-03-23 | 2019-09-26 | Abbyy Production Llc | Automatic definition of set of categories for document classification |
CN108710651A (zh) * | 2018-05-08 | 2018-10-26 | 华南理工大学 | 一种大规模客户投诉数据自动分类方法 |
CN109829154A (zh) * | 2019-01-16 | 2019-05-31 | 中南民族大学 | 基于语义的人格预测方法、用户设备、存储介质及装置 |
CN110046251A (zh) * | 2019-03-22 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 社区内容风险评估方法及装置 |
GB201904719D0 (en) * | 2019-04-03 | 2019-05-15 | Mashtraxx Ltd | Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content |
CN110516073A (zh) * | 2019-08-30 | 2019-11-29 | 北京百度网讯科技有限公司 | 一种文本分类方法、装置、设备和介质 |
CN111061877A (zh) * | 2019-12-10 | 2020-04-24 | 厦门市美亚柏科信息股份有限公司 | 文本主题提取方法和装置 |
Non-Patent Citations (3)
Title |
---|
JIANXIN ZHANG等: "Semantic Representation Based on Clustering and Attention Mechanism to Identify Deceptive Comment Models", JOURNAL OF COMPUTERS, pages 130 - 139 * |
ZIHENG CHEN等: "Short Text Embedding for Clustering Based on Word and Topic Semantic Information", 2019 IEEE INTERNATIONAL CONFERENCE ON DATA SCIENCE AND ADVANCED ANALYTICS(DSAA), pages 61 - 70 * |
孙铭阳: "基于语义表示的多视图短文本序列分类研究", 中国优秀硕士学位论文全文数据库 信息科技辑, pages 3 - 4 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861511A (zh) * | 2021-03-03 | 2021-05-28 | 深圳前海微众银行股份有限公司 | 风险文本的提取方法、装置、电子设备及存储介质 |
CN112861511B (zh) * | 2021-03-03 | 2024-06-07 | 深圳前海微众银行股份有限公司 | 风险文本的提取方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111797194B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
CA3083723C (en) | Method and apparatus for providing personalized self-help experience | |
US20170193086A1 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN111858843B (zh) | 一种文本分类方法及装置 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN110287314B (zh) | 基于无监督聚类的长文本可信度评估方法及系统 | |
CN111428028A (zh) | 基于深度学习的信息分类方法及相关设备 | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN111177367A (zh) | 案件分类方法、分类模型训练方法及相关产品 | |
CN113553412A (zh) | 问答处理方法、装置、电子设备和存储介质 | |
CN113032525A (zh) | 虚假新闻检测方法、装置、电子设备以及存储介质 | |
CN112347223A (zh) | 文档检索方法、设备及计算机可读存储介质 | |
CN115329176A (zh) | 搜索请求的处理方法、装置、计算机设备及存储介质 | |
CN115761839A (zh) | 人脸活体检测模型的训练方法、人脸活体检测方法及装置 | |
CN112149410A (zh) | 语义识别方法、装置、计算机设备和存储介质 | |
CN114090793A (zh) | 信息抽取方法、装置、电子设备及计算机可读介质及产品 | |
CN113515593A (zh) | 基于聚类模型的话题检测方法、装置和计算机设备 | |
CN111460114A (zh) | 检索方法、装置、设备及计算机可读存储介质 | |
CN115186085A (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 | |
CN111797194B (zh) | 文本风险检测方法、装置、电子设备及存储介质 | |
CN107590163B (zh) | 文本特征选择的方法、装置和系统 | |
CN113177164B (zh) | 基于大数据的多平台协同新媒体内容监控管理系统 | |
CN112632229A (zh) | 文本聚类方法及装置 | |
Ullah et al. | Unveiling the Power of Deep Learning: A Comparative Study of LSTM, BERT, and GRU for Disaster Tweet Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |