CN112861511A - 风险文本的提取方法、装置、电子设备及存储介质 - Google Patents

风险文本的提取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112861511A
CN112861511A CN202110236241.6A CN202110236241A CN112861511A CN 112861511 A CN112861511 A CN 112861511A CN 202110236241 A CN202110236241 A CN 202110236241A CN 112861511 A CN112861511 A CN 112861511A
Authority
CN
China
Prior art keywords
text
risk
segments
feature
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110236241.6A
Other languages
English (en)
Other versions
CN112861511B (zh
Inventor
张超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202110236241.6A priority Critical patent/CN112861511B/zh
Publication of CN112861511A publication Critical patent/CN112861511A/zh
Application granted granted Critical
Publication of CN112861511B publication Critical patent/CN112861511B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种风险文本的提取方法、装置、电子设备、计算机可读存储介质及计算机程序产品;方法包括:通过风险分类模型的特征提取层,对包含多个文本片段的待处理文本进行特征提取,得到每一个所述文本片段对应的特征值;其中,所述风险分类模型,用于对待处理文本进行至少两个风险类别的分类;通过所述风险分类模型的预测层,分别基于各所述文本片段对应的特征值,确定相应的所述文本片段与各所述风险类别的关联度;从所述多个文本片段中,分别选取与各所述风险类别的关联度满足关联度条件的文本片段,并将选取的文本片段作为从所述待处理文本中提取的风险文本。通过本申请,能够提高风险文本提取的即时性。

Description

风险文本的提取方法、装置、电子设备及存储介质
技术领域
本申请涉及文本处理技术,尤其涉及一种风险文本的提取方法、装置、电子设备及存储介质。
背景技术
随着信息技术的发展,各类信息越来越多地渗透进人们生活的方方面面,而如今人们在浏览信息时,常常会遇到存在负面影响的风险信息,例如欺诈信息,而这些信息往往难以被人们直接地人为识别,从而对人们造成一定的负面影响,如被欺诈后造成经济损失等。因而,为了避免上述负面影响的发生,需要对提供给用户浏览的文本信息进行风险信息提取。
相关技术中,为了提取出待处理文本中的风险文本,通常的做法是人为预先挖掘大量风险文本作为语料库,然后将该语料库与待处理文本进行硬匹配以进行风险文本的提取。然而在实际场景中,风险文本往往更新很快,那么就需要频繁的人为更新风险文本语料库,然后再基于此进行风险文本的提取,具有一定的滞后性。
发明内容
本申请实施例提供一种风险文本的提取方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够提高风险文本提取的即时性。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种风险文本的提取方法,包括:
通过风险分类模型的特征提取层,对包含多个文本片段的待处理文本进行特征提取,得到每一个所述文本片段对应的特征值;
其中,所述风险分类模型,用于对待处理文本进行至少两个风险类别的分类;
通过所述风险分类模型的预测层,分别基于各所述文本片段对应的特征值,确定相应的所述文本片段与各所述风险类别的关联度;
从所述多个文本片段中,分别选取与各所述风险类别的关联度满足关联度条件的文本片段,并将选取的文本片段作为从所述待处理文本中提取的风险文本。
本申请实施例提供一种风险文本的提取装置,包括:
特征提取模块,用于通过风险分类模型的特征提取层,对包含多个文本片段的待处理文本进行特征提取,得到每一个所述文本片段对应的特征值;
其中,所述风险分类模型,用于对待处理文本进行至少两个风险类别的分类;
关联度确定模块,用于通过所述风险分类模型的预测层,分别基于各所述文本片段对应的特征值,确定相应的所述文本片段与各所述风险类别的关联度;
文本片段提取模块,用于从所述多个文本片段中,分别选取与各所述风险类别的关联度满足关联度条件的文本片段,并将选取的文本片段作为从所述待处理文本中提取的风险文本。
上述方案中,所述特征提取层包括多个特征提取器,每个所述特征提取器对应一个所述文本片段;所述特征提取模块,还用于分别基于各所述特征提取器执行以下处理:通过所述特征提取器,对包含多个文本片段的待处理文本进行特征提取,得到相应的文本片段的特征值。
上述方案中,所述特征提取模块,还用于通过所述特征提取器,将所述待处理文本划分为多个备选文本片段;分别对各所述备选文本片段进行特征提取,得到每一个所述备选文本片段对应的特征值;从所述多个备选文本片段中,选取特征值最大的备选文本片段,并将选取的备选文本片段的特征值作为与所述特征提取器对应的文本片段的特征值。
上述方案中,当所述特征提取器用于对目标长度的文本片段进行特征提取时,所述特征提取模块,还用于对所述待处理文本中的单词进行遍历,并针对遍历到的每个单词执行以下处理:将遍历到的单词作为起始单词,从所述待处理文本中提取所述目标长度的备选文本片段。
上述方案中,所述关联度确定模块,还用于分别针对各所述文本片段执行以下处理:获取各所述风险类别的权重;通过所述风险分类模型的预测层,基于所述文本片段对应的特征值和各所述风险类别的权重,分别确定所述文本片段与各所述风险类别的关联度。
上述方案中,所述文本片段提取模块,还用于分别针对各所述风险类别执行以下处理:基于各所述文本片段与所述风险类别的关联度,对各所述文本片段进行排序,得到文本片段序列;按照所述关联度的高低,从所述文本片段序列中,选取目标数量的文本片段,将选取的文本片段作为与所述风险类别的关联度满足关联度条件的文本片段。
上述方案中,所述文本片段提取模块,还用于分别针对各所述风险类别执行以下处理:获取与所述风险类别相对应的关联度阈值;从所述多个文本片段中,选取与所述风险类别的关联度达到关联度阈值的文本片段,将选取的文本片段作为与所述风险类别的关联度满足关联度条件的文本片段。
上述方案中,所述风险文本的提取装置,还包括:网页爬取模块,用于从目标网页中爬取所述目标网页的网页数据;对所述网页数据进行文本信息的提取,将提取得到的文本作为所述待处理文本。
上述方案中,所述风险文本的提取装置,还包括:风险提示模块,用于基于所述风险文本生成相应的风险提示信息;输出所述风险提示信息。
上述方案中,所述风险文本的提取装置,还包括:模型训练模块,用于通过所述风险分类模型的特征提取层,对包含多个样本文本片段的样本文本进行特征提取,得到每一个所述样本文本片段对应的特征值;其中,所述样本文本携带有指示所述样本文本归属的风险类别的风险分类标签;通过所述风险分类模型的预测层,分别基于各所述样本文本片段对应的特征值,确定相应的所述样本文本片段与各所述风险类别的关联度;通过所述风险分类模型的预测层,基于各所述样本文本片段与各所述风险类别的关联度,对所述样本文本的风险类别进行预测,得到预测风险类别;基于所述预测风险类别与所述风险分类标签之间的差异,对所述特征提取层的参数及所述预测层的参数进行更新。
上述方案中,所述模型训练模块,还用于基于各所述样本文本片段与各所述风险类别的关联度,分别确定所述样本文本归属于各所述风险类别的概率;基于所述样本文本归属于各所述风险类别的概率,确定所述样本文本归属的风险类别,并将确定的风险类别作为所述预测风险类别。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的风险文本的提取方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的风险文本的提取方法。
本申请实施例具有以下有益效果:
与现有技术中通过人为预先挖掘风险文本作为语料库,并将语料库与待处理的文本进行硬匹配以进行风险文本的提取方式相比,本申请实施例中,通过一个用于风险类别分类的风险分类模型对待处理文本进行特征提取,得到待处理文本的多个文本片段对应的特征值,然后基于特征值确定各文本片段与各风险类别的关联度,并基于关联度从多个文本片段中选取风险文本,无需设置风险语料库也能自动识别并提取出风险文本,从而克服了现有技术中在风险文本提取时通过人为设置和更新风险语料库所带来的具有滞后性的缺陷,提高了风险文本提取的即时性。
附图说明
图1是本申请实施例提供的风险文本的提取系统的一个可选的结构示意图;
图2是本申请实施例提供的电子设备的一个可选的结构示意图;
图3是本申请实施例提供的风险文本的提取方法的一个可选的流程示意图;
图4是本申请实施例提供的风险文本的提取过程的一个可选的示意图;
图5是本申请实施例提供的风险文本的提取方法的一个可选的流程示意图;
图6是本申请实施例提供的风险文本的提取过程的一个可选的示意图;
图7是本申请实施例提供的风险分类过程的一个可选的示意图;
图8是本申请实施例提供的风险文本的提取方法的一个可选的流程示意图;
图9是本申请实施例提供的风险分类模型的分类预测过程的一个可选的示意图;
图10是本申请实施例提供的风险分类模型的分类预测过程的一个可选的示意图;
图11是本申请实施例提供的风险文本的提取方法的一个可选的流程示意图;
图12是本申请实施例提供的风险文本的提取装置的一个可选的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
本申请实施例提供一种风险文本的提取方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够提高风险文本提取的即时性。
首先对本申请实施例提供的风险文本的提取系统进行说明,参见图1,图1 是本申请实施例提供的风险文本的提取系统100的一个可选的架构示意图,为实现支撑一个风险文本的提取客户端410,设置有客户端410的终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。在一些实施例中,终端400可以是笔记本电脑,平板电脑,台式计算机,智能手机,专用消息设备,便携式游戏设备,智能音箱,智能手表等,但并不局限于此。服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。网络300可以是广域网或者局域网,又或者是二者的组合。终端400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
终端400,用于从目标网页中爬取所述目标网页的网页数据,对所述网页数据进行文本信息的提取,将提取得到的文本作为所述待处理文本,将待处理文本发送至服务器200。
服务器200,用于接收终端400发送的待处理文本,并通过风险分类模型的特征提取层,对包含多个文本片段的待处理文本进行特征提取,得到每一个所述文本片段对应的特征值,通过所述风险分类模型的预测层,分别基于各所述文本片段对应的特征值,确定相应的所述文本片段与各所述风险类别的关联度,从所述多个文本片段中,分别选取与各所述风险类别的关联度满足关联度条件的文本片段,并将选取的文本片段作为从所述待处理文本中提取的风险文本,并发送风险文本至终端400。
终端400,还用于接收风险文本,并基于所述风险文本生成相应的风险提示信息,输出所述风险提示信息。
参见图2,图2是本申请实施例提供的电子设备500的一个可选的结构示意图,在实际应用中,电子设备500可以实施为图1中的终端400或服务器200,以电子设备为图1所示的服务器200为例,对实施本申请实施例的风险文本的提取方法的电子设备进行说明。图2所示的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可以理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器550可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块553,用于经由一个或多个与用户接口530相关联的输出装置531 (例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的风险文本的提取装置可以采用软件方式实现,图2示出了存储在存储器550中的风险文本的提取装置555,其可以是程序和插件等形式的软件,包括以下软件模块:特征提取模块5551、关联度确定模块5552和文本片段提取模块5553,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的风险文本的提取装置可以采用硬件方式实现,作为示例,本申请实施例提供的风险文本的提取装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的风险文本的提取方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
将结合本申请实施例提供的服务器的示例性应用和实施,说明本申请实施例提供的风险文本的提取方法。参见图3,图3是本申请实施例提供的风险文本的提取方法的一个可选的流程示意图,将结合图3示出的步骤进行说明。
步骤101,服务器通过风险分类模型的特征提取层,对包含多个文本片段的待处理文本进行特征提取,得到每一个所述文本片段对应的特征值。其中,所述风险分类模型,用于对待处理文本进行至少两个风险类别的分类。
这里,待处理文本可以为用户输入,还可以是服务器自动获取。在一些实施例中,基于图3,在步骤101之前,还可以执行:服务器从目标网页中爬取所述目标网页的网页数据;对所述网页数据进行文本信息的提取,将提取得到的文本作为所述待处理文本。在实际实施时,服务器首先从目标网页中爬取网页数据,从网页数据中提取出对应的网页文本,并将提取到的网页文本作为待处理文本。这里,目标网页可以为任意信息类型的网页,例如汽车广告网页等。
需要说明的是,风险分类模型可以采用卷积神经网络(CNN,ConvolutionalNeural Networks)模型,例如可以是TextCNN、BertCNN或DPCNN等神经网络模型。风险分类模型用于分类的风险类别可以为任意数量的类别,例如可以用于两个风险类别的分类,还可以用于两个以上的风险类别的分类。这里,风险类别可以从风险等级进行分类,例如设置为高风险、中风险、低风险和无风险等四个等级;此外,风险类别还可以基于风险类型进行分类,例如欺诈类型、触犯相关道德规范的敏感类型(如辱骂含义的语句)等,本申请实施例不对风险类别的具体数量和类型作限定。
在实际实施时,参照图4,图4是本申请实施例提供的风险文本的提取过程的一个可选的示意图。服务器将待处理文本输入至风险分类模型,通过风险分类模型的特征提取层,对待处理文本进行特征提取,得到多个文本片段的特征值。需要说明的是,特征提取层首先对待处理文本进行编码,得到待处理文本向量,并基于待处理文本向量进行特征提取。这里,特征提取层通过词嵌入向量的编码方式对待处理文本进行特征编码。
在一些实施例中,所述特征提取层包括多个特征提取器,每个所述特征提取器对应一个所述文本片段。参照图5,图5是本申请实施例提供的风险文本的提取方法的一个可选的流程示意图,基于图3,步骤101还可以通过如下方式实现:步骤1011,服务器分别基于各所述特征提取器执行以下处理:通过所述特征提取器,对包含多个文本片段的待处理文本进行特征提取,得到相应的文本片段的特征值。
参照图6,图6是本申请实施例提供的风险文本的提取过程的一个可选的示意图。在实际实施时,一个特征提取器用于提取一个文本片段对应的特征值,应当理解的是,从待处理文本片段中提取出的文本片段的数量则为特征提取器的数量。在实际实施时,特征提取层的特征提取器的数量可以作为风险分类模型的超参数在建模时设置,特征提取器的数量可以根据实际需要设置合适的数值。
本申请实施例中,服务器可以将风险分类模型的特征提取层参数设置如下:设置卷积核数量n_filters=100,卷积核大小filter_sizes=[2,3,4],词嵌入向量的维度个数embedding size=128。需要说明的是,这些超参数表示:卷积核大小为2的卷积核有100个,卷积核的尺寸是[2,128];卷积核大小为3的卷积核有100个,卷积核的尺寸是[3,128];卷积核大小为4的卷积核有100个,卷积核的尺寸是[4,128]。这里,每一个卷积核就是文本的一个特征提取器,用于提取出与卷积核大小相对应的文本片段和文本片段对应的特征值。
在一些实施例中,基于图5,步骤1011还可以通过如下方式实现:服务器分别基于各所述特征提取器执行以下处理:服务器通过所述特征提取器,将所述待处理文本划分为多个备选文本片段;分别对各所述备选文本片段进行特征提取,得到每一个所述备选文本片段对应的特征值;从所述多个备选文本片段中,选取特征值最大的备选文本片段,并将选取的备选文本片段的特征值作为与所述特征提取器对应的文本片段的特征值。
在实际实施时,服务器针对每一个特征提取器执行以下处理:通过特征提取器将待处理文本划分为多个与该特征提取器的大小相对应的备选文本片段。需要说明的是,特征提取器,也即是卷积核的大小表示可提前的文本的长度,这里,文本的长度单位为单词的个数,而对于汉语,本申请实施例的单词表示一个汉字。示例性地,若卷积核的大小被设置为3,则该卷积核用于提取三个汉字组成的文本片段。卷积核对待处理文本进行多次卷积后,得到多个备选文本片段及备选文本片段对应的特征值,然后服务器对多个备选文本片段对应的特征值进行比较,将特征值最大的备选文本片段作为该卷积核提取的文本片段,并获得该文本片段对应的特征值。
在一些实施例中,当所述特征提取器用于对目标长度的文本片段进行特征提取时,所述将所述待处理文本划分为多个备选文本片段,还可以通过如下方式实现:服务器对所述待处理文本中的单词进行遍历,并针对遍历到的每个单词执行以下处理:将遍历到的单词作为起始单词,从所述待处理文本中提取所述目标长度的备选文本片段。
在实际实施时,服务器在对待处理文本进行备选文本片段的划分时,具体为根据文本阅读顺序对待处理文本中的单词进行变量。这里,文本阅读顺序可以预先设置,例如当需要处理的文本的语言为现代汉语时,鉴于目前现代汉语的阅读顺序为从左至右,则服务器将阅读顺序设置为从左至右。具体地,服务器以从左至右的顺序遍历待处理文本中的单词,在遍历到第一个单词时,以从左至右的顺序选取目标长度的文本片段,作为备选文本片段。示例性地,若卷积核的大小为3,目标长度则为3个单词,服务器则在遍历到第一个单词时,选取以第一个单词为起始单词的3个单词作为第一个提取到的备选文本片段,当遍历到的单词至待处理文本的最后一个单词之间的距离等于目标长度时,结束遍历。示例性地,对于“零首付购车”这一待处理文本,当一个大小为3、尺寸为[3,128]的卷积核对其进行特征提取时,卷积核将提取到“零首付”、“首付购”和“付购车”等三个备选文本片段,以及对应的特征值分别为0.8、0.3 和0.3,这里,0.8最大,服务器则将“零首付”作为该卷积核提取的文本片段,将其对应的特征值0.8作为该卷积核的输出。
在实际实施时,服务器在获得多个文本片段对应的特征值后,将各特征值拼接成一个向量,作为待处理文本的特征向量。应当理解的是,每一个特征值对应特征向量中的一个元素。若文本片段的数量为300,则拼接后的特征向量则可以为一个1×300的一维向量。
步骤102,通过所述风险分类模型的预测层,分别基于各所述文本片段对应的特征值,确定相应的所述文本片段与各所述风险类别的关联度。
在实际实施时,参见图4,服务器通过风险分类模型的特征提取层提取到待处理文本的多个文本片段对应的特征值后,将多个特征值输入至风险分类模型的预测层。这里,预测层包括各特征提取器分别对应的各个风险类别的权重。示例性地,若特征提取器的数量为300个,风险类别的数量为4个,则预测层包括一个300×4的权重向量,该权重向量的每一列对应一个风险类别,该权重向量中的某一列中的任意一个元素对应一个特征提取器。
在一些实施例中,参见图7,图7是本申请实施例提供的风险文本的提取方法的一个可选的流程示意图,基于图3,步骤102还可以通过如下方式实现:步骤1021,服务器分别针对各所述文本片段执行以下处理:获取各所述风险类别的权重;通过所述风险分类模型的预测层,基于所述文本片段对应的特征值和各所述风险类别的权重,分别确定所述文本片段与各所述风险类别的关联度。
在实际实施时,服务器获取各风险类别的权重向量,这里,权重向量的元素数量对应特征提取器的数量,也即对应文本片段的数量。接着,服务器将待处理文本的特征向量和相应风险类别的权值向量进行元素方式(Element-wise) 相乘,得到每一个文本向量对应的特征值与相应类别的权值的乘积,将该乘积作为该文本片段与相应风险类别的关联度。
示例性地,若提取到的文本片段的数量为N,第i个文本片段的特征值为Vi,提取到的待处理文本的特征向量
Figure BDA0002960289850000111
第j个风险类别的权重向量
Figure BDA0002960289850000112
Figure BDA0002960289850000113
其中,i和j均为大于等于2的正整数,服务器将待处理文本的特征向量与第j个风险文本的权值向量的元素方式相乘得到关联度
Figure BDA0002960289850000114
Figure BDA0002960289850000115
应当理解的是,第i个文本片段与第j个风险类别的关联度
Figure 1
步骤103,从所述多个文本片段中,分别选取与各所述风险类别的关联度满足关联度条件的文本片段,并将选取的文本片段作为从所述待处理文本中提取的风险文本。
在实际实施时,服务器可以针对每一个风险类别选取相同数量的风险文本,还可以针对不同风险类别选取不同数量的风险文本。例如,若风险类别为高风险、中风险、低风险和无风险等四个等级类别,服务器可以针对每一个风险类别均选取10风险文本,还可以针对高风险及中风险选取10个风险文本,而针对低风险和无风险选取5个风险文本等。
在一些实施例中,基于图3,步骤103还可以通过如下方式实现:服务器分别针对各所述风险类别执行以下处理:基于各所述文本片段与所述风险类别的关联度,对各所述文本片段进行排序,得到文本片段序列;按照所述关联度的高低,从所述文本片段序列中,选取目标数量的文本片段,将选取的文本片段作为与所述风险类别的关联度满足关联度条件的文本片段,并将选取的文本片段作为从所述待处理文本中提取的风险文本。
在实际实施时,服务器针对各风险类别中的一个风险类别,基于该风险类别对应的各文本片段的关联度从高至低的顺序,对各文本片段进行排序,得到文本片段序列。这里,关联度越高,表示该文本片段与该风险类别越相关。接着,服务器根据文本序列的排序,选取排序在前的目标数量的文本片段,选取的文本片段则为与该风险类别相关程度排序靠前的文本片段,服务器则将选取的这些文本片段作为从待处理文本中提取出的风险文本,完成对风险文本的提取。通过排序的方式,从待处理文本中选取风险文本,能够将待处理文本中与各风险分类相关性最高的文本片段进行提取。
在一些实施例中,基于图3,步骤103还可以通过如下方式实现:服务器分别针对各所述风险类别执行以下处理:获取与所述风险类别相对应的关联度阈值;从所述多个文本片段中,选取与所述风险类别的关联度达到关联度阈值的文本片段,将选取的文本片段作为与所述风险类别的关联度满足关联度条件的文本片段,并将选取的文本片段作为从所述待处理文本中提取的风险文本。
在实际实施时,关联度阈值可以预先设置。当文本片段与对应风险类别的关联度达到关联度阈值时,则将该文本片段作为该风险类别的风险文本。可以理解,对于某一风险类别,若所有文本片段与该风险类别的关联度均为达到关联度阈值,则服务器未对该风险类别提取风险文本,也即表示待处理文本与该风险类别的相关度较低。通过比较关联度阈值的方式进行风险文本的提取,能够对真实与风险类别相关性较高的风险文本进行提取,避免提取出相关性较低的文本片段,从而节省系统运算资源。
本申请实施例中,通过一个用于风险类别分类的风险分类模型对待处理文本进行特征提取,得到待处理文本的多个文本片段对应的特征值,然后基于特征值确定各文本片段与各风险类别的关联度,并基于关联度从多个文本片段中选取风险文本,无需设置风险语料库也能自动识别并提取出风险文本,从而克服了现有技术中在风险文本提取时通过人为设置和更新风险语料库所带来的低效率和具有滞后性的缺陷,提高了风险文本提取的效率和即时性。
在一些实施例中,基于图3,在步骤103之后,还可以执行:服务器基于所述风险文本生成相应的风险提示信息;输出所述风险提示信息。
本申请实施例中,待处理文本为从目标网页中爬取得到,在实际场景中,服务器可以响应于用户触发的对目标网页的访问操作,触发对目标网页的风险识别,从目标网页中爬取待处理文本,并从待处理文本中提取出风险文本,进而根据风险文本生成风险提示信息,将该提示信息进行输出。这里,风险提示信息用于提示用户访问的目标网页中存在风险文本。风险提示信息可以通过任意呈现形式呈现,例如通过浮窗的形式呈现在当前页面的最前端等等,本申请实施例不对风险提示信息的呈现形式作具体限定。
在一些实施例中,参见图8,图8是本申请实施例提供的风险文本的提取方法的一个可选的流程示意图,基于图3,在步骤101之前,还可以执行:
步骤201,服务器通过所述风险分类模型的特征提取层,对包含多个样本文本片段的样本文本进行特征提取,得到每一个所述样本文本片段对应的特征值。其中,所述样本文本携带有指示所述样本文本归属的风险类别的风险分类标签。
步骤202,通过所述风险分类模型的预测层,分别基于各所述样本文本片段对应的特征值,确定相应的所述样本文本片段与各所述风险类别的关联度。
步骤203,通过所述风险分类模型的预测层,基于各所述样本文本片段与各所述风险类别的关联度,对所述样本文本的风险类别进行预测,得到预测风险类别。
步骤204,基于所述预测风险类别与所述风险分类标签之间的差异,对所述特征提取层的参数及所述预测层的参数进行更新。
在实际实施时,参见图9,图9是本申请实施例提供的风险分类模型的分类预测过程的一个可选的示意图。服务器将样本文本输入至风险分类模型中,通过风险分类模型的特征提取层对样本文本进行样本文本片段的特征值的提取,将提取的多个样本文本片段的特征值输入至预测层。这里,预测层包括第一子预测层和第二子预测层,服务器获取各风险类别对应的权重向量,通过第一预测层基于各风险类别的权重向量和多个样本文本片段的特征值,确定各样本文本片段与对应风险类别的关联度,并基于各样本文本片段与对应风险类别的关联度进行风险类别的预测。
示例性地,参见图10,图10是本申请实施例提供的风险分类模型的分类预测过程的一个可选的示意图。对于“前期不花一分钱”这一样本文本,它由七个汉字组成。图10示出的风险分类模型的特征提取层包括六个卷积核,包括两个大小为4的卷积核、两个大小为3的卷积核和两个大小为2的卷积核。其中,大小为4的卷积核对该样本文本进行特征提取之后,得到4个备选样本文本片段和对应的特征值,然后服务器从这4个备选样本文本片段中选取特征值最大的备选样本文本片段作为该卷积核提取得到的样本文本片段。可以理解,两个大小为3的卷积核对该样本文本进行特征提取后,将得到5个备选样本文本片段及对应的特征值,而大小为2的卷积核对该样本文本进行特征提取后,将得到6个备选样本文本片段及对应的特征值。各卷积核分别选取特征值最大的备选样本文本片段作为该卷积核提取的样本文本片段。服务器将各卷积核提取的样本文本片段对应的特征值输入至风险分类模型的预测层,通过预测层基于各样本文本片段的特征值和相应风险类别的权重向量,得到各样本文本片段与各风险类别的关联度,将各文本片段与相应风险类别的关联度拼接得到该风险类别的关联度向量,基于各风险类别的关联度向量,确定样本文本归属于各风险类别的概率,基于样本文本归属于各风险类别的概率,确定样本文本所归属的风险类别,并将确定的风险类别作为预测风险类别。图10示出的风险分类模型为一个二分类模型,包括第一风险类别和第二风险类别,在一些实施例中,还可以设置为风险分类。
在实际实施时,服务器在得到样本文本的预测风险类别后,基于预测风险类别与样本文本上标注的分类标签之间的差异,对风险分类模型的模型参数进行更新。这里,服务器通过计算风险分类模型的损失函数来确定预测风险类别与分类标签之间的差异。当损失函数的值达到差异阈值时,服务器基于损失函数确定相应的误差信号,并从风险分类模型的输出层开始,将误差信号在风险分类模型中反向传播,并在传播的过程中更新风险分类模型的模型参数。
这里对反向传播进行说明,将训练样本输入到神经网络模型的输入层,经过隐藏层,最后达到输出层并输出结果,这是神经网络模型的前向传播过程,由于神经网络模型的输出结果与实际结果有误差,则计算输出结果与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层,在反向传播的过程中,根据误差调整模型参数的值;不断迭代上述过程,直至收敛。
以上述的损失函数为例,服务器基于损失函数确定误差信号,误差信号从风险分类模型的输出层反向传播,逐层反向传播误差信号,在误差信号到达每一层时,结合传导的误差信号来求解梯度(也就是损失函数对该层参数的偏导数),将该层的参数更新对应的梯度值。
在一些实施例中,所述基于各所述样本文本片段与各所述风险类别的关联度,对所述样本文本的风险类别进行预测,得到预测风险类别,还可以通过如下方式实现:服务器基于各所述样本文本片段与各所述风险类别的关联度,分别确定所述样本文本归属于各所述风险类别的概率;基于所述样本文本归属于各所述风险类别的概率,确定所述样本文本归属的风险类别,并将确定的风险类别作为所述预测风险类别。
在实际实施时,服务器基于各样本文本片段与对应风险类别的关联度确定样本文本归属于相应风险类别的概率,并基于样本文本归属于各风险类别的概率,确定样本文本所归属的风险类别,并将确定的风险类别作为风险分类模型预测的预测风险类别。
本申请实施例中,仅需人工对样本文本进行标注,而本申请实施例的风险文本为样本文本中的一个或多个文本片段,这里,将样本文本定义为长文本,将风险文本定义为短文本,可以理解,本申请实施例为基于人工标注的长文本对风险分类模型进行有监督训练,然后基于长文本有监督训练得到的风险分类模型进行短文本的提取,由于相较于标注短文本,对长文本进行标注的任务量更少,从而减少了人工标注任务量,避免了需人工标注短文本进行短文本识别的人工工作量大的缺陷,同时也保障了风险分类模型的准确性。
接下来继续对本申请实施例提供的风险文本的提取方法进行介绍,图11是本申请实施例提供的风险文本的提取方法的一个可选的流程示意图,参见图11,本申请实施例提供的风险文本的提取方法由客户端、服务器协同实施。
步骤301,客户端响应于针对目标网页的访问操作,生成针对目标网页的访问指令。
这里,客户端可以为设置于终端的风险文本的提取客户端,它可以是浏览器。访问操作可以由用户基于该客户端的人机交互界面,触发人机交互界面中的触发功能项所触发。访问操作还可以是客户端由其他设备向客户端发送指令后触发。
步骤302,客户端发送访问指令至服务器。
步骤303,服务器响应于所述访问指令,爬取所述目标网页的网页数据,对所述网页数据进行文本信息的提取,将提取得到的文本作为待处理文本。
需要说明的是,服务器在接收到访问指令后,可以访问目标网页并将访问获取的网页数据返回至客户端进行输出,并同时触发对目标网页的风险检测,执行爬取目标网页的网页数据的操作。在一些实施例中,服务器在接收到访问指令后,还可以首先中断对目标网页的访问进程,并触发对目标网页的风险检测,在风险检测通过后,继续访问目标网页并返回网页数据至客户端,当风险检测未通过时,返回风险提示信息。
步骤304,服务器通过风险分类模型的特征提取层,对包含多个文本片段的待处理文本进行特征提取,得到每一个所述文本片段对应的特征值。
步骤305,服务器通过所述风险分类模型的预测层,分别基于各所述文本片段对应的特征值,确定相应的所述文本片段与各所述风险类别的关联度。
步骤306,服务器从所述多个文本片段中,分别选取与各所述风险类别的关联度满足关联度条件的文本片段,并将选取的文本片段作为从所述待处理文本中提取的风险文本。
步骤307,服务器根据风险文本生成风险提示信息。
步骤308,服务器发送风险提示信息至客户端。
保障309,客户端输出风险提示信息。
需要说明的是,当多个文本片段中存在满足关联度条件的文本片段时,服务器则将满足关联度条件的所有文本片段作为风险文本,根据风险文本生成对应的风险提示信息。这里,服务器可以根据风险文本的个数和各风险文本所对应的风险级别生成对应内容的风险提示信息,或者执行相应的风险拦截操作,例如拦截对目标网页的访问。而当所有文本片段中均不存在满足关联度条件的文本片段时,服务器则生成风险检测通过的提示信息至服务器,或者服务器直接访问目标网页获得网页数据,并将网页数据返回至客户端,以使客户端直接呈现网页数据。客户端在接收到风险提示信息后,用户可以基于风险提示信息对目标网页进行相应的设置操作,例如对目标网页设置进白名单中或者黑名单中等,客户端则基于针对目标网页的设置操作,将目标网页的访问权限设置为相应的级别,例如若目标网页被设置为白名单,则客户端在下次访问该目标网页时,直接对其进行访问,而当目标网页被设置为黑名单时,则客户端在下次访问该目标网页时,直接对目标网页的访问进行拦截。
本申请实施例中,客户端响应于针对目标网页的访问操作,生成访问指令发送至服务器,服务器则响应于该访问指令触发对目标网页的风险检测,通过一个用于风险类别分类的风险分类模型对待处理文本进行特征提取,得到待处理文本的多个文本片段对应的特征值,然后基于特征值确定各文本片段与各风险类别的关联度,并基于关联度从多个文本片段中选取风险文本,无需设置风险语料库也能自动识别并提取出风险文本,从而提高了风险文本提取的即时性,也保障了客户端访问目标网页时的安全性。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。将结合本申请实施例提供的服务器的示例性应用和实施,说明本申请实施例提供的风险文本的提取方法。
在一个示例性的场景中,本申请实施例提供的风险文本的提取方法可以应用于欺诈信息识别,具体为识别网络上存在的欺诈性广告,比如汽车销售广告,“A牌汽车GS3:超级0首付,最高享3年0利息”,这类广告存在欺诈的风险往往极高。然而,欺诈信息往往仅仅是网页数据中的一个片段,因此,在实际场景中,需要从网页数据中提取出欺诈信息。
本申请实施例中,服务器首先从网页中爬取网页数据,从网页数据中提取出对应的网页文本,并通过人工对该网页文本进行阅读和分析,标注网页文本的风险类别。在实际实施时,风险类别可以设置为高风险、中风险、低风险和无风险等四个等级,在一些实施例中,还可以进行其他风险类别的设置。在实际实施时,服务器爬取大量网页的网页数据,得到大量的网页文本并分别对网页文本的风险类别进行人工标注,得到由网页文本和对应的风险类别所构成的语料库,将该语料库作为风险分类模型的训练样本集。可以理解,训练样本集中的每一个训练样本为标注有风险类别的网页文本,这里,分类标签用于指示网页文本所对应的风险类别。需要说明的是,这里的网页文本则为用于训练风险分类模型的样本文本。
接着,服务器基于训练样本集,对风险分类模型进行建模。这里,风险分类模型中卷积核的超参数可以设置如下:卷积核数量n_filters=100,卷积核大小filter_sizes=[2,3,4],词嵌入向量的维度个数embedding size=128。这里,每一个卷积核就是文本的一个特征提取器,提取出对应大小的特征文本和特征文本对应的特征值。卷积核对样本文本进行特征提取的过程具体为:卷积核按照从左到右的顺序对输入的样本文本中的单词进行逐一遍历,提取出单词数量与卷积核大小相同的至少一个特征文本,并对特征文本进行卷积操作,得到特征文本对应的特征值,若输入的样本文本的语言为汉语,则这里所指的单词为单个的汉字,可以理解,特征文本则为从输入的样本文本中提取的文本片段;在该卷积核对样本文本中的单词遍历完成后,则得到该样本文本的特征文本与特征值的列表,该列表记录有多个特征文本与对应的特征值的对应关系;接着,服务器比较各特征值的大小,将数值最大的特征值作为卷积核的特征值并将进行输出,在一些实施例中,服务器基于特征值对特征文本进行排序,以特征值从大到小的顺序进行排序,并将排序在第一位的特征文本作为卷积核提取到的文本片段,将该文本片段对应的特征值作为卷积核的特征值。例如,对于“零首付购车”这一样本文本,当一个大小为3、尺寸为[3,128]的卷积核对其进行特征提取时,卷积核将提取到“零首付”、“首付购”和“付购车”等三个特征文本,以及对应的特征值分别为0.8、0.3和0.3,这些特征文本和特征值则构成一个相应的列表,这里,0.8最大,服务器则将“零首付”作为该卷积核提取的文本片段,将其对应的特征值0.8作为该卷积核的输出。
在实际实施时,当所有卷积核完成对输入的样本文本特征提取时,得到每一个卷积核所提取的特征文本及其对应的特征值。接着,服务器将各卷积核提取的特征值组成一个一维向量,例如,若卷积核的数量为300个,则提取得到 300个特征值,服务器则将这300个特征值组成一个1×300的一维向量,作为特征值向量。接着,服务器将这个1×300的一维向量输入至风险分类模型的预测层,通过预测层分别基于各特征文本对应的特征值,确定相应的特征文本与各风险类别的关联度。这里,若风险类别的类别数量为4个,则预测层为一个 300×4的矩阵所构成的权重向量,这里,每一列为相应的风险类别所对应的权重向量,权重向量中的每一个元素为相应风险类别在该位置的权重。服务器获取该权重向量,并将特征值向量与权重向量进行元素方式相乘,得到300×4关联度向量,该向量中的每一个元素值即为该位置对应的特征值与相应的权重的乘积。本申请实施例中,将该乘积作为特征文本与相应风险类别的关联度,该关联度表征特征文本对相应风险类别的重要性贡献程度。接着,服务器基于关联度向量中每一个风险类别对应的列的元素值进行求和运算,得到每一个风险类别对应的特征文本的关联度的和,基于每一个风险类别对应的关联度的和,计算样本文本归属于每一个风险类别的概率值,并基于各风险类别的概率值确定样本文本最终归属的风险类别,将确定的风险类别作为风险分类模型的预测风险类别。接着,服务器基于预测风险类别与样本文本上标注的分类标签之间的差异,更新风险分类模型的参数。这里,通过风险分类模型的损失函数确定预测风险类别与分类标签之间的差异,服务器通过不断进行上述过程的迭代,对风险分类模型进行训练直至损失函数达到收敛,停止对风险分类模型的训练。
本申请实施例中,服务器则基于训练完成的风险分类模型对待处理文本进行风险文本的提取。这里,待处理文本可以为任意网页中爬取获得。服务器在将待处理文本输入至风险分类模型中,通过风险分类模型的特征提取层提取到多个文本片段的特征值,并通过风险分类模型的预测层基于各文本片段的特征值及各风险分类的权重向量,获得各文本片段与各风险类别对应的关联度。接着,服务器针对每一个风险类别,对各特征文本对应的关联度进行排序,根据关联度从高至低,依次选取目标数量的特征文本作为该风险类别的风险文本。当服务器针对每一个风险类别执行完上述操作之后,得到每一个风险类别对应的风险文本,这里,每一个风险类别对应的风险文本的数量可以不一致,至此,完成对待处理文本的风险文本的提取。
下面继续说明本申请实施例提供的风险文本的提取装置555的实施为软件模块的示例性结构,在一些实施例中,如图12所示,图12是本申请实施例提供的风险文本的提取装置的一个可选的结构示意图,存储在存储器540的风险文本的提取装置555中的软件模块可以包括:
特征提取模块5551,用于通过风险分类模型的特征提取层,对包含多个文本片段的待处理文本进行特征提取,得到每一个所述文本片段对应的特征值;
其中,所述风险分类模型,用于对待处理文本进行至少两个风险类别的分类;
关联度确定模块5552,用于通过所述风险分类模型的预测层,分别基于各所述文本片段对应的特征值,确定相应的所述文本片段与各所述风险类别的关联度;
文本片段提取模块5553,用于从所述多个文本片段中,分别选取与各所述风险类别的关联度满足关联度条件的文本片段,并将选取的文本片段作为从所述待处理文本中提取的风险文本。
在一些实施例中,所述特征提取层包括多个特征提取器,每个所述特征提取器对应一个所述文本片段;所述特征提取模块5551,还用于分别基于各所述特征提取器执行以下处理:通过所述特征提取器,对包含多个文本片段的待处理文本进行特征提取,得到相应的文本片段的特征值。
在一些实施例中,所述特征提取模块5551,还用于通过所述特征提取器,将所述待处理文本划分为多个备选文本片段;分别对各所述备选文本片段进行特征提取,得到每一个所述备选文本片段对应的特征值;从所述多个备选文本片段中,选取特征值最大的备选文本片段,并将选取的备选文本片段的特征值作为与所述特征提取器对应的文本片段的特征值。
在一些实施例中,当所述特征提取器用于对目标长度的文本片段进行特征提取时,所述特征提取模块5551,还用于对所述待处理文本中的单词进行遍历,并针对遍历到的每个单词执行以下处理:将遍历到的单词作为起始单词,从所述待处理文本中提取所述目标长度的备选文本片段。
在一些实施例中,所述关联度确定模块5552,还用于分别针对各所述文本片段执行以下处理:获取各所述风险类别的权重;通过所述风险分类模型的预测层,基于所述文本片段对应的特征值和各所述风险类别的权重,分别确定所述文本片段与各所述风险类别的关联度。
在一些实施例中,所述文本片段提取模块5553,还用于分别针对各所述风险类别执行以下处理:基于各所述文本片段与所述风险类别的关联度,对各所述文本片段进行排序,得到文本片段序列;按照所述关联度的高低,从所述文本片段序列中,选取目标数量的文本片段,将选取的文本片段作为与所述风险类别的关联度满足关联度条件的文本片段。
在一些实施例中,所述文本片段提取模块5553,还用于分别针对各所述风险类别执行以下处理:获取与所述风险类别相对应的关联度阈值;从所述多个文本片段中,选取与所述风险类别的关联度达到关联度阈值的文本片段,将选取的文本片段作为与所述风险类别的关联度满足关联度条件的文本片段。
在一些实施例中,所述风险文本的提取装置,还包括:网页爬取模块,用于从目标网页中爬取所述目标网页的网页数据;对所述网页数据进行文本信息的提取,将提取得到的文本作为所述待处理文本。
在一些实施例中,所述风险文本的提取装置,还包括:风险提示模块,用于基于所述风险文本生成相应的风险提示信息;输出所述风险提示信息。
在一些实施例中,所述风险文本的提取装置,还包括:模型训练模块,用于通过所述风险分类模型的特征提取层,对包含多个样本文本片段的样本文本进行特征提取,得到每一个所述样本文本片段对应的特征值;其中,所述样本文本携带有指示所述样本文本归属的风险类别的风险分类标签;通过所述风险分类模型的预测层,分别基于各所述样本文本片段对应的特征值,确定相应的所述样本文本片段与各所述风险类别的关联度;通过所述风险分类模型的预测层,基于各所述样本文本片段与各所述风险类别的关联度,对所述样本文本的风险类别进行预测,得到预测风险类别;基于所述预测风险类别与所述风险分类标签之间的差异,对所述特征提取层的参数及所述预测层的参数进行更新。
在一些实施例中,所述模型训练模块,还用于基于各所述样本文本片段与各所述风险类别的关联度,分别确定所述样本文本归属于各所述风险类别的概率;基于所述样本文本归属于各所述风险类别的概率,确定所述样本文本归属的风险类别,并将确定的风险类别作为所述预测风险类别。
需要说明的是,本申请实施例装置的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。
本申请实施例提供了一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现本申请实施例提供的风险文本的提取方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图3示出的风险文本的提取方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、 EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言 (HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本申请实施例能够提高风险文本提取的即时性。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (15)

1.一种风险文本的提取方法,其特征在于,所述方法包括:
通过风险分类模型的特征提取层,对包含多个文本片段的待处理文本进行特征提取,得到每一个所述文本片段对应的特征值;
其中,所述风险分类模型,用于对待处理文本进行至少两个风险类别的分类;
通过所述风险分类模型的预测层,分别基于各所述文本片段对应的特征值,确定相应的所述文本片段与各所述风险类别的关联度;
从所述多个文本片段中,分别选取与各所述风险类别的关联度满足关联度条件的文本片段,并将选取的文本片段作为从所述待处理文本中提取的风险文本。
2.根据权利要求1所述的方法,其特征在于,所述特征提取层包括多个特征提取器,每个所述特征提取器对应一个所述文本片段;
所述通过风险分类模型的特征提取层,对包含多个文本片段的待处理文本进行特征提取,得到每一个所述文本片段对应的特征值,包括:
分别基于各所述特征提取器执行以下处理:
通过所述特征提取器,对包含多个文本片段的待处理文本进行特征提取,得到相应的文本片段的特征值。
3.根据权利要求2所述的方法,其特征在于,所述通过所述特征提取器,对包含多个文本片段的待处理文本进行特征提取,得到相应的文本片段的特征值,包括:
通过所述特征提取器,将所述待处理文本划分为多个备选文本片段;
分别对各所述备选文本片段进行特征提取,得到每一个所述备选文本片段对应的特征值;
从所述多个备选文本片段中,选取特征值最大的备选文本片段,并将选取的备选文本片段的特征值作为与所述特征提取器对应的文本片段的特征值。
4.根据权利要求3所述的方法,其特征在于,当所述特征提取器用于对目标长度的文本片段进行特征提取时,所述将所述待处理文本划分为多个备选文本片段,包括:
对所述待处理文本中的单词进行遍历,并针对遍历到的每个单词执行以下处理:
将遍历到的单词作为起始单词,从所述待处理文本中提取所述目标长度的备选文本片段。
5.根据权利要求1所述的方法,其特征在于,所述通过所述风险分类模型的预测层,分别基于各所述文本片段对应的特征值,确定相应的所述文本片段与各所述风险类别的关联度,包括:
分别针对各所述文本片段执行以下处理:
获取各所述风险类别的权重;
通过所述风险分类模型的预测层,基于所述文本片段对应的特征值和各所述风险类别的权重,分别确定所述文本片段与各所述风险类别的关联度。
6.根据权利要求1所述的方法,其特征在于,所述从所述多个文本片段中,分别选取与各所述风险类别的关联度满足关联度条件的文本片段,包括:
分别针对各所述风险类别执行以下处理:
基于各所述文本片段与所述风险类别的关联度,对各所述文本片段进行排序,得到文本片段序列;
按照所述关联度的高低,从所述文本片段序列中,选取目标数量的文本片段,将选取的文本片段作为与所述风险类别的关联度满足关联度条件的文本片段。
7.根据权利要求1所述的方法,其特征在于,所述从所述多个文本片段中,分别选取与各所述风险类别的关联度满足关联度条件的文本片段,包括:
分别针对各所述风险类别执行以下处理:
获取与所述风险类别相对应的关联度阈值;
从所述多个文本片段中,选取与所述风险类别的关联度达到关联度阈值的文本片段,将选取的文本片段作为与所述风险类别的关联度满足关联度条件的文本片段。
8.根据权利要求1所述的方法,其特征在于,所述通过风险分类模型的特征提取层,对包含多个文本片段的待处理文本进行特征提取之前,所述方法还包括:
从目标网页中爬取所述目标网页的网页数据;
对所述网页数据进行文本信息的提取,将提取得到的文本作为所述待处理文本。
9.根据权利要求1所述的方法,其特征在于,所述将选取的文本片段作为从所述待处理文本中提取的风险文本之后,所述方法还包括:
基于所述风险文本生成相应的风险提示信息;
输出所述风险提示信息。
10.根据权利要求1所述的方法,其特征在于,所述通过风险分类模型的特征提取层,对包含多个文本片段的待处理文本进行特征提取之前,所述方法还包括:
通过所述风险分类模型的特征提取层,对包含多个样本文本片段的样本文本进行特征提取,得到每一个所述样本文本片段对应的特征值;
其中,所述样本文本携带有指示所述样本文本归属的风险类别的风险分类标签;
通过所述风险分类模型的预测层,分别基于各所述样本文本片段对应的特征值,确定相应的所述样本文本片段与各所述风险类别的关联度;
通过所述风险分类模型的预测层,基于各所述样本文本片段与各所述风险类别的关联度,对所述样本文本的风险类别进行预测,得到预测风险类别;
基于所述预测风险类别与所述风险分类标签之间的差异,对所述特征提取层的参数及所述预测层的参数进行更新。
11.根据权利要求10所述的方法,其特征在于,所述基于各所述样本文本片段与各所述风险类别的关联度,对所述样本文本的风险类别进行预测,得到预测风险类别,包括:
基于各所述样本文本片段与各所述风险类别的关联度,分别确定所述样本文本归属于各所述风险类别的概率;
基于所述样本文本归属于各所述风险类别的概率,确定所述样本文本归属的风险类别,并将确定的风险类别作为所述预测风险类别。
12.一种风险文本的提取装置,其特征在于,包括:
特征提取模块,用于通过风险分类模型的特征提取层,对包含多个文本片段的待处理文本进行特征提取,得到每一个所述文本片段对应的特征值;
其中,所述风险分类模型,用于对待处理文本进行至少两个风险类别的分类;
关联度确定模块,用于通过所述风险分类模型的预测层,分别基于各所述文本片段对应的特征值,确定相应的所述文本片段与各所述风险类别的关联度;
文本片段提取模块,用于从所述多个文本片段中,分别选取与各所述风险类别的关联度满足关联度条件的文本片段,并将选取的文本片段作为从所述待处理文本中提取的风险文本。
13.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至11任一项所述的风险文本的提取方法。
14.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至11任一项所述的风险文本的提取方法。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至11任一项所述的风险文本的提取方法。
CN202110236241.6A 2021-03-03 2021-03-03 风险文本的提取方法、装置、电子设备及存储介质 Active CN112861511B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110236241.6A CN112861511B (zh) 2021-03-03 2021-03-03 风险文本的提取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110236241.6A CN112861511B (zh) 2021-03-03 2021-03-03 风险文本的提取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112861511A true CN112861511A (zh) 2021-05-28
CN112861511B CN112861511B (zh) 2024-06-07

Family

ID=75991369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110236241.6A Active CN112861511B (zh) 2021-03-03 2021-03-03 风险文本的提取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112861511B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170228365A1 (en) * 2016-02-09 2017-08-10 International Business Machines Corporation Systems and methods for language feature generation over multi-layered word representation
CN109582791A (zh) * 2018-11-13 2019-04-05 阿里巴巴集团控股有限公司 文本的风险识别方法及装置
CN109918649A (zh) * 2019-02-01 2019-06-21 杭州师范大学 一种基于微博文本的自杀风险识别方法
CN111046184A (zh) * 2019-12-12 2020-04-21 深圳市随手金服信息科技有限公司 文本的风险识别方法、装置、服务器和存储介质
CN111401062A (zh) * 2020-03-25 2020-07-10 支付宝(杭州)信息技术有限公司 文本的风险识别方法、装置及设备
CN111797194A (zh) * 2020-05-20 2020-10-20 北京三快在线科技有限公司 文本风险检测方法、装置、电子设备及存储介质
US20200349430A1 (en) * 2019-05-03 2020-11-05 Webroot Inc. System and method for predicting domain reputation
CN112035846A (zh) * 2020-09-07 2020-12-04 江苏开博科技有限公司 一种基于文本分析的未知漏洞风险评估方法
CN112232088A (zh) * 2020-11-19 2021-01-15 京北方信息技术股份有限公司 合同条款风险智能识别方法、装置、电子设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170228365A1 (en) * 2016-02-09 2017-08-10 International Business Machines Corporation Systems and methods for language feature generation over multi-layered word representation
CN109582791A (zh) * 2018-11-13 2019-04-05 阿里巴巴集团控股有限公司 文本的风险识别方法及装置
CN109918649A (zh) * 2019-02-01 2019-06-21 杭州师范大学 一种基于微博文本的自杀风险识别方法
US20200349430A1 (en) * 2019-05-03 2020-11-05 Webroot Inc. System and method for predicting domain reputation
CN111046184A (zh) * 2019-12-12 2020-04-21 深圳市随手金服信息科技有限公司 文本的风险识别方法、装置、服务器和存储介质
CN111401062A (zh) * 2020-03-25 2020-07-10 支付宝(杭州)信息技术有限公司 文本的风险识别方法、装置及设备
CN111797194A (zh) * 2020-05-20 2020-10-20 北京三快在线科技有限公司 文本风险检测方法、装置、电子设备及存储介质
CN112035846A (zh) * 2020-09-07 2020-12-04 江苏开博科技有限公司 一种基于文本分析的未知漏洞风险评估方法
CN112232088A (zh) * 2020-11-19 2021-01-15 京北方信息技术股份有限公司 合同条款风险智能识别方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FEIRAN GUO.ETC: "Construction of risk prevention and control model for catering industry during 2019-nCoV situation based on text mining", IEEE, 31 December 2020 (2020-12-31) *
王孟轩;张胜;王月;雷霆;杜渂;: "改进的CRNN模型在警情文本分类中的研究与应用", 应用科学学报, no. 03, 30 May 2020 (2020-05-30) *
许诺;唐锡晋;: "基于百度热搜新闻词的社会风险事件5W提取研究", 系统工程理论与实践, no. 02, 25 February 2020 (2020-02-25) *

Also Published As

Publication number Publication date
CN112861511B (zh) 2024-06-07

Similar Documents

Publication Publication Date Title
CN109492222B (zh) 基于概念树的意图识别方法、装置及计算机设备
CN113722438B (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN110737811B (zh) 应用分类方法、装置以及相关设备
CN102446255A (zh) 一种检测页面篡改的方法及装置
CN109146625B (zh) 一种基于内容的多版本App更新评价方法及系统
CN111178656A (zh) 信用模型训练方法、信用评分方法、装置及电子设备
CN114840869A (zh) 基于敏感度识别模型的数据敏感度识别方法及装置
CN114547315A (zh) 一种案件分类预测方法、装置、计算机设备及存储介质
CN113268571A (zh) 一种确定段落中正确答案位置的方法、装置、设备及介质
CN113392218A (zh) 文本质量评估模型的训练方法和确定文本质量的方法
CN113220999A (zh) 用户特征的生成方法、装置、电子设备和存储介质
CN114495113A (zh) 文本分类方法和文本分类模型的训练方法、装置
WO2021258968A1 (zh) 小程序分类方法、装置、设备及计算机可读存储介质
CN104036189A (zh) 页面篡改检测方法及黑链数据库生成方法
CN114117299A (zh) 一种网站入侵篡改检测方法、装置、设备及存储介质
CN111950265A (zh) 一种领域词库构建方法和装置
CN116680481A (zh) 搜索排序方法、装置、设备、存储介质及计算机程序产品
CN116860311A (zh) 脚本分析方法、装置、计算机设备及存储介质
CN112861511B (zh) 风险文本的提取方法、装置、电子设备及存储介质
US10296585B2 (en) Assisted free form decision definition using rules vocabulary
JP2024507029A (ja) ウェブページ識別方法、装置、電子機器、媒体およびコンピュータプログラム
CN113869803A (zh) 企业敏感信息风险评估方法、系统和存储介质
US11120204B2 (en) Comment-based article augmentation
CN113312552A (zh) 数据处理方法、装置、电子设备和介质
US11531722B2 (en) Electronic device and control method therefor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant