CN115129913A - 敏感词挖掘方法及其装置、设备、介质 - Google Patents

敏感词挖掘方法及其装置、设备、介质 Download PDF

Info

Publication number
CN115129913A
CN115129913A CN202210844576.0A CN202210844576A CN115129913A CN 115129913 A CN115129913 A CN 115129913A CN 202210844576 A CN202210844576 A CN 202210844576A CN 115129913 A CN115129913 A CN 115129913A
Authority
CN
China
Prior art keywords
sensitive
word
words
text
granularity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210844576.0A
Other languages
English (en)
Inventor
郑彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huanju Shidai Information Technology Co Ltd
Original Assignee
Guangzhou Huanju Shidai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huanju Shidai Information Technology Co Ltd filed Critical Guangzhou Huanju Shidai Information Technology Co Ltd
Priority to CN202210844576.0A priority Critical patent/CN115129913A/zh
Publication of CN115129913A publication Critical patent/CN115129913A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及电商信息技术领域中一种敏感词挖掘方法及其装置、设备、介质、产品,所述方法包括:获取数据集,所述数据集包括敏感文本及其所属的敏感类型;对各个敏感类型相对应的所述敏感文本进行多种粒度相对应的敏感词提取操作,确定出多种粒度相对应的分词,其中,第一种粒度的敏感词基于单词进行操作,第二种粒度的敏感词基于分词进行操作,第三种粒度的敏感词基于共现词进行操作;构造敏感词表,将所提取的敏感词与其所在的敏感文本所属的敏感类型关联存储于该敏感词表中。本申请能够以不同粒度精准挖掘出多类敏感词,为敏感词检测提供可靠和充足的参考信息,有助于提升电商信息安全检测的可靠性。

Description

敏感词挖掘方法及其装置、设备、介质
技术领域
本申请涉及电商信息技术领域,尤其涉及一种敏感词挖掘方法及其相应的装置、计算机设备、计算机可读存储介质。
背景技术
敏感词检测是现代网络监控的必要功能,检测维度主要包括暴恐、色情、低俗、辱骂等等多种类型。在跨境电商中敏感词检测同样至关重要,电商平台的敏感词可能广泛出现在商品的商品信息中,例如商品标题、商品描述、商品图片上的文字中,因而需要通过检测确保商品信息中不存在敏感词,方可允许将商品发布上线至电商平台。
传统技术中,多采用神经网络模型基于待检测文本的深层语义信息进行分类映射,将待检测文本映射为不同的敏感类型标签。众所周知,神经网络模型的训练成本较高,严重依赖训练样本,但在跨境电商平台中,各个独立站的语料非常有限,难以适用人工智能方案。神经网络模型的延时较高,以及需要的运算资源多,所以,尽管神经网络模型相关的技术更为前沿,但在适应跨境电商服务场景需求时,总体效果反而不佳。
一种更传统的方式中,可以基于规则匹配的方式进行敏感词检测,但这种方式严重依赖于敏感词库的词汇量和准确性。对于敏感词库的构建,传统的方式多基于人工采集或者粗召回来获取,常导致词汇量不足或者不够精准,因而,如何实现对敏感词的有效数据挖掘,值得探索。
发明内容
本申请的首要目的在于解决上述问题至少之一而提供一种敏感词挖掘方法及其相应的装置、计算机设备、计算机可读存储介质。
为满足本申请的各个目的,本申请采用如下技术方案:
适应本申请的目的之一而提供的一种敏感词挖掘方法,包括如下步骤:
获取数据集,所述数据集包括敏感文本及其所属的敏感类型;
对各个敏感类型相对应的所述敏感文本进行多种粒度相对应的敏感词提取操作,确定出多种粒度相对应的分词,其中,第一种粒度的敏感词基于单词进行操作,第二种粒度的敏感词基于分词进行操作,第三种粒度的敏感词基于共现词进行操作;
构造敏感词表,将所提取的敏感词与其所在的敏感文本所属的敏感类型关联存储于该敏感词表中。
进一步的实施例中,获取数据集之前,还包括如下步骤:
获取存在敏感词的历史商品的商品图片及文本信息,所述文本信息包括商品的商品描述信息;
采用预先训练至收敛的图文识别模型,提取出所述存在敏感词的商品图片中的图片文本,将该图片文本和所述文本信息作为敏感文本;
采用预先训练至收敛的文本分类模型对所述敏感文本进行分类,获得敏感文本对应的敏感类型构造出数据集。
较佳的实施例中,构造敏感词表之后,还包括如下步骤:
响应商品发布请求,获取商品的商品图片及文本信息,提取出相应的待检测文本,所述文本信息包括商品的商品描述信息;
将待检测文本与敏感词表中多粒度相对应的敏感词进行匹配,获得相匹配的目标敏感词;
根据所述各种粒度相对应的敏感词对应预设的敏感系数,统计所述目标敏感词对应的敏感系数,获得敏感置信度作为所述待检测文本对应的检测评分;
当待检测文本的检测评分达到预设阈值时,判定该待检测文本为敏感文本,向发送所述商品发布请求的客户端推送商品发布失败通知。
深化的实施例中,对各个敏感类型相对应的所述敏感文本进行多种粒度相对应的敏感词提取操作,包括如下步骤:
逐一调用数据集中的各个敏感类型的敏感文本进行多个字长相对应的分词操作,获得各个字长相对应的分词所构成的分词集;
根据所述分词集,确定每个敏感类型相对应的单词粒度的分词子集、分词粒度的分词子集,以及共现词粒度的分词子集;
对应统计出每个敏感类型下,各个分词在该敏感类型的敏感文本中出现的词频相对应的关键评分;
根据所述关键评分为各个敏感类型优选出相应粒度所对应的分词作为该敏感类型相对应的敏感词。
进一步的实施例中,对应统计出每个敏感类型下,各个分词在该敏感类型的敏感文本中出现的词频相对应的关键评分,包括如下步骤:
针对每个敏感类型,统计其相对应的各个分词在该敏感类型相对应的所有敏感文本中出现的词频;
针对每个敏感类型,统计其相对应的各个分词在其他敏感类型相对应的所有敏感文本中出现的逆文本频率指数;
将每个分词的词频和逆文本频率指数的乘积确定为相应分词的关键评分。
深化的实施例中,将待检测文本与敏感词表中多粒度相对应的敏感词进行匹配,获得相匹配的目标敏感词的步骤中,所述敏感词表将各个敏感类型的敏感词存储为知识图谱结构,其中,第三种粒度的敏感词作为第二种粒度的敏感词的上级节点,具有节点连接关系的第三种粒度的敏感词与第二种粒度的敏感词之间,包含相同的第一种粒度的敏感词;第二种粒度的敏感词作为第一种粒度的敏感词的上级节点。
另一方面,适应本申请的目的之一而提供的一种敏感词挖掘装置,包括数据获取模块、敏感词提取模块以及词表构造模块,其中:数据获取模块,用于获取数据集,所述数据集包括敏感文本及其所属的敏感类型;敏感词提取模块,用于对各个敏感类型相对应的所述敏感文本进行多种粒度相对应的敏感词提取操作,确定出多种粒度相对应的分词,其中,第一种粒度的敏感词基于单词进行操作,第二种粒度的敏感词基于分词进行操作,第三种粒度的敏感词基于共现词进行操作;词表构造模块,用于构造敏感词表,将所提取的敏感词与其所在的敏感文本所属的敏感类型关联存储于该敏感词表中。
进一步的实施例中,所述数据获取模块之前,还包括:历史数据获取子模块,用于获取存在敏感词的历史商品的商品图片及文本信息,所述文本信息包括商品的商品描述信息;图文识别子模块,用于采用预先训练至收敛的图文识别模型,提取出所述存在敏感词的商品图片中的图片文本,将该图片文本和所述文本信息作为敏感文本;文本分类子模块,用于采用预先训练至收敛的文本分类模型对所述敏感文本进行分类,获得敏感文本对应的敏感类型构造出数据集。
较佳的实施例中,所述词表构造模块之后,还包括:请求响应子模块,用于响应商品发布请求,获取商品的商品图片及文本信息,提取出相应的待检测文本,所述文本信息包括商品的商品描述信息;敏感词匹配子模块,用于将待检测文本与敏感词表中多粒度相对应的敏感词进行匹配,获得相匹配的目标敏感词;检测评分子模块,用于根据所述各种粒度相对应的敏感词对应预设的敏感系数,统计所述目标敏感词对应的敏感系数,获得敏感置信度作为所述待检测文本对应的检测评分;通知推送子模块,用于当待检测文本的检测评分达到预设阈值时,判定该待检测文本为敏感文本,向发送所述商品发布请求的客户端推送商品发布失败通知。
深化的实施例中,所述敏感词提取模块,包括:文本分词子模块,用于逐一调用数据集中的各个敏感类型的敏感文本进行多个字长相对应的分词操作,获得各个字长相对应的分词所构成的分词集;子集确认子模块,用于根据所述分词集,确定每个敏感类型相对应的单词粒度的分词子集、分词粒度的分词子集,以及共现词粒度的分词子集;统计评分子模块,用于对应统计出每个敏感类型下,各个分词在该敏感类型的敏感文本中出现的词频相对应的关键评分;评分优选子模块,用于根据所述关键评分为各个敏感类型优选出相应粒度所对应的分词作为该敏感类型相对应的敏感词。
进一步的实施例中,所述统计评分子模块,包括:词频单元,用于针对每个敏感类型,统计其相对应的各个分词在该敏感类型相对应的所有敏感文本中出现的词频;逆文本频率指数单元,用于针对每个敏感类型,统计其相对应的各个分词在其他敏感类型相对应的所有敏感文本中出现的逆文本频率指数;关键评分单元,用于将每个分词的词频和逆文本频率指数的乘积确定为相应分词的关键评分。
又一方面,适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的敏感词挖掘方法的步骤。
又一方面,适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的敏感词挖掘方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
又一方面,适应本申请的另一目的而提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。
本申请的技术方案存在多方面优势,包括但不限于如下各方面:
本申请一方面,通过深度挖掘出数据集中的多种粒度相对应的分词作为敏感词,构造出敏感词表,使得确保敏感词表的敏感词数量充足,在应用该敏感词表对商品发布请求对应的商品的商品信息进行敏感词检测时,一定程度上保证存在敏感词的商品信息能够被检测出,提升检测的准确性。另一方面,应用该敏感词表对商品发布请求对应的商品的商品信息进行敏感词检测,执行高效,延时较短,能够保障用户体验。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的敏感词挖掘方法的典型实施例的流程示意图;
图2为本申请的实施例中构造数据集的流程示意图;
图3为本申请的实施例中应用敏感词表实施敏感词检测的流程示意图;
图4为本申请的实施例中提取出多种粒度相对应的敏感词的流程示意图;
图5为本申请的实施例中确定关键评分的流程示意图;
图6为本申请的敏感词挖掘装置的原理框图;
图7为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种敏感词挖掘方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如,本申请的示例性应用场景中,可以在电商平台的服务器中部署实现,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
请参阅图1,本申请的敏感词挖掘方法,在其典型实施例中,包括如下步骤:
步骤S1100、获取数据集,所述数据集包括敏感文本及其所属的敏感类型;
典型的应用场景中,本申请的技术方案所实现的计算机程序产品被部署于跨境电商的服务器中,为该服务平台的各个在线服务提供基础服务,具体可为其他在线服务所提交的商品发布请求中商品的商品信息,所述商品信息包含商品图片及商品详情文本、商品标题文本等商品描述信息,检测其中是否包含某种类型的敏感词。在部署所述计算机程序产品时,既可实现为了一个集中式的基础服务,统一为其他在线服务开发标准化的接口,也可被配置为跨境电商平台中的任意一个独立站的独立基础服务模块,专用于该相应的独立站,为该独立站的在线服务提供基础服务。
一般而言,跨境电商服务平台可维护一个敏感数据库,该敏感数据库中,预存储数据集,所述数据集包含敏感文本及其所属的敏感类型。示范性举例,当跨境电商平台中的任意一个独立站向跨境电商服务平台发起商品发布请求时,跨境电商服务平台可通过人工的方式对商品发布请求的商品的商品信息中的文本进行检测,检测商品图片中的文本及商品详情文本、商品标题文本等商品描述信息中是否存在敏感词,所述敏感词所属敏感类型包括暴恐、色情、低俗、辱骂、欺诈等等,此时可将检测出存在敏感词的商品信息中的文本,例如商品图片中的文本或商品标题文本又或商品详情文本作为敏感文本,进一步,将敏感文本映射关联其所属的敏感类型存储于敏感数据库中。
可为所述敏感数据库封装相应的数据接口,使得可调用该数据接口获取数据库中预存储的所述数据集中的敏感文本及其所属的敏感类型。
步骤S1200、对各个敏感类型相对应的所述敏感文本进行多种粒度相对应的敏感词提取操作,确定出多种粒度相对应的分词,其中,第一种粒度的敏感词基于单词进行操作,第二种粒度的敏感词基于分词进行操作,第三种粒度的敏感词基于共现词进行操作;
采用多种分词粒度的分词算法处理所述各个敏感类型相对应的所述敏感文本,获得每个敏感类型相对应的多种粒度相对应的分词,一种实施例中,采用分词粒度为单个文本的分词算法对所述敏感文本进行分词,对于敏感文本为中文而言,该单个文本的分词算法可为WordPiece分词算法,采用该算法对敏感文本进行分词,分出单个中文字的单词;对于敏感文本为英语、法语、西班牙语等而言,可以理解,该类文本中的各个词之间以空格为分割符进行分割,由此,该单个文本的分词算法可为基于空格分词算法,对于文本中的标点符号如句号、逗号、顿号、感叹号、问号等,可通过相应的替换为空格,之后,再采用该算法对敏感文本进行分词,分出单个文本的单词。进一步,以数组形式存储各个敏感文本对应的单词例如[Ci1,Ci2,Ci3,…,Cin],获得第一数组,复制第一数组获得第二数组,以第一数组嵌套第二数组进行遍历,获得第一数组中的各个单词分别与第二数组中除自身以外的各个单词组合而成的共现词,去除其中重复的共现词,其中包含两个单词,例如(Ci1,Ci2)、(Ci1,Ci3)、(Ci2,Ci3)。
采用分词粒度为多个文本的分词算法对所述敏感文本进行分词,该多个文本的分词算法可为n-gram(n>=2)算法,采用该算法对敏感文本进行分词,分出多个文本的分词,具体分词长度n,可由本领域技术人员根据业务所需灵活变通设置。示范性举例,采用2-gram算法对敏感文本进行分词,通过分词长度为2的取词窗口分出多个文本的分词。
将上述分词获得的单词、分词、共现词相对应的作为第一种粒度、第二种粒度、第三种粒度的分词。
进一步,根据每个敏感类型相对应的单词总数、分词总数、共现词总数,相应统计各个单词、各个分词、各个共现词相对应出现的频率即词频。另外,相对应的统计所述每个敏感类型中每个单词、每个分词及每个共现词相对应被敏感文本所包含的敏感文本数。以相应的敏感类型的敏感文本总数除以所述敏感文本数,取该商值的对数,获得每个敏感类型相对应的每个单词、每个分词及每个共现词相对应的逆文本频率指数,以所述逆文本频率指数乘上所述词频作为每个敏感类型相对应的每个单词、每个分词及每个共现词相对应的关键评分。由此,可根据所述关键评分优选出相应的每个敏感类型相对应的单词、分词及共现词,分别作为第一种粒度、第二种粒度、第三种粒度相对应的敏感词。
步骤S1300、构造敏感词表,将所提取的敏感词与其所在的敏感文本所属的敏感类型关联存储于该敏感词表中。
一种实施例中,构造敏感词表,将所提取的所述每个敏感类型相对应的各种粒度的各个敏感词映射关联该敏感类型存储于该敏感词表中。
另一种实施例中,可以构造知识图谱结构的敏感词表,将每个敏感类型相对应的各种粒度的各个敏感词映射关联该敏感类型存储于该敏感词表中,相应的,第三种粒度的敏感词作为第二种粒度的敏感词的上级节点,具有节点连接关系的第三种粒度的敏感词与第二种粒度的敏感词之间,包含相同的第一种粒度的敏感词;第二种粒度的敏感词作为第一种粒度的敏感词的上级节点。
根据本申请的典型实施例可以知晓,本申请的技术方案存在多方面优势,包括但不限于如下各方面:
本申请一方面,通过深度挖掘出数据集中的多种粒度相对应的分词作为敏感词,构造出敏感词表,使得确保敏感词表的敏感词数量充足,在应用该敏感词表对商品发布请求对应的商品的商品信息进行敏感词检测时,一定程度上保证存在敏感词的商品信息能够被检测出,提升检测的准确性。另一方面,应用该敏感词表对商品发布请求对应的商品的商品信息进行敏感词检测,执行高效,延时较短,能够保障用户体验。
请参阅图2,进一步的实施例中,步骤S1100、获取数据集之前,还包括如下步骤:
步骤S1010、获取存在敏感词的历史商品的商品图片及文本信息,所述文本信息包括商品的商品描述信息;
电商平台中每一个商品都有其对应的商品信息,通常商品信息由电商平台的线上店铺的商家用户负责发布和维护,使得电商平台能够根据商品信息相应展示线上店铺上架销售的商品,从而提供给消费者用户进行浏览和下单等。所述线上店铺可以是独立站点,所述独立站点独立维护自身线上店铺的商品的商品数据库,所述商品数据库用于存放线上店铺的各个商品及其对应的商品信息。
所述商品信息通常包括两大类,其一是商品图片,其二是文本信息。所述商品图片,通常用于展示相应的商品,图片中允许包含相应的描述文本以描述商品的效果、卖点、功能、品牌、规格型号等等任意具体信息。所述文本信息,泛指一切关联于所述商品存储的且适于以文本形式提供的商品描述信息,包括但不限于商品的商品标题文本、商品属性数据、商品详情文本、商品画像标签等任意一项或多项。在用途上,所述商品描述信息一般用于描述商品的品牌、名称、型号、类别、用途、功能、性质、卖点、用法等等任意具体信息。
一般而言,电商平台中的线上店铺的商家用户需要发布商品时,需在相应的商品发布页面中录入商品相对应的商品信息,然后提交至电商平台的后台服务器,检测该商品的商品信息是否存在敏感词,此时,可将存在敏感词的商品对应的商品图片及文本信息,存储于预构建的历史数据库中。
可通过调用历史数据库的数据接口,获取历史提交检测的商品的商品信息,对应被检测出存在敏感词的商品图片及文本信息。
步骤S1020、采用预先训练至收敛的图文识别模型,提取出所述存在敏感词的商品图片中的图片文本,将该图片文本和所述文本信息作为敏感文本;
采用预先训练至收敛的图文识别模型,检测出商品图片中包含文本的区域,进而识别出该区域中的图片文本。将该存在敏感词的图片文本及所述文本信息作为敏感文本。所述图文识别模型可采用Resnet50模型、VGG16模型等应用于OCR领域的基于CNN的模型,模型训练至收敛的过程,可由本领域技术人员灵活变通实现。
步骤S1030、采用预先训练至收敛的文本分类模型对所述敏感文本进行分类,获得敏感文本对应的敏感类型构造出数据集。
可采集涉及敏感类型的文本作为训练样本,敏感类型包括暴恐、色情、低俗、辱骂、欺诈等等,为该训练样本标注相应的敏感类型作为监督标签,构造出训练集。应用该训练集训练所述文本分类模型,在训练过程中,调用单个训练样本输入至文本分类模型中,对所述训练样本进行编码,提取相应的深层语义特征,获得编码特征向量,将其映射至相应的分类空间,获得相应的分类概率,根据训练样本对应的监督标签,计算该分类概率的损失值,在该损失值达到预设阈值时判定模型收敛而终止训练,否则调用下一个训练样本继续对模型实施迭代训练,当根据该损失值判定模型收敛之后,便可终止训练。可以理解,所述文本分类模型经过训练至收敛后,习得将向其输入的文本进行相应的敏感类型分类的能力。所述预设阈值可由本领域技术人员根据先验知识或实验数据灵活变通设置。所述文本分类模型可采用Bert模型、HAN模型、LEAM模型、TextCNN、TextRNN、TextRCNN中任意一种,本领域技术人员可按实际所需选定。
将所述敏感文本作为预先训练至收敛的文本分类模型的输入,对敏感文本进行编码,提取出相应的深层语义信息,获得编码特征向量,将其映射至相应的分类空间,预测出敏感文本所属的敏感类型。将敏感文本映射关联其对应的敏感类型构造出数据集。
本实施例中,实现智能化高效处理历史商品的商品图片及文本信息,获得相应的敏感文本及其所属的敏感类型,构造出数据集。
请参阅图3,较佳的实施例中,步骤S1300、构造敏感词表之后,还包括如下步骤:
步骤S1400、响应商品发布请求,获取商品的商品图片及文本信息,提取出相应的待检测文本,所述文本信息包括商品的商品描述信息;
一般而言,电商平台中的线上店铺的商家用户需要发布商品时,需在客户端上展示的相应的商品发布页面中录入商品相对应的商品信息,进而触发生成商品发布请求,提交至电商平台的后台服务器。服务器接收该请求后,对其进行响应,获得该请求指向的商家用户录入的商品的商品图片及文本信息。可调用预先训练至收敛的图文识别模型对商品图片中的文本进行识别,提取出相应图片文本,进而将该图片文本,及文本信息对应的文本如商品标题文本和商品详情文本,作为待检测文本。
所述商品信息包含商品的商品图片及文本信息,所述文本信息,泛指一切关联于所述商品存储的且适于以文本形式提供的商品描述信息,包括但不限于商品的商品标题文本、商品属性数据、商品详情文本、商品画像标签等任意一项或多项。
步骤S1410、将待检测文本与敏感词表中多粒度相对应的敏感词进行匹配,获得相匹配的目标敏感词;
一种实施例中,所述敏感词表直接存储多种粒度相对应的敏感词。遍历该敏感词表中的全量敏感词与待检测文本进行字符串匹配,获得相匹配的敏感词表中的敏感词作为目标敏感词。
另一种实施例中,所述敏感词表的存储结构为知识图谱结构,其中,相应的,第三种粒度的敏感词作为第二种粒度的敏感词的上级节点,具有节点连接关系的第三种粒度的敏感词与第二种粒度的敏感词之间,包含相同的第一种粒度的敏感词;第二种粒度的敏感词作为第一种粒度的敏感词的上级节点。据此,可遍历该敏感词表中的根节点即第一种粒度的敏感词与待检测文本进行字符串匹配,当存在相匹配的根节点时,进一步,遍历其对应的上级节点即第二种粒度的敏感词与待检测文本进行字符串匹配,当存在相匹配的根节点时的上级节点时,再进一步,遍历其对应的上级节点即第三种粒度的敏感词与待检测文本进行字符串匹配,最终将相匹配的敏感词表中的敏感词作为目标敏感词。
可以理解,上述两种实施例对应的字符串匹配速度不同,前者需要遍历全量的敏感词,后者只需根据各级节点对应的敏感词对应的匹配情况进行逐级遍历,能够加快匹配的速度。
步骤S1420、根据所述各种粒度相对应的敏感词对应预设的敏感系数,统计所述目标敏感词对应的敏感系数,获得敏感置信度作为所述待检测文本对应的检测评分;
可以为所述各种粒度相对应的敏感词对应预设相应的敏感系数,据此,统计目标敏感词对应的敏感系数,求和获得相应的敏感置信度作为所述待检测文本对应的检测评分,可以理解,所述敏感置信度表征待检测文本属于敏感文本的可靠度,所述敏感系数的设置示范性举例,第一粒度的敏感词为单词,第二粒度的敏感词为分词,第三粒度的敏感词而言为共现词,可以理解,单词对应的置信度应该较低,分词和共现词对应的置信度应该相似,据此,可设置第一粒度的敏感词对应的敏感置信度为0.2、第二粒度的敏感词对应的敏感置信度为0.4、第三粒度的敏感词对应的敏感置信度为0.4,当然,本领域技术人员可按此处揭示灵活变通设置所述各个粒度的敏感词对应的敏感置信度。
步骤S1430、当待检测文本的检测评分达到预设阈值时,判定该待检测文本为敏感文本,向发送所述商品发布请求的客户端推送商品发布失败通知。
可预设相应的阈值以其判断待检测文本的检测评分是否达到,当检测评分达到预设阈值时,判定该待检测文本存在敏感词,将该检测文本视为敏感文本,由此,服务器向发送所述商品发布请求的客户端推送商品发布失败通知,告知相应的商家用户其录入的商品的商品图片中的文本或文本信息对应的文本存在敏感词,具体为所述目标敏感词。
此外,当检测文本的检测评分未达到预设阈值时,判定该待检测文本不是敏感文本,服务器根据所述商品发布请求指向的商品的商品信息,相应在电商平台上展示线上店铺上架销售的商品。
本实施例中,能够快速匹配出待检测文本对应的目标敏感词,且根据目标敏感词对应的敏感系数,能够得出可靠的待检测文本对应的敏感置信度,据此,准确判定待检测文本是否属于敏感文本。
请参阅图4,深化的实施例中,步骤S1200、对各个敏感类型相对应的所述敏感文本进行多种粒度相对应的敏感词提取操作,包括如下步骤:
步骤S1210、逐一调用数据集中的各个敏感类型的敏感文本进行多个字长相对应的分词操作,获得各个字长相对应的分词所构成的分词集;
逐一调用数据集中的各个敏感类型的敏感文本,采用多种分词粒度的分词算法对敏感文本进行多个字长相对应的分词操作,相应获得敏感文本对应的单词、分词、共现词,进而以各个敏感类型的敏感文本对应的单词、分词、共现词,构成该各个敏感类型对应的分词集。关于所述多种分词粒度的分词算法及所述分词操作对应的具体实现,可参考步骤S1200的揭示,本步骤恕不赘述。
步骤S1220、根据所述分词集,确定每个敏感类型相对应的单词粒度的分词子集、分词粒度的分词子集,以及共现词粒度的分词子集;
根据各个敏感类型对应的分词集中各个分词对应的分词粒度,确定第一种粒度的单词对应的分词子集、第二种粒度的分词对应的分词子集,以及第三种粒度的共现词对应的分词子集。
步骤S1230、对应统计出每个敏感类型下,各个分词在该敏感类型的敏感文本中出现的词频相对应的关键评分;
根据每个敏感类型相对应的单词粒度的分词子集、分词粒度的分词子集,以及共现词粒度的分词子集相对应的单词总数、分词总数、共现词总数,相应统计各个分词集中各个单词、各个分词、各个共现词相对应出现的频率即词频。另外,相对应的统计所述每个敏感类型中每个单词、每个分词及每个共现词相对应被敏感文本所包含的敏感文本数。以相应的敏感类型的敏感文本总数除以所述敏感文本数,取该商值的对数,获得每个敏感类型相对应的每个单词、每个分词及每个共现词相对应的逆文本频率指数,以所述逆文本频率指数乘上所述词频作为每个敏感类型相对应的每个单词、每个分词及每个共现词相对应的关键评分。
步骤S1240、根据所述关键评分为各个敏感类型优选出相应粒度所对应的分词作为该敏感类型相对应的敏感词。
可根据每个敏感类型相对应的每个单词、每个分词及每个共现词相对应的关键评分,预先设置相应的阈值。由此,根据该各种粒度所对应的分词对应的阈值,相应的选取出超过阈值的关键评分对应的分词,作为该敏感类型相对应的敏感词。
本实施例中,能够挖掘出多种粒度的分词,有助于保障后续敏感词检测的准确性。
请参阅图5,进一步的实施例中,步骤S1230、对应统计出每个敏感类型下,各个分词在该敏感类型的敏感文本中出现的词频相对应的关键评分,包括如下步骤:
步骤S1231、针对每个敏感类型,统计其相对应的各个分词在该敏感类型相对应的所有敏感文本中出现的词频;
根据所述对每个敏感类型的敏感文本进行多个字长相对应的分词操作,获得相对应的单词、分词、共现词分别对应的总数,相应统计每个敏感类型对应的各个单词、各个分词、各个共现词相对应出现的频率即词频。
步骤S1232、针对每个敏感类型,统计其相对应的各个分词在其他敏感类型相对应的所有敏感文本中出现的逆文本频率指数;
统计所述每个敏感类型中每个单词、每个分词及每个共现词相对应被敏感文本所包含的敏感文本数。以相应的敏感类型的敏感文本总数除以所述敏感文本数,取该商值的对数,获得每个敏感类型相对应的每个单词、每个分词及每个共现词相对应的逆文本频率指数。
步骤S1233、将每个分词的词频和逆文本频率指数的乘积确定为相应分词的关键评分。
将每个单词、每个分词及每个共现词相对应的词频和逆文本频率指数进行相乘,获得相应的乘积确定为相应分词的关键评分。
本实施例中,通过统计出各个分词的词频和逆文本频率指数,以其两者相乘的乘积作为相应分词的关键评分,能够以该量化的数值精准表示每个敏感类型下的各个分词对应的重要性。
请参阅图6,适应本申请的目的之一而提供的一种敏感词挖掘装置,是对本申请的敏感词挖掘方法的功能化体现,该装置包括数据获取模块1100、敏感词提取模块1200以及词表构造模块1300,其中:数据获取模块1100,用于获取数据集,所述数据集包括敏感文本及其所属的敏感类型;敏感词提取模块1200,用于对各个敏感类型相对应的所述敏感文本进行多种粒度相对应的敏感词提取操作,确定出多种粒度相对应的分词,其中,第一种粒度的敏感词基于单词进行操作,第二种粒度的敏感词基于分词进行操作,第三种粒度的敏感词基于共现词进行操作;词表构造模块1300,用于构造敏感词表,将所提取的敏感词与其所在的敏感文本所属的敏感类型关联存储于该敏感词表中。
进一步的实施例中,所述数据获取模块1100之前,还包括:历史数据获取子模块,用于获取存在敏感词的历史商品的商品图片及文本信息,所述文本信息包括商品的商品描述信息;图文识别子模块,用于采用预先训练至收敛的图文识别模型,提取出所述存在敏感词的商品图片中的图片文本,将该图片文本和所述文本信息作为敏感文本;文本分类子模块,用于采用预先训练至收敛的文本分类模型对所述敏感文本进行分类,获得敏感文本对应的敏感类型构造出数据集。
较佳的实施例中,所述词表构造模块1300之后,还包括:请求响应子模块,用于响应商品发布请求,获取商品的商品图片及文本信息,提取出相应的待检测文本,所述文本信息包括商品的商品描述信息;敏感词匹配子模块,用于将待检测文本与敏感词表中多粒度相对应的敏感词进行匹配,获得相匹配的目标敏感词;检测评分子模块,用于根据所述各种粒度相对应的敏感词对应预设的敏感系数,统计所述目标敏感词对应的敏感系数,获得敏感置信度作为所述待检测文本对应的检测评分;通知推送子模块,用于当待检测文本的检测评分达到预设阈值时,判定该待检测文本为敏感文本,向发送所述商品发布请求的客户端推送商品发布失败通知。
深化的实施例中,所述敏感词提取模块1200,包括:文本分词子模块,用于逐一调用数据集中的各个敏感类型的敏感文本进行多个字长相对应的分词操作,获得各个字长相对应的分词所构成的分词集;子集确认子模块,用于根据所述分词集,确定每个敏感类型相对应的单词粒度的分词子集、分词粒度的分词子集,以及共现词粒度的分词子集;统计评分子模块,用于对应统计出每个敏感类型下,各个分词在该敏感类型的敏感文本中出现的词频相对应的关键评分;评分优选子模块,用于根据所述关键评分为各个敏感类型优选出相应粒度所对应的分词作为该敏感类型相对应的敏感词。
进一步的实施例中,所述统计评分子模块,包括:词频单元,用于针对每个敏感类型,统计其相对应的各个分词在该敏感类型相对应的所有敏感文本中出现的词频;逆文本频率指数单元,用于针对每个敏感类型,统计其相对应的各个分词在其他敏感类型相对应的所有敏感文本中出现的逆文本频率指数;关键评分单元,用于将每个分词的词频和逆文本频率指数的乘积确定为相应分词的关键评分。
为解决上述技术问题,本申请实施例还提供计算机设备。如图7所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种敏感词挖掘方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的敏感词挖掘方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图6中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的敏感词挖掘装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的敏感词挖掘方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请能够以不同粒度精准挖掘出多类敏感词,为敏感词检测提供可靠和充足的参考信息,有助于确保敏感词检测的准确性。此外,在实际应用场景中,应用本申请实现的敏感词表以规则匹配实施敏感词检测,执行高效,延时较短,能够有效保障用户体验。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种敏感词挖掘方法,其特征在于,包括如下步骤:
获取数据集,所述数据集包括敏感文本及其所属的敏感类型;
对各个敏感类型相对应的所述敏感文本进行多种粒度相对应的敏感词提取操作,确定出多种粒度相对应的分词,其中,第一种粒度的敏感词基于单词进行操作,第二种粒度的敏感词基于分词进行操作,第三种粒度的敏感词基于共现词进行操作;
构造敏感词表,将所提取的敏感词与其所在的敏感文本所属的敏感类型关联存储于该敏感词表中。
2.根据权利要求1所述的敏感词挖掘方法,其特征在于,获取数据集之前,还包括如下步骤:
获取存在敏感词的历史商品的商品图片及文本信息,所述文本信息包括商品的商品描述信息;
采用预先训练至收敛的图文识别模型,提取出所述存在敏感词的商品图片中的图片文本,将该图片文本和所述文本信息作为敏感文本;
采用预先训练至收敛的文本分类模型对所述敏感文本进行分类,获得敏感文本对应的敏感类型构造出数据集。
3.根据权利要求1所述的敏感词挖掘方法,其特征在于,构造敏感词表之后,还包括如下步骤:
响应商品发布请求,获取商品的商品图片及文本信息,提取出相应的待检测文本,所述文本信息包括商品的商品描述信息;
将待检测文本与敏感词表中多粒度相对应的敏感词进行匹配,获得相匹配的目标敏感词;
根据所述各种粒度相对应的敏感词对应预设的敏感系数,统计所述目标敏感词对应的敏感系数,获得敏感置信度作为所述待检测文本对应的检测评分;
当待检测文本的检测评分达到预设阈值时,判定该待检测文本为敏感文本,向发送所述商品发布请求的客户端推送商品发布失败通知。
4.根据权利要求1所述的敏感词挖掘方法,其特征在于,对各个敏感类型相对应的所述敏感文本进行多种粒度相对应的敏感词提取操作,包括如下步骤:
逐一调用数据集中的各个敏感类型的敏感文本进行多个字长相对应的分词操作,获得各个字长相对应的分词所构成的分词集;
根据所述分词集,确定每个敏感类型相对应的单词粒度的分词子集、分词粒度的分词子集,以及共现词粒度的分词子集;
对应统计出每个敏感类型下,各个分词在该敏感类型的敏感文本中出现的词频相对应的关键评分;
根据所述关键评分为各个敏感类型优选出相应粒度所对应的分词作为该敏感类型相对应的敏感词。
5.根据权利要求1所述的敏感词挖掘方法,其特征在于,对应统计出每个敏感类型下,各个分词在该敏感类型的敏感文本中出现的词频相对应的关键评分,包括如下步骤:
针对每个敏感类型,统计其相对应的各个分词在该敏感类型相对应的所有敏感文本中出现的词频;
针对每个敏感类型,统计其相对应的各个分词在其他敏感类型相对应的所有敏感文本中出现的逆文本频率指数;
将每个分词的词频和逆文本频率指数的乘积确定为相应分词的关键评分。
6.根据权利要求1所述的敏感词挖掘方法,其特征在于,将待检测文本与敏感词表中多粒度相对应的敏感词进行匹配,获得相匹配的目标敏感词的步骤中,所述敏感词表将各个敏感类型的敏感词存储为知识图谱结构,其中,第三种粒度的敏感词作为第二种粒度的敏感词的上级节点,具有节点连接关系的第三种粒度的敏感词与第二种粒度的敏感词之间,包含相同的第一种粒度的敏感词;第二种粒度的敏感词作为第一种粒度的敏感词的上级节点。
7.一种敏感词挖掘装置,其特征在于,包括:
数据获取模块,用于获取数据集,所述数据集包括敏感文本及其所属的敏感类型;
敏感词提取模块,用于对各个敏感类型相对应的所述敏感文本进行多种粒度相对应的敏感词提取操作,确定出多种粒度相对应的分词,其中,第一种粒度的敏感词基于单词进行操作,第二种粒度的敏感词基于分词进行操作,第三种粒度的敏感词基于共现词进行操作;
词表构造模块,用于构造敏感词表,将所提取的敏感词与其所在的敏感文本所属的敏感类型关联存储于该敏感词表中。
8.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至6中任意一项所述的方法的步骤。
9.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至6中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至6任意一项中所述方法的步骤。
CN202210844576.0A 2022-07-18 2022-07-18 敏感词挖掘方法及其装置、设备、介质 Pending CN115129913A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210844576.0A CN115129913A (zh) 2022-07-18 2022-07-18 敏感词挖掘方法及其装置、设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210844576.0A CN115129913A (zh) 2022-07-18 2022-07-18 敏感词挖掘方法及其装置、设备、介质

Publications (1)

Publication Number Publication Date
CN115129913A true CN115129913A (zh) 2022-09-30

Family

ID=83384015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210844576.0A Pending CN115129913A (zh) 2022-07-18 2022-07-18 敏感词挖掘方法及其装置、设备、介质

Country Status (1)

Country Link
CN (1) CN115129913A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115510500A (zh) * 2022-11-18 2022-12-23 北京国科众安科技有限公司 一种文本内容的敏感分析方法及系统
CN116701614A (zh) * 2023-08-02 2023-09-05 南京壹行科技有限公司 一种用于文本智能采集的敏感数据模型建立方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115510500A (zh) * 2022-11-18 2022-12-23 北京国科众安科技有限公司 一种文本内容的敏感分析方法及系统
CN115510500B (zh) * 2022-11-18 2023-02-28 北京国科众安科技有限公司 一种文本内容的敏感分析方法及系统
CN116701614A (zh) * 2023-08-02 2023-09-05 南京壹行科技有限公司 一种用于文本智能采集的敏感数据模型建立方法

Similar Documents

Publication Publication Date Title
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN108717408B (zh) 一种敏感词实时监控方法、电子设备、存储介质及系统
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN115129913A (zh) 敏感词挖掘方法及其装置、设备、介质
JP2012118977A (ja) 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム
CN114329225B (zh) 基于搜索语句的搜索方法、装置、设备及存储介质
CN112559747B (zh) 事件分类处理方法、装置、电子设备和存储介质
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN114186567A (zh) 敏感词检测方法及其装置、设备、介质、产品
CN114186013A (zh) 实体识别模型热更新方法及其装置、设备、介质、产品
CN114065750A (zh) 商品信息匹配、发布方法及其装置、设备、介质、产品
CN114818674A (zh) 商品标题关键词提取方法及其装置、设备、介质、产品
CN111260428A (zh) 一种商品推荐方法和装置
CN114997288A (zh) 一种设计资源关联方法
CN116029793A (zh) 商品推荐方法及其装置、设备、介质
CN115907928A (zh) 商品推荐方法及其装置、设备、介质
CN114782142A (zh) 商品信息匹配方法及其装置、设备、介质、产品
CN115563280A (zh) 商品标签标注方法及其装置、设备、介质
CN115292603A (zh) 商品搜索方法及其装置、设备、介质
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN114528908A (zh) 网络请求数据分类模型训练方法、分类方法及存储介质
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination