CN115544204A - 一种不良语料过滤方法以及系统 - Google Patents
一种不良语料过滤方法以及系统 Download PDFInfo
- Publication number
- CN115544204A CN115544204A CN202210905334.8A CN202210905334A CN115544204A CN 115544204 A CN115544204 A CN 115544204A CN 202210905334 A CN202210905334 A CN 202210905334A CN 115544204 A CN115544204 A CN 115544204A
- Authority
- CN
- China
- Prior art keywords
- corpus
- bad
- word
- text
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000006243 chemical reaction Methods 0.000 claims description 39
- 239000013598 vector Substances 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 4
- 239000002245 particle Substances 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Animal Behavior & Ethology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种不良语料过滤方法以及系统,其中方法包括以下步骤:获取待识别文本语料,对所述待识别文本语料进行预处理,得到基础文本语料;抽取基础文本语料中的实体,根据不良文本知识图谱对所述基础文本语料的实体进行匹配搜索,得到第一识别结果;根据语料识别模型对基础文本语料进行检测识别,得到第二识别结果;根据第一识别结果或/和所述第二识别结果过滤所述待识别文本语料,并根据所述第二识别结果对不良文本知识图谱进行更新。本发明通过知识图谱技术对不良文本进行筛选,利用其语义网络本质和强大关联能力,能够获取多个候选不良实体有利于实现对拼音、谐音和拆分词等形式的隐晦不良信息的过滤。
Description
技术领域
本发明涉及文本信息的处理,具体涉及一种面向网络平台的不良语料过滤方 法。
背景技术
近年来,随着移动互联网时代的到来以及5G通信等技术的蓬勃发展,使得 各种社交平台及电商平台应声而起,海量用户可以通过弹幕评论和留言评论等文 本形式来进行实时交流和思想表达。然而由于互联网的虚拟性,使得这些网络平 台上充斥着大量的网络不良文本语料,各种广告、色情低俗、暴力以及反动为主 的不良信息层出不穷,严重损害了互联网的沟通环境,并且渐渐以更为隐晦的方 式,如拼音、谐音、拆分词和新词等形式出现。因此,如何抑制不良信息的扩散, 过滤各种不良低俗信息,以保证良好的互联网环境就显得尤为重要。
目前,网络平台的不良信息过滤方法主要基于关键字匹配方式进行信息过 滤,虽然该类方法简单、快捷、易操作,但实际过滤效果仍不理想,易出现漏过 滤现象,且难以应付现有多变且隐晦的互联网评论环境中,无法及时有效的对更 隐晦的不良信息进行准确过滤。
发明内容
为了过滤网络平台中的不良语料信息,本申请提供一种不良语料过滤方法。
一种不良语料过滤方法,包括以下步骤:
获取待识别文本语料,对所述待识别文本语料进行预处理,得到基础文本语 料;
抽取所述基础文本语料中的实体,根据不良文本知识图谱对所述基础文本语 料的实体进行匹配搜索,得到第一识别结果;
根据语料识别模型对所述基础文本语料进行检测识别,得到第二识别结果;
根据所述第一识别结果或/和所述第二识别结果过滤所述待识别文本语料, 并根据所述第二识别结果对不良文本知识图谱进行更新。
进一步地,所述不良文本知识图谱的构建包括:
获取大量在网络平台中的原始不良文本信息,抽取所述原始不良文本信息的 实体,得到若干不良词实体;
对所述不良词实体进行实体转换处理,得到不良词拼音实体和不良词谐音实 体;
按照拼音转换、谐音转换和词性词频对所述不良词实体、不良词拼音实体和 不良词谐音实体进行关系抽取,并通过实体消歧处理进行三元组构建,得到不良 文本知识图谱。
进一步地,得到第一识别结果,具体包括:
根据所述不良文本知识图谱筛选所述基础文本语料的实体,按预设数量获取 若干候选不良实体;
利用word2vec模型将所述基础文本语料和所述候选不良实体映射成多维向 量,根据余弦相似度计算方法计算所述基础文本语料与所述候选不良实体的相似 度,根据所述相似度得到第一识别结果。
进一步地,所述语料识别模型为KNN模型
进一步地,所述语料识别模型的构建包括:
获取用户反馈的不良信息,采集正常语料信息;
对所述不良信息以及正常语料信息逐词进行拼音转换和谐音转换,得到拼音 语料信息和谐音语料信息;
将所述不良信息、正常语料信息、拼音语料信息和谐音语料信息作为样本集 划分为训练集和测试集,并将所述样本集通过word2vec模型映射为空间向量;
利用KNN模型对映射为空间向量的训练集进行训练,获得语料识别模型。
进一步地,对所述不良词实体进行实体转换处理,得到不良词拼音实体和不 良词谐音实体,包括:
对所述不良词实体进行拼音转换,将不良词实体的汉字逐词进行拼音转换, 得到不良词拼音实体;
对所述不良词实体进行谐音转换,将不良词实体的汉字逐词进行谐音转换, 得到不良词谐音实体。
进一步地,所述待识别文本语料包括弹幕评论和留言评论。
进一步地,所述预处理包括分词处理、停用词处理和虚词处理。
本发明的有益效果为:
本申请的不良信息过滤方法通过对大量初始不良文本语料进行实体抽取,并 将其进行拼音和谐音的实体转换构建得到不良文本知识图谱,本发明通过知识图 谱技术对不良文本进行筛选,利用其语义网络本质和强大关联能力,能够获取多 个候选不良实体,并利用余弦相似度进行进一步确定,从而有利于实现对拼音、 谐音和拆分词等形式的隐晦不良信息的过滤。此外,本发明还提供第二种识别方 式,其基于用户反馈不良信息构建机器学习模型,从而有利于筛选过滤出新词形 式的隐晦不良信息;而且通过将新词形式不良信息实时更新到不良文本知识图谱 中,进而有利于及时有效的对多种隐晦的不良信息进行精准过滤,且有利于降低 漏过滤现象的发生,有利于净化互联网的沟通环境。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例 或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的 附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造 性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是不良语料的过滤方法流程示意图;
图2是不良语料过滤系统的示意图。
具体实施方式
为使得本申请的申请目的、特征、优点能够更加的明显和易懂,下面将结合 本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述, 显然,下面所描述的实施例仅仅是本申请一部分实施例,而非全部的实施例。基 于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得 的所有其它实施例,都属于本申请保护的范围。
下面结合附图和具体实施例,进一步阐明本发明。
实施例1
本实施例提供一种不良语料过滤方法,如图1所示,包括以下步骤:
S1,获取待识别文本语料,对所述待识别文本语料进行预处理,得到基础文 本语料。
S2,抽取所述基础文本语料中的实体,根据不良文本知识图谱对所述基础文 本语料的实体进行匹配搜索,得到第一识别结果。
S3,根据语料识别模型对所述基础文本语料进行检测识别,得到第二识别结 果。
步骤S2和S3不存在先后关系。可能会发生并无第一识别结果的情况,因为 不良文本知识图谱是在不断更新中的,有些不良词可能在一开始没有被不良文本 知识图谱收录。若无第一识别结果,则执行步骤S3;若有第一识别结果,则执 行步骤S4。
S4,根据所述第一识别结果或/和所述第二识别结果过滤所述待识别文本语 料。
S5,根据所述第二识别结果对不良文本知识图谱进行更新。
步骤S4和S5不存在先后关系。
S1中的待识别文本语料是在网络平台中获取的,包括弹幕评论和留言评论。 对待识别文本语料预处理,具体包括对待识别文本语料中的分词、停用词以及虚 词进行处理。
S2中的不良文本知识图谱的构建包括以下步骤:
基于数据爬虫技术获取大量在网络平台中的原始不良文本信息,逐一对这些 原始不良文本信息进行预处理,利用外部词典方法抽取原始不良文本信息的实 体,得到若干不良词实体。
对不良词实体进行实体转换处理,得到不良词拼音实体和不良词谐音实体。 具体包括:对不良词实体进行拼音转换,将不良词实体的汉字逐词进行拼音转换, 得到不良词拼音实体;对不良词实体进行谐音转换,将不良词实体的汉字逐词进 行谐音转换,得到不良词谐音实体。
按照拼音转换、谐音转换和词性词频对所述不良词实体、不良词拼音实体和 不良词谐音实体进行关系抽取,并通过实体消歧处理进行三元组构建,得到不良 文本知识图谱,将不良文本知识图谱存入Neo4j图数据库。
第一识别的过程包括如下步骤:
对预处理后的待识别文本语料的基础文本语料的实体进行抽取,根据不良文 本知识图谱筛选这些被抽取的实体,按预设数量获取若干候选不良实体;
利用word2vec模型将基础文本语料和候选不良实体映射成多维向量,根据 余弦相似度计算方法计算基础文本语料与候选不良实体的相似度,根据相似度得 到第一识别结果。
相似度计算公式如下:
其中,cosθ为余弦相似度,区间[0,1];A为基础文本语料向量特征;B为候 选不良实体向量特征;n为向量特征个数。
S3中的语料识别模型为KNN模型,具体构建过程包括以下步骤:
在多个网络平台上获取用户反馈的不良信息,采集正常语料信息。
对不良信息以及正常语料信息逐词进行拼音转换和谐音转换,得到拼音语料 信息和谐音语料信息。
将不良信息、正常语料信息、拼音语料信息和谐音语料信息作为样本集按照 7:3的比例划分为训练集和测试集,并将样本集通过word2vec模型映射为空间向 量。
利用KNN模型对映射为空间向量的训练集进行训练,获得语料识别模型; 对训练后的语料识别模型进行模型评价,若模型评价结果是满足模型生成条件, 则该语料识别模型合格,可输出,否则继续训练。
本方案中以第二识别结果作为第一识别结果的补充,建立模型可以过滤出新 词形式的隐晦不良信息,将新词形式不良信息实时更新到不良文本知识图谱中, 进而有利于及时有效的对多种隐晦的不良信息进行精准过滤。
实施例2
本实施例提供一种不良语料过滤系统,用于实现上述实施例1中的不良语料 过滤方法。如图2所示,包括:
信息获取模块,用于获取待识别文本语料;将待识别文本语料导入预处理模 块,预处理模块对待识别文本语料进行分词、停用词和虚词的预处理,得到基础 文本语料。将基础文本语料导入第一识别模块和第二识别模块进行检测识别。
图数据库,用于存储不良文本知识图谱,模型库,用于存储语料识别模型。
第一识别模块,调用图数据库存储的不良文本知识图谱,抽取基础文本语料 中的实体,根据不良文本知识图谱对所述基础文本语料的实体进行匹配搜索,得 到第一识别结果。具体识别过程包括如下步骤:
对预处理后的待识别文本语料的基础文本语料的实体进行抽取,根据不良文 本知识图谱筛选这些被抽取的实体,按预设数量获取若干候选不良实体;
利用word2vec模型将基础文本语料和候选不良实体映射成多维向量,根据 余弦相似度计算方法计算基础文本语料与候选不良实体的相似度,根据相似度得 到第一识别结果。
相似度计算公式如下:
其中,cosθ为余弦相似度,区间[0,1];A为基础文本语料向量特征;B为候 选不良实体向量特征;n为向量特征个数。
第二识别模块,调用模型库中存储的语料识别模型,根据语料识别模型检测 识别基础文本语料,得到第二识别结果。
过滤模块,接收第一识别模块得到的第一识别结果和第二识别模块得到的第 二识别结果,根据所述第一识别结果或所述第二识别结果过滤所述待识别文本语 料。
更新模块,用于根据所述第二识别结果对不良文本知识图谱进行更新。
还包括构建模块,用于构建不良文本知识图谱和语料识别模型,构建好的不 良文本知识图谱和语料识别模型分别存入图数据库和模型库。
构建不良文本知识图谱的构建过程如下:
基于数据爬虫技术获取大量在网络平台中的原始不良文本信息,逐一对这些 原始不良文本信息进行预处理,利用外部词典方法抽取原始不良文本信息的实 体,得到若干不良词实体。
对不良词实体进行实体转换处理,得到不良词拼音实体和不良词谐音实体。 具体包括:对不良词实体进行拼音转换,将不良词实体的汉字逐词进行拼音转换, 得到不良词拼音实体;对不良词实体进行谐音转换,将不良词实体的汉字逐词进 行谐音转换,得到不良词谐音实体。
按照拼音转换、谐音转换和词性词频对所述不良词实体、不良词拼音实体和 不良词谐音实体进行关系抽取,并通过实体消歧处理进行三元组构建,得到不良 文本知识图谱,将不良文本知识图谱存入Neo4j图数据库。
语料识别模型的构建过程如下:
在多个网络平台上获取用户反馈的不良信息,采集正常语料信息。
对不良信息以及正常语料信息逐词进行拼音转换和谐音转换,得到拼音语料 信息和谐音语料信息。
将不良信息、正常语料信息、拼音语料信息和谐音语料信息作为样本集按照 7:3的比例划分为训练集和测试集,并将样本集通过word2vec模型映射为空间向 量。
利用KNN模型对映射为空间向量的训练集进行训练,获得语料识别模型; 对训练后的语料识别模型进行模型评价,若模型评价结果是满足模型生成条件, 则该语料识别模型合格,可输出,否则继续训练。将语料识别模型输出至模型库 存储。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以 通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如, 所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划 分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征 可以忽略,或不执行。
所述模块可以是或者也可以不是物理上分开的,作为单元显示的部件可以是 一个物理模块或多个物理模块,即可以位于一个地方,或者也可以分布到多个不 同地方。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案 的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也 可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。 上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实 现。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算 机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的 每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代 码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注 意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标 注的顺序发生。例如,两个接连地表示的方框实际上可以基础并行地执行,它们 有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和 /或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规 定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机 指令的组合来实现。
Claims (10)
1.一种不良语料过滤方法,其特征在于,包括以下步骤:
获取待识别文本语料,对所述待识别文本语料进行预处理,得到基础文本语料;
抽取所述基础文本语料中的实体,根据不良文本知识图谱对所述基础文本语料的实体进行匹配搜索,得到第一识别结果;
根据语料识别模型对所述基础文本语料进行检测识别,得到第二识别结果;
根据所述第一识别结果或/和所述第二识别结果过滤所述待识别文本语料,并根据所述第二识别结果对不良文本知识图谱进行更新。
2.根据权利要求1所述的不良语料过滤方法,其特征在于,所述不良文本知识图谱的构建包括:
获取大量在网络平台中的原始不良文本信息,抽取所述原始不良文本信息的实体,得到若干不良词实体;
对所述不良词实体进行实体转换处理,得到不良词拼音实体和不良词谐音实体;
按照拼音转换、谐音转换和词性词频对所述不良词实体、不良词拼音实体和不良词谐音实体进行关系抽取,并通过实体消歧处理进行三元组构建,得到不良文本知识图谱。
3.根据权利要求1所述的不良语料过滤方法,其特征在于,得到第一识别结果,具体包括:根据所述不良文本知识图谱筛选所述基础文本语料的实体,按预设数量获取若干候选不良实体;
利用word2vec模型将所述基础文本语料和所述候选不良实体映射成多维向量,根据余弦相似度计算方法计算所述基础文本语料与所述候选不良实体的相似度,根据所述相似度得到第一识别结果。
4.根据权利要求1所述的不良语料过滤方法,其特征在于,所述语料识别模型为KNN模型。
5.根据权利要求4所述的不良语料过滤方法,其特征在于,所述语料识别模型的构建包括:
获取用户反馈的不良信息,采集正常语料信息;
对所述不良信息以及正常语料信息逐词进行拼音转换和谐音转换,得到拼音语料信息和谐音语料信息;
将所述不良信息、正常语料信息、拼音语料信息和谐音语料信息作为样本集划分为训练集和测试集,并将所述样本集通过word2vec模型映射为空间向量;
利用KNN模型对映射为空间向量的训练集进行训练,获得语料识别模型。
6.根据权利要求2所述的不良语料过滤方法,其特征在于,对所述不良词实体进行实体转换处理,得到不良词拼音实体和不良词谐音实体,包括:
对所述不良词实体进行拼音转换,将不良词实体的汉字逐词进行拼音转换,得到不良词拼音实体;
对所述不良词实体进行谐音转换,将不良词实体的汉字逐词进行谐音转换,得到不良词谐音实体。
7.根据权利要求1所述的不良语料过滤方法,其特征在于,所述待识别文本语料包括弹幕评论和留言评论。
8.根据权利要求1所述的不良语料过滤方法,其特征在于,所述预处理包括分词处理、停用词处理和虚词处理。
9.一种不良语料过滤系统,其特征在于,包括:
信息获取模块,用于获取待识别文本语料;
预处理模块,用于对所述待识别文本语料进行预处理,得到基础文本语料;
图数据库,用于存储不良文本知识图谱,模型库,用于存储语料识别模型;
第一识别模块,用于抽取所述基础文本语料中的实体,根据不良文本知识图谱对所述基础文本语料的实体进行匹配搜索,得到第一识别结果;
第二识别模块,用于根据语料识别模型对所述基础文本语料进行检测识别,得到第二识别结果;
过滤模块,用于根据所述第一识别结果或所述第二识别结果过滤所述待识别文本语料;
更新模块,用于根据所述第二识别结果对不良文本知识图谱进行更新。
10.根据权利要求9所述的不良语料过滤系统,其特征在于,还包括构建模块,用于构建不良文本知识图谱以及语料识别模型。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210905334.8A CN115544204A (zh) | 2022-07-29 | 2022-07-29 | 一种不良语料过滤方法以及系统 |
US18/067,428 US20240037328A1 (en) | 2022-07-29 | 2022-12-16 | Method and system for filtering ill corpus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210905334.8A CN115544204A (zh) | 2022-07-29 | 2022-07-29 | 一种不良语料过滤方法以及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115544204A true CN115544204A (zh) | 2022-12-30 |
Family
ID=84723476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210905334.8A Pending CN115544204A (zh) | 2022-07-29 | 2022-07-29 | 一种不良语料过滤方法以及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240037328A1 (zh) |
CN (1) | CN115544204A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116680419A (zh) * | 2023-08-01 | 2023-09-01 | 国家计算机网络与信息安全管理中心 | 一种多源数据映射关联细粒度不良信息检测方法 |
-
2022
- 2022-07-29 CN CN202210905334.8A patent/CN115544204A/zh active Pending
- 2022-12-16 US US18/067,428 patent/US20240037328A1/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116680419A (zh) * | 2023-08-01 | 2023-09-01 | 国家计算机网络与信息安全管理中心 | 一种多源数据映射关联细粒度不良信息检测方法 |
CN116680419B (zh) * | 2023-08-01 | 2023-12-26 | 国家计算机网络与信息安全管理中心 | 一种多源数据映射关联细粒度不良信息检测方法 |
Also Published As
Publication number | Publication date |
---|---|
US20240037328A1 (en) | 2024-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109408526B (zh) | Sql语句生成方法、装置、计算机设备及存储介质 | |
CN106776544B (zh) | 人物关系识别方法及装置和分词方法 | |
CN110020422A (zh) | 特征词的确定方法、装置和服务器 | |
CN116795973B (zh) | 基于人工智能的文本处理方法及装置、电子设备、介质 | |
CN110334209B (zh) | 文本分类方法、装置、介质及电子设备 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN111460797B (zh) | 关键字抽取方法、装置、电子设备及可读存储介质 | |
CN111291571A (zh) | 语义纠错方法、电子设备及存储介质 | |
CN112183078B (zh) | 文本摘要确定方法和装置 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
CN114387061A (zh) | 产品推送方法、装置、电子设备及可读存储介质 | |
CN113806483B (zh) | 数据处理方法、装置、电子设备及计算机程序产品 | |
CN115544204A (zh) | 一种不良语料过滤方法以及系统 | |
CN112489628B (zh) | 语音数据选择方法、装置、电子设备及存储介质 | |
JP2019128925A (ja) | 事象提示システムおよび事象提示装置 | |
CN117278675A (zh) | 一种基于意图分类的外呼方法、装置、设备及介质 | |
CN110377706B (zh) | 基于深度学习的搜索语句挖掘方法及设备 | |
CN112632264A (zh) | 智能问答方法、装置、电子设备及存储介质 | |
CN116127066A (zh) | 文本聚类方法、文本聚类装置、电子设备及存储介质 | |
CN114118062A (zh) | 客户特征提取方法、装置、电子设备及存储介质 | |
CN113836297A (zh) | 文本情感分析模型的训练方法及装置 | |
CN114117057A (zh) | 产品反馈信息的关键词提取方法及终端设备 | |
CN112541069A (zh) | 一种结合关键词的文本匹配方法、系统、终端及存储介质 | |
CN111985231A (zh) | 无监督角色识别方法、装置、电子设备及存储介质 | |
CN110929501A (zh) | 文本分析方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |