CN112528638A - 异常对象识别方法及装置、电子设备、存储介质 - Google Patents
异常对象识别方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN112528638A CN112528638A CN201910807366.2A CN201910807366A CN112528638A CN 112528638 A CN112528638 A CN 112528638A CN 201910807366 A CN201910807366 A CN 201910807366A CN 112528638 A CN112528638 A CN 112528638A
- Authority
- CN
- China
- Prior art keywords
- abnormal
- recognized
- information
- determining
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 359
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012545 processing Methods 0.000 claims abstract description 40
- 238000010801 machine learning Methods 0.000 claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 2
- 230000002547 anomalous effect Effects 0.000 claims 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 239000000047 product Substances 0.000 description 94
- 230000005856 abnormality Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 10
- 208000001613 Gambling Diseases 0.000 description 7
- 230000009471 action Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000032258 transport Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 239000002537 cosmetic Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000012467 final product Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 239000002574 poison Substances 0.000 description 2
- 231100000614 poison Toxicity 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000002087 whitening effect Effects 0.000 description 2
- 208000002874 Acne Vulgaris Diseases 0.000 description 1
- 241000219109 Citrullus Species 0.000 description 1
- 235000012828 Citrullus lanatus var citroides Nutrition 0.000 description 1
- 101100391172 Dictyostelium discoideum forA gene Proteins 0.000 description 1
- WHXSMMKQMYFTQS-UHFFFAOYSA-N Lithium Chemical compound [Li] WHXSMMKQMYFTQS-UHFFFAOYSA-N 0.000 description 1
- 208000036142 Viral infection Diseases 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 206010000496 acne Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000002775 capsule Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 229910052744 lithium Inorganic materials 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000009385 viral infection Effects 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种异常对象识别方法、异常对象识别装置、电子设备及计算机可读存储介质,属于人工智能技术领域。该方法包括:获取待识别对象的信息;根据所述信息确定所述待识别对象的关键词;根据所述关键词,从多个预设的异常类别中确定所述待识别对象关联的目标异常类别;利用所述目标异常类别下的机器学习模型对所述信息进行处理,得到所述待识别对象的异常识别结果。本公开可以充分利用待识别对象的信息,提高异常对象识别的准确性和有效性。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及一种异常对象识别方法、异常对象识别装置、电子设备及计算机可读存储介质。
背景技术
随着信息时代的多元化发展,在一些互联网平台上出现了许多异常的信息,例如涉黄、涉恐、涉军政的言论、视频或商品等,而这些异常的信息往往会严重危害网络和谐以及社会稳定,甚至还有可能违反相关法律,例如投放匕首、枪械等涉及黄赌毒的商品属于违反广告法,而投放骨灰盒、情趣用品等商品可能会引起特定人群不适。现有的异常对象识别方法通常是采用人工识别的方式,识别过程需要大量的人力、物力,无法充分利用待识别对象的信息,且难以保持识别结果的准确性。因此,如何采取准确、有效的异常对象识别方法是现有技术亟待解决的问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开提供了一种异常对象识别方法、异常对象识别装置、电子设备及计算机可读存储介质,进而至少在一定程度上克服现有的异常对象识别方法中人力成本较高,且难以保证识别结果准确性的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供异常对象识别方法,包括:获取待识别对象的信息;根据所述信息确定所述待识别对象的关键词;根据所述关键词,从多个预设的异常类别中确定所述待识别对象关联的目标异常类别;利用所述目标异常类别下的机器学习模型对所述信息进行处理,得到所述待识别对象的异常识别结果。
在本公开的一种示例性实施例中,所述待识别对象的信息包括待识别文本信息;在获取待识别对象的信息之后,所述方法还包括:对所述待识别文本信息进行分词处理,得到待识别文本信息的词集合;将所述待识别文本信息的词集合,与预先配置的历史异常词组进行匹配;若所述待识别文本信息的词集合与全部的所述历史异常词组都不匹配,则确定所述待识别对象为正常对象;若所述待识别文本信息的词集合与至少一个所述历史异常词组匹配,则执行根据所述信息确定所述待识别对象的关键词的步骤。
在本公开的一种示例性实施例中,所述根据所述信息确定所述待识别对象的关键词,包括:确定所述待识别对象所属的产品类目,在所述待识别对象所属的产品类目下,根据所述信息确定所述待识别对象的关键词。
在本公开的一种示例性实施例中,所述待识别对象的信息包括待识别文本信息;所述在所述待识别对象所属的产品类目下,根据所述信息确定所述待识别对象的关键词,包括:对所述待识别文本信息中的词,与所述待识别对象所属的产品类目的候选词集合进行匹配,将在所述候选词集合中出现过的所述待识别文本信息中的词确定为所述待识别对象的关键词。
在本公开的一种示例性实施例中,所述候选词集合通过以下步骤获得:获取多个异常产品类目,以及多个待识别对象的候选关键词;确定所述候选关键词相对所述异常产品类目的第一置信度;确定所述异常产品类目相对所述候选关键词的第二置信度;根据所述第一置信度与所述第二置信度,确定所述待识别对象的异常值;确定所述异常值高于预设阈值的候选关键词作为候选词,以建立所述候选词集合。
在本公开的一种示例性实施例中,所述待识别对象的信息包括图像信息与文本信息;所述利用所述目标异常类别下的机器学习模型对所述信息进行处理,得到所述待识别对象的异常识别结果,包括:利用所述目标异常类别下的图像识别模型对所述图像信息进行处理,得到所述待识别对象的第一异常识别结果;利用所述目标异常类别下的文本识别模型对所述文本信息进行处理,得到所述待识别对象的第二异常识别结果;根据所述第一异常识别结果和第二异常识别结果,确定所述待识别对象的异常识别结果。
在本公开的一种示例性实施例中,所述第一异常识别结果和所述第二异常识别结果均为异常或非异常;所述根据所述第一异常识别结果和第二异常识别结果,确定所述待识别对象的异常识别结果包括:如果所述第一异常识别结果为异常或者所述第二异常识别结果为异常,则确定所述待识别对象为异常对象。
在本公开的一种示例性实施例中,在得到所述待识别对象的异常识别结果之后,所述方法还包括:根据所述识别结果,确定所述待识别对象的识别标识,将所述待识别对象的识别标识添加到异常对象识别表。
在本公开的一种示例性实施例中,所述识别标识包括第一字符串以及第二字符串;所述第一字符串根据所述目标异常类别确定;所述第二字符串根据所述异常识别结果确定。
根据本公开的一个方面,提供一种异常对象识别装置,包括:信息获取模块,用于获取待识别对象的信息;关键词确定模块,用于根据所述信息确定所述待识别对象的关键词;类别确定模块,用于根据所述关键词,从多个预设的异常类别中确定所述待识别对象关联的目标异常类别;结果获得模块,用于利用所述目标异常类别下的机器学习模型对所述信息进行处理,得到所述待识别对象的异常识别结果。
在本公开的一种示例性实施例中,所述待识别对象的信息包括待识别文本信息;异常对象识别装置还包括:词集合获得模块,用于在获取待识别对象的信息之后,对所述待识别文本信息进行分词处理,得到待识别文本信息的词集合;匹配模块,用于将所述待识别文本信息的词集合,与预先配置的历史异常词组进行匹配;若所述待识别文本信息的词集合与全部的所述历史异常词组都不匹配,则确定所述待识别对象为正常对象;以及若所述待识别文本信息的词集合与至少一个所述历史异常词组匹配,则执行根据所述信息确定所述待识别对象的关键词的步骤。
在本公开的一种示例性实施例中,关键词确定模块包括:类目确定单元,用于确定所述待识别对象所属的产品类目,在所述待识别对象所属的产品类目下,根据所述信息确定所述待识别对象的关键词。
在本公开的一种示例性实施例中,所述待识别对象的信息包括待识别文本信息;类目确定单元包括:匹配子单元,用于对所述待识别文本信息中的词,与所述待识别对象所属的产品类目的候选词集合进行匹配,将在所述候选词集合中出现过的所述待识别文本信息中的词确定为所述待识别对象的关键词。
在本公开的一种示例性实施例中,所述候选词集合通过以下步骤获得:获取多个异常产品类目,以及多个待识别对象的候选关键词;确定所述候选关键词相对所述异常产品类目的第一置信度;确定所述异常产品类目相对所述候选关键词的第二置信度;根据所述第一置信度与所述第二置信度,确定所述待识别对象的异常值;确定所述异常值高于预设阈值的候选关键词作为候选词,以建立所述候选词集合。
在本公开的一种示例性实施例中,所述待识别对象的信息包括图像信息与文本信息;结果获得模块包括:第一处理单元,用于利用所述目标异常类别下的图像识别模型对所述图像信息进行处理,得到所述待识别对象的第一异常识别结果;第二处理单元,用于利用所述目标异常类别下的文本识别模型对所述文本信息进行处理,得到所述待识别对象的第二异常识别结果;结果确定单元,用于根据所述第一异常识别结果和第二异常识别结果,确定所述待识别对象的异常识别结果。
在本公开的一种示例性实施例中,所述第一异常识别结果和所述第二异常识别结果均为异常或非异常;结果确定单元用于如果所述第一异常识别结果为异常或者所述第二异常识别结果为异常,则确定所述待识别对象为异常对象。
在本公开的一种示例性实施例中,在得到所述待识别对象的异常识别结果之后,异常对象识别装置还包括:标识确定模块,用于根据所述识别结果,确定所述待识别对象的识别标识,将所述待识别对象的识别标识添加到异常对象识别表。
在本公开的一种示例性实施例中,所述识别标识包括第一字符串以及第二字符串;所述第一字符串根据所述目标异常类别确定;所述第二字符串根据所述异常识别结果确定。
根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。
本公开的示例性实施例具有以下有益效果:
通过获取待识别对象的信息,并根据信息确定待识别对象的关键词,根据关键词,从多个预设的异常类别中确定待识别对象关联的目标异常类别,利用目标异常类别下的机器学习模型对信息进行处理,得到待识别对象的异常识别结果。一方面,基于关键词确定待识别对象关联的目标异常类别,能够确定待识别对象是否异常,且待识别对象如果异常其属于哪一异常类别,使得异常对象的识别结果更为细化,具体;另一方面,本示例性实施例通过先根据的关键词确定目标异常类别,再采用目标异常类别下的机器学习模型对待识别对象进行识别,可以视为是对待识别对象进行了多次识别,可以避免对非异常对象的误识,且在目标异常类别下进行识别也使得机器识别模型的识别更加具有针对性,增加了异常对象识别的有效性和准确性;再一方面,充分利用待识别对象的信息,结合机器学习模型对待识别对象进行识别,降低了大量人工识别所需要的较高的人工成本,过程较为简单,自动化,提高了异常对象的识别效率。
应当理解的是,以上的一般描述和后文的细节述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出本示例性实施例中一种异常对象识别方法的流程图;
图2示意性示出本示例性实施例中一种异常对象识别方法的子流程图;
图3示意性示出本示例性实施例中另一种候选词集合建立的流程图;
图4示意性示出本示例性实施例中另一种异常对象识别方法的流程图;
图5示意性示出本示例性实施例中一种异常对象识别装置的结构框图;
图6示意性示出本示例性实施例中一种用于实现上述方法的电子设备;
图7示意性示出本示例性实施例中一种用于实现上述方法的计算机可读存储介质。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
在相关技术的一种方案中,异常对象的识别方法可以基于机器学习或深度学习的方法对待识别对象的图像信息,例如对电商平台的商品所对应的图片信息识别,从而判断商品是否允许被展示或投放。然而,这种方法通常较为依赖机器学习或深度学习模型的质量,且忽视了图片信息以外的其他有用的信息,例如商品标题等信息,从而导致放过部分无图片信息或虚假图片信息的异常对象。
鉴于上述问题,本公开的示例性实施例首先提供了一种异常对象识别方法,其中,对象可以是商品、自媒体文章、新闻、视频、评论等需要确定其是否符合要求的对象,异常可以是判断商品、自媒体文章、新闻、视频或评论等是否符合要求,例如商品是否为涉黄、涉恐等不符合要求的商品,或者评论是否为机器人或虚假用户发布的等等。本实施例方法的应用场景可以是:对电商平台的商品进行识别,以排除异常商品,维护电商平台的信誉,或者对自媒体文章或评论进行识别,以将不符合要求的文章或评论进行删除,保证网络平台的可持续发展等等。
下面结合附图1对本示例性实施例做进一步说明,如图1所示,异常对象识别方法可以包括以下步骤S110~S140:
步骤S110,获取待识别对象的信息。
其中,待识别对象可以是需要被识别的商品、自媒体文章、新闻、视频、评论等对象,待识别对象的信息可以包括能够反映待识别对象的文本信息或者图像信息,例如电商平台的商品信息可以包括关于该商品的橱窗图像、标题、属性、类别等等,表1示出了一种商品的信息;或者视频的信息可以包括关于该视频的简介、标题、字幕、封面图像等等。在本示例性实施例中,可以将平台中的所有对象作为待识别对象,也可以将部分对象作为待识别对象,例如在电商平台中,将已被投诉或者用户反馈较差的商品作为待识别对象等等。
表1
步骤S120,根据信息确定待识别对象的关键词。
在本示例性实施例中,待识别对象的信息可以包括文本信息,例如商品的标题、属性、详细介绍等等。关键词是指从待识别对象的信息中确定的能够描述待识别对象具体内容的词,例如商品的商品词,如鼠标、笔记本电脑、军刀、电池、香炉、棺材、骰子等;或者视频的内容词,如xx游戏、烹饪等。其可以通过对待识别对象的文本信息进行统计得到,也可以基于序列标注模型对待识别对象的文本信息进行分析得到,例如分析商品标题中的每个分词,寻找出商品标题中所有的产品词。在本示例性实施例,序列标注模型可以采用多种模型,例如条件随机场模型、BiLSTM-CRF模型等等,本公开对此不做具体限定。需要说明的是,一个待识别对象的信息中可能会包含一个或多个关键词,一个关键词可能会包含多个待识别对象,例如标题为“药用美白精华液/美容液20ml/支淡斑淡痘印祛黄美白”的商品,其标题中包括的产品词为“精华液”、“美容液”,产品词“精华液”还可以包括除该商品以外的其他商品。如表2所示,根据某一商品的标题确定的该商品的产品词,即根据信息确定出待识别对象的关键词。
表2
商品标题分词 | 标题分词是否为产品词 |
无线 | 非产品词 |
静音 | 非产品词 |
鼠标 | 产品词 |
笔记本电脑 | 产品词 |
台式机 | 产品词 |
办公 | 非产品词 |
鼠标 | 产品词 |
家用 | 非产品词 |
超薄 | 非产品词 |
便携 | 非产品词 |
锂电池 | 产品词 |
充电 | 非产品词 |
银白色 | 非产品词 |
步骤S130,根据关键词,从多个预设的异常类别中确定待识别对象关联的目标异常类别。
其中,异常类别是指事先设定的关于异常情况的分类,例如涉黄、涉赌、涉毒、涉恐、涉军政、涉医药、涉宗教、引起不适或非异常等等。本示例性实施例的中,异常类别可以通过人工标注的方式进行定义,也可以由系统随机生成分类等等。步骤S120中确定的关键词所属的异常类别即可以确定为待识别对象关联的目标异常类别,例如关键词为商品词军刀,军刀所属的异常类别为涉恐类别,则涉恐类别则可以被确定为与该商品关联的目标异常类别;关键词为商品词骰子,骰子所属的异常类别为涉赌类别,则涉赌类别可以被确定为与该商品关联的目标异常类别等等。需要说明的是,如果确定关键词为非异常关键词,则可以认为待识别对象为非异常对象。表3示出了以商品的产品词为例,产品词与其对应的异常类别的关系表。
表3
异常类别 | 产品词示例 |
涉赌 | 骰子 |
涉毒 | 注射器 |
涉恐 | 军刀、长枪、刀剑 |
涉医药 | 胶囊 |
涉宗教 | 香炉、长明灯 |
引起不适 | 棺材、寿衣、骨灰盒、生猪头 |
非违禁 | 防滑垫、浴室用品、葡萄酒 |
步骤S140,利用目标异常类别下的机器学习模型对信息进行处理,得到待识别对象的异常识别结果。
异常识别结果是指可以反映待识别对象是否异常的结果,其可以是判断结果,例如异常或非异常,或者涉黄或非涉黄。也可以是能够表示判断结果的标识,例如采用二进制代码生成关于异常或非异常的标识等等。为了提高异常对象识别的准确率,步骤S130中的多个预设的异常类别下可以包括与该类别对应的机器学习模型,用于识别该异常类别下的待识别对象是否异常。在本示例性实施例中,可以根据样本对象的特征数据和分类标签,训练机器学习模型,其训练过程可以包括:机器学习模型以样本对象的特征数据为输入,输出样本对象为异常或非异常的分类结果,通过调整模型参数,可以使输出的分类结果越来越接近分类标签,直到模型的准确率达到一定的标准,可以认为训练完成。其中,样本对象可以是某平台上所有的对象或者历史异常对象,特征数据可以是这些对象的信息,例如图像信息或文本信息,分类标签可以是异常或非异常,也可以根据对应的异常类别,细化至具体是哪一类别下的异常结果,例如涉黄或非涉黄,涉赌或非涉赌等等。在本示例性实施例中,机器学习模型可以采用神经网络模型,具体的,可以是VGG、GoogleNet、ResNet、text-rnn、text-cnn、EntNet等,本公开对此不做具体限定。
基于上述说明,在本示例性实施例中,通过获取待识别对象的信息,并根据信息确定待识别对象的关键词,根据关键词,从多个预设的异常类别中确定待识别对象关联的目标异常类别,利用目标异常类别下的机器学习模型对信息进行处理,得到待识别对象的异常识别结果。一方面,基于关键词确定待识别对象关联的目标异常类别,能够确定待识别对象是否异常,且待识别对象如果异常其属于哪一异常类别,使得异常对象的识别结果更为细化,具体;另一方面,本示例性实施例通过先根据的关键词确定目标异常类别,再采用目标异常类别下的机器学习模型对待识别对象进行识别,可以视为是对待识别对象进行了多次识别,可以避免对非异常对象的误识,且在目标异常类别下进行识别也使得机器识别模型的识别更加具有针对性,增加了异常对象识别的有效性和准确性;再一方面,充分利用待识别对象的信息,结合机器学习模型对待识别对象进行识别,降低了大量人工识别所需要的较高的人工成本,过程较为简单,自动化,提高了异常对象的识别效率。
在一示例性实施例中,待识别对象的信息可以包括待识别文本信息,在步骤S110之后,异常对象识别方法还可以包括以下步骤:
步骤S210,对待识别文本信息进行分词处理,得到待识别文本信息的词集合;
步骤S220,将待识别文本信息的词集合,与预先配置的历史异常词组进行匹配;
步骤S230,若待识别文本信息的词集合与全部的历史异常词组都不匹配,则确定待识别对象为正常对象;
步骤S240,若待识别文本信息的词集合与至少一个历史异常词组匹配,则执行步骤S120。
待识别文本信息是指关于待识别对象的描述性信息,例如商品的标题、简介、详细介绍等等。为了提高待识别对象的识别效率,本示例性实施例可以设置一预筛选机制,将待识别对象的文本信息与历史异常词组进行匹配,如果匹配不成功,则确定待识别对象为正常对象,可以不进行待识别对象的识别步骤,本示例性实施例可以避免对非异常对象进行识别,从而增加了对待识别对象中异常对象识别的针对性和有效性。
对待识别对象的文本信息进行分词处理是指,将连续的文本信息按照一定的规范重新组合成词序列。例如某一待识别对象的文本信息为“会议电话机/蓝牙/USB视频会议全向麦克风/便携式音箱/移动手机电话会议设备”,对其进行分词处理可以得到“会议电话机/蓝牙/USB视频会议全向麦克风/便携式音箱/移动手机电话会议设备”多个分词。待识别文本信息的词集合可以包括对待识别文本信息进行分词处理后得到的所有或部分的分词。
预先配置的历史异常词组是指不符合要求、容易引起用户不适甚至违反相关法律的敏感词组,其可以通过收集历史异常对象的信息,或者其他平台反馈或用户投诉的对象的信息,并对这些信息进行分词处理得到。例如历史异常信息中包括一语句“作弊工具”,可以对其进行分词得到“作弊工具”词组;获取语句“boss活活被咬死”,对其进行分词得到“boss活活被咬死”等等。在本示例性实施例中,可以采用多种方式对文本进行分词处理,例如HanLP、Jieba分词、LTP、THULAC等等,本公开对此不做具体限定。
在本示例性实施例中,可以将待识别文本信息的词集合与预先配置的历史异常词组进行匹配,如果待识别文本信息的词集合中出现至少一个历史异常词组,则可以认为其可能为异常对象,继续对其执行步骤S120,如果待识别文本信息的词集合中未出现历史异常词组,则可以认为该对象不是异常对象,则可以不进行待识别对象的识别步骤。
特别的,在本示例性实施例中,为了进一步提高对异常对象识别的针对性,减少非异常对象的误识别,在匹配时,可以设置当且仅当历史异常信息通过分词处理后,得到的所有历史异常词组均出现在待识别文本信息的词集合中时,认为其可能为异常对象。举例说明,例如历史异常信息“无限流量”,其分词结果为“无限”、“流量”两个词组,当商品的标题分词得到的词集合中同时包含历史异常信息的所有词组时认为可以执行步骤S120,继续对其进行待识别对象的识别。例如商品标题为“流量卡4G手机卡0月租无限流量卡不限速不限量全国通用上网卡【移动套餐一】28元充100G+全国流量一卡多套餐”,得到的词集合为“流量卡4G手机卡0月租无限流量卡不限速不限量全国通用上网卡【移动套餐一】28元充100G+全国流量一卡多套餐”,该商品标题的词集合只匹配到“无限”这一个词组,因此不认为是异常商品。而商品标题为“流量卡4g手机卡无限流量大王卡不限量0月租全国通用上网卡电信升级卡49包500G(5个月自行升级)”,得到的词集合为“流量卡4g手机卡无限流量大王卡不限量0月租全国通用上网卡电信升级卡49包500G(5个月自行升级)”,该商品标题的词集合中同时包含“无限”和“流量”两个异常词组,因此可以认为该商品可能是异常商品,需要继续进行识别。
在一示例性实施例中,步骤S120可以包括:
确定待识别对象所属的产品类目,在待识别对象所述的产品类目下,根据信息确定待识别对象的关键词。
其中,产品类目是指用于组织和管理对象的分类信息,其可以根据对象的粒度分为多个类目,各类目具有大小排序,类目越小可以表示该类目对该对象的描述更具针对性、更准确。例如电商平台的商品可以根据其属性、功能等信息分为多个类别,商品“刀”可以是菜刀类别、刀剪菜板类别以及厨具类别,厨具类别可以被认为是一级类目,刀剪菜板类别是二级类目,菜刀是三级类目。本示例性实施例可以首先确定待识别对象所述的产品类目,并在该产品类目下,确定其关键词,例如可以确定在上述三级类目下,确定商品的产品词。在本示例性实施例中,可以根据需要确定从哪一类目中确定关键词,如果需要较多的待识别对象,可以选择范围较大的类目,如果希望较为具有针对性的待识别对象,可以选择范围较小的类目,本公开对此不做具体限定。
特别的,由于待识别对象可能属于多个产品类目,且有些产品类目范围较为宽泛,可能会包含其他非异常的对象,因此可以将粒度最小的、最具针对性的类目作为本示例性实施例的产品类目,从中确定待识别对象的关键词。
在一示例性实施例中,上述待识别对象的信息为待识别文本信息;
上述在待识别对象所属的产品类目下,根据信息确定待识别对象的关键词,可以包括:
对待识别文本信息中的词,与待识别对象所述的产品类目的候选词集合进行匹配,将在候选词集合中出现过的待识别文本信息中的词确定为待识别对象的关键词。
通常情况下,待识别对象的文本信息中可能包含有多个关键词,例如厨具、菜刀,其可能属于不同的类目,为了使关键词更具针对性,本示例性实施例可以确定多个类目中的一产品类目,并在该产品类目中确定关键词。具体的,可以先确定产品类目下所有关于待识别对象的关键词作为候选词集,如果待识别文本信息中的词出现在候选词集合中,说明该待识别文本信息中有可以确定的产品类目下的关键词。
在一示例性实施例中,上述候选词集合可以通过以下步骤获得:
步骤S310,获取多个异常产品类目,以及多个待识别对象的候选关键词;
步骤S320,确定候选关键词相对异常产品类目的第一置信度;
步骤S330,确定异常产品类目相对候选关键词的第二置信度;
步骤S340,根据第一置信度与所述第二置信度,确定待识别对象的异常值;
步骤S350,确定异常值高于预设阈值的候选关键词作为候选词,以建立候选词集合。
其中,异常产品类目是指,在所有产品类目中,包含异常对象的类目,例如保健、政治等产品类目。在本示例性实施例中,异常产品类目可以通过统计历史异常对象的类目得到,例如电商平台中历史异常词组或被投诉的商品等所在的类目,可以被认为是异常产品类目。所有的产品类目可以构成产品类目集合C={c1,c2,...,cn},异常产品类目构成异常产品类目集合O={o1,o2,...,om}。集合O和C的关系为:候选关键词是指待识别对象中可以用于组成候选词集合的关键词,在本示例性实施例中,候选关键词可以构成待选词集合P={p1,p2,...,pk},待选词集合中可能会包括异常对象的关键词,也可能会包括非异常对象的关键词。
第一置信度是指任意候选关键词在任意异常产品类目下的条件概率,其计算公式为:
其中,P(pi|oj)表示候选关键词pi在异常产品类目oj下出现的条件概率,P(pi,oj)表示候选关键词pi和异常产品类目oj共同出现的概率,P(oj)表示异常产品类目oj出现的概率。P(pi,oj)可以根据概率计算公式: 计算得到,其中,n(pi,oj)表示候选关键词pi和异常产品类目oj共同出现的频次,total表示待识别对象的总数目,例如电商平台中商品的总数目。同理,异常产品类目oj出现的概率P(oj)为异常产品类目oj出现的频次n(oj)除以待识别对象的总数目total得到。综上,候选关键词pi在异常产品类目oj下出现的条件概率P(pi|oj)可以由候选关键词pi和异常产品类目oj共同出现的频次n(pi,oj)与异常产品类目oj出现的频次n(oj)相除得到。
第二置信度是指异常产品类目在候选关键词下出现的条件概率,其计算公式为:
公式中P(oj|pi)表示异常产品类目oj在候选关键词pi下出现的条件概率。P(pi,oj)表示候选关键词pi和异常产品类目oj共同出现的概率,P(pi)表示候选关键词pi出现的概率。根据概率计算公式,其中n(pi,oj)表示候选关键词pi和异常产品类目oj共同出现的频次,total表示电商平台中商品的总数目。同理,候选关键词pi出现的概率P(pi)为候选关键词pi出现的频次n(pi)与电商平台中商品的总数目total相除得到。根据公式换算与分数约取规则,异常产品类目oj在候选关键词pi下出现的条件概率P(oj|pi)等于候选关键词pi和异常产品类目oj共同出现的频次n(pi,oj)与候选关键词pi出现的频次n(pi)相除得到。
根据第一置信度与第二置信度,通过以下公式:
score(pi)=P(pi|oj)×P(oj|pi)
可以得到关于待识别对象的异常值score(pi)。由于待选关键词集合中可能存在非异常对象的关键词,例如“水果”、“成人用品”等关键词,在本示例性实施例中,可以设置一预设阈值,用于判断候选关键词是否为异常对象的关键词,如果候选关键词的异常值高于该预设阈值,则说明该候选关键词大概率为异常对象的关键词,可以将其放入候选词集合中。如果候选关键词的异常值低于该预设阈值,可以认为该候选关键词的异常概率较低,可以将其视为非异常对象的关键词。在本示例性实施例中,预设阈值的值可以根据需要设置,例如某电商平台对涉黄、涉赌、涉毒等异常商品的要求较为严苛时,可以设置较高的预设阈值,而某些平台需要经营一些特殊商品时,对异常商品的要求可以适当放宽,本公开对此不做具体限定。本示例性实施例可以筛选一部分非异常对象的关键词,进一步提炼、精简候选词集合,使其更具有效性。
在一示例性实施例中,待识别对象的信息可以包括图像信息与文本信息;步骤S140可以包括以下步骤:
利用目标异常类别下的图像识别模型对图像信息进行处理,得到待识别对象的第一异常识别结果;
利用目标异常类别下的文本识别模型对文本信息进行处理,得到待识别对象的第二异常识别结果;
根据第一异常识别结果和第二异常识别结果,确定待识别对象的异常识别结果。
通常,待识别对象的信息中可以包括图像信息,例如商品的产品图或使用示意图等,以及文本信息,例如商品的标题和详细介绍等。为了进一步减少待识别对象的误识率,本示例性实施例可通过图像识别模型和文本识别模型分别对待识别信息中的图像信息和文本信息进行识别。特别的,每个异常类别下都包括与其对应的图像识别模型与文本识别模型。例如商品“军刀”属于涉恐类别,则可以采用涉恐类别下的图像识别模型对军刀的图像信息进行识别,以及采用涉恐类别的文本识别模型对军刀的文本信息进行识别,以确认其是否为涉恐商品。
本示例性实施例中,可以通过获取已经确定的历史异常对象的图片或文本建立多个类别的图像识别模型和文本识别模型。需要说明的是,本示例性实施例中各异常类别下可以包括多个关键词,每个关键词可以对应一个或多个待识别对象,例如商品的产品词为“刀”时,其可以是剃须刀、菜刀、西瓜刀等等。各异常类别中的图像识别模型则可以针对每个待识别对象的图像信息判断其是否属于该异常类别。文本识别模型与图像识别模型类似,采用待识别对象所在的目标异常类别下的文本识别模型,对其文本信息进行识别,以确定其是否属于该异常类别。
在一示例性实施例中,上述第一异常识别结果和第二异常识别结果均为异常或非异常;
则上述根据第一异常识别结果和第二异常识别结果,确定待识别对象的异常识别结果可以包括:
如果第一异常识别结果为异常或者第二异常识别结果为异常,则确定待识别对象为异常对象。
在本示例性实施例中,判断待识别对象是否为异常对象可以根据第一异常识别结果与第二异常识别结果共同决定。其可以是当第一异常识别结果与第二异常识别结果同为异常的识别结果时,判断待识别对象为异常对象。为了提高对待识别对象是否异常的判断要求,也可以设置当第一异常识别结果与第二异常识别结果中存在一个识别结果为异常时,判断待识别对象为异常对象。另外,还可以针对不同对象确定第一异常识别结果与第二异常识别结果的不同权重,例如商品信息中存在以图像为主的商品,如画册、影像等,则可以设置当第一异常识别结果为异常时,确定待识别对象为异常对象,或者待识别信息中文本信息权重较高时,则可以设置当第二异常识别结果为异常时,确定待识别对象为异常对象等等,本公开对此不做具体限定。
在一示例性实施例中,在得到待识别对象的异常识别结果之后,异常对象识别方法还可以包括:
根据识别结果,确定待识别对象的识别标识,将待识别对象的识别标识添加到异常对象识别表。
为了便于对异常对象的识别结果的使用,可以根据待识别对象的识别结果,生成对应的识别标识,其可以是以多种形式的代码标识,如二进制代码、十进制代码或预设规则的编号等等。根据待识别对象的识别标识,建立异常对象识别表,以使其他平台可以从中确定符合其需求的待识别对象。本示例性实施例可以针对不同的应用场景提供简单、可配置化的待识别对象类型的检测和识别的能力。
进一步的,在一示例性实施例中,上述识别标识可以包括第一字符串以及第二字符串;第一字符串可以根据目标异常类别确定;第二字符串可以根据异常识别结果确定。
举例说明,以识别标识为二进制的代码表示为例,计算机int64位,一共有64个二进制位可以编辑,0可以表示非异常对象,1表示异常对象。识别标识中还可以包括除第一字符串以及第二字符串以外的其他字符串,例如可以使用0~7位表示最终的异常结果;8~15位表示使用机器学习模型进行处理的识别结果,即第二字符串;16~23位表示的异常类别,即第一字符串;其余位为预留位,以便其余异常对象识别时进行策略填充。每个字符串中的每个字符可以代表一种异常类别,例如8~15位可以分别代表涉黄、涉赌、涉毒、涉恐、涉军政、涉医药、涉宗教、引起不适八种类别,则字符串“00000000”代表非异常,“10000000”代表异常,且能够反映异常类别为涉黄。在本示例性实施例中,可以设置对第一异常识别结果与第二异常识别结果进行取或运算,只要二者有一个结果为异常,则认为待识别对象为异常对象。因此,在8~15位中,每一位都是某个待识别对象在某个异常类别下第一异常识别结果与第二异常识别结果取或运算得到的。16~23位则根据待识别对象所属的异常类别,填入相应的二进制位中。0~7位则表示最终的异常识别结果。最终的违禁结果可以根据不同场景特点,增加或者减少相应的异常类别来确定。例如广告媒体在投放对应的商品信息时,可以结合自身需求与特点,选择符合要求的商品,如食品类广告媒体可以避免会引起用户不适的商品,厨具类广告媒体可以在过滤异常商品时避免过滤刀具类商品等等。需要说明的是,识别标识中的各字符串的顺序、长度以及各字符位代表的含义可以根据需要进行设置,本公开对此不做具体限定。
图4示出了本示例性实施例中另一种异常对象识别方法的流程图,可以包括以下步骤:
步骤S410,获取待识别对象的信息;
步骤S420,根据待识别对象的信息,确定关于待识别对象的词;
步骤S430,在候选词集合中查找待识别对象的词,如果候选词集合中出现待识别对象的词,则将其作为待识别对象的关键词;
步骤S440,确定关于待识别对象的关键词;
步骤S450,根据关于待识别对象的关键词对待识别对象进行异常类别的分类;
步骤S460,采用图像识别模型对待识别对象的图像信息进行识别,得到第一异常识别结果;
步骤S470,采用文本识别模型对待识别对象的文本信息进行识别,得到第二异常识别结果;
步骤S480,根据第一异常识别结果与第二异常识别结果确定待识别对象的异常识别结果;
步骤S490,基于待识别对象的异常识别结果,确定关于待识别对象的识别标识。
其中,在步骤S430中,候选词集合中可以包括可能被认为是异常对象的关键词,因此,通过在候选词集合中查找待识别对象的词,可以初步判断待识别对象是否可能是异常对象,如果候选词集合中存在待识别对象的词,则可以执行步骤S440,将待识别对象的词作为关键词,进行异常对象的识别步骤,如果候选词集合中不存在待识别对象的词,可以认为待识别对象可能是非异常对象,则可以不进行异常对象的识别步骤。
本公开的示例性实施例还提供了一种异常对象识别装置。参照图5。该装置500可以包括包括:信息获取模块510,用于获取待识别对象的信息;关键词确定模块520,用于根据信息确定待识别对象的关键词;类别确定模块530,用于根据关键词,从多个预设的异常类别中确定待识别对象关联的目标异常类别;结果获得模块540,用于利用目标异常类别下的机器学习模型对信息进行处理,得到待识别对象的异常识别结果。
在一示例性实施例中,待识别对象的信息包括待识别文本信息;异常对象识别装置还可以包括:词集合获得模块,用于在获取待识别对象的信息之后,对待识别文本信息进行分词处理,得到待识别文本信息的词集合;匹配模块,用于将待识别文本信息的词集合,与预先配置的历史异常词组进行匹配;若待识别文本信息的词集合与全部的历史异常词组都不匹配,则确定待识别对象为正常对象;以及若待识别文本信息的词集合与至少一个历史异常词组匹配,则执行根据信息确定待识别对象的关键词的步骤。
在一示例性实施例中,关键词确定模块可以包括:类目确定单元,用于确定待识别对象所属的产品类目,在待识别对象所属的产品类目下,根据信息确定待识别对象的关键词。
在一示例性实施例中,待识别对象的信息包括待识别文本信息;类目确定单元可以包括:匹配子单元,用于对待识别文本信息中的词,与待识别对象所属的产品类目的候选词集合进行匹配,将在候选词集合中出现过的待识别文本信息中的词确定为待识别对象的关键词。
在一示例性实施例中,候选词集合可以通过以下步骤获得:获取多个异常产品类目,以及多个待识别对象的候选关键词;确定候选关键词相对所述异常产品类目的第一置信度;确定异常产品类目相对候选关键词的第二置信度;根据第一置信度与所述第二置信度,确定待识别对象的异常值;确定异常值高于预设阈值的候选关键词作为候选词,以建立候选词集合。
在一示例性实施例中,待识别对象的信息包括图像信息与文本信息;结果获得模块可以包括:第一处理单元,用于利用目标异常类别下的图像识别模型对图像信息进行处理,得到待识别对象的第一异常识别结果;第二处理单元,用于利用目标异常类别下的文本识别模型对文本信息进行处理,得到待识别对象的第二异常识别结果;结果确定单元,用于根据第一异常识别结果和第二异常识别结果,确定待识别对象的异常识别结果。
在一示例性实施例中,第一异常识别结果和第二异常识别结果均为异常或非异常;结果确定单元用于如果第一异常识别结果为异常或者第二异常识别结果为异常,则确定待识别对象为异常对象。
在一示例性实施例中,在得到待识别对象的异常识别结果之后,异常对象识别装置还可以包括:标识确定模块,用于根据识别结果,确定待识别对象的识别标识,将待识别对象的识别标识添加到异常对象识别表。
在一示例性实施例中,识别标识包括第一字符串以及第二字符串;第一字符串根据目标异常类别确定;第二字符串根据异常识别结果确定。
上述装置中各模块/单元的具体细节在方法部分的实施例中已经详细说明,未披露的细节内容可以参见方法部分的实施例内容,因此此处不再赘述。
本公开的示例性实施例还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图6来描述根据本公开的这种示例性实施例的电子设备600。图6显示的电子设备600仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640。
其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,处理单元610可以执行图1所示的步骤S110~S140,也可以执行图2所示的步骤S210~S240等。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)621和/或高速缓存存储单元622,还可以进一步包括只读存储单元(ROM)623。
存储单元620还可以包括具有一组(至少一个)程序模块625的程序/实用工具624,这样的程序模块625包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备800(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器660通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开示例性实施例的方法。
本公开的示例性实施例还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
参考图7所示,描述了根据本公开的示例性实施例的用于实现上述方法的程序产品700,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的示例性实施例,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。
Claims (12)
1.一种异常对象识别方法,其特征在于,包括:
获取待识别对象的信息;
根据所述信息确定所述待识别对象的关键词;
根据所述关键词,从多个预设的异常类别中确定所述待识别对象关联的目标异常类别;
利用所述目标异常类别下的机器学习模型对所述信息进行处理,得到所述待识别对象的异常识别结果。
2.根据权利要求1所述的方法,其特征在于,所述待识别对象的信息包括待识别文本信息;在获取待识别对象的信息之后,所述方法还包括:
对所述待识别文本信息进行分词处理,得到待识别文本信息的词集合;
将所述待识别文本信息的词集合,与预先配置的历史异常词组进行匹配;
若所述待识别文本信息的词集合与全部的所述历史异常词组都不匹配,则确定所述待识别对象为正常对象;
若所述待识别文本信息的词集合与至少一个所述历史异常词组匹配,则执行根据所述信息确定所述待识别对象的关键词的步骤。
3.根据权利要求1所述的方法,其特征在于,所述根据所述信息确定所述待识别对象的关键词,包括:
确定所述待识别对象所属的产品类目,在所述待识别对象所属的产品类目下,根据所述信息确定所述待识别对象的关键词。
4.根据权利要求3所述的方法,其特征在于,所述待识别对象的信息包括待识别文本信息;
所述在所述待识别对象所属的产品类目下,根据所述信息确定所述待识别对象的关键词,包括:
对所述待识别文本信息中的词,与所述待识别对象所属的产品类目的候选词集合进行匹配,将在所述候选词集合中出现过的所述待识别文本信息中的词确定为所述待识别对象的关键词。
5.根据权利要求4所述的方法,其特征在于,所述候选词集合通过以下步骤获得:
获取多个异常产品类目,以及多个待识别对象的候选关键词;
确定所述候选关键词相对所述异常产品类目的第一置信度;
确定所述异常产品类目相对所述候选关键词的第二置信度;
根据所述第一置信度与所述第二置信度,确定所述待识别对象的异常值;
确定所述异常值高于预设阈值的候选关键词作为候选词,以建立所述候选词集合。
6.根据权利要求1所述的方法,其特征在于,所述待识别对象的信息包括图像信息与文本信息;
所述利用所述目标异常类别下的机器学习模型对所述信息进行处理,得到所述待识别对象的异常识别结果,包括:
利用所述目标异常类别下的图像识别模型对所述图像信息进行处理,得到所述待识别对象的第一异常识别结果;
利用所述目标异常类别下的文本识别模型对所述文本信息进行处理,得到所述待识别对象的第二异常识别结果;
根据所述第一异常识别结果和第二异常识别结果,确定所述待识别对象的异常识别结果。
7.根据权利要求6所述的方法,其特征在于,所述第一异常识别结果和所述第二异常识别结果均为异常或非异常;
所述根据所述第一异常识别结果和第二异常识别结果,确定所述待识别对象的异常识别结果包括:
如果所述第一异常识别结果为异常或者所述第二异常识别结果为异常,则确定所述待识别对象为异常对象。
8.根据权利要求1所述的方法,其特征在于,在得到所述待识别对象的异常识别结果之后,所述方法还包括:
根据所述识别结果,确定所述待识别对象的识别标识,将所述待识别对象的识别标识添加到异常对象识别表。
9.根据权利要求8所述的方法,其特征在于,所述识别标识包括第一字符串以及第二字符串;所述第一字符串根据所述目标异常类别确定;所述第二字符串根据所述异常识别结果确定。
10.一种异常对象识别装置,其特征在于,包括:
信息获取模块,用于获取待识别对象的信息;
关键词确定模块,用于根据所述信息确定所述待识别对象的关键词;
类别确定模块,用于根据所述关键词,从多个预设的异常类别中确定所述待识别对象关联的目标异常类别;
结果获得模块,用于利用所述目标异常类别下的机器学习模型对所述信息进行处理,得到所述待识别对象的异常识别结果。
11.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-9任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910807366.2A CN112528638B (zh) | 2019-08-29 | 2019-08-29 | 异常对象识别方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910807366.2A CN112528638B (zh) | 2019-08-29 | 2019-08-29 | 异常对象识别方法及装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112528638A true CN112528638A (zh) | 2021-03-19 |
CN112528638B CN112528638B (zh) | 2024-07-16 |
Family
ID=74974841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910807366.2A Active CN112528638B (zh) | 2019-08-29 | 2019-08-29 | 异常对象识别方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528638B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113407706A (zh) * | 2021-06-30 | 2021-09-17 | 未鲲(上海)科技服务有限公司 | 异常数据获取方法、装置、设备及存储介质 |
CN113672976A (zh) * | 2021-08-04 | 2021-11-19 | 支付宝(杭州)信息技术有限公司 | 敏感信息检测方法及装置 |
CN116049654A (zh) * | 2023-02-07 | 2023-05-02 | 北京奥优石化机械有限公司 | 一种选煤设备的安全监测预警方法及系统 |
CN116150697A (zh) * | 2023-04-19 | 2023-05-23 | 上海钐昆网络科技有限公司 | 一种异常应用识别方法、装置、设备、存储介质及产品 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101782998A (zh) * | 2009-01-20 | 2010-07-21 | 复旦大学 | 一种违规在线产品信息的智能判断方法与系统 |
CN102663025A (zh) * | 2012-03-22 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种违规在线商品检测方法 |
CN105828189A (zh) * | 2015-01-05 | 2016-08-03 | 任子行网络技术股份有限公司 | 一种多维度检测违规音视频节目的方法 |
CN106909630A (zh) * | 2017-01-26 | 2017-06-30 | 武汉奇米网络科技有限公司 | 基于动态词库的敏感词过滤方法及系统 |
CN106959972A (zh) * | 2016-01-12 | 2017-07-18 | 阿里巴巴集团控股有限公司 | 一种商品匹配方法、装置及电子设备 |
CN106997350A (zh) * | 2016-01-22 | 2017-08-01 | 阿里巴巴集团控股有限公司 | 一种数据处理的方法及装置 |
CN107463605A (zh) * | 2017-06-21 | 2017-12-12 | 北京百度网讯科技有限公司 | 低质新闻资源的识别方法及装置、计算机设备及可读介质 |
CN107491433A (zh) * | 2017-07-24 | 2017-12-19 | 成都知数科技有限公司 | 基于深度学习的电商异常金融商品识别方法 |
CN108647309A (zh) * | 2018-05-09 | 2018-10-12 | 达而观信息科技(上海)有限公司 | 基于敏感词的聊天内容审核方法及系统 |
US20190065738A1 (en) * | 2017-08-31 | 2019-02-28 | Entit Software Llc | Detecting anomalous entities |
CN109408632A (zh) * | 2018-09-13 | 2019-03-01 | 北京中科闻歌科技股份有限公司 | 一种信息安全识别方法 |
-
2019
- 2019-08-29 CN CN201910807366.2A patent/CN112528638B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101782998A (zh) * | 2009-01-20 | 2010-07-21 | 复旦大学 | 一种违规在线产品信息的智能判断方法与系统 |
CN102663025A (zh) * | 2012-03-22 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种违规在线商品检测方法 |
CN105828189A (zh) * | 2015-01-05 | 2016-08-03 | 任子行网络技术股份有限公司 | 一种多维度检测违规音视频节目的方法 |
CN106959972A (zh) * | 2016-01-12 | 2017-07-18 | 阿里巴巴集团控股有限公司 | 一种商品匹配方法、装置及电子设备 |
CN106997350A (zh) * | 2016-01-22 | 2017-08-01 | 阿里巴巴集团控股有限公司 | 一种数据处理的方法及装置 |
CN106909630A (zh) * | 2017-01-26 | 2017-06-30 | 武汉奇米网络科技有限公司 | 基于动态词库的敏感词过滤方法及系统 |
CN107463605A (zh) * | 2017-06-21 | 2017-12-12 | 北京百度网讯科技有限公司 | 低质新闻资源的识别方法及装置、计算机设备及可读介质 |
CN107491433A (zh) * | 2017-07-24 | 2017-12-19 | 成都知数科技有限公司 | 基于深度学习的电商异常金融商品识别方法 |
US20190065738A1 (en) * | 2017-08-31 | 2019-02-28 | Entit Software Llc | Detecting anomalous entities |
CN108647309A (zh) * | 2018-05-09 | 2018-10-12 | 达而观信息科技(上海)有限公司 | 基于敏感词的聊天内容审核方法及系统 |
CN109408632A (zh) * | 2018-09-13 | 2019-03-01 | 北京中科闻歌科技股份有限公司 | 一种信息安全识别方法 |
Non-Patent Citations (2)
Title |
---|
刘畅;殷聪;: "电子商务中基于深度学习的虚假交易识别研究", 现代情报, no. 10, pages 64 - 69 * |
陈哲凡;郑建彬;詹恩奇;汪阳;: "基于聚类SURF特征的商品识别算法", 计算机应用研究, no. 11, pages 295 - 298 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113407706A (zh) * | 2021-06-30 | 2021-09-17 | 未鲲(上海)科技服务有限公司 | 异常数据获取方法、装置、设备及存储介质 |
CN113672976A (zh) * | 2021-08-04 | 2021-11-19 | 支付宝(杭州)信息技术有限公司 | 敏感信息检测方法及装置 |
CN113672976B (zh) * | 2021-08-04 | 2024-07-16 | 支付宝(杭州)信息技术有限公司 | 敏感信息检测方法及装置 |
CN116049654A (zh) * | 2023-02-07 | 2023-05-02 | 北京奥优石化机械有限公司 | 一种选煤设备的安全监测预警方法及系统 |
CN116049654B (zh) * | 2023-02-07 | 2023-10-13 | 北京奥优石化机械有限公司 | 一种选煤设备的安全监测预警方法及系统 |
CN116150697A (zh) * | 2023-04-19 | 2023-05-23 | 上海钐昆网络科技有限公司 | 一种异常应用识别方法、装置、设备、存储介质及产品 |
Also Published As
Publication number | Publication date |
---|---|
CN112528638B (zh) | 2024-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11334635B2 (en) | Domain specific natural language understanding of customer intent in self-help | |
US9575936B2 (en) | Word cloud display | |
CN112528638B (zh) | 异常对象识别方法及装置、电子设备、存储介质 | |
CN104281622B (zh) | 一种社交媒体中的信息推荐方法和装置 | |
US11176453B2 (en) | System and method for detangling of interleaved conversations in communication platforms | |
US9558267B2 (en) | Real-time data mining | |
CN111738011A (zh) | 违规文本的识别方法及装置、存储介质、电子装置 | |
CN105095288B (zh) | 数据分析方法及数据分析装置 | |
US11954140B2 (en) | Labeling/names of themes | |
US10860566B1 (en) | Themes surfacing for communication data analysis | |
US20140351228A1 (en) | Dialog system, redundant message removal method and redundant message removal program | |
CN112699645B (zh) | 语料标注方法、装置及设备 | |
US11966698B2 (en) | System and method for automatically tagging customer messages using artificial intelligence models | |
CN115099239B (zh) | 一种资源识别方法、装置、设备以及存储介质 | |
CN113407677B (zh) | 评估咨询对话质量的方法、装置、设备和存储介质 | |
CN113051380A (zh) | 信息生成方法、装置、电子设备和存储介质 | |
CN115033668A (zh) | 故事脉络构建方法、装置、电子设备和存储介质 | |
Andriotis et al. | Smartphone message sentiment analysis | |
US20160034509A1 (en) | 3d analytics | |
CN116303922B (zh) | 咨询消息应答方法、装置、计算机设备、存储介质和产品 | |
CN113505293B (zh) | 信息推送方法、装置、电子设备及存储介质 | |
CN116090450A (zh) | 一种文本处理方法及计算设备 | |
CN112905752A (zh) | 一种智能交互方法、装置、设备以及存储介质 | |
CN112597295A (zh) | 摘要提取方法、装置、计算机设备和存储介质 | |
Jabeen | Decoding Consumer Sentiments: Advanced NLP Techniques for Analyzing Smartphone Reviews |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |