CN111612284A - 数据的处理方法、装置及设备 - Google Patents
数据的处理方法、装置及设备 Download PDFInfo
- Publication number
- CN111612284A CN111612284A CN201910136120.7A CN201910136120A CN111612284A CN 111612284 A CN111612284 A CN 111612284A CN 201910136120 A CN201910136120 A CN 201910136120A CN 111612284 A CN111612284 A CN 111612284A
- Authority
- CN
- China
- Prior art keywords
- data
- information
- sample
- user
- risk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 259
- 238000000034 method Methods 0.000 claims abstract description 87
- 230000004927 fusion Effects 0.000 claims description 107
- 230000006399 behavior Effects 0.000 claims description 94
- 239000013598 vector Substances 0.000 claims description 30
- 238000001514 detection method Methods 0.000 claims description 17
- 238000012015 optical character recognition Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 238000007499 fusion processing Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000007477 logistic regression Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000001939 inductive effect Effects 0.000 claims description 3
- 230000003542 behavioural effect Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 239000003471 mutagenic agent Substances 0.000 claims 1
- 230000008569 process Effects 0.000 description 30
- 238000010586 diagram Methods 0.000 description 18
- 238000003860 storage Methods 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 235000002639 sodium chloride Nutrition 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- -1 250g of table salt Chemical class 0.000 description 2
- 241000204992 Leopardus tigrinus Species 0.000 description 2
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 150000003839 salts Chemical class 0.000 description 2
- 239000011780 sodium chloride Substances 0.000 description 2
- 241000282461 Canis lupus Species 0.000 description 1
- 241000721701 Lynx Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 235000011194 food seasoning agent Nutrition 0.000 description 1
- 239000009153 huxin Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 235000015067 sauces Nutrition 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 235000021419 vinegar Nutrition 0.000 description 1
- 239000000052 vinegar Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Information Transfer Between Computers (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供了一种数据的处理方法、装置及设备,方法包括:获取待处理的第一数据和第二数据,第一数据包括第一文本信息,第二数据包括第二文本信息和图片信息;确定第二数据中的第二文本信息以及与图片信息相对应的图片特征信息;对第一文本信息、第二文本信息以及图片特征信息进行分析处理,确定第一数据和第二数据存在引走用户流量的风险信息。通过确定第二数据中的第二文本信息以及与第二数据中图片信息相对应的图片特征信息,而后根据第一数据中所包括的第一文本信息、第二文本信息和图片特征信息可以实现对数据进行精确审核,在应用于电商业务平台时,可以保证电商业务平台中交易的安全可靠性,同时也降低了消费者所面临的交易风险。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种数据的处理方法、装置及设备。
背景技术
随着科学技术的飞速发展,电商业务平台为千万的商家提供了线上零售交易的机会。并且,为了能给消费者提供诚信、活跃、快速的网络交易环境,电商业务平台会以各种激励政策鼓励商家提升商品品质和服务质量。
但是,在对电商业务平台的实际运营过程中,仍然会存在一些商家为了短期利益,通过一些违规操作,影响平台的正常运营秩序,危害消费者的利益。例如:引流站外就是一种非常恶劣的风险操作行为,即商家通过在店铺透出各类的私人联系方式(通过IM通信软件、邮件等等),并引导脱离平台进行交易,从而实现绕开平台的正常交易流程和管理体系,以达到发布广告信息、销售假货、甚至诈骗的目的。这不仅会严重影响消费者的感受,并且利用这种方式将整个交易过程引导出平台的安全支付体系,让消费者面临潜在的交易风险。
发明内容
本发明实施例提供一种数据的处理方法、装置及设备,用以保证电商业务平台中交易的安全可靠性,降低消费者所面临的交易风险。
第一方面,本发明实施例提供一种数据的处理方法,包括:
获取待处理的第一数据和第二数据,所述第一数据包括第一文本信息,所述第二数据包括第二文本信息和图片信息;
确定所述第二数据中的第二文本信息以及与所述图片信息相对应的图片特征信息;
对所述第一文本信息、第二文本信息以及图片特征信息进行分析处理,确定所述第一数据和第二数据存在引走用户流量的风险信息。
第二方面,本发明实施例提供一种数据的处理装置,包括:
第一获取模块,用于获取待处理的第一数据和第二数据,所述第一数据包括第一文本信息,所述第二数据包括第二文本信息和图片信息;
确定模块,用于确定所述第二数据中的第二文本信息以及与所述图片信息相对应的图片特征信息;
第一处理模块,用于对所述第一文本信息、第二文本信息以及图片特征信息进行分析处理,确定所述第一数据和第二数据存在引走用户流量的风险信息。
第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第一方面中的一种数据的处理方法。
第四方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第一方面中的一种数据的处理方法。
通过获取待处理的第一数据和第二数据,确定第二数据中的第二文本信息以及与第二数据中图片信息相对应的图片特征信息,而后对第一数据中所包括的第一文本信息、第二文本信息以及图片特征信息进行分析处理,从而可以确定所述第一数据和第二数据存在引走用户流量的风险信息,有效地实现了对第一数据和第二数据进行精确审核,在该方法应用于电商业务平台时,可以保证电商业务平台中交易的安全可靠性,同时也降低了消费者所面临的交易风险,从而提高了该方法的实用性。
第五方面,本发明实施例提供一种数据的处理方法,包括:
获取在线样本数据,所述在线样本数据包括用于标识存在引走用户流量风险的第一样本集合和用于标识无引走用户流量风险的第二样本集合;
针对所述第一样本集合和所述第二样本集合,提取第一样本数据、第二样本数据以及用户的样本行为特征,其中,所述第一样本数据包括第一样本文本,所述第二样本数据包括第二样本文本和样本图片信息;
根据所述第一样本数据、第二样本数据和用户的样本行为特征建立数据处理模型,所述数据处理模型用于识别数据存在引走用户流量的风险。
第六方面,本发明实施例提供一种数据的处理装置,包括:
第二获取模块,用于获取在线样本数据,所述在线样本数据包括用于标识存在引走用户流量风险的第一样本集合和用于标识无引走用户流量风险的第二样本集合;
提取模块,用于针对所述第一样本集合和所述第二样本集合,提取第一样本数据、第二样本数据以及用户的样本行为特征,其中,所述第一样本数据包括第一样本文本,所述第二样本数据包括第二样本文本和样本图片信息;
第二处理模块,用于根据所述第一样本数据、第二样本数据和用户的样本行为特征建立数据处理模型,所述数据处理模型用于识别数据存在引走用户流量的风险。
第七方面,本发明实施例提供一种电子设备,该电子设备包括第一处理器和第一存储器,所述第一存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述第一处理器执行时实现上述第五方面中的数据的处理方法。
第八方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第五方面中的数据的处理方法。
通过获取在线样本数据,而后针对在线样本数据提取第一样本数据、第二样本数据以及用户的样本行为特征,由于在线样本数据包括第一样本集合和第二样本集合,因此,在获取到第一样本数据、第二样本数据和用户的样本行为特征之后,可以基于上述信息建立用于识别数据存在引走用户流量风险的数据处理模型,从而可以利用所建立的数据处理模型对数据进行引走用户流量的风险识别,有效地保证电商业务平台中交易的安全可靠性,同时也降低了消费者所面临的交易风险。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据的处理系统的结构示意图;
图2为本发明实施例提供的一种数据的处理方法的流程图一;
图3为本发明应用实施例提供的一种数据的处理方法的示意图;
图4为本发明实施例提供的一种数据的处理方法的流程图二;
图5为本发明实施例提供的一种数据的处理方法的示意图;
图6为本发明实施例提供的一种数据的处理装置的结构示意图;
图7为与图6所示实施例提供的数据的处理装置对应的电子设备的结构示意图;
图8为本发明实施例提供的另一种数据的处理装置的结构示意图;
图9为与图8所示实施例提供的数据的处理装置对应的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
为了便于理解本申请的技术方案,下面对现有技术进行简要说明:现有技术中,引流站外(即引走用户流量)的风险防控方式主要是基于专家经验积累的词库/数据库,而后再将商品的文本和图片OCR识别结果进行关键词匹配,这种方式会存在以下缺点:
(1)专家经验都是有限的,无法对于新的变异词进行快速认知和新增到词库中,然而,风险对抗的过程中又会存在不停地变异,所以会存在由于词库的关键词数有限且无法快速更新而导致风险覆盖不全的问题;
(2)对于引流站外的风险仅能在商品发布上线后进行风险回捞,无法在商品提交时刻进行风险阻断,从而使得引流站外的风险已经发生,并且需要投入额外的人力成本进行风险回捞。
为了解决现有技术中存在的上述技术问题,本实施例提供了一种可以实现数据处理方法的数据处理系统,该数据处理系统包括用户终端01和与用户终端01通信连接的处理装置02,其中,该用户终端01可以是手机、平板电脑、个人电脑等各种电子设备,而处理装置02可以实现为软件、或者软件和硬件的组合。另外,用户终端01和处理装置02可以为建立在局域网上的客户端/服务器CS架构;或者,用户终端01和处理装置02也可以为建立在广域网上的浏览器/服务器BS架构,本领域技术人员可以根据具体的应用场景来选择不同的实现方式。具体的:
用户终端01,用于检测用户输入的执行操作,并基于执行操作生成待处理数据,待处理数据可以包括第一数据、第二数据和用户的行为特征,其中,第一数据可以包括第一文本信息,第二数据可以包括第二文本信息和图片信息,而用户的行为特征可以是指与第一数据和第二数据相对应的行为特征;在用户终端01获取到用户输入的待处理数据之后,可以将待处理数据发送至处理装置02。
其中,用户终端01上可以设置有与处理装置02相对应的应用程序或者应用网址,用户通过应用程序或者应用网址可以实现将所输入的待处理数据发送至处理装置02;举例来说,在用户想要在应用程序中发布一些信息时,例如:在电子商铺中发布商品信息;用户可以通过应用程序中的数据输入端口输入如下待处理数据:标题信息(例如:中盐、加碘日晒自然盐250g食盐、食用细海盐厨房调味品油酱醋)、产品ID信息以及相应的图片信息等等,在用户终端01获取上述的待处理数据之后,可以将待处理数据发送至处理装置02进行审核。
处理装置02,用于接收用户终端01发送的待处理数据,并可以利用预设的数据处理模型对待处理数据进行分析处理,具体的,在数据处理模型对待处理数据进行处理时,可以对第一数据中的第一文本信息和第二数据中的第二文本信息进行变异词识别,具体识别的过程可以包括:利用预设词库对第一文本信息和第二文本信息进行识别,其中,预设词库中可以包括预先设置的多个标准变异词;若预设词库中未发现与第一文本信息和第二文本信息内容相对应的标准变异词,则获取预设词库中标准变异词所对应的标准音形码,而后获取与第一文本信息和第二文本信息内容相对应的文本音形码,根据标准音形码和文本音形码对第一文本信息和第二文本信息进行变异词识别;若发现第一文本信息和第二文本信息中存在变异词,可以将变异词存储在预设词库中,以便于下次直接调用。
在对第一文本信息和第二文本信息进行变异词识别之后,可以获取到与第一文本信息和第二文本信息相对应的清洗后的文本内容和图片信息内容,通过文本内容、图片信息内容和用户的行为特征来识别待处理数据是否存在引走用户流量的风险,若待处理数据存在引走用户流量的风险,则禁止对待处理数据进行发布,若待处理数据不存在引走用户流量的风险,则允许对待处理数据进行发布。并且,处理装置02可以将分析处理结果以及相关信息返回至用户终端。
相对应的,用户终端01,还可以用于接收并显示处理装置02所发送的分析处理结果以及相关信息,以使得用户可以清楚、直观地获取到数据处理结果,便于用户基于数据处理结果对待处理数据进行修正与调整,进而提高数据处理的质量和效率。
可选地,参考附图2所示,在处理装置执行数据的处理方法时,可以包括如下步骤:
S101:获取待处理的第一数据和第二数据,第一数据包括第一文本信息,第二数据包括第二文本信息和图片信息。
本实施例对于获取第一数据和第二数据(为了便于描述,以下称待处理数据)的具体实现方式不做限定,本领域技术人员可以根据具体的使用需求进行设置,例如:待处理数据(包括:第一数据和第二数据)可以存储在预设区域内,通过访问预设区域可以获取到待处理数据。或者,待处理数据也可以是存储在其他设备端(例如:用户终端)内,通过与设备端的通信连接来获取到存储至设备端内的待处理数据,具体的,一种可实现的方式为:可以向设备端发送数据获取请求,使得设备端可以基于数据请求返回待处理数据;或者,另一种可实现的方式为:设备端可以主动将待处理数据发送至处理装置,从而使得处理装置可以主动地获取待处理数据。
可以理解的是,在设备端为用户终端时,在用户终端获取到待处理数据之后,较为优选的,用户终端可以主动地将待处理数据发送至处理装置进行处理,从而可以提高数据处理的质量和效率。
此外,待处理数据还可以包括其他数据,本实施例对于待处理数据所包括的内容不做限定,例如:待处理数据还可以包括用户的行为特征,该行为特征可以包括用户操作网络行为、用户登录网络行为、用户访问网络行为。
S102:确定第二数据中的第二文本信息以及与图片信息相对应的图片特征信息。
在获取到第二数据之后,可以对第二数据进行识别,以确定第二数据中的第二文本信息和与第二数据中图片信息相对应的图片特征信息。具体的,确定第二数据中的第二文本信息可以包括:
S1021:利用光学字符识别OCR算法对第二数据进行识别,获得第二数据中的第二文本信息。
其中,OCR是指利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够识别的格式的过程;通过OCR算法对图片信息进行识别,可以快速、准确地获取到第二数据中的第二文本信息。可以理解的是,为了提高对第二数据进行识别的准确性,在利用OCR算法对第二数据进行识别时,还可以对第二数据进行其他调整或者处理,例如:对第二数据进行去噪处理等等。
此外,在确定与图片信息相对应的图片特征信息时,可以包括:
S1022:利用深度神经网络Inception-V3算法对第二数据进行分析处理,获得与第二数据中图片信息相对应的图片特征信息。
其中,Inception-V3算法用于对图片进行分类,其具体可以对图片中的特征进行分析并识别,例如:当利用Inception-V3算法对一只猫的图片进行分析处理时,其可以识别结果可以包括:图片中是虎猫的概率是0.403,图片中是埃及猫的概率是0.217,图片中是虎斑猫的概率是0.213、图片中是猞猁的概率是0.014、图片中是波斯猫的概率是0.004等等。因此,在利用Inception-V3算法对第二数据进行分析处理,可以获得与第二数据中图片信息相对应的图片特征信息,可以理解的是,所获取到的图片特征信息是一个向量表示信息,其具体可以为2048维向量。
当然的,本领域技术人员还可以采用其他的方式来对第二数据进行分析处理,只要能够准确地获取到与第二数据中图片信息相对应的图片特征信息即可,在此不再赘述。
S103:对第一文本信息、第二文本信息以及图片特征信息进行分析处理,确定第一数据和第二数据存在引走用户流量的风险信息。
具体的,对第一文本信息、第二文本信息以及图片特征信息进行分析处理,确定第一数据和第二数据存在引走用户流量的风险信息可以包括:
S1031:将第一文本信息与第二文本信息进行融合处理,获得融合文本信息。
其中,第一文本信息和第二文本信息均可以为向量表示信息,因此,在获取到第一文本信息和第二文本信息之后,将第一文本信息与第二文本信息进行融合处理,从而获得融合文本信息。举例来说,所获取到的第一文本信息为:Wi=[w1,w2,w3,…,w256],所获取到的第二文本信息为:Vi=[v1,v2,v3,…,v2048],在对第一文本信息和第二文本信息进行融合处理之后,可以获得融合文本信息Fi=[w1,w2,w3,…,w256,v1,v2,v3,…,v2048]。
S1032:利用数据处理模型对融合文本信息和图片特征信息进行分析处理,确定第一数据和第二数据存在引走用户流量的风险信息。
需要说明的是,数据处理模型可以识别出第一数据和第二数据存在引走用户流量的风险信息。具体的,数据处理模型可以包括deep子模型和/或wide子模型;也即,数据处理模型可以包括wide子模型,或者,数据处理模型可以包括deep子模型,或者,数据处理模型包括wide&deep模型,而wide&deep模型是一种用于分类和回归的模型,其具体是使用非线性特征的线性模型和一个用来嵌入特征的深度学习,并且使用联合训练的方法。
具体的,在数据处理模型包括wide&deep模型时,本实施例中的利用数据处理模型对融合文本信息和图片特征信息进行分析处理,确定第一数据和第二数据存在引走用户流量的风险信息可以包括:
S10321:获取待处理的用户的行为特征。
此时的待处理数据还可以包括用户的行为特征,其中,用户的行为特征包括以下至少之一:用户操作网络行为、用户登录网络行为、用户访问网络行为。
S10322:利用deep子模型对融合文本信息和图片特征信息进行分析处理,获得数据处理结果。
其中,在利用deep子模型对融合文本信息进行分析处理时,可以包括如下过程:利用预设的数据库检测融合文本信息中是否存在变异词,其中,数据库中预先存储有多个标准变异词;若数据库中存储有与融合文本信息中的至少一个字符相对应的标准变异词,则将标准变异词确定为与融合文本信息相对应的变异词。若数据库中没有与融合文本信息中的至少一个字符相对应的标准变异词,则获取与数据库中的标准变异词相对应的标准音形码;确定与融合文本信息相对应的至少一个音形码;而后获取音形码与标准音形码的相似度;若相似度大于或等于预设阈值,则将标准音形码所对应的标准变异词确定为与融合文本信息相对应的变异词;或者,若相似度小于预设阈值,则确定融合文本信息中不存在变异词。
可选地,在融合文本信息中包括变异词时,则检测融合文本信息中位于变异词后的数据信息是否为引流信息;其中,引流信息包括6-12位的字母串和/或数字串。具体的,若变异词后的数据信息为引流信息,则确定融合文本信息存在引走用户流量的风险;或者,若变异词后的数据信息不是引流信息,则确定融合文本信息不存在引走用户流量的风险。
通过对融合文本信息进行变异词和引流信息检测,有效地提高了对融合文本信息进行分析识别的准确可靠性,避免了现有技术中直接使用关键词进行硬匹配而准确率不高的问题,例如:智能手表可以使用微信,此时,若利用现有技术对上述文本进行检测,很容易会误判为存在引走用户流量风险。
在利用deep子模型对图片特征信息进行分析处理时,可以包括如下过程:利用预设数据库对图片特征信息进行分析处理,其中,预设数据库中存储有多个用于标识具有引走用户流量风险的标准图片特征(例如:微信图标特征、QQ图标特征、预设的涉黄图片特征、预设的非法图片特征等等),若预设数据库中存储有与图片特征信息相对应的标准图片特征,则确定图片特征信息对应的图片信息具有引走用户流量的风险。
当然的,本领域技术人员还可以采用其他的方式来实现对融合文本信息和图片特征信息进行分析处理,只要能够保证对融合文本信息和图片特征信息进行分析处理的准确可靠性即可,在此不再赘述。
S10323:利用wide子模型对数据处理结果和用户的行为特征进行分析处理,获得第一数据和第二数据存在引走用户流量的风险信息。
其中,由于用户的行为特征为数据信息,为了实现对用户的行为特征进行分析处理,可以将用户的行为特征转换为相对应的向量表示信息,也即可以获取到与用户的行为特征相对应的特征序列,该特征序列可以具体为60维的向量信息。进而可以利用数据处理模型对数据处理结果和用户的行为特征所对应的特征序列进行分析处理,以确定第一数据和第二数据存在引走用户流量的风险信息。
此外,在数据处理模型包括deep子模型时,本实施例中的利用数据处理模型对融合文本信息和图片特征信息进行分析处理,确定第一数据和第二数据存在引走用户流量的风险信息可以包括:
S10324:利用所述deep子模型对所述融合文本信息和图片特征信息进行分析处理,确定所述第一数据和第二数据存在引走用户流量的风险信息。
本实施例中的具体实现过程以及实现效果与上述在数据处理模型包括wide&deep模型时的具体实现过程以及实现效果相类似,不同的是,本实施例可以直接利用一个deep子模型来确定第一数据和第二数据存在引走用户流量的风险信息,相对于上述实施例而言,本实施例中的实现方式更为简单、方便。
另外,在数据处理模型包括wide子模型时,本实施例中的利用数据处理模型对融合文本信息和图片特征信息进行分析处理,确定第一数据和第二数据存在引走用户流量的风险信息可以包括:
S10325:获取待处理的用户的行为特征。
S10326:利用所述wide子模型对所述融合文本信息、图片特征信息以及用户的行为特征进行分析处理,确定所述第一数据和第二数据存在引走用户流量的风险信息。
本实施例中的具体实现过程以及实现效果与上述在数据处理模型包括wide&deep模型时的具体实现过程以及实现效果相类似,不同的是,本实施例可以直接利用一个wide子模型来确定第一数据和第二数据存在引走用户流量的风险信息,相对于上述实施例而言,本实施例中的实现方式更为简单、方便。
在获得对融合文本信息和图片特征信息进行分析处理的数据处理结果之后,可以利用wide子模型对数据处理结果和用户的行为特征进行分析处理,从而可以获得第一数据和第二数据存在引走用户流量的风险信息。可以理解的是,不同的数据处理结果和用户的行为特征可以获得不同的风险信息,该风险信息可以包括以下任意一种形式:风险值信息、风险等级信息、风险机率信息等等。
本实施例提供的数据的处理方法,通过获取待处理的第一数据和第二数据,确定第二数据中的第二文本信息以及与图片信息相对应的图片特征信息,而后对第一数据中所包括的第一文本信息、第二文本信息以及图片特征信息进行分析处理,从而可以确定第一数据和第二数据存在引走用户流量的风险信息,有效地实现了对待处理数据进行精确审核,在该方法应用于电商业务平台时,可以保证电商业务平台中交易的安全可靠性,同时也降低了消费者所面临的交易风险,从而提高了该方法的实用性。
在上述实施例的基础上,可选地,在确定第一数据和第二数据存在引走用户流量的风险信息之后,本实施例中的方法还可以包括:
S201:若风险信息大于或等于预设的风险阈值,则禁止对待处理数据进行发布。
S202:若风险信息小于预设的风险阈值,则允许对待处理数据进行发布。
其中,风险阈值为预先设置的数值,本实施例对于其具体数值范围不做限定,本领域技术人员可以根据具体的设计需求进行设置,例如:风险阈值为80分、85分或者90分等等。当获取到风险信息时,则可以将获取到的风险信息与风险阈值进行比较,并根据比较结果来决定对待处理数据的具体处理策略。以风险值信息作为风险信息为例进行说明,现有风险信息如下:待处理数据一的风险信息为50分、待处理数据二的风险信息为70分、待处理数据三的风险信息为90分,将上述的风险信息与预设的风险阈值80分进行比较,通过分析比较可以得知,待处理数据一和待处理数据二的风险信息均小于风险阈值,待处理数据三的风险信息大于风险阈值,因此,根据上述分析结果可以获知,待处理数据一和待处理数据二存在引走用户流量的风险较小,从而可以允许对待处理数据一和待处理数据二进行发布;而待处理数据三存在引走用户流量的风险较大,从而可以禁止对待处理数据三进行发布。
可以理解的是,在风险信息大于或等于预设的风险阈值之后,本实施例中的方法还包括:
S301:根据风险信息获取与待处理数据相对应的风险词提示信息。
S302:向用户显示风险词提示信息。
在风险信息大于或等于风险阈值时,则说明待处理数据(包括第一数据和第二数据)存在引走用户流量的风险较大,因此,禁止对待处理数据进行发布,为了使得用户可以了解到禁止发布的具体信息,可以根据风险信息获取与待处理数据相对应的风险词提示信息,该风险词提示信息可以包括:风险词、风险词所涉及的风险规则以及与风险规则相对应的风险处理方式等等,在获取到风险词提示信息之后,可以向用户显示风险词提示信息,具体的,可以将风险词提示信息发送至用户终端,以使得用户通过用户终端可以查看到风险词提示信息。
本实施例中,通过风险信息获取相对应的风险词提示信息,并向用户显示风险词提示信息,使得用户可以根据风险词提示信息对待处理数据进行快速的调整和修改,从而便于提高对数据进行处理的质量和效率。
具体应用时,参考附图3所示,本应用实施例提供了一种数据的处理方法,应用于电商业务平台;该数据的处理方法可以包括数据的获取过程、数据的处理过程和数据的决策输出过程,上述的每个过程可以均对应有一个装置端,此时,可以执行该数据的处理方法的处理装置可以包括商品发布端、算法服务端和决策输出端,其中,算法服务端中存储有已训练好的算法包(包括数据处理模型)。具体的数据的处理方法包括如下:
1)商品发布端
用户想要发布商品时,可以通过商品发布端输入商品信息,可以按照预设流程填写商品标题、属性、详情和图片数据,此时,商品发布端可以获取到用户端输入的商品数据,该商品数据即为待处理数据。具体的,在用户输入相对应的数据信息时,同步读取第一文本信息;当用户上传图片时,商品发布端可以利用OCR算法对图片中的文本进行实时识别与提取,并利用图片算法对图片特征进行提取,而后将所获取的第二文本信息和第一文本信息进行融合处理,获得融合文本信息,而后可以将所获取的融合文本信息、图片特征和用户的行为特征一起输入到算法服务端,以使得算法服务端对上述的数据进行处理。
2)算法服务端
算法服务端在读取到待处理数据后,会激活算法包中的数据处理模型,针对融合文本信息进行预处理,具体的,对融合文本信息进行变异词检测,在融合文本信息包括变异词时,可以确定与变异词相对应的标准变异词,以便于获取融合文本信息的向量表示信息,具体的,利用自注意力算法self-attention对检测后的融合文本信息进行训练,得到与融合文本信息相对应的256维文本向量信息。
在获取到文本向量信息之后,可以将文本向量信息与图片特征输入至deep模型中进行处理,得到预测结果;在获得预测结果之后,可以将预测结果与用户的样本行为特征输入至wide模型中,可以获取到风险预测结果,根据风险预测结果进行引走用户流量风险的综合决策,并输出风险信息。
3)决策输出
根据算法服务端输出的风险信息,在决策输出端接收到风险信息之后,可以基于预设的风险阈值对风险信息进行分析处理,并可以基于不同的分析处理结果作出不同的决策;具体的,在风险信息低于风险阈值时,则允许对商品信息进行发布,从而使得商品信息发布成功;在风险信息高于风险阈值时,则对商品信息进行发布阻断,并警示商家发布的商品存在引走用户流量的违规风险。进一步的,可以利用风险信息获取到风险词提示信息,并将风险词提示信息显示给用户,以使得用户根据风险词提示信息对待处理数据进行调整和修改。
可以理解的是,本实施例中的方法还可以具有另一种实现方式:实现该处理方法的装置可以以插件形式直接对网页中的图片、文本进行提取和识别,并根据图片和文本来判断网页中是否存在引走用户流量的风险。
图4为本发明实施例提供的一种数据的处理方法的流程图二;图5为本发明实施例提供的一种数据的处理方法的示意图;参考附图4-5所示,本实施例提供了一种数据的处理方法,该数据的处理方法用于实现数据处理模型的建立,该数据的处理方法的执行主体为处理装置,可以理解的是,该处理装置可以实现为软件、或者软件和硬件的组合。具体的,该方法可以包括:
S401:获取在线样本数据,在线样本数据包括用于标识存在引走用户流量风险的第一样本集合和用于标识无引走用户流量风险的第二样本集合。
其中,在线样本数据可以为在线的历史数据,具体的,在获取在线样本数据时,可以在预设的大量的在线历史数据中提起在线样本数据;该在线样本数据可以包括第一样本集合{p1,p2,…,pm}和第二样本集合{n1,n2,…,ni},这里的第一样本集合中的数据存在引走用户流量的风险,第二样本集合中的数据不存在引走用户流量的风险。可以理解的是,第一样本集合中的在线样本数据包括具有引走用户流量风险的标签信息,第二样本集合中的在线样本数据包括不具有引走用户流量风险的标签信息。
S402:针对第一样本集合和第二样本集合,提取第一样本数据、第二样本数据以及用户的样本行为特征,其中,第一样本数据包括第一样本文本,第二样本数据包括第二样本文本和样本图片信息。
在获取到第一样本集合和第二样本集合之后,可以针对第一样本集合和第二样本集合提取第一样本数据、第二样本数据以及用户的样本行为特征,其中,第一样本数据可以包括:标题信息、描述信息。用户的行为特征包括以下至少之一:用户操作网络行为、用户登录网络行为、用户访问网络行为、网络流量信息等等。
S403:根据第一样本数据、第二样本数据和用户的样本行为特征建立数据处理模型,数据处理模型用于识别数据存在引走用户流量的风险。
在获取到第一样本数据、第二样本数据和用户的样本行为特征之后,可以基于第一样本数据、第二样本数据和用户的样本行为特征进行训练,以建立数据处理模型,所建立的数据数据处理模型可以识别数据存在引走用户流量的风险。
本实施例提供的数据的处理方法,通过获取在线样本数据,而后针对在线样本数据提取第一样本数据、第二样本数据以及用户的样本行为特征,由于在线样本数据包括第一样本集合和第二样本集合,因此,在获取到第一样本数据、第二样本数据和用户的样本行为特征之后,可以基于上述信息建立用于识别数据存在引走用户流量风险的数据处理模型,从而可以利用所建立的数据处理模型对数据进行引走用户流量的风险识别,有效地保证电商业务平台中交易的安全可靠性,同时也降低了消费者所面临的交易风险。
可选地,本实施例对于根据第一样本数据、第二样本数据和用户的样本行为特征建立数据处理模型的具体实现方式不做限定,本领域技术人员可以根据具体的设计需求和应用场景进行设置,例如:可以直接对第一样本数据、第二样本数据和用户的行为特征进行模型训练,从而获得数据处理模型。为了提高数据处理模型使用的精确度,较为优选的,本实施例中的根据第一样本数据、第二样本数据和用户的样本行为特征建立数据处理模型可以包括:
S4031:确定第二样本数据中的第二样本文本以及与样本图片信息相对应的样本图片特征。
在获取到第二样本数据之后,为了提高数据处理模型对数据进行处理的准确率,可以先对第二样本数据进行识别,以确定第二样本数据中的第二样本文本和与样本图片信息相对应的样本图片特征。具体的,确定第二样本数据中的第二样本文本可以包括:利用光学字符识别OCR算法对第二样本数据进行识别,获得第二样本数据中的第二样本文本。
此外,确定与第二样本数据中样本图片信息相对应的样本图片特征可以包括:利用深度神经网络Inception-V3算法对第二样本数据进行分析处理,获得与第二样本数据中样本图片信息相对应的图片特征信息。
其中,本步骤中确定第二样本数据中的第二样本文本以及与样本图片信息相对应的样本图片特征的具体实现方式和实现效果与上述实施例中步骤S1021-S1022中的具体实现方式和实现效果相类似,具体可参考上述陈述内容,在此不再赘述。
S4032:将第一样本文本与第二样本文本进行融合处理,获得样本融合信息。
其中,第一样本文本和第二样本文本均可以为向量表示信息,因此,在获取到第一样本文本和第二样本文本之后,可以将第一样本文本和第二样本文本进行融合处理,从而获得样本融合信息。
举例来说,所获取到的第一样本文本为:Wi=[w1,w2,w3,…,w256],所获取到的第一样本文本为:Vi=[v1,v2,v3,…,v2048],在对第一样本文本和第二样本文本进行融合处理之后,可以获得样本融合信息Fi=[w1,w2,w3,…,w256,v1,v2,v3,…,v2048]。
S4033:根据样本融合信息、样本图片特征和用户的样本行为特征建立数据处理模型。
在获取到样本融合信息、样本图片特征和用户的样本行为特征时,可以基于样本融合信息、样本图片特征和用户的样本行为特征建立数据处理模型,需要注意的是,在引走用户流量的风险识别过程中,由于数据在风险对抗的过程中会发生不停地变异,而无法对于新的变异词进行快速认知和新增到词库中,例如:最初的引流数据中直接使用微信,而后逐步变异出vx、徽信、威心等,但并不是所有变异后的词代表了引流风险(例如:vx也可代表某品牌汽车型号),常规的词库则无法适用。
因此,为了解决上述技术问题,本实施例中的根据样本融合信息、样本图片特征和用户的样本行为特征建立数据处理模型可以包括:
S40331:对样本融合信息进行变异词检测。
其中,变异词是指针对同一个表达意思或者同一个事物而产生的不同字形、不用发音的词语。举例来说:对于现有的应用程序“微信”而言,其所对应的变异词可以包括“威信、薇信、威心或者vx”等等,在上述变异词出现时,看到上述变异词的用户可以获知到该变异词所对应的真实含义是“微信”,并且不会产生其他误解。
在获取到样本融合信息之后,为了提高对样本融合信息进行识别的准确性,可以对样本融合信息进行变异词检测,以识别出样本融合信息中是否存在变异词,当样本融合信息中存在变异词时,可以将变异词变更为与其相对应的标准表达内容。举例来说:在样本融合信息为“加徽信购买更优惠:BSN930”,在对样本融合信息进行变异词检测时,可以识别出样本融合信息中存在变异词“徽信”,确定该变异词所对应的标准表达内容为“微信”,此时,可以将上述的样本融合信息的表达内容确定为“加微信购买更优惠:BSN930”。
S40332:利用自注意力算法对检测后的样本融合信息进行处理,获得与样本融合信息相对应的样本文本向量。
由于对样本融合信息进行变异词检测无法覆盖所有的变异词,因此,在获取到检测后的样本融合信息之后,可以利用自注意力算法对样本融合信息进行处理,从而可以获得与样本融合信息相对应的样本文本向量,具体的,可以获得256维文本向量。
通过自注意力算法对样本融合信息进行分析处理,可以获得样本融合信息中各个词的重要性的差异信息,并且还可以对样本融合信息中词与词之间的上下文位置信息进行学习,可以有效地提高对样本融合信息分析处理的准确率,进一步提升数据处理模型使用的召回率。
S40333:对样本文本向量、样本图片特征和用户的样本行为特征进行训练,获得数据处理模型。
其中,对样本文本向量、样本图片特征和用户的样本行为特征进行训练,获得数据处理模型可以包括:
S403331:利用deep模型对样本文本向量和样本图片特征进行处理,获得样本处理结果。
S403332:将样本处理结果和用户的样本行为特征输入至wide模型中,并利用逻辑回归LR算法进行训练,获得数据处理模型。
具体的,借鉴wide&deep模型的思想,同时考虑模型的记忆能力和泛化能力,将所获取到的样本文本向量Fi=[w1,w2,w3,…,w256,v1,v2,v3,…,v2048]接入deep模型,隐层使用Relu激活函数,ReLUs=max(0,a),实现了利用deep模型对样本文本向量和样本图片特征进行处理,获得样本处理结果Di=[d1,d2,d3,…,d256],而后,以样本处理结果Di=[d1,d2,d3,…,d256]与用户的样本行为Xi作为wide模型的输入,使用逻辑回归LR算法进行模型训练,从而可以获得数据处理模型,该数据处理模型可以识别数据具有引走用户流量的风险。
通过对样本融合信息进行变异词检测,有效地提高了数据处理模型对数据进行处理的准确性,避免了现有技术中存在的无法对于新的变异词进行快速认知和新增到词库中,或者,由于词库的关键词数有限且无法快速更新而导致风险覆盖不全的问题,有效地提高了数据处理模型建立的准确可靠性,并提高了基于数据处理模型对数据进行识别的准确性,从而保证了该方法使用的稳定可靠性。
在上述实施例的基础上,可选地,本实施例中的对样本融合信息进行变异词检测可以包括:
S403311:利用预设的数据库检测样本融合信息中是否存在变异词,其中,数据库中预先存储有多个标准变异词。
S403312:若数据库中存储有与样本融合信息中的至少一个字符相对应的标准变异词,则将标准变异词确定为与样本融合信息相对应的样本变异词。
举例来说,数据库中存储有针对“微信”的多个标准变异词如下:微信、薇信、微心、威心、VX,样本融合信息可以为“加vx送红包,还包邮”。需要注意的是,在数据库中存储有上述的标准变异词的向量表示信息,该向量表示信息可以为“微信”的向量表示信息,也即,上述针对“微信”的多个标准变异词所对应的向量表示信息可以相同。
在利用数据库对上述的样本融合信息进行变异词检索时,即在样本融合信息中查找是否存在与标准变异词相同的至少一个字符,若存在,则确定样本融合信息中存在变异词,此时,上述的样本融合信息中包括与标准变异词相对应的样本变异词“vx”,为了便于对样本融合信息进行向量化处理,可以将标准变异词确定为样本融合信息相对应的样本变异词。
可以理解的是,本实施例中的方法还可以包括:
S403313:若数据库中没有与样本融合信息中的至少一个字符相对应的标准变异词,则获取与数据库中的标准变异词相对应的标准音形码。
其中,音形码音形码是指对中文字符从读音和字形两个角度进行编码,包括音码和字形码两部分,音码可以包括韵母、声母、补码以及声调等信息,字形码可以包括字的结构、形态、笔画数等信息。具体的,在获得标准变异词之后,可以利用现有技术中的编码规则对标准变异词进行处理,从而获得与标准变异词相对应的标准音形码,举例来说,在标准变异词为狼时,可以获取到对应的标准音形码为“F70214323A”,在标准变异词为“琅”时,可以获取到对应的标准音形码为“F70211313B”在标准变异词为“娘”时,可以获取到对应的标准音形码为“F74214343A”;在标准变异词为“微”时,所对应的标准音形码为“7J0132840E”,在标准变异词为“信”时,所对应的标准音形码为“HD04120269”。
在数据库中没有与样本融合信息中的至少一个字符相对应的标准变异词时,则可能出现以下两种情况,一种情况为:数据库中可能没有覆盖所有的变异词,或者,另一种情况为:该样本融合信息中并不包含变异词。此时,为了提高对样本融合信息进行识别的准确可靠性,可以获取与标准变异词相对应的标准音形码。
S403314:获取与样本融合信息相对应的至少一个音形码。
在获取到标准变异词所对应的标准音形码之后,可以基于样本融合信息来获取与样本融合信息相对应的至少一个音形码,具体的,可以包括:
S4033141:对样本融合信息进行分词处理,获得与样本融合信息相对应的至少一个分词信息。
S4033142:确定与每个分词信息相对应的音形码。
S403315:根据音形码和标准音形码对样本融合信息进行变异词检测。
在获取到音形码和标准音形码之后,可以对音形码和标准音形码进行分析识别,以实现对样本融合信息的变异词检测过程,具体的,根据音形码和标准音形码对样本融合信息进行变异词检测可以包括:
S4033151:获取音形码与标准音形码的相似度。
S4033152:若相似度大于或等于预设阈值,则将标准音形码所对应的标准变异词确定为与样本融合信息相对应的样本变异词。
S4033153:若相似度小于预设阈值,则确定样本融合信息中不存在变异词。
具体的,可以利用simhash_hamming算法获取音形码与标准音形码的相似度,其中,simhash_hamming算法包括SimHash算法和Hamming Distance算法,SimHash算法可以把原始的文本映射为64位的二进制指纹,Hamming Distance算法则可以是计算二进制指纹在相同位置上不同的字符的个数,simhash_hamming算法将上述两种算法相结合,从而可以获得音形码与标准音形码的距离和相似度。
举例来说,现有标准变异词“微信”,其中,“微”字所对应的标准音形码为7J0132840E,“信”字所对应的标准音形码为HD04120269;当检测到样本融合信中存在“薇”时,可以获取“薇”字的音形码为7J0124424G,利用simhash_hamming算法可以获知“微”字的标准音形码与“薇”字的音形码的第一相似度为0.9375,在获取到第一相似度之后,可以将第一相似度与第一阈值进行比较,其中,第一阈值为预先设置的任意数值,本领域技术人员可以根据具体的设计需求和应用场景进行设置,例如:第一阈值可以为0.8、0.85、或者0.9等等。下面以0.8作为第一阈值为例进行说明,由于上述获取的第一相似度大于第一阈值,因此,可以检测与“薇”字的相邻词语,当“薇”字的相邻词为信,可以获得“微信”与“薇信”的第二相似度为P(x)=0.953。在获取到第二相似度之后,可以将第二相似度与预设阈值进行比较,预设阈值为预先设置的任意数值,本领域技术人员可以根据具体的设计需求和应用场景进行设置,例如:预设阈值可以为0.9、0.95等等。在第二相似度大于或等于预设阈值时,则可以将标准音形码所对应的标准变异词确定为与样本融合信息相对应的样本变异词;若相似度小于预设阈值,则确定样本融合信息中不存在变异词。
可以理解的是,在确定样本变异词之后,本实施例中的方法还可以包括:
S501:将样本变异词存储至数据库中。
具体的,可以将样本变异词以字典的方式存储至数据库中,便于后期的检索与使用,并且,还可以针对引走用户流量的风险信息构建变异词字典Dict,具体的,Dict={k1:[a1,a2,…,an],…,km:[z1,z2,…,zi]},以字典中的一个kv值为例进行说明,其中,k=“微信”,v=[“vx”、“wx”、“威心”、“徽信”、…]。这样,当用户发布的商品数据存在引走用户流量的风险时,还可以通过数据库检索到相对应的引流内容和涉及的关键词信息。
本实施例提供的方法,通过数据库检测样本融合信息中是否存在变异词,在数据库中不存在与样本融合信息中的至少一个字符相对应的标准变异词时,通过获取标准变异词所对应的标准音形码和与样本融合信息相对应的至少一个音形码可以准确地识别出样本融合信息中是否存在变异词,从而有效地提高了对样本融合信息进行变异词检测的准确性。
可选地,在根据第一样本数据、第二样本数据和用户的样本行为特征建立数据处理模型之后,本实施例中的方法还可以包括:
S601:利用数据处理模型对待处理数据进行处理,以确定待处理数据存在引走用户流量的风险信息。
其中,待处理数据包括文本信息、图片信息以及用户的行为特征;以文本信息作为待处理数据为例进行说明,此时,利用数据处理模型对待处理数据进行处理可以包括:
S6011:利用数据处理模型对文本信息进行变异词检测。
其中,本实施例中的文本信息可以是指用户直接输入的文本信息;或者,本实施例中的文本信息可以是指融合文本内容,该融合文本内容是针对用户输入的文本信息和图片信息中的图片文本进行融合处理后所获取的。另外,本步骤的具体实现方式和实现效果与上述实施例中的步骤S40331的具体实现方式和实现效果相类似,具体可参考上述陈述内容,在此不再赘述。
S6012:在文本信息中包括变异词时,则检测文本信息中位于变异词后的数据信息是否为引流信息。
其中,引流信息包括6-12位的字母串和/或数字串。
S6013:若变异词后的数据信息为引流信息,则确定待处理数据存在引走用户流量的风险。
S6014:若变异词后的数据信息不是引流信息,则确定待处理数据不存在引走用户流量的风险。
由于文本信息中包括变异词并不代表该文本信息存在引走用户流量的风险,需要检测是否出现引流对象,才能确定引走用户流量的风险,也即并不是包括变异词的所有文本信息均具有引走用户流量的风险,例如:当文本信息为“智能手表具有微信功能”时,此时的文本信息则不具有引走用户流量的风险。因此,在确定文本信息中包括变异词之后,可以检测检测文本信息中位于变异词后的数据信息是否为引流信息,当变异词后出现的数据信息为引流信息时,则可以确定待处理数据存在引走用户流量的风险;在变异词后出现的数据信息不是引流信息时,则可以确定待处理数据不存在引走用户流量的风险。
可选地,在检测文本信息中位于变异词后的数据信息是否为引流信息时,可以构建函数P(y),在对文本信息进行变异词检测时,可以构建函数P(x),P(x)为文本信息中的音形码与标准音形码之间的相似度,通过上述两个函数获得最优化目标函数:arg max P(x)*P(y),通过每一次迭代可以得到文本信息中最大的变异词所对应的确定分P。进一步的,在确定分大于0.9时,可以将变异词放入到词库中,并以字典方式进行存储,以便于后期的检索与使用。
本实施例提供的数据处理方法,基于音形码方式进行文本转换,使用二进制指纹计算不同字的编码之间的相似度,再与连续号码串的识别相结合,得到变异词确定分P,并以字典的方式进行存储,便于关键词和内容的检索,从而实现了以科学合理的方式扩展了关键词库;此外,在变异词检测的基础上,基于self-attention进行文本表达,考虑了文本中上下文的位置信息和词之间的重要性差异信息,并且融合文本信息、图片特征信息、用户的行为特征使用深度学习算法进行模型训练,得到引走用户流量的风险分值,有效地避免了脱离上下文的关键词强匹配所造成的准确性问题,进一步提高了该方法使用的精确可靠性。
图6为本发明实施例提供的一种数据的处理装置的结构示意图;参考附图6所示,本实施例提供了一种数据的处理装置,并且,该处理装置可以执行上述图1-图3所对应的数据的处理方法。具体的,该处理装置可以包括:
第一获取模块11,用于获取待处理的第一数据和第二数据,第一数据包括第一文本信息,第二数据包括第二文本信息和图片信息;
确定模块12,用于确定第二数据中的第二文本信息以及与图片信息相对应的图片特征信息;
第一处理模块13,用于对第一文本信息、第二文本信息以及图片特征信息进行分析处理,确定第一数据和第二数据存在引走用户流量的风险信息。
可选地,在第一处理模块13对第一文本信息、第二文本信息以及图片特征信息进行分析处理,确定第一数据和第二数据存在引走用户流量的风险信息时,该第一处理模块13可以用于执行:将第一文本信息与第二文本信息进行融合处理,获得融合文本信息;利用数据处理模型对融合文本信息和图片特征信息进行分析处理,确定第一数据和第二数据存在引走用户流量的风险信息。
其中,数据处理模型包括deep子模型和/或wide子模型;此时,在第一处理模块13利用数据处理模型对融合文本信息和图片特征信息进行分析处理,确定第一数据和第二数据存在引走用户流量的风险信息时,该第一处理模块13可以用于执行:获取待处理的用户的行为特征;其中,用户的行为特征包括以下至少之一:用户操作网络行为、用户登录网络行为、用户访问网络行为。利用deep子模型对融合文本信息和图片特征信息进行分析处理,获得数据处理结果;利用wide子模型对数据处理结果和用户的行为特征进行分析处理,获得第一数据和第二数据存在引走用户流量的风险信息。
在数据处理模型包括deep子模型时,此时,在第一处理模块13利用数据处理模型对融合文本信息和图片特征信息进行分析处理,确定第一数据和第二数据存在引走用户流量的风险信息时,该第一处理模块13可以用于执行:利用所述deep子模型对所述融合文本信息和图片特征信息进行分析处理,确定所述第一数据和第二数据存在引走用户流量的风险信息。
在数据处理模型包括wide子模型时,此时,在第一处理模块13利用数据处理模型对融合文本信息和图片特征信息进行分析处理,确定第一数据和第二数据存在引走用户流量的风险信息时,该第一处理模块13可以用于执行:获取待处理的用户的行为特征;利用所述wide子模型对所述融合文本信息、图片特征信息以及用户的行为特征进行分析处理,确定所述第一数据和第二数据存在引走用户流量的风险信息。
可选地,在确定第一数据和第二数据存在引走用户流量的风险信息之后,第一处理模块13还可以用于执行:若风险信息大于或等于预设的风险阈值,则禁止对待处理数据进行发布;或者,若风险信息小于预设的风险阈值,则允许对待处理数据进行发布。
可选地,在风险信息大于或等于预设的风险阈值之后,第一处理模块13还可以用于执行:根据风险信息获取与待处理数据相对应的风险词提示信息;向用户显示风险词提示信息。
可选地,在确定模块12确定第二数据中的第二文本信息时,该确定模块12可以用于执行:利用光学字符识别OCR算法对第二数据进行识别,获得第二数据中的第二文本信息。
可选地,在确定模块12确定与第二数据中图片信息相对应的图片特征信息时,该确定模块12可以用于执行:利用深度神经网络Inception-V3算法对第二数据进行分析处理,获得与第二数据中图片信息相对应的图片特征信息。
图6所示装置可以执行图1-图3所示实施例的方法,本实施例未详细描述的部分,可参考对图1-图3所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图3所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图6所示数据的处理装置的结构可实现为一电子设备,该电子设备可以是手机、平板电脑、服务器等各种设备。如图7所示,该电子设备可以包括:第一处理器21和第一存储器22。其中,第一存储器22用于存储支持电子设备执行上述图1-图3所示实施例中提供的数据的处理方法的程序,第一处理器21被配置为用于执行第一存储器22中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第一处理器21执行时能够实现如下步骤:
获取待处理的第一数据和第二数据,所述第一数据包括第一文本信息,所述第二数据包括第二文本信息和图片信息;
确定所述第二数据中的第二文本信息以及与所述图片信息相对应的图片特征信息;
对所述第一文本信息、第二文本信息以及图片特征信息进行分析处理,确定所述第一数据和第二数据存在引走用户流量的风险信息。
可选地,第一处理器21还用于执行前述图1-图3所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第一通信接口23,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图1-图3所示方法实施例中数据的处理方法所涉及的程序。
图8为本发明实施例提供的另一种数据的处理装置的结构示意图;参考附图8所示,本实施例提供了另一种数据的处理装置,该处理装置可以执行上述图4-图5所对应的数据的处理方法,具体的,该处理装置可以包括:
第二获取模块31,用于获取在线样本数据,在线样本数据包括用于标识存在引走用户流量风险的第一样本集合和用于标识无引走用户流量风险的第二样本集合;
提取模块32,用于针对第一样本集合和第二样本集合,提取第一样本数据、第二样本数据以及用户的样本行为特征,其中,第一样本数据包括第一样本文本,第二样本数据包括第二样本文本和样本图片信息;
第二处理模块33,用于根据第一样本数据、第二样本数据和用户的样本行为特征建立数据处理模型,数据处理模型用于识别数据存在引走用户流量的风险。
可选地,在第二处理模块33根据第一样本数据、第二样本数据和用户的样本行为特征建立数据处理模型时,该第二处理模块33用于执行:确定第二样本数据中的第二样本文本以及与样本图片信息相对应的样本图片特征;将第一样本文本与所述第二样本文本进行融合处理,获得样本融合信息;根据样本融合信息、样本图片特征和用户的样本行为特征建立数据处理模型。
可选地,在第二处理模块33根据样本融合信息、样本图片特征和用户的样本行为特征建立数据处理模型时,该第二处理模块33用于执行:对样本融合信息进行变异词检测;利用自注意力算法对检测后的样本融合信息进行处理,获得与样本融合信息相对应的样本文本向量;对样本文本向量、样本图片特征和用户的样本行为特征进行训练,获得数据处理模型。
可选地,在第二处理模块33对样本融合信息进行变异词检测时,该第二处理模块33用于执行:利用预设的数据库检测样本融合信息中是否存在变异词,其中,数据库中预先存储有多个标准变异词;若数据库中存储有与样本融合信息中的至少一个字符相对应的标准变异词,则将标准变异词确定为与样本融合信息相对应的样本变异词。
可选地,第二处理模块33还用于执行:若数据库中没有与样本融合信息中的至少一个字符相对应的标准变异词,则获取与数据库中的标准变异词相对应的标准音形码;获取与样本融合信息相对应的至少一个音形码;根据音形码和标准音形码对样本融合信息进行变异词检测。
可选地,在第二处理模块33获取与样本融合信息相对应的至少一个音形码时,该第二处理模块33用于执行:对样本融合信息进行分词处理,获得与样本融合信息相对应的至少一个分词信息;确定与每个分词信息相对应的音形码。
可选地,在第二处理模块33根据音形码和标准音形码对样本融合信息进行变异词检测时,该第二处理模块33用于执行:获取音形码与标准音形码的相似度;若相似度大于或等于预设阈值,则将标准音形码所对应的标准变异词确定为与样本融合信息相对应的样本变异词;或者,若相似度小于预设阈值,则确定样本融合信息中不存在变异词。
可选地,在第二处理模块33对样本文本向量、样本图片特征和用户的样本行为特征进行训练,获得数据处理模型时,该第二处理模块33用于执行:利用deep模型对样本文本向量和样本图片特征进行处理,获得样本处理结果;将样本处理结果和用户的样本行为特征输入至wide模型中,并利用逻辑回归LR算法进行训练,获得数据处理模型。
可选地,在确定样本变异词之后,第二处理模块33还可以用于执行:将样本变异词存储至数据库中。
可选地,在根据第一样本数据、第二样本数据和用户的样本行为特征建立数据处理模型之后,第二处理模块33还可以用于执行:利用数据处理模型对待处理数据进行处理,以确定待处理数据存在引走用户流量的风险信息。
可选地,待处理数据包括文本信息,在第二处理模块33利用数据处理模型对待处理数据进行处理时,该第二处理模块33用于执行:利用数据处理模型对文本信息进行变异词检测;在文本信息中包括变异词时,则检测文本信息中位于变异词后的数据信息是否为引流信息;若变异词后的数据信息为引流信息,则确定待处理数据存在引走用户流量的风险;或者,若变异词后的数据信息不是引流信息,则确定待处理数据不存在引走用户流量的风险。其中,引流信息包括6-12位的字母串和/或数字串。
图8所示装置可以执行图4-图5所示实施例的方法,本实施例未详细描述的部分,可参考对图4-图5所示实施例的相关说明。该技术方案的执行过程和技术效果参见图4-图5所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图8所示数据的处理装置的结构可实现为一电子设备,该电子设备可以是手机、平板电脑、服务器等各种设备。如图9所示,该电子设备可以包括:第二处理器41和第二存储器42。其中,第二存储器42用于存储支持电子设备执行上述图4-图5所示实施例中提供的数据的处理方法的程序,第二处理器41被配置为用于执行第二存储器42中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第一处理器21执行时能够实现如下步骤:
获取在线样本数据,在线样本数据包括用于标识存在引走用户流量风险的第一样本集合和用于标识无引走用户流量风险的第二样本集合;
针对第一样本集合和第二样本集合,提取第一样本数据、第二样本数据以及用户的样本行为特征,其中,所述第一样本数据包括第一样本文本,所述第二样本数据包括第二样本文本和样本图片信息;
根据第一样本数据、第二样本数据和用户的样本行为特征建立数据处理模型,数据处理模型用于识别数据存在引走用户流量的风险。
可选地,第二处理器41还用于执行前述图4-图5所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第二通信接口43,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图4-图5所示方法实施例中数据的处理方法所涉及的程序。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (24)
1.一种数据的处理方法,其特征在于,包括:
获取待处理的第一数据和第二数据,所述第一数据包括第一文本信息,所述第二数据包括第二文本信息和图片信息;
确定所述第二数据中的第二文本信息以及与所述图片信息相对应的图片特征信息;
对所述第一文本信息、第二文本信息以及图片特征信息进行分析处理,确定所述第一数据和第二数据存在引走用户流量的风险信息。
2.根据权利要求1所述的方法,其特征在于,对所述第一文本信息、第二文本信息以及图片特征信息进行分析处理,确定所述第一数据和第二数据存在引走用户流量的风险信息,包括:
将所述第一文本信息与所述第二文本信息进行融合处理,获得融合文本信息;
利用数据处理模型对所述融合文本信息和图片特征信息进行分析处理,确定所述第一数据和第二数据存在引走用户流量的风险信息。
3.根据权利要求2所述的方法,其特征在于,所述数据处理模型包括deep子模型和/或wide子模型;利用数据处理模型对所述融合文本信息和图片特征信息进行分析处理,确定所述第一数据和第二数据存在引走用户流量的风险信息,包括:
利用所述deep子模型对所述融合文本信息和图片特征信息进行分析处理,确定所述第一数据和第二数据存在引走用户流量的风险信息;或者,
获取待处理的用户的行为特征;利用所述wide子模型对所述融合文本信息、图片特征信息以及用户的行为特征进行分析处理,确定所述第一数据和第二数据存在引走用户流量的风险信息;或者,
获取待处理的用户的行为特征;利用所述deep子模型对所述融合文本信息和图片特征信息进行分析处理,获得数据处理结果;利用所述wide子模型对所述数据处理结果和所述用户的行为特征进行分析处理,获得所述第一数据和第二数据存在引走用户流量的风险信息。
4.根据权利要求3所述的方法,其特征在于,所述用户的行为特征包括以下至少之一:用户操作网络行为、用户登录网络行为、用户访问网络行为。
5.根据权利要求1-4中任意一项所述的方法,其特征在于,在确定所述第一数据和第二数据存在引走用户流量的风险信息之后,所述方法还包括:
若所述风险信息大于或等于预设的风险阈值,则禁止对所述待处理数据进行发布;或者,
若所述风险信息小于预设的风险阈值,则允许对所述待处理数据进行发布。
6.根据权利要求5所述的方法,其特征在于,在所述风险信息大于或等于预设的风险阈值之后,所述方法还包括:
根据所述风险信息获取与所述待处理数据相对应的风险词提示信息;
向用户显示所述风险词提示信息。
7.根据权利要求1-4中任意一项所述的方法,其特征在于,确定所述第二数据中的第二文本信息,包括:
利用光学字符识别OCR算法对所述第二数据进行识别,获得所述第二数据中的第二文本信息。
8.根据权利要求1-4中任意一项所述的方法,其特征在于,确定与所述图片信息相对应的图片特征信息,包括:
利用深度神经网络Inception-V3算法对所述第二数据进行分析处理,获得与所述第二数据中图片信息相对应的图片特征信息。
9.一种数据的处理方法,其特征在于,包括:
获取在线样本数据,所述在线样本数据包括用于标识存在引走用户流量风险的第一样本集合和用于标识无引走用户流量风险的第二样本集合;
针对所述第一样本集合和所述第二样本集合,提取第一样本数据、第二样本数据以及用户的样本行为特征,其中,所述第一样本数据包括第一样本文本,所述第二样本数据包括第二样本文本和样本图片信息;
根据所述第一样本数据、第二样本数据和用户的样本行为特征建立数据处理模型,所述数据处理模型用于识别数据存在引走用户流量的风险。
10.根据权利要求9所述的方法,其特征在于,根据所述第一样本数据、第二样本数据和用户的样本行为特征建立数据处理模型,包括:
确定所述第二样本数据中的第二样本文本以及与所述样本图片信息相对应的样本图片特征;
将所述第一样本文本与所述第二样本文本进行融合处理,获得样本融合信息;
根据所述样本融合信息、样本图片特征和用户的样本行为特征建立所述数据处理模型。
11.根据权利要求10所述的方法,其特征在于,根据所述样本融合信息、样本图片特征和用户的样本行为特征建立所述数据处理模型,包括:
对所述样本融合信息进行变异词检测;
利用自注意力算法对检测后的所述样本融合信息进行处理,获得与所述样本融合信息相对应的样本文本向量;
对所述样本文本向量、样本图片特征和用户的样本行为特征进行训练,获得所述数据处理模型。
12.根据权利要求11所述的方法,其特征在于,对所述样本融合信息进行变异词检测,包括:
利用预设的数据库检测所述样本融合信息中是否存在变异词,其中,所述数据库中预先存储有多个标准变异词;
若所述数据库中存储有与所述样本融合信息中的至少一个字符相对应的标准变异词,则将所述标准变异词确定为与所述样本融合信息相对应的样本变异词。
13.根据权利要求12所述的方法,其特征在于,所述方法还包括:
若所述数据库中没有与样本融合信息中的至少一个字符相对应的标准变异词,则获取与所述数据库中的标准变异词相对应的标准音形码;
获取与所述样本融合信息相对应的至少一个音形码;
根据所述音形码和所述标准音形码对所述样本融合信息进行变异词检测。
14.根据权利要求13所述的方法,其特征在于,获取与所述样本融合信息相对应的至少一个音形码,包括:
对所述样本融合信息进行分词处理,获得与所述样本融合信息相对应的至少一个分词信息;
确定与每个所述分词信息相对应的音形码。
15.根据权利要求13所述的方法,其特征在于,根据所述音形码和所述标准音形码对所述样本融合信息进行变异词检测,包括:
获取所述音形码与所述标准音形码的相似度;
若所述相似度大于或等于预设阈值,则将所述标准音形码所对应的标准变异词确定为与所述样本融合信息相对应的样本变异词;或者,
若所述相似度小于预设阈值,则确定所述样本融合信息中不存在变异词。
16.根据权利要求11所述的方法,其特征在于,对所述样本文本向量、样本图片特征和用户的样本行为特征进行训练,获得所述数据处理模型,包括:
利用deep模型对所述样本文本向量和样本图片特征进行处理,获得样本处理结果;
将所述样本处理结果和用户的样本行为特征输入至wide模型中,并利用逻辑回归LR算法进行训练,获得所述数据处理模型。
17.根据权利要求12-15中任意一项所述的方法,其特征在于,在确定样本变异词之后,所述方法还包括:
将所述样本变异词存储至数据库中。
18.根据权利要求9-15中任意一项所述的方法,其特征在于,在根据所述第一样本数据、第二样本数据和用户的样本行为特征建立数据处理模型之后,所述方法还包括:
利用所述数据处理模型对待处理数据进行处理,以确定所述待处理数据存在引走用户流量的风险信息。
19.根据权利要求18所述的方法,其特征在于,所述待处理数据包括文本信息;利用所述数据处理模型对待处理数据进行处理,包括:
利用所述数据处理模型对所述文本信息进行变异词检测;
在所述文本信息中包括变异词时,则检测所述文本信息中位于所述变异词后的数据信息是否为引流信息;
若所述变异词后的数据信息为引流信息,则确定所述待处理数据存在引走用户流量的风险;或者,
若所述变异词后的数据信息不是引流信息,则确定所述待处理数据不存在引走用户流量的风险。
20.根据权利要求19所述的方法,其特征在于,所述引流信息包括6-12位的字母串和/或数字串。
21.一种数据的处理装置,其特征在于,包括:
第一获取模块,用于获取待处理的第一数据和第二数据,所述第一数据包括第一文本信息,所述第二数据包括第二文本信息和图片信息;
确定模块,用于确定所述第二数据中的第二文本信息以及与所述图片信息相对应的图片特征信息;
第一处理模块,用于对所述第一文本信息、第二文本信息以及图片特征信息进行分析处理,确定所述第一数据和第二数据存在引走用户流量的风险信息。
22.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求1至8中任一项所述的数据的处理方法。
23.一种数据的处理装置,其特征在于,包括:
第二获取模块,用于获取在线样本数据,所述在线样本数据包括用于标识存在引走用户流量风险的第一样本集合和用于标识无引走用户流量风险的第二样本集合;
提取模块,用于针对所述第一样本集合和所述第二样本集合,提取第一样本数据、第二样本数据以及用户的样本行为特征,其中,所述第一样本数据包括第一样本文本,所述第二样本数据包括第二样本文本和样本图片信息;
第二处理模块,用于根据所述第一样本数据、第二样本数据和用户的样本行为特征建立数据处理模型,所述数据处理模型用于识别数据存在引走用户流量的风险。
24.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求9至20中任一项所述的数据的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910136120.7A CN111612284B (zh) | 2019-02-25 | 2019-02-25 | 数据的处理方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910136120.7A CN111612284B (zh) | 2019-02-25 | 2019-02-25 | 数据的处理方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111612284A true CN111612284A (zh) | 2020-09-01 |
CN111612284B CN111612284B (zh) | 2023-06-20 |
Family
ID=72202060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910136120.7A Active CN111612284B (zh) | 2019-02-25 | 2019-02-25 | 数据的处理方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111612284B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032641A (zh) * | 2021-04-23 | 2021-06-25 | 赛飞特工程技术集团有限公司 | 一种智能搜索方法和设备 |
CN114722954A (zh) * | 2022-04-21 | 2022-07-08 | 北京沃东天骏信息技术有限公司 | 一种针对评价信息的内容异常处理方法和装置 |
WO2022156084A1 (zh) * | 2021-01-22 | 2022-07-28 | 平安科技(深圳)有限公司 | 基于人脸和交互文本的目标对象行为预测方法及相关设备 |
CN116841424A (zh) * | 2023-08-28 | 2023-10-03 | 华能信息技术有限公司 | 一种屏幕截图监控方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070106685A1 (en) * | 2005-11-09 | 2007-05-10 | Podzinger Corp. | Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same |
CN101727195A (zh) * | 2008-10-22 | 2010-06-09 | 苗玉水 | 汉语语音码多样信息输入法 |
CN101876968A (zh) * | 2010-05-06 | 2010-11-03 | 复旦大学 | 对网络文本与手机短信进行不良内容识别的方法 |
CN102902675A (zh) * | 2011-07-26 | 2013-01-30 | 腾讯科技(深圳)有限公司 | 图片内容审核方法和装置 |
CN103310354A (zh) * | 2012-03-08 | 2013-09-18 | 阿里巴巴集团控股有限公司 | 引流质量确定方法及装置、推广信息的投放方法及装置 |
CN106156017A (zh) * | 2015-03-23 | 2016-11-23 | 北大方正集团有限公司 | 信息识别方法和信息识别系统 |
CN107566391A (zh) * | 2017-09-20 | 2018-01-09 | 上海斗象信息科技有限公司 | 域识别加主题识别构建机器学习模型检测网页暗链的方法 |
CN108182246A (zh) * | 2017-12-28 | 2018-06-19 | 东软集团股份有限公司 | 敏感词检测过滤方法、装置和计算机设备 |
CN108228704A (zh) * | 2017-11-03 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 识别风险内容的方法及装置、设备 |
CN108269116A (zh) * | 2016-12-30 | 2018-07-10 | 北京国双科技有限公司 | 一种广告安全监测方法和装置 |
CN108628948A (zh) * | 2018-03-30 | 2018-10-09 | 重庆智荟数创科技有限公司 | 计算商标申请通过率的方法 |
US20180329886A1 (en) * | 2017-05-15 | 2018-11-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Artificial intelligence based method and apparatus for generating information |
-
2019
- 2019-02-25 CN CN201910136120.7A patent/CN111612284B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070106685A1 (en) * | 2005-11-09 | 2007-05-10 | Podzinger Corp. | Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same |
CN101727195A (zh) * | 2008-10-22 | 2010-06-09 | 苗玉水 | 汉语语音码多样信息输入法 |
CN101876968A (zh) * | 2010-05-06 | 2010-11-03 | 复旦大学 | 对网络文本与手机短信进行不良内容识别的方法 |
CN102902675A (zh) * | 2011-07-26 | 2013-01-30 | 腾讯科技(深圳)有限公司 | 图片内容审核方法和装置 |
CN103310354A (zh) * | 2012-03-08 | 2013-09-18 | 阿里巴巴集团控股有限公司 | 引流质量确定方法及装置、推广信息的投放方法及装置 |
CN106156017A (zh) * | 2015-03-23 | 2016-11-23 | 北大方正集团有限公司 | 信息识别方法和信息识别系统 |
CN108269116A (zh) * | 2016-12-30 | 2018-07-10 | 北京国双科技有限公司 | 一种广告安全监测方法和装置 |
US20180329886A1 (en) * | 2017-05-15 | 2018-11-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Artificial intelligence based method and apparatus for generating information |
CN107566391A (zh) * | 2017-09-20 | 2018-01-09 | 上海斗象信息科技有限公司 | 域识别加主题识别构建机器学习模型检测网页暗链的方法 |
CN108228704A (zh) * | 2017-11-03 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 识别风险内容的方法及装置、设备 |
CN108182246A (zh) * | 2017-12-28 | 2018-06-19 | 东软集团股份有限公司 | 敏感词检测过滤方法、装置和计算机设备 |
CN108628948A (zh) * | 2018-03-30 | 2018-10-09 | 重庆智荟数创科技有限公司 | 计算商标申请通过率的方法 |
Non-Patent Citations (2)
Title |
---|
姜雪;万正景;梁燕;陶以政;: "基于语义指纹的海量文本快速相似检测算法研究" * |
胡德敏;胡金龙;: "一种针对同音词伪装的反垃圾短信系统设计" * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022156084A1 (zh) * | 2021-01-22 | 2022-07-28 | 平安科技(深圳)有限公司 | 基于人脸和交互文本的目标对象行为预测方法及相关设备 |
CN113032641A (zh) * | 2021-04-23 | 2021-06-25 | 赛飞特工程技术集团有限公司 | 一种智能搜索方法和设备 |
CN114722954A (zh) * | 2022-04-21 | 2022-07-08 | 北京沃东天骏信息技术有限公司 | 一种针对评价信息的内容异常处理方法和装置 |
CN116841424A (zh) * | 2023-08-28 | 2023-10-03 | 华能信息技术有限公司 | 一种屏幕截图监控方法及系统 |
CN116841424B (zh) * | 2023-08-28 | 2024-02-09 | 华能信息技术有限公司 | 一种屏幕截图监控方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111612284B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10740380B2 (en) | Incremental discovery of salient topics during customer interaction | |
CN111612284B (zh) | 数据的处理方法、装置及设备 | |
CN110008343B (zh) | 文本分类方法、装置、设备及计算机可读存储介质 | |
CN109460455B (zh) | 一种文本检测方法及装置 | |
Budhi et al. | Resampling imbalanced data to detect fake reviews using machine learning classifiers and textual-based features | |
CN112231484B (zh) | 一种新闻评论审核方法、系统、装置和存储介质 | |
US20180286429A1 (en) | Intelligent truthfulness indicator association | |
CN110377744B (zh) | 一种舆情分类的方法、装置、存储介质及电子设备 | |
CN115544240B (zh) | 文本类敏感信息识别方法、装置、电子设备和存储介质 | |
CN113222022A (zh) | 一种网页分类识别方法及装置 | |
CN113570259A (zh) | 基于维度模型的数据评估方法和计算机程序产品 | |
CN110610003B (zh) | 用于辅助文本标注的方法和系统 | |
CN115187066A (zh) | 风险识别方法、装置、电子设备及存储介质 | |
CN112307199A (zh) | 信息识别、数据处理方法、装置及设备、信息交互方法 | |
CN116701641B (zh) | 一种非结构化数据的分级分类方法及装置 | |
CN116610772A (zh) | 一种数据处理方法、装置及服务器 | |
CN114119191A (zh) | 风控方法、逾期预测方法、模型训练方法及相关设备 | |
CN115017894A (zh) | 一种舆情风险识别方法及装置 | |
CN114548323A (zh) | 商品分类方法、设备及计算机存储介质 | |
CN114741501A (zh) | 舆情预警方法、装置、可读存储介质及电子设备 | |
CN111159397B (zh) | 文本分类方法和装置、服务器 | |
CN114254622A (zh) | 一种意图识别方法和装置 | |
KR102215259B1 (ko) | 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치 | |
CN116092094A (zh) | 图像文本识别方法、装置、计算机可读介质及电子设备 | |
CN112308453A (zh) | 风险识别模型训练方法、用户风险识别方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |