CN116662923A - 文本整体风险识别方法、系统、电子设备及介质 - Google Patents
文本整体风险识别方法、系统、电子设备及介质 Download PDFInfo
- Publication number
- CN116662923A CN116662923A CN202210149439.5A CN202210149439A CN116662923A CN 116662923 A CN116662923 A CN 116662923A CN 202210149439 A CN202210149439 A CN 202210149439A CN 116662923 A CN116662923 A CN 116662923A
- Authority
- CN
- China
- Prior art keywords
- text
- entity
- overall risk
- scene
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000002159 abnormal effect Effects 0.000 claims abstract description 62
- 230000006399 behavior Effects 0.000 claims description 43
- 230000015654 memory Effects 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 42
- 238000004422 calculation algorithm Methods 0.000 description 22
- 230000005856 abnormality Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000014759 maintenance of location Effects 0.000 description 5
- 230000003542 behavioural effect Effects 0.000 description 4
- 238000009434 installation Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 208000012260 Accidental injury Diseases 0.000 description 1
- 206010023126 Jaundice Diseases 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000002262 irrigation Effects 0.000 description 1
- 238000003973 irrigation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种文本整体风险识别方法、系统、电子设备及介质。方法包括:获取待识别文本以及发表所述待识别文本的用户的行为数据;行为数据包括实体信息和场景信息;根据实体信息和场景信息确定每个实体在对应的场景下对文本整体风险的贡献程度;根据实体信息和场景信息确定每个实体在对应的场景下的异常概率;基于贡献程度、每个实体在对应的场景下的异常概率和每个实体在文本整体风险中的权重确定行为数据的风险程度;确定待识别文本的异常概率;基于待识别文本的异常概率和待识别文本在文本整体风险中的权重确定待识别文本的风险程度;基于行为数据的风险程度和待识别文本的风险程度确定文本整体风险。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本整体风险识别方法、系统、电子设备及介质。
背景技术
在游戏行业中,影响游戏生态的重要因素有广告、诈骗、涉政、涉黄、游戏内拉人等。这些场景通常会在聊天频道、公告、日程、昵称、签名、游戏内邮件、论坛等用户创作内容(UGC)处产生。
在相关技术中,一般采用API接口对内容进行检测,采用如自然语言处理(NLP)等方法检测文本的异常,但是这种方法因文本变形复杂,对抗成本高,所以效果不显著。另外,为检测文本异常,多数云厂商只提供共性解决方案,游戏的个性化程度不高,无法针对游戏黑话做出及时反应。
发明内容
本申请的主要目的在于提供一种文本整体风险识别方法、系统、电子设备、介质及计算机程序产品,不仅考虑了文本本身的异常概率,还考虑了用户的行为数据,通过综合计算某条发言的联合概率可以提高恶意文本的识别概率和玩家的留存率。
本申请的第一方面公开了一种文本整体风险识别方法,所述方法包括:获取待识别文本以及发表所述待识别文本的用户的行为数据;所述行为数据包括实体信息和场景信息;根据所述实体信息和所述场景信息确定每个实体在对应的场景下对所述文本整体风险的贡献程度;根据所述实体信息和所述场景信息确定所述每个实体在对应的所述场景下的异常概率;基于所述贡献程度、所述每个实体在对应的所述场景下的异常概率和所述每个实体在所述文本整体风险中的权重确定所述行为数据的风险程度;确定所述待识别文本的异常概率;基于所述待识别文本的异常概率和所述待识别文本在所述文本整体风险中的权重确定所述待识别文本的风险程度;基于所述行为数据的风险程度和所述待识别文本的风险程度确定所述文本整体风险。
在上述第一方面的一种可能的实现中,通过示性函数确定所述每个实体在对应的场景下对所述文本整体风险的贡献程度。
在上述第一方面的一种可能的实现中,所述方法包括根据所述每个实体和不同场景的关联性确定所述每个实体在对应的所述场景下的异常概率。
在上述第一方面的一种可能的实现中,所述文本整体风险P(X)为, 其中,X为待识别的文本的样本,(Ei,Sj),i∈{1,...,n},j∈{1,...,m}是所述每个实体在对应的所述场景,即(实体,场景)对,/>为(实体,场景)对下的特征集合,/>为实体i在场景j下的异常概率,fi为实体i在不同场景下的关联异常概率,Ii,j(Ei,Sj)为实体i在场景j下对所述文本整体风险的贡献程度,ωi所述每个实体i在所述文本整体风险中的权重,Xt为待识别的文本的文本特征,P(Xt)为所述待识别文本的异常概率,ωt为所述待识别文本在所述文本整体风险中的权重。
在上述第一方面的一种可能的实现中,所述每个实体在所述文本整体风险中的权重和所述待识别文本在所述文本整体风险中的权重是通过所有用户的正负样本得出。
在上述第一方面的一种可能的实现中,基于所述文本整体风险对所述待识别文本执行后续处理措施。
本申请的第二方面公开了文本整体风险识别系统,所述系统包括:获取模块,用于获取待识别文本以及发表所述待识别文本的用户的行为数据;所述行为数据包括实体信息和场景信息;第一确定模块,用于根据所述实体信息和所述场景信息确定每个实体在对应的场景下对所述文本整体风险的贡献程度;第二确定模块,用于根据所述实体信息和所述场景信息确定所述每个实体在对应的所述场景下的异常概率;第三确定模块,用于确定所述待识别文本的异常概率;第四确定模块,用于确定所述每个(实体,场景)对的识别概率的权重和所述发言文本的识别概率的权重;第五确定模块,用于根据所述每个实体在对应的所述场景下的异常概率、所述每个实体在所述文本整体风险中的权重、所述待识别文本的异常概率、和所述待识别文本在所述文本整体风险中的权重来确定所述文本整体风险。
在上述第二方面的一种可能的实现中,所述系统还包括处理模块,用于基于所述文本整体风险对所述待识别文本执行后续处理措施。
本申请的第三方面公开了一种电子设备,包括存储有计算机可执行指令的存储器和处理器;当所述指令被所述处理器执行时,使得所述设备实施本申请第一方面的方法。
本申请的第四方面公开了一种计算机可读存储介质,计算机可读存储介质存储有一个或多个计算机程序,一个或多个计算机程序被一个或多个处理器执行,使得处理器执行上本申请第一方面的方法。
本申请的第五方面公开了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如本申请第一方面的方法。
根据本申请的文本整体风险识别方法、系统、电子设备、介质及计算机程序产品,综合了用户的行为数据和待识别文本两个部分各自的风险程度得出文本异常的联合概率,将仅对异常文本消息过滤拓展到包括玩家游戏行为和具体文本内容的多种特征。不仅考虑了文本本身的异常概率,可以识别变体词;还考虑了用户的行为数据,可以识别个性化特征的游戏黑话以及异常玩家的看似正常的危险发言。综合计算某条发言的联合概率可以提高恶意文本的识别概率,提高玩家的留存率。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是相关技术中识别恶意文本的方法示意图;
图2是本申请一个实施例的文本整体风险识别方法流程示意图;;
图3是本申请一个实施例的电子设备的结构示意图;
图4是本申请一个实施例的文本整体风险识别系统的模块示意图。
具体实施方式
下面结合具体实施例和附图对本申请做进一步说明。可以理解的是,本公开的说明性实施例包括但不限于文本整体风险识别方法、系统、电子设备、介质及计算机程序产品,此处描述的具体实施例仅仅是为了解释本申请,而非对本申请的限定。此外,为了便于描述,附图中仅示出了与本申请相关的部分而非全部的结构或过程。
以下由特定的具体实施例说明本申请的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本申请的其他优点及功效。虽然本申请的描述将结合较佳实施例一起介绍,但这并不代表此发明的特征仅限于该实施方式。恰恰相反,结合实施方式作发明介绍的目的是为了覆盖基于本申请的权利要求而有可能延伸出的其它选择或改造。为了提供对本申请的深度了解,以下描述中将包含许多具体的细节。本申请也可以不使用这些细节实施。此外,为了避免混乱或模糊本申请的重点,有些具体细节将在描述中被省略。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
此外,各种操作将以最有助于理解说明性实施例的方式被描述为多个离散操作;然而,描述的顺序不应被解释为暗示这些操作必须依赖于顺序。特别是,这些操作不需要按呈现顺序执行。
除非上下文另有规定,否则术语“包含”,“具有”和“包括”是同义词。短语“A/B”表示“A或B”。短语“A和/或B”表示“(A和B)或者(A或B)”。
如这里所使用的,术语“模块”或“单元”可以指代、是或者包括:专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的(共享、专用或组)处理器和/或存储器、组合逻辑电路和/或提供所描述的功能的其他合适的组件。
在一些情况下,所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如,计算机可读)存储介质承载或存储在其上的指令,其可以由一个或多个处理器读取和执行。例如,指令可以通过网络或通过其他计算机可读介质的途径分发。因此,机器可读介质可以包括用于以机器(例如,计算机)可读的形式存储或传输信息的任何机制,包括但不限于软盘、光盘、光盘、只读存储器(CD-ROM)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或用于通过电、光、声或其他形式的传播信号(例如,载波、红外信号、数字信号等)通过因特网传输信息的有形的机器可读存储器。因此,机器可读介质包括适合于以机器(例如,计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。
在附图中,以特定布置和/或顺序示出一些结构或方法特征。然而,应该理解,可以不需要这样的特定布置和/或排序。在一些实施例中,这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外,在特定图中包含结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征,并且在一些实施例中,可以不包括这些特征或者可以与其他特征组合。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元或是数据,但是这些单元或数据不应当受这些术语限制。使用这些术语仅仅是为了将一个特征与另一个特征进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一特征可以被称为第二特征,并且类似地第二特征可以被称为第一特征。
应注意的是,在本说明书中,相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步地详细描述。
在游戏行业中。聊天、邮件、昵称、签名、头像、空间、社区、论坛、官网等各种与文字相关的地方都存在影响内容安全的隐患。常见的导致安全隐患的文本的恶意内容包括:广告、诈骗信息、涉政暴恐、涉黄、辱骂、灌水、游戏内拉人等。如何高效准确地识别并处理游戏内各类欺诈形态,优化游戏生态环境,提升玩家游戏体验,一直是游戏开发者长期面临的核心问题之一。
图1示出了相关技术识别恶意文本的方法示意图。相关技术中的文本识别方法通过应用程序接口(Application Programming Interface,API),针对用户内容UGC场景,采用自然语言理解算法(NLP)判断文本是否异常。但是对于文本中的带有复杂变形的变体词,比如:缩写、谐音、汉字拆分组合、昵称、音译等,对抗成本较高,识别的效果不显著。另外,相关技术中的文本识别方法主要解决的是因一般原因引发的恶意文本,比如:广告、涉政暴恐、涉黄、辱骂等,而对于具有个性化特征的游戏黑话无法做出及时的处理。常见的游戏黑话包括资源交易中的“卖水果”、“出大理石”等,这些文本难以被识别为恶意文本。再有,异常玩家为探测自己是否存活,会发送和正常文本毫无差别的尝试性试探语句,比如“你好”或“在吗”,但这些语句的目的实际上是为了拉人,会造成游戏平台的用户流失。这些试探性语句在恶意文本识别中更多地是使用了文本本身的信息,使得无法有效判定恶意文本,造成遗漏。
为了解决上述问题,本申请的一个实施例提供了一种文本整体风险识别方法100,参见图2。该方法100包括:
S110,获取待识别文本以及发表所述待识别文本的用户的行为数据;所述行为数据包括实体信息和场景信息。
根据用户创作内容(UGC)中的文本的关联信息可以确定发表该文本的用户,进而可以获取该用户的行为数据信息。在游戏行业中,用户的行为数据可以从包含玩家历史行为的行为日志中获取。行为数据包括发表文本时的实体信息和场景信息。实体信息包括账号、角色、IP、IP段、设备、工会等。场景信息为实体(即游戏角色或操作游戏角色的设备)的应用场景关联信息,包括安装应用、创建账号、登录、充值、私聊、世界聊天等。
S120,根据所述实体信息和所述场景信息确定每个实体在对应的场景下对所述文本整体风险的贡献程度。
在用户的行为数据信息中,虽然包含了多个实体和多个场景,但是不是所有实体在所有场景下都会对文本整体风险的概率做出贡献。比如,当获取到的待识别文本的IP是局域网IP,而不是公网IP;或者当前账号是国际服用户时,则在该IP的实体下就不会对该文本整体风险具有贡献。或者,当待识别文本是在账号的私聊中,而不是在世界聊天中时,在该账号在世界聊天中发布消息的行为就不会对该文本整体风险具有贡献。
在一些实施方式中,每个实体在对应的场景下对文本整体风险的贡献程度可以通过示性函数Ii,j(Ei,Sj)得出。
(Ei,Sj)是所述每个实体在对应的所述场景,{(E,S)}κ是应用场景κ下生效的实体和场景集合。应用场景通常是指某个具体的游戏区服、功能玩法。本发明中,(Ei,Sj)被称为(实体,场景)对,如角色进入游戏中的新手引导过程,被称为(角色,新手引导)对。例如,当获取到的待识别文本的IP是公网IP时,该IP对应的实体就会对该文本整体风险具有贡献,Ii,j(Ei,Sj)=1。当获取到的待识别文本的IP是局域网IP;或者当前账号是国际服用户时,则在该IP对应的实体就不会对该文本整体风险具有贡献,Ii,j(Ei,Sj)=0。当待识别文本是在账号的私聊中,那么对应的实体在世界聊天中发布消息的行为就不会对该文本整体风险具有贡献,Ii,j(Ei,Sj)=0。
S130,根据所述实体信息和所述场景信息确定所述每个实体在对应的所述场景下的异常概率。
每个实体在对应的所述场景下的异常概率可以通过各类模型/算法和人工构造规则计算得出。计算异常概率的算法包括社群发现算法、聚类算法等。在一个示例中,当实体为角色,场景为新手指引时,可以将角色通过新手引导的每个步骤所需的时间作为特征,再使用聚类算法,将所有角色聚类后可以得到三个簇,即被聚为三类。在每个簇中,会包含一些已知为异常的角色。因此,我们将角色所在的簇中异常角色的比例,作为指定角色在新手引导场景下的异常概率,即(角色,新手引导)对的异常概率。在一些示例中,聚类算法为DBSCAN算法,DBSCAN为具有噪声的基于密度的聚类方法(Density-Based SpatialClustering of Applications with Noise),是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。
S140,基于所述贡献程度、所述每个实体在对应的所述场景下的异常概率和所述每个实体在所述文本整体风险中的权重确定所述行为数据的风险程度。
每个实体在文本整体风险中的权重不同,可以将每个实体在文本整体风险中的权重、贡献程度、每个实体在对应的所述场景下的异常概率相乘以获得行为数据的风险程度。例如,实体1在文本整体风险中的权重为ω1,该实体在对应的场景P1下对文本整体风险的贡献程度为1,该实体在对应的场景下的异常概率为P1,则该实体在对应的场景下的风险程度为ω1*1*P1;以此类推,实体n在文本整体风险中的权重为ωn,该实体在对应的场景Pn下对文本整体风险的贡献程度为1,该实体在对应的场景下的异常概率为P1,则该实体在对应的场景下的风险程度为ωn*1*Pn,在计算所有实体在对应场景下的风险程度后,将其汇总相加得到行为数据的风险程度ω1*1*P1+…+ωn*1*Pn。
在一些实施方式中,每个实体在文本整体风险中的权重是通过所有用户的正负样本得出。历史积累的正负样本可以从所有用户的行为数据得出。在一些示例中,具有风险的垃圾文本为正样本,正常文本为负样本。比如,在计算(角色,新手引导)对下异常概率的权重时,根据历史积累的(角色,新手引导)对的异常概率>0.5的发言样本,对每一条发言样本是否异常进行人工标注,或者根据预设的样本库由计算机程序标注,最终得到了这批发言样本中异常发言所占比例w,将w作为这一(实体,场景)对下异常概率的权重。最终的每一项权重需要除以所有权重之和,以保证计算得到的文本总体风险值在0~1之间。
在一些实施方式中,可以根据所述每个实体和不同场景的关联性确定所述每个实体在对应的所述场景下的异常概率。
不同的(实体,场景)对的异常风险可能是相关的。比如,某个设备实体在创建账号时聚集被识别出异常风险,那么在该设备中的账号实体在登录时也会存在异常风险。因此,在计算联合的文本整体风险时,不能使用各个风险概率直接相加或相乘。在一些示例中,可以引入f函数来考虑关联性的影响。f函数可以是普通的聚合函数,如求和(sum)、求最大值(max)、求平均(avg)等。在其它的示例中,f函数可以是主成分分析方法(PrincipalComponent Analysis,PCA)、岭回归(Ridge Regression)等统计学函数。
S150,确定所述待识别文本的异常概率。
待识别文本的异常概率也可以通过各类模型/算法或者人工构造规则计算得出。计算文本异常概率的算法包括fastText算法、XGBoost算法等。fastText是一个高效学习单词表示和句子的分类算法,是本领域技术人员所掌握的算法。fastText模型是三层的网络结构,包括输入层、单层隐藏层和输出层。fastText属于有监督学习,并且通过上下文来预测文本的类别。XGBoost(eXtreme Gradient Boosting)算法是一种梯度提升决策树算法,是本领域技术人员所掌握的算法。XGBoost算法使用梯度下降算法来最小化添加新模型时的损失,即不断地添加树,来拟合上次预测的残差,最后将每棵树对应的分数相加得到样本的预测值。在一些示例中,将文本数据作为样本,将其中的异常文本标记标签,使用fastText算法对文本进行分类,并输出文本为异常的概率。计算文本异常概率的算法可以识别出文本中的变体词。在一些实施方式中,计算文本异常概率的算法可以通过建立变体词的映射表或是利用词向量对比变体词与上下文的语境关联度等手段识别变体词。通过建立映射表的方式即人工构造规则,由游戏运营人员定义存在异常可能性的文本及对应的概率。
S160,基于所述待识别文本的异常概率和所述待识别文本在所述文本整体风险中的权重确定所述待识别文本的风险程度。
可以将待识别文本在所述文本整体风险中的权重、待识别文本的异常概率相乘以获得待识别文本的风险程度。
在一些实施方式中,待识别文本在所述文本整体风险中的权重是通过所有用户的正负样本得出。历史积累的正负样本可以从所有用户的行为数据得出。在一些示例中,具有风险的垃圾文本为正样本,正常文本为负样本。在一些实施方式中,可以根据积累的异常概率大于0.5的多个发言样本,对每一条发言样本是否异常进行人工标注,或者根据预设的样本库由计算机程序标注,最终得到了这些发言样本中异常发言所占比例w,即权重。最终的每一项权重需要除以所有权重之和,以保证计算得到的文本总体风险值在0~1之间。
S170,基于所述行为数据的风险程度和所述待识别文本的风险程度确定所述文本整体风险。
根据计算得出的行为数据的风险程度、待识别文本的风险程度汇总相加得到文本整体风险。即将上述步骤S140中计算得出的行为数据的风险程度与上述步骤S160中计算得出的待识别文本的风险程度进行相加计算,得到文本整体风险。
在一些实施方式中,若获取的样本中仅有待识别文本但是没有发表所述待识别文本的用户的行为数据时,可以视行为数据的风险程度为零,直接根据步骤S150-S160计算得出文本整体风险。
图2中的文本整体风险综合了用户的行为数据和待识别文本两个部分各自的风险程度得出文本异常的联合概率,将仅对异常文本消息过滤拓展到包括玩家游戏行为(如发言频率、在线时间、各类成长线进度等)、玩家属性(如角色等级、累计付费等)、环境信息(如登录设备、注册IP等)和具体文本内容的多种特征。不仅考虑了文本本身的异常概率,可以识别变体词,还考虑了用户的行为数据。可以识别个性化特征的游戏黑话以及异常玩家的看似正常的危险发言。利用发言当时的实体信息、这些实体曾经在各个场景出现异常的概率,并综合计算某条发言的联合概率可以提高恶意文本的识别概率,提高玩家的留存率。
在一些实施方式中,在确定每个实体在对应的场景下对文本整体风险的贡献程度Ii,j(Ei,Sj)和每个实体和不同场景的关联性之后,图2中待识别文本的整体风险P(X)可用如下公式表示:
X为待识别的文本的样本,(Ei,Sj),i∈{1,...,n},j∈{1,...,m}是所述每个实体在对应的所述场景,即(实体,场景)对,为(实体,场景)对下的特征集合,/>为实体i在场景j下的异常概率,fi为实体i在不同场景下的关联异常概率,Ii,j(Ei,Sj)为实体i在场景j下对所述文本整体风险的贡献程度,ωi所述每个实体i在所述文本整体风险中的权重,Xt为待识别的文本的文本特征,即当前发言的具体文本内容,P(Xt)为所述待识别文本的异常概率,ωt为所述待识别文本在所述文本整体风险中的权重。
在公式(2)中,待识别的文本样本X具有(实体,场景)对下的特征集合以及待识别的文本的文本特征Xt,即公式(2)综合考虑了当前文本对应的用户的行为数据以及文本本身。
在一些实施方式中,待识别的文本样本X可以包括游戏ID、发言的时间戳、发言的IP地址、账号、文本类型、文本内容等。在一些实施方式中,X还可以包括以下的一种或多种:发言的IP地址段、设备ID、设备操作系统、游戏服务器ID、玩家昵称、玩家工会ID、消息对象类型、消息对象ID、玩家游戏等级和玩家推关进度。
(实体,场景)对(Ei,Sj)指的是样本X中的实体Ei出现在场景Sj,比如(设备,安装),实体Ei为设备,场景5j为安装。在一些示例中,(实体,场景)对还可以为(账号,登录)、(角色,新手引导)、(IP,世界聊天)等。
每个(实体,场景)对(Ei,Sj)对应一个该(实体,场景)对下的特征集合例如,在(设备,安装)下,特征集合可以包括:发言时设备近24小时的安装应用的次数、设备安装应用后的登录账号的数目。在(账号,登录)下,特征集合可以包括:账号下最大角色等级、账号创建时长、账号在线时间。在(角色,新手引导)下,特征集合可以包括:角色最新等级、角色累计付费值、角色近24小时登录次数、角色新手指引通过时间、角色登录时是否加入工会。在(IP,世界聊天)下,特征集合可以包括:该IP对应的角色在世界聊天中的发言频率、该IP对应的角色的在线时间。
如上所述,可以根据样本X确定(实体,场景)对(Ei,Sj)下的特征集合在一些实施方式中,可以将特征集合/>输入至对应的(实体,场景)对模型中,以获得实体i在场景j下的异常概率/>在一些实施方式中,每个(实体,场景)对模型可以根据所有用户的历史行为数据训练得出,用户的历史行为数据记载于用户行为日志中。
由公式(2)可以看出,文本整体风险综合了用户的行为数据和待识别文本两个部分各自的风险程度,可以根据当前发言的样本,通过示性函数Ii,j(Ei,Sj)获取生效的(实体,场景)对(Ei,Sj),再将(实体,场景)对下的特征集合输入至各个(实体,场景)对模型中以获取实体i在场景j下的异常概率/>利用fi函数确定实体i在不同场景下的关联异常概率,即利用发言当时的实体信息和这些实体曾经在各个场景出现异常的概率,可以识别个性化特征的游戏黑话以及异常玩家的看似正常的危险发言。另外,通过待识别文本的风险程度可以识别变体词,提高了识别的正确率。
公式(2)中的整体风险计算方法和仅针对文本的过滤方法相比,可以将世界聊天中的广告比例从99%降低到0,将游戏内拉人消息的比例从大于95%降低到低于5%。另一方面,还可以提高1.5~2.5倍的玩家聊天活跃度、提高2%的国服30日留率(从7%提升至9%)、提高5%的拉人消息的识别召回率。
在一个示例中,发言样本X由(角色ID,账号ID、时间戳、设备ID、IP、文本)组成,根据示性函数可以得出生效的(实体,场景)对为(账号,登录)、(角色,新手引导)。对于(账号,登录),特征集合为:账号下最大角色等级、账号是否存在社群风险。对于(角色,新手引导),特征集合为:角色最新等级、角色累计付费、角色近24小时登录次数、角色新手指引通过时间、角色登录时是否加入工会。账号的异常风险为 账号在文本整体风险中所占的权重为ω1;角色的异常风险为/> 角色在文本整体风险中所占的权重为ω2。文本异常的概率为pt,账号在文本整体风险中所占的权重为ωt。账号的异常风险p1是将发言样本输入至(账号,登录)模型后得出,角色的异常风险p2是将发言样本输入至(角色,新手引导)模型后得出。文本异常的概率P(Xt)是通过文本模型计算得出。权重ω1、ω2、ωt可以由所有用户的正负样本得出。发言样本X的文本整体风险为:
在一些实施方式中,发言样本X在(账号,登录)场景对下的异常概率p1为0.6,权重ω1为0.3,在(角色,新手引导)场景对下的异常概率p2为0.8,权重ω2为0.3。文本内容被文本分类模型判定为异常的概率P(Xt)为1.0,权重ωt为0.4,则发言样本的总体风险P(X)为:0.6*0.3+0.8*0.3+1.0*0.4=0.82。
在一些实施方式中,可以基于文本整体风险对待识别文本执行后续处理措施。例如可以对计算得出文本整体风险进行分级打分。在一些示例中,可以将计算出的上述概率*4,四舍五入映射到0到4的风险分,可定义3分以上需要人工介入处理。
在一些实施方式中,在对文本整体风险分级打分之后,可以针对每个(实体、场景)对返回具体的异常原因。异常原因可以是使用模拟器、bot(机器人生成)昵称等。
在一些实施方式中,可以根据分级打分对异常文本进行验证码核验后发布或直接拦截处理。在其它实施方式中,也可以由游戏应用的开发方在前端配置对应的具体处理方式。对异常文本的处理只会影响该时间戳下的本条发言,时效性可以做到秒级以内。因此可以有效利用数据的时效性,且仅对当前文本进行处理,降低了误伤率。
在一些实施方式中,对于发言当时的实体信息曾经在各个场景出现异常的概率,可以在离线状态下对每个实体在对应的场景下的异常概率做好全量的计算或预测,然后将其写入至与每个实体对应的标签表中。在计算发言的文本整体风险时可以结合该标签表以及发言时的附加信息,如发言文本,两者结合计算联合概率。
可以用相同的技术架构计算长文本的文本整体风险。可以将长文本的文本整体风险的计算方法应用于不同游戏、甚至不同场景的风险判定(如个人邮件、私聊、公告、昵称、联盟日程等),以识别异常长文本。
现在参考图3,所示为根据本申请的一个实施例的电子设备300的框图。电子设备300可以包括一个或多个处理器302,与处理器302中的至少一个连接的系统主板308,与系统主板308连接的系统内存304,与系统主板308连接的非易失性存储器(NVM)306,以及与系统主板308连接的网络接口310。
处理器302可以包括一个或多个单核或多核处理器。处理器302可以包括通用处理器和专用处理器(例如,图形处理器,应用处理器,基带处理器等)的任何组合。在本文的实施例中,处理器302可以被配置为执行根据如图2所示的各种实施例的一个或多个实施例。
在一些实施例中,系统主板308可以包括任意合适的接口控制器,以向处理器302中的至少一个和/或与系统主板308通信的任意合适的设备或组件提供任意合适的接口。
在一些实施例中,系统主板308可以包括一个或多个存储器控制器,以提供连接到系统内存304的接口。系统内存304可以用于加载以及存储数据和/或指令。在一些实施例中设备300的内存304可以包括任意合适的易失性存储器,例如合适的动态随机存取存储器(DRAM)。
NVM/存储器306可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性的计算机可读介质。在一些实施例中,NVM/存储器306可以包括闪存等任意合适的非易失性存储器和/或任意合适的非易失性存储设备,例如HDD(Hard Disk Drive,硬盘驱动器),CD(Compact Disc,光盘)驱动器,DVD(Digital Versatile Disc,数字通用光盘)驱动器中的至少一个。
NVM/存储器306可以包括安装在设备300的装置上的一部分存储资源,或者它可以由设备访问,但不一定是设备的一部分。例如,可以经由网络接口310通过网络访问NVM/存储306。
特别地,系统内存304和NVM/存储器306可以分别包括:指令320的暂时副本和永久副本。指令320可以包括:由处理器302中的至少一个执行时导致设备300实施如图2所示的方法的指令。在一些实施例中,指令320、硬件、固件和/或其软件组件可另外地/替代地置于系统主板308,网络接口310和/或处理器302中。
网络接口310可以包括收发器,用于为设备300提供无线电接口,进而通过一个或多个网络与任意其他合适的设备(如前端模块,天线等)进行通信。在一些实施例中,网络接口310可以集成于设备300的其他组件。例如,网络接口310可以集成于处理器302的,系统内存304,NVM/存储器306,和具有指令的固件设备(未示出)中的至少一种,当处理器302中的至少一个执行所述指令时,设备300实现图2所示的各种实施例的一个或多个实施例。
网络接口310可以进一步包括任意合适的硬件和/或固件,以提供多输入多输出无线电接口。例如,网络接口310可以是网络适配器,无线网络适配器,电话调制解调器和/或无线调制解调器。
在一个实施例中,处理器302中的至少一个可以与用于系统主板308的一个或多个控制器的逻辑封装在一起,以形成系统封装(SiP)。在一个实施例中,处理器302中的至少一个可以与用于系统主板308的一个或多个控制器的逻辑集成在同一管芯上,以形成片上系统(SoC)。
设备300可以进一步包括:输入/输出(I/O)设备312。I/O设备312可以包括用户界面,使得用户能够与设备300进行交互;外围组件接口的设计使得外围组件也能够与设备300交互。
在一些实施例中,用户界面可包括但不限于显示器(例如,液晶显示器,触摸屏显示器等),扬声器,麦克风,一个或多个相机(例如,静止图像照相机和/或摄像机),手电筒(例如,发光二极管闪光灯)和键盘。
在一些实施例中,外围组件接口可以包括但不限于非易失性存储器端口、音频插孔和电源接口。
本申请的各方法实施方式均可以以软件、磁件、固件等方式实现。
可将程序代码应用于输入指令,以执行本文描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,包括处理器302的用于处理指令的系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。
程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理系统通信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本文中描述的机制不限于任何特定编程语言的范围。在任一情形下,该语言可以是编译语言或解释语言。
至少一个实施例的一个或多个方面可以由存储在计算机可读存储介质上的表示性指令来实现,指令表示处理器中的各种逻辑,指令在被机器读取时使得该机器制作用于执行本文所述的技术的逻辑。被称为“IP核”的这些表示可以被存储在有形的计算机可读存储介质上,并被提供给多个客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。
参考图4,图4为本申请一个实施例中的文本整体风险识别系统的模块示意图。所述系统400包括:
获取模块410,用于获取待识别文本以及发表所述待识别文本的用户的行为数据;所述行为数据包括实体信息和场景信息;
第一确定模块420,用于根据所述实体信息和所述场景信息确定每个实体在对应的场景下对所述文本整体风险的贡献程度;
第二确定模块430,用于根据所述实体信息和所述场景信息确定所述每个实体在对应的所述场景下的异常概率;
第三确定模块440,用于确定所述待识别文本的异常概率;
第四确定模块450,用于确定所述每个(实体,场景)对的识别概率的权重和所述发言文本的识别概率的权重;
第五确定模块460,用于根据所述每个实体在对应的所述场景下的异常概率、所述每个实体在所述文本整体风险中的权重、所述待识别文本的异常概率、和所述待识别文本在所述文本整体风险中的权重来确定所述文本整体风险。
本申请图4中的文本整体风险识别系统400,综合了用户的行为数据和待识别文本两个部分各自的风险程度得出文本异常的联合概率,将仅对异常文本消息过滤拓展到包括玩家游戏行为和具体文本内容的多种特征。不仅考虑了文本本身的异常概率,可以识别变体词;还考虑了用户的行为数据,可以识别个性化特征的游戏黑话以及异常玩家的看似正常的危险发言。综合计算某条发言的联合概率可以提高恶意文本的识别概率,提高玩家的留存率。
在一些实施方式中,文本整体风险识别系统400还包括处理模块,用于基于所述文本整体风险对所述待识别文本执行后续处理措施。
本发明还提供一种计算机可读介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述一个或多个实施例中的文本整体风险识别方法。
本申请的一个实施例公开了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述一个或多个实施例中的文本整体风险识别方法。
虽然通过参照本发明的某些优选实施例,已经对本发明进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
Claims (11)
1.一种文本整体风险识别方法,其特征在于,所述方法包括:
获取待识别文本以及发表所述待识别文本的用户的行为数据;所述行为数据包括实体信息和场景信息;
根据所述实体信息和所述场景信息确定每个实体在对应的场景下对所述文本整体风险的贡献程度;
根据所述实体信息和所述场景信息确定所述每个实体在对应的所述场景下的异常概率;
基于所述贡献程度、所述每个实体在对应的所述场景下的异常概率和所述每个实体在所述文本整体风险中的权重确定所述行为数据的风险程度;
确定所述待识别文本的异常概率;
基于所述待识别文本的异常概率和所述待识别文本在所述文本整体风险中的权重确定所述待识别文本的风险程度;
基于所述行为数据的风险程度和所述待识别文本的风险程度确定所述文本整体风险。
2.根据权利要求1所述的方法,其特征在于,通过示性函数确定所述每个实体在对应的场景下对所述文本整体风险的贡献程度。
3.根据权利要求2所述的方法,其特征在于,所述方法包括根据所述每个实体和不同场景的关联性确定所述每个实体在对应的所述场景下的异常概率。
4.根据权利要求3所述的方法,其特征在于,所述文本整体风险P(X)为,
其中,
X为待识别的文本的样本,(Ei,Sj),i∈{1,...,n},j∈{1,...,m}是所述每个实体在对应的所述场景,即(实体,场景)对,为(实体,场景)对下的特征集合,/>为实体i在场景j下的异常概率,fi为实体i在不同场景下的关联异常概率,Ii,j(Ei,Sj)为实体i在场景j下对所述文本整体风险的贡献程度,ωi所述每个实体i在所述文本整体风险中的权重,Xt为待识别的文本的文本特征,P(Xt)为所述待识别文本的异常概率,ωt为所述待识别文本在所述文本整体风险中的权重。
5.根据权利要求1所述的方法,其特征在于,所述每个实体在所述文本整体风险中的权重和所述待识别文本在所述文本整体风险中的权重是通过所有用户的正负样本得出。
6.根据权利要求1所述的方法,其特征在于,基于所述文本整体风险对所述待识别文本执行后续处理措施。
7.一种文本整体风险识别系统,所述系统包括:
获取模块,用于获取待识别文本以及发表所述待识别文本的用户的行为数据;所述行为数据包括实体信息和场景信息;
第一确定模块,用于根据所述实体信息和所述场景信息确定每个实体在对应的场景下对所述文本整体风险的贡献程度;
第二确定模块,用于根据所述实体信息和所述场景信息确定所述每个实体在对应的所述场景下的异常概率;
第三确定模块,用于确定所述待识别文本的异常概率;
第四确定模块,用于确定所述每个(实体,场景)对的识别概率的权重和所述发言文本的识别概率的权重;
第五确定模块,用于根据所述每个实体在对应的所述场景下的异常概率、所述每个实体在所述文本整体风险中的权重、所述待识别文本的异常概率、和所述待识别文本在所述文本整体风险中的权重来确定所述文本整体风险。
8.根据权利要求7所述的系统,其特征在于,所述系统还包括处理模块,用于基于所述文本整体风险对所述待识别文本执行后续处理措施。
9.一种电子设备,其特征在于,所述设备包括存储有计算机可执行指令的存储器和处理器;当所述指令被所述处理器执行时,使得所述设备实施根据权利要求1至6中任一项所述的文本整体风险识别方法。
10.一种计算机可读介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1至6中任一项所述的文本整体风险识别方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的文本整体风险识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210149439.5A CN116662923A (zh) | 2022-02-18 | 2022-02-18 | 文本整体风险识别方法、系统、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210149439.5A CN116662923A (zh) | 2022-02-18 | 2022-02-18 | 文本整体风险识别方法、系统、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116662923A true CN116662923A (zh) | 2023-08-29 |
Family
ID=87722906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210149439.5A Pending CN116662923A (zh) | 2022-02-18 | 2022-02-18 | 文本整体风险识别方法、系统、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116662923A (zh) |
-
2022
- 2022-02-18 CN CN202210149439.5A patent/CN116662923A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11235248B1 (en) | Online behavior using predictive analytics | |
CN103189114B (zh) | 在线环境中的情境聊天消息生成方法和系统 | |
CN109344906B (zh) | 基于机器学习的用户风险分类方法、装置、介质及设备 | |
WO2017202006A1 (zh) | 数据处理方法和装置、计算机存储介质 | |
CN107301213A (zh) | 智能问答方法及装置 | |
CN110992169A (zh) | 一种风险评估方法、装置、服务器及存储介质 | |
CN103190124A (zh) | 基于行为和运用的情境聊天 | |
CN108961032A (zh) | 借贷处理方法、装置以及服务器 | |
US10380261B2 (en) | Conversational language and informational response systems and methods | |
US20220284884A1 (en) | Offensive chat filtering using machine learning models | |
KR20180063912A (ko) | 온라인 게임 서비스의 운영 결과를 예측하는 방법 및 그 장치 | |
CN112370793B (zh) | 用户账号的风险控制方法及装置 | |
CN109582700A (zh) | 一种语音房间用户匹配方法、装置及设备 | |
CN106943747A (zh) | 虚拟角色名称推荐方法、装置、电子设备和存储介质 | |
CN110732139A (zh) | 检测模型的训练方法和用户数据的检测方法、装置 | |
US20190321730A1 (en) | Cognitive personalized game experience based on player personality | |
CN115174250B (zh) | 网络资产安全评估方法、装置、电子设备及存储介质 | |
JP6856503B2 (ja) | 印象推定モデル学習装置、印象推定装置、印象推定モデル学習方法、印象推定方法、およびプログラム | |
CN113763928A (zh) | 音频类别预测方法、装置、存储介质及电子设备 | |
WO2021011901A1 (en) | Systems and methods for video streaming analysis | |
CN116662923A (zh) | 文本整体风险识别方法、系统、电子设备及介质 | |
CN110717817A (zh) | 贷前审核方法及装置、电子设备和计算机可读存储介质 | |
US20220067545A1 (en) | Automated taxonomy classification system | |
CN116488850A (zh) | 真实性验证方法和装置 | |
CN118051782B (zh) | 一种模型训练的方法、业务处理的方法以及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |