CN112691379B - 游戏资源文本审核方法及装置、存储介质、计算机设备 - Google Patents

游戏资源文本审核方法及装置、存储介质、计算机设备 Download PDF

Info

Publication number
CN112691379B
CN112691379B CN202011641730.1A CN202011641730A CN112691379B CN 112691379 B CN112691379 B CN 112691379B CN 202011641730 A CN202011641730 A CN 202011641730A CN 112691379 B CN112691379 B CN 112691379B
Authority
CN
China
Prior art keywords
audited
game resource
question
text
auditing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011641730.1A
Other languages
English (en)
Other versions
CN112691379A (zh
Inventor
乔婷婷
卢必成
郭钊羽
刘炎
杨墨怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Perfect World Beijing Software Technology Development Co Ltd
Original Assignee
Perfect World Beijing Software Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Perfect World Beijing Software Technology Development Co Ltd filed Critical Perfect World Beijing Software Technology Development Co Ltd
Priority to CN202011641730.1A priority Critical patent/CN112691379B/zh
Publication of CN112691379A publication Critical patent/CN112691379A/zh
Application granted granted Critical
Publication of CN112691379B publication Critical patent/CN112691379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Abstract

本申请公开了一种游戏资源文本审核方法及装置、存储介质、计算机设备,该方法包括:获取待审核游戏资源文本数据及其对应作品的发布信息;依据所述发布信息,确定与所述待审核游戏资源文本数据对应的第一目标问题词库以及对应的基础审核标准;依据所述基础审核标准以及所述第一目标问题词库,对所述待审核游戏资源文本数据进行审核。本申请有助于提高游戏发布成功率,提高游戏质量。

Description

游戏资源文本审核方法及装置、存储介质、计算机设备
技术领域
本申请涉及计算机技术领域,尤其是涉及到一种游戏资源文本审核方法及装置、存储介质、计算机设备。
背景技术
在国内外游戏领域中,游戏内容主要通过图像和文字等方面内容进行展示,其中文字能够表现丰富、精准的内容,其质量尤为重要。随着游戏的普及,越来越多各个年龄段的人群都成为了游戏玩家,一些游戏开发商采用色情、低俗的文字博人眼球,这对青少年乃至成年都造成了不良影响,目前游戏上线需要通过有关部门的审核,以保证游戏质量。
现有技术中,例如在游戏开发商自我审核的应用场景下,对于游戏内文本内容的审核方式通常采用人工审核,审核效率低、准确性差。
发明内容
有鉴于此,本申请提供了一种游戏资源文本审核方法及装置、存储介质、计算机设备。
根据本申请的一个方面,提供了一种游戏资源文本审核方法,所述方法包括:获取待审核游戏资源文本数据及其对应作品的发布信息;依据所述发布信息,确定与所述待审核游戏资源文本数据对应的第一目标问题词库以及对应的基础审核标准;依据所述基础审核标准以及所述第一目标问题词库,对所述待审核游戏资源文本数据进行审核。
可选地,所述发布信息包括发布类型、发行地以及受众人群属性,所述依据所述发布信息,确定与所述待审核游戏资源文本数据对应的第一目标问题词库以及对应的基础审核标准,具体包括:依据所述发布类型,确定第一问题词库列表,其中,所述第一问题词库列表包括问题词库及其对应的基础审核标准;依据所述发行地,在所述第一问题词库列表中筛选出第二问题词库列表;依据所述受众人群属性,在所述第二问题词库列表中选定所述第一目标问题词库,并获取对应的基础审核标准。
可选地,所述待审核游戏资源文本数据包括待审核游戏资源文本以及对应的文本属性信息;所述依据所述发布信息,确定与所述待审核游戏资源文本数据对应的第一目标问题词库以及对应的基础审核标准之后,所述方法还包括:在所述待审核游戏资源文本中获取多个待审核游戏资源文本片段,以及获取每个待审核游戏资源文本片段对应的展示属性信息,并按各展示属性信息对应的预设权重调整所述待审核游戏资源文本片段对应的基础审核标准,其中,所述待审核游戏资源文本包括所述多个待审核游戏资源文本片段,所述文本属性信息包括所述展示属性信息,所述展示属性信息包括所述待审核游戏资源文本片段对应的展示位置和/或展示粒度;或者,依据所述待审核游戏资源文本中每个语句的长度,将所述待审核游戏资源文本划分为多个待审核游戏资源文本片段,并依据所述待审核游戏资源文本片段的语句长度调整对应的基础审核标准,其中,所述文本属性信息包括游戏资源文本中语句的长度;相应地,所述依据所述基础审核标准以及所述第一目标问题词库,对所述待审核游戏资源文本数据进行审核,具体包括:依据调整后的基础审核标准以及所述第一目标问题词库,对所述待审核游戏资源文本数据进行审核。
可选地,所述依据所述基础审核标准以及所述第一目标问题词库,对所述待审核游戏资源文本数据进行审核之前,所述方法还包括:依据所述第一目标问题词库对应的词库属性信息,确定与所述第一目标词库对应的审核方式,其中,所述词库属性信息为精准匹配属性时,对应的所述审核方式为精准匹配,所述词库属性信息为模糊匹配属性时,对应的所述审核方式为模糊匹配;相应地,所述依据所述基础审核标准以及所述第一目标问题词库,对所述待审核游戏资源文本数据进行审核,具体包括:依据所述基础审核标准以及所述第一目标问题词库,通过对应的审核方式对所述待审核游戏资源文本数据进行审核。
可选地,所述待审核游戏资源文本数据包括待审核游戏资源文本以及对应的文本属性信息;所述依据所述基础审核标准以及所述第一目标问题词库,对所述待审核游戏资源文本数据进行审核之前,所述方法还包括:在所述待审核游戏资源文本中获取多个待审核游戏资源文本片段,以及获取每个待审核游戏资源文本片段对应的展示属性信息,并依据所述展示属性确定对应待审核游戏资源文本片段的审核方式,其中,所述待审核游戏资源文本包括所述多个待审核游戏资源文本片段,所述文本属性信息包括所述展示属性信息,所述展示属性信息包括所述待审核游戏资源文本片段对应的展示位置和/或展示粒度;或者,依据所述待审核游戏资源文本中每个语句的长度,将所述待审核游戏资源文本划分为多个待审核游戏资源文本片段,并依据所述待审核游戏资源文本片段的语句长度确定对应的审核方式,其中,所述文本属性信息包括游戏资源文本中语句的长度;相应地,所述依据所述基础审核标准以及所述第一目标问题词库,对所述待审核游戏资源文本数据进行审核,具体包括:依据所述基础审核标准以及所述第一目标问题词库,通过对应的审核方式对所述待审核游戏资源文本数据进行审核。
可选地,所述对所述待审核游戏资源文本数据进行审核,具体包括:依据各待审核游戏资源文本片段对应的文本属性信息,确定对所述待审核游戏资源文本片段的第一审核顺序,并依次查询所述待审核游戏资源文本片段中与所述第一目标问题词库中的问题词之间的匹配度大于相应审核标准的第一阈值的游戏资源文本问题词;或者,依据各第一目标问题词库对应的词库属性信息,确定所述第一目标问题词库的第二审核顺序,并依次查询所述待审核游戏资源文本片段中与所述第一目标问题词库中的问题词之间的匹配度大于相应审核标准的第二阈值的游戏资源文本问题词;或者,依据各待审核游戏资源文本片段对应的审核标准,确定对所述待审核游戏资源文本片段的第三审核顺序,并依次查询所述待审核游戏资源文本片段中与所述第一目标问题词库中的问题词之间的匹配度大于相应审核标准的第三阈值的游戏资源文本问题词。
可选地,所述对所述待审核游戏资源文本数据进行审核之后,所述方法还包括:获取所述游戏资源文本问题词中与所述第一目标问题词库中的问题词不一致的增量问题词;在所述增量问题词出现次数大于预设第一增量阈值和/或所述增量问题词出现频率大于预设第二增量阈值和/或所述增量问题词被确认添加时,将所述增量问题词加入与对应的游戏资源文本问题词匹配的第一目标问题词库中。
可选地,所述对所述待审核游戏资源文本数据进行审核之后,所述方法还包括:若未查询到所述游戏资源文本问题词,则获取所述待审核游戏资源文本中出现次数大于预设次数阈值的高频词和/或随机获取所述待审核游戏资源文本中出现的随机词;在备选问题词库中查询与所述高频词和/或所述随机词之间的匹配度大于预设词库匹配阈值的第二目标问题词库,其中,所述备选问题词库为全部的问题词库中除所述第一目标问题词库外的词库;查询所述待审核游戏资源文本片段中与所述第二目标问题词库中的问题词之间的匹配度大于预设问题词匹配度阈值的游戏资源文本问题词。
可选地,所述对所述待审核游戏资源文本数据进行审核之后,所述方法还包括:根据所述游戏资源文本问题词,生成所述待审核游戏资源文本数据对应的审核报告,其中,所述审核报告包括所述游戏资源文本问题词、所述游戏资源文本问题词所在的语句、所述游戏资源文本问题词的出现次数、所述游戏资源文本问题词对应的问题词库类型、所述游戏资源文本问题词对应的替换词、以及按所述替换词对相应的所述游戏资源文本问题词替换后的所述游戏资源文本问题词所在的语句。
可选地,所述获取待审核游戏资源文本数据及其对应作品的发布信息之前,所述方法还包括:获取初始问题词,并基于所述初始问题词的类型标注或者依据预设问题词分类方法确定所述初始问题词的词库类型;确定所述初始问题词对应的同音词、形近词、繁简体转换词,以及按预设变形方式对所述初始问题词进行变形得到变形词;基于所述初始问题词的词库类型以及所述同音词、所述形近词、所述繁简体转换词和所述变形词,建立相应词库类型的问题词库,其中,所述问题词库包括所述第一目标问题词库。
可选地,所述初始问题词包括第一问题词和/或第二问题词;所述获取初始问题词,具体包括:获取问题词导入文件对应的所述第一问题词;和/或,利用预设爬虫程序在监控到预设网址有内容更新时或者定时的获取所述预设网址中的游戏资源文本数据,依据预设问题词识别模型识别所述游戏资源文本数据中的第二问题词,并对所述第二问题词对应的词库类型进行标注,其中,所述第二问题词的词库类型与所述预设网站的网站类型相匹配。
根据本申请的另一方面,提供了一种游戏资源文本审核装置,所述装置包括:文本获取单元,用于获取待审核游戏资源文本数据及其对应作品的发布信息;标准确定单元,用于依据所述发布信息,确定与所述待审核游戏资源文本数据对应的第一目标问题词库以及对应的基础审核标准;审核单元,用于依据所述基础审核标准以及所述第一目标问题词库,对所述待审核游戏资源文本数据进行审核。
依据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述游戏资源文本审核方法。
依据本申请再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述游戏资源文本审核方法。
借由上述技术方案,本申请提供的一种游戏资源文本审核方法及装置、存储介质、计算机设备,确定待审核游戏资源文本数据以及对应的发布信息后,按发布信息确定与待审核游戏资源文本数据对应的第一目标问题词库以及基础审核标准,从而利用基础审核标准以及第一目标问题词库实现对待审核游戏资源文本数据的审核。本申请实施例可以实现针对待审核文本数据的发布信息确定特定的第一目标问题词库以及文本应满足的基础审核标准,并依据相应审核标准对待审核文本进行审核,以确保能够通过审核的文本中不包含与目标问题词库中相同、相似或相近的问题词,有助于提高待审核文本的发布成功率,保证文本质量。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种游戏资源文本审核方法的流程示意图;
图2示出了本申请实施例提供的一种游戏资源文本审核装置的结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本实施例中提供了一种游戏资源文本审核方法,如图1所示,该方法包括:
步骤101,获取待审核游戏资源文本数据及其对应作品的发布信息;
步骤102,依据所述发布信息,确定与所述待审核游戏资源文本数据对应的第一目标问题词库以及对应的基础审核标准;
步骤103,依据所述基础审核标准以及所述第一目标问题词库,对所述待审核游戏资源文本数据进行审核。
本申请实施例可以应用于审核系统、发布系统、评价系统中,审核系统、发布系统、评价系统搭载于实体计算机设备中,具体地,可以是应用于游戏审核场景的审核系统、发布系统、评价系统,实现对未发布的游戏的审核、以及对通过审核的游戏进行公开发布、以及对游戏的评价,或者实现对已发布游戏的审核、评价,也可以是应用于其他审核场景的审核系统、发布系统、评价系统,例如实现对广告文本、宣传文本、小说、新闻等内容的审核、审核后的发布、以及进行内容评价。以应用于游戏领域的审核系统、发布系统为例,在实际应用场景中,在游戏发布上线之前,需要对游戏进行至少一个维度的审核,确保游戏中各维度的内容符合相关规定,游戏才能够被允许公开发布。例如审核系统、发布系统可以包括上述的对游戏中的二维图片、三维模型、gif动图、模型动画等内容进行审核的素材审核模块;又例如审核系统、发布系统还可以包括对游戏中的游戏名称、游戏标题、任务名称、任务概述等文字有关内容进行审核的文本审核模块;又例如审核系统、发布系统还可以对游戏中的地图有关内容进行审核的地图审核模块,当然还可以对游戏中其他方面内容进行审核,在此不再举例。本申请实施例以应用于游戏场景中的审核方法进行解释说明,本领域技术人员应当理解,应用于其他场景中的方法也属于本申请的保护范围内。
在本申请实施例中,待审核游戏资源文本数据(以下简称为待审核文本数据)中至少包含待审核文本,针对于在不同地区的、面对不同受众人群的、不同类型的计划发布的游戏,可以对应于不同的审核侧重点(例如侧重审核暴力内容、政治内容就选择与暴力、政治相关的词库进行审核)、审核标准,具体可以结合待审核文本数据对应的发行地、发布类型、游戏受众等因素即发布信息确定第一目标问题词库、基础审核标准,例如一些游戏提供游客身份登录体验游戏,以游客身份登录的玩家可能是未成年人,该种游戏相对于需要填写成年人的身份证号注册游戏账号才能体验的游戏来说,游戏中对于暴力、色情等内容的识别和审核可以更严格一些,例如对于射击类游戏,可以侧重选择类型涉及暴力、恐怖等的词库进行审核,对于卡牌类游戏,可以侧重选择类型涉及色情、政治等的词库进行审核。基础审核标准具体可以为问题词匹配阈值范围,待审核文本数据对应于多个第一目标问题词库时,可以针对不同的第一目标问题词库设定不同的基础审核标准,例如对于某待审核文本数据,对政治违规文本的审核比对暴力违规文本的审核更严格,具体涉及暴力类型词库对应的问题词匹配阈值范围可以为75%~80%,大于该范围最小值时可以认为文本违规,另外还可以结合时间情况在该范围内选定一个具体的审核阈值,涉及政治类型词库对应的问题词匹配阈值可以为70%~75%。进一步,根据待审核文本数据与第一目标问题词库包含的问题词之间的匹配情况,以审核标准为依据判断待审核文本中是否包含与问题词相关的违规用词,例如待审核文本中包含与问题词匹配度大于90%的词语,可以认为该用词违规。
为结合待审核文本的使用场景实现对待审核文本更精准的审核,在本申请实施例中,可选地,步骤102具体可以包括:依据所述发布类型,确定第一问题词库列表,其中,所述第一问题词库列表包括问题词库及其对应的基础审核标准;依据所述发行地,在所述第一问题词库列表中筛选出第二问题词库列表;依据所述受众人群属性,在所述第二问题词库列表中选定所述第一目标问题词库,并获取对应的基础审核标准,其中,所述发布信息包括发布类型、发行地以及受众人群属性。
在本申请实施例中关于获取第一目标问题词库,可以预先建立存储有游戏发布信息与审核所需词库之间映射关系的审核规则库,从而在该审核规则库中查询与发布信息对应的第一目标问题词库,其中,发布信息不限于游戏类型、游戏发行地、游戏受众人群等信息中的至少一项,具体可以依据游戏审核部门发布的审核规定、行业内通用的审核规定、或基于大数据分析确定的审核依据等来确定该映射关系。例如,对于在A地区发布的游戏主要对涉及政治、宗教的违规文本进行审核,基于映射关系选择政治、宗教相关的词库作为第一目标问题词库。
除获取文本审核规则(文本审核规则具体指上述步骤102中依据发布信息确定目标问题词库的规则)对文本进行审核之外,本申请还可以获取图像素材审核规则、地图审核规则等,同样的,对于不同发布信息的游戏,其对应的图像素材审核规则、地图审核规则也可以是不同的,相关审核规则也可以预先存储在上述的映射关系中,当存在待审核游戏时,可以通过对待审核游戏的解析或者根据技术人员导入的与待审核游戏有关的待审核内容,获取待审核图像素材、待审核文本、待审核地图等信息,从而基于待审核游戏的发布信息获取相应的预设素材审核规则、预设文本审核规则、预设地图审核规则等。也即游戏发布信息与审核规则之间的映射关系中,至少可以包括不同的游戏类型、游戏发行地、游戏受众人群对应的素材审核规则、文本审核规则、地图审核规则,还可以包括素材审核规则、文本审核规则、地图审核规则各自对应的审核项目、审核标准、审核顺序。以使得审核规则可以适应于不同审核需求的待审核素材,提高审核结果的准确性,也使得本申请实施例提供的模型审核方法适用于更多种类的审核场景,提高方法的适用性,审核系统、发布系统的普适性。
通过应用本实施例的技术方案,确定待审核游戏资源文本数据以及对应的发布信息后,按发布信息确定与待审核游戏资源文本数据对应的第一目标问题词库以及基础审核标准,从而利用基础审核标准以及第一目标问题词库实现对待审核游戏资源文本数据的审核。本申请实施例可以实现针对待审核文本数据的发布信息确定特定的第一目标问题词库以及文本应满足的基础审核标准,并依据相应审核标准对待审核文本进行审核,以确保能够通过审核的文本中不包含与目标问题词库中相同、相似或相近的问题词,有助于提高待审核文本的发布成功率,保证文本质量。
在具体应用场景中,为使审核标准更适应于待审核文本的违规判断,可以对基础审核标准进行调整,例如根据待审核文本数据对应的文本属性信息对基础审核标准进行调整。待审核文本可以包含已经依据展示属性信息划分好的多个待审核文本片段,待审核文本也可以事先未做划分。在待审核文本包含多个待审核文本片段的情况下,可选地,步骤102之后可以包括:在所述待审核游戏资源文本中获取多个待审核游戏资源文本片段,以及获取每个待审核游戏资源文本片段对应的展示属性信息,并按各展示属性信息对应的预设权重调整所述待审核游戏资源文本片段对应的基础审核标准,其中,所述待审核游戏资源文本包括所述多个待审核游戏资源文本片段,所述文本属性信息包括所述展示属性信息,所述展示属性信息包括所述待审核游戏资源文本片段对应的展示位置和/或展示粒度。
在该实施例中,文本属性信息具体可以包含待审核文本的展示位置、展示粒度,展示位置可以包括游戏标题,任务名称,任务概述,道具名称,道具介绍,功能名称,功能介绍,剧情对话,提示文本,其他文本等,不同的展示位置对应的审核标准可以是不同的,例如游戏标题在比较明显的位置展示应对其进行更严格的审核,而剧情对话相对来说审核标准可以较为宽松,展示粒度可以包括文本在游戏中的显示字号大小、清晰度高低,字号越大、清晰度越高的文本对应的审核标准可以更严格。具体来说,可以预先对各展示位置、展示粒度设定相应的审核权重,通过审核权重来反应待审核文本的重要程度,例如游戏标题对应的审核权重高于剧情对话对应的审核权重,而后根据各待审核文本片段对应的展示位置审核权重、展示粒度审核权重来确定待审核文本片段的预设权重,权重越高的待审核文本片段对应的审核标准越严格(具体可以反应为权重越高的待审核文本片段对应的问题词匹配阈值越小),对应的预设权重越大的待审核文本应选择在相应的阈值范围里选择更小值,例如待审核文本的基础审核标准对应的问题词匹配阈值范围为70%~75%,该待审核文本的预设权重很大,可以将审核标准调整至70%。
而在待审核文本未做文本片段划分的情况下,还可以先对待审核文本进行片段划分,再确定各片段的审核标准,以便实现精准审核,可选地,步骤102之后可以包括:依据所述待审核游戏资源文本中每个语句的长度,将所述待审核游戏资源文本划分为多个待审核游戏资源文本片段,并依据所述待审核游戏资源文本片段的语句长度调整对应的基础审核标准,其中,所述文本属性信息包括游戏资源文本中语句的长度。
在该实施例中,通常来说在游戏标题、道具名称等更重要的位置展示的文本语句长度较短,在剧情对话等重要程度略低的位置展示的文本语句较长,因此在未对待审核文本按展示属性信息划分的情况下,可以基于待审核文本的语句长度对待审核文本进行片段划分,将长度相同或相近的语句划分在一个待审核文本片段中,并依据每个片段的语句长度确定相应的审核标准,一般来说,语句长度越短,审核标准越严格。
另外,本申请实施例还可以按问题词库的类型,在审核阶段选择合适的审核方式,以提高审核效率。可选地,在步骤103之前还可以包括:依据所述第一目标问题词库对应的词库属性信息,确定与所述第一目标词库对应的审核方式,其中,所述词库属性信息为精准匹配属性时,对应的所述审核方式为精准匹配,所述词库属性信息为模糊匹配属性时,对应的所述审核方式为模糊匹配。
在该实施例中,词库属性信息用于表示问题词库中包含的问题词是否为精准描述的词语,词库属性信息包括精准匹配属性以及模糊匹配属性,若问题词库为精准匹配属性,则只有在待审核文本中包含与该词库的问题词完全一致的词语,才认为待审核文本可能违规,因此该类词库对应的审核方式为精准匹配,而若问题词库为模糊匹配属性,则只要待审核文本中包含与该词库的问题词相似的词语时,就认为待审核文本可能违规,因此该类词库对应的审核方式为模糊匹配。本申请中,精准匹配属性的词库中包含的问题词可以是具有人格侮辱、粗俗、不雅等意思表达的词语,但这类词语如果采用模糊匹配可能会造成一些具有相似意义的词语被误识别,影响审核效果,可以通过对词库属性分类实现问题词的精准匹配。精准匹配属性的词库中包含的问题词还可以是一些常见的、关键的问题词,在进行文本审核的过程中可以优先利用精准匹配属性的词库,由于在待审核文本中查询是否存在某个问题词相比于计算与某个问题词之间的匹配度来说,前者计算量更小、计算速度更快,因此可以通过设置精准匹配属性的词库实现文本的快速审核。
另外,本申请实施例还可以根据待审核文本的文本属性信息来选择审核方式,以提高审核效率。可选地,在步骤103之前还可以包括:在所述待审核游戏资源文本中获取多个待审核游戏资源文本片段,以及获取每个待审核游戏资源文本片段对应的展示属性信息,并依据所述展示属性确定对应待审核游戏资源文本片段的审核方式,其中,所述待审核游戏资源文本包括所述多个待审核游戏资源文本片段,所述文本属性信息包括所述展示属性信息,所述展示属性信息包括所述待审核游戏资源文本片段对应的展示位置和/或展示粒度;或者,依据所述待审核游戏资源文本中每个语句的长度,将所述待审核游戏资源文本划分为多个待审核游戏资源文本片段,并依据所述待审核游戏资源文本片段的语句长度确定对应的审核方式,其中,所述文本属性信息包括游戏资源文本中语句的长度。
在该实施例中,文本属性信息具体可以包含待审核文本的展示位置、展示粒度,展示位置可以包括游戏标题,任务名称,任务概述,道具名称,道具介绍,功能名称,功能介绍,剧情对话,提示文本,其他文本等,不同的展示位置对应的审核方式可以是不同的,例如游戏标题在比较明显的位置展示应对其进行更严格的审核,可以采用模糊匹配的审核方式(具体模糊匹配的问题词匹配阈值可以按展示位置、展示粒度对应的审核权重来确定,也可以按相应词库对应的预设阈值来确定),而剧情对话相对来说审核标准可以较为宽松,可以采用精准匹配的审核方式,展示粒度可以包括文本在游戏中的显示字号大小、清晰度高低,字号越大、清晰度越高的文本对应的审核标准可以更严格,可以采用模糊匹配的审核方式。
可以理解的是,在本申请任一实施例中,若审核标准对应的问题词匹配阈值为100%,也可以在审核时选择精准匹配的审核方式,若审核标准对应的问题词匹配阈值不是100%,则自动选择模糊匹配的审核方式。其中,本申请中模糊匹配具体可以通过AC自动机实现,它结合了Trie树(前缀树、字典树,一种用于字符串快速检索的多叉树结构)和KMP算法的思想完成多模式字符串匹配,通过前缀树存储模式串(关键词)并使用一个fail指针来加速查找,构造一颗树形结构,通过这个树形结构可以快速对关键词进行匹配及查找。
本申请实施例中,在一些应用场景下,为了能够快速得出待审核文本是否能够通过审核的结论、优先确定重要文本片段是否能够通过审核,以提升审核效率,对待审核文本进行审核时,还可以设定审核顺序。可选地,步骤103具体可以包括:
步骤103-1,依据各待审核文本片段对应的文本属性信息,确定对所述待审核文本片段的第一审核顺序,并依次查询所述待审核文本片段中与所述第一目标问题词库中的问题词之间的匹配度大于相应审核标准的第一阈值的文本问题词;或者,
步骤103-2,依据各第一目标问题词库对应的词库属性信息,确定所述第一目标问题词库的第二审核顺序,并依次查询所述待审核文本片段中与所述第一目标问题词库中的问题词之间的匹配度大于相应审核标准的第二阈值的文本问题词;或者,
步骤103-3,依据各待审核文本片段对应的审核标准,确定对所述待审核文本片段的第三审核顺序,并依次查询所述待审核文本片段中与所述第一目标问题词库中的问题词之间的匹配度大于相应审核标准的第三阈值的文本问题词。
在步骤103-1中,针对待审核文本包含多个待审核文本片段、或划分出多个待审核文本片段的情况,依据文本属性的不同,可以依据重要文本优先审核的原则确定对各待审核文本片段的第一审核顺序,具体可以依据待审核文本片段对应的展示属性信息或者文本中语句的长度来对各待审核文本片段进行排序,例如按展示属性信息对应的审核权重对各待审核文本片段排序,权重越高的文本片段审核优先级越高、排序更靠前,以此方式实现优先审查重要文本片段的效果,优先判断重要文本片段是否合规。另外,在审核结束输出审核结论阶段,也可以依据该第一审核顺序依次输出各待审核文本片段的审核结论。确定第一审核顺序之后,逐个的对待审核文本片段与各第一目标问题词库中的问题词进行匹配,获取待审核文本片段中与问题词之间的匹配度大于相应审核标准规定的第一阈值(第一阈值是在基础审核标准对应的问题词匹配阈值中选择的,第二阈值、第三阈值同理)的文本问题词,例如待审核文本片段中包含的词语A与问题词库1中的词语B之间的匹配度为80%,该待审核文本片段与问题词库1对应的第一阈值为70%,那么可以认为词语A是违规的文本问题词。
在步骤103-2中,针对未确定出待审核文本对应的片段的情况,或者需要快速获得审核结论的情况,依据审核所需的各第一目标问题词库的词库属性的不同,可以依据先匹配具有精准匹配属性的词库、后匹配具有模糊匹配属性的词库的原则确定各第一目标问题词库对应的第二审核顺序。具体可以将第一目标问题词库中具有精准匹配属性的词库排在靠前位置,若具有多个此类词库可以不区分具体排序,也可以将包含问题词数量较少的词库排在更靠前的位置;将第一问题词库中具有模糊匹配属性的词库排在靠后位置,若具有多个此类词库可以不区分具体排序,也可以将包含问题词数量较少的词库排在相对靠前的位置,从而提升审核速度,实现对违规文本的快速识别。
在步骤103-3中,针对待审核文本包含多个待审核文本片段、或划分出多个待审核文本片段的情况,还可以依据各待审核文本片段对应的审核标准来确定各待审核文本片段对应的第三审核顺序。具体可以按各待审核文本片段的审核标准对应的判断阈值对各待审核文本进行排序,确定第三审核顺序,具体可以将对应审核标准比较严格的待审核文本片段排在靠前位置,从而按序审核,提升审核速度,实现对违规文本的快速识别。
本申请实施例中,在一些应用场景中,在待审核文本中查询出的文本问题词存在与问题词库中的问题词相近但不相同的情况,这部分问题词很可能存在违规风险但是还没有加入到问题词库中,对于这部分词语可以在满足一定条件的情况下,添加到词库中,以便下次审核时可以直接利用提高审核速率,扩充词库内词语。可选地,步骤103之后具体还可以包括:
步骤104,获取所述文本问题词中与所述第一目标问题词库中的问题词不一致的增量问题词;
步骤105,在所述增量问题词出现次数大于预设第一增量阈值和/或所述增量问题词出现频率大于预设第二增量阈值和/或所述增量问题词被确认添加时,将所述增量问题词加入与对应的文本问题词匹配的第一目标问题词库中。
在上述实施例中,审核标准对应的问题词匹配阈值不是100%或者审核方式为模糊匹配时,获取文本问题词中与问题词库中的问题词不同的增量问题词,并在增量问题词的出现次数、或出现频率较高时将这类增量问题词添加到对应的第一目标问题词库中,或者基于认为添加选择扩充问题词库。
在具体应用场景中,可能存在选择的第一目标问题词库不适合用于对待审核文本进行审核的情况,比如,待审核文本对应的游戏类型填写错误导致第一目标问题词库匹配错误。这种情况下,为了避免待审核文本中存在违规文本但因选用词库错误而没有识别出来,可选地,在步骤103之后还可以包括:
步骤106,若未查询到所述文本问题词,则获取所述待审核文本中出现次数大于预设次数阈值的高频词和/或随机获取所述待审核文本中出现的随机词;
步骤107,在备选问题词库中查询与所述高频词和/或所述随机词之间的匹配度大于预设词库匹配阈值的第二目标问题词库,其中,所述备选问题词库为全部的问题词库中除所述第一目标问题词库外的词库;
步骤108,查询所述待审核文本片段中与所述第二目标问题词库中的问题词之间的匹配度大于预设问题词匹配度阈值的文本问题词。
在上述实施例中,如果依据调整后的审核标准,未识别到待审核文本中包含与第一目标问题词库中问题词匹配的文本问题词,那么可以在待审核文本中获取一些高频词、随机词,在备选问题词库中查询是否包含与这些高频词、随机词匹配(匹配是指二者之间匹配度大于预设词库匹配阈值)的问题词。当包含时将匹配的问题词对应的问题词库挑选出来作为第二目标问题词库,并继续以第二目标问题词库以及第二目标问题词库对应的基础审核标准为依据,对待审核文本进行审核。而当不包含时说明待审核文本可以通过本次审核。
在本申请实施例中,还可以根据审核结果生成审核报告,以便工作人员对审核结果进行查看,快速了解待审核文本是否合规、存在哪些违规的文本问题词、哪里出现了违规等等。可选地,步骤103之后还可以包括:
步骤109,根据所述文本问题词,生成所述待审核文本数据对应的审核报告,其中,所述审核报告包括所述文本问题词、所述文本问题词所在的语句、所述文本问题词的出现次数、所述文本问题词对应的问题词库类型、所述文本问题词对应的替换词、以及按所述替换词对相应的所述文本问题词替换后的所述文本问题词所在的语句。
在上述实施例中,以审核报告的形式对审核结果进行展示,审核包括中可以包括文本问题词、每个文本问题词所在语句的完整内容、语句对应的展示位置、每个文本问题词的出现次数、与该文本问题词匹配的问题词所在的问题词库、该问题词库的类型(例如宗教类型、政治类型等)、建议将该文本问题词替换为的替换词、以及对该文本问题词进行替换后该语句的替换后内容。
另外,本申请实施例还提供了一种问题词库的建立方法,在执行本申请实施例的文本审核方法之前,通过执行该问题词库的建立方法实现问题词库的建立。可选地,问题词库的建立方法包括:
步骤201,获取初始问题词,并基于所述初始问题词的类型标注或者依据预设问题词分类方法确定所述初始问题词的词库类型;
步骤202,确定所述初始问题词对应的同音词、形近词、繁简体转换词,以及按预设变形方式对所述初始问题词进行变形得到变形词;
步骤203,基于所述初始问题词的词库类型以及所述同音词、所述形近词、所述繁简体转换词和所述变形词,建立相应词库类型的问题词库,其中,所述问题词库包括所述第一目标问题词库。
其中,步骤201中初始问题词包括技术人员通过经验确定的或其他技术手段获取的第一问题词,第一问题词通过导入文件进行导入,初始问题词还包括通过机器自动获取的第二问题词。具体地,步骤201可以包括:获取问题词导入文件对应的所述第一问题词;和/或,利用预设爬虫程序在监控到预设网址有内容更新时或者定时的获取所述预设网址中的文本数据,依据预设问题词识别模型识别所述文本数据中的第二问题词,并对所述第二问题词对应的词库类型进行标注,其中,所述第二问题词的词库类型与所述预设网站的网站类型相匹配。
在上述实施例中,对于初始问题词中的第二问题词,可以利用爬虫程序在特定的预设网站上进行文本数据爬取,并对爬取的文本数据进行识别的方式获取,例如对于游戏类的问题词库,可以利用网络爬虫程序定期在游戏审核相关政府部门的信息发布网站、游戏资讯网站将最新的政策及时政要闻抓取下来,按句进行切分,并存储。由于爬虫抓取下来的信息为自然语言,无法直接作为字库使用,可以将信息中的问题词信息提取出来。这里可以使用NER(命名实体识别)技术进行抽取,具体可以采用BiLSTM-CRF有监督模型进行命名实体识别操作,作为有监督的机器学习模型,需要先由人工标注若干数据,例如采用BIO的标注方式,为了更高的实体识别准确率,可以只使用一类“问题词”实体(FORBIDDEN,禁止的),最终的训练数据会有三个类别:B-FORBIDDEN、I-FORBIDDEN、O,(B-表示开始、I-表示内部、O表示外部)BiLSTM-CRF,训练完毕之后,使用模型对数据进行实体抽取,得到第二问题词。进而根据第二问题词对应的预设网站的网站类型、爬虫程序爬取的文章类型(可以基于文章标题确定),对第二问题词进行标注,例如第二问题词来源于某游戏论坛中一个标题为“卡牌游戏”的文章,可以将第二问题词标注上“游戏”“卡牌类”的标签。
进一步,由于互联网上会存在同音字替换、形近字替换、火星文等特殊字符输入,这些字符直接用初始问题词匹配可能无法查找出来,所以这里做了词库扩展,通过特殊字符处理、拼音匹配、繁简体转换、形近字匹配等方式进行词库的扩展,从而在拓展得到同音词、形近词、繁简体转换词以及变形词(例如火星文变形)的基础上,结合初始问题词及对应的词库类型,建立问题词库,以便利用问题词库进行文本审核。
进一步的,作为图1所示方法的具体实现,本申请实施例提供了一种游戏资源文本审核装置,具体结构如图2所示,该装置包括:
文本获取单元201,用于获取待审核游戏资源文本数据及其对应作品的发布信息;
标准确定单元202,用于依据所述发布信息,确定与所述待审核游戏资源文本数据对应的第一目标问题词库以及对应的基础审核标准;
审核单元203,用于依据所述基础审核标准以及所述第一目标问题词库,对所述待审核游戏资源文本数据进行审核。
可选地,所述发布信息包括发布类型、发行地以及受众人群属性,所述标准确定单元202,具体用于:
依据所述发布类型,确定第一问题词库列表,其中,所述第一问题词库列表包括问题词库及其对应的基础审核标准;
依据所述发行地,在所述第一问题词库列表中筛选出第二问题词库列表;
依据所述受众人群属性,在所述第二问题词库列表中选定所述第一目标问题词库,并获取对应的基础审核标准。
可选地,所述待审核游戏资源文本数据包括待审核游戏资源文本以及对应的文本属性信息;所述装置还包括:
第一调整单元,用于所述依据所述发布信息,确定与所述待审核游戏资源文本数据对应的第一目标问题词库以及对应的基础审核标准之后,在所述待审核游戏资源文本中获取多个待审核游戏资源文本片段,以及获取每个待审核游戏资源文本片段对应的展示属性信息,并按各展示属性信息对应的预设权重调整所述待审核游戏资源文本片段对应的基础审核标准,其中,所述待审核游戏资源文本包括所述多个待审核游戏资源文本片段,所述文本属性信息包括所述展示属性信息,所述展示属性信息包括所述待审核游戏资源文本片段对应的展示位置和/或展示粒度;或者,
第二调整单元,用于依据所述待审核游戏资源文本中每个语句的长度,将所述待审核游戏资源文本划分为多个待审核游戏资源文本片段,并依据所述待审核游戏资源文本片段的语句长度调整对应的基础审核标准,其中,所述文本属性信息包括游戏资源文本中语句的长度;
相应地,所述审核单元203,具体用于:依据调整后的基础审核标准以及所述第一目标问题词库,对所述待审核游戏资源文本数据进行审核。
可选地,所述装置还包括:
第一审核方式确定单元,用于所述依据所述基础审核标准以及所述第一目标问题词库,对所述待审核游戏资源文本数据进行审核之前,依据所述第一目标问题词库对应的词库属性信息,确定与所述第一目标词库对应的审核方式,其中,所述词库属性信息为精准匹配属性时,对应的所述审核方式为精准匹配,所述词库属性信息为模糊匹配属性时,对应的所述审核方式为模糊匹配;
相应地,所述审核单元203,具体用于:依据所述基础审核标准以及所述第一目标问题词库,通过对应的审核方式对所述待审核游戏资源文本数据进行审核。
可选地,所述待审核游戏资源文本数据包括待审核游戏资源文本以及对应的文本属性信息;所述装置还包括:
第二审核方式确定单元,用于所述依据所述基础审核标准以及所述第一目标问题词库,对所述待审核游戏资源文本数据进行审核之前,在所述待审核游戏资源文本中获取多个待审核游戏资源文本片段,以及获取每个待审核游戏资源文本片段对应的展示属性信息,并依据所述展示属性确定对应待审核游戏资源文本片段的审核方式,其中,所述待审核游戏资源文本包括所述多个待审核游戏资源文本片段,所述文本属性信息包括所述展示属性信息,所述展示属性信息包括所述待审核游戏资源文本片段对应的展示位置和/或展示粒度;或者,
第三审核方式确定单元,用于依据所述待审核游戏资源文本中每个语句的长度,将所述待审核游戏资源文本划分为多个待审核游戏资源文本片段,并依据所述待审核游戏资源文本片段的语句长度确定对应的审核方式,其中,所述文本属性信息包括游戏资源文本中语句的长度;
相应地,所审核单元203,具体用于依据所述基础审核标准以及所述第一目标问题词库,通过对应的审核方式对所述待审核游戏资源文本数据进行审核。
可选地,所述审核单元203,具体用于:
依据各待审核游戏资源文本片段对应的文本属性信息,确定对所述待审核游戏资源文本片段的第一审核顺序,并依次查询所述待审核游戏资源文本片段中与所述第一目标问题词库中的问题词之间的匹配度大于相应审核标准的第一阈值的游戏资源文本问题词;或者,
依据各第一目标问题词库对应的词库属性信息,确定所述第一目标问题词库的第二审核顺序,并依次查询所述待审核游戏资源文本片段中与所述第一目标问题词库中的问题词之间的匹配度大于相应审核标准的第二阈值的游戏资源文本问题词;或者,
依据各待审核游戏资源文本片段对应的审核标准,确定对所述待审核游戏资源文本片段的第三审核顺序,并依次查询所述待审核游戏资源文本片段中与所述第一目标问题词库中的问题词之间的匹配度大于相应审核标准的第三阈值的游戏资源文本问题词。
可选地,所述装置还包括:
增量词获取单元,用于所述对所述待审核游戏资源文本数据进行审核之后,获取所述游戏资源文本问题词中与所述第一目标问题词库中的问题词不一致的增量问题词;
增量单元,用于在所述增量问题词出现次数大于预设第一增量阈值和/或所述增量问题词出现频率大于预设第二增量阈值和/或所述增量问题词被确认添加时,将所述增量问题词加入与对应的游戏资源文本问题词匹配的第一目标问题词库中。
可选地,所述装置还包括:
词语获取单元,用于所述对所述待审核游戏资源文本数据进行审核之后,若未查询到所述游戏资源文本问题词,则获取所述待审核游戏资源文本中出现次数大于预设次数阈值的高频词和/或随机获取所述待审核游戏资源文本中出现的随机词;
词库选择单元,用于在备选问题词库中查询与所述高频词和/或所述随机词之间的匹配度大于预设词库匹配阈值的第二目标问题词库,其中,所述备选问题词库为全部的问题词库中除所述第一目标问题词库外的词库;
所述审核单元203,还用于查询所述待审核游戏资源文本片段中与所述第二目标问题词库中的问题词之间的匹配度大于预设问题词匹配度阈值的游戏资源文本问题词。
可选地,所述装置还包括:
报告生成单元,用于所述对所述待审核游戏资源文本数据进行审核之后,根据所述游戏资源文本问题词,生成所述待审核游戏资源文本数据对应的审核报告,其中,所述审核报告包括所述游戏资源文本问题词、所述游戏资源文本问题词所在的语句、所述游戏资源文本问题词的出现次数、所述游戏资源文本问题词对应的问题词库类型、所述游戏资源文本问题词对应的替换词、以及按所述替换词对相应的所述游戏资源文本问题词替换后的所述游戏资源文本问题词所在的语句。
可选地,所述装置还包括:
词库建立单元,用于所述获取待审核游戏资源文本数据及其对应作品的发布信息之前,获取初始问题词,并基于所述初始问题词的类型标注或者依据预设问题词分类装置确定所述初始问题词的词库类型;确定所述初始问题词对应的同音词、形近词、繁简体转换词,以及按预设变形方式对所述初始问题词进行变形得到变形词;基于所述初始问题词的词库类型以及所述同音词、所述形近词、所述繁简体转换词和所述变形词,建立相应词库类型的问题词库,其中,所述问题词库包括所述第一目标问题词库。
可选地,所述初始问题词包括第一问题词和/或第二问题词;所述词库建立单元,还用于:获取问题词导入文件对应的所述第一问题词;和/或,利用预设爬虫程序在监控到预设网址有内容更新时或者定时的获取所述预设网址中的游戏资源文本数据,依据预设问题词识别模型识别所述游戏资源文本数据中的第二问题词,并对所述第二问题词对应的词库类型进行标注,其中,所述第二问题词的词库类型与所述预设网站的网站类型相匹配。
需要说明的是,本申请实施例提供的一种游戏资源文本审核装置所涉及各功能单元的其他相应描述,可以参考图1方法中的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述如图1所示的游戏资源文本审核方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1所示的方法,以及如图2的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1所示的游戏资源文本审核方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现确定待审核游戏资源文本数据以及对应的发布信息后,按发布信息确定与待审核游戏资源文本数据对应的第一目标问题词库以及基础审核标准,从而利用基础审核标准以及第一目标问题词库实现对待审核游戏资源文本数据的审核。本申请实施例可以实现针对待审核文本数据的发布信息确定特定的第一目标问题词库以及文本应满足的基础审核标准,并依据相应审核标准对待审核文本进行审核,以确保能够通过审核的文本中不包含与目标问题词库中相同、相似或相近的问题词,有助于提高待审核文本的发布成功率,保证文本质量。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以依据实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (13)

1.一种游戏资源文本审核方法,其特征在于,包括:
获取待审核游戏资源文本数据及其对应作品的发布信息,所述发布信息包括发布类型、发行地以及受众人群属性;
依据所述发布类型,确定第一问题词库列表,其中,所述第一问题词库列表包括问题词库及其对应的基础审核标准;依据所述发行地,在所述第一问题词库列表中筛选出第二问题词库列表;依据所述受众人群属性,在所述第二问题词库列表中选定所述第一目标问题词库,并获取对应的基础审核标准;
依据所述基础审核标准以及所述第一目标问题词库,对所述待审核游戏资源文本数据进行审核。
2.根据权利要求1所述的方法,其特征在于,所述待审核游戏资源文本数据包括待审核游戏资源文本以及对应的文本属性信息;所述获取对应的基础审核标准之后,所述方法还包括:
在所述待审核游戏资源文本中获取多个待审核游戏资源文本片段,以及获取每个待审核游戏资源文本片段对应的展示属性信息,并按各展示属性信息对应的预设权重调整所述待审核游戏资源文本片段对应的基础审核标准,其中,所述待审核游戏资源文本包括所述多个待审核游戏资源文本片段,所述文本属性信息包括所述展示属性信息,所述展示属性信息包括所述待审核游戏资源文本片段对应的展示位置和/或展示粒度;或者,
依据所述待审核游戏资源文本中每个语句的长度,将所述待审核游戏资源文本划分为多个待审核游戏资源文本片段,并依据所述待审核游戏资源文本片段的语句长度调整对应的基础审核标准,其中,所述文本属性信息包括游戏资源文本中语句的长度;
相应地,所述依据所述基础审核标准以及所述第一目标问题词库,对所述待审核游戏资源文本数据进行审核,具体包括:
依据调整后的基础审核标准以及所述第一目标问题词库,对所述待审核游戏资源文本数据进行审核。
3.根据权利要求1所述的方法,其特征在于,所述依据所述基础审核标准以及所述第一目标问题词库,对所述待审核游戏资源文本数据进行审核之前,所述方法还包括:
依据所述第一目标问题词库对应的词库属性信息,确定与所述第一目标词库对应的审核方式,其中,所述词库属性信息为精准匹配属性时,对应的所述审核方式为精准匹配,所述词库属性信息为模糊匹配属性时,对应的所述审核方式为模糊匹配;
相应地,所述依据所述基础审核标准以及所述第一目标问题词库,对所述待审核游戏资源文本数据进行审核,具体包括:
依据所述基础审核标准以及所述第一目标问题词库,通过对应的审核方式对所述待审核游戏资源文本数据进行审核。
4.根据权利要求1所述的方法,其特征在于,所述待审核游戏资源文本数据包括待审核游戏资源文本以及对应的文本属性信息;所述依据所述基础审核标准以及所述第一目标问题词库,对所述待审核游戏资源文本数据进行审核之前,所述方法还包括:
在所述待审核游戏资源文本中获取多个待审核游戏资源文本片段,以及获取每个待审核游戏资源文本片段对应的展示属性信息,并依据所述展示属性确定对应待审核游戏资源文本片段的审核方式,其中,所述待审核游戏资源文本包括所述多个待审核游戏资源文本片段,所述文本属性信息包括所述展示属性信息,所述展示属性信息包括所述待审核游戏资源文本片段对应的展示位置和/或展示粒度;或者,
依据所述待审核游戏资源文本中每个语句的长度,将所述待审核游戏资源文本划分为多个待审核游戏资源文本片段,并依据所述待审核游戏资源文本片段的语句长度确定对应的审核方式,其中,所述文本属性信息包括游戏资源文本中语句的长度;
相应地,所述依据所述基础审核标准以及所述第一目标问题词库,对所述待审核游戏资源文本数据进行审核,具体包括:
依据所述基础审核标准以及所述第一目标问题词库,通过对应的审核方式对所述待审核游戏资源文本数据进行审核。
5.根据权利要求2至4中任一项所述的方法,其特征在于,所述对所述待审核游戏资源文本数据进行审核,具体包括:
依据各待审核游戏资源文本片段对应的文本属性信息,确定对所述待审核游戏资源文本片段的第一审核顺序,并依次查询所述待审核游戏资源文本片段中与所述第一目标问题词库中的问题词之间的匹配度大于相应审核标准的第一阈值的游戏资源文本问题词;或者,
依据各第一目标问题词库对应的词库属性信息,确定所述第一目标问题词库的第二审核顺序,并依次查询所述待审核游戏资源文本片段中与所述第一目标问题词库中的问题词之间的匹配度大于相应审核标准的第二阈值的游戏资源文本问题词;或者,
依据各待审核游戏资源文本片段对应的审核标准,确定对所述待审核游戏资源文本片段的第三审核顺序,并依次查询所述待审核游戏资源文本片段中与所述第一目标问题词库中的问题词之间的匹配度大于相应审核标准的第三阈值的游戏资源文本问题词。
6.根据权利要求5所述的方法,其特征在于,所述对所述待审核游戏资源文本数据进行审核之后,所述方法还包括:
获取所述游戏资源文本问题词中与所述第一目标问题词库中的问题词不一致的增量问题词;
在所述增量问题词出现次数大于预设第一增量阈值和/或所述增量问题词出现频率大于预设第二增量阈值和/或所述增量问题词被确认添加时,将所述增量问题词加入与对应的游戏资源文本问题词匹配的第一目标问题词库中。
7.根据权利要求5所述的方法,其特征在于,所述对所述待审核游戏资源文本数据进行审核之后,所述方法还包括:
若未查询到所述游戏资源文本问题词,则获取所述待审核游戏资源文本中出现次数大于预设次数阈值的高频词和/或随机获取所述待审核游戏资源文本中出现的随机词;
在备选问题词库中查询与所述高频词和/或所述随机词之间的匹配度大于预设词库匹配阈值的第二目标问题词库,其中,所述备选问题词库为全部的问题词库中除所述第一目标问题词库外的词库;
查询所述待审核游戏资源文本片段中与所述第二目标问题词库中的问题词之间的匹配度大于预设问题词匹配度阈值的游戏资源文本问题词。
8.根据权利要求5所述的方法,其特征在于,所述对所述待审核游戏资源文本数据进行审核之后,所述方法还包括:
根据所述游戏资源文本问题词,生成所述待审核游戏资源文本数据对应的审核报告,其中,所述审核报告包括所述游戏资源文本问题词、所述游戏资源文本问题词所在的语句、所述游戏资源文本问题词的出现次数、所述游戏资源文本问题词对应的问题词库类型、所述游戏资源文本问题词对应的替换词、以及按所述替换词对相应的所述游戏资源文本问题词替换后的所述游戏资源文本问题词所在的语句。
9.根据权利要求1所述的方法,其特征在于,所述获取待审核游戏资源文本数据及其对应作品的发布信息之前,所述方法还包括:
获取初始问题词,并基于所述初始问题词的类型标注或者依据预设问题词分类方法确定所述初始问题词的词库类型;
确定所述初始问题词对应的同音词、形近词、繁简体转换词,以及按预设变形方式对所述初始问题词进行变形得到变形词;
基于所述初始问题词的词库类型以及所述同音词、所述形近词、所述繁简体转换词和所述变形词,建立相应词库类型的问题词库,其中,所述问题词库包括所述第一目标问题词库。
10.根据权利要求9所述的方法,其特征在于,所述初始问题词包括第一问题词和/或第二问题词;所述获取初始问题词,具体包括:
获取问题词导入文件对应的所述第一问题词;和/或,
利用预设爬虫程序在监控到预设网址有内容更新时或者定时的获取所述预设网址中的游戏资源文本数据,依据预设问题词识别模型识别所述游戏资源文本数据中的第二问题词,并对所述第二问题词对应的词库类型进行标注,其中,所述第二问题词的词库类型与所述预设网站的网站类型相匹配。
11.一种游戏资源文本审核装置,其特征在于,包括:
文本获取单元,用于获取待审核游戏资源文本数据及其对应作品的发布信息,所述发布信息包括发布类型、发行地以及受众人群属性;
标准确定单元,用于依据所述发布类型,确定第一问题词库列表,其中,所述第一问题词库列表包括问题词库及其对应的基础审核标准;依据所述发行地,在所述第一问题词库列表中筛选出第二问题词库列表;依据所述受众人群属性,在所述第二问题词库列表中选定所述第一目标问题词库,并获取对应的基础审核标准;
审核单元,用于依据所述基础审核标准以及所述第一目标问题词库,对所述待审核游戏资源文本数据进行审核。
12.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法。
13.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法。
CN202011641730.1A 2020-12-31 2020-12-31 游戏资源文本审核方法及装置、存储介质、计算机设备 Active CN112691379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011641730.1A CN112691379B (zh) 2020-12-31 2020-12-31 游戏资源文本审核方法及装置、存储介质、计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011641730.1A CN112691379B (zh) 2020-12-31 2020-12-31 游戏资源文本审核方法及装置、存储介质、计算机设备

Publications (2)

Publication Number Publication Date
CN112691379A CN112691379A (zh) 2021-04-23
CN112691379B true CN112691379B (zh) 2023-04-07

Family

ID=75514112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011641730.1A Active CN112691379B (zh) 2020-12-31 2020-12-31 游戏资源文本审核方法及装置、存储介质、计算机设备

Country Status (1)

Country Link
CN (1) CN112691379B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113778284A (zh) * 2021-09-24 2021-12-10 北京字跳网络技术有限公司 审核信息显示方法、装置、设备和存储介质
CN117216312B (zh) * 2023-11-06 2024-01-26 长沙探月科技有限公司 提问素材的生成方法、装置、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111389014A (zh) * 2020-03-16 2020-07-10 深圳市腾讯信息技术有限公司 游戏资源数据监控方法、装置、计算机设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060259456A1 (en) * 2005-05-10 2006-11-16 Alexander Falk System for describing text file formats in a flexible, reusable way to facilitate text file transformations
CN106445998B (zh) * 2016-05-26 2020-08-21 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN109271768B (zh) * 2018-10-26 2021-02-05 Oppo广东移动通信有限公司 发布信息管理方法、装置、存储介质及终端
CN109766719B (zh) * 2018-12-28 2021-03-02 微梦创科网络科技(中国)有限公司 一种敏感信息检测方法、装置及电子设备
CN110781668B (zh) * 2019-10-24 2021-08-27 腾讯科技(深圳)有限公司 文本信息的类型识别方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111389014A (zh) * 2020-03-16 2020-07-10 深圳市腾讯信息技术有限公司 游戏资源数据监控方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN112691379A (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN107193792B (zh) 基于人工智能的生成文章的方法和装置
JP6515624B2 (ja) 講義ビデオのトピックスを特定する方法及び非一時的なコンピュータ可読媒体
CN101470732B (zh) 一种辅助词库的生成方法和装置
JP5744228B2 (ja) インターネットにおける有害情報の遮断方法と装置
US9361377B1 (en) Classifier for classifying digital items
US10061767B1 (en) Analyzing user reviews to determine entity attributes
CN112691379B (zh) 游戏资源文本审核方法及装置、存储介质、计算机设备
CN108920450B (zh) 一种基于电子设备的知识点复习方法及电子设备
US20160140389A1 (en) Information extraction supporting apparatus and method
KR101491627B1 (ko) 모바일 애플리케이션 평가를 위한 리뷰 정량화 방법, 장치 및 시스템
US20140297628A1 (en) Text Information Processing Apparatus, Text Information Processing Method, and Computer Usable Medium Having Text Information Processing Program Embodied Therein
CN103559313B (zh) 搜索方法及装置
WO2014040521A1 (zh) 搜索方法、系统及存储介质
JP2008198132A (ja) 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置
CN110175851A (zh) 一种作弊行为检测方法及装置
CN110162752B (zh) 文章判重处理方法、装置及电子设备
US20190019094A1 (en) Determining suitability for presentation as a testimonial about an entity
CN111858834B (zh) 基于ai的案件争议焦点确定方法、装置、设备及介质
CN109344400A (zh) 一种文献入库的判断方法和装置
JP2009199302A (ja) ドキュメントを解析するためのプログラム,装置および方法
CN109189955A (zh) 一种自动检索关键词的确定方法和装置
CN109325099A (zh) 一种自动检索的方法和装置
CN109189893A (zh) 一种自动检索的方法和装置
JP2008282111A (ja) 類似文書検索方法、プログラムおよび装置
CN111050194B (zh) 视频序列处理方法、视频序列处理装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant