CN111104512B - 游戏评论的处理方法及相关设备 - Google Patents
游戏评论的处理方法及相关设备 Download PDFInfo
- Publication number
- CN111104512B CN111104512B CN201911151346.0A CN201911151346A CN111104512B CN 111104512 B CN111104512 B CN 111104512B CN 201911151346 A CN201911151346 A CN 201911151346A CN 111104512 B CN111104512 B CN 111104512B
- Authority
- CN
- China
- Prior art keywords
- game
- comment
- training
- model
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本公开实施例提供了一种游戏评论的处理方法及相关设备,属于计算机技术领域。该方法包括:获取对游戏评论进行标注得到的标注数据,标注数据包括游戏评论及其标注类别;通过预训练模型对标注数据中的游戏评论进行处理,获得游戏评论的语义表示向量;其中,预训练模型是通过针对无标注的游戏评论预训练获得的;通过全连接层对游戏评论的语义表示向量进行处理,获得游戏评论的目标类别的概率;通过游戏评论的目标类别的概率确定游戏评论的预测类别;根据标注类别和预测类别对预训练模型和全连接层进行训练以得到游戏评论分类模型。
Description
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种游戏评论的处理方法及装置、电子设备和计算机可读存储介质。
背景技术
随着互联网技术的发展,越来越多的用户在网上发表各种评论,例如游戏玩家可以针对其玩过的游戏发表评论。游戏平台或者游戏厂商需要从海量的评论数据中找出有价值的信息,获得用户对其推出的游戏的体验和感受,以便其改进。
为了从海量的评论数据中提取出有价值的信息,首先需要对海量的评论数据进行分类。相关技术中,采用以下方式来实现分类功能:首先,构建训练集,利用构建好的训练集训练AdaBoost分类器;然后,计算当前待分类的评论语句的文本特征值、情感特征值和有用性特征值;再调用训练好的AdaBoost分类器,将该评论语句的文本特征值、情感特征值和有用性特征值输入至AdaBoost分类器,以实现对评论语句的分类。
但是,上述相关技术提供的方案至少存在以下技术问题:需要人工设计特征,构建的特征不够全面。同时,为了提高AdaBoost分类器的预测准确性,需要采用大量的标注数据来生成训练集,由此导致数据标注时间较长、成本较高的问题,此外,训练时间也较长,需要较多的计算资源。如果采用的标注数据不足够,则会导致训练好的AdaBoost分类器的预测准确率较低。
因此,需要一种新的游戏评论的处理方法及装置、电子设备和计算机可读存储介质。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开实施例提供一种游戏评论的处理方法及装置、电子设备和计算机可读存储介质,通过训练预训练模型和全连接层,可以获得能够对游戏评论进行精准分类的网络模型。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开实施例提供一种游戏评论的处理方法,所述方法包括:获取对游戏评论进行标注得到的标注数据,所述标注数据包括所述游戏评论及其标注类别;通过预训练模型对所述标注数据中的游戏评论进行处理,获得所述游戏评论的语义表示向量;其中,所述预训练模型是通过针对无标注的游戏评论预训练获得的;通过全连接层对所述游戏评论的语义表示向量进行处理,获得所述游戏评论的目标类别的概率;通过所述游戏评论的目标类别的概率确定所述游戏评论的预测类别;根据所述标注类别和所述预测类别对所述预训练模型和所述全连接层进行训练以得到游戏评论分类模型。
本公开实施例提供一种游戏评论的处理装置,所述装置包括:标注数据获取模块,配置为获取对游戏评论进行标注得到的标注数据,所述标注数据包括所述游戏评论及其标注类别;语义向量获得模块,配置为通过预训练模型对所述标注数据中的游戏评论进行处理,获得所述游戏评论的语义表示向量;其中,所述预训练模型是通过针对无标注的游戏评论预训练获得的;类别概率获得模块,配置为通过全连接层对所述游戏评论的语义表示向量进行处理,获得所述游戏评论的目标类别的概率;预测类别确定模块,配置为通过所述游戏评论的目标类别的概率确定所述游戏评论的预测类别;分类模型训练模块,配置为根据所述标注类别和所述预测类别对所述预训练模型和所述全连接层进行训练以得到游戏评论分类模型。
在本公开的一些示例性实施例中,所述装置还包括:第一目标词语确定模块,配置为从所述无标注的游戏评论中确定第一预定数量的第一目标词语;词语遮挡处理模块,配置为对所述第一目标词语进行遮挡处理;第一模型预训练模块,配置为通过所述预训练模型预测被遮挡的所述第一目标词语。
在本公开的一些示例性实施例中,所述装置还包括:第二目标词语确定模块,配置为从所述无标注的游戏评论中确定第二预定数量的第二目标词语;词语随机替换模块,配置为用随机词语替换所述第二目标词语;第二模型预训练模块,配置为通过所述预训练模型预测被替换的所述第二目标词语。
在本公开的一些示例性实施例中,所述装置还包括:第三目标词语确定模块,配置为从所述无标注的游戏评论中确定第三预定数量的第三目标词语;第三模型预训练模块,配置为通过所述预训练模型预测所述第三目标词语。
在本公开的一些示例性实施例中,所述装置还包括:正样本获得模块,配置为从所述无标注的游戏评论中抽取连续的两个句子,对所述连续的两个句子中的部分词语进行遮挡,将遮挡后的所述连续的两个句子作为正样本;负样本获得模块,配置为从所述无标注的游戏评论中抽取非连续的两个句子,对所述非连续的两个句子中的部分词语进行遮挡,将遮挡后的所述非连续的两个句子作为负样本;第一句子关系预测模块,配置为将所述正样本输入至所述预训练模型,预测所述正样本中的两个句子之间的上下句关系;第二句子关系预测模块,配置为将所述负样本输入至所述预训练模型,预测所述负样本中的两个句子之间的上下句关系。
在本公开的一些示例性实施例中,所述语义向量获得模块包括:开始字符添加单元,配置为在所述当前游戏评论数据的n个字符前加入一个句子开始字符,n为大于或等于1的正整数;词向量获得单元,配置为通过所述预训练模型对所述n个字符和所述句子开始字符进行处理,获得所述n个字符和所述句子开始字符的词向量;语义向量获得单元,配置为通过所述预训练模型对所述n个字符和所述句子开始字符的词向量进行处理,获得所述n个字符和所述句子开始字符的语义表示向量。
在本公开的一些示例性实施例中,所述类别概率获得模块包括:类别概率获得单元,配置为利用所述全连接层对所述句子开始字符的语义表示向量进行处理,获得所述游戏评论的目标类别的概率。
在本公开的一些示例性实施例中,所述预训练模型为基于转换器的双向编码器表示。
本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中所述的游戏评论的处理方法。
本公开实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的游戏评论的处理方法。
在本公开的一些实施例所提供的技术方案中,由于预训练模型事先通过大量的未标注的游戏评论进行了预训练,一方面,可以提高训练完成后的网络模型的分类的精准度;另一方面,由于其是基于预训练模型的,在训练阶段,只需要对较少的游戏评论进行标注即可,可以降低数据的标注时间和成本,同时训练时长降低,训练所利用的计算资源减少。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本公开实施例的游戏评论的处理方法或游戏评论的处理装置的示例性系统架构的示意图;
图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图;
图3示意性示出了根据本公开的一实施例的游戏评论的处理方法的流程图;
图4示意性示出了根据本公开的一实施例的游戏评论的示意图;
图5示意性示出了根据本公开的另一实施例的游戏评论的处理方法的流程图;
图6示意性示出了根据本公开的又一实施例的游戏评论的处理方法的流程图;
图7示意性示出了根据本公开的再一实施例的游戏评论的处理方法的流程图;
图8示意性示出了根据本公开的再一实施例的游戏评论的处理方法的流程图;
图9示意性示出了根据本公开的一实施例的基于预训练模型的文本分类模型的结构示意图;
图10示出了图3中所示的步骤S2在一实施例中的处理过程示意图;
图11示意性示出了根据本公开的一实施例的预训练模型的结构示意图;
图12示意性示出了根据本公开的另一实施例的预训练模型的结构示意图;
图13示意性示出了根据本公开的又一实施例的预训练模型的结构示意图;
图14示意性示出了根据本公开的一实施例的游戏评论的处理装置的框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示出了可以应用本公开实施例的游戏评论的处理方法或游戏评论的处理装置的示例性系统架构100的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一种或多种,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机、可穿戴智能设备、智能家居设备和台式计算机、数字电影放映机等等。
服务器105可以是提供各种服务的服务器。例如用户利用终端设备103(也可以是终端设备101或102)向服务器105发送各种请求。服务器105可以基于该请求中携带的相关信息,获取响应于请求的反馈信息给终端设备103,进而用户可以在终端设备103上查看显示的反馈信息。
又如终端设备103(也可以是终端设备101或102)可以是智能电视、VR(VirtualReality,虚拟现实)/AR(Augmented Reality,增强现实)头盔显示器、或者其上安装有即时通讯、视频应用程序(application,APP)等的移动终端例如智能手机、平板电脑等,用户可以通过该智能电视、VR/AR头盔显示器或者该即时通讯、视频APP向服务器105发送各种请求。服务器105可以基于该请求,获取响应于请求的反馈信息返回给该智能电视、VR/AR头盔显示器或者该即时通讯、视频APP,进而通过该智能电视、VR/AR头盔显示器或者该即时通讯、视频APP将返回的反馈信息显示。
图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图2示出的电子设备的计算机系统200仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图2所示,计算机系统200包括中央处理单元(CPU,Central Processing Unit)201,其可以根据存储在只读存储器(ROM,Read-Only Memory)202中的程序或者从储存部分208加载到随机访问存储器(RAM,Random Access Memory)203中的程序而执行各种适当的动作和处理。在RAM 203中,还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。
以下部件连接至I/O接口205:包括键盘、鼠标等的输入部分206;包括诸如阴极射线管(CRT,Cathode Ray Tube)、液晶显示器(LCD,Liquid Crystal Display)等以及扬声器等的输出部分207;包括硬盘等的储存部分208;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器210上,以便于从其上读出的计算机程序根据需要被安装入储存部分208。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分209从网络上被下载和安装,和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时,执行本申请的方法和/或装置中限定的各种功能。
需要说明的是,本公开所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF(RadioFrequency,射频)等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块、单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的模块、单元也可以设置在处理器中。其中,这些模块、单元的名称在某种情况下并不构成对该模块、单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现如图3或图5或图6或图7或图8或图9所示的各个步骤。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的自然语言处理和机器学习等技术,具体通过如下实施例进行说明:
图3示意性示出了根据本公开的一实施例的游戏评论的处理方法的流程图。本公开实施例提供的方法可以由任意具备计算处理能力的电子设备执行,例如如图1中的终端设备101、102、103中的任意一个或多个和/或服务器105。在下面的举例说明中,以服务器105为执行主体进行示例说明。
如图3所示,本公开实施例提供的方法可以包括以下步骤。
在步骤S310中,获取对游戏评论进行标注得到的标注数据,标注数据包括游戏评论及其标注类别。
本公开实施例中,可以从各类游戏平台、游戏论坛、游戏圈等上抓取用户发表的游戏评论,可以对其进行数据清洗等预处理。
例如,如图4所示,示出了从XX游戏圈采集的游戏评论,列出了每条游戏评论的序号、内容、回复数、数据源和发表时间,这里可以根据发表时间对游戏评论进行降序或者升序排列。可以对每条游戏评论进行情感倾向分析,这里将情感倾向分为“负面”(表示游戏玩家发表的评论倾向于负面情绪,例如愤怒、暴力等)、“中性”(表示游戏玩家发表的评论位于正面和负面情绪之间,中和地表达自己的意见)和“正面”(表示游戏玩家发表的评论倾向于正面情绪,例如高兴、赞赏等)三种,还可以用不同颜色标识不同的情感倾向,例如“负面”用黄色表示,“正面”用红色表示,“中性”用灰色表示,但本公开并不限定于此。
本公开实施例中,标注类别可以为无效类、缺陷类、讨论类和建议类等中的任意一种,在下面的举例说明中,均以将游戏评论标注为无效类、缺陷类、讨论类和建议类中的任意一种为例进行举例说明,以作为训练数据集。训练数据是指数据挖掘过程中用于数据挖掘模型构建的数据,训练数据集是由训练数据构成的集合。具体地,这里的训练数据集包括多个标注数据,用于训练由预训练模型和全连接层组成的文本分类模型。
本公开实施例中,例如,可以从1000万条采集的游戏评论中选择40000条游戏评论(远小于所采集的大量的游戏评论),对其进行人工标注,产生的训练样本例如如下表1所示:
表1
上述表1中,其中“1”表示无效类,“2”表示缺陷类,“3”表示讨论类,“4”表示建议类。
由于游戏评论的特点是无效信息比较多,很多评论都是情绪的表达,信息量较少,有价值的游戏评论主要包括:缺陷类,即游戏玩家指出游戏的缺陷,其反映了游戏里出现的问题;讨论类,即游戏玩家对游戏的讨论,其反映了游戏玩家对于游戏的关注内容;以及建议类,即游戏玩家对游戏提出的改进建议等,这个对于游戏的改进有较大的价值。
在步骤S320中,通过预训练模型对标注数据中的游戏评论进行处理,获得游戏评论的语义表示向量;其中,预训练模型是通过针对无标注的游戏评论预训练获得的。
本公开实施例中,预训练模型是指在自然语言处理领域,用大量无标签的语料训练出词向量模型、语言模型等,预训练模型得到的词向量、句子向量等特征可以用于其它具体的NLP任务。通过使用之前在大数据集上经过预训练的预训练模型,可以直接使用相应的结构和权重,将其应用到正面对的问题上,这称之为“迁移学习”,即将预训练模型“迁移”到正在应对的问题中。
本公开实施例中,无标注的游戏评论是指没有对其进行人工标注以确定其标注类别的游戏评论,这里无标注的游戏评论数量要远大于标注数据中的游戏评论,可以从大量的无标注的游戏评论中提取少量游戏评论,对这部分提取出来的少量游戏评论进行标注以生成标注数据,无标注的游戏评论和标注数据中的游戏评论也可以是不同的游戏评论。
首先收集游戏玩家大量的游戏评论,在大量的无标注的游戏评论上对预训练模型进行预训练,从而使得经过预训练的预训练模型能够更好地提取出游戏评论这种语料的通用特征;然后,在标注的训练数据集(其中训练数据集中的游戏评论可以是从这大量的无标注的游戏评论中提取的一小部分的游戏评论)上对该预训练模型和与其连接的全连接层(参见下一个步骤)进行训练,获得准确度比较高的文本分类模型。跟未采用预训练模型的文本分类模型相比,能够提高文本分类模型的预测准确率,同时,可以大大减少文本分类模型的训练时间,所需时间基本可以忽略。
在步骤S330中,通过全连接层对游戏评论的语义表示向量进行处理,获得游戏评论的目标类别的概率。
在示例性实施例中,目标类别可以为无效类、缺陷类、讨论类和建议类等中的任意一种,但本公开并不限定于此,可以根据实际需求进行分类。
具体的,在分类训练过程中,每次输入至文本分类模型的样本是训练数据集中的一句话及其标注类别,长度限制例如可以为128个字符(但本公开并不限定于此)。
分类训练的参数例如可以如下:
--hidden_size=768,其中hidden_size表示预训练模型的隐含层大小,也就是词向量的维度。
--num_hidden_layers=12,其中num_hidden_layers表示预训练模型的神经网络层数。
--num_attention_heads=12,其中num_attention_heads表示预训练模型的attention矩阵运算时拆分成多少个子矩阵。
--max_seq_length=128,其中max_seq_length表示句子最大长度。
--train_batch_size=32,其中train_batch_size表示预训练模型训练过程中,每次迭代输入多少个样本。
--learning_rate=2e-5,其中learning_rate表示学习率。
--num_train_epochs=3.0,其中num_train_epochs表示向前和向后传播中所有批次的单次训练迭代。
在步骤S340中,通过游戏评论的目标类别的概率确定游戏评论的预测类别。
例如,可以选择目标类别的概率最大的目标类别作为游戏评论的预测类别,但本公开并不限定于此。
在步骤S350中,根据标注类别和预测类别对预训练模型和全连接层进行训练以得到游戏评论分类模型。
本公开实施例中,可以预先构建文本分类模型的损失函数,然后根据标注类别和预测类别进行损失函数的迭代计算,通过梯度回传的方式对模型参数进行优化,直到损失函数达到预设误差或者迭代次数达到设定值,此时,停止迭代,该文本分类模型训练完成。
在预测过程中,将新接收到的游戏评论(例如为一句话)输入至该训练好的文本分类模型中,输出为这句话对应的4个类别(无效类、缺陷类、讨论类和建议类)的概率。由于这里利用了大量游戏评论(游戏玩家的历史反馈)对预训练模型进行了预训练,因此在游戏反馈领域有更强的特征表达能力;然后,对部分玩家反馈进行了标注,例如标注为无效类、缺陷类、讨论类和建议类,对预训练模型进行分类训练,从而能够对新接收到的游戏评论进行自动分类,而且准确率较高,能够极大地减少舆情分析的工作量。
本公开实施方式提供的游戏评论的处理方法,由于预训练模型事先通过大量的未标注的游戏评论进行了预训练,一方面,可以提高训练完成后的网络模型的分类的精准度;另一方面,由于其是基于预训练模型的,在训练阶段,只需要对较少的游戏评论进行标注即可,可以降低数据的标注时间和成本,同时训练时长降低,训练所利用的计算资源减少。
下面通过图5-8的实施例对预训练模型的预训练过程进行举例说明。这里预训练的目的是让预训练模型从大量的未标注语料当中学习到文本特征,收集了大量的游戏评论,假设数量有1000万条,用于去正确地训练预训练模型的参数。
图5示意性示出了根据本公开的另一实施例的游戏评论的处理方法的流程图。
如图5所示,与上述实施例的不同之处在于,本公开实施例提供的方法还可以包括以下步骤。
在步骤S510中,从无标注的游戏评论中确定第一预定数量的第一目标词语。
例如,第一预定数量可以通过以下方式确定:即首先对无标注的游戏评论进行分词,获得无标注的游戏评论的全部词语,然后从全部词语中随机选择15%的词语作为第一目标词语。再例如,还可以再从这随机选择的15%的词语中随机选择80%的词语作为第一目标词语,但本公开并不限定于此,可以根据实际需求进行设定。
在步骤S520中,对第一目标词语进行遮挡(MASK)处理。
本公开实施例中,遮挡是指将句子中的部分词语用一些预先选择的特殊符号替代,例如这里用[MASK]符号替代原本的第一目标词语。
例如:假设有一句游戏评论是“my dog is hairy”,这里的“hairy”是被选择的第一目标词语,则用[MASK]替代“hairy”,这句游戏评论就变成了“my dog is[MASK]”。
在步骤S530中,通过预训练模型预测被遮挡的第一目标词语。
本公开实施例中,预先构建该预训练模型的损失函数。将上述被遮挡了第一目标词语的游戏评论的句子输入至预训练模型中,预测输出该第一目标词语。例如,将“my dogis[MASK]”这句话输入至预训练模型,利用该预训练模型来预测这句话中原本的单词“hairy”,根据预测的第一目标词语和真实的第一目标词语进行预训练模型的损失函数的计算,通过梯度回传来优化预训练模型的参数,直到预训练模型的损失误差小于预设阈值或者迭代次数达到停止次数,停止预训练该预训练模型。
图5实施例是预训练过程的第一个任务,随机遮挡输入至预训练模型的句子中的部分词语作为第一目标词语,然后预测那些被遮挡的第一目标词语,预训练模型为了预测出被遮挡的词语,需要结合上下文来预测,从而达到了双向的目的。
图6示意性示出了根据本公开的又一实施例的游戏评论的处理方法的流程图。
如图6所示,与上述实施例的不同之处在于,本公开实施例提供的方法还可以包括以下步骤。
在步骤S610中,从无标注的游戏评论中确定第二预定数量的第二目标词语。
例如,第二预定数量可以通过以下方式确定:即首先对无标注的游戏评论进行分词,获得无标注的游戏评论的全部词语,然后从全部词语中随机选择15%的词语;然后再从这15%的词语中随机选择10%的词语作为第二目标词语,但本公开并不限定于此,可以根据实际需求进行设定。
在步骤S620中,用随机词语替换第二目标词语。
本公开实施例中,可以从上述全部词语中随机选择部分与第二目标词语不同的词语作为随机词语。
例如假设选择“apple”作为一个随机词语,假设“my dog is hairy”的“hairy”是一个第二目标词语,则可以将“my dog is hairy”转换为“my dog is apple”。
在步骤S630中,通过预训练模型预测被替换的第二目标词语。
本公开实施例中,预先构建该预训练模型的损失函数。可以将包括上述第二目标词语被随机词语替换的游戏评论的句子输入至预训练模型,预训练模型预测输出该第二目标词语。例如,将“my dog is apple”这句话输入至预训练模型,利用该预训练模型来预测这句话中原本的单词“hairy”,根据预测的第二目标词语和真实的第二目标词语进行预训练模型的损失函数的计算,通过梯度回传来优化预训练模型的参数,直到预训练模型的损失误差小于预设阈值或者迭代次数达到停止次数,停止预训练该预训练模型。
本公开实施例中,在图5实施例中,由于在预训练过程,大量使用[MASK]标记,但是在线预测新接收到的游戏评论的时候,是不会有这个标记的,这会引导预训练模型认为输出是针对[MASK]这个标记的,但是实际在线预测时又见不到这个标记,这可能会导致训练出来的预训练模型无法准确预测。为了避免这个问题,这里将随机选择的15%的词语中的10%的词语用随机词语替换,而不是将随机选择的15%的全部词语用[MASK]替换。此外,因为随机词语的替换只发生在所有词语的1.5%(即15%的10%),不会损害预训练模型的语言理解能力。
图7示意性示出了根据本公开的再一实施例的游戏评论的处理方法的流程图。
如图7所示,与上述实施例的不同之处在于,本公开实施例提供的方法还可以包括以下步骤。
在步骤S710中,从无标注的游戏评论中确定第三预定数量的第三目标词语。
例如,第三预定数量可以通过以下方式确定:即首先对无标注的游戏评论进行分词,获得无标注的游戏评论的全部词语,然后从全部词语中随机选择15%的词语;然后再从这15%的词语中随机选择10%的词语作为第三目标词语。但本公开并不限定于此,可以根据实际需求进行设定。
在步骤S720中,通过预训练模型预测第三目标词语。
本公开实施例中,预先构建该预训练模型的损失函数。上述随机选择的第三目标词语不做替换操作,例如:游戏评论为“my dog is hairy”,假设第三目标词语为“hairy”,则然后保持第三目标词语不变,将“my dog is hairy”这句话输入至预训练模型中,利用该预训练模型来预测这句话中的单词“hairy”,根据预测的第三目标词语和真实的第三目标词语进行预训练模型的损失函数的计算,通过梯度回传来优化预训练模型的参数,直到预训练模型的损失误差小于预设阈值或者迭代次数达到停止次数,停止预训练该预训练模型。
本公开实施例中,由于输入至预训练模型中的待预测词语即其真实词语,因此,这样做可以将预训练模型的输出表示偏向于实际观察到的词语。
图8示意性示出了根据本公开的再一实施例的游戏评论的处理方法的流程图。图8实施例是预训练过程的第二个任务,继续训练预训练模型的参数,进行下一句子预测:即将无标注的游戏评论中的两句话输入至预训练模型,判断这两句话是否是上下句关系。
如图8所示,与上述实施例的不同之处在于,本公开实施例提供的方法还可以包括以下步骤。
在步骤S810中,从无标注的游戏评论中抽取连续的两个句子,对连续的两个句子中的部分词语进行遮挡,将遮挡后的连续的两个句子作为正样本。
例如,从上述无标注的游戏评论中挑选20万对句子,总共40万条句子。挑选句子对的时候,其中2*10万条句子,是连续的两条上下文句子,例如:
[CLS]the man went to[MASK]store[SEP]
he bought a gallon[MASK]milk[SEP]
这两句话是上下句关系。其中,[CLS]表示句子开始符号,[SEP]表示分句符号,用于断开输入语料中的两个句子。
在步骤S820中,从无标注的游戏评论中抽取非连续的两个句子,对非连续的两个句子中的部分词语进行遮挡,将遮挡后的非连续的两个句子作为负样本。
例如,再另外从无标注的游戏评论中挑选2*10万条语句,不是连续的句子,例如:
[CLS]the man went to[MASK]store[SEP]
penguin[MASK]are flight birds[SEP]
这两句话不是上下句关系。
然后让预训练模型来识别这20万对句子,哪些是连续的,哪些不连续。
在步骤S830中,将正样本输入至预训练模型,预测正样本中的两个句子之间的上下句关系。
在步骤S840中,将负样本输入至预训练模型,预测负样本中的两个句子之间的上下句关系。
具体的,采用这两个任务对预训练模型进行了预训练,预训练参数可以如下:
--hidden_size=768,
--num_hidden_layers=12,
--num_attention_heads=12,
--train_batch_size=32,
--max_seq_length=128,
--max_predictions_per_seq=20,其中max_predictions_per_seq表示训练MLM时,一句话最多MASK多少个词语。
--num_train_steps=360000,其中num_train_steps表示预训练模型训练时迭代次数。
--num_warmup_steps=10,其中num_warmup_steps表示正式训练前热身训练(即以较低的学习率进行训练)次数。
--learning_rate=2e-5。
本公开实施例中,预训练模型除了做上述的遮挡任务外,还做句子关系预测,判断第二个句子是不是真的是第一个句子的后续句子。之所以这么做,是考虑到词语预测粒度的训练到不了句子关系这个层级,增加这个任务有助于下游句子关系判断任务。可以看到,预训练模型的预训练是个多任务过程。
图9示意性示出了根据本公开的一实施例的基于预训练模型的文本分类模型的结构示意图。
如图9所示,模型结构主要包括两个部分,分别是预训练模型和全连接层。模型的输入为一句话,输出为当前这句话分别属于4个类别的概率。其中,预训练模型的主要功能是提取输入文本的语义特征,这里Wi表示输入文本的第i个字符,i为大于或等于1且小于或等于n的正整数,n为大于或等于1的正整数。[CLS]是加在输入文本前面的句子开始字符,用于表示当前这一句话。Ei表示第i个字符的词向量表示,例如可以为512维的向量,Ti是预训练模型输出的基于上下文的第i个语义向量表示,也可以为512维的向量。FC(FullyConnected,全连接层)主要作用是将高维的语义向量表示映射为每一个类别的概率,具体地,若类别为4类,则把符号[CLS]的512维语义向量表示映射为一个4维向量C,对应当前这句话分别属于4个类的概率。
FC是一个全连接层,可以用如下公式表示:
y=Wx+b (1)
其中,上述公式中,x是FC的输入,在当前模型中,x为T[CLS],W为一个[512*4]的预设矩阵,b为一个4维的向量,其中W和b均可以在模型训练过程中确定。这里加入FC的目的是为了将提取的高维语义特征映射为当前这句话分别属于4个类别的概率。
从图9可以看出,FC可以使用T[CLS]预测类别的概率,因为这里的预训练模型是一个多层的神经网络,上层的节点和下层的每一个节点都是有联系的,T[CLS]和T1至Tn的值是强相关的。CLS字符在经过了多层神经网络之后,转变为了一个句向量,可以理解为代表了本句话的语义。
下面结合图10对如何利用上述文本分类模型获得语义表示向量进行说明。
图10示出了图3中所示的步骤S2在一实施例中的处理过程示意图。
如图10所示,本公开实施例中,上述步骤S2可以进一步包括以下步骤。
在步骤S321中,在游戏评论的n个字符前加入一个句子开始字符,n为大于或等于1的正整数。
本公开实施例中,首先可以对游戏评论进行分词,即将一个字符序列切分成一个个单独的字符的过程。可以采用以下分词方法中的任意一种:基于字符匹配的分词方法、基于理解的分词方法和基于统计的分词方法等。可以采用的分词工具有HanLP、Jieba(结巴)等。
例如,假设游戏评论为“这个游戏不好玩”,则分词为“这个游戏不好玩”,一共7个字符,在最前面加入[CLS]符号,变成“[CLS]这个游戏不好玩”。
在步骤S322中,通过预训练模型对n个字符和句子开始字符进行处理,获得n个字符和句子开始字符的词向量。
本公开实施例中,可以通过预训练模型将输入的各个字符转换成词向量表示。其中,词向量是自然语言处理中语言模型与表征学习技术的统称,指把一个维数为所有词的数量的高维空间嵌入到一个维数很低的实数向量空间中,也称为word embedding。即将词映射到多维的实数向量空间,以便于后续的相关性计算。
在步骤S323中,通过预训练模型对n个字符和句子开始字符的词向量进行处理,获得n个字符和句子开始字符的语义表示向量。
在示例性实施例中,通过全连接层对游戏评论的语义表示向量进行处理,获得游戏评论的目标类别的概率,可以包括:利用全连接层对句子开始字符的语义表示向量进行处理,获得游戏评论的目标类别的概率。
本公开实施方式提供的游戏评论的处理方法,提取游戏评论的特征,输入基于预训练的文本分类模型中,得到自动预测游戏评论的类别,可以将其应用于游戏舆情分析的垂直领域,用于对大量游戏玩家的评论进行自动分类。游戏舆情分析是对大量游戏玩家的评论反馈进行观点提取、汇总的过程,输入数据为从论坛、贴吧、应用商店等爬取的游戏评论,然后对每一条游戏评论首先进行数据清洗,过滤其中的垃圾信息,然后调用评论分类接口,用文本分类模型计算出各条游戏评论为无效类、缺陷类、讨论类和建议类的概率,然后选择其中概率最大的类别作为预测类别输出,从中可以发现游戏的问题,或者了解游戏玩家讨论的热点,提出的建议等。
图11示意性示出了根据本公开的一实施例的预训练模型的结构示意图。本公开实施例中,预训练模型可以为基于转换器的双向编码器表示(Bidirectional EncoderRepresentation from Transformers,BERT)。
如图11所示,水平方向的TRM(Transformer Block,Transformer的编码器结构)表示的是同一个单元,连线表示的是词与词之间的依赖关系,BERT中的依赖关系既有前文又有后文,BERT是双向transformer的encoder,它从词语的两边(左边和右边)来考虑上下文。相关技术中都是一次只考虑词语的一边,要么是左边,要么是右边。这种双向性有助于模型更好地理解使用词语的上下文。这种「双向」的来源在于BERT与传统语言模型不同,它不是在给定所有前面词的条件下预测最可能的当前词,而是随机遮掩一些词,并利用所有没被遮掩的词进行预测。BERT是一个无监督、深度双向的自然语言处理模型预训练系统。它使用纯文本语料库进行训练,可以在短时间内(在单个GPU(Graphics Processing Unit,图形处理器)上)使用BERT训练出文本分类模型。
BERT的主体是Transformer,其中包括encoder(编码器)和decoder(解码器),是一个基于纯attention机制的模型,用于提取文本特征,进一步增加了词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征。使用Transformer做encoder,可以有更深的层数,具有更好的并行性。
BERT随机去除两个句子中的一些词,并要求模型预测这些词是什么,这样就能学习句子内部的关系。并从数据集抽取两个句子,其中第二句是第一句的下一句概率是50%,这样就能学习句子之间的关系。最后再将经处理的句子传入大型Transformer模型,并通过两个损失(loss)函数同时学习上面两个目标就能完成训练。BERT这种Transformer架构的性能优于卷积神经网络和递归神经网络。而且训练模型所需的计算资源也大为减少。深度双向模型比left-to-right模型或left-to-right and right-to-left模型的浅层连接更强大。BERT的双向叫深度双向,不同于以往的双向理解,以往的双向是从左到右和从右到左结合,这种虽然看着是双向的,但是两个方向的loss计算相互独立,所以其实还是单向的,只不过简单融合了一下,而BERT的双向是要同时看上下文语境的。
图12示意性示出了根据本公开的另一实施例的预训练模型的结构示意图。
如图12所示,提供了另一种预训练模型GPT(Generative Pre-Training,生成性预训练)。GPT也是一种基于Transformer的语言模型,其利用Transformer的结构来进行单向语言模型的训练。
相关技术中的循环神经网络所捕捉到的信息较少,而Transformer可以捕捉到更长范围的信息。且GPT计算速度比循环神经网络更快,易于并行化。
图13示意性示出了根据本公开的又一实施例的预训练模型的结构示意图。
如图13所示,提供了另一种预训练模型ELMo,一种新型深度语境化词表征,可对词进行复杂特征(如句法和语义)和词在语言语境中的变化进行建模,词向量是深度双向语言模型内部状态的函数。模型使用了多层LSTM(Long Short-Term Memory,长短期记忆网络),并增加了后向语言模型。水平相连的LSTM是一个LSTM单元。
从图中箭头可以看出,目标T[CLS]生成的逻辑是:第1个LSTM编码的第1个输出(即E[CLS]对应)+第2个LSTM编码的最后一个输出(即En->E[CLS]),即只使用了自己和下文;目标T1生成的逻辑是:第1个LSTM编码的第1-2个输出(即E[CLS]->E1对应)+第2个LSTM编码的倒数第2个输出(即En->E1),即使用了上下文。
以上为举例提出的三种预训练模型的架构,BERT可以视为结合了GPT和ELMo优势的新模型。其中ELMo使用两条独立训练的LSTM获取双向信息,而GPT使用新型的Transformer和经典语言模型获取单向信息。BERT的主要目标即在GPT的基础上对预训练任务做一些改进,以同时利用Transformer深度模型与双向信息的优势。
本公开实施方式提供的游戏评论的处理方法,提供了一种基于预训练模型的游戏评论数据自动分类方案,可以应用于游戏舆情分析垂直领域,将游戏评论数据分为无效类、缺陷类、讨论类、建议类4个类别,利用预训练模型例如BERT训练出一个文本分类模型。在测试集(包含1000个样本)上进行测试,分类的准确率能够达到93%。通过引入预训练模型,通过设计好一个网络结构来做语言模型任务,然后把大量甚至是无穷尽的无标注的自然语言文本利用起来,预训练任务把大量语言学知识抽取出来编码到网络结构中,当当前任务带有标注信息的数据有限时,这些先验的语言学特征会对当前任务有极大的特征补充作用,因为当数据有限的时候,很多语言学现象是覆盖不到的,泛化能力就弱,集成尽量通用的语言学知识会加强模型的泛化能力。
在示例性实施例中,本公开实施例中所涉及的全部数据,例如预训练好的预训练模型的模型参数、训练好的文本分类模型的模型参数、训练数据集、游戏评论等,均可以存储于区块链(Blockchain)中。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
图14示意性示出了根据本公开的一实施例的游戏评论的处理装置的框图。
如图14所示,本公开实施方式提供的游戏评论的处理装置1400可以包括:标注数据获取模块1410、语义向量获得模块1420、类别概率获得模块1430、预测类别确定模块1440以及分类模型训练模块1450。
其中,标注数据获取模块1410可以配置为获取对游戏评论进行标注得到的标注数据,标注数据包括游戏评论及其标注类别。语义向量获得模块1420可以配置为通过预训练模型对标注数据中的游戏评论进行处理,获得游戏评论的语义表示向量。其中,预训练模型是通过针对无标注的游戏评论预训练获得的。类别概率获得模块1430可以配置为通过全连接层对游戏评论的语义表示向量进行处理,获得游戏评论的目标类别的概率。预测类别确定模块1440可以配置为通过游戏评论的目标类别的概率确定游戏评论的预测类别。分类模型训练模块1450可以配置为根据标注类别和预测类别对预训练模型和全连接层进行训练以得到游戏评论分类模型。
在示例性实施例中,游戏评论的处理装置1400还可以包括:第一目标词语确定模块,可以配置为从无标注的游戏评论中确定第一预定数量的第一目标词语;词语遮挡处理模块,可以配置为对第一目标词语进行遮挡处理;第一模型预训练模块,可以配置为通过预训练模型预测被遮挡的第一目标词语。
在示例性实施例中,游戏评论的处理装置1400还可以包括:第二目标词语确定模块,可以配置为从无标注的游戏评论中确定第二预定数量的第二目标词语;词语随机替换模块,可以配置为用随机词语替换第二目标词语;第二模型预训练模块,可以配置为通过预训练模型预测被替换的第二目标词语。
在示例性实施例中,游戏评论的处理装置1400还可以包括:第三目标词语确定模块,可以配置为从无标注的游戏评论中确定第三预定数量的第三目标词语;第三模型预训练模块,可以配置为通过预训练模型预测第三目标词语。
在示例性实施例中,游戏评论的处理装置1400还可以包括:正样本获得模块,可以配置为从无标注的游戏评论中抽取连续的两个句子,对连续的两个句子中的部分词语进行遮挡,将遮挡后的连续的两个句子作为正样本;负样本获得模块,可以配置为从无标注的游戏评论中抽取非连续的两个句子,对非连续的两个句子中的部分词语进行遮挡,将遮挡后的非连续的两个句子作为负样本;第一句子关系预测模块,可以配置为将正样本输入至预训练模型,预测正样本中的两个句子之间的上下句关系;第二句子关系预测模块,可以配置为将负样本输入至预训练模型,预测负样本中的两个句子之间的上下句关系。
在示例性实施例中,语义向量获得模块1420可以包括:开始字符添加单元,可以配置为在当前游戏评论数据的n个字符前加入一个句子开始字符,n为大于或等于1的正整数;词向量获得单元,可以配置为通过预训练模型对n个字符和句子开始字符进行处理,获得n个字符和句子开始字符的词向量;语义向量获得单元,可以配置为通过预训练模型对n个字符和句子开始字符的词向量进行处理,获得n个字符和句子开始字符的语义表示向量。
在示例性实施例中,类别概率获得模块1430可以包括:类别概率获得单元,可以配置为利用全连接层对句子开始字符的语义表示向量进行处理,获得游戏评论的目标类别的概率。
在示例性实施例中,预训练模型可以为基于转换器的双向编码器表示。
本公开实施例提供的游戏评论的处理装置中的各个模块、单元的具体实现可以参照上述游戏评论的处理方法中的内容,在此不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块、单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块、单元的特征和功能可以在一个模块、单元中具体化。反之,上文描述的一个模块、单元的特征和功能可以进一步划分为由多个模块、单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (9)
1.一种游戏评论的处理方法,其特征在于,包括:
通过针对无标注的游戏评论预训练获得预训练模型,其中无标注的游戏评论是指没有对其进行人工标注以确定其标注类别的游戏评论;
获取对游戏评论进行标注得到的标注数据,所述标注数据包括所述游戏评论及其标注类别;其中,无标注的游戏评论数量远大于标注数据中的游戏评论;
通过预训练模型对所述标注数据中的游戏评论进行处理,获得所述游戏评论的语义表示向量;
通过全连接层对所述游戏评论的语义表示向量进行处理,获得所述游戏评论的目标类别的概率;
通过所述游戏评论的目标类别的概率确定所述游戏评论的预测类别;
根据所述标注类别和所述预测类别对所述预训练模型和所述全连接层进行训练以得到游戏评论分类模型以得到游戏评论分类模型;
其中,通过针对无标注的游戏评论预训练获得预训练模型,包括:
对所述无标注的游戏评论进行分词,获得无标注的游戏评论的全部词语,从全部词语中随机选择第一预定数量的词语作为第一目标词语;
对所述第一目标词语进行遮挡处理;
通过所述预训练模型预测被遮挡的所述第一目标词语;
从所述全部词语中随机选择第二预定数量的词语作为第二目标词语;
从所述全部词语中随机选择部分与所述第二目标词语不同的词语作为随机词语,用所述随机词语替换所述第二目标词语;
通过所述预训练模型预测被替换的所述第二目标词语。
2.根据权利要求1所述的方法,其特征在于,还包括:
从所述无标注的游戏评论中确定第三预定数量的第三目标词语;
通过所述预训练模型预测所述第三目标词语。
3.根据权利要求1至2任一项所述的方法,其特征在于,还包括:
从所述无标注的游戏评论中抽取连续的两个句子,对所述连续的两个句子中的部分词语进行遮挡,将遮挡后的所述连续的两个句子作为正样本;
从所述无标注的游戏评论中抽取非连续的两个句子,对所述非连续的两个句子中的部分词语进行遮挡,将遮挡后的所述非连续的两个句子作为负样本;
将所述正样本输入至所述预训练模型,预测所述正样本中的两个句子之间的上下句关系;
将所述负样本输入至所述预训练模型,预测所述负样本中的两个句子之间的上下句关系。
4.根据权利要求1所述的方法,其特征在于,通过预训练模型对所述标注数据中的游戏评论进行处理,获得所述游戏评论的语义表示向量,包括:
在所述游戏评论的n个字符前加入一个句子开始字符,n为大于或等于1的正整数;
通过所述预训练模型对所述n个字符和所述句子开始字符进行处理,获得所述n个字符和所述句子开始字符的词向量;
通过所述预训练模型对所述n个字符和所述句子开始字符的词向量进行处理,获得所述n个字符和所述句子开始字符的语义表示向量。
5.根据权利要求4所述的方法,其特征在于,通过全连接层对所述游戏评论的语义表示向量进行处理,获得所述游戏评论的目标类别的概率,包括:
利用所述全连接层对所述句子开始字符的语义表示向量进行处理,获得所述游戏评论的目标类别的概率。
6.根据权利要求1所述的方法,其特征在于,所述预训练模型为基于转换器的双向编码器表示。
7.一种游戏评论的处理装置,其特征在于,所述装置配置为通过针对无标注的游戏评论预训练获得预训练模型,其中无标注的游戏评论是指没有对其进行人工标注以确定其标注类别的游戏评论;其中,所述装置包括:
标注数据获取模块,配置为获取对游戏评论进行标注得到的标注数据,所述标注数据包括所述游戏评论及其标注类别;其中,无标注的游戏评论数量远大于标注数据中的游戏评论;
语义向量获得模块,配置为通过预训练模型对所述标注数据中的游戏评论进行处理,获得所述游戏评论的语义表示向量;
类别概率获得模块,配置为通过全连接层对所述游戏评论的语义表示向量进行处理,获得所述游戏评论的目标类别的概率;
预测类别确定模块,配置为通过所述游戏评论的目标类别的概率确定所述游戏评论的预测类别;
分类模型训练模块,配置为根据所述标注类别和所述预测类别对所述预训练模型和所述全连接层进行训练以得到游戏评论分类模型;
其中,所述装置还包括以下模块,以通过针对无标注的游戏评论预训练获得预训练模型:
第一目标词语确定模块,配置为对所述无标注的游戏评论进行分词,获得无标注的游戏评论的全部词语,从全部词语中随机选择第一预定数量的词语作为第一目标词语;
词语遮挡处理模块,配置为对所述第一目标词语进行遮挡处理;
第一模型预训练模块,配置为通过所述预训练模型预测被遮挡的所述第一目标词语;
第二目标词语确定模块,配置为从所述全部词语中随机选择第二预定数量的词语作为第二目标词语;
词语随机替换模块,配置为从所述全部词语中随机选择部分与所述第二目标词语不同的词语作为随机词语,用所述随机词语替换所述第二目标词语;
第二模型预训练模块,配置为通过所述预训练模型预测被替换的所述第二目标词语。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至6中任一项所述的游戏评论的处理方法。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的游戏评论的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911151346.0A CN111104512B (zh) | 2019-11-21 | 2019-11-21 | 游戏评论的处理方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911151346.0A CN111104512B (zh) | 2019-11-21 | 2019-11-21 | 游戏评论的处理方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111104512A CN111104512A (zh) | 2020-05-05 |
CN111104512B true CN111104512B (zh) | 2020-12-22 |
Family
ID=70420847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911151346.0A Active CN111104512B (zh) | 2019-11-21 | 2019-11-21 | 游戏评论的处理方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111104512B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11789905B2 (en) * | 2020-05-27 | 2023-10-17 | Roblox Corporation | Automated generation of game tags |
CN112115347B (zh) * | 2020-07-17 | 2023-12-12 | 腾讯科技(深圳)有限公司 | 搜索结果的获取方法和装置及存储介质 |
CN111966831A (zh) * | 2020-08-18 | 2020-11-20 | 创新奇智(上海)科技有限公司 | 一种模型训练方法、文本分类方法、装置及网络模型 |
CN112069046B (zh) * | 2020-08-28 | 2022-03-29 | 平安科技(深圳)有限公司 | 数据泄露提醒方法、装置、设备及计算机可读存储介质 |
CN114547435B (zh) * | 2020-11-24 | 2024-10-18 | 腾讯科技(深圳)有限公司 | 内容质量的识别方法、装置、设备及可读存储介质 |
CN112632283A (zh) * | 2020-12-30 | 2021-04-09 | 北京有竹居网络技术有限公司 | 模型生成方法、文本分类方法、装置、设备及介质 |
CN112836013B (zh) * | 2021-01-29 | 2024-08-02 | 北京大米科技有限公司 | 一种数据标注的方法、装置、可读存储介质和电子设备 |
CN113426132B (zh) * | 2021-06-24 | 2023-09-05 | 咪咕互动娱乐有限公司 | 游戏优化方法、装置、设备及存储介质 |
CN114238649B (zh) * | 2021-11-19 | 2024-08-09 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种常识概念增强的语言模型预训练方法 |
CN114949843B (zh) * | 2022-05-19 | 2023-10-13 | 江苏果米文化发展有限公司 | 一种游戏智能交互方法、系统及计算机存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245229A (zh) * | 2019-04-30 | 2019-09-17 | 中山大学 | 一种基于数据增强的深度学习主题情感分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11429833B2 (en) * | 2017-06-19 | 2022-08-30 | Kyndryl, Inc. | Cognitive communication assistant services |
-
2019
- 2019-11-21 CN CN201911151346.0A patent/CN111104512B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245229A (zh) * | 2019-04-30 | 2019-09-17 | 中山大学 | 一种基于数据增强的深度学习主题情感分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111104512A (zh) | 2020-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104512B (zh) | 游戏评论的处理方法及相关设备 | |
CN112084331B (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
Wei et al. | Emotion-aware chat machine: Automatic emotional response generation for human-like emotional interaction | |
CN113704460B (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN110234018A (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
Zhang et al. | Semantic sentence embeddings for paraphrasing and text summarization | |
CN113836866B (zh) | 文本编码方法、装置、计算机可读介质及电子设备 | |
CN113779225B (zh) | 实体链接模型的训练方法、实体链接方法及装置 | |
JP2022516227A (ja) | 自然言語ソリューション | |
Wei et al. | Target-guided emotion-aware chat machine | |
CN117571014A (zh) | 一种结合图像描述和文本生成图像的视觉语言导航方法 | |
Huang et al. | C-Rnn: a fine-grained language model for image captioning | |
CN113704393A (zh) | 关键词提取方法、装置、设备及介质 | |
Mai et al. | A unimodal representation learning and recurrent decomposition fusion structure for utterance-level multimodal embedding learning | |
CN111538841A (zh) | 基于知识互蒸馏的评论情感分析方法、装置及系统 | |
Shahzad et al. | Role of zoning in facial expression using deep learning | |
CN117711001B (zh) | 图像处理方法、装置、设备和介质 | |
CN118014086A (zh) | 数据处理方法、装置、设备、存储介质及产品 | |
Xu et al. | Generating stylistic and personalized dialogues for virtual agents in narratives | |
CN113609866A (zh) | 文本标记方法、装置、设备及存储介质 | |
Hagos et al. | Recent advances in generative ai and large language models: Current status, challenges, and perspectives | |
Chauhan et al. | Mhadig: A multilingual humor-aided multiparty dialogue generation in multimodal conversational setting | |
CN116740237A (zh) | 不良行为过滤方法、电子设备及计算机可读存储介质 | |
Ji et al. | LSTM based semi-supervised attention framework for sentiment analysis | |
CN115858816A (zh) | 面向公共安全领域的智能体认知图谱的构建方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |