CN108897732A - 语句类型识别方法和装置、存储介质及电子装置 - Google Patents
语句类型识别方法和装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN108897732A CN108897732A CN201810589617.XA CN201810589617A CN108897732A CN 108897732 A CN108897732 A CN 108897732A CN 201810589617 A CN201810589617 A CN 201810589617A CN 108897732 A CN108897732 A CN 108897732A
- Authority
- CN
- China
- Prior art keywords
- sentence
- target
- type
- feature vector
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语句类型识别方法和装置、存储介质及电子装置。该方法包括:获取语句识别请求,其用于确认目标帐号在目标应用中发布的待识别语句是否属于目标类型,目标类型为禁止在目标应用中发布的语句的类型;获取待识别语句的目标特征向量,其用于表示待识别语句;根据训练好的分类模型和目标特征向量获取类型识别结果,目标特征向量为训练好的分类模型的输入,类型识别结果指示待识别语句是否属于目标类型,训练好的分类模型至少用于通过上下文语句的特征向量对目标特征向量进行实时识别,上下文语句为目标帐号在目标应用中发布的、且与待识别语句相邻的语句。本发明解决了相关技术检测用户言论是否属于骚扰言论的准确度较低的技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种语句类型识别方法和装置、存储介质及电子装置。
背景技术
为了净化网络环境,在客户端应用中,需要对用户骚扰言论进行检测和打击。相关技术主要是通过人工定义规则字典,通过将用户言论于规则字典进行关键词匹配,实现骚扰言论的检测。这种方式依赖于手工字典的更新,需要耗费大量的人力,对新词或者未登录词的检测率较低,而且也并没有考虑用户言论的上下文信息。也就是说,相关技术检测用户言论是否属于骚扰言论的准确度较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语句类型识别方法和装置、存储介质及电子装置,以至少解决相关技术检测用户言论是否属于骚扰言论的准确度较低的技术问题。
根据本发明实施例的一个方面,提供了一种语句类型识别方法,包括:获取语句识别请求,其中,所述语句识别请求用于确认目标帐号在目标应用中发布的待识别语句是否属于目标类型,所述目标类型为禁止在所述目标应用中发布的语句的类型;响应所述语句识别请求,获取所述待识别语句的目标特征向量,其中,所述目标特征向量用于表示所述待识别语句;根据训练好的分类模型和所述目标特征向量获取类型识别结果,其中,所述目标特征向量为所述训练好的分类模型的输入,所述类型识别结果用于指示所述待识别语句是否属于所述目标类型,所述训练好的分类模型至少用于通过上下文语句的特征向量对所述目标特征向量进行实时识别,所述上下文语句为所述目标帐号在所述目标应用中发布的、且与所述待识别语句相邻的语句。
根据本发明实施例的另一方面,还提供了一种语句类型识别装置,包括:第一获取单元,用于获取语句识别请求,其中,所述语句识别请求用于确认目标帐号在目标应用中发布的待识别语句是否属于目标类型,所述目标类型为禁止在所述目标应用中发布的语句的类型;第二获取单元,用于响应所述语句识别请求,获取所述待识别语句的目标特征向量,其中,所述目标特征向量用于表示所述待识别语句;第三获取单元,用于根据训练好的分类模型和所述目标特征向量获取类型识别结果,其中,所述目标特征向量为所述训练好的分类模型的输入,所述类型识别结果用于指示所述待识别语句是否属于所述目标类型,所述训练好的分类模型至少用于通过上下文语句的特征向量对所述目标特征向量进行实时识别,所述上下文语句为所述目标帐号在所述目标应用中发布的、且与所述待识别语句相邻的语句。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行本发明实施例中任意一种语句类型识别方法。
根据本发明实施例的另一方面,还提供了一种电子装置,包括存储器和处理器,其中,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行本发明实施例中任意一种语句类型识别方法。
在本发明实施例中,在获取到语句识别请求之后,通过获取待识别语句的目标特征向量,然后根据训练好的分类模型和目标特征向量获取类型识别结果,其中,目标特征向量为训练好的分类模型的输入,类型识别结果用于指示待识别语句是否属于目标类型,训练好的分类模型至少用于通过上下文语句的特征向量对目标特征向量进行实时识别,上下文语句为目标帐号在目标应用中发布的、且与待识别语句相邻的语句,达到了快速准确地检测待识别语句是否属于目标类型的目的,从而实现了提高检测用户言论是否属于骚然言论的准确度和效率的技术效果,进而解决了相关技术检测用户言论是否属于骚扰言论的准确度较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的语句类型识别方法的硬件环境的示意图;
图2是根据本发明实施例的一种可选的语句类型识别方法的流程图;
图3是根据本发明实施例的利用训练好的模型进行骚扰言论识别的示意图;
图4是根据本发明实施例的骚扰言论识别的整体流程的示意图;
图5是根据本发明实施例的一种可选的骚扰言论识别的应用场景的示意图;
图6是根据本发明实施例的另一种可选的骚扰言论识别的应用场景的示意图;
图7是根据本发明实施例的一种可选的语句类型识别装置的示意图;以及
图8是根据本发明实施例的一种电子装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种语句类型识别方法。
可选地,在本实施例中,上述语句类型识别方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。如图1所示,服务器102通过网络与终端104进行连接,上述网络包括但不限于:广域网、城域网或局域网,终端104并不限定于PC、手机、平板电脑等。本发明实施例的语句类型识别方法可以由服务器102来执行,也可以由终端104来执行,还可以是由服务器102和终端104共同执行。其中,终端104执行本发明实施例的语句类型识别方法也可以是由安装在其上的客户端来执行。
可选地,服务器102执行本发明实施例的语句类型识别方法的过程可以描述为:服务器102获取语句识别请求,其中,语句识别请求用于确认目标帐号在目标应用中发布的待识别语句是否属于目标类型,目标类型为禁止在目标应用中发布的语句的类型;服务器102响应语句识别请求,获取待识别语句的目标特征向量,其中,目标特征向量用于表示待识别语句;服务器102根据训练好的分类模型和目标特征向量获取类型识别结果,其中,目标特征向量为训练好的分类模型的输入,类型识别结果用于指示待识别语句是否属于目标类型,训练好的分类模型至少用于通过上下文语句的特征向量对目标特征向量进行实时识别,上下文语句为目标帐号在目标应用中发布的、且与待识别语句相邻的语句。
可选地,终端104或者客户端执行本发明实施例的语句类型识别方法的过程可以描述为:终端104或者客户端获取语句识别请求,其中,语句识别请求用于确认目标帐号在目标应用中发布的待识别语句是否属于目标类型,目标类型为禁止在目标应用中发布的语句的类型;终端104或者客户端响应语句识别请求,获取待识别语句的目标特征向量,其中,目标特征向量用于表示待识别语句;终端104或者客户端根据训练好的分类模型和目标特征向量获取类型识别结果,其中,目标特征向量为训练好的分类模型的输入,类型识别结果用于指示待识别语句是否属于目标类型,训练好的分类模型至少用于通过上下文语句的特征向量对目标特征向量进行实时识别,上下文语句为目标帐号在目标应用中发布的、且与待识别语句相邻的语句。
可选地,服务器102和终端104共同执行本发明实施例的语句类型识别方法的过程可以描述为:终端104获取语句识别请求,其中,语句识别请求用于确认目标帐号在目标应用中发布的待识别语句是否属于目标类型,目标类型为禁止在目标应用中发布的语句的类型;终端104将该语句识别请求发送给服务器102;服务器102响应语句识别请求,获取待识别语句的目标特征向量,其中,目标特征向量用于表示待识别语句;服务器102端根据训练好的分类模型和目标特征向量获取类型识别结果,其中,目标特征向量为训练好的分类模型的输入,类型识别结果用于指示待识别语句是否属于目标类型,训练好的分类模型至少用于通过上下文语句的特征向量对目标特征向量进行实时识别,上下文语句为目标帐号在目标应用中发布的、且与待识别语句相邻的语句;服务器102将类型识别结果发送给终端104。
下面以服务器为执行主体为例对本发明实施例的语句类型识别方法进行详细说明。
图2是根据本发明实施例的一种可选的语句类型识别方法的流程图,如图2所示,该方法可以包括以下步骤:
步骤S202,获取语句识别请求,其中,语句识别请求用于确认目标帐号在目标应用中发布的待识别语句是否属于目标类型,目标类型为禁止在目标应用中发布的语句的类型;
步骤S204,响应语句识别请求,获取待识别语句的目标特征向量,其中,目标特征向量用于表示待识别语句;
步骤S206,根据训练好的分类模型和目标特征向量获取类型识别结果,其中,目标特征向量为训练好的分类模型的输入,类型识别结果用于指示待识别语句是否属于目标类型,训练好的分类模型至少用于通过上下文语句的特征向量对目标特征向量进行实时识别,上下文语句为目标帐号在目标应用中发布的、且与待识别语句相邻的语句。
通过上述步骤S202至步骤S206,在获取到语句识别请求之后,通过获取待识别语句的目标特征向量,然后根据训练好的分类模型和目标特征向量获取类型识别结果,其中,目标特征向量为训练好的分类模型的输入,类型识别结果用于指示待识别语句是否属于目标类型,训练好的分类模型至少用于通过上下文语句的特征向量对目标特征向量进行实时识别,上下文语句为目标帐号在目标应用中发布的、且与待识别语句相邻的语句,达到了快速准确地检测待识别语句是否属于目标类型的目的,从而实现了提高检测用户言论是否属于骚然言论的准确度和效率的技术效果,进而解决了相关技术检测用户言论是否属于骚扰言论的准确度较低的技术问题。
在步骤S202提供的技术方案中,本发明实施例对目标应用的类型不做具体限定,例如目标应用可以为游戏应用、社交应用等。目标帐号可以为用户登录目标应用所使用的帐号。用户通过目标帐号登录目标应用之后,可以发布语句,例如游戏玩家在使用游戏帐号登录游戏应用之后,可以在游戏场景中与队友进行对话,此处的对话即为游戏帐号在游戏应用中发布的语句。再例如,群成员使用社交帐号登录社交应用之后,可以在群组中发消息,此处的消息即为社交帐号在社交应用中发布的语句。
目标帐号在目标应用中发布的语句的个数可以为一个,也可以为多个。这些语句可以属于目标类型,也可以不属于目标类型,其中,目标类型可以为禁止在目标应用中发布的语句的类型。例如属于目标类型的语句可以为带有色情、暴力、违法等语句。
为了净化网络环境,通常需要对目标帐号在目标应用中发布的语句进行识别,识别其是否属于目标类型,此处将需要识别的语句成为待识别语句。可选地,待识别语句可以是一个,也可以是多个。
可选地,语句识别请求可以用于确认目标帐号在目标应用中发布的待识别语句是否属于目标类型。可选地,语句识别请求中可以至少携带有以下信息:待识别语句发布的时间、发布待识别语句的目标帐号、待识别语句的内容等。此处需要说明的是,语句识别请求还可以包括其他信息,此处不再一一举例说明。
可选地,在目标帐号在目标应用中发布待识别语句时可以触发生成语句识别请求。可选地,本发明实施例可以实时检测语句识别请求,以便于能够及时快速地响应语句识别请求,进而达到提高语句类型识别的效率的效果。
在步骤S204提供的技术方案中,在获取到语句识别请求之后,可以对其进行响应,具体响应过程可以包括获取待识别语句的目标特征向量,其中,目标特征向量用于表示待识别语句。本发明实施例对获取待识别语句的目标特征向量所采用的具体方式不做具体限定,可选地,获取待识别语句的目标特征向量可以包括先对待识别语句进行分词处理,获取每个词语的词向量,然后再根据每个词语的词向量生成待识别语句的目标特征向量。此处需要说明的是,所生成的目标特征向量可以表示待识别语句,也就是说,每个待识别语句的目标特征向量可以不同,进而实现根据目标特征向量识别待识别语句是否属于目标类型的目的。
在步骤S206提供的技术方案中,在获取到待识别语句的目标特征向量之后,本发明实施例可以根据训练好的分类模型以及所述目标特征向量获取待识别语句的类型识别结果,其中,类型识别结果用于指示待识别语句是否属于目标类型。在根据训练好的分类模型以及所述目标特征向量获取待识别语句的类型识别结果时,训练好的分类模型的输入为所述目标特征向量,输出即可指示待识别语句的类型识别结果。
可选地,训练好的分类模型可以至少用于通过上下文语句的特征向量对目标特征向量进行实时识别,上下文语句为目标帐号在目标应用中发布的、且与待识别语句相邻的语句。也就是说,训练好的分类模型可以对待识别语句进行实时识别,识别其是否属于目标类型,而且,该训练好的分类模型在识别待识别语句是否属于目标类型时还考虑可待识别语句的上下文语句,进而达到提高检测待识别语句是否属于目标类型的准确度的效果。
可选地,训练好的分类模型可以包括:机器学习分类模型以及深度学习分类模型。其中,机器学习分类模型可以用于对待识别语句进行实时检测,进而保证线上快速响应,以保证对属于目标类型的待识别语句进行打击的实时性能。深度学习分类模型考虑了待识别语句的上下文语句,能够达到提高检测待识别语句是否属于目标类型的准确度的效果。
可选地,机器学习分类模型以及深度学习分类模型是预先训练好的,也即在获取语句识别请求之前,可以先对机器学习分类模型以及深度学习分类模型进行训练,在得到训练好的机器学习分类模型以及深度学习分类模型之后,可以直接利用训练好的机器学习分类模型以及深度学习分类模型对待识别语句进行识别,以达到提高待识别语句的识别效率以及准确度的效果。
可选地,机器学习分类模型的训练过程可以包括:使用第一样本集合中的语句的特征向量对第一神经网络模型进行分类训练,得到机器学习分类模型,其中,第一样本集合中的语句的特征向量包括:在第一样本集合中出现频率大于第一词频的第一词语的特征向量、在第一样本集合中出现频率小于第二词频的第二词语的特征向量、以及在第一样本集合中随机选取的第三词语的特征向量。
此处需要说明的是,第一神经网络模型可以为未经过任何训练的神经网络模型,在对第一神经网络模型进行分类训练时,输入为第一样本集合中的语句的特征向量。第一样本集合中可以包括多个语句,每个语句的特征向量可以包括高频词(也即出现频率大于第一词频的第一词语)的特征向量、低频词(出现频率小于第二词频的第二词语)的特征向量以及随机抽取的第三词语的特征向量。此处第一词频大于第二词频,本发明实施例对第一词频和第二词频的取值不做具体限定,其可以根据实际需求设定或者调整。本发明实施例在训练机器学习分类模型时,不单单像传统机器学习只考虑高频词,还考虑了低频词和随机抽取的词语,这样可以使得机器学习分类模型的训练过程更加准确,进而使得训练好的机器学习分类模型更加准确,以使得利用训练好的机器学习分类模型识别待识别语句是否属于目标类型的类型识别结果更加准确。
可选地,深度学习分类模型的训练过程可以包括:使用第二样本集合中的语句的特征向量对第二神经网络模型进行分类训练,得到深度学习分类模型,其中,第二样本集合中的语句的特征向量包括:目标应用中的相同帐号发布的相邻的多个语句的特征向量。
此处需要说明的是,第二神经网络模型可以为未经过任何训练的神经网络模型,在对第二神经网络模型进行分类训练时,输入为第二样本集合中的语句的特征向量。第二样本集合中可以包括多个语句,每个语句的特征向量可以包括目标应用中的相同帐号发布的相邻的多个语句的特征向量,也就是说同一个帐号发布的具有上下文关系的语句的特征向量。本发明实施例在训练深度学习分类模型时,考虑了上下文语句的特征向量,这样可以使得训练好的深度学习分类模型更加准确,以使得利用训练好的深度学习分类模型识别待识别语句是否属于目标类型的类型识别结果更加准确。
在得到训练好的机器学习分类模型以及深度学习分类模型之后,本发明实施例可以根据训练好的机器学习分类模型以及深度学习分类模型以及待识别语句的目标特征向量获取待识别语句的类型识别结果,可以包括以下步骤S2062至步骤S2068:
步骤S2062,根据机器学习分类模型和目标特征向量获取第一类型识别结果,其中,第一类型识别结果用于指示待识别语句是否属于目标类型,目标特征向量为机器学习分类模型的输入。
由于在训练机器学习分类模型时,输入为第一样本集合中的语句的特征向量,输出用于指示第一样本集合中的语句是否属于目标类型,因此将目标特征向量作为机器学习分类模型的输入,可以得到第一类型识别结果,其中,第一类型识别结果可以用于指示待识别语句是否属于目标类型。
步骤S2064,根据深度学习分类模型、目标特征向量和上下文语句的特征向量获取第二类型识别结果,其中,第二类型识别结果用于指示待识别语句是否属于目标类型,其中,目标特征向量和上下文语句的特征向量为深度学习分类模型的输入。
由于在训练深度学习分类模型时,输入为目标应用中的相同帐号发布的相邻的多个语句的特征向量,其可以包括某个语句的特征向量以及与该语句相邻的上下文语句的特征向量,输出用于指示第二样本集合中的语句是否属于目标类型,因此将目标特征向量和上下文语句的特征向量作为机器学习分类模型的输入,可以得到第二类型识别结果,其中,第二类型识别结果可以用于指示待识别语句是否属于目标类型。
步骤S2066,在第一类型识别结果与第二类型识别结果相同的情况下,确定类型识别结果为第一类型识别结果。
利用机器学习分类模型确定的第一类型识别结果可以与利用深度学习分类模型确定的第二类型识别结果相同,也可以不同。在第一类型识别结果与第二类型识别结果相同的情况下,可以直接确定待识别语句是否属于目标类型,具体可以包括第一类型识别结果和第二类型识别结果均指示待识别语句属于目标类型,可以确定待识别语句属于目标类型;或者第一类型识别结果和第二类型识别结果均指示待识别语句均不属于目标类型,可以确定待识别语句不属于目标类型。
步骤S2068,在第一类型识别结果与第一类型识别结果不相同的情况下,确定类型识别结果为用于指示待识别语句属于目标类型;或比较用于表示第一类型识别结果的第一数值与用于表示第一类型识别结果的第二数值;在第一数值大于第二数值的情况下,确定类型识别结果为第一类型识别结果;在第一数值小于第二数值的情况下,确定类型识别结果为第二类型识别结果。
在第一类型识别结果与第二类型识别结果不同的情况下,第一类型识别结果指示待识别语句属于目标类型且第二类型识别结果指示待识别语句不属于目标类型,此时确定待识别语句属于目标类型;或者第二类型识别结果指示待识别语句属于目标类型且第一类型识别结果指示待识别语句不属于目标类型,此时也确定待识别语句属于目标类型。
可选地,机器学习分类模型与深度学习分类模型的输出可以为一个具体的数值,例如0至1中的一个数值。例如,根据实际需求可以设定0指示待识别语句不属于目标类型,1指示待识别语句属于目标类型。可选地,可以以0.5作为分界,小于0.5可以认为属于目标类型,大于等于0.5可以任务属于目标类型。
可选地,机器学习分类模型与深度学习分类模型的输出的数值可以不同。当机器学习分类模型与深度学习分类模型的输出的数值不同时,本发明实施例可以选取较大的数值,例如机器学习分类模型输出的第一数值大于深度学习分类模型输出的第二数值时,可以将第一类型识别结果确定为待识别语句的类型识别结果;机器学习分类模型输出的第一数值小于深度学习分类模型输出的第二数值时,可以将第二类型识别结果确定为待识别语句的类型识别结果。
本发明实施例的语句类型识别方法可以应用于对游戏应用或社交应用等应用中骚扰言论的打击。
作为一种可选的实施例,目标应用可以为游戏应用,在根据训练好的分类模型和目标特征向量获取类型识别结果之后,本发明实施例可以在类型识别结果指示待识别语句属于目标类型的情况下,执行以下至少之一种操作:向游戏应用发送第一提示信息,其中,第一提示信息用于指示待识别语句属于目标类型;或向游戏应用发送第一控制指令,其中,第一控制指令用于禁止在游戏应用的界面中显示待识别语句;或向游戏应用发送第二控制指令,其中,第二控制指令用于禁止目标帐号在目标时间段内在游戏应用中发布语句。
作为另一种可选的实施例,目标应用可以为社交应用,在根据训练好的分类模型和目标特征向量获取类型识别结果之后,本发明实施例可以在类型识别结果指示待识别语句属于目标类型的情况下,执行以下至少之一种操作:向社交应用发送第二提示信息,其中,第二提示信息用于指示待识别语句属于目标类型;或向社交应用发送第三控制指令,其中,第三控制指令用于禁止在社交应用的界面中显示待识别语句;或向社交应用发送第四控制指令,其中,第四控制指令用于禁止目标帐号在目标时间段内在社交应用中发布语句。
需要说明的是,本发明实施例还可以用于其他应用场景中,此处不再一一举例说明。还需要说明的是,在类型识别结果指示待识别语句属于目标类型之后,本发明实施例还可以根据实际需求执行其他操作,此处也不再一一举例说明。
本发明还提供了一种优选实施例,该优选实施例提供了一种AI复合模型的游戏言论骚扰识别方法。
在对该方法进行详细介绍之前,对其中所涉及到的关键术语和缩略词定义如下:
LSTM:NLP里常见的循环网络模型,长短记忆模型。
NLP:Nature Language Process自然语言处理。
Bi-LSTM:双向LSTM模型。
Attention:NLP的Attention机制就是让模型可以在分类的过程中利用sentence的全部信息。
Keras:一个高层次神经网络API,python编写而成并基Tensorflow、Theano以及CNTK后端。
POS:词性标注tags。
word2vec:一种分布式空间向量表示方法。
one-hot:一种词向量表示方法。
该方法提出了一种创新的机器学习Xgboost(即本发明实施例中的机器学习分类模型)结合Bi-Lstm+Attention(即本发明实施例中的深度学习分类模型)的混合算法模型,可以用于幻想华夏游戏内频道言论净化打击系统,替代了传统只基于人工规则字典的方法,有效的提升了召回和准确率,大大减少了人力成本的开销。
该方法主要由以下三个模块组成:分别为预处理模块、特征提取和向量模块以及Xgboost+Bi-Lstm+Attention训练模型模块。下面将分别对其进行具体说明:
预处理模块
该模块主要对幻想和华夏手游的游戏日志进行预处理,包括正则,特殊字符过滤,分词,去停用词等,该方法采用了创新的HMM+CRF分词系统,利用正则过滤处理一些常见的脏语料,入中英文的全半角,纯英文字符的无效语料,中英文大小写混合的语料,通过预处理得到经过筛选的样本。
可选地,该方法首先对手游过去1个月的日志进行了搜集和统计,900W条,利用预处理模块,该方法首先进行了正则过滤,特殊字符的转换过滤,得到了700W条统一格式的数据。其次利用HMM分词进行分词,利用了DF和倒排算法得到了高频词和低频词的分布序列,然后利用停用词过滤,最终均匀抽取了6W个词组成的100W样本。
特征提取和向量模块
该模块主要用于提取用于Xgboost训练的特征字段,和用于深度学习模块的向量。该方法采取了One-hot+N-gram用于提取倒排的高频词频特征工程字典,word2vec用于训练词向量。常见的向量训练表示方法有word2vec和glove,该方法对比了word2vec和glove的特点之后,在本场景下选择了word2vec的向量训练表示方法。word2vec是一个常见的分布式向量表示方法,可以把相似的词的距离拉的很近。
可选地,该方法针对100W样本的分布,提取符合正态分布的高频词和低频词的特征字典,对样本进行训练集,验证集,测试集的切分。正负样本按照1:1.5的比例提取,正样本选择了包括所有低于100词频的关键词和高于1000的按比例抽样,负样本采取了随机抽样的方式,保证正样本的recall足够高。为了提升正样本的accuracy,该方法加入了词的共现概率矩阵,会计算出高频词的共现词矩阵,不单单像传统机器学习方案只考虑高频的单个词,经过one-hot向量的表示方法,矩阵变换,最终得到Xgboost的特征字典和矩阵分布。
one-hot具有快速实现的优点,也是自然语言处理领域最早最基本的向量表示方法之一,该方法采取one-hot是因为Xgboost提取的特征词典是有限的,不会造成维度灾难的问题,在得到one-hot向量的同时,该方法还获得了所有样本的N-gram,采取N-gram是为了更好的得到每个句子的词分布,计算共现词的概率。
深度学习方面该方法提取了100W个词用于word2vec的向量训练,之所以选择较大规模的样本,是为了保证word2vec的训练分布,词向量有更好的表达,更好的减少未登录词的影响。在word2vec的训练过程中,该方法加入了上下文词的特征和语言规则,用于保证word2vec向量的精度和空间度,最终得到了100W500维的词向量字典。
Xgboost+Bi-Lstm+Attention训练模型模块
本模块主要分成两部分,基于特征工程的Xgboost和双向的两层LSTM+Attention。如图3所示,利用预处理模块得到的特征字典,根据设定的阈值得到一个预测结果,然后利用Bi-LSTM+Attention得到一个预测结果,然后根据输出模块的阈值进行两个模块的权重融合投票,给出最终的结果。
可选地,该方法采取了Xgboost的算法,利用lightGBM的分布式加速训练机制,把10000维的向量和特征字典作为输入,训练35轮,最大深度设置为5,得到预测分类结果。
为了保证打击的有效型,该方法采取了循环神经网络。传统的神经网络LSTM模型,提取的是sentence的序列特征,处理sentence的每个time steps。但是实验发现,LSTM存在两大缺点:
(1)LSTM在处理自然语言语句时,因为是序列输入,处理这一时刻的输入数据时只收到当前输入词和此时刻前输入词的影响,而日常生活中人们所说的语句中存在前后关联,并不只是受到前面词语的影响。
(2)在使用LSTM对自然语言处理时候,向LSTM输入一条sentence,得到encodervector,然后使用encode vector去做分类或者decoder成另一条sentence(比如翻译),无论语句多长都会被压缩成一个几百维的vector,这就意味着语句越长,最后的得到的finalstate vector就会损失越多的信息,模型的performance会随着sentence的长度增加而降低.
因此该方法采取了Bi-lstm模型,完整的考虑了玩家说话的上下文信息,从前后两个方向进行分别的传播,避免了处理时序数据时只受上一时刻数据的影响。
在LSTM中加入Attention机制,Attention在NLP中的思想就是使得一个模型完全可以在分类的过程中利用sentence的全部信息,模型保存每个time steps的hidden statevector输出作为Attention的输入,最后使用Attention的输出作为模型分类的featurevector,让模型自己识别哪一部分是对分类结果最优帮助的信息,而不仅仅是finalstatevector,Attention长文本优势明显,Attention在短文本优势相比较于长文本优势略小。Bi-LSTM更具有普适性,在应对长短语句时都具有较好的效果
在训练word2vec的时候,对word embedding层初始化后,前期的神经网络loss太大,反向传播时梯度较大,造成神经网络初期内部参数变化明显,为保证有效利用初始化值,在训练初期,将word embedding层所有参数设置为un-trainable,在迭代几个epoch后,让embedding层进入训练,对embedding层的词向量矩阵进行微调。
Xgboost的输出结果和Bi-lstm的输出结果会做一个权重的统计,由阈值确定比例进行最终的言论骚扰的输出。
如图4所示,该方法的整体技术流程可以描述为:
需求方以Spark-driver Batch Post请求的方式访问后台接口,共有十个字段。
服务器端程序接受到访问请求后,进行json解析,传参给机器学习和深度学习模型,两个模型分别计算出结果后,根据设定的阈值给出最终答案。为了防止访问量某一时刻过大,该方法可以在服务端做了分布式缓存和最大队列请求设置,支持横向扩展。
服务端接口处理完毕,以json的形式返回给需求方,需求方得到骚扰言论,结合业务输出打击与否。
可选地,服务部署情况可以为:情感分析模块程序部署在服务器上,服务器配置为Intel(R)Xeon(R)CPU E5-2620v3,40G内存。深度学习模块基于以python,调用tensorflow检测模块,服务器配置为Intel(R)Xeon(R)CPU E5-2620v3,60G内存,512SSD。
该方法可以应用于自由幻想手游和华夏端游的言论打击系统,作为检测玩家骚扰言论的核心模块。它主要有3个作用:
1、24小时全天候检测玩家骚扰言论,并上报给后台服务端;
2、监控和挖掘骚扰信息中的新词和未登录词,为游戏运营和策划提供智能决策;
3、实时响应打击玩家骚扰,有效的净化了游戏内环境,一定程度上提高了游戏内玩家的留存率。
如图5所示,该方法接收到业务方的10个不同参数,date_time,dteventtiem,area,platid,partition,openid,id,targetid,is_shield,content,content是要识别的每一个聊天,模型识别后,会有一个新的参数,content_type,如果是骚扰言论就是1,非骚扰为0。
如图6所示,该方法接收到业务方的10个不同参数,date_time,dteventtiem,area,platid,partition,openid,id,targetid,is_shield,content,content是要识别的每一个聊天,模型识别后,会有一个新的参数,content_type,如果是骚扰言论就是1,非骚扰为0。
本发明首先替代了传统人工策划运营去配置字典,人工筛选骚扰言论的做法,大大减少了人力成本,其次在传统的机器学习和深度学习上,本发明做了AI模型的融合,上线后的准确率和召回率都在98.5%左右,有效的净化了游戏内环境,提高了玩家的留存率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
根据本发明实施例的另一个方面,还提供了一种用于实施上述语句类型识别方法的语句类型识别装置。图7是根据本发明实施例的一种可选的语句类型识别装置的示意图,如图7所示,该装置可以包括:
第一获取单元22,用于获取语句识别请求,其中,语句识别请求用于确认目标帐号在目标应用中发布的待识别语句是否属于目标类型,目标类型为禁止在目标应用中发布的语句的类型;第二获取单元24,用于响应语句识别请求,获取待识别语句的目标特征向量,其中,目标特征向量用于表示待识别语句;第三获取单元26,用于根据训练好的分类模型和目标特征向量获取类型识别结果,其中,目标特征向量为训练好的分类模型的输入,类型识别结果用于指示待识别语句是否属于目标类型,训练好的分类模型至少用于通过上下文语句的特征向量对目标特征向量进行实时识别,上下文语句为目标帐号在目标应用中发布的、且与待识别语句相邻的语句。
需要说明的是,该实施例中的第一获取单元22可以用于执行本申请实施例中的步骤S202,该实施例中的第二获取单元24可以用于执行本申请实施例中的步骤S204,该实施例中的第三获取单元26可以用于执行本申请实施例中的步骤S206。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
可选地,训练好的分类模型可以包括:机器学习分类模型以及深度学习分类模型,其中,第三获取单元26可以包括:第一获取模块,用于根据机器学习分类模型和目标特征向量获取第一类型识别结果,其中,第一类型识别结果用于指示待识别语句是否属于目标类型,目标特征向量为机器学习分类模型的输入;第二获取模块,用于根据深度学习分类模型、目标特征向量和上下文语句的特征向量获取第二类型识别结果,其中,第二类型识别结果用于指示待识别语句是否属于目标类型,其中,目标特征向量和上下文语句的特征向量为深度学习分类模型的输入;第一确定模块,用于在第一类型识别结果与第二类型识别结果相同的情况下,确定类型识别结果为第一类型识别结果。
可选地,第三获取单元26还可以包括:第二确定模块,用于在第一类型识别结果与第一类型识别结果不相同的情况下,确定类型识别结果为用于指示待识别语句属于目标类型;或比较模块,用于比较用于表示第一类型识别结果的第一数值与用于表示第一类型识别结果的第二数值;第三确定模块,用于在第一数值大于第二数值的情况下,确定类型识别结果为第一类型识别结果;第四确定模块,用于在第一数值小于第二数值的情况下,确定类型识别结果为第二类型识别结果。
可选地,该装置还可以包括:第一训练单元,用于在获取语句识别请求之前,使用第一样本集合中的语句的特征向量对第一神经网络模型进行分类训练,得到机器学习分类模型,其中,训练好的分类模型包括机器学习分类模型,第一样本集合中的语句的特征向量包括:在第一样本集合中出现频率大于第一词频的第一词语的特征向量、在第一样本集合中出现频率小于第二词频的第二词语的特征向量、以及在第一样本集合中随机选取的第三词语的特征向量。
可选地,该装置还可以包括:第二训练单元,用于在获取语句识别请求之前,使用第二样本集合中的语句的特征向量对第二神经网络模型进行分类训练,得到深度学习分类模型,其中,训练好的分类模型包括深度学习分类模型,第二样本集合中的语句的特征向量包括:目标应用中的相同帐号发布的相邻的多个语句的特征向量。
可选地,目标应用可以为游戏应用,该装置还可以包括:第一发送单元,用于在根据训练好的分类模型和目标特征向量获取类型识别结果之后,在类型识别结果指示待识别语句属于目标类型的情况下,向游戏应用发送第一提示信息,其中,第一提示信息用于指示待识别语句属于目标类型;或第二发送单元,用于向游戏应用发送第一控制指令,其中,第一控制指令用于禁止在游戏应用的界面中显示待识别语句;或第三发送单元,用于向游戏应用发送第二控制指令,其中,第二控制指令用于禁止目标帐号在目标时间段内在游戏应用中发布语句。
可选地,目标应用可以为社交应用,该装置还可以包括:第四发送单元,用于在根据训练好的分类模型和目标特征向量获取类型识别结果之后,在类型识别结果指示待识别语句属于目标类型的情况下,向社交应用发送第二提示信息,其中,第二提示信息用于指示待识别语句属于目标类型;或第五发送单元,用于向社交应用发送第三控制指令,其中,第三控制指令用于禁止在社交应用的界面中显示待识别语句;或第六发送单元,用于向社交应用发送第四控制指令,其中,第四控制指令用于禁止目标帐号在目标时间段内在社交应用中发布语句。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
通过上述单元及模块,达到了快速准确地检测待识别语句是否属于目标类型的目的,从而实现了提高检测用户言论是否属于骚然言论的准确度和效率的技术效果,进而解决了相关技术检测用户言论是否属于骚扰言论的准确度较低的技术问题。
根据本发明实施例的又一个方面,还提供了一种用于实施上述语句类型识别方法的电子装置。
图8是根据本发明实施例的一种电子装置的结构框图,如图8所示,该电子装置可以包括:一个或多个(图中仅示出一个)处理器201、存储器203,其中,存储器203中可以存储有计算机程序,处理器201可以被设置为运行所述计算机程序以执行本发明实施例的语句类型识别方法。
其中,存储器203可用于存储计算机程序以及模块,如本发明实施例中的语句类型识别方法和装置对应的程序指令/模块,处理器201通过运行存储在存储器203内的计算机程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的语句类型识别方法。存储器203可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器203可进一步包括相对于处理器201远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
可选地,如图8所示,该电子装置还可以包括:传输装置205以及输入输出设备207。其中,传输装置205用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置205包括一个网络适配器(Network InterfaceController,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置205为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图8所示的结构仅为示意,电子装置可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如,电子装置还可以包括比图8中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图8所示不同的配置。
可选地,在本实施例中,上述存储器203可以用于存储计算机程序。
可选地,在本实施例中,上述处理器可以被设置为运行计算机程序,以执行以下步骤:获取语句识别请求,其中,语句识别请求用于确认目标帐号在目标应用中发布的待识别语句是否属于目标类型,目标类型为禁止在目标应用中发布的语句的类型;响应语句识别请求,获取待识别语句的目标特征向量,其中,目标特征向量用于表示待识别语句;根据训练好的分类模型和目标特征向量获取类型识别结果,其中,目标特征向量为训练好的分类模型的输入,类型识别结果用于指示待识别语句是否属于目标类型,训练好的分类模型至少用于通过上下文语句的特征向量对目标特征向量进行实时识别,上下文语句为目标帐号在目标应用中发布的、且与待识别语句相邻的语句。
处理器201还用于执行下述步骤:根据机器学习分类模型和目标特征向量获取第一类型识别结果,其中,第一类型识别结果用于指示待识别语句是否属于目标类型,目标特征向量为机器学习分类模型的输入;根据深度学习分类模型、目标特征向量和上下文语句的特征向量获取第二类型识别结果,其中,第二类型识别结果用于指示待识别语句是否属于目标类型,其中,目标特征向量和上下文语句的特征向量为深度学习分类模型的输入;在第一类型识别结果与第二类型识别结果相同的情况下,确定类型识别结果为第一类型识别结果,训练好的分类模型包括:机器学习分类模型以及深度学习分类模型。
处理器201还用于执行下述步骤:在第一类型识别结果与第一类型识别结果不相同的情况下,确定类型识别结果为用于指示待识别语句属于目标类型;或比较用于表示第一类型识别结果的第一数值与用于表示第一类型识别结果的第二数值;在第一数值大于第二数值的情况下,确定类型识别结果为第一类型识别结果;在第一数值小于第二数值的情况下,确定类型识别结果为第二类型识别结果。
处理器201还用于执行下述步骤:在获取语句识别请求之前,使用第一样本集合中的语句的特征向量对第一神经网络模型进行分类训练,得到机器学习分类模型,其中,训练好的分类模型包括机器学习分类模型,第一样本集合中的语句的特征向量包括:在第一样本集合中出现频率大于第一词频的第一词语的特征向量、在第一样本集合中出现频率小于第二词频的第二词语的特征向量、以及在第一样本集合中随机选取的第三词语的特征向量。
处理器201还用于执行下述步骤:在获取语句识别请求之前,使用第二样本集合中的语句的特征向量对第二神经网络模型进行分类训练,得到深度学习分类模型,其中,训练好的分类模型包括深度学习分类模型,第二样本集合中的语句的特征向量包括:目标应用中的相同帐号发布的相邻的多个语句的特征向量。
处理器201还用于执行下述步骤:在根据训练好的分类模型和目标特征向量获取类型识别结果之后,在类型识别结果指示待识别语句属于目标类型的情况下,向游戏应用发送第一提示信息,其中,第一提示信息用于指示待识别语句属于目标类型;或向游戏应用发送第一控制指令,其中,第一控制指令用于禁止在游戏应用的界面中显示待识别语句;或向游戏应用发送第二控制指令,其中,第二控制指令用于禁止目标帐号在目标时间段内在游戏应用中发布语句,目标应用为游戏应用。
处理器201还用于执行下述步骤:在根据训练好的分类模型和目标特征向量获取类型识别结果之后,在类型识别结果指示待识别语句属于目标类型的情况下,向社交应用发送第二提示信息,其中,第二提示信息用于指示待识别语句属于目标类型;或向社交应用发送第三控制指令,其中,第三控制指令用于禁止在社交应用的界面中显示待识别语句;或向社交应用发送第四控制指令,其中,第四控制指令用于禁止目标帐号在目标时间段内在社交应用中发布语句,目标应用为社交应用。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
采用本发明实施例,提供了一种语句类型识别方案。在获取到语句识别请求之后,通过获取待识别语句的目标特征向量,然后根据训练好的分类模型和目标特征向量获取类型识别结果,其中,目标特征向量为训练好的分类模型的输入,类型识别结果用于指示待识别语句是否属于目标类型,训练好的分类模型至少用于通过上下文语句的特征向量对目标特征向量进行实时识别,上下文语句为目标帐号在目标应用中发布的、且与待识别语句相邻的语句,达到了快速准确地检测待识别语句是否属于目标类型的目的,从而实现了提高检测用户言论是否属于骚然言论的准确度和效率的技术效果,进而解决了相关技术检测用户言论是否属于骚扰言论的准确度较低的技术问题。
根据本发明实施例的又一个方面,还提供了一种存储介质。该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述实施例中语句类型识别方法的步骤。
可选地,在本实施例中,存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的计算机程序:
S1,获取语句识别请求,其中,语句识别请求用于确认目标帐号在目标应用中发布的待识别语句是否属于目标类型,目标类型为禁止在目标应用中发布的语句的类型;
S2,响应语句识别请求,获取待识别语句的目标特征向量,其中,目标特征向量用于表示待识别语句;
S3,根据训练好的分类模型和目标特征向量获取类型识别结果,其中,目标特征向量为训练好的分类模型的输入,类型识别结果用于指示待识别语句是否属于目标类型,训练好的分类模型至少用于通过上下文语句的特征向量对目标特征向量进行实时识别,上下文语句为目标帐号在目标应用中发布的、且与待识别语句相邻的语句。
可选地,存储介质还被设置为存储用于执行以下步骤的计算机程序:根据机器学习分类模型和目标特征向量获取第一类型识别结果,其中,第一类型识别结果用于指示待识别语句是否属于目标类型,目标特征向量为机器学习分类模型的输入;根据深度学习分类模型、目标特征向量和上下文语句的特征向量获取第二类型识别结果,其中,第二类型识别结果用于指示待识别语句是否属于目标类型,其中,目标特征向量和上下文语句的特征向量为深度学习分类模型的输入;在第一类型识别结果与第二类型识别结果相同的情况下,确定类型识别结果为第一类型识别结果,训练好的分类模型包括:机器学习分类模型以及深度学习分类模型。
可选地,存储介质还被设置为存储用于执行以下步骤的计算机程序:在第一类型识别结果与第一类型识别结果不相同的情况下,确定类型识别结果为用于指示待识别语句属于目标类型;或比较用于表示第一类型识别结果的第一数值与用于表示第一类型识别结果的第二数值;在第一数值大于第二数值的情况下,确定类型识别结果为第一类型识别结果;在第一数值小于第二数值的情况下,确定类型识别结果为第二类型识别结果。
可选地,存储介质还被设置为存储用于执行以下步骤的计算机程序:在获取语句识别请求之前,使用第一样本集合中的语句的特征向量对第一神经网络模型进行分类训练,得到机器学习分类模型,其中,训练好的分类模型包括机器学习分类模型,第一样本集合中的语句的特征向量包括:在第一样本集合中出现频率大于第一词频的第一词语的特征向量、在第一样本集合中出现频率小于第二词频的第二词语的特征向量、以及在第一样本集合中随机选取的第三词语的特征向量。
可选地,存储介质还被设置为存储用于执行以下步骤的计算机程序:在获取语句识别请求之前,使用第二样本集合中的语句的特征向量对第二神经网络模型进行分类训练,得到深度学习分类模型,其中,训练好的分类模型包括深度学习分类模型,第二样本集合中的语句的特征向量包括:目标应用中的相同帐号发布的相邻的多个语句的特征向量。
可选地,存储介质还被设置为存储用于执行以下步骤的计算机程序:在根据训练好的分类模型和目标特征向量获取类型识别结果之后,在类型识别结果指示待识别语句属于目标类型的情况下,向游戏应用发送第一提示信息,其中,第一提示信息用于指示待识别语句属于目标类型;或向游戏应用发送第一控制指令,其中,第一控制指令用于禁止在游戏应用的界面中显示待识别语句;或向游戏应用发送第二控制指令,其中,第二控制指令用于禁止目标帐号在目标时间段内在游戏应用中发布语句,目标应用为游戏应用。
可选地,存储介质还被设置为存储用于执行以下步骤的计算机程序:在根据训练好的分类模型和目标特征向量获取类型识别结果之后,在类型识别结果指示待识别语句属于目标类型的情况下,向社交应用发送第二提示信息,其中,第二提示信息用于指示待识别语句属于目标类型;或向社交应用发送第三控制指令,其中,第三控制指令用于禁止在社交应用的界面中显示待识别语句;或向社交应用发送第四控制指令,其中,第四控制指令用于禁止目标帐号在目标时间段内在社交应用中发布语句,目标应用为社交应用。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (16)
1.一种语句类型识别方法,其特征在于,包括:
获取语句识别请求,其中,所述语句识别请求用于确认目标帐号在目标应用中发布的待识别语句是否属于目标类型,所述目标类型为禁止在所述目标应用中发布的语句的类型;
响应所述语句识别请求,获取所述待识别语句的目标特征向量,其中,所述目标特征向量用于表示所述待识别语句;
根据训练好的分类模型和所述目标特征向量获取类型识别结果,其中,所述目标特征向量为所述训练好的分类模型的输入,所述类型识别结果用于指示所述待识别语句是否属于所述目标类型,所述训练好的分类模型至少用于通过上下文语句的特征向量对所述目标特征向量进行实时识别,所述上下文语句为所述目标帐号在所述目标应用中发布的、且与所述待识别语句相邻的语句。
2.根据权利要求1所述的方法,其特征在于,所述训练好的分类模型包括:机器学习分类模型以及深度学习分类模型,其中,所述根据训练好的分类模型和所述目标特征向量获取类型识别结果包括:
根据所述机器学习分类模型和所述目标特征向量获取第一类型识别结果,其中,所述第一类型识别结果用于指示所述待识别语句是否属于所述目标类型,所述目标特征向量为所述机器学习分类模型的输入;
根据所述深度学习分类模型、所述目标特征向量和所述上下文语句的特征向量获取第二类型识别结果,其中,所述第二类型识别结果用于指示所述待识别语句是否属于所述目标类型,其中,所述目标特征向量和所述上下文语句的特征向量为所述深度学习分类模型的输入;
在所述第一类型识别结果与所述第二类型识别结果相同的情况下,确定所述类型识别结果为所述第一类型识别结果。
3.根据权利要求2所述的方法,其特征在于,在所述第一类型识别结果与所述第一类型识别结果不相同的情况下,所述方法还包括:
确定所述类型识别结果为用于指示所述待识别语句属于所述目标类型;或
比较用于表示所述第一类型识别结果的第一数值与用于表示所述第一类型识别结果的第二数值;在所述第一数值大于所述第二数值的情况下,确定所述类型识别结果为所述第一类型识别结果;在所述第一数值小于所述第二数值的情况下,确定所述类型识别结果为所述第二类型识别结果。
4.根据权利要求1所述的方法,其特征在于,在所述获取语句识别请求之前,所述方法还包括:
使用第一样本集合中的语句的特征向量对第一神经网络模型进行分类训练,得到机器学习分类模型,其中,所述训练好的分类模型包括所述机器学习分类模型,所述第一样本集合中的语句的特征向量包括:在所述第一样本集合中出现频率大于第一词频的第一词语的特征向量、在所述第一样本集合中出现频率小于第二词频的第二词语的特征向量、以及在所述第一样本集合中随机选取的第三词语的特征向量。
5.根据权利要求1所述的方法,其特征在于,在所述获取语句识别请求之前,所述方法还包括:
使用第二样本集合中的语句的特征向量对第二神经网络模型进行分类训练,得到深度学习分类模型,其中,所述训练好的分类模型包括所述深度学习分类模型,所述第二样本集合中的语句的特征向量包括:所述目标应用中的相同帐号发布的相邻的多个语句的特征向量。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述目标应用为游戏应用,在所述根据训练好的分类模型和所述目标特征向量获取类型识别结果之后,所述方法还包括:
在所述类型识别结果指示所述待识别语句属于所述目标类型的情况下,向所述游戏应用发送第一提示信息,其中,所述第一提示信息用于指示所述待识别语句属于所述目标类型;或
向所述游戏应用发送第一控制指令,其中,所述第一控制指令用于禁止在所述游戏应用的界面中显示所述待识别语句;或
向所述游戏应用发送第二控制指令,其中,所述第二控制指令用于禁止所述目标帐号在目标时间段内在所述游戏应用中发布语句。
7.根据权利要求1至5中任一项所述的方法,其特征在于,所述目标应用为社交应用,在所述根据训练好的分类模型和所述目标特征向量获取类型识别结果之后,所述方法还包括:
在所述类型识别结果指示所述待识别语句属于所述目标类型的情况下,向所述社交应用发送第二提示信息,其中,所述第二提示信息用于指示所述待识别语句属于所述目标类型;或
向所述社交应用发送第三控制指令,其中,所述第三控制指令用于禁止在所述社交应用的界面中显示所述待识别语句;或
向所述社交应用发送第四控制指令,其中,所述第四控制指令用于禁止所述目标帐号在目标时间段内在所述社交应用中发布语句。
8.一种语句类型识别装置,其特征在于,包括:
第一获取单元,用于获取语句识别请求,其中,所述语句识别请求用于确认目标帐号在目标应用中发布的待识别语句是否属于目标类型,所述目标类型为禁止在所述目标应用中发布的语句的类型;
第二获取单元,用于响应所述语句识别请求,获取所述待识别语句的目标特征向量,其中,所述目标特征向量用于表示所述待识别语句;
第三获取单元,用于根据训练好的分类模型和所述目标特征向量获取类型识别结果,其中,所述目标特征向量为所述训练好的分类模型的输入,所述类型识别结果用于指示所述待识别语句是否属于所述目标类型,所述训练好的分类模型至少用于通过上下文语句的特征向量对所述目标特征向量进行实时识别,所述上下文语句为所述目标帐号在所述目标应用中发布的、且与所述待识别语句相邻的语句。
9.根据权利要求8所述的装置,其特征在于,所述训练好的分类模型包括:机器学习分类模型以及深度学习分类模型,其中,所述第三获取单元包括:
第一获取模块,用于根据所述机器学习分类模型和所述目标特征向量获取第一类型识别结果,其中,所述第一类型识别结果用于指示所述待识别语句是否属于所述目标类型,所述目标特征向量为所述机器学习分类模型的输入;
第二获取模块,用于根据所述深度学习分类模型、所述目标特征向量和所述上下文语句的特征向量获取第二类型识别结果,其中,所述第二类型识别结果用于指示所述待识别语句是否属于所述目标类型,其中,所述目标特征向量和所述上下文语句的特征向量为所述深度学习分类模型的输入;
第一确定模块,用于在所述第一类型识别结果与所述第二类型识别结果相同的情况下,确定所述类型识别结果为所述第一类型识别结果。
10.根据权利要求9所述的装置,其特征在于,所述第三获取单元还包括:
第二确定模块,用于在所述第一类型识别结果与所述第一类型识别结果不相同的情况下,确定所述类型识别结果为用于指示所述待识别语句属于所述目标类型;或
比较模块,用于比较用于表示所述第一类型识别结果的第一数值与用于表示所述第一类型识别结果的第二数值;第三确定模块,用于在所述第一数值大于所述第二数值的情况下,确定所述类型识别结果为所述第一类型识别结果;第四确定模块,用于在所述第一数值小于所述第二数值的情况下,确定所述类型识别结果为所述第二类型识别结果。
11.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第一训练单元,用于在所述获取语句识别请求之前,使用第一样本集合中的语句的特征向量对第一神经网络模型进行分类训练,得到机器学习分类模型,其中,所述训练好的分类模型包括所述机器学习分类模型,所述第一样本集合中的语句的特征向量包括:在所述第一样本集合中出现频率大于第一词频的第一词语的特征向量、在所述第一样本集合中出现频率小于第二词频的第二词语的特征向量、以及在所述第一样本集合中随机选取的第三词语的特征向量。
12.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二训练单元,用于在所述获取语句识别请求之前,使用第二样本集合中的语句的特征向量对第二神经网络模型进行分类训练,得到深度学习分类模型,其中,所述训练好的分类模型包括所述深度学习分类模型,所述第二样本集合中的语句的特征向量包括:所述目标应用中的相同帐号发布的相邻的多个语句的特征向量。
13.根据权利要求8至12中任一项所述的装置,其特征在于,所述目标应用为游戏应用,所述装置还包括:
第一发送单元,用于在所述根据训练好的分类模型和所述目标特征向量获取类型识别结果之后,在所述类型识别结果指示所述待识别语句属于所述目标类型的情况下,向所述游戏应用发送第一提示信息,其中,所述第一提示信息用于指示所述待识别语句属于所述目标类型;或
第二发送单元,用于向所述游戏应用发送第一控制指令,其中,所述第一控制指令用于禁止在所述游戏应用的界面中显示所述待识别语句;或
第三发送单元,用于向所述游戏应用发送第二控制指令,其中,所述第二控制指令用于禁止所述目标帐号在目标时间段内在所述游戏应用中发布语句。
14.根据权利要求8至12中任一项所述的装置,其特征在于,所述目标应用为社交应用,所述装置还包括:
第四发送单元,用于在所述根据训练好的分类模型和所述目标特征向量获取类型识别结果之后,在所述类型识别结果指示所述待识别语句属于所述目标类型的情况下,向所述社交应用发送第二提示信息,其中,所述第二提示信息用于指示所述待识别语句属于所述目标类型;或
第五发送单元,用于向所述社交应用发送第三控制指令,其中,所述第三控制指令用于禁止在所述社交应用的界面中显示所述待识别语句;或
第六发送单元,用于向所述社交应用发送第四控制指令,其中,所述第四控制指令用于禁止所述目标帐号在目标时间段内在所述社交应用中发布语句。
15.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。
16.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810589617.XA CN108897732B (zh) | 2018-06-08 | 2018-06-08 | 语句类型识别方法和装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810589617.XA CN108897732B (zh) | 2018-06-08 | 2018-06-08 | 语句类型识别方法和装置、存储介质及电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108897732A true CN108897732A (zh) | 2018-11-27 |
CN108897732B CN108897732B (zh) | 2020-08-25 |
Family
ID=64344648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810589617.XA Active CN108897732B (zh) | 2018-06-08 | 2018-06-08 | 语句类型识别方法和装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108897732B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635296A (zh) * | 2018-12-08 | 2019-04-16 | 广州荔支网络技术有限公司 | 新词挖掘方法、装置计算机设备和存储介质 |
CN109783804A (zh) * | 2018-12-17 | 2019-05-21 | 北京百度网讯科技有限公司 | 低质言论识别方法、装置、设备及计算机可读存储介质 |
CN110162620A (zh) * | 2019-01-10 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 黑产广告的检测方法、装置、服务器及存储介质 |
CN110705250A (zh) * | 2019-09-23 | 2020-01-17 | 义语智能科技(广州)有限公司 | 一种用于识别聊天记录中目标内容的方法与系统 |
CN111210336A (zh) * | 2019-12-16 | 2020-05-29 | 北京淇瑀信息科技有限公司 | 用户风险模型生成方法、装置及电子设备 |
CN111210335A (zh) * | 2019-12-16 | 2020-05-29 | 北京淇瑀信息科技有限公司 | 用户风险识别方法、装置及电子设备 |
CN111553167A (zh) * | 2020-04-28 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 文本类型识别方法和装置及存储介质 |
CN112417108A (zh) * | 2020-10-26 | 2021-02-26 | 出门问问(苏州)信息科技有限公司 | 一种请求类型识别方法、装置和计算机可读存储介质 |
CN112749530A (zh) * | 2021-01-11 | 2021-05-04 | 北京光速斑马数据科技有限公司 | 文本编码方法、装置、设备及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034626A (zh) * | 2012-12-26 | 2013-04-10 | 上海交通大学 | 情感分析系统及方法 |
US20140379743A1 (en) * | 2006-10-20 | 2014-12-25 | Google Inc. | Finding and disambiguating references to entities on web pages |
CN105955951A (zh) * | 2016-04-29 | 2016-09-21 | 中山大学 | 一种消息过滤的方法及装置 |
CN106445908A (zh) * | 2015-08-07 | 2017-02-22 | 阿里巴巴集团控股有限公司 | 文本识别方法和装置 |
CN106919661A (zh) * | 2017-02-13 | 2017-07-04 | 腾讯科技(深圳)有限公司 | 一种情感类型识别方法及相关装置 |
CN107943941A (zh) * | 2017-11-23 | 2018-04-20 | 珠海金山网络游戏科技有限公司 | 一种可迭代更新的垃圾文本识别方法和系统 |
-
2018
- 2018-06-08 CN CN201810589617.XA patent/CN108897732B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140379743A1 (en) * | 2006-10-20 | 2014-12-25 | Google Inc. | Finding and disambiguating references to entities on web pages |
CN103034626A (zh) * | 2012-12-26 | 2013-04-10 | 上海交通大学 | 情感分析系统及方法 |
CN106445908A (zh) * | 2015-08-07 | 2017-02-22 | 阿里巴巴集团控股有限公司 | 文本识别方法和装置 |
CN105955951A (zh) * | 2016-04-29 | 2016-09-21 | 中山大学 | 一种消息过滤的方法及装置 |
CN106919661A (zh) * | 2017-02-13 | 2017-07-04 | 腾讯科技(深圳)有限公司 | 一种情感类型识别方法及相关装置 |
CN107943941A (zh) * | 2017-11-23 | 2018-04-20 | 珠海金山网络游戏科技有限公司 | 一种可迭代更新的垃圾文本识别方法和系统 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635296B (zh) * | 2018-12-08 | 2023-03-31 | 广州荔支网络技术有限公司 | 新词挖掘方法、装置计算机设备和存储介质 |
CN109635296A (zh) * | 2018-12-08 | 2019-04-16 | 广州荔支网络技术有限公司 | 新词挖掘方法、装置计算机设备和存储介质 |
CN109783804A (zh) * | 2018-12-17 | 2019-05-21 | 北京百度网讯科技有限公司 | 低质言论识别方法、装置、设备及计算机可读存储介质 |
CN109783804B (zh) * | 2018-12-17 | 2023-07-07 | 北京百度网讯科技有限公司 | 低质言论识别方法、装置、设备及计算机可读存储介质 |
CN110162620A (zh) * | 2019-01-10 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 黑产广告的检测方法、装置、服务器及存储介质 |
CN110162620B (zh) * | 2019-01-10 | 2023-08-18 | 腾讯科技(深圳)有限公司 | 黑产广告的检测方法、装置、服务器及存储介质 |
CN110705250A (zh) * | 2019-09-23 | 2020-01-17 | 义语智能科技(广州)有限公司 | 一种用于识别聊天记录中目标内容的方法与系统 |
CN111210335A (zh) * | 2019-12-16 | 2020-05-29 | 北京淇瑀信息科技有限公司 | 用户风险识别方法、装置及电子设备 |
CN111210336A (zh) * | 2019-12-16 | 2020-05-29 | 北京淇瑀信息科技有限公司 | 用户风险模型生成方法、装置及电子设备 |
CN111210335B (zh) * | 2019-12-16 | 2023-11-14 | 北京淇瑀信息科技有限公司 | 用户风险识别方法、装置及电子设备 |
CN111553167A (zh) * | 2020-04-28 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 文本类型识别方法和装置及存储介质 |
CN112417108A (zh) * | 2020-10-26 | 2021-02-26 | 出门问问(苏州)信息科技有限公司 | 一种请求类型识别方法、装置和计算机可读存储介质 |
CN112417108B (zh) * | 2020-10-26 | 2024-04-05 | 出门问问创新科技有限公司 | 一种请求类型识别方法、装置和计算机可读存储介质 |
CN112749530A (zh) * | 2021-01-11 | 2021-05-04 | 北京光速斑马数据科技有限公司 | 文本编码方法、装置、设备及计算机可读存储介质 |
CN112749530B (zh) * | 2021-01-11 | 2023-12-19 | 北京光速斑马数据科技有限公司 | 文本编码方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108897732B (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108897732A (zh) | 语句类型识别方法和装置、存储介质及电子装置 | |
CN108737406B (zh) | 一种异常流量数据的检测方法及系统 | |
CN105893478B (zh) | 一种标签提取方法及设备 | |
CN106919661B (zh) | 一种情感类型识别方法及相关装置 | |
CN108536681A (zh) | 基于情感分析的智能问答方法、装置、设备及存储介质 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN107402913A (zh) | 先行词的确定方法和装置 | |
CN108345587A (zh) | 一种评论的真实性检测方法与系统 | |
CN110427463A (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
CN108549658A (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN110266647A (zh) | 一种命令和控制通信检测方法及系统 | |
CN105072214B (zh) | 基于域名特征的c&c域名识别方法 | |
CN104484336B (zh) | 一种中文评论分析方法及其系统 | |
CN106599110A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN109635108A (zh) | 一种基于人机交互的远程监督实体关系抽取方法 | |
CN108304442A (zh) | 一种文本信息处理方法、装置及存储介质 | |
CN110197389A (zh) | 一种用户识别方法及装置 | |
CN108491389A (zh) | 点击诱饵标题语料识别模型训练方法和装置 | |
CN113179263A (zh) | 一种网络入侵检测方法、装置及设备 | |
CN103646074B (zh) | 一种确定图片簇描述文本核心词的方法及装置 | |
CN108304364A (zh) | 关键词提取方法和装置 | |
CN107506389A (zh) | 一种提取职位技能需求的方法和装置 | |
CN109492221A (zh) | 一种基于语义分析的信息回复方法及可穿戴设备 | |
CN110032859A (zh) | 异常帐户鉴别方法与装置及介质 | |
CN109325124A (zh) | 一种情感分类方法、装置、服务器和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |