CN107657286B

CN107657286B - 一种广告识别方法及计算机可读存储介质

Info

Publication number: CN107657286B
Application number: CN201710980185.0A
Authority: CN
Inventors: 郭祥昊
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2017-10-19
Filing date: 2017-10-19
Publication date: 2020-05-05
Anticipated expiration: 2037-10-19
Also published as: CN107657286A

Abstract

本发明提供了一种广告识别方法及计算机可读存储介质，该方法包括以下步骤：广告识别步骤以及广告库更新步骤，广告识别步骤包括：读取非系统消息语料，以至少读取用户ID和语料内容；将读取的语料和广告库中的语料进行相似度匹配，基于相似度匹配结果确定所述语料是否为广告；广告库更新步骤包括：将被确定为非广告的非系统消息语料加入到在线语料库；获取在线语料库中存储的多条语料的句子主干；基于获取的句子主干出现的频次以及用户ID确定是否将句子主干放入广告库中，从而在确定放入广告库中的情况下更新广告库。本发明无需人工识别判断谁是广告用户，便能够自动识别广告从而能够加以过滤，节省人力成本，提高广告过滤的效率。

Description

一种广告识别方法及计算机可读存储介质

技术领域

本发明涉及网络技术，特别涉及一种广告识别方法及计算机可读存储介质。

背景技术

现有的网络游戏以及直播平台中，充斥着大量的广告信息。这些广告信息不但影响正常玩家的游戏/观看体验，而且还可能把玩家分流到其他游戏公司或直播平台。玩家是游戏公司以及直播平台最重要的资源，无论是玩家游戏体验差造成玩家流失，还是被分流到其他平台，对游戏公司以及直播平台来说都是很大的损失。

为了使游戏玩家不流失，游戏公司往往需要花费大量的时间和精力来确保玩家的游戏体验感。由于聊天中大量的广告信息会严重影响正常玩家之间的交流并导致体验感下降，所以说过滤聊天中的广告对游戏公司以及直播平台来说是非常迫切的需求。现在大部分的游戏广告公司和直播平台都是通过向客服举报和关键字匹配的办法来解决交流区发广告这个问题。单方面的通过玩家向客服举报然后禁言广告用户的方法虽然误封率低，但是并不能及时地处理问题，得等到客服审核通过才行，耗时时间长，处理的数量级小，不仅处理效率低人工成本高，而且不能针对海量的广告数据进行处理，是治标不治本的解决方法，被封号后广告用户仍然可以使用另外的社交账号来继续发广告。一些游戏运营商以及直播平台采用的关键字匹配的方法容易被广告发布者通过在关键字中加入拼音、各种插入符号、异体字、同音字或者谐音字等很多方法绕过，所以关键词匹配办法在实际使用中效果并不理想。并且，如果长时间使用关键字匹配而不更新关键字库的话，过滤效果会变得更差，而且关键字匹配只是基于内容的匹配方式，而没有基于发广告的其他特性来识别广告，过滤效果不够准确。

因此，需要一种能突破传统的广告过滤方法的局限性并能实时过滤大量广告数据的广告识别和过滤技术。

发明内容

有鉴于此，本发明的目的在于提供一种广告识别方法，以克服现有技术中的一个或多个缺陷。

为了实现本发明的目的，本发明的技术方案如下：

一种广告识别方法，包括广告识别步骤和广告库更新步骤：

所述广告识别步骤包括：

读取非系统消息语料，该步骤包括至少读取用户ID和语料内容，并去掉语料内容中的表情符号；

将读取的语料和广告库中的语料进行相似度匹配，基于相似度匹配结果确定所述语料是否为广告；

所述广告库更新步骤包括：

将被确定为非广告的非系统消息语料加入到在线语料库；

获取在线语料库中存储的多条语料的句子主干；

基于获取的句子主干出现的频次以及用户ID确定是否将句子主干放入广告库中，从而在确定放入广告库中的情况下更新广告库。

优选地，所述方法还包括：基于确定结果将非系统消息语料标记为广告或非广告；在所述读取非系统消息语料步骤之前还包括：接收语料，基于系统字段匹配确定接收的语料是否为系统消息，并将判断为系统消息的语料标记为非广告。

优选地，所述方法还包括：在聊天区显示被确定为非广告的语料，而不显示被确定为广告的语料。

优选地，所述获取在线语料库中存储的多条语料的句子主干的步骤包括：将所述在线语料库中存储的第一数量的语料中的语句基于语句相似度进行分类；将至少含有预定条数语料的类中的语料中出现频次低于预定频次指标的字符删除，获得句子主干；将各类中获得的句子主干两两进行相似度计算，基于相似度以及句子主干出现的频次选择一条句子主干放入在线主干库中；以及从在线主干库中选择长度和重复次数符合预定条件的句子主干，确定该主干对应的用户ID，在广告概率库中该用户ID对应的广告概率高于预定概率值的情况下或者在广告概率库中不存在该用户ID的情况下，将选择的句子主干放入广告概率库中。

优选地，所述第一数量的语料指200条语料；所述至少含有预定条数语料的类为至少含有5条语料的类。

优选地，将所述在线语料库中存储的第一数量的语料中的语句基于语句相似度进行分类的步骤包括：将第一数量的语料中的语句转换成词频表示的one-hot向量；计算向量间的余弦距离，将余弦距离大于预定值的向量归为一类，对语料进行分类。

优选地，在将所述在线语料库中存储的第一数量的语料中的语句基于语句相似度进行分类的步骤之前还包括：如果上述第一数量的语料中不同字符的个数≥第一数量值，则将每条语句中字频≤字频低限值的字符去掉，所述字频低限值为3-5。

优选地，所述读取非系统消息语料的步骤还包括：读取语料中的时间戳。

优选地，所述方法还包括：用户ID广告概率更新流程，该流程包括：将读取的非系统消息语料放入离线语料库；将所述离线语料库中存储的第二数量的语料基于用户ID进行分割；广告概率计算和更新步骤，该步骤基于各用户的语料数和/或各用户的语料的时间戳计算该用户ID发广告的概率，并更新广告概率库中的该用户ID的广告概率。

优选地，所述广告概率计算和更新步骤包括：针对各个用户ID，在对应用户的语料数在第一范围内时，采用第一算法步骤计算用户ID广告概率计算用户ID广告概率；在该用户的语料数在第二范围内时，采用第二算法步骤计算用户ID广告概率计算用户ID广告概率；以及基于用户ID在广告概率库中的记录更新计算的用户ID广告概率；其中，所述第一范围为大于等于第一语料数且小于第二语料数，所述第二范围为大于等于第二语料数；采用第一算法步骤计算用户ID广告概率的步骤包括：将当前用户的语料根据首字母ASCII码排序，将每条语句转换为频次表示的one-hot向量，并针对相邻两个向量分别计算余弦距离，基于计算的余弦距离获得余弦列表，并基于余弦列表中余弦距离的平均值计算用户ID广告概率；采用第二算法步骤计算用户ID广告概率的步骤包括：将当前用户的语料按照时间戳进行排序，计算相邻两条语料的时间差以及各个时间差出现的频次，将每个时间差出现的频次与所有时间差出现总频次的比值中的最大值作为均匀度概率；在均匀度概率大于等于第一阈值时，基于预设置的均匀度概率与用户ID广告概率之间的映射关系将该均匀度概率映射至用户ID广告概率，从而获得用户ID广告概率；在均匀度概率小于第一阈值时，采用第一算法步骤计算用户ID广告概率。

优选地，所述基于用户ID在广告概率库中的记录更新计算的用户ID广告概率的步骤包括：如果用户ID不在广告概率库中或者用户ID在广告概率库中记录的概率为0，则将计算出的用户ID广告概率作为该用户ID的广告概率记录在广告概率库中；如果用户ID存在于广告概率库中且该用户ID在广告概率库中记录的概率不为0，则基于如下公式更新用户ID广告概率：更新后的用户ID广告概率＝(原用户ID广告概率*原比较次数+计算出的用户ID广告概率)/(原比较次数+1)。

优选地，所述基于计算的余弦距离获得余弦列表的步骤包括：余弦距离调整步骤，该步骤在one-hot向量维度≤4且相邻两个向量的余弦距离≥第一余弦距离阈值的情况下，将该余弦距离乘以预定小于1的权重来更新该余弦距离，所述第一余弦距离阈值的取值范围为0.8-1之间；所述基于余弦列表中余弦距离的平均值计算用户ID广告概率的步骤包括：在用户语料条数大于预定语料数阈值时，以所述余弦列表中余弦距离的平均值作为用户ID广告概率；在用户语料条数小于等于预定语料数阈值时，以利用如下公司计算出的概率作为用户ID广告概率：用户ID广告概率＝1/预定语料数阈值*余弦距离的平均值*用户语料数。

优选地，所述基于余弦列表中余弦距离的平均值计算用户ID广告概率的步骤还包括：更新余弦距离列表的步骤，基于相邻余弦距离值的比较删除低于预定值的余弦距离。

优选地，所述方法还包括：基于用户ID的级别和/或用户ID广告概率设定用户的发言权限。

优选地，所述将读取的语料和广告库中的语料进行相似度匹配的步骤包括：基于fuzzywuzzy模糊匹配来计算读取的语料和广告库中的语料的相似度。

优选地，所述方法还包括：将广告库中相匹配的语句放到广告库最前面。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，该计算机程序被处理器执行时实现如上所述方法的步骤。

基于上述技术方案，本发明的有益效果是：

1、无需人工识别判断谁是广告用户，本发明能够自动识别广告从而能够加以过滤，节省人力成本，提高广告过滤的效率。

2、能及时对广告库进行更新，即使面对一些新出现的广告也能很好的匹配，具有很高的自适应能力，克服了以前关键字匹配方法的缺陷。

3、在本发明优选实施例中，还能够基于ID用户的行为对ID用户有一个评分机制(即用户为广告用户的概率)，多了一重滤网能更净化聊天交流区。

4、本发明的算法是基于统计机器学习算法，突破了传统的关键词匹配的局限性。

本领域技术人员应当理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

并且，应当理解，前述大体的描述和后续详尽的描述均为示例性说明和解释，并不应当用作对本发明所要求保护内容的限制。

附图说明

参考随附的附图，本发明更多的目的、功能和优点将通过本发明实施方式的如下描述得以阐明，其中：

图1为本发明一实施例中广告识别步骤的流程示意图；

图2为本发明一实施例中广告库更新步骤的流程示意图；

图3是本发明一实施例中获取在线语料库中的语料的句子主干的步骤的流程示意图；

图4是本发明一实施例中广告概率库更新步骤的流程示意图。

具体实施方式

通过参考示范性实施例，本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而，本发明并不受限于以下所公开的示范性实施例；可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

本发明提供了一种能够智能识别聊天信息中的广告识别方法，该方法可以利用在计算机处理器中运行的广告识别软件，如游戏插件来实现，但并不限于此。在一实施例中，该方法包括广告识别步骤和广告库更新步骤，其中广告识别步骤是在将语料显示在聊天窗口之前对待要显示的语料进行识别处理，即将接收到的用户的语料跟广告库中的语料进行相似度匹配，来判断用户发出的语料是否为广告。广告库更新步骤用于采用深度学习算法来对广告库进行自动更新，从而突破传统关键字匹配方法的局限性。

图1所示为本发明一实施例中广告识别步骤的流程示意图。如图1所示，广告识别步骤包括以下步骤：

步骤S110，接收语料，系统字段匹配确定接收的语料是否为系统消息，并将判断为系统消息的语料标记为非广告。

在将语料显示在聊天窗口之前，语料先由执行本发明的广告识别软件的处理器接收。接收的语料例如可包括系统消息和用户的发言(用户的语料)，通过系统字段匹配可以确定接收到的语料是否为系统消息。如果为系统消息，则可将该系统消息标记为非广告，而无需再对该消息进行其他处理，而是继续读入下一条语料。

在本发明另一实施例中，游戏后台可仅将不是系统消息的语料(如用户的发言)发送给执行本发明的广告识别软件的系统。此时，步骤S110可以省略。

步骤S120，读取非系统消息语料，该步骤包括至少读取用户ID和语料内容(Content)，并去掉语料内容中的表情符号。

除了读取用户ID和语料内容之外，优选的，本发明还可读取语料中的时间戳T。去掉语料内容中的表情符号的目的为消除表情符号对语料识别的干扰。

步骤S130，将读取的语料和广告库中的语料进行相似度匹配，基于相似度匹配结果确定该语料是否为广告。

在本发明一实施例中，是基于fuzzywuzzy模糊匹配来计算读取的语料和广告库中的语料的相似度。例如，如果匹配度≥0.8则认为读取的语料与广告库中的语料相似，即读取的语料被判定为广告，否则为非广告。在此，匹配度0.8作为匹配判断标准仅为示例，还可以基于想要的识别精度而将匹配判断标准设定地更低或更高。

此外，优选地，为了便于后续语料的更为快速地匹配，可将广告库中匹配上的语料放到广告库最前面。

在本发明另一实施例中，如果广告库为空，则确定该语料为非广告。

步骤S140，基于确定结果将读取的语料标记为广告或非广告。

例如，如果基于相似度匹配结果确定读取的语料为广告，则将该语料标记为广告；如果确定读取的语料为非广告，则将该语料标记为非广告。

此外，如果广告库为空，则将读取的语料标记为非广告。

游戏软件的执行系统基于该识别结果可以控制语料的显示，即在聊天区显示被确定为非广告的语料，而不显示被确定为广告的语料。换言之，将广告过滤掉了。

在本发明实施例中，不仅可以基于广告库进行广告的识别，还可以基于统计机器学习技术来更新广告库，从而突破了传统的关键词匹配的局限性，保证了一直有很好的广告识别效果。

图2为本发明一实施例中广告库更新步骤的流程示意图。为了更新广告库，在本发明实施例中，在步骤S130中在广告库为空或读取的语料和广告库中的语料不匹配的情况下，将被确定为非广告的非系统消息语料加入到在线语料库，从而开始广告库更新步骤。如图2所示，广告库更新步骤包括如下步骤：

步骤S210，将被确定为非广告的非系统消息语料加入到在线语料库。

在一实施例中，可以将在线语料库存储语料的量设置为200条语料。每次有新语料加入到在线语料库，可先确定一下在线语料库中的语料数是否达到200条，如果达到200条进行后续广告库更新流程，如果未达到，继续接收要加入到在线语料库的下一条语料。

为了提高语料处理的效率，在线语料库中每进入200条语料后，就会对在线语料库中的语料进行一次处理。在此，200条仅为示例，还可以基于处理器的处理速度和其他配置来设置其他语料数量值。

步骤S220，可选的对语料进行预处理。如果上述第一数量的语料中不同字符的个数≥第一数量值，则将每条语句中字频≤字频低限值的语句去掉，所述字频低限值为3-5。

例如，确定200条语料中不同字符的个数，如果200条语料中不同字符的个数≥第一数量值，则将每条语句中字频≤4的字符去掉；如果200条语料中不同字符的个数＜第一数量值，则可不进行处理。本示例中，第一数量值优选地与在线语料库的语料数200相同，但并不限于此。字频低限值为4，也可以设置为3或5或其他数值。

本步骤的目的是滤除字频较少的不重要字符，以消除他们对广告判断准确度的影响。

步骤S230，获取在线语料库中存储的多条语料的句子主干。

在本实施例中，多条语料即为200条语料。如图3所示的示例中，获取在线语料库中存储的200语料的句子主干的步骤例如可包括步骤S310-S350，后面将结合图3详细描述。

步骤S240，基于获取的句子主干出现的频次以及用户ID确定是否将句子主干放入广告库中，从而在确定放入广告库中的情况下更新广告库。

具体示例性步骤可参见图3中的步骤S360-S390。

图3所示为示例性的获取在线语料库中的语料的句子主干的步骤的流程示意图。结合图3描述如下：

在步骤S310，将每条语料转换成词频表示的one-hot向量。

由于以one-hot向量表示语句是深度学习技术中的成熟技术，在此不再赘述。

在步骤S320，对上述one-hot向量两两之间计算余弦距离，将余弦距离大于预定值的向量归为一类，从而对语料进行分类。

假如以one-hot向量表示的语料A和语料B例如分别为A(a1，a2，a3)，B(b1，b2，b3)，则AB之间的余弦距离可以表示为：

如果两个语料对应的向量之间的余弦距离≥0.75，则可认为两个语料类似，则将这两个语料归为一类，通过这样的方式可以对语料分类。在此，数值0.75仅为示例，本发明并不限于此。

在步骤S330，提取语料数大于等于预定条数的类，过滤掉语料数较少的类。

举例来说，预定条数语料可以是5条，即本发明仅处理含有的语料数≥5的类，而忽略含有的语料数小于5条的类。这样做的目的是忽略掉在在线语料库中出现次数较少(<5)的类，因为游戏中的广告往往是间隔性地被发送很多条，过滤掉语料数较少的类可以更加准确地估计用户广告概率。此处5条的语料数仅为举例，还可以根据用户发广告的表现设置为其他更大或更小的数据。

在步骤S340，将提取的类当中出现频次低于预定频次指标的字符删除，来获得句子主干。

在此，预定频次指标可以是字符出现的频次值或者体现频次的比值。

例如，可统计该类全部语料中每个字符的个数以及字符出现的频次，如果某字符频次/最大字符频次低于预定频次指标，如该字符频次/最大字符频次≤0.5，则将该字符从该类所有语料中删除，删除后得到的字符串作为句子主干并统计其出现频次。在此，0.5的数值仅为示例，本发明并不限于此。此外，还可以直接删除出现频次低于预定频次阈值的字符。

在步骤S350，将各类中获得的句子主干两两进行相似度计算，基于相似度以及句子主干出现的频次选择一条句子主干放入在线主干库中。

对每一类，例如可利用fuzzywuzzy模糊匹配两两计算不同句子主干之间的相似度(编辑距离)，如果两个主干之间的相似度≥0.95，则只取出现次数较多的那个主干及其对应的频次放入主干库G；如果出现次数相同，则取句子较长的那个主干放入主干库G；如果次数、长度均相同，则可任意取一个放入主干库G。在此，数值0.95仅为示例，可以基于对广告判断的严格程度等进行调整，例如还可以设置为0.8-1之间的数值，但并不限于此。

在步骤S360，从在线主干库中选择长度和重复次数符合预定条件的句子主干，确定该主干对应的用户ID以及其在预建立的广告概率库中的概率。

例如，可选择主干库G中字符串长度高于某一值x且出现频次高于阈值y的句子主干，查找该句子主干对应的用户ID，并从广告概率库中查找该用户ID为广告用户的概率P。举例来说，x可以取6，y可以取6，本发明中，x和y的值可以调整为更大或更小的整数。

在步骤S370-S390，在广告概率库中该用户ID对应的广告概率高于预定概率值的情况下或者在广告概率库中不存在该用户ID的情况下，将选择的句子主干放入广告概率库中。

例如，如果查询得出该用户ID在广告概率库中且该用户ID为广告用户的概率P≥0.5或者该用户ID不在广告概率库中，则将这条主干放入广告库中(步骤S380)，然后继续处理主干库G中的下一条主干；如果查询得出该用户ID在广告概率库中且该用户ID为广告用户的概率P<0.5，则忽略该主干，继续处理主干库G中的下一条主干(步骤S390)。

在处理完主干库G中的所有主干后，可清空主干库G和在线语料库，从而完成本次广告库更新。

图3所示的示例中，对语料基于余弦距离进行归类是为了保证广告库语料(主干)的多样性，防止有限数据量的广告库中存在大量类似主干，从而防止多样性变差。但本发明并不限于此，也可以通过扩大广告库容量来尽量增强多样性，只不过会增大计算量。

本发明采用深度学习算法，自动更新广告库并对识别出的广告加以屏蔽，突破了传统的关键字匹配的局限性。

在本发明实施例中，还可以根据用户ID以及用户ID对应的语料信息更新广告概率库，从而进一步通过深度学习提高用户广告判断的准确度。

图4是本发明一实施例中广告概率库更新步骤的流程示意图。在本发明一实施例中，可利用各用户ID下的语料的数量计算该用户为广告用户的概率以及基于用户ID在广告概率库中的记录更新广告概率库中该用户ID为广告用户的概率。详细流程如下：

在步骤S410，读取的非系统消息语料放入离线语料库。

例如，可将上述步骤S120中读取的非系统消息语料放入离线语料库。

离线语料库可每次存储3000条语料，如果离线语料库中的语料数未达到3000条，可继续读入语料信息。在此，离线语料库中的语料数3000仅为示例，还可以基于处理器的性能以及处理效率等取其他更大或更小的数值。

步骤S420，将所述离线语料库中存储的第二数量的语料基于用户ID进行分割。

当离线语料库中达到3000条语料后，根据每条语料中的用户ID来分割离线语料库中的3000条语料。

步骤S430-S4150，广告概率计算和更新步骤，该步骤基于各用户的语料数和/或各用户的语料的时间戳计算该用户ID发广告的概率，并更新广告概率库中的该用户ID的广告概率。

针对各个用户ID，在对应用户的语料数在第一范围内时，采用第一算法步骤计算用户ID广告概率计算用户ID广告概率；在该用户的语料数在第二范围内时，采用第二算法步骤计算用户ID广告概率计算用户ID广告概率；然后基于用户ID在广告概率库中的记录更新计算的用户ID广告概率。

其中，第一范围为大于等于第一语料数且小于第二语料数，第二范围为大于等于第二语料数。在图4的示例中，第一范围为：用户语料数≥2且＜10，第二范围为用户语料数＞10。

采用第一算法步骤计算用户ID广告概率的步骤包括：将当前用户的语料根据首字母ASCII码排序，将每条语句转换为频次表示的one-hot向量，并针对相邻两个向量分别计算余弦距离，基于计算的余弦距离获得余弦列表，并基于余弦列表中余弦距离的平均值计算用户ID广告概率。

采用第二算法步骤计算用户ID广告概率的步骤包括：将当前用户的语料按照时间戳进行排序，计算相邻两条语料的时间差以及各个时间差出现的频次，将每个时间差出现的频次与所有时间差出现总频次的比值中的最大值作为均匀度概率；在均匀度概率大于等于第一阈值时，基于预设置的均匀度概率与用户ID广告概率之间的映射关系将该均匀度概率映射至用户ID广告概率，从而获得用户ID广告概率；在均匀度概率小于第一阈值时，采用第一算法步骤计算用户ID广告概率。

下面结合步骤S430-S4150进行详细描述。

在步骤S430，统计每个用户ID下的发言条数；

在步骤S440，对每个用户ID下的发言条数进行判断，如果该用户ID发言条数<2，则不对该用户ID作任何处理并继续判断下一个用户ID的发言条数，及语料数(步骤S460)；否则进一步判断发言条数是否大于等于10(步骤S450)。

如果该用户ID发言条数≥10，则根据第二算法(概率evenness计算过程)计算概率evenness(步骤S470)，在此，数值10仅为示例，本发明并不限于此。详细计算过程如下：

(1)将离线数据库中该用户ID下的语料根据时间戳排序；

(2)按照时间递增顺序计算相邻两个语料的时间差t(i)；

(3)根据以下公式：

evenness＝max(时间差t(i)出现的频次/所有时间差的频次)

来计算各个时间差对应的概率evenness。

作时间差的目的是，通过研究发广告用户的行为得到一些规律，他们通常会以相同的时间间隔发送一些广告。本发明利用时间间隔统计某时间间隔的频率。得到了各时间间隔的频率参数(例如时间间隔[2,2,2,2,3,4]，那么可计算P(t＝2)＝4/6，P(t＝3)＝1/6，P(t＝4)＝1/6)，将最大的时间间隔的频率参数(p(t＝2)＝4/6)作为evenness。

如果该用户ID发言条数<10，则可根据第一算法(概率same_mean计算过程)计算概率same_mean。具体地，将该用户ID下的语料根据首字母二进制ASCII码排序，然后将每条语料转换为词频表示的one-hot向量，相邻两个向量之间计算余弦距离，如果向量维度≤4，句子的特征数量过少以致不能很好的表征原语料的意思，因此当算得的余弦距离≥0.95时，需要引入一个修正量，将余弦距离修正为0.799*余弦距离，该修正量0.799仅为示例，本发明并不限于此，该修正量优选地在0.7-0.9之间取值。随后得到该用户ID下的一个有序的余弦列表same(步骤S4100)。

在步骤S480，对概率evenness进行判断：如果概率evenness>0.4，则根据广告用户ID概率更新公式更新广告概率库中该用户ID为广告用户的概率P_adv(步骤S490)，详细计算过程如下：

(1)如果该用户ID在广告概率库中的原概率P₀为0或者该用户ID号不在广告概率库中，则用上述概率evenness作为该用户ID为广告用户的概率P_adv，并存储到广告概率库中；

(2)如果广告概率库中该用户ID原概率P₀不为0，则该用户ID为广告用户的概率P_adv为：

P_adv＝(P₀*n+evenness)/(n+1)

其中，n为该用户ID的广告用户概率在更新过程中已经比较的次数。

如果概率evenness≤0.4，则继续执行步骤S4100。

在此，数值0.4仅为示例，可以基于对广告判断的严格程度等进行调整。

在步骤S4110，对余弦列表same进行简化更新，可以基于相邻余弦距离值的比较删除低于预定值的余弦距离。具体简化过程如下：如果余弦列表same中相邻的两个余弦距离值一个大于0.9且另一个小于0.5，则将较小的那个值删除，之后得到更新后的余弦列表；在此，数值0.9和0.5仅为示例，分别还可以合理地替换为0.8-1之间的其他值以及0-6之间的其他值。本步骤的目的在于消除不相近的语料对广告概率的影响，并减少比较次数，但本发明并不限于此；然后求简化后的余弦列表的余弦平均值same_mean。

在步骤S4120，对该用户ID发言条数进行进一步判断，根据发言条数计算该用户是广告用户的概率P_adv:如果该用户ID发言条数k>8，则该用户是广告用户的概率P_adv＝same_mean(步骤S4130)；如果该用户ID发言条数k≤8，则该用户是广告用户的概率P_adv＝0.125*same_mean*k(步骤S4140)。其中，0.125是根据公式：

来得到的，预定语料数阈值例如为8，还可以设置为其他数值。

最后，在步骤S4150根据步骤S490中的广告用户ID概率更新公式更新广告概率库中该用户ID为广告用户的概率P_adv。

通过执行上述步骤，可以计算出用户为广告用户的概率，并且根据步骤S490的概率evenness更新公式来即时更新广告概率库中用户为广告用户的概率，降低了普通用户被判定为广告用户的风险。

本发明实施例中的用户ID广告概率库及其更新相当于基于ID用户的行为对ID用户有一个评分机制(即用户为广告用户的概率)，多了一重滤网能更净化聊天交流区。

此外，本发明的方法还可以基于用户ID的级别和/或用户ID广告概率设定用户的发言权限，进一步地还可以建立用户白名单和黑名单。

本发明不需要人工由用户举报来判断谁是广告用户，本发明的系统是根据数据训练，自动识别的，不需要人工参与，大大提高了广告识别和过滤效率。

此外，本发明能及时对广告库进行更新，即使面对一些新出现的广告也能很好的匹配，具有很高的自适应能力，克服了以前关键字匹配方法的缺陷，大大提高了用户体验。

本发明的方法步骤并不限于图中示出的执行顺序，一些步骤可以变换顺序甚至可以并行进行。

本发明的各部分可以用硬件、软件、固件或者它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可以用本领域共知的下列技术中的任一项或者他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在流程图中表示或者在此以其它方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

如上针对一个实施例描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施例中使用，和/或与其它实施例中的特征相结合或替代其它实施例中的特征使用。

结合这里披露的本发明的说明和实践，本发明的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的，本发明的真正范围和主旨均由权利要求所限定。

Claims

1.一种广告识别方法，其特征在于，所述广告识别方法包括以下步骤：

广告识别步骤，其包括：

将读取的语料和广告库中的语料进行相似度匹配，基于相似度匹配结果确定所述语料是否为广告；以及

广告库更新步骤，其包括：

将被确定为非广告的非系统消息语料加入到在线语料库；

获取在线语料库中存储的多条语料的句子主干，通过相似度计算从中选择句子主干放入在线主干库；

基于获取的句子主干出现的频次以及用户ID确定是否将句子主干放入广告库中，从而在确定放入广告库中的情况下更新广告库，该确定是否将句子主干放入广告库中的步骤包括：从在线主干库中选择长度和重复次数符合预定条件的句子主干，确定该主干对应的用户ID，在预建立的广告概率库中该用户ID对应的广告概率高于预定概率值的情况下或者在广告概率库中不存在该用户ID的情况下，将选择的句子主干放入广告库中。

2.根据权利要求1所述的广告识别方法，其特征在于：所述方法还包括：基于确定结果将非系统消息语料标记为广告或非广告；

在所述读取非系统消息语料步骤之前还包括：

接收语料，基于系统字段匹配确定接收的语料是否为系统消息，并将判断为系统消息的语料标记为非广告。

3.根据权利要求1所述的广告识别方法，其特征在于，所述方法还包括：

在聊天区显示被确定为非广告的语料，而不显示被确定为广告的语料。

4.根据权利要求1所述的广告识别方法，其特征在于，所述获取在线语料库中存储的多条语料的句子主干，并通过相似度计算从中选择句子主干放入在线主干库的步骤包括：

将所述在线语料库中存储的第一数量的语料中的语句基于语句相似度进行分类；

将至少含有预定条数语料的类中的语料中出现频次低于预定频次指标的字符删除，获得句子主干；

将各类中获得的句子主干两两进行相似度计算，基于相似度以及句子主干出现的频次选择一条句子主干放入在线主干库中。

5.根据权利要求4所述的广告识别方法，其特征在于：

所述第一数量的语料指200条语料；

所述至少含有预定条数语料的类为至少含有5条语料的类。

6.根据权利要求4所述的广告识别方法，其特征在于：

将所述在线语料库中存储的第一数量的语料中的语句基于语句相似度进行分类的步骤包括：

将第一数量的语料中的语句转换成词频表示的one-hot向量；

计算向量间的余弦距离，将余弦距离大于预定值的向量归为一类，对语料进行分类。

7.根据权利要求4所述的广告识别方法，其特征在于，在将所述在线语料库中存储的第一数量的语料中的语句基于语句相似度进行分类的步骤之前还包括：

如果上述第一数量的语料中不同字符的个数≥第一数量值，则将每条语句中字频≤字频低限值的字符去掉，所述字频低限值为3-5。

8.根据权利要求1-6中任意一项所述的广告识别方法，其特征在于，所述读取非系统消息语料的步骤还包括：读取语料中的时间戳。

9.根据权利要求8所述的广告识别方法，其特征在于，所述方法还包括：广告概率库中用户ID对应的广告概率的更新流程，该流程包括：

将读取的非系统消息语料放入离线语料库；

将所述离线语料库中存储的第二数量的语料基于用户ID进行分割；

广告概率计算和更新步骤，该步骤基于各用户的语料数和/或各用户的语料的时间戳计算该用户ID发广告的概率，并更新广告概率库中的该用户ID的广告概率。

10.根据权利要求9所述的广告识别方法，其特征在于，所述广告概率计算和更新步骤包括：

针对各个用户ID，在对应用户的语料数在第一范围内时，采用第一算法步骤计算用户ID广告概率计算用户ID广告概率；在该用户的语料数在第二范围内时，采用第二算法步骤计算用户ID广告概率计算用户ID广告概率；以及

基于用户ID在广告概率库中的记录更新计算的用户ID广告概率；

其中，所述第一范围为大于等于第一语料数且小于第二语料数，所述第二范围为大于等于第二语料数；

采用第一算法步骤计算用户ID广告概率的步骤包括：将当前用户的语料根据首字母ASCII码排序，将每条语句转换为频次表示的one-hot向量，并针对相邻两个向量分别计算余弦距离，基于计算的余弦距离获得余弦列表，并基于余弦列表中余弦距离的平均值计算用户ID广告概率；

11.根据权利要求10所述的广告识别方法，其特征在于，所述基于用户ID在广告概率库中的记录更新计算的用户ID广告概率的步骤包括：

如果用户ID不在广告概率库中或者用户ID在广告概率库中记录的概率为0，则将计算出的用户ID广告概率作为该用户ID的广告概率记录在广告概率库中；

如果用户ID存在于广告概率库中且该用户ID在广告概率库中记录的概率不为0，则基于如下公式更新用户ID广告概率：

更新后的用户ID广告概率＝(原用户ID广告概率*原比较次数+计算出的用户ID广告概率)/(原比较次数+1)。

12.根据权利要求10所述的广告识别方法，其特征在于：

所述基于计算的余弦距离获得余弦列表的步骤包括：余弦距离调整步骤，该步骤在one-hot向量维度≤4且相邻两个向量的余弦距离≥第一余弦距离阈值的情况下，将该余弦距离乘以预定小于1的权重来更新该余弦距离，所述第一余弦距离阈值的取值范围为0.8-1之间；

所述基于余弦列表中余弦距离的平均值计算用户ID广告概率的步骤包括：在用户语料条数大于预定语料数阈值时，以所述余弦列表中余弦距离的平均值作为用户ID广告概率；在用户语料条数小于等于预定语料数阈值时，以利用如下公式计算出的概率作为用户ID广告概率：

用户ID广告概率＝1/预定语料数阈值*余弦距离的平均值*用户语料数。

13.根据权利要求10所述的广告识别方法，其特征在于，所述基于余弦列表中余弦距离的平均值计算用户ID广告概率的步骤还包括：

更新余弦距离列表的步骤，基于相邻余弦距离值的比较删除低于预定值的余弦距离。

14.根据权利要求10所述的广告识别方法，其特征在于，所述方法还包括：

基于用户ID的级别和/或用户ID广告概率设定用户的发言权限。

15.根据权利要求1所述的广告识别方法，其特征在于，所述将读取的语料和广告库中的语料进行相似度匹配的步骤包括：

基于fuzzywuzzy模糊匹配来计算读取的语料和广告库中的语料的相似度。

16.根据权利要求1所述的广告识别方法，其特征在于，所述方法还包括：

将广告库中相匹配的语句放到广告库最前面。

17.一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，该计算机程序被处理器执行时实现权利要求1-16中任意一项所述方法的步骤。