CN109977403A - 恶意评论信息识别方法及装置 - Google Patents

恶意评论信息识别方法及装置 Download PDF

Info

Publication number
CN109977403A
CN109977403A CN201910202806.1A CN201910202806A CN109977403A CN 109977403 A CN109977403 A CN 109977403A CN 201910202806 A CN201910202806 A CN 201910202806A CN 109977403 A CN109977403 A CN 109977403A
Authority
CN
China
Prior art keywords
user
comment information
sensitive word
information
released
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910202806.1A
Other languages
English (en)
Other versions
CN109977403B (zh
Inventor
刘蕾
魏蓓
岳阳
柳超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dike Technology Co Ltd
Original Assignee
Beijing Dike Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dike Technology Co Ltd filed Critical Beijing Dike Technology Co Ltd
Priority to CN201910202806.1A priority Critical patent/CN109977403B/zh
Publication of CN109977403A publication Critical patent/CN109977403A/zh
Application granted granted Critical
Publication of CN109977403B publication Critical patent/CN109977403B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种恶意评论信息识别方法及装置,其中方法包括:获取用户输入到应用组件中的待发布的用户评论信息,并从所述待发布的用户评论信息中提取关键词;根据预设的敏感词数据模型确定所述关键词为敏感词;根据所述敏感词确定所述待发布的用户评论信息为所述恶意评论信息。从而能够实现根据敏感词便可自动地识别出恶意评论信息,识别准确性高,无需投入大量的人力和时间,极大地提高了甄别恶意评论信息的处理效率。

Description

恶意评论信息识别方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种恶意评论信息识别方法及装置。
背景技术
随着互联网技术的发展,各类互联网平台层出不穷,用户可以通过互联网平台发表任何言论表达自己的观点,提供自身经验以供他人参考,如:用户可以通过贴吧、知乎等分享自己的见闻、经验;通过购物网站购买物品后发表自己的购物及商品体验;在提供企业信息查询的企业信用查询平台上发布对企业评论信息。然而,不乏有一些用户出于对竞争对手的不正当竞争,进行毫无根据的抨击、恶意诋毁,进而对被评论者造成不公正对待,且误导其他用户的决策判断。
目前,用户对被评论者进行评论,并发布评论信息后,被评论者若认为是恶意评论并举报,则需要人工进行审核论证,企业在甄别恶意评论方面需要投入大量人力和时间,处理效率低。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种恶意评论信息识别方法。
本发明的第二个目的在于提出一种恶意评论信息识别装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种恶意评论信息识别方法,包括:
获取用户输入到应用组件中的待发布的用户评论信息,并从所述待发布的用户评论信息中提取关键词;
根据预设的敏感词数据模型确定所述关键词为敏感词;
根据所述敏感词确定所述待发布的用户评论信息为所述恶意评论信息。
进一步地,所述根据所述敏感词确定所述待发布的用户评论信息为所述恶意评论信息包括:
在确定所述待发布的用户评论信息的关键词为敏感词时,对所述用户设置对应的敏感词处理标识,并根据所述敏感词处理标识获取所述敏感词对应的当前评论次数;
若所述当前评论次数大于预设的阈值,则确定所述待发布的用户评论信息为恶意评论信息。
进一步地,所述若所述当前评论次数大于预设的阈值,则确定所述待发布的用户评论信息为恶意评论信息,包括:
若所述当前评论次数大于预设的阈值,则获取所述待发布的用户评论信息所针对的被评论对象的属性信息;
获取所述用户历史发布的包括所述敏感词的历史评论信息,判断所述历史评论信息的被评论对象的属性信息与所述待发布的用户评论信息所针对的被评论对象的属性信息是否一致;
若是,则确定所述待发布的用户评论信息为恶意评论信息。
进一步地,所述若所述当前评论次数大于预设的阈值,则确定所述待发布的用户评论信息为恶意评论信息,包括:
若所述当前评论次数大于预设的阈值,则获取所述用户的相关信息,所述相关信息包括用户信息完善度、用户注册身份、历史评论信息对应的敏感词类别、实名评论、匿名评论中的至少一种;
根据所述相关信息对所述用户进行评分,得到所述用户的评分结果;
根据所述评分结果确定所述待发布的用户评论信息为恶意评论信息。
进一步地,在所述根据所述敏感词确定所述待发布的用户评论信息为所述恶意评论信息之后,还包括:
获取所述用户通过举证页面输入的举证材料;
根据所述敏感词和所述预设的敏感词数据模型对所述举证材料进行审核;
若审核通过,发布所述待发布的用户评论信息。
进一步地,所述根据所述敏感词和所述预设的敏感词数据模型对所述举证材料进行审核,包括:
根据所述预设的敏感词数据模型确定所述敏感词所属的类别以及所述类别对应的目标举证材料;
判断所述举证材料是否与所述目标举证材料匹配;
若匹配,则确定所述举证材料审核通过。
进一步地,所述根据预设的敏感词数据模型确定所述关键词为敏感词包括:
将所述关键词与所述预设的敏感词数据模型中的预设敏感词进行匹配;
若匹配成功,则确定所述关键词为敏感词。
本发明实施例的恶意评论信息识别方法,通过获取用户输入到应用组件中的待发布的用户评论信息,并从所述待发布的用户评论信息中提取关键词;根据预设的敏感词数据模型确定所述关键词为敏感词;根据所述敏感词确定所述待发布的用户评论信息为所述恶意评论信息。从而能够实现根据敏感词便可自动地识别出恶意评论信息,识别准确性高,无需投入大量的人力和时间,极大地提高了甄别恶意评论信息的处理效率。
为达上述目的,本发明第二方面实施例提出了一种恶意评论信息识别装置,包括:
获取模块,用于获取用户输入到应用组件中的待发布的用户评论信息,并从所述待发布的用户评论信息中提取关键词;
确定模块,用于根据预设的敏感词数据模型确定所述关键词为敏感词;
处理模块,用于根据所述敏感词确定所述待发布的用户评论信息为所述恶意评论信息。
进一步地,所述处理模块包括第一处理单元、第二处理单元;
所述第一处理单元,用于在确定所述待发布的用户评论信息的关键词为敏感词时,对所述用户设置对应的敏感词处理标识,并根据所述敏感词处理标识获取所述敏感词对应的当前评论次数;
所述第二处理单元,用于若所述当前评论次数大于预设的阈值,则确定所述待发布的用户评论信息为恶意评论信息。
进一步地,所述第二处理单元具体用于:
若所述当前评论次数大于预设的阈值,则获取所述待发布的用户评论信息所针对的被评论对象的属性信息;
获取所述用户历史发布的包括所述敏感词的历史评论信息,判断所述历史评论信息的被评论对象的属性信息与所述待发布的用户评论信息所针对的被评论对象的属性信息是否一致;
若是,则确定所述待发布的用户评论信息为恶意评论信息。
进一步地,所述第二处理单元具体用于:
若所述当前评论次数大于预设的阈值,则获取所述用户的相关信息,所述相关信息包括用户信息完善度、用户注册身份、历史评论信息对应的敏感词类别、实名评论、匿名评论中的至少一种;
根据所述相关信息对所述用户进行评分,得到所述用户的评分结果;
根据所述评分结果确定所述待发布的用户评论信息为恶意评论信息。
进一步地,所述装置还包括:
输入模块,用于获取所述用户通过举证页面输入的举证材料;
审核模块,用于根据所述敏感词和所述预设的敏感词数据模型对所述举证材料进行审核;
发布模块,用于若审核通过,发布所述待发布的用户评论信息。
进一步地,所述审核模块具体用于:
根据所述预设的敏感词数据模型确定所述敏感词所属的类别以及所述类别对应的目标举证材料;
判断所述举证材料是否与所述目标举证材料匹配;
若匹配,则确定所述举证材料审核通过。
进一步地,所述确定模块具体用于:
将所述关键词与所述预设的敏感词数据模型中的预设敏感词进行匹配;
若匹配成功,则确定所述关键词为敏感词。
本发明实施例的恶意评论信息识别装置,通过获取用户输入到应用组件中的待发布的用户评论信息,并从所述待发布的用户评论信息中提取关键词;根据预设的敏感词数据模型确定所述关键词为敏感词;根据所述敏感词确定所述待发布的用户评论信息为所述恶意评论信息。从而能够实现根据敏感词便可自动地识别出恶意评论信息,识别准确性高,无需投入大量的人力和时间,极大地提高了甄别恶意评论信息的处理效率。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现如上所述的恶意评论信息识别方法。
为了实现上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,实现如上所述的恶意评论信息识别方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种恶意评论信息识别方法的流程示意图;
图2为本发明实施例提供的另一种恶意评论信息识别方法的流程示意图;
图3为本发明实施例提供的一种恶意评论信息识别装置的结构示意图;
图4为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的恶意评论信息识别方法及装置。
图1为本发明实施例提供的一种恶意评论信息识别方法的流程示意图。本实施例提供了一种恶意评论信息识别方法,其执行主体为恶意评论信息识别方法装置,该执行主体由硬件和/或软件组成。
如图1所示,该恶意评论信息识别方法包括以下步骤:
S101、获取用户输入到应用组件中的待发布的用户评论信息,并从所述待发布的用户评论信息中提取关键词。
本实施例中,应用组件可以是任意的支持用户发表评论信息的互联网平台,应用组件例如贴吧、知乎、企业信用查询平台。
本实施例中,通过关键词抽取技术从待发布的用户评论信息中提取关键词。关键词抽取技术例如为基于TF-IDF(term frequency–inverse document frequency,词频-逆文本频率指数)算法、基于TextRank(文本排序)算法,但并不以此为限。
S102、根据预设的敏感词数据模型确定所述关键词为敏感词。
本实施例中,敏感词可以理解为受到制约不能随意传播的词,敏感词例如为骗子、欺诈、骗人、无耻、不要脸、黑心,其中,骗子、欺诈可以归类为欺诈类,无耻、不要脸、黑心可以归类为侮辱类。
需要说明的是,根据实际情形定义哪些词汇属于敏感词,以及设定敏感词所属的类别,本实施例不做限制。
本实施例中,步骤S102的具体实现方式为:将所述关键词与所述预设的敏感词数据模型中的预设敏感词进行匹配;若匹配成功,则确定所述关键词为敏感词。
本实施例中,敏感词数据模型可以理解为不仅可以判断待识别的词是否为敏感词,还能够确定敏感词所属类别的分类器。具体地,利用训练样本集训练初始的分类器,训练得到分类器即为得到预设的敏感词数据模型。其中,训练样本集中的训练样本为训练敏感词以及该训练敏感词的所属类别。
S103、根据所述敏感词确定所述待发布的用户评论信息为所述恶意评论信息。
本实施例中,若确定待发布的用户评论信息中的关键字为敏感词,那么该待发布的用户评论信息很可能是一条恶意评论信息。
在实际情形中,用户有权针对被评论对象发表正面评价和负面评价,负面评价可以理解为包含了敏感词的评价信息。但如果用户频繁发表负面评价,该用户的行为很可能是恶意行为。因此,为了正确甄别出用户当前待发布的用户评论信息是否为恶意评论信息,统计该敏感词对应的评论次数,根据评论次数确定待发布的用户评论信息为恶意评论信息,则S103的具体实现方式包括以下步骤:
S1031、在确定所述待发布的用户评论信息的关键词为敏感词时,对所述用户设置对应的敏感词处理标识,并根据所述敏感词处理标识获取所述敏感词对应的当前评论次数。
本实施例中,敏感词处理标识可以理解为用于表征是否需要对敏感词的评论次数进行增加。例如,敏感词处理标识为1,表征需要增加敏感词的评论次数;敏感词处理标识为0,表征无需增加敏感词的评论次数。
例如,敏感词为黑心,用户发布了50条包含黑心的用户评论信息,则历史评论次数为50。若此次待发布的用户评论信息的关键词为黑心,则当前评论次数在历史评论次数的基础上进行增加一次,即为51次。
需要指出的是,在统计历史评论次数时,还可以统计与所述敏感词归属的类别相同的其他敏感词的历史评论信息。例如,敏感词为黑心,该敏感词所属的类别为侮辱类(侮辱类包括黑心、无耻、不要脸等),用户历史发布的历史评论信息中,其中,有50条包含黑心的历史评论信息,有20条包含无耻的历史评论信息,有30条包含不要脸的历史评论信息,则所统计的历史评论次数为100次。
S1032、若所述当前评论次数大于预设的阈值,则确定所述待发布的用户评论信息为恶意评论信息。
本实施例中,预设的阈值根据实际情形进行设置,预设的阈值例如为100。当前评论次数大于预设的阈值,说明该用户的行为是恶意行为,待发表的用户评论信息为恶意评论信息;反之,当前评论次数小于预设的阈值,说明该用户所发明的用户评价信息为自由言论。
在实际情形中,恶意行为往往指针对相同属性的被评论对象频繁发表负面评价。以属性信息为行业信息为例,被评论对象所属行业可能为拍卖行业、服装行业、古玩行业、保健行业等。用户在互联网平台中发布了200条负面评价,若该200条负面评价被评论对象所属行业为同一行业,则说明该用户对该行业存在恶意行为;若该200条负面评价的各个被评论对象有的归属于拍卖行业、有的归属于服装行业、有的归属于古玩行业、有的归属于保健行业,那么这200条负面评价可能为用户的自由言论。
因此,为了正确甄别出用户当前待发布的用户评论信息是否为恶意评论信息,步骤S1032的具体实现方式为:若所述当前评论次数大于预设的阈值,则获取待发布的用户评论信息所针对的被评论对象的属性信息;获取所述用户历史发布的具有敏感词的历史评论信息,判断所述历史评论信息的被评论对象与所述待发布的用户评论信息所针对的被评论对象的属性信息是否一致;若是,则确定所述待发布的用户评论信息为恶意评论信息。
本实施例中,在确定当前评论次数大于预设的阈值,对用户历史发布的具有敏感词的历史评论信息,分析历史评论信息该的被评论对象的属性信息是否与待发布的用户评论信息所针对的被评论对象的属性信息是否一致,根据分析结果确定待发布的用户评论信息为恶意评论信息。
例如,敏感词为黑心,用户发布了50条包含黑心的历史用户评论信息,通过分析历史评论信息该的被评论对象的属性信息可知,历史用户评论信息的被评论对象均为拍卖行业;若待发布的用户评论信息的被评论对象的属性信息也为拍卖行业,则待发布的用户评论信息为恶意评论信息;反之,若待发布的用户评论信息的被评论对象的属性信息为服装行业,该待发布的用户评价信息则不被认定为恶意评价信息。
为了更为公正地判定用户的行为,通过对用户进行打分的方式确定待发布的用户评论信息为恶意评论信息,因此,步骤S1032的具体实现方式为:获取所述用户的相关信息;根据所述相关信息对所述用户进行评分,得到所述用户的评分结果;根据所述评分结果确定所述待发布的用户评论信息为恶意评论信息。
本实施例中,相关信息包括用户信息完善度、用户注册身份、历史评论信息对应的敏感词类别、实名评论、匿名评论中的至少一种,但并不限于此。其中,用户注册身份可以为企业级注册身份、个人级注册身份。根据每种相关信息的重要性的不同,设置每个相关信息对应的权重。
具体地,可以给出每种相关信息对应的分数,根据每个相关信息对应的权重,对各个分数进行加权求和得到该用户的评分结果;接着,判断该评分结果是否符合预设的条件,若符合,则待发布的用户评论信息为恶意评论信息,若不符合,则该用户待发布的用户评价信息为自由言论。其中,预设的条件可以为判断评分结果是否大于设定数值,例如,设定数值为90。或者,判断评分结果是否落在设定的数值区间中。例如,设定的数值区间为[90,100]。
进一步地,还可以综合被评论对象的属性信息、用户的评分结果的分析待发布的用户评论信息为恶意评论信息,则步骤S1032的具体实现方式为:若所述当前评论次数大于预设的阈值,则获取所述待发布的用户评论信息所针对的被评论对象的属性信息;获取所述用户历史发布的包括所述敏感词的历史评论信息,判断所述历史评论信息的被评论对象的属性信息与所述待发布的用户评论信息所针对的被评论对象的属性信息是否一致;若是,获取所述用户的相关信息,所述相关信息包括用户信息完善度、用户注册身份、历史评论信息对应的敏感词类别、实名评论、匿名评论中的至少一种;根据所述相关信息对所述用户进行评分,得到所述用户的评分结果;根据所述评分结果确定所述待发布的用户评论信息为恶意评论信息。
本发明实施例提供的恶意评论信息识别方法,通过获取用户输入到应用组件中的待发布的用户评论信息,并从所述待发布的用户评论信息中提取关键词;根据预设的敏感词数据模型确定所述关键词为敏感词;根据所述敏感词确定所述待发布的用户评论信息为所述恶意评论信息。从而能够实现根据敏感词便可自动地识别出恶意评论信息,识别准确性高,无需投入大量的人力和时间,极大地提高了甄别恶意评论信息的处理效率。
图2为本发明实施例提供的又一种恶意评论信息识别方法的流程示意图。本实施例提供了一种恶意评论信息识别方法,其执行主体为恶意评论信息识别方法装置,该执行主体由硬件和/或软件组成。
结合参考图2,在图1所示实施例的基础上,该恶意评论信息识别方法还包括以下步骤:
S104、获取所述用户通过举证页面输入的举证材料。
本实施例中,在识别出恶意评论信息之后,还提供一条审核用户的举证材料的这一救济途径,若审核通过,允许用户发布言论,若审核不通过,禁止用户发布言论,从而保证用户评论的真实、客观。
在实际情形中,在识别出恶意评论信息之后,视情况需要进行举证。例如,若恶意评论信息中的敏感词所属类别为欺诈类,那么可以认为消费者上当受骗了,这时应满足用户的举证需求;若恶意评论信息中的敏感词所属类别为侮辱类,可以提供言论发表窗口供用户描述自身的经历。
本实施例中,事先设定了目标举证类别。目标举证类别根据实际需求进行设定或由系统默认设定,目标举证类别例如为欺诈类。若恶意评价信息中的敏感词所属类别与目标举证类别匹配,则向用户弹出举证窗口(该举证窗口可以理解为举证页面),包括事件描述框以及附件上传;事件描述框包括预设的问题及回答页面,用户需按照要求填写,并按要求上传相应的附件。待接收到用户提交的满足要求的举证材料后,向后台服务器发送具有该举证材料的审核请求,后台服务器根据审核请求对该举证材料进行审核,同时暂存待发布的用户评论信息,若审核通过,发布该待发布的用户评论信息以展示该用户评论信息;此外,还向后台服务器发送敏感词监控报告。若审核不通过,则向用户发出提醒信息,告知其无法进行此类评价,暂时关闭用户评论功能,并向后台服务器发送通知。
若恶意评价信息中的敏感词所属类别与目标举证类别不匹配,则向用户弹出言论发表窗口供用户描述自身的经历,并发送给后台服务器审核。
S105、根据所述敏感词和所述预设的敏感词数据模型对所述举证材料进行审核。
S106、若审核通过,发布所述待发布的用户评论信息。
本实施例中,可以通过后台服务器中的敏感词数据模型对举证材料进行审核,提高审核的准确性和审核效率,则S105的具体实现方式为:根据所述预设的敏感词数据模型确定所述敏感词所属的类别以及所述类别对应的目标举证材料;判断所述举证材料是否与所述目标举证材料匹配;若匹配,则确定所述举证材料审核通过。
本实施例中的敏感词数据模型设置了各个敏感词所属的类别对应的目标举证材料,例如,欺诈类对应的目标举证材料为交易凭证;侮辱类对应的目标举证材料为身份证。审核时,首先,预设的敏感词数据模型确定所述敏感词所属的类别以及所述类别对应的目标举证材料;接着,预设的敏感词数据模型判断所述举证材料是否与所述目标举证材料匹配;若匹配,则确定所述举证材料审核通过;若不匹配,则确定所述举证材料审核失败。
本发明实施例提供的恶意评论信息识别方法,在所述根据所述敏感词确定所述待发布的用户评论信息为所述恶意评论信息之后,获取所述用户通过举证页面输入的举证材料;根据所述敏感词和所述预设的敏感词数据模型对所述举证材料进行审核;若审核通过,发布所述待发布的用户评论信息,从而保证用户评论的真实、客观。
图3为本发明实施例提供的一种恶意评论信息识别装置的结构示意图。如图3所示,包括:获取模块11、确定模块12、处理模块13。
获取模块11,用于获取用户输入到应用组件中的待发布的用户评论信息,并从所述待发布的用户评论信息中提取关键词;
确定模块12,用于根据预设的敏感词数据模型确定所述关键词为敏感词;
处理模块13,用于根据所述敏感词确定所述待发布的用户评论信息为所述恶意评论信息。
进一步地,所述处理模块13包括第一处理单元、第二处理单元;
所述第一处理单元,用于在确定所述待发布的用户评论信息的关键词为敏感词时,对所述用户设置对应的敏感词处理标识,并根据所述敏感词处理标识获取所述敏感词对应的当前评论次数;
所述第二处理单元,用于若所述当前评论次数大于预设的阈值,则确定所述待发布的用户评论信息为恶意评论信息。
进一步地,所述第二处理单元具体用于:
若所述当前评论次数大于预设的阈值,则获取所述待发布的用户评论信息所针对的被评论对象的属性信息;
获取所述用户历史发布的包括所述敏感词的历史评论信息,判断所述历史评论信息的被评论对象的属性信息与所述待发布的用户评论信息所针对的被评论对象的属性信息是否一致;
若是,则确定所述待发布的用户评论信息为恶意评论信息。
进一步地,所述第二处理单元具体用于:
若所述当前评论次数大于预设的阈值,则获取所述用户的相关信息,所述相关信息包括用户信息完善度、用户注册身份、历史评论信息对应的敏感词类别、实名评论、匿名评论中的至少一种;
根据所述相关信息对所述用户进行评分,得到所述用户的评分结果;
根据所述评分结果确定所述待发布的用户评论信息为恶意评论信息。
进一步地,所述装置还包括:
输入模块,用于获取所述用户通过举证页面输入的举证材料;
审核模块,用于根据所述敏感词和所述预设的敏感词数据模型对所述举证材料进行审核;
发布模块,用于若审核通过,发布所述待发布的用户评论信息。
进一步地,所述审核模块具体用于:
根据所述预设的敏感词数据模型确定所述敏感词所属的类别以及所述类别对应的目标举证材料;
判断所述举证材料是否与所述目标举证材料匹配;
若匹配,则确定所述举证材料审核通过。
进一步地,所述确定模块12具体用于:
将所述关键词与所述预设的敏感词数据模型中的预设敏感词进行匹配;
若匹配成功,则确定所述关键词为敏感词。
需要说明的是,前述对恶意评论信息方法实施例的解释说明也适用于该实施例的恶意评论信息装置,此处不再赘述。
本发明实施例提供的恶意评论信息识别装置,通过获取用户输入到应用组件中的待发布的用户评论信息,并从所述待发布的用户评论信息中提取关键词;根据预设的敏感词数据模型确定所述关键词为敏感词;根据所述敏感词确定所述待发布的用户评论信息为所述恶意评论信息。从而能够实现根据敏感词便可自动地识别出恶意评论信息,识别准确性高,无需投入大量的人力和时间,极大地提高了甄别恶意评论信息的处理效率。
图4为本发明实施例提供的一种计算机设备的结构示意图。该计算机设备包括:
存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。
处理器1002执行所述程序时实现上述实施例中提供的恶意评论信息识别方法。
进一步地,计算机设备还包括:
通信接口1003,用于存储器1001和处理器1002之间的通信。
存储器1001,用于存放可在处理器1002上运行的计算机程序。
存储器1001可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器1002,用于执行所述程序时实现上述实施例所述的恶意评论信息识别方法。
如果存储器1001、处理器1002和通信接口1003独立实现,则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1001、处理器1002及通信接口1003,集成在一块芯片上实现,则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
处理器1002可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
为了实现上述实施例,本发明还提出一种计算机可读存储介质,其上存储有计算机程序,当所述存储介质中的程序由处理器被执行时,使得处理器能够执行一种如上所述的恶意评论信息识别方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种恶意评论信息识别方法,其特征在于,包括:
获取用户输入到应用组件中的待发布的用户评论信息,并从所述待发布的用户评论信息中提取关键词;
根据预设的敏感词数据模型确定所述关键词为敏感词;
根据所述敏感词确定所述待发布的用户评论信息为所述恶意评论信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述敏感词确定所述待发布的用户评论信息为所述恶意评论信息包括:
在确定所述待发布的用户评论信息的关键词为敏感词时,对所述用户设置对应的敏感词处理标识,并根据所述敏感词处理标识获取所述敏感词对应的当前评论次数;
若所述当前评论次数大于预设的阈值,则确定所述待发布的用户评论信息为恶意评论信息。
3.根据权利要求2所述的方法,其特征在于,所述若所述当前评论次数大于预设的阈值,则确定所述待发布的用户评论信息为恶意评论信息,包括:
若所述当前评论次数大于预设的阈值,则获取所述待发布的用户评论信息所针对的被评论对象的属性信息;
获取所述用户历史发布的包括所述敏感词的历史评论信息,判断所述历史评论信息的被评论对象的属性信息与所述待发布的用户评论信息所针对的被评论对象的属性信息是否一致;
若是,则确定所述待发布的用户评论信息为恶意评论信息。
4.根据权利要求2所述的方法,其特征在于,所述若所述当前评论次数大于预设的阈值,则确定所述待发布的用户评论信息为恶意评论信息,包括:
若所述当前评论次数大于预设的阈值,则获取所述用户的相关信息,所述相关信息包括用户信息完善度、用户注册身份、历史评论信息对应的敏感词类别、实名评论、匿名评论中的至少一种;
根据所述相关信息对所述用户进行评分,得到所述用户的评分结果;
根据所述评分结果确定所述待发布的用户评论信息为恶意评论信息。
5.根据权利要求1所述的方法,其特征在于,在所述根据所述敏感词确定所述待发布的用户评论信息为所述恶意评论信息之后,还包括:
获取所述用户通过举证页面输入的举证材料;
根据所述敏感词和所述预设的敏感词数据模型对所述举证材料进行审核;
若审核通过,发布所述待发布的用户评论信息。
6.根据权利要求5所述的方法,所述根据所述敏感词和所述预设的敏感词数据模型对所述举证材料进行审核,包括:
根据所述预设的敏感词数据模型确定所述敏感词所属的类别以及所述类别对应的目标举证材料;
判断所述举证材料是否与所述目标举证材料匹配;
若匹配,则确定所述举证材料审核通过。
7.根据权利要求1所述的方法,所述根据预设的敏感词数据模型确定所述关键词为敏感词包括:
将所述关键词与所述预设的敏感词数据模型中的预设敏感词进行匹配;
若匹配成功,则确定所述关键词为敏感词。
8.一种恶意评论信息识别装置,其特征在于,包括:
获取模块,用于获取用户输入到应用组件中的待发布的用户评论信息,并从所述待发布的用户评论信息中提取关键词;
确定模块,用于根据预设的敏感词数据模型确定所述关键词为敏感词;
处理模块,用于根据所述敏感词确定所述待发布的用户评论信息为所述恶意评论信息。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现如权利要求1-7中任一所述的恶意评论信息识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的恶意评论信息识别方法。
CN201910202806.1A 2019-03-18 2019-03-18 恶意评论信息识别方法及装置 Active CN109977403B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910202806.1A CN109977403B (zh) 2019-03-18 2019-03-18 恶意评论信息识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910202806.1A CN109977403B (zh) 2019-03-18 2019-03-18 恶意评论信息识别方法及装置

Publications (2)

Publication Number Publication Date
CN109977403A true CN109977403A (zh) 2019-07-05
CN109977403B CN109977403B (zh) 2020-04-14

Family

ID=67079257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910202806.1A Active CN109977403B (zh) 2019-03-18 2019-03-18 恶意评论信息识别方法及装置

Country Status (1)

Country Link
CN (1) CN109977403B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111327913A (zh) * 2020-01-20 2020-06-23 北京字节跳动网络技术有限公司 消息处理方法、装置及电子设备
CN111930977A (zh) * 2020-08-04 2020-11-13 腾讯音乐娱乐科技(深圳)有限公司 识别敏感信息的方法、装置、设备及存储介质
CN112231484A (zh) * 2020-11-19 2021-01-15 湖南红网新媒体集团有限公司 一种新闻评论审核方法、系统、装置和存储介质
CN112417146A (zh) * 2019-08-22 2021-02-26 脸谱公司 向用户通知侵犯性内容
CN112966500A (zh) * 2021-02-15 2021-06-15 珠海市鸿瑞信息技术股份有限公司 基于人工智能组态的网络数据链安全监测平台
CN113239674A (zh) * 2021-06-15 2021-08-10 中国银行股份有限公司 用户评论管理方法及装置
CN113592407A (zh) * 2021-08-10 2021-11-02 深圳职业技术学院 一种商品售卖及配送方法和系统
CN114666670A (zh) * 2022-02-24 2022-06-24 北京青藤文化股份有限公司 数据监控方法、装置、设备及计算机可读介质
CN117556146A (zh) * 2024-01-10 2024-02-13 石家庄邮电职业技术学院 一种网络数据信息处理系统、方法、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770613A (zh) * 2010-01-19 2010-07-07 北京智慧眼科技发展有限公司 基于人脸识别和活体检测的社保身份认证方法
CN102208992A (zh) * 2010-06-13 2011-10-05 天津海量信息技术有限公司 面向互联网的不良信息过滤系统及其方法
CN104536980A (zh) * 2014-12-05 2015-04-22 百度在线网络技术(北京)有限公司 一种确定候评项的质量信息的方法与装置
CN106126558A (zh) * 2016-06-16 2016-11-16 东软集团股份有限公司 一种舆情监控方法及装置
CN107807966A (zh) * 2017-10-13 2018-03-16 深圳市迅雷网络技术有限公司 一种敏感信息屏蔽方法和服务端
US10037491B1 (en) * 2014-07-18 2018-07-31 Medallia, Inc. Context-based sentiment analysis
CN109034727A (zh) * 2018-06-28 2018-12-18 上海卓繁信息技术股份有限公司 自助电子政务处理方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770613A (zh) * 2010-01-19 2010-07-07 北京智慧眼科技发展有限公司 基于人脸识别和活体检测的社保身份认证方法
CN102208992A (zh) * 2010-06-13 2011-10-05 天津海量信息技术有限公司 面向互联网的不良信息过滤系统及其方法
US10037491B1 (en) * 2014-07-18 2018-07-31 Medallia, Inc. Context-based sentiment analysis
CN104536980A (zh) * 2014-12-05 2015-04-22 百度在线网络技术(北京)有限公司 一种确定候评项的质量信息的方法与装置
CN106126558A (zh) * 2016-06-16 2016-11-16 东软集团股份有限公司 一种舆情监控方法及装置
CN107807966A (zh) * 2017-10-13 2018-03-16 深圳市迅雷网络技术有限公司 一种敏感信息屏蔽方法和服务端
CN109034727A (zh) * 2018-06-28 2018-12-18 上海卓繁信息技术股份有限公司 自助电子政务处理方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417146A (zh) * 2019-08-22 2021-02-26 脸谱公司 向用户通知侵犯性内容
CN111327913B (zh) * 2020-01-20 2021-07-20 北京字节跳动网络技术有限公司 消息处理方法、装置及电子设备
WO2021147455A1 (zh) * 2020-01-20 2021-07-29 北京字节跳动网络技术有限公司 消息处理方法、装置及电子设备
CN111327913A (zh) * 2020-01-20 2020-06-23 北京字节跳动网络技术有限公司 消息处理方法、装置及电子设备
US11936605B2 (en) 2020-01-20 2024-03-19 Beijing Bytedance Network Technology Co., Ltd. Message processing method, apparatus and electronic device
CN111930977A (zh) * 2020-08-04 2020-11-13 腾讯音乐娱乐科技(深圳)有限公司 识别敏感信息的方法、装置、设备及存储介质
CN112231484B (zh) * 2020-11-19 2022-11-08 湖南红网新媒体集团有限公司 一种新闻评论审核方法、系统、装置和存储介质
CN112231484A (zh) * 2020-11-19 2021-01-15 湖南红网新媒体集团有限公司 一种新闻评论审核方法、系统、装置和存储介质
CN112966500A (zh) * 2021-02-15 2021-06-15 珠海市鸿瑞信息技术股份有限公司 基于人工智能组态的网络数据链安全监测平台
CN113239674A (zh) * 2021-06-15 2021-08-10 中国银行股份有限公司 用户评论管理方法及装置
CN113592407A (zh) * 2021-08-10 2021-11-02 深圳职业技术学院 一种商品售卖及配送方法和系统
CN113592407B (zh) * 2021-08-10 2022-03-29 深圳职业技术学院 一种商品售卖及配送方法和系统
CN114666670A (zh) * 2022-02-24 2022-06-24 北京青藤文化股份有限公司 数据监控方法、装置、设备及计算机可读介质
CN114666670B (zh) * 2022-02-24 2023-08-04 北京青藤文化股份有限公司 数据监控方法、装置、设备及计算机可读介质
CN117556146A (zh) * 2024-01-10 2024-02-13 石家庄邮电职业技术学院 一种网络数据信息处理系统、方法、设备及介质
CN117556146B (zh) * 2024-01-10 2024-03-22 石家庄邮电职业技术学院 一种网络数据信息处理系统、方法、设备及介质

Also Published As

Publication number Publication date
CN109977403B (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
CN109977403A (zh) 恶意评论信息识别方法及装置
Malbon Taking fake online consumer reviews seriously
JP6182279B2 (ja) データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体
WO2019196579A1 (zh) 智能券的发放方法、装置及利用智能券的核销方法、装置
CN107918905A (zh) 异常交易识别方法、装置及服务器
CN110083623B (zh) 一种业务规则生成方法及装置
Ramsey Brandjacking on social networks: Trademark infringement by impersonation of markholders
CN109670852A (zh) 用户分类方法、装置、终端及存储介质
CN107656918B (zh) 获取目标用户的方法及装置
CN109064217B (zh) 基于用户等级的核身策略确定方法、装置及电子设备
CN110263157A (zh) 一种数据风险预测方法、装置及设备
Aggarwal Using relationship norms to understand consumer-brand interactions
JP2019197535A (ja) データベース公開に起因したプライバシー侵害の検出及び防止
CN106600414A (zh) 一种业务处理方法和装置
WO2023000491A1 (zh) 一种应用推荐方法、装置、设备及计算机可读存储介质
CN109145068A (zh) 地图更新方法及装置
CN108038692A (zh) 角色识别方法、装置及服务器
CN111144899A (zh) 识别虚假交易的方法及装置和电子设备
CN110288488A (zh) 医疗险欺诈预测方法、装置、设备和可读存储介质
CN114419378A (zh) 图像分类的方法、装置、电子设备及介质
Thornton et al. On the wisdom of algorithmic markets: Governance by algorithmic price
CN113706258A (zh) 基于组合模型的产品推荐方法、装置、设备及存储介质
CN108446907A (zh) 安全校验方法及装置
Sadi et al. Threat Detector for Social Media Using Text Analysis
Rosenblat et al. Data & civil rights: Employment primer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant