CN102891838A - 一种问答社区中推广内容的检测方法以及装置 - Google Patents

一种问答社区中推广内容的检测方法以及装置 Download PDF

Info

Publication number
CN102891838A
CN102891838A CN 201110208427 CN201110208427A CN102891838A CN 102891838 A CN102891838 A CN 102891838A CN 201110208427 CN201110208427 CN 201110208427 CN 201110208427 A CN201110208427 A CN 201110208427A CN 102891838 A CN102891838 A CN 102891838A
Authority
CN
China
Prior art keywords
content
data
cutting
character
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201110208427
Other languages
English (en)
Inventor
贺海军
李润超
勇凤伟
李晶
高自光
郭奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN 201110208427 priority Critical patent/CN102891838A/zh
Publication of CN102891838A publication Critical patent/CN102891838A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于信息安全领域,提供了一种问答社区中推广内容的检测方法以及装置。所述方法包括下述步骤:获取用户在预设时间内提交的内容数据;对所述内容数据进行切分处理,并统计所述内容数据切分处理后获得的字符相同的字符串个数;根据所述字符相同的字符串个数检测所述内容数据是否为推广的内容数据。本发明实施例由于只需分析用户提交的内容数据,无需维护额外的推广关键词表、构建训练数据集合或者周期性调整训练模型等,因此有效地降低了维护成本和实施成本。

Description

一种问答社区中推广内容的检测方法以及装置
技术领域
本发明属于信息安全领域,尤其涉及一种问答社区中推广内容的检测方法以及装置。
背景技术
在搜索问问或者百度知道等用户参与提问和回答的问答社区中,推广用户会在某些特定的分类下针对多个问题的回答都推荐特定的产品或某些商业信息。由于问答社区大都会限制同一个用户反复提交同样的回答内容,因此推广用户往往会针对不同的问题提交不完全一样的回答,但是这些不完全一样的回答在一段时间内仍会包含相同的品牌或其它特定的推广信息。
目前问答社区中常用的推广内容识别方法有三种,一种是基于推广关键词表来识别推广内容;一种是基于向量空间模型的文本过滤系统识别,另一种是基于机器学习的推广内容识别。
其中,基于推广关键词表识别推广内容数据的方法是通过分析推广内容数据,发现并抽取出推广关键词,再将这些关键词加入到推广关键词表中。当用户提交了一个问答后,检测该问答内容数据,判断该问答内容数据是否包含了推广关键词表中的关键词,如果包含,则认为该用户提交的问答内容数据为推广内容数据。由于用户推广同一产品时所使用的关键词有可能发生变化,且新的推广关键词也不断出现,因此需要人工不断维护推广关键词表,使维护成本加大,因此该方法具有一定的局限性;另一方面,由于该检测方法是基于推广关键词表的,因此需要发现并抽取出新的关键词,并将该关键词增添在推广关键词表里才能过滤包含该关键词的推广内容数据,因此该方法又具有一定的滞后性。
另一种是基于向量空间模型的文本过滤系统识别推广内容数据的,该文本过滤系统是由训练和自适应过滤两个阶段组成。训练阶段主要是建立初始过滤模板和设置初始阈值,其中建立初始过滤模板是通过特征抽取和伪反馈建立的;而过滤阶段是根据用户的反馈信息自适应地调整已建立的过滤模板和阈值,从而识别推广内容数据。其中,图1示出了自适应过滤训练算法的体系结构。在该训练阶段算法中,先将主题11转变为向量形式的主题向量14,再从正例文本12和伪正例文本13中抽取特征向量15,该主题向量14、正例特征向量12以及伪正例特征向量13的加权和构成了初始过滤模板16。计算初始过滤模板16和全部的训练样本17之间的相似度,为每个主题选择最优的初始相似度阈值18。当文本与初始过滤模板16的相似度大于或等于初始相似度阈值18时,判定该文本为与推广内容相关的文本,否则判定为不相关的,具体判定过程如图2所示。该方法在建立初始过滤模板16且设置了初始相似度阈值18之后,文本过滤的过程就是自适应地修改初始过滤模块16和初始相似度阈值18,从而不断提高过滤系统的性能。由于在问答社区中,多个用户可能提交相同或者不同的推广内容数据,而不同客户在推广内容数据中的用语、风格等可能也存在很大的差别,因此通过不断修改相似度阈值,再比较文本与该相似度阈值的大小来判定问答社区中所有千差万别的文本是否为推广内容数据不仅操作繁琐,效率低下,而且难以检测出问答社区中千差万别的推广内容数据。
最后一种是基于机器学习识别推广内容数据的,该方法首先需要人工标注待过滤的主题内容数据,然后采用机器学习的方法进行训练,最后用训练得到的分类模型对新的待检测内容数据进行主题检测。该方法在检测问答社区中的推广内容数据时会有一定局限性。一方面,问答社区中往往会有很多的推广用户同时在推广,不同的推广用户的推广特点不太一样,风格差别很大,这样基于训练的推广数据识别就需要很大的训练数据规模,并且需要覆盖近乎所有主要类型的推广数据,因此实施代价较大。另一方面,用户的推广内容数据是动态变化的,推广的特点也会不断变化,因此需要不断地调整训练模型、补充训练数据进行重新训练,导致成本过大且操作繁琐和效率低下。
发明内容
本发明实施例提供了一种问答社区中推广内容的检测方法,旨在解决现有的推广内容检测方法在检测问答社区存在的推广内容时存在的维护、实施成本过大,检测效率低下以及滞后的问题。
本发明实施例是这样实现的,一种问答社区中推广内容的检测方法,所述方法包括下述步骤:
获取用户在预设时间内提交的内容数据;
对所述内容数据进行切分处理,并统计所述内容数据切分处理后获得的字符相同的字符串个数;
根据所述字符相同的字符串个数检测所述内容数据是否为推广的内容数据。
本发明实施例的另一目的在于提供一种问答社区中推广内容的检测装置,所述装置包括:
内容数据获取单元,用于获取用户在预设时间内提交的内容数据;
相同字符串统计单元,用于对所述内容数据进行切分处理,并统计所述内容数据切分处理后获得的字符相同的字符串个数;
内容数据检测单元,用于根据所述字符相同的字符串个数检测所述内容数据是否为推广的内容数据。
在本发明中,通过对用户在一定时间段内提交的多条内容数据进行切分处理,并统计这些内容数据切分处理后所包含的字符相同的字符串个数,根据比较字符相同的字符串个数与预设阈值的大小判定用户提交的内容数据是否为推广的内容数据。由于只需分析用户提交的内容数据,无需维护额外的推广关键词表、构建训练数据集合或者周期性调整训练模型等,因此有效地降低了维护成本和实施成本,并且,该本发明的方法和装置在用户推广新的内容数据时也同样适用,因此能够及时、有效地检测到新的推广内容数据。
附图说明
图1是现有技术提供的自适应过滤训练算法的体系结构图;
图2是现有技术提供的自适应算法体系结构图;
图3是本发明提供的问答社区中推广内容的检测方法流程图;
图4是本发明提供的问答社区中推广内容的检测装置结构示意图;
图5是本发明提供的检测装置的相同字符串统计单元的结构图;
图6是本发明提供的检测装置的内容数据切分模块的结构图;
图7是本发明提供的检测装置的内容数据检测单元的结构图;
图8是本发明提供的检测装置的内容数据检测单元的另一结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明在分析一个用户在一定时间段内提交的内容数据是否为推广的内容数据时,首先获取该用户在该时间段内提交的内容数据,并对这些内容数据逐条切分,统计切分处理后的字符串是否存在相同的字符串,并确定相同字符串的个数,最后比较相同字符串的个数与预设阈值的大小来判定该用户在该时间段内提交的内容数据是否为推广的内容数据。
本发明提供了一种:问答社区中推广内容的检测方法以及装置。
所述方法包括:获取用户在预设时间内提交的内容数据;
对所述内容数据进行切分处理,并统计所述内容数据切分处理后获得的字符相同的字符串个数;
根据所述字符相同的字符串个数检测所述内容数据是否为推广的内容数据。
所述装置包括:内容数据获取单元,用于获取用户在预设时间内提交的内容数据;
相同字符串统计单元,用于对所述内容数据进行切分处理,并统计所述内容数据切分处理后获得的字符相同的字符串个数;
内容数据检测单元,用于根据所述字符相同的字符串个数检测所述内容数据是否为推广的内容数据。
在本发明中,通过对用户在一定时间段内提交的多条内容数据进行切分处理,并统计这些内容数据切分处理后所包含的字符相同的字符串个数,根据比较字符相同的字符串个数与预设阈值的大小判定用户提交的内容数据是否为推广的内容数据。由于只需分析用户提交的内容数据,无需维护额外的推广关键词表、构建训练数据集合或者周期性调整训练模型等,因此有效地降低了维护成本和实施成本,并且,该方法在用户推广新的内容数据时也同样适用,因此能够及时、有效地检测到新的推广内容数据。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
图3示出了本发明第一实施例提供的一种问答社区中推广内容的检测方法,由于推广内容数据中总会包含相同的字符串,该相同的字符串为用户需要推广的产品名称或者产品价格等,因此在本实施例中,对用户在一定时间段内提交的内容数据都进行切分处理,并统计切分处理后字符相同的字符串的个数,再根据相同字符串的个数判定用户提交的内容数据是否为推广的内容数据,详述如下:
在步骤S31中,获取用户在预设时间内提交的内容数据。
在本实施例中,获取同一个用户在预设的一天或者在预设的一个小时之内所提交的内容数据,并统计该内容数据所包含的内容数据条数。为了提高检测结果的可信度,获取用户在预设时间内提交的内容数据的步骤具体为:若用户在预设时间内提交的内容数据较少时,获取用户在该预设时间内提交的所有内容数据;若用户在预设时间内提交的内容数据较多时,获取用户在该预设时间内提交的部分内容数据。
在步骤S32中,对该内容数据进行切分处理,并统计该内容数据切分处理后获得的字符相同的字符串个数。
在本实施例中,字符相同的字符串指两个字符串的每一个字符都相同,比如字符串“白猫”和字符串“白猫”就判定为相同的字符串,当然,也可以设置一个阈值,在两个字符串的相同字符大于该阈值时判定这两个字符串为相同的字符串,此处不作限定。
作为本发明的另一个实施例,对该内容数据进行切分处理,并统计该内容数据切分处理后获得的字符相同的字符串个数的步骤具体为:
预设一个切分阈值;
根据该切分阈值依次对该内容数据的每一条内容数据切分,获取长度为切分阈值或者长度为切分阈值+1的字符串;
在切分每一条内容数据后,统计该内容数据切分处理后字符相同的字符串个数。
在本实施例中,预设一个切分阈值,该切分阈值为一个整数,比如可将该切分阈值设置为10字节,则根据该切分阈值对用户提交的单条内容数据进行切分,在字符串长度为切分阈值-1且下一个字符为非汉字或者为非中文字符时,获取长度为切分阈值的字符串,或者在字符串长度为切分阈值-1且下一个字符为汉字或者为中文字符时,获取长度为切分阈值加1的字符串。对一条内容数据切分后继续切分已获取的其余内容数据,直到将获取的内容数据都根据该切分阈值逐条切分结束,在切分了内容数据之后,统计在该内容数据中字符相同的字符串个数。在本实施例中,若在同一条内容数据多次出现一个相同的字符串,则该字符串仅标记出现了一次,并按照字符相同的字符串出现的频率从高到低逆序排列。
作为本发明的另一个实施例,根据该切分阈值依次对该内容数据的每一条内容数据切分,获取长度为切分阈值或者长度为切分阈值+1的字符串的步骤具体为:
对该内容数据的第一条内容数据从头至尾切分,若当前字符为非汉字或者为非中文字符,则下一个待切分字符串的开始位置为当前位置加1,否则,下一个待切分字符串的开始位置为当前位置加2,依次切分,在字符串长度为切分阈值-1且下一个字符为非汉字或者为非中文字符时,获取长度为切分阈值的字符串,或者在字符串长度为切分阈值-1且下一个字符为汉字或者为中文字符时,获取长度为切分阈值加1的字符串,直到该第一条内容数据切分结束;
根据切分该内容数据的第一条内容数据的方法依次切分该内容数据的其余内容数据。
在本实施例中,为了保证切分后的内容数据具有一定的意义,因此对每一条内容数据切分时都是按照从头至尾的顺序进行的。例如,将切分阈值设置为10字节,获取的一条内容数据如下:
2009年3月初,我被家人用一个美丽的谎言约到了广西南宁,开始接触【资本运作】。
根据切分阈值10切分上述内容数据,从当前字符“2”开始切分,判断从当前字符“2”往后的第10个字符是否为汉字,由于第10个字符是一个汉字“初”,因此,切分字符串的结束位置为第10加1个字符,获得的第一个字符串为“2009年3月初”。由于“2”不是汉字,因此下一个待切分字符串的开始位置为当前位置加1,即从字符“0”开始切分,继续切分,获得的字符串分别为:“009年3月初”、“09年3月初,”、“9年3月初,我”、“年3月初,我”、“3月初,我被”、“月初,我被家”、“初,我被家人”、“,我被家人用”、“我被家人用”、“被家人用一”、“家人用一个”、“人用一个美”、“用一个美丽”、“一个美丽的”、“个美丽的谎”、“美丽的谎言”、“丽的谎言约”、“的谎言约到”、“谎言约到了”、“言约到了广”、“约到了广西”、“到了广西南”、“了广西南宁”、“广西南宁,开”、“西南宁,开”、“南宁,开始接”、“宁,开始接触”、“,开始接触【”、“开始接触【资”、“始接触【资”、“接触【资本运”、“触【资本运作”、“【资本运作】”。
由于在开始切分字符串和结束切分字符串的时候都事先判断切分开始的字符或者判断切分结束的字符是否为中文(或者汉字),并根据切分开始的字符或者切分结束的字符是否为中文执行不同的操作,从而避免了将一个中文字符或汉字切分为2个字节。
作为本发明的另一个实施例,在对该内容数据进行切分处理,并统计该内容数据切分处理后获得的字符相同的字符串个数的步骤之后进一步包括下述步骤:
将切分处理后获得的字符串保存到合适的数据结构中,比如保存到C++语言中的标准模板库(Standard Template Library,STL)的map中。
在步骤S33中,根据该字符相同的字符串个数检测该内容数据是否为推广的内容数据。
作为本发明的另一个实施例,根据该字符相同的字符串个数检测该内容数据是否为推广的内容数据的步骤具体为:
获取最大字符相同的字符串个数;
预设一个频率阈值,判断该最大字符相同的字符串个数是否大于或者等于该频率阈值,若大于或者等于该频率阈值,则判定该内容数据为推广的内容数据。
在本实施例中,根据实际情况设定一个频率阈值,该频率阈值大于0,假设该频率阈值为10,同一个用户在一个小时之内提交的多条内容数据中最大字符相同的字符串个数为20,由于20大于10,因此判断该用户提交的内容数据为推广信息;若同一个用户在一个小时之内提交的多条内容数据中最大字符相同的字符串个数为6,由于6小于10,因此判断该用户提交的内容数据为正常的内容数据。在本实施例中,为了提高检测结果的可信度,采用用户在预设时间内提交的部分内容数据检测用户在预设时间内提交的所有内容数据是否为推广的内容数据所预设的频率阈值,与采用用户在预设时间内提交的所有内容数据检测用户在预设时间内提交的所有内容数据是否为推广的内容数据所预设的频率阈值相同。当然,为了进一步提高检测结果的准确度,通常是采用用户在预设时间内的所有内容数据来检测该用户在预设时间内提交的所有内容数据是否为推广的内容数据。进一步地,可删除判定为推广信息的内容数据,并限定该用户在一定时间内不能提交任何内容数据。
作为本发明的另一个实施例,根据该字符相同的字符串个数检测该内容数据是否为推广的内容数据的步骤具体为:
获取最大字符相同的字符串个数以及内容数据的条数,确定所述最大字符相同的字符串个数在内容数据的条数的比例;
预设一个比例阈值,判断该最大字符相同的字符串个数在内容数据的条数的比例是否大于或者等于该比例阈值,若大于或者等于该比例阈值,则判定该内容数据为推广的内容数据。
在本实施例中,根据实际情况设定一个比例阈值,该比例阈值大于0,假设该比例阈值为60%,同一个用户在一个小时之内共提交了100条内容数据,在该100条内容数据中最大字符相同的字符串个数为60,由于60/100等于比例阈值60%,因此判断该用户提交的内容数据为推广信息;若同一个用户在一个小时之内提交的100条内容数据中最大字符相同的字符串个数为6,由于6/100小于60%,因此判断该用户提交的内容数据为正常的内容数据。进一步地,可删除判定为推广信息的内容数据,并限定该用户在一定时间内不能提交任何内容数据。在本实施例中,为了提高检测结果的可信度,采用用户在预设时间内提交的部分内容数据检测用户在预设时间内提交的所有内容数据是否为推广的内容数据所预设的比例阈值,与采用用户在预设时间内提交的所有内容数据检测用户在预设时间内提交的所有内容数据是否为推广的内容数据所预设的比例阈值相同。当然,为了进一步提高检测结果的准确度,通常是采用用户在预设时间内的所有内容数据来检测该用户在预设时间内提交的所有内容数据是否为推广的内容数据。
在本发明第一实施例中,通过对用户在一定时间段内提交的多条内容数据进行切分处理,并统计这些内容数据切分处理后所包含的字符相同的字符串个数,根据比较字符相同的字符串个数与预设阈值的大小判定用户提交的内容数据是否为推广的内容数据。由于只需分析用户提交的内容数据,无需维护额外的推广关键词表、构建训练数据集合或者周期性调整训练模型等,因此有效地降低了维护成本和实施成本,并且,该方法在用户推广新的内容数据时也同样适用,因此能够及时、有效地检测到新的推广内容数据。
实施例二:
图4示出了本发明第二实施例提供的问答社区中推广内容的检测装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
该问答社区中推广内容的检测装置可以用于通过有线或者无线网络连接服务器的各种信息处理终端,例如移动电话、口袋计算机(Pocket PersonalComputer,PPC)、掌上电脑、计算机、笔记本电脑、个人数字助理(PersonalDigital Assistant,PDA)等,可以是运行于这些终端内的软件单元、硬件单元或者软硬件相结合的单元,也可以作为独立的挂件集成到这些终端中或者运行于这些终端的应用系统中,其中:
内容数据获取单元41,用于获取用户在预设时间内提交的内容数据。
在本实施例中,在需要分析一个用户提交的内容数据是否为推广的内容数据时,首先要获取该用户在预设时间内提交的内容数据以及在该预设时间内提交的内容数据的条数。若用户在预设时间内提交的内容数据较少时,获取用户在该预设时间内提交的所有内容数据;若用户在预设时间内提交的内容数据较多时,获取用户在该预设时间内提交的部分内容数据。
相同字符串统计单元42,用于对该内容数据进行切分处理,并统计该内容数据切分处理后获得的字符相同的字符串个数。
作为本发明的另一个实施例,该相同字符串统计单元42包括切分阈值设置模块51、内容数据切分模块52以及相同字符串统计模块53,具体如图5所示。
切分阈值设置模块51,用于预设一个切分阈值。
内容数据切分模块52,用于根据该切分阈值依次对该内容数据的每一条内容数据切分,获取长度为切分阈值或者长度为切分阈值+1的字符串。
在本实施例中,内容数据切分模块52根据切分阈值设置模块51设置的切分阈值切分同一个用户在预设时间内提交的内容数据。
作为本发明的另一个实施例,该内容数据切分模块52包括首条内容数据切分模块61和剩余内容数据切分模块62,具体如图6所示。
首条内容数据切分模块61,用于对该内容数据的第一条内容数据从头至尾切分,若当前字符为非汉字或者为非中文字符,则下一个待切分字符串的开始位置为当前位置加1,否则,下一个待切分字符串的开始位置为当前位置加2,依次切分,在字符串长度为切分阈值-1且下一个字符为非汉字或者为非中文字符时,获取长度为切分阈值的字符串,或者在字符串长度为切分阈值-1且下一个字符为汉字或者为中文字符时,获取长度为切分阈值加1的字符串,直到该第一条内容数据切分结束。
剩余内容数据切分模块62,用于根据切分该内容数据的第一条内容数据的方法依次切分该内容数据的其余内容数据。
在本实施例中,在切分模块61和剩余内容数据切分模块62切分的内容数据时,都需要判断当前切分的字符是否为中文字符,避免将一个中文字符或汉字切分为2个字节。
相同字符串统计模块53,用于在切分每一条内容数据后,统计该内容数据切分处理后字符相同的字符串个数。
在本实施例中,若一条内容数据中包括了多个相同的字符串,则可将该字符串标记为出现一次。
内容数据检测单元43,用于根据该字符相同的字符串个数检测该内容数据是否为推广的内容数据。
作为本发明的另一个实施例,内容数据检测单元43包括字符串个数获取模块71和第一内容数据检测模块72,具体如图7所示。
字符串个数获取模块71,用于获取最大字符相同的字符串个数。
第一内容数据检测模块72,用于预设一个频率阈值,判断所述最大字符相同的字符串个数是否大于或者等于该频率阈值,若大于或者等于该频率阈值,则判定该内容数据为推广的内容数据。
作为本发明的另一个实施例,内容数据检测单元43包括字符串个数比例确定模块81和第二内容数据检测模块82,具体如图8所示。
比例阈值设置模块81,用于获取最大字符相同的字符串个数以及内容数据的条数,确定所述最大字符相同的字符串个数在内容数据的条数的比例。
第二内容数据检测模块82,预设一个比例阈值,判断所述最大字符相同的字符串个数在内容数据的条数的比例是否大于或者等于所述比例阈值,若大于或者等于所述比例阈值,则判定所述内容数据为推广的内容数据。
在本发明第二实施例中,相同字符串统计单元42对内容数据获取单元41获取的同一个用户在预设时间内提交的内容数据进行切分处理后,统计切分处理结果中存在的相同字符串,内容数据检测单元43再根据相同字符串的个数检测内容数据获取单元41获取的内容数据是否为推广的内容数据。其中,内容数据检测单元43至少包含图7和图8中的一种结构。由于只需分析用户提交的内容数据,无需维护额外的推广关键词表、构建训练数据集合或者周期性调整训练模型等,因此有效地降低了维护成本和实施成本,并且,该方法在用户推广新的内容数据时也同样适用,因此能够及时、有效地检测到新的推广内容数据。
本发明中,在分析一个用户在一定时间段内提交的内容数据是否为推广的内容数据时,首先获取该用户在该时间段内提交的部分或者所有内容数据,并对这些内容数据逐条切分,统计切分处理后的字符串是否存在相同的字符串,并确定相同字符串的个数,最后比较相同字符串的个数与预设阈值的大小来判定该用户在该时间段内提交的内容数据是否为推广的内容数据。由于只需分析用户提交的内容数据,无需维护额外的推广关键词表、构建训练数据集合或者周期性调整训练模型等,因此有效地降低了维护成本和实施成本,并且,该方法在用户推广新的内容数据时也同样适用,因此能够及时、有效地检测到新的推广内容数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种问答社区中推广内容的检测方法,其特征在于,所述方法包括下述步骤:
获取用户在预设时间内提交的内容数据;
对所述内容数据进行切分处理,并统计所述内容数据切分处理后获得的字符相同的字符串个数;
根据所述字符相同的字符串个数检测所述内容数据是否为推广的内容数据。
2.如权利要求1所述的方法,其特征在于,所述对所述内容数据进行切分处理,并统计所述内容数据切分处理后获得的字符相同的字符串个数的步骤具体为:
预设一个切分阈值;
根据所述切分阈值依次对所述内容数据的每一条内容数据切分,获取长度为切分阈值或者长度为切分阈值+1的字符串;
在切分每一条内容数据后,统计所述内容数据切分处理后字符相同的字符串个数。
3.如权利要求2所述的方法,其特征在于,所述根据所述切分阈值依次对所述内容数据的每一条内容数据切分,获取长度为切分阈值或者长度为切分阈值+1的字符串的步骤具体为:
对所述内容数据的第一条内容数据从头至尾切分,若当前字符为非汉字或者为非中文字符,则下一个待切分字符串的开始位置为当前位置加1,否则,下一个待切分字符串的开始位置为当前位置加2,依次切分,在字符串长度为切分阈值-1且下一个字符为非汉字或者为非中文字符时,获取长度为切分阈值的字符串,或者在字符串长度为切分阈值-1且下一个字符为汉字或者为中文字符时,获取长度为切分阈值加1的字符串,直到所述第一条内容数据切分结束;
根据切分所述内容数据的第一条内容数据的方法依次切分所述内容数据的其余内容数据。
4.如权利要求1所述的方法,其特征在于,所述根据所述字符相同的字符串个数检测所述内容数据是否为推广的内容数据的步骤具体为:
获取最大字符相同的字符串个数;
预设一个频率阈值,判断所述最大字符相同的字符串个数是否大于或者等于所述频率阈值,若大于或者等于所述频率阈值,则判定所述内容数据为推广的内容数据。
5.如权利要求1所述的方法,其特征在于,所述根据所述字符相同的字符串个数检测所述内容数据是否为推广的内容数据的步骤具体为:
获取最大字符相同的字符串个数以及内容数据的条数,确定所述最大字符相同的字符串个数在内容数据的条数的比例;
预设一个比例阈值,判断所述最大字符相同的字符串个数在内容数据的条数的比例是否大于或者等于所述比例阈值,若大于或者等于所述比例阈值,则判定所述内容数据为推广的内容数据。
6.一种问答社区中推广内容的检测装置,其特征在于,所述装置包括:
内容数据获取单元,用于获取用户在预设时间内提交的内容数据;
相同字符串统计单元,用于对所述内容数据进行切分处理,并统计所述内容数据切分处理后获得的字符相同的字符串个数;
内容数据检测单元,用于根据所述字符相同的字符串个数检测所述内容数据是否为推广的内容数据。
7.如权利要求6所述的装置,其特征在于,所述相同字符串统计单元包括:
切分阈值设置模块,用于预设一个切分阈值;
内容数据切分模块,用于根据所述切分阈值依次对所述内容数据的每一条内容数据切分,获取长度为切分阈值或者长度为切分阈值+1的字符串;
相同字符串统计模块,用于在切分每一条内容数据后,统计所述内容数据切分处理后字符相同的字符串个数。
8.如权利要求7所述的装置,其特征在于,所述内容数据切分模块包括:
首条内容数据切分模块,对所述内容数据的第一条内容数据从头至尾切分,若当前字符为非汉字或者为非中文字符,则下一个待切分字符串的开始位置为当前位置加1,否则,下一个待切分字符串的开始位置为当前位置加2,依次切分,在字符串长度为切分阈值-1且下一个字符为非汉字或者为非中文字符时,获取长度为切分阈值的字符串,或者在字符串长度为切分阈值-1且下一个字符为汉字或者为中文字符时,获取长度为切分阈值加1的字符串,直到所述第一条内容数据切分结束;
剩余内容数据切分模块,用于根据切分所述内容数据的第一条内容数据的方法依次切分所述内容数据的其余内容数据。
9.如权利要求6所述的装置,其特征在于,所述内容数据检测单元包括:
字符串个数获取模块,用于获取最大字符相同的字符串个数;
第一内容数据检测模块,用于预设一个频率阈值,判断所述最大字符相同的字符串个数是否大于或者等于所述频率阈值,若大于或者等于所述频率阈值,则判定所述内容数据为推广的内容数据。
10.如权利要求6所述的装置,其特征在于,所述内容数据检测单元包括:
字符串个数比例确定模块,用于获取最大字符相同的字符串个数以及内容数据的条数,确定所述最大字符相同的字符串个数在内容数据的条数的比例;
第二内容数据检测模块,用于预设一个比例阈值,判断所述最大字符相同的字符串个数在内容数据的条数的比例是否大于或者等于所述比例阈值,若大于或者等于所述比例阈值,则判定所述内容数据为推广的内容数据。
CN 201110208427 2011-07-22 2011-07-22 一种问答社区中推广内容的检测方法以及装置 Pending CN102891838A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110208427 CN102891838A (zh) 2011-07-22 2011-07-22 一种问答社区中推广内容的检测方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110208427 CN102891838A (zh) 2011-07-22 2011-07-22 一种问答社区中推广内容的检测方法以及装置

Publications (1)

Publication Number Publication Date
CN102891838A true CN102891838A (zh) 2013-01-23

Family

ID=47535205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110208427 Pending CN102891838A (zh) 2011-07-22 2011-07-22 一种问答社区中推广内容的检测方法以及装置

Country Status (1)

Country Link
CN (1) CN102891838A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970727A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 基于话题的反作弊方法、装置和服务器
CN106875076A (zh) * 2015-12-10 2017-06-20 中国移动通信集团公司 建立外呼质量模型、外呼模型及外呼评价的方法及系统
CN107256224A (zh) * 2017-04-28 2017-10-17 北京神州泰岳软件股份有限公司 一种要素知识结构的生成方法,搜索方法,装置及系统
CN107798113A (zh) * 2017-11-02 2018-03-13 东南大学 一种基于聚类分析的文档数据分类方法
CN108804413A (zh) * 2018-04-28 2018-11-13 百度在线网络技术(北京)有限公司 文本作弊的识别方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970727A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 基于话题的反作弊方法、装置和服务器
CN103970727B (zh) * 2013-01-29 2018-01-09 腾讯科技(深圳)有限公司 基于话题的反作弊方法、装置和服务器
CN106875076A (zh) * 2015-12-10 2017-06-20 中国移动通信集团公司 建立外呼质量模型、外呼模型及外呼评价的方法及系统
CN107256224A (zh) * 2017-04-28 2017-10-17 北京神州泰岳软件股份有限公司 一种要素知识结构的生成方法,搜索方法,装置及系统
CN107256224B (zh) * 2017-04-28 2018-10-09 北京神州泰岳软件股份有限公司 一种要素知识结构的生成方法,搜索方法,装置及系统
CN107798113A (zh) * 2017-11-02 2018-03-13 东南大学 一种基于聚类分析的文档数据分类方法
CN107798113B (zh) * 2017-11-02 2021-11-12 东南大学 一种基于聚类分析的文档数据分类方法
CN108804413A (zh) * 2018-04-28 2018-11-13 百度在线网络技术(北京)有限公司 文本作弊的识别方法及装置

Similar Documents

Publication Publication Date Title
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN107784092A (zh) 一种推荐热词的方法、服务器及计算机可读介质
CN110297988A (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN102929861A (zh) 一种文本情感指数计算方法和系统
CN105787025B (zh) 网络平台公共账号分类方法及装置
CN107633227A (zh) 一种基于csi的细粒度手势识别方法和系统
CN103207913A (zh) 商品细粒度语义关系的获取方法和系统
CN104317784A (zh) 一种跨平台用户识别方法和系统
CN101609450A (zh) 基于训练集的网页分类方法
CN109145180B (zh) 一种基于增量聚类的企业热点事件挖掘方法
CN102891838A (zh) 一种问答社区中推广内容的检测方法以及装置
CN105809464A (zh) 信息投放方法和装置
CN111309864B (zh) 一种微博热点话题的用户群体情感倾向迁移动态分析方法
CN102279890A (zh) 基于微博的情感词提取收集方法
CN106296368A (zh) 一种车型推荐系统和方法
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN107294834A (zh) 一种识别垃圾邮件的方法和装置
CN102567534B (zh) 互动产品用户生成内容拦截系统及其拦截方法
CN111061837A (zh) 话题识别方法、装置、设备及介质
CN106202200B (zh) 一种基于固定主题的文本情感倾向性分类方法
CN113032557A (zh) 一种基于频繁词集与bert语义的微博热点话题发现方法
US20160283582A1 (en) Device and method for detecting similar text, and application
CN109214445A (zh) 一种基于人工智能的多标签分类方法
CN110457707B (zh) 实词关键词的提取方法、装置、电子设备及可读存储介质
CN113806483B (zh) 数据处理方法、装置、电子设备及计算机程序产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131018

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20131018

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130123