CN104408087A - 作弊文本的识别方法和系统 - Google Patents

作弊文本的识别方法和系统 Download PDF

Info

Publication number
CN104408087A
CN104408087A CN201410641811.XA CN201410641811A CN104408087A CN 104408087 A CN104408087 A CN 104408087A CN 201410641811 A CN201410641811 A CN 201410641811A CN 104408087 A CN104408087 A CN 104408087A
Authority
CN
China
Prior art keywords
probability
text
text message
corpus
statement interlude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410641811.XA
Other languages
English (en)
Inventor
杨燕
于佃海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410641811.XA priority Critical patent/CN104408087A/zh
Publication of CN104408087A publication Critical patent/CN104408087A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明实施例提供一种作弊文本的识别方法和系统,方法包括:接收文本信息;将文本信息按自然语序划分为多个语句段,并计算各所述语句段在训练语料中出现的概率;根据文本信息中包含的各语句段在训练语料中出现的概率确定文本信息是否为作弊文本。本发明的技术方案实现了一种针对作弊文本的有效识别方法,同时也提高了识别的准确率。

Description

作弊文本的识别方法和系统
技术领域
本发明涉及通信技术领域,尤其涉及一种作弊文本的识别方法和系统。
背景技术
现有互联网中的一些社区论坛上常出现这样一类作弊文本,如【成】67【人】YC【游】yd【戏】,其通过加入干扰随机字符的方式,绕过了系统的识别,从而污染整个论坛,严重损害用户的体验。因此,如何对这些作弊文本进行有效的识别已成为一个亟需解决的问题。
发明内容
本发明的实施例提供一种作弊文本的识别方法和系统,以实现对作弊文本的有效识别。
为达到上述目的,本发明的实施例提供了一种作弊文本的识别方法,包括:
接收文本信息;
将所述文本信息按自然语序划分为多个语句段,并计算各所述语句段在训练语料中出现的概率;
根据所述文本信息中包含的各语句段在训练语料中出现的概率确定所述文本信息是否为作弊文本。
本发明的实施例还提供了一种作弊文本的识别系统,包括:
接收模块,用于接收文本信息;
处理模块,用于将所述文本信息按自然语序划分为多个语句段,并计算各所述语句段在在训练语料中出现的概率;
确定模块,用于根据所述文本信息中包含的各语句段在训练语料中出现的概率确定所述文本信息是否为作弊文本。
本发明实施例提供的作弊文本的识别方法和系统,通过接收文本信息;将文本信息按自然语序划分为多个语句段,并计算各语句段在训练语料中出现的概率;根据文本信息中包含的各语句段在训练语料中出现的概率确定文本信息是否为作弊文本,由此实现对作弊文本的识别,同时提高了识别的准确率。
附图说明
图1为本发明提供的作弊文本的识别方法一个实施例的方法流程图;
图2为本发明提供的作弊文本的识别方法另一个实施例的方法流程图;
图3为图2提供的作弊文本的识别方法对应的一个识别概率图;
图4为图2提供的作弊文本的识别方法对应的另一个识别概率图;
图5为图2提供的作弊文本的识别方法对应的又一个识别概率图;
图6为本发明提供的作弊文本的识别系统一个实施例的结构示意图;
图7为本发明提供的作弊文本的识别系统另一个实施例的结构示意图。
具体实施方式
本发明的实施例利用文本信息中包含的各语句段在训练语料中出现的概率来确定该文本信息是否为作弊文本。本发明实施例的技术方案可以适用于针对用户输入的文本信息进行识别的作弊文本的识别系统。
实施例一
图1为本发明提供的作弊文本的识别方法一个实施例的方法流程图,该方法的执行主体可以为具有文本识别功能的系统。如图1所示,该作弊文本的识别方法具体包括:
S101,接收文本信息;
现有互联网中的社区论坛上,一些不法用户常常通过发布加入有干扰随机字串的文本信息来绕过系统的识别,从而达到散布违法信息或恶意广告的目的。本实施例中的文本信息即为从上述社区论坛或是其他网站收集的用户键入的信息。
S102,将文本信息按自然语序划分为多个语句段,并计算各语句段在训练语料中出现的概率;
在接收到上述文本信息后,可以根据文本信息的自然语序将该文本信息划分为多个语句段S=W1,W2,…,Wk(已标明语序),每个语句段S内包含的词语的个数,即k的大小可依据接收文本信息的具体长度而定,且每个语句段S对应的k值大小可以相同也可以不同。其中,Wi,(1≤i≤k)具体可以为一个汉字、一个英文单词、一个字符符号或英文字母等。根据各语句段S在训练语料中出现的次数可以得到该语句段在训练语料中相应的概率P(S)。
其中,上述训练语料为预先收集训练得到的具有一定规模的文本集合。
S103,根据文本信息中包含的各语句段在训练语料中出现的概率确定文本信息是否为作弊文本;
通常,非法用户采用的文本作弊方式是通过在欲散布的文本信息中添加随机干扰字符或字符串如数字、字母等,而这些干扰字符和字符串通常是没有语义的,且在现有的正常文本中也是很少甚至是不出现的。因此通过判断上述各语句段S在训练语料中出现的概率P(S)的大小可以有效估算出该语句段S中包含的无语义的词语的数量。P(S)越小表征该语句段S中包含的无语义的词语的数量越多,该语句段S被进行文本作弊处理的可能性越大。最后,根据文本信息中各语句段S对应的P(S)的分布情况,可以得到该文本信息被作弊的概率,从而确定该文本信息是否为作弊文本。例如:当各语句段S对应的P(S)都很大时,可确定该文本信息未经作弊处理为非作弊文本,当各语句段S对应的P(S)都很小时,则确定该文本信息已经过作弊处理为作弊文本。
本发明实施例提供的作弊文本的识别方法,通过接收文本信息;将所述文本信息按自然语序划分为多个语句段,并计算各语句段在在训练语料中出现的概率;根据文本信息中包含的各语句段在训练语料中出现的概率确定文本信息是否为作弊文本,由此实现对作弊文本的识别,同时提高了识别的准确率。
实施例二
图2为本发明提供的作弊文本的识别方法另一个实施例的方法流程图,是如图1所示方法实施例的一种具体实现方式,如图2所示,该作弊文本的识别方法具体包括:
S201,接收文本信息;该步骤具体执行过程可参见步骤101的相应内容。
S202,将文本信息按自然语序划分为多个词语长度相同的语句段S=W1,W2,…,Wk;其中,上述各语句段S中包括的词语的长度为所包含的词语的个数,即k。
在步骤202之后可继续执行步骤S102中,计算各语句段在训练语料中出现的概率;
现有技术中,常依据公式:
P(S)=P(W1,W2,…,Wk)=p(W1)P(W2|W1)…P(Wk|W1,W2,…,Wk-1)………………..(1)获得各语句段S在训练语料中出现的概率P(S),其中,Wi(1≤i≤k)为语句段S中第i个词语,所述k为正整数;
其中p(W1)为词语W1在训练语料中出现的概率;P(W2|W1)为一个条件概率,即在训练语料中,当词语W1出现时W2出现的概率;P(Wk|W1,W2,…,Wk-1)为一个条件概率,即在训练语料中,当词语序列W1,W2,…,Wk-1顺序出现时Wk出现的概率。依据公式(1)可以获得各语句段S在训练语料中出现的概率P(S)的相应步骤。
在实际应用场景中,由于上述(1)式中的参数过多,计算复杂度高,因此需要对其进行必要的近似计算。常用的模型方法有n-gram模型方法、决策树方法、最大熵模型方法、最大熵马尔科夫模型方法、条件随机域方法、神经网络方法,等等,这些方法均可实现对(1)式中的近似计算过程。本实施例中,以n-gram模型方法为例,给出一种依据公式(1)获得各语句段S在训练语料中出现的概率P(S)的具体实现方式。步骤如下(步骤203~205):
S203,采用最大似然估计对P(Wi|Wi-n+1,…,Wi-1)进行参数估计,即通过公式:
P(Wi|Wi-n+1,…,Wi-1)=C(Wi-n+1,…,Wi-1,Wi)/C(Wi-n+1,…,Wi-1)……………….(2)
获取P(Wi|Wi-n+1,…,Wi-1)的估计值;
其中,P(Wi|Wi-n+1,…,Wi-1)为采用n-gram模型方法对公式(1)进行近似运算时用到的参数,其为一个条件概率,即在训练语料中,当词语序列Wi-n+1,…,Wi-1顺序出现时Wi出现的概率,1≤i≤k。其中,n为采用的n-gram模型的元数。当n取1、2、3时,相应的n-gram模型分别称为unigram、bigram和trigram语言模型。
本实施例中,通过上述公式(2)即最大似然估计对P(Wi|Wi-n+1,…,Wi-1)进行参数估计。其中,C(Wi-n+1,…,Wi-1,Wi)和C(Wi-n+1,…,Wi-1)均可简写为C(X),其表示X在训练语料中出现的次数,训练语料的规模越大,参数估计的结果越可靠。
S204,对得到的每个P(Wi|Wi-n+1,…,Wi-1)的估计值进行平滑处理,并将平滑处理后的各P(Wi|Wi-n+1,…,Wi-1)的估计值确定为最终的P(Wi|Wi-n+1,…,Wi-1);
在采用最大似然估计对P(Wi|Wi-n+1,…,Wi-1)进行估计运算时,即使训练数据的规模很大,但还是会有很多语言现象在训练语料中没有出现过,这就会导致很多估计出来的参数(某n元对的概率)为0。这种问题也被称为数据稀疏(Data Sparseness),通过对估计得到的参数进行数据平滑(Data Smoothing)处理可有效解决数据稀疏问题。所谓数据平滑是对频率为0的n元对进行估计,已使得到的概率不为0。典型的平滑算法有加法平滑、Good-Turing平滑、线性插值平滑、Katz平滑,等等。
具体算法如下:
1.加法平滑
基本思想是为避免零概率问题,将每个n元对的出现次数加上一个常数δ(0<δ≤1):
P(Wi|Wi-n+1,…,Wi-1)=(C(Wi-n+1,…,Wi-1,Wi)+δ)/(C(Wi-n+1,…,Wi-1)+Nδ)……….(3)
其中,N为大于1的整数。
2.Good-Turing
利用频率的类别信息对频率进行平滑:
P GT ( W i | W i - n + 1 , . . . , W i - 1 ) = C GT ( W i - n + 1 , . . . , W i - 1 , W i ) / C ( W i - n + 1 , . . . , W i - 1 ) C GT ( W i - n + 1 , . . . , W i - 1 , W i ) = ( C ( W i - n + 1 , . . . , W i - 1 , W i ) + 1 ) &times; N ( C ( W i - n + 1 , . . . , W i - 1 , W i ) + 1 ) N ( C ( W i - n + 1 , . . . , W i - 1 , W i ) ) . . . ( 4 )
其中,N(c)表示频率为c的n-gram的数量。
3.线性插值平滑
利用低元n-gram模型对高元n-gram模型进行线性插值:Pinterp(Wi|Wi-n+1,…,Wi-1)=λn·PMLE(Wi|Wi-n+1,…,Wi-1)+(1-λn)·Pinterp(Wi|Wi-n+2,…,Wi-1)…(5)
其中,Pinterp()表示高阶n-gram模型概率,λn可以通过EM算法来估计,PMLE()表示线性差值。
4.Katz平滑:
也称为回退(back-off)平滑,其基本思想是当一个n元对的出现次数足够大时,用最大似然估计方法估计其概率;当n元对的出现次数不够大时,采用Good-Turing估计对其进行平滑,将其部分概率折扣给未出现的n元对;当n元对的出现次数为0时,模型回退到低元模型。
P katz ( W i | W i - n + 1 , . . . , W i - 1 ) = P MLE ( W i | W i - n + 1 , . . . , W i - 1 ) ifC ( W i - n + 1 , . . . , W i - 1 , W i ) &GreaterEqual; k &alpha; &CenterDot; P GT ( W i | W i - n + 1 , . . . , W i - 1 ) if &le; C ( W i - n + 1 , . . . , W i - 1 , W i ) < k &beta; &CenterDot; P katz ( W i | W i - n + 2 , . . . , W i - 1 ) ifC ( W i - n + 1 , . . . , W i - 1 , W i ) = 0 . . . ( 6 )
参数α和β保证模型参数概率的归一化约束条件,即:
&Sigma; w i p katz ( w i | w i - n + 1 i - 1 ) = 1 . . . ( 7 )
S205,对公式(1)进行n-gram语言模型近似,即通过公式:
P ( S ) = P ( W 1 , W 2 , . . . , W k ) = &Pi; i = 1 k P ( W i | W i - n + 1 , . . . , W i - 1 ) . . . ( 8 )
获得语句段S在训练语料中出现的概率P(S);该步骤的具体执行过程可参见步骤102的相应内容。
具体地,公式(7)中的P(Wi|Wi-n+1,…,Wi-1)为步骤204中得到的最终的P(Wi|Wi-n+1,…,Wi-1)的估计值。
至此,本实施例完成了一条文本信息中包含的各语句段S在训练语料中出现的概率P(S)。
S206,根据文本信息中包含的各语句段在训练语料中出现的概率确定文本信息是否为作弊文本;该步骤具体执行过程可参见步骤103的相应内容。
例如,可以将一个文本信息各语句段S在训练语料中出现的概率P(S)按大小顺序进行排序,然后将最低的固定个数(如3个)的概率P(S)提取出来求解其平均值,当该平均值小于预设的概率阈值时,则确定文本信息为作弊文本。其中,所述概率阈值为衡量一个文本信息是否为作弊文本的标准值,可通过前期的知识训练得到。可以理解的,本领域技术人员也可将一个文本信息对应获得的多个概率P(S)通过其他的代数运算来实现确定该文本信息是否为作弊文本的判断过程,本实施例在此不作限定。
图3、图4和图5分别给出了通过本实施例所述方法获得的作弊文本的识别概率图。图中数据是由百度贴吧提供30G的语料,按字进行5-gram的训练,得到相应的语言模型;依据该语言模型,按照不同的窗口大小(每个语句段S包含的词语个数),分别对50个反例(非正常文本信息)与40个正例(正常文本信息)进行作弊文本识别时对应的概率分布情况。其中横向代表概率值,纵向代表正、反例的总数量。
从图3、图4和图5中可以获知,当窗口大小为10(每个语句段S包含的词语个数为10)时,正、反例的区分最明显。
本发明实施例提供的作弊文本的识别方法,在图1所示方法实施例的基础上,给出了通过n-gram语言模型求解各语句段S在训练语料中出现的概率P(S)的一种具体近似方法,使计算过程相对(1)式简练。同时,在对n-gram语言模型所用的参数进行极大似然估计后,还对估计值进行了平滑处理,有效防止了数据稀松问题的出现;最后,在通过得到的各语句段对应的概率P(S)判断对应的文本信息是否为作弊文本时,采用了将各概率P(S)中最小的固定个数的概率P(S)的平均值与预设的概率阈值相比较的方法,根据比较结果来确定文本信息是否为作弊文本,使确定作弊文本的过程更加规范。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
实施例三
图6为本发明提供的作弊文本的识别系统一个实施例的结构示意图,可执行如图1所示方法步骤。如图6所示,该作弊文本的识别系统具体包括接收模块61,处理模块62和确定模块63;其中:
接收模块61,用于接收文本信息;
处理模块62,用于将所述文本信息按自然语序划分为多个语句段,并计算各所述语句段在在训练语料中出现的概率;
确定模块63,用于根据所述文本信息中包含的各语句段在训练语料中出现的概率确定所述文本信息是否为作弊文本。
进一步的,上述每个语句段具体记为:S=W1,W2,…,Wk
上述处理模块62具体用于:
根据P(S)=P(W1,W2,…,Wk)=p(W1)P(W2|W1)…P(Wk|W1,W2,…,Wk-1),获得语句段S在训练语料中出现的概率P(S),其中,Wk为语句段S中第k个词语,所述k为正整数。
进一步的,上述处理模块62还具体用于:
对P(S)=P(W1,W2,…,Wk)=p(W1)P(W2|W1)…P(Wk|W1,W2,…,Wk-1)进行n-gram语言模型近似,即通过:
P ( S ) = P ( W 1 , W 2 , . . . , W k ) = &Pi; i = 1 k P ( W i | W i - n + 1 , . . . , W i - 1 ) 获得语句段S在训练语料中出现的概率P(S)。
进一步的,在如图6所示实施例的基础上,如图7所示,上述作弊文本的识别系统还可以包括:
估计模块64,用于采用最大似然估计对P(Wi|Wi-n+1,…,Wi-1)进行参数估计,即通过:P(Wi|Wi-n+1,…,Wi-1)=C(Wi-n+1,…,Wi-1,Wi)/C(Wi-n+1,…,Wi-1)获取P(Wi|Wi-n+1,…,Wi-1)的估计值。
进一步的,如图7所示,上述作弊文本的识别系统中还可以包括平滑处理模块65,用于对得到的每个P(Wi|Wi-n+1,…,Wi-1)的估计值进行平滑处理,并将平滑处理后的各P(Wi|Wi-n+1,…,Wi-1)的估计值确定为最终的P(Wi|Wi-n+1,…,Wi-1)。
进一步的,如图7所示,上述作弊文本的识别系统中所述处理模块62具体用于:
对P(S)=P(W1,W2,…,Wk)=p(W1)P(W2|W1)…P(Wk|W1,W2,…,Wk-1)进行n-gram语言模型近似,即通过:
P ( S ) = P ( W 1 , W 2 , . . . , W k ) = &Pi; i = 1 k P ( W i | W i - n + 1 , . . . , W i - 1 ) 获得语句段S在训练语料中出现的概率P(S)。
进一步的,如图7所示,上述作弊文本的识别系统中,所述将文本信息按自然语序划分的多个语句段S的词语长度相同;
上述确定模块63具体用于:若文本信息中包含的各语句段S在训练语料中出现的最小的固定个数的概率P(S)的平均值小于预设的概率阈值,则确定该文本信息为作弊文本。
本发明实施例提供的作弊文本的识别系统,通过接收文本信息;将所述文本信息按自然语序划分为多个语句段,并计算各语句段在在训练语料中出现的概率;根据文本信息中包含的各语句段在训练语料中出现的概率确定文本信息是否为作弊文本,由此实现对作弊文本的识别,同时提高了识别的准确率。
进一步的,本方案采用的作弊文本的识别方法还给出了通过n-gram语言模型求解各语句段S在训练语料中出现的概率P(S)的一种具体近似方法,使计算过程相对(1)式简练。同时,在对n-gram语言模型所用的参数进行极大似然估计后,还对估计值进行了平滑处理,有效防止了数据稀松问题的出现;最后,在通过得到的各语句段对应的概率P(S)判断对应的文本信息是否为作弊文本时,采用了将各概率P(S)中最小的固定个数的概率P(S)的平均值与预设的概率阈值相比较的方法,根据比较结果来确定文本信息是否为作弊文本,使确定作弊文本的过程更加规范。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (12)

1.一种作弊文本的识别方法,其特征在于,包括:
接收文本信息;
将所述文本信息按自然语序划分为多个语句段,并计算各所述语句段在训练语料中出现的概率;
根据所述文本信息中包含的各语句段在训练语料中出现的概率确定所述文本信息是否为作弊文本。
2.根据权利要求1所述的方法,其特征在于,每个所述语句段具体记为:S=W1,W2,…,Wk
所述计算各所述语句段在在训练语料中出现的概率,包括:
根据P(S)=P(W1,W2,…,Wk)=p(W1)P(W2|W1)…P(Wk|W1,W2,…,Wk-1),获得所述语句段S在训练语料中出现的概率P(S),其中,Wk为所述语句段S中第k个词语,所述k为正整数。
3.根据权利要求2所述的方法,其特征在于,所述依据
P(S)=P(W1,W2,…,Wk)=p(W1)P(W2|W1)…P(Wk|W1,W2,…,Wk-1),获得所述语句段S在训练语料中出现的概率P(S),包括:
对所述P(S)=P(W1,W2,…,Wk)=p(W1)P(W2|W1)…P(Wk|W1,W2,…,Wk-1)进行n-gram语言模型近似,即通过:
P ( S ) = P ( W 1 , W 2 , . . . , W k ) = &Pi; i = 1 k P ( W i | W i - n + 1 , . . . , W i - 1 ) 获得所述语句段S在训练语料中出现的概率P(S)。
4.根据权利要求3所述的方法,其特征在于,在所述通过:
P ( S ) = P ( W 1 , W 2 , . . . , W k ) = &Pi; i = 1 k P ( W i | W i - n + 1 , . . . , W i - 1 ) 获得所述语句段S在训练语料中出现的概率P(S)之前,包括:
采用最大似然估计对所述P(Wi|Wi-n+1,…,Wi-1)进行参数估计,即通过:
P(Wi|Wi-n+1,…,Wi-1)=C(Wi-n+1,…,Wi-1,Wi)/C(Wi-n+1,…,Wi-1)获取所述P(Wi|Wi-n+1,…,Wi-1)的估计值。
5.根据权利要求4所述的方法,其特征在于,在所述采用最大似然估计对所述P(Wi|Wi-n+1,…,Wi-1)进行参数估计之后,还包括:
对得到的每个所述P(Wi|Wi-n+1,…,Wi-1)的估计值进行平滑处理,并将所述平滑处理后的各所述P(Wi|Wi-n+1,…,Wi-1)的估计值确定为最终的所述P(Wi|Wi-n+1,…,Wi-1)。
6.根据权利要求5所述的方法,其特征在于,所述将所述文本信息按自然语序划分的多个所述语句段S的词语长度相同;
所述根据所述文本信息中包含的各语句段在训练语料中出现的概率确定所述文本信息是否为作弊文本,包括:
若所述文本信息中包含的各语句段S在训练语料中出现的最小的固定个数的所述概率P(S)的平均值小于预设的概率阈值,则确定所述文本信息为作弊文本。
7.一种作弊文本的识别系统,其特征在于,包括:
接收模块,用于接收文本信息;
处理模块,用于将所述文本信息按自然语序划分为多个语句段,并计算各所述语句段在训练语料中出现的概率;
确定模块,用于根据所述文本信息中包含的各语句段在训练语料中出现的概率确定所述文本信息是否为作弊文本。
8.根据权利要求7所述的系统,其特征在于,每个所述语句段具体记为:S=W1,W2,…,Wk
所述处理模块具体用于:
根据P(S)=P(W1,W2,…,Wk)=p(W1)P(W2|W1)…P(Wk|W1,W2,…,Wk-1),获得所述语句段S在训练语料中出现的概率P(S),其中,Wk为所述语句段S中第k个词语,所述k为正整数。
9.根据权利要求8所述的系统,其特征在于,所述处理模块用于:
对所述P(S)=P(W1,W2,…,Wk)=p(W1)P(W2|W1)…P(Wk|W1,W2,…,Wk-1)进行n-gram语言模型近似,即通过:
P ( S ) = P ( W 1 , W 2 , . . . , W k ) = &Pi; i = 1 k P ( W i | W i - n + 1 , . . . , W i - 1 ) 获得所述语句段S在训练语料中出现的概率P(S)。
10.根据权利要求9所述的系统,其特征在于,还包括:
估计模块,用于采用最大似然估计对所述P(Wi|Wi-n+1,…,Wi-1)进行参数估计,即通过:P(Wi|Wi-n+1,…,Wi-1)=C(Wi-n+1,…,Wi-1,Wi)/C(Wi-n+1,…,Wi-1)获取所述P(Wi|Wi-n+1,…,Wi-1)的估计值。
11.根据权利要求10所述的系统,其特征在于,还包括:
平滑处理模块,用于对得到的每个所述P(Wi|Wi-n+1,…,Wi-1)的估计值进行平滑处理,并将所述平滑处理后的各所述P(Wi|Wi-n+1,…,Wi-1)的估计值确定为最终的所述P(Wi|Wi-n+1,…,Wi-1)。
12.根据权利要求11所述的系统,其特征在于,所述将所述文本信息按自然语序划分的多个所述语句段S的词语长度相同;
所述确定模块具体用于:若所述文本信息中包含的各语句段S在训练语料中出现的最小的固定个数的所述概率P(S)的平均值小于预设的概率阈值,则确定所述文本信息为作弊文本。
CN201410641811.XA 2014-11-13 2014-11-13 作弊文本的识别方法和系统 Pending CN104408087A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410641811.XA CN104408087A (zh) 2014-11-13 2014-11-13 作弊文本的识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410641811.XA CN104408087A (zh) 2014-11-13 2014-11-13 作弊文本的识别方法和系统

Publications (1)

Publication Number Publication Date
CN104408087A true CN104408087A (zh) 2015-03-11

Family

ID=52645718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410641811.XA Pending CN104408087A (zh) 2014-11-13 2014-11-13 作弊文本的识别方法和系统

Country Status (1)

Country Link
CN (1) CN104408087A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649269A (zh) * 2016-12-16 2017-05-10 广州视源电子科技股份有限公司 一种口语化句子的提取方法和装置
CN107423280A (zh) * 2017-04-19 2017-12-01 广州视源电子科技股份有限公司 一种语句判别方法与系统
CN108804413A (zh) * 2018-04-28 2018-11-13 百度在线网络技术(北京)有限公司 文本作弊的识别方法及装置
CN108829657A (zh) * 2018-04-17 2018-11-16 广州视源电子科技股份有限公司 平滑处理方法和系统
CN110020430A (zh) * 2019-03-01 2019-07-16 新华三信息安全技术有限公司 一种恶意信息识别方法、装置、设备及存储介质
CN111144100A (zh) * 2019-12-24 2020-05-12 五八有限公司 一种问题文本识别方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996241A (zh) * 2010-10-22 2011-03-30 东南大学 一种基于贝叶斯算法的内容过滤方法
CN102033964A (zh) * 2011-01-13 2011-04-27 北京邮电大学 基于块划分及位置权重的文本分类方法
US7962510B2 (en) * 2005-02-11 2011-06-14 Microsoft Corporation Using content analysis to detect spam web pages
CN102184172A (zh) * 2011-05-10 2011-09-14 中国科学院计算技术研究所 一种用于盲人读取汉字的系统和方法
CN103336766A (zh) * 2013-07-04 2013-10-02 微梦创科网络科技(中国)有限公司 短文本垃圾识别以及建模方法和装置
CN103514174A (zh) * 2012-06-18 2014-01-15 北京百度网讯科技有限公司 一种文本分类方法和装置
CN103886016A (zh) * 2014-02-20 2014-06-25 百度在线网络技术(北京)有限公司 一种用于确定页面中的垃圾文本信息的方法与设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7962510B2 (en) * 2005-02-11 2011-06-14 Microsoft Corporation Using content analysis to detect spam web pages
CN101996241A (zh) * 2010-10-22 2011-03-30 东南大学 一种基于贝叶斯算法的内容过滤方法
CN102033964A (zh) * 2011-01-13 2011-04-27 北京邮电大学 基于块划分及位置权重的文本分类方法
CN102184172A (zh) * 2011-05-10 2011-09-14 中国科学院计算技术研究所 一种用于盲人读取汉字的系统和方法
CN103514174A (zh) * 2012-06-18 2014-01-15 北京百度网讯科技有限公司 一种文本分类方法和装置
CN103336766A (zh) * 2013-07-04 2013-10-02 微梦创科网络科技(中国)有限公司 短文本垃圾识别以及建模方法和装置
CN103886016A (zh) * 2014-02-20 2014-06-25 百度在线网络技术(北京)有限公司 一种用于确定页面中的垃圾文本信息的方法与设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴军: "《数学之美》", 31 May 2012 *
周新栋 等: ""基于N元语言模型的文本分类方法"", 《计算机应用》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649269A (zh) * 2016-12-16 2017-05-10 广州视源电子科技股份有限公司 一种口语化句子的提取方法和装置
CN107423280A (zh) * 2017-04-19 2017-12-01 广州视源电子科技股份有限公司 一种语句判别方法与系统
CN108829657A (zh) * 2018-04-17 2018-11-16 广州视源电子科技股份有限公司 平滑处理方法和系统
CN108829657B (zh) * 2018-04-17 2022-05-03 广州视源电子科技股份有限公司 平滑处理方法和系统
CN108804413A (zh) * 2018-04-28 2018-11-13 百度在线网络技术(北京)有限公司 文本作弊的识别方法及装置
CN110020430A (zh) * 2019-03-01 2019-07-16 新华三信息安全技术有限公司 一种恶意信息识别方法、装置、设备及存储介质
CN110020430B (zh) * 2019-03-01 2023-06-23 新华三信息安全技术有限公司 一种恶意信息识别方法、装置、设备及存储介质
CN111144100A (zh) * 2019-12-24 2020-05-12 五八有限公司 一种问题文本识别方法、装置、电子设备及存储介质
CN111144100B (zh) * 2019-12-24 2023-08-18 五八有限公司 一种问题文本识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US11727243B2 (en) Knowledge-graph-embedding-based question answering
CN104408087A (zh) 作弊文本的识别方法和系统
US10146765B2 (en) System and method for inputting text into electronic devices
CN111079412B (zh) 文本纠错方法及装置
WO2019184217A1 (zh) 热点事件分类方法、装置及存储介质
US8380488B1 (en) Identifying a property of a document
KR101656418B1 (ko) 쓰기 체계 및 언어 검출
CN109284397A (zh) 一种领域词典的构建方法、装置、设备及存储介质
US20060020448A1 (en) Method and apparatus for capitalizing text using maximum entropy
CN104615589A (zh) 训练命名实体识别模型的方法、命名实体识别方法及装置
US8577670B2 (en) Adaptive construction of a statistical language model
JP5819629B2 (ja) パッセージシーケンスの再使用を介して文書の展開を推測することによる文書類似性の測定
CN103971677A (zh) 一种声学语言模型训练方法和装置
CN107480143A (zh) 基于上下文相关性的对话话题分割方法和系统
CN104268200A (zh) 一种基于深度学习的非监督命名实体语义消歧方法
CN106445915B (zh) 一种新词发现方法及装置
US20140032207A1 (en) Information Classification Based on Product Recognition
De Amorim et al. Effective spell checking methods using clustering algorithms
CN105912514A (zh) 基于指纹特征的文本复制检测系统及方法
CN106127265B (zh) 一种基于激活力模型的图片中文本识别纠错方法
CN106611041A (zh) 一种新的文本相似度求解方法
CN109829151B (zh) 一种基于分层狄利克雷模型的文本分割方法
Jahangir et al. N-gram and gazetteer list based named entity recognition for urdu: A scarce resourced language
CN104699797A (zh) 一种网页数据结构化解析方法和装置
CN103761225B (zh) 一种数据驱动的中文词语义相似度计算方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150311