CN104408087A

CN104408087A - 作弊文本的识别方法和系统

Info

Publication number: CN104408087A
Application number: CN201410641811.XA
Authority: CN
Inventors: 杨燕; 于佃海
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-11-13
Filing date: 2014-11-13
Publication date: 2015-03-11

Abstract

本发明实施例提供一种作弊文本的识别方法和系统，方法包括：接收文本信息；将文本信息按自然语序划分为多个语句段，并计算各所述语句段在训练语料中出现的概率；根据文本信息中包含的各语句段在训练语料中出现的概率确定文本信息是否为作弊文本。本发明的技术方案实现了一种针对作弊文本的有效识别方法，同时也提高了识别的准确率。

Description

作弊文本的识别方法和系统

技术领域

本发明涉及通信技术领域，尤其涉及一种作弊文本的识别方法和系统。

背景技术

现有互联网中的一些社区论坛上常出现这样一类作弊文本，如【成】67【人】YC【游】yd【戏】，其通过加入干扰随机字符的方式，绕过了系统的识别，从而污染整个论坛，严重损害用户的体验。因此，如何对这些作弊文本进行有效的识别已成为一个亟需解决的问题。

发明内容

本发明的实施例提供一种作弊文本的识别方法和系统，以实现对作弊文本的有效识别。

为达到上述目的，本发明的实施例提供了一种作弊文本的识别方法，包括：

接收文本信息；

将所述文本信息按自然语序划分为多个语句段，并计算各所述语句段在训练语料中出现的概率；

根据所述文本信息中包含的各语句段在训练语料中出现的概率确定所述文本信息是否为作弊文本。

本发明的实施例还提供了一种作弊文本的识别系统，包括：

接收模块，用于接收文本信息；

处理模块，用于将所述文本信息按自然语序划分为多个语句段，并计算各所述语句段在在训练语料中出现的概率；

确定模块，用于根据所述文本信息中包含的各语句段在训练语料中出现的概率确定所述文本信息是否为作弊文本。

本发明实施例提供的作弊文本的识别方法和系统，通过接收文本信息；将文本信息按自然语序划分为多个语句段，并计算各语句段在训练语料中出现的概率；根据文本信息中包含的各语句段在训练语料中出现的概率确定文本信息是否为作弊文本，由此实现对作弊文本的识别，同时提高了识别的准确率。

附图说明

图1为本发明提供的作弊文本的识别方法一个实施例的方法流程图；

图2为本发明提供的作弊文本的识别方法另一个实施例的方法流程图；

图3为图2提供的作弊文本的识别方法对应的一个识别概率图；

图4为图2提供的作弊文本的识别方法对应的另一个识别概率图；

图5为图2提供的作弊文本的识别方法对应的又一个识别概率图；

图6为本发明提供的作弊文本的识别系统一个实施例的结构示意图；

图7为本发明提供的作弊文本的识别系统另一个实施例的结构示意图。

具体实施方式

本发明的实施例利用文本信息中包含的各语句段在训练语料中出现的概率来确定该文本信息是否为作弊文本。本发明实施例的技术方案可以适用于针对用户输入的文本信息进行识别的作弊文本的识别系统。

实施例一

图1为本发明提供的作弊文本的识别方法一个实施例的方法流程图，该方法的执行主体可以为具有文本识别功能的系统。如图1所示，该作弊文本的识别方法具体包括：

S101，接收文本信息；

现有互联网中的社区论坛上，一些不法用户常常通过发布加入有干扰随机字串的文本信息来绕过系统的识别，从而达到散布违法信息或恶意广告的目的。本实施例中的文本信息即为从上述社区论坛或是其他网站收集的用户键入的信息。

S102，将文本信息按自然语序划分为多个语句段，并计算各语句段在训练语料中出现的概率；

在接收到上述文本信息后，可以根据文本信息的自然语序将该文本信息划分为多个语句段S＝W₁,W₂,…,W_k(已标明语序)，每个语句段S内包含的词语的个数，即k的大小可依据接收文本信息的具体长度而定，且每个语句段S对应的k值大小可以相同也可以不同。其中，W_i，(1≤i≤k)具体可以为一个汉字、一个英文单词、一个字符符号或英文字母等。根据各语句段S在训练语料中出现的次数可以得到该语句段在训练语料中相应的概率P(S)。

其中，上述训练语料为预先收集训练得到的具有一定规模的文本集合。

S103，根据文本信息中包含的各语句段在训练语料中出现的概率确定文本信息是否为作弊文本；

通常，非法用户采用的文本作弊方式是通过在欲散布的文本信息中添加随机干扰字符或字符串如数字、字母等，而这些干扰字符和字符串通常是没有语义的，且在现有的正常文本中也是很少甚至是不出现的。因此通过判断上述各语句段S在训练语料中出现的概率P(S)的大小可以有效估算出该语句段S中包含的无语义的词语的数量。P(S)越小表征该语句段S中包含的无语义的词语的数量越多，该语句段S被进行文本作弊处理的可能性越大。最后，根据文本信息中各语句段S对应的P(S)的分布情况，可以得到该文本信息被作弊的概率，从而确定该文本信息是否为作弊文本。例如：当各语句段S对应的P(S)都很大时，可确定该文本信息未经作弊处理为非作弊文本，当各语句段S对应的P(S)都很小时，则确定该文本信息已经过作弊处理为作弊文本。

本发明实施例提供的作弊文本的识别方法，通过接收文本信息；将所述文本信息按自然语序划分为多个语句段，并计算各语句段在在训练语料中出现的概率；根据文本信息中包含的各语句段在训练语料中出现的概率确定文本信息是否为作弊文本，由此实现对作弊文本的识别，同时提高了识别的准确率。

实施例二

图2为本发明提供的作弊文本的识别方法另一个实施例的方法流程图，是如图1所示方法实施例的一种具体实现方式，如图2所示，该作弊文本的识别方法具体包括：

S201，接收文本信息；该步骤具体执行过程可参见步骤101的相应内容。

S202，将文本信息按自然语序划分为多个词语长度相同的语句段S＝W₁,W₂,…,W_k；其中，上述各语句段S中包括的词语的长度为所包含的词语的个数，即k。

在步骤202之后可继续执行步骤S102中，计算各语句段在训练语料中出现的概率；

现有技术中，常依据公式：

P(S)＝P(W₁,W₂,…,W_k)＝p(W₁)P(W₂|W₁)…P(W_k|W₁,W₂,…,W_k-1)………………..(1)获得各语句段S在训练语料中出现的概率P(S)，其中，W_i(1≤i≤k)为语句段S中第i个词语，所述k为正整数；

其中p(W₁)为词语W₁在训练语料中出现的概率；P(W₂|W₁)为一个条件概率，即在训练语料中，当词语W₁出现时W₂出现的概率；P(W_k|W₁,W₂,…,W_k-1)为一个条件概率，即在训练语料中，当词语序列W₁,W₂,…,W_k-1顺序出现时W_k出现的概率。依据公式(1)可以获得各语句段S在训练语料中出现的概率P(S)的相应步骤。

在实际应用场景中，由于上述(1)式中的参数过多，计算复杂度高，因此需要对其进行必要的近似计算。常用的模型方法有n-gram模型方法、决策树方法、最大熵模型方法、最大熵马尔科夫模型方法、条件随机域方法、神经网络方法，等等，这些方法均可实现对(1)式中的近似计算过程。本实施例中，以n-gram模型方法为例，给出一种依据公式(1)获得各语句段S在训练语料中出现的概率P(S)的具体实现方式。步骤如下(步骤203～205)：

S203，采用最大似然估计对P(W_i|W_i-n+1,…,W_i-1)进行参数估计，即通过公式：

P(W_i|W_i-n+1,…,W_i-1)＝C(W_i-n+1,…,W_i-1,W_i)/C(W_i-n+1,…,W_i-1)……………….(2)

获取P(W_i|W_i-n+1,…,W_i-1)的估计值；

其中，P(W_i|W_i-n+1,…,W_i-1)为采用n-gram模型方法对公式(1)进行近似运算时用到的参数，其为一个条件概率，即在训练语料中，当词语序列W_i-n+1,…,W_i-1顺序出现时W_i出现的概率，1≤i≤k。其中，n为采用的n-gram模型的元数。当n取1、2、3时，相应的n-gram模型分别称为unigram、bigram和trigram语言模型。

本实施例中，通过上述公式(2)即最大似然估计对P(W_i|W_i-n+1,…,W_i-1)进行参数估计。其中，C(W_i-n+1,…,W_i-1,W_i)和C(W_i-n+1,…,W_i-1)均可简写为C(X)，其表示X在训练语料中出现的次数，训练语料的规模越大，参数估计的结果越可靠。

S204，对得到的每个P(W_i|W_i-n+1,…,W_i-1)的估计值进行平滑处理，并将平滑处理后的各P(W_i|W_i-n+1,…,W_i-1)的估计值确定为最终的P(W_i|W_i-n+1,…,W_i-1)；

在采用最大似然估计对P(W_i|W_i-n+1,…,W_i-1)进行估计运算时，即使训练数据的规模很大，但还是会有很多语言现象在训练语料中没有出现过，这就会导致很多估计出来的参数(某n元对的概率)为0。这种问题也被称为数据稀疏(Data Sparseness)，通过对估计得到的参数进行数据平滑(Data Smoothing)处理可有效解决数据稀疏问题。所谓数据平滑是对频率为0的n元对进行估计，已使得到的概率不为0。典型的平滑算法有加法平滑、Good-Turing平滑、线性插值平滑、Katz平滑，等等。

具体算法如下：

1.加法平滑

基本思想是为避免零概率问题，将每个n元对的出现次数加上一个常数δ(0<δ≤1)：

P(W_i|W_i-n+1,…,W_i-1)＝(C(W_i-n+1,…,W_i-1,W_i)+δ)/(C(W_i-n+1,…,W_i-1)+Nδ)……….(3)

其中，N为大于1的整数。

2.Good-Turing

利用频率的类别信息对频率进行平滑：

\{\begin{matrix} P_{GT} (W_{i} | W_{i - n + 1}, . . ., W_{i - 1}) = C_{GT} (W_{i - n + 1}, . . ., W_{i - 1}, W_{i}) / C (W_{i - n + 1}, . . ., W_{i - 1}) \\ C_{GT} (W_{i - n + 1}, . . ., W_{i - 1}, W_{i}) = (C (W_{i - n + 1}, . . ., W_{i - 1}, W_{i}) + 1) \times \frac{N (C (W_{i - n + 1}, . . ., W_{i - 1}, W_{i}) + 1)}{N (C (W_{i - n + 1}, . . ., W_{i - 1}, W_{i}))} \end{matrix} . . . (4)

其中，N(c)表示频率为c的n-gram的数量。

3.线性插值平滑

利用低元n-gram模型对高元n-gram模型进行线性插值：P_interp(W_i|W_i-n+1,…,W_i-1)＝λ_n·P_MLE(W_i|W_i-n+1,…,W_i-1)+(1-λ_n)·P_interp(W_i|W_i-n+2,…,W_i-1)…(5)

其中，P_interp()表示高阶n-gram模型概率，λ_n可以通过EM算法来估计，P_MLE()表示线性差值。

4.Katz平滑：

也称为回退(back-off)平滑，其基本思想是当一个n元对的出现次数足够大时，用最大似然估计方法估计其概率；当n元对的出现次数不够大时，采用Good-Turing估计对其进行平滑，将其部分概率折扣给未出现的n元对；当n元对的出现次数为0时，模型回退到低元模型。

P_{katz} (W_{i} | W_{i - n + 1}, . . ., W_{i - 1}) = \{\begin{matrix} P_{MLE} (W_{i} | W_{i - n + 1}, . . ., W_{i - 1}) & ifC (W_{i - n + 1}, . . ., W_{i - 1}, W_{i}) &GreaterEqual; k \\ α \cdot P_{GT} (W_{i} | W_{i - n + 1}, . . ., W_{i - 1}) & if \leq C (W_{i - n + 1}, . . ., W_{i - 1}, W_{i}) < k \\ β \cdot P_{katz} (W_{i} | W_{i - n + 2}, . . ., W_{i - 1}) & ifC (W_{i - n + 1}, . . ., W_{i - 1}, W_{i}) = 0 \end{matrix} . . . (6)

参数α和β保证模型参数概率的归一化约束条件，即：

\underset{w_{i}}{Σ} p_{katz} (w_{i} | w_{i - n + 1}^{i - 1}) = 1 . . . (7)

S205，对公式(1)进行n-gram语言模型近似，即通过公式：

P (S) = P (W_{1}, W_{2}, . . ., W_{k}) = Π_{i = 1}^{k} P (W_{i} | W_{i - n + 1}, . . ., W_{i - 1}) . . . (8)

获得语句段S在训练语料中出现的概率P(S)；该步骤的具体执行过程可参见步骤102的相应内容。

具体地，公式(7)中的P(W_i|W_i-n+1,…,W_i-1)为步骤204中得到的最终的P(W_i|W_i-n+1,…,W_i-1)的估计值。

至此，本实施例完成了一条文本信息中包含的各语句段S在训练语料中出现的概率P(S)。

S206，根据文本信息中包含的各语句段在训练语料中出现的概率确定文本信息是否为作弊文本；该步骤具体执行过程可参见步骤103的相应内容。

例如，可以将一个文本信息各语句段S在训练语料中出现的概率P(S)按大小顺序进行排序，然后将最低的固定个数(如3个)的概率P(S)提取出来求解其平均值，当该平均值小于预设的概率阈值时，则确定文本信息为作弊文本。其中，所述概率阈值为衡量一个文本信息是否为作弊文本的标准值，可通过前期的知识训练得到。可以理解的，本领域技术人员也可将一个文本信息对应获得的多个概率P(S)通过其他的代数运算来实现确定该文本信息是否为作弊文本的判断过程，本实施例在此不作限定。

图3、图4和图5分别给出了通过本实施例所述方法获得的作弊文本的识别概率图。图中数据是由百度贴吧提供30G的语料，按字进行5-gram的训练，得到相应的语言模型；依据该语言模型，按照不同的窗口大小(每个语句段S包含的词语个数)，分别对50个反例(非正常文本信息)与40个正例(正常文本信息)进行作弊文本识别时对应的概率分布情况。其中横向代表概率值，纵向代表正、反例的总数量。

从图3、图4和图5中可以获知，当窗口大小为10(每个语句段S包含的词语个数为10)时，正、反例的区分最明显。

本发明实施例提供的作弊文本的识别方法，在图1所示方法实施例的基础上，给出了通过n-gram语言模型求解各语句段S在训练语料中出现的概率P(S)的一种具体近似方法，使计算过程相对(1)式简练。同时，在对n-gram语言模型所用的参数进行极大似然估计后，还对估计值进行了平滑处理，有效防止了数据稀松问题的出现；最后，在通过得到的各语句段对应的概率P(S)判断对应的文本信息是否为作弊文本时，采用了将各概率P(S)中最小的固定个数的概率P(S)的平均值与预设的概率阈值相比较的方法，根据比较结果来确定文本信息是否为作弊文本，使确定作弊文本的过程更加规范。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

实施例三

图6为本发明提供的作弊文本的识别系统一个实施例的结构示意图，可执行如图1所示方法步骤。如图6所示，该作弊文本的识别系统具体包括接收模块61，处理模块62和确定模块63；其中：

接收模块61，用于接收文本信息；

处理模块62，用于将所述文本信息按自然语序划分为多个语句段，并计算各所述语句段在在训练语料中出现的概率；

确定模块63，用于根据所述文本信息中包含的各语句段在训练语料中出现的概率确定所述文本信息是否为作弊文本。

进一步的，上述每个语句段具体记为：S＝W₁,W₂,…,W_k；

上述处理模块62具体用于：

根据P(S)＝P(W₁,W₂,…,W_k)＝p(W₁)P(W₂|W₁)…P(W_k|W₁,W₂,…,W_k-1)，获得语句段S在训练语料中出现的概率P(S)，其中，W_k为语句段S中第k个词语，所述k为正整数。

进一步的，上述处理模块62还具体用于：

对P(S)＝P(W₁,W₂,…,W_k)＝p(W₁)P(W₂|W₁)…P(W_k|W₁,W₂,…,W_k-1)进行n-gram语言模型近似，即通过：

P (S) = P (W_{1}, W_{2}, . . ., W_{k}) = Π_{i = 1}^{k} P (W_{i} | W_{i - n + 1}, . . ., W_{i - 1})

获得语句段S在训练语料中出现的概率P(S)。

进一步的，在如图6所示实施例的基础上，如图7所示，上述作弊文本的识别系统还可以包括：

估计模块64，用于采用最大似然估计对P(W_i|W_i-n+1,…,W_i-1)进行参数估计，即通过：P(W_i|W_i-n+1,…,W_i-1)＝C(W_i-n+1,…,W_i-1,W_i)/C(W_i-n+1,…,W_i-1)获取P(W_i|W_i-n+1,…,W_i-1)的估计值。

进一步的，如图7所示，上述作弊文本的识别系统中还可以包括平滑处理模块65，用于对得到的每个P(W_i|W_i-n+1,…,W_i-1)的估计值进行平滑处理，并将平滑处理后的各P(W_i|W_i-n+1,…,W_i-1)的估计值确定为最终的P(W_i|W_i-n+1,…,W_i-1)。

进一步的，如图7所示，上述作弊文本的识别系统中所述处理模块62具体用于：

P (S) = P (W_{1}, W_{2}, . . ., W_{k}) = Π_{i = 1}^{k} P (W_{i} | W_{i - n + 1}, . . ., W_{i - 1})

获得语句段S在训练语料中出现的概率P(S)。

进一步的，如图7所示，上述作弊文本的识别系统中，所述将文本信息按自然语序划分的多个语句段S的词语长度相同；

上述确定模块63具体用于：若文本信息中包含的各语句段S在训练语料中出现的最小的固定个数的概率P(S)的平均值小于预设的概率阈值，则确定该文本信息为作弊文本。

本发明实施例提供的作弊文本的识别系统，通过接收文本信息；将所述文本信息按自然语序划分为多个语句段，并计算各语句段在在训练语料中出现的概率；根据文本信息中包含的各语句段在训练语料中出现的概率确定文本信息是否为作弊文本，由此实现对作弊文本的识别，同时提高了识别的准确率。

进一步的，本方案采用的作弊文本的识别方法还给出了通过n-gram语言模型求解各语句段S在训练语料中出现的概率P(S)的一种具体近似方法，使计算过程相对(1)式简练。同时，在对n-gram语言模型所用的参数进行极大似然估计后，还对估计值进行了平滑处理，有效防止了数据稀松问题的出现；最后，在通过得到的各语句段对应的概率P(S)判断对应的文本信息是否为作弊文本时，采用了将各概率P(S)中最小的固定个数的概率P(S)的平均值与预设的概率阈值相比较的方法，根据比较结果来确定文本信息是否为作弊文本，使确定作弊文本的过程更加规范。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种作弊文本的识别方法，其特征在于，包括：

接收文本信息；

2.根据权利要求1所述的方法，其特征在于，每个所述语句段具体记为：S＝W₁,W₂,…,W_k；

所述计算各所述语句段在在训练语料中出现的概率，包括：

根据P(S)＝P(W₁,W₂,…,W_k)＝p(W₁)P(W₂|W₁)…P(W_k|W₁,W₂,…,W_k-1)，获得所述语句段S在训练语料中出现的概率P(S)，其中，W_k为所述语句段S中第k个词语，所述k为正整数。

3.根据权利要求2所述的方法，其特征在于，所述依据

P(S)＝P(W₁,W₂,…,W_k)＝p(W₁)P(W₂|W₁)…P(W_k|W₁,W₂,…,W_k-1)，获得所述语句段S在训练语料中出现的概率P(S)，包括：

对所述P(S)＝P(W₁,W₂,…,W_k)＝p(W₁)P(W₂|W₁)…P(W_k|W₁,W₂,…,W_k-1)进行n-gram语言模型近似，即通过：

P (S) = P (W_{1}, W_{2}, . . ., W_{k}) = Π_{i = 1}^{k} P (W_{i} | W_{i - n + 1}, . . ., W_{i - 1})

获得所述语句段S在训练语料中出现的概率P(S)。

4.根据权利要求3所述的方法，其特征在于，在所述通过：

P (S) = P (W_{1}, W_{2}, . . ., W_{k}) = Π_{i = 1}^{k} P (W_{i} | W_{i - n + 1}, . . ., W_{i - 1})

获得所述语句段S在训练语料中出现的概率P(S)之前，包括：

采用最大似然估计对所述P(W_i|W_i-n+1,…,W_i-1)进行参数估计，即通过：

P(W_i|W_i-n+1,…,W_i-1)＝C(W_i-n+1,…,W_i-1,W_i)/C(W_i-n+1,…,W_i-1)获取所述P(W_i|W_i-n+1,…,W_i-1)的估计值。

5.根据权利要求4所述的方法，其特征在于，在所述采用最大似然估计对所述P(W_i|W_i-n+1,…,W_i-1)进行参数估计之后，还包括：

对得到的每个所述P(W_i|W_i-n+1,…,W_i-1)的估计值进行平滑处理，并将所述平滑处理后的各所述P(W_i|W_i-n+1,…,W_i-1)的估计值确定为最终的所述P(W_i|W_i-n+1,…,W_i-1)。

6.根据权利要求5所述的方法，其特征在于，所述将所述文本信息按自然语序划分的多个所述语句段S的词语长度相同；

所述根据所述文本信息中包含的各语句段在训练语料中出现的概率确定所述文本信息是否为作弊文本，包括：

若所述文本信息中包含的各语句段S在训练语料中出现的最小的固定个数的所述概率P(S)的平均值小于预设的概率阈值，则确定所述文本信息为作弊文本。

7.一种作弊文本的识别系统，其特征在于，包括：

接收模块，用于接收文本信息；

处理模块，用于将所述文本信息按自然语序划分为多个语句段，并计算各所述语句段在训练语料中出现的概率；

8.根据权利要求7所述的系统，其特征在于，每个所述语句段具体记为：S＝W₁,W₂,…,W_k；

所述处理模块具体用于：

9.根据权利要求8所述的系统，其特征在于，所述处理模块用于：

P (S) = P (W_{1}, W_{2}, . . ., W_{k}) = Π_{i = 1}^{k} P (W_{i} | W_{i - n + 1}, . . ., W_{i - 1})

获得所述语句段S在训练语料中出现的概率P(S)。

10.根据权利要求9所述的系统，其特征在于，还包括：

估计模块，用于采用最大似然估计对所述P(W_i|W_i-n+1,…,W_i-1)进行参数估计，即通过：P(W_i|W_i-n+1,…,W_i-1)＝C(W_i-n+1,…,W_i-1,W_i)/C(W_i-n+1,…,W_i-1)获取所述P(W_i|W_i-n+1,…,W_i-1)的估计值。

11.根据权利要求10所述的系统，其特征在于，还包括：

平滑处理模块，用于对得到的每个所述P(W_i|W_i-n+1,…,W_i-1)的估计值进行平滑处理，并将所述平滑处理后的各所述P(W_i|W_i-n+1,…,W_i-1)的估计值确定为最终的所述P(W_i|W_i-n+1,…,W_i-1)。

12.根据权利要求11所述的系统，其特征在于，所述将所述文本信息按自然语序划分的多个所述语句段S的词语长度相同；

所述确定模块具体用于：若所述文本信息中包含的各语句段S在训练语料中出现的最小的固定个数的所述概率P(S)的平均值小于预设的概率阈值，则确定所述文本信息为作弊文本。