CN105930468A

CN105930468A - 一种基于规则的信息相关性判定方法

Info

Publication number: CN105930468A
Application number: CN201610258136.1A
Authority: CN
Inventors: 姜剑; 仲兆满; 陈宗华
Original assignee: JIANGSU JINGE NETWORK TECHNOLOGY Co Ltd
Current assignee: JIANGSU JINGE NETWORK TECHNOLOGY Co Ltd
Priority date: 2016-04-22
Filing date: 2016-04-22
Publication date: 2016-09-07
Anticipated expiration: 2036-04-22
Also published as: CN105930468B

Abstract

本发明公开了一种基于规则的信息相关性判定方法，首先判断规则与信息的标题的相关性。当规则与标题相关，规则与信息相关，判断结束；否则继续判断规则与信息正文的相关性。根据规则的核心词、规则类型及正文类型，划分正文句子，获取最短距离句子集，判断规则与最短距离句子集的相关性，得到规则与正文的相关性。再根据规则与正文的相关性，获得规则与信息的相关性。本发明通过判定信息的类型，规则中的关键词，规则的类型，并基于条件的最短距离句子，进行相关性判定，得到判定结果。通过对规则及信息的分析，可以提高规则在信息中的匹配准确度，提高了信息相关性判定能力，具有很强的实用性。

Description

一种基于规则的信息相关性判定方法

技术领域

本发明涉及互联网信息处理领域，具体地说，是涉及一种基于规则的信息相关性判定方法。

背景技术

随着互联网和移动通信的普及与发展，使得现实生活中的信息资源迅速增加。于此同时，也充斥着各种无价值信息，比如：广告信息、垃圾信息等。而每个用户真正感兴趣的信息非常有限，仅仅是其中的沧海一粟。因此，采用一些技术手段对这些信息进行相关性判定，保证用户得到其期望的信息。

传统的文本与规则的相关性，根据自然语言文本中规则词之间特定位置关系来进行匹配判定，大致可分为同句判定、同字段判定和同文本判定等几种类型。虽然考虑了规则词之间的位置关系，但没有考虑到规则的类型及文本类型的区别，尤其是微博类的短文本，更加口语化、句子划分不够规整，不能保证句子分化的准确性，因此影响了文本相关性的判定精度。

发明内容

本发明所要解决的技术问题是针对现有技术存在的问题和不足，提供一种新的基于规则的信息相关性判定方法，该方法达到了提高规则与信息相关性判定的准确性的效果。

本发明所要解决的技术问题是通过以下的技术方案来实现的。本发明是一种基于规则的信息相关性判定方法，其特点：首先判断信息Info的标题Title与规则Rule的相关性R_T；当标题Title与规则Rule不相关，继续判断信息Info的正文Content与规则Rule的相关性R_C。

优选的具体步骤如下：

A、判断标题Title与规则Rule的相关性R_T。

A1、判断标题Title中是否包含规则Rule中的全部的规则词，规则词集合Rule＝{w₁、w₂、w₃、……w_N}；

A2、当Title包含全部规则Rule中的全部的规则词，则标题Title与规则Rule相关，R_T为真；否则R_T为假。

A3、当标题Title与规则Rule的相关性R_T为真，则表示规则Rule与信息Info相关，判断结束；否则执行步骤B。

B、判断正文Content与规则Rule的相关性R_C。

B1、判断正文类型T_C；

当正文Content的字符数小于字符阈值，设定正文为短文本类型ShortText；否则正文为长文本类型LongText。

B2、确定规则类型T_R；

判定规则Rule中规则词的全部个数，得到T_R值。

当规则词个数为1，设定规则为单规则OneRule；规则词个数为2，设定规则为短规则ShortRule；规则词个数大于3，设定规则为长规则LongRule。

B3、确定规则核心词K_W；

当规则Rule中规则词个数为1，则规则词w₁作为核心词K_W。否则提取标题Title中出现的规则词，将Title中首个出现的规则词作为核心词K_W。当标题中没有出现规则词，则规则词中第一个词w₁作为核心词K_W。

B4、根据核心词K_w、规则类型T_R及正文类型T_C，获取最短距离句子集S＝{S₁，S₂，S₃，…S_m}；

B5、判断最短距离句子集S与规则Rule的相关性R_S。当R_S为真，则规则Rule与正文Content相关，R_C为真；否则为不相关，R_C为假。

当规则Rule与正文Content相关性R_S为真，则规则Rule与信息Info相关；否则为不相关。

上述步骤B4中所述的根据核心词K_W、规则类型T_R及正文类型T_C，提取最短距离句子集S，其优选操作步骤如下：

正文类型T_C及规则类型T_R，最短距离的范围阈值ValidLen各不相同：

B41、单规则词处理。当规则Rule中只有1个规则词，则最短距离句子为整个正文Content，最短距离句子集S提取结束；否则执行步骤B42。

B42、正文Content分段。利用段落分段标识符，将正文Content分为若干段落P＝{P₁，P₂，P₃…，P_n}。

B43、提取段落最短距离句子集S＝{S₁，S₂，S₃…，S_m}。依次提取段落P_i(1<＝i<＝n)内最短句子集S_j，直到正文Content提取结束。

上述步骤B43中所述的提取段落最短距离句子集S，其优选操作步骤如下：

B431、按照规则核心词K_W对文本段落P_i(1＜＝i＜＝n)中查找包含该规则核心词K_W的中心句。其中，句子以中文标点“。！？；”，英文标点“！？；”为标识符分割。

B432、依次查找中心句相临近的ValidLen个句子内的字符串，组成最短句子集S_j。

B433、当前中心句提取完毕后，依次获取当前段P_i的下一个包含该规则核心词K_W的句子更新为当前中心句进行提取，直到段落P提取结束。

基于规则的信息相关性判定方法到此结束。

与现有技术相比，本发明的基于规则的信息相关性判定方法，通过判定信息的类型，规则中的关键词，规则的类型，并基于条件的最短距离句子，进行相关性判定，得到判定结果。通过对规则及信息的分析，可以提高规则在信息中的匹配准确度，提高了信息相关性判定能力，具有很强的实用性。

附图说明

图1是本发明的基于规则的信息相关性判定方法的流程图；

图2是图1中步骤02所述的正文Content与规则Rule的相关性R_C的流程图；

图3是图2中步骤204所述的获取最短距离句子集S的流程图；

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的描述。以使本技术领域的技术人员进一步地理解本发明，而不构成对本发明权利的限制。

参照图1，本发明的基于规则的信息相关性判定方法包括如下步骤：

步骤01、判定标题Title与规则Rule的相关性R_T，其具体如下：

步骤101：判断标题Title中是否包含规则Rule中的全部的规则词，规则词集合Rule＝{w₁、w₂、w₃、……w_N}；

步骤102：当Title包含全部规则Rule中的全部的规则词，则标题Title与规则Rule相关，R_T为真；否则R_T为假。

步骤103：当标题Title与规则Rule的相关性R_T为真，则表示规则Rule与信息Info相关，判断结束；否则执行步骤02。

步骤02、判定正文Content与规则Rule的相关性R_C。参照图2，包括如下步骤：

步骤201：判定正文类型T_C；

信息的来源媒体分为新闻、论坛、博客、微博。其中微博的信息正文长度均小于140个字，而其他来源媒体类型的信息，正文长度不统一。当正文Content的字符数小于字符阈值，设定正文为短文本类型ShortText；否则正文为长文本类型LongText。

步骤202：确定规则类型T_R；

判定规则Rule中规则词的全部个数，得到T_R值。

步骤203：确定规则核心词K_W；

关键词出现在比较重要的位置，如标题中，说明页面与关键词越相关。

步骤204：根据核心词K_w、规则类型T_R及正文类型T_C，获取最短距离句子集S＝{S₁，S₂，S₃，…S_m}；

步骤205：判断最短距离句子集S与规则Rule的相关性R_S。

当R_S为真，则规则Rule与正文Content相关，R_C为真；否则为不相关，R_C为假。当规则Rule与正文Content相关性R_S为真，则规则Rule与信息Info相关；否则为不相关。

参照图3，步骤204，根据核心词K_W、规则类型T_R及正文类型T_C，提取最短距离句子集S的详细步骤如下：

步骤301：单规则词处理。当规则Rule中只有1个规则词，则最短距离句子为整个正文Content，最短距离句子集S提取结束；否则执行步骤302。

步骤302：正文Content分段。利用段落分段标识符，将正文Content分为若干段落P＝{P₁，P₂，P₃…，P_n}。

步骤303：提取段落最短距离句子集S＝{S₁，S₂，S₃…，S_m}。依次提取段落P_i(1＜＝i＜＝n)内最短句子集S_j，直到正文Content提取结束。详细步骤如下：

步骤401：按照规则核心词K_W对文本段落P_i(1＜＝i＜＝n)中查找包含该规则核心词K_W的中心句。其中，句子以中文标点“。！？；”，英文标点“！？；”为标识符分割。

步骤402：依次查找中心句相临近的ValidLen个句子内的字符串，组成最短句子集S_j。

步骤403：当前中心句提取完毕后，依次获取当前段P_i的下一个包含该规则核心词K_W的句子更新为当前中心句进行提取，直到段落P提取结束。

综上所述，本发明提出了一种基于规则的信息相关性判定方法，提高了文本的相关性判定的准确率。

本发明所述的方法并不限于具体实施方式中所述的实施例，本领域技术人员根据本发明的技术方案得出的其它的实施方式，同样属于本发明的技术创新范围。

Claims

1.一种基于规则的信息相关性判定方法，其特征在于：其步骤如下：

A、判断标题Title与规则Rule的相关性R_T；R_T为真，则表示规则Rule与信息Info相关，判断结束；否则执行步骤B；

B、判断正文Content与规则Rule的相关性R_C。

2.根据权利要求1所述的基于规则的信息相关性判定方法，其特征在于：步骤A的具体操作步骤如下：

A2、当Title包含全部规则Rule中的全部的规则词，则标题Title与规则Rule相关，R_T为真；否则R_T为假；

3.根据权利要求1或2所述的基于规则的信息相关性判定方法，其特征在于，步骤B的具体操作步骤如下：

B1、判断正文类型T_C；当正文Content的字符数小于字符阈值，设定正文为短文本类型ShortText；否则正文为长文本类型LongText；

B2、确定规则类型T_R；判定规则Rule中规则词的全部个数，得到T_R值；当规则词个数为1，设定规则为单规则OneRule；规则词个数为2，设定规则为短规则ShortRule；规则词个数大于3，设定规则为长规则LongRule。

B3、确定规则核心词K_W；当规则Rule中规则词个数为1，则将规则词w₁作为核心词K_W；否则提取标题Title中出现的规则词，将Title中首个出现的规则词作为核心词K_W；当标题中没有出现规则词，则规则词中第一个词w₁作为核心词K_W；

B5、判断最短距离句子集S与规则Rule的相关性R_S；当R_S为真，则规则Rule与正文Content相关，R_C为真；否则为不相关，R_C为假；当规则Rule与正文Content相关性R_S为真，则规则Rule与信息Info相关；否则为不相关。

4.根据权利要求3所述的基于规则的信息相关性判定方法，其特征在于：所步骤B4的具体操作步骤如下：

B41、单规则词处理：当规则Rule中只有1个规则词，则最短距离句子为整个正文Content，最短距离句子集S提取结束；否则执行步骤B42；

B42、正文Content分段：利用段落分段标识符，将正文Content分为若干段落P＝{P₁，P₂，P₃…，P_n}；

B43、提取段落最短距离句子集S＝{S₁，S₂，S₃…，S_m}；依次提取段落P_i(1＜＝i＜＝n)内最短句子集S_j，直到正文Content提取结束。

5.根据权利要求4所述的基于规则的信息相关性判定方法。其特征在于：所述步骤B43中所述的提取段落最短距离句子集S，其操作步骤如下：

B431、按照规则核心词K_W对文本段落P_i(1＜＝i＜＝n)中查找包含该规则核心词K_W的中心句；其中，句子以中文标点“。！？；”，英文标点“！？；”为标识符分割；

B432、依次查找中心句相临近的ValidLen个句子内的字符串，组成最短句子集S_j；