CN105930468B - 一种基于规则的信息相关性判定方法 - Google Patents
一种基于规则的信息相关性判定方法 Download PDFInfo
- Publication number
- CN105930468B CN105930468B CN201610258136.1A CN201610258136A CN105930468B CN 105930468 B CN105930468 B CN 105930468B CN 201610258136 A CN201610258136 A CN 201610258136A CN 105930468 B CN105930468 B CN 105930468B
- Authority
- CN
- China
- Prior art keywords
- rule
- regular
- word
- sentence
- title
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 239000000284 extract Substances 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 239000012634 fragment Substances 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000011017 operating method Methods 0.000 claims 2
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000020509 sex determination Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于规则的信息相关性判定方法,首先判断规则与信息的标题的相关性。当规则与标题相关,规则与信息相关,判断结束;否则继续判断规则与信息正文的相关性。根据规则的核心词、规则类型及正文类型,划分正文句子,获取最短距离句子集,判断规则与最短距离句子集的相关性,得到规则与正文的相关性。再根据规则与正文的相关性,获得规则与信息的相关性。本发明通过判定信息的类型,规则中的关键词,规则的类型,并基于条件的最短距离句子,进行相关性判定,得到判定结果。通过对规则及信息的分析,可以提高规则在信息中的匹配准确度,提高了信息相关性判定能力,具有很强的实用性。
Description
技术领域
本发明涉及互联网信息处理领域,具体地说,是涉及一种基于规则的信息相关性判定方法。
背景技术
随着互联网和移动通信的普及与发展,使得现实生活中的信息资源迅速增加。于此同时,也充斥着各种无价值信息,比如:广告信息、垃圾信息等。而每个用户真正感兴趣的信息非常有限,仅仅是其中的沧海一粟。因此,采用一些技术手段对这些信息进行相关性判定,保证用户得到其期望的信息。
传统的文本与规则的相关性,根据自然语言文本中规则词之间特定位置关系来进行匹配判定,大致可分为同句判定、同字段判定和同文本判定等几种类型。虽然考虑了规则词之间的位置关系,但没有考虑到规则的类型及文本类型的区别,尤其是微博类的短文本,更加口语化、句子划分不够规整,不能保证句子分化的准确性,因此影响了文本相关性的判定精度。
发明内容
本发明所要解决的技术问题是针对现有技术存在的问题和不足,提供一种新的基于规则的信息相关性判定方法,该方法达到了提高规则与信息相关性判定的准确性的效果。
本发明所要解决的技术问题是通过以下的技术方案来实现的。本发明是一种基于规则的信息相关性判定方法,其特点:首先判断信息Info的标题Title与规则Rule的相关性RT;当标题Title与规则Rule不相关,继续判断信息Info的正文Content与规则Rule的相关性RC。
优选的具体步骤如下:
A、判断标题Title与规则Rule的相关性RT。
A1、判断标题Title中是否包含规则Rule中的全部的规则词,规则词集合Rule={w1、w2、w3、……wN};
A2、当Title包含全部规则Rule中的全部的规则词,则标题Title与规则Rule相关,RT为真;否则RT为假。
A3、当标题Title与规则Rule的相关性RT为真,则表示规则Rule与信息Info相关,判断结束;否则执行步骤B。
B、判断正文Content与规则Rule的相关性RC。
B1、判断正文类型TC;
当正文Content的字符数小于字符阈值,设定正文为短文本类型ShortText;否则正文为长文本类型LongText。
B2、确定规则类型TR;
判定规则Rule中规则词的全部个数,得到TR值。
当规则词个数为1,设定规则为单规则OneRule;规则词个数为2,设定规则为短规则ShortRule;规则词个数大于3,设定规则为长规则LongRule。
B3、确定规则核心词KW;
当规则Rule中规则词个数为1,则规则词w1作为核心词KW。否则提取标题Title中出现的规则词,将Title中首个出现的规则词作为核心词KW。当标题中没有出现规则词,则规则词中第一个词w1作为核心词KW。
B4、根据核心词Kw、规则类型TR及正文类型TC,获取最短距离句子集S={S1,S2,S3,…Sm};
B5、判断最短距离句子集S与规则Rule的相关性RS。当RS为真,则规则Rule与正文Content相关,RC为真;否则为不相关,RC为假。
当规则Rule与正文Content相关性RS为真,则规则Rule与信息Info相关;否则为不相关。
上述步骤B4中所述的根据核心词KW、规则类型TR及正文类型TC,提取最短距离句子集S,其优选操作步骤如下:
正文类型TC及规则类型TR,最短距离的范围阈值ValidLen各不相同:
B41、单规则词处理。当规则Rule中只有1个规则词,则最短距离句子为整个正文Content,最短距离句子集S提取结束;否则执行步骤B42。
B42、正文Content分段。利用段落分段标识符,将正文Content分为若干段落P={P1,P2,P3…,Pn}。
B43、提取段落最短距离句子集S={S1,S2,S3…,Sm}。依次提取段落Pi(1<=i<=n)内最短句子集Sj,直到正文Content提取结束。
上述步骤B43中所述的提取段落最短距离句子集S,其优选操作步骤如下:
B431、按照规则核心词KW对文本段落Pi(1<=i<=n)中查找包含该规则核心词KW的中心句。其中,句子以中文标点“。!?;”,英文标点“!?;”为标识符分割。
B432、依次查找中心句相临近的ValidLen个句子内的字符串,组成最短句子集Sj。
B433、当前中心句提取完毕后,依次获取当前段Pi的下一个包含该规则核心词KW的句子更新为当前中心句进行提取,直到段落P提取结束。
基于规则的信息相关性判定方法到此结束。
与现有技术相比,本发明的基于规则的信息相关性判定方法,通过判定信息的类型,规则中的关键词,规则的类型,并基于条件的最短距离句子,进行相关性判定,得到判定结果。通过对规则及信息的分析,可以提高规则在信息中的匹配准确度,提高了信息相关性判定能力,具有很强的实用性。
附图说明
图1是本发明的基于规则的信息相关性判定方法的流程图;
图2是图1中步骤02所述的正文Content与规则Rule的相关性RC的流程图;
图3是图2中步骤204所述的获取最短距离句子集S的流程图;
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的描述。以使本技术领域的技术人员进一步地理解本发明,而不构成对本发明权利的限制。
参照图1,本发明的基于规则的信息相关性判定方法包括如下步骤:
步骤01、判定标题Title与规则Rule的相关性RT,其具体如下:
步骤101:判断标题Title中是否包含规则Rule中的全部的规则词,规则词集合Rule={w1、w2、w3、……wN};
步骤102:当Title包含全部规则Rule中的全部的规则词,则标题Title与规则Rule相关,RT为真;否则RT为假。
步骤103:当标题Title与规则Rule的相关性RT为真,则表示规则Rule与信息Info相关,判断结束;否则执行步骤02。
步骤02、判定正文Content与规则Rule的相关性RC。参照图2,包括如下步骤:
步骤201:判定正文类型TC;
信息的来源媒体分为新闻、论坛、博客、微博。其中微博的信息正文长度均小于140个字,而其他来源媒体类型的信息,正文长度不统一。当正文Content的字符数小于字符阈值,设定正文为短文本类型ShortText;否则正文为长文本类型LongText。
步骤202:确定规则类型TR;
判定规则Rule中规则词的全部个数,得到TR值。
当规则词个数为1,设定规则为单规则OneRule;规则词个数为2,设定规则为短规则ShortRule;规则词个数大于3,设定规则为长规则LongRule。
步骤203:确定规则核心词KW;
关键词出现在比较重要的位置,如标题中,说明页面与关键词越相关。
当规则Rule中规则词个数为1,则规则词w1作为核心词KW。否则提取标题Title中出现的规则词,将Title中首个出现的规则词作为核心词KW。当标题中没有出现规则词,则规则词中第一个词w1作为核心词KW。
步骤204:根据核心词Kw、规则类型TR及正文类型TC,获取最短距离句子集S={S1,S2,S3,…Sm};
步骤205:判断最短距离句子集S与规则Rule的相关性RS。
当RS为真,则规则Rule与正文Content相关,RC为真;否则为不相关,RC为假。当规则Rule与正文Content相关性RS为真,则规则Rule与信息Info相关;否则为不相关。
参照图3,步骤204,根据核心词KW、规则类型TR及正文类型TC,提取最短距离句子集S的详细步骤如下:
正文类型TC及规则类型TR,最短距离的范围阈值ValidLen各不相同:
步骤301:单规则词处理。当规则Rule中只有1个规则词,则最短距离句子为整个正文Content,最短距离句子集S提取结束;否则执行步骤302。
步骤302:正文Content分段。利用段落分段标识符,将正文Content分为若干段落P={P1,P2,P3…,Pn}。
步骤303:提取段落最短距离句子集S={S1,S2,S3…,Sm}。依次提取段落Pi(1<=i<=n)内最短句子集Sj,直到正文Content提取结束。详细步骤如下:
步骤401:按照规则核心词KW对文本段落Pi(1<=i<=n)中查找包含该规则核心词KW的中心句。其中,句子以中文标点“。!?;”,英文标点“!?;”为标识符分割。
步骤402:依次查找中心句相临近的ValidLen个句子内的字符串,组成最短句子集Sj。
步骤403:当前中心句提取完毕后,依次获取当前段Pi的下一个包含该规则核心词KW的句子更新为当前中心句进行提取,直到段落P提取结束。
综上所述,本发明提出了一种基于规则的信息相关性判定方法,提高了文本的相关性判定的准确率。
本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员根据本发明的技术方案得出的其它的实施方式,同样属于本发明的技术创新范围。
Claims (2)
1.一种基于规则的信息相关性判定方法,其特征在于:其步骤如下:
A、判断标题Title与规则Rule的相关性RT;RT为真,则表示规则Rule与信息Info相关,判断结束;否则执行步骤B;
B、判断正文Content与规则Rule的相关性RC;
步骤B的具体操作步骤如下:
B1、判断正文类型TC;当正文Content的字符数小于字符阈值,设定正文为短文本类型ShortText;否则正文为长文本类型LongText;
B2、确定规则类型TR;判定规则Rule中规则词的全部个数,得到TR值;当规则词个数为1,设定规则为单规则OneRule;规则词个数为2,设定规则为短规则ShortRule;规则词个数大于3,设定规则为长规则LongRule;
B3、确定规则核心词KW;当规则Rule中规则词个数为1,则将规则词w1作为核心词KW;否则提取标题Title中出现的规则词,将Title中首个出现的规则词作为核心词KW;当标题中没有出现规则词,则规则词中第一个词w1作为核心词KW;
B4、根据核心词Kw、规则类型TR及正文类型TC,获取最短距离句子集S={S1,S2,S3,…Sm};
B5、判断最短距离句子集S与规则Rule的相关性RS;当RS为真,则规则Rule与正文Content相关,RC为真;否则为不相关,RC为假;当规则Rule与正文Content相关性RS为真,则规则Rule与信息Info相关;否则为不相关;
所步骤B4的具体操作步骤如下:
正文类型TC及规则类型TR,最短距离的范围阈值ValidLen各不相同:
B41、单规则词处理:当规则Rule中只有1个规则词,则最短距离句子为整个正文Content,最短距离句子集S提取结束;否则执行步骤B42;
B42、正文Content分段:利用段落分段标识符,将正文Content分为若干段落P={P1,P2,P3…,Pn};
B43、提取段落最短距离句子集S={S1,S2,S3…,Sm};依次提取段落Pi(1<=i<=n)内最短句子集Sj,直到正文Content提取结束;
所述步骤B43中所述的提取段落最短距离句子集S,其操作步骤如下:
B431、按照规则核心词KW对文本段落Pi(1<=i<=n)中查找包含该规则核心词KW的中心句;其中,句子以中文标点“。!?;”,英文标点“!?;”为标识符分割;
B432、依次查找中心句相临近的ValidLen个句子内的字符串,组成最短句子集Sj;
B433、当前中心句提取完毕后,依次获取当前段Pi的下一个包含该规则核心词KW的句子更新为当前中心句进行提取,直到段落P提取结束。
2.根据权利要求1所述的基于规则的信息相关性判定方法,其特征在于:步骤A的具体操作步骤如下:
A1、判断标题Title中是否包含规则Rule中的全部的规则词,规则词集合Rule={w1、w2、w3、……wN};
A2、当Title包含全部规则Rule中的全部的规则词,则标题Title与规则Rule相关,RT为真;否则RT为假;
A3、当标题Title与规则Rule的相关性RT为真,则表示规则Rule与信息Info相关,判断结束;否则执行步骤B。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610258136.1A CN105930468B (zh) | 2016-04-22 | 2016-04-22 | 一种基于规则的信息相关性判定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610258136.1A CN105930468B (zh) | 2016-04-22 | 2016-04-22 | 一种基于规则的信息相关性判定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105930468A CN105930468A (zh) | 2016-09-07 |
CN105930468B true CN105930468B (zh) | 2019-05-17 |
Family
ID=56836975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610258136.1A Active CN105930468B (zh) | 2016-04-22 | 2016-04-22 | 一种基于规则的信息相关性判定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105930468B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106383814B (zh) * | 2016-09-13 | 2020-05-19 | 电子科技大学 | 一种英文社交媒体短文本分词方法 |
CN113569001A (zh) * | 2021-01-29 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102236654A (zh) * | 2010-04-26 | 2011-11-09 | 广东开普互联信息科技有限公司 | 基于内容相关性的Web无效链接过滤方法 |
CN103064847A (zh) * | 2011-10-20 | 2013-04-24 | 北京中搜网络技术股份有限公司 | 索引装置、索引方法、检索装置、检索方法和检索系统 |
CN104424279A (zh) * | 2013-08-30 | 2015-03-18 | 腾讯科技(深圳)有限公司 | 一种文本的相关性计算方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2503223A (en) * | 2012-06-19 | 2013-12-25 | Ibm | Redrafting text strings using a vocabulary |
-
2016
- 2016-04-22 CN CN201610258136.1A patent/CN105930468B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102236654A (zh) * | 2010-04-26 | 2011-11-09 | 广东开普互联信息科技有限公司 | 基于内容相关性的Web无效链接过滤方法 |
CN103064847A (zh) * | 2011-10-20 | 2013-04-24 | 北京中搜网络技术股份有限公司 | 索引装置、索引方法、检索装置、检索方法和检索系统 |
CN104424279A (zh) * | 2013-08-30 | 2015-03-18 | 腾讯科技(深圳)有限公司 | 一种文本的相关性计算方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105930468A (zh) | 2016-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Fine-grained location extraction from tweets with temporal awareness | |
WO2021114745A1 (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN106407236B (zh) | 一种面向点评数据的情感倾向性检测方法 | |
CN105224640B (zh) | 一种提取观点的方法和设备 | |
CN104462053B (zh) | 一种文本内的基于语义特征的人称代词指代消解方法 | |
CN103970733B (zh) | 一种基于图结构的中文新词识别方法 | |
CN103853738B (zh) | 一种网页信息相关地域的识别方法 | |
CN109446404A (zh) | 一种网络舆情的情感极性分析方法和装置 | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
WO2017177809A1 (zh) | 语言文本的分词方法和系统 | |
CN106407235B (zh) | 一种基于点评数据的语义词典构建方法 | |
CN104298665A (zh) | 一种中文文本中评价对象的识别方法及装置 | |
CN103984771B (zh) | 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法 | |
CN103336766A (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN106126502A (zh) | 一种基于支持向量机的情感分类系统及方法 | |
CN105488098B (zh) | 一种基于领域差异性的新词提取方法 | |
CN102646124A (zh) | 一种自动识别地址信息的方法 | |
CN112528664B (zh) | 基于多任务联合学习与地址层级结构知识的地址匹配方法 | |
Izbicki et al. | Geolocating Tweets in any Language at any Location | |
CN103955450A (zh) | 一种新词自动提取方法 | |
US20160283582A1 (en) | Device and method for detecting similar text, and application | |
CN110321434A (zh) | 一种基于词义消歧卷积神经网络的文本分类方法 | |
CN113282754A (zh) | 针对新闻事件的舆情检测方法、装置、设备和存储介质 | |
CN107577713B (zh) | 基于电力词典的文本处理方法 | |
CN105930468B (zh) | 一种基于规则的信息相关性判定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A rule-based method for determining information correlation Granted publication date: 20190517 Pledgee: Industrial Bank Co.,Ltd. Lianyungang Branch Pledgor: JIANGSU JINGE NETWORK TECHNOLOGY Co.,Ltd. Registration number: Y2024980016005 |