CN105930468B - 一种基于规则的信息相关性判定方法 - Google Patents

一种基于规则的信息相关性判定方法 Download PDF

Info

Publication number
CN105930468B
CN105930468B CN201610258136.1A CN201610258136A CN105930468B CN 105930468 B CN105930468 B CN 105930468B CN 201610258136 A CN201610258136 A CN 201610258136A CN 105930468 B CN105930468 B CN 105930468B
Authority
CN
China
Prior art keywords
rule
regular
word
sentence
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610258136.1A
Other languages
English (en)
Other versions
CN105930468A (zh
Inventor
姜剑
仲兆满
陈宗华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU JINGE NETWORK TECHNOLOGY Co Ltd
Original Assignee
JIANGSU JINGE NETWORK TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU JINGE NETWORK TECHNOLOGY Co Ltd filed Critical JIANGSU JINGE NETWORK TECHNOLOGY Co Ltd
Priority to CN201610258136.1A priority Critical patent/CN105930468B/zh
Publication of CN105930468A publication Critical patent/CN105930468A/zh
Application granted granted Critical
Publication of CN105930468B publication Critical patent/CN105930468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于规则的信息相关性判定方法,首先判断规则与信息的标题的相关性。当规则与标题相关,规则与信息相关,判断结束;否则继续判断规则与信息正文的相关性。根据规则的核心词、规则类型及正文类型,划分正文句子,获取最短距离句子集,判断规则与最短距离句子集的相关性,得到规则与正文的相关性。再根据规则与正文的相关性,获得规则与信息的相关性。本发明通过判定信息的类型,规则中的关键词,规则的类型,并基于条件的最短距离句子,进行相关性判定,得到判定结果。通过对规则及信息的分析,可以提高规则在信息中的匹配准确度,提高了信息相关性判定能力,具有很强的实用性。

Description

一种基于规则的信息相关性判定方法
技术领域
本发明涉及互联网信息处理领域,具体地说,是涉及一种基于规则的信息相关性判定方法。
背景技术
随着互联网和移动通信的普及与发展,使得现实生活中的信息资源迅速增加。于此同时,也充斥着各种无价值信息,比如:广告信息、垃圾信息等。而每个用户真正感兴趣的信息非常有限,仅仅是其中的沧海一粟。因此,采用一些技术手段对这些信息进行相关性判定,保证用户得到其期望的信息。
传统的文本与规则的相关性,根据自然语言文本中规则词之间特定位置关系来进行匹配判定,大致可分为同句判定、同字段判定和同文本判定等几种类型。虽然考虑了规则词之间的位置关系,但没有考虑到规则的类型及文本类型的区别,尤其是微博类的短文本,更加口语化、句子划分不够规整,不能保证句子分化的准确性,因此影响了文本相关性的判定精度。
发明内容
本发明所要解决的技术问题是针对现有技术存在的问题和不足,提供一种新的基于规则的信息相关性判定方法,该方法达到了提高规则与信息相关性判定的准确性的效果。
本发明所要解决的技术问题是通过以下的技术方案来实现的。本发明是一种基于规则的信息相关性判定方法,其特点:首先判断信息Info的标题Title与规则Rule的相关性RT;当标题Title与规则Rule不相关,继续判断信息Info的正文Content与规则Rule的相关性RC
优选的具体步骤如下:
A、判断标题Title与规则Rule的相关性RT
A1、判断标题Title中是否包含规则Rule中的全部的规则词,规则词集合Rule={w1、w2、w3、……wN};
A2、当Title包含全部规则Rule中的全部的规则词,则标题Title与规则Rule相关,RT为真;否则RT为假。
A3、当标题Title与规则Rule的相关性RT为真,则表示规则Rule与信息Info相关,判断结束;否则执行步骤B。
B、判断正文Content与规则Rule的相关性RC
B1、判断正文类型TC
当正文Content的字符数小于字符阈值,设定正文为短文本类型ShortText;否则正文为长文本类型LongText。
B2、确定规则类型TR
判定规则Rule中规则词的全部个数,得到TR值。
当规则词个数为1,设定规则为单规则OneRule;规则词个数为2,设定规则为短规则ShortRule;规则词个数大于3,设定规则为长规则LongRule。
B3、确定规则核心词KW
当规则Rule中规则词个数为1,则规则词w1作为核心词KW。否则提取标题Title中出现的规则词,将Title中首个出现的规则词作为核心词KW。当标题中没有出现规则词,则规则词中第一个词w1作为核心词KW
B4、根据核心词Kw、规则类型TR及正文类型TC,获取最短距离句子集S={S1,S2,S3,…Sm};
B5、判断最短距离句子集S与规则Rule的相关性RS。当RS为真,则规则Rule与正文Content相关,RC为真;否则为不相关,RC为假。
当规则Rule与正文Content相关性RS为真,则规则Rule与信息Info相关;否则为不相关。
上述步骤B4中所述的根据核心词KW、规则类型TR及正文类型TC,提取最短距离句子集S,其优选操作步骤如下:
正文类型TC及规则类型TR,最短距离的范围阈值ValidLen各不相同:
B41、单规则词处理。当规则Rule中只有1个规则词,则最短距离句子为整个正文Content,最短距离句子集S提取结束;否则执行步骤B42。
B42、正文Content分段。利用段落分段标识符,将正文Content分为若干段落P={P1,P2,P3…,Pn}。
B43、提取段落最短距离句子集S={S1,S2,S3…,Sm}。依次提取段落Pi(1<=i<=n)内最短句子集Sj,直到正文Content提取结束。
上述步骤B43中所述的提取段落最短距离句子集S,其优选操作步骤如下:
B431、按照规则核心词KW对文本段落Pi(1<=i<=n)中查找包含该规则核心词KW的中心句。其中,句子以中文标点“。!?;”,英文标点“!?;”为标识符分割。
B432、依次查找中心句相临近的ValidLen个句子内的字符串,组成最短句子集Sj
B433、当前中心句提取完毕后,依次获取当前段Pi的下一个包含该规则核心词KW的句子更新为当前中心句进行提取,直到段落P提取结束。
基于规则的信息相关性判定方法到此结束。
与现有技术相比,本发明的基于规则的信息相关性判定方法,通过判定信息的类型,规则中的关键词,规则的类型,并基于条件的最短距离句子,进行相关性判定,得到判定结果。通过对规则及信息的分析,可以提高规则在信息中的匹配准确度,提高了信息相关性判定能力,具有很强的实用性。
附图说明
图1是本发明的基于规则的信息相关性判定方法的流程图;
图2是图1中步骤02所述的正文Content与规则Rule的相关性RC的流程图;
图3是图2中步骤204所述的获取最短距离句子集S的流程图;
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的描述。以使本技术领域的技术人员进一步地理解本发明,而不构成对本发明权利的限制。
参照图1,本发明的基于规则的信息相关性判定方法包括如下步骤:
步骤01、判定标题Title与规则Rule的相关性RT,其具体如下:
步骤101:判断标题Title中是否包含规则Rule中的全部的规则词,规则词集合Rule={w1、w2、w3、……wN};
步骤102:当Title包含全部规则Rule中的全部的规则词,则标题Title与规则Rule相关,RT为真;否则RT为假。
步骤103:当标题Title与规则Rule的相关性RT为真,则表示规则Rule与信息Info相关,判断结束;否则执行步骤02。
步骤02、判定正文Content与规则Rule的相关性RC。参照图2,包括如下步骤:
步骤201:判定正文类型TC
信息的来源媒体分为新闻、论坛、博客、微博。其中微博的信息正文长度均小于140个字,而其他来源媒体类型的信息,正文长度不统一。当正文Content的字符数小于字符阈值,设定正文为短文本类型ShortText;否则正文为长文本类型LongText。
步骤202:确定规则类型TR
判定规则Rule中规则词的全部个数,得到TR值。
当规则词个数为1,设定规则为单规则OneRule;规则词个数为2,设定规则为短规则ShortRule;规则词个数大于3,设定规则为长规则LongRule。
步骤203:确定规则核心词KW
关键词出现在比较重要的位置,如标题中,说明页面与关键词越相关。
当规则Rule中规则词个数为1,则规则词w1作为核心词KW。否则提取标题Title中出现的规则词,将Title中首个出现的规则词作为核心词KW。当标题中没有出现规则词,则规则词中第一个词w1作为核心词KW
步骤204:根据核心词Kw、规则类型TR及正文类型TC,获取最短距离句子集S={S1,S2,S3,…Sm};
步骤205:判断最短距离句子集S与规则Rule的相关性RS
当RS为真,则规则Rule与正文Content相关,RC为真;否则为不相关,RC为假。当规则Rule与正文Content相关性RS为真,则规则Rule与信息Info相关;否则为不相关。
参照图3,步骤204,根据核心词KW、规则类型TR及正文类型TC,提取最短距离句子集S的详细步骤如下:
正文类型TC及规则类型TR,最短距离的范围阈值ValidLen各不相同:
步骤301:单规则词处理。当规则Rule中只有1个规则词,则最短距离句子为整个正文Content,最短距离句子集S提取结束;否则执行步骤302。
步骤302:正文Content分段。利用段落分段标识符,将正文Content分为若干段落P={P1,P2,P3…,Pn}。
步骤303:提取段落最短距离句子集S={S1,S2,S3…,Sm}。依次提取段落Pi(1<=i<=n)内最短句子集Sj,直到正文Content提取结束。详细步骤如下:
步骤401:按照规则核心词KW对文本段落Pi(1<=i<=n)中查找包含该规则核心词KW的中心句。其中,句子以中文标点“。!?;”,英文标点“!?;”为标识符分割。
步骤402:依次查找中心句相临近的ValidLen个句子内的字符串,组成最短句子集Sj
步骤403:当前中心句提取完毕后,依次获取当前段Pi的下一个包含该规则核心词KW的句子更新为当前中心句进行提取,直到段落P提取结束。
综上所述,本发明提出了一种基于规则的信息相关性判定方法,提高了文本的相关性判定的准确率。
本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员根据本发明的技术方案得出的其它的实施方式,同样属于本发明的技术创新范围。

Claims (2)

1.一种基于规则的信息相关性判定方法,其特征在于:其步骤如下:
A、判断标题Title与规则Rule的相关性RT;RT为真,则表示规则Rule与信息Info相关,判断结束;否则执行步骤B;
B、判断正文Content与规则Rule的相关性RC
步骤B的具体操作步骤如下:
B1、判断正文类型TC;当正文Content的字符数小于字符阈值,设定正文为短文本类型ShortText;否则正文为长文本类型LongText;
B2、确定规则类型TR;判定规则Rule中规则词的全部个数,得到TR值;当规则词个数为1,设定规则为单规则OneRule;规则词个数为2,设定规则为短规则ShortRule;规则词个数大于3,设定规则为长规则LongRule;
B3、确定规则核心词KW;当规则Rule中规则词个数为1,则将规则词w1作为核心词KW;否则提取标题Title中出现的规则词,将Title中首个出现的规则词作为核心词KW;当标题中没有出现规则词,则规则词中第一个词w1作为核心词KW
B4、根据核心词Kw、规则类型TR及正文类型TC,获取最短距离句子集S={S1,S2,S3,…Sm};
B5、判断最短距离句子集S与规则Rule的相关性RS;当RS为真,则规则Rule与正文Content相关,RC为真;否则为不相关,RC为假;当规则Rule与正文Content相关性RS为真,则规则Rule与信息Info相关;否则为不相关;
所步骤B4的具体操作步骤如下:
正文类型TC及规则类型TR,最短距离的范围阈值ValidLen各不相同:
B41、单规则词处理:当规则Rule中只有1个规则词,则最短距离句子为整个正文Content,最短距离句子集S提取结束;否则执行步骤B42;
B42、正文Content分段:利用段落分段标识符,将正文Content分为若干段落P={P1,P2,P3…,Pn};
B43、提取段落最短距离句子集S={S1,S2,S3…,Sm};依次提取段落Pi(1<=i<=n)内最短句子集Sj,直到正文Content提取结束;
所述步骤B43中所述的提取段落最短距离句子集S,其操作步骤如下:
B431、按照规则核心词KW对文本段落Pi(1<=i<=n)中查找包含该规则核心词KW的中心句;其中,句子以中文标点“。!?;”,英文标点“!?;”为标识符分割;
B432、依次查找中心句相临近的ValidLen个句子内的字符串,组成最短句子集Sj
B433、当前中心句提取完毕后,依次获取当前段Pi的下一个包含该规则核心词KW的句子更新为当前中心句进行提取,直到段落P提取结束。
2.根据权利要求1所述的基于规则的信息相关性判定方法,其特征在于:步骤A的具体操作步骤如下:
A1、判断标题Title中是否包含规则Rule中的全部的规则词,规则词集合Rule={w1、w2、w3、……wN};
A2、当Title包含全部规则Rule中的全部的规则词,则标题Title与规则Rule相关,RT为真;否则RT为假;
A3、当标题Title与规则Rule的相关性RT为真,则表示规则Rule与信息Info相关,判断结束;否则执行步骤B。
CN201610258136.1A 2016-04-22 2016-04-22 一种基于规则的信息相关性判定方法 Active CN105930468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610258136.1A CN105930468B (zh) 2016-04-22 2016-04-22 一种基于规则的信息相关性判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610258136.1A CN105930468B (zh) 2016-04-22 2016-04-22 一种基于规则的信息相关性判定方法

Publications (2)

Publication Number Publication Date
CN105930468A CN105930468A (zh) 2016-09-07
CN105930468B true CN105930468B (zh) 2019-05-17

Family

ID=56836975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610258136.1A Active CN105930468B (zh) 2016-04-22 2016-04-22 一种基于规则的信息相关性判定方法

Country Status (1)

Country Link
CN (1) CN105930468B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106383814B (zh) * 2016-09-13 2020-05-19 电子科技大学 一种英文社交媒体短文本分词方法
CN113569001A (zh) * 2021-01-29 2021-10-29 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236654A (zh) * 2010-04-26 2011-11-09 广东开普互联信息科技有限公司 基于内容相关性的Web无效链接过滤方法
CN103064847A (zh) * 2011-10-20 2013-04-24 北京中搜网络技术股份有限公司 索引装置、索引方法、检索装置、检索方法和检索系统
CN104424279A (zh) * 2013-08-30 2015-03-18 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2503223A (en) * 2012-06-19 2013-12-25 Ibm Redrafting text strings using a vocabulary

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236654A (zh) * 2010-04-26 2011-11-09 广东开普互联信息科技有限公司 基于内容相关性的Web无效链接过滤方法
CN103064847A (zh) * 2011-10-20 2013-04-24 北京中搜网络技术股份有限公司 索引装置、索引方法、检索装置、检索方法和检索系统
CN104424279A (zh) * 2013-08-30 2015-03-18 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置

Also Published As

Publication number Publication date
CN105930468A (zh) 2016-09-07

Similar Documents

Publication Publication Date Title
Li et al. Fine-grained location extraction from tweets with temporal awareness
WO2021114745A1 (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN106407236B (zh) 一种面向点评数据的情感倾向性检测方法
CN105224640B (zh) 一种提取观点的方法和设备
CN104462053B (zh) 一种文本内的基于语义特征的人称代词指代消解方法
CN103970733B (zh) 一种基于图结构的中文新词识别方法
CN103853738B (zh) 一种网页信息相关地域的识别方法
CN109446404A (zh) 一种网络舆情的情感极性分析方法和装置
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
WO2017177809A1 (zh) 语言文本的分词方法和系统
CN106407235B (zh) 一种基于点评数据的语义词典构建方法
CN104298665A (zh) 一种中文文本中评价对象的识别方法及装置
CN103984771B (zh) 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN106126502A (zh) 一种基于支持向量机的情感分类系统及方法
CN105488098B (zh) 一种基于领域差异性的新词提取方法
CN102646124A (zh) 一种自动识别地址信息的方法
CN112528664B (zh) 基于多任务联合学习与地址层级结构知识的地址匹配方法
Izbicki et al. Geolocating Tweets in any Language at any Location
CN103955450A (zh) 一种新词自动提取方法
US20160283582A1 (en) Device and method for detecting similar text, and application
CN110321434A (zh) 一种基于词义消歧卷积神经网络的文本分类方法
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN107577713B (zh) 基于电力词典的文本处理方法
CN105930468B (zh) 一种基于规则的信息相关性判定方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A rule-based method for determining information correlation

Granted publication date: 20190517

Pledgee: Industrial Bank Co.,Ltd. Lianyungang Branch

Pledgor: JIANGSU JINGE NETWORK TECHNOLOGY Co.,Ltd.

Registration number: Y2024980016005