CN105573968A

CN105573968A - 基于规则的文本标引方法

Info

Publication number: CN105573968A
Application number: CN201510910423.1A
Authority: CN
Inventors: 常毅; 周祖胜
Original assignee: TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Current assignee: TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2016-05-11

Abstract

一种基于规则的文本标引方法，包括以下步骤：建立特征枚举集合，集合中包括特征词集，特征邻接词集，禁止词集及其他特征变量集合等；建立规则集合，描述当某些特征符合某种同现关系后需要激活哪些标引标签的逻辑；对文本进行特征扫描，得到该文本包含的特征元素集合；对逐一使用规则匹配文本的特征关系集合；符合规则的文本，将根据规则的描述打上相应的标签，并将特征及其同现关系作为线索输出。本发明解决了单纯特征匹配无法在复杂的中文语义下进行准确判断的问题。

Description

基于规则的文本标引方法

技术领域

本发明涉及文本标引的技术领域，具体说是一种基于规则的文本标引方法。

背景技术

随着互联网技术的不断发展，网络已成为巨大的、分布广泛的信息源，在对网络信息进行分析时，往往需要对互联网上的新闻评论、论坛帖子等文本进行分析，判断其中是否有传销广告、色情及其他违规信息，并对其打上相应的标签。

又由于中文语言文本结构非常复杂，业界在文本标引中普遍使用的关键词扫描技术、广告联系方式匹配技术和建模统计技术均无法达到需要的精准度，且此类技术在上线后若需进行效果改善，或遇到新问题急需解决的情况，都存在可操作性差甚至无法人工改善，且改善后上线周期长的问题。

发明内容

本发明要解决的技术问题是提供一种基于规则的文本标引方法。

本发明为解决公知技术中存在的技术问题所采取的技术方案是:

本发明的基于规则的文本标引方法，包括以下步骤：

A、建立包括有关键词集合的知识集合，建立以词为基础的特征集合；

B、将上述特征集合按树形分类分等级并形成词树集，词树集中的每一枝节点作为规则引用的最小集合；

C、建立规则集合，定义文本打标签的条件；

D、扫描文本，对文本进行关键词扫描、分词，提取文本内的关键特征；

E、对提取出的关键特征进行整理，并逐一与规则进行匹配；

F、关键特征与规则成功匹配的，则触发“命中”逻辑，将规则所携带的标签信息及关键特征作为结果输出。

本发明还可以采用以下技术措施：

步骤D之后，对关键词扫描的结果和分词结果进行匹配，删除关键词扫描中输出的歧义关键词。

关键词集合中又包括特征词集、特征邻接词集、禁止词集；特征词集中包括广告特征，色情特征，联系方式特征，禁止词特征。

本发明具有的优点和积极效果是:

本发明的基于规则的文本标引方法，包括以下步骤：建立特征枚举集合，集合中包括特征词集，特征邻接词集，禁止词集及其他特征变量集合等；建立规则集合，描述当某些特征符合某种同现关系后需要激活哪些标引标签的逻辑；对文本进行特征扫描，得到该文本包含的特征元素集合；对逐一使用规则匹配文本的特征关系集合；符合规则的文本，将根据规则的描述打上相应的标签，并将特征及其同现关系作为线索输出。本发明解决了单纯特征匹配无法在复杂的中文语义下进行准确判断的问题。

具体实施方式

以下通过具体实施例对本发明进行详细说明。

本发明的基于规则的文本标引方法，包括以下步骤：

C、建立规则集合，定义文本打标签的条件；

E、对提取出的关键特征进行整理，并逐一与规则进行匹配；

实施例1：

下面以广告文本标引为例：

“$Ru_广告_卖考试答案=IsNear(WordFilter(FindWTSSeg("class广告_交易行为"),FindWTS("class广告_交易行为干扰词")),HaveContact(cellphone,0.5),10)&IsHaveWTS("class广告_考试答案")”是网页内的一段对应数据，

本发明的处理步骤如下：

1）关键词扫描得到文中是否有"class广告_交易行为""class广告_交易行为干扰词""class广告_考试答案"类的特征词（FindWTSSeg，FindWTS，IsHaveWTS）；

2）对"class广告_交易行为"类词的扫描结果和分词结果进行匹配，删除不符合中文分词语法的误命中词（例如“本店有售”出现在“本店有售后服务”中的情况）（FindWTSSeg）；

3）对文本进行联系方式提取，得到文中的联系方式权值在0.5以上的手机号码特征（HaveContact）；

4）class广告_交易行为干扰词"的特征词结果，对"class广告_交易行为"进行干扰词排除，将"class广告_交易行为"的命中词更加精确化（WordFilter）；

5）对"class广告_交易行为"和手机号特征进行距离检查，找出在文中出现两特征距离小于10个字的特征组合（IsNear）；

6）若5步骤的特征组合存在，且（&）文中同时存在"class广告_考试答案"的特征词，则此规则命中，将对此文本打上名为“广告_卖考试答案”的标签。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例公开如上，然而，并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当然会利用揭示的技术内容作出些许更动或修饰，成为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种基于规则的文本标引方法，包括以下步骤：

C、建立规则集合，定义文本打标签的条件；

E、对提取出的关键特征进行整理，并逐一与规则进行匹配；

2.根据权利要求1所述的基于规则的文本标引方法，其特征在于：步骤D之后，对关键词扫描的结果和分词结果进行匹配，删除关键词扫描中输出的歧义关键词。

3.根据权利要求1所述的基于规则的文本标引方法，其特征在于：关键词集合中又包括特征词集、特征邻接词集、禁止词集；特征词集中包括广告特征，色情特征，联系方式特征，禁止词特征。