CN104216876A - 信息文本过滤方法及系统 - Google Patents

信息文本过滤方法及系统 Download PDF

Info

Publication number
CN104216876A
CN104216876A CN201310205069.3A CN201310205069A CN104216876A CN 104216876 A CN104216876 A CN 104216876A CN 201310205069 A CN201310205069 A CN 201310205069A CN 104216876 A CN104216876 A CN 104216876A
Authority
CN
China
Prior art keywords
information text
class label
probability
default
classifier parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310205069.3A
Other languages
English (en)
Other versions
CN104216876B (zh
Inventor
刘东鑫
刘国荣
沈军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201310205069.3A priority Critical patent/CN104216876B/zh
Publication of CN104216876A publication Critical patent/CN104216876A/zh
Application granted granted Critical
Publication of CN104216876B publication Critical patent/CN104216876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种信息文本过滤方法及系统,方法包括:对待审核的信息文本进行预处理,获得对应的多个词语;调入语义扩展参数表,根据多个词语和语义扩展参数表将待审核的信息文本从词语空间映射到确定的主题空间;调入分类器参数,根据分类器参数对待审核的信息文本进行统计语义分析,给出对应的类别标签,并存入训练样本库。本发明通过对待审核的信息文本进行预处理、词语空间到主题空间的映射和统计语义分析,可以获得待审核的信息文本对应的类别标签,在获得了类别标签后,将类别标签连同待审核的信息文本一并存入训练样本库,自动对已审核的训练集进行扩充,实现训练样本的快速自适应学习,进而提升信息文本过滤的实用性和识别精度。

Description

信息文本过滤方法及系统
技术领域
本发明涉及信息服务领域,尤其涉及一种信息文本过滤方法及系统。
背景技术
随着移动互联网的迅猛发展,便捷的信息服务已经深刻地改变了人们的生活和工作方式。另一方面,由于信息服务的巨大影响力,随之衍生的内容安全问题不容忽视。
随着基于统计模式识别方法的内容过滤技术的兴起和成熟,高精度过滤成为现实,而其前提是大量训练样本的有监督学习。由于人类自然语言的动态变化特性,因此快速地构建训练样本库,以及对误判决的样本实施快速的自适应学习,对于提升内容过滤装置的实际应用价值具有重要的意义。
但在现实中,现有的内容过滤装置难以快速有效的构建训练样本库,在面对人类自然语言动态演进时无法快速收敛的自适应学习,难以对内容过滤的分类器进行实时更新,因此难以保证识别精度。
发明内容
本发明的目的是提出一种信息文本过滤方法及系统,能够使内容过滤的分类器进行快速收敛的自适应学习。
为实现上述目的,本发明提供了一种信息文本过滤方法,包括:
对待审核的信息文本进行预处理,获得所述待审核的信息文本对应的多个词语;
调入语义扩展参数表,根据所述多个词语和所述语义扩展参数表将所述待审核的信息文本从词语空间映射到确定的主题空间;
调入分类器参数,根据所述分类器参数对所述待审核的信息文本进行统计语义分析,给出所述待审核的信息文本对应的类别标签,并将所述待审核的信息文本和对应的类别标签存入训练样本库。
进一步的,在获得所述待审核的信息文本对应的多个词语时,还包括:获得所述多个词语在所述待审核的信息文本中对应的词频。
进一步的,所述语义扩展参数表包括多个预设词语的语义扩展参数,所述语义扩展参数为所述多个预设词语分别在多个预设主题类别的文档中出现的概率;
根据所述多个词语和所述语义扩展参数表将所述待审核的信息文本从词语空间映射到确定的主题空间的操作具体包括:
在所述语义扩展参数表中查询所述多个词语匹配的预设词语分别在所述多个预设主题类别的文档中出现的概率,确定所述多个词语分别在所述多个预设主题类别下对应的概率;
根据所述多个词语分别在所述多个预设主题类别下对应的概率计算所述待审核的信息文本分别属于所述多个预设主题类别中每个预设主题类别的概率。
进一步的,所述分类器参数包括多个预设主题类别的分类器参数,所述分类器参数为多种预设判决结果的文档对应于多个预设主题类别的概率;
根据所述分类器参数对所述待审核的信息文本进行统计语义分析的操作具体包括:
根据训练样本库中具有每种预设判决结果的信息文本分别占总信息文本的概率、每种预设判决结果的文档对应于多个预设主题类别的概率和所述待审核的信息文本分别属于所述多个预设主题类别中每个预设主题类别的概率计算所述待审核的信息文本属于每种预设判决结果的概率。
进一步的,所述给出所述待审核的信息文本对应的类别标签的操作具体为:
根据计算出的所述待审核的信息文本属于每种预设判决结果的概率将概率数值较大的预设判决结果作为所述待审核的信息文本的类别标签。
进一步的,还包括信息文本的再学习流程,具体包括:
对所述训练样本库中选取的需再学习的信息文本进行预处理,获得所述需再学习的信息文本对应的多个词语;
调入语义扩展参数表,根据所述多个词语和所述语义扩展参数表将所述需再学习的信息文本从词语空间映射到确定的主题空间;
调入分类器参数,根据所述分类器参数对所述需再学习的信息文本进行统计语义分析,并给出所述需再学习的信息文本对应的新类别标签;
从所述训练样本库调取所述需再学习的信息文本对应的原类别标签,并将所述原类别标签与所述新类别标签进行比较,如果两者符合,则结束所述信息文本的再学习流程,否则按照预设步长对所述分类器参数进行调整,并基于调整后的分类器参数对所述需再学习的信息文本进行统计语义分析、新类别标签确定和类别标签比较的操作,直到原类别标签与新类别标签符合。
进一步的,还包括训练样本库的构建流程,具体包括:
对待添加的训练信息文本进行预处理;
调用关键词列表,并根据所述关键词列表对所述待添加的训练信息文本进行遍历匹配,统计所述待添加的训练信息文本分别匹配所述关键词列表中各个关键词的匹配数目;
根据预设的关键词匹配类别标签的规则,确定所述待添加的训练信息文本对应的类别标签,并进行标注;
将所述待添加的训练信息文本和标注的类别标签存入所述训练样本库。
为实现上述目的,本发明提供了一种信息文本过滤系统,包括:
第一预处理模块,用于对待审核的信息文本进行预处理,获得所述待审核的信息文本对应的多个词语;
第一文本映射模块,用于调入语义扩展参数表,根据所述多个词语和所述语义扩展参数表将所述待审核的信息文本从词语空间映射到确定的主题空间;
第一语义分析模块,用于调入分类器参数,根据所述分类器参数对所述待审核的信息文本进行统计语义分析;
第一类别标识模块,用于给出所述待审核的信息文本对应的类别标签;
第一入库单元,用于将所述待审核的信息文本和对应的类别标签存入训练样本库。
进一步的,所述第一预处理模块还用于在获得所述待审核的信息文本对应的多个词语时,获得所述多个词语在所述待审核的信息文本中对应的词频。
进一步的,所述语义扩展参数表包括多个预设词语的语义扩展参数,所述语义扩展参数为所述多个预设词语分别在多个预设主题类别的文档中出现的概率;
所述第一文本映射模块具体包括:
语义扩展参数表调入单元,用于调入所述语义扩展参数表;
语义扩展参数表查询单元,用于在所述语义扩展参数表中查询所述多个词语匹配的预设词语分别在所述多个预设主题类别的文档中出现的概率,确定所述多个词语分别在所述多个预设主题类别下对应的概率;
主题类别概率确定单元,用于根据所述多个词语分别在所述多个预设主题类别下对应的概率计算所述待审核的信息文本分别属于所述多个预设主题类别中每个预设主题类别的概率。
进一步的,所述分类器参数包括多个预设主题类别的分类器参数,所述分类器参数为多种预设判决结果的文档对应于多个预设主题类别的概率;
所述第一语义分析模块具体包括:
分类器参数调入单元,用于调入所述分类器参数;
判决结果概率计算单元,用于根据训练样本库中具有每种预设判决结果的信息文本分别占总信息文本的概率、每种预设判决结果的文档对应于多个预设主题类别的概率和所述待审核的信息文本分别属于所述多个预设主题类别中每个预设主题类别的概率计算所述待审核的信息文本属于每种预设判决结果的概率。
进一步的,所述第一类别标识模块具体包括:
第一类别标签确定单元,用于根据计算出的所述待审核的信息文本属于每种预设判决结果的概率将概率数值较大的预设判决结果作为所述待审核的信息文本的类别标签。
进一步的,还包括信息文本的再学习子系统,具体包括:
第二预处理模块,用于所述训练样本库中选取的需再学习的信息文本进行预处理,获得所述需再学习的信息文本对应的多个词语;
第二文本映射模块,用于调入语义扩展参数表,根据所述多个词语和所述语义扩展参数表将所述需再学习的信息文本从词语空间映射到确定的主题空间;
第二语义分析模块,用于调入分类器参数,根据所述分类器参数对所述需再学习的信息文本进行统计语义分析;;
第二类别标识模块,用于给出所述需再学习的信息文本对应的新类别标签;
原类别标签调取模块,用于从所述训练样本库调取所述需再学习的信息文本对应的原类别标签;
类别标签比较模块,用于将所述原类别标签与所述新类别标签进行比较,如果两者符合,则结束所述信息文本的再学习流程;
分类器参数调整模块,用于在原类别标签与新类别标签不符合时,按照预设步长对所述分类器参数进行调整,并基于调整后的分类器参数触发所述第二类别标识模块、原类别标签调取模块和类别标签比较模块,直到原类别标签与新类别标签符合。
进一步的,还包括训练样本库的构建子系统,具体包括:
第三预处理模块,用于对待添加的训练信息文本进行预处理;
关键词匹配模块,用于调用关键词列表,并根据所述关键词列表对所述待添加的训练信息文本进行遍历匹配,统计所述待添加的训练信息文本分别匹配所述关键词列表中各个关键词的匹配数目;
第二类别标签确定模块,用于根据预设的关键词匹配类别标签的规则,确定所述待添加的训练信息文本对应的类别标签,并进行标注;
第二入库模块,用于将所述待添加的训练信息文本和标注的类别标签存入所述训练样本库。
基于上述技术方案,本发明通过对待审核的信息文本进行预处理、词语空间到主题空间的映射和统计语义分析,可以获得待审核的信息文本对应的类别标签,在获得了类别标签后,将类别标签连同待审核的信息文本一并存入训练样本库,自动对已审核的训练集进行扩充,实现训练样本的快速自适应学习,进而提升信息文本过滤的实用性和识别精度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明信息文本过滤方法的一实施例的流程示意图。
图2为本发明信息文本过滤方法的另一实施例的流程示意图。
图3为本发明信息文本过滤方法实施例中信息文本的再学习流程的示意图。
图4为本发明信息文本过滤方法实施例中训练样本库的构建流程的示意图。
图5为本发明信息文本过滤系统的一实施例的结构示意图。
图6为本发明信息文本过滤系统实施例中信息文本的再学习子系统的结构示意图。
图7为本发明信息文本过滤系统实施例中训练样本库的构建子系统的结构示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
如图1所示,为本发明信息文本过滤方法的一实施例的流程示意图。在本实施例中,信息文本过滤方法包括:
步骤101、对待审核的信息文本进行预处理,获得所述待审核的信息文本对应的多个词语;
步骤102、调入语义扩展参数表,根据所述多个词语和所述语义扩展参数表将所述待审核的信息文本从词语空间映射到确定的主题空间;
步骤103、调入分类器参数,根据所述分类器参数对所述待审核的信息文本进行统计语义分析,给出所述待审核的信息文本对应的类别标签,并将所述待审核的信息文本和对应的类别标签存入训练样本库。
在本实施例中,通过对待审核的信息文本进行预处理、词语空间到主题空间的映射和统计语义分析,可以获得待审核的信息文本对应的类别标签,在获得了类别标签后,将类别标签连同待审核的信息文本一并存入训练样本库,自动对已审核的训练集进行扩充,实现训练样本的快速自适应学习,进而提升信息文本过滤的实用性和识别精度。
具体来说,在步骤101中对待审核的信息文本的预处理包括清除待审核的信息文本中的标点符号、无实义文字等处理,以及中文分词或者特征提取等处理,通过预处理可以从待审核的信息文本中获得对应的多个词语。待审核的信息文本可能是邮件、短信、新闻等,以新闻为例,一篇体育新闻所包含的信息文本中会包含较多与体育相关的词语,也会包含很多的标点符号和无实义的语气助词、连词等,通过预处理可以将该篇体育新闻中有实义的词语(例如羽毛球、锦标赛、冠军等)提取出来。
在获得了审核的信息文本对应的多个词语时,还可以同时获取该多个词语在待审核的信息文本中对应的词频。通常来说,某个词语出现的频率较高,除去无意义的语气助词、连词等,这种词语对于整个信息文本可能比较重要,有一定的代表性。因此在进行词语空间到主题空间的映射之前,获取词频有助于更准确地进行映射。
在步骤102中的语义扩展参数表包括了多个预设词语的语义扩展参数,这些语义扩展参数是多个预设词语分别在多个预设主题类别的文档中出现的概率。利用语义扩展参数表和之前从待审核的信息文本中获取到的多个词语就可以将待审核的信息文本从词语空间映射到确定的主题空间。
这个映射过程可以是在语义扩展参数表中查询从待审核的信息文本中获取到的多个词语所匹配的预设词语分别在多个预设主题类别的文档中出现的概率,然后通过这些概率进一步确定该多个词语分别在多个预设主题类别下对应的概率,有了这些词语对应预设主题类别的概率后,就可以进一步求出包含了这些词语的待审核的信息文本分别属于多个预设主题类别中每个预设主题类别的概率。
换句话说,通过步骤102就确定出待审核的信息文本属于哪一主题类别的概率较高,属于哪一主题类别的概率较低。这对后续的判决非常关键。
在步骤103中的分类器参数包括多个预设主题类别的分类器参数,而分类器参数为多种预设判决结果的文档对应于多个预设主题类别的概率。例如判决为正常的信息文本属于商业主题类别和娱乐主题类别的概率、判决为不良的信息文本属于商业主题类别和娱乐主题类别的概率等。
统计语义分析除了涉及到分类器参数(即每种预设判决结果的文档对应于多个预设主题类别的概率)之外,还涉及到训练样本库中具有每种预设判决结果的信息文本分别占总信息文本的概率、步骤102中得到的待审核的信息文本分别属于所述多个预设主题类别中每个预设主题类别的概率,通过这些数据可以计算出待审核的信息文本属于每种预设判决结果的概率。
通常来说,可以根据计算出的所述待审核的信息文本属于每种预设判决结果的概率,将概率数值较大的预设判决结果作为待审核的信息文本的类别标签,举例来说,预设判决结果有两种,一种是正常,一种是不良,如果待审核的信息文本属于正常的概率较高,而属于不良的概率较低,则可以将该信息文本判决为概率较高的正常,也就是输出该信息文本为正常的信息文本的结果。当然,预设判决结果不止两种,也可以有三种和三种以上,而判决的规则也不仅限于概率较大的预设判决结果为最后的判决结构。例如预设判决结果包括正常、较正常、较不良、不良等四种,在判断时,如果信息文本属于正常和较正常的概率无论哪个较高,则都可以直接判定为正常,而信息文本属于较不良和不良的概率无论哪个较高,则都可以直接判定为不良。
在确定了待审核的信息文本的类别标签后,就可以进行相应的过滤操作,例如将不良的短信内容进行过滤筛除或者进行标记,也可以针对于不良的邮件或短信进行用户提醒。
下面通过一个更具体的信息文本过滤方法实施例来进一步对本发明进行说明。如图2所示,为本发明信息文本过滤方法的另一实施例的流程示意图。在本实施例中,信息文本过滤方法包括:
步骤201、对待审核的信息文本D进行去除标点符号、去除无实义词语、中文分词/特征提取等预处理,获得待审核的信息文本D对应的N个词语ti(i=1~N,N为正整数)和词语ti在该篇信息文本D中对应的词频ni
步骤202、调入语义扩展参数表,语义扩展参数表包括多个预设词语的语义扩展参数,语义扩展参数为多个预设词语分别在多个预设主题类别Sj(共J个预设主题类别,j=1~J,J为正整数)的文档中出现的概率;
步骤203、在语义扩展参数表中查询多个词语ti匹配的预设词语分别在多个预设主题类别Sj的文档中出现的概率,确定词语ti分别在预设主题类别Sj下对应的概率P(ti|Sj);
步骤204、根据词语ti分别在预设主题类别Sj下对应的概率P(ti|Sj)计算待审核的信息文本D分别属于各种预设主题类别Sj的概率P(D|Sj),计算公式为
P ( D | S j ) = Π i = 1 N [ P ( t i | S j ) ] n i
∝ Σ i = 1 N n i log P ( t i | S j )
步骤205、调入分类器参数,分类器参数包括多个预设主题类别的分类器参数,分类器参数为多种预设判决结果的文档对应于多个预设主题类别的概率,以预设判决结果包括正常和不良两种为例,分类器参数包括正常和不良的文档分别对应于多个预设主题类别的概率P(Sj|正常)和P(Sj|不良);
步骤206、根据训练样本库中具有每种预设判决结果的信息文本分别占总信息文本的概率P(正常)和P(不良)、正常和不良的文档对应于多个预设主题类别Sj的概率P(Sj|正常)和P(Sj|不良),以及待审核的信息文本D分别属于各种预设主题类别Sj的概率P(D|Sj)计算待审核的信息文本D属于正常的概率P(正常|D)和不良的概率P(不良|D),计算公式为
步骤207、比较P(正常|D)和P(不良|D)的大小,将概率数值较大的预设判决结果作为待审核的信息文本D的类别标签;
步骤208、将待审核的信息文本D和对应的类别标签(正常或不良)存入训练样本库。
在步骤204和步骤206中的计算公式中,采用了对数计算的方式,之所以采用对数计算,是因为计算中涉及到的概率值非常小,连乘后会超过计算机表示的精度,加上对数运算会保持函数的单调递增性质,因此可以将计算公式涉及的函数映射到加法计算空间,并不会对判决结果造成明显影响。另外,这些计算可以在软件程序或硬件内以多个公式或者一个整体公式完成,不一定严格按照上述步骤进行。
对于已经经过审核并且保存在训练样本库中的信息文本,随着训练样本库的更新,这些信息文本当前的判决结果可能已不准确,需要进行更新和调整,也就是信息文本的再学习过程,具体参见图3,该信息文本的再学习流程包括:
步骤301、对所述训练样本库中选取的需再学习的信息文本进行预处理,获得所述需再学习的信息文本对应的多个词语;
步骤302、调入语义扩展参数表,根据所述多个词语和所述语义扩展参数表将所述需再学习的信息文本从词语空间映射到确定的主题空间;
步骤303、调入分类器参数,根据所述分类器参数对所述需再学习的信息文本进行统计语义分析,并给出所述需再学习的信息文本对应的新类别标签;
步骤304、从所述训练样本库调取所述需再学习的信息文本对应的原类别标签;
步骤305、将所述原类别标签与所述新类别标签进行比较,如果两者符合,则结束所述信息文本的再学习流程,否则执行步骤306;
步骤306、按照预设步长对所述分类器参数进行调整,并基于调整后的分类器参数返回步骤303,对所述需再学习的信息文本进行统计语义分析、新类别标签确定和类别标签比较的操作,直到原类别标签与新类别标签符合。
信息文本的再学习过程的步骤301-303的具体过程与待审核的信息文本的处理流程类似,这里不再详述,区别主要在于需再学习的信息文本确定新类别标签后,并不直接保存到训练样本库,而是要与训练样本库内的该信息文本的原类别标签进行比较,如果相同,则表示目前分类器参数是合适的,而如果两者不同,则说明分类器参数可能已经不太准确了,需要对分类器参数进行调整,而调整过程是一个迭代过程,每次调整均调整预设的步长,这里的步长可以是对不同预设判决结果所对应的信息文本数量的调整,例如调整判决结果为正常的商业和社会等主题类别下的信息文本数量增加5等。
在每次调整步长后,就基于新的分类器参数重新进行统计语义分析、新类别标签确定和类别标签比较,来看看获得的新类别标签能否与原类别标签一致,不一致则继续调整步长,一致则结束再学习过程。
对于训练样本库来说,本发明也给出了一种构建流程的实例,具体参见图4,该流程包括:
步骤401、对待添加的训练信息文本进行预处理;
步骤402、调用关键词列表,并根据所述关键词列表对所述待添加的训练信息文本进行遍历匹配,统计所述待添加的训练信息文本分别匹配所述关键词列表中各个关键词的匹配数目;
步骤403、根据预设的关键词匹配类别标签的规则,确定所述待添加的训练信息文本对应的类别标签,并进行标注;
步骤404、将所述待添加的训练信息文本和标注的类别标签存入所述训练样本库。
在本实施例的训练样本库的构建流程中,采用训练信息文本快速建立训练样本库,并利用关键词匹配类别标签的规则进行自动审核和标注,实现更为容易方便。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
如图5所示,为本发明信息文本过滤系统的一实施例的结构示意图。在本实施例中,信息文本过滤系统包括:第一预处理模块11、第一文本映射模块12、第一语义分析模块13、第一类别标识模块14和第一入库单元15。
第一预处理模块11用于对待审核的信息文本进行预处理,获得所述待审核的信息文本对应的多个词语。第一文本映射模块12用于调入语义扩展参数表,根据所述多个词语和所述语义扩展参数表将所述待审核的信息文本从词语空间映射到确定的主题空间。
第一语义分析模块13用于调入分类器参数,根据所述分类器参数对所述待审核的信息文本进行统计语义分析。第一类别标识模块14用于给出所述待审核的信息文本对应的类别标签。第一入库单元15用于将所述待审核的信息文本和对应的类别标签存入训练样本库。
在另一个实施例中,第一预处理模块11还可以在获得所述待审核的信息文本对应的多个词语时,获得所述多个词语在所述待审核的信息文本中对应的词频。
在另一个实施例中,语义扩展参数表包括多个预设词语的语义扩展参数,所述语义扩展参数为所述多个预设词语分别在多个预设主题类别的文档中出现的概率;第一文本映射模块可以具体包括:
语义扩展参数表调入单元,用于调入所述语义扩展参数表;
语义扩展参数表查询单元,用于在所述语义扩展参数表中查询所述多个词语匹配的预设词语分别在所述多个预设主题类别的文档中出现的概率,确定所述多个词语分别在所述多个预设主题类别下对应的概率;
主题类别概率确定单元,用于根据所述多个词语分别在所述多个预设主题类别下对应的概率计算所述待审核的信息文本分别属于所述多个预设主题类别中每个预设主题类别的概率。
在另一个实施例中,分类器参数包括多个预设主题类别的分类器参数,所述分类器参数为多种预设判决结果的文档对应于多个预设主题类别的概率;第一语义分析模块可以具体包括:
分类器参数调入单元,用于调入所述分类器参数;
判决结果概率计算单元,用于根据训练样本库中具有每种预设判决结果的信息文本分别占总信息文本的概率、每种预设判决结果的文档对应于多个预设主题类别的概率和所述待审核的信息文本分别属于所述多个预设主题类别中每个预设主题类别的概率计算所述待审核的信息文本属于每种预设判决结果的概率。
在另一个实施例中,第一类别标识模块可以具体包括:第一类别标签确定单元,用于根据计算出的所述待审核的信息文本属于每种预设判决结果的概率将概率数值较大的预设判决结果作为所述待审核的信息文本的类别标签。
如图6所示,为本发明信息文本过滤系统实施例中信息文本的再学习子系统的结构示意图。相比于上述系统实施例,本实施例中还包括信息文本的再学习子系统,该子系统具体包括:第二预处理模块21、第二文本映射模块22、第二语义分析模块23、第二类别标识模块24、原类别标签调取模块25、类别标签比较模块26和分类器参数调整模块27。
第二预处理模块21用于所述训练样本库中选取的需再学习的信息文本进行预处理,获得所述需再学习的信息文本对应的多个词语。第二文本映射模块22用于调入语义扩展参数表,根据所述多个词语和所述语义扩展参数表将所述需再学习的信息文本从词语空间映射到确定的主题空间。第二语义分析模块23用于调入分类器参数,根据所述分类器参数对所述需再学习的信息文本进行统计语义分析。
第二类别标识模块24用于给出所述需再学习的信息文本对应的新类别标签。原类别标签调取模块25用于从所述训练样本库调取所述需再学习的信息文本对应的原类别标签。类别标签比较模块26用于将所述原类别标签与所述新类别标签进行比较,如果两者符合,则结束所述信息文本的再学习流程。
分类器参数调整模块27用于在原类别标签与新类别标签不符合时,按照预设步长对所述分类器参数进行调整,并基于调整后的分类器参数触发所述第二类别标识模块、原类别标签调取模块和类别标签比较模块,直到原类别标签与新类别标签符合。
如图7所示,为本发明信息文本过滤系统实施例中训练样本库的构建子系统的结构示意图。相比于上述系统实施例,本实施例中还包括训练样本库的构建子系统,该子系统具体包括:第三预处理模块31、关键词匹配模块32、第二类别标签确定模块33和第二入库模块34。
第三预处理模块31用于对待添加的训练信息文本进行预处理。关键词匹配模块32用于调用关键词列表,并根据所述关键词列表对所述待添加的训练信息文本进行遍历匹配,统计所述待添加的训练信息文本分别匹配所述关键词列表中各个关键词的匹配数目。第二类别标签确定模块33用于根据预设的关键词匹配类别标签的规则,确定所述待添加的训练信息文本对应的类别标签,并进行标注。第二入库模块34用于将所述待添加的训练信息文本和标注的类别标签存入所述训练样本库。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。

Claims (14)

1.一种信息文本过滤方法,包括:
对待审核的信息文本进行预处理,获得所述待审核的信息文本对应的多个词语;
调入语义扩展参数表,根据所述多个词语和所述语义扩展参数表将所述待审核的信息文本从词语空间映射到确定的主题空间;
调入分类器参数,根据所述分类器参数对所述待审核的信息文本进行统计语义分析,给出所述待审核的信息文本对应的类别标签,并将所述待审核的信息文本和对应的类别标签存入训练样本库。
2.根据权利要求1所述的信息文本过滤方法,其中在获得所述待审核的信息文本对应的多个词语时,还包括:获得所述多个词语在所述待审核的信息文本中对应的词频。
3.根据权利要求1或2所述的信息文本过滤方法,其中所述语义扩展参数表包括多个预设词语的语义扩展参数,所述语义扩展参数为所述多个预设词语分别在多个预设主题类别的文档中出现的概率;
根据所述多个词语和所述语义扩展参数表将所述待审核的信息文本从词语空间映射到确定的主题空间的操作具体包括:
在所述语义扩展参数表中查询所述多个词语匹配的预设词语分别在所述多个预设主题类别的文档中出现的概率,确定所述多个词语分别在所述多个预设主题类别下对应的概率;
根据所述多个词语分别在所述多个预设主题类别下对应的概率计算所述待审核的信息文本分别属于所述多个预设主题类别中每个预设主题类别的概率。
4.根据权利要求3所述的信息文本过滤方法,其中所述分类器参数包括多个预设主题类别的分类器参数,所述分类器参数为多种预设判决结果的文档对应于多个预设主题类别的概率;
根据所述分类器参数对所述待审核的信息文本进行统计语义分析的操作具体包括:
根据训练样本库中具有每种预设判决结果的信息文本分别占总信息文本的概率、每种预设判决结果的文档对应于多个预设主题类别的概率和所述待审核的信息文本分别属于所述多个预设主题类别中每个预设主题类别的概率计算所述待审核的信息文本属于每种预设判决结果的概率。
5.根据权利要求4所述的信息文本过滤方法,其中所述给出所述待审核的信息文本对应的类别标签的操作具体为:
根据计算出的所述待审核的信息文本属于每种预设判决结果的概率将概率数值较大的预设判决结果作为所述待审核的信息文本的类别标签。
6.根据权利要求5所述的信息文本过滤方法,其中还包括信息文本的再学习流程,具体包括:
对所述训练样本库中选取的需再学习的信息文本进行预处理,获得所述需再学习的信息文本对应的多个词语;
调入语义扩展参数表,根据所述多个词语和所述语义扩展参数表将所述需再学习的信息文本从词语空间映射到确定的主题空间;
调入分类器参数,根据所述分类器参数对所述需再学习的信息文本进行统计语义分析,并给出所述需再学习的信息文本对应的新类别标签;
从所述训练样本库调取所述需再学习的信息文本对应的原类别标签,并将所述原类别标签与所述新类别标签进行比较,如果两者符合,则结束所述信息文本的再学习流程,否则按照预设步长对所述分类器参数进行调整,并基于调整后的分类器参数对所述需再学习的信息文本进行统计语义分析、新类别标签确定和类别标签比较的操作,直到原类别标签与新类别标签符合。
7.根据权利要求5所述的信息文本过滤方法,其中还包括训练样本库的构建流程,具体包括:
对待添加的训练信息文本进行预处理;
调用关键词列表,并根据所述关键词列表对所述待添加的训练信息文本进行遍历匹配,统计所述待添加的训练信息文本分别匹配所述关键词列表中各个关键词的匹配数目;
根据预设的关键词匹配类别标签的规则,确定所述待添加的训练信息文本对应的类别标签,并进行标注;
将所述待添加的训练信息文本和标注的类别标签存入所述训练样本库。
8.一种信息文本过滤系统,包括:
第一预处理模块,用于对待审核的信息文本进行预处理,获得所述待审核的信息文本对应的多个词语;
第一文本映射模块,用于调入语义扩展参数表,根据所述多个词语和所述语义扩展参数表将所述待审核的信息文本从词语空间映射到确定的主题空间;
第一语义分析模块,用于调入分类器参数,根据所述分类器参数对所述待审核的信息文本进行统计语义分析;
第一类别标识模块,用于给出所述待审核的信息文本对应的类别标签;
第一入库单元,用于将所述待审核的信息文本和对应的类别标签存入训练样本库。
9.根据权利要求8所述的信息文本过滤系统,其中所述第一预处理模块还用于在获得所述待审核的信息文本对应的多个词语时,获得所述多个词语在所述待审核的信息文本中对应的词频。
10.根据权利要求8或9所述的信息文本过滤系统,其中所述语义扩展参数表包括多个预设词语的语义扩展参数,所述语义扩展参数为所述多个预设词语分别在多个预设主题类别的文档中出现的概率;
所述第一文本映射模块具体包括:
语义扩展参数表调入单元,用于调入所述语义扩展参数表;
语义扩展参数表查询单元,用于在所述语义扩展参数表中查询所述多个词语匹配的预设词语分别在所述多个预设主题类别的文档中出现的概率,确定所述多个词语分别在所述多个预设主题类别下对应的概率;
主题类别概率确定单元,用于根据所述多个词语分别在所述多个预设主题类别下对应的概率计算所述待审核的信息文本分别属于所述多个预设主题类别中每个预设主题类别的概率。
11.根据权利要求10所述的信息文本过滤系统,其中所述分类器参数包括多个预设主题类别的分类器参数,所述分类器参数为多种预设判决结果的文档对应于多个预设主题类别的概率;
所述第一语义分析模块具体包括:
分类器参数调入单元,用于调入所述分类器参数;
判决结果概率计算单元,用于根据训练样本库中具有每种预设判决结果的信息文本分别占总信息文本的概率、每种预设判决结果的文档对应于多个预设主题类别的概率和所述待审核的信息文本分别属于所述多个预设主题类别中每个预设主题类别的概率计算所述待审核的信息文本属于每种预设判决结果的概率。
12.根据权利要求11所述的信息文本过滤系统,其中所述第一类别标识模块具体包括:
第一类别标签确定单元,用于根据计算出的所述待审核的信息文本属于每种预设判决结果的概率将概率数值较大的预设判决结果作为所述待审核的信息文本的类别标签。
13.根据权利要求12所述的信息文本过滤系统,其中还包括信息文本的再学习子系统,具体包括:
第二预处理模块,用于所述训练样本库中选取的需再学习的信息文本进行预处理,获得所述需再学习的信息文本对应的多个词语;
第二文本映射模块,用于调入语义扩展参数表,根据所述多个词语和所述语义扩展参数表将所述需再学习的信息文本从词语空间映射到确定的主题空间;
第二语义分析模块,用于调入分类器参数,根据所述分类器参数对所述需再学习的信息文本进行统计语义分析;
第二类别标识模块,用于给出所述需再学习的信息文本对应的新类别标签;
原类别标签调取模块,用于从所述训练样本库调取所述需再学习的信息文本对应的原类别标签;
类别标签比较模块,用于将所述原类别标签与所述新类别标签进行比较,如果两者符合,则结束所述信息文本的再学习流程;
分类器参数调整模块,用于在原类别标签与新类别标签不符合时,按照预设步长对所述分类器参数进行调整,并基于调整后的分类器参数触发所述第二类别标识模块、原类别标签调取模块和类别标签比较模块,直到原类别标签与新类别标签符合。
14.根据权利要求12所述的信息文本过滤系统,其中还包括训练样本库的构建子系统,具体包括:
第三预处理模块,用于对待添加的训练信息文本进行预处理;
关键词匹配模块,用于调用关键词列表,并根据所述关键词列表对所述待添加的训练信息文本进行遍历匹配,统计所述待添加的训练信息文本分别匹配所述关键词列表中各个关键词的匹配数目;
第二类别标签确定模块,用于根据预设的关键词匹配类别标签的规则,确定所述待添加的训练信息文本对应的类别标签,并进行标注;
第二入库模块,用于将所述待添加的训练信息文本和标注的类别标签存入所述训练样本库。
CN201310205069.3A 2013-05-29 2013-05-29 信息文本过滤方法及系统 Active CN104216876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310205069.3A CN104216876B (zh) 2013-05-29 2013-05-29 信息文本过滤方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310205069.3A CN104216876B (zh) 2013-05-29 2013-05-29 信息文本过滤方法及系统

Publications (2)

Publication Number Publication Date
CN104216876A true CN104216876A (zh) 2014-12-17
CN104216876B CN104216876B (zh) 2017-11-17

Family

ID=52098382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310205069.3A Active CN104216876B (zh) 2013-05-29 2013-05-29 信息文本过滤方法及系统

Country Status (1)

Country Link
CN (1) CN104216876B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657349A (zh) * 2015-02-11 2015-05-27 厦门美柚信息科技有限公司 一种论坛帖子特征识别方法及装置
CN104657466A (zh) * 2015-02-11 2015-05-27 厦门美柚信息科技有限公司 一种基于论坛帖子特征的用户兴趣识别方法及装置
CN105573968A (zh) * 2015-12-10 2016-05-11 天津海量信息技术有限公司 基于规则的文本标引方法
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置
CN106649338A (zh) * 2015-10-30 2017-05-10 中国移动通信集团公司 信息过滤策略生成方法及装置
CN107133258A (zh) * 2017-03-22 2017-09-05 重庆允升科技有限公司 一种基于选择性集成分类器的数据打标签方法
CN107885723A (zh) * 2017-11-03 2018-04-06 广州杰赛科技股份有限公司 对话角色区分方法和系统
CN108763242A (zh) * 2018-03-26 2018-11-06 广州视源电子科技股份有限公司 标签生成方法及装置
CN108959236A (zh) * 2017-05-19 2018-12-07 百度在线网络技术(北京)有限公司 医学文献分类模型训练方法、医学文献分类方法及其装置
CN109815333A (zh) * 2019-01-14 2019-05-28 金蝶软件(中国)有限公司 信息获取方法、装置、计算机设备和存储介质
CN111078877A (zh) * 2019-12-05 2020-04-28 支付宝(杭州)信息技术有限公司 数据处理、文本分类模型的训练、文本分类方法和装置
CN111277517A (zh) * 2020-01-19 2020-06-12 长沙星融元数据技术有限公司 一种基于可编程交换芯片的汇聚分流方法、装置、存储介质及电子设备
CN112052424A (zh) * 2020-10-12 2020-12-08 腾讯科技(深圳)有限公司 一种内容审核方法及装置
CN113254596A (zh) * 2021-06-22 2021-08-13 湖南大学 基于规则匹配和深度学习的用户质检需求分类方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201835A (zh) * 2007-12-21 2008-06-18 四川大学 应急联动警情自动分类系统
CN101257671A (zh) * 2007-07-06 2008-09-03 浙江大学 基于内容的大规模垃圾短信实时过滤方法
CN101877837A (zh) * 2009-04-30 2010-11-03 华为技术有限公司 一种短信过滤的方法和装置
CN101996241A (zh) * 2010-10-22 2011-03-30 东南大学 一种基于贝叶斯算法的内容过滤方法
CN102065387A (zh) * 2009-11-13 2011-05-18 华为技术有限公司 一种短信的识别方法和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101257671A (zh) * 2007-07-06 2008-09-03 浙江大学 基于内容的大规模垃圾短信实时过滤方法
CN101201835A (zh) * 2007-12-21 2008-06-18 四川大学 应急联动警情自动分类系统
CN101877837A (zh) * 2009-04-30 2010-11-03 华为技术有限公司 一种短信过滤的方法和装置
CN102065387A (zh) * 2009-11-13 2011-05-18 华为技术有限公司 一种短信的识别方法和设备
CN101996241A (zh) * 2010-10-22 2011-03-30 东南大学 一种基于贝叶斯算法的内容过滤方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘东鑫: "基于主题模型的个性化短信过滤技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
张付志等: "基于贝叶斯算法的垃圾邮件过滤技术的研究与改进", 《燕山大学学报》 *
王占一等: "一种基于两级分类器的垃圾短信过滤方法", 《第五届全国信息检索学术会议CCIR2009论文集》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657349A (zh) * 2015-02-11 2015-05-27 厦门美柚信息科技有限公司 一种论坛帖子特征识别方法及装置
CN104657466B (zh) * 2015-02-11 2018-04-17 厦门美柚信息科技有限公司 一种基于论坛帖子特征的用户兴趣识别方法及装置
CN104657349B (zh) * 2015-02-11 2018-07-31 厦门美柚信息科技有限公司 一种论坛帖子特征识别方法及装置
CN104657466A (zh) * 2015-02-11 2015-05-27 厦门美柚信息科技有限公司 一种基于论坛帖子特征的用户兴趣识别方法及装置
CN106649338B (zh) * 2015-10-30 2020-08-21 中国移动通信集团公司 信息过滤策略生成方法及装置
CN106649338A (zh) * 2015-10-30 2017-05-10 中国移动通信集团公司 信息过滤策略生成方法及装置
CN105573968A (zh) * 2015-12-10 2016-05-11 天津海量信息技术有限公司 基于规则的文本标引方法
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置
CN107133258A (zh) * 2017-03-22 2017-09-05 重庆允升科技有限公司 一种基于选择性集成分类器的数据打标签方法
CN108959236A (zh) * 2017-05-19 2018-12-07 百度在线网络技术(北京)有限公司 医学文献分类模型训练方法、医学文献分类方法及其装置
CN108959236B (zh) * 2017-05-19 2021-11-09 百度在线网络技术(北京)有限公司 医学文献分类模型训练方法、医学文献分类方法及其装置
CN107885723B (zh) * 2017-11-03 2021-04-09 广州杰赛科技股份有限公司 对话角色区分方法和系统
CN107885723A (zh) * 2017-11-03 2018-04-06 广州杰赛科技股份有限公司 对话角色区分方法和系统
CN108763242A (zh) * 2018-03-26 2018-11-06 广州视源电子科技股份有限公司 标签生成方法及装置
CN108763242B (zh) * 2018-03-26 2022-03-08 广州视源电子科技股份有限公司 标签生成方法及装置
CN109815333A (zh) * 2019-01-14 2019-05-28 金蝶软件(中国)有限公司 信息获取方法、装置、计算机设备和存储介质
CN111078877A (zh) * 2019-12-05 2020-04-28 支付宝(杭州)信息技术有限公司 数据处理、文本分类模型的训练、文本分类方法和装置
CN111078877B (zh) * 2019-12-05 2023-03-21 支付宝(杭州)信息技术有限公司 数据处理、文本分类模型的训练、文本分类方法和装置
CN111277517A (zh) * 2020-01-19 2020-06-12 长沙星融元数据技术有限公司 一种基于可编程交换芯片的汇聚分流方法、装置、存储介质及电子设备
CN111277517B (zh) * 2020-01-19 2022-06-17 长沙星融元数据技术有限公司 一种基于可编程交换芯片的汇聚分流方法、装置、存储介质及电子设备
CN112052424A (zh) * 2020-10-12 2020-12-08 腾讯科技(深圳)有限公司 一种内容审核方法及装置
CN112052424B (zh) * 2020-10-12 2024-05-28 腾讯科技(深圳)有限公司 一种内容审核方法及装置
CN113254596A (zh) * 2021-06-22 2021-08-13 湖南大学 基于规则匹配和深度学习的用户质检需求分类方法及系统
CN113254596B (zh) * 2021-06-22 2021-10-08 湖南大学 基于规则匹配和深度学习的用户质检需求分类方法及系统

Also Published As

Publication number Publication date
CN104216876B (zh) 2017-11-17

Similar Documents

Publication Publication Date Title
CN104216876A (zh) 信息文本过滤方法及系统
CN108376151B (zh) 问题分类方法、装置、计算机设备和存储介质
CN109597994B (zh) 短文本问题语义匹配方法和系统
CN110826320B (zh) 一种基于文本识别的敏感数据发现方法及系统
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN108536708A (zh) 一种自动问答处理方法及自动问答系统
CN106598959B (zh) 一种确定双语语句对互译关系方法及系统
CN107391760A (zh) 用户兴趣识别方法、装置及计算机可读存储介质
CN110209764A (zh) 语料标注集的生成方法及装置、电子设备、存储介质
CN109960727B (zh) 针对非结构化文本的个人隐私信息自动检测方法及系统
CN106096004A (zh) 一种建立大规模跨领域文本情感倾向性分析框架的方法
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN107844473B (zh) 基于语境相似度计算的词义消歧方法
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN107943824A (zh) 一种基于lda的大数据新闻分类方法、系统及装置
CN110377731A (zh) 投诉文本处理方法、装置、计算机设备及存储介质
CN109783631A (zh) 社区问答数据的校验方法、装置、计算机设备和存储介质
CN113535963A (zh) 一种长文本事件抽取方法、装置、计算机设备及存储介质
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
CN102880631A (zh) 一种基于双层分类模型的中文作者识别方法及其装置
CN108363691A (zh) 一种用于电力95598工单的领域术语识别系统及方法
CN110287341A (zh) 一种数据处理方法、装置以及可读存储介质
CN109933648A (zh) 一种真实用户评论的区分方法和区分装置
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant