CN109376293A - 一种文本信息的过滤方法、装置和电子设备 - Google Patents
一种文本信息的过滤方法、装置和电子设备 Download PDFInfo
- Publication number
- CN109376293A CN109376293A CN201810476419.2A CN201810476419A CN109376293A CN 109376293 A CN109376293 A CN 109376293A CN 201810476419 A CN201810476419 A CN 201810476419A CN 109376293 A CN109376293 A CN 109376293A
- Authority
- CN
- China
- Prior art keywords
- text
- analyzed
- information
- text information
- decision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Abstract
本发明提供一种文本信息的过滤方法,包括先对待分析文本信息进行元数据解析,以降低过滤方法的信息处理规模,提升效率;基于元数据规则、启发式规则、关键词规则和情感分析规则确定决策因子,将决策因子输入决策判定模型,实现对待分析文本的过滤,通过决策判定模型综合评价决策因子对文本信息过滤结果的影响,进一步提高文本过滤结果的准确性;另外,采用启发式规则过滤决策因子可提高文本萃取的速度;采用情感分析规则过滤决策因子,更加准确地确定评论文本的情感倾向,提升文本过滤的准确性;基于关键词规则能够处理复杂场景下的文本信息,提升过滤准确性。本发明还提供了一种文本信息的过滤装置和电子设备。
Description
技术领域
本发明涉及计算机技术领域,具体而言,本发明涉及一种文本信息的过滤方法、装置和电子设备。
背景技术
网络技术的进步,特别新媒体技术的广泛应用,为信息的传播提供了新途径,一方面方便了用户之间的信息交流,但是另一方面也给用户带了困惑,即大量网络用户通过网络发布的评论内容信息中包括不真实、不正确的言论,通过这些言论,网络用户可肆意宣泄自己的情绪,传播负面能量,使评论内容不能客观地反映事件的真实情况,使其他用户对事件的认知产生偏差,进而干扰用户的正常生产和生活。因此,为了降低网络用户评论信息中负能量的影响,维持社会的稳定团结,需要及时发现互联网中的消极信息,以便及时对消极信息做出应对。
目前,信息过滤方法包括关键词、正则表达式和文本分类的过滤方法,关键词过滤是分析文本内容中是否包含待过滤的关键词,具有较快的过滤速度,但是准确率较低;正则表达式采用模糊匹配方法,实现文本内容的关键词过滤,相对于关键词过滤,准确率要高,但是,由于模糊匹配计算量大,文本信息过滤的效率较低;文本分类的过滤方法,需要预先简历完善的分类体系,虽然准确度相对较高,但是需要大量的人工标注,任务繁重,不容易实现,此外,算法的可以复用性较差。
因此,现有技术中的缺陷是:仅基于关键词对文本信息进行过滤,过滤结果不准确,基于正则表达式的模糊关键词对文本信息进行过滤,无法满足对海量文本信息进行实时过滤的需求,基于文本分类匹配进行文本信息的过滤,需要大量人工参与标注文本类别,形成分类体系,导致该方法人力成本过高且准确度不高,实际产品适用性差。
发明内容
本发明的目的旨在至少能解决上述的技术缺陷之一,特别是仅基于关键对文本信息进行过滤,导致过滤结果不准确的技术缺陷。
第一方面,本发明提供一种文本信息的过滤方法,包括如下步骤:
依据待分析文本信息,通过预定的决策模型识别并确定所述待分析文本信息的决策因子;
依据所述决策因子,对所述待分析文本信息进行过滤,得到对所述待分析文本信息的过滤结果。
可选地,所述决策模型包括以下至少一项:
启发式规则、关键词规则和情感分析规则。
可选地,当所述决策模型为启发式规则,所述依据待分析文本信息,通过决策模型识别并确定所述待分析文本信息的决策因子,具体包括:
依据待分析文本信息,识别并确定所述待分析文本信息中与所述启发式规则相匹配的启发式信息,所述启发式信息为所述待分析文本信息的决策因子。
可选地,所述依据待分析文本信息,识别并确定所述待分析文本信息中与所述启发式规则相匹配的启发式信息,具体包括:
依据所述启发式规则,采用正则表达式匹配算法处理所述待分析文本信息,确定所述待分析文本信息中与所述启发式规则相匹配的文本片段在所述待分析文本信息中的位置及规则索引;
依据与所述启发式规则相匹配的文本片段在所述待分析文本信息中的位置及规则索引,识别出所述待分析文本信息中的启发式信息。
可选地,当所述决策模型为关键词规则,所述依据待分析文本信息,通过决策模型识别并确定所述待分析文本信息的决策因子,具体包括:
依据待分析文本信息,识别所述待分析文本信息中与所述关键词规则相匹配的关键词,所述关键词为所述待分析文本信息的决策因子。
可选地,所述依据待分析文本信息,识别所述待分析文本信息中与所述关键词规则相匹配的关键词,具体包括:
提取所述待分析文本信息中的所有关键词,建立匹配模式树;
从所述匹配模式树中确定待处理关键词;
从所述待处理关键词中确定与所述关键词规则相匹配的关键词。
可选地,当所述决策模型为情感分析规则,所述依据待分析文本信息,通过决策模型识别并确定所述待分析文本信息的决策因子,具体包括:
依据待分析文本信息,通过所述情感分析规则识别并确定所述待分析文本信息的情感倾向,所述情感倾向为所述待分析文本信息的决策因子。
可选地,所述待分析文本包括评论文本和正文文本。
可选地,所述依据待分析文本信息,通过所述情感分析规则识别并确定所述待分析文本信息的情感倾向,具体包括:
依据待分析文本信息,通过所述情感分析规则识别并确定所述待分析文本信息中评论文本相对于正文文本的情感倾向。
可选地,所述依据待分析文本信息,通过所述情感分析规则识别并确定所述待分析文本信息中评论文本相对于正文文本的情感倾向,具体包括:
依据待分析文本信息中的正文文本,确定所述正文文本相对于第一实体词的第一情感倾向,所述第一实体词为依据关键词在所述正文文本中包含所述关键词的段落文本中提取的实体词,所述实体词为名词或代词;
依据待分析文本信息中的评论文本,确定所述评论文本相对于第二实体词的第二情感倾向,所述第二实体词为依据关键词在所述评论文本中包含所述关键词的段落文本中提取的实体词,所述实体词为名词或代词;
依据所述第一情感倾向和第二情感倾向,通过预设情感规则确定所述待分析文本信息中评论文本相对于正文文本的情感倾向。
可选地,所述依据待分析文本信息中的正文文本,确定所述正文文本相对于第一实体词的第一情感倾向,具体包括:
依据关键词,在所述正文文本中确定包含所述关键词的段落文本;
识别所述段落文本中的第一实体词;
确定所述正文文本中的所有第一实体词、与所有第一实体词相关的情感词及所述情感词和第一实体词的位置关系;
依据所述正文文本中的所有第一实体词、与所有第一实体词相关的情感词及所述情感词和第一实体词的位置关系,计算所述正文文本相对于所述第一实体词的第一情感倾向。
可选地,所述依据待分析文本信息中的评论文本,确定所述评论文本相对于第二实体词的第一情感倾向,具体包括:
依据关键词,在所述正文文本中确定包含所述关键词的段落文本;
识别所述段落文本中的第二实体词;
确定所述评论文本中的所有第二实体词、与所有第二实体词相关的情感词及所述情感词和第二实体词的位置关系;
依据所述评论文本中的所有第二实体词、与所有第二实体词相关的情感词及所述情感词和第二实体词的位置关系,计算所述评论文本相对于所述第二实体词的第二情感倾向。
可选地,所述依据待分析文本信息,通过决策模型识别并确定所述待分析文本信息的决策因子之前,还包括:
对待分析文本信息进行解析,得到元数据信息;
其中,所述依据待分析文本信息,通过决策模型识别并确定所述待分析文本信息的决策因子,具体包括:
对待分析文本信息进行解析,得到元数据信息;
依据所述元数据信息,通过决策模型识别并确定所述元数据信息的决策因子。
可选地,当所述决策模型为所述启发式规则、关键词规则和情感分析规则中的至少两项时;所述依据待分析文本信息,通过决策模型识别并确定所述待分析文本信息的决策因子中包括至少两项决策因子;
所述依据所述决策因子,对所述待分析文本信息进行过滤,得到对所述待分析文本信息的过滤结果,具体包括:
将至少两项决策因子输入至决策判定模型,对所述待分析文本信息进行过滤,得到对所述待分析文本信息的过滤结果。
可选地,所述依据待分析文本信息,通过决策模型识别并确定所述待分析文本信息的决策因子之前,还包括:
对待分析文本信息进行解析,得到元数据信息;
所述决策模型还包括元数据规则,所述依据待分析文本信息,通过决策模型识别并确定所述待分析文本信息的决策因子,具体包括:
依据所述元数据信息,通过所述元数据规则对所述元数据信息进行分析,得到元数据分析结果,所述元数据分析结果为所述元数据信息的决策因子。
可选地,所述依据所述元数据信息,通过所述元数据规则对所述元数据信息进行分析,得到元数据分析结果,具体包括:
对所述元数据信息进行数量化处理;
将数量化处理后的元数据信息映射到一个多维空间中,得到元数据分析结果。
可选地,当所述决策模型为所述启发式规则、关键词规则、情感分析规则和元数据规则中的至少两项时;所述依据待分析文本信息,通过决策模型识别并确定所述待分析文本信息的决策因子中包括至少两项决策因子;
所述依据所述决策因子,对所述待分析文本信息进行过滤,得到对所述待分析文本信息的过滤结果,具体包括:
将至少两项决策因子输入至决策判定模型,对所述待分析文本信息进行过滤,得到对所述待分析文本信息的过滤结果。
可选地,所述元数据信息包括以下至少一项:
所述待分析文本的统一资源定位符URL信息、发布网站信息、转发网站信息、正文信息、评论信息、正文的评论信息、参与人数信息及评论的点赞数信息。
第二方面,本发明还提供一种文本信息的过滤装置,其包括:
决策因子确定单元,用于依据待分析文本信息,通过预定的决策模型识别并确定所述待分析文本信息的决策因子;
文本过滤单元,用于依据所述决策因子,对所述待分析文本信息进行过滤,得到对所述待分析文本信息的过滤结果。
第三方面,本发明还提供一种电子设备,包括:存储器,用于存储可执行程序;处理器,用于执行所述存储器中存储的所述可执行程序时,实现上述第一方面所述的方法。
第四方面,本发明还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述第一方面所述方法的步骤。
本发明的优点:本发明中对待分析文本信息进行过滤,先依据待分析文本信息,通过预定的决策模型识别并确定待分析文本信息的决策因子;由于预设的决策模型是基于用户关注的信息预先建立的,因此,从待分析文本信息中识别出的决策因子表示该决策因子所对应的信息是待分析文本信息中符合决策模型的用户关注的信息;然后,在识别出待分析文本信息中的决策因子后,依据所述决策因子,对所述待分析文本信息进行过滤,得到对所述待分析文本信息的过滤结果;由此,依据决策因子从待分析文本信息中过滤出的信息是用户关注的信息,且由于待分析文本信息中包含的决策因子不只有关键词,可使得待分析文本信息的过滤结果更加准确。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明提供的一种文本信息的过滤方法第一实施例的方法流程图;
图2为本发明提供的一种文本信息的过滤方法第二实施例的第一方法流程图;
图3为本发明提供的一种文本信息的过滤方法第二实施例的第二方法流程图;
图4为本发明提供的一种文本信息的过滤方法第二实施例的第三方法流程图;
图5为本发明提供的一种文本信息的过滤方法第三实施例的第一方法流程图;
图6为本发明提供的一种文本信息的过滤方法第三实施例的第二方法流程图;
图7为本发明提供的一种文本信息的过滤装置的结构示意图;
图8为本发明提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通讯链路上,执行双向通讯的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通讯设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通讯设备;PCS(Personal Communications Service,个人通讯系统),其可以组合语音、数据处理、传真和/或数据通讯能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通讯终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
第一方面,下面对本发明提供的一种文本信息的过滤方法的第一实施例进行介绍,参见图1所示,本实施例中方法包括:
步骤101,依据待分析文本信息,通过预定的决策模型识别并确定待分析文本信息的决策因子;
步骤102,依据决策因子,对待分析文本信息进行过滤,得到对待分析文本信息的过滤结果。
由此,本实施例中记载的方案,对待分析文本信息进行过滤,先依据待分析文本信息,通过预定的决策模型识别并确定待分析文本信息的决策因子;由于预设的决策模型是基于用户关注的信息预先建立的,因此,从待分析文本信息中识别出的决策因子表示该决策因子所对应的信息是待分析文本信息中符合决策模型的用户关注的信息;然后,在识别出待分析文本信息中的决策因子后,依据决策因子,对待分析文本信息进行过滤,得到对待分析文本信息的过滤结果;由此,依据决策因子从待分析文本信息中过滤出的信息是用户关注的信息,且由于待分析文本信息中包含的决策因子不只有关键词,可使得待分析文本信息的过滤结果更加准确。
下面对本发明提供的一种文本信息的过滤方法的第二实施例进行介绍:
基于实施例一中记载的方案,为了进一步提高待分析文本信息过滤结果的准确性,作为本发明的优选实施例,决策模型包括以下至少一项:
启发式规则、关键词规则和情感分析规则。
具体地,决策模型是基于待分析文本信息中的关键信息建立的,包括启发式规则、关键词规则和情感分析规则,基于不同的关键信息建立不同的决策模型,可使得基于决策模型提取待分析文本信息得到的决策因子更丰富。
作为本发明的优选实施例,当决策模型为启发式规则,依据待分析文本信息,通过决策模型识别并确定待分析文本信息的决策因子,具体包括:
依据待分析文本信息,识别并确定待分析文本信息中与启发式规则相匹配的启发式信息,启发式信息为待分析文本信息的决策因子。
基于此,参见图2,该方法具体包括:
步骤201,依据待分析文本信息,识别并确定待分析文本信息中与启发式规则相匹配的启发式信息;
步骤202,依据启发式信息,对待分析文本信息进行过滤,得到对待分析文本信息的过滤结果。
具体地,启发式信息是指待分析文本信息中与启发式规则相匹配的信息,比如在新闻的报道中,在新闻首段位置经常会用“据XX电”、“据XX报道”之类的短语表达式;将此短语表达式作为启发式规则,基于此启发式规则可过滤出该新闻报道信息中与“据XX电”、“据XX报道”相匹配的信息,即为启发式信息。
优选地,依据待分析文本信息,识别并确定待分析文本信息中与启发式规则相匹配的启发式信息,具体包括:
依据启发式规则,采用正则表达式匹配算法处理待分析文本信息,确定待分析文本信息中与启发式规则相匹配的文本片段在待分析文本信息中的位置及规则索引;
依据与启发式规则相匹配的文本片段在待分析文本信息中的位置及规则索引,识别出待分析文本信息中的启发式信息。
接上例,启发式规则是基于启发式信息建立的正则匹配规则,基于正则匹配规则识别待分析文本信息中的启发式信息。比如:据AAA10月10电,据AAA上海10月10日电等类似的短语表达式,其正则匹配规则为“(据AAA[\\s\\S]{0,10}[0-9]{1,2}月[0-9]{1,2}日电)”。基于建立的正则匹配规则,先采用正则表达式匹配算法处理待分析文本信息,确定待分析文本信息中与启发式规则“(据AAA[\\s\\S]{0,10}[0-9]{1,2}月[0-9]{1,2}日电)”相匹配的文本片段在待分析文本信息中的位置及规则索引;然后依据与启发式规则相匹配的文本片段在待分析文本信息中的位置及规则索引,识别出待分析文本信息中的启发式信息,比如识别出的启发式信息为:“据AAA10月10电”。
作为本发明的优选实施例,当决策模型为关键词规则,依据待分析文本信息,通过决策模型识别并确定待分析文本信息的决策因子,具体包括:
依据待分析文本信息,识别并确定待分析文本信息中与关键词规则相匹配的关键词,关键词为待分析文本信息的决策因子。
基于此,参见图3,该方法具体包括:
步骤301,依据待分析文本信息,识别并确定待分析文本信息中与关键词规则相匹配的关键词。
步骤302,依据关键词,对待分析文本信息进行过滤,得到对待分析文本信息的过滤结果。
具体地,关键词识别是在关键词规则的基础上,对待分析文本信息进行匹配,确定待分析文本信息中的关键词。关键词规则是基于关键词及关键词之间的逻辑关系建立的规则,关键词是指用户关注的字、词或短语,逻辑关系是指关键词之间的与或非关系,以此建立的关键词规则能够识别场景比较复杂的文本信息中的关键词,进而提高待分析文本信息过滤结果的准确度。比如要识别包含“牛弹琴”而不是“对牛弹琴”的关键词,可以建立如下关键词规则:(牛弹琴)&(!对牛弹琴),&表示前后两个同时出现,!表示不出现;则基于建立的关键词规则识别并确认待分析文本信息中符合上述“(牛弹琴)&(!对牛弹琴)”规则的关键词。
优选地,依据待分析文本信息,识别待分析文本信息中与关键词规则相匹配的关键词,具体包括:
提取待分析文本信息中的所有关键词,建立匹配模式树;
从匹配模式树中确定待处理关键词;
从待处理关键词中确定与关键词规则相匹配的关键词。
具体地,提取待分析文本信息中的所有关键词,建立匹配模式树;匹配模式树用来存储待分析文本信息中的所有关键词;从匹配模式树中确定待处理关键词,接上例,比如基于关键词规则“(牛弹琴)&(!对牛弹琴)”,在待分析文本信息中识别并确定关键词“牛弹琴”,首先要在待分析文本信息中的所有关键词中匹配到待处理关键词牛弹琴、对牛弹琴和其他包含牛弹琴的关键词;然后从待处理关键词中确定与关键词规则“(牛弹琴)&(!对牛弹琴)相匹配的关键词“牛弹琴”。
作为本发明的优选实施例,当决策模型为情感分析规则,依据待分析文本信息,通过决策模型识别并确定待分析文本信息的决策因子,具体包括:
依据待分析文本信息,通过情感分析规则识别并确定待分析文本信息的情感倾向,情感倾向为待分析文本信息的决策因子。
基于此,参见图4,该方法具体包括:
步骤401,依据待分析文本信息,通过情感分析规则识别并确定待分析文本信息的情感倾向。
步骤402,依据情感倾向,对待分析文本信息进行过滤,得到对待分析文本信息的过滤结果。
优选地,待分析文本包括评论文本和正文文本。
优选地,依据待分析文本信息,通过情感分析规则识别并确定待分析文本信息的情感倾向,具体包括:
依据待分析文本信息,通过情感分析规则识别并确定待分析文本信息中评论文本相对于正文文本的情感倾向。
具体地,识别并确定待分析文本信息的情感倾向是基于待分析文本信息中的正文文本和评论文本,确定评论文本相对于正文文本的情感倾向。比如,有关一个产品的待分析文本信息中包括对该产品的负面评价内容,如果评论文本中对于该负面评价内容表示认同,那么对于该产品来说,评论文本相对于正文文本的情感倾向是负面情感,如果不考虑正文文本的情感倾向,该评论文本的情感倾向是正面情感。因此,要考虑评论文本相对于正文文本的情感倾向,进而基于情感倾向对待分析文本信息进行过滤,有效提升了对评论文本过滤准确的准确性,进一步提高了对待分析文本信息过滤的准确性。
优选地,依据待分析文本信息,通过情感分析规则识别并确定待分析文本信息中评论文本相对于正文文本的情感倾向,具体包括:
依据待分析文本信息中的正文文本,确定正文文本相对于第一实体词的第一情感倾向,第一实体词为依据关键词在正文文本中包含关键词的段落文本中提取的实体词,实体词为名词或代词;
依据待分析文本信息中的评论文本,确定评论文本相对于第二实体词的第二情感倾向,第二实体词为依据关键词在评论文本中包含关键词的段落文本中提取的实体词,实体词为名词或代词;
依据第一情感倾向和第二情感倾向,通过预设情感规则确定待分析文本信息中评论文本相对于正文文本的情感倾向。
具体地,基于情感分析规则过滤待分析文本信息,具体是通过分析关键词前后一定范围内的负面词汇、疑问词及标点符号进行待分析文本信息的情感分析。正文文本和评论文本之间的预设情感规则存在以下几种:正文文本的情感为正面,评论文本的情感为负面,则评论文本相对于正文文本的情感倾向为负面情感,而当正文文本的情感为负面,评论文本的情感为正面时,评论文本相对于正文文本的情感倾向是负面情感,相反评论文本相对于正文文本的情感倾向为正面情感。以上述正文文本和评论文本之间的情感联系建立情感分析规则,基于此情感分析规则识别并确认待分析文本信息中评论文本相对于正文文本的情感倾向,通过正文文本和评论文本情感的关联分析,更能准确确定评论文本的情感倾向,进而准确确定评论文本相对于正文文本的情感倾向,进一步使得基于情感倾向过滤的待分析文本信息过滤结果更准确。
进一步优选地,依据待分析文本信息中的正文文本,确定正文文本相对于第一实体词的第一情感倾向,具体包括:
依据关键词,在正文文本中确定包含关键词的段落文本;
识别段落文本中的第一实体词;
确定正文文本中的所有第一实体词、与所有第一实体词相关的情感词及情感词和第一实体词的位置关系;
依据正文文本中的所有第一实体词、与所有第一实体词相关的情感词及情感词和第一实体词的位置关系,计算正文文本相对于第一实体词的第一情感倾向。
进一步优选地,依据待分析文本信息中的评论文本,确定评论文本相对于第二实体词的第一情感倾向,具体包括:
依据关键词,在正文文本中确定包含关键词的段落文本;
识别段落文本中的第二实体词;
确定评论文本中的所有第二实体词、与所有第二实体词相关的情感词及情感词和第二实体词的位置关系;
依据评论文本中的所有第二实体词、与所有第二实体词相关的情感词及情感词和第二实体词的位置关系,计算评论文本相对于第二实体词的第二情感倾向。
具体地,先依据关键词在正文文本中或评论文本中定位包含该关键词的段落文本,即该关键词前后的一定范围的段落文本;然后在该段落文本中识别出实体词(正文文本中的实体词为第一实体词,评论文本中的实体词为第二实体词),比如用户感兴趣的明星名字,某一热点事件名称等;接着确定正文文本或评论文本中的所有实体词、与所有实体词相关的情感词及情感词和实体词的位置关系;实体词相关的情感词和情感词和实体词的位置关系均反应了与实体词的情感关系,因此基于所有实体词、与所有实体词相关的情感词及情感词和实体词的位置关系,可计算出评论文本相对于实体词的情感倾向。
由此,本实施例中记载的方案,基于启发式规则识别出待分析文本信息中的启发式信息,启发式规则是基于常用表达式建立的,通过常用表达式识别出待分析文本信息中的启发式信息,可过滤出待分析文本信息中的符合启发式规则的决策因子,不必采用语义计算、文本相似度计算等复杂的计算方法来识别并确定待分析文本信息中的决策因子,进而提高待分析文本信息的过滤效率;进一步地,基于关键词规则识别出待分析文本信息中的关键词,关键词规则是基于用户关注信息中的关键词建立的,基于关键词规则识别出待分析文本信息中的关键词,可过滤出待分析文本信息中的符合关键词规则的决策因子,基于此决策因子可过滤出待分析文本信息中与关键词相关的用户关注信息;进一步地,基于情感分析规则识别出待分析文本信息中的情感倾向,基于情感倾向对待分析文本信息进行过滤,实现了对待分析文本信息中具有情感倾向的内容的过滤,进而能够更加准确地确定待分析文本信息的过滤结果,提升待分析文本信息过滤结果的准确性。
下面对本发明提供的一种文本信息的过滤方法的第三实施例进行介绍:
基于上述实施例中记载的方案,为了进一步提高待分析文本信息过滤效率,作为本发明的优选实施例,依据待分析文本信息,通过决策模型识别并确定待分析文本信息的决策因子之前,还包括:
对待分析文本信息进行解析,得到元数据信息;
其中,依据待分析文本信息,通过决策模型识别并确定待分析文本信息的决策因子,具体包括:
对待分析文本信息进行解析,得到元数据信息;
依据元数据信息,通过决策模型识别并确定元数据信息的决策因子。
其中,元数据信息包括以下至少一项:
待分析文本的统一资源定位符URL信息、发布网站信息、转发网站信息、正文信息、评论信息、正文的评论信息、参与人数信息及评论的点赞数信息。
具体地,对于待分析文本信息,在本实施例中,可先对待分析文本信息进行解析,得到元数据信息,然后再对元数据信息进行识别,得到决策因子,而不是直接对待分析文本信息进行识别,得到决策因子,由于元数据信息中包含用于过滤用户关注或是需要的信息的隐含规则,因此,对元数据信息进行识别得到决策因子,相较于对待分析文本信息进行识别得到决策因子,先从待分析文本中筛选出的元数据信息,再对元数据信息进行识别处理,能够有效降低需要处理的数据规模,从而提高过滤效率。
具体地,待分析文本信息是通过网络爬虫获取到的信息,从待分析文本信息中解析出的信息包括统一资源定位符URL信息、发布网站信息、转发网站信息、正文信息、评论信息、正文的评论信息、参与人数信息及评论的点赞数信息等,这些信息均与用户关注或需要的信息有直接关联,进一步地,通过对元数据信息进行分析得到决策因子的处理方式,能够有效降低需要处理的数据规模,从而提高了过滤效率。
作为本发明的优选实施例,依据待分析文本信息,通过决策模型识别并确定待分析文本信息的决策因子之前,还包括:
对待分析文本信息进行解析,得到元数据信息;
决策模型还包括元数据规则,依据待分析文本信息,通过决策模型识别并确定待分析文本信息的决策因子,具体包括:
依据元数据信息,通过元数据规则对元数据信息进行分析,得到元数据分析结果,元数据分析结果为元数据信息的决策因子。
进一步优选地,依据元数据信息,通过元数据规则对元数据信息进行分析,得到元数据分析结果,具体包括:
对元数据信息进行数量化处理;
将数量化处理后的元数据信息映射到一个多维空间中,得到元数据分析结果。
接上例,将待分析文本信息解析成元数据信息,基于元数据规则对元数据信息进行识别,确定元数据信息中的元数据分析结果,作为元数据信息的决策因子,具体地,是对元数据信息进行数量化处理,将处理后的元数据信息映射到一个多维空间中,比如现设定:
S={U,W,T,T/C,CCOUNT,HCOUNT,CTOP}
其中,S表示文本映射的多维空间,U表示用户关注的URL信息,W表示用户关注的发布网站信息,T表示用户关注信息的转发网站信息,T/C表示文本是正文信息还是评论信息,CCOUNT表示正文文本的评论条数,HCOUNT表示参与人数信息,CTOP表示评论文本的点赞数信息。
具体举例说明,比如对于一条新的文本信息,如果其URL属于用户关注的URL,发布网站也属于用户关注的发布网站信息,转发网站也属于用户关注的转发网站信息,该条文本为正文内容,评论条数为100条,参与人数为90人,那么该条信息在S空间的映射为:
S={1,1,1,1,100,90,0}
由此,本实施例中记载的方案,对待分析文本信息进行解析,得到元数据信息,由于元数据信息是与用户关注内容直接相关的信息,因此,基于元数据信息进行决策因子的识别分析,可提高数据处理效率,进而提高对待分析文本信息的过滤效率;进一步地,通过对元数据信息进行分析得到的元数据分析结果,由于元数据分析结果与用户关注和需求的信息直接相关,因此,可基于元数据分析结果初步判定该元数据信息中包含的信息是否是用户所关注,所需要的信息,可实现对待分析文本信息的初步过滤。
下面对本发明提供的一种文本信息的过滤方法的第三实施例进行介绍:
基于上述实施例中记载的方案,为了进一步提高待分析文本信息过滤结果的准确性,作为本发明的优选实施例,当决策模型为启发式规则、关键词规则和情感分析规则中的至少两项时;依据待分析文本信息,通过决策模型识别并确定待分析文本信息的决策因子中包括至少两项决策因子;
依据决策因子,对待分析文本信息进行过滤,得到对待分析文本信息的过滤结果,具体包括:
将至少两项决策因子输入至决策判定模型,对待分析文本信息进行过滤,得到对待分析文本信息的过滤结果。
参见图5,本实施例的方案具体为:
步骤501,依据待分析文本信息,分别通过启发式规则、关键词规则和情感分析规则识别并确定待分析文本信息中的启发式信息、关键词和情感倾向。
步骤502,将启发式信息、关键词和情感倾向中至少两项输入至决策判定模型,对待分析文本信息进行过滤,得到对待待分析文本信息的过滤结果。
具体地,对于待分析文本信息,基于启发式规则、关键词规则和情感分析规则分别识别待分析文本信息中的决策因子,得到三个决策因子,分别为启发式信息、关键词和情感倾向,将这三个决策因子中的至少两项输入到决策判定模型中,通过决策判定模型对待分析文本信息进行过滤,得到待分析文本信息的过滤结果,即确定待分析文本信息中用户关注的内容;由于每个决策因子均是与用户关注的内容相关的信息,因此,基于各个决策因子对待分析文本信息进行过滤,可提高待分析文本信息过滤结果的准确性。
具体地,决策判定模型是基于启发式信息、关键词和情感倾向建立的决策树,通过决策树对各个决策因子进行综合评价,使得输出的待分析文本信息的过滤结果更准确。
具体地,决策判定模型的建立过程为:
首先,确定属性空间,属性空间中包括多个决策属性,具体地,多个决策属性包括启发式信息、关键词和情感倾向;
构建决策树,具体过程为:分别选取一定量正样本和负样本组成训练集,然后采用C4.5算法构建决策树;其中正样本为决策属性中的至少一项,负样本为非决策属性,比如非启发式信息,非关键词;即与用户关注信息不相关的信息。
最终基于构建的决策树对待分析文本信息进行过滤定的具体过程为:将待处理文本信息的决策因子,即启发式信息、关键词和情感倾向,分别与决策树进行比较,直到比较到决策树的叶子节点停止比较,实现对待处理文本信息的过滤。
作为本发明的优选实施例,基于上述三个决策因子中的至少两项输入到决策判定模型,本实施例中进一步地将元数据分析结果作为决策因子,结合上述三个决策因子,将四个决策因子中的至少两项输入到决策判定模型中,对待分析文本信息进行过滤,使待分析文本信息的过滤结果更加准确。
具体地,当决策模型为启发式规则、关键词规则、情感分析规则和元数据规则中的至少两项时;依据待分析文本信息,通过决策模型识别并确定待分析文本信息的决策因子中包括至少两项决策因子;
依据决策因子,对待分析文本信息进行过滤,得到对待分析文本信息的过滤结果,具体包括:
将至少两项决策因子输入至决策判定模型,对待分析文本信息进行过滤,得到对待分析文本信息的过滤结果。
参见图6,结合上述实施例中的方案,本实施例的优选方案具体为:
步骤601,对待分析文本信息进行解析,得到元数据信息。
步骤602,依据元数据信息,分别通过决策模型、启发式规则、关键词规则和情感分析规则识别并确认元数据信息中的元数据分析结果、启发式信息、关键词和情感倾向。
步骤603,将元数据分析结果、启发式信息、关键词和情感倾向中至少两项输入至决策判定模型,对待分析文本信息进行过滤,得到对待分析文本信息的过滤结果。
由此,本实施例中记载的方案,由于基于元数据分析结果、启发式信息、关键词和情感倾向四个决策因子,将此四个决策因子中的至少两项输入决策判定模型,由于每个决策因子对于待分析文本信息过滤准确性的影响程度不同,因此,基于决策判定模型对各个决策因子进行判断,其中符合决策判定模型的决策因子越多,表示待分析文本信息的过滤结果越准确,即过滤出的信息更符合用户所关注的信息。
第二方面,下面对本发明提供的一种文本信息的过滤装置的实施例进行介绍,参见图7所示,本实施例中装置包括:
决策因子确定单元701,用于依据待分析文本信息,通过预定的决策模型识别并确定待分析文本信息的决策因子;
文本过滤单元702,用于依据决策因子,对待分析文本信息进行过滤,得到对待分析文本信息的过滤结果。
由此,本实施例中记载的方案,对待分析文本信息进行过滤,先依据待分析文本信息,通过预定的决策模型识别并确定待分析文本信息的决策因子;由于预设的决策模型是基于用户关注的信息预先建立的,因此,从待分析文本信息中识别出的决策因子表示该决策因子所对应的信息是待分析文本信息中符合决策模型的用户关注的信息;然后,在识别出待分析文本信息中的决策因子后,依据决策因子,对待分析文本信息进行过滤,得到对待分析文本信息的过滤结果;由此,得到的待分析文本信息的过滤结果是依据决策因子从待分析文本信息中过滤出的用户关注的信息,且由于待分析文本信息中包含的决策因子不只有关键词,可使得待分析文本信息的过滤结果更加准确。
作为本发明的优选实施例,决策模型包括以下至少一项:
启发式规则、关键词规则和情感分析规则。
具体地,决策模型是基于待分析文本信息中的关键信息建立的,包括启发式规则、关键词规则和情感分析规则,基于不同的关键信息建立不同的决策模型,可使得基于决策模型提取待分析文本信息得到的决策因子更丰富。
作为本发明的优选实施例,当决策模型为启发式规则,决策因子确定单元701中包括启发式识别子单元,具体用于:依据待分析文本信息,通过决策模型识别并确定待分析文本信息的决策因子,具体包括:
依据待分析文本信息,识别并确定待分析文本信息中与启发式规则相匹配的启发式信息,启发式信息为待分析文本信息的决策因子。
更优选地,启发式识别子单元中,依据待分析文本信息,识别并确定待分析文本信息中与启发式规则相匹配的启发式信息,具体包括:
依据启发式规则,采用正则表达式匹配算法处理待分析文本信息,确定待分析文本信息中与启发式规则相匹配的文本片段在待分析文本信息中的位置及规则索引;
依据与启发式规则相匹配的文本片段在待分析文本信息中的位置及规则索引,识别出待分析文本信息中的启发式信息。
作为本发明的优选实施例,当决策模型为关键词规则,决策因子确定单元701中包括关键词识别子单元,具体用于:依据待分析文本信息,通过决策模型识别并确定待分析文本信息的决策因子,具体包括:
依据待分析文本信息,识别待分析文本信息中与关键词规则相匹配的关键词,关键词为待分析文本信息的决策因子。
更优选地,关键词识别子单元中,依据待分析文本信息,识别待分析文本信息中与关键词规则相匹配的关键词,具体包括:
提取待分析文本信息中的所有关键词,建立匹配模式树;
从匹配模式树中确定待处理关键词;
从待处理关键词中确定与关键词规则相匹配的关键词。
作为本发明的优选实施例,当决策模型为情感分析规则,决策因子确定单元701中包括情感识别子单元,具体用于:依据待分析文本信息,通过决策模型识别并确定待分析文本信息的决策因子,具体包括:
依据待分析文本信息,通过情感分析规则识别并确定待分析文本信息的情感倾向,情感倾向为待分析文本信息的决策因子。
优选地,待分析文本包括评论文本和正文文本。
优选地,情感识别子单元,具体用于:依据待分析文本信息,通过情感分析规则识别并确定待分析文本信息的情感倾向,具体包括:
依据待分析文本信息,通过情感分析规则识别并确定待分析文本信息中评论文本相对于正文文本的情感倾向。
具体地,识别并确定待分析文本信息的情感倾向是基于待分析文本信息中的正文文本和评论文本,确定评论文本相对于正文文本的情感倾向。比如,有关一个产品的待分析文本信息中包括对该产品的负面评价内容,如果评论文本中对于该负面评价内容表示认同,那么对于该产品来说,评论文本相对于正文文本的情感倾向是负面情感,如果不考虑正文文本的情感倾向,该评论文本的情感倾向是正面情感。因此,对于待分析文本信息的过滤中,考虑评论文本相对于正文文本的情感倾向,进而基于情感倾向对待分析文本信息进行过滤,有效提升了对评论文本过滤的准确性,进一步提高了对待分析文本信息过滤的准确性。
优选地,情感识别子单元具体用于依据待分析文本信息,通过情感分析规则识别并确定待分析文本信息中评论文本相对于正文文本的情感倾向,具体包括:
依据待分析文本信息中的正文文本,确定正文文本相对于第一实体词的第一情感倾向,第一实体词为依据关键词在正文文本中包含关键词的段落文本中提取的实体词,实体词为名词或代词;
依据待分析文本信息中的评论文本,确定评论文本相对于第二实体词的第二情感倾向,第二实体词为依据关键词在评论文本中包含关键词的段落文本中提取的实体词,实体词为名词或代词;
依据第一情感倾向和第二情感倾向,通过预设情感规则确定待分析文本信息中评论文本相对于正文文本的情感倾向。
具体地,基于情感分析规则过滤待分析文本信息,具体是通过分析关键词前后一定范围内的负面词汇、疑问词及标点符号进行待分析文本信息的情感分析。正文文本和评论文本之间的情感联系存在以下几种:正文文本的情感为正面,评论文本的情感为负面,则评论文本相对于正文文本的情感倾向为负面情感,而当正文文本的情感为负面,评论文本的情感为正面时,评论文本相对于正文文本的情感倾向是负面情感,相反评论文本相对于正文文本的情感倾向为正面情感。以上述正文文本和评论文本之间的情感联系建立情感分析规则,基于此情感分析规则识别并确认待分析文本信息中评论文本相对于正文文本的情感倾向,通过正文文本和评论文本情感的关联分析,更能准确确定评论文本的情感倾向,进而准确确定评论文本相对于正文文本的情感倾向,进一步使得基于情感倾向过滤的待分析文本信息过滤结果更准确。
进一步优选地,情感识别子单元,具体用于:依据待分析文本信息中的正文文本,确定正文文本相对于第一实体词的第一情感倾向,具体包括:
依据关键词,在正文文本中确定包含关键词的段落文本;
识别段落文本中的第一实体词;
确定正文文本中的所有第一实体词、与所有第一实体词相关的情感词及情感词和第一实体词的位置关系;
依据正文文本中的所有第一实体词、与所有第一实体词相关的情感词及情感词和第一实体词的位置关系,计算正文文本相对于第一实体词的第一情感倾向。
进一步优选地,情感识别子单元,具体用于:依据待分析文本信息中的评论文本,确定评论文本相对于第二实体词的第一情感倾向,具体包括:
依据关键词,在正文文本中确定包含关键词的段落文本;
识别段落文本中的第二实体词;
确定评论文本中的所有第二实体词、与所有第二实体词相关的情感词及情感词和第二实体词的位置关系;
依据评论文本中的所有第二实体词、与所有第二实体词相关的情感词及情感词和第二实体词的位置关系,计算评论文本相对于第二实体词的第二情感倾向。
具体地,先依据关键词在正文文本中或评论文本中定位包含该关键词的段落文本,即该关键词前后的一定范围的段落文本;然后在该段落文本中识别出实体词(正文文本中的实体词为第一实体词,评论文本中的实体词为第二实体词),比如用户感兴趣的明星名字,某一热点事件名称等;接着确定正文文本或评论文本中的所有实体词、与所有实体词相关的情感词及情感词和实体词的位置关系;实体词相关的情感词和情感词和实体词的位置关系均反应了与实体词的情感关系,因此,基于所有实体词、与所有实体词相关的情感词及情感词和实体词的位置关系,可计算出评论文本相对于实体词的情感倾向。
作为本发明的优选实施例,决策因子确定单元701之前还包括元数据识别单元700,具体用于:
对待分析文本信息进行解析,得到元数据信息;
其中,决策因子确定单元701中,依据待分析文本信息,通过决策模型识别并确定待分析文本信息的决策因子,具体包括:
对待分析文本信息进行解析,得到元数据信息;
依据元数据信息,通过决策模型识别并确定元数据信息的决策因子。
其中,元数据信息包括以下至少一项:
待分析文本的统一资源定位符URL信息、发布网站信息、转发网站信息、正文信息、评论信息、正文的评论信息、参与人数信息及评论的点赞数信息。
具体地,对于待分析文本信息,在本实施例中,可先对待分析文本信息进行解析,得到元数据信息,然后再对元数据信息进行识别,得到决策因子,而不是直接对待分析文本信息进行识别,得到决策因子,由于元数据信息中包含的信息是与用户关注或是需要的信息直接相关的信息,因此,对元数据信息进行识别得到决策因子,相较于对待分析文本信息进行识别得到决策因子,先从待分析文本中筛选出的元数据信息,再对元数据信息进行识别处理,能够有效降低需要处理的数据规模,从而提高了对待分析文本信息的过滤效率。
具体地,待分析文本信息是通过网络爬虫获取到的信息,从待分析文本信息中解析出的信息包括统一资源定位符URL信息、发布网站信息、转发网站信息、正文信息、评论信息、正文的评论信息、参与人数信息及评论的点赞数信息等,这些信息均与用户关注或需要的信息有直接关联,进一步地,通过对元数据信息进行分析得到决策因子的处理方式,能够有效降低需要处理的数据规模,从而提高了对待分析文本信息的过滤效率。
作为本发明的优选实施例,元数据分析单元700中还包括元数据决策因子确定子单元,具体用于:
对待分析文本信息进行解析,得到元数据信息;
决策模型还包括元数据规则,依据待分析文本信息,通过决策模型识别并确定待分析文本信息的决策因子,具体包括:
依据元数据信息,通过元数据规则对元数据信息进行分析,得到元数据分析结果,元数据分析结果为元数据信息的决策因子。
进一步优选地,元数据决策因子确定子单元,具体用于:依据元数据信息,通过元数据规则对元数据信息进行分析,得到元数据分析结果,具体包括:
对元数据信息进行数量化处理;
将数量化处理后的元数据信息映射到一个多维空间中,得到元数据分析结果。
作为本发明的优选实施例,装置还包括决策判定单元704,当决策模型为启发式规则、关键词规则和情感分析规则中的至少两项时;依据待分析文本信息,通过决策模型识别并确定待分析文本信息的决策因子中包括至少两项决策因子;
依据决策因子,对待分析文本信息进行过滤,得到对待分析文本信息的过滤结果,具体包括:
将至少两项决策因子输入至决策判定模型,对待分析文本信息进行过滤,得到对待分析文本信息的过滤结果。
具体地,对于待分析文本信息,基于启发式规则、关键词规则和情感分析规则分别识别待分析文本信息中的决策因子,得到三个决策因子,分别为启发式信息、关键词和情感倾向,将这三个决策因子中的至少两项输入到决策判定模型中,通过决策判定模型对待分析文本信息进行过滤,得到待分析文本信息的过滤结果,即确定待分析文本信息中用户关注的内容;由于每个决策因子均是与用户关注的内容相关的信息,因此,基于各个决策因子对待分析文本信息进行过滤,可提高待分析文本信息过滤结果的准确性。
具体地,决策判定模型是基于启发式信息、关键词和情感倾向建立的决策树,通过决策树对各个决策因子进行综合评价,使得输出的待分析文本信息的过滤结果更准确。
具体地,决策判定模型的建立过程为:
首先,确定属性空间,属性空间中包括多个决策属性,具体地,多个决策属性包括启发式信息、关键词和情感倾向;
构建决策树,具体过程为:分别选取一定量正样本和负样本组成训练集,然后采用C4.5算法构建决策树;其中正样本为决策属性中的至少一项,负样本为非决策属性,比如非启发式信息,非关键词;即与用户关注信息不相关的信息。
最终基于构建的决策树对待分析文本信息进行过滤定的具体过程为:将待处理文本信息的决策因子,即启发式信息、关键词和情感倾向,分别与决策树进行比较,直到比较到决策树的叶子节点停止比较,实现对待处理文本信息的过滤。
作为本发明的优选实施例,基于上述三个决策因子中的至少两项输入到决策判定模型,本实施例中进一步地将元数据分析结果作为决策因子,结合上述三个决策因子,将四个决策因子中的至少两项输入到决策判定模型中,对待分析文本信息进行过滤,使待分析文本信息的过滤结果更加准确。
具体地,决策判定单元704中,当决策模型为启发式规则、关键词规则、情感分析规则和元数据规则中的至少两项时;依据待分析文本信息,通过决策模型识别并确定待分析文本信息的决策因子中包括至少两项决策因子;
依据决策因子,对待分析文本信息进行过滤,得到对待分析文本信息的过滤结果,具体包括:
将至少两项决策因子输入至决策判定模型,对待分析文本信息进行过滤,得到对待分析文本信息的过滤结果。
作为本发明的优选实施例,启发式识别子单元、关键词识别子单元、情感识别子单元和元数据决策因子确定子单元采用分布式设置。
决策因子确定单元701中的待分析文本信息从Kafka中实时获取,基文本过滤单元702中输出的待分析文本信息过滤结果通过Kafka传输,实现数据的实时处理。
其中,将启发式识别子单元、关键词识别子单元、情感识别子单元和元数据决策因子确定子单元建立成Storm集群建,可使该装置便于扩展。
需要说明的是,本实施例中记载的方案与实施例一至实施例三中记载的方法方案是对应的,在此不在一一赘述。
第三方面,本发明还提供一种电子设备,参见图8,该电子设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。
该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种任务统计方法。该计算机设备的网络接口用于与终端连接通信。
其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种文本信息的过滤方法。
处理器能实现图7所示实施例中的元数据分析单元700、决策因子确定单元701和文本过滤单元702的功能,非易失性存储介质和存储器能实现图7所示实施例中所需的存储功能。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
第四方面,本发明还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如第一方面文本信息的过滤方法。
本发明提供的文本信息的过滤方法、装置和电子设备,有以下优点:对待分析文本信息进行过滤,先依据待分析文本信息,通过预定的决策模型识别并确定待分析文本信息的决策因子;由于预设的决策模型是基于用户关注的信息预先建立的,因此,从待分析文本信息中识别出的决策因子表示该决策因子所对应的信息是待分析文本信息中符合决策模型的用户关注的信息;然后,在识别出待分析文本信息中的决策因子后,依据决策因子,对待分析文本信息进行过滤,得到对待分析文本信息的过滤结果;表明依据决策因子,从待分析文本信息中过滤出的信息是用户关注的信息,且由于待分析文本信息中包含的决策因子不只有关键词,可使得待分析文本信息的过滤结果更加准确。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
本领域普通技术人员可以理解,上述实施例方法中的全部或部分流程,可以通过计算机程序对应的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (21)
1.一种文本信息的过滤方法,其特征在于,包括:
依据待分析文本信息,通过预定的决策模型识别并确定所述待分析文本信息的决策因子;
依据所述决策因子,对所述待分析文本信息进行过滤,得到对所述待分析文本信息的过滤结果。
2.根据权利要求1所述的文本信息的过滤方法,其特征在于,所述决策模型包括以下至少一项:
启发式规则、关键词规则和情感分析规则。
3.根据权利要求2所述的文本信息的过滤方法,其特征在于,当所述决策模型为启发式规则,所述依据待分析文本信息,通过决策模型识别并确定所述待分析文本信息的决策因子,具体包括:
依据待分析文本信息,识别并确定所述待分析文本信息中与所述启发式规则相匹配的启发式信息,所述启发式信息为所述待分析文本信息的决策因子。
4.根据权利要求3所述的文本信息的过滤方法,其特征在于,所述依据待分析文本信息,识别并确定所述待分析文本信息中与所述启发式规则相匹配的启发式信息,具体包括:
依据所述启发式规则,采用正则表达式匹配算法处理所述待分析文本信息,确定所述待分析文本信息中与所述启发式规则相匹配的文本片段在所述待分析文本信息中的位置及规则索引;
依据与所述启发式规则相匹配的文本片段在所述待分析文本信息中的位置及规则索引,识别出所述待分析文本信息中的启发式信息。
5.根据权利要求2所述的文本信息的过滤方法,其特征在于,当所述决策模型为关键词规则,所述依据待分析文本信息,通过决策模型识别并确定所述待分析文本信息的决策因子,具体包括:
依据待分析文本信息,识别并确定所述待分析文本信息中与所述关键词规则相匹配的关键词,所述关键词为所述待分析文本信息的决策因子。
6.根据权利要求5所述的文本信息的过滤方法,其特征在于,所述依据待分析文本信息,识别所述待分析文本信息中与所述关键词规则相匹配的关键词,具体包括:
提取所述待分析文本信息中的所有关键词,建立匹配模式树;
从所述匹配模式树中确定待处理关键词;
从所述待处理关键词中确定与所述关键词规则相匹配的关键词。
7.根据权利要求2所述的文本信息的过滤方法,其特征在于,当所述决策模型为情感分析规则,所述依据待分析文本信息,通过决策模型识别并确定所述待分析文本信息的决策因子,具体包括:
依据待分析文本信息,通过所述情感分析规则识别并确定所述待分析文本信息的情感倾向,所述情感倾向为所述待分析文本信息的决策因子。
8.根据权利要求7所述的文本信息的过滤方法,其特征在于,所述待分析文本包括评论文本和正文文本。
9.根据权利要求8所述的文本信息的过滤方法,其特征在于,
所述依据待分析文本信息,通过所述情感分析规则识别并确定所述待分析文本信息的情感倾向,具体包括:
依据待分析文本信息,通过所述情感分析规则识别并确定所述待分析文本信息中评论文本相对于正文文本的情感倾向。
10.根据权利要求9所述的文本信息的过滤方法,其特征在于,所述依据待分析文本信息,通过所述情感分析规则识别并确定所述待分析文本信息中评论文本相对于正文文本的情感倾向,具体包括:
依据待分析文本信息中的正文文本,确定所述正文文本相对于第一实体词的第一情感倾向,所述第一实体词为依据关键词在所述正文文本中包含所述关键词的段落文本中提取的实体词,所述实体词为名词或代词;
依据待分析文本信息中的评论文本,确定所述评论文本相对于第二实体词的第二情感倾向,所述第二实体词为依据关键词在所述评论文本中包含所述关键词的段落文本中提取的实体词,所述实体词为名词或代词;
依据所述第一情感倾向和第二情感倾向,通过预设情感规则确定所述待分析文本信息中评论文本相对于正文文本的情感倾向。
11.根据权利要求10所述的文本信息的过滤方法,其特征在于,所述依据待分析文本信息中的正文文本,确定所述正文文本相对于第一实体词的第一情感倾向,具体包括:
依据关键词,在所述正文文本中确定包含所述关键词的段落文本;
识别所述段落文本中的第一实体词;
确定所述正文文本中的所有第一实体词、与所有第一实体词相关的情感词及所述情感词和第一实体词的位置关系;
依据所述正文文本中的所有第一实体词、与所有第一实体词相关的情感词及所述情感词和第一实体词的位置关系,计算所述正文文本相对于所述第一实体词的第一情感倾向。
12.根据权利要求10所述的文本信息的过滤方法,其特征在于,所述依据待分析文本信息中的评论文本,确定所述评论文本相对于第二实体词的第一情感倾向,具体包括:
依据关键词,在所述正文文本中确定包含所述关键词的段落文本;
识别所述段落文本中的第二实体词;
确定所述评论文本中的所有第二实体词、与所有第二实体词相关的情感词及所述情感词和第二实体词的位置关系;
依据所述评论文本中的所有第二实体词、与所有第二实体词相关的情感词及所述情感词和第二实体词的位置关系,计算所述评论文本相对于所述第二实体词的第二情感倾向。
13.根据权利要求1所述的文本信息的过滤方法,其特征在于,所述依据待分析文本信息,通过决策模型识别并确定所述待分析文本信息的决策因子之前,还包括:
对待分析文本信息进行解析,得到元数据信息;
其中,所述依据待分析文本信息,通过决策模型识别并确定所述待分析文本信息的决策因子,具体包括:
对待分析文本信息进行解析,得到元数据信息;
依据所述元数据信息,通过决策模型识别并确定所述元数据信息的决策因子。
14.根据权利要求2所述的文本信息的过滤方法,其特征在于,当所述决策模型为所述启发式规则、关键词规则和情感分析规则中的至少两项时;所述依据待分析文本信息,通过决策模型识别并确定所述待分析文本信息的决策因子中包括至少两项决策因子;
所述依据所述决策因子,对所述待分析文本信息进行过滤,得到对所述待分析文本信息的过滤结果,具体包括:
将至少两项决策因子输入至决策判定模型,对所述待分析文本信息进行过滤,得到对所述待分析文本信息的过滤结果。
15.根据权利要求2所述的文本信息的过滤方法,其特征在于,所述依据待分析文本信息,通过决策模型识别并确定所述待分析文本信息的决策因子之前,还包括:
对待分析文本信息进行解析,得到元数据信息;
所述决策模型还包括元数据规则,所述依据待分析文本信息,通过决策模型识别并确定所述待分析文本信息的决策因子,具体包括:
依据所述元数据信息,通过所述元数据规则对所述元数据信息进行分析,得到元数据分析结果,所述元数据分析结果为所述元数据信息的决策因子。
16.根据权利要求15所述的文本信息的过滤方法,其特征在于,所述依据所述元数据信息,通过所述元数据规则对所述元数据信息进行分析,得到元数据分析结果,具体包括:
对所述元数据信息进行数量化处理;
将数量化处理后的元数据信息映射到一个多维空间中,得到元数据分析结果。
17.根据权利要求15所述的文本信息的过滤方法,其特征在于,当所述决策模型为所述启发式规则、关键词规则、情感分析规则和元数据规则中的至少两项时;所述依据待分析文本信息,通过决策模型识别并确定所述待分析文本信息的决策因子中包括至少两项决策因子;
所述依据所述决策因子,对所述待分析文本信息进行过滤,得到对所述待分析文本信息的过滤结果,具体包括:
将至少两项决策因子输入至决策判定模型,对所述待分析文本信息进行过滤,得到对所述待分析文本信息的过滤结果。
18.根据权利要求13所述的文本信息的过滤方法,其特征在于,所述元数据信息包括以下至少一项:
所述待分析文本的统一资源定位符URL信息、发布网站信息、转发网站信息、正文信息、评论信息、正文的评论信息、参与人数信息及评论的点赞数信息。
19.一种文本信息的过滤装置,其特征在于,包括:
决策因子确定单元,用于依据待分析文本信息,通过预定的决策模型识别并确定所述待分析文本信息的决策因子;
文本过滤单元,用于依据所述决策因子,对所述待分析文本信息进行过滤,得到对所述待分析文本信息的过滤结果。
20.一种电子设备,其特征在于,包括:存储器,用于存储可执行程序;处理器,用于执行所述存储器中存储的所述可执行程序时,实现权利要求1至18任一项所述的方法。
21.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至18任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810476419.2A CN109376293A (zh) | 2018-05-17 | 2018-05-17 | 一种文本信息的过滤方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810476419.2A CN109376293A (zh) | 2018-05-17 | 2018-05-17 | 一种文本信息的过滤方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109376293A true CN109376293A (zh) | 2019-02-22 |
Family
ID=65404227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810476419.2A Pending CN109376293A (zh) | 2018-05-17 | 2018-05-17 | 一种文本信息的过滤方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109376293A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347934A (zh) * | 2019-07-18 | 2019-10-18 | 腾讯科技(成都)有限公司 | 一种文本数据过滤方法、装置及介质 |
CN113111231A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于正则表达式接处警文本人物信息要素提取方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103235818A (zh) * | 2013-04-27 | 2013-08-07 | 北京百度网讯科技有限公司 | 一种基于网页情感倾向性的信息推送方法和装置 |
CN103841216A (zh) * | 2014-04-01 | 2014-06-04 | 深圳市科盾科技有限公司 | 一种基于云平台的网络舆情监控系统 |
CN106055541A (zh) * | 2016-06-29 | 2016-10-26 | 清华大学 | 一种新闻内容敏感词过滤方法及系统 |
CN106446232A (zh) * | 2016-10-08 | 2017-02-22 | 深圳市彬讯科技有限公司 | 一种基于规则的敏感文本过滤方法 |
CN107609132A (zh) * | 2017-09-18 | 2018-01-19 | 杭州电子科技大学 | 一种基于语义本体库中文文本情感分析方法 |
-
2018
- 2018-05-17 CN CN201810476419.2A patent/CN109376293A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103235818A (zh) * | 2013-04-27 | 2013-08-07 | 北京百度网讯科技有限公司 | 一种基于网页情感倾向性的信息推送方法和装置 |
CN103841216A (zh) * | 2014-04-01 | 2014-06-04 | 深圳市科盾科技有限公司 | 一种基于云平台的网络舆情监控系统 |
CN106055541A (zh) * | 2016-06-29 | 2016-10-26 | 清华大学 | 一种新闻内容敏感词过滤方法及系统 |
CN106446232A (zh) * | 2016-10-08 | 2017-02-22 | 深圳市彬讯科技有限公司 | 一种基于规则的敏感文本过滤方法 |
CN107609132A (zh) * | 2017-09-18 | 2018-01-19 | 杭州电子科技大学 | 一种基于语义本体库中文文本情感分析方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347934A (zh) * | 2019-07-18 | 2019-10-18 | 腾讯科技(成都)有限公司 | 一种文本数据过滤方法、装置及介质 |
CN110347934B (zh) * | 2019-07-18 | 2023-12-08 | 腾讯科技(成都)有限公司 | 一种文本数据过滤方法、装置及介质 |
CN113111231A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于正则表达式接处警文本人物信息要素提取方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10515086B2 (en) | Intelligent agent and interface to provide enhanced search | |
US20170243107A1 (en) | Interactive search engine | |
US8170969B2 (en) | Automated computation of semantic similarity of pairs of named entity phrases using electronic document corpora as background knowledge | |
US8452772B1 (en) | Methods, systems, and articles of manufacture for addressing popular topics in a socials sphere | |
US20110231353A1 (en) | Artificial intelligence application in human machine interface for advanced information processing and task managing | |
CN109345282A (zh) | 一种业务咨询的响应方法及设备 | |
CN107797984A (zh) | 智能交互方法、设备及存储介质 | |
KR20090084853A (ko) | 카테고리화를 통해 호스트 투 게스트 콘텐츠를 자동으로 매칭하기 위한 메커니즘 | |
CN111694940A (zh) | 一种用户报告的生成方法及终端设备 | |
US20220261545A1 (en) | Systems and methods for producing a semantic representation of a document | |
CN102567455A (zh) | 利用语句的加权流行数据来管理文档的方法与系统 | |
Huang et al. | Automatic meeting summarization and topic detection system | |
Bittner et al. | Pitch contours as a mid-level representation for music informatics | |
Pareti | Attribution: a computational approach | |
CN109376293A (zh) | 一种文本信息的过滤方法、装置和电子设备 | |
TW202301081A (zh) | 輔助系統之基於真實世界文字偵測的任務執行 | |
Pęzik | Increasing the accessibility of time-aligned speech corpora with spokes Mix | |
Galibert et al. | Ritel: an open-domain, human-computer dialog system. | |
CN108268602A (zh) | 分析文本话题点的方法、装置、设备和计算机存储介质 | |
Cignarella et al. | Twittirò: an Italian twitter corpus with a multi-layered annotation for irony | |
WO2023035529A1 (zh) | 基于意图识别的信息智能查询方法、装置、设备及介质 | |
KR20190115721A (ko) | 질의어를 처리하는 장치, 방법 및 컴퓨터 프로그램 | |
CN116090450A (zh) | 一种文本处理方法及计算设备 | |
US11663215B2 (en) | Selectively targeting content section for cognitive analytics and search | |
CN114970733A (zh) | 语料生成方法及装置、系统、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190222 |