CN115221891A - 基于上下文语义分析的目标信息检测方法、装置、系统及介质 - Google Patents
基于上下文语义分析的目标信息检测方法、装置、系统及介质 Download PDFInfo
- Publication number
- CN115221891A CN115221891A CN202210689186.0A CN202210689186A CN115221891A CN 115221891 A CN115221891 A CN 115221891A CN 202210689186 A CN202210689186 A CN 202210689186A CN 115221891 A CN115221891 A CN 115221891A
- Authority
- CN
- China
- Prior art keywords
- target
- word
- words
- sentence
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Optimization (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Computational Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种基于上下文语义分析的目标信息检测方法、装置、系统和存储介质。所述方法通过对目标词进行分级,将高危属性等级的目标词直接添加到潜在目标信息队列中,并为中度、一般属性的目标词设置对应允许和拒绝词库。先匹配查找语句中目标词前后是否包含允许词,并根据允许词语与目标词的关联程度来判断并排除掉一些组合度高的非目标信息,防止误判误检测。并且,本方案进一步通过拒绝词来判断明暗属性,并将拒绝词及目标词共同作为潜在目标信息,从而能更加精准更加全面地提取出语句中存在的目标信息。同时,还通过整体句子上下文语义、句子成分多方面综合分析判断,提高了语句中的目标信息检测识别的精准度。
Description
技术领域
本申请涉及智能分析技术、信息检测技术、信息安全技术领域,特别涉及一种基于上下文语义分析的目标信息检测方法、装置、系统及介质。
背景技术
互联网技术的快速发展,方便并加快了各种信息在各个平台和用户之间的发布和传播。为了保证所发布和传播的信息内容发布在利用互联网发布和传播信息内容合法合规合理,往往需要对所发布和传播的内容进行审核,目标信息作为重点及重要的审核对象信息之一。因此,十分有必要对信息内容中目标词、短语、句进行检测,以对带有目标信息的信息内容进行有效识别和拦截。
现有的目标信息检测方案中,往往是针对文本目标词进行检测判断,然而,目标词作为语句中的单一词语,其目标属性需要结合多方面综合考虑,现有的该检测方案由于缺乏整体性考量,没有考虑整体信息的关联性,使得检测并不准确也不全面,甚至出现大量漏检、误检的可能性。因此,亟需一种快速高效准确目标信息检测系统。
发明内容
基于此,本申请提出了一种基于上下文语义分析的目标信息检测方法、装置、系统及介质,实现了简单高效且准确地确定目标信息。
为实现上述目的,本申请提供一种基于上下文语义分析的目标信息检测方法,包括:
构建目标词库,对所述目标词库中的目标词进行等级划分,所述等级包括高危、中度、一般;并设置所述中度、一般目标词的初始目标属性值;
对各所述中度、一般等级目标词建立对应的允许词库及拒绝词库;
接收待检测的文本内容,将所述文本内容进行语句划分;
检测各所述语句中是否包含目标词;
若是,则判断所述目标词的等级;
若所述目标词为高危等级,则将所述目标词作为潜在目标信息添加到待处理队列中;
若所述目标词为中度或一般等级,则判断所述语句中所述目标词前后是否包含允许词,并根据所述允许词更新所述目标词的目标属性值;
若所述属性值小于或等于第一阈值,则判定所述目标词为非目标词;
若所述属性值大于所述第一阈值,则判断所述语句中所述目标词前后是否包含拒绝词,并根据所述拒绝词更新所述目标词的目标属性值;
若所述属性值大于或等于第二阈值,则将所述目标词及所述拒绝词作为潜在目标信息添加到待处理队列中;
判定队列中的潜在目标信息所在句子是否符合预设条件,若符合所述条件,则判定所述潜在目标信息为非目标信息,否则为目标信息。
进一步地,所述判断所述语句中所述目标词前后在是否包含拒绝词,并根据所述拒绝词更新所述目标词的目标属性值,之后还包括:
若所述属性值小于第二阈值,则确定所述目标词所在所述语句的句子成分,并根据所述目标词所在的句子成分确定所述语句中的目标信息。
进一步地,所述所述目标词所在的句子成分确定所述语句中的目标信息,包括:
根据所述目标词所在的句子成分,确定所需要补充的句子成分信息,根据所述目标词及所述补充的句子成分信息组成短句,确定所述短句中的目标信息。
具体地,所述根据所述允许词/拒绝词计算所述目标词的属性值,包括:
通过大数据分析获取所述允许词/拒绝词与所述目标词之间的匹配度及使用频率,根据所述匹配度信息和所述频率信息确定所述组合紧密度。
计算所述语句中所述允许词/拒绝词语所述目标词的相对距离及相对长度;
根据所述组合紧密度、相对距离及相对长度计算权重值,并根据所述权重值计算更新所述目标词的目标属性值。
具体地,所述获取所述允许词/拒绝词与所述目标词的组合紧密度,包括:通过大数据文本分析获取所述允许词/拒绝词与所述目标词之间的之间的距离及组合频次,根据所述距离和所述组合频次信息确定所述组合紧密度。
进一步地,所述方法还包括:
定期通过大数据分析获取并扩充所述目标词和/或者所述允许词/拒绝词。
判断所述句子的是否包含直接否定所述目标信息的词语,若包含,则符合预设预设条件,将判定所述潜在目标信息为非目标信息,否则为目标信息;
对检测的所述目标性信息进行标注、批注、隐藏和/或替换处理。
为实现上述目的,本申请还提供一种计算机系统,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述基于上下文语义分析的目标信息检测方法的步骤。
为实现上述目的,本申请还提供一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述基于上下文语义分析的目标信息检测方法的步骤。
为实现上述目的,本申请还提供一种基于上下文语义分析的目标信息检测装置,包括:
第一构建单元,用于构建目标词库,对所述目标词库中的目标词进行等级划分,所述等级包括高危、中度、一般;并设置所述中度、一般目标词的初始目标属性值;
第二构建单元,用于对各所述中度、一般等级目标词建立对应的允许词库及拒绝词库;
文本处理单元,用于接收待检测的文本内容,将所述文本内容进行语句划分;
目标词处理单元,用于:
检测各所述语句中是否包含目标词;
若是,则判断所述目标词的等级;
若所述目标词为高危等级,则将所述目标词作为潜在目标信息添加到待处理队列中;
若所述目标词为中度或一般等级,则判断所述语句中所述目标词前后是否包含允许词,并根据所述允许词更新所述目标词的目标属性值;
若所述属性值小于或等于第一阈值,则判定所述目标词为非目标词;
若所述属性值大于所述第一阈值,则判断所述语句中所述目标词前后是否包含拒绝词,并根据所述拒绝词更新所述目标词的目标属性值;
若所述属性值大于或等于第二阈值,则将所述目标词及所述拒绝词作为潜在目标信息添加到待处理队列中;
目标信息判断单元,用于判定队列中的潜在目标信息所在句子是否符合预设条件,若符合所述条件,则判定所述潜在目标信息为非目标信息,否则为目标信息。
本申请的基于上下文语义分析的目标信息检测的方案,通过对目标词进行分级,将高危属性等级的目标词直接添加到潜在目标信息队列中,并为中度、一般属性的目标词设置对应允许和拒绝词库。先查找语句中目标词是否包含允许词并根据允许词语目标词的组合程度来初步判断所包含的目标词是否为目标信息,可以首先排除掉语句中一些与允许词组合紧密度高的目标词作为目标信息可能性,减少了误判误检测的概率,也减少了后续检测的数据处理量,提高检测效率。此外,本方案进一步通过拒绝词来判断该目标词的目标属性,并确定是否为潜在目标信息,及将拒绝词及目标词共同作为潜在目标信息,使得不仅能提取语句中的目标词,而且能精准地提取语句中的目标短语、目标句作为潜在目标信息进行分析判断,从而能更加精准更加全面地提取出语句中存在的目标信息。进一步地,本方案还通过整体句子上下文语义分析、目标信息所在的句子成分多方面综合分析判断,提高了语句中的目标信息检测识别的精准度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中基于上下文语义分析的目标信息检测方法的流程图;
图2为一个实施例中更新目标的属性值方法流程图;
图3为一个实施例中基于上下文语义分析的目标信息检测装置示意图;
图4为一个实施例中基于上下文语义分析的目标信息检测计算机系统示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
下面将结合本申请的实施例中的附图,对本申请的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”、“包含”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。在本申请的权利要求书、说明书以及说明书附图中的术语,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来,而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其他实施例相结合。
如图1所示,提出了一种基于上下文语义分析的目标信息检测方法,所述方法具体包括如下步骤:
S101、构建目标词库,对所述目标词库中的目标词进行等级划分,所述等级包括高危、中度、一般;并设置所述中度、一般目标词的初始目标属性值。
具体地,目标词往往是带有目标性的词语,其不适合或者不能直接进行发布、发表或者在特定场景出现。目标词库用于存储目标词,可以通过爬虫、手动添加方式收集多个开源目标词表来构建初始目标词库,并对所述初始目标词进行扩充,对初始目标词进行拼音、首字母、英文、形近字、形音字等进行扩充,如对初始目标词库中的‘目标词1’可以扩充为‘mbc1’,从而构建目标词库,‘强’可以扩充为‘qiang、弓虽’等。可选地,构建目标词时,还可以后续通过后续手动添加的方式进行关联或补充新的目标词。还可以根据目标词库进行分类,如属于经济、教育等类型的目标词库,进而可以根据后续输入文本的类型确定或选择具体的目标词库。
根据目标词的初始属性进行等级划分,分为高危、中度、一般三个等级,并为中度、一般目标词设置初始目标属性值。对于高危目标词,通过大量数据统计分析发现,这些带有较强的目标属性的高危目标词作为目标信息的概率较大。而对于中度、一般目标词,其需要结合具体的语境及上下文词语、语义分析才能确定是否为目标词。本申请针对中度、轻度初始目标词设置目标属性值,目标属性值是能表示其目标属性强弱的数值,该属性值可以根据大数据分析统计该目标词被判定为目标信息的概率。如,等级一般的目标词目标属性值可以初始设置为 0.5,中度目标词的目标属性值可以设置为0.6,当然也可以根据实际情况与需要进行选择与设定其他值。
S102、对各所述中度、一般等级目标词建立对应的允许词库及拒绝词库。
在一个实施例中,针对中度、一般等级的目标词,其需要结合前后词语及具体的语句语义来综合分析,为此,本申请针对每个中度、一般等级目标词分别建立关联允许词库及拒绝词库,所述允许词库的词语对所述目标词的目标属性起到削弱作用,所述拒绝词库的词语对所述目标词的目标属性起到加强作用。如针对‘目标词2’目标词的允许库可以包括‘允许词1、允许词2、允许词3…’等词语,拒绝库可以包括‘拒绝词1、允许词2、…’等词语。
此外,本申请还包括:定期通过大数据分析获取并扩充所述目标词的所述允许词/拒绝词。
具体地,可以定期通过预设的大数据文本库或网络资源库检索与目标词库中目标词搭配较多的词语、短语、语句,如通过大数据文本库或网络并对利用分词技术,提取出对应的搭配词语,判断该搭配词语是否已经包含在允许词库/拒绝词库中,若不包含,则添加到对应的允许词/拒绝词库中。
例如,定期(如:1天、3天、1周)利用爬虫技术获取预设大数据文本库或网络资源库中与目标词组合搭配次数超过预设值的词语,并且判断该搭配词语不在允许词/拒绝词库中时,推送给后台添加到对应目标词的允许词/拒绝词库中,后台可以通过人工筛选、判断添加到对应的允许/拒绝词库中。
S103、接收待检测的文本内容,将所述文本内容进行语句划分;并检测各所述语句中是否包含目标词;若是,则判断所述目标词的等级。
具体地,语句划分可以根据句子的标点进行划分,也可以利用语句识别模型对语句进行划分。划分后文本以语句为单位进行目标信息检测,首先去掉语句中的停用词,如语气助词、副词、介词、连接词等没有明确意义的词语,如此可以减少数据处理量并提高判断准确度;随后判断语句中是否包含所构建的目标词库中的目标词,如果包含,则进一步确定目标词的等级属于高危、中度还是一般等级。
S104、若所述目标词为高危等级,则将所述目标词作为潜在目标信息添加到待处理队列中。
具体地,如果语句中包含了高危等级目标词,由于该目标词的高危目标属性,则直接将目标词作为潜在目标信息添加到待分析处理队列中。
S105、若所述目标词为中度或一般等级,则判断所述目标词前后在所述语句中是否包含允许词,并根据所述允许词更新所述目标词的目标属性值;若所述属性值小于或等于第一阈值,则判定所述目标词为非目标词。
针对中度或一般等级目标词,先判断所述目标词前后在所述语句中是否包含允许词,以确定允许词对目标词目标属性的削弱程度,从而更新目标词的目标属性值。如果更新后的目标属性值小于预设第一阈值,则说明允许词对目标词的属性削弱较大,则说明该目标词与允许词组合紧密度非常大,其不应该被判断为目标词,所述第一阈值可以根据实际情况设定与动态更新改变。
在一个实施例中,例如:将‘目标词2’初始分为中度目标词,第一阈值设置为0.18。针对划分的语句“拒绝词1正在观看允许词1目标词2电影”,根据上述方法可以判断语句中包含初始目标词‘目标词2’中度目标词的初始目标属性值为0.6。而进一步通过允许词分析判断,确定‘目标词2’前面有邻近的允许词‘允许词1’,通过计算分析确定该‘允许词1’允许词对‘目标词2’具有很大削弱作用,计算得到的削弱权重为6,则削弱后的目标属性为0.6÷6<0.18,即直接将‘目标词2’判定位非目标信息。该实施例中,通过允许词‘允许词1’对‘目标词2’的目标属性的削弱作用,判断二组属于紧密组合在一起的词语。虽然该语句中包含拒绝词‘拒绝词1’,且‘拒绝词1’与‘目标词2’相对距离很近,然而,通过先判断允许词的削弱作用,直接判断‘目标词2’在该语句中属于非目标信息,排除了‘目标词2’作为目标词的可能性,也直接避免了后续将‘目标词2电影’中‘目标词2’作为目标词进行误判,也减少了后续数据处理量,提高检测效率。通过进一步查询匹配未匹配到其他目标词语,则判断该语句不包含目标信息,进入下一语句目标信息判断。
因此,相较于传统的直接通过各种信息综合分析计算,本方案可以大大减少误判的可能性,提高检测的精确性。同时,通过先判断允许词削弱目标词的分析并更新目标词的属性,也减少了后续处理、分析的计算量。
S106、若所述属性值大于所述第一阈值,则判断所述目标词前后在所述语句中是否包含拒绝词,并根据所述拒绝词更新所述目标词的目标属性值;若所述属性值大于或等于第二阈值,则将所述目标词及所述拒绝词作为潜在目标信息添加到待处理队列中。
在一个实施例中,当在语句中未匹配到的允许词或者某些紧密性不高的允许词在该语句中不足以削弱目标词目标属性,即当通过允许词不足以完全排除目标词的目标属性时,则进一步通过拒绝词库的词语来判断目标词的目标属性。具体地,可以通过目标词前后的拒绝词与目标词的关联性来分析更新该目标词的目标属性值,如果更新后的目标属性值大于预设的第二阈值,则说明这些拒绝词与该目标词在该语句中组合可能很大概率会形成目标信息,则将语句中的这些拒绝词和目标词一并作为潜在的目标信息添加到队列中,以便后续进一步根据语义语境分析,判断是否属于目标信息。
例如,针对语句“他正在观看目标词2拒绝词1”,通过允许词判断处理后,未匹配到足以削弱目标词‘目标词2’的目标属性的允许词,则通过判断语句中的目标词前后的拒绝词对目标词的目标属性的加强作用,通过拒绝词匹配确定,目标词‘目标词2’前后包含拒绝词‘拒绝词1’。进一步计算更新后的目标属性值大于第二阈值,则直接该拒绝词连同目标词一并作为潜在目标信息,即将‘目标词2拒绝词1’作为潜在目标信息添加到队列中以便后续做进行一步分析判断确定该潜在目标信息是否属于目标信息。
通过上述处理,可以将语句中的拒绝词与目标词组合成潜在目标信息作为判断整体,并连同拒绝词一并作为潜在目标信息,这样相比现有近的目标词分析处理方法,本申请检测和识别出的目标信息更加准确。
此外,本申请方法还包括:
S1062、若所述属性值小于第二阈值,则确定所述目标词所在所述语句的句子成分,并根据所述目标词所在的句子成分确定所述语句中的目标信息。
S1064、根据所述目标词所在的句子成分,确定所需要补充的句子成分信息,根据所述目标词及所述补充的句子成分信息组成短句,确定所述短句中的目标信息。
一个实施例中,针对经过允许词、拒绝词处理更新后的目标属性值小于第二阈值时,则采用句子成分分析方法来进一步判断该目标词是否属于目标信息。如对于语句“他拿了本目标词3的书籍拿走过来”划分得到语句为“他拿目标词3 书籍走过来”,中确定目标词‘目标词3书籍’前后没有相应的允许词和拒绝词。即其目标属性值小于第二阈值,则通过预设句子成分分析模型确定‘目标词3书籍’在该语句中中属于宾语,为了得到完整的简单分析语句,确定需要补充主语和谓语,提取语句中该目标词上下文信息,组成简单句子“他拿目标词3书籍”。通过分析该语句中‘目标词3书籍’实际是指‘表皮为目标词3的书籍’,不属于目标信息。具体地,分析方式可以为:将该简单句输入到预先训练的感情色彩语义分析模型分析该语句的感情色彩为正向还是负面,或者将该简单句在该语句中标注出来交由人工进行判断。如此,减少了数据处理的复杂度,提高了识别的精确度。
本申请通过上述处理,可以结合上下文信息通过句子成分分析针对目标词进行组句,进而判断该目标词是否属于目标信息,进一步提高了判断的准确性。
S108、判定队列中的潜在目标信息所在句子是否符合预设条件,若符合所述条件,则判定所述潜在目标信息为非目标信息,否则为目标信息。
具体地,针对队列中的潜在目标信息回归到句子本身进行整体判断,经过上述处理后,添加到队列中的潜在目标信息作为目标信息的概率较大,本申请主要判断是否符合预设条件,包括:
S1081、判断潜在信息所在句子是否包含否定所述目标信息的词语,如果语句中包含否定语义或语境,则判断该潜在目标信息不属于目标信息,否则判断该潜在目标信息属于目标信息。判断语句中是否包含否定的语义或语境可以通过预设的语义分析模型得出,也可以通过判断语句是否存在否定该潜在目标信息的否定词。
此外,本申请方案针对检测和识别出目标信息还包括:
S1082、对检测的所述目标性信息进行标注、批注、隐藏和/或替换处理。具体地,对目标信息进行高亮、划线显示;或者直接在目标信息旁进行批注;或者直接隐藏处理;或者采用预设的符号或词语进行替换处理,如用‘*、@、#、!’等符号替换处理,或将“他在看目标词2电影”替换为“他在看****”;也可以组合上述一种或多种处理方式。
本申请的上述基于上下文语义分析的目标信息检测的方案,通过对目标词进行分级,将高危属性等级的目标词直接添加到潜在目标信息队列中,并为中度、一般属性的目标词设置对应允许和拒绝词库。先匹配查找语句中目标词前后是否包含允许词,并根据允许词语与目标词的关联程度来判断并排除掉一些组合度高的非目标信息,防止误判误检测,也减少后续的处理工作量,提高效率。并且,本方案进一步通过拒绝词来判断该目标词是否为潜在目标信息,并将拒绝词及目标词共同作为潜在目标信息,使得不仅能提取语句中的目标词,而且能精准地提取语句中的目标短语、目标句作为潜在目标信息,从而能更加精准更加全面地提取出语句中存在的目标信息。同时,本方案还通过整体句子上下文语义分析、句子成分及目标信息所在的成分多方面综合分析判断,提高了语句中的目标信息检测识别的精准度。
如图2所示,本申请方案更新目标的属性值,包括:
S201、获取所述允许词/拒绝词与所述目标词的组合紧密度;
具体地,预先设置所述允许词/拒绝词与所述目标词的组合紧密度值,所述紧密度值反映了大数据文本中该允许词/拒绝词与所述目标词的组合使用的紧密程度,可以通过大数据文本分析获取所述允许词/拒绝词与所述目标词之间的距离及组合使用频次数据确定。
一个实施例中,通过预设的文本库或网络资源库分析所述允许词/拒绝词与所述目标词配合使用时,所述允许词/拒绝词与所述目标词的之间距离及配合使用的频次大小,距离越小、频次越高,说明使用匹配度越高越紧密。如:‘允许词1’与‘目标词2’使用时,距离为0,且‘允许词1’与‘目标词2’组合使用的次数很高,则‘允许词1’与‘目标词2’的组合紧密度很高。假设用x表示组合使用的距离,y表示对应的频率,T为预设的次数阈值(如可以为50、100、 200、500等),组合紧密度S1可以采用下表1确定,也可以通过数据拟合出对应的有关函数关系进行确定:S1=f(x,y)。
表1
y≥T | T>y≥0.5T | 0.5T>y≥0.2T | y<0.2T | |
x≤1 | 1 | 0.8 | 0.5 | 0.3 |
2≤x≤4 | 0.8 | 0.5 | 0.3 | 0.2 |
x≥5 | 0.5 | 0.3 | 0.2 | 0.1 |
S202、计算语句中所述允许词/拒绝词与所述目标词距离及相对长度。
具体地,计算所述允许词/拒绝词在所述语句中与所述目标词的相对距离S2,该相对距离可以通过所述允许词/拒绝词在所述语句中与所述目标词之间间隔的字符来表征。由于语句中各个词之间的相对距离可以反映出各个词之间使用的关联性,在语句中相对距离越小,则关联性越大。因此,本申请引入语句中允许词 /拒绝词与目标词的相对距离,这样能更加客观地反映允许词/拒绝词在该语句中与该目标词的关联性,进而更加精确确定该允许词/拒绝词在该语句对目标词所起的削弱/加强作用大小。
计算所述允许词/拒绝词在所述语句中与所述目标词的相对相对长度:
S3=L1/L2,其中,所述L1为所述允许词/拒绝词的字符长度,L2为所述目标词的字符长度。
本申请不仅考虑了词语之间的距离对词语关联性的影响,也引入了各个词语字符长度在组合使用时的关联性。如‘允许词1目标词2’中的‘允许词1’为3 个汉字长度6个字符长度,而‘目标词2’为4个字符,该短语中,S3=6/4=1.5;其在该短语中占了6/10即60%的比重,说明‘允许词1’该词语在形成该短语时,占据了相对较大比重的成分,也即‘允许词1’对‘目标词2’其实可以起到较大的修饰作用。因此,本申请通过引入词语的字符相对长度来反映词语对词语组合修饰作用的大小,即通过引入允许词/拒绝词与目标词之间的相对长度来更加精确地确定该允许词/拒绝词在该语句对目标词所起的削弱/加强作用大小,提高识别精度。
S203、根据所述组合紧密度、距离及长度信息计算权重值,并根据所述权重值计算更新所述目标词的目标属性值。
具体地,可以根据数据拟合方式得到具体的权重计算函数:
其中,a、b、c为常数,0<c<1,如a=3,b=3,c=0.5。
计算目标属性值时,对允许词除以权重K,代表对目标词目标属性的削弱程度;对拒绝词乘以权重K,代表对目标词目标属性的加强程度。
上述方法,通过引入大数据文本数据确定允许词/拒绝词与目标词的组合使用紧密度,进而得到大数据文本下的组合使用情况,并计算语句中所述允许词/ 拒绝词与所述目标词距离及相对长度,通过大数据文本下的使用组合紧密度及语句中允许词/拒绝词与目标词之间的相对信息多个维度来确定该允许词/拒绝词对目标词的削弱/加强作用,进而提高了确定语句中目标信息的精确度。
如图3所示,在一个实施例中,提出了本申请还提供一种基于上下文语义分析的目标信息检测装置,包括:
第一构建单元302,用于构建目标词库,对所述目标词库中的目标词进行等级划分,所述等级包括高危、中度、一般;并设置所述中度、一般目标词的初始目标属性值;
第二构建单元304,用于对各所述中度、一般等级目标词建立对应的允许词库及拒绝词库;
文本处理单元306,用于接收待检测的文本内容,将所述文本内容进行语句划分;
目标词处理单元308,用于:
检测各所述语句中是否包含目标词;
若是,则判断所述目标词的等级;
若所述目标词为高危等级,则将所述目标词作为潜在目标信息添加到待处理队列中;
若所述目标词为中度或一般等级,则判断所述目标词前后在所述语句中是否包含允许词,并根据所述允许词更新所述目标词的目标属性值;
若所述属性值小于或等于第一阈值,则判定所述目标词为非目标词;
若所述属性值大于所述第一阈值,则判断所述目标词前后在所述语句中是否包含拒绝词,并根据所述拒绝词更新所述目标词的目标属性值;
若所述属性值大于或等于第二阈值,则将所述目标词及所述拒绝词作为潜在目标信息添加到待处理队列中;
目标信息判断单元310,用于判定队列中的潜在目标信息所在句子是否符合预设条件,若符合所述条件,则判定所述潜在目标信息为非目标信息,否则为目标信息。
如图4,在一个实施例中,提供了一种基于上下文语义分析的目标信息检测系统,包括存储器和处理器,所述存储器有存储计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述基于基于上下文语义分析的目标信息检测方法的步骤。
在一个实施例中,提出了一种计算机可读存储介质,有存储计算机程序,计算机程序被处理器执行时,使得处理器执行上述基于上下文语义分析的目标信息检测的步骤。
可以理解的是,上述基于上下文语义分析的目标信息检测方法、装置、基于基于上下文语义分析的目标信息检测计算机系统以及计算机可读存储介质属于一个总的发明构思,实施例可相互适用。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态 RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率 SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于上下文语义分析的目标信息检测方法,其特征在于,包括:
构建目标词库,对所述目标词库中的目标词进行等级划分,所述等级包括高危、中度、一般;并设置所述中度、一般目标词的初始目标属性值;
对各所述中度、一般等级目标词建立对应的允许词库及拒绝词库;
接收待检测的文本内容,将所述文本内容进行语句划分;
检测各所述语句中是否包含目标词;
若是,则判断所述目标词的等级;
若所述目标词为高危等级,则将所述目标词作为潜在目标信息添加到待处理队列中;
若所述目标词为中度或一般等级,则判断所述语句中所述目标词前后是否包含允许词,并根据所述允许词更新所述目标词的目标属性值;
若所述目标属性值小于或等于第一阈值,则判定所述目标词为非目标词;
若所述目标属性值大于所述第一阈值,则判断所述语句中所述目标词前后在是否包含拒绝词,并根据所述拒绝词更新所述目标词的目标属性值;
若所述目标属性值大于或等于第二阈值,则将所述目标词及所述拒绝词作为潜在目标信息添加到待处理队列中;
判定队列中的潜在目标信息所在句子是否符合预设条件,若符合所述条件,则判定所述潜在目标信息为非目标信息,否则为目标信息。
2.根据权利要求1所述的方法,其特征在于,所述判断所述语句中所述目标词前后在是否包含拒绝词,并根据所述拒绝词更新所述目标词的目标属性值,之后还包括:
若所述属性值小于第二阈值,则确定所述目标词所在所述语句的句子成分,并根据所述目标词所在的句子成分确定所述语句中的目标信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标词所在的句子成分确定所述语句中的目标信息,包括:
根据所述目标词所在的句子成分,确定所需要补充的句子成分信息,根据所述目标词及所述补充的句子成分信息组成短句,确定所述短句中的目标信息。
4.根据权利要求1所述的方法,其特征在于,所述根据所述允许词/拒绝词更新所述目标词的属性值,包括:
获取所述允许词/拒绝词与所述目标词的组合紧密度;
计算所述语句中所述允许词/拒绝词语所述目标词的相对距离及相对长度;
根据所述组合紧密度、相对距离及相对长度计算权重值,并根据所述权重值计算更新所述目标词的目标属性值。
5.根据权利要求4所述的方法,其特征在于,所述获取所述允许词/拒绝词与所述目标词的组合紧密度,包括:
通过大数据文本分析获取所述允许词/拒绝词与所述目标词之间的之间的距离及组合频次,根据所述距离和所述组合频次信息确定所述组合紧密度。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
定期通过大数据分析获取并扩充所述目标词的所述允许词/拒绝词。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对检测的所述目标性信息进行标注、批注、隐藏和/或替换处理。
8.一种基于上下文语义分析的目标信息检测装置,其特征在于,包括:
第一构建单元,用于构建目标词库,对所述目标词库中的目标词进行等级划分,所述等级包括高危、中度、一般;并设置所述中度、一般目标词的初始目标属性值;
第二构建单元,用于对各所述中度、一般等级目标词建立对应的允许词库及拒绝词库;
文本处理单元,用于接收待检测的文本内容,将所述文本内容进行语句划分;
目标词处理单元,用于:
检测各所述语句中是否包含目标词;
若是,则判断所述目标词的等级;
若所述目标词为高危等级,则将所述目标词作为潜在目标信息添加到待处理队列中;
若所述目标词为中度或一般等级,则判断所述目标词前后在所述语句中是否包含允许词,并根据所述允许词更新所述目标词的目标属性值;
若所述属性值小于或等于第一阈值,则判定所述目标词为非目标词;
若所述属性值大于所述第一阈值,则判断所述目标词前后在所述语句中是否包含拒绝词,并根据所述拒绝词更新所述目标词的目标属性值;
若所述属性值大于或等于第二阈值,则将所述目标词及所述拒绝词作为潜在目标信息添加到待处理队列中;
目标信息判断单元,用于判定队列中的潜在目标信息所在句子是否符合预设条件,若符合所述条件,则判定所述潜在目标信息为非目标信息,否则为目标信息。
9.一种计算机系统,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210689186.0A CN115221891B (zh) | 2022-06-16 | 2022-06-16 | 基于上下文语义分析的目标信息检测方法、装置、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210689186.0A CN115221891B (zh) | 2022-06-16 | 2022-06-16 | 基于上下文语义分析的目标信息检测方法、装置、系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115221891A true CN115221891A (zh) | 2022-10-21 |
CN115221891B CN115221891B (zh) | 2023-05-05 |
Family
ID=83608372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210689186.0A Active CN115221891B (zh) | 2022-06-16 | 2022-06-16 | 基于上下文语义分析的目标信息检测方法、装置、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115221891B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477544A (zh) * | 2009-01-12 | 2009-07-08 | 腾讯科技(深圳)有限公司 | 一种识别垃圾文本的方法和系统 |
US20100106485A1 (en) * | 2008-10-24 | 2010-04-29 | International Business Machines Corporation | Methods and apparatus for context-sensitive information retrieval based on interactive user notes |
CN114048740A (zh) * | 2021-09-28 | 2022-02-15 | 马上消费金融股份有限公司 | 敏感词检测方法、装置及计算机可读存储介质 |
CN114239591A (zh) * | 2021-12-01 | 2022-03-25 | 马上消费金融股份有限公司 | 敏感词识别方法及装置 |
CN114398873A (zh) * | 2022-01-11 | 2022-04-26 | 山东东葳电子科技有限公司 | 一种敏感词的处理方法及处理装置 |
-
2022
- 2022-06-16 CN CN202210689186.0A patent/CN115221891B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100106485A1 (en) * | 2008-10-24 | 2010-04-29 | International Business Machines Corporation | Methods and apparatus for context-sensitive information retrieval based on interactive user notes |
CN101477544A (zh) * | 2009-01-12 | 2009-07-08 | 腾讯科技(深圳)有限公司 | 一种识别垃圾文本的方法和系统 |
CN114048740A (zh) * | 2021-09-28 | 2022-02-15 | 马上消费金融股份有限公司 | 敏感词检测方法、装置及计算机可读存储介质 |
CN114239591A (zh) * | 2021-12-01 | 2022-03-25 | 马上消费金融股份有限公司 | 敏感词识别方法及装置 |
CN114398873A (zh) * | 2022-01-11 | 2022-04-26 | 山东东葳电子科技有限公司 | 一种敏感词的处理方法及处理装置 |
Non-Patent Citations (1)
Title |
---|
吴慧玲等: "一种不良信息过滤的文本预处理方法研究", 《微计算机信息》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115221891B (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110874531B (zh) | 一种话题分析方法、装置和存储介质 | |
CN109858010B (zh) | 领域新词识别方法、装置、计算机设备和存储介质 | |
US9626358B2 (en) | Creating ontologies by analyzing natural language texts | |
CN109460455B (zh) | 一种文本检测方法及装置 | |
US20160188568A1 (en) | System and method for determining the meaning of a document with respect to a concept | |
US20200342059A1 (en) | Document classification by confidentiality levels | |
US20190392035A1 (en) | Information object extraction using combination of classifiers analyzing local and non-local features | |
US20180181646A1 (en) | System and method for determining identity relationships among enterprise data entities | |
US20180081861A1 (en) | Smart document building using natural language processing | |
CN111767716A (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN110909531B (zh) | 信息安全的甄别方法、装置、设备及存储介质 | |
CN110880142B (zh) | 一种风险实体获取方法及装置 | |
US20180181559A1 (en) | Utilizing user-verified data for training confidence level models | |
US11775549B2 (en) | Method and system for document indexing and retrieval | |
Swanson et al. | Extracting the native language signal for second language acquisition | |
CN111079029A (zh) | 敏感账号的检测方法、存储介质和计算机设备 | |
CN111985244A (zh) | 一种针对文档内容的洗稿检测方法及装置 | |
CN110287493B (zh) | 风险短语识别方法、装置、电子设备及存储介质 | |
Venčkauskas et al. | Problems of authorship identification of the national language electronic discourse | |
Saini et al. | Intrinsic plagiarism detection system using stylometric features and DBSCAN | |
CN110888977B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN109933775B (zh) | Ugc内容处理方法及装置 | |
CN115221891B (zh) | 基于上下文语义分析的目标信息检测方法、装置、系统及介质 | |
CN113656580A (zh) | 垃圾评论的识别方法、装置、设备及介质 | |
CN108573025B (zh) | 基于混合模板抽取句子分类特征的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |