CN109614608A - 电子装置、文本信息检测方法及存储介质 - Google Patents
电子装置、文本信息检测方法及存储介质 Download PDFInfo
- Publication number
- CN109614608A CN109614608A CN201811256479.XA CN201811256479A CN109614608A CN 109614608 A CN109614608 A CN 109614608A CN 201811256479 A CN201811256479 A CN 201811256479A CN 109614608 A CN109614608 A CN 109614608A
- Authority
- CN
- China
- Prior art keywords
- text
- participle
- keyword
- participle segment
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 31
- 230000011218 segmentation Effects 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000012550 audit Methods 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种文本信息检测方法,包括:获取待发布文本的文本内容;对所述文本内容进行目标关键词匹配,若所述文本内容中含有目标关键词,则从所述文本内容中提取出在目标关键词预设范围内的文本内容;对所述目标关键词预设范围内的文本内容进行分词处理,以得到第二分词片段;确定各第二分词片段的语义类别,基于所述语义类别对各第二分词片段进行聚类分析,以分析出各第二分词片段的聚类簇;确定各第二分词片段的聚类簇的权重值,若有第二分词片段的聚类簇的权重值大于预设权重阈值,则确定待上传文本中包含待过滤信息。能够提高文本敏感信息的检测准确性,降低误报率。本发明还提出一种电子装置及存储介质。
Description
技术领域
本发明涉及文本信息检测领域,尤其涉及一种电子装置、文本信息检测方法及存储介质。
背景技术
随着信息技术和互联网的飞速发展,各类组织、单位以及个人通过网络进行各种文本内容的发布,甚至在一些时间段内被发布的文本内容达到上亿级别。通常为了保障网络内容的健康安全性,需要对待发布的文本内容进行审核。
目前,常用的审核方法是首先查找文本内容中的关键词,并对关键词进行人工审核以查找关键词中的敏感信息。这种方法对文本内容中的敏感信息检测的效率低下,且容易出现误报以及漏报的现象率,增加人力成本。因此,如何快速准确的确定文本敏感信息是亟待解决的技术问题。
发明内容
有鉴于此,本发明提出一种电子装置、文本信息检测方法及存储介质,能够降低文本敏感信息自动化检测的误报率,减少人工审核的工作量,提高工作效率和降低人工成本。
首先,为实现上述目的,本发明提出一种电子装置,所述电子装置包括存储器、及与所述存储器连接的处理器,所述处理器用于执行所述存储器上存储的文本信息检测程序,所述文本信息检测程序被所述处理器执行时实现如下步骤:
A1、获取待发布文本的文本内容;
A2、根据预先确定的关键词匹配规则对所述文本内容进行目标关键词匹配,若所述文本内容中含有目标关键词,则从所述文本内容中提取出在目标关键词预设范围内的文本内容;
A3、根据预定义步长对所述目标关键词预设范围内的文本内容进行分词处理,以得到第二分词片段;
A4,确定各第二分词片段的语义类别,基于所述语义类别对各第二分词片段进行聚类分析,以分析出各第二分词片段的聚类簇;
A5,根据预先确定的关键词的聚类簇与预设权重值之间的映射关系,确定各第二分词片段的聚类簇的权重值,若有第二分词片段的聚类簇的权重值大于预设权重阈值,则确定待上传文本中包含待过滤信息。
优选地,在所述步骤A2中,所述预先确定的关键词匹配规则为模糊匹配算法,所述根据预先确定的关键词匹配规则对所述文本内容进行目标关键词匹配的步骤,包括:
对所述文本内容进行分词处理,得到第一分词片段,其中,所述第一分词片段包括多个分词;
分别将所述第一分词片段中的各分词与预先确定的与所述目标关键词关联的关键词词库中的关键词进行匹配,以匹配出所述第一分词片段中的目标关键词。
优选地,所述目标关键词为与待过滤信息相关的关键词,所述待过滤信息为预设敏感信息。
优选地,在所述步骤A4中,所述语义类别是指根据所述目标关键词的语义划分的类别,所述步骤A4包括:
计算各第二分词片段的词向量;
基于计算得到的词向量对各第二分词片段进行语义分类,分别得到各第二分词片段的语义类别;
根据各第二分词片段的语义类别对各第二分词片段的进行聚类,得到各第二分词片段的聚类簇。
优选地,所述文本信息检测程序被所述处理器执行时还实现如下步骤:
分别遍历各第二分词片段,统计出各第二分词片段中各词出现的词频,形成词频集合;
从关联的关键词词库中查找关联关键词,形成关联关键词集合;
判断所述词频集合与所述关联关键词集合是否存在相同词;
若存在相同词,则更新相同词在关联关键词集合中的词频,若不存在相同词,则将词频集合中的词及其词频存入关联关键词集合中。
此外,为了实现上述目的,本发明还提出一种文本信息检测方法,所述方法包括如下步骤:
S1、获取待发布文本的文本内容;
S2、根据预先确定的关键词匹配规则对所述文本内容进行目标关键词匹配,若所述文本内容中含有目标关键词,则从所述文本内容中提取出在目标关键词预设范围内的文本内容;
S3、根据预定义步长对所述目标关键词预设范围内的文本内容进行分词处理,以得到第二分词片段;
S4,确定各第二分词片段的语义类别,基于所述语义类别对各第二分词片段进行聚类分析,以分析出各第二分词片段的聚类簇;
S5,根据预先确定的关键词的聚类簇与预设权重值之间的映射关系,确定各第二分词片段的聚类簇的权重值,若有第二分词片段的聚类簇的权重值大于预设权重阈值,则确定待上传文本中包含待过滤信息。
优选地,在所述步骤S2中,所述预先确定的关键词匹配规则为模糊匹配算法,所述根据预先确定的关键词匹配规则对所述文本内容进行目标关键词匹配的步骤,包括:
对所述文本内容进行分词处理,得到第一分词片段,其中,所述第一分词片段包括多个分词;
分别将所述第一分词片段中的各分词与预先确定的与所述目标关键词关联的关键词词库中的关键词进行匹配,以匹配出所述第一分词片段中的目标关键词。
优选地,在所述步骤S4中,所述语义类别是指根据所述目标关键词的语义划分的类别,所述步骤S4包括:
计算各第二分词片段的词向量;
基于计算得到的词向量对各第二分词片段进行语义分类,分别得到各第二分词片段的语义类别;
根据各第二分词片段的语义类别对各第二分词片段的进行聚类,得到各第二分词片段的聚类簇。
优选地,所述方法还包括如下步骤:
分别遍历各第二分词片段,统计出各第二分词片段中各词出现的词频,形成词频集合;
从关联的关键词词库中查找关联关键词,形成关联关键词集合;
判断所述词频集合与所述关联关键词集合是否存在相同词;
若存在相同词,则更新相同词在关联关键词集合中的词频,若不存在相同词,则将词频集合中的词及其词频存入关联关键词集合中。
此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有文本信息检测程序,所述文本信息检测程序可被至少一个处理器执行,以使所述至少一个处理器执行如上所述的文本信息检测方法的步骤。
本发明所提出的电子装置、文本信息检测方法及存储介质,通过获取待发布文本的文本内容;根据预先确定的关键词匹配规则对所述文本内容进行目标关键词匹配,若所述文本内容中含有目标关键词,则从所述文本内容中提取出在目标关键词预设范围内的文本内容;根据预定义步长对所述目标关键词预设范围内的文本内容进行分词处理,以得到第二分词片段;确定各第二分词片段的语义类别,基于所述语义类别对各第二分词片段进行聚类分析,以分析出各第二分词片段的聚类簇;根据预先确定的关键词的聚类簇与预设权重值之间的映射关系,确定各第二分词片段的聚类簇的权重值,若有第二分词片段的聚类簇的权重值大于预设权重阈值,则确定待上传文本中包含待过滤信息。能够降低文本敏感信息自动化检测的误报率,减少人工审核的工作量,提高工作效率和降低人工成本。
附图说明
图1是本发明提出的电子装置一可选的硬件架构的示意图;
图2是本发明电子装置一实施例中文本信息检测的程序模块示意图;
图3是本发明文本信息检测方法较佳实施例的实施流程图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参阅图1所示,是本发明提出的电子装置一可选的硬件架构示意图。本实施例中,电子装置10可包括,但不仅限于,可通过通信总线14相互通信连接存储器11、处理器12、网络接口13。需要指出的是,图1仅示出了具有组件11-14的电子装置10,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
其中,存储器11至少包括一种类型的计算机可读存储介质,计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器11可以是电子装置10的内部存储单元,例如电子装置10的硬盘或内存。在另一些实施例中,存储器11也可以是电子装置10的外包存储设备,例如电子装置10上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器11还可以既包括电子装置10的内部存储单元也包括其外包存储设备。本实施例中,存储器11通常用于存储安装于电子装置10的操作系统和各类应用软件,例如文本信息检测程序等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。处理器12通常用于控制电子装置10的总体操作。本实施例中,处理器12用于运行存储器11中存储的程序代码或者处理数据,例如运行的文本信息检测程序等。
网络接口13可包括无线网络接口或有线网络接口,网络接口13通常用于在电子装置10与其他电子设备之间建立通信连接。
通信总线14用于实现组件11-13之间的通信连接。
图1仅示出了具有组件11-14以及文本信息检测的电子装置10,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,电子装置10还可以包括用户接口(图1中未示出),用户接口可以包括显示器、输入单元比如键盘,其中,用户接口还可以包括标准的有线接口、无线接口等。
可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED触摸器等。进一步地,显示器也可称为显示屏或显示单元,用于显示在电子装置10中处理信息以及用于显示可视化的用户界面。
可选地,在一些实施例中,电子装置10还可以包括音频单元(音频单元图1中未示出),音频单元可以在电子装置10处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将接收的或者存储的音频数据转换为音频信号;进一步地,电子装置10还可以包括音频输出单元,音频输出单元将音频单元转换的音频信号输出,而且音频输出单元还可以提供与电子装置10执行的特定功能相关的音频输出(例如呼叫信号接收声音、消息接收声音等等),音频输出单元可以包括扬声器、蜂鸣器等等。
可选地,在一些实施例中,电子装置10还可以包括警报单元(图中未示出),警报单元可以提供输出已将事件的发生通知给电子装置10。典型的事件可以包括呼叫接收、消息接收、键信号输入、触摸输入等等。除了音频或者视频输出之外,警报单元可以以不同的方式提供输出以通知事件的发生。例如,警报单元可以以震动的形式提供输出,当接收到呼叫、消息或一些其他可以使电子装置10进入通信模式时,警报单元可以提供触觉输出(即,振动)以将其通知给用户。
在一实施例中,存储器11中存储的文本信息检测程序被处理器12执行时,实现如下操作:
A1,获取待发布文本的文本内容;
具体地,所述待发布文本可用为用户通过终端设备如智能手机、个人电脑等向电子装置上传至电子装置的文本,电子装置通常需要对用户上传的待发布文本的文本内容进行安全审核,例如微信公众号运营者通过终端设备上传的待发布文本的文本内容等。
A2,根据预先确定的关键词匹配规则对所述文本内容进行目标关键词匹配,若所述文本内容中含有目标关键词,则从所述文本内容中提取出在目标关键词预设范围内的文本内容;
具体地,所述预先确定的关键词匹配规则为模糊匹配算法,所述目标关键词为与待过滤信息相关的关键词,所述待过滤信息为预设敏感信息;所述根据预先确定的关键词匹配规则对所述文本内容进行目标关键词匹配的步骤,包括:
对所述文本内容进行分词处理,得到第一分词片段;具体地,所述分词处理的过程可以采用最大正向匹配、最大逆向匹配、双向最大匹配、基于统计的匹配等。所述第一分词片段包括多个分词。
分别将所述第一分词片段中的各分词与预先确定的与所述目标关键词关联的关键词词库中的关键词进行匹配,以匹配出所述第一分词片段中的目标关键词。
A3,根据预定义步长对所述目标关键词预设范围内的文本内容进行分词处理,以得到第二分词片段;
具体地,所述目标关键词预设范围可以是预先配置的值,例如配置为100的话,就提取该文本内容在目标关键词前面的最多100个字和后面的最多100个字作为预设范围内的文本内容。具体地,所述目标关键词的预设范围可以根据实际情况进行不同的设定,提高目标关键词判断的准确性。
具体地,所述根据预定义步长对所述目标关键词预设范围内的文本内容进行分词处理得到第二分词片段中的分词处理过程可采用的技术有最大正向匹配、最大逆向匹配、双向最大匹配,基于统计的匹配等。所述第二分词片段包括多个分词。
A4,确定各第二分词片段的语义类别,基于所述语义类别对各第二分词片段进行聚类分析,以分析出各第二分词片段的聚类簇;
具体地,所述语义类别是指根据所述目标关键词的语义划分的类别,包括但不限于:政治活动类、欺诈类、违法类等。在本实施例中,可以根据第二分词片段的词向量确定第二分词片段的语义类别,当然也并不限于此。具体地,所述确定各第二分词片段的语义类别的步骤,包括:计算各第二分词片段的词向量(例如采用Word2Vec算法计算词向量);基于计算得到的词向量对各第二分词片段进行语义分类,分别得到各第二分词片段的语义类别。进一步地,根据各第二分词片段的语义类别对各第二分词片段的进行聚类,得到各第二分词片段的聚类簇。需要说明的是,各第二分词片段的聚类簇内第二分词片段的相似度不小于阈值的词汇形成“或”关系。
A5,根据预先确定的关键词的聚类簇与预设权重值之间的映射关系,确定各第二分词片段的聚类簇的权重值,若有第二分词片段的聚类簇的权重值大于预设权重阈值,则确定待上传文本中包含待过滤信息。
具体地,在电子装置中,预先设置有预设权重阈值,当有第二分词片段的聚类簇的权重值大于该权重阈值,则确定待发布文本中包含待过滤信息。
进一步地,为了提高文本敏感信息的检测准确率,所述文本信息检测程序被所述处理器执行时还实现对关联的关键词词库进行训练,并不断地对关联的关键词词库进行更新的步骤,具体包括:
分别遍历各第二分词片段,统计出各第二分词片段中各词出现的词频,形成词频集合。具体地,在对第二分词片段进行分词处理后,遍历各第二分词片段中的每个分词,并进行词频统计,得到词频集合。
从关联的关键词词库中查找关联关键词,形成关联关键词集合。具体地,从预先确定的关联关键词词库中查找到与目标关键词相关的关联关键词,得到关联关键词集合。
判断所述词频集合与所述关联关键词集合是否存在相同词。具体地,遍历词频集合,查找是否有与关联关键词集合中相同的词。
若存在相同词,则更新相同词在关联关键词集合中的词频,若不存在相同词,将词频集合中的词及其词频存入关联关键词集合中。
具体地,所述更新相同词在关联关键词集合中的词频的步骤包括:
将相同的词在词频集合中的词频与其在关联关键词集合中的词频进行叠加;
将叠加后的词频作为新的词频存入关联关键词集合中。
通过上述分析可知,本发明实施例所提供的电子装置,能够对待发布文本的文本内容进行目标关键词和关联关键词的双重判断,降低文本敏感信息自动化检测的误报率,从而减少人工审核的工作量,提高工作效率和降低人工成本。此外,还可以对关联关键词库不断地进行更新,进一步提高文本敏感信息的检测准确性,降低误报率。
此外,本发明的文本信息检测依据其各部分所实现的功能不同,可用具有相同功能的程序模块进行描述。请参阅图2所示,是本发明电子装置一实施例中文本信息检测的程序模块示意图。本实施例中,文本信息检测依据其各部分所实现的功能的不同,可以被分割成获取模块201、匹配模块202、处理模块203、聚类模块204以及确定模块205。由上面的描述可知,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述文本信息检测程序在电子装置10中的执行过程。所述模块201-205所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:
获取模块201用于获取待发布文本的文本内容;
匹配模块202用于根据预先确定的关键词匹配规则对所述文本内容进行目标关键词匹配,若所述文本内容中含有目标关键词,则从所述文本内容中提取出在目标关键词预设范围内的文本内容;
处理模块203用于根据预定义步长对所述目标关键词预设范围内的文本内容进行分词处理,以得到第二分词片段;
聚类模块204用于确定各第二分词片段的语义类别,基于所述语义类别对各第二分词片段进行聚类分析,以分析出各第二分词片段的聚类簇;
确定模块205用于根据预先确定的关键词的聚类簇与预设权重值之间的映射关系,确定各第二分词片段的聚类簇的权重值,若有第二分词片段的聚类簇的权重值大于预设权重阈值,则确定待上传文本中包含待过滤信息。
此外,本发明还提出一种文本信息检测方法,请参阅图3所示,所述文本信息检测方法包括如下步骤:
S301,获取待发布文本的文本内容;
具体地,所述待发布文本可用为用户通过终端设备如智能手机、个人电脑等向电子装置上传至电子装置的文本,电子装置通常需要对用户上传的待发布文本的文本内容进行安全审核,例如微信公众号运营者通过终端设备上传的待发布文本的文本内容等。
S302,根据预先确定的关键词匹配规则对所述文本内容进行目标关键词匹配,若所述文本内容中含有目标关键词,则从所述文本内容中提取出在目标关键词预设范围内的文本内容;
具体地,所述预先确定的关键词匹配规则为模糊匹配算法,所述目标关键词为与待过滤信息相关的关键词,所述待过滤信息为预设敏感信息;所述根据预先确定的关键词匹配规则对所述文本内容进行目标关键词匹配的步骤,包括:
对所述文本内容进行分词处理,得到第一分词片段;具体地,所述分词处理的过程可以采用最大正向匹配、最大逆向匹配、双向最大匹配、基于统计的匹配等。所述第一分词片段包括多个分词。
分别将所述第一分词片段中的各分词与预先确定的与所述目标关键词关联的关键词词库中的关键词进行匹配,以匹配出所述第一分词片段中的目标关键词。
S303,根据预定义步长对所述目标关键词预设范围内的文本内容进行分词处理,以得到第二分词片段;
具体地,所述目标关键词预设范围可以是预先配置的值,例如配置为100的话,就提取该文本内容在目标关键词前面的最多100个字和后面的最多100个字作为预设范围内的文本内容。具体地,所述目标关键词的预设范围可以根据实际情况进行不同的设定,提高目标关键词判断的准确性。
具体地,所述根据预定义步长对所述目标关键词预设范围内的文本内容进行分词处理得到第二分词片段中的分词处理过程可采用的技术有最大正向匹配、最大逆向匹配、双向最大匹配,基于统计的匹配等。所述第二分词片段包括多个分词。
S304,确定各第二分词片段的语义类别,基于所述语义类别对各第二分词片段进行聚类分析,以分析出各第二分词片段的聚类簇;
具体地,所述语义类别是指根据所述目标关键词的语义划分的类别,包括但不限于:政治活动类、欺诈类、违法类等。在本实施例中,可以根据第二分词片段的词向量确定第二分词片段的语义类别,当然也并不限于此。具体地,所述确定各第二分词片段的语义类别的步骤,包括:计算各第二分词片段的词向量(例如采用Word2Vec算法计算词向量);基于计算得到的词向量对各第二分词片段进行语义分类,分别得到各第二分词片段的语义类别。进一步地,根据各第二分词片段的语义类别对各第二分词片段的进行聚类,得到各第二分词片段的聚类簇。需要说明的是,各第二分词片段的聚类簇内第二分词片段的相似度不小于阈值的词汇形成“或”关系。
S305,根据预先确定的关键词的聚类簇与预设权重值之间的映射关系,确定各第二分词片段的聚类簇的权重值,若有第二分词片段的聚类簇的权重值大于预设权重阈值,则确定待上传文本中包含待过滤信息。
具体地,在电子装置中,预先设置有预设权重阈值,当有第二分词片段的聚类簇的权重值大于该权重阈值,则确定待发布文本中包含待过滤信息。
进一步地,为了提高文本敏感信息的检测准确率,所述文本信息检测程序被所述处理器执行时还实现对关联的关键词词库进行训练,并不断地对关联的关键词词库进行更新的步骤,具体包括:
分别遍历各第二分词片段,统计出各第二分词片段中各词出现的词频,形成词频集合。具体地,在对第二分词片段进行分词处理后,遍历各第二分词片段中的每个分词,并进行词频统计,得到词频集合。
从关联的关键词词库中查找关联关键词,形成关联关键词集合。具体地,从预先确定的关联关键词词库中查找到与目标关键词相关的关联关键词,得到关联关键词集合。
判断所述词频集合与所述关联关键词集合是否存在相同词。具体地,遍历词频集合,查找是否有与关联关键词集合中相同的词。
若存在相同词,则更新相同词在关联关键词集合中的词频,若不存在相同词,将词频集合中的词及其词频存入关联关键词集合中。
具体地,所述更新相同词在关联关键词集合中的词频的步骤包括:
将相同的词在词频集合中的词频与其在关联关键词集合中的词频进行叠加;
将叠加后的词频作为新的词频存入关联关键词集合中。
通过上述分析可知,本发明实施例所提供的文本信息检测方法,能够对待发布文本的文本内容进行目标关键词和关联关键词的双重判断,降低文本敏感信息自动化检测的误报率,从而减少人工审核的工作量,提高工作效率和降低人工成本。此外,还可以对关联关键词库不断地进行更新,进一步提高文本敏感信息的检测准确性,降低误报率。
此外,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有文本信息检测程序,所述文本信息检测程序被处理器执行时实现如下操作:
获取待发布文本的文本内容;
根据预先确定的关键词匹配规则对所述文本内容进行目标关键词匹配,若所述文本内容中含有目标关键词,则从所述文本内容中提取出在目标关键词预设范围内的文本内容;
根据预定义步长对所述目标关键词预设范围内的文本内容进行分词处理,以得到第二分词片段;
确定各第二分词片段的语义类别,基于所述语义类别对各第二分词片段进行聚类分析,以分析出各第二分词片段的聚类簇;
根据预先确定的关键词的聚类簇与预设权重值之间的映射关系,确定各第二分词片段的聚类簇的权重值,若有第二分词片段的聚类簇的权重值大于预设权重阈值,则确定待上传文本中包含待过滤信息。
本发明计算机可读存储介质的具体实施过程,与上述电子装置以及基于混肴二进制码的图片删除方法的具体实施过程类似,在此不再赘述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,电子装置电子装置,空调器,或者网络设备等)执行本发明各个实施例所述的方法。以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种电子装置,其特征在于,所述电子装置包括存储器、及与所述存储器连接的处理器,所述处理器用于执行所述存储器上存储的文本信息检测程序,所述文本信息检测程序被所述处理器执行时实现如下步骤:
A1、获取待发布文本的文本内容;
A2、根据预先确定的关键词匹配规则对所述文本内容进行目标关键词匹配,若所述文本内容中含有目标关键词,则从所述文本内容中提取出在目标关键词预设范围内的文本内容;
A3、根据预定义步长对所述目标关键词预设范围内的文本内容进行分词处理,以得到第二分词片段;
A4,确定各第二分词片段的语义类别,基于所述语义类别对各第二分词片段进行聚类分析,以分析出各第二分词片段的聚类簇;
A5,根据预先确定的关键词的聚类簇与预设权重值之间的映射关系,确定各第二分词片段的聚类簇的权重值,若有第二分词片段的聚类簇的权重值大于预设权重阈值,则确定待上传文本中包含待过滤信息。
2.如权利要求1所述的电子装置,其特征在于,在所述步骤A2中,所述预先确定的关键词匹配规则为模糊匹配算法,所述根据预先确定的关键词匹配规则对所述文本内容进行目标关键词匹配的步骤,包括:
对所述文本内容进行分词处理,得到第一分词片段,其中,所述第一分词片段包括多个分词;
分别将所述第一分词片段中的各分词与预先确定的与所述目标关键词关联的关键词词库中的关键词进行匹配,以匹配出所述第一分词片段中的目标关键词。
3.如权利要求2所述的电子装置,其特征在于,所述目标关键词为与待过滤信息相关的关键词,所述待过滤信息为预设敏感信息。
4.如权利要求1所述的电子装置,其特征在于,在所述步骤A4中,所述语义类别是指根据所述目标关键词的语义划分的类别,所述步骤A4包括:
计算各第二分词片段的词向量;
基于计算得到的词向量对各第二分词片段进行语义分类,分别得到各第二分词片段的语义类别;
根据各第二分词片段的语义类别对各第二分词片段的进行聚类,得到各第二分词片段的聚类簇。
5.如权利要求1-4任一所述的电子装置,其特征在于,所述文本信息检测程序被所述处理器执行时还实现如下步骤:
分别遍历各第二分词片段,统计出各第二分词片段中各词出现的词频,形成词频集合;
从关联的关键词词库中查找关联关键词,形成关联关键词集合;
判断所述词频集合与所述关联关键词集合是否存在相同词;
若存在相同词,则更新相同词在关联关键词集合中的词频,若不存在相同词,则将词频集合中的词及其词频存入关联关键词集合中。
6.一种文本信息检测方法,其特征在于,所述方法包括如下步骤:
S1、获取待发布文本的文本内容;
S2、根据预先确定的关键词匹配规则对所述文本内容进行目标关键词匹配,若所述文本内容中含有目标关键词,则从所述文本内容中提取出在目标关键词预设范围内的文本内容;
S3、根据预定义步长对所述目标关键词预设范围内的文本内容进行分词处理,以得到第二分词片段;
S4,确定各第二分词片段的语义类别,基于所述语义类别对各第二分词片段进行聚类分析,以分析出各第二分词片段的聚类簇;
S5,根据预先确定的关键词的聚类簇与预设权重值之间的映射关系,确定各第二分词片段的聚类簇的权重值,若有第二分词片段的聚类簇的权重值大于预设权重阈值,则确定待上传文本中包含待过滤信息。
7.如权利要求6所述的文本信息检测方法,其特征在于,在所述步骤S2中,所述预先确定的关键词匹配规则为模糊匹配算法,所述根据预先确定的关键词匹配规则对所述文本内容进行目标关键词匹配的步骤,包括:
对所述文本内容进行分词处理,得到第一分词片段,其中,所述第一分词片段包括多个分词;
分别将所述第一分词片段中的各分词与预先确定的与所述目标关键词关联的关键词词库中的关键词进行匹配,以匹配出所述第一分词片段中的目标关键词。
8.如权利要求6所述的文本信息检测方法,其特征在于,在所述步骤S4中,所述语义类别是指根据所述目标关键词的语义划分的类别,所述步骤S4包括:
计算各第二分词片段的词向量;
基于计算得到的词向量对各第二分词片段进行语义分类,分别得到各第二分词片段的语义类别;
根据各第二分词片段的语义类别对各第二分词片段的进行聚类,得到各第二分词片段的聚类簇。
9.如权利要求6所述的文本信息检测方法,其特征在于,所述方法还包括如下步骤:
分别遍历各第二分词片段,统计出各第二分词片段中各词出现的词频,形成词频集合;
从关联的关键词词库中查找关联关键词,形成关联关键词集合;
判断所述词频集合与所述关联关键词集合是否存在相同词;
若存在相同词,则更新相同词在关联关键词集合中的词频,若不存在相同词,则将词频集合中的词及其词频存入关联关键词集合中。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有文本信息检测程序,所述文本信息检测程序可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求6-9中任一项所述的文本信息检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811256479.XA CN109614608A (zh) | 2018-10-26 | 2018-10-26 | 电子装置、文本信息检测方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811256479.XA CN109614608A (zh) | 2018-10-26 | 2018-10-26 | 电子装置、文本信息检测方法及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109614608A true CN109614608A (zh) | 2019-04-12 |
Family
ID=66002774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811256479.XA Pending CN109614608A (zh) | 2018-10-26 | 2018-10-26 | 电子装置、文本信息检测方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109614608A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276067A (zh) * | 2019-05-07 | 2019-09-24 | 阿里巴巴集团控股有限公司 | 文本意图确定方法以及装置 |
CN111177362A (zh) * | 2019-12-30 | 2020-05-19 | 深圳市梦网科技发展有限公司 | 一种信息处理方法、装置、服务器及介质 |
CN112036187A (zh) * | 2020-07-09 | 2020-12-04 | 上海极链网络科技有限公司 | 一种结合上下文语境的视频弹幕文本审核方法及系统 |
CN112417144A (zh) * | 2019-08-22 | 2021-02-26 | 中国移动通信有限公司研究院 | 一种数据处理方法、装置、设备及存储介质 |
CN112579738A (zh) * | 2020-12-23 | 2021-03-30 | 广州博冠信息科技有限公司 | 目标对象的标签处理方法、装置、设备及存储介质 |
CN112650849A (zh) * | 2019-09-25 | 2021-04-13 | 北京国双科技有限公司 | 文件的处理方法、装置、存储介质和设备 |
WO2021129123A1 (zh) * | 2019-12-25 | 2021-07-01 | 华为技术有限公司 | 语料数据处理方法、装置、服务器和存储介质 |
CN113591489A (zh) * | 2021-07-30 | 2021-11-02 | 中国平安人寿保险股份有限公司 | 语音交互方法、装置及相关设备 |
CN114998920A (zh) * | 2022-06-27 | 2022-09-02 | 北京智慧金源供应链管理有限公司 | 基于nlp语义识别的供应链金融文件管理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017101342A1 (zh) * | 2015-12-15 | 2017-06-22 | 乐视控股(北京)有限公司 | 情感分类方法及装置 |
CN107943954A (zh) * | 2017-11-24 | 2018-04-20 | 杭州安恒信息技术有限公司 | 网页敏感信息的检测方法、装置及电子设备 |
CN108268554A (zh) * | 2017-01-03 | 2018-07-10 | 中国移动通信有限公司研究院 | 一种生成垃圾短信过滤策略的方法和装置 |
CN108519970A (zh) * | 2018-02-06 | 2018-09-11 | 平安科技(深圳)有限公司 | 文本中敏感信息的鉴定方法、电子装置及可读存储介质 |
-
2018
- 2018-10-26 CN CN201811256479.XA patent/CN109614608A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017101342A1 (zh) * | 2015-12-15 | 2017-06-22 | 乐视控股(北京)有限公司 | 情感分类方法及装置 |
CN108268554A (zh) * | 2017-01-03 | 2018-07-10 | 中国移动通信有限公司研究院 | 一种生成垃圾短信过滤策略的方法和装置 |
CN107943954A (zh) * | 2017-11-24 | 2018-04-20 | 杭州安恒信息技术有限公司 | 网页敏感信息的检测方法、装置及电子设备 |
CN108519970A (zh) * | 2018-02-06 | 2018-09-11 | 平安科技(深圳)有限公司 | 文本中敏感信息的鉴定方法、电子装置及可读存储介质 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276067A (zh) * | 2019-05-07 | 2019-09-24 | 阿里巴巴集团控股有限公司 | 文本意图确定方法以及装置 |
CN110276067B (zh) * | 2019-05-07 | 2022-11-22 | 创新先进技术有限公司 | 文本意图确定方法以及装置 |
CN112417144A (zh) * | 2019-08-22 | 2021-02-26 | 中国移动通信有限公司研究院 | 一种数据处理方法、装置、设备及存储介质 |
CN112650849A (zh) * | 2019-09-25 | 2021-04-13 | 北京国双科技有限公司 | 文件的处理方法、装置、存储介质和设备 |
WO2021129123A1 (zh) * | 2019-12-25 | 2021-07-01 | 华为技术有限公司 | 语料数据处理方法、装置、服务器和存储介质 |
CN111177362A (zh) * | 2019-12-30 | 2020-05-19 | 深圳市梦网科技发展有限公司 | 一种信息处理方法、装置、服务器及介质 |
CN111177362B (zh) * | 2019-12-30 | 2023-08-22 | 深圳市梦网科技发展有限公司 | 一种信息处理方法、装置、服务器及介质 |
CN112036187A (zh) * | 2020-07-09 | 2020-12-04 | 上海极链网络科技有限公司 | 一种结合上下文语境的视频弹幕文本审核方法及系统 |
CN112579738A (zh) * | 2020-12-23 | 2021-03-30 | 广州博冠信息科技有限公司 | 目标对象的标签处理方法、装置、设备及存储介质 |
CN113591489A (zh) * | 2021-07-30 | 2021-11-02 | 中国平安人寿保险股份有限公司 | 语音交互方法、装置及相关设备 |
CN113591489B (zh) * | 2021-07-30 | 2023-07-18 | 中国平安人寿保险股份有限公司 | 语音交互方法、装置及相关设备 |
CN114998920A (zh) * | 2022-06-27 | 2022-09-02 | 北京智慧金源供应链管理有限公司 | 基于nlp语义识别的供应链金融文件管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109614608A (zh) | 电子装置、文本信息检测方法及存储介质 | |
CN108090567B (zh) | 电力通信系统故障诊断方法及装置 | |
CN110020422B (zh) | 特征词的确定方法、装置和服务器 | |
CN110334241A (zh) | 客服录音的质检方法、装置、设备及计算机可读存储介质 | |
CN108614970B (zh) | 病毒程序的检测方法、模型训练方法、装置及设备 | |
CN110363076A (zh) | 人员信息关联方法、装置及终端设备 | |
CN108304452B (zh) | 文章处理方法及装置、存储介质 | |
CN109544862A (zh) | 基于智能家居的行为识别方法、装置、存储介质及设备 | |
CN109412839A (zh) | 一种异常账户的识别方法、装置、设备及存储介质 | |
CN111753192A (zh) | 广告弹窗拦截方法、装置、电子设备及存储介质 | |
CN104951553B (zh) | 一种数据处理准确的内容搜集与数据挖掘平台及其实现方法 | |
CN110458296A (zh) | 目标事件的标记方法和装置、存储介质及电子装置 | |
CN113379469A (zh) | 一种异常流量检测方法、装置、设备及存储介质 | |
CN110309402A (zh) | 检测网站的方法和系统 | |
CN116956080A (zh) | 一种数据处理方法、装置以及存储介质 | |
CN110263121A (zh) | 表格数据处理方法、装置、电子装置及计算机可读存储介质 | |
CN113378161A (zh) | 一种安全检测方法、装置、设备及存储介质 | |
CN108875050B (zh) | 面向文本的数字取证分析方法、装置和计算机可读介质 | |
CN110728146A (zh) | 舆情发现方法、装置、终端设备以及存储介质 | |
CN114817518B (zh) | 基于大数据档案识别的证照办理方法、系统及介质 | |
CN114265777B (zh) | 应用程序的测试方法、装置、电子设备及存储介质 | |
CN110414579A (zh) | 元数据模型合标性检查方法及装置、存储介质 | |
CN113452700B (zh) | 处理安全信息的方法、装置、设备以及存储介质 | |
CN109145609A (zh) | 一种数据处理方法和装置 | |
CN105551500B (zh) | 一种音频信号处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |