CN111368061B - 短文本过滤方法、装置、介质及计算机设备 - Google Patents
短文本过滤方法、装置、介质及计算机设备 Download PDFInfo
- Publication number
- CN111368061B CN111368061B CN201811594130.7A CN201811594130A CN111368061B CN 111368061 B CN111368061 B CN 111368061B CN 201811594130 A CN201811594130 A CN 201811594130A CN 111368061 B CN111368061 B CN 111368061B
- Authority
- CN
- China
- Prior art keywords
- text
- preset
- detected
- word segmentation
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000011218 segmentation Effects 0.000 claims abstract description 118
- 239000013598 vector Substances 0.000 claims abstract description 33
- 238000004364 calculation method Methods 0.000 claims description 39
- 238000004590 computer program Methods 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 8
- 230000036651 mood Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 7
- 238000013145 classification model Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种短文本过滤方法、装置、介质和计算机设备,包括:获取待检测文本,所述待检测文本为短文本;对所述待检测文本进行分词,获取包含至少一个词向量的分词结果;计算所述分词结果与预设的语料数据库的相关度,根据所述相关度对所述待检测文本进行过滤。采用上述短文本过滤方法、装置、介质和计算机设备,可以提高短文本过滤的准确率。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种短文本过滤方法、装置、计算机设备及存储介质。
背景技术
随着深度学习技术的发展和计算机性能的提升,深度学习技术广泛应用于各个领域,尤其是在机器人领域中对机器人进行分类训练或模型训练。然而,在模型训练的过程中,部分与训练任务无关的语料也会进入到模型中,这就使得模型出现误判。也就是说,深度学习文本、短文本分类模型对未知文本的预测存在准确性不足的问题。
发明内容
基于此,有必要针对上述问题,提出一种识别率高的短文本过滤方法、装置和计算机设备。
在本发明的第一方面,提出了一种短文本过滤方法,所述方法包括:
获取待检测文本,所述待检测文本为短文本;
对所述待检测文本进行分词,获取包含至少一个词向量的分词结果;
计算所述分词结果与预设的语料数据库的相关度,根据所述相关度对所述待检测文本进行过滤。
在其中一个实施例中,所述预设的语料数据库包含多条语料文本;
所述计算所述分词结果与预设的语料数据库的相关度,还包括:
按照预设的相似度计算算法分别计算所述分词结果与每一条语料文本之间的相似度;
获取所述相似度计算结果中的最大值为目标相似度,作为所述分词结果与预设的语料数据库的相关度。
在其中一个实施例中,所述计算所述分词结果与预设的语料数据库的相关度,还包括:
按照预设的编辑距离计算公式分别计算所述分词结果与每一条语料文本之间的编辑距离;
获取所述编辑距离计算结果中的最大值为目标编辑距离,作为所述分词结果与预设的语料数据库的相关度。
在其中一个实施例中,所述根据所述相关度对所述待检测文本进行过滤,还包括:
确定所述目标相似度大于或等于预设的第一阈值;
在所述目标相似度大于或等于所述第一阈值的情况下,判定所述待检测文本为相关文本;
在所述目标相似度小于所述第一阈值的情况下,执行所述按照预设的编辑距离计算公式分别计算所述分词结果与每一条语料文本之间的编辑距离;确定所述目标编辑距离大于或等于预设的第二阈值;判定所述待检测文本为相关文本。
在其中一个实施例中,所述确定所述目标编辑距离大于或等于预设的第二阈值之后,还包括:
在所述目标编辑距离小于所述第二阈值的情况下,确定所述目标相似度大于预设第三阈值、且目标编辑距离大于预设的第四阈值;
在所述预设的关键词数据库查找与所述待检测文本匹配的关键词关键词,在查找到的情况下,判定所述待检测文本为相关文本。
在其中一个实施例中,所述对所述待检测文本进行分词的步骤之前还包括:
按照预设的文本改写算法对所述待检测文本进行改写,所述改写后的待检测文本中不包含预设的辅助词。
在其中一个实施例中,所述对所述待检测文本进行分词,还包括:
根据预设的关键词数据库对所述待检测文本进行分词,所述分词结果包括与所述预设的关键词数据库中包含的关键词对应的词向量以及多个字向量。
在本发明的第二方面,提出了一种短文本过滤装置,所述装置包括:
待检测文本获取模块,用于获取待检测文本,所述待检测文本为短文本;
分词处理模块,用于对所述待检测文本进行分词,获取包含至少一个词向量的分词结果;
文本过滤模块,用于计算所述分词结果与预设的语料数据库的相关度,根据所述相关度对所述待检测文本进行过滤。
在其中一个实施例中,所述预设的语料数据库包含多条语料文本;所述文本过滤模块还用于按照预设的相似度计算算法分别计算所述分词结果与每一条语料文本之间的相似度;获取所述相似度计算结果中的最大值为目标相似度,作为所述分词结果与预设的语料数据库的相关度。
在其中一个实施例中,所述文本过滤模块还用于按照预设的编辑距离计算公式分别计算所述分词结果与每一条语料文本之间的编辑距离;获取所述编辑距离计算结果中的最大值为目标编辑距离,作为所述分词结果与预设的语料数据库的相关度。
在其中一个实施例中,所述文本过滤模块还用于确定所述目标相似度大于或等于预设的第一阈值;在所述目标相似度大于或等于所述第一阈值的情况下,判定所述待检测文本为相关文本;在所述目标相似度小于所述第一阈值的情况下,执行所述按照预设的编辑距离计算公式分别计算所述分词结果与每一条语料文本之间的编辑距离;确定所述目标编辑距离大于或等于预设的第二阈值;判定所述待检测文本为相关文本。
在其中一个实施例中,所述文本过滤模块还用于在所述目标编辑距离小于所述第二阈值的情况下,确定所述目标相似度大于预设第三阈值、且目标编辑距离大于预设的第四阈值;在所述预设的关键词数据库查找与所述待检测文本匹配的关键词关键词,在查找到的情况下,判定所述待检测文本为相关文本。
在其中一个实施例中,所述装置还包括文本改写模块,用于按照预设的文本改写算法对所述待检测文本进行改写,所述改写后的待检测文本中不包含预设的辅助词。
在其中一个实施例中,所述分词处理模块还用于根据预设的关键词数据库对所述待检测文本进行分词,所述分词结果包括与所述预设的关键词数据库中包含的关键词对应的词向量以及多个字向量。
在本发明的第三方面,还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取待检测文本,所述待检测文本为短文本;
对所述待检测文本进行分词,获取包含至少一个词向量的分词结果;
计算所述分词结果与预设的语料数据库的相关度,根据所述相关度对所述待检测文本进行过滤。
在本发明的第四方面,还提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取待检测文本,所述待检测文本为短文本;
对所述待检测文本进行分词,获取包含至少一个词向量的分词结果;
计算所述分词结果与预设的语料数据库的相关度,根据所述相关度对所述待检测文本进行过滤。
本发明提出了一种短文本过滤方法、装置和计算机设备,在需要对短文本进行进一步的分类、预测等操作之前,首先对短文本进行过滤处理,具体通过对短文本进行分词,然后计算分词结果与预设的语料数据库之间是否是相关的来确定该短文本是否为相关文本,根据是否为相关文本对短文本进行过滤。也就是说,只有通过上述过程被判定为相关文本的短文本才会进入到下一个环节进行分类、预测或其他操作,从而提高了深度学习短文本预测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中短文本过滤方法的实现流程示意图;
图2为一个实施例中短文本过滤方法的实现流程示意图;
图3为一个实施例中短文本过滤方法的实现流程示意图;
图4为一个实施例中短文本过滤方法的实现流程示意图;
图5为一个实施例中短文本过滤方法的实现流程示意图;
图6为一个实施例中短文本过滤装置的结构示意图;
图7为一个实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本实施例中,特提出了一种短文本过滤方法,该方法的实现可依赖于计算机程序,该计算机程序可运行于基于冯诺依曼体系的计算机系统之上,该计算机程序可以是对文本、短文本进行过滤的应用程序。该计算机系统可以是运行上述计算机程序的例如智能手机、平板电脑、个人电脑等计算机设备。需要说明的是,在本实施例中,上述短文本过滤方法可以用于对机器人进行训练的过程。
如图1所示,在一个实施例中,提供了一种短文本过滤方法,具体包括如下步骤:
步骤S102:获取待检测文本,所述待检测文本为短文本。
待检测文本,为一个包含一个或者多个汉字的文本,例如,可以是通过语音识别获取的文本,也可以是实时获取的用户直接输入的短文本信息,或者是实时获取的计算机设备当前需要处理的短文本信息,还可以是获取预存储在计算机设备或其他设备中的需要进行过滤处理的短文本信息。其中,短文本是相对于长文本来讲的,短文本句子短,信息量少且重要,也即短文本中包含的信息比较稠密。
例如,在本实施例中,待检测文本为:我要去吃饭。
在一个具体的实施例中,待检测文本可以是对机器人进行训练的训练语料。
在本实施例中,在获取到待检测文本之后,还需要对原始的短文本进行一些处理,比如去除停用词(标点符号)、语气助词、口语词、客套词、动词叠词等,然后才得到最终的待检测的短文本。
在一个具体的实施例中,上述步骤S102之后,还包括:按照预设的文本改写算法对所述待检测文本进行改写,所述改写后的待检测文本中不包含预设的辅助词。其中,预设的辅助词包括但不限于停用词(标点符号)、语气助词、口语词、客套词、动词叠词等。如,“左转啊”、“嗯,左转”、“麻烦左转”、“左转转”改为“左转”。
需要说明的是,在本实施例中,对待检测文本的改写还可以不限于上述辅助次的删除,还可以是其他文本的改写,在本实施例中不做限制。
步骤S104:对所述待检测文本进行分词,获取包含至少一个词向量的分词结果。
在本实施例中,在对短文本进行过滤的过程中,首先要对短文本进行分词处理,将短文本拆分成若干个字或词的组合。例如,将“我想去北京看看”进行分词处理得到的分词结果为:我,想,去,北京,看,看。
在本实施例中,考虑到短文本的特殊性,对待检测文本尽量按字为单位进行切割,但是,除了预设的关键词数据库中包含的关键词除外。也就是说,在对待检测文本进行分词处理的过程中,是根据预设的关键词数据库对所述待检测文本进行分词处理的,且除了在该关键词数据库中包含的关键词之外,其余的均按字为单位进行切割,也就是说,分词结果包括与预设的关键词数据库中包含的关键词对应的词向量、以及若干个字向量。
例如,“我想去北京看看”中“北京”为数据库里的关键词,因此,进行分词处理得到的分词结果为:我,想,去,北京,看,看。
在本实施例中,对短文本尽量按字进行切割时考虑到了短文本的字数较少,按词进行切分可能导致对应的词向量的数量过少,不利于后续的相似度、相关度的计算;而关键词数据库中的关键词予以保留是为了在短文本的基础上尽量多的保留一些重要信息。
步骤S106:计算所述分词结果与预设的语料数据库的相关度,根据所述相关度对所述待检测文本进行过滤。
待检测文本是否需要进行过滤是通过待检测文本的分词结果与相应的语料数据库之间进行比对来确定的。例如,在待检测文本对应的分词结果与语料数据库之间是匹配度情况下,待检测文本为相关文本,不需要进行过滤,反之,待检测文本为不相关文本,需要进行过滤。
在本实施例中,通过预设的算法计算待检测文本对应的分词结果与语料数据库之间的相关度,然后根据该相关度信息来确定待检测文本是否为相关文本,并确定是否进行过滤处理。
在一个具体的实施例中,预设的语料数据库包含多条语料文本;在计算待检测文本与语料数据库之间的相关度时,可以通过计算待检测文本对应的分词结果与每一个预料文本之间的相似度来进行。具体的,上述计算所述分词结果与预设的语料数据库的相关度,还包括:按照预设的相似度计算算法分别计算所述分词结果与每一条语料文本之间的相似度;获取所述相似度计算结果中的最大值为目标相似度,作为所述分词结果与预设的语料数据库的相关度。
具体的,待检测文本分词后的分词结果与分完词的语料数据库中的语料文本逐条进行jaccard相似度计算。具体的,令A、B为两个不同的文本(例如,A为待检测文本对应的分词结果,B为语料数据库中的语料文本),则,jaccard相似度公式为:
并且,针对所有的语料文本,记录jaccard相似度最高的分值max_jaccard,并将max_jaccard作为目标相似度,并作为分词结果与预设的语料数据库的相关度。
进一步的,如图2所示,上述根据所述相关度对所述待检测文本进行过滤的具体过程为:判断确定目标相似度是否大于或等于预设的第一阈值;若是,判定所述待检测文本为相关文本;反之,所述待检测文本不为相关文本。
例如,在jaccard相似度的最高分值大于第一阈值(0.7)的情况下,即max_jaccard>0.7,待检测文本是预设语料数据库相关的文本,不需要过滤。
在另一个实施例中,待检测文本与语料数据库之间的相关度的计算不仅需要考虑待检测文本与语料文本之间相似度,还需要考虑其他维度的相关度。
具体的,在一个实施例中,上述计算分词结果与预设的语料数据库的相关度的过程还包括:按照预设的编辑距离计算公式分别计算所述分词结果与每一条语料文本之间的编辑距离;获取所述编辑距离计算结果中的最大值为目标编辑距离,作为所述分词结果与预设的语料数据库的相关度。
待检测文本对应的分词结果与分完词的语料文本逐条进行编辑距离相似度计算,相似度高于预设的第二阈值则为相关文本。
具体的,令T为两个文本(A、B)中词向量/字向量的总数,令M为A、B中相同字的个数,编辑距离相似度公式为:
并且,针对所有的语料文本,记录编辑距离的最高分值max_edit作为目标编辑距离,即待检测文本与语料数据库之间的编辑距离。
进一步的,如图3所示,上述根据所述相关度对所述待检测文本进行过滤的具体过程为:判断确定目标编辑距离是否大于或等于预设的第二阈值;若是,判定所述待检测文本为相关文本;反之,所述待检测文本不为相关文本。
例如,在编辑距离edit的最高分值max_edit大于第二阈值(0.8)的情况下,即max_edit>0.8,待检测文本是预设语料数据库相关的文本,不需要过滤。
在另一个可选的实施例中,在考虑是否需要将待检测文本进行过滤时,不仅需要考虑jaccard相似度,还需要考虑编辑距离edit。
具体地,如图4所示,判断确定目标相似度是否大于或等于预设的第一阈值;若是,判定所述待检测文本为相关文本;反之,在所述目标相似度小于所述第一阈值的情况下,需要进一步的考虑编辑距离的大小,即进一步判断所述目标编辑距离是否大于或等于预设的第二阈值;若是,判定所述待检测文本为相关文本,反之,待检测文本为不相关文本,需要进行过滤。
在另一个实施例中,还可能存在一种情况,相似度和编辑距离均较小,但是其可能也为相关文本。在这种情况下,还可以考虑在待检测文本中包含某些关键词的情况,可以降低对相似度、编辑距离等相关度的要求,从而避免过多的相关文本被过滤。
如图5所示,在目标相似度和目标编辑距离均小于预设的第一/第二阈值的情况下,进一步判断目标相似度是否大于预设第三阈值、且目标编辑距离是否大于预设的第四阈值,在均是的情况下,判断预设的关键词数据库中是否包含了与所述待检测文本匹配的关键词,若是,判定所述待检测文本为相关文本,反之,待检测文本为不相关文本,需要进行过滤。例如,可以取第三阈值为0.5,第四阈值为0.5。
例如,在max_jaccard=0.6,max_edit=0.55的情况下,max_jaccard<0.7,且max_edit<0.8,但是,在该待检测文本中包含了预设的关键词,则进一步判断max_jaccard>0.5,且max_edit>0.5,从而判断待检测文本为相关文本。
在本发明实施例中,对于对话、命令等语料对应的短文本,在进行具体的模型训练或分类之前,首先对短文本进行过滤,从而避免了太多的不相关文本进入到训练模型或分类模型,造成较大的误差。具体的,通过对短文本进行分词并将分词结果与预设的语料数据库进行比对,从而确定相应的短文本是否与语料数据库是相关的,从而判断短文本是否为相关文本,是否需要进行过滤,从而大大的提高,深度学习文本、短文本分类模型对未知文本的预测的准确性。
如图6所示,本发明实施例还提供一种短文本过滤装置。具体的,如图6所示,所述短文本过滤装置包括:
待检测文本获取模块102,用于获取待检测文本,所述待检测文本为短文本;
分词处理模块104,用于对所述待检测文本进行分词,获取包含至少一个词向量的分词结果;
文本过滤模块106,用于计算所述分词结果与预设的语料数据库的相关度,根据所述相关度对所述待检测文本进行过滤。
上述短文本过滤装置,首先获取待检测的短文本(即待检测文本);同时将所述待检测文本进行分词,得到分词结果,所述分词结果中包含多个词向量;然后针对预设语料数据库中包含的语料文本,计算其与待检测文本对应的分词结果之间的相关度,从而根据相关度计算结果来确定待检测文本是否为相关文本,并据此对待检测文本进行过滤。上述对短文本进行过滤减少了不相关的短文本进入到下一步的深度学习(例如模型训练、分类)环节中,提高了深度学习的准确性。
在其中一个实施例中,所述预设的语料数据库包含多条语料文本;所述文本过滤模块106还用于按照预设的相似度计算算法分别计算所述分词结果与每一条语料文本之间的相似度;获取所述相似度计算结果中的最大值为目标相似度,作为所述分词结果与预设的语料数据库的相关度。
在其中一个实施例中,所述文本过滤模块106还用于按照预设的编辑距离计算公式分别计算所述分词结果与每一条语料文本之间的编辑距离;获取所述编辑距离计算结果中的最大值为目标编辑距离,作为所述分词结果与预设的语料数据库的相关度。
在其中一个实施例中,所述文本过滤模块106还用于确定所述目标相似度大于或等于预设的第一阈值;在所述目标相似度大于或等于所述第一阈值的情况下,判定所述待检测文本为相关文本;在所述目标相似度小于所述第一阈值的情况下,执行所述按照预设的编辑距离计算公式分别计算所述分词结果与每一条语料文本之间的编辑距离;确定所述目标编辑距离大于或等于预设的第二阈值;判定所述待检测文本为相关文本。
在其中一个实施例中,所述文本过滤模块106还用于在所述目标编辑距离小于所述第二阈值的情况下,确定所述目标相似度大于预设第三阈值、且目标编辑距离大于预设的第四阈值;在所述预设的关键词数据库查找与所述待检测文本匹配的关键词关键词,在查找到的情况下,判定所述待检测文本为相关文本。
在其中一个实施例中,如图6所示,上述装置还包括文本改写模块108,用于按照预设的文本改写算法对所述待检测文本进行改写,所述改写后的待检测文本中不包含预设的辅助词。
在其中一个实施例中,所述分词处理模块104还用于根据预设的关键词数据库对所述待检测文本进行分词,所述分词结果包括与所述预设的关键词数据库中包含的关键词对应的词向量以及多个字向量。
图7示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是服务器。如图7所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现短文本过滤方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行短文本过滤方法。网络接口用于与外部进行通信。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的短文本过滤方法可以实现为一种计算机程序的形式,计算机程序可在如图7所示的计算机设备上运行。计算机设备的存储器中可存储组成短文本过滤装置的各个程序模板。比如,待检测文本获取模块102、分词处理模块104、文本过滤模块。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
上述计算机设备,在其中一个实施例中,上述计算机程序被所述处理器执行时,还用于执行以下步骤:
获取待检测文本,所述待检测文本为短文本;
对所述待检测文本进行分词,获取包含至少一个词向量的分词结果;
计算所述分词结果与预设的语料数据库的相关度,根据所述相关度对所述待检测文本进行过滤。
在其中一个实施例中,所述预设的语料数据库包含多条语料文本;上述计算机程序被所述处理器执行时,还用于执行以下步骤:按照预设的相似度计算算法分别计算所述分词结果与每一条语料文本之间的相似度;获取所述相似度计算结果中的最大值为目标相似度,作为所述分词结果与预设的语料数据库的相关度。
在其中一个实施例中,上述计算机程序被所述处理器执行时,还用于执行以下步骤:按照预设的编辑距离计算公式分别计算所述分词结果与每一条语料文本之间的编辑距离;获取所述编辑距离计算结果中的最大值为目标编辑距离,作为所述分词结果与预设的语料数据库的相关度。
在其中一个实施例中,上述计算机程序被所述处理器执行时,还用于执行以下步骤:确定所述目标相似度大于或等于预设的第一阈值;在所述目标相似度大于或等于所述第一阈值的情况下,判定所述待检测文本为相关文本;在所述目标相似度小于所述第一阈值的情况下,执行所述按照预设的编辑距离计算公式分别计算所述分词结果与每一条语料文本之间的编辑距离;确定所述目标编辑距离大于或等于预设的第二阈值;判定所述待检测文本为相关文本。
在其中一个实施例中,上述计算机程序被所述处理器执行时,还用于执行以下步骤:在所述目标编辑距离小于所述第二阈值的情况下,确定所述目标相似度大于预设第三阈值、且目标编辑距离大于预设的第四阈值;在所述预设的关键词数据库查找与所述待检测文本匹配的关键词关键词,在查找到的情况下,判定所述待检测文本为相关文本。
在其中一个实施例中,所述对所述待检测文本进行分词的步骤之前,上述计算机程序被所述处理器执行时,还用于执行以下步骤:按照预设的文本改写算法对所述待检测文本进行改写,所述改写后的待检测文本中不包含预设的辅助词。
在其中一个实施例中,上述计算机程序被所述处理器执行时,还用于执行以下步骤:根据预设的关键词数据库对所述待检测文本进行分词,所述分词结果包括与所述预设的关键词数据库中包含的关键词对应的词向量以及多个字向量。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取待检测文本,所述待检测文本为短文本;
对所述待检测文本进行分词,获取包含至少一个词向量的分词结果;
计算所述分词结果与预设的语料数据库的相关度,根据所述相关度对所述待检测文本进行过滤。
在其中一个实施例中,所述预设的语料数据库包含多条语料文本;上述计算机程序被所述处理器执行时,还用于执行以下步骤:按照预设的相似度计算算法分别计算所述分词结果与每一条语料文本之间的相似度;获取所述相似度计算结果中的最大值为目标相似度,作为所述分词结果与预设的语料数据库的相关度。
在其中一个实施例中,上述计算机程序被所述处理器执行时,还用于执行以下步骤:按照预设的编辑距离计算公式分别计算所述分词结果与每一条语料文本之间的编辑距离;获取所述编辑距离计算结果中的最大值为目标编辑距离,作为所述分词结果与预设的语料数据库的相关度。
在其中一个实施例中,上述计算机程序被所述处理器执行时,还用于执行以下步骤:确定所述目标相似度大于或等于预设的第一阈值;
在所述目标相似度大于或等于所述第一阈值的情况下,判定所述待检测文本为相关文本;在所述目标相似度小于所述第一阈值的情况下,执行所述按照预设的编辑距离计算公式分别计算所述分词结果与每一条语料文本之间的编辑距离;确定所述目标编辑距离大于或等于预设的第二阈值;判定所述待检测文本为相关文本。
在其中一个实施例中,上述计算机程序被所述处理器执行时,还用于执行以下步骤:在所述目标编辑距离小于所述第二阈值的情况下,确定所述目标相似度大于预设第三阈值、且目标编辑距离大于预设的第四阈值;
在所述预设的关键词数据库查找与所述待检测文本匹配的关键词关键词,在查找到的情况下,判定所述待检测文本为相关文本。
在其中一个实施例中,上述计算机程序被所述处理器执行时,还用于执行以下步骤:按照预设的文本改写算法对所述待检测文本进行改写,所述改写后的待检测文本中不包含预设的辅助词。
在其中一个实施例中,上述计算机程序被所述处理器执行时,还用于执行以下步骤:根据预设的关键词数据库对所述待检测文本进行分词,所述分词结果包括与所述预设的关键词数据库中包含的关键词对应的词向量以及多个字向量。
需要说明的是,上述短文本过滤方法、短文本过滤装置、计算机设备和计算机可读存储介质属于同一个发明构思,短文本过滤方法、短文本过滤装置、计算机设备和计算机可读存储介质中涉及的内容可相互适用。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种短文本过滤方法,其特征在于,所述方法包括:
获取待检测文本,所述待检测文本为短文本;
对所述待检测文本进行分词,获取包含至少一个词向量的分词结果;
计算所述分词结果与预设的语料数据库的相关度,根据所述相关度对所述待检测文本进行过滤;
所述预设的语料数据库包含多条语料文本;
所述计算所述分词结果与预设的语料数据库的相关度,包括:
按照预设的相似度计算算法分别计算所述分词结果与每一条语料文本之间的相似度,
获取所述相似度计算结果中的最大值为目标相似度,作为所述分词结果与预设的语料数据库的相关度,
按照预设的编辑距离计算公式分别计算所述分词结果与每一条语料文本之间的编辑距离,
获取所述编辑距离计算结果中的最大值为目标编辑距离,作为所述分词结果与预设的语料数据库的相关度;
所述根据所述相关度对所述待检测文本进行过滤,包括:在所述目标相似度大于或等于第一阈值的情况下,判定所述待检测文本为相关文本,
在所述目标相似度小于所述第一阈值的情况下,执行所述按照预设的编辑距离计算公式分别计算所述分词结果与每一条语料文本之间的编辑距离;确定所述目标编辑距离是否大于或等于预设的第二阈值;若所述目标编辑距离大于或等于预设的第二阈值,则判定所述待检测文本为相关文本;
所述预设的相似度计算算法如公式(1)所示:
公式(1)
其中,A为待检测文本对应的分词结果,B为预设的语料数据库中的一条语料文本;
所述预设的编辑距离计算公式如公式(2)所示:
公式(2)
其中,T为两个文本(A、B)中词向量和字向量的总数,M为两个文本A和B中相同字的个数。
2.根据权利要求1所述的短文本过滤方法,其特征在于,在对所述待检测文本进行分词之前,所述方法还包括:
去除所述待检测文本中的停用词、语气助词、口语词、客套词和动词叠词。
3.根据权利要求1所述的短文本过滤方法,其特征在于,所述确定所述目标编辑距离是否大于或等于预设的第二阈值之后,还包括:
在所述目标编辑距离小于所述第二阈值的情况下,确定所述目标相似度是否大于预设第三阈值、且目标编辑距离是否大于预设的第四阈值;
若所述目标相似度大于预设第三阈值、且目标编辑距离大于预设的第四阈值,则在所述预设的关键词数据库查找与所述待检测文本匹配的关键词,在查找到的情况下,判定所述待检测文本为相关文本。
4.根据权利要求1所述的短文本过滤方法,其特征在于,所述对所述待检测文本进行分词的步骤之前还包括:
按照预设的文本改写算法对所述待检测文本进行改写,所述改写后的待检测文本中不包含预设的辅助词。
5.根据权利要求1所述的短文本过滤方法,其特征在于,所述对所述待检测文本进行分词,还包括:
根据预设的关键词数据库对所述待检测文本进行分词,所述分词结果包括与所述预设的关键词数据库中包含的关键词对应的词向量以及多个字向量。
6.一种短文本过滤装置,其特征在于,所述装置包括:
待检测文本获取模块,用于获取待检测文本,所述待检测文本为短文本;
分词处理模块,用于对所述待检测文本进行分词,获取包含至少一个词向量的分词结果;
文本过滤模块,用于计算所述分词结果与预设的语料数据库的相关度,根据所述相关度对所述待检测文本进行过滤;
所述预设的语料数据库包含多条语料文本;
所述文本过滤模块,具体用于
按照预设的相似度计算算法分别计算所述分词结果与每一条语料文本之间的相似度,
获取所述相似度计算结果中的最大值为目标相似度,作为所述分词结果与预设的语料数据库的相关度,
按照预设的编辑距离计算公式分别计算所述分词结果与每一条语料文本之间的编辑距离,
获取所述编辑距离计算结果中的最大值为目标编辑距离,作为所述分词结果与预设的语料数据库的相关度,
在所述目标相似度大于或等于第一阈值的情况下,判定所述待检测文本为相关文本,
在所述目标相似度小于所述第一阈值的情况下,执行所述按照预设的编辑距离计算公式分别计算所述分词结果与每一条语料文本之间的编辑距离;确定所述目标编辑距离是否大于或等于预设的第二阈值;若所述目标编辑距离大于或等于预设的第二阈值,则判定所述待检测文本为相关文本;
所述预设的相似度计算算法如公式(1)所示:
公式(1)
其中,A为待检测文本对应的分词结果,B为预设的语料数据库中的一条语料文本;
所述预设的编辑距离计算公式如公式(2)所示:
公式(2)
其中,T为两个文本(A、B)中词向量和字向量的总数,M为两个文本A和B中相同字的个数。
7.根据权利要求6所述的短文本过滤装置,其特征在于,所述文本过滤模块,还用于:
在所述目标编辑距离小于所述第二阈值的情况下,确定所述目标相似度是否大于预设第三阈值、且目标编辑距离是否大于预设的第四阈值;
若所述目标相似度大于预设第三阈值、且目标编辑距离大于预设的第四阈值,则在所述预设的关键词数据库查找与所述待检测文本匹配的关键词,在查找到的情况下,判定所述待检测文本为相关文本。
8.根据权利要求6所述的短文本过滤装置,其特征在于,所述装置还包括:
文本改写模块,用于按照预设的文本改写算法对所述待检测文本进行改写,所述改写后的待检测文本中不包含预设的辅助词。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至5中任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811594130.7A CN111368061B (zh) | 2018-12-25 | 2018-12-25 | 短文本过滤方法、装置、介质及计算机设备 |
PCT/CN2018/123847 WO2020132933A1 (zh) | 2018-12-25 | 2018-12-26 | 短文本过滤方法、装置、介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811594130.7A CN111368061B (zh) | 2018-12-25 | 2018-12-25 | 短文本过滤方法、装置、介质及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111368061A CN111368061A (zh) | 2020-07-03 |
CN111368061B true CN111368061B (zh) | 2024-04-12 |
Family
ID=71126919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811594130.7A Active CN111368061B (zh) | 2018-12-25 | 2018-12-25 | 短文本过滤方法、装置、介质及计算机设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111368061B (zh) |
WO (1) | WO2020132933A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613310A (zh) * | 2021-01-04 | 2021-04-06 | 成都颜创启新信息技术有限公司 | 一种人名匹配方法、装置、电子设备及存储介质 |
CN112784042B (zh) * | 2021-01-12 | 2024-07-26 | 北京明略软件系统有限公司 | 结合文章结构与聚合词向量的文本相似度计算方法及系统 |
CN113486170B (zh) * | 2021-08-02 | 2023-12-15 | 国泰新点软件股份有限公司 | 基于人机交互的自然语言处理方法、装置、设备及介质 |
CN117332039B (zh) * | 2023-09-20 | 2024-07-02 | 鹏城实验室 | 文本检测方法、装置、设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104008166A (zh) * | 2014-05-30 | 2014-08-27 | 华东师范大学 | 一种基于形态和语义相似度的对话短文本聚类方法 |
CN106776863A (zh) * | 2016-11-28 | 2017-05-31 | 合网络技术(北京)有限公司 | 文本相关度的确定方法、查询结果的推送方法及装置 |
CN106980870A (zh) * | 2016-12-30 | 2017-07-25 | 中国银联股份有限公司 | 短文本之间的文本匹配度计算方法 |
CN108170806A (zh) * | 2017-12-28 | 2018-06-15 | 东软集团股份有限公司 | 敏感词检测过滤方法、装置和计算机设备 |
CN108334495A (zh) * | 2018-01-30 | 2018-07-27 | 国家计算机网络与信息安全管理中心 | 短文本相似度计算方法及系统 |
CN108804414A (zh) * | 2018-05-04 | 2018-11-13 | 科沃斯商用机器人有限公司 | 文本修正方法、装置、智能设备及可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090240498A1 (en) * | 2008-03-19 | 2009-09-24 | Microsoft Corporation | Similiarity measures for short segments of text |
CN101621391A (zh) * | 2009-08-07 | 2010-01-06 | 北京百问百答网络技术有限公司 | 基于概率主题进行短文本分类的方法及系统 |
CN104102626B (zh) * | 2014-07-07 | 2017-08-15 | 厦门推特信息科技有限公司 | 一种用于短文本语义相似度计算的方法 |
CN107085581B (zh) * | 2016-02-16 | 2020-04-07 | 腾讯科技(深圳)有限公司 | 短文本分类方法和装置 |
CN108763477A (zh) * | 2018-05-29 | 2018-11-06 | 厦门快商通信息技术有限公司 | 一种短文本分类方法及系统 |
-
2018
- 2018-12-25 CN CN201811594130.7A patent/CN111368061B/zh active Active
- 2018-12-26 WO PCT/CN2018/123847 patent/WO2020132933A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104008166A (zh) * | 2014-05-30 | 2014-08-27 | 华东师范大学 | 一种基于形态和语义相似度的对话短文本聚类方法 |
CN106776863A (zh) * | 2016-11-28 | 2017-05-31 | 合网络技术(北京)有限公司 | 文本相关度的确定方法、查询结果的推送方法及装置 |
CN106980870A (zh) * | 2016-12-30 | 2017-07-25 | 中国银联股份有限公司 | 短文本之间的文本匹配度计算方法 |
CN108170806A (zh) * | 2017-12-28 | 2018-06-15 | 东软集团股份有限公司 | 敏感词检测过滤方法、装置和计算机设备 |
CN108334495A (zh) * | 2018-01-30 | 2018-07-27 | 国家计算机网络与信息安全管理中心 | 短文本相似度计算方法及系统 |
CN108804414A (zh) * | 2018-05-04 | 2018-11-13 | 科沃斯商用机器人有限公司 | 文本修正方法、装置、智能设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111368061A (zh) | 2020-07-03 |
WO2020132933A1 (zh) | 2020-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368061B (zh) | 短文本过滤方法、装置、介质及计算机设备 | |
KR102304673B1 (ko) | 키워드 추출 방법, 컴퓨터 장치, 및 저장 매체 | |
CN108595695B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN111325037B (zh) | 文本意图识别方法、装置、计算机设备和存储介质 | |
CN109543516A (zh) | 签约意向判断方法、装置、计算机设备和存储介质 | |
CN110569500A (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
CN111191032B (zh) | 语料扩充方法、装置、计算机设备和存储介质 | |
WO2022116436A1 (zh) | 长短句文本语义匹配方法、装置、计算机设备及存储介质 | |
CN113297366B (zh) | 多轮对话的情绪识别模型训练方法、装置、设备及介质 | |
CN110765235A (zh) | 训练数据的生成方法、装置、终端及可读介质 | |
CN112560444A (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN111680132B (zh) | 一种用于互联网文本信息的噪声过滤和自动分类方法 | |
CN113704436A (zh) | 基于会话场景的用户画像标签挖掘方法及装置 | |
CN110309504A (zh) | 基于分词的文本处理方法、装置、设备及存储介质 | |
CN110413994B (zh) | 热点话题生成方法、装置、计算机设备和存储介质 | |
CN111382570A (zh) | 文本实体识别方法、装置、计算机设备及存储介质 | |
CN110555165B (zh) | 信息识别方法、装置、计算机设备和存储介质 | |
CN114493902A (zh) | 多模态信息异常监控方法、装置、计算机设备及存储介质 | |
CN111241811B (zh) | 确定搜索词权重的方法、装置、计算机设备和存储介质 | |
CN112464660A (zh) | 文本分类模型构建方法以及文本数据处理方法 | |
CN106649367B (zh) | 检测关键词推广程度的方法和装置 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN117130595A (zh) | 代码开发方法、装置、计算机设备和存储介质 | |
CN110781310A (zh) | 目标概念图谱的构建方法、装置、计算机设备和存储介质 | |
CN112364620B (zh) | 文本相似度的判断方法、装置以及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |