CN111241824B

CN111241824B - 一种用于中文隐喻信息识别的方法

Info

Publication number: CN111241824B
Application number: CN202010023217.XA
Authority: CN
Inventors: 张欢; 王礼鑫
Original assignee: Chinaso Information Technology Co ltd
Current assignee: Chinaso Information Technology Co ltd
Priority date: 2020-01-09
Filing date: 2020-01-09
Publication date: 2020-11-24
Anticipated expiration: 2040-01-09
Also published as: CN111241824A

Abstract

本发明公开了一种用于中文隐喻信息识别的方法，包括，S1、对互联网上文本信息组成的初始数据集进行分类提取关键词，根据隐喻词的规律自动生成不同类别的隐喻词字典；S2、对初始数据集中的第一个文本进行特征提取，并进行初步识别；S3、将提取的特征作为卷积神经网络的输入特征，对初始数据集中的第一个文本进行隐喻信息识别，获取第一个文本的最终识别结果；S4、重复步骤S2和S3，遍历初始数据集中所有的文本，获取所有文本的最终识别结果，将其组成隐喻词集，并用其对字典集中的字典进行更新、修正和去除冗余。优点是：利用三级判断，一方面对于明显的隐喻词快速判断，得出识别结果；另一方面增大召回，从而减少新生隐喻词的漏检和识别的错误。

Description

一种用于中文隐喻信息识别的方法

技术领域

本发明涉及隐喻信息识别领域，尤其涉及一种用于中文隐喻信息识别的方法。

背景技术

近年来，随着互联网的日益蓬勃发展，网络信息安全，尤其是其中的内容安全，得到了越来越广泛的关注。网络平台为有害信息提供了平台，大量的敏感有害信息通过网络平台进行传播扩散，严重危害了网络信息安全。针对危害网络内容安全的行为研究越来越多，已经成为新的研究热点。为了逃避相关的安全审查和过滤检测，隐喻词成为利用自然语言处理技术来传播有害敏感信息的手段，隐喻词就是将安全审查和过滤检测技术敏感的词语用谐音词、拼音缩写等代替，一方面不影响正常理解，一方面又可以逃过检查。因为此对隐喻词的识别和挖掘至关重要。如何在海量的信息数据中，快速地准确地判断文本是否含有隐喻词并且获得伪装性的隐喻词在内容安全领域一直是极具挑战性的问题，涉及自然语言处理、数据挖掘、机器学习等多个学科的技术和方法。

现有的技术文献中，一般是基于字符串匹配的分词方法和基于统计的分词方法，对于已收录词库的词语分词结果误差较小，但对于一些新词效果不是很好，导致中文隐喻信息识别错误，进一步导致隐喻词的挖掘失败。

发明内容

本发明的目的在于提供一种用于中文隐喻信息识别的方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种用于中文隐喻信息识别的方法，所述方法包括如下步骤，

S1、对互联网上的文本信息组成的初始数据集进行分类提取关键词，并根据隐喻词的规律自动生成不同类别的隐喻词字典；

S2、对初始数据集中的第一个文本进行特征提取，并根据提取的特征进行初步识别；

S3、步骤S2识别失败后，将步骤S2中提取的特征作为卷积神经网络的输入特征，对初始数据集中的第一个文本进行隐喻信息识别，获取第一个文本的最终识别结果；

S4、重复步骤S2和S3，遍历所述初始数据集中所有的文本，获取所有文本的最终识别结果，并将其组成隐喻词集，使用隐喻词集对字典集中的字典进行更新、修正和去除冗余。

优选的，步骤S1具体包括如下内容，

S11、利用爬虫爬取新闻、微博、博客、水木社区以及视频网站弹幕中的文本信息作为初始数据集，所述初始数据集为S₀＝{s₁,s₂,…s_N}；

其中，s_i为所述初始数据集中的第i个文本，i＝1,2,…N；N为所述初始数据集中的文本总数；

S12、利用GBDT方法对文本进行分类，获取新闻类、BBS类、小说类和微博博客类；利用TF-IDF的特征结合命名实体识别和词性识别，从各个类中的文本里提取到不同内容类别方面相关的候选词；通过分析隐喻词的规律，根据汉语拼音缩写、英文缩写、语音替换、谐音替换、汉字的拆解和英文替换的方法由计算机根据候选词自动生成一批隐喻词，形成字典集，所述字典集为D₀＝[d₁,d₂,d₃,d₄]，

其中，d₁为新闻类字典，d₂为BBS类字典，d₃为小说类字典，d₄为微博博客类字典。

优选的，步骤S2具体包括如下内容，

S21、对初始数据集中的第一个文本进行分类，并记录其分类类型，作为第一特征值，所述第一特征值表示为f₁；

S22、对初始数据集中的第一个文本进行分词，记录每个词的词性信息，并计算每个词与字典集中词的语音相似度、字形相似度，对所述词性信息、语音相似度和字形相似度进行加权求和，判断求和结果与第一设定阈值的大小关系，若求和结果大于或等于第一设定阈值，则将该词判定为隐喻词；若求和结果小于第一设定阈值，则记录该词的词性信息为第二特征值、语音相似度为第三特征值、字形相似度为第四特征值，并执行步骤S23；所述第二特征值、第三特征值和第四特征值分别表示为f₂、f₃、f₄；

S23、对初始数据集中的第一个文本进行分割切词，并使用word2vec模型训练切词结果，获取目标词以及与该所述目标词在同一句子中的多个上下文单词，在语义词库中查找目标词的同义词、反义词、直接上位词和直接下位词，并将这些词以及他们的变形作为候选单词集；计算上下文单词与候选单词集中每个词的相似度，并将相似度最高的词作为最合适的候选目标词，计算目标词和候选目标词的余弦相似度，若计算结果小于第二设定阈值，则认为目标单词为隐喻词；若计算结果大于或等于第二设定阈值，则将上下文单词的向量作为第五特征值，并执行步骤S3；所述第五特征值表示为f₅。

优选的，步骤S23中，对初始数据集中的第一个文本进行分割切词具体为，依据符号“。”、“？”和“！”，按照句子对初始数据集中的第一个文本进行分割，并在分割完成后对每个句子进行切词。

优选的，步骤S23中，所述上下文单词至少为10个；若不足10个，则选取上下句中近邻的词作为上下文单词。

优选的，步骤S23中，在计算上下文单词与候选单词集中每个词的相似度时，上下文单词由上下文单词的词向量均值表示。

优选的，步骤S23中，当计算结果小于第二设定阈值，则认为目标单词为隐喻词，且所述目标单词的隐喻意思的同义词为候选目标词。

优选的，S3具体为，将第一特征值、第二特征值、第三特征值、第四特征值和第五特征值作为特征集，所述特征集表示为F＝[f₁,f₂,f₃,f₄,f₅]，将所述特征集作为卷积神经网络卷积层的输入特征，对所述初始数据集中的第一文本进行进一步的隐喻信息识别，获取第一文本的最终识别结果。

本发明的有益效果是：1、在对隐喻词进行基本特征提取的基础上，基于CNN的隐喻信息识别，最终判断中文信息是否含有隐喻词，并获得相应的隐喻关键词，同时可以挖掘文中含有的隐喻关键词。2、针对隐喻词的识别，生成了相应的候选字典，利用三级判断，一方面对于明显的隐喻词快速判断，快速得出识别结果；另一方面增大召回，从而减少新生隐喻词的漏检，减少识别的错误。3、生成的隐喻词集可以对字典进行周期性的更新、修正、去除冗余。

附图说明

图1是本发明实施例中所述方法的原理流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本实施例中提供了一种用于中文隐喻信息识别的方法，所述方法包括如下步骤，

S1、对互联网上的文本信息组成的初始数据集进行分类提取关键词，并根据隐喻词的规律由计算机自动生成不同类别的隐喻词字典；具体为，获取互联网上的文本信息作为初始数据集，对所述初始数据集进行分类获取字典集，所述字典集中包括新闻类字典、BBS类字典、小说类字典和微博博客类字典。

S2、对初始数据集中的第一个文本进行特征提取，并根据提取的特征进行初步识别；具体为，对初始数据集中的第一个文本，根据预训练的word2vec模型获得其上下文的词向量，及其上位词、同义词的词向量作为特征，并根据这些特征进行初步的识别；

本实施例中，步骤S1具体包括如下内容，

S11、利用爬虫爬取新闻、微博、博客、水木社区以及各大视频网站弹幕中的文本信息作为初始数据集，所述初始数据集为S₀＝{s₁,s₂,…s_N}；

S12、利用GBDT方法对文本进行分类，获取新闻类、BBS类、小说类和微博博客类；利用TF-IDF的特征结合命名实体识别和词性识别，从各个类中的文本里提取到不同内容类别方面相关的候选词；通过分析隐喻词的规律，根据汉语拼音缩写、英文缩写、语音替换、谐音替换、汉字的拆解和英文替换等的方法由计算机根据候选词自动生成一批隐喻词，形成字典集，所述字典集为D₀＝[d₁,d₂,d₃,d₄]，

其中，d₁为新闻类字典，d₂为BBS类字典，d₃为小说类字典，d₄为微博博客类字典。字典中每行由关键词和生成权重组成。

本实施例中，步骤S2具体包括如下内容，

S21、使用支持向量机分类器对初始数据集中的第一个文本进行分类，并记录其分类类型，作为第一特征值，所述第一特征值表示为f₁；

步骤S23中，对初始数据集中的第一个文本进行分割切词具体为，依据符号“。”、“？”和“！”，按照句子对初始数据集中的第一个文本进行分割，并在分割完成后对每个句子进行切词。

步骤S23中，所述上下文单词至少为10个；若不足10个，则选取上下句中近邻的词作为上下文单词。

步骤S23中，在计算上下文单词与候选单词集中每个词的相似度时，上下文单词由上下文单词的词向量均值表示。

本实施例中，对文本s₁(第一个文本)进行分词，按照“。”，“？”，“！”等符号以句子为单位分割原文，分割后对各个句子进行切词，获取切词结果，使用百科语料训练的word2vec模型，对切词结果进行训练，得到目标词W_t和该目标词W_t同一句子中的上下文单词W_c1、W_c2,…W_cM，上下文单词至少为10个，若不足，选取上下句中近邻的词。根据CSC中文语义词库，查找目标词的同义词、反义词、直接上位词和直接下位词，将这些同义词、反义词、直接上位词和直接下位词以及他们的变形作为候选单词集W。计算上下文单词和候选单词集中每个词的相似度，并找出相似度最高的词作为最合适的候选目标词W^*，上下文单词由上下文单词词向量的均值表示。计算实际目标词W_t和最合适的候选目标词W^*的余弦相似度，如果相似度小于第二设定阈值，则认为目标单词W_t是有隐喻信息的，并且隐喻意思的同义词为W^*。如果相似度大于或等于第二设定阈值，则将上下文单词词向量作为第五特征值f₅＝[c₁,c₂,…c_M]^T，其中M为特征向量维数，M取值为300。也就是说，第五特征值是300维的词向量。

本实施例中，将第一特征值、第二特征值、第三特征值、第四特征值和第五特征值作为特征集，所述特征集表示为F＝[f₁,f₂,f₃,f₄,f₅]，将所述特征集作为卷积神经网络卷积层的输入特征，对所述初始数据集中的第一文本进行进一步的隐喻信息识别，获取第一文本的最终识别结果。

本实施例中，基于卷积神经网络对第一文本进行识别，需要经过5层网络，每层都由3x3的卷积、BN、RELU组成，经过全局的平均池化层和全连接层，最后通过softmax层的判断，输出对相应的目标词的判断结果，进一步得到中文隐喻信息的识别结果，也就是最终的识别结果。具体如下表所示。

本实施例中，重复步骤S2和S3，以遍历初始数据集S₀中的所有文本，可以得到所有相关的隐喻词集D₀ ^*，利用隐喻词集对字典D₀进行更新、修正、去除冗余。初始数据集中的所有文本通过步骤S2和步骤S3后生成的结果均被记录，并在一定周期后用来对字典D₀进行更新、修正、去除冗余。

本实施例中，在对隐喻词进行基本特征提取的基础上，基于CNN的隐喻信息识别，最终判断中文信息是否含有隐喻词，并获得相应的隐喻关键词。针对隐喻词的识别，生成了相应的候选字典，利用三级判断，增大召回，从而减少新生隐喻词的漏检。第一级是与字典中各词在词性、语音相似度、字形相似度进行加权求和判断是否是隐喻词，否则进入第二级判断；第二级主要是根据目标词的上下文的词向量，在CSC中文语义词库中目标词的同义词、反义词、直接上位词、下位词中选取分值最高的作为隐喻词同义词，比较同义词和目标词的余弦相似度，小于设定阈值则判断为隐喻词，否则进入第三级判断；第三级判断为前两级提取的特征，结合文本的分类结果，通过CNN判断得到文中的隐喻关键词，进一步得到中文隐喻信息的识别结果。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

本发明提供了一种用于中文隐喻信息识别的方法，所述方法在对隐喻词进行基本特征提取的基础上，基于CNN的隐喻信息识别，最终判断中文信息是否含有隐喻词，并获得相应的隐喻关键词，同时可以挖掘文中含有的隐喻关键词。针对隐喻词的识别，生成了相应的候选字典，利用三级判断，一方面对于明显的隐喻词快速判断，快速得出识别结果；另一方面增大召回，从而减少新生隐喻词的漏检，减少识别的错误。本方法中生成的隐喻词集可以对字典进行周期性的更新、修正、去除冗余。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种用于中文隐喻信息识别的方法，其特征在于：所述方法包括如下步骤，

S4、重复步骤S2和S3，遍历所述初始数据集中所有的文本，获取所有文本的最终识别结果，并将其组成隐喻词集，使用隐喻词集对字典集中的字典进行更新、修正和去除冗余；

步骤S1具体包括如下内容，

其中，d₁为新闻类字典，d₂为BBS类字典，d₃为小说类字典，d₄为微博博客类字典；

步骤S2具体包括如下内容，

2.根据权利要求1所述的用于中文隐喻信息识别的方法，其特征在于：步骤S23中，对初始数据集中的第一个文本进行分割切词具体为，依据符号“。”、“？”和“！”，按照句子对初始数据集中的第一个文本进行分割，并在分割完成后对每个句子进行切词。

3.根据权利要求2所述的用于中文隐喻信息识别的方法，其特征在于：步骤S23中，所述上下文单词至少为10个；若不足10个，则选取上下句中近邻的词作为上下文单词。

4.根据权利要求3所述的用于中文隐喻信息识别的方法，其特征在于：步骤S23中，在计算上下文单词与候选单词集中每个词的相似度时，上下文单词由上下文单词的词向量均值表示。

5.根据权利要求4所述的用于中文隐喻信息识别的方法，其特征在于：步骤S23中，当计算结果小于第二设定阈值，则认为目标单词为隐喻词，且所述目标单词的隐喻意思的同义词为候选目标词。

6.根据权利要求5所述的用于中文隐喻信息识别的方法，其特征在于：步骤S3具体为，将第一特征值、第二特征值、第三特征值、第四特征值和第五特征值作为特征集，所述特征集表示为F＝[f₁,f₂,f₃,f₄,f₅]，将所述特征集作为卷积神经网络卷积层的输入特征，对所述初始数据集中的第一文本进行进一步的隐喻信息识别，获取第一文本的最终识别结果。