CN115309899B - 一种文本中特定内容识别存储方法及系统 - Google Patents
一种文本中特定内容识别存储方法及系统 Download PDFInfo
- Publication number
- CN115309899B CN115309899B CN202210949186.XA CN202210949186A CN115309899B CN 115309899 B CN115309899 B CN 115309899B CN 202210949186 A CN202210949186 A CN 202210949186A CN 115309899 B CN115309899 B CN 115309899B
- Authority
- CN
- China
- Prior art keywords
- word
- specific
- text
- words
- specific word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 230000011218 segmentation Effects 0.000 claims description 31
- 230000005540 biological transmission Effects 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000012790 confirmation Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 5
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000013145 classification model Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本中特定内容识别存储方法及系统,属于文特定词识别的技术领域,其方法包括生成特定词库和规则库;获取待识别的文本集合;提取当前特定文本数据集中的新特定词,得到新特定词集合;将需要训练的词组输入BERT模型;从特定文本中获取疑似新特定词集合,利用BERT模型计算特定词库中各词的特征向量与疑似新特定词集合中各词的特征向量的余弦相似度,并基于计算结果判定新特定词。本发明解决了现有技术中基于预构建模式规则的匹配方式仅局限于特定匹配规则模式,匹配方式不够灵活,结果不够全面,难以及时识别海量新出现的特定词及其变体词,且由于文本中涉及大量错综复杂的词语,容易造成特定词的模糊匹配,导致误识别的问题。
Description
技术领域
本发明涉及特定词识别的技术领域,尤其涉及一种文本中特定内容识别存储方法及系统。
背景技术
随着信息技术的快速发展,社交平台等互联网内容类产品也以爆炸式的速度涌现,随着活跃用户量的增加,这些产品会产生大量的帖子等文本。然而这些文本中是否存在特定词汇与特定文本,需要快速判断。
特定词是特定文本最重要的识别标志,利用特定词可以对特定文本进行高效而准确的检测和过滤。随着时间的推移,新的特定词层出不穷,规避特定词检测的方式和手段也不断增加,亟需对新出现的特定词及变体词进行识别、对现有特定词库进行更新扩充。
我国专利申请号:201910945463.8公开了一种敏感词检测方法及装置,其中,方法包括:获取目标文本,对目标文本进行分词处理;将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取文本分类模型输出的目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常;若文本分类模型输出的目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词;其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。
但申请人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
现有技术中,基于预构建模式规则的匹配方式仅局限于特定匹配规则模式,匹配方式不够灵活,结果不够全面,难以及时识别海量新出现的特定词及其变体词,且由于文本中涉及大量错综复杂的词语,容易造成特定词的模糊匹配,导致误识别。
发明内容
本发明针对现有技术存在的不足,提供一种文本中特定内容识别存储方法及系统,解决了现有技术中基于预构建模式规则的匹配方式仅局限于特定匹配规则模式,匹配方式不够灵活,结果不够全面,难以及时识别海量新出现的特定词及其变体词,且由于文本中涉及大量错综复杂的词语,容易造成特定词的模糊匹配,导致误识别。
本发明公开一种文本中特定内容识别存储方法。
一种文本中特定内容识别存储方法,包括:
S1、基于已有特定词和特定字生成特定词库和规则库,所述特定词由若干特定字组成;
S2、获取待识别的文本集合,所述待识别的文本集合包含若干文本,每个文本由文本语料数据组成,所述文本语料数据包含社交软件等群组的记录语料和论坛的中文语料等,文本集合中含有一定数量的特定文本,所述特定文本为含有特定词的文本;
S3、基于特定文本数据集提取当前特定文本数据集中的新特定词,得到新特定词集合,从特定词库中筛选出的特定词作为特定文本数据集;
S4、将需要训练的词组输入BERT模型,所述需要训练的词组包括特定词集合和原词集合;
S5、从特定文本中获取疑似新特定词集合,利用BERT模型计算特定词库中各词的特征向量与疑似新特定词集合中各词的特征向量的余弦相似度,并基于计算结果判定新特定词。
进一步的,所述规则库利用与或非的规则结合分隔符集合与特定字对应的拼音以及多维检测规则。
进一步的,所述分隔符集合由从文本样本集合中提取的表情符号和标点分割符号组成;所述文本样本集合为用户选取的专门用于提取分隔符集合的固定数量的文本集合。
进一步的,所述多维检测规则包括:若文本中任一特定词的所有特定字中间有分隔符的存在,则将此情况视为当前特定词;若文本中任一特定词的所有特定字以文字或拼音的形式同时存在,则将此情况视为当前特定词。
进一步的,所述疑似新特定词集合基于上下文相关性算法与位置加权法从特定文本的原词中选取,具体包括:
选取特定词库中各特定词所在的M个文本作为样本,基于M个文本样本计算各特定词的上下文相关度,所述上下文相关度的计算公式为:
其中,G(w)表示特定词W的上下文相关度,wl表示特定词w的左邻接字,sl表示特定词w的左邻接字集合,P(wlw)表示文本样本集中特定词w的左邻接字是wl的概率,P(w)表示文本样本集中出现特定词w的概率,wr表示特定词w的右邻接字,sr表示特定词w的右邻接字集合,P(wrw)表示文本样本集中特定词w的右邻接字是wr的概率;
将上下文相关度与词组的位置信息相结合,首先使用句法依赖解析器spacy 将特定文本构造成依赖树,然后基于依赖树构造邻接矩阵:
其中,C为m阶邻接矩阵,i,j∈[1,m],i≠j,m为词组总数,C 矩阵中的任一元素用Cij表示,Cij是指词wi与词wj直接的依赖关系。
计算邻接矩阵中每个元素的位置权重:
其中,Wij表示特定文本中词wi与词wj的位置权重,A为特定词集合, h(wi)表示词wi的位置,h(wj)表示词wj的位置。将原词的上下文相关度与其他词组的位置权重相乘,若结果大于预设的阈值,则当前原词为疑似新特定词。
进一步的,所述疑似新特定词集合基于文本聚类的TF-ICF(术语频率-逆语料库频率)算法提取;所述TF-ICF算法的计算过程为:
其中,ωuv表示文本u中第v个词的权重,fuv表示第v个词在文本u 中出现的次数,即术语频率,N是语料库中的文本总数,nv为第v个词在语料库中出现一次或多次的文本数,即逆语料库频率。根据文本中原词与特定词的距离进行位置加权,所述位置加权由实验获得。将原词的位置加权与权重相乘,若结果大于预设的阈值,则当前原词为疑似新特定词。
本发明还公开一种文本中特定内容识别存储系统,采用如下技术方案:
一种文本中特定内容识别存储系统,包括:
特定词库,用于存储已有的特定词,特定词库与特定词识别模块、BERT 模块通过数据传输的方式连接;
规则库,用于存储特定字,规则库与特定词识别模块通过数据传输的方式连接;
文本获取模块,用于获取待识别的文本集合,文本获取模块与特定词识别模块通过数据传输的方式连接;
特定词识别模块,用于识别特定词,特定词识别模块通过数据传输的方式与新词发现模块连接;
新词发现模块,用于从特定文本数据集中提取新特定词,得到疑似新特定词集合,新词发现模块通过数据传输的方式与BERT模块连接;
BERT模块,用于将需要训练的词组输入BERT模型,输出文本中各个词融合了全文语义信息后的向量表示,BERT模块通过数据传输的方式与新词确认模块连接;
新词确认模块,用于计算特定词库中各特定词的特征向量与疑似新特定词集合中各词的特征向量的余弦相似度,设定一个阈值,超过阈值的疑似新特定词则判定为新特定词,新词确认模块通过数据传输的方式与特定词库和规则库连接。
进一步的,所述特定词识别模块包括:
分词单元,用于根据特定词库中特定词的字数设立分词步长,利用分词步长对文本进行分词划分,得到原词,分词单元将原词发送给匹配单元;
结构整理单元,用于构建特定词树状结构,将特定词的第一个字或对应的拼音作为树状结构的第一个节点,特定词的第二个字或对应的拼音以及分隔符作为第二个节点,若分隔符为第二个节点,则特定词的第二个字或对应的拼音后移为第三个节点,依次类推,每个特定词对应两个树状结构,分别是以第一个字和对应的拼音作为开始节点,结构整理单元将树状结构发送给匹配单元;
匹配单元,用于计算原词与特定词的相似度,过滤出不含有特定词的文本,得到特定文本;
其中,原词与特定词的相似度计算公式为:
z=min[d(n1,i-1,n2,j)+1,d(n1,i,n2,j-1)+1,d(n1,i-1,n2,j-1)+c]
其中,sim(w1,w2)表示词w1与词w2的相似度,n1,i表示词w1中第i个字是否存在,若存在为1,不存在为0,n2,j表示词w2中第j个字是否存在,max(i,j)表示从i和j中取最大值,n1表示词w1的字数,n2表示词w2的字数,z是min函数的取值,min是最小值函数,d表示两个字的距离,C为常数。预先设立相似度阈值,若相似度高于相似度阈值,则表明两个词为同一词。从而过滤出不含有特定词的文本,得到特定文本。
综上所述,与现有技术相比,上述技术方案的有益效果是:使用特定词库初筛后的文本数据集可以提高识别效率;使用新词发现方法得到疑似特定词库,优化了分词有一定几率不能正确拆分新特定词的缺陷;使用包含特定词特征的 BERT模型筛选出最可能的新特定词,避免了预构建模式规则的局限;识别结果可对词库和规则库进行扩充优化,便于搜索查看和日后取用,循环迭代地提高识别效果。
附图说明
图1为本发明实施例一种文本中特定内容识别存储方法的整体流程图;
图2为本发明实施例中的特定词树状结构示意图;
图3为本发明实施例一种文本中特定内容识别存储系统结构图。
附图标记说明:10、特定词库;20、规则库;30、文本获取模块;40、特定词识别模块;50、新词发现模块;60、BERT模块;70、新词确认模块。
具体实施方式
以下结合附图1-3对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明实施例公开一种文本中特定内容识别存储系统及识别存储方法。
本发明实施例公开一种文本中特定内容识别存储方法,采用如下技术方案:
一种文本中特定内容识别存储方法,包括:
S1、基于已有特定词和特定字生成特定词库和规则库。
具体的,特定词由若干特定字组成,特定字包含涉政、涉黄等类型。
S2、获取待识别的文本集合。
具体的,待识别的文本集合包含若干文本,每个文本由文本语料数据组成,文本语料数据包含社交软件等群组的记录语料和论坛的中文语料等,文本集合中含有一定数量的特定文本。其中,特定文本为含有特定词的文本,利用特定词识别模块识别文本中是否含有特定词,过滤出不含有特定词的文本,即得到特定文本。
由于文本集合中的文本语料数据数量繁多,为了降低计算复杂度,需要从所有文本集合中选取包含有特定词库中任一特定词的特定文本,将不含有特定词的文本过滤剔除。因此,特定词识别模块需要识别文本中是否含有特定词。
S3、基于特定文本数据集提取当前特定文本数据集中的新特定词,得到新特定词集合。
具体的,初步筛选出包含特定词库10中特定词的文本共计约100万条,作为特定文本数据集。
S4、将需要训练的词组输入BERT模型。
具体的,需要训练的词组包括特定词集合和原词集合,输出文本中各个词融合了全文语义信息后的向量表示。
S5、从特定文本中获取疑似新特定词集合,利用BERT模型计算特定词库中各词的特征向量与疑似新特定词集合中各词的特征向量的余弦相似度,并基于计算结果判定新特定词。
具体的,新词发现模块在特定文本数据集上使用新词发现方法,获得疑似新特定词集合。
其中,BERT(基于转换器的双向编码表征)模型的计算过程具体如下:
在将词组输入BERT模型之前,首先随机掩盖掉输入序列中的某个词,即用“[MASK]”替换掉原有的Token,然后在BERT的输出结果中取对应掩盖位置上的向量进行真实值预测。
根据序列中其他非掩蔽区域提供的上下文来预测掩蔽词的原始值。在执行过程中,80%的情况下是用[MASK]令牌标记单词,10%的情况下是用随机词替换单词,10%的情况下保持单词不变。预训练过程是无监督的,即语料库可以看作是近乎无限的。在具体实施例中,该步骤使用包含特定词库中特定词的诸如群组中聊天记录语料和论坛中文语料等文本,共计约100万条文本继续训练 BERT,最终得到包含特定词特征的BERT预训练模型。
将词组中各个字的字向量与位置编码输入到BERT模型中:
Xem=EL(X)+PE
其中,Xem表示模型输入,EL为X的字向量,X为词,PE为位置编码。为了学到多重含义的表达,对Xem做线性映射,即分配三个权重WQ、WK、WV,形成三个矩阵Q、K、V:
Q=XemWQ
K=XemWK
V=XemWV
然后用注意力机制提取多重语意的含义,定义一个超参数h,注意力机制为:
Xem首先进入编码器,由编码器输出到隐藏层,再输入到解码器,输入<start>(起始)符号到解码器;得到第一个字,将得到的第一个字再输入到解码器,得到第二个字,将第二个字再输入解码器,直至解码器输出<end>(终止符),即生成各个词的向量表示序列。
设定A为已有特定词库中的特定词集合,其中各词表示为 {A0,A1,......,Am},m为词组的数量,输入BERT中得到的特征向量表示为a,其中各词的特征向量表示为{a0,a1,......,am};B为疑似新特定词集合,其中各词表示为{B0,B1,......,Bm},输入BERT中得到的特征向量表示为b,其中各词的特征向量表示为{b0,b1,......,bm}。
新词确认模块分别计算A中各词的特征向量与B中各词的特征向量的余弦相似度sim(A,B):
其中,||a||表示a的向量长度。得到余弦相似度值的结果列表,相似度值越大,代表相似度越高。将A中的词归类于与其相似度最高的B词下的集合中。例如,A中的词A0和词Am都与B中的词B1相似度最高,则隶属于词B 下。对隶属于B中各词的相似词集合按余弦相似度值进行排序后,设定一个阈值,超过阈值的词则判定为新特定词。将新特定词加入特定词库,并更新规则库。
其中,疑似新特定词集合基于上下文相关性算法与位置加权法从特定文本的原词中选取,具体包括:
选取特定词库中各特定词所在的M个文本作为样本,基于M个文本样本计算各特定词的上下文相关度,所述上下文相关度的计算公式为:
其中,G(w)表示特定词w的上下文相关度,wl表示特定词w的左邻接字,sl表示特定词w的左邻接字集合,P(wlw)表示文本样本集中特定词w 的左邻接字是wl的概率,P(w)表示文本样本集中出现特定词w的概率,wr表示特定词w的右邻接字,sr表示特定词w的右邻接字集合,P(wrw)表示文本样本集中特定词w的右邻接字是Wr的概率;
将上下文相关度与词组的位置信息相结合,首先使用句法依赖解析器spacy 将特定文本构造成依赖树,然后基于依赖树构造邻接矩阵:
其中,C为m阶邻接矩阵,i,j∈[1,m],i≠j,m为词组总数,C 矩阵中的任一元素用Cij表示,Cij是指词wi与词wj直接的依赖关系。
计算邻接矩阵中每个元素的位置权重:
其中,Wij表示特定文本中词wi与词wj的位置权重,A为特定词集合, h(wi)表示词wi的位置,h(wj)表示词wj的位置。将原词的上下文相关度与其他词组的位置权重相乘,若结果大于预设的阈值,则当前原词为疑似新特定词。
疑似新特定词集合还可以基于文本聚类的TF-ICF(术语频率-逆语料库频率)算法提取;TF-ICF算法的计算过程为:
其中,ωuv表示文本u中第v个词的权重,fuv表示第v个词在文本u中出现的次数,即术语频率,N是语料库中的文本总数,nv为第v个词在语料库中出现一次或多次的文本数,即逆语料库频率。根据文本中原词与特定词的距离进行位置加权,位置加权由实验获得。将原词的位置加权与权重相乘,若结果大于预设的阈值,则当前原词为疑似新特定词。
使用特定词库10初筛后的文本数据集可以提高识别效率;使用新词发现方法得到疑似特定词库10,优化了分词有一定几率不能正确拆分新特定词的缺陷;使用包含特定词特征的BERT模型筛选出最可能的新特定词,避免了预构建模式规则的局限;识别结果可对词库和规则库20进行扩充优化,便于搜索查看和日后取用,循环迭代地提高识别效果。
其中,新词发现方法包括但不限于上下文相关性算法、TF-ICF方法和位置加权方法,基于TF-IDF的方法、基于Learning-to-Rank的方法等其他新词发现技术皆在本专利的保护范围内。
多维检测规则包括:若文本中任一特定词的所有特定字中间有分隔符的存在,则将此情况视为当前特定词;若文本中任一特定词的所有特定字以文字或拼音的形式同时存在,则将此情况视为当前特定词。
分隔符集合由从文本样本集合中提取的表情符号和标点分割符号组成;所述文本样本集合为用户选取的专门用于提取分隔符集合的固定数量的文本集合。
本发明实施例还公开一种文本中特定内容识别存储系统。
一种文本中特定内容识别存储系统,包括特定词库10、规则库20、文本获取模块30、特定词识别模块40、新词发现模块50、BERT模块60、新词确认模块70,其中:
特定词库10,用于存储已有的特定词,特定词库10与特定词识别模块 40、BERT模块60通过数据传输的方式连接,特定词包含涉政、涉黄等类型;
规则库20,用于存储特定字利用与或非的规则结合分隔符集合与特定字对应的拼音以及多维检测规则,规则库20与特定词识别模块40通过数据传输的方式连接;
文本获取模块30,用于获取待识别的文本集合,文本获取模块30与特定词识别模块40通过数据传输的方式连接;
特定词识别模块40,用于识别特定词,特定词识别模块40通过数据传输的方式与新词发现模块50连接;
新词发现模块50,用于对特定文本数据集采用新词发现方法提取当前特定文本数据集中的新特定词,得到新特定词集合,新词发现模块50通过数据传输的方式与BERT模块60连接;
BERT(基于转换器的双向编码表征)模块60,用于将需要训练的词组输入 BERT模型,输出文本中各个词融合了全文语义信息后的向量表示,BERT模块60通过数据传输的方式与新词确认模块70连接,其中,需要训练的词组包括特定词集合和原词集合;
新词确认模块70,用于计算特定词库10中各词的特征向量与疑似新特定词集合中各词的特征向量的余弦相似度,设定一个阈值,超过阈值的疑似新特定词则判定为新特定词,新词确认模块70通过数据传输的方式与特定词库 10和规则库20连接。
特定词识别模块40包括:
分词单元,用于根据特定词库中特定词的字数设立分词步长,利用分词步长对文本进行分词划分,得到原词,分词单元将原词发送给匹配单元;
结构整理单元,用于构建特定词树状结构,将特定词的第一个字或对应的拼音作为树状结构的第一个节点,特定词的第二个字或对应的拼音以及分隔符作为第二个节点,若分隔符为第二个节点,则特定词的第二个字或对应的拼音后移为第三个节点,依次类推,每个特定词对应两个树状结构,分别是以第一个字和对应的拼音作为开始节点,结构整理单元将树状结构发送给匹配单元;
匹配单元,用于计算原词与特定词的相似度,过滤出不含有特定词的文本,得到特定文本;
其中,原词与特定词的相似度计算公式为:
z=min[d(n1,i-1,n2,j)+1,d(n1,i,n2,j-1)+1,d(n1,i-1,n2,j-1)+c]
其中,sim(w1,w2)表示词w1与词w2的相似度,n1,i表示词w1中第 i个字是否存在,若存在为1,不存在为0,n2,j表示词w2中第j个字是否存在, max(i,j)表示从i和j中取最大值,n1表示词w1的字数,n2表示词w2的字数,z是min函数的取值,min是最小值函数,d表示两个字的距离,c 为常数。预先设立相似度阈值,若相似度高于相似度阈值,则表明两个词为同一词。从而过滤出不含有特定词的文本,得到特定文本。
在具体实施例中,初步筛选出包含特定词库中特定词的文本共计约100 万条,作为特定文本数据集。
特定词识别方法具体如下:
分词单元根据特定词库中特定词的字数设立分词步长,利用分词步长对文本进行分词划分,得到原词。
在具体实施例中,若特定词库中的特定词大多为2个字或3个字,则分词步长n分别取2和3;对与文本为“文本中特定内容的识别”可得到包含两个字的原词“文本”、“本中”、“中特”、“特定”、“定内”、“内容”、“容的”、“的识”、“识别”,以及包含三个字的原词“文本中”、“本中特”、“中特定”、“特定内”、“定内容”、“内容的”、“容的识”、“的识别”。
对原词与各特定词进行匹配,确定原词中是否含有特定词。需要注意的是,原词与特定词的匹配计算包括原词与规则库中包含分隔符与拼音形式存在的特定词之间的所有匹配计算。
结构整理单元构建特定词树状结构,将特定词的第一个字或对应的拼音作为树状结构的第一个节点,特定词的第二个字或对应的拼音以及分隔符作为第二个节点,若分隔符为第二个节点,则特定词的第二个字或对应的拼音后移为第三个节点,依次类推,每个特定词对应两个树状结构,分别是以第一个字和对应的拼音作为开始节点。
以特定词“特定”为例,如图2所示。
本发明实施例一种文本中特定内容识别存储系统的实施原理为:使用特定词库初筛后的文本数据集可以提高识别效率;使用新词发现方法得到疑似特定词库,优化了分词有一定几率不能正确拆分新特定词的缺陷;使用包含特定词特征的BERT模型筛选出最可能的新特定词,避免了预构建模式规则的局限;识别结果可对词库和规则库进行扩充优化,便于搜索查看和日后取用,循环迭代地提高识别效果。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种文本中特定内容识别存储方法,其特征在于,包括:
S1、基于已有特定词和特定字生成特定词库和规则库,所述特定词由若干特定字组成;
S2、获取待识别的文本集合,所述待识别的文本集合包含若干文本,每个文本由文本语料数据组成,所述文本语料数据包含社交软件或群组的记录语料和论坛的中文语料,文本集合中含有一定数量的特定文本,所述特定文本为含有特定词的文本;
S3、基于特定文本数据集提取当前特定文本数据集中的新特定词,得到新特定词集合,从特定词库中筛选出的特定词作为特定文本数据集;
S4、将需要训练的词组输入BERT模型,所述需要训练的词组包括特定词集合和原词集合;
S5、从特定文本中获取疑似新特定词集合,利用BERT模型计算特定词库中各词的特征向量与疑似新特定词集合中各词的特征向量的余弦相似度,并基于计算结果判定新特定词;
所述疑似新特定词集合基于上下文相关性算法与位置加权法从特定文本的原词中选取,具体包括:
选取特定词库中各特定词所在的M个文本作为样本,基于M个文本样本计算各特定词的上下文相关度,所述上下文相关度的计算公式为:
其中,表示特定词的上下文相关度,表示特定词的左邻接字,表示特定词的左邻接字集合,表示文本样本集中特定词的左邻接字是的概率,表示文本样本集中出现特定词的概率,表示特定词的右邻接字,表示特定词的右邻接字集合,表示文本样本集中特定词的右邻接字是的概率;
将上下文相关度与词组的位置信息相结合,首先使用句法依赖解析器spacy将特定文本构造成依赖树,然后基于依赖树构造邻接矩阵:
计算邻接矩阵中每个元素的位置权重:
2.根据权利要求1所述的一种文本中特定内容识别存储方法,其特征在于:所述规则库利用与或非的规则结合分隔符集合与特定字对应的拼音以及多维检测规则。
3.根据权利要求2所述的一种文本中特定内容识别存储方法,其特征在于:所述分隔符集合由从文本样本集合中提取的表情符号和标点分割符号组成;所述文本样本集合为用户选取的专门用于提取分隔符集合的固定数量的文本集合。
4.根据权利要求2所述的一种文本中特定内容识别存储方法,其特征在于,所述多维检测规则包括:若文本中任一特定词的所有特定字中间有分隔符的存在,则将此情况视为当前特定词;若文本中任一特定词的所有特定字以文字或拼音的形式同时存在,则将此情况视为当前特定词。
6.一种文本中特定内容识别存储系统,其特征在于,包括:
特定词库,用于存储已有的特定词,特定词库与特定词识别模块、BERT模块通过数据传输的方式连接;
规则库,用于存储特定字,规则库与特定词识别模块通过数据传输的方式连接;
文本获取模块,用于获取待识别的文本集合,文本获取模块与特定词识别模块通过数据传输的方式连接;
特定词识别模块,用于识别特定词,特定词识别模块通过数据传输的方式与新词发现模块连接;
新词发现模块,用于从特定文本数据集中提取新特定词,得到疑似新特定词集合,新词发现模块通过数据传输的方式与BERT模块连接;
BERT模块,用于将需要训练的词组输入BERT模型,输出文本中各个词融合了全文语义信息后的向量表示,BERT模块通过数据传输的方式与新词确认模块连接;
新词确认模块,用于计算特定词库中各特定词的特征向量与疑似新特定词集合中各词的特征向量的余弦相似度,设定一个阈值,超过阈值的疑似新特定词则判定为新特定词,新词确认模块通过数据传输的方式与特定词库和规则库连接;
所述特定词识别模块包括:
分词单元,用于根据特定词库中特定词的字数设立分词步长,利用分词步长对文本进行分词划分,得到原词,分词单元将原词发送给匹配单元;
结构整理单元,用于构建特定词树状结构,将特定词的第一个字或对应的拼音作为树状结构的第一个节点,特定词的第二个字或对应的拼音以及分隔符作为第二个节点,若分隔符为第二个节点,则特定词的第二个字或对应的拼音后移为第三个节点,依次类推,每个特定词对应两个树状结构,分别是以第一个字和对应的拼音作为开始节点,结构整理单元将树状结构发送给匹配单元;
匹配单元,用于计算原词与特定词的相似度,过滤出不含有特定词的文本,得到特定文本;
其中,原词与特定词的相似度计算公式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210949186.XA CN115309899B (zh) | 2022-08-09 | 2022-08-09 | 一种文本中特定内容识别存储方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210949186.XA CN115309899B (zh) | 2022-08-09 | 2022-08-09 | 一种文本中特定内容识别存储方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115309899A CN115309899A (zh) | 2022-11-08 |
CN115309899B true CN115309899B (zh) | 2023-05-16 |
Family
ID=83859878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210949186.XA Active CN115309899B (zh) | 2022-08-09 | 2022-08-09 | 一种文本中特定内容识别存储方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115309899B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117574896B (zh) * | 2024-01-16 | 2024-04-09 | 之江实验室 | 基于电子病历文本的手术费用识别方法、装置及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112650843A (zh) * | 2020-12-23 | 2021-04-13 | 平安银行股份有限公司 | 问答对知识库的构建方法、装置、设备及存储介质 |
WO2022105083A1 (zh) * | 2020-11-19 | 2022-05-27 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020422B (zh) * | 2018-11-26 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 特征词的确定方法、装置和服务器 |
CN109902159A (zh) * | 2019-01-29 | 2019-06-18 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理的智能运维语句相似度匹配方法 |
CN110287494A (zh) * | 2019-07-01 | 2019-09-27 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习bert算法的短文本相似匹配的方法 |
CN112966501B (zh) * | 2021-02-22 | 2023-04-11 | 广州寄锦教育科技有限公司 | 一种新词发现方法、系统、终端及介质 |
CN114266256A (zh) * | 2021-12-21 | 2022-04-01 | 深圳供电局有限公司 | 一种领域新词的提取方法及系统 |
CN114091436B (zh) * | 2022-01-21 | 2022-05-17 | 万商云集(成都)科技股份有限公司 | 一种基于决策树及变体识别的敏感词检测方法 |
-
2022
- 2022-08-09 CN CN202210949186.XA patent/CN115309899B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022105083A1 (zh) * | 2020-11-19 | 2022-05-27 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及介质 |
CN112650843A (zh) * | 2020-12-23 | 2021-04-13 | 平安银行股份有限公司 | 问答对知识库的构建方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115309899A (zh) | 2022-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN110750640B (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN110851596A (zh) | 文本分类方法、装置及计算机可读存储介质 | |
Ahmed et al. | Cyberbullying detection using deep neural network from social media comments in bangla language | |
CN112883732A (zh) | 基于关联记忆网络的中文细粒度命名实体识别方法及装置 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN107797987B (zh) | 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法 | |
Balli et al. | Sentimental analysis of Twitter users from Turkish content with natural language processing | |
CN112860898B (zh) | 一种短文本框聚类方法、系统、设备及存储介质 | |
CN114048305A (zh) | 一种基于图卷积神经网络的行政处罚文书的类案推荐方法 | |
CN113704416A (zh) | 词义消歧方法、装置、电子设备及计算机可读存储介质 | |
CN109740164A (zh) | 基于深度语义匹配的电力缺陷等级识别方法 | |
CN108536781B (zh) | 一种社交网络情绪焦点的挖掘方法及系统 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN111159405A (zh) | 基于背景知识的讽刺检测方法 | |
Suyanto | Synonyms-based augmentation to improve fake news detection using bidirectional LSTM | |
CN115309899B (zh) | 一种文本中特定内容识别存储方法及系统 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN114064901B (zh) | 一种基于知识图谱词义消歧的书评文本分类方法 | |
CN114925702A (zh) | 文本相似度识别方法、装置、电子设备及存储介质 | |
CN113220964B (zh) | 一种基于网信领域短文本的观点挖掘方法 | |
Rehman et al. | User-aware multilingual abusive content detection in social media | |
Tiwari et al. | Comparative Analysis of Different Machine Learning Methods for Hate Speech Recognition in Twitter Text Data | |
Al Taawab et al. | Transliterated bengali comment classification from social media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |