CN113779196A - 一种融合多层次信息的海关同义词识别方法 - Google Patents

一种融合多层次信息的海关同义词识别方法 Download PDF

Info

Publication number
CN113779196A
CN113779196A CN202111045198.1A CN202111045198A CN113779196A CN 113779196 A CN113779196 A CN 113779196A CN 202111045198 A CN202111045198 A CN 202111045198A CN 113779196 A CN113779196 A CN 113779196A
Authority
CN
China
Prior art keywords
synonym
layer
vector
information
customs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111045198.1A
Other languages
English (en)
Other versions
CN113779196B (zh
Inventor
张强
刘大为
车超
周东生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University
Original Assignee
Dalian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University filed Critical Dalian University
Priority to CN202111045198.1A priority Critical patent/CN113779196B/zh
Publication of CN113779196A publication Critical patent/CN113779196A/zh
Application granted granted Critical
Publication of CN113779196B publication Critical patent/CN113779196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种融合多层次信息的海关同义词识别方法,包括:步骤1:将相同商品的所述要素短语作为同义词集合,获取多组同义词集合形成同义词识别的数据集;步骤2:将同义词集合进行向量编码转换,采用word2vec模型提取所述数据集中同义词的词向量特征,通过sentence‑BERT模型提取所述数据集中同义词的句向量特征;步骤3:把词向量特征和所述句向量特征分别送入双通道CNN层中进行特征提取,同时利用BiLSTM+attention网络提取所述同义词的语序信息和关键词信息;步骤4:将语序信息和关键词信息对应的特征进行拼接,再与BiLSTM+attention网络的输出层拼接,送入softmax层进行训练分类,得到同义词类别。本发明解决了同类商品要素短语稀疏造成的同义词识别困难问题,提高了同义词识别的准确率。

Description

一种融合多层次信息的海关同义词识别方法
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于双通道卷积融合多层次信息的海关进出口商品同义词识别方法。
背景技术
近年来,随着跨境电商的迅速发展,对海关涉税风险的防控手段和作业方式都提出了更高的要求。传统的监管方式无法高效地甄别高风险数据,而源源不断的海关进出口商品信息为智能化处理涉税文本提供了条件。海关进出口企业依照规范申报标准需要填写进出口商品信息,所述进出口商品信息中“规格型号”一项包含了材质、种类、用途、成分等商品的要素短语,是商品文本信息的重要载体。对海关商品要素短语进行同义词识别分类,建立海关同义词库,将具有同义词关系的进出口商品纳入到同类商品的风险布控中,可以帮助海关提高风险布控手段,使商品的监管范围锁定在要素粒度上,对企业进出口商品信息的规范申报具有重要意义。
海关同义词识别是将具有相同属性的,概念上具有同一类特征的要素短语归类到一起,作为短文本分类问题在自然语言处理领域有极高的应用场景。
不同于传统的文本语料,海关同义词具有如下特点:1)依赖关键词信息;2)具有语序上的序列关系,按照上下文的语义排列;3)同类同义词在向量空间上具有明显的聚类特征。谷歌提出的BERT模型是一个基于多层双向的Transformer预训练模型,在文本分类等多个自然语言任务中取得了显著的效果,但BERT模型只能两两比较句子相似度,无法对大规模的同义词进行语义识别。此外,BERT向量无法根据同义词特点进行针对性的特征抽取,海关同义词在向量空间中具有相近的语义关系,sentence-BERT模型可以将语义接近的同义词映射到相近的句向量空间中,与word2vec词向量构成了句子级和词汇级的向量表示,其尽管在同义词识别方面进行了大量工作,但在海关同义词识别上仍有较高难度,常规方法很难有效的提取到海关语料的关键特征,由此可见,需要提出一种新的基于深度神经网络的海关同义词识别方法。
发明内容
本申请的目的在于提供一种海关进出口商品同义词识别方法,通过利用海关专有的语料资源,解决了同类商品要素短语稀疏造成的同义词识别困难问题,提高了同义词识别的准确率。
为实现上述目的,本申请提出一种融合多层次信息的海关同义词识别方法,包括:
步骤1:从海关进出口商品申报文本中提取描述商品属性的要素短语,将相同商品的所述要素短语作为同义词集合,获取多组所述同义词集合形成同义词识别的数据集;
步骤2:将所述同义词集合进行向量编码转换,采用word2vec模型提取所述数据集中同义词的词向量特征,通过sentence-BERT模型提取所述数据集中同义词的句向量特征;
步骤3:把所述词向量特征和所述句向量特征分别送入双通道CNN层中进行特征提取,同时利用BiLSTM+attention网络提取所述同义词的语序信息和关键词信息;
步骤4:将所述语序信息和关键词信息对应的特征进行拼接,再与BiLSTM+attention网络的输出层拼接,送入softmax层进行训练分类,得到同义词类别。
进一步的,所述步骤2具体实现方式包括:
步骤21.对所述同义词集合进行预处理,包括:去除特殊字符、停用词、否定词、异义词和全角半角转换;
步骤22.制作句向量sentence-BERT的训练集;
步骤23.采用谷歌中文预训练模型作为编码器构建sentence-BERT模型,设置最大句长为256维,超过部分将被截断,在池化层mean-pooling后加入一个512维的全连接层用来微调fine-tune,损失函数为Tanh,sentence-BERT作为双编码器的典型例子,其训练输入两个句子,并根据实际两个句子的接近程度输出两个句向量表示,采用均方误差作为损失函数如公式(1)所示:
Figure BDA0003250912190000031
其中,yi是预测标签,
Figure BDA0003250912190000032
是实际标签,N为总样本数;其次将同义词批量送入word2vec模型进行训练;故分别生成sentence-BERT同义词句向量信息和word2vec词嵌入信息。
进一步的,所述训练集包括至少一个正样本和至少一个负样本,所述正样本为同义词对,从同一同义词集合中选取两个词构建正样本;所述负样本为非同义词对,从不同同义词集合中选取两个词构建负样本;依照关键词规则进行相似度打分。
进一步的,所述步骤3具体实现方式包括:
步骤31.将sentence-BERT同义词句向量信息和word2vec词嵌入信息分别输入到textCNN两个通道作为输入,每个通道包含了3组不同大小的卷积核,每组卷积核的宽度分别为3,4,5,计算公式如(2)所示;
Figure BDA0003250912190000041
Figure BDA0003250912190000042
表示网络l层对第j个神经元的激活值,f()为激活函数relu,
Figure BDA0003250912190000043
为第i个特征值和当前层第j个特征值的卷积核,Mj为前一层特征数据集合,Bl为偏置项;卷积运算可以加强特征信号,减弱噪声。
进一步的,所述步骤3具体实现方式还包括:
步骤32.同义词的语序具有上下文排列顺序,BiLSTM模型提取同义词的语序信息,输出向量经过attention层提取关键词特征,attention层计算公式如下:
et=tanh(wtst+bt) (3)
Figure BDA0003250912190000044
Figure BDA0003250912190000051
et表示第t个特征向量的状态向量st所确定的能量值;wt表示第t个特征向量的权重系数矩阵,bt表示第t个特征向量对应的偏移量;根据式(3)可以实现由输入初始状态到新的注意力状态αt的转换,之后通过式(4)得到最终输出的状态向量Y。
更进一步的,所述步骤4具体实现方式包括:
步骤41.BiLSTM+attention网络输出后的向量与通道卷积处理后的隐藏层向量进行拼接,构成了融合多层次信息的特征表示;
Figure BDA0003250912190000052
如公式(6)所示,BiLSTM模型提取同义词的语序信息,输出的隐藏层向量经过attention层提取关键特征,输出后的向量w3与双通道卷积处理后的w2v、sbert的隐藏层向量w1、w2进行拼接,送入到分类器softmax之前,经过dropout层随机遮盖10%的数值防止过拟合,得到最终融合三组特征向量的特征D;
步骤42.将拼接后的特征D送入全连接层进行分类。
更进一步的,按照拼接的特征D进行归一化分类,根据损失函数按误差的反向传播更新卷积层和BiLSTM+attention网络,具体步骤如下:
A1.在输出层的表示上,如公式(7)所示,Wd表示状态层到输出层的训练权重,b为对应的偏置,经过分类器softmax后得到最终的分类结果;
y=softmax(WdD+b) (7)
A2.训练过程中参数{w,b}按梯度下降法更新,求出Δw=Δw+▽wL(x),Δb=Δw+▽bL(x),参数{w,b}更新如下:
w=w-εΔw (8)
b=b-εΔb (9)
w表示权重,b表示偏置,ε表示特定学习率。
本发明由于采用以上技术方案,能够取得如下的技术效果:本发明通过融合多层次信息的卷积神经网络模型,利用海关专属的语料资源,结合海关文本的特点,解决了同类商品要素短语稀疏造成的同义词识别困难问题,识别要素短语的语序关键词信息、空间语义信息和上下文词嵌入信息,提高了海关进出口商品同义词识别的准确率。
附图说明
图1为一种海关进出口商品同义词识别方法流程示意图。
具体实施方式
本发明的实施例是在以本发明技术方案为前提下进行实施的,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述实施例。
实施例1
在面向海关进出口商品报关文本中,商品的要素短语是描述该商品信息的关键,从实际报关文本中提取了同种商品相同要素类别下的要素短语,通过所述要素短语制作了数据集。然后根据海关要素短语的特点提出两种词向量方案:1)word2vec模型在数据集上进行词向量的特征提取;2)sentence-BERT模型在数据集上进行同义词句向量的特征提取。在word2vec模型的训练方面,为了模拟真实海关业务进出口商品信息不断录入更新的场景,可以随机抽取了30%的同义词语料,并设置了停用词,对word2vec模型进行了训练,生成了基于word2vec的词典语料库。为了让sentence-BERT模型更好地掌握要素下的语义关系,本发明研究了不同类别要素短语之间的相似度,在海关专家的帮助下确立了基于关键词信息的打分规则。首先选取每一类别下1000条同义词两两组合成45万条词对,然后根据建立的要素短语打分规则进行打分。在预训练模型基础上,采用均方差作为损失函数,对45万条大词对进行了13个小时的训练。将word2vec模型和sentence-BERT模型得到的特征向量分别送入textCNN通道中。
将word2vec词嵌入信息送入到BiLSTM+attention网络中,BiLSTM模型将正向和反向的隐藏层相加送入attention层中,将得到的特征向量与双通道卷积的特征向量拼接送入分类器softmax中。该方式有效解决了同类商品要素短语稀疏造成的同义词识别困难问题,其准确率比目前其他主流的分类方法有显著的提高。
以下结合附图对本发明做详细的说明,以使本领域普通技术人员参照本说明后能够据以实施。
本实施例以Pycharm为开发平台,Python为开发语言。在海关真实语料上进行同义词识别。以下为具体过程:
步骤1:通过海关同义词提取模块,提取海关进出口商品文本信息中的要素短语,相同商品的要素短语归为同义词集合,提取出多个同义词集合;
步骤2:将步骤1中得到的同义词集合送入词向量训练模块,训练并得到sentence-BERT同义词句向量信息和word2vec词嵌入信息存于本地,具体为:
步骤21:将得到的要素短语,进行预处理,去掉特殊字符、停用词、全角半角转换;
步骤22:随机抽取了30%的同义词语料,对word2vec模型进行了训练,生成了基于word2vec的词典语料库,即word2vec词嵌入信息;
步骤23:从同义词集合中取出两个同义词,来自相同同义词集合为正样本,来自不同同义词集合为负样本,根据建立的关键词打分规则进行打分。训练并生成sentence-BERT同义词句向量,采用余弦相似度作为损失函数。
步骤3:把步骤2中得到的词向量特征和句向量送入双通道CNN网络中进行特征提取,同时利用BiLSTM+attention网络提取词序信息和关键词信息,具体为:
步骤31:sentence-BERT空间语义信息和word2vec通用词嵌入信息分别输入到textCNN两个通道作为输入,利用卷积层提取特征,选取最大池化方式;
步骤32:同义词的语序具有规格型号的上下文顺序,BiLSTM提取同义词的语序信息,输出向量经过attention层提取关键特征;
步骤4:融合步骤3隐藏层信息得到新的特征向量,送入softmax进行训练分类,得到同义词类别,具体为:
步骤41:拼接通道卷积层和BiLSTM+attention网络的隐藏层向量,构成了融合多层次信息的特征表示;
步骤42:将拼接后的特征送入全连接层进行分类。
根据以上步骤,本发明将与textRCNN模型,BiLSTM模型以及BERT模型等做了对比。从表1中可以看出,本发明提出的方法在分类的准确率、精确率以及F1值方面明显优于其他方法。
表1不同模型针对海关进出口商品分类效果对比
Figure BDA0003250912190000091
同时,本发明模型的各部分子模型进行了单独的验证,分别比对了模型在各个子模型的表现。如表2所示,w/o w2v是去除word2vec词向量通道保留sentence-BERT句向量通道的textCNN模型,w/osbert是去除sentence-BERT句向量通道,w/o bilstm+att是去除了BiLSTM+attention层,以word2vec和sentence-BERT作为双通道的textCNN模型。本发明中融合多层次信息的卷积神经网络模型能够大幅度提高海关进出口商品同义词识别的准确性。
表2不同的子模型对海关进出口商品同义词识别效果的影响
Figure BDA0003250912190000092
Figure BDA0003250912190000101
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims (7)

1.一种融合多层次信息的海关同义词识别方法,其特征在于,包括:
步骤1:从海关进出口商品申报文本中提取描述商品属性的要素短语,将相同商品的所述要素短语作为同义词集合,获取多组所述同义词集合形成同义词识别的数据集;
步骤2:将所述同义词集合进行向量编码转换,采用word2vec模型提取所述数据集中同义词的词向量特征,通过sentence-BERT模型提取所述数据集中同义词的句向量特征;
步骤3:把所述词向量特征和所述句向量特征分别送入双通道CNN层中进行特征提取,同时利用BiLSTM+attention网络提取所述同义词的语序信息和关键词信息;
步骤4:将所述语序信息和关键词信息对应的特征进行拼接,再与BiLSTM+attention网络的输出层拼接,送入softmax层进行训练分类,得到同义词类别。
2.根据权利要求1所述一种融合多层次信息的海关同义词识别方法,其特征在于,所述步骤2具体实现方式包括:
步骤21.对所述同义词集合进行预处理,包括:去除特殊字符、停用词、否定词、异义词和全角半角转换;
步骤22.制作句向量sentence-BERT的训练集;
步骤23.采用中文预训练模型作为编码器构建sentence-BERT模型,设置最大句长为256维,超过部分将被截断,在池化层mean-pooling后加入一个512维的全连接层用来微调fine-tune,损失函数为Tanh,所述sentence-BERT模型训练输入两个句子,并根据实际两个句子的接近程度输出两个句向量表示,采用均方误差作为损失函数如公式(1)所示:
Figure FDA0003250912180000021
其中,yi是预测标签,
Figure FDA0003250912180000022
是实际标签,N为总样本数;其次将同义词批量送入word2vec模型进行训练;故分别生成sentence-BERT同义词句向量信息和word2vec词嵌入信息。
3.根据权利要求2所述一种融合多层次信息的海关同义词识别方法,其特征在于,所述训练集包括至少一个正样本和至少一个负样本,所述正样本为同义词对,从同一同义词集合中选取两个词构建正样本;所述负样本为非同义词对,从不同同义词集合中选取两个词构建负样本;依照关键词规则进行相似度打分。
4.根据权利要求1所述一种融合多层次信息的海关同义词识别方法,其特征在于,所述步骤3具体实现方式包括:
步骤31.将sentence-BERT同义词句向量信息和word2vec词嵌入信息分别输入到textCNN两个通道作为输入,每个通道包含了3组不同大小的卷积核,计算公式如(2)所示;
Figure FDA0003250912180000023
其中,
Figure FDA0003250912180000024
表示网络l层对第j个神经元的激活值,f()为激活函数relu,
Figure FDA0003250912180000025
为第i个特征值和当前层第j个特征值的卷积核,Mj为前一层特征数据集合,Bl为偏置项。
5.根据权利要求1或4所述一种融合多层次信息的海关同义词识别方法,其特征在于,所述步骤3具体实现方式还包括:
步骤32.BiLSTM模型提取同义词的语序信息,输出向量经过attention层提取关键词特征,attention层计算公式如下:
et=tanh(wtst+bt) (3)
Figure FDA0003250912180000031
Figure FDA0003250912180000032
et表示第t个特征向量的状态向量st所确定的能量值;wt表示第t个特征向量的权重系数矩阵,bt表示第t个特征向量对应的偏移量。
6.根据权利要求1所述一种融合多层次信息的海关同义词识别方法,其特征在于,所述步骤4具体实现方式包括:
步骤41.BiLSTM+attention网络输出后的向量与通道卷积处理后的隐藏层向量进行拼接,构成了融合多层次信息的特征表示;
Figure FDA0003250912180000033
如公式(6)所示,BiLSTM模型提取同义词的语序信息,输出的隐藏层向量经过attention层提取关键特征,输出后的向量w3与双通道卷积处理后的w2v、sber的隐藏层向量w1、w2进行拼接,送入到分类器softmax之前,经过dropout层随机遮盖10%的数值,得到最终融合三组特征向量的特征D;
步骤42.将拼接后的特征D送入全连接层进行分类。
7.根据权利要求6所述一种融合多层次信息的海关同义词识别方法,其特征在于,按照拼接的特征D进行归一化分类,根据损失函数按误差的反向传播更新卷积层和BiLSTM+attention网络,具体步骤如下:
A1.在输出层的表示上,如公式(7)所示,Wd表示状态层到输出层的训练权重,b为对应的偏置,经过分类器softmax后得到最终的分类结果;
y=softmax(WdD+b) (7)
A2.训练过程中参数{w,b}按梯度下降法更新,求出
Figure FDA0003250912180000041
参数{w,b}更新如下:
w=w-εΔw (8)
b=b-εΔb (9)
w表示权重,b表示偏置,ε表示特定学习率。
CN202111045198.1A 2021-09-07 2021-09-07 一种融合多层次信息的海关同义词识别方法 Active CN113779196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111045198.1A CN113779196B (zh) 2021-09-07 2021-09-07 一种融合多层次信息的海关同义词识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111045198.1A CN113779196B (zh) 2021-09-07 2021-09-07 一种融合多层次信息的海关同义词识别方法

Publications (2)

Publication Number Publication Date
CN113779196A true CN113779196A (zh) 2021-12-10
CN113779196B CN113779196B (zh) 2024-02-13

Family

ID=78841554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111045198.1A Active CN113779196B (zh) 2021-09-07 2021-09-07 一种融合多层次信息的海关同义词识别方法

Country Status (1)

Country Link
CN (1) CN113779196B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027595A (zh) * 2019-11-19 2020-04-17 电子科技大学 双阶段语义词向量生成方法
CN111930892A (zh) * 2020-08-07 2020-11-13 重庆邮电大学 一种基于改进互信息函数的科技文本分类方法
US20210056168A1 (en) * 2019-08-20 2021-02-25 International Business Machines Corporation Natural language processing using an ontology-based concept embedding model
CN112632970A (zh) * 2020-12-15 2021-04-09 北京工业大学 结合学科同义词与词向量的相似度评分算法
CN112732916A (zh) * 2021-01-11 2021-04-30 河北工业大学 一种基于bert的多特征融合模糊文本分类模型

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210056168A1 (en) * 2019-08-20 2021-02-25 International Business Machines Corporation Natural language processing using an ontology-based concept embedding model
CN111027595A (zh) * 2019-11-19 2020-04-17 电子科技大学 双阶段语义词向量生成方法
CN111930892A (zh) * 2020-08-07 2020-11-13 重庆邮电大学 一种基于改进互信息函数的科技文本分类方法
CN112632970A (zh) * 2020-12-15 2021-04-09 北京工业大学 结合学科同义词与词向量的相似度评分算法
CN112732916A (zh) * 2021-01-11 2021-04-30 河北工业大学 一种基于bert的多特征融合模糊文本分类模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
袁蕾;高曙;郭淼;袁自勇;: "层次化神经网络模型下的释义识别方法", 哈尔滨工业大学学报, no. 10, pages 181 - 188 *

Also Published As

Publication number Publication date
CN113779196B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN110866117B (zh) 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN112732916B (zh) 一种基于bert的多特征融合模糊文本分类系统
CN111930942B (zh) 文本分类方法、语言模型训练方法、装置及设备
CN109684642B (zh) 一种结合页面解析规则和nlp文本向量化的摘要提取方法
CN112990296B (zh) 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
CN111414481A (zh) 基于拼音和bert嵌入的中文语义匹配方法
CN111027595A (zh) 双阶段语义词向量生成方法
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和系统
Gangadharan et al. Paraphrase detection using deep neural network based word embedding techniques
CN108536781B (zh) 一种社交网络情绪焦点的挖掘方法及系统
CN112163089A (zh) 一种融合命名实体识别的军事高技术文本分类方法及系统
CN110472245A (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
CN112988970A (zh) 一种服务于智能问答系统的文本匹配算法
CN114881042A (zh) 基于图卷积网络融合句法依存与词性的中文情感分析方法
CN114254645A (zh) 一种人工智能辅助写作系统
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
CN115017879A (zh) 文本对比方法、计算机设备及计算机存储介质
Huang A CNN model for SMS spam detection
CN110674293B (zh) 一种基于语义迁移的文本分类方法
Prabhakar et al. Performance analysis of hybrid deep learning models with attention mechanism positioning and focal loss for text classification
CN116562291A (zh) 一种基于边界检测的中文嵌套命名实体识别方法
CN113434698B (zh) 基于全层级注意力的关系抽取模型建立方法及其应用
CN115906824A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
CN113779196B (zh) 一种融合多层次信息的海关同义词识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant