CN111325029B - 一种基于深度学习集成模型的文本相似度计算方法 - Google Patents

一种基于深度学习集成模型的文本相似度计算方法 Download PDF

Info

Publication number
CN111325029B
CN111325029B CN202010107048.8A CN202010107048A CN111325029B CN 111325029 B CN111325029 B CN 111325029B CN 202010107048 A CN202010107048 A CN 202010107048A CN 111325029 B CN111325029 B CN 111325029B
Authority
CN
China
Prior art keywords
model
text
similarity calculation
lstm
text similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010107048.8A
Other languages
English (en)
Other versions
CN111325029A (zh
Inventor
苏心玥
陶飞飞
唐勇军
杨泰勇
彭新宇
李婉婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202010107048.8A priority Critical patent/CN111325029B/zh
Publication of CN111325029A publication Critical patent/CN111325029A/zh
Application granted granted Critical
Publication of CN111325029B publication Critical patent/CN111325029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习集成模型的文本相似度计算方法,包括如下步骤:采用基于双向Bi‑LSTM神经网络的进行中文分词;去停用词、纠错、同义词替换等;关键词检索;采用Word2Vec训练得到客户问题文本词向量、标准问题文本词向量;特征工程抽取;基于Siamese LSTM模型的短文本相似度计算;基于Siamese CNN模型的长文本相似度计算;基于ESIM模型的文本语义相似度计算;基于Stacking集成LSTM、CNN及ESIM模型相似度计算。本发明基于深度学习集成模型的计算方法,可以保证更高的自适应性和精确度。

Description

一种基于深度学习集成模型的文本相似度计算方法
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于深度学习集成模型的文本相似度计算方法。
背景技术
客服是企业和客户之间的纽带,承担着直接服务客户的工作,解答业务问题,处理服务纠纷,加深客户对企业的了解,增进客户与企业之间的感情等等。然而,客服工作不仅强度大,而且工作内容也比较枯燥乏味,这一工作特性使得客服人员容易产生负面情绪,进而导致客服人员流动性大、招聘管理难,最终使得客户体验效果不理想。
人工智能特别是深度学习的发展和应用,为基于文本相似度计算技术的智能客服提供了可行的技术方案。智能客服受到了金融服务业的青睐,被应用于证券、基金等各大金融企业。但是,由于语言表达的多样性和灵活性,客户提出的问题一般和知识库的标准问题有一定的差异,这给智能客服解决方案提出了巨大挑战。
深度学习作为机器学习的一种,在文本相似度计算中越来越成为研究的优选方案。但目前在文本相似度计算中,通常采用单一的深度学习模型实现,不能适应长文本、短文本不同语言情境。
发明内容
针对现有技术中单一模型无法满足文本相似度计算的适应性和精度需求,本发明提供一种基于深度学习集成模型的文本相似度计算方法,采用深度学习集成模型能够适应长文本、短文本不同客户服务场景,可以有效提高适应性和精度。
本发明采用如下技术方案:
一种基于深度学习集成模型的文本相似度计算方法,包括如下步骤:
(1)基于双向Bi-LSTM神经网络进行中文分词;
(2)去停用词、纠错、同义词替换;
(3)关键词检索;
(4)采用Word2Vec训练得到客户问题文本词向量、标准问题文本词向量;
(5)特征工程抽取;
(6)基于Siamese LSTM模型的短文本相似度计算;
(7)基于Siamese CNN模型的长文本相似度计算;
(8)基于ESIM模型的文本语义相似度计算;
(9)基于Stacking集成LSTM、CNN及ESIM模型相似度计算。
优选地,所述步骤(1)中基于双向Bi-LSTM神经网络进行中文分词的具体过程为:
步骤1:标注序列;
步骤2:双向LSTM网络预测标签;
步骤3:Viterbi算法求解最优路径。
步骤(1)采取双向编码句子,采取拼接向量用以情感分类。
优选地,所述步骤(5)中特征工程抽取的具体过程为:
步骤1:统计特征抽取;
步骤2:图特征抽取。
优选地,所述步骤(6)中基于Siamese LSTM模型的短文本相似度计算,采用欧式距离公式(1)计算文本词向量相似度:
其中,A、B为n维空间中两个点,A=(a1,a2,...an),B=(b1,b2,...,bn)。
优选地,所述步骤(7)中基于Siamese CNN模型的长文本相似度计算的具体过程为:
步骤1:获取客户问题长文本词向量、标准问题文本词向量;
步骤2:使用CNN的不同大小卷积窗口的filter来抽取句子中各种长度元组的信息;
步骤3:使用欧式距离公式计算文本相似度。
优选地,所述步骤(8)中基于ESIM模型的文本语义相似度计算的具体过程为:
步骤1:获取客户提问问题和标准问题;
步骤2:客户提问问题的文本词序列输入到Siamese LSTM中的第一个LSTM中,标准问题输入到另一个LSTM中;
步骤3:用标准问题的语义表示对齐第一LSTM中的每个词语义表示,累加成新的句子语义存储起来;
步骤4:做句子级别的Attention对齐,使用标准问题的语义表示对存储的客户提问问题的语义表示进行对齐操作;
步骤5:使用MSE公式(2)作为损失函数得到匹配语义表示:
MSE=exp(-||x1-x2||) (2)
步骤6:完成相似度计算。
优选地,所述步骤(9)中基于Stacking集成LSTM、CNN及ESIM模型相似度计算,具体过程为:
步骤1:获取LSTM、CNN及ESIM模型的输出作为输入;
步骤2:采用两层Stacking模型第一层的基分类器对训练集X_train进行5折交叉验证,再使用训练的模型预测X_test取均值;
步骤3:X_test均值作为第二层Stacking模型的输入,训练第二层的Stacking模型;
步骤4:通过Stacking模型的返回值用以计算文本相似度。
优选地,Stacking模型采用logistic回归作为元模型。
本发明的有益效果在于:
本发明基于深度学习和模型集成技术,提供一种基于深度学习集成模型的文本相似度计算方法,对于智能客服中用户问题文本的长短不同情况,在分词、词向量训练等问题预处理基础上,首先利用Siamese LSTM模型解决短文本相似度计算、利用Siamese CNN模型解决长文本相似度计算、利用ESIM模型解决文本语义相似度计算;其次利用Stacking集成LSTM、CNN及ESIM模型解决不同质网络模型的融合,为智能客服提供了适应性强、更加准确的文本相似度计算方法。
附图说明
图1为本发明的文本相似度计算方法总体流程示意图;
图2为本发明的基于Siamese LSTM模型处理短文本相似度计算流程示意图;
图3为本发明的基于Siamese CNN模型处理长文本输入流程示意图;
图4为本发明的基于ESIM模型的两文本的语义相似度计算流程示意图;
图5为本发明的基于Stacking集成LSTM、CNN及ESIM模型的两层结构流程示意图;
图6为本发明的基于Stacking集成LSTM、CNN及ESIM模型的具体实现方式示意图;
图7为本发明的系统架构示意图。
具体实施方式
下面结合实施例对本发明作进一步详细说明,所给出的实施例是为了说明本发明方法的技术特点和功能特点,而不是限制本发明的范围。
本发明的实施例采用来源于为维基百科以及知乎关于证券金融问题语料库(2500条)作为实验数据,用于语义相似度的深度学习模型的预训练的词文件,用于计算两个语句中疑问词相似度的规则文件等。
部分实验数据
本发明使用TensorFlow机器学习框架建立神经网络模型,通过Word2Vec训练词向量,特征工程采取选取了统计特征、图特征作为机器学习特征模拟,判断短文本输入Siamese LSTM模型,判断长文本输入Siamese CNN模型,并且将模糊问、标准问输入ESIM模型进行语义计算,最后通过Stacking集成的模型完成文本相似度计算。模型参数设置中采用自适应算法加速学习效率,建立dropout随机失活神经网络正则化处理,防止过度拟合。
如图1,基于Stacking集成Siamese LSTM、Siamese CNN、ESIM模型的证券文本相似度计算的流程主要包括:
(1)基于双向Bi-LSTM神经网络,对证券问答库进行中文分词;
算法的主要步骤为:标注序列;双向LSTM网络预测标签;Viterbi算法求解最优路径;
采取双向编码句子,采取拼接向量用以情感分类。对于证券领域的模糊提问,例如提问“我很想知道是不是A股的上市到底可不可以拿来让我去开一个户?”这样的非专业歧义特殊提问,采用双向编码可以捕捉句子的依赖关系分词,具有双向的情感定义判断,分词可以得到关键信息点为“A股”,“上市”,“开户”。从而更好地服务于文本相似度计算。
(2)去停用词、纠错、同义词替换;
(3)检索证券、金融、经济相关关键词;
(4)采用Word2Vec训练得到客户问题文本词向量、标准问题文本词向量;
(5)特征工程抽取;抽取统计特征、图特征作为机器学习特征模拟;
统计特征抽取包括:a.两个语句上的长度差距;b.两个语句的编辑距离;c.两个语句的n-gram相似性的特征;d.两个语句的词的统计特征,包括相同词的个数,不同词的个数,Jaccard相似度;e.根据疑问词相似度规则文件计算两个语句疑问词的相似度;f.检测是否符合证券金融的相关性;
图特征抽取工作为词向量建立连通图,设置客户问为q1,标准问为q2。本算法中的数据增强原则:如果q1,q2相似,且q1,q2在同一个连通图,则连通图的问题都相似。如果q1,q2不相似,且存在连通图cc1包含q1,和cc2包含q2,则cc1和cc2的任意组合均不相似。利用图特征来做数据增强,获取更多的训练数据,从而使得模型的精度和准确度更高。
(6)基于Siamese LSTM模型的短文本相似度计算;
如图2,基于Siamese LSTM模型的短文本相似度计算的具体技术方案:
1)本模型算法是LSTM输入为句子对,分别对应左边和右边;
2)通过final state获取两个句子的向量,然后通过指数函数衡量差异,由于指数函数的指数为一阶范数的负数,所以取值范围为(0,1];
3)在构建样本的时候,给句子对打分为1~5分,再通过一个非参数化的回归层映射到这个区间,用MSE作为损失函数,梯度优化方法为AdaDelta;
4)为了训练更长的记忆能力,在本模型中设置权重参数初始化为随机的高斯分布参数,然后cell中忘记门的偏置值初始化设置根据训练集设置,在本算法中设置units:50,desen:128,dropout:0.75;
5)通过本模型欧式距离公式(1)计算出文本相似度,输出标准回答。
其中,A、B为n维空间中两个点,A=(a1,a2,...an),B=(b1,b2,...,bn)。
(7)基于Siamese CNN模型的长文本相似度计算;
如图3,基于Siamese CNN模型的长文本相似度计算的具体技术方案:
1)CNN在实现文本相似度分析一共分为四层,分别是输入层,卷积层,池化层和输出层;
2)文本分析主要是通过判断词语之间的相似度来实现句子的相似度;
3)模型使用了不同大小卷积窗口的filter来抽取句子中各种长度元组的信息,然后再计算相似度;
4)具体步骤包括:获取客户问题长文本词向量、标准问题文本词向量;使用CNN的不同大小卷积窗口的filter来抽取句子中各种长度元组的信息;使用欧式距离公式计算文本相似度;
5)例如句子中的为200维度向量,128词编辑长度,drop设置为0.2,3次的合并处理神经网络层计算得到相似度返回标准问题文本。在给定的数据集中,通过训练相应的词向量维度,合理设置卷积层,池化层的相关参数,采用自适应的优化算法处理。
(8)基于ESIM模型的文本语义相似度计算;
如图4,基于ESIM模型的文本语义相似度计算的具体技术方案:
1)采用ESIM模型用以做两文本的语义相似度计算;
2)引用Attention机制:Attention机制相当于人脑识别的过程,训练的语料为【客户提问文本,标准问题文本,score】,客户提问问题的文本词序列输入到Siamese LSTM中的第一个LSTM中,标准问题输入到另一个LSTM中,然后用标准问题的语义表示对齐第一LSTM中的每个词语义表示,累加成新的句子语义存储起来;
3)做句子级别的Attention对齐,使用标准问题的语义表示对存储的客户提问问题的语义表示进行对齐操作;
4)求加权平均值得到最后的匹配语义表示;
5)输出打分值:exp(-||x1-x2||1),用MSE作为损失函数训练完成;
6)通过打分值返回相应的客户提问对应的标准文本。
(9)基于Stacking集成LSTM、CNN及ESIM模型相似度计算。
两层Stacking如如图5,具体实现方式如图6,基于Stacking集成LSTM、CNN及ESIM模型相似度计算的具体技术方案:
1)采用Stacking训练模型集成LSTM、CNN及ESIM模型;
2)以训练好的LSTM、CNN及ESIM模型的输出为输入来训练模型;
3)Stacking设置为两层,使用单层logistic回归作为组合模型;
4)采用两层Stacking模型第一层的基分类器对训练集X_train进行5折交叉验证,再使用训练的模型预测X_test取均值;
5)X_test均值作为第二层Stacking模型的输入,训练第二层的Stacking模型;
6)通过Stacking模型的返回值用以计算文本相似度。
本发明对于证券金融话题语料库的数据处理方式为将测试集的原始文本信息编码成单字ID序列和词语ID序列,并且通过word2vec训练出300维的word_embedding(词嵌入)和char_embedding(字符嵌入)。训练数据包含3列,label,q1,q2,其中q1和q2表示要判断的两个问题,label=1表示是相同的问题,label=0表示不同的问题。本发明要解决的是判断模糊问、标准问对应的两问题是否符合为相同的问题。通过对测试集模糊问标准问打分(0代表问题无关,1代表问题相关),与实际0,1分配做对比分析。
本发明利用基于Siamese LSTM进行(欧式距离)相似度计算分析短文本输入,基于Siamese CNN模型进行长文本输入处理,基于ESIM进行文本语义计算。考察文本相似度大于0.6的情况之下,本发明集成模型与其他三个模型对文本相似度计算进行对比分析。
本发明集成模型采用LSTM处理模糊问汉字小于10长度的测试集,采用CNN处理输入语句大于20汉字的语句,语义相似度计算模型采用ESIM引入attention机制做语义相似度计算。采用网络模型具体如表1所示。
表1 LSTM,CNN,ESIM模型
网络模型 网络层数
ESIM 2
CNN 7
LSTM 2
本发明集成模型计算召回率为0.9176,准确率为0.8813,F1值为0.8991。集成模型与其他模型对比分析具体如表2所示。
表2 集成模型与LSTM,CNN,ESIM模型对比分析表
如图7,结合附图对实施例进行原型系统分析:
本发明方法装置系统采用django框架结构开发智能客服移动web,总体开发为三层架构:
(1)前端交互层:展现给用户的手机界面;主要提供用户的注册、登录、修改密码页面,首页,知识详情页,智能客服页等,主要进行系统与用户的交互,以给用户提供智能客服服务及收集用户行为与信息。
(2)业务逻辑层:针对具体问题的操作,对数据层的操作,对数据业务逻辑处理;主要包括系统逻辑信息的处理,接受用户的提问,并对用户提问给出相应的回答,以及相应回答的标准问,用户个人问题的推荐,热门问题推送,及热门词汇的展示。
(3)数据存储层:该层所做事务直接操作数据库,为了数据的安全,私密性,只有获得权限的管理员才能对数据库进行操作,包括对数据的增添、删除、修改、更新、查找等。主要包括对用户信息数据库与问题信息数据库的管理与操作。

Claims (6)

1.一种基于深度学习集成模型的文本相似度计算方法,其特征在于,包括如下步骤:
(1)基于双向Bi-LSTM神经网络进行中文分词;
(2)去停用词、纠错、同义词替换;
(3)关键词检索;
(4)采用Word2Vec训练得到客户问题文本词向量、标准问题文本词向量;
(5)特征工程抽取;
(6)基于Siamese LSTM模型的短文本相似度计算;
(7)基于Siamese CNN模型的长文本相似度计算;具体过程为:
步骤71:获取客户问题长文本词向量、标准问题文本词向量;
步骤72:使用CNN的不同大小卷积窗口的filter来抽取句子中各种长度元组的信息;
步骤73:使用欧式距离公式计算文本相似度;
(8)基于ESIM模型的文本语义相似度计算;具体过程为:
步骤81:获取客户提问问题和标准问题;
步骤82:客户提问问题的文本词序列输入到Siamese LSTM中的第一个LSTM中,标准问题输入到另一个LSTM中;
步骤83:用标准问题的语义表示对齐第一LSTM中的每个词语义表示,累加成新的句子语义存储起来;
步骤84:做句子级别的Attention对齐,使用标准问题的语义表示对存储的客户提问问题的语义表示进行对齐操作;
步骤85:使用MSE公式(2)作为损失函数得到匹配语义表示:
MSE= exp(-||x1 - x2||) (2)
步骤86:完成相似度计算;
(9)基于Stacking集成LSTM、CNN及ESIM模型相似度计算;具体过程为:
步骤91:获取LSTM、CNN及ESIM模型的输出作为输入;
步骤92:采用两层Stacking模型第一层的基分类器对训练集X_train进行5折交叉验证,再使用训练的模型预测X_test取均值;
步骤93:X_test均值作为第二层Stacking模型的输入,训练第二层的Stacking模型;
步骤94:通过Stacking模型的返回值用以计算文本相似度。
2.根据权利要求1所述的基于深度学习集成模型的文本相似度计算方法,其特征在于,所述步骤(1)中基于双向Bi-LSTM神经网络进行中文分词的具体过程为:
步骤1:标注序列;
步骤2:双向LSTM网络预测标签;
步骤3:Viterbi算法求解最优路径。
3.根据权利要求2所述的基于深度学习集成模型的文本相似度计算方法,其特征在于,采取双向编码句子,采取拼接向量用以情感分类。
4.根据权利要求1所述的基于深度学习集成模型的文本相似度计算方法,其特征在于,所述步骤(5)中特征工程抽取的具体过程为:
步骤1:统计特征抽取;
步骤2:图特征抽取。
5.根据权利要求1所述的基于深度学习集成模型的文本相似度计算方法,其特征在于,所述步骤(6)中基于Siamese LSTM模型的短文本相似度计算,采用欧式距离公式(1)计算文本词向量相似度:
其中,A、B为n维空间中两个点,A=(a1,a2,...an),B=(b1,b2,...,bn)。
6.如权利要求1所述的基于深度学习集成模型的文本相似度计算方法,其特征在于,Stacking模型采用logistic回归作为元模型。
CN202010107048.8A 2020-02-21 2020-02-21 一种基于深度学习集成模型的文本相似度计算方法 Active CN111325029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010107048.8A CN111325029B (zh) 2020-02-21 2020-02-21 一种基于深度学习集成模型的文本相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010107048.8A CN111325029B (zh) 2020-02-21 2020-02-21 一种基于深度学习集成模型的文本相似度计算方法

Publications (2)

Publication Number Publication Date
CN111325029A CN111325029A (zh) 2020-06-23
CN111325029B true CN111325029B (zh) 2023-08-22

Family

ID=71163515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010107048.8A Active CN111325029B (zh) 2020-02-21 2020-02-21 一种基于深度学习集成模型的文本相似度计算方法

Country Status (1)

Country Link
CN (1) CN111325029B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111831804B (zh) * 2020-06-29 2024-04-26 深圳价值在线信息科技股份有限公司 一种关键短语的提取方法、装置、终端设备及存储介质
CN112101001A (zh) * 2020-09-21 2020-12-18 国网辽宁省电力有限公司电力科学研究院 一种非结构化文本相似性判断的方法及系统
CN112101043B (zh) * 2020-09-22 2021-08-24 浙江理工大学 一种基于注意力的语义文本相似度计算方法
CN112199084B (zh) * 2020-10-22 2023-07-18 北京计算机技术及应用研究所 基于Django的文本标注平台
CN112329429B (zh) * 2020-11-30 2024-04-26 北京百度网讯科技有限公司 文本相似度学习方法、装置、设备以及存储介质
CN113032569A (zh) * 2021-04-09 2021-06-25 中南大学 一种基于语义相似度的中文自动文本摘要评价方法
CN113312909B (zh) * 2021-05-19 2023-01-06 华南理工大学 基于自然语言处理的智能分析试题答案方法与系统
CN113033186B (zh) * 2021-05-31 2021-08-17 江苏联著实业股份有限公司 一种基于事件分析的纠错预警方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018157805A1 (zh) * 2017-03-03 2018-09-07 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答系统
CN109344399A (zh) * 2018-09-14 2019-02-15 重庆邂智科技有限公司 一种基于堆叠双向lstm神经网络的文本相似度计算方法
CN110232120A (zh) * 2019-05-21 2019-09-13 天津大学 一种基于引用的文献查找方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018157805A1 (zh) * 2017-03-03 2018-09-07 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答系统
CN109344399A (zh) * 2018-09-14 2019-02-15 重庆邂智科技有限公司 一种基于堆叠双向lstm神经网络的文本相似度计算方法
CN110232120A (zh) * 2019-05-21 2019-09-13 天津大学 一种基于引用的文献查找方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
莫岐.联合分类与匹配的FAO问答模型的研究与实现.中国优秀硕士学位论文全文数据库 信息科技辑.2019,全文. *

Also Published As

Publication number Publication date
CN111325029A (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN110110335B (zh) 一种基于层叠模型的命名实体识别方法
CN109726745B (zh) 一种融入描述知识的基于目标的情感分类方法
CN113962293B (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
CN111767325B (zh) 基于深度学习的多源数据深度融合方法
CN111191051B (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
CN112434535A (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN115827819A (zh) 一种智能问答处理方法、装置、电子设备及存储介质
Liu et al. Deep bi-directional interaction network for sentence matching
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
Zhu Deep learning for Chinese language sentiment extraction and analysis
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
Adrian et al. iDocument: using ontologies for extracting and annotating information from unstructured text
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
Mu et al. Synonym recognition from short texts: A self-supervised learning approach
CN113342944B (zh) 一种语料泛化方法、装置、设备及存储介质
Karpagam et al. Deep learning approaches for answer selection in question answering system for conversation agents
Ji et al. Research on semantic similarity calculation methods in Chinese financial intelligent customer service
CN114328894A (zh) 文档处理方法、装置、电子设备及介质
CN113987536A (zh) 数据表中字段安全等级确定方法、装置、电子设备及介质
Su et al. Automatic ontology population using deep learning for triple extraction
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质
Jati et al. Multilingual Named Entity Recognition Model for Indonesian Health Insurance Question Answering System
CN109543182A (zh) 一种基于solr引擎的电力企业多轮交互语义分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant