CN110008323B - 一种半监督学习结合集成学习的问题等价性判别的方法 - Google Patents

一种半监督学习结合集成学习的问题等价性判别的方法 Download PDF

Info

Publication number
CN110008323B
CN110008323B CN201910236751.6A CN201910236751A CN110008323B CN 110008323 B CN110008323 B CN 110008323B CN 201910236751 A CN201910236751 A CN 201910236751A CN 110008323 B CN110008323 B CN 110008323B
Authority
CN
China
Prior art keywords
words
word
vectors
word vectors
synonyms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910236751.6A
Other languages
English (en)
Other versions
CN110008323A (zh
Inventor
苏萌
王然
苏海波
崔丙剑
刘钰
高体伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Percent Technology Group Co ltd
Original Assignee
Beijing Percent Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Percent Technology Group Co ltd filed Critical Beijing Percent Technology Group Co ltd
Priority to CN201910236751.6A priority Critical patent/CN110008323B/zh
Publication of CN110008323A publication Critical patent/CN110008323A/zh
Application granted granted Critical
Publication of CN110008323B publication Critical patent/CN110008323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种半监督学习结合集成学习的问题等价性判别的方法,包括S1、同义词归一化:1)词向量嵌入;2)词语相似度判断;3)人工判断;S2、语义等价性识别:基于LSTM的对偶网络的计算;基于CNN的对偶网络模型的计算;基于Match Pyramid模型的计算;人工提取特征。本发明通过半监督的方式生成并引入同义词,从而使得整个系统可以根据具体领域进行灵活调整,并通过集合学习四种不同模型对问题的语义等价性进行判断,从而发挥不同模型的优势。

Description

一种半监督学习结合集成学习的问题等价性判别的方法
技术领域
本发明涉及数据挖掘技术领域,具体涉及一种半监督学习结合集成学习的问题等价性判别的方法。
背景技术
智能问答系统以一问一答形式,精确的定位用户所需要的提问知识,并为用户提供个性化的信息服务。随着人工智能技术的发展,智能问答系统在银行、保险、服务、政府等行业也获得了越来越多的应用。
智能问答系统一般可以分为针对特定领域(domain specific)或一般性(generaldomain)两类。对于前者,由于准确的回答必须建立在该领域的专业知识基础上,智能问答系统一般依赖于“问题—回答”知识库。因此,如果能将等价问题通过有效的识别等价问题对等价问题进行归一,则可以大量地节省构建此类问答库所需要的投入,并可以提高对未入库问题的准确匹配。
传统的问题等价性判别方法一般采用基于关键词匹配的方式。这样的方法具有以下两方面的问题。一方面,这种方法难以描绘问题深层语义上的等价/不等价。另一方面,通过人工方式构造同义词词典需要耗费大量的时间和精力,并且难以穷尽同义词可能性。除去传统问题等价性判别方法外,基于深度学习的方法虽然在某种意义上避免了以上的问题,但是这种方法难以纳入业务上的先验知识,因此难以根据特定领域进行调整。
发明内容
针对现有技术的不足,本发明旨在提供一种半监督学习结合集成学习的问题等价性判别的方法,可以有效提高问题等价性判别的准确性和灵活性。
为了实现上述目的,本发明采用如下技术方案:
一种半监督学习结合集成学习的问题等价性判别的方法,包括如下步骤:
S1、同义词归一化:识别出目标问答系统中待进行等价性判别的两个问题中的同义词并将同义词替换为相同的词语;其中,识别同义词具体为:
1)词向量嵌入:采用CROW或者Skip-gram方法进行词向量嵌入及训练,得到两个问题的词语的词向量。
2)词语相似度判断:根据词向量嵌入得到两个问题的词语的词向量后,据此计算词语相似度,当两个词语的相似度超过设定的阈值时,判断为同义词;
3)人工判断:人工判断是否所构造的同义词当中是否有覆盖非同义词及是否有遗漏的同义词;
S2、语义等价性识别:对经过步骤S1处理的两个问题,通过集成学习判断所给定的两个问题在语义上是否等价;具体为:
2.1、基于LSTM的对偶网络的计算:
首先计算了两个问题的词语的词向量,并将每个问题的词向量分别输入到对应的LSTM网络中;然后取用LSTM网络的最终输出作为对应问题的编码结果;最后分别计算两个问题的编码结果之间的余弦距离和欧氏距离;
2.2、基于CNN的对偶网络模型的计算:
首先计算两个问题的词语的词向量,然后对每一个问题构建由卷积层和池化层构成的卷积神经网络,并将其输出作为对应问题的编码结果;在得到编码结果后,计算两个问题的编码结果之间的余弦距离和欧氏距离;
2.3、基于Match Pyramid模型的计算:
首先基于Match Pyramid模型对两个问题中的词语的词向量进行两两组合并计算各个组合的Pearson相关系数;在得到了两个问题中两两组合的词语的Pearson相关系数后,采用卷积神经网络进一步对相似度提取深度特征;最后将经过卷积神经网络提取的特征作为等价性判别的基础;
2.4、人工提取特征:
1)基本统计特征:包括两个问题的长度、两个问题的长度差、两个问题分词后的长度、两个问题分词后的长度差、两个问题共有的词语的数量;
2)基于模糊匹配的特征:包括两个问题词语完全相同的概率、词语子串相同的比率、词语去重后子串相同的比率、词语排序后子串相同的比率、词语去重后完全相同的比率、词语排序后完全相同的比率;
3)基于TF-IDF的特征:包括两个问题各自的TF-IDF值之和、两个问题各自的TF-IDF值的平均值;
4)基于词向量的特征:把两个问题的词语的词向量加和求平均得到每个问题的句向量,然后计算句向量之间的多种距离,包括句向量的余弦距离、曼哈顿距离、杰卡德相似系数、坎贝拉距离、欧氏距离、闵氏距离、Braycurtis distance;
2.5、将步骤2.1中两个LTSM网络输出的编码结果的余弦距离和欧氏距离、步骤2.2中两个卷积神经网络输出的编码结果的余弦距离和欧氏距离、步骤2.3中卷积神经网络提取的特征和步骤2.4中人工提取的特征通过全连接层结合在一起,然后通过梯度后向迭代方法直接进行训练,得到最终的判别结果。
进一步地,步骤S1中,首先使用在通用领域训练的词向量作为基础,然后选择目标问答系统所对应的语料基于Skip-Gram方法进行增量训练,从而使得最终得到的词向量能够适应目标问答系统的领域。
进一步地,步骤2)具体过程为:
2.1)去掉问题中的常用停用词;
2.2)挑选出问题中出现频率最高的词语;
2.3)计算步骤2.2)中挑选出来的词语的词向量和其他词语的词向量的Pearson相关系数,挑选Pearson系数超过预设阈值的词语作为同义词。
本发明的有益效果在于:本发明通过半监督的方式生成并引入同义词,从而使得整个系统可以根据具体领域进行灵活调整,并通过集合学习四种不同模型对问题的语义等价性进行判断,从而发挥不同模型的优势。
附图说明
图1为本发明实施例中方法流程示意图;
图2为经典RNN结构示意图。
具体实施方式
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
以下先对实施例中可能涉及的专业术语作简单解释:
问题等价性判别:等价问题为意图和语义均相等的问题。问题等价性判别为从给定问题对当中判断两问题是否等价的任务。
Word Embedding:Word embedding是一系列在语言模型和特征提取中所使用的自然语言处理技术。此项技术将字、词或短语转化为一系列向量或实数。Word embedding广泛应用于各项NLP任务,如分词、句法分析、命名实体识别等。
Siamese Network:Siamese Network(对偶神经网络)为一种特殊的神经网络架构。该网络由两部分结构相同的网络构成,一般用来生成两个实体(如图像)之间的差异。
LSTM:LSTM(Long Short-Term Memory,长短期记忆网络),是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。其通过“记忆门”和“忘记门”来控制历史信息的去留,有效解决了传统循环神经网络依梯度消失或梯度爆炸的问题。
CNN:CNN(Convolutional neural network,卷积神经网络)为一种常用的深度学习神经网络,一般由多个卷积层、池化层及全连接层构成。这种网络通过卷积运算可以提取局部的特征,因此广泛应用于图像相关人工智能任务中,如图像识别和图像检测。
MatchPyramid:一种判断两段文本相似性的方法。具体而言,该方法将两段文本中每一字、词或短语计算两两相关系数计算(基于其词向量),从而获得两段文本的相似性度量。
集成学习(ensemble):一种统计学或机器学习中预测性建模的方法。这种方法通过组合多个统计学或机器学习的方法获得单一模型所不具备的预测精度。
本实施例提供一种半监督学习结合集成学习的问题等价性判别的方法,如图1所示,包括如下步骤:
S1、同义词归一化:识别出目标问答系统中待进行等价性判别的两个问题中的同义词并将同义词替换为相同的词;其中,识别同义词具体为:
1)词向量嵌入:采用CROW或者Skip-gram方法进行词向量嵌入及训练,得到两个问题的词语的词向量。
CROW方法根据上下文预测中心的词,而Skip-gram则根据中心的词预测周围的词语。不论是CROW方法还是Skip-gram方法,其出发点均为语义类似的词则其上下文更为接近,故而通过这两种训练方法的得到的词向量可以捕捉词语内在的语义内涵。
在本实施例中,首先使用在通用领域训练的词向量作为基础,然后选择目标问答系统所对应的语料基于Skip-Gram方法进行增量训练,从而使得最终得到的词向量能够适应目标问答系统的领域。
传统NLP方法在使用量化模型通常采用One-Hot编码。这种方法将每个词顺序编号,所以每一个词对应的编码是一个很长的向量。这样的方式具有以下两个问题。
第一,由于汉语中有大量不同的词语,所得到的向量维度很高,这不但使得计算上的效率受到很大影响,同时由于引入高维稀疏的特征,模型的准确率也容易受到影响。
第二,这种方法难以捕捉到词语之间语义的相似度。具体而言,由于不同的词语编码不同,所以任意两词之间均两两垂直。由于这种原因,语义相似的词语难以在这种编码中体现出来。
本实施例中采用词向量嵌入的方式,从宏观上来讲,词向量嵌入将文档中出现的每一个词语映射成为低维的、连续的数值向量,从而避免了“维度诅咒”。在映射的过程中,这种方法将语义上类似的词映射为相近的数值向量,从而较好的捕捉了语义上的等价问题。
2)词语相似度判断:根据词向量嵌入得到两个问题的词语的词向量后,据此计算词语相似度。具体为:
2.1)去掉问题中的常用停用词;
2.2)挑选出问题中出现频率最高的词语;
2.3)计算步骤2.2)中挑选出来的词语的词向量和其他词语的词向量的Pearson相关系数,挑选Pearson系数超过预设阈值的词语作为同义词。
3)人工判断:人工判断是否所构造的同义词当中是否有覆盖非同义词及是否有遗漏的同义词。
采用步骤2)识别出来的同义词,仍然有可能具有一定的错误或遗漏。因此进一步引入专家知识进行人工判断。但是由于结合步骤1)和2)的处理之后,人工工作相比于纯人工标注已大量减少。
S2、语义等价性识别:对经过步骤S1处理的两个问题,通过集成学习判断所给定的两个问题在语义上是否等价;具体为:
2.1、基于LSTM的对偶网络的计算
对两个问题分别构建一个LSTM网络,然后比对经过LSTM网络编码后的输出结果,并计算其相似度。具体而言,首先计算了两个问题的词语的词向量,并将每个问题的词向量分别输入到对应的LSTM网络中;然后取用LSTM网络的最终输出作为对应问题的编码结果;最后分别计算两个问题的编码结果之间的余弦距离和欧氏距离,作为等价性判别的基础。
需要说明的是,从概念上来讲,LSTM为反馈神经网络(RNN,Recurrent NeuralNetwork)的一种,这类神经网络广泛的应用于序列标注问题,如图2所示。传统的RNN相比于其他统计学模型,尤其是隐马尔可夫过程,在于RNN可以捕捉较长时间的依赖。这点对于文本处理至关重要。然而,由于RNN的这种特点,使得RNN在进行梯度反向传递时容易产生梯度消失或梯度爆炸的问题。
为了解决RNN在反向传递中梯度消失和梯度爆炸的问题,LSTM网络应运而生。具体而言,LSTM通过引入“输入门”、“输出门”、“遗忘门”机制,使得网络可以根据实际数据情况选择性的保留信息,故通过实证的方法限制了向后传递的梯度范围,从而避免了梯度爆炸或梯度消失的问题。
2.2、基于CNN的对偶网络模型的计算
首先计算两个问题的词语的词向量,然后对每一个问题构建由卷积层和池化层构成的卷积神经网络,并将其输出作为对应问题的编码结果。在得到编码结果后,计算两个问题的编码结果之间的余弦距离和欧氏距离,作为等价性判别的基础。
需要说明的是,采用LSTM网络的最终输出作为每个问题的编码结果,并以此计算问题的相似性。这样的做法可以捕捉到问题中的整体语义信息,但是对局部存在的特征可能存在捕捉不足的情况。为了弥补这个问题,在模型二中,采用了卷积神经网络(CNN)作为对偶网络的编码基础。
CNN主要由卷积层和池化层(Pooling)构成。从数学的角度而言,卷积起到的作用是对位置相邻的特征进行加权平均。一般来说,卷积层一般由多个维度相同,但取值不同的卷积核构成。这些不同的卷积核起到的作用是提取不同的目标特征。相比于传统的全连接层,卷积层的特点主要是通过共享权重,减少了需要引入的参数数量,从而克服了维度诅咒的问题。
除去卷积层外,CNN还包括池化层。一般来说,池化层位于卷积层之后,主要目的是进一步降低输出的维度。具体而言,采用了Average Pooling层,该层的功能是对前一层的输入进行局部的平均。
2.3、基于Match Pyramid模型的计算
首先对两个问题当中的词语的词向量进行两两组合并计算各个组合的Pearson相关系数,由此直接捕捉到两个问题中语义近似的词语的关系;在得到了两个问题中两两组合的词语的Pearson相关系数后,采用卷积神经网络进一步对相似度提取深度特征,即使用卷积层加上Average Pooling层;最后将经过卷积神经网络提取的特征作为等价性判别的基础。
需要说明的是,在两个模型中分别将问题输入到两种深层神经网络中,并通过其提取的特征作为判断其相似性的基础。这种方式的优点在于其可以提取较为深层的语义特征。但从另一方面来讲,问题的相似性计算仅仅应用于神经网络的输出,使得这两种方法可能难以捕捉词与词之间的相似关系。为了弥补这个问题,本实施例引入了Match Pyramid方法。
2.4、人工提取特征:
1)基本统计特征:包括两个问题的长度、两个问题的长度差、两个问题分词后的长度、两个问题分词后的长度差、两个问题共有的词语的数量;如表1所示。
表1
特征 说明
len_q1 问题1的长度
len_q2 问题2的长度
diff_len 问题1和问题2的长度差
len_word_q1 问题1分词后的长度
len_word_q2 问题2分词后的长度
diff_word_len 问题1和问题2分词后的长度差
common_word_num 问题1和问题2共有的词语数量
2)基于模糊匹配的特征:包括词语完全相同的概率、词语子串相同的比率、词语去重后子串相同的比率、词语排序后子串相同的比率、词语去重后完全相同的比率、词语排序后完全相同的比率;如表2所示。
表2
特征 说明
fuzz_qratio 词语完全相同的比率
fuzz_partial_ratio 词语子串相同的比率
fuzz_partial_token_set_ratio 词语去重后子串相同的比率
fuzz_partial_token_sort_ratio 词语排序后子串相同的比率
fuzz_token_set_ratio 词语去重后完全相同的比率
fuzz_token_sort_ratio 词语排序后完全相同的比率
3)基于TF-IDF的特征
TF-IDF值与一个词语在文档中的出现次数成正比,与该词语在整个语料库中的出现次数成反比,可以很好地反映一个词语在整个句子中的重要程度。这一部分主要是基于TF-IDF值的一些相关特征,包括两个问题各自的TF-IDF值之和、两个问题各自的TF-IDF值的平均值;如表3所示。
表3
特征 说明
tfidf_sum1 问题1的tfidf值之和
tfidf_sum2 问题2的tfidf值之和
tfidf_mean1 问题1的tfidf值的平均值
tfidf_mean2 问题2的tfidf值的平均值
4)基于词向量的特征
通过大规模语料训练得到的词向量能够较好的表达词语之间的相似度和相关度。在本实施例中,把每个问题的词语的词向量加和求平均得到每个问题的句向量,然后计算句向量之间的多种距离,包括句向量的余弦距离、曼哈顿距离、杰卡德相似系数、坎贝拉距离、欧氏距离、闵氏距离、Braycurtis distance;如表4所示。
表4
特征 说明
cosine_distance 句向量的余弦距离
cityblock_distance 句向量的曼哈顿距离
jaccard_distance 句向量的杰卡德相似系数
canberra_distance 句向量的坎贝拉距离
euclidean_distance 句向量的欧氏距离
minkowski_distance 句向量的闵氏距离
braycurtis_distance 句向量的Braycurtis distance
深度模型能够从海量数据中自动学习数据潜在的特征,而传统的机器学习中通过人工提取的特征往往更有针对性。
2.5、将步骤2.1中两个LTSM网络输出的编码结果的余弦距离和欧氏距离、步骤2.2中两个卷积神经网络输出的编码结果的余弦距离和欧氏距离、步骤2.3中卷积神经网络提取的特征和步骤2.4中人工提取的特征通过全连接层结合在一起,然后通过梯度后向迭代方法直接进行训练,得到最终的判别结果。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。

Claims (3)

1.一种半监督学习结合集成学习的问题等价性判别的方法,其特征在于,包括如下步骤:
S1、同义词归一化:识别出目标问答系统中待进行等价性判别的两个问题中的同义词并将同义词替换为相同的词语;其中,识别同义词具体为:
1)词向量嵌入:采用CROW或者Skip-gram方法进行词向量嵌入及训练,得到两个问题的词语的词向量;
2)词语相似度判断:根据词向量嵌入得到两个问题的词语的词向量后,据此计算词语相似度,当两个词语的相似度超过设定的阈值时,判断为同义词;
3)人工判断:人工判断所构造的同义词当中是否有覆盖非同义词及是否有遗漏的同义词;
S2、语义等价性识别:对经过步骤S1处理的两个问题,通过集成学习判断所给定的两个问题在语义上是否等价;具体为:
2.1、基于LSTM的对偶网络的计算:
首先计算了两个问题的词语的词向量,并将每个问题的词向量分别输入到对应的LSTM网络中;然后取用LSTM网络的最终输出作为对应问题的编码结果;最后分别计算两个问题的编码结果之间的余弦距离和欧氏距离;
2.2、基于CNN的对偶网络模型的计算:
首先计算两个问题的词语的词向量,然后对每一个问题构建由卷积层和池化层构成的卷积神经网络,并将其输出作为对应问题的编码结果;在得到编码结果后,计算两个问题的编码结果之间的余弦距离和欧氏距离;
2.3、基于Match Pyramid模型的计算:
首先基于Match Pyramid模型对两个问题中的词语的词向量进行两两组合并计算各个组合的Pearson相关系数;在得到了两个问题中两两组合的词语的Pearson相关系数后,采用卷积神经网络进一步对相似度提取深度特征;最后将经过卷积神经网络提取的特征作为等价性判别的基础;
2.4、人工提取特征:
1)基本统计特征:包括两个问题的长度、两个问题的长度差、两个问题分词后的长度、两个问题分词后的长度差、两个问题共有的词语的数量;
2)基于模糊匹配的特征:包括两个问题词语完全相同的概率、词语子串相同的比率、词语去重后子串相同的比率、词语排序后子串相同的比率、词语去重后完全相同的比率、词语排序后完全相同的比率;
3)基于TF-IDF的特征:包括两个问题各自的TF-IDF值之和、两个问题各自的TF-IDF值的平均值;
4)基于词向量的特征:把两个问题的词语的词向量加和求平均得到每个问题的句向量,然后计算句向量之间的多种距离,包括句向量的余弦距离、曼哈顿距离、杰卡德相似系数、坎贝拉距离、欧氏距离、闵氏距离、Braycurtis distance;
2.5、将步骤2.1中两个LTSM网络输出的编码结果的余弦距离和欧氏距离、步骤2.2中两个卷积神经网络输出的编码结果的余弦距离和欧氏距离、步骤2.3中卷积神经网络提取的特征和步骤2.4中人工提取的特征通过全连接层结合在一起,然后通过梯度后向迭代方法直接进行训练,得到最终的判别结果。
2.根据权利要求1所述的方法,其特征在于,步骤S1中,首先使用在通用领域训练的词向量作为基础,然后选择目标问答系统所对应的语料基于Skip-Gram方法进行增量训练,从而使得最终得到的词向量能够适应目标问答系统的领域。
3.根据权利要求1所述的方法,其特征在于,步骤S1中的2)具体过程为:
2.1)去掉问题中的常用停用词;
2.2)挑选出问题中出现频率最高的词语;
2.3)计算步骤2.2)中挑选出来的词语的词向量和其他词语的词向量的Pearson相关系数,挑选Pearson系数超过预设阈值的词语作为同义词。
CN201910236751.6A 2019-03-27 2019-03-27 一种半监督学习结合集成学习的问题等价性判别的方法 Active CN110008323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910236751.6A CN110008323B (zh) 2019-03-27 2019-03-27 一种半监督学习结合集成学习的问题等价性判别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910236751.6A CN110008323B (zh) 2019-03-27 2019-03-27 一种半监督学习结合集成学习的问题等价性判别的方法

Publications (2)

Publication Number Publication Date
CN110008323A CN110008323A (zh) 2019-07-12
CN110008323B true CN110008323B (zh) 2021-04-23

Family

ID=67168308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910236751.6A Active CN110008323B (zh) 2019-03-27 2019-03-27 一种半监督学习结合集成学习的问题等价性判别的方法

Country Status (1)

Country Link
CN (1) CN110008323B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633359B (zh) * 2019-09-04 2022-03-29 北京百分点科技集团股份有限公司 语句等价性判断方法和装置
CN111723297B (zh) * 2019-11-20 2023-05-12 中共南通市委政法委员会 一种面向网格社情研判的双重语义相似度判别方法
CN110942805A (zh) * 2019-12-11 2020-03-31 云南大学 一种基于半监督深度学习的绝缘子元件预测系统
CN111104797B (zh) * 2019-12-17 2023-05-02 南开大学 一种基于对偶的序列到序列生成的论文网络表示学习方法
CN111444336A (zh) * 2020-02-25 2020-07-24 桂林电子科技大学 一种基于Siamese网络的话题检测方法
CN113065352B (zh) * 2020-06-29 2022-07-19 国网浙江省电力有限公司杭州供电公司 一种电网调度工作文本的操作内容识别方法
CN111930953B (zh) * 2020-09-21 2021-02-02 北京合享智慧科技有限公司 一种文本属性特征的识别、分类及结构分析方法及装置
CN112699663A (zh) * 2021-01-07 2021-04-23 中通天鸿(北京)通信科技股份有限公司 一种基于多种算法结合的语义理解系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886330A (zh) * 2014-03-27 2014-06-25 西安电子科技大学 基于半监督svm集成学习的分类方法
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
CN106934223A (zh) * 2017-02-28 2017-07-07 思派(北京)网络科技有限公司 一种基于大数据的血液病智能分类系统及方法
CN107194428A (zh) * 2017-05-26 2017-09-22 重庆师范大学 一种基于近邻密度和半监督knn的集成自训练方法
CN107766324A (zh) * 2017-09-25 2018-03-06 浙江大学 一种基于深度神经网络的文本一致性分析方法
CN107980130A (zh) * 2017-11-02 2018-05-01 深圳前海达闼云端智能科技有限公司 自动回答方法、装置、存储介质及电子设备
CN108596329A (zh) * 2018-05-11 2018-09-28 北方民族大学 基于端到端深度集成学习网络的三维模型分类方法
CN109339774A (zh) * 2018-10-18 2019-02-15 中国石油化工股份有限公司 基于边界层的低渗透变形介质非线性渗流数值模拟方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
CN104318242A (zh) * 2014-10-08 2015-01-28 中国人民解放军空军工程大学 一种高效的svm主动半监督学习算法
CN104867490B (zh) * 2015-06-12 2017-03-22 百度在线网络技术(北京)有限公司 韵律结构预测方法和装置
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
CN103886330A (zh) * 2014-03-27 2014-06-25 西安电子科技大学 基于半监督svm集成学习的分类方法
CN106934223A (zh) * 2017-02-28 2017-07-07 思派(北京)网络科技有限公司 一种基于大数据的血液病智能分类系统及方法
CN107194428A (zh) * 2017-05-26 2017-09-22 重庆师范大学 一种基于近邻密度和半监督knn的集成自训练方法
CN107766324A (zh) * 2017-09-25 2018-03-06 浙江大学 一种基于深度神经网络的文本一致性分析方法
CN107980130A (zh) * 2017-11-02 2018-05-01 深圳前海达闼云端智能科技有限公司 自动回答方法、装置、存储介质及电子设备
CN108596329A (zh) * 2018-05-11 2018-09-28 北方民族大学 基于端到端深度集成学习网络的三维模型分类方法
CN109339774A (zh) * 2018-10-18 2019-02-15 中国石油化工股份有限公司 基于边界层的低渗透变形介质非线性渗流数值模拟方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Combining Committee-Based Semi-Supervised Learning and Active Learning;Mohamed Farouk Abdel Hady; Friedhelm Schwenker;《Journal of Computer Science & Technology》;20100715;第25卷(第04期);681-698 *
基于多源大数据的个性化推荐系统效果研究;苏萌 等;《管理科学》;20180920;第31卷(第05期);3-15 *
基于多视图的半监督学习分类算法的研究;孙鹏;《中国优秀硕士学位论文全文数据库信息科技辑》;20141015(第10期);I140-59 *

Also Published As

Publication number Publication date
CN110008323A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
CN110008323B (zh) 一种半监督学习结合集成学习的问题等价性判别的方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN113434357A (zh) 基于序列预测的日志异常检测方法及装置
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN114548101B (zh) 基于可回溯序列生成方法的事件检测方法和系统
CN113282714B (zh) 一种基于区分性词向量表示的事件检测方法
CN112463924B (zh) 面向智能问答基于内部相关性编码的文本意图匹配方法
CN114925157A (zh) 一种基于预训练模型的核电站维修经验文本匹配方法
CN115392252A (zh) 一种融合自注意力与层级残差记忆网络的实体识别方法
CN113743099A (zh) 基于自注意力机制方面术语提取系统、方法、介质、终端
CN114510946B (zh) 基于深度神经网络的中文命名实体识别方法及系统
CN112434514A (zh) 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备
CN114881173A (zh) 基于自注意力机制的简历分类方法和装置
CN113177113B (zh) 任务型对话模型预训练方法、装置、设备及存储介质
CN116342167B (zh) 基于序列标注命名实体识别的智能成本度量方法和装置
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN117094291A (zh) 基于智能写作的自动新闻生成系统
CN117271701A (zh) 一种基于tggat和cnn的系统运行异常事件关系抽取方法及系统
CN113342964B (zh) 一种基于移动业务的推荐类型确定方法及系统
CN116167353A (zh) 一种基于孪生长短期记忆网络的文本语义相似度度量方法
CN114357166B (zh) 一种基于深度学习的文本分类方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN115495579A (zh) 5g通信助理文本分类的方法、装置、电子设备及存储介质
CN112183103A (zh) 融合不同预训练词向量的卷积神经网络实体关系抽取方法
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100081 No.101, 1st floor, building 14, 27 Jiancai Chengzhong Road, Haidian District, Beijing

Applicant after: Beijing PERCENT Technology Group Co.,Ltd.

Address before: 100081 16 / F, block a, Beichen Century Center, building 2, courtyard 8, Beichen West Road, Chaoyang District, Beijing

Applicant before: BEIJING BAIFENDIAN INFORMATION SCIENCE & TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant