CN107766324A - 一种基于深度神经网络的文本一致性分析方法 - Google Patents

一种基于深度神经网络的文本一致性分析方法 Download PDF

Info

Publication number
CN107766324A
CN107766324A CN201710874012.0A CN201710874012A CN107766324A CN 107766324 A CN107766324 A CN 107766324A CN 201710874012 A CN201710874012 A CN 201710874012A CN 107766324 A CN107766324 A CN 107766324A
Authority
CN
China
Prior art keywords
sentence
text
vector
word
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710874012.0A
Other languages
English (en)
Other versions
CN107766324B (zh
Inventor
崔白云
李英明
张仲非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201710874012.0A priority Critical patent/CN107766324B/zh
Publication of CN107766324A publication Critical patent/CN107766324A/zh
Application granted granted Critical
Publication of CN107766324B publication Critical patent/CN107766324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度神经网络的文本一致性分析方法。当一段文本输入之后,首先采用分布式的方法把句子中的每一个单词翻译成向量构成分布式句子矩阵,然后统计相邻句子中重复出现过的单词,通过扩大矩阵维度的方式加入相邻句子间的重复信息;其次,利用卷积神经网络学习句子分布式表示,提取句中重要的逻辑、语义、句法等特征构成句子向量;接着,计算相邻句子向量之间相似程度来加入上下文关联内容,最后不断地训练神经网络,输出文本一致性的概率。本方法的特点在于,不用进行复杂的人工特征提取操作,也不依赖外部资源,相比于现有的一致性分析技术,本发明提出的方法在准确率上有了很大的提升,具有较好的实用价值。

Description

一种基于深度神经网络的文本一致性分析方法
技术领域
本发明属于自然语言处理技术领域,涉及一种基于深度神经网络的文本一致性分析方法。
背景技术
文本一致性分析是指从逻辑和句法的角度判断多个文本句子是否一致,从而让多语句的文本在逻辑上和语义上更加有意义,可以应用于机器翻译、问答系统与文本自动生成系统中。
现有的文本一致性研究方法主要分为两大类。第一类主要依靠特征工程,也就是人工定义一些具有代表性的特征去捕获交叉句子之间的逻辑和句法等关系,将目标文档中的每个句子编码成具有区别性的特征向量然后比较这些特征之间的相似程度,相似程度大于一定的值就表明这两个句子有一致性且它们的表达具有连贯性。但是,这些特征难以被规范化地定义,选择与表达特征是一个经验性的过程,由直觉、经验和领域专业知识驱动而成,此外要适应新的文本领域需要增加新的甚至是现在不存在的一些资源,所耗费的代价十分大。
第二类就是采用深度学习的方法,通过训练神经网络,学习给定任务最优的句子表示,有效地捕捉句子中每个单词的分布式组成形式并映射到一个连续化的句子表示中去,获取句子的语义与句法内容。目前运用在这个问题上主要有两种网络,循环神经网络与递归神经网络。循环神经网络的优点在于它实现过程方便,不依赖外部更深层结构(例如,解析树)。然而由于梯度消失问题,长距离词的关系难以捕捉,还有尽管两个标记在字序列中距离很远,它们可以在结构上彼此接近。另一种递归神经网络依赖并操作结构化输入,每一个树的叶节点对应于原始句子中的单词,它在子节点的基础上以自下而上的方式迭代地计算每个父节点的表示,直到获得根节点的表示,并利用根节点嵌入式向量来表示整句话。虽然递归网络通过在解析树上构建卷积可以获得更好的性能,而不是像循环网络那样简单地在句子中堆积词语,但其不太容易实现,需要类似解析树之类的外部资源。
发明内容
鉴于现有的文本一致性分析方法存在的缺点和不足,本发明提出基于卷积神经网络学习输入的句子表示,并把它转化成为低维度的空间向量,保存其中重要的句法与输入的语义信息,更加简单高效,大大地提高文本一致性分析的准确率。
本发明的目的在于提供一种基于深度神经网络的文本一致性分析方法,利用卷积神经网络简单有效地捕捉句子中每个单词的分布式组成形式并映射到一个低维度连续化的句子向量中去,这些向量既能充分表示句子的语义与语法特征,又包含了相邻句子之间的关联信息。神经网络可以自动地学习这些向量,提取出对分析最有价值的信息,理解上下文的逻辑结构,大大提高一致性分析的准确率。
为实现上述目的,本发明的技术方案为:
一种基于深度神经网络的文本一致性分析方法,包括如下步骤:
S10:收集文本数据并进行变换构成文本数据集,通过所述文本数据集获取样本集,所述样本集包括训练集、验证集与测试集;
S20:构建句子模型,以无人监督的方式从大规模语料库中学习单词的分布式表示组成句子矩阵,加入相邻句子间的重复信息,采用第一种神经网络将所述句子矩阵进一步转化为低维度的分布式句子向量;
S30:通过计算相邻句子向量之间的相似程度加入句子之间的关联信息,构成完整样本向量,利用第二种神经网络计算所述完整样本向量局部一致性的概率大小;
S40:在所述训练集上对S20和S30共同定义的深度学习模型进行训练,采用随机梯度下降法对两种神经网络的参数进行调整,直至在所述验证集上通过验证,保存网络参数,并在所述测试集上对已训练完成的深度学习模型进行测试;
S50:选取所述文本数据集中的文本构造文本测试数据对,计算模型一致性分析的准确率,并根据得到的准确率对模型进行进一步优化,直至获得满意的分析结果。
进一步的,所述第一种神经网络为卷积神经网络,第二种神经网络为两层神经网络。
进一步的,S10具体包括以下子步骤:
S101:收集一定数量的原始文章,并将每篇原始文章通过随机交换上下文句子顺序的方式产生一系列变异文章,共同构成文本数据集;
S102:将文本数据集中的每一篇文章按照句子顺序依次分成若干个文本小组,每个小组q包含相同的n个句子;定义文本数据集中的任意一篇文章为D,且由一系列句子组成D={s1,s2,s3,...,sN},N表示该文章的句子总数,则文章D就以n句话一组依次分开,形成如下包含(N-n+1)个小组的集合:
<s1,s2,...,sn>,<s2,s3,...sn+1>,…,<sN-n+1,sN-n+2,…,sN>;
S103:给每一个文本小组设置一个标签yc,如果这个文本小组是从原始文章中获得的,则作为正样本设置标签为1;若这个文本小组是从变异文章中获得的,则作为负样本设置标签为0,以此构造正负样本组成样本集。
进一步的,S20具体包括以下子步骤:
S201:以无人监督的方式在大规模语料库上运行word2vec工具减小语料库容量,得到文本语料库V;假设文本语料库V包含的单词总数为|V|,则总的词嵌入矩阵可表示为包含了|V|个维度为dw×1的分布式词向量
S202:统计所述文本数据集中所有出现过的单词构成一个字典库,如果该字典库中的单词出现在所述文本语料库V中,则该单词就用所述词嵌入矩阵中对应的分布式词向量w表示;如果该字典库中的单词没有出现在所述文本语料库V中,则给这些单词随机初始化的向量,该向量中每个分量的分布均为U[-0.25,0.25];
S203:将输入句子s中每个单词的分布式词向量w按照单词顺序拼接起来,则s可以表示为一系列词的组合形式:[w1,…w|s|],其中|s|表示这个句子中单词的总数;输入句子s的句子矩阵可以表示为:
S204:采用字符匹配函数统计相邻句子中多次出现过的单词,通过扩大句子矩阵维度的方式加入重复信息,每个词向量上再附加一个重复特征向量o∈{0,1},1代表这个词同时出现在相邻的句子中,0则代表没有重复出现;
S205:利用卷积神经网络捕捉句中单词的分布式组成形式,通过卷积、非线性与池化操作,把输入的高维度句子矩阵映射到密集的低维度句子向量中去。
进一步的,步骤S205中,所述的卷积操作在句子矩阵与卷积滤波器构成的滤波器集合之间进行,n表示n种不同形态的滤波器,一个卷积滤波器横向沿着S从左向右移动产生一个特征向量n个滤波器并行工作,最终产生的所有特征向量合并成一个卷积特征地图完整地代表了这个句子的全部特征信息;
还包括,在卷积层之后采用一个非线性的激活函数α(·)=max(0,x)去学习非线性的决策界限,产生稀疏数据;以及池化操作,从特征地图中进一步提炼出每种特征最有代表性的信息来表示这一特征:pool(ci):句子矩阵S即可通过整个卷积神经网络简单高效地转化为一个低维度的句子特征向量
进一步的,S30具体包括以下子步骤:
S301:通过计算相邻句子向量之间的相似程度来学习上下文关联内容,假设两个相邻句子的向量为xf,xs,相似值计算公式为其中M1为权重矩阵;
S302:将句子之间关联信息通过神经网络的全连接层融入到最终的样本表示中,构成完整样本向量xjoin
S303:所述完整样本向量再通过一个隐藏层,实现如下式子:h=f(wh×xjoin+bh),其中bh是偏置,f(·)是一个非线性函数,wh是全连接层与隐藏层之间的权重,输出结果h用于下一步一致性的分类判断;
S304:采用sigmod函数把隐藏层输出h映射到[0,1]概率空间中:p(yc=1|xjoin)=sigmod(wsh+bs),代表了样本是一致的可能性,其中bs是偏置,ws是隐藏层与输出层之间的权重。
进一步的,S40具体包括以下子步骤:
S401:将所述训练集中的所有样本输入由S20与S30共同定义的深度学习模型中,将网络输出的一致性概率值与输入样本真实标签之间的相对熵误差作为该深度学习模型的代价函数,所述输入样本真实标签为步骤S103设定的正样本标签1或负样本标签0;
S402:根据S401求出的代价函数,采用随机梯度下降法优化模型参数,通过不断地训练,直至模型在所述验证集上的误差连续三个周期没有下降时,停止训练过程并保存网络参数,得到最终的深度学习模型,并在所述测试集上对该深度学习模型进行测试。
进一步的,所述的S50具体包括以下子步骤:
S501:选取所述文本数据集中的文本构造文本测试数据对,每个数据对包括一篇原文及一篇由原文得到的变异文;每篇原文或变异文包含若干个文本小组,且每一个文本小组均可通过所述深度学习模型得到一致性概率值,则一篇文章的一致性分数为:
S502:按照S501计算出每一个数据对中原文与其变异文各获得的一致性分数;若原文一致性概率值比变异文高,则视为模型的判断正确,反之则视为模型的判断错误;计算能够正确判断的数据对个数除以文本测试数据对总数,得到模型一致性分析的准确率;
S503:根据S502得到的准确率调整模型参数值,重复S40与S50直到模型一致性分析的效果达到预期要求。
与现有技术相比,本发明的主要优点在于:
(1)本发明不用进行复杂的人工特征提取,卷积神经网络能够简单高效地完成特征提取过程,可以通过不断地训练,自动地学习并提取句子中重要的句法和语义信息,且效果远远好于人工提取方法。
(2)不同于递归神经网络方法等很多前人的工作,本发明不用进行预处理操作,如分析单词的词性(主语、宾语等),也不依赖类似句法解析器、解析树等外部资源,节约人力成本,并降低由于人为因素导致的模型误差。
(3)本发明充分考虑了句子之间的关联信息,统计句间重复词汇与计算相似性,并将这些信息加入最后的句子向量中去,使神经网络能够充分地挖掘上下文的联系,更全面地分析一致性。
(4)本发明的深度学习模型采用“端到端”的训练方式,一篇文章输入,即可获得相应的一致性概率值,具有很强的适应能力,可以分析任何类型的文章一致性,具有极高的应用价值。
附图说明
图1为本发明的基于深度神经网络的文本一致性分析方法实施例的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,所示为本发明实施例的一种基于深度神经网络的文本一致性分析方法的流程图,其包括以下步骤:
S10:收集文本数据并进行变换构成文本数据集,通过所述文本数据集获取样本集,所述样本集包括训练集、验证集与测试集,具体包括S101至S103:
S101:收集一定数量的原始文章,内容是关于航空事故与地震灾害的新闻,并将每篇原始文章通过随机交换上下文句子顺序的方式产生一系列变异文章,共同构成文本数据集;
S102:将文本数据集中的每一篇文章按照句子顺序依次分成若干个文本小组,每个小组q包含相同的n个句子;定义文本数据集中的任意一篇文章为D,且由一系列句子组成D={s1,s2,s3,…,sN},N表示该文章的句子总数,则文章D就以n句话一组依次分开,形成如下包含(N-n+1)个小组的集合:
<s1,s2,…,sn>,<s2,s3,…sn+1>,...,<sN-n+1,sN-n+2,...,sN>;
S103:给每一个文本小组设置一个标签yc,如果这个文本小组是从原始文章中获得的,则作为正样本设置标签为1;若这个文本小组是从变异文章中获得的,则作为负样本设置标签为0,以此构造正负样本组成样本集。
S20:构建句子模型,以无人监督的方式从大规模语料库中学习单词的分布式表示组成句子矩阵,加入相邻句子间的重复信息,采用第一种神经网络将所述句子矩阵进一步转化为低维度的分布式句子向量,具体包括S201至S205:
进一步的,所述第一种神经网络为卷积神经网络。
S201:以无人监督的方式在英语维基百科AQUAINT语料库上运行word2vec工具,通过窗口大小为5的skip-gram模型,过滤那些出现频率小于5次的单词,减小语料库容量,得到文本语料库V;假设文本语料库V包含的单词总数为|V|,则总的词嵌入矩阵可表示为包含了|V|个维度为dw×1的分布式词向量
S202:统计所述文本数据集中所有出现过的单词构成一个字典库,如果该字典库中的单词出现在所述文本语料库V中,则该单词就用所述词嵌入矩阵中对应的分布式词向量w表示;如果该字典库中的单词没有出现在所述文本语料库V中,则给这些单词随机初始化的向量,该向量中每个分量的分布均为U[-0.25,0.25];
S203:将输入句子s中每个单词的分布式词向量w按照单词顺序拼接起来,则s可以表示为一系列词的组合形式:[w1,...w|s|],其中|s|表示这个句子中单词的总数;输入句子s的句子矩阵可以表示为:矩阵的第i-th列即为句子中的第i-th词的分布式向量;
S204:采用字符匹配函数统计相邻句子中多次出现过的单词,通过扩大句子矩阵维度的方式加入重复信息,每个词向量上再附加一个重复特征向量o∈{0,1},1代表这个词同时出现在相邻的句子中,0则代表没有重复出现;
S205:利用卷积神经网络捕捉句中单词的分布式组成形式,通过卷积、非线性与池化操作,把输入的高维度句子矩阵映射到密集的低维度句子向量中去。
进一步的,步骤S205中,所述的卷积操作在句子矩阵与卷积滤波器构成的滤波器集合之间进行,n表示n种不同形态的滤波器,一个卷积滤波器横向沿着S从左向右移动产生一个特征向量过程为:
其中是逐元素的乘积形式,S[:i-m+1:i]表示横向宽度为m的句子矩阵切片。n个滤波器并行工作,最终产生的所有特征向量合并成一个卷积特征地图完整地代表了这个句子的全部特征信息;
还包括,在卷积层之后采用一个非线性的激活函数α(·)=max(0,x)去学习非线性的决策界限,保证特征地图中所有的值均为正数,产生稀疏数据;以及池化操作,从特征地图中进一步提炼出每种特征最有代表性的信息来表示这一特征。池化操作过程为:
其中ci是卷积特征地图中第ith个特征向量,bi是附加在ci上的偏置,e是和ci同样维度大小的单位向量,ci+bi*e再通过激活函数α(·),把所有值变成非负数,每一列特征向量变到一个单独的数值pool(ci):句子矩阵S即可通过整个卷积神经网络简单高效地转化为一个低维度的句子特征向量
S30:通过计算相邻句子向量之间的相似程度加入句子之间的关联信息,构成完整样本向量,利用第二种神经网络计算所述完整样本向量局部一致性的概率大小,具体包括S301至S304:
进一步的,第二种神经网络为两层神经网络。
S301:通过计算相邻句子向量之间的相似程度来学习上下文关联内容,以三个相邻的句子为例,假设他们的向量为xf,xs,xt,则相似值计算公式为其中M1与M2是权重矩阵;
S302:将句子之间关联信息通过神经网络的全连接层融入到最终的样本表示中,构成完整样本向量
S303:所述完整样本向量再通过一个隐藏层,实现如下式子:h=f(wh×xjoin+bh),其中bh是偏置,f(·)是一个非线性函数,wh是全连接层与隐藏层之间的权重,输出结果h用于下一步一致性的分类判断;
S304:采用sigmod函数把隐藏层输出h映射到[0,1]概率空间中:p(yc=1|xjoin)=sigmod(wsh+bs),代表了样本是一致的可能性,ws是隐藏层和输出层之间的权重,bs是两层之间的偏置。
S40:在所述训练集上对S20和S30共同定义的深度学习模型进行训练,采用随机梯度下降法对两种神经网络的参数进行调整,直至在所述验证集上通过验证,保存网络参数,并在所述测试集上对已训练完成的深度学习模型进行测试,具体包括S401至S401:
S401:将所述训练集中的所有样本输入由S20与S30共同定义的深度学习模型中,将网络输出的一致性概率值与输入样本真实标签之间的相对熵误差作为该深度学习模型的代价函数:所述输入样本真实标签为步骤S103设定的正样本标签1或负样本标签0;
S402:根据S401求出的代价函数,采用随机梯度下降法优化模型参数,即:Δθt=-η*gt,其中η是指学习速率,每一次迭代均随机选取一定数量的样本计算网络参数的梯度gt,然后对参数进行更新,通过不断地训练,直至模型在所述验证集上的误差连续三个周期没有下降时,停止训练过程并保存网络参数,得到最终的深度学习模型,并在所述测试集上对该深度学习模型进行测试。
S50:选取所述文本数据集中的文本构造文本测试数据对,计算模型一致性分析的准确率,并根据得到的准确率对模型进行进一步优化,直至获得满意的分析结果,具体包括S501至S503:
S501:选取所述文本数据集中的文本构造文本测试数据对,每个数据对包括一篇原文及一篇由原文得到的变异文;每篇原文或变异文包含若干个文本小组,且每一个文本小组均可通过所述深度学习模型得到一致性概率值,则一篇文章的一致性分数为:
S502:按照S501计算出每一个数据对中原文与其变异文各获得的一致性分数;若原文一致性概率值比变异文高,则视为模型的判断正确,反之则视为模型的判断错误;计算能够正确判断的数据对个数除以文本测试数据对总数,得到模型一致性分析的准确率;
S503:根据S502得到的准确率调整模型参数值,重复S40与S50直到模型一致性分析的效果达到预期要求。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于深度神经网络的文本一致性分析方法,其特征在于,包括如下步骤:
S10:收集文本数据并进行变换构成文本数据集,通过所述文本数据集获取样本集,所述样本集包括训练集、验证集与测试集;
S20:构建句子模型,以无人监督的方式从大规模语料库中学习单词的分布式表示组成句子矩阵,加入相邻句子间的重复信息,采用第一种神经网络将所述句子矩阵进一步转化为低维度的分布式句子向量;
S30:通过计算相邻句子向量之间的相似程度加入句子之间的关联信息,构成完整样本向量,利用第二种神经网络计算所述完整样本向量局部一致性的概率大小;
S40:在所述训练集上对S20和S30共同定义的深度学习模型进行训练,采用随机梯度下降法对两种神经网络的参数进行调整,直至在所述验证集上通过验证,保存网络参数,并在所述测试集上对已训练完成的深度学习模型进行测试;
S50:选取所述文本数据集中的文本构造文本测试数据对,计算模型一致性分析的准确率,并根据得到的准确率对模型进行进一步优化,直至获得满意的分析结果。
2.如权利要求1所述的基于深度神经网络的文本一致性分析方法,其特征在于,所述第一种神经网络为卷积神经网络,第二种神经网络为两层神经网络。
3.如权利要求1所述的基于深度神经网络的文本一致性分析方法,其特征在于,S10具体包括以下子步骤:
S101:收集一定数量的原始文章,并将每篇原始文章通过随机交换上下文句子顺序的方式产生一系列变异文章,共同构成文本数据集;
S102:将文本数据集中的每一篇文章按照句子顺序依次分成若干个文本小组,每个小组q包含相同的n个句子;定义文本数据集中的任意一篇文章为D,且由一系列句子组成D={s1,s2,s3,…,sN},N表示该文章的句子总数,则文章D就以n句话一组依次分开,形成如下包含(N-n+1)个小组的集合:
<s1,s2,...,sn>,<s2,s3,…sn+1>,...,<sN-n+1,sN-n+2,...,sN>;
S103:给每一个文本小组设置一个标签yc,如果这个文本小组是从原始文章中获得的,则作为正样本设置标签为1;若这个文本小组是从变异文章中获得的,则作为负样本设置标签为0,以此构造正负样本组成样本集。
4.如权利要求1所述的基于深度神经网络的文本一致性分析方法,其特征在于,S20具体包括以下子步骤:
S201:以无人监督的方式在大规模语料库上运行word2vec工具减小语料库容量,得到文本语料库V;假设文本语料库V包含的单词总数为|V|,则总的词嵌入矩阵可表示为包含了|V|个维度为dw×1的分布式词向量
S202:统计所述文本数据集中所有出现过的单词构成一个字典库,如果该字典库中的单词出现在所述文本语料库V中,则该单词就用所述词嵌入矩阵中对应的分布式词向量w表示;如果该字典库中的单词没有出现在所述文本语料库V中,则给这些单词随机初始化的向量,该向量中每个分量的分布均为U[-0.25,0.25];
S203:将输入句子s中每个单词的分布式词向量w按照单词顺序拼接起来,则s可以表示为一系列词的组合形式:[w1,...w|s|],其中|s|表示这个句子中单词的总数;输入句子s的句子矩阵可以表示为:S=[w1,...w|s|],
S204:采用字符匹配函数统计相邻句子中多次出现过的单词,通过扩大句子矩阵维度的方式加入重复信息,每个词向量上再附加一个重复特征向量o∈{0,1},1代表这个词同时出现在相邻的句子中,0则代表没有重复出现;
S205:利用卷积神经网络捕捉句中单词的分布式组成形式,通过卷积、非线性与池化操作,把输入的高维度句子矩阵映射到密集的低维度句子向量中去。
5.如权利要求4所述的基于深度神经网络的文本一致性分析方法,其特征在于,步骤S205中,所述的卷积操作在句子矩阵与卷积滤波器构成的滤波器集合之间进行,n表示n种不同形态的滤波器,一个卷积滤波器横向沿着S从左向右移动产生一个特征向量n个滤波器并行工作,最终产生的所有特征向量合并成一个卷积特征地图完整地代表了这个句子的全部特征信息;
还包括,在卷积层之后采用一个非线性的激活函数α(·)=max(0,x)去学习非线性的决策界限,产生稀疏数据;以及池化操作,从特征地图中进一步提炼出每种特征最有代表性的信息来表示这一特征:pool(ci):句子矩阵S即可通过整个卷积神经网络简单高效地转化为一个低维度的句子特征向量
6.如权利要求5所述的基于深度神经网络的文本一致性分析方法,其特征在于,S30具体包括以下子步骤:
S301:通过计算相邻句子向量之间的相似程度来学习上下文关联内容,假设两个相邻句子的向量为xf,xs,相似值计算公式为
其中M1为权重矩阵;
S302:将句子之间关联信息通过神经网络的全连接层融入到最终的样本表示中,构成完整样本向量xjoin
S303:所述完整样本向量再通过一个隐藏层,实现如下式子:h=f(wh×xjoin+bh),其中bh是偏置,f(·)是一个非线性函数,wh是全连接层与隐藏层之间的权重,输出结果h用于下一步一致性的分类判断;
S304:采用sigmod函数把隐藏层输出h映射到[0,1]概率空间中:p(yc=1|xjoin)=sigmod(wsh+bs),代表了样本是一致的可能性,其中bs是偏置,ws是隐藏层与输出层之间的权重。
7.如权利要求6所述的基于深度神经网络的文本一致性分析方法,其特征在于,S40具体包括以下子步骤:
S401:将所述训练集中的所有样本输入由S20与S30共同定义的深度学习模型中,将网络输出的一致性概率值与输入样本真实标签之间的相对熵误差作为该深度学习模型的代价函数,所述输入样本真实标签为步骤S103设定的正样本标签1或负样本标签0;
S402:根据S401求出的代价函数,采用随机梯度下降法优化模型参数,通过不断地训练,直至模型在所述验证集上的误差连续三个周期没有下降时,停止训练过程并保存网络参数,得到最终的深度学习模型,并在所述测试集上对该深度学习模型进行测试。
8.如权利要求7所述的基于深度神经网络的文本一致性分析方法,其特征在于,所述的S50具体包括以下子步骤:
S501:选取所述文本数据集中的文本构造文本测试数据对,每个数据对包括一篇原文及一篇由原文得到的变异文;每篇原文或变异文包含若干个文本小组,且每一个文本小组均可通过所述深度学习模型得到一致性概率值,则一篇文章的一致性分数为:
S502:按照S501计算出每一个数据对中原文与其变异文各获得的一致性分数;若原文一致性概率值比变异文高,则视为模型的判断正确,反之则视为模型的判断错误;计算能够正确判断的数据对个数除以文本测试数据对总数,得到模型一致性分析的准确率;
S503:根据S502得到的准确率调整模型参数值,重复S40与S50直到模型一致性分析的效果达到预期要求。
CN201710874012.0A 2017-09-25 2017-09-25 一种基于深度神经网络的文本一致性分析方法 Active CN107766324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710874012.0A CN107766324B (zh) 2017-09-25 2017-09-25 一种基于深度神经网络的文本一致性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710874012.0A CN107766324B (zh) 2017-09-25 2017-09-25 一种基于深度神经网络的文本一致性分析方法

Publications (2)

Publication Number Publication Date
CN107766324A true CN107766324A (zh) 2018-03-06
CN107766324B CN107766324B (zh) 2020-09-01

Family

ID=61267317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710874012.0A Active CN107766324B (zh) 2017-09-25 2017-09-25 一种基于深度神经网络的文本一致性分析方法

Country Status (1)

Country Link
CN (1) CN107766324B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734734A (zh) * 2018-05-18 2018-11-02 中国科学院光电研究院 室内定位方法及系统
CN109408829A (zh) * 2018-11-09 2019-03-01 北京百度网讯科技有限公司 文章可读性确定方法、装置、设备和介质
CN109446338A (zh) * 2018-09-20 2019-03-08 大连交通大学 基于神经网络的药物疾病关系分类方法
CN109597881A (zh) * 2018-12-17 2019-04-09 北京百度网讯科技有限公司 匹配度确定方法、装置、设备和介质
CN109766277A (zh) * 2019-01-02 2019-05-17 北京航空航天大学 一种基于迁移学习与dnn的软件故障诊断方法
CN109948152A (zh) * 2019-03-06 2019-06-28 北京工商大学 一种基于lstm的中文文本语法纠错模型方法
CN109992978A (zh) * 2019-03-05 2019-07-09 腾讯科技(深圳)有限公司 信息的传输方法、装置及存储介质
CN110008323A (zh) * 2019-03-27 2019-07-12 北京百分点信息科技有限公司 一种半监督学习结合集成学习的问题等价性判别的方法
CN110020431A (zh) * 2019-03-06 2019-07-16 平安科技(深圳)有限公司 文本信息的特征提取方法、装置、计算机设备及存储介质
CN110188350A (zh) * 2019-05-22 2019-08-30 北京百度网讯科技有限公司 文本一致性计算方法及装置
CN110347860A (zh) * 2019-07-01 2019-10-18 南京航空航天大学 基于卷积神经网络的深度图像描述方法
CN110909166A (zh) * 2019-11-28 2020-03-24 贝壳技术有限公司 用于提高会话质量的方法、装置、介质以及电子设备
CN111523140A (zh) * 2020-04-23 2020-08-11 周婷 签名文档的加密方法、装置、训练方法、存储介质及设备
CN111581392A (zh) * 2020-04-28 2020-08-25 电子科技大学 一种基于语句通顺度的自动作文评分计算方法
US10915815B1 (en) * 2019-01-22 2021-02-09 Institute Of Automation, Chinese Academy Of Sciences Information processing method, system and device based on contextual signals and prefrontal cortex-like network
WO2021022521A1 (zh) * 2019-08-07 2021-02-11 华为技术有限公司 数据处理的方法、训练神经网络模型的方法及设备
CN112949280A (zh) * 2021-03-02 2021-06-11 中国联合网络通信集团有限公司 一种数据处理方法和装置
CN113761145A (zh) * 2020-12-11 2021-12-07 北京沃东天骏信息技术有限公司 语言模型训练方法、语言处理方法和电子设备
CN114510911A (zh) * 2022-02-16 2022-05-17 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备及存储介质
CN116341521A (zh) * 2023-05-22 2023-06-27 环球数科集团有限公司 一种基于文本特征的aigc文章辨识系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294663A (zh) * 2013-05-03 2013-09-11 苏州大学 一种文本连贯性检测方法和装置
CN103874994A (zh) * 2011-10-14 2014-06-18 雅虎公司 用于自动概括电子文档的内容的方法和装置
US9053431B1 (en) * 2010-10-26 2015-06-09 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US20150227508A1 (en) * 2012-11-29 2015-08-13 Blake Howald Systems and methods for natural language generation
CN106503255A (zh) * 2016-11-15 2017-03-15 科大讯飞股份有限公司 基于描述文本自动生成文章的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9053431B1 (en) * 2010-10-26 2015-06-09 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
CN103874994A (zh) * 2011-10-14 2014-06-18 雅虎公司 用于自动概括电子文档的内容的方法和装置
US20150227508A1 (en) * 2012-11-29 2015-08-13 Blake Howald Systems and methods for natural language generation
CN103294663A (zh) * 2013-05-03 2013-09-11 苏州大学 一种文本连贯性检测方法和装置
CN106503255A (zh) * 2016-11-15 2017-03-15 科大讯飞股份有限公司 基于描述文本自动生成文章的方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DIMITRIOS ALIKANIOTIS 等: "Automatic Text Scoring Using Neural Networks", 《PROCEEDINGS OF THE 54TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
ZIHENG LIN 等: "Automatically evaluating text coherence using discourse relations", 《HLT "11 PROCEEDINGS OF THE 49TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: HUMAN LANGUAGE TECHNOLOGIES》 *
徐凡 等: "衔接性驱动的篇章一致性建模研究", 《中文信息学报》 *
林睿: "基于神经网络的篇章一致性建模", 《万方数据知识服务平台》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734734A (zh) * 2018-05-18 2018-11-02 中国科学院光电研究院 室内定位方法及系统
CN109446338A (zh) * 2018-09-20 2019-03-08 大连交通大学 基于神经网络的药物疾病关系分类方法
CN109446338B (zh) * 2018-09-20 2020-07-21 大连交通大学 基于神经网络的药物疾病关系分类方法
CN109408829A (zh) * 2018-11-09 2019-03-01 北京百度网讯科技有限公司 文章可读性确定方法、装置、设备和介质
CN109597881B (zh) * 2018-12-17 2021-07-23 北京百度网讯科技有限公司 匹配度确定方法、装置、设备和介质
CN109597881A (zh) * 2018-12-17 2019-04-09 北京百度网讯科技有限公司 匹配度确定方法、装置、设备和介质
CN109766277B (zh) * 2019-01-02 2020-12-25 北京航空航天大学 一种基于迁移学习与dnn的软件故障诊断方法
CN109766277A (zh) * 2019-01-02 2019-05-17 北京航空航天大学 一种基于迁移学习与dnn的软件故障诊断方法
US10915815B1 (en) * 2019-01-22 2021-02-09 Institute Of Automation, Chinese Academy Of Sciences Information processing method, system and device based on contextual signals and prefrontal cortex-like network
CN109992978A (zh) * 2019-03-05 2019-07-09 腾讯科技(深圳)有限公司 信息的传输方法、装置及存储介质
CN109992978B (zh) * 2019-03-05 2021-03-26 腾讯科技(深圳)有限公司 信息的传输方法、装置及存储介质
CN109948152A (zh) * 2019-03-06 2019-06-28 北京工商大学 一种基于lstm的中文文本语法纠错模型方法
CN110020431A (zh) * 2019-03-06 2019-07-16 平安科技(深圳)有限公司 文本信息的特征提取方法、装置、计算机设备及存储介质
CN110008323A (zh) * 2019-03-27 2019-07-12 北京百分点信息科技有限公司 一种半监督学习结合集成学习的问题等价性判别的方法
CN110008323B (zh) * 2019-03-27 2021-04-23 北京百分点科技集团股份有限公司 一种半监督学习结合集成学习的问题等价性判别的方法
CN110188350B (zh) * 2019-05-22 2021-06-01 北京百度网讯科技有限公司 文本一致性计算方法及装置
CN110188350A (zh) * 2019-05-22 2019-08-30 北京百度网讯科技有限公司 文本一致性计算方法及装置
CN110347860A (zh) * 2019-07-01 2019-10-18 南京航空航天大学 基于卷积神经网络的深度图像描述方法
WO2021022521A1 (zh) * 2019-08-07 2021-02-11 华为技术有限公司 数据处理的方法、训练神经网络模型的方法及设备
CN112639828A (zh) * 2019-08-07 2021-04-09 华为技术有限公司 数据处理的方法、训练神经网络模型的方法及设备
CN110909166A (zh) * 2019-11-28 2020-03-24 贝壳技术有限公司 用于提高会话质量的方法、装置、介质以及电子设备
CN111523140A (zh) * 2020-04-23 2020-08-11 周婷 签名文档的加密方法、装置、训练方法、存储介质及设备
CN111523140B (zh) * 2020-04-23 2024-02-23 国网浙江省电力有限公司物资分公司 签名文档的加密方法、装置、训练方法、存储介质及设备
CN111581392B (zh) * 2020-04-28 2022-07-05 电子科技大学 一种基于语句通顺度的自动作文评分计算方法
CN111581392A (zh) * 2020-04-28 2020-08-25 电子科技大学 一种基于语句通顺度的自动作文评分计算方法
CN113761145A (zh) * 2020-12-11 2021-12-07 北京沃东天骏信息技术有限公司 语言模型训练方法、语言处理方法和电子设备
CN112949280A (zh) * 2021-03-02 2021-06-11 中国联合网络通信集团有限公司 一种数据处理方法和装置
CN112949280B (zh) * 2021-03-02 2023-07-07 中国联合网络通信集团有限公司 一种数据处理方法和装置
CN114510911A (zh) * 2022-02-16 2022-05-17 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备及存储介质
CN116341521A (zh) * 2023-05-22 2023-06-27 环球数科集团有限公司 一种基于文本特征的aigc文章辨识系统

Also Published As

Publication number Publication date
CN107766324B (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN107766324A (zh) 一种基于深度神经网络的文本一致性分析方法
Higham et al. Deep learning: An introduction for applied mathematicians
CN108334605B (zh) 文本分类方法、装置、计算机设备及存储介质
Buber et al. Performance analysis and CPU vs GPU comparison for deep learning
CN106503055B (zh) 一种从结构化文本到图像描述的生成方法
CN104965819B (zh) 一种基于句法词向量的生物医学事件触发词识别方法
CN106446526B (zh) 电子病历实体关系抽取方法及装置
Salter-Townshend et al. Review of statistical network analysis: models, algorithms, and software
CN108038205B (zh) 针对中文微博的观点分析原型系统
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN109783618A (zh) 基于注意力机制神经网络的药物实体关系抽取方法及系统
CN105868184A (zh) 一种基于循环神经网络的中文人名识别方法
CN110598005A (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
Zhou et al. Modelling sentence pairs with tree-structured attentive encoder
CN105279495A (zh) 一种基于深度学习和文本总结的视频描述方法
CN107943784A (zh) 基于生成对抗网络的关系抽取方法
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN108108354B (zh) 一种基于深度学习的微博用户性别预测方法
CN110348227B (zh) 一种软件漏洞的分类方法及系统
CN108121702A (zh) 数学主观题评阅方法及系统
CN105528437A (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN112732921B (zh) 一种虚假用户评论检测方法及系统
Kim et al. Dynamic graph generation network: Generating relational knowledge from diagrams
CN108052504A (zh) 数学主观题解答结果的结构分析方法及系统
Zhang et al. Random multi-graphs: a semi-supervised learning framework for classification of high dimensional data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant