CN110750979B - 一种篇章连贯性的确定方法以及检测装置 - Google Patents

一种篇章连贯性的确定方法以及检测装置 Download PDF

Info

Publication number
CN110750979B
CN110750979B CN201910990145.3A CN201910990145A CN110750979B CN 110750979 B CN110750979 B CN 110750979B CN 201910990145 A CN201910990145 A CN 201910990145A CN 110750979 B CN110750979 B CN 110750979B
Authority
CN
China
Prior art keywords
sentence
chapter
level vector
target
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910990145.3A
Other languages
English (en)
Other versions
CN110750979A (zh
Inventor
李荣真
胡阳
胡国平
王士进
付瑞吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201910990145.3A priority Critical patent/CN110750979B/zh
Publication of CN110750979A publication Critical patent/CN110750979A/zh
Application granted granted Critical
Publication of CN110750979B publication Critical patent/CN110750979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本申请实施例中公开了一种篇章连贯性的确定方法以及检测装置,用于全面地评价篇章的连贯性,提升篇章的连贯性评价的准确性,从而更加客观地评价篇章的连贯性。该方法包括:获取第一句子级别向量,其中所述第一句子级别向量是根据目标句子与多个非目标句子之间的关联性确定的,所述目标句子为篇章中的任意一个句子,所述非目标句子包括所述篇章中与所述目标句子不相邻的句子;根据所述第一句子级向量确定所述篇章对应的第一篇章级向量;根据所述第一篇章级向量确定所述篇章的连贯性。

Description

一种篇章连贯性的确定方法以及检测装置
技术领域
本申请涉及电子信息化教育、自然语言理解等技术领域,尤其涉及一种篇章连贯性的确定方法以及检测装置。
背景技术
随着人工智能技术的发展和成熟,在传统的教育领域,也逐渐开展新一代的教育信息化升级探索。计算机辅助完成对学生作业的评分,一方面可以减轻老师的工作压力,另一方面可以提升评分的准确性和客观性。
目前,在计算机辅助对篇章的评分机制中,其评分主要基于词汇、短语和语法等相关知识点所确定的,篇章的连贯性评分仅仅考虑篇章中相邻句子之间的关联性。
在目前对篇章的连贯性评分中仅仅考虑篇章中相邻句子之间的关联性,此种方式具有局限性,仅仅考虑篇章的局部信息,缺乏对篇章整体连贯性的考虑,容易导致篇章整体连贯性判断不准确,不客观。
发明内容
为了解决上述技术缺陷,本申请实施例中提供了一种篇章连贯性的确定方法以及检测装置,用于全面地评价篇章的连贯性,提升篇章的连贯性评价的准确性,从而更加客观地评价篇章的连贯性。
第一方面,本申请实施例中提供了一种篇章连贯性的确定方法,包括:获取第一句子级别向量,其中所述第一句子级别向量是根据目标句子与多个非目标句子之间的关联性确定的,所述目标句子为篇章中的任意一个句子,所述非目标句子包括所述篇章中与所述目标句子不相邻的句子;根据所述第一句子级向量确定所述篇章对应的第一篇章级向量;根据所述第一篇章级向量确定所述篇章的连贯性。从上述技术方案中可以看出:通过获取篇章中目标句子与所述篇章中多个非目标句子之间的关联性对应的句子级向量,根据该句子级向量确定篇章对应的篇章级向量,根据篇章级向量确定篇章的连贯性,非目标句子包括与目标句子不相邻的句子,可以充分考虑篇章中多个非目标句子对目标句子之间的关联性,而不仅仅限于目标句子的相邻句子与目标句子之间的关联性,从而获取篇章中上下文(包括篇章中所有句子)对目标句子影响,更加全面地对篇章的连贯性做出评价,以达到提升篇章的连贯性的评价准确性,更加客观地评价篇章的连贯性。
在第一方面的一种可能的实现方式中,所述获取第一句子级向量,包括:对所述目标句子对应的第二句子级向量,和多个第三句子级向量,进行计算得到所述第一句子级向量,其中所述第三句子级向量为所述非目标句子对应的句子级向量,一个非目标句子对应一个第三句子向量。可选的,上述多个非目标句子可以是:篇章中所有的非目标句子。
在第一方面的一种可能的实现方式中,所述根据所述第一句子级向量确定所述篇章对应的第一篇章级向量,包括:将所述篇章中每个目标句子对应的第一句子级向量均输入双向长短时记忆网络中,得到第二篇章级向量和第三篇章级别向量,其中所述第二篇章级向量为第一句子顺序对应的篇章级向量,所述第三篇章级向量为第二句子顺序对应的篇章级向量,所述第一句子顺序和所述第二句子顺序互为相反的句子顺序;将所述第二篇章级向量和所述第三篇章级向量进行连接得到所述第一篇章级向量。容易理解,通过篇章正向和反向对应的两个篇章级向量,确定篇章最终的篇章级向量,使得篇章级向量可以更加准确、全面地描述篇章。
在第一方面的一种可能的实现方式中,上述的根据所述第一篇章级向量确定所述篇章的连贯性包括:根据所述第一篇章级向量确定所述篇章对应的连贯性系数;若所述连贯性系数大于或等于预设阈值,确定所述篇章是连贯的;否则,确定所述篇章是不连贯的。
在第一方面的一种可能的实现方式中,所述根据所述第一篇章级向量确定所述篇章对应的连贯性系数,包括:使用归一化函数对所述第一篇章级向量进行计算得到所述连贯性系数。
在第一方面的一种可能的实现方式中,将所述篇章中每个句子的单词输入预训练模型中,得到每个句子中单词对应的词嵌入向量;根据每个单词对应的词嵌入向量、以及词嵌入向量在句子中的权重系数,得到句子对应的句子级向量,所述句子对应的句子级向量包括:所述目标句子对应的第二句子级向量,以及所述非目标句子对应的第三句子级向量。该种实现方式中,与直接将词嵌入向量相加取平均值求句子级向量的方式相比,此种实现方式的准确性更高。
第二方面,本申请实施例中提供了一种篇章连贯性的检测装置,包括:获取模块和确定模块,其中获取模块用于:获取第一句子级别向量,其中所述第一句子级别向量是根据目标句子与多个非目标句子之间的关联性确定的,所述目标句子为篇章中的任意一个句子,所述非目标句子包括所述篇章中与所述目标句子不相邻的句子;确定模块用于:根据所述第一句子级向量确定所述篇章对应的第一篇章级向量,以及根据所述第一篇章级向量确定所述篇章的连贯性。
在第二方面的一种可能的实现方式中,所述获取模块具体用于:对所述目标句子对应的第二句子级向量,和多个第三句子级向量,进行计算得到所述第一句子级向量,其中所述第三句子级向量为所述非目标句子对应的句子级向量,一个非目标句子对应一个第三句子向量。
在第二方面的一种可能的实现方式中,所述确定模块具体用于:将所述篇章中每个目标句子对应的第一句子级向量均输入双向长短时记忆网络中,得到第二篇章级向量和第三篇章级别向量,其中所述第二篇章级向量为第一句子顺序对应的篇章级向量,所述第三篇章级向量为第二句子顺序对应的篇章级向量,所述第一句子顺序和所述第二句子顺序互为相反的句子顺序;将所述第二篇章级向量和所述第三篇章级向量进行连接得到所述第一篇章级向量。
在第二方面的一种可能的实现方式中,所述确定模块具体用于:根据所述第一篇章级向量确定所述篇章对应的连贯性系数;若所述连贯性系数大于或等于预设阈值,确定所述篇章是连贯的;否则,确定所述篇章是不连贯的。
在第二方面的一种可能的实现方式中,所述确定模块具体用于:使用归一化函数对所述第一篇章级向量进行计算得到所述连贯性系数。
在第二方面的一种可能的实现方式中,所述装置还包括:训练模块;所述训练模块用于:将所述篇章中每个句子的单词输入预训练模型中,得到每个句子中单词对应的词嵌入向量;根据每个单词对应的词嵌入向量、以及词嵌入向量在句子中的权重系数,得到句子对应的句子级向量,所述句子对应的句子级向量包括:所述目标句子对应的第二句子级向量,以及所述非目标句子对应的第三句子级向量。
第三方面,本申请实施例中提供了一种篇章连贯性的检测装置,包括:处理器、存储器;所述存储器用于存储指令;所述处理器用于执行所述存储器中的所述指令,使得所述装置执行如前述第一方面中任一项所述的方法。
上述第二方面以及第三方面中篇章连贯性的确定转置对应的有益效果,可参阅上述第一方面以及第一方面中每一种实现方式对应的有益效果,此处不再赘述。
附图说明
图1为本申请实施例中提供的篇章连贯性的确定方法的一个实施例示意图;
图2为本申请实施例中提供的篇章连贯性的确定装置的一个组成结构示意图;
图3为本申请实施例中提供的篇章连贯性的确定装置的另一个组成结构示意图。
具体实施方式
本申请实施例中提供了一种篇章连贯性的确定方法以及检测装置,用于全面地评价篇章的连贯性,提升篇章的连贯性评价的准确性,从而更加客观地评价篇章的连贯性。
下面结合附图,对本申请的实施例进行描述。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
为了便于对本申请实施例中的篇章连贯性的确定方法进行说明,下面先对以下一些概念进行介绍:
1、注意力attention机制,这个概念最早出现在认知心理学上面。用一个最通俗的例子来解释就是,当你认真的去做一件事情,你的注意力会被更多的分配在手上的事情,而忽略身边的其他事情。在本申请中,通过注意力机制,可以学习到词、句对其他词、句的依赖关系,或者说,可以获取到词与词、句子与句子之间的关联关系。协同注意力co-attention机制和双向的注意力bi-attention机制是常用的两种attention机制。
2、softmax分类:基于数学上softmax函数的分类。Softmax函数,又称归一化指数函数。Softmax用于分类问题,经过softmax函数,得到分类结果,即:在各个类别上的概率(取值范围是0~1,概率之和为1)。举个例子:假设将一个西瓜表示为一个向量[1,2,3],分类目标是[生瓜、熟瓜],那么将向量[1,2,3]经过softmax函数之后可以得到[0.25,0.75],即:当前西瓜是生瓜的概率是0.25,熟瓜的概率是0.75。因此,可以认为当前的西瓜是熟的。
3、词嵌入embedding,词嵌入,词嵌入其实就是将数据的原始表示,表示成模型可处理的、更紧密的低维表示。embedding即是一种用于表示单词的向量,因此embedding也可称之为词嵌入向量。
4、Bi-LSTM网络和LSTM网络:是两种用于深度学习领域的网络。其中,LSTM全称为long short-term memory,一般翻译为“长短时记忆”,Bi-LSTM即“双向长短时记忆”。与单向的LSTM相比,Bi-LSTM从正反两个方向建模,可以更加全面的抓取信息,学习速度更快。因此被广泛应用于各类具有时序的任务中。
如图1所示,为本申请实施例中篇章连贯性的确定方法的一个实施例示意图,包括:
102、检测装置获取第一句子级别向量,第一句子级别向量是根据目标句子与多个非目标句子之间的关联性确定的。
目标句子可以是篇章中任意一个句子,非目标句子可以包括篇章中与目标句子不相邻的句子,也可以同时包括:与目标句子相邻或不相邻的句子。
可选的,获取第一句子级向量,具体可以包括:对目标句子对应的第二句子级向量,和多个第三句子级向量,进行计算得到第一句子级向量。其中第三句子级向量为所述非目标句子对应的句子级向量,一个非目标句子对应一个第三句子向量,典型的多个第三句子向量可以包括篇章中所有非目标句子对应的全部或部分句子级向量。
示例性的,第一句子级向量的获取操作可以包括:通过预训练模型依次得到待测文章中所有句子的句子级向量H0-Hn,将其中目标句子对应的向量Ht分别与向量H0-Hn执行attention操作,进而得到attention的权重矩阵,再与向量Ht相乘,得到目标句子与多个非目标句子之间的关联性对应的第一句子级向量,如HA0-HAn。其中预训练模型可以包括但不限于:语言嵌入模型(Embeddings from Language Models,ELMo模型)、转换器双向编译器表示(Bidirectional Encoder Representation from Transformers,BERT)模型;attention操作的公式可以是如下所示:
attention(Q,K,V)=softmax((Q*KT)*V),其中,Q,K,V分别为三个输入矩阵,V为Q的转置,KT为K矩阵的转置,关于softmax函数的具体运算过程可参阅相关资料,此处不再赘述。结合上述示例中,矩阵K可以是向量Ht,矩阵Q可以是根据向量H0-Hn按一定顺序排列得到的。
可选的,在步骤102之前,检测装置还获取目标句子和非目标句子对应的句子级向量。其具体获取方式可如步骤101所示。
可选的,101、检测装置获取篇章中句子对应的句子级向量。
具体的,将篇章中每个句子的单词输入上述的预训练模型中,得到每个句子中单词对应的词嵌入向量;根据每个单词对应的词嵌入向量、以及词嵌入向量在句子中的权重系数,得到句子对应的句子级向量,句子对应的句子级向量包括:所述目标句子对应的第二句子级向量,以及非目标句子对应的第三句子级向量。
示例性的,针对句子中的单词对应的词嵌入向量执行self-attention操作,得到self-attention的权重系数,将该权重系数与单词的词嵌入向量相乘得到句子对应的句子级向量。需要说明的是,self-attention操作也是采用上述attention操作的公式执行的,其区别在于:self-attention操作中的输入矩阵Q,K,V来自于同一个输入向量,如单词的词嵌入向量,Q,K,V可以是该词嵌入向量划分得到的三个子向量。
需要说明的是,上述每个句子的单词可以通过预先的数据处理操作得到,例如分词操作,具体来说,在获取到需要进行连贯性评价的篇章之后,可以采用常用的分词工具将篇章分解为单词、句子等,常见的分词工具可以包括但不限于:坦福大学开发的CoreNLP,以及结巴分词,其分词操作的具体实现方式请参阅分词工具的相关说明,本申请不再赘述。
103、检测装置根据第一句子级别向量确定篇章对应的第一篇章级向量。
第一篇章级向量用于确定篇章的连贯性。
可选的,检测装置根据第一句子级别向量确定篇章对应的第一篇章级向量,具体可以包括:将篇章中每个目标句子对应的第一句子级向量均输入双向长短时记忆网络中,得到第二篇章级向量和第三篇章级别向量,其中第二篇章级向量为第一句子顺序对应的篇章级向量,第三篇章级向量为第二句子顺序对应的篇章级向量,第一句子顺序和第二句子顺序互为相反的句子顺序,例如第一句子顺序可以是篇章中正向的句子顺序,第二句子顺序可以是篇章中反向的句子顺序。
示例型的,具体做法可以是:将上述得到的第一句子级向量HA0-Han输入Bi-LSTM网络,并记录正反向最后时刻的隐层状态(即记录第二篇章级向量和第三篇章级向量),此时的隐层状态包含了文章的整体信息。其中上述的隐层状态实质上是采用向量进行表示的;
将第二篇章级向量和第三篇章级向量进行连接得到所述第一篇章级向量。其中连接是指直接将第二篇章级向量和第三篇章级向量合并在一起,其合并后的位置关系可以是任意的,例如第二篇章级向量在前,或第三篇章级向量在前。
可选的,104、检测装置根据第一篇章级向量确定篇章对应的连贯性系数。
检测装置对第一篇章级向量进行计算得到上述的连贯性系数,其中其计算方式可以是:归一化计算。具体来说可以是:检测装置使用归一化函数对第一篇章级向量进行计算得到连贯性系数,其归一化函数包括但不限于:softmax函数。
进一步可选的,105、检测装置根据连贯性系数确定篇章的连贯性。
在一种可能的实施例方式中,检测装置可以预先设定一个预设阈值,若连贯性系数大于或等于该预设阈值,则检测装置确定篇章是连贯的,否则,检测装置确定篇章是不连贯的。当然,检查装置也可以根据连贯性系数直接确定连贯性与否,对此本案不做限定。
本申请实施例中,通过获取篇章中目标句子与所述篇章中多个非目标句子之间的关联性对应的句子级向量,根据该句子级向量确定篇章对应的篇章级向量,根据篇章级向量确定篇章的连贯性,非目标句子包括与目标句子不相邻的句子,可以充分考虑篇章中多个非目标句子对目标句子之间的关联性,而不仅仅限于目标句子的相邻句子与目标句子之间的关联性,从而获取篇章中上下文(包括篇章中所有句子)对目标句子影响,更加全面地对篇章的连贯性做出评价,以达到提升篇章的连贯性的评价准确性,更加客观地评价篇章的连贯性。
需要说明的是,本申请实施例中的技术方案可以采用但不依赖于attention机制进行实现,与本申请构思相同的技术方案均在本申请的保护范围之内。
还需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。
为便于更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关装置。
请参阅图2所示,为本申请实施例中检测装置的一个结构示意图,检测装置200包括:获取模块201和确定模块202;
其中获取模块201,用于获取第一句子级别向量,其中所述第一句子级别向量是根据目标句子与多个非目标句子之间的关联性确定的,所述目标句子为篇章中的任意一个句子,所述非目标句子包括所述篇章中与所述目标句子不相邻的句子;
确定模块202,用于根据所述第一句子级向量确定所述篇章对应的第一篇章级向量,以及,根据所述第一篇章级向量用于确定所述篇章的连贯性。
在一种可能的实施例方式中,所述获取模块201具体用于:对所述目标句子对应的第二句子级向量,和多个第三句子级向量,进行计算得到所述第一句子级向量,其中所述第三句子级向量为所述非目标句子对应的句子级向量,一个非目标句子对应一个第三句子向量。
在一种可能的实施例方式中,所述确定模块202具体用于:将所述篇章中每个目标句子对应的第一句子级向量均输入双向长短时记忆网络中,得到第二篇章级向量和第三篇章级别向量,其中所述第二篇章级向量为第一句子顺序对应的篇章级向量,所述第三篇章级向量为第二句子顺序对应的篇章级向量,所述第一句子顺序和所述第二句子顺序互为相反的句子顺序;将所述第二篇章级向量和所述第三篇章级向量进行连接得到所述第一篇章级向量。
在一种可能的实施例方式中,所述确定模块202具体用于:根据所述第一篇章级向量确定所述篇章对应的连贯性系数;若所述连贯性系数大于或等于预设阈值,确定所述篇章是连贯的;否则,确定所述篇章是不连贯的。
在一种可能的实施例方式中,所述确定模块202具体用于:使用归一化函数对所述第一篇章级向量进行计算得到所述连贯性系数。
在一种可能的实施例方式中,可选的,检测装置200还可以包括:训练模块203,所述训练模块203用于:将所述篇章中每个句子的单词输入预训练模型中,得到每个句子中单词对应的词嵌入向量;根据每个单词对应的词嵌入向量、以及词嵌入向量在句子中的权重系数,得到句子对应的句子级向量,所述句子对应的句子级向量包括:所述目标句子对应的第二句子级向量,以及所述非目标句子对应的第三句子级向量。
上述方法实施例中所述的所有操作均可以援引到上述的检测装置200中相应的功能模块中进行执行。需要说明的是,上述装置各模块/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
请参阅图3所示,为本申请实施例中提供的检测装置的另一个结构示意图,检测装置300包括:处理器301和存储器302。其中处理器的数量可以是一个或多个,图3中以一个为例。
存储器302可以包括只读存储器和随机存取存储器,并向处理器301提供指令和数据。存储器302的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory,NVRAM)。存储器302存储有操作系统和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。操作系统可包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
处理器301控制检测装置300的操作,处理器301还可以称为中央处理单元(central processing unit,CPU)。具体的应用中,检测装置300的各个组件通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都称为总线系统。
上述本申请实施例揭示的方法可以应用于处理器301中,或者由处理器301实现。处理器301可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器301中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器301可以是通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器302,处理器301读取存储器302中的信息,结合其硬件完成上述方法的步骤。
外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。

Claims (7)

1.一种篇章连贯性的确定方法,其特征在于,包括:
获取第一句子级向量,其中所述第一句子级向量是根据目标句子与多个非目标句子之间的关联性确定的,所述目标句子为篇章中的任意一个句子,所述非目标句子包括所述篇章中与所述目标句子不相邻的句子;
根据所述第一句子级向量确定所述篇章对应的第一篇章级向量;所述根据所述第一句子级向量确定所述篇章对应的第一篇章级向量,包括:将所述篇章中每个目标句子对应的第一句子级向量均输入双向长短时记忆网络中,得到第二篇章级向量和第三篇章级向量,其中所述第二篇章级向量为第一句子顺序对应的篇章级向量,所述第三篇章级向量为第二句子顺序对应的篇章级向量,所述第一句子顺序和所述第二句子顺序互为相反的句子顺序;将所述第二篇章级向量和所述第三篇章级向量进行连接得到所述第一篇章级向量;
根据所述第一篇章级向量确定所述篇章的连贯性;所述根据所述第一篇章级向量确定所述篇章的连贯性,包括:根据所述第一篇章级向量确定所述篇章对应的连贯性系数,根据所述连贯性系数确定所述篇章的连贯性。
2.根据权利要求1所述的方法,其特征在于,所述获取第一句子级向量,包括:
对第二句子级向量,和多个第三句子级向量,进行计算得到所述第一句子级向量,其中所述第二句子级向量为所述目标句子对应的句子级向量,所述第三句子级向量为所述非目标句子对应的句子级向量,一个非目标句子对应一个第三句子向量。
3.根据权利要求1-2任意一项所述的方法,其特征在于,所述方法还包括:
将所述篇章中每个句子的单词输入预训练模型中,得到每个句子中单词对应的词嵌入向量;
根据每个单词对应的词嵌入向量、以及词嵌入向量在句子中的权重系数,得到句子对应的句子级向量,所述句子对应的句子级向量包括:所述目标句子对应的第二句子级向量,以及所述非目标句子对应的第三句子级向量。
4.一种篇章连贯性的检测装置,其特征在于,包括:
获取模块,用于获取第一句子级向量,其中所述第一句子级向量是根据目标句子与多个非目标句子之间的关联性确定的,所述目标句子为篇章中的任意一个句子,所述非目标句子包括所述篇章中与所述目标句子不相邻的句子;
确定模块,用于根据所述第一句子级向量确定所述篇章对应的第一篇章级向量;以及,根据所述第一篇章级向量确定所述篇章的连贯性;
所述确定模块具体用于:
将所述篇章中每个目标句子对应的第一句子级向量均输入双向长短时记忆网络中,得到第二篇章级向量和第三篇章级向量,其中所述第二篇章级向量为第一句子顺序对应的篇章级向量,所述第三篇章级向量为第二句子顺序对应的篇章级向量,所述第一句子顺序和所述第二句子顺序互为相反的句子顺序;
将所述第二篇章级向量和所述第三篇章级向量进行连接得到所述第一篇章级向量;
根据所述第一篇章级向量确定所述篇章对应的连贯性系数;
根据所述连贯性系数确定所述篇章的连贯性。
5.根据权利要求4所述的装置,其特征在于,所述获取模块具体用于:
对第二句子级向量,和多个第三句子级向量,进行计算得到所述第一句子级向量,其中所述第二句子级向量为所述目标句子对应的句子级向量,所述第三句子级向量为所述非目标句子对应的句子级向量,一个非目标句子对应一个第三句子向量。
6.根据权利要求4-5任意一项所述的装置,其特征在于,所述装置还包括:训练模块;所述训练模块用于:
将所述篇章中每个句子的单词输入预训练模型中,得到每个句子中单词对应的词嵌入向量;
根据每个单词对应的词嵌入向量、以及词嵌入向量在句子中的权重系数,得到句子对应的句子级向量,所述句子对应的句子级向量包括:所述目标句子对应的第二句子级向量,以及所述非目标句子对应的第三句子级向量。
7.一种检测装置,其特征在于,包括:
处理器和存储器,所述存储器用于存储计算机操作指令;
所述处理器用于通过调用所述计算机操作指令,以执行上述权利要求1-3中任意一项所述的方法。
CN201910990145.3A 2019-10-17 2019-10-17 一种篇章连贯性的确定方法以及检测装置 Active CN110750979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910990145.3A CN110750979B (zh) 2019-10-17 2019-10-17 一种篇章连贯性的确定方法以及检测装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910990145.3A CN110750979B (zh) 2019-10-17 2019-10-17 一种篇章连贯性的确定方法以及检测装置

Publications (2)

Publication Number Publication Date
CN110750979A CN110750979A (zh) 2020-02-04
CN110750979B true CN110750979B (zh) 2023-07-25

Family

ID=69278786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910990145.3A Active CN110750979B (zh) 2019-10-17 2019-10-17 一种篇章连贯性的确定方法以及检测装置

Country Status (1)

Country Link
CN (1) CN110750979B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506360A (zh) * 2016-06-14 2017-12-22 科大讯飞股份有限公司 一种文章评分方法及系统
CN109241536A (zh) * 2018-09-21 2019-01-18 浙江大学 一种基于深度学习自注意力机制的句子排序方法
CN109408829A (zh) * 2018-11-09 2019-03-01 北京百度网讯科技有限公司 文章可读性确定方法、装置、设备和介质
CN110188350A (zh) * 2019-05-22 2019-08-30 北京百度网讯科技有限公司 文本一致性计算方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7552047B2 (en) * 2006-05-02 2009-06-23 International Business Machines Corporation Instance-based sentence boundary determination by optimization
US10706736B2 (en) * 2015-11-14 2020-07-07 The King Abdulaziz City For Science And Technology Method and system for automatically scoring an essay using plurality of linguistic levels
US9837069B2 (en) * 2015-12-22 2017-12-05 Intel Corporation Technologies for end-of-sentence detection using syntactic coherence
CN107220231A (zh) * 2016-03-22 2017-09-29 索尼公司 用于自然语言处理的电子设备和方法以及训练方法
US11151130B2 (en) * 2017-02-04 2021-10-19 Tata Consultancy Services Limited Systems and methods for assessing quality of input text using recurrent neural networks
CN106919673B (zh) * 2017-02-21 2019-08-20 浙江工商大学 基于深度学习的文本情绪分析系统
WO2018174815A1 (en) * 2017-03-24 2018-09-27 Agency For Science, Technology And Research Method and apparatus for semantic coherence analysis of texts
CN107133211B (zh) * 2017-04-26 2020-06-16 中国人民大学 一种基于注意力机制的作文评分方法
CN107341143B (zh) * 2017-05-26 2020-08-14 北京奇艺世纪科技有限公司 一种句子连贯性判断方法及装置和电子设备
CN107273358B (zh) * 2017-06-18 2020-06-05 北京理工大学 一种基于管道模式的端到端英文篇章结构自动分析方法
CN107330032B (zh) * 2017-06-26 2020-08-21 北京理工大学 一种基于递归神经网络的隐式篇章关系分析方法
CN107967257B (zh) * 2017-11-20 2021-01-12 哈尔滨工业大学 一种级联式作文生成方法
CN108304445B (zh) * 2017-12-07 2021-08-03 新华网股份有限公司 一种文本摘要生成方法和装置
CN110245230A (zh) * 2019-05-15 2019-09-17 北京思源智通科技有限责任公司 一种图书分级方法、系统、存储介质和服务器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506360A (zh) * 2016-06-14 2017-12-22 科大讯飞股份有限公司 一种文章评分方法及系统
CN109241536A (zh) * 2018-09-21 2019-01-18 浙江大学 一种基于深度学习自注意力机制的句子排序方法
CN109408829A (zh) * 2018-11-09 2019-03-01 北京百度网讯科技有限公司 文章可读性确定方法、装置、设备和介质
CN110188350A (zh) * 2019-05-22 2019-08-30 北京百度网讯科技有限公司 文本一致性计算方法及装置

Also Published As

Publication number Publication date
CN110750979A (zh) 2020-02-04

Similar Documents

Publication Publication Date Title
US11604956B2 (en) Sequence-to-sequence prediction using a neural network model
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
WO2022007823A1 (zh) 一种文本数据处理方法及装置
CN108846077B (zh) 问答文本的语义匹配方法、装置、介质及电子设备
CN111382255B (zh) 用于问答处理的方法、装置、设备和介质
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN108595629B (zh) 用于答案选择系统的数据处理方法及应用
US11693854B2 (en) Question responding apparatus, question responding method and program
US11017774B2 (en) Cognitive audio classifier
CN112489682B (zh) 音频处理方法、装置、电子设备和存储介质
US11734322B2 (en) Enhanced intent matching using keyword-based word mover's distance
CN111160032A (zh) 一种命名实体提取方法、装置、电子设备及存储介质
CN111625634A (zh) 词槽识别方法及装置、计算机可读存储介质、电子设备
CN110929524A (zh) 数据筛选方法、装置、设备及计算机可读存储介质
CN112182217A (zh) 多标签文本类别的识别方法、装置、设备和存储介质
WO2019118257A1 (en) Assertion-based question answering
US20220269939A1 (en) Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition
CN111428470A (zh) 文本连贯性判定及其模型训练方法、电子设备及可读介质
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN110275953B (zh) 人格分类方法及装置
CN117829122A (zh) 基于条件的文本相似度模型训练方法、装置及介质
CN114021718A (zh) 模型行为可解释性方法、系统、介质及设备
CN117573985A (zh) 一种应用于智能化在线教育系统的信息推送方法及系统
CN113326383A (zh) 一种短文本实体链接方法、装置、计算设备与存储介质
CN112906398A (zh) 句子语义匹配方法、系统、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant