CN103294663A - 一种文本连贯性检测方法和装置 - Google Patents
一种文本连贯性检测方法和装置 Download PDFInfo
- Publication number
- CN103294663A CN103294663A CN2013101606616A CN201310160661A CN103294663A CN 103294663 A CN103294663 A CN 103294663A CN 2013101606616 A CN2013101606616 A CN 2013101606616A CN 201310160661 A CN201310160661 A CN 201310160661A CN 103294663 A CN103294663 A CN 103294663A
- Authority
- CN
- China
- Prior art keywords
- text
- sentence
- detection
- texts
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 232
- 230000001427 coherent effect Effects 0.000 claims description 51
- 238000000034 method Methods 0.000 claims description 34
- 230000003252 repetitive effect Effects 0.000 claims description 12
- 230000000750 progressive effect Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000012360 testing method Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 235000006693 Cassia laevigata Nutrition 0.000 description 2
- 241000287107 Passer Species 0.000 description 2
- 241000522641 Senna Species 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 229940124513 senna glycoside Drugs 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种文本连贯性检测方法和装置。其中一种文本连贯性检测方法,包括:获取第一检测文本;获得第一检测文本的首句的已知信息;当所有已知信息都包括表明文本非连贯的单词时,随机选取一个第一检测文本为连贯性文本;当仅一个已知信息未包括表明文本非连贯的单词时,直接判定未包括表明文本非连贯的单词的第一检测文本为连贯性文本;当至少两个已知信息未包括表明文本非连贯的单词时,将其作为第二检测文本,分别计算第二检测文本的相似度均值,并依据所述相似度均值判定所述连贯性。因此本申请所提供的文本连贯性检测方法可以仅对第二检测文本进行计算以判定第二检测文本是否为连贯性文本,降低计算的信息量,从而提高检测效率。
Description
技术领域
本申请属于自然语言处理技术领域,尤其涉及一种文本连贯性检测方法和装置。
背景技术
文本连贯性检测是指文本中各个部分都能被很好地连接起来并形成唯一整体的一种检测方法,文本连贯性检测是多种自然语言处理技术的综合应用之一,具有广泛的应用前景,比如:自然语言生成、机器自动文摘以及机器翻译的评测。
衡量文本连贯性方法的好坏一般要考虑到两个因素:一是检测结果的正确率;二是检测效率,即完成文本连贯性检测所需要的时间消耗。目前已经应用到文本连贯性检测的方法包括:排序方法,潜语义分析方法以及基于隐马尔可夫的内容模型方法。然而在使用上述方法进行文本连贯性检测时需要计算的信息量非常庞大,导致文本连贯性检测的检测效率降低。
发明内容
有鉴于此,本申请的目的在于提供一种文本连贯性检测方法,用于降低检测的信息量,提高文本连贯性检测的检测效率。
本申请还提供了一种文本连贯性检测装置,用以保证上述方法在实际中的实现及应用。
一方面,本申请提供一种文本连贯性检测方法,包括:
获取待检测文本以及所述待检测文本的置换文本,并将所述待检测文本和所述置换文本分别作为第一检测文本;
切分所述第一检测文本的首句,获得所述首句的已知信息;
当所有所述第一检测文本的首句的已知信息都包括表明文本非连贯的单词时,随机选取一个所述第一检测文本,判定所选取的所述第一检测文本为连贯性文本;
当仅一个所述第一检测文本的首句的已知信息未包括表明文本非连贯的单词时,直接判定所述第一检测文本为连贯性文本,其中所判定的所述第一检测文本的首句的已知信息未包括表明文本非连贯的单词;
当至少两个所述第一检测文本的首句的已知信息未包括表明文本非连贯的单词时,将所述至少两个所述第一检测文本作为第二检测文本,并过滤掉其他所述第一检测文本;
分别计算至少两个第二检测文本的相似度均值,并依据所述相似度均值判定所述至少两个第二检测文本的连贯性。
优选地,还包括:对所述第一检测文本的首句进行词性标记;
所述切分所述第一检测文本的首句,获得所述首句的已知信息包括:
当所述第一检测文本的首句单词包括动词时,将所述首句的首单词到所述动词之前的单词所组成的单词序列作为所述首句的已知信息;
当所述第一检测文本的首句单词未包括动词时,将所述首句的首单词到中间词之前的单词所组成的单词序列作为所述首句的已知信息,其中所述中间词是指位于所述首句中间位置的单词。
优选地,对所述第一检测文本的首句进行词性标记包括:对所述待检测文本的首句采用基于神经网络体系结构的语义/句法抽取工具进行词性标记。
优选地,计算所述第二检测文本的相似度均值包括:将所述第二检测文本中相邻两句中的一句作为源句,将相邻两句中的另一句作为目标句;
将所述源句和所述目标句进行词到词的匹配,并获取所述源句和所述目标句中匹配的一元文法个数M;
获取所述源句的一元文法个数Q和所述目标句的一元文法个数T;
根据公式P=M/T计算相似度的精确度,根据公式R=M/Q计算相似度的召回率;
根据公式scoreSentence=(P*R)/(a*P+(1-a)*R)计算相邻两句的相似度,其中a是平衡因子;
根据公式scoreText=sum[(1-Pen)*scoreSentence]/N计算所述第二检测文本的相似度均值,其中Pen是惩罚因子,N是所述第二检测文本的句子总数。
优选地,所述表明文本非连贯的单词包括非重复性代词、表明递进的关联词、表明承接关系的关联词以及表明转折关系的关联词;
依据所述相似度均值判定所述第二检测文本的连贯性包括:从所述至少两个第二检测文本中选取一个所述第二检测文本,其中所选取的第二检测文本的相似度均值大于其他所述第二检测文本的相似度均值;
将所述所选取的第二检测文本作为连贯性文本,将其他所述第二检测文本作为不连贯性文本。
另一方面,本申请还提供一种文本连贯性检测装置,包括:
获取单元,用于获取待检测文本以及所述待检测文本的置换文本,并将所述待检测文本和所述置换文本分别作为第一检测文本;
获得单元,用于切分所述第一检测文本的首句,获得所述首句的已知信息;
第一判定单元,用于当所有所述第一检测文本的首句的已知信息都包括表明文本非连贯的单词时,随机选取一个所述第一检测文本,判定所选取的所述第一检测文本为连贯性文本;
第二判定单元,用于当仅一个所述第一检测文本的首句的已知信息未包括表明文本非连贯的单词时,直接判定所述第一检测文本为连贯性文本,其中所判定的所述第一检测文本的首句的已知信息未包括表明文本非连贯的单词;
选取单元,用于当至少两个所述第一检测文本的首句的已知信息未包括表明文本非连贯的单词时,将所述至少两个所述第一检测文本作为第二检测文本,并过滤掉其他所述第一检测文本;
第三判定单元,用于分别计算至少两个第二检测文本的相似度均值,并依据所述相似度均值判定所述至少两个第二检测文本的连贯性。
优选地,还包括:标记单元,用于对所述第一检测文本的首句进行词性标记;
所述获得单元具体用于当所述第一检测文本的首句单词包括动词时,将所述首句的首单词到所述动词之前的单词所组成的单词序列作为所述首句的已知信息;当所述第一检测文本的首句单词未包括动词时,将所述首句的首单词到中间词之前的单词所组成的单词序列作为所述首句的已知信息,其中所述中间词是指位于所述首句中间位置的单词。
优选地,所述标记单元具体用于对所述待检测文本的首句采用基于神经网络体系结构的语义/句法抽取工具进行词性标记。
优选地,所述第三判定单元包括:
句子选取单元,用于将所述第二检测文本中相邻两句中的一句作为源句,将相邻两句中的另一句作为目标句;
第一获取单元,用于将所述源句和所述目标句进行词到词的匹配,并获取所述源句和所述目标句中匹配的一元文法个数M;
第二获取单元,用于获取所述源句的一元文法个数Q和所述目标句的一元文法个数T;
第一计算单元,用于根据公式P=M/T计算相似度的精确度,根据公式R=M/Q计算相似度的召回率;
第二计算单元,用于根据公式scoreSentence=(P*R)/(a*P+(1-a)*R)计算相邻两句的相似度,其中a是平衡因子;
第三计算单元,用于根据公式scoreText=sum[(1-Pen)*scoreSentence]/N计算所述第二检测文本的相似度均值,其中Pen是惩罚因子,N是所述第二检测文本的句子总数。
优选地,所述表明文本非连贯的单词包括非重复性代词、表明递进的关联词、表明承接关系的关联词以及表明转折关系的关联词;
所述第三判定单元具体用于从所述至少两个第二检测文本中选取一个所述第二检测文本,其中所选取的第二检测文本的相似度均值大于其他所述第二检测文本的相似度均值;将所述所选取的第二检测文本作为连贯性文本,将其他所述第二检测文本作为不连贯性文本。
在本申请中,对第一检测文本的首句进行切分以获得首句的已知信息。当至少两个所述第一检测文本的首句的已知信息未包括表明文本非连贯的单词时,将所述至少两个所述第一检测文本作为第二检测文本。然后计算所述第二检测文本的相似度均值,并依据所述相似度均值判定所述第二检测文本的连贯性。因此本申请所提供的文本连贯性检测方法可以仅对第二检测文本进行计算以判定第二检测文本的连贯性,降低计算的信息量,从而提高检测效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种文本连贯性检测方法的流程图;
图2是本申请提供的另一种文本连贯性检测方法的流程图;
图3是本申请提供的文本连贯性检测方法的子流程图;
图4是本申请提供的一种文本连贯性检测装置的结构示意图;
图5是本申请提供的另一种文本连贯性检测装置的结构示意图;
图6是本申请提供的一种文本连贯性检测装置中第三判定单元的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,其示出了本申请实施例提供的一种文本连贯性检测方法的一种流程图,可以包括以下步骤:
步骤101:获取待检测文本以及待检测文本的置换文本,并将待检测文本和置换文本分别作为第一检测文本。
在本实施例中,待检测文本是直接从资料库或者网络中获取到的初始文本。而置换文本是打乱待检测文本中句子顺序后得到的文本。对于同一个待检测文本可以按照打乱方式生成多个置换文本,再对待检测文本和生成的置换文本是否连贯进行检测。
需要说明的是:本实施例将待检测文本和置换文本统一作为第一待检测文本,可以便于后续步骤引用,避免产生歧义。
步骤102:切分第一检测文本的首句,获取首句的已知信息。
在本实施例中,切分是指将第一检测文本的首句划分为两部分,其中一部分作为首句的已知信息,另一部分作为首句的未知信息。其中首句的已知信息用于引导一个话题,一般是话题的出发点,首句的未知信息是指围绕已知信息展开的实际内容,是话题的进一步描述。
以双方交谈为例,首句的已知信息是指双方都知道的话题,是双方都知道的内容,首句的未知信息则是指对话题的进一步描述,是一方知道的内容。例如,“The book you lent me is very interesting”这句中,“The book you lent me”是说话者双方都知道的内容,可以作为已知信息。而“is very interesting”是说话者知道而听话者不知道的内容,可以作为未知信息。
步骤103:判断所有第一检测文本的首句的已知信息是否都包括表明文本非连贯的单词,如果所有第一检测文本的首句的已知信息都包括表明文本非连贯的单词,执行步骤104,如果所有第一检测文本的首句的已知信息部分包括表明文本非连贯的单词,执行步骤105。
在本实施例中,首句的已知信息用于引导一个话题,当首句的已知信息包括表明文本非连贯的单词时,表明该第一检测文本为不连贯性文本,则不需要对该不连贯性文本进行相似度均值计算,直接将其过滤掉。当首句的已知信息未包括表明文本非连贯的单词时,表明该第一检测文本可能为连贯性文本,则对第一检测文本进行相似度均值计算,以判断是否为连贯性文本。
其中表明非连贯的单词是指不包括在首句的已知信息中的单词。在语言学中,非重复性代词必须有前后的指代语,而表明递进的关联词、表明承接关系的关联词以及表明转折关系的关联词在出现之前必须有相应的背景知识作为铺垫,因此非重复性代词、表明递进的关联词、表明承接关系的关联词以及表明转折关系的关联词可以作为表明非连贯的单词。当然,其他不包括在首句的已知信息中的单词也可以作为表明非连贯的单词,本实施例不再一一给出。
例如he;she;its;they;them;their;theirs;furthermore;in addition;also;besides;moreover;similarly;then;additionally;even more;further;subsequently;therefore;subsequent;neither;however;both;then;but;still;no other;another;however;other这些非重复性代词可以作为表明非连贯的单词。
在获取到首句的已知信息,则可以将首句的已知信息中的单词与上述非重复性代词进行匹配,当首句的已知信息中包括上述非重复性代词时,表明该第一检测文本为不连贯性文本。当首句的已知信息未包括上述非重复性代词时,表明该第一检测文本可能为连贯性文本。
步骤104:当所有所述第一检测文本的首句的已知信息都包括表明文本非连贯的单词时,随机选取一个所述第一检测文本,判定所选取的所述第一检测文本为连贯性文本。
当所有第一检测文本的首句的已知信息都包括表明文本非连贯的单词,表明所有第一检测文本都是不连贯性文本,此时从所有第一检测文本中随机选取一个第一检测文本作为连贯性文本。
步骤105:判断首句的已知信息未包括表明文本非连贯的单词的文本个数是否为1,当所述文本个数为1,执行步骤106;当所述文本个数不为1,执行步骤107。
步骤106:当仅一个所述第一检测文本的首句的已知信息未包括表明文本非连贯的单词时,直接判定所述第一检测文本为连贯性文本。
当仅一个第一检测文本的首句的已知信息未包括表明文本非连贯的单词时,表明该第一检测文本可能是连贯性文本,其他第一检测文本是不连贯性文本,则直接判定未包括表明文本非连贯的单词的首句所在第一检测文本为连贯性文本。
步骤107:当至少两个所述第一检测文本的首句的已知信息未包括表明文本非连贯的单词时,将所述至少两个所述第一检测文本作为第二检测文本,并过滤掉其他所述第一检测文本。
步骤108:分别计算至少两个第二检测文本的相似度均值,并依据所述相似度均值判定所述至少两个第二检测文本的连贯性。
当至少两个第二检测文本的首句的已知信息未包括表明文本非连贯的单词时,表明至少两个第二检测文本可能是连贯性文本,则需要进一步计算每个第二检测文本的相似度均值,依据相似度均值判定第二检测文本的连贯性。
其中依据相似度均值判定第二检测文本的连贯性具体可以为:从所述至少两个第二检测文本中选取一个所述第二检测文本,其中所选取的第二检测文本的相似度均值大于其他所述第二检测文本的相似度均值;将所述所选取的第二检测文本作为连贯性文本,将其他所述第二检测文本作为不连贯性文本。
在本申请中,对第一检测文本的首句进行切分以获得首句的已知信息。当至少两个所述第一检测文本的首句的已知信息未包括表明文本非连贯的单词时,将所述至少两个所述第一检测文本作为第二检测文本。然后计算所述第二检测文本的相似度均值,并依据所述相似度均值判定所述第二检测文本的连贯性。因此本申请所提供的文本连贯性检测方法可以仅对第二检测文本进行计算以判定第二检测文本的连贯性,降低计算的信息量,从而提高检测效率。
请参阅图2,其示出了本申请实施例提供的另一种文本连贯性检测方法,可以包括以下步骤:
步骤200:获取待检测文本以及所述待检测文本的置换文本,并将所述待检测文本和所述置换文本分别作为第一检测文本。
步骤201:对所述第一检测文本的首句进行词性标记。
在本实施例中,采用Senna(Semantic/syntactic Extraction using a NeuralNetwork Architecture,基于神经网络体系结构的语义/句法抽取)工具对所述第一检测文本的首句进行词性标记。
其中词性标记是指标记出第一检测文本的首句中每个单词的词性。例如:“The(DT)pilot(NN)and(CC)his(PRP$)passengers(NN)departed(VBD)for(IN)an(DT)evening(NN)dinner(NN)flight(NN)to(TO)another(DT)town(NN)about(IN)48(CD)miles(NNS)away(RB).”。其中单词后面的括号表明其对应的词性。
在本实施例中,DT表明词性为代冠词(Determiner),NN表明词性为除专有名词和时间名词外的所有名词(Noun,Singular Or Mass),CC表明词性为并列连词(Coordinating Conjunction),PRP$表明词性为代词所有格(PossessivePronoun),NNS表明词性为名词复数(Noun Plural),IN表明词性为介词/从属连词(Preposition/Subordinating Conjunction),TO表明方向(To),CD表明词性为基数词(Cardinal Number),NNS表明词性为名词复数(Noun Plural),RB表明词性为复词(Adverb)。
步骤202:判断所述第一检测文本的首句单词是否包括动词,如果是,执行步骤203,如果否执行步骤204。
在语言学中,首句中用于作为引导话题的单词是首句的谓语之前,而谓语的词性为动词,所以首句的已知信息和首句的未知信息可以以首句中的动词为分界点。其中动词包括VBD(Verb-Past Tense,过去式动词),也可以包括VB(Verb-Base Form,基本形态的动词)。
步骤203:将所述首句的首单词到所述动词之前的单词所组成的单词序列作为所述首句的已知信息,继续执行步骤205。
当首句单词中包括动词时,将首句的首单词到所述动词之前的单词所组成的单词序列作为所述首句的已知信息。而首句的动词到首句的末单词所组成的单词序列作为首句的未知信息。
以词性标记所引用的句子为例,该句子中departed作为分界点,切分出句子的已知信息和句子的未知信息分别为“The pilot and his passengers”和“departed for an evening dinner flight to another town about48miles away”。
步骤204:将所述首句的首单词到中间词之前的单词所组成的单词序列作为所述首句的已知信息,继续执行步骤205。
在本实施例中,中间词是指位于所述首句中间位置的单词。当首句单词不包括动词时,则将首句的中间位置作为分界点,将首句的首单词到中间词之前的单词所组成的单词序列作为所述首句的已知信息,将首句的中间词到首句的末尾词之间的单词所组成的单词序列作为首句的未知信息。
需要说明的是:首句中单词数量为n,且n为偶数时,首句的中间位置可以是n/2-1,当然首句的中间位置也可以是n/2+1。当n为奇数时,首句的中间位置可以是(n+1)/2。
步骤205:判断所有第一检测文本的首句的已知信息是否都包括表明文本非连贯的单词,如果所有第一检测文本的首句的已知信息都包括表明文本非连贯的单词,执行步骤206,如果所有第一检测文本的首句的已知信息部分包括表明文本非连贯的单词,执行步骤207。
步骤206:当所有所述第一检测文本的首句的已知信息都包括表明文本非连贯的单词时,随机选取一个所述第一检测文本,判定所选取的所述第一检测文本为连贯性文本。
步骤207:判断首句的已知信息未包括表明文本非连贯的单词的文本个数是否为1,当所述文本个数为1,执行步骤208;当所述文本个数不为1,执行步骤209。
步骤208:当仅一个所述第一检测文本的首句的已知信息未包括表明文本非连贯的单词时,直接判定所述第一检测文本为连贯性文本。
步骤209:当至少两个所述第一检测文本的首句的已知信息未包括表明文本非连贯的单词时,将所述至少两个所述第一检测文本作为第二检测文本,并过滤掉其他所述第一检测文本。
步骤210:分别计算至少两个第二检测文本的相似度均值,并依据所述相似度均值判定所述至少两个第二检测文本的连贯性。
在本实施例中,步骤205至步骤210的具体实施过程与参阅图1所示文本连贯性检测方法中步骤103至步骤108的具体实施过程相同,对此本实施例不再加以阐述。
上述图1或图2所示的文本连贯性检测方法中计算第二检测文本的相似度均值的过程可以参阅图3所示,第二检测文本的相似度计算包括以下步骤:
步骤301:将第二检测文本中相邻两句中的一句作为源句,将相邻两句中的另一句作为目标句。
需要说明的是:本实施例中文本连贯性检测是用于检测一个文本中的内容是否连贯,则文本中相邻两句是指位于同一个文本中的相邻两句,当相邻两句位于不同文本时,则不需要计算位于不同文本的相邻两句的相似度。
步骤302:将所述源句和所述目标句进行词到词的匹配,并获取所述源句和所述目标句中匹配的一元文法个数M。
在本实施例中,源句和目标句在进行词到词的匹配可以采用错位匹配或者对齐匹配将源句和目标句对齐。其中错位匹配是指源句和目标句中相同单词采用非对齐匹配方式进行匹配,如源句的第一个单词与目标句的第二个单词相同。对齐匹配是指源句和目标句中相同单词采用一一对应的方式匹配,如源句的第一个单词与目标句的第一个单词相同。
N元文法是指在字符串W中,每个词只与前面的N-1个词有关。那么一元文法是指在字符串W中,每个词都相互无关。
步骤303:获取源句的一元文法个数Q和所述目标句的一元文法个数T。
例如源句为:This is a interesting book,目标句为:That is not a interestingbook。源句和目标句可以采用对齐匹配或者错位匹配方式,对此本实施例不加以限制。
上述列举的源句和目标句匹配的一元文法个数M=4(is;a;interesting;book共4个);源句的一元文法个数Q=5(This is a interesting book共5个单词);目标句的一元文法个数T=6(That is not a interesting book共6个单词)。
步骤304:根据公式P=M/T计算相似度的精确度,根据公式R=M/Q计算相似度的召回率。
步骤305:根据公式scoreSentence=(P*R)/(a*P+(1-a)*R)计算相邻两句的相似度。
其中a是平衡因子,以权衡P和R值在计算相似度时的作用,a的取值满足0≤a≤1。
步骤306:根据公式scoreText=sum[(1-Pen)*scoreSentence]/N计算相似度均值,N是第二检测文本的句子总数。
其中Pen是惩罚因子,其综合考虑了相邻两句中组块和匹配的一元文法个数在计算相似度总和时的作用。Pen=ch/M,其中ch是组块数,M是匹配的一元文法个数。在本实施例中采用Meteor(Metric for Evaluation ofTranslation with Explicit Ordering,采用显示排序方式评估翻译的度量标准)工具识别出相邻两句的组块并计算相邻两句的相似度,组块是指由句子中的至少一个单词所构成的字符串。
下面使用两种不同类型的语料,将本申请提供的文本连贯性检测方法和传统的方法进行比较,验证本申请提供的文本连贯性检测方法的有效性和通用性。其中两种语料包括:A语料——飞机事故语料,B语料——新闻报道语料。其中,飞机事故语料总共有文本对1,986篇,新闻报导语料总共有文本对1,978篇。
对于任意一种语料,将第一检测文本中的句子进行打乱顺序生成20个置换文本,将第一检测文本和任何一个置换文本匹配生成文本对,并将文本对中的各个文本使用本申请提供的文本连贯性检测方法和传统的方法进行识别,识别结果以正确率Accuracy值表示,如表1所示。
表1 文本连贯性检测结果对比表
检测方法 | A语料的Accuracy值 | B语料的Accuracy值 |
LSA_Initial | 72.10 | 72.10 |
LSA__Update | 87.30 | 81.00 |
本申请 | 88.57 | 84.48 |
其中,LSA_Initial是不借助于第三方大语料下的文本连贯性检测方法,直接采用LSA(Latent Semantic Analysis,潜语义分析)方法计算两个相邻句子的相似度。LSA_Update是采用借助于第三方大语料下的文本连贯性检测方法,直接采用LSA(Latent Semantic Analysis,潜语义分析)方法计算两个相邻句子的相似度。本申请是指本申请提供的文本连贯性检测方法。从表1所示的对比数据可以看出本申请提供的文本连贯性检测方法的正确率高于传统的方法。
与上述方法实施例相对应,本申请还提供一种文本连贯性检测装置,其结构示意图请参阅图4所示,包括:获取单元11、获得单元12、第一判定单元13、第二判定单元14、选取单元15和第三判定单元16。其中,
获取单元11,用于获取待检测文本以及所述待检测文本的置换文本,并将所述待检测文本和所述置换文本分别作为第一检测文本。
在本实施例中,待检测文本是直接从资料库或者网络中获取到的初始文本。而置换文本是打乱待检测文本中句子顺序后得到的文本。对于同一个待检测文本可以按照打乱方式生成多个置换文本,再对待检测文本和生成的置换文本是否连贯进行检测。
获得单元12,用于切分所述第一检测文本的首句,获得所述首句的已知信息。
在本实施例中,切分是指将待检测文本的首句划分为两部分,其中一部分作为首句的已知信息,另一部分作为首句的未知信息。其中首句的已知信息用于引导一个话题,一般是话题的出发点,首句的未知信息是指围绕已知信息展开的实际内容,是话题的进一步描述。
第一判定单元13,用于当所有所述第一检测文本的首句的已知信息都包括表明文本非连贯的单词时,随机选取一个所述第一检测文本,判定所选取的所述第一检测文本为连贯性文本。
其中表明非连贯的单词是指不包括在首句的已知信息中单词。在语言学中,非重复性代词必须有前后的指代语,而表明递进的关联词、表明承接关系的关联词以及表明转折关系的关联词在出现之前必须有相应的背景知识作为铺垫,因此非重复性代词、表明递进的关联词、表明承接关系的关联词以及表明转折关系的关联词可以作为表明非连贯的单词。表明非连贯的单词可以参阅图1所示实施例中的举例,当然,图1所示实施例仅列举了部分表明非连贯的单词,对于其他表明非连贯的单词也可以使用到本申请提供的文本连贯性检测装置中。
当所有第一检测文本的首句的已知信息都包括表明文本非连贯的单词,表明所有第一检测文本都是不连贯性文本,此时第一判定单元13从所有第一检测文本中随机选取一个第一检测文本作为连贯性文本。
第二判定单元14,用于当仅一个所述第一检测文本的首句的已知信息未包括表明文本非连贯的单词时,直接判定所述第一检测文本为连贯性文本,其中所判定的所述第一检测文本的首句的已知信息未包括表明文本非连贯的单词。
当仅一个第一检测文本的首句的已知信息未包括表明文本非连贯的单词时,表明该第一检测文本可能是连贯性文本,其他第一检测文本是不连贯性文本,则第二判定单元14直接判定未包括表明文本非连贯的单词的首句所在第一检测文本为连贯性文本。
选取单元15,用于当至少两个所述第一检测文本的首句的已知信息未包括表明文本非连贯的单词时,将所述至少两个所述第一检测文本作为第二检测文本,并过滤掉其他所述第一检测文本。
第三判定单元16,用于分别计算至少两个第二检测文本的相似度均值,并依据所述相似度均值判定所述至少两个第二检测文本的连贯性。
当至少两个第二检测文本的首句的已知信息未包括表明文本非连贯的单词时,表明至少两个第二检测文本可能是连贯性文本,则需要第三判定单元16进一步计算每个第二检测文本的相似度均值,依据相似度均值判定第二检测文本的连贯性。
其中第三判定单元16具体用于从所述至少两个第二检测文本中选取一个所述第二检测文本,其中所选取的第二检测文本的相似度均值大于其他所述第二检测文本的相似度均值;将所述所选取的第二检测文本作为连贯性文本,将其他所述第二检测文本作为不连贯性文本。
在本申请中,对第一检测文本的首句进行切分以获得首句的已知信息。当至少两个所述第一检测文本的首句的已知信息未包括表明文本非连贯的单词时,将所述至少两个所述第一检测文本作为第二检测文本。然后计算所述第二检测文本的相似度均值,并依据所述相似度均值判定所述第二检测文本的连贯性。因此本申请所提供的文本连贯性检测方法可以仅对第二检测文本进行计算,以判定第二检测文本的连贯性,降低计算的信息量,从而提高检测效率。
请参阅图5,其示出了本申请实施例提供的另一种文本连贯性检测装置,在图4所示文本连贯性检测装置的基础上,还可以包括标记单元17,用于对所述第一检测文本的首句进行词性标记。
在本实施例中,标记单元17具体用于对所述待检测文本的首句采用基于Senna工具进行词性标记。
获得单元12具体用于当所述第一检测文本的首句单词包括动词时,将所述首句的首单词到所述动词之前的单词所组成的单词序列作为所述首句的已知信息;当所述第一检测文本的首句单词未包括动词时,将所述首句的首单词到中间词之前的单词所组成的单词序列作为所述首句的已知信息,其中所述中间词是指位于所述首句中间位置的单词。
上述图4或图5所示的文本连贯性检测装置中第三判定单元的结构示意图可以参阅图6,包括:
句子选取单元161,用于将所述第二检测文本中相邻两句中的一句作为源句,将相邻两句中的另一句作为目标句。
需要说明的是:本实施例中文本连贯性检测是用于检测一个文本中的内容是否连贯,则文本中相邻两句是指位于同一个文本中的相邻两句,当相邻两句位于不同文本时,则不需要计算位于不同文本的相邻两句的相似度。
第一获取单元162,用于将所述源句和所述目标句进行词到词的匹配,并获取所述源句和所述目标句中匹配的一元文法个数M。
在本实施例中,源句和目标句在进行词到词的匹配可以采用错位匹配或者对齐匹配将源句和目标句对齐。其中错位匹配是指源句和目标句中相同单词采用非对齐匹配方式进行匹配,如源句的第一个单词与目标句的第二个单词相同。对齐匹配是指源句和目标句中相同单词采用一一对应的方式匹配,如源句的第一个单词与目标句的第一个单词相同。
N元文法是指在字符串W中,每个词只与前面的N-1个词有关。那么一元文法是指在字符串W中,每个词都相互无关。
第二获取单元163,用于获取所述源句的一元文法个数Q和所述目标句的一元文法个数T。
例如源句为:This is a interesting book,目标句为:That is not a interestingbook。源句和目标句可以采用对齐匹配或者错位匹配方式,对此本实施例不加以限制。
上述列举的源句和目标句匹配的一元文法个数M=4(is;a;interesting;book共4个);源句的一元文法个数Q=5(This is a interesting book共5个单词);目标句的一元文法个数T=6(That is not a interesting book共6个单词)。
第一计算单元164,用于根据公式P=M/T计算相似度的精确度,根据公式R=M/Q计算相似度的召回率。
第二计算单元165,用于根据公式scoreSentence=(P*R)/(a*P+(1-a)*R)计算相邻两句的相似度,其中a是平衡因子。
第三计算单元166,用于根据公式scoreText=sum[(1-Pen)*scoreSentence]/N计算所述第二检测文本的相似度均值,其中Pen是惩罚因子,N是所述第二检测文本的句子总数。
Pen综合考虑了相邻两句中组块和匹配的一元文法个数在计算相似度总和时的作用。Pen=ch/M,其中ch是组块数,M是匹配的一元文法个数。在本实施例中采用Meteor工具识别出相邻两句的组块并计算相邻两句的相似度,组块是指由句子中的至少一个单词所构成的字符串。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种文本连贯性检测方法,其特征在于,包括:
获取待检测文本以及所述待检测文本的置换文本,并将所述待检测文本和所述置换文本分别作为第一检测文本;
切分所述第一检测文本的首句,获得所述首句的已知信息;
当所有所述第一检测文本的首句的已知信息都包括表明文本非连贯的单词时,随机选取一个所述第一检测文本,判定所选取的所述第一检测文本为连贯性文本;
当仅一个所述第一检测文本的首句的已知信息未包括表明文本非连贯的单词时,直接判定所述第一检测文本为连贯性文本,其中所判定的所述第一检测文本的首句的已知信息未包括表明文本非连贯的单词;
当至少两个所述第一检测文本的首句的已知信息未包括表明文本非连贯的单词时,将所述至少两个所述第一检测文本作为第二检测文本,并过滤掉其他所述第一检测文本;
分别计算至少两个第二检测文本的相似度均值,并依据所述相似度均值判定所述至少两个第二检测文本的连贯性。
2.根据权利要求1所述的文本连贯性检测方法,其特征在于,还包括:对所述第一检测文本的首句进行词性标记;
所述切分所述第一检测文本的首句,获得所述首句的已知信息包括:
当所述第一检测文本的首句单词包括动词时,将所述首句的首单词到所述动词之前的单词所组成的单词序列作为所述首句的已知信息;
当所述第一检测文本的首句单词未包括动词时,将所述首句的首单词到中间词之前的单词所组成的单词序列作为所述首句的已知信息,其中所述中间词是指位于所述首句中间位置的单词。
3.根据权利要求2所述的文本连贯性检测方法,其特征在于,对所述第一检测文本的首句进行词性标记包括:对所述待检测文本的首句采用基于神经网络体系结构的语义/句法抽取工具进行词性标记。
4.根据权利要求3所述的文本连贯性检测方法,其特征在于,计算所述第二检测文本的相似度均值包括:将所述第二检测文本中相邻两句中的一句作为源句,将相邻两句中的另一句作为目标句;
将所述源句和所述目标句进行词到词的匹配,并获取所述源句和所述目标句中匹配的一元文法个数M;
获取所述源句的一元文法个数Q和所述目标句的一元文法个数T;
根据公式P=M/T计算相似度的精确度,根据公式R=M/Q计算相似度的召回率;
根据公式scoreSentence=(P*R)/(a*P+(1-a)*R)计算相邻两句的相似度,其中a是平衡因子;
根据公式scoreText=sum[(1-Pen)*scoreSentence]/N计算所述第二检测文本的相似度均值,其中Pen是惩罚因子,N是所述第二检测文本的句子总数。
5.根据权利要求1至4任意一项所述的文本连贯性检测方法,其特征在于,所述表明文本非连贯的单词包括非重复性代词、表明递进的关联词、表明承接关系的关联词以及表明转折关系的关联词;
依据所述相似度均值判定所述第二检测文本的连贯性包括:从所述至少两个第二检测文本中选取一个所述第二检测文本,其中所选取的第二检测文本的相似度均值大于其他所述第二检测文本的相似度均值;
将所述所选取的第二检测文本作为连贯性文本,将其他所述第二检测文本作为不连贯性文本。
6.一种文本连贯性检测装置,其特征在于,包括:
获取单元,用于获取待检测文本以及所述待检测文本的置换文本,并将所述待检测文本和所述置换文本分别作为第一检测文本;
获得单元,用于切分所述第一检测文本的首句,获得所述首句的已知信息;
第一判定单元,用于当所有所述第一检测文本的首句的已知信息都包括表明文本非连贯的单词时,随机选取一个所述第一检测文本,判定所选取的所述第一检测文本为连贯性文本;
第二判定单元,用于当仅一个所述第一检测文本的首句的已知信息未包括表明文本非连贯的单词时,直接判定所述第一检测文本为连贯性文本,其中所判定的所述第一检测文本的首句的已知信息未包括表明文本非连贯的单词;
选取单元,用于当至少两个所述第一检测文本的首句的已知信息未包括表明文本非连贯的单词时,将所述至少两个所述第一检测文本作为第二检测文本,并过滤掉其他所述第一检测文本;
第三判定单元,用于分别计算至少两个第二检测文本的相似度均值,并依据所述相似度均值判定所述至少两个第二检测文本的连贯性。
7.根据权利要求6所述的文本连贯性检测装置,其特征在于,还包括:标记单元,用于对所述第一检测文本的首句进行词性标记;
所述获得单元具体用于当所述第一检测文本的首句单词包括动词时,将所述首句的首单词到所述动词之前的单词所组成的单词序列作为所述首句的已知信息;当所述第一检测文本的首句单词未包括动词时,将所述首句的首单词到中间词之前的单词所组成的单词序列作为所述首句的已知信息,其中所述中间词是指位于所述首句中间位置的单词。
8.根据权利要求7所述的文本连贯性检测装置,其特征在于,所述标记单元具体用于对所述待检测文本的首句采用基于神经网络体系结构的语义/句法抽取工具进行词性标记。
9.根据权利要求8所述的文本连贯性检测装置,其特征在于,所述第三判定单元包括:
句子选取单元,用于将所述第二检测文本中相邻两句中的一句作为源句,将相邻两句中的另一句作为目标句;
第一获取单元,用于将所述源句和所述目标句进行词到词的匹配,并获取所述源句和所述目标句中匹配的一元文法个数M;
第二获取单元,用于获取所述源句的一元文法个数Q和所述目标句的一元文法个数T;
第一计算单元,用于根据公式P=M/T计算相似度的精确度,根据公式R=M/Q计算相似度的召回率;
第二计算单元,用于根据公式scoreSentence=(P*R)/(a*P+(1-a)*R)计算相邻两句的相似度,其中a是平衡因子;
第三计算单元,用于根据公式scoreText=sum[(1-Pen)*scoreSentence]/N计算所述第二检测文本的相似度均值,其中Pen是惩罚因子,N是所述第二检测文本的句子总数。
10.根据权利要求6至9任意一项所述的文本连贯性检测装置,其特征在于,所述表明文本非连贯的单词包括非重复性代词、表明递进的关联词、表明承接关系的关联词以及表明转折关系的关联词;
所述第三判定单元具体用于从所述至少两个第二检测文本中选取一个所述第二检测文本,其中所选取的第二检测文本的相似度均值大于其他所述第二检测文本的相似度均值;将所述所选取的第二检测文本作为连贯性文本,将其他所述第二检测文本作为不连贯性文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310160661.6A CN103294663B (zh) | 2013-05-03 | 2013-05-03 | 一种文本连贯性检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310160661.6A CN103294663B (zh) | 2013-05-03 | 2013-05-03 | 一种文本连贯性检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103294663A true CN103294663A (zh) | 2013-09-11 |
CN103294663B CN103294663B (zh) | 2016-03-02 |
Family
ID=49095557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310160661.6A Active CN103294663B (zh) | 2013-05-03 | 2013-05-03 | 一种文本连贯性检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103294663B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341143A (zh) * | 2017-05-26 | 2017-11-10 | 北京奇艺世纪科技有限公司 | 一种句子连贯性判断方法及装置和电子设备 |
CN107766324A (zh) * | 2017-09-25 | 2018-03-06 | 浙江大学 | 一种基于深度神经网络的文本一致性分析方法 |
CN109492223A (zh) * | 2018-11-06 | 2019-03-19 | 北京邮电大学 | 一种基于神经网络推理的中文缺失代词补全方法 |
CN110134940A (zh) * | 2019-02-27 | 2019-08-16 | 中国科学院电工研究所 | 一种训练文本识别模型、文本连贯性的方法及装置 |
CN110162595A (zh) * | 2019-03-29 | 2019-08-23 | 深圳市腾讯计算机系统有限公司 | 用于生成文本摘要的方法、装置、设备以及可读存储介质 |
CN111428470A (zh) * | 2020-03-23 | 2020-07-17 | 北京世纪好未来教育科技有限公司 | 文本连贯性判定及其模型训练方法、电子设备及可读介质 |
CN114970491A (zh) * | 2022-08-02 | 2022-08-30 | 深圳市城市公共安全技术研究院有限公司 | 一种文本衔接性判断方法、装置、电子设备及存储介质 |
-
2013
- 2013-05-03 CN CN201310160661.6A patent/CN103294663B/zh active Active
Non-Patent Citations (5)
Title |
---|
CHRISTOPHER F. GREEN等: "The incidence and effects on coherence of marked themes in interlanguage texts: a corpus-based enquiry", 《ENGLISH FOR SPECIFIC PURPOSES》 * |
FAN XU等: "Detecting Text Similarity over Chinese Research Papers Using MapReduce", 《2011 12TH ACIS INTERNATIONAL CONFERENCE ON SOFTWARE ENGINEERING, ARTIFICIAL INTELLIGENCE, NETWORKING AND PARALLEL/DISTRIBUTED COMPUTING》 * |
刘德喜等: "基于基本要素的文摘内容连贯性评测模型", 《计算机学报》 * |
李艳翠等: "英语语篇结构分析研究综述", 《计算机应用研究》 * |
程晓堂: "从主位结构看英语作文的衔接与连贯", 《山东师大外国语学院学报》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341143A (zh) * | 2017-05-26 | 2017-11-10 | 北京奇艺世纪科技有限公司 | 一种句子连贯性判断方法及装置和电子设备 |
CN107766324A (zh) * | 2017-09-25 | 2018-03-06 | 浙江大学 | 一种基于深度神经网络的文本一致性分析方法 |
CN107766324B (zh) * | 2017-09-25 | 2020-09-01 | 浙江大学 | 一种基于深度神经网络的文本一致性分析方法 |
CN109492223B (zh) * | 2018-11-06 | 2020-08-04 | 北京邮电大学 | 一种基于神经网络推理的中文缺失代词补全方法 |
CN109492223A (zh) * | 2018-11-06 | 2019-03-19 | 北京邮电大学 | 一种基于神经网络推理的中文缺失代词补全方法 |
CN110134940A (zh) * | 2019-02-27 | 2019-08-16 | 中国科学院电工研究所 | 一种训练文本识别模型、文本连贯性的方法及装置 |
CN110134940B (zh) * | 2019-02-27 | 2023-04-07 | 中国科学院电工研究所 | 一种训练文本识别模型、文本连贯性的方法及装置 |
CN110162595A (zh) * | 2019-03-29 | 2019-08-23 | 深圳市腾讯计算机系统有限公司 | 用于生成文本摘要的方法、装置、设备以及可读存储介质 |
CN110162595B (zh) * | 2019-03-29 | 2023-08-29 | 深圳市腾讯计算机系统有限公司 | 用于生成文本摘要的方法、装置、设备以及可读存储介质 |
CN111428470A (zh) * | 2020-03-23 | 2020-07-17 | 北京世纪好未来教育科技有限公司 | 文本连贯性判定及其模型训练方法、电子设备及可读介质 |
CN111428470B (zh) * | 2020-03-23 | 2022-04-22 | 北京世纪好未来教育科技有限公司 | 文本连贯性判定及其模型训练方法、电子设备及可读介质 |
CN114970491A (zh) * | 2022-08-02 | 2022-08-30 | 深圳市城市公共安全技术研究院有限公司 | 一种文本衔接性判断方法、装置、电子设备及存储介质 |
CN114970491B (zh) * | 2022-08-02 | 2022-10-04 | 深圳市城市公共安全技术研究院有限公司 | 一种文本衔接性判断方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103294663B (zh) | 2016-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103294663B (zh) | 一种文本连贯性检测方法和装置 | |
Ghosh et al. | Analyzing argumentative discourse units in online interactions | |
Leech et al. | Word frequencies in written and spoken English: Based on the British National Corpus | |
CN105224640B (zh) | 一种提取观点的方法和设备 | |
CN104679728B (zh) | 一种文本相似度检测方法 | |
CN104881402A (zh) | 中文网络话题评论文本语义倾向分析的方法及装置 | |
Al-Kabi et al. | A prototype for a standard arabic sentiment analysis corpus. | |
Degaetano-Ortlieb et al. | An information-theoretic approach to modeling diachronic change in scientific English | |
CN104572625A (zh) | 命名实体的识别方法 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
Riedl et al. | How text segmentation algorithms gain from topic models | |
US20150161096A1 (en) | Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon | |
Ljubešić et al. | Discriminating between closely related languages on twitter | |
CN104915443A (zh) | 一种中文微博评价对象的抽取方法 | |
Vishnubhotla et al. | Tweet emotion dynamics: Emotion word usage in tweets from us and canada | |
Malandrakis et al. | SAIL: A hybrid approach to sentiment analysis | |
Ek et al. | Identifying speakers and addressees in dialogues extracted from literary fiction | |
van Cranenburgh | A Dutch coreference resolution system with an evaluation on literary fiction | |
JP6237639B2 (ja) | 情報抽出システム、情報抽出方法および情報抽出用プログラム | |
Jiménez-Zafra et al. | NEGES 2019 task: negation in Spanish | |
Alfter et al. | SB@ GU at the complex word identification 2018 shared task | |
Ziai et al. | Automatic focus annotation: Bringing formal pragmatics alive in analyzing the Information Structure of authentic data | |
Ogrodniczuk et al. | End-to-end coreference resolution baseline system for Polish | |
Suzuki et al. | Sarcasm Detection Method to Improve Review Analysis. | |
Pratama et al. | A comparison of the use of several different resources on lexicon based Indonesian sentiment analysis on app review dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |