CN113553830A

CN113553830A - 一种基于图的英语文本句子语篇连贯分析方法

Info

Publication number: CN113553830A
Application number: CN202110917003.1A
Authority: CN
Inventors: 黄桂敏; 李茂林; 唐辉; 李轶群
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-10-26
Anticipated expiration: 2041-08-11
Also published as: CN113553830B

Abstract

本发明提供一种基于图的英语文本句子语篇连贯分析方法，该分析方法是一个由顺序连接的英语文本句子实体结构图构建模块、英语文本句子语义结构图生成模块、英语文本句子频繁结构图挖掘模块与英语文本句子语篇连贯质量分析模块组成的分析模型。待分析英语文本的句子通过该分析模型处理后，最后能够得到待分析英语文本的句子语篇连贯质量值和句子语篇连贯性评语结果。本发明的方法解决了现有的英语文本句子语篇连贯分析方法，只能分析出英语文本中句子的局部语篇连贯质量，无法分析出英语文本中句子的全局语篇连贯质量，其分析结果比现有的英语文本句子语篇连贯分析方法的分析结果好。

Description

一种基于图的英语文本句子语篇连贯分析方法

技术领域

本发明涉及自然语言处理技术，是一种基于图的英语文本句子语篇连贯分析方法，本发明的分析方法只适用于分析英语文本中句子的语篇连贯质量，不适用于分析中文文本中句子的语篇连贯质量。

背景技术

在英语文本的句子语篇连贯性分析方面，现有的英语文本句子语篇连贯分析方法，只能分析出英语文本中句子的局部语篇连贯质量，无法分析出英语文本中句子的全局语篇连贯质量。因此，本发明提出了一种基于图的英语文本句子语篇连贯分析方法，来解决分析英语文本中句子全局语篇连贯质量的问题。

发明内容

本发明的一种基于图的英语文本句子语篇连贯分析方法的总体处理流程如图1所示，包括：英语文本句子实体结构图构建模块、英语文本句子语义结构图生成模块、英语文本句子频繁结构图挖掘模块与英语文本句子语篇连贯质量分析模块。

本发明的英语文本句子实体结构图构建模块的处理流程为：第一，对于输入的待分析英语文本进行分段、分句、分词和词性标注处理；第二，根据单词词性和句子中单词之间的语义依存关系构建句子的语义句法结构树；第三，识别待分析英语文本句子中实体词，通过检索句子语义句法结构树获取实体词边界，消解实体词之间的共指关系生成实体词的共指链，标注实体词在句子中的语法角色；第四，以节点方式来表示英语文本中的句子，以边方式来表示句子之间语义关系，最终生成包含句子及其之间语义关系的待分析英语文本句子实体结构图。

本发明的英语文本句子语义结构图生成模块的处理流程为：第一，读入待分析英语文本句子实体结构图，将待分析英语文本中句子以向量方式映射到向量语义空间中，并计算待分析英语文本句子语义结构图中句子之间语义相似度；第二，遍历待分析英语文本句子实体结构图中的节点，如果该节点与其他节点的语义相似度大于设定阈值，且在句子实体结构图中这两个节点之间没有边，则在这两节点之间新建一条边，如果句子实体结构图中这两节点之间有边，则计算更新边的权重值；第三，返回第二步直到待分析英语文本句子实体结构图遍历完，最后生成待分析英语文本句子语义结构图。

本发明的英语文本句子频繁结构图挖掘模块的处理流程为：第一，读入待分析英语文本句子语义结构图，以及包含三个节点和四个节点的句子子结构图并生成待分析英语文本句子子结构图集合；第二，遍历生成的待分析英语文本句子子结构图集合，在待分析英语文本句子语义结构图中，查找每个句子子结构图出现次数并累加此次数；第三，当遍历待分析英语文本中所有句子语义结构图时，如果查找到的句子子结构图出现次数大于设定次数值，则查找到的句子子结构图为句子频繁结构图，将查找到的句子子结构图及其次数保存到句子频繁结构图集合中；第四，返回第二步直到待分析英语文本句子子结构图集合遍历完，最后输出待分析英语文本的句子频繁结构图集合。

本发明的英语文本句子语篇连贯性分析模块的处理流程为：第一，读入训练英语文本集，并生成训练英语文本集的句子频繁结构图集合；第二，读入待分析英语文本的句子语义结构图和句子频繁结构图集合，统计待分析英语文本的句子频繁结构图集合中，每个句子频繁结构图在训练英语文本集的句子频繁结构图集合中出现的次数，计算得到英语文本中每个句子频繁结构图的分布概率值；第三，遍历待分析英语文本中句子语义结构图和频繁结构图集合，在待分析英语文本中句子语义结构图中，查找到句子频繁结构图同构的子结构图，并累加同构的子结构图中边的权重值，并计算句子语义结构图和句子频繁结构图同构的子结构图语义值；第四，结合句子的频繁结构图出现的次数、句子的频繁结构图分布概率值、句子语义结构图和句子频繁结构图同构的子结构图语义值，计算待分析英语文本的句子语篇连贯质量值，输出得分析英语文本的句子语篇连贯性评语。

本发明分析方法中的计算公式定义如下：

(1)英语文本句子实体结构图中句子之间边权重值计算公式

在公式(1)中，j为实体词编号，N为句子S_i和句子S_K之间的实体词总数，i和k表示句子S_i与句子S_K在英语文本中的位置，句子S_i在英语文本的句子实体结构图中表示为节点_i，句子S_k在英语文本句子实体结构图中表示为节点_k；

(2)英语文本句子语义结构图中句子之间语义相似度计算公式

在公式(2)中，j为句子S_i与句子S_k中单词的词向量的编号，N为句子S_i与句子S_k中单词的词向量的总数；

(3)英语文本句子语义结构图中句子边权重更新值计算公式

句子S_i与句子S_k之间边权重更新值

＝系数₁×句子S_i与句子S_k之间边权重值+系数₂×句子S_i与句子S_k之间语义相似度 (3)

在公式(3)中，系数₁为0.5，系数₂为0.5，句子S_i与句子S_K之间边权重值由公式(1)计算得到，句子S_i与句子S_K之间语义相似度由公式(2)计算得到；

(4)英语文本句子语义结构图中句子频繁结构图分布概率值计算公式

在公式(4)中，M为句子S_K的频繁结构图总数，句子S_K的频繁结构图_i是指句子S_K的第i个频繁结构图，句子S_K的频繁结构图_j是指句子S_K的第j个频繁结构图；

(5)英语文本句子频繁结构图中句子的子结构图语义值计算公式

在公式(5)中，r为句子S_K的语义结构图的编号，i为句子S_K的频繁结构图的编号，j为句子S_K的语义结构图_r与频繁结构图_i同构的子结构图中边的编号，Q为句子S_K中语义结构图的总数，M为句子S_K中频繁结构图的总数，P为句子S_K的语义结构图_r与频繁结构图_i同构的子结构图中边的总数；

(6)英语文本句子语篇连贯质量值计算公式

在公式(6)中，k为待分析英语文本中句子的编号，i为待分析英语文本中句子S_K中频繁结构图的编号，N为待分析英语文本中句子的总数，M为句子S_K中频繁结构图的总数，句子S_K的频繁结构图_i分布概率值由公式(4)计算得到，句子S_K的子图语义值由公式(5)计算得到。

本发明的具体处理步骤

如图2所示，英语文本句子实体结构图构建模块处理流程如下：

P201开始；

P202输入待分析英语文本；

P203对待分析英语文本进行分段、分句、分词、单词词性标注处理；

P204根据单词词性和句子中单词之间的语义依存关系构建句子的语义句法结构树；

P205识别待分析英语文本句子中实体词，通过检索句子语义句法结构树获取实体词边界；

P206消解实体词之间的共指关系生成实体词的共指链，标注实体词在句子中的语法角色；

P207生成待分析英语文本中实体词的共指链集合和实体词的语法角色集合；

P208遍历待分析英语文本中实体词的共指链集合；

P209判断当前实体词与其后面的共指实体词是否处于不同的句子中，如果是则转至P210操作，否则转至P208操作；

P210根据待分析英语文本中的句子总数，创建一个句子实体结构图，用节点表示待分析英语文本中的句子，并对其进行初始化；

P211分别在当前实体词所在节点与其他共指实体词所处的节点之间建立一条边；

P212在语法角色标注集合中查找当前实体词与共指实体词的语法角色，根据公式(1)计算句子之间边权重值，将该边添加到句子实体结构图中；

P213判断共指链中实体词集合是否遍历完，如果是则转至P214操作，否则转至P208操作；

P214判断共指链集合是否遍历完，如果是则转至P215操作，否则转至P208操作；

P215将实体结构图中具有相同起点和终点的边进行合并；

P216输出待分析英语文本的句子实体结构图；

P217结束。

如图3所示，英语文本句子语义结构图生成模块处理流程如下：

P301开始；

P302读入待分析英语文本的句子实体结构图；

P303将待分析英语文本中句子以向量方式映射到向量语义空间中；

P304利用公式(2)计算待分析英语文本句子语义结构图中句子之间语义相似度并将结果保存；

P305遍历待分析英语文本句子实体结构图中的节点；

P306如果该节点与其他节点的语义相似度大于设定阈值，且在句子实体结构图中这两个节点之间没有边，则在这两节点之间新建一条边，否则利用公式(3)计算这两个节点之间边的更新权重值；

P307判断句子实体结构图中节点集合是否遍历完；如果是则转至P308操作，否则转至P305操作；

P308生成待分析英语文本的句子语义结构图；

P309结束。

如图4所示，英语文本句子频繁结构图集挖掘模块处理流程如下：

P401开始；

P402读入待分析英语文本的句子语义结构图，三个节点和四个节点的句子子结构图,并生成待分析英语文本句子子结构图集合；

P403从待分析英语文本句子子结构图集合中读取一个句子子结构图；

P404在待分析英语文本句子语义结构图中,查找读取的句子子结构图出现次数，并累加此次数；

P405如果该句子子结构图出现次数大于设定次数值，则保存该句子子结构图及其次数保存到句子频繁结构图集合中，否则转至P406操作；

P406判断待分析英语文本句子子结构图集合中句子子结构图是否读取完，如果是则转P407操作，否则转P403操作；

P407输出待分析英语文本的句子频繁结构图集合；

P408结束。

如图5所示，英语文本句子语篇连贯性分析模块处理流程如下：

P501开始；

P502读入训练英语文本集，并生成训练英语文本集的句子频繁结构图集合；

P503读入待分析英语文本的句子频繁结构图集合；

P504统计待分析英语文本的句子频繁结构图集合中，每个句子频繁结构图在训练英语文本集的句子频繁结构图集合中出现的次数；

P505利用公式(4)计算得到英语文本中每个句子频繁结构图的分布概率值；

P506读入待分析英语文本的句子语义结构图，并统计句子语义结构图中句子的总数；P507从待分析英语文本的句子频繁结构图集合中读取一个句子频繁结构图；

P508在待分析英语文本的句子语义结构图中，查找该句子频繁结构图同构的子结构图，并累加同构的子结构图中边的权重值；

P509利用公式(5)计算句子语义结构图和句子频繁结构图同构的子结构图语义值；

P510判断待分析英语文本的句子频繁结构图集合是否读取完；如果是则转至P511操作，否则转至P507操作；

P511利用公式(6)计算待分析英语文本句子语篇连贯质量值；

P512输出待分析英语文本句子语篇连贯质量值和句子语篇连贯性评语结果；

P513结束。

本发明基于图的英语文本句子语篇连贯分析方法，待分析英语文本的句子通过该分析方法处理后，最后能够得到待分析英语文本的句子语篇连贯质量值和句子语篇连贯性评语结果。本发明的方法解决了现有的英语文本句子语篇连贯分析方法，只能分析出英语文本中句子的局部语篇连贯质量，无法分析出英语文本中句子的全局语篇连贯质量，其分析结果比现有的英语文本句子语篇连贯分析方法的分析结果好。

附图说明

图1是本发明的总体处理流程图；

图2是本发明的英语文本句子实体结构图构建模块处理流程图；

图3是本发明的英语文本句子语义结构图生成模块处理流程图；

图4是本发明的英语文本句子频繁结构图挖掘模块处理流程图；

图5是本发明的英语文本句子语篇连贯性分析模块处理流程图。

具体实施方式

下面结合实施例和附图对本发明内容作进一步的说明，但不是对本发明的限定。

实施例

本发明实施例中的待分析英语文本取自于学生英语六级作文，作文题目为“Is itnecessary to make a law to prohibit smoking in restaurants”。基于该英语文本句子语篇连贯分析方法，包括如下步骤：

第一步骤：执行“英语文本句子实体结构图构建模块”

(1)输入的待分析英语文本如下所示：

Recently,some people appeal the government to make a new law to banpeople smoking in restaurants.More and more people are beginning to talkabout this matter.Everyone has different opinions on whether it is necessaryto completely ban smoking in restaurants.

In my opinion,smoking should be completely banned at all therestaurants.On one hand,as we all known,smoking is bad for our health,nomatter we are smoker or people who don't smoke but breathe the smoke in theair.The harmful things in cigarette are not only do harm to our lungs butalso our brains.To keep our body more health,we should not smoke.On the otherhand,restaurants are public places,a large number of people eat meat in thereevery day.For us who extremely don't like smell the flavor of smoking,it is aloathed thing that smells the smoke.And it is harmful to our health,especially to the children.What's more,a survey shows that if people smokewhen they are eating the bad effect will enormously than other times.So weshould forbid smoking at all the restaurants.Since that case,I believe thatit is a good thing to ban smoking at the restaurants in the country.Becausenot only us dislike smoking but also the smokers will benefit a lot fromit.And it can also help those people who want to give up smoking to keep awayfrom the cigarette.

(2)对待分析英语文本进行词性标注后的结果如下所示：

Recently/RB,/,some/DT people/NNS appeal/VBP the/DT government/NN to/TO make/VB a/DT new/JJ law/NN to/TO ban/VB people/NNS smoking/VBG in/INrestaurants/NNS./.More/RBR and/CC more/RBR people/NNS are/VBP beginning/VBGto/TO talk/VB about/IN this/DT matter/NN./.Everyone/NN has/VBZ different/JJopinions/NNS on/IN whether/IN it/PRP is/VBZ necessary/JJ to/TO completely/RB ban/VB smoking/NN in/IN restaurants/NNS./.

In/IN my/PRP$opinion/NN,/,smoking/NN should/MD be/VB completely/RBbanned/VBN at/IN all/PDT the/DT restaurants/NNS./.On/IN one/CD hand/NN,/,as/IN we/PRP all/RB known/VBN,/,smoking/NN is/VBZ bad/JJ for/IN our/PRP$health/NN,/,no/RB matter/RB we/PRP are/VBP smoker/NN or/CC people/NNS who/WP do/VBPn't/RB smoke/VB but/CC breathe/VB the/DT smoke/NN in/IN the/DT air/NN./.The/DT harmful/JJ things/NNS in/IN cigarette/NN are/VBP not/RB only/RB do/VBharm/NN to/IN our/PRP$lungs/NNS but/CC also/RB our/PRP$brains/NNS./.To/TOkeep/VB our/PRP$body/NN more/JJR health/NN,/,we/PRP should/MD not/RB smoke/VB./.On/IN the/DT other/JJ hand/NN,/,restaurants/NNS are/VBP public/JJplaces/NNS,/,a/DT large/JJ number/NN of/IN people/NNS eat/VBP meat/NN in/INthere/RB every/DT day/NN./.For/IN us/PRP who/WP extremely/RB do/VBP n't/RBlike/VB smell/VB the/DT flavor/NN of/IN smoking/NN,/,it/PRP is/VBZ a/DTloathed/JJ thing/NN that/WDT smells/VBZ the/DT smoke/NN./.And/CC it/PRP is/VBZ harmful/JJ to/IN our/PRP$health/NN,/,especially/RB to/IN the/DT children/NNS./.What/WP's/VBZ more/JJR,/,a/DT survey/NN shows/VBZ that/IN if/IN people/NNS smoke/VBP when/WRB they/PRP are/VBP eating/VBG the/DT bad/JJ effect/NNwill/MD enormously/VB than/IN other/JJ times/NNS./.So/RB we/PRP should/MDforbid/VB smoking/NN at/IN all/PDT the/DT restaurants/NNS./.Since/IN that/DTcase/NN,/,I/PRP believe/VBP that/IN it/PRP is/VBZ a/DT good/JJ thing/NN to/TOban/VB smoking/NN at/IN the/DT restaurants/NNS in/IN the/DT country/NN./.Because/IN not/RB only/RB us/PRP dislike/VBP smoking/NN but/CC also/RB the/DT smokers/NNS will/MD benefit/VB a/DT lot/NN from/IN it/PRP./.And/CC it/PRPcan/MD also/RB help/VB those/DT people/NNS who/WP want/VBP to/TO give/VB up/RP smoking/NN to/TO keep/VB away/RP from/IN the/DT cigarette/NN./.

(3)对待分析英语文本进行词性标注后，对句子语义依存关系识别结果如下所示：

advmod(appeal-5,Recently-1)det(people-4,some-3)nsubj(appeal-5,people-4)root(ROOT-0,appeal-5)det(government-7,the-6)obj(appeal-5,government-7)mark(make-9,to-8)advcl(appeal-5,make-9)det(law-12,a-10)amod(law-12,new-11)obj(make-9,law-12)mark(ban-14,to-13)advcl(make-9,ban-14)obj(ban-14,people-15)acl(people-15,smoking-16)case(restaurants-18,in-17)obl(smoking-16,restaurants-18)

advmod(beginning-6,More-1)cc(more-3,and-2)conj(More-1,more-3)nsubj(beginning-6,people-4)aux(beginning-6,are-5)root(ROOT-0,beginning-6)mark(talk-8,to-7)xcomp(beginning-6,talk-8)case(matter-11,about-9)det(matter-11,this-10)obl(talk-8,matter-11)

nsubj(has-2,Everyone-1)root(ROOT-0,has-2)amod(opinions-4,different-3)obj(has-2,opinions-4)mark(necessary-9,on-5)mark(necessary-9,whether-6)nsubj(necessary-9,it-7)cop(necessary-9,is-8)acl(opinions-4,necessary-9)mark(ban-12,to-10)advmod(ban-12,completely-11)xcomp(necessary-9,ban-12)obj(ban-12,smoking-13)case(restaurants-15,in-14)obl(ban-12,restaurants-15)

case(opinion-3,In-1)nmod:poss(opinion-3,my-2)obl(banned-9,opinion-3)nsubj:pass(banned-9,smoking-5)aux(banned-9,should-6)aux:pass(banned-9,be-7)advmod(banned-9,completely-8)root(ROOT-0,banned-9)case(restaurants-13,at-10)det:predet(restaurants-13,all-11)det(restaurants-13,the-12)obl(banned-9,restaurants-13)

case(hand-3,On-1)nummod(hand-3,one-2)obl(smoker-21,hand-3)mark(bad-12,as-5)nsubj(known-8,we-6)advmod(known-8,all-7)parataxis(bad-12,known-8)nsubj(bad-12,smoking-10)cop(bad-12,is-11)advcl(smoker-21,bad-12)case(health-15,for-13)nmod:poss(health-15,our-14)obl(bad-12,health-15)advmod(matter-18,no-17)advmod(smoker-21,matter-18)nsubj(smoker-21,we-19)cop(smoker-21,are-20)root(ROOT-0,smoker-21)cc(people-23,or-22)conj(smoker-21,people-23)nsubj(smoke-27,who-24)aux(smoke-27,do-25)advmod(smoke-27,n't-26)acl:relcl(smoker-21,smoke-27)cc(breathe-29,but-28)conj(smoke-27,breathe-29)det(smoke-31,the-30)obj(smoke-27,smoke-31)case(air-34,in-32)det(air-34,the-33)obl(smoke-27,air-34)

det(things-3,The-1)amod(things-3,harmful-2)nsubj(do-9,things-3)case(cigarette-5,in-4)nmod(things-3,cigarette-5)cop(do-9,are-6)advmod(only-8,not-7)cc:preconj(do-9,only-8)root(ROOT-0,do-9)obj(do-9,harm-10)case(lungs-13,to-11)nmod:poss(lungs-13,our-12)obl(do-9,lungs-13)cc(brains-17,but-14)advmod(brains-17,also-15)nmod:poss(brains-17,our-16)conj(do-9,brains-17)

mark(keep-2,To-1)advcl(smoke-11,keep-2)nmod:poss(body-4,our-3)dep(keep-2,body-4)amod(health-6,more-5)obj(keep-2,health-6)nsubj(smoke-11,we-8)aux(smoke-11,should-9)advmod(smoke-11,not-10)root(ROOT-0,smoke-11)

case(hand-4,On-1)det(hand-4,the-2)amod(hand-4,other-3)obl(eat-16,hand-4)nsubj(places-9,restaurants-6)cop(places-9,are-7)amod(places-9,public-8)parataxis(eat-16,places-9)det(number-13,a-11)amod(number-13,large-12)nsubj(eat-16,number-13)case(people-15,of-14)nmod(number-13,people-15)root(ROOT-0,eat-16)obj(eat-16,meat-17)case(hand-4,in-18)advmod(day-21,there-19)det(day-21,every-20)obl:tmod(eat-16,day-21)

case(us-2,For-1)obl(thing-18,us-2)nsubj(like-7,who-3)advmod(like-7,extremely-4)aux(like-7,do-5)advmod(like-7,n't-6)acl:relcl(us-2,like-7)ccomp(like-7,smell-8)det(flavor-10,the-9)obj(smell-8,flavor-10)case(smoking-12,of-11)nmod(flavor-10,smoking-12)nsubj(thing-18,it-14)cop(thing-18,is-15)det(thing-18,a-16)amod(thing-18,loathed-17)root(ROOT-0,thing-18)nsubj(smells-20,that-19)acl:relcl(thing-18,smells-20)det(smoke-22,the-21)obj(smells-20,smoke-22)

cc(harmful-4,And-1)nsubj(harmful-4,it-2)cop(harmful-4,is-3)root(ROOT-0,harmful-4)case(health-7,to-5)nmod:poss(health-7,our-6)advcl(harmful-4,health-7)dep(health-7,especially-9)case(children-12,to-10)det(children-12,the-11)obl(health-7,children-12)

nsubj(more-3,What-1)cop(more-3,'s-2)advcl(shows-7,more-3)det(survey-6,a-5)nsubj(shows-7,survey-6)root(ROOT-0,shows-7)mark(enormously-20,that-8)mark(smoke-11,if-9)nsubj(smoke-11,people-10)csubj(enormously-20,smoke-11)advmod(eating-15,when-12)nsubj(eating-15,they-13)aux(eating-15,are-14)advcl(smoke-11,eating-15)det(effect-18,the-16)amod(effect-18,bad-17)obj(eating-15,effect-18)aux(enormously-20,will-19)ccomp(shows-7,enormously-20)case(times-23,than-21)amod(times-23,other-22)obl(enormously-20,times-23)

advmod(forbid-4,So-1)nsubj(forbid-4,we-2)aux(forbid-4,should-3)root(ROOT-0,forbid-4)obj(forbid-4,smoking-5)case(restaurants-9,at-6)det:predet(restaurants-9,all-7)det(restaurants-9,the-8)obl(forbid-4,restaurants-9)

case(case-3,Since-1)det(case-3,that-2)obl(believe-6,case-3)nsubj(believe-6,I-5)root(ROOT-0,believe-6)mark(thing-12,that-7)nsubj(thing-12,it-8)cop(thing-12,is-9)det(thing-12,a-10)amod(thing-12,good-11)ccomp(believe-6,thing-12)mark(ban-14,to-13)acl(thing-12,ban-14)obj(ban-14,smoking-15)case(restaurants-18,at-16)det(restaurants-18,the-17)obl(ban-14,restaurants-18)case(country-21,in-19)det(country-21,the-20)nmod(restaurants-18,country-21)

mark(not-2,Because-1)advcl(dislike-5,not-2)advmod(dislike-5,only-3)nsubj(dislike-5,us-4)root(ROOT-0,dislike-5)obj(dislike-5,smoking-6)cc(benefit-12,but-7)advmod(benefit-12,also-8)det(smokers-10,the-9)nsubj(benefit-12,smokers-10)aux(benefit-12,will-11)conj(dislike-5,benefit-12)det(lot-14,a-13)obj(benefit-12,lot-14)case(it-16,from-15)obl(benefit-12,it-16)

cc(help-5,And-1)nsubj(help-5,it-2)aux(help-5,can-3)advmod(help-5,also-4)root(ROOT-0,help-5)det(people-7,those-6)obj(help-5,people-7)nsubj(want-9,who-8)acl:relcl(people-7,want-9)mark(give-11,to-10)xcomp(want-9,give-11)compound:prt(give-11,up-12)obj(give-11,smoking-13)mark(keep-15,to-14)advcl(give-11,keep-15)compound:prt(keep-15,away-16)case(cigarette-19,from-17)det(cigarette-19,the-18)obl(keep-15,cigarette-19)

(4)对英语文本进行句法结构分析处理后，生成的句子语义句法结构树如下所示：

(ROOT(S(ADVP(RB Recently))(,,)(NP(DT some)(NNS people))(VP(VBPappeal)(NP(DT the)(NN government))(S(VP(TO to)(VP(VB make)(NP(DT a)(JJ new)(NN law))(S(VP(TO to)(VP(VB ban)(NP(NP(NNS people))(VP(VBG smoking)(PP(IN in)(NP(NNS restaurants))))))))))))(..)))(ROOT(S(ADVP(RBR More)(CC and)(RBRmore))(NP(NNS people))(VP(VBP are)(VP(VBG beginning)(S(VP(TO to)(VP(VB talk)(PP(IN about)(NP(DT this)(NN matter))))))))(..)))(ROOT(S(NP(NN Everyone))(VP(VBZ has)(NP(NP(JJ different)(NNS opinions))(PP(IN on)(SBAR(IN whether)(S(NP(PRP it)(VP(VBZ is)(ADJP(JJ necessary)(S(VP(TO to)(ADVP(RB completely))(VP(VBban)(NP(NN smoking))(PP(IN in)(NP(NNS restaurants)))))))))))))(..)))

(ROOT(S(PP(IN In)(NP(PRP$my)(NN opinion)))(,,)(NP(NN smoking))(VP(MDshould)(VP(VB be)(ADVP(RB completely))(VP(VBN banned)(PP(IN at)(NP(PDT all)(DT the)(NNS restaurants))))))(..)))(ROOT(S(PP(IN On)(NP(CD one)(NN hand)))(,,)(SBAR(IN as)(S(PRN(S(NP(PRP we))(RB all)(VP(VBN known))))(,,)(NP(NNsmoking))(VP(VBZ is)(ADJP(JJ bad)(PP(IN for)(NP(PRP$our)(NN health)))))))(,,)(ADVP(RB no)(RB matter))(NP(PRP we))(VP(VBP are)(NP(NP(NN smoker)(CC or)(NNSpeople))(SBAR(WHNP(WP who))(S(VP(VBP do)(RB n't)(VP(VB smoke)(CC but)(VBbreathe)(NP(DT the)(NN smoke))(PP(IN in)(NP(DT the)(NN air)))))))))(..)))(ROOT(S(NP(NP(DT The)(JJ harmful)(NNS things))(PP(IN in)(NP(NN cigarette))))(VP(VBP are)(NP(CONJP(RB not)(RB only))(S(VP(VB do)(NP(NN harm))(PP(IN to)(NP(PRP$our)(NNS lungs)))))(CONJP(CC but)(RB also))(NP(PRP$our)(NNS brains))))(..)))(ROOT(S(S(VP(TO To)(VP(VB keep)(NP(PRP$our)(NN body))(NP(JJR more)(NNhealth)))))(,,)(NP(PRP we))(VP(MD should)(RB not)(VP(VB smoke)))(..)))(ROOT(S(PP(IN On)(NP(DT the)(JJ other)(NN hand)))(PRN(,,)(S(NP(NNS restaurants))(VP(VBP are)(NP(JJ public)(NNS places))))(,,))(NP(NP(DT a)(JJ large)(NN number))(PP(IN of)(NP(NNS people))))(VP(VBP eat)(NP(NN meat))(PP(IN in))(NP(ADVP(RBthere))(DT every)(NN day)))(..)))(ROOT(S(PP(IN For)(NP(NP(PRP us))(SBAR(WHNP(WP who))(S(ADVP(RB extremely))(VP(VBP do)(RB n't)(VP(VB like)(S(VP(VB smell)(NP(NP(DT the)(NN flavor))(PP(IN of)(NP(NN smoking))))))))))))(,,)(NP(PRPit))(VP(VBZ is)(NP(NP(DT a)(JJ loathed)(NN thing))(SBAR(WHNP(WDT that))(S(VP(VBZ smells)(NP(DT the)(NN smoke)))))))(..)))(ROOT(S(CC And)(NP(PRP it))(VP(VBZ is)(ADJP(JJ harmful)(PP(PP(IN to)(NP(PRP$our)(NN health)))(,,)(RBespecially)(PP(IN to)(NP(DT the)(NNS children))))))(..)))(ROOT(S(SBAR(WHNP(WPWhat))(S(VP(VBZ's)(ADJP(JJR more)))))(,,)(NP(DT a)(NN survey))(VP(VBZ shows)(SBAR(IN that)(S(SBAR(IN if)(S(NP(NNS people))(VP(VBP smoke)(SBAR(WHADVP(WRBwhen))(S(NP(PRP they))(VP(VBP are)(VP(VBG eating)(NP(DT the)(JJ bad)(NNeffect)))))))))(VP(MD will)(VP(VB enormously)(PP(IN than)(NP(JJ other)(NNStimes))))))))(..)))(ROOT(S(ADVP(RB So))(NP(PRP we))(VP(MD should)(VP(VBforbid)(NP(NN smoking))(PP(IN at)(NP(PDT all)(DT the)(NNS restaurants)))))(..)))(ROOT(S(PP(IN Since)(NP(DT that)(NN case)))(,,)(NP(PRP I))(VP(VBPbelieve)(SBAR(IN that)(S(NP(PRP it))(VP(VBZ is)(NP(DT a)(JJ good)(NN thing)(S(VP(TO to)(VP(VB ban)(NP(NN smoking))(PP(IN at)(NP(NP(DTthe)(NNSrestaurants))(PP(IN in)(NP(DT the)(NN country)))))))))))))(..)))(ROOT(S(S(SBAR(IN Because)(FRAG(RB not)))(ADVP(RB only))(NP(PRP us))(VP(VBP dislike)(NP(NN smoking))))(CC but)(S(ADVP(RB also))(NP(DT the)(NNS smokers))(VP(MDwill)(VP(VB benefit)(NP(DT a)(NN lot))(PP(IN from)(NP(PRP it))))))(..)))(ROOT(S(CC And)(NP(PRP it))(VP(MD can)(ADVP(RB also))(VP(VB help)(NP(NP(DT those)(NNS people))(SBAR(WHNP(WP who))(S(VP(VBP want)(S(VP(TO to)(VP(VB give)(PRT(RP up))(NP(NN smoking))(S(VP(TO to)(VP(VB keep)(PRT(RP away))(PP(IN from)(NP(DT the)(NN cigarette)))))))))))))))(..)))

(5)对待分析英语文本中实体词的语法角色标注结果如下所示：

[some people]/S，[the government]/O，[a new law]/O,[people]/X，[restaurants]/X,[More and more people]/S，[this matter]/X，[Everyone]/S,[different opinions]/O,[it]/S,[smoking]/X,[restaurants]/X

[my opinion]/X,[smoking]/S,[the restaurants]/X,[one hand]/X,[we]/S,[smoking]/S,[our health]/X,[we]/S,[smoker or people]/O,[the smoke]/X,[theair]/X,[The harmful things]/S,[cigarette]/X,[our lungs]/X,[our brains]/X,[ourbody more health]/X,[we]/S,[the other hand]/X,[restaurants]/S,[publicplaces]/O,[a large number of people]/S,[meat]/O,[every day]/X,[us]/S,[smoking]/O,[it]/S,[a loathed thing]/S,[the smoke]/O,[it]/S,[our health]/X,[children]/X,[a survey]/S,[people]/X,[they]/S,[the bad effect]/O,[we]/S,[smoking]/O,[all the restaurants]/X,[case]/X,[I]/S,[it]/S,[a good thing]/X,[smoking]/O,[the restaurants]/X,[the country]/X,[us]/S,[smoking]/O,[thesmokers]/S,[it]/X,[it]/S,[those people]/O,[smoking]/X,[the cigarette]/X.

(6)构建的待分析英语文本句子实体结构结果如下所示：

①待分析英语文本第一段落句子实体结构结果如下所示：

0-(0.74)->1，0-(0.31)->2

②待分析英语文本第二段落句子实体结构结果如下所示：

0-(0.51)->1，1-(0.38)->3，1-(0.31)->5，1-(0.18)->8，3-(0.37)->5，3-(0.15)->8，5-(0.74)->6，5-(0.36)->8，5-(0.27)->9，5-(0.25)->10，6-(0.25)->9，6-(0.15)->11，8-(0.38)->9，8-(0.55)->10，9-(0.49)->10，9-(0.37)->11，10-(0.14)->11

第二步骤：执行“英语文本句子语义结构图生成模块”

(1)生成的待分析英语文本句子语义结构结果如下所示：

①待分析英语文本第一段落句子语义结构结果如下所示：

0-(0.74)->1，0-(0.31)->2.

②待分析英语文本第二段落句子语义结构结果如下所示：

第三步骤：执行“英语文本句子频繁结构图挖掘模块”

(1)挖掘出的待分析英语文本句子频繁结构结果如下所示：

Sg1：S1->S2，S1->S3；Sg2：S1->S2，S2->S3；Sg3：S1->S3，S2->S3；Sg4：S1->S2，S1->S3，S2->S3；Sg5：S1->S2，S1->S3，S1->S4，S2->S3，S2->S4，S3->S4；Sg6：S1->S2，S1->S3，S1->S4，S2->S3，S2->S4；Sg7：S1->S2，S1->S3，S1->S4，S2->S3，S3->S4；Sg8：S1->S2，S1->S3，S2->S3，S2->S4，S3->S4；Sg9：S1->S2，S1->S4，S2->S3，S2->S4，S3->S4；Sg10：S1->S3，S2->S3，S2->S4，S3->S4；Sg11：S1->S2，S2->S3，S2->S4，S3->S4；Sg12：S1->S4，S2->S3，S2->S4，S3->S4；Sg13：S1->S2，S1->S3，S2->S3，S2->S4；Sg14：S1->S2，S1->S4，S2->S3，S2->S4；Sg15：S1->S2，S1->S3，S2->S3，S3->S4；Sg16：S1->S3，S1->S4，S2->S3，S3->S4；Sg17：S1->S2，S1->S4，S2->S4，S3->S4；Sg18：S1->S3，S1->S4，S2->S4，S3->S4；Sg19：S1->S2，S1->S3，S1->S4，S3->S4；Sg20：S1->S2，S1->S3，S1->S4，S2->S4；Sg21：S1->S2，S1->S3，S1->S4，S2->S3；Sg22：S1->S2，S1->S3，S3->S4；Sg23：S1->S3，S1->S4，S3->S4；Sg24：S1->S2，S1->S4，S3->S4；Sg25：S1->S3，S1->S4，S2->S3；Sg26：S1->S2，S1->S4，S2->S3；Sg27：S1->S4，S2->S3，S2->S4；Sg28：S1->S3，S2->S3，S2->S4；Sg29：S1->S2，S2->S3，S2->S4；Sg30：S1->S2，S2->S3，S3->S4

第四步骤：执行“英语文本句子语篇连贯性分析模块”

(1)待分析英语文本的句子语篇连贯质量值和句子语篇连贯性评语如下：

待分析英语文本的句子语篇连贯质量值为：0.7271。

待分析英语文本的句子语篇连贯性评语为：待分析英语文本整体过渡较为自然流畅，句间语义联系较为紧密，连贯性较好。

Claims

1.一种基于图的英语文本句子语篇连贯分析方法，其特征是：包括一个由顺序连接的英语文本句子实体结构图构建模块、英语文本句子语义结构图生成模块、英语文本句子频繁结构图挖掘模块与英语文本句子语篇连贯质量分析模块组成的分析模型，其分析方法包括如下步骤：

(1)英语文本句子实体结构图构建模块的处理流程为：

第一，对于输入的待分析英语文本进行分段、分句、分词和词性标注处理；

第二，根据单词词性和句子中单词之间的语义依存关系构建句子的语义句法结构树；

第三，识别待分析英语文本句子中实体词，通过检索句子语义句法结构树获取实体词边界，消解实体词之间的共指关系生成实体词的共指链，标注实体词在句子中的语法角色；

第四，以节点方式来表示英语文本中的句子，以边方式来表示句子之间语义关系，最终生成包含句子及其之间语义关系的待分析英语文本句子实体结构图；

(2)英语文本句子语义结构图生成模块的处理流程为：

第一，读入待分析英语文本句子实体结构图，将待分析英语文本中句子以向量方式映射到向量语义空间中，并计算待分析英语文本句子语义结构图中句子之间语义相似度；

第二，遍历待分析英语文本句子实体结构图中的节点，如果该节点与其他节点的语义相似度大于设定阈值，且在句子实体结构图中这两个节点之间没有边，则在这两节点之间新建一条边，如果句子实体结构图中这两节点之间有边，则计算更新边的权重值；

第三，返回第二步直到待分析英语文本句子实体结构图遍历完，最后生成待分析英语文本句子语义结构图；

(3)英语文本句子频繁结构图挖掘模块的处理流程为：

第一，读入待分析英语文本句子语义结构图，以及包含三个节点和四个节点的句子子结构图并生成待分析英语文本句子子结构图集合；

第二，遍历生成的待分析英语文本句子子结构图集合，在待分析英语文本句子语义结构图中，查找每个句子子结构图出现次数并累加此次数；

第三，当遍历待分析英语文本中所有句子语义结构图时，如果查找到的句子子结构图出现次数大于设定次数值，则查找到的句子子结构图为句子频繁结构图，将查找到的句子子结构图及其次数保存到句子频繁结构图集合中；

第四，返回第二步直到待分析英语文本句子子结构图集合遍历完，最后输出待分析英语文本的句子频繁结构图集合；

(4)英语文本句子语篇连贯性分析模块的处理流程为：

第一，读入训练英语文本集，并生成训练英语文本集的句子频繁结构图集合；

第二，读入待分析英语文本的句子语义结构图和句子频繁结构图集合，统计待分析英语文本的句子频繁结构图集合中，每个句子频繁结构图在训练英语文本集的句子频繁结构图集合中出现的次数，计算得到英语文本中每个句子频繁结构图的分布概率值；

第三，遍历待分析英语文本中句子语义结构图和频繁结构图集合，在待分析英语文本中句子语义结构图中，查找到句子频繁结构图同构的子结构图，并累加同构的子结构图中边的权重值，并计算句子语义结构图和句子频繁结构图同构的子结构图语义值；

第四，结合句子的频繁结构图出现的次数、句子的频繁结构图分布概率值、句子语义结构图和句子频繁结构图同构的子结构图语义值，计算待分析英语文本的句子语篇连贯质量值，输出得分析英语文本的句子语篇连贯性评语。

2.根据权利要求1所述的的分析方法，其特征是：所述英语文本句子实体结构图构建模块的计算公式定义如下：

(1)英语文本句子实体结构图中句子之间边权重值计算公式

在公式(1)中，j为实体词编号，N为句子S_i和句子S_K之间的实体词总数，i和k表示句子S_i与句子S_K在英语文本中的位置，句子S_i在英语文本的句子实体结构图中表示为节点_i，句子S_k在英语文本句子实体结构图中表示为节点_k。

3.根据权利要求2所述的分析方法，其特征是：所述的英语文本句子实体结构图构建模块处理流程如下：

P201开始；

P202输入待分析英语文本；

P208遍历待分析英语文本中实体词的共指链集合；

P215将实体结构图中具有相同起点和终点的边进行合并；

P216输出待分析英语文本的句子实体结构图；

P217结束。

4.根据权利要求1所述的分析方法，其特征是：所述英语文本句子语义结构图生成模块的计算公式定义如下：

(1)英语文本句子语义结构图中句子之间语义相似度计算公式

(2)英语文本句子语义结构图中句子边权重更新值计算公式

句子S_i与句子S_k之间边权重更新值

在公式(3)中，系数₁为0.5，系数₂为0.5，句子S_i与句子S_K之间边权重值由公式(1)计算得到，句子S_i与句子S_K之间语义相似度由公式(2)计算得到。

5.根据权利要求4所述的分析方法，其特征是：所述的英语文本句子语义结构图生成模块处理流程如下：

P301开始；

P302读入待分析英语文本的句子实体结构图；

P305遍历待分析英语文本句子实体结构图中的节点；

P308生成待分析英语文本的句子语义结构图；

P309结束。

6.根据权利要求1所述的分析方法，其特征是：所述的英语文本句子频繁结构图集挖掘模块处理流程如下：

P401开始；

P407输出待分析英语文本的句子频繁结构图集合；

P408结束。

7.根据权利要求1所述的的分析方法，其特征是：所述英语文本句子语篇连贯性分析模块的计算公式定义如下：

(1)英语文本句子语义结构图中句子频繁结构图分布概率值计算公式

(2)英语文本句子频繁结构图中句子的子结构图语义值计算公式

(3)英语文本句子语篇连贯质量值计算公式

8.根据权利要求7所述的分析方法，其特征是：所述的英语文本句子语篇连贯性分析模块处理流程如下：

P501开始；

P503读入待分析英语文本的句子频繁结构图集合；

P506读入待分析英语文本的句子语义结构图，并统计句子语义结构图中句子的总数；

P507从待分析英语文本的句子频繁结构图集合中读取一个句子频繁结构图；

P511利用公式(6)计算待分析英语文本句子语篇连贯质量值；

P513结束。