CN113553830A - 一种基于图的英语文本句子语篇连贯分析方法 - Google Patents
一种基于图的英语文本句子语篇连贯分析方法 Download PDFInfo
- Publication number
- CN113553830A CN113553830A CN202110917003.1A CN202110917003A CN113553830A CN 113553830 A CN113553830 A CN 113553830A CN 202110917003 A CN202110917003 A CN 202110917003A CN 113553830 A CN113553830 A CN 113553830A
- Authority
- CN
- China
- Prior art keywords
- sentence
- english text
- analyzed
- semantic
- structure chart
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 36
- 230000001427 coherent effect Effects 0.000 title description 2
- 238000005065 mining Methods 0.000 claims abstract description 9
- 238000010276 construction Methods 0.000 claims abstract description 3
- 238000010586 diagram Methods 0.000 claims description 122
- 238000012545 processing Methods 0.000 claims description 20
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 239000007787 solid Substances 0.000 claims description 4
- 238000000034 method Methods 0.000 abstract description 10
- 230000000391 smoking effect Effects 0.000 description 35
- 239000000779 smoke Substances 0.000 description 17
- 235000019504 cigarettes Nutrition 0.000 description 8
- 230000035943 smell Effects 0.000 description 6
- 210000004556 brain Anatomy 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 210000004072 lung Anatomy 0.000 description 4
- 235000013372 meat Nutrition 0.000 description 4
- 239000000796 flavoring agent Substances 0.000 description 3
- 235000019634 flavors Nutrition 0.000 description 3
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 3
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 2
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 101150047304 TMOD1 gene Proteins 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于图的英语文本句子语篇连贯分析方法,该分析方法是一个由顺序连接的英语文本句子实体结构图构建模块、英语文本句子语义结构图生成模块、英语文本句子频繁结构图挖掘模块与英语文本句子语篇连贯质量分析模块组成的分析模型。待分析英语文本的句子通过该分析模型处理后,最后能够得到待分析英语文本的句子语篇连贯质量值和句子语篇连贯性评语结果。本发明的方法解决了现有的英语文本句子语篇连贯分析方法,只能分析出英语文本中句子的局部语篇连贯质量,无法分析出英语文本中句子的全局语篇连贯质量,其分析结果比现有的英语文本句子语篇连贯分析方法的分析结果好。
Description
技术领域
本发明涉及自然语言处理技术,是一种基于图的英语文本句子语篇连贯分析方法,本发明的分析方法只适用于分析英语文本中句子的语篇连贯质量,不适用于分析中文文本中句子的语篇连贯质量。
背景技术
在英语文本的句子语篇连贯性分析方面,现有的英语文本句子语篇连贯分析方法,只能分析出英语文本中句子的局部语篇连贯质量,无法分析出英语文本中句子的全局语篇连贯质量。因此,本发明提出了一种基于图的英语文本句子语篇连贯分析方法,来解决分析英语文本中句子全局语篇连贯质量的问题。
发明内容
本发明的一种基于图的英语文本句子语篇连贯分析方法的总体处理流程如图1所示,包括:英语文本句子实体结构图构建模块、英语文本句子语义结构图生成模块、英语文本句子频繁结构图挖掘模块与英语文本句子语篇连贯质量分析模块。
本发明的英语文本句子实体结构图构建模块的处理流程为:第一,对于输入的待分析英语文本进行分段、分句、分词和词性标注处理;第二,根据单词词性和句子中单词之间的语义依存关系构建句子的语义句法结构树;第三,识别待分析英语文本句子中实体词,通过检索句子语义句法结构树获取实体词边界,消解实体词之间的共指关系生成实体词的共指链,标注实体词在句子中的语法角色;第四,以节点方式来表示英语文本中的句子,以边方式来表示句子之间语义关系,最终生成包含句子及其之间语义关系的待分析英语文本句子实体结构图。
本发明的英语文本句子语义结构图生成模块的处理流程为:第一,读入待分析英语文本句子实体结构图,将待分析英语文本中句子以向量方式映射到向量语义空间中,并计算待分析英语文本句子语义结构图中句子之间语义相似度;第二,遍历待分析英语文本句子实体结构图中的节点,如果该节点与其他节点的语义相似度大于设定阈值,且在句子实体结构图中这两个节点之间没有边,则在这两节点之间新建一条边,如果句子实体结构图中这两节点之间有边,则计算更新边的权重值;第三,返回第二步直到待分析英语文本句子实体结构图遍历完,最后生成待分析英语文本句子语义结构图。
本发明的英语文本句子频繁结构图挖掘模块的处理流程为:第一,读入待分析英语文本句子语义结构图,以及包含三个节点和四个节点的句子子结构图并生成待分析英语文本句子子结构图集合;第二,遍历生成的待分析英语文本句子子结构图集合,在待分析英语文本句子语义结构图中,查找每个句子子结构图出现次数并累加此次数;第三,当遍历待分析英语文本中所有句子语义结构图时,如果查找到的句子子结构图出现次数大于设定次数值,则查找到的句子子结构图为句子频繁结构图,将查找到的句子子结构图及其次数保存到句子频繁结构图集合中;第四,返回第二步直到待分析英语文本句子子结构图集合遍历完,最后输出待分析英语文本的句子频繁结构图集合。
本发明的英语文本句子语篇连贯性分析模块的处理流程为:第一,读入训练英语文本集,并生成训练英语文本集的句子频繁结构图集合;第二,读入待分析英语文本的句子语义结构图和句子频繁结构图集合,统计待分析英语文本的句子频繁结构图集合中,每个句子频繁结构图在训练英语文本集的句子频繁结构图集合中出现的次数,计算得到英语文本中每个句子频繁结构图的分布概率值;第三,遍历待分析英语文本中句子语义结构图和频繁结构图集合,在待分析英语文本中句子语义结构图中,查找到句子频繁结构图同构的子结构图,并累加同构的子结构图中边的权重值,并计算句子语义结构图和句子频繁结构图同构的子结构图语义值;第四,结合句子的频繁结构图出现的次数、句子的频繁结构图分布概率值、句子语义结构图和句子频繁结构图同构的子结构图语义值,计算待分析英语文本的句子语篇连贯质量值,输出得分析英语文本的句子语篇连贯性评语。
本发明分析方法中的计算公式定义如下:
(1)英语文本句子实体结构图中句子之间边权重值计算公式
在公式(1)中,j为实体词编号,N为句子Si和句子SK之间的实体词总数,i和k表示句子Si与句子SK在英语文本中的位置,句子Si在英语文本的句子实体结构图中表示为节点i,句子Sk在英语文本句子实体结构图中表示为节点k;
(2)英语文本句子语义结构图中句子之间语义相似度计算公式
在公式(2)中,j为句子Si与句子Sk中单词的词向量的编号,N为句子Si与句子Sk中单词的词向量的总数;
(3)英语文本句子语义结构图中句子边权重更新值计算公式
句子Si与句子Sk之间边权重更新值
=系数1×句子Si与句子Sk之间边权重值+系数2×句子Si与句子Sk之间语义相似度 (3)
在公式(3)中,系数1为0.5,系数2为0.5,句子Si与句子SK之间边权重值由公式(1)计算得到,句子Si与句子SK之间语义相似度由公式(2)计算得到;
(4)英语文本句子语义结构图中句子频繁结构图分布概率值计算公式
在公式(4)中,M为句子SK的频繁结构图总数,句子SK的频繁结构图i是指句子SK的第i个频繁结构图,句子SK的频繁结构图j是指句子SK的第j个频繁结构图;
(5)英语文本句子频繁结构图中句子的子结构图语义值计算公式
在公式(5)中,r为句子SK的语义结构图的编号,i为句子SK的频繁结构图的编号,j为句子SK的语义结构图r与频繁结构图i同构的子结构图中边的编号,Q为句子SK中语义结构图的总数,M为句子SK中频繁结构图的总数,P为句子SK的语义结构图r与频繁结构图i同构的子结构图中边的总数;
(6)英语文本句子语篇连贯质量值计算公式
在公式(6)中,k为待分析英语文本中句子的编号,i为待分析英语文本中句子SK中频繁结构图的编号,N为待分析英语文本中句子的总数,M为句子SK中频繁结构图的总数,句子SK的频繁结构图i分布概率值由公式(4)计算得到,句子SK的子图语义值由公式(5)计算得到。
本发明的具体处理步骤
如图2所示,英语文本句子实体结构图构建模块处理流程如下:
P201开始;
P202输入待分析英语文本;
P203对待分析英语文本进行分段、分句、分词、单词词性标注处理;
P204根据单词词性和句子中单词之间的语义依存关系构建句子的语义句法结构树;
P205识别待分析英语文本句子中实体词,通过检索句子语义句法结构树获取实体词边界;
P206消解实体词之间的共指关系生成实体词的共指链,标注实体词在句子中的语法角色;
P207生成待分析英语文本中实体词的共指链集合和实体词的语法角色集合;
P208遍历待分析英语文本中实体词的共指链集合;
P209判断当前实体词与其后面的共指实体词是否处于不同的句子中,如果是则转至P210操作,否则转至P208操作;
P210根据待分析英语文本中的句子总数,创建一个句子实体结构图,用节点表示待分析英语文本中的句子,并对其进行初始化;
P211分别在当前实体词所在节点与其他共指实体词所处的节点之间建立一条边;
P212在语法角色标注集合中查找当前实体词与共指实体词的语法角色,根据公式(1)计算句子之间边权重值,将该边添加到句子实体结构图中;
P213判断共指链中实体词集合是否遍历完,如果是则转至P214操作,否则转至P208操作;
P214判断共指链集合是否遍历完,如果是则转至P215操作,否则转至P208操作;
P215将实体结构图中具有相同起点和终点的边进行合并;
P216输出待分析英语文本的句子实体结构图;
P217结束。
如图3所示,英语文本句子语义结构图生成模块处理流程如下:
P301开始;
P302读入待分析英语文本的句子实体结构图;
P303将待分析英语文本中句子以向量方式映射到向量语义空间中;
P304利用公式(2)计算待分析英语文本句子语义结构图中句子之间语义相似度并将结果保存;
P305遍历待分析英语文本句子实体结构图中的节点;
P306如果该节点与其他节点的语义相似度大于设定阈值,且在句子实体结构图中这两个节点之间没有边,则在这两节点之间新建一条边,否则利用公式(3)计算这两个节点之间边的更新权重值;
P307判断句子实体结构图中节点集合是否遍历完;如果是则转至P308操作,否则转至P305操作;
P308生成待分析英语文本的句子语义结构图;
P309结束。
如图4所示,英语文本句子频繁结构图集挖掘模块处理流程如下:
P401开始;
P402读入待分析英语文本的句子语义结构图,三个节点和四个节点的句子子结构图,并生成待分析英语文本句子子结构图集合;
P403从待分析英语文本句子子结构图集合中读取一个句子子结构图;
P404在待分析英语文本句子语义结构图中,查找读取的句子子结构图出现次数,并累加此次数;
P405如果该句子子结构图出现次数大于设定次数值,则保存该句子子结构图及其次数保存到句子频繁结构图集合中,否则转至P406操作;
P406判断待分析英语文本句子子结构图集合中句子子结构图是否读取完,如果是则转P407操作,否则转P403操作;
P407输出待分析英语文本的句子频繁结构图集合;
P408结束。
如图5所示,英语文本句子语篇连贯性分析模块处理流程如下:
P501开始;
P502读入训练英语文本集,并生成训练英语文本集的句子频繁结构图集合;
P503读入待分析英语文本的句子频繁结构图集合;
P504统计待分析英语文本的句子频繁结构图集合中,每个句子频繁结构图在训练英语文本集的句子频繁结构图集合中出现的次数;
P505利用公式(4)计算得到英语文本中每个句子频繁结构图的分布概率值;
P506读入待分析英语文本的句子语义结构图,并统计句子语义结构图中句子的总数;P507从待分析英语文本的句子频繁结构图集合中读取一个句子频繁结构图;
P508在待分析英语文本的句子语义结构图中,查找该句子频繁结构图同构的子结构图,并累加同构的子结构图中边的权重值;
P509利用公式(5)计算句子语义结构图和句子频繁结构图同构的子结构图语义值;
P510判断待分析英语文本的句子频繁结构图集合是否读取完;如果是则转至P511操作,否则转至P507操作;
P511利用公式(6)计算待分析英语文本句子语篇连贯质量值;
P512输出待分析英语文本句子语篇连贯质量值和句子语篇连贯性评语结果;
P513结束。
本发明基于图的英语文本句子语篇连贯分析方法,待分析英语文本的句子通过该分析方法处理后,最后能够得到待分析英语文本的句子语篇连贯质量值和句子语篇连贯性评语结果。本发明的方法解决了现有的英语文本句子语篇连贯分析方法,只能分析出英语文本中句子的局部语篇连贯质量,无法分析出英语文本中句子的全局语篇连贯质量,其分析结果比现有的英语文本句子语篇连贯分析方法的分析结果好。
附图说明
图1是本发明的总体处理流程图;
图2是本发明的英语文本句子实体结构图构建模块处理流程图;
图3是本发明的英语文本句子语义结构图生成模块处理流程图;
图4是本发明的英语文本句子频繁结构图挖掘模块处理流程图;
图5是本发明的英语文本句子语篇连贯性分析模块处理流程图。
具体实施方式
下面结合实施例和附图对本发明内容作进一步的说明,但不是对本发明的限定。
实施例
本发明实施例中的待分析英语文本取自于学生英语六级作文,作文题目为“Is itnecessary to make a law to prohibit smoking in restaurants”。基于该英语文本句子语篇连贯分析方法,包括如下步骤:
第一步骤:执行“英语文本句子实体结构图构建模块”
(1)输入的待分析英语文本如下所示:
Recently,some people appeal the government to make a new law to banpeople smoking in restaurants.More and more people are beginning to talkabout this matter.Everyone has different opinions on whether it is necessaryto completely ban smoking in restaurants.
In my opinion,smoking should be completely banned at all therestaurants.On one hand,as we all known,smoking is bad for our health,nomatter we are smoker or people who don't smoke but breathe the smoke in theair.The harmful things in cigarette are not only do harm to our lungs butalso our brains.To keep our body more health,we should not smoke.On the otherhand,restaurants are public places,a large number of people eat meat in thereevery day.For us who extremely don't like smell the flavor of smoking,it is aloathed thing that smells the smoke.And it is harmful to our health,especially to the children.What's more,a survey shows that if people smokewhen they are eating the bad effect will enormously than other times.So weshould forbid smoking at all the restaurants.Since that case,I believe thatit is a good thing to ban smoking at the restaurants in the country.Becausenot only us dislike smoking but also the smokers will benefit a lot fromit.And it can also help those people who want to give up smoking to keep awayfrom the cigarette.
(2)对待分析英语文本进行词性标注后的结果如下所示:
Recently/RB,/,some/DT people/NNS appeal/VBP the/DT government/NN to/TO make/VB a/DT new/JJ law/NN to/TO ban/VB people/NNS smoking/VBG in/INrestaurants/NNS./.More/RBR and/CC more/RBR people/NNS are/VBP beginning/VBGto/TO talk/VB about/IN this/DT matter/NN./.Everyone/NN has/VBZ different/JJopinions/NNS on/IN whether/IN it/PRP is/VBZ necessary/JJ to/TO completely/RB ban/VB smoking/NN in/IN restaurants/NNS./.
In/IN my/PRP$opinion/NN,/,smoking/NN should/MD be/VB completely/RBbanned/VBN at/IN all/PDT the/DT restaurants/NNS./.On/IN one/CD hand/NN,/,as/IN we/PRP all/RB known/VBN,/,smoking/NN is/VBZ bad/JJ for/IN our/PRP$health/NN,/,no/RB matter/RB we/PRP are/VBP smoker/NN or/CC people/NNS who/WP do/VBPn't/RB smoke/VB but/CC breathe/VB the/DT smoke/NN in/IN the/DT air/NN./.The/DT harmful/JJ things/NNS in/IN cigarette/NN are/VBP not/RB only/RB do/VBharm/NN to/IN our/PRP$lungs/NNS but/CC also/RB our/PRP$brains/NNS./.To/TOkeep/VB our/PRP$body/NN more/JJR health/NN,/,we/PRP should/MD not/RB smoke/VB./.On/IN the/DT other/JJ hand/NN,/,restaurants/NNS are/VBP public/JJplaces/NNS,/,a/DT large/JJ number/NN of/IN people/NNS eat/VBP meat/NN in/INthere/RB every/DT day/NN./.For/IN us/PRP who/WP extremely/RB do/VBP n't/RBlike/VB smell/VB the/DT flavor/NN of/IN smoking/NN,/,it/PRP is/VBZ a/DTloathed/JJ thing/NN that/WDT smells/VBZ the/DT smoke/NN./.And/CC it/PRP is/VBZ harmful/JJ to/IN our/PRP$health/NN,/,especially/RB to/IN the/DT children/NNS./.What/WP's/VBZ more/JJR,/,a/DT survey/NN shows/VBZ that/IN if/IN people/NNS smoke/VBP when/WRB they/PRP are/VBP eating/VBG the/DT bad/JJ effect/NNwill/MD enormously/VB than/IN other/JJ times/NNS./.So/RB we/PRP should/MDforbid/VB smoking/NN at/IN all/PDT the/DT restaurants/NNS./.Since/IN that/DTcase/NN,/,I/PRP believe/VBP that/IN it/PRP is/VBZ a/DT good/JJ thing/NN to/TOban/VB smoking/NN at/IN the/DT restaurants/NNS in/IN the/DT country/NN./.Because/IN not/RB only/RB us/PRP dislike/VBP smoking/NN but/CC also/RB the/DT smokers/NNS will/MD benefit/VB a/DT lot/NN from/IN it/PRP./.And/CC it/PRPcan/MD also/RB help/VB those/DT people/NNS who/WP want/VBP to/TO give/VB up/RP smoking/NN to/TO keep/VB away/RP from/IN the/DT cigarette/NN./.
(3)对待分析英语文本进行词性标注后,对句子语义依存关系识别结果如下所示:
advmod(appeal-5,Recently-1)det(people-4,some-3)nsubj(appeal-5,people-4)root(ROOT-0,appeal-5)det(government-7,the-6)obj(appeal-5,government-7)mark(make-9,to-8)advcl(appeal-5,make-9)det(law-12,a-10)amod(law-12,new-11)obj(make-9,law-12)mark(ban-14,to-13)advcl(make-9,ban-14)obj(ban-14,people-15)acl(people-15,smoking-16)case(restaurants-18,in-17)obl(smoking-16,restaurants-18)
advmod(beginning-6,More-1)cc(more-3,and-2)conj(More-1,more-3)nsubj(beginning-6,people-4)aux(beginning-6,are-5)root(ROOT-0,beginning-6)mark(talk-8,to-7)xcomp(beginning-6,talk-8)case(matter-11,about-9)det(matter-11,this-10)obl(talk-8,matter-11)
nsubj(has-2,Everyone-1)root(ROOT-0,has-2)amod(opinions-4,different-3)obj(has-2,opinions-4)mark(necessary-9,on-5)mark(necessary-9,whether-6)nsubj(necessary-9,it-7)cop(necessary-9,is-8)acl(opinions-4,necessary-9)mark(ban-12,to-10)advmod(ban-12,completely-11)xcomp(necessary-9,ban-12)obj(ban-12,smoking-13)case(restaurants-15,in-14)obl(ban-12,restaurants-15)
case(opinion-3,In-1)nmod:poss(opinion-3,my-2)obl(banned-9,opinion-3)nsubj:pass(banned-9,smoking-5)aux(banned-9,should-6)aux:pass(banned-9,be-7)advmod(banned-9,completely-8)root(ROOT-0,banned-9)case(restaurants-13,at-10)det:predet(restaurants-13,all-11)det(restaurants-13,the-12)obl(banned-9,restaurants-13)
case(hand-3,On-1)nummod(hand-3,one-2)obl(smoker-21,hand-3)mark(bad-12,as-5)nsubj(known-8,we-6)advmod(known-8,all-7)parataxis(bad-12,known-8)nsubj(bad-12,smoking-10)cop(bad-12,is-11)advcl(smoker-21,bad-12)case(health-15,for-13)nmod:poss(health-15,our-14)obl(bad-12,health-15)advmod(matter-18,no-17)advmod(smoker-21,matter-18)nsubj(smoker-21,we-19)cop(smoker-21,are-20)root(ROOT-0,smoker-21)cc(people-23,or-22)conj(smoker-21,people-23)nsubj(smoke-27,who-24)aux(smoke-27,do-25)advmod(smoke-27,n't-26)acl:relcl(smoker-21,smoke-27)cc(breathe-29,but-28)conj(smoke-27,breathe-29)det(smoke-31,the-30)obj(smoke-27,smoke-31)case(air-34,in-32)det(air-34,the-33)obl(smoke-27,air-34)
det(things-3,The-1)amod(things-3,harmful-2)nsubj(do-9,things-3)case(cigarette-5,in-4)nmod(things-3,cigarette-5)cop(do-9,are-6)advmod(only-8,not-7)cc:preconj(do-9,only-8)root(ROOT-0,do-9)obj(do-9,harm-10)case(lungs-13,to-11)nmod:poss(lungs-13,our-12)obl(do-9,lungs-13)cc(brains-17,but-14)advmod(brains-17,also-15)nmod:poss(brains-17,our-16)conj(do-9,brains-17)
mark(keep-2,To-1)advcl(smoke-11,keep-2)nmod:poss(body-4,our-3)dep(keep-2,body-4)amod(health-6,more-5)obj(keep-2,health-6)nsubj(smoke-11,we-8)aux(smoke-11,should-9)advmod(smoke-11,not-10)root(ROOT-0,smoke-11)
case(hand-4,On-1)det(hand-4,the-2)amod(hand-4,other-3)obl(eat-16,hand-4)nsubj(places-9,restaurants-6)cop(places-9,are-7)amod(places-9,public-8)parataxis(eat-16,places-9)det(number-13,a-11)amod(number-13,large-12)nsubj(eat-16,number-13)case(people-15,of-14)nmod(number-13,people-15)root(ROOT-0,eat-16)obj(eat-16,meat-17)case(hand-4,in-18)advmod(day-21,there-19)det(day-21,every-20)obl:tmod(eat-16,day-21)
case(us-2,For-1)obl(thing-18,us-2)nsubj(like-7,who-3)advmod(like-7,extremely-4)aux(like-7,do-5)advmod(like-7,n't-6)acl:relcl(us-2,like-7)ccomp(like-7,smell-8)det(flavor-10,the-9)obj(smell-8,flavor-10)case(smoking-12,of-11)nmod(flavor-10,smoking-12)nsubj(thing-18,it-14)cop(thing-18,is-15)det(thing-18,a-16)amod(thing-18,loathed-17)root(ROOT-0,thing-18)nsubj(smells-20,that-19)acl:relcl(thing-18,smells-20)det(smoke-22,the-21)obj(smells-20,smoke-22)
cc(harmful-4,And-1)nsubj(harmful-4,it-2)cop(harmful-4,is-3)root(ROOT-0,harmful-4)case(health-7,to-5)nmod:poss(health-7,our-6)advcl(harmful-4,health-7)dep(health-7,especially-9)case(children-12,to-10)det(children-12,the-11)obl(health-7,children-12)
nsubj(more-3,What-1)cop(more-3,'s-2)advcl(shows-7,more-3)det(survey-6,a-5)nsubj(shows-7,survey-6)root(ROOT-0,shows-7)mark(enormously-20,that-8)mark(smoke-11,if-9)nsubj(smoke-11,people-10)csubj(enormously-20,smoke-11)advmod(eating-15,when-12)nsubj(eating-15,they-13)aux(eating-15,are-14)advcl(smoke-11,eating-15)det(effect-18,the-16)amod(effect-18,bad-17)obj(eating-15,effect-18)aux(enormously-20,will-19)ccomp(shows-7,enormously-20)case(times-23,than-21)amod(times-23,other-22)obl(enormously-20,times-23)
advmod(forbid-4,So-1)nsubj(forbid-4,we-2)aux(forbid-4,should-3)root(ROOT-0,forbid-4)obj(forbid-4,smoking-5)case(restaurants-9,at-6)det:predet(restaurants-9,all-7)det(restaurants-9,the-8)obl(forbid-4,restaurants-9)
case(case-3,Since-1)det(case-3,that-2)obl(believe-6,case-3)nsubj(believe-6,I-5)root(ROOT-0,believe-6)mark(thing-12,that-7)nsubj(thing-12,it-8)cop(thing-12,is-9)det(thing-12,a-10)amod(thing-12,good-11)ccomp(believe-6,thing-12)mark(ban-14,to-13)acl(thing-12,ban-14)obj(ban-14,smoking-15)case(restaurants-18,at-16)det(restaurants-18,the-17)obl(ban-14,restaurants-18)case(country-21,in-19)det(country-21,the-20)nmod(restaurants-18,country-21)
mark(not-2,Because-1)advcl(dislike-5,not-2)advmod(dislike-5,only-3)nsubj(dislike-5,us-4)root(ROOT-0,dislike-5)obj(dislike-5,smoking-6)cc(benefit-12,but-7)advmod(benefit-12,also-8)det(smokers-10,the-9)nsubj(benefit-12,smokers-10)aux(benefit-12,will-11)conj(dislike-5,benefit-12)det(lot-14,a-13)obj(benefit-12,lot-14)case(it-16,from-15)obl(benefit-12,it-16)
cc(help-5,And-1)nsubj(help-5,it-2)aux(help-5,can-3)advmod(help-5,also-4)root(ROOT-0,help-5)det(people-7,those-6)obj(help-5,people-7)nsubj(want-9,who-8)acl:relcl(people-7,want-9)mark(give-11,to-10)xcomp(want-9,give-11)compound:prt(give-11,up-12)obj(give-11,smoking-13)mark(keep-15,to-14)advcl(give-11,keep-15)compound:prt(keep-15,away-16)case(cigarette-19,from-17)det(cigarette-19,the-18)obl(keep-15,cigarette-19)
(4)对英语文本进行句法结构分析处理后,生成的句子语义句法结构树如下所示:
(ROOT(S(ADVP(RB Recently))(,,)(NP(DT some)(NNS people))(VP(VBPappeal)(NP(DT the)(NN government))(S(VP(TO to)(VP(VB make)(NP(DT a)(JJ new)(NN law))(S(VP(TO to)(VP(VB ban)(NP(NP(NNS people))(VP(VBG smoking)(PP(IN in)(NP(NNS restaurants))))))))))))(..)))(ROOT(S(ADVP(RBR More)(CC and)(RBRmore))(NP(NNS people))(VP(VBP are)(VP(VBG beginning)(S(VP(TO to)(VP(VB talk)(PP(IN about)(NP(DT this)(NN matter))))))))(..)))(ROOT(S(NP(NN Everyone))(VP(VBZ has)(NP(NP(JJ different)(NNS opinions))(PP(IN on)(SBAR(IN whether)(S(NP(PRP it)(VP(VBZ is)(ADJP(JJ necessary)(S(VP(TO to)(ADVP(RB completely))(VP(VBban)(NP(NN smoking))(PP(IN in)(NP(NNS restaurants)))))))))))))(..)))
(ROOT(S(PP(IN In)(NP(PRP$my)(NN opinion)))(,,)(NP(NN smoking))(VP(MDshould)(VP(VB be)(ADVP(RB completely))(VP(VBN banned)(PP(IN at)(NP(PDT all)(DT the)(NNS restaurants))))))(..)))(ROOT(S(PP(IN On)(NP(CD one)(NN hand)))(,,)(SBAR(IN as)(S(PRN(S(NP(PRP we))(RB all)(VP(VBN known))))(,,)(NP(NNsmoking))(VP(VBZ is)(ADJP(JJ bad)(PP(IN for)(NP(PRP$our)(NN health)))))))(,,)(ADVP(RB no)(RB matter))(NP(PRP we))(VP(VBP are)(NP(NP(NN smoker)(CC or)(NNSpeople))(SBAR(WHNP(WP who))(S(VP(VBP do)(RB n't)(VP(VB smoke)(CC but)(VBbreathe)(NP(DT the)(NN smoke))(PP(IN in)(NP(DT the)(NN air)))))))))(..)))(ROOT(S(NP(NP(DT The)(JJ harmful)(NNS things))(PP(IN in)(NP(NN cigarette))))(VP(VBP are)(NP(CONJP(RB not)(RB only))(S(VP(VB do)(NP(NN harm))(PP(IN to)(NP(PRP$our)(NNS lungs)))))(CONJP(CC but)(RB also))(NP(PRP$our)(NNS brains))))(..)))(ROOT(S(S(VP(TO To)(VP(VB keep)(NP(PRP$our)(NN body))(NP(JJR more)(NNhealth)))))(,,)(NP(PRP we))(VP(MD should)(RB not)(VP(VB smoke)))(..)))(ROOT(S(PP(IN On)(NP(DT the)(JJ other)(NN hand)))(PRN(,,)(S(NP(NNS restaurants))(VP(VBP are)(NP(JJ public)(NNS places))))(,,))(NP(NP(DT a)(JJ large)(NN number))(PP(IN of)(NP(NNS people))))(VP(VBP eat)(NP(NN meat))(PP(IN in))(NP(ADVP(RBthere))(DT every)(NN day)))(..)))(ROOT(S(PP(IN For)(NP(NP(PRP us))(SBAR(WHNP(WP who))(S(ADVP(RB extremely))(VP(VBP do)(RB n't)(VP(VB like)(S(VP(VB smell)(NP(NP(DT the)(NN flavor))(PP(IN of)(NP(NN smoking))))))))))))(,,)(NP(PRPit))(VP(VBZ is)(NP(NP(DT a)(JJ loathed)(NN thing))(SBAR(WHNP(WDT that))(S(VP(VBZ smells)(NP(DT the)(NN smoke)))))))(..)))(ROOT(S(CC And)(NP(PRP it))(VP(VBZ is)(ADJP(JJ harmful)(PP(PP(IN to)(NP(PRP$our)(NN health)))(,,)(RBespecially)(PP(IN to)(NP(DT the)(NNS children))))))(..)))(ROOT(S(SBAR(WHNP(WPWhat))(S(VP(VBZ's)(ADJP(JJR more)))))(,,)(NP(DT a)(NN survey))(VP(VBZ shows)(SBAR(IN that)(S(SBAR(IN if)(S(NP(NNS people))(VP(VBP smoke)(SBAR(WHADVP(WRBwhen))(S(NP(PRP they))(VP(VBP are)(VP(VBG eating)(NP(DT the)(JJ bad)(NNeffect)))))))))(VP(MD will)(VP(VB enormously)(PP(IN than)(NP(JJ other)(NNStimes))))))))(..)))(ROOT(S(ADVP(RB So))(NP(PRP we))(VP(MD should)(VP(VBforbid)(NP(NN smoking))(PP(IN at)(NP(PDT all)(DT the)(NNS restaurants)))))(..)))(ROOT(S(PP(IN Since)(NP(DT that)(NN case)))(,,)(NP(PRP I))(VP(VBPbelieve)(SBAR(IN that)(S(NP(PRP it))(VP(VBZ is)(NP(DT a)(JJ good)(NN thing)(S(VP(TO to)(VP(VB ban)(NP(NN smoking))(PP(IN at)(NP(NP(DTthe)(NNSrestaurants))(PP(IN in)(NP(DT the)(NN country)))))))))))))(..)))(ROOT(S(S(SBAR(IN Because)(FRAG(RB not)))(ADVP(RB only))(NP(PRP us))(VP(VBP dislike)(NP(NN smoking))))(CC but)(S(ADVP(RB also))(NP(DT the)(NNS smokers))(VP(MDwill)(VP(VB benefit)(NP(DT a)(NN lot))(PP(IN from)(NP(PRP it))))))(..)))(ROOT(S(CC And)(NP(PRP it))(VP(MD can)(ADVP(RB also))(VP(VB help)(NP(NP(DT those)(NNS people))(SBAR(WHNP(WP who))(S(VP(VBP want)(S(VP(TO to)(VP(VB give)(PRT(RP up))(NP(NN smoking))(S(VP(TO to)(VP(VB keep)(PRT(RP away))(PP(IN from)(NP(DT the)(NN cigarette)))))))))))))))(..)))
(5)对待分析英语文本中实体词的语法角色标注结果如下所示:
[some people]/S,[the government]/O,[a new law]/O,[people]/X,[restaurants]/X,[More and more people]/S,[this matter]/X,[Everyone]/S,[different opinions]/O,[it]/S,[smoking]/X,[restaurants]/X
[my opinion]/X,[smoking]/S,[the restaurants]/X,[one hand]/X,[we]/S,[smoking]/S,[our health]/X,[we]/S,[smoker or people]/O,[the smoke]/X,[theair]/X,[The harmful things]/S,[cigarette]/X,[our lungs]/X,[our brains]/X,[ourbody more health]/X,[we]/S,[the other hand]/X,[restaurants]/S,[publicplaces]/O,[a large number of people]/S,[meat]/O,[every day]/X,[us]/S,[smoking]/O,[it]/S,[a loathed thing]/S,[the smoke]/O,[it]/S,[our health]/X,[children]/X,[a survey]/S,[people]/X,[they]/S,[the bad effect]/O,[we]/S,[smoking]/O,[all the restaurants]/X,[case]/X,[I]/S,[it]/S,[a good thing]/X,[smoking]/O,[the restaurants]/X,[the country]/X,[us]/S,[smoking]/O,[thesmokers]/S,[it]/X,[it]/S,[those people]/O,[smoking]/X,[the cigarette]/X.
(6)构建的待分析英语文本句子实体结构结果如下所示:
①待分析英语文本第一段落句子实体结构结果如下所示:
0-(0.74)->1,0-(0.31)->2
②待分析英语文本第二段落句子实体结构结果如下所示:
0-(0.51)->1,1-(0.38)->3,1-(0.31)->5,1-(0.18)->8,3-(0.37)->5,3-(0.15)->8,5-(0.74)->6,5-(0.36)->8,5-(0.27)->9,5-(0.25)->10,6-(0.25)->9,6-(0.15)->11,8-(0.38)->9,8-(0.55)->10,9-(0.49)->10,9-(0.37)->11,10-(0.14)->11
第二步骤:执行“英语文本句子语义结构图生成模块”
(1)生成的待分析英语文本句子语义结构结果如下所示:
①待分析英语文本第一段落句子语义结构结果如下所示:
0-(0.74)->1,0-(0.31)->2.
②待分析英语文本第二段落句子语义结构结果如下所示:
0-(0.51)->1,1-(0.38)->3,1-(0.31)->5,1-(0.18)->8,3-(0.37)->5,3-(0.15)->8,5-(0.74)->6,5-(0.36)->8,5-(0.27)->9,5-(0.25)->10,6-(0.25)->9,6-(0.15)->11,8-(0.38)->9,8-(0.55)->10,9-(0.49)->10,9-(0.37)->11,10-(0.14)->11
第三步骤:执行“英语文本句子频繁结构图挖掘模块”
(1)挖掘出的待分析英语文本句子频繁结构结果如下所示:
Sg1:S1->S2,S1->S3;Sg2:S1->S2,S2->S3;Sg3:S1->S3,S2->S3;Sg4:S1->S2,S1->S3,S2->S3;Sg5:S1->S2,S1->S3,S1->S4,S2->S3,S2->S4,S3->S4;Sg6:S1->S2,S1->S3,S1->S4,S2->S3,S2->S4;Sg7:S1->S2,S1->S3,S1->S4,S2->S3,S3->S4;Sg8:S1->S2,S1->S3,S2->S3,S2->S4,S3->S4;Sg9:S1->S2,S1->S4,S2->S3,S2->S4,S3->S4;Sg10:S1->S3,S2->S3,S2->S4,S3->S4;Sg11:S1->S2,S2->S3,S2->S4,S3->S4;Sg12:S1->S4,S2->S3,S2->S4,S3->S4;Sg13:S1->S2,S1->S3,S2->S3,S2->S4;Sg14:S1->S2,S1->S4,S2->S3,S2->S4;Sg15:S1->S2,S1->S3,S2->S3,S3->S4;Sg16:S1->S3,S1->S4,S2->S3,S3->S4;Sg17:S1->S2,S1->S4,S2->S4,S3->S4;Sg18:S1->S3,S1->S4,S2->S4,S3->S4;Sg19:S1->S2,S1->S3,S1->S4,S3->S4;Sg20:S1->S2,S1->S3,S1->S4,S2->S4;Sg21:S1->S2,S1->S3,S1->S4,S2->S3;Sg22:S1->S2,S1->S3,S3->S4;Sg23:S1->S3,S1->S4,S3->S4;Sg24:S1->S2,S1->S4,S3->S4;Sg25:S1->S3,S1->S4,S2->S3;Sg26:S1->S2,S1->S4,S2->S3;Sg27:S1->S4,S2->S3,S2->S4;Sg28:S1->S3,S2->S3,S2->S4;Sg29:S1->S2,S2->S3,S2->S4;Sg30:S1->S2,S2->S3,S3->S4
第四步骤:执行“英语文本句子语篇连贯性分析模块”
(1)待分析英语文本的句子语篇连贯质量值和句子语篇连贯性评语如下:
待分析英语文本的句子语篇连贯质量值为:0.7271。
待分析英语文本的句子语篇连贯性评语为:待分析英语文本整体过渡较为自然流畅,句间语义联系较为紧密,连贯性较好。
Claims (8)
1.一种基于图的英语文本句子语篇连贯分析方法,其特征是:包括一个由顺序连接的英语文本句子实体结构图构建模块、英语文本句子语义结构图生成模块、英语文本句子频繁结构图挖掘模块与英语文本句子语篇连贯质量分析模块组成的分析模型,其分析方法包括如下步骤:
(1)英语文本句子实体结构图构建模块的处理流程为:
第一,对于输入的待分析英语文本进行分段、分句、分词和词性标注处理;
第二,根据单词词性和句子中单词之间的语义依存关系构建句子的语义句法结构树;
第三,识别待分析英语文本句子中实体词,通过检索句子语义句法结构树获取实体词边界,消解实体词之间的共指关系生成实体词的共指链,标注实体词在句子中的语法角色;
第四,以节点方式来表示英语文本中的句子,以边方式来表示句子之间语义关系,最终生成包含句子及其之间语义关系的待分析英语文本句子实体结构图;
(2)英语文本句子语义结构图生成模块的处理流程为:
第一,读入待分析英语文本句子实体结构图,将待分析英语文本中句子以向量方式映射到向量语义空间中,并计算待分析英语文本句子语义结构图中句子之间语义相似度;
第二,遍历待分析英语文本句子实体结构图中的节点,如果该节点与其他节点的语义相似度大于设定阈值,且在句子实体结构图中这两个节点之间没有边,则在这两节点之间新建一条边,如果句子实体结构图中这两节点之间有边,则计算更新边的权重值;
第三,返回第二步直到待分析英语文本句子实体结构图遍历完,最后生成待分析英语文本句子语义结构图;
(3)英语文本句子频繁结构图挖掘模块的处理流程为:
第一,读入待分析英语文本句子语义结构图,以及包含三个节点和四个节点的句子子结构图并生成待分析英语文本句子子结构图集合;
第二,遍历生成的待分析英语文本句子子结构图集合,在待分析英语文本句子语义结构图中,查找每个句子子结构图出现次数并累加此次数;
第三,当遍历待分析英语文本中所有句子语义结构图时,如果查找到的句子子结构图出现次数大于设定次数值,则查找到的句子子结构图为句子频繁结构图,将查找到的句子子结构图及其次数保存到句子频繁结构图集合中;
第四,返回第二步直到待分析英语文本句子子结构图集合遍历完,最后输出待分析英语文本的句子频繁结构图集合;
(4)英语文本句子语篇连贯性分析模块的处理流程为:
第一,读入训练英语文本集,并生成训练英语文本集的句子频繁结构图集合;
第二,读入待分析英语文本的句子语义结构图和句子频繁结构图集合,统计待分析英语文本的句子频繁结构图集合中,每个句子频繁结构图在训练英语文本集的句子频繁结构图集合中出现的次数,计算得到英语文本中每个句子频繁结构图的分布概率值;
第三,遍历待分析英语文本中句子语义结构图和频繁结构图集合,在待分析英语文本中句子语义结构图中,查找到句子频繁结构图同构的子结构图,并累加同构的子结构图中边的权重值,并计算句子语义结构图和句子频繁结构图同构的子结构图语义值;
第四,结合句子的频繁结构图出现的次数、句子的频繁结构图分布概率值、句子语义结构图和句子频繁结构图同构的子结构图语义值,计算待分析英语文本的句子语篇连贯质量值,输出得分析英语文本的句子语篇连贯性评语。
3.根据权利要求2所述的分析方法,其特征是:所述的英语文本句子实体结构图构建模块处理流程如下:
P201开始;
P202输入待分析英语文本;
P203对待分析英语文本进行分段、分句、分词、单词词性标注处理;
P204根据单词词性和句子中单词之间的语义依存关系构建句子的语义句法结构树;
P205识别待分析英语文本句子中实体词,通过检索句子语义句法结构树获取实体词边界;
P206消解实体词之间的共指关系生成实体词的共指链,标注实体词在句子中的语法角色;
P207生成待分析英语文本中实体词的共指链集合和实体词的语法角色集合;
P208遍历待分析英语文本中实体词的共指链集合;
P209判断当前实体词与其后面的共指实体词是否处于不同的句子中,如果是则转至P210操作,否则转至P208操作;
P210根据待分析英语文本中的句子总数,创建一个句子实体结构图,用节点表示待分析英语文本中的句子,并对其进行初始化;
P211分别在当前实体词所在节点与其他共指实体词所处的节点之间建立一条边;
P212在语法角色标注集合中查找当前实体词与共指实体词的语法角色,根据公式(1)计算句子之间边权重值,将该边添加到句子实体结构图中;
P213判断共指链中实体词集合是否遍历完,如果是则转至P214操作,否则转至P208操作;
P214判断共指链集合是否遍历完,如果是则转至P215操作,否则转至P208操作;
P215将实体结构图中具有相同起点和终点的边进行合并;
P216输出待分析英语文本的句子实体结构图;
P217结束。
4.根据权利要求1所述的分析方法,其特征是:所述英语文本句子语义结构图生成模块的计算公式定义如下:
(1)英语文本句子语义结构图中句子之间语义相似度计算公式
在公式(2)中,j为句子Si与句子Sk中单词的词向量的编号,N为句子Si与句子Sk中单词的词向量的总数;
(2)英语文本句子语义结构图中句子边权重更新值计算公式
句子Si与句子Sk之间边权重更新值
=系数1×句子Si与句子Sk之间边权重值+系数2×句子Si与句子Sk之间语义相似度 (3)
在公式(3)中,系数1为0.5,系数2为0.5,句子Si与句子SK之间边权重值由公式(1)计算得到,句子Si与句子SK之间语义相似度由公式(2)计算得到。
5.根据权利要求4所述的分析方法,其特征是:所述的英语文本句子语义结构图生成模块处理流程如下:
P301开始;
P302读入待分析英语文本的句子实体结构图;
P303将待分析英语文本中句子以向量方式映射到向量语义空间中;
P304利用公式(2)计算待分析英语文本句子语义结构图中句子之间语义相似度并将结果保存;
P305遍历待分析英语文本句子实体结构图中的节点;
P306如果该节点与其他节点的语义相似度大于设定阈值,且在句子实体结构图中这两个节点之间没有边,则在这两节点之间新建一条边,否则利用公式(3)计算这两个节点之间边的更新权重值;
P307判断句子实体结构图中节点集合是否遍历完;如果是则转至P308操作,否则转至P305操作;
P308生成待分析英语文本的句子语义结构图;
P309结束。
6.根据权利要求1所述的分析方法,其特征是:所述的英语文本句子频繁结构图集挖掘模块处理流程如下:
P401开始;
P402读入待分析英语文本的句子语义结构图,三个节点和四个节点的句子子结构图,并生成待分析英语文本句子子结构图集合;
P403从待分析英语文本句子子结构图集合中读取一个句子子结构图;
P404在待分析英语文本句子语义结构图中,查找读取的句子子结构图出现次数,并累加此次数;
P405如果该句子子结构图出现次数大于设定次数值,则保存该句子子结构图及其次数保存到句子频繁结构图集合中,否则转至P406操作;
P406判断待分析英语文本句子子结构图集合中句子子结构图是否读取完,如果是则转P407操作,否则转P403操作;
P407输出待分析英语文本的句子频繁结构图集合;
P408结束。
7.根据权利要求1所述的的分析方法,其特征是:所述英语文本句子语篇连贯性分析模块的计算公式定义如下:
(1)英语文本句子语义结构图中句子频繁结构图分布概率值计算公式
在公式(4)中,M为句子SK的频繁结构图总数,句子SK的频繁结构图i是指句子SK的第i个频繁结构图,句子SK的频繁结构图j是指句子SK的第j个频繁结构图;
(2)英语文本句子频繁结构图中句子的子结构图语义值计算公式
在公式(5)中,r为句子SK的语义结构图的编号,i为句子SK的频繁结构图的编号,j为句子SK的语义结构图r与频繁结构图i同构的子结构图中边的编号,Q为句子SK中语义结构图的总数,M为句子SK中频繁结构图的总数,P为句子SK的语义结构图r与频繁结构图i同构的子结构图中边的总数;
(3)英语文本句子语篇连贯质量值计算公式
在公式(6)中,k为待分析英语文本中句子的编号,i为待分析英语文本中句子SK中频繁结构图的编号,N为待分析英语文本中句子的总数,M为句子SK中频繁结构图的总数,句子SK的频繁结构图i分布概率值由公式(4)计算得到,句子SK的子图语义值由公式(5)计算得到。
8.根据权利要求7所述的分析方法,其特征是:所述的英语文本句子语篇连贯性分析模块处理流程如下:
P501开始;
P502读入训练英语文本集,并生成训练英语文本集的句子频繁结构图集合;
P503读入待分析英语文本的句子频繁结构图集合;
P504统计待分析英语文本的句子频繁结构图集合中,每个句子频繁结构图在训练英语文本集的句子频繁结构图集合中出现的次数;
P505利用公式(4)计算得到英语文本中每个句子频繁结构图的分布概率值;
P506读入待分析英语文本的句子语义结构图,并统计句子语义结构图中句子的总数;
P507从待分析英语文本的句子频繁结构图集合中读取一个句子频繁结构图;
P508在待分析英语文本的句子语义结构图中,查找该句子频繁结构图同构的子结构图,并累加同构的子结构图中边的权重值;
P509利用公式(5)计算句子语义结构图和句子频繁结构图同构的子结构图语义值;
P510判断待分析英语文本的句子频繁结构图集合是否读取完;如果是则转至P511操作,否则转至P507操作;
P511利用公式(6)计算待分析英语文本句子语篇连贯质量值;
P512输出待分析英语文本句子语篇连贯质量值和句子语篇连贯性评语结果;
P513结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110917003.1A CN113553830B (zh) | 2021-08-11 | 2021-08-11 | 一种基于图的英语文本句子语篇连贯分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110917003.1A CN113553830B (zh) | 2021-08-11 | 2021-08-11 | 一种基于图的英语文本句子语篇连贯分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113553830A true CN113553830A (zh) | 2021-10-26 |
CN113553830B CN113553830B (zh) | 2023-01-03 |
Family
ID=78133815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110917003.1A Active CN113553830B (zh) | 2021-08-11 | 2021-08-11 | 一种基于图的英语文本句子语篇连贯分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553830B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114970491A (zh) * | 2022-08-02 | 2022-08-30 | 深圳市城市公共安全技术研究院有限公司 | 一种文本衔接性判断方法、装置、电子设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1700200A (zh) * | 2005-05-30 | 2005-11-23 | 梁茂成 | 英语作文自动评分系统 |
CN102708098A (zh) * | 2012-05-30 | 2012-10-03 | 中国科学院自动化研究所 | 一种基于依存连贯性约束的双语词语自动对齐方法 |
CN103365838A (zh) * | 2013-07-24 | 2013-10-23 | 桂林电子科技大学 | 基于多元特征的英语作文语法错误自动纠正方法 |
WO2015003143A2 (en) * | 2013-07-03 | 2015-01-08 | Thomson Reuters Global Resources | Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus |
CN104915337A (zh) * | 2015-06-18 | 2015-09-16 | 中国科学院自动化研究所 | 基于双语篇章结构信息的译文篇章完整性评估方法 |
CN106776550A (zh) * | 2016-12-06 | 2017-05-31 | 桂林电子科技大学 | 一种英语作文语篇连贯质量的分析方法 |
CN106844335A (zh) * | 2016-12-21 | 2017-06-13 | 海航生态科技集团有限公司 | 自然语言处理方法及装置 |
CN107357783A (zh) * | 2017-07-04 | 2017-11-17 | 桂林电子科技大学 | 一种中文翻译成英文的英语译文质量分析方法 |
CN109977407A (zh) * | 2019-03-27 | 2019-07-05 | 北京信息科技大学 | 一种基于词嵌入的书面语篇多层次差异分析方法 |
CN110287497A (zh) * | 2019-07-03 | 2019-09-27 | 桂林电子科技大学 | 一种英语文本的语义结构连贯分析方法 |
CN111710428A (zh) * | 2020-06-19 | 2020-09-25 | 华中师范大学 | 一种建模全局和局部上下文交互的生物医学文本表示方法 |
-
2021
- 2021-08-11 CN CN202110917003.1A patent/CN113553830B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1700200A (zh) * | 2005-05-30 | 2005-11-23 | 梁茂成 | 英语作文自动评分系统 |
CN102708098A (zh) * | 2012-05-30 | 2012-10-03 | 中国科学院自动化研究所 | 一种基于依存连贯性约束的双语词语自动对齐方法 |
WO2015003143A2 (en) * | 2013-07-03 | 2015-01-08 | Thomson Reuters Global Resources | Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus |
CN103365838A (zh) * | 2013-07-24 | 2013-10-23 | 桂林电子科技大学 | 基于多元特征的英语作文语法错误自动纠正方法 |
CN104915337A (zh) * | 2015-06-18 | 2015-09-16 | 中国科学院自动化研究所 | 基于双语篇章结构信息的译文篇章完整性评估方法 |
CN106776550A (zh) * | 2016-12-06 | 2017-05-31 | 桂林电子科技大学 | 一种英语作文语篇连贯质量的分析方法 |
CN106844335A (zh) * | 2016-12-21 | 2017-06-13 | 海航生态科技集团有限公司 | 自然语言处理方法及装置 |
CN107357783A (zh) * | 2017-07-04 | 2017-11-17 | 桂林电子科技大学 | 一种中文翻译成英文的英语译文质量分析方法 |
CN109977407A (zh) * | 2019-03-27 | 2019-07-05 | 北京信息科技大学 | 一种基于词嵌入的书面语篇多层次差异分析方法 |
CN110287497A (zh) * | 2019-07-03 | 2019-09-27 | 桂林电子科技大学 | 一种英语文本的语义结构连贯分析方法 |
CN111710428A (zh) * | 2020-06-19 | 2020-09-25 | 华中师范大学 | 一种建模全局和局部上下文交互的生物医学文本表示方法 |
Non-Patent Citations (5)
Title |
---|
CAMILLE GUINAUDEAU 等: ""Graph-based Local Coherence Modeling"", 《PROCEEDINGS OF THE 51ST ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
CASPER PETERSEN: ""Entropy and Graph Based Modelling of Document Coherence using Discourse Entities: An Application to IR"", 《ICTIR "15》 * |
刘国兵: ""基于WordNet语义知识库的英语学习者作文局部连贯自动评价"", 《河南师范大学学报(自然科学版)》 * |
张明幺: ""基于事件链的语篇连贯研究"", 《中国博士学位论文全文数据库》 * |
王刚 等: ""面向法律文书的分段式摘要模型"", 《计算机工程》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114970491A (zh) * | 2022-08-02 | 2022-08-30 | 深圳市城市公共安全技术研究院有限公司 | 一种文本衔接性判断方法、装置、电子设备及存储介质 |
CN114970491B (zh) * | 2022-08-02 | 2022-10-04 | 深圳市城市公共安全技术研究院有限公司 | 一种文本衔接性判断方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113553830B (zh) | 2023-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113553830B (zh) | 一种基于图的英语文本句子语篇连贯分析方法 | |
JP4576397B2 (ja) | 評価情報抽出装置、評価情報抽出方法およびそのプログラム | |
Van Gelderen | Where did Late Merge go? Grammaticalization as feature economy | |
Van Cranenburgh et al. | Data-oriented parsing with discontinuous constituents and function tags | |
JP2017059205A (ja) | 主題推定システム、主題推定方法およびプログラム | |
CN110287497B (zh) | 一种英语文本的语义结构连贯分析方法 | |
Jahan et al. | A new approach to animacy detection | |
Kurniawan et al. | Toward a standardized and more accurate Indonesian part-of-speech tagging | |
Gunasekara et al. | Hybrid part of speech tagger for sinhala language | |
JP6260791B2 (ja) | 要求間矛盾判定システム、要求間矛盾判定方法、および、要求間矛盾判定プログラム | |
US10929446B2 (en) | Document search apparatus and method | |
JP5623380B2 (ja) | 誤り文修正装置、誤り文修正方法およびプログラム | |
JP4073015B2 (ja) | 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体 | |
JP6973157B2 (ja) | 議論構造拡張装置、議論構造拡張方法、及びプログラム | |
JP4005477B2 (ja) | 固有表現抽出装置及び方法並びに固有表現抽出プログラム | |
Banga et al. | Tagging efficiency analysis on part of speech taggers | |
Ketzan et al. | What Changed When Andy Weir's The Martian Got Edited?. | |
JP4671440B2 (ja) | 評判関係抽出装置、その方法およびプログラム | |
JP6603610B2 (ja) | 情報処理システム、情報処理方法及びプログラム | |
Putra et al. | The Implementation of Indonesian Stemming System for Indonesian Translation of the Quran | |
Milosevic et al. | Creating a contemporary corpus of similes in Serbian by using natural language processing | |
CN110633474A (zh) | 一种数学算式识别方法、装置、设备及可读存储介质 | |
Scharf | Rule-Blocking and Forward-Looking Conditions in the Computational Modelling of Pāṇinian Derivation | |
Hladek et al. | Morphological analysis of the slovak language | |
JP2007115118A (ja) | 評判情報抽出方法及び装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20211026 Assignee: Guilin ruiweisaide Technology Co.,Ltd. Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY Contract record no.: X2023980046266 Denomination of invention: A Graph Based Coherence Analysis Method for English Text Sentences Granted publication date: 20230103 License type: Common License Record date: 20231108 |