CN113553830A - 一种基于图的英语文本句子语篇连贯分析方法 - Google Patents

一种基于图的英语文本句子语篇连贯分析方法 Download PDF

Info

Publication number
CN113553830A
CN113553830A CN202110917003.1A CN202110917003A CN113553830A CN 113553830 A CN113553830 A CN 113553830A CN 202110917003 A CN202110917003 A CN 202110917003A CN 113553830 A CN113553830 A CN 113553830A
Authority
CN
China
Prior art keywords
sentence
english text
analyzed
semantic
structure chart
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110917003.1A
Other languages
English (en)
Other versions
CN113553830B (zh
Inventor
黄桂敏
李茂林
唐辉
李轶群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202110917003.1A priority Critical patent/CN113553830B/zh
Publication of CN113553830A publication Critical patent/CN113553830A/zh
Application granted granted Critical
Publication of CN113553830B publication Critical patent/CN113553830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于图的英语文本句子语篇连贯分析方法,该分析方法是一个由顺序连接的英语文本句子实体结构图构建模块、英语文本句子语义结构图生成模块、英语文本句子频繁结构图挖掘模块与英语文本句子语篇连贯质量分析模块组成的分析模型。待分析英语文本的句子通过该分析模型处理后,最后能够得到待分析英语文本的句子语篇连贯质量值和句子语篇连贯性评语结果。本发明的方法解决了现有的英语文本句子语篇连贯分析方法,只能分析出英语文本中句子的局部语篇连贯质量,无法分析出英语文本中句子的全局语篇连贯质量,其分析结果比现有的英语文本句子语篇连贯分析方法的分析结果好。

Description

一种基于图的英语文本句子语篇连贯分析方法
技术领域
本发明涉及自然语言处理技术,是一种基于图的英语文本句子语篇连贯分析方法,本发明的分析方法只适用于分析英语文本中句子的语篇连贯质量,不适用于分析中文文本中句子的语篇连贯质量。
背景技术
在英语文本的句子语篇连贯性分析方面,现有的英语文本句子语篇连贯分析方法,只能分析出英语文本中句子的局部语篇连贯质量,无法分析出英语文本中句子的全局语篇连贯质量。因此,本发明提出了一种基于图的英语文本句子语篇连贯分析方法,来解决分析英语文本中句子全局语篇连贯质量的问题。
发明内容
本发明的一种基于图的英语文本句子语篇连贯分析方法的总体处理流程如图1所示,包括:英语文本句子实体结构图构建模块、英语文本句子语义结构图生成模块、英语文本句子频繁结构图挖掘模块与英语文本句子语篇连贯质量分析模块。
本发明的英语文本句子实体结构图构建模块的处理流程为:第一,对于输入的待分析英语文本进行分段、分句、分词和词性标注处理;第二,根据单词词性和句子中单词之间的语义依存关系构建句子的语义句法结构树;第三,识别待分析英语文本句子中实体词,通过检索句子语义句法结构树获取实体词边界,消解实体词之间的共指关系生成实体词的共指链,标注实体词在句子中的语法角色;第四,以节点方式来表示英语文本中的句子,以边方式来表示句子之间语义关系,最终生成包含句子及其之间语义关系的待分析英语文本句子实体结构图。
本发明的英语文本句子语义结构图生成模块的处理流程为:第一,读入待分析英语文本句子实体结构图,将待分析英语文本中句子以向量方式映射到向量语义空间中,并计算待分析英语文本句子语义结构图中句子之间语义相似度;第二,遍历待分析英语文本句子实体结构图中的节点,如果该节点与其他节点的语义相似度大于设定阈值,且在句子实体结构图中这两个节点之间没有边,则在这两节点之间新建一条边,如果句子实体结构图中这两节点之间有边,则计算更新边的权重值;第三,返回第二步直到待分析英语文本句子实体结构图遍历完,最后生成待分析英语文本句子语义结构图。
本发明的英语文本句子频繁结构图挖掘模块的处理流程为:第一,读入待分析英语文本句子语义结构图,以及包含三个节点和四个节点的句子子结构图并生成待分析英语文本句子子结构图集合;第二,遍历生成的待分析英语文本句子子结构图集合,在待分析英语文本句子语义结构图中,查找每个句子子结构图出现次数并累加此次数;第三,当遍历待分析英语文本中所有句子语义结构图时,如果查找到的句子子结构图出现次数大于设定次数值,则查找到的句子子结构图为句子频繁结构图,将查找到的句子子结构图及其次数保存到句子频繁结构图集合中;第四,返回第二步直到待分析英语文本句子子结构图集合遍历完,最后输出待分析英语文本的句子频繁结构图集合。
本发明的英语文本句子语篇连贯性分析模块的处理流程为:第一,读入训练英语文本集,并生成训练英语文本集的句子频繁结构图集合;第二,读入待分析英语文本的句子语义结构图和句子频繁结构图集合,统计待分析英语文本的句子频繁结构图集合中,每个句子频繁结构图在训练英语文本集的句子频繁结构图集合中出现的次数,计算得到英语文本中每个句子频繁结构图的分布概率值;第三,遍历待分析英语文本中句子语义结构图和频繁结构图集合,在待分析英语文本中句子语义结构图中,查找到句子频繁结构图同构的子结构图,并累加同构的子结构图中边的权重值,并计算句子语义结构图和句子频繁结构图同构的子结构图语义值;第四,结合句子的频繁结构图出现的次数、句子的频繁结构图分布概率值、句子语义结构图和句子频繁结构图同构的子结构图语义值,计算待分析英语文本的句子语篇连贯质量值,输出得分析英语文本的句子语篇连贯性评语。
本发明分析方法中的计算公式定义如下:
(1)英语文本句子实体结构图中句子之间边权重值计算公式
Figure BDA0003205994000000021
在公式(1)中,j为实体词编号,N为句子Si和句子SK之间的实体词总数,i和k表示句子Si与句子SK在英语文本中的位置,句子Si在英语文本的句子实体结构图中表示为节点i,句子Sk在英语文本句子实体结构图中表示为节点k
(2)英语文本句子语义结构图中句子之间语义相似度计算公式
Figure BDA0003205994000000022
在公式(2)中,j为句子Si与句子Sk中单词的词向量的编号,N为句子Si与句子Sk中单词的词向量的总数;
(3)英语文本句子语义结构图中句子边权重更新值计算公式
句子Si与句子Sk之间边权重更新值
=系数1×句子Si与句子Sk之间边权重值+系数2×句子Si与句子Sk之间语义相似度 (3)
在公式(3)中,系数1为0.5,系数2为0.5,句子Si与句子SK之间边权重值由公式(1)计算得到,句子Si与句子SK之间语义相似度由公式(2)计算得到;
(4)英语文本句子语义结构图中句子频繁结构图分布概率值计算公式
Figure BDA0003205994000000031
在公式(4)中,M为句子SK的频繁结构图总数,句子SK的频繁结构图i是指句子SK的第i个频繁结构图,句子SK的频繁结构图j是指句子SK的第j个频繁结构图;
(5)英语文本句子频繁结构图中句子的子结构图语义值计算公式
Figure BDA0003205994000000032
在公式(5)中,r为句子SK的语义结构图的编号,i为句子SK的频繁结构图的编号,j为句子SK的语义结构图r与频繁结构图i同构的子结构图中边的编号,Q为句子SK中语义结构图的总数,M为句子SK中频繁结构图的总数,P为句子SK的语义结构图r与频繁结构图i同构的子结构图中边的总数;
(6)英语文本句子语篇连贯质量值计算公式
Figure BDA0003205994000000033
在公式(6)中,k为待分析英语文本中句子的编号,i为待分析英语文本中句子SK中频繁结构图的编号,N为待分析英语文本中句子的总数,M为句子SK中频繁结构图的总数,句子SK的频繁结构图i分布概率值由公式(4)计算得到,句子SK的子图语义值由公式(5)计算得到。
本发明的具体处理步骤
如图2所示,英语文本句子实体结构图构建模块处理流程如下:
P201开始;
P202输入待分析英语文本;
P203对待分析英语文本进行分段、分句、分词、单词词性标注处理;
P204根据单词词性和句子中单词之间的语义依存关系构建句子的语义句法结构树;
P205识别待分析英语文本句子中实体词,通过检索句子语义句法结构树获取实体词边界;
P206消解实体词之间的共指关系生成实体词的共指链,标注实体词在句子中的语法角色;
P207生成待分析英语文本中实体词的共指链集合和实体词的语法角色集合;
P208遍历待分析英语文本中实体词的共指链集合;
P209判断当前实体词与其后面的共指实体词是否处于不同的句子中,如果是则转至P210操作,否则转至P208操作;
P210根据待分析英语文本中的句子总数,创建一个句子实体结构图,用节点表示待分析英语文本中的句子,并对其进行初始化;
P211分别在当前实体词所在节点与其他共指实体词所处的节点之间建立一条边;
P212在语法角色标注集合中查找当前实体词与共指实体词的语法角色,根据公式(1)计算句子之间边权重值,将该边添加到句子实体结构图中;
P213判断共指链中实体词集合是否遍历完,如果是则转至P214操作,否则转至P208操作;
P214判断共指链集合是否遍历完,如果是则转至P215操作,否则转至P208操作;
P215将实体结构图中具有相同起点和终点的边进行合并;
P216输出待分析英语文本的句子实体结构图;
P217结束。
如图3所示,英语文本句子语义结构图生成模块处理流程如下:
P301开始;
P302读入待分析英语文本的句子实体结构图;
P303将待分析英语文本中句子以向量方式映射到向量语义空间中;
P304利用公式(2)计算待分析英语文本句子语义结构图中句子之间语义相似度并将结果保存;
P305遍历待分析英语文本句子实体结构图中的节点;
P306如果该节点与其他节点的语义相似度大于设定阈值,且在句子实体结构图中这两个节点之间没有边,则在这两节点之间新建一条边,否则利用公式(3)计算这两个节点之间边的更新权重值;
P307判断句子实体结构图中节点集合是否遍历完;如果是则转至P308操作,否则转至P305操作;
P308生成待分析英语文本的句子语义结构图;
P309结束。
如图4所示,英语文本句子频繁结构图集挖掘模块处理流程如下:
P401开始;
P402读入待分析英语文本的句子语义结构图,三个节点和四个节点的句子子结构图,并生成待分析英语文本句子子结构图集合;
P403从待分析英语文本句子子结构图集合中读取一个句子子结构图;
P404在待分析英语文本句子语义结构图中,查找读取的句子子结构图出现次数,并累加此次数;
P405如果该句子子结构图出现次数大于设定次数值,则保存该句子子结构图及其次数保存到句子频繁结构图集合中,否则转至P406操作;
P406判断待分析英语文本句子子结构图集合中句子子结构图是否读取完,如果是则转P407操作,否则转P403操作;
P407输出待分析英语文本的句子频繁结构图集合;
P408结束。
如图5所示,英语文本句子语篇连贯性分析模块处理流程如下:
P501开始;
P502读入训练英语文本集,并生成训练英语文本集的句子频繁结构图集合;
P503读入待分析英语文本的句子频繁结构图集合;
P504统计待分析英语文本的句子频繁结构图集合中,每个句子频繁结构图在训练英语文本集的句子频繁结构图集合中出现的次数;
P505利用公式(4)计算得到英语文本中每个句子频繁结构图的分布概率值;
P506读入待分析英语文本的句子语义结构图,并统计句子语义结构图中句子的总数;P507从待分析英语文本的句子频繁结构图集合中读取一个句子频繁结构图;
P508在待分析英语文本的句子语义结构图中,查找该句子频繁结构图同构的子结构图,并累加同构的子结构图中边的权重值;
P509利用公式(5)计算句子语义结构图和句子频繁结构图同构的子结构图语义值;
P510判断待分析英语文本的句子频繁结构图集合是否读取完;如果是则转至P511操作,否则转至P507操作;
P511利用公式(6)计算待分析英语文本句子语篇连贯质量值;
P512输出待分析英语文本句子语篇连贯质量值和句子语篇连贯性评语结果;
P513结束。
本发明基于图的英语文本句子语篇连贯分析方法,待分析英语文本的句子通过该分析方法处理后,最后能够得到待分析英语文本的句子语篇连贯质量值和句子语篇连贯性评语结果。本发明的方法解决了现有的英语文本句子语篇连贯分析方法,只能分析出英语文本中句子的局部语篇连贯质量,无法分析出英语文本中句子的全局语篇连贯质量,其分析结果比现有的英语文本句子语篇连贯分析方法的分析结果好。
附图说明
图1是本发明的总体处理流程图;
图2是本发明的英语文本句子实体结构图构建模块处理流程图;
图3是本发明的英语文本句子语义结构图生成模块处理流程图;
图4是本发明的英语文本句子频繁结构图挖掘模块处理流程图;
图5是本发明的英语文本句子语篇连贯性分析模块处理流程图。
具体实施方式
下面结合实施例和附图对本发明内容作进一步的说明,但不是对本发明的限定。
实施例
本发明实施例中的待分析英语文本取自于学生英语六级作文,作文题目为“Is itnecessary to make a law to prohibit smoking in restaurants”。基于该英语文本句子语篇连贯分析方法,包括如下步骤:
第一步骤:执行“英语文本句子实体结构图构建模块”
(1)输入的待分析英语文本如下所示:
Recently,some people appeal the government to make a new law to banpeople smoking in restaurants.More and more people are beginning to talkabout this matter.Everyone has different opinions on whether it is necessaryto completely ban smoking in restaurants.
In my opinion,smoking should be completely banned at all therestaurants.On one hand,as we all known,smoking is bad for our health,nomatter we are smoker or people who don't smoke but breathe the smoke in theair.The harmful things in cigarette are not only do harm to our lungs butalso our brains.To keep our body more health,we should not smoke.On the otherhand,restaurants are public places,a large number of people eat meat in thereevery day.For us who extremely don't like smell the flavor of smoking,it is aloathed thing that smells the smoke.And it is harmful to our health,especially to the children.What's more,a survey shows that if people smokewhen they are eating the bad effect will enormously than other times.So weshould forbid smoking at all the restaurants.Since that case,I believe thatit is a good thing to ban smoking at the restaurants in the country.Becausenot only us dislike smoking but also the smokers will benefit a lot fromit.And it can also help those people who want to give up smoking to keep awayfrom the cigarette.
(2)对待分析英语文本进行词性标注后的结果如下所示:
Recently/RB,/,some/DT people/NNS appeal/VBP the/DT government/NN to/TO make/VB a/DT new/JJ law/NN to/TO ban/VB people/NNS smoking/VBG in/INrestaurants/NNS./.More/RBR and/CC more/RBR people/NNS are/VBP beginning/VBGto/TO talk/VB about/IN this/DT matter/NN./.Everyone/NN has/VBZ different/JJopinions/NNS on/IN whether/IN it/PRP is/VBZ necessary/JJ to/TO completely/RB ban/VB smoking/NN in/IN restaurants/NNS./.
In/IN my/PRP$opinion/NN,/,smoking/NN should/MD be/VB completely/RBbanned/VBN at/IN all/PDT the/DT restaurants/NNS./.On/IN one/CD hand/NN,/,as/IN we/PRP all/RB known/VBN,/,smoking/NN is/VBZ bad/JJ for/IN our/PRP$health/NN,/,no/RB matter/RB we/PRP are/VBP smoker/NN or/CC people/NNS who/WP do/VBPn't/RB smoke/VB but/CC breathe/VB the/DT smoke/NN in/IN the/DT air/NN./.The/DT harmful/JJ things/NNS in/IN cigarette/NN are/VBP not/RB only/RB do/VBharm/NN to/IN our/PRP$lungs/NNS but/CC also/RB our/PRP$brains/NNS./.To/TOkeep/VB our/PRP$body/NN more/JJR health/NN,/,we/PRP should/MD not/RB smoke/VB./.On/IN the/DT other/JJ hand/NN,/,restaurants/NNS are/VBP public/JJplaces/NNS,/,a/DT large/JJ number/NN of/IN people/NNS eat/VBP meat/NN in/INthere/RB every/DT day/NN./.For/IN us/PRP who/WP extremely/RB do/VBP n't/RBlike/VB smell/VB the/DT flavor/NN of/IN smoking/NN,/,it/PRP is/VBZ a/DTloathed/JJ thing/NN that/WDT smells/VBZ the/DT smoke/NN./.And/CC it/PRP is/VBZ harmful/JJ to/IN our/PRP$health/NN,/,especially/RB to/IN the/DT children/NNS./.What/WP's/VBZ more/JJR,/,a/DT survey/NN shows/VBZ that/IN if/IN people/NNS smoke/VBP when/WRB they/PRP are/VBP eating/VBG the/DT bad/JJ effect/NNwill/MD enormously/VB than/IN other/JJ times/NNS./.So/RB we/PRP should/MDforbid/VB smoking/NN at/IN all/PDT the/DT restaurants/NNS./.Since/IN that/DTcase/NN,/,I/PRP believe/VBP that/IN it/PRP is/VBZ a/DT good/JJ thing/NN to/TOban/VB smoking/NN at/IN the/DT restaurants/NNS in/IN the/DT country/NN./.Because/IN not/RB only/RB us/PRP dislike/VBP smoking/NN but/CC also/RB the/DT smokers/NNS will/MD benefit/VB a/DT lot/NN from/IN it/PRP./.And/CC it/PRPcan/MD also/RB help/VB those/DT people/NNS who/WP want/VBP to/TO give/VB up/RP smoking/NN to/TO keep/VB away/RP from/IN the/DT cigarette/NN./.
(3)对待分析英语文本进行词性标注后,对句子语义依存关系识别结果如下所示:
advmod(appeal-5,Recently-1)det(people-4,some-3)nsubj(appeal-5,people-4)root(ROOT-0,appeal-5)det(government-7,the-6)obj(appeal-5,government-7)mark(make-9,to-8)advcl(appeal-5,make-9)det(law-12,a-10)amod(law-12,new-11)obj(make-9,law-12)mark(ban-14,to-13)advcl(make-9,ban-14)obj(ban-14,people-15)acl(people-15,smoking-16)case(restaurants-18,in-17)obl(smoking-16,restaurants-18)
advmod(beginning-6,More-1)cc(more-3,and-2)conj(More-1,more-3)nsubj(beginning-6,people-4)aux(beginning-6,are-5)root(ROOT-0,beginning-6)mark(talk-8,to-7)xcomp(beginning-6,talk-8)case(matter-11,about-9)det(matter-11,this-10)obl(talk-8,matter-11)
nsubj(has-2,Everyone-1)root(ROOT-0,has-2)amod(opinions-4,different-3)obj(has-2,opinions-4)mark(necessary-9,on-5)mark(necessary-9,whether-6)nsubj(necessary-9,it-7)cop(necessary-9,is-8)acl(opinions-4,necessary-9)mark(ban-12,to-10)advmod(ban-12,completely-11)xcomp(necessary-9,ban-12)obj(ban-12,smoking-13)case(restaurants-15,in-14)obl(ban-12,restaurants-15)
case(opinion-3,In-1)nmod:poss(opinion-3,my-2)obl(banned-9,opinion-3)nsubj:pass(banned-9,smoking-5)aux(banned-9,should-6)aux:pass(banned-9,be-7)advmod(banned-9,completely-8)root(ROOT-0,banned-9)case(restaurants-13,at-10)det:predet(restaurants-13,all-11)det(restaurants-13,the-12)obl(banned-9,restaurants-13)
case(hand-3,On-1)nummod(hand-3,one-2)obl(smoker-21,hand-3)mark(bad-12,as-5)nsubj(known-8,we-6)advmod(known-8,all-7)parataxis(bad-12,known-8)nsubj(bad-12,smoking-10)cop(bad-12,is-11)advcl(smoker-21,bad-12)case(health-15,for-13)nmod:poss(health-15,our-14)obl(bad-12,health-15)advmod(matter-18,no-17)advmod(smoker-21,matter-18)nsubj(smoker-21,we-19)cop(smoker-21,are-20)root(ROOT-0,smoker-21)cc(people-23,or-22)conj(smoker-21,people-23)nsubj(smoke-27,who-24)aux(smoke-27,do-25)advmod(smoke-27,n't-26)acl:relcl(smoker-21,smoke-27)cc(breathe-29,but-28)conj(smoke-27,breathe-29)det(smoke-31,the-30)obj(smoke-27,smoke-31)case(air-34,in-32)det(air-34,the-33)obl(smoke-27,air-34)
det(things-3,The-1)amod(things-3,harmful-2)nsubj(do-9,things-3)case(cigarette-5,in-4)nmod(things-3,cigarette-5)cop(do-9,are-6)advmod(only-8,not-7)cc:preconj(do-9,only-8)root(ROOT-0,do-9)obj(do-9,harm-10)case(lungs-13,to-11)nmod:poss(lungs-13,our-12)obl(do-9,lungs-13)cc(brains-17,but-14)advmod(brains-17,also-15)nmod:poss(brains-17,our-16)conj(do-9,brains-17)
mark(keep-2,To-1)advcl(smoke-11,keep-2)nmod:poss(body-4,our-3)dep(keep-2,body-4)amod(health-6,more-5)obj(keep-2,health-6)nsubj(smoke-11,we-8)aux(smoke-11,should-9)advmod(smoke-11,not-10)root(ROOT-0,smoke-11)
case(hand-4,On-1)det(hand-4,the-2)amod(hand-4,other-3)obl(eat-16,hand-4)nsubj(places-9,restaurants-6)cop(places-9,are-7)amod(places-9,public-8)parataxis(eat-16,places-9)det(number-13,a-11)amod(number-13,large-12)nsubj(eat-16,number-13)case(people-15,of-14)nmod(number-13,people-15)root(ROOT-0,eat-16)obj(eat-16,meat-17)case(hand-4,in-18)advmod(day-21,there-19)det(day-21,every-20)obl:tmod(eat-16,day-21)
case(us-2,For-1)obl(thing-18,us-2)nsubj(like-7,who-3)advmod(like-7,extremely-4)aux(like-7,do-5)advmod(like-7,n't-6)acl:relcl(us-2,like-7)ccomp(like-7,smell-8)det(flavor-10,the-9)obj(smell-8,flavor-10)case(smoking-12,of-11)nmod(flavor-10,smoking-12)nsubj(thing-18,it-14)cop(thing-18,is-15)det(thing-18,a-16)amod(thing-18,loathed-17)root(ROOT-0,thing-18)nsubj(smells-20,that-19)acl:relcl(thing-18,smells-20)det(smoke-22,the-21)obj(smells-20,smoke-22)
cc(harmful-4,And-1)nsubj(harmful-4,it-2)cop(harmful-4,is-3)root(ROOT-0,harmful-4)case(health-7,to-5)nmod:poss(health-7,our-6)advcl(harmful-4,health-7)dep(health-7,especially-9)case(children-12,to-10)det(children-12,the-11)obl(health-7,children-12)
nsubj(more-3,What-1)cop(more-3,'s-2)advcl(shows-7,more-3)det(survey-6,a-5)nsubj(shows-7,survey-6)root(ROOT-0,shows-7)mark(enormously-20,that-8)mark(smoke-11,if-9)nsubj(smoke-11,people-10)csubj(enormously-20,smoke-11)advmod(eating-15,when-12)nsubj(eating-15,they-13)aux(eating-15,are-14)advcl(smoke-11,eating-15)det(effect-18,the-16)amod(effect-18,bad-17)obj(eating-15,effect-18)aux(enormously-20,will-19)ccomp(shows-7,enormously-20)case(times-23,than-21)amod(times-23,other-22)obl(enormously-20,times-23)
advmod(forbid-4,So-1)nsubj(forbid-4,we-2)aux(forbid-4,should-3)root(ROOT-0,forbid-4)obj(forbid-4,smoking-5)case(restaurants-9,at-6)det:predet(restaurants-9,all-7)det(restaurants-9,the-8)obl(forbid-4,restaurants-9)
case(case-3,Since-1)det(case-3,that-2)obl(believe-6,case-3)nsubj(believe-6,I-5)root(ROOT-0,believe-6)mark(thing-12,that-7)nsubj(thing-12,it-8)cop(thing-12,is-9)det(thing-12,a-10)amod(thing-12,good-11)ccomp(believe-6,thing-12)mark(ban-14,to-13)acl(thing-12,ban-14)obj(ban-14,smoking-15)case(restaurants-18,at-16)det(restaurants-18,the-17)obl(ban-14,restaurants-18)case(country-21,in-19)det(country-21,the-20)nmod(restaurants-18,country-21)
mark(not-2,Because-1)advcl(dislike-5,not-2)advmod(dislike-5,only-3)nsubj(dislike-5,us-4)root(ROOT-0,dislike-5)obj(dislike-5,smoking-6)cc(benefit-12,but-7)advmod(benefit-12,also-8)det(smokers-10,the-9)nsubj(benefit-12,smokers-10)aux(benefit-12,will-11)conj(dislike-5,benefit-12)det(lot-14,a-13)obj(benefit-12,lot-14)case(it-16,from-15)obl(benefit-12,it-16)
cc(help-5,And-1)nsubj(help-5,it-2)aux(help-5,can-3)advmod(help-5,also-4)root(ROOT-0,help-5)det(people-7,those-6)obj(help-5,people-7)nsubj(want-9,who-8)acl:relcl(people-7,want-9)mark(give-11,to-10)xcomp(want-9,give-11)compound:prt(give-11,up-12)obj(give-11,smoking-13)mark(keep-15,to-14)advcl(give-11,keep-15)compound:prt(keep-15,away-16)case(cigarette-19,from-17)det(cigarette-19,the-18)obl(keep-15,cigarette-19)
(4)对英语文本进行句法结构分析处理后,生成的句子语义句法结构树如下所示:
(ROOT(S(ADVP(RB Recently))(,,)(NP(DT some)(NNS people))(VP(VBPappeal)(NP(DT the)(NN government))(S(VP(TO to)(VP(VB make)(NP(DT a)(JJ new)(NN law))(S(VP(TO to)(VP(VB ban)(NP(NP(NNS people))(VP(VBG smoking)(PP(IN in)(NP(NNS restaurants))))))))))))(..)))(ROOT(S(ADVP(RBR More)(CC and)(RBRmore))(NP(NNS people))(VP(VBP are)(VP(VBG beginning)(S(VP(TO to)(VP(VB talk)(PP(IN about)(NP(DT this)(NN matter))))))))(..)))(ROOT(S(NP(NN Everyone))(VP(VBZ has)(NP(NP(JJ different)(NNS opinions))(PP(IN on)(SBAR(IN whether)(S(NP(PRP it)(VP(VBZ is)(ADJP(JJ necessary)(S(VP(TO to)(ADVP(RB completely))(VP(VBban)(NP(NN smoking))(PP(IN in)(NP(NNS restaurants)))))))))))))(..)))
(ROOT(S(PP(IN In)(NP(PRP$my)(NN opinion)))(,,)(NP(NN smoking))(VP(MDshould)(VP(VB be)(ADVP(RB completely))(VP(VBN banned)(PP(IN at)(NP(PDT all)(DT the)(NNS restaurants))))))(..)))(ROOT(S(PP(IN On)(NP(CD one)(NN hand)))(,,)(SBAR(IN as)(S(PRN(S(NP(PRP we))(RB all)(VP(VBN known))))(,,)(NP(NNsmoking))(VP(VBZ is)(ADJP(JJ bad)(PP(IN for)(NP(PRP$our)(NN health)))))))(,,)(ADVP(RB no)(RB matter))(NP(PRP we))(VP(VBP are)(NP(NP(NN smoker)(CC or)(NNSpeople))(SBAR(WHNP(WP who))(S(VP(VBP do)(RB n't)(VP(VB smoke)(CC but)(VBbreathe)(NP(DT the)(NN smoke))(PP(IN in)(NP(DT the)(NN air)))))))))(..)))(ROOT(S(NP(NP(DT The)(JJ harmful)(NNS things))(PP(IN in)(NP(NN cigarette))))(VP(VBP are)(NP(CONJP(RB not)(RB only))(S(VP(VB do)(NP(NN harm))(PP(IN to)(NP(PRP$our)(NNS lungs)))))(CONJP(CC but)(RB also))(NP(PRP$our)(NNS brains))))(..)))(ROOT(S(S(VP(TO To)(VP(VB keep)(NP(PRP$our)(NN body))(NP(JJR more)(NNhealth)))))(,,)(NP(PRP we))(VP(MD should)(RB not)(VP(VB smoke)))(..)))(ROOT(S(PP(IN On)(NP(DT the)(JJ other)(NN hand)))(PRN(,,)(S(NP(NNS restaurants))(VP(VBP are)(NP(JJ public)(NNS places))))(,,))(NP(NP(DT a)(JJ large)(NN number))(PP(IN of)(NP(NNS people))))(VP(VBP eat)(NP(NN meat))(PP(IN in))(NP(ADVP(RBthere))(DT every)(NN day)))(..)))(ROOT(S(PP(IN For)(NP(NP(PRP us))(SBAR(WHNP(WP who))(S(ADVP(RB extremely))(VP(VBP do)(RB n't)(VP(VB like)(S(VP(VB smell)(NP(NP(DT the)(NN flavor))(PP(IN of)(NP(NN smoking))))))))))))(,,)(NP(PRPit))(VP(VBZ is)(NP(NP(DT a)(JJ loathed)(NN thing))(SBAR(WHNP(WDT that))(S(VP(VBZ smells)(NP(DT the)(NN smoke)))))))(..)))(ROOT(S(CC And)(NP(PRP it))(VP(VBZ is)(ADJP(JJ harmful)(PP(PP(IN to)(NP(PRP$our)(NN health)))(,,)(RBespecially)(PP(IN to)(NP(DT the)(NNS children))))))(..)))(ROOT(S(SBAR(WHNP(WPWhat))(S(VP(VBZ's)(ADJP(JJR more)))))(,,)(NP(DT a)(NN survey))(VP(VBZ shows)(SBAR(IN that)(S(SBAR(IN if)(S(NP(NNS people))(VP(VBP smoke)(SBAR(WHADVP(WRBwhen))(S(NP(PRP they))(VP(VBP are)(VP(VBG eating)(NP(DT the)(JJ bad)(NNeffect)))))))))(VP(MD will)(VP(VB enormously)(PP(IN than)(NP(JJ other)(NNStimes))))))))(..)))(ROOT(S(ADVP(RB So))(NP(PRP we))(VP(MD should)(VP(VBforbid)(NP(NN smoking))(PP(IN at)(NP(PDT all)(DT the)(NNS restaurants)))))(..)))(ROOT(S(PP(IN Since)(NP(DT that)(NN case)))(,,)(NP(PRP I))(VP(VBPbelieve)(SBAR(IN that)(S(NP(PRP it))(VP(VBZ is)(NP(DT a)(JJ good)(NN thing)(S(VP(TO to)(VP(VB ban)(NP(NN smoking))(PP(IN at)(NP(NP(DTthe)(NNSrestaurants))(PP(IN in)(NP(DT the)(NN country)))))))))))))(..)))(ROOT(S(S(SBAR(IN Because)(FRAG(RB not)))(ADVP(RB only))(NP(PRP us))(VP(VBP dislike)(NP(NN smoking))))(CC but)(S(ADVP(RB also))(NP(DT the)(NNS smokers))(VP(MDwill)(VP(VB benefit)(NP(DT a)(NN lot))(PP(IN from)(NP(PRP it))))))(..)))(ROOT(S(CC And)(NP(PRP it))(VP(MD can)(ADVP(RB also))(VP(VB help)(NP(NP(DT those)(NNS people))(SBAR(WHNP(WP who))(S(VP(VBP want)(S(VP(TO to)(VP(VB give)(PRT(RP up))(NP(NN smoking))(S(VP(TO to)(VP(VB keep)(PRT(RP away))(PP(IN from)(NP(DT the)(NN cigarette)))))))))))))))(..)))
(5)对待分析英语文本中实体词的语法角色标注结果如下所示:
[some people]/S,[the government]/O,[a new law]/O,[people]/X,[restaurants]/X,[More and more people]/S,[this matter]/X,[Everyone]/S,[different opinions]/O,[it]/S,[smoking]/X,[restaurants]/X
[my opinion]/X,[smoking]/S,[the restaurants]/X,[one hand]/X,[we]/S,[smoking]/S,[our health]/X,[we]/S,[smoker or people]/O,[the smoke]/X,[theair]/X,[The harmful things]/S,[cigarette]/X,[our lungs]/X,[our brains]/X,[ourbody more health]/X,[we]/S,[the other hand]/X,[restaurants]/S,[publicplaces]/O,[a large number of people]/S,[meat]/O,[every day]/X,[us]/S,[smoking]/O,[it]/S,[a loathed thing]/S,[the smoke]/O,[it]/S,[our health]/X,[children]/X,[a survey]/S,[people]/X,[they]/S,[the bad effect]/O,[we]/S,[smoking]/O,[all the restaurants]/X,[case]/X,[I]/S,[it]/S,[a good thing]/X,[smoking]/O,[the restaurants]/X,[the country]/X,[us]/S,[smoking]/O,[thesmokers]/S,[it]/X,[it]/S,[those people]/O,[smoking]/X,[the cigarette]/X.
(6)构建的待分析英语文本句子实体结构结果如下所示:
①待分析英语文本第一段落句子实体结构结果如下所示:
0-(0.74)->1,0-(0.31)->2
②待分析英语文本第二段落句子实体结构结果如下所示:
0-(0.51)->1,1-(0.38)->3,1-(0.31)->5,1-(0.18)->8,3-(0.37)->5,3-(0.15)->8,5-(0.74)->6,5-(0.36)->8,5-(0.27)->9,5-(0.25)->10,6-(0.25)->9,6-(0.15)->11,8-(0.38)->9,8-(0.55)->10,9-(0.49)->10,9-(0.37)->11,10-(0.14)->11
第二步骤:执行“英语文本句子语义结构图生成模块”
(1)生成的待分析英语文本句子语义结构结果如下所示:
①待分析英语文本第一段落句子语义结构结果如下所示:
0-(0.74)->1,0-(0.31)->2.
②待分析英语文本第二段落句子语义结构结果如下所示:
0-(0.51)->1,1-(0.38)->3,1-(0.31)->5,1-(0.18)->8,3-(0.37)->5,3-(0.15)->8,5-(0.74)->6,5-(0.36)->8,5-(0.27)->9,5-(0.25)->10,6-(0.25)->9,6-(0.15)->11,8-(0.38)->9,8-(0.55)->10,9-(0.49)->10,9-(0.37)->11,10-(0.14)->11
第三步骤:执行“英语文本句子频繁结构图挖掘模块”
(1)挖掘出的待分析英语文本句子频繁结构结果如下所示:
Sg1:S1->S2,S1->S3;Sg2:S1->S2,S2->S3;Sg3:S1->S3,S2->S3;Sg4:S1->S2,S1->S3,S2->S3;Sg5:S1->S2,S1->S3,S1->S4,S2->S3,S2->S4,S3->S4;Sg6:S1->S2,S1->S3,S1->S4,S2->S3,S2->S4;Sg7:S1->S2,S1->S3,S1->S4,S2->S3,S3->S4;Sg8:S1->S2,S1->S3,S2->S3,S2->S4,S3->S4;Sg9:S1->S2,S1->S4,S2->S3,S2->S4,S3->S4;Sg10:S1->S3,S2->S3,S2->S4,S3->S4;Sg11:S1->S2,S2->S3,S2->S4,S3->S4;Sg12:S1->S4,S2->S3,S2->S4,S3->S4;Sg13:S1->S2,S1->S3,S2->S3,S2->S4;Sg14:S1->S2,S1->S4,S2->S3,S2->S4;Sg15:S1->S2,S1->S3,S2->S3,S3->S4;Sg16:S1->S3,S1->S4,S2->S3,S3->S4;Sg17:S1->S2,S1->S4,S2->S4,S3->S4;Sg18:S1->S3,S1->S4,S2->S4,S3->S4;Sg19:S1->S2,S1->S3,S1->S4,S3->S4;Sg20:S1->S2,S1->S3,S1->S4,S2->S4;Sg21:S1->S2,S1->S3,S1->S4,S2->S3;Sg22:S1->S2,S1->S3,S3->S4;Sg23:S1->S3,S1->S4,S3->S4;Sg24:S1->S2,S1->S4,S3->S4;Sg25:S1->S3,S1->S4,S2->S3;Sg26:S1->S2,S1->S4,S2->S3;Sg27:S1->S4,S2->S3,S2->S4;Sg28:S1->S3,S2->S3,S2->S4;Sg29:S1->S2,S2->S3,S2->S4;Sg30:S1->S2,S2->S3,S3->S4
第四步骤:执行“英语文本句子语篇连贯性分析模块”
(1)待分析英语文本的句子语篇连贯质量值和句子语篇连贯性评语如下:
待分析英语文本的句子语篇连贯质量值为:0.7271。
待分析英语文本的句子语篇连贯性评语为:待分析英语文本整体过渡较为自然流畅,句间语义联系较为紧密,连贯性较好。

Claims (8)

1.一种基于图的英语文本句子语篇连贯分析方法,其特征是:包括一个由顺序连接的英语文本句子实体结构图构建模块、英语文本句子语义结构图生成模块、英语文本句子频繁结构图挖掘模块与英语文本句子语篇连贯质量分析模块组成的分析模型,其分析方法包括如下步骤:
(1)英语文本句子实体结构图构建模块的处理流程为:
第一,对于输入的待分析英语文本进行分段、分句、分词和词性标注处理;
第二,根据单词词性和句子中单词之间的语义依存关系构建句子的语义句法结构树;
第三,识别待分析英语文本句子中实体词,通过检索句子语义句法结构树获取实体词边界,消解实体词之间的共指关系生成实体词的共指链,标注实体词在句子中的语法角色;
第四,以节点方式来表示英语文本中的句子,以边方式来表示句子之间语义关系,最终生成包含句子及其之间语义关系的待分析英语文本句子实体结构图;
(2)英语文本句子语义结构图生成模块的处理流程为:
第一,读入待分析英语文本句子实体结构图,将待分析英语文本中句子以向量方式映射到向量语义空间中,并计算待分析英语文本句子语义结构图中句子之间语义相似度;
第二,遍历待分析英语文本句子实体结构图中的节点,如果该节点与其他节点的语义相似度大于设定阈值,且在句子实体结构图中这两个节点之间没有边,则在这两节点之间新建一条边,如果句子实体结构图中这两节点之间有边,则计算更新边的权重值;
第三,返回第二步直到待分析英语文本句子实体结构图遍历完,最后生成待分析英语文本句子语义结构图;
(3)英语文本句子频繁结构图挖掘模块的处理流程为:
第一,读入待分析英语文本句子语义结构图,以及包含三个节点和四个节点的句子子结构图并生成待分析英语文本句子子结构图集合;
第二,遍历生成的待分析英语文本句子子结构图集合,在待分析英语文本句子语义结构图中,查找每个句子子结构图出现次数并累加此次数;
第三,当遍历待分析英语文本中所有句子语义结构图时,如果查找到的句子子结构图出现次数大于设定次数值,则查找到的句子子结构图为句子频繁结构图,将查找到的句子子结构图及其次数保存到句子频繁结构图集合中;
第四,返回第二步直到待分析英语文本句子子结构图集合遍历完,最后输出待分析英语文本的句子频繁结构图集合;
(4)英语文本句子语篇连贯性分析模块的处理流程为:
第一,读入训练英语文本集,并生成训练英语文本集的句子频繁结构图集合;
第二,读入待分析英语文本的句子语义结构图和句子频繁结构图集合,统计待分析英语文本的句子频繁结构图集合中,每个句子频繁结构图在训练英语文本集的句子频繁结构图集合中出现的次数,计算得到英语文本中每个句子频繁结构图的分布概率值;
第三,遍历待分析英语文本中句子语义结构图和频繁结构图集合,在待分析英语文本中句子语义结构图中,查找到句子频繁结构图同构的子结构图,并累加同构的子结构图中边的权重值,并计算句子语义结构图和句子频繁结构图同构的子结构图语义值;
第四,结合句子的频繁结构图出现的次数、句子的频繁结构图分布概率值、句子语义结构图和句子频繁结构图同构的子结构图语义值,计算待分析英语文本的句子语篇连贯质量值,输出得分析英语文本的句子语篇连贯性评语。
2.根据权利要求1所述的的分析方法,其特征是:所述英语文本句子实体结构图构建模块的计算公式定义如下:
(1)英语文本句子实体结构图中句子之间边权重值计算公式
Figure FDA0003205993990000021
在公式(1)中,j为实体词编号,N为句子Si和句子SK之间的实体词总数,i和k表示句子Si与句子SK在英语文本中的位置,句子Si在英语文本的句子实体结构图中表示为节点i,句子Sk在英语文本句子实体结构图中表示为节点k
3.根据权利要求2所述的分析方法,其特征是:所述的英语文本句子实体结构图构建模块处理流程如下:
P201开始;
P202输入待分析英语文本;
P203对待分析英语文本进行分段、分句、分词、单词词性标注处理;
P204根据单词词性和句子中单词之间的语义依存关系构建句子的语义句法结构树;
P205识别待分析英语文本句子中实体词,通过检索句子语义句法结构树获取实体词边界;
P206消解实体词之间的共指关系生成实体词的共指链,标注实体词在句子中的语法角色;
P207生成待分析英语文本中实体词的共指链集合和实体词的语法角色集合;
P208遍历待分析英语文本中实体词的共指链集合;
P209判断当前实体词与其后面的共指实体词是否处于不同的句子中,如果是则转至P210操作,否则转至P208操作;
P210根据待分析英语文本中的句子总数,创建一个句子实体结构图,用节点表示待分析英语文本中的句子,并对其进行初始化;
P211分别在当前实体词所在节点与其他共指实体词所处的节点之间建立一条边;
P212在语法角色标注集合中查找当前实体词与共指实体词的语法角色,根据公式(1)计算句子之间边权重值,将该边添加到句子实体结构图中;
P213判断共指链中实体词集合是否遍历完,如果是则转至P214操作,否则转至P208操作;
P214判断共指链集合是否遍历完,如果是则转至P215操作,否则转至P208操作;
P215将实体结构图中具有相同起点和终点的边进行合并;
P216输出待分析英语文本的句子实体结构图;
P217结束。
4.根据权利要求1所述的分析方法,其特征是:所述英语文本句子语义结构图生成模块的计算公式定义如下:
(1)英语文本句子语义结构图中句子之间语义相似度计算公式
Figure FDA0003205993990000031
在公式(2)中,j为句子Si与句子Sk中单词的词向量的编号,N为句子Si与句子Sk中单词的词向量的总数;
(2)英语文本句子语义结构图中句子边权重更新值计算公式
句子Si与句子Sk之间边权重更新值
=系数1×句子Si与句子Sk之间边权重值+系数2×句子Si与句子Sk之间语义相似度 (3)
在公式(3)中,系数1为0.5,系数2为0.5,句子Si与句子SK之间边权重值由公式(1)计算得到,句子Si与句子SK之间语义相似度由公式(2)计算得到。
5.根据权利要求4所述的分析方法,其特征是:所述的英语文本句子语义结构图生成模块处理流程如下:
P301开始;
P302读入待分析英语文本的句子实体结构图;
P303将待分析英语文本中句子以向量方式映射到向量语义空间中;
P304利用公式(2)计算待分析英语文本句子语义结构图中句子之间语义相似度并将结果保存;
P305遍历待分析英语文本句子实体结构图中的节点;
P306如果该节点与其他节点的语义相似度大于设定阈值,且在句子实体结构图中这两个节点之间没有边,则在这两节点之间新建一条边,否则利用公式(3)计算这两个节点之间边的更新权重值;
P307判断句子实体结构图中节点集合是否遍历完;如果是则转至P308操作,否则转至P305操作;
P308生成待分析英语文本的句子语义结构图;
P309结束。
6.根据权利要求1所述的分析方法,其特征是:所述的英语文本句子频繁结构图集挖掘模块处理流程如下:
P401开始;
P402读入待分析英语文本的句子语义结构图,三个节点和四个节点的句子子结构图,并生成待分析英语文本句子子结构图集合;
P403从待分析英语文本句子子结构图集合中读取一个句子子结构图;
P404在待分析英语文本句子语义结构图中,查找读取的句子子结构图出现次数,并累加此次数;
P405如果该句子子结构图出现次数大于设定次数值,则保存该句子子结构图及其次数保存到句子频繁结构图集合中,否则转至P406操作;
P406判断待分析英语文本句子子结构图集合中句子子结构图是否读取完,如果是则转P407操作,否则转P403操作;
P407输出待分析英语文本的句子频繁结构图集合;
P408结束。
7.根据权利要求1所述的的分析方法,其特征是:所述英语文本句子语篇连贯性分析模块的计算公式定义如下:
(1)英语文本句子语义结构图中句子频繁结构图分布概率值计算公式
Figure FDA0003205993990000041
在公式(4)中,M为句子SK的频繁结构图总数,句子SK的频繁结构图i是指句子SK的第i个频繁结构图,句子SK的频繁结构图j是指句子SK的第j个频繁结构图;
(2)英语文本句子频繁结构图中句子的子结构图语义值计算公式
Figure FDA0003205993990000042
在公式(5)中,r为句子SK的语义结构图的编号,i为句子SK的频繁结构图的编号,j为句子SK的语义结构图r与频繁结构图i同构的子结构图中边的编号,Q为句子SK中语义结构图的总数,M为句子SK中频繁结构图的总数,P为句子SK的语义结构图r与频繁结构图i同构的子结构图中边的总数;
(3)英语文本句子语篇连贯质量值计算公式
Figure FDA0003205993990000051
在公式(6)中,k为待分析英语文本中句子的编号,i为待分析英语文本中句子SK中频繁结构图的编号,N为待分析英语文本中句子的总数,M为句子SK中频繁结构图的总数,句子SK的频繁结构图i分布概率值由公式(4)计算得到,句子SK的子图语义值由公式(5)计算得到。
8.根据权利要求7所述的分析方法,其特征是:所述的英语文本句子语篇连贯性分析模块处理流程如下:
P501开始;
P502读入训练英语文本集,并生成训练英语文本集的句子频繁结构图集合;
P503读入待分析英语文本的句子频繁结构图集合;
P504统计待分析英语文本的句子频繁结构图集合中,每个句子频繁结构图在训练英语文本集的句子频繁结构图集合中出现的次数;
P505利用公式(4)计算得到英语文本中每个句子频繁结构图的分布概率值;
P506读入待分析英语文本的句子语义结构图,并统计句子语义结构图中句子的总数;
P507从待分析英语文本的句子频繁结构图集合中读取一个句子频繁结构图;
P508在待分析英语文本的句子语义结构图中,查找该句子频繁结构图同构的子结构图,并累加同构的子结构图中边的权重值;
P509利用公式(5)计算句子语义结构图和句子频繁结构图同构的子结构图语义值;
P510判断待分析英语文本的句子频繁结构图集合是否读取完;如果是则转至P511操作,否则转至P507操作;
P511利用公式(6)计算待分析英语文本句子语篇连贯质量值;
P512输出待分析英语文本句子语篇连贯质量值和句子语篇连贯性评语结果;
P513结束。
CN202110917003.1A 2021-08-11 2021-08-11 一种基于图的英语文本句子语篇连贯分析方法 Active CN113553830B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110917003.1A CN113553830B (zh) 2021-08-11 2021-08-11 一种基于图的英语文本句子语篇连贯分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110917003.1A CN113553830B (zh) 2021-08-11 2021-08-11 一种基于图的英语文本句子语篇连贯分析方法

Publications (2)

Publication Number Publication Date
CN113553830A true CN113553830A (zh) 2021-10-26
CN113553830B CN113553830B (zh) 2023-01-03

Family

ID=78133815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110917003.1A Active CN113553830B (zh) 2021-08-11 2021-08-11 一种基于图的英语文本句子语篇连贯分析方法

Country Status (1)

Country Link
CN (1) CN113553830B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970491A (zh) * 2022-08-02 2022-08-30 深圳市城市公共安全技术研究院有限公司 一种文本衔接性判断方法、装置、电子设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1700200A (zh) * 2005-05-30 2005-11-23 梁茂成 英语作文自动评分系统
CN102708098A (zh) * 2012-05-30 2012-10-03 中国科学院自动化研究所 一种基于依存连贯性约束的双语词语自动对齐方法
CN103365838A (zh) * 2013-07-24 2013-10-23 桂林电子科技大学 基于多元特征的英语作文语法错误自动纠正方法
WO2015003143A2 (en) * 2013-07-03 2015-01-08 Thomson Reuters Global Resources Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus
CN104915337A (zh) * 2015-06-18 2015-09-16 中国科学院自动化研究所 基于双语篇章结构信息的译文篇章完整性评估方法
CN106776550A (zh) * 2016-12-06 2017-05-31 桂林电子科技大学 一种英语作文语篇连贯质量的分析方法
CN106844335A (zh) * 2016-12-21 2017-06-13 海航生态科技集团有限公司 自然语言处理方法及装置
CN107357783A (zh) * 2017-07-04 2017-11-17 桂林电子科技大学 一种中文翻译成英文的英语译文质量分析方法
CN109977407A (zh) * 2019-03-27 2019-07-05 北京信息科技大学 一种基于词嵌入的书面语篇多层次差异分析方法
CN110287497A (zh) * 2019-07-03 2019-09-27 桂林电子科技大学 一种英语文本的语义结构连贯分析方法
CN111710428A (zh) * 2020-06-19 2020-09-25 华中师范大学 一种建模全局和局部上下文交互的生物医学文本表示方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1700200A (zh) * 2005-05-30 2005-11-23 梁茂成 英语作文自动评分系统
CN102708098A (zh) * 2012-05-30 2012-10-03 中国科学院自动化研究所 一种基于依存连贯性约束的双语词语自动对齐方法
WO2015003143A2 (en) * 2013-07-03 2015-01-08 Thomson Reuters Global Resources Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus
CN103365838A (zh) * 2013-07-24 2013-10-23 桂林电子科技大学 基于多元特征的英语作文语法错误自动纠正方法
CN104915337A (zh) * 2015-06-18 2015-09-16 中国科学院自动化研究所 基于双语篇章结构信息的译文篇章完整性评估方法
CN106776550A (zh) * 2016-12-06 2017-05-31 桂林电子科技大学 一种英语作文语篇连贯质量的分析方法
CN106844335A (zh) * 2016-12-21 2017-06-13 海航生态科技集团有限公司 自然语言处理方法及装置
CN107357783A (zh) * 2017-07-04 2017-11-17 桂林电子科技大学 一种中文翻译成英文的英语译文质量分析方法
CN109977407A (zh) * 2019-03-27 2019-07-05 北京信息科技大学 一种基于词嵌入的书面语篇多层次差异分析方法
CN110287497A (zh) * 2019-07-03 2019-09-27 桂林电子科技大学 一种英语文本的语义结构连贯分析方法
CN111710428A (zh) * 2020-06-19 2020-09-25 华中师范大学 一种建模全局和局部上下文交互的生物医学文本表示方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CAMILLE GUINAUDEAU 等: ""Graph-based Local Coherence Modeling"", 《PROCEEDINGS OF THE 51ST ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
CASPER PETERSEN: ""Entropy and Graph Based Modelling of Document Coherence using Discourse Entities: An Application to IR"", 《ICTIR "15》 *
刘国兵: ""基于WordNet语义知识库的英语学习者作文局部连贯自动评价"", 《河南师范大学学报(自然科学版)》 *
张明幺: ""基于事件链的语篇连贯研究"", 《中国博士学位论文全文数据库》 *
王刚 等: ""面向法律文书的分段式摘要模型"", 《计算机工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970491A (zh) * 2022-08-02 2022-08-30 深圳市城市公共安全技术研究院有限公司 一种文本衔接性判断方法、装置、电子设备及存储介质
CN114970491B (zh) * 2022-08-02 2022-10-04 深圳市城市公共安全技术研究院有限公司 一种文本衔接性判断方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113553830B (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
CN113553830B (zh) 一种基于图的英语文本句子语篇连贯分析方法
JP4576397B2 (ja) 評価情報抽出装置、評価情報抽出方法およびそのプログラム
Van Gelderen Where did Late Merge go? Grammaticalization as feature economy
Van Cranenburgh et al. Data-oriented parsing with discontinuous constituents and function tags
JP2017059205A (ja) 主題推定システム、主題推定方法およびプログラム
CN110287497B (zh) 一种英语文本的语义结构连贯分析方法
Jahan et al. A new approach to animacy detection
Kurniawan et al. Toward a standardized and more accurate Indonesian part-of-speech tagging
Gunasekara et al. Hybrid part of speech tagger for sinhala language
JP6260791B2 (ja) 要求間矛盾判定システム、要求間矛盾判定方法、および、要求間矛盾判定プログラム
US10929446B2 (en) Document search apparatus and method
JP5623380B2 (ja) 誤り文修正装置、誤り文修正方法およびプログラム
JP4073015B2 (ja) 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体
JP6973157B2 (ja) 議論構造拡張装置、議論構造拡張方法、及びプログラム
JP4005477B2 (ja) 固有表現抽出装置及び方法並びに固有表現抽出プログラム
Banga et al. Tagging efficiency analysis on part of speech taggers
Ketzan et al. What Changed When Andy Weir's The Martian Got Edited?.
JP4671440B2 (ja) 評判関係抽出装置、その方法およびプログラム
JP6603610B2 (ja) 情報処理システム、情報処理方法及びプログラム
Putra et al. The Implementation of Indonesian Stemming System for Indonesian Translation of the Quran
Milosevic et al. Creating a contemporary corpus of similes in Serbian by using natural language processing
CN110633474A (zh) 一种数学算式识别方法、装置、设备及可读存储介质
Scharf Rule-Blocking and Forward-Looking Conditions in the Computational Modelling of Pāṇinian Derivation
Hladek et al. Morphological analysis of the slovak language
JP2007115118A (ja) 評判情報抽出方法及び装置及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20211026

Assignee: Guilin ruiweisaide Technology Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2023980046266

Denomination of invention: A Graph Based Coherence Analysis Method for English Text Sentences

Granted publication date: 20230103

License type: Common License

Record date: 20231108