CN110287497A - 一种英语文本的语义结构连贯分析方法 - Google Patents

一种英语文本的语义结构连贯分析方法 Download PDF

Info

Publication number
CN110287497A
CN110287497A CN201910596522.5A CN201910596522A CN110287497A CN 110287497 A CN110287497 A CN 110287497A CN 201910596522 A CN201910596522 A CN 201910596522A CN 110287497 A CN110287497 A CN 110287497A
Authority
CN
China
Prior art keywords
semantic structure
english text
subsequence
relationship
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910596522.5A
Other languages
English (en)
Other versions
CN110287497B (zh
Inventor
黄桂敏
谭敏
周娅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201910596522.5A priority Critical patent/CN110287497B/zh
Publication of CN110287497A publication Critical patent/CN110287497A/zh
Application granted granted Critical
Publication of CN110287497B publication Critical patent/CN110287497B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种英语文本的语义结构连贯分析方法,该分析方法是一个由顺序连接的英语文本预处理模块、英语文本语义结构关系树生成模块、英语文本语义结构关系抽取模块、英语文本语义结构关系矩阵构建模块与英语文本语义结构连贯质量分析模块组成。一篇英语文本通过该分析方法处理后,最后能够得到该篇英语文本的语义结构质量分析结果。本发明方法解决了传统的英语文本语义结构连贯质量分析方法,只能分析出英语文本的浅层局部语义结构连贯质量,无法分析出英语文本深层语义结构连贯质量的问题。

Description

一种英语文本的语义结构连贯分析方法
技术领域
本发明涉及自然语言处理技术,具体是一种针对英语文本的语义结构连贯分析方法,本发明的分析方法只适用于分析英语文本,不适用于分析中文文本。
背景技术
全世界使用英语的人口达到17亿,采用英语作为官方语言的国家有67个,全世界半数以上的出版物都用英语出版,互联网上的网页或信息80%以上使用英文,同时英语文本(如新闻、评论、邮件等)充斥人们的生活与工作的各个方面。
英语文本的语篇连贯是指英语文本中的句子并列、承接、递进、转折等关系,是否在表达上前后衔接、指代一致、话题相关、主位与述位合理。英语文本的语义结构连贯是指英语文本中句子单词序列、段落与句子之间,以及单个句子内部是否合乎给定的语法规则与句法结构。可见,英语文本的语篇连贯与英语文本的语义结构连贯是英语文本中两种不同连贯指标。因此,分析英语文本的语义结构连贯质量,是评价英语文本写作质量的重要指标。然而,传统的英语文本语义结构连贯质量分析方法,只能分析出英语文本的浅层局部语义结构连贯质量,无法分析出英语文本深层语义结构连贯质量。
发明内容
本发明的目的是针对传统英语文本语义结构连贯质量分析方法的不足,而提供一种英语文本的语义结构连贯分析新方法,从英语文本语义结构关系出发,通过挖掘英语文本中的全局语义结构关系信息,实现了对英语文本深层语义结构连贯质量的分析。
实现本发明目的的技术方案是:
一种英语文本的语义结构连贯分析方法,包括一个由顺序连接的英语文本预处理模块、英语文本语义结构关系树生成模块、英语文本语义结构关系抽取模块、英语文本语义结构关系矩阵构建模块与英语文本语义结构连贯质量分析模块,如图1所示;
其分析方法包括如下处理步骤:
(1)英语文本预处理模块,读入英语文本,对英语文本进行分段、分句、分词、词性标注、句法结构处理,提取生成英语文本的实体词集合;
(2)英语文本语义结构关系树生成模块,读入英语文本,首先采用段落级语义结构关系解析器,对英语文本进行段落级别的语义结构关系解析,生成英语文本的粗语义结构关系树;然后采用句子级语义结构关系解析器,对粗语义结构关系树的叶子节点,进行句子内部的语义结构关系解析,生成英语文本的语义结构关系树;
(3)英语文本语义结构关系抽取模块,遍历生成的英语文本的语义结构关系树,并提取生成英语文本中每个小句包含的英语文本的语义结构关系信息集合;
(4)英语文本语义结构关系矩阵构建模块,首先读入提取生成的英语文本实体词集合、英语文本语义结构关系信息集合;然后采用遍历匹配方法把各小句之间的语义结构关系集赋予小句的实体词中,并记录实体词所在位置信息;最后利用句中实体词的语义结构关系信息所表示的该句包含的语义结构关系信息,构建出英语文本的语义结构关系矩阵;
(5)英语文本语义结构连贯质量分析模块,首先读入英语文本的语义结构关系矩阵;然后对英语文本的语义结构关系子序列与转移语义结构关系子序列的分布特征进行分析;最后根据得到的分布特征,来分析英语文本的语义结构连贯质量,并输出英语文本的语义结构连贯质量分数与评语。
本发明英语文本的语义结构连贯分析方法涉及的概念与定义如下
(1)单词词性标注集
本发明的英语文本单词词性标注采用宾州树库标注集。
(2)句法分析树
本发明的句法结构分析是指对输入的英语文本中的单词序列判断其构成是否合乎给定的语法规则,并分析出合乎语法规则句子的句法结构,这个分析结果表示形式是句法分析树。
(3)语义结构关系解析器
本发明的语义结构关系解析器用来解析英语文本中的段落与句子之间,以及单个句子内部的语义结构关系。本发明的解析器包括段落级语义结构关系解析器与句子级语义结构关系解析器,前者解析英语文本中的段落和句子之间的语义结构关系,后者解析单个句子内部的语义结构关系。
(4)语义结构关系树
本发明的英语文本语义结构关系树包含英语文本语篇分割后的各个小句,以及小句之间的语义结构关系信息和核心辅助信息。本发明基于这些信息将英语文本构建成为一棵层次语义结构关系树,其中英语文本的语义结构越复杂,则它的语义结构关系树的层次就越多;英语文本的语义结构越简单,则它的语义结构关系树的层次就越少。本发明的英语文本语义结构关系树的存储结构如下:
顶层语义结构关系1(核心辅助信息1)
语义结构关系2(核心辅助信息2)
小句1
小句2
语义结构关系3(核心辅助信息3)
语义结构关系4(核心辅助信息4)
小句3
小句4
语义结构关系n(核心辅助信息n)
小句n-1
小句n 。
(5)语义结构关系子序列
本发明把一个实体词在英语文本不同位置的语义结构关系定义为该实体词的语义结构关系子序列,英语文本中所有语义结构关系子序列的集合称为语义结构关系序列。
(6)转移语义结构关系子序列
本发明将同一实体词在多个连续句子中的语义结构关系结构定义为语义结构关系转移序列,而转移语义结构关系子序列就是指长度为“2”的转移语义结构关系序列,表示为“语义结构关系1.核心信息1->语义结构关系2.核心信息2”的形式。
本发明的英语文本的计算公式定义如下
(1)语义结构关系子序列分布概率的计算公式为:
在公式(1)中,i是当前语义结构关系子序列在语义结构关系序列中的序号,且i=1,2,…,m,m为语义结构关系子序列出现总次数;
(2)语义结构关系子序列共现概率的计算公式为:
在公式(2)中,i与j分别是当前语义结构关系子序列在其所在的语义结构关系序列中的序号,且i=1,2,…,m,j=1,2,…,n,m与n分别是i与j所在的语义结构关系序列中的语义结构关系子序列的出现总次数;语义结构关系子序列i与语义结构关系子序列j的同时共现总次数是指它们在进行语义结构连贯分析时同时出现总次数;
(3)语义结构关系子序列转移概率的计算公式为:
在公式(3)中,i与j分别是当前语义结构关系子序列在其所在的语义结构关系序列中的序号,且i=1,2,…,m,j=1,2,…,n,m与n分别是i与j所在的语义结构关系序列中的语义结构关系子序列的出现总次数,语义结构关系子序列j分布概率由公式(1)计算得到,语义结构关系子序列ij共现概率由公式(2)计算得到;
(4)语义结构连贯质量分数的计算公式为:
(4)
在公式(4)中,k是当前实体词的序号,k=1,2,…,m,m为英语文本中实体词的总数,r为同一实体词中当前转移语义结构关系子序列的序号,r=1,2,…,n,n为当前实体词中转移语义结构关系子序列的总数;语义结构关系子序列转移概率由公式(3)计算得到。
本发明分析方法中各模块的具体处理步骤如下
如图2所示,所述英语文本预处理模块处理步骤如下:
P201开始;
P202读入英语文本;
P203对英语文本进行分段;
P204对分段后的英语文本进行分句;
P205对分句后的英语文本进行分词;
P206对分词结果进行词性标注;
P207根据词性标注结果判断该句中的实体词,并进行句法结构分析生成句子的句法分析树;
P208根据句法分析树对实体词进行定界,确定当前实体词所在的名词短语边界;
P209根据短语边界定位结果去掉重复冗余的实体词信息,保留中心实体词;
P210输出英语文本的实体词集合;
P211结束。
如图3所示,所述英语文本语义结构关系树生成模块处理步骤如下:
P301开始;
P302读入英语文本;
P303加载段落级语义结构关系解析器,对英语文本进行段落级别语义结构关系解析;
P304生成英语文本各段落之间的粗语义结构关系树,关系树的叶子结点为一个完整的句子;
P305判断各段落中的句子是否已经全部加入了语义结构关系树,否则转P306操作,是则转P309操作;
P306未在语义结构关系树中的句子的前后句子是否在语义结构关系树中形成多核心关系,是则转P307操作,否则转P308操作;
P307将未在语义结构关系树中的句子加入语义结构关系树中,与前后句子共同构成多核心关系,然后转P304操作;
P308将未在语义结构关系树中的句子作为根节点的一个独立分支加入语义结构关系树,然后转P304操作;
P309遍历粗语义结构关系树的叶子结点;
P310读取粗语义结构关系树的叶子节点并进行语篇分割,分割单位是小句;
P311加载句子级语义结构关系解析器,对每个句子内部的语义结构关系进行解析;
P312生成各个句子内部的语义结构关系子树,并将新生成的语义结构关系子树替代当前叶子结点加入粗语义结构关系树,生成英语文本的完整语义结构关系树;
P313判断是否所有的叶子结点都处理完毕,是则转P314操作,否则转P309操作;
P314输出英语文本的语义结构关系树;
P315结束。
如图4所示,所述英语文本语义结构关系抽取模块处理步骤如下:
P401开始;
P420读入英语文本的语义结构关系树;
P403创建用于存放语义结构关系信息的集合并初始化;
P404采用遍历的方式对语义结构关系树进行遍历;
P405判断遍历的当前节点是否为结束节点,否则转P406操作,是则转P408操作;
P406抽取当前节点的语义结构关系和核心信息,表示为“语义结构关系.核心标签”格式;
P407保存当前节点的语义结构关系信息,然后转P409操作;
P408保留当前节点的英语文本内容,并把其祖先节点所保存的语义结构关系信息赋予当前节点;
P409判断语义结构关系树是否已经遍历完成,是则转P410操作,否则转P404操作;
P410输出英语文本的语义结构关系信息集合;
P411结束。
如图5所示,所述英语文本语义结构关系矩阵构建模块处理步骤如下:
P501开始;
P502创建用于存储英语文本语义结构关系信息的二维矩阵,并初始化;
P503读入英语文本的分句结果并遍历;
P504遍历下一个分句;
P505读入英语文本的语义结构关系信息集合,并遍历集合中的小句信息;
P506遍历下一个小句;
P507判断当前小句是否包含在当前分句中,是则转P508操作,否则转P506操作;
P508读入英语文本的实体词集合,并遍历;
P509遍历下一个实体词;
P510判断当前实体词是否包含在当前小句中,是则转P511操作,否则转P509操作;
P511把当前小句的语义结构关系信息赋予当前实体词并保存在二维矩阵中,并记录当前实体词的位置信息;
P512判断实体词集合中的实体词是否已经全部遍历结束,是则转P513操作,否则转P509操作;
P513判断语义结构关系集合中的小句信息是否已经全部遍历结束,是则转P514操作,否则转P506操作;
P514判断英语文本中的所有分句是否已经全部遍历结束,是则转P515操作,否则转P504操作;
P515判断实体词集合中的每一个实体词是否都已经被赋予语义结构关系信息,是则转P517操作,否则转P516操作;
P516给未被赋予语义结构关系信息的实体词赋值为nil,然后转P517操作;
P517输出英语文本的语义结构关系矩阵;
P518结束。
如图6所示,所述英语文本语义结构连贯质量分析模块处理步骤如下:
P601开始;
P602创建用于存储英语文本的转移语义结构关系序列频数矩阵,并初始化;
P603读入英语文本的语义结构关系矩阵;
P604遍历语义结构关系矩阵中的语义结构关系子集合;
P605判断当前语义结构关系子集合是否为矩阵中的第一个子集合,是则转P606操作,否则转P607操作;
P606缓存当前语义结构关系子集合,然后转P609操作;
P607遍历当前语义结构关系子集合内的下一个语义结构关系子序列;
P608取出当前语义结构关系子序列;
P609遍历缓存的语义结构关系子集合中的下一个语义结构关系子序列;
P610取出缓存语义结构关系子集合中的语义结构关系子序列,并与当前语义结构关系子序列形成长度为“2”的转移语义结构关系子序列;
P611在转移语义结构关系序列频数矩阵中,将当前转移语义结构关系子序列频数增加1;
P612判断缓存的语义结构关系子集合中的语义结构关系子序列是否已经全部遍历结束,是则转P613操作,否则转P609操作;
P613判断当前语义结构关系子集合中的语义结构关系是否已经全部遍历结束,是则转P614操作,否则转P607操作;
P614将缓存的语义结构关系子集合替换为当前语义结构关系子集合;
P615判断语义结构关系矩阵中的语义结构关系子集合是否已经全部遍历结束,是则转P616操作,否则转P605操作;
P616加载英语文本的语义结构关系矩阵;
P617根据语义结构关系子序列分布概率公式(1)计算英语文本的语义结构关系子序列分布概率;
P618根据语义结构关系子序列共现概率公式(2)计算英语文本的语义结构关系子序列共现概率;
P619根据语义结构关系子序列转移概率公式(3)计算英语文本的语义结构关系子序列转移概率;
P620根据语义结构连贯质量分数公式(4)计算英语文本的语义结构连贯质量分数,并对语义结构连贯质量分数进行归一化处理;
P621生成英语文本语义结连贯质量分析的评语;
P622输出英语文本的语义结构连贯质量分数与评语;
P623结束。
本发明分析方法,解决了传统的英语文本语义结构连贯质量分析方法,只能分析出英语文本的浅层局部语义结构连贯质量,无法分析出英语文本深层语义结构连贯质量的问题。本发明有较广的应用范围,例如可以用它来分析英文译文的语义结构连贯质量,可以用它来分析学生英语写作练习中的深层语义结构连贯质量等。一篇英语文本通过本发明分析方法处理后,最后能够得到该篇英语文本的语义结构质量分析结果。
附图说明
图1是本发明分析方法的总体处理步骤图;
图2是本发明分析方法的英语文本预处理模块处理步骤图;
图3是本发明分析方法的英语文本语义结构关系树生成模块处理步骤图;
图4是本发明分析方法的英语文本语义结构关系抽取模块处理步骤图;
图5是本发明分析方法的英语文本语义结构关系矩阵构建模块处理步骤图;
图6是本发明分析方法的英语文本语义结构连贯质量分析模块处理步骤图。
具体实施方式
下面结合实施例和附图对本发明内容作进一步的说明,但不是对本发明的限定。
实施例:参照图1-6,一种英语文本的语义结构连贯分析方法的具体实施步骤如下:
第一步骤:执行“英语文本预处理模块”
英语文本取材于学生英语六级作文,作文题目为“Online shopping”。
(1)输入的英语文本如下所示:
With the development of the Internet and the popularization of computers,shopping on the Internet has become a commonplace in our life. Here consumerscan buy almost everything we need.
Online shopping has many advantages, people don't have to waste a lot oftheir energy and precious time to go from one shop to another to choose thecommodities they like. On line we can do this just need few minutes, so manypeople choose online shopping.
However, shopping on the Internet also has its disadvantages, people maybe got stuck, so I'm every careful when I shopping on the internet. Consumerscan't see the goods or try goods may not be getting the same as what theyhave seen on the computer them on personally. In our surroundings have manypeople got cheated, so if we shopping on the internet, we need be careful.
(2)对英语文本进行词性标注后的结果如下所示:
With/IN, the/DT, development/NN, of/IN, the/DT, Internet/NN, and/CC, the/DT, popularization/NN, of/IN, computers/NNS, ,/,, shopping/NN, on/IN, the/DT,Internet/NN, has/VBZ, become/VBN, a/DT, commonplace/NN, in/IN, our/PRP$,life/NN, ./., [Here/RB, consumers/NNS, can/MD, buy/VB, almost/RB, everything/NN, we/PRP, need/VBP, ./., Online/JJ, shopping/NN, has/VBZ, many/JJ,advantages/NNS, ,/,, people/NNS, do/VBP, n't/RB, have/VB, to/TO, waste/VB, a/DT, lot/NN, of/IN, their/PRP$, energy/NN, and/CC, precious/JJ, time/NN, to/TO, go/VB, from/IN, one/CD, shop/NN, to/TO, another/DT, to/TO, choose/VB,the/DT, commodities/NNS, they/PRP, like/VBP, ./., On/IN, line/NN, we/PRP,can/MD, do/VB, this/DT, just/RB, need/VBP, few/JJ, minutes/NNS, ,/,, so/RB,many/JJ, people/NNS, choose/VB, online/JJ, shopping/NN, ./., However/RB, ,/,,shopping/NN, on/IN, the/DT, Internet/NN, also/RB, has/VBZ, its/PRP$,disadvantages/NNS, ,/,, people/NNS, may/MD, be/VB, got/VBN, stuck/VBN, ,/,,so/IN, I/PRP, 'm/VBP, every/DT, careful/JJ, when/WRB, I/PRP, shopping/VBG,on/IN, the/DT, internet/NN, ./., Consumers/NNS, ca/MD, n't/RB, see/VB, the/DT, goods/NNS, or/CC, try/VB, goods/NNS, may/MD, not/RB, be/VB, getting/VBG,the/DT, same/JJ, as/IN, what/WP, they/PRP, have/VBP, seen/VBN, on/IN, the/DT,computer/NN, them/PRP, on/IN, personally/RB, ./., In/IN, our/PRP$,surroundings/NNS, have/VBP, many/JJ, people/NNS, got/VBD, cheated/VBN, ,/,,so/RB, if/IN, we/PRP, shopping/VBG, on/IN, the/DT, internet/NN, ,/,, we/PRP,need/VBP, be/VB, careful/JJ, ./.
(3)对英语文本进行句法结构分析处理后,生成的句法分析树如下所示:
(ROOT (S (PP (IN With) (NP (NP (NP (DT the) (NN development)) (PP (IN of)(NP (DT the) (NN Internet)))) (CC and) (NP (NP (DT the) (NN popularization))(PP (IN of) (NP (NNS computers)))))) (, ,) (NP (NP (NN shopping)) (PP (IN on)(NP (DT the) (NN Internet)))) (VP (VBZ has) (VP (VBN become) (NP (NP (DT a)(NN commonplace)) (PP (IN in) (NP (PRP$ our) (NN life)))))) (. .))), (ROOT (S(ADVP (RB Here)) (NP (NNS consumers)) (VP (MD can) (VP (VB buy) (NP (NP (RBalmost) (NN everything)) (SBAR (S (NP (PRP we)) (VP (VBP need))))))) (. .))),(ROOT (S (S (NP (JJ Online) (NN shopping)) (VP (VBZ has) (NP (JJ many) (NNSadvantages)))) (, ,) (NP (NNS people)) (VP (VBP do) (RB n't) (VP (VB have) (S(VP (TO to) (VP (VB waste) (NP (NP (DT a) (NN lot)) (PP (IN of) (NP (NP (PRP$their) (NN energy)) (CC and) (NP (JJ precious) (NN time))))) (S (VP (TO to)(VP (VB go) (PP (IN from) (NP (CD one) (NN shop))) (PP (TO to) (NP (DTanother))))))))) (S (VP (TO to) (VP (VB choose) (NP (NP (DT the) (NNScommodities)) (SBAR (S (NP (PRP they)) (VP (VBP like)))))))))) (. .))), (ROOT(S (S (PP (IN On) (NP (NN line))) (NP (PRP we)) (VP (MD can) (VP (VB do)(SBAR (S (NP (DT this)) (ADVP (RB just)) (VP (VBP need) (NP (JJ few) (NNSminutes)))))))) (, ,) (RB so) (S (NP (JJ many) (NNS people)) (VP (VB choose)(NP (JJ online) (NN shopping)))) (. .))), (ROOT (S (ADVP (RB However)) (, ,)(S (NP (NP (NN shopping)) (PP (IN on) (NP (DT the) (NN Internet)))) (ADVP (RBalso)) (VP (VBZ has) (NP (PRP$ its) (NNS disadvantages)))) (PRN (, ,) (S (NP(NNS people)) (VP (MD may) (VP (VB be) (VP (VBN got) (S (VP (VBN stuck)))))))(, ,)) (IN so) (S (NP (PRP I)) (VP (VBP 'm) (ADJP (DT every) (JJ careful))(SBAR (WHADVP (WRB when)) (S (NP (PRP I)) (VP (VBG shopping) (PP (IN on) (NP(DT the) (NN internet)))))))) (. .))), (ROOT (S (NP (NNS Consumers)) (VP (MDca) (RB n't) (VP (VP (VB see) (NP (DT the) (NNS goods))) (CC or) (VP (VB try)(SBAR (S (NP (NNS goods)) (VP (MD may) (RB not) (VP (VB be) (VP (VBG getting)(PP (NP (DT the) (JJ same)) (IN as) (SBAR (WHNP (WP what)) (S (NP (PRP they))(VP (VBP have) (VP (VBN seen) (PP (IN on) (NP (DT the) (NNcomputer)))))))))))))) (NP (PRP them)) (PP (IN on) (ADVP (RB personally)))))(. .))), (ROOT (S (SBAR (IN In) (S (NP (PRP$ our) (NNS surroundings)) (VP(VBP have) (NP (NP (JJ many) (NNS people)) (SBAR (S (VP (VBD got) (ADJP (VBNcheated))))))))) (, ,) (SBAR (RB so) (IN if) (S (NP (PRP we)) (VP (VBGshopping) (PP (IN on) (NP (DT the) (NN internet)))))) (, ,) (NP (PRP we)) (VP(VBP need) (VP (VB be) (ADJP (JJ careful)))) (. .)))
(4)对英语文本的实体词进行短语边界定位后,输出实体词短语如下所示:
the internet, I, shopping, a commonplace, our life, the development ofthe internet, the popularization of computers, computers, consumers, almosteverything, their energy, many advantages, line, the commodities, precioustime, a lot of their energy, people, few minutes, the goods.
(5)根据实体词短语结果,去掉重复实体词信息后,最终输出实体词集合如下所示:
our, shopping, I, Internet, commonplace, computers, development,popularization, consumers, everything, their, line, advantages, commodities,lot, time, people, minutes, goods,its。
第二步骤:执行“英语文本语义结构关系树生成模块”
英语文本的语义结构关系生成模块,是对第一步骤中的输入的英语文本加载语义结构关系解析模型,对英语文本中的语义结构关系进行解析处理,生成英语文本的语义结构关系树,生成的语义结构关系树如下所示:
elaboration (LeftToRight)
contrast
elaboration (LeftToRight)
elaboration (LeftToRight)
background (RightToLeft)
TEXT:With the development of the Internet and thepopularization of computers,
TEXT:shopping on the Internet has become a commonplace in ourlife.
elaboration (LeftToRight)
TEXT:Here consumers can buy almost everything
TEXT:we need.
elaboration (LeftToRight)
background (RightToLeft)
TEXT:Online shopping has many advantages,
enablement (LeftToRight)
TEXT:people don't have to waste a lot of their energy
enablement (LeftToRight)
TEXT: and precious time to go from one shop to another
elaboration (LeftToRight)
TEXT:to choose the commodities
TEXT:they like.
enablement (LeftToRight)
TEXT:On line we can do this just need few minutes,
TEXT:so many people choose online shopping.
elaboration (LeftToRight)
cause (RightToLeft)
elaboration (LeftToRight)
TEXT:However, shopping on the Internet also has itsdisadvantages,
TEXT:people may be got stuck,
background (LeftToRight)
TEXT:so I’m every careful
TEXT:when I shopping on the internet.
joint
TEXT:Consumers can't see the goods
TEXT:or try goods may not be getting the same as what they haveseen on the computer them on personally.
contrast (RightToLeft)
TEXT:In our surroundings have many people got cheated,
background (RightToLeft)
TEXT:so if we shopping on the internet,
TEXT:we need be careful。
第三步骤:执行“英语文本语义结构关系抽取模块”
英语文本语义结构关系抽取模块,是通过遍历搜索第二步骤生成的语义结构关系树,抽取出英语文本中语篇分割最小单位小句的语义结构关系信息,以及它的核心信息并保存在集合中并输出,英语文本生成的小句的语义结构关系集合如下所示:
we need be careful.=[background.N, contrast.N, elaboration.N], so if weshopping on the internet,=[background.S], or try goods may not be getting thesame as what they have seen on the computer them on personally.=[joint.S], somany people choose online shopping.=[enablement.S], Consumers can't see thegoods=[joint.N, elaboration.N, contrast.N, elaboration.N], to go from oneshop to another=[enablement.N, enablement.S], they like.=[elaboration.S],when I shopping on the internet.=[background.S], so I 'm every careful=[background.N, cause.N, elaboration.N, contrast.N, elaboration.N], In oursurroundings have many people got cheated,=[contrast.S], shopping on theInternet has become a commonplace in our life.=[background.N, elaboration.N,elaboration.N, contrast.N, elaboration.N], Here consumers can buy almosteverything=[elaboration.N, elaboration.S], people don't have=[enablement.N,background.N, elaboration.N, elaboration.N, contrast.N, elaboration.N],Online shopping has many advantages,=[background.S], However, shopping on theInternet also has its disadvantages,=[elaboration.N, cause.S], we need.=[elaboration.S], On line we can do this just need few minutes ,=[enablement.N, elaboration.N, elaboration.N, contrast.N, elaboration.N], tochoose the commodities=[elaboration.N, enablement.S], With the development ofthe Internet and the popularization of computers,=[background.S], people maybe got stuck ,=[elaboration.S], to waste a lot of their energy and precioustime=[enablement.N, enablement.S] 。
第四步骤:执行“英语文本语义结构关系矩阵构建模块”
英语文本语义结构关系矩阵构建模块,是通过执行第一步骤英语文本预处理模块输出的实体词集合,以及第三步骤英语文本语义结构关系抽取模块输出的语义结构关系集合,构建英语文本的语义结构关系矩阵,由于构建的矩阵比较大,无法完全展示,所以只部分展示的英语文本的语义结构关系矩阵如下:
第五步骤:执行“英语文本语义结构连贯质量分析模块”
英语文本的语义结构连贯质量分析模块,是通过第四步骤执行英语文本语义结构关系矩阵构建模块输出的语义结构关系矩阵,并通过上述公式(1)、公式(2)、公式(3)、公式(4)对英语文本进行计算处理,最终得到英语文本的语义结构连贯质量分析结果如下所示:
该英语文本的语义结构连贯质量分数为:0.6477807651。
该英语文本的语义结构连贯质量评语为:文本语篇过渡较为自然,句子之间语义联系较为紧密,逻辑较为严谨,语义结构连贯质量较好,具有可读性。

Claims (7)

1.一种英语文本的语义结构连贯分析方法,其特征是:包括一个由顺序连接的英语文本预处理模块、英语文本语义结构关系树生成模块、英语文本语义结构关系抽取模块、英语文本语义结构关系矩阵构建模块与英语文本语义结构连贯质量分析模块;
其分析方法包括如下处理步骤:
(1)英语文本预处理模块,读入英语文本,对英语文本进行分段、分句、分词、词性标注、句法结构处理,提取生成英语文本的实体词集合;
(2)英语文本语义结构关系树生成模块,读入英语文本,首先采用段落级语义结构关系解析器,对英语文本进行段落级别的语义结构关系解析,生成英语文本的粗语义结构关系树;然后采用句子级语义结构关系解析器,对粗语义结构关系树的叶子节点,进行句子内部的语义结构关系解析,生成英语文本的语义结构关系树;
(3)英语文本语义结构关系抽取模块,遍历生成的英语文本的语义结构关系树,并提取生成英语文本中每个小句包含的英语文本的语义结构关系信息集合;
(4)英语文本语义结构关系矩阵构建模块,首先读入提取生成的英语文本实体词集合、英语文本语义结构关系信息集合;然后采用遍历匹配方法把各小句之间的语义结构关系集赋予小句的实体词中,并记录实体词所在位置信息;最后利用句中实体词的语义结构关系信息所表示的该句包含的语义结构关系信息,构建出英语文本的语义结构关系矩阵;
(5)英语文本语义结构连贯质量分析模块,首先读入英语文本的语义结构关系矩阵;然后对英语文本的语义结构关系子序列与转移语义结构关系子序列的分布特征进行分析;最后根据得到的分布特征,来分析英语文本的语义结构连贯质量,并输出英语文本的语义结构连贯质量分数与评语。
2.根据权利要求1所述的英语文本的语义结构连贯分析方法,其特征是:步骤(1)所述的英语文本预处理模块处理步骤如下:
P201开始;
P202读入英语文本;
P203对英语文本进行分段;
P204对分段后的英语文本进行分句;
P205对分句后的英语文本进行分词;
P206对分词结果进行词性标注;
P207根据词性标注结果判断该句中的实体词,并进行句法结构分析生成句子的句法分析树;
P208根据句法分析树对实体词进行定界,确定当前实体词所在的名词短语边界;
P209根据短语边界定位结果去掉重复冗余的实体词信息,保留中心实体词;
P210输出英语文本的实体词集合;
P211结束。
3.根据权利要求1所述的英语文本的语义结构连贯分析方法,其特征是:步骤(2)所述的英语文本语义结构关系树生成模块处理步骤如下:
P301开始;
P302读入英语文本;
P303加载段落级语义结构关系解析器,对英语文本进行段落级别语义结构关系解析;
P304生成英语文本各段落之间的粗语义结构关系树,关系树的叶子结点为一个完整的句子;
P305判断各段落中的句子是否已经全部加入了语义结构关系树,否则转P306操作,是则转P309操作;
P306未在语义结构关系树中的句子的前后句子是否在语义结构关系树中形成多核心关系,是则转P307操作,否则转P308操作;
P307将未在语义结构关系树中的句子加入语义结构关系树中,与前后句子共同构成多核心关系,然后转P304操作;
P308将未在语义结构关系树中的句子作为根节点的一个独立分支加入语义结构关系树,然后转P304操作;
P309遍历粗语义结构关系树的叶子结点;
P310读取粗语义结构关系树的叶子节点并进行语篇分割,分割单位是小句;
P311加载句子级语义结构关系解析器,对每个句子内部的语义结构关系进行解析;
P312生成各个句子内部的语义结构关系子树,并将新生成的语义结构关系子树替代当前叶子结点加入粗语义结构关系树,生成英语文本的完整语义结构关系树;
P313判断是否所有的叶子结点都处理完毕,是则转P314操作,否则转P309操作;
P314输出英语文本的语义结构关系树;
P315结束。
4.根据权利要求1所述的英语文本的语义结构连贯分析方法,其特征是:步骤(3)所述的英语文本语义结构关系抽取模块处理步骤如下:
P401开始;
P420读入英语文本的语义结构关系树;
P403创建用于存放语义结构关系信息的集合并初始化;
P404采用遍历的方式对语义结构关系树进行遍历;
P405判断遍历的当前节点是否为结束节点,否则转P406操作,是则转P408操作;
P406抽取当前节点的语义结构关系和核心信息,表示为“语义结构关系.核心标签”格式;
P407保存当前节点的语义结构关系信息,然后转P409操作;
P408保留当前节点的英语文本内容,并把其祖先节点所保存的语义结构关系信息赋予当前节点;
P409判断语义结构关系树是否已经遍历完成,是则转P410操作,否则转P404操作;
P410输出英语文本的语义结构关系信息集合;
P411结束。
5.根据权利要求1所述的英语文本的语义结构连贯分析方法,其特征是:步骤(4)所述的英语文本语义结构关系矩阵构建模块处理步骤如下:
P501开始;
P502创建用于存储英语文本语义结构关系信息的二维矩阵,并初始化;
P503读入英语文本的分句结果并遍历;
P504遍历下一个分句;
P505读入英语文本的语义结构关系信息集合,并遍历集合中的小句信息;
P506遍历下一个小句;
P507判断当前小句是否包含在当前分句中,是则转P508操作,否则转P506操作;
P508读入英语文本的实体词集合,并遍历;
P509遍历下一个实体词;
P510判断当前实体词是否包含在当前小句中,是则转P511操作,否则转P509操作;
P511把当前小句的语义结构关系信息赋予当前实体词并保存在二维矩阵中,并记录当前实体词的位置信息;
P512判断实体词集合中的实体词是否已经全部遍历结束,是则转P513操作,否则转P509操作;
P513判断语义结构关系集合中的小句信息是否已经全部遍历结束,是则转P514操作,否则转P506操作;
P514判断英语文本中的所有分句是否已经全部遍历结束,是则转P515操作,否则转P504操作;
P515判断实体词集合中的每一个实体词是否都已经被赋予语义结构关系信息,是则转P517操作,否则转P516操作;
P516给未被赋予语义结构关系信息的实体词赋值为nil,然后转P517操作;
P517输出英语文本的语义结构关系矩阵;
P518结束。
6.根据权利要求1所述的英语文本的语义结构连贯分析方法,其特征是:步骤(5)所述的英语文本语义结构连贯质量分析模块处理步骤如下:
P601开始;
P602创建用于存储英语文本的转移语义结构关系序列频数矩阵,并初始化;
P603读入英语文本的语义结构关系矩阵;
P604遍历语义结构关系矩阵中的语义结构关系子集合;
P605判断当前语义结构关系子集合是否为矩阵中的第一个子集合,是则转P606操作,否则转P607操作;
P606缓存当前语义结构关系子集合,然后转P609操作;
P607遍历当前语义结构关系子集合内的下一个语义结构关系子序列;
P608取出当前语义结构关系子序列;
P609遍历缓存的语义结构关系子集合中的下一个语义结构关系子序列;
P610取出缓存语义结构关系子集合中的语义结构关系子序列,并与当前语义结构关系子序列形成长度为“2”的转移语义结构关系子序列;
P611在转移语义结构关系序列频数矩阵中,将当前转移语义结构关系子序列频数增加1;
P612判断缓存的语义结构关系子集合中的语义结构关系子序列是否已经全部遍历结束,是则转P613操作,否则转P609操作;
P613判断当前语义结构关系子集合中的语义结构关系是否已经全部遍历结束,是则转P614操作,否则转P607操作;
P614将缓存的语义结构关系子集合替换为当前语义结构关系子集合;
P615判断语义结构关系矩阵中的语义结构关系子集合是否已经全部遍历结束,是则转P616操作,否则转P605操作;
P616加载英语文本的语义结构关系矩阵;
P617根据语义结构关系子序列分布概率公式(1)计算英语文本的语义结构关系子序列分布概率;
P618根据语义结构关系子序列共现概率公式(2)计算英语文本的语义结构关系子序列共现概率;
P619根据语义结构关系子序列转移概率公式(3)计算英语文本的语义结构关系子序列转移概率;
P620根据语义结构连贯质量分数公式(4)计算英语文本的语义结构连贯质量分数,并对语义结构连贯质量分数进行归一化处理;
P621生成英语文本语义结连贯质量分析的评语;
P622输出英语文本的语义结构连贯质量分数与评语;
P623结束。
7.根据权利要求6所述的英语文本的语义结构连贯分析方法,其特征是:所述语义结构关系子序列分布概率公式为:
在公式(1)中,i是当前语义结构关系子序列在语义结构关系序列中的序号,且i=1,2,…,m,m为语义结构关系子序列出现总次数;
所述语义结构关系子序列共现概率的计算公式为:
在公式(2)中,i与j分别是当前语义结构关系子序列在其所在的语义结构关系序列中的序号,且i=1,2,…,m,j=1,2,…,n,m与n分别是i与j所在的语义结构关系序列中的语义结构关系子序列的出现总次数;语义结构关系子序列i与语义结构关系子序列j的同时共现总次数是指它们在进行语义结构连贯分析时同时出现总次数;
所述语义结构关系子序列转移概率的计算公式为:
在公式(3)中,i与j分别是当前语义结构关系子序列在其所在的语义结构关系序列中的序号,且i=1,2,…,m,j=1,2,…,n,m与n分别是i与j所在的语义结构关系序列中的语义结构关系子序列的出现总次数,语义结构关系子序列j分布概率由公式(1)计算得到,语义结构关系子序列ij共现概率由公式(2)计算得到;
所述语义结构连贯质量分数的计算公式为:
(4)
在公式(4)中,k是当前实体词的序号,k=1,2,…,m,m为英语文本中实体词的总数,r为同一实体词中当前转移语义结构关系子序列的序号,r=1,2,…,n,n为当前实体词中转移语义结构关系子序列的总数;语义结构关系子序列转移概率由公式(3)计算得到。
CN201910596522.5A 2019-07-03 2019-07-03 一种英语文本的语义结构连贯分析方法 Active CN110287497B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910596522.5A CN110287497B (zh) 2019-07-03 2019-07-03 一种英语文本的语义结构连贯分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910596522.5A CN110287497B (zh) 2019-07-03 2019-07-03 一种英语文本的语义结构连贯分析方法

Publications (2)

Publication Number Publication Date
CN110287497A true CN110287497A (zh) 2019-09-27
CN110287497B CN110287497B (zh) 2023-03-31

Family

ID=68020545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910596522.5A Active CN110287497B (zh) 2019-07-03 2019-07-03 一种英语文本的语义结构连贯分析方法

Country Status (1)

Country Link
CN (1) CN110287497B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339765A (zh) * 2020-02-18 2020-06-26 腾讯科技(深圳)有限公司 文本质量评估方法、文本推荐方法及装置、介质及设备
CN111709224A (zh) * 2020-06-22 2020-09-25 桂林电子科技大学 一种英语短文句子层次主题连贯分析方法
CN113553830A (zh) * 2021-08-11 2021-10-26 桂林电子科技大学 一种基于图的英语文本句子语篇连贯分析方法
CN114970491A (zh) * 2022-08-02 2022-08-30 深圳市城市公共安全技术研究院有限公司 一种文本衔接性判断方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446944A (zh) * 2008-12-10 2009-06-03 苏州大学 一种自然语言句子的语义关系树的构造和比较方法
US7899666B2 (en) * 2007-05-04 2011-03-01 Expert System S.P.A. Method and system for automatically extracting relations between concepts included in text
US8145473B2 (en) * 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US20150081277A1 (en) * 2014-08-28 2015-03-19 Kambiz Behi System and Method for Automatically Classifying Text using Discourse Analysis
CN102117270B (zh) * 2011-03-29 2016-01-20 中国科学院自动化研究所 一种基于模糊树到精确树的统计机器翻译方法
CN107818082A (zh) * 2017-09-25 2018-03-20 沈阳航空航天大学 结合短语结构树的语义角色识别方法
CN108363816A (zh) * 2018-03-21 2018-08-03 北京理工大学 基于句义结构模型的开放式实体关系抽取方法
CN108920455A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种汉语自动生成文本的自动评价方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8145473B2 (en) * 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US7899666B2 (en) * 2007-05-04 2011-03-01 Expert System S.P.A. Method and system for automatically extracting relations between concepts included in text
CN101446944A (zh) * 2008-12-10 2009-06-03 苏州大学 一种自然语言句子的语义关系树的构造和比较方法
CN102117270B (zh) * 2011-03-29 2016-01-20 中国科学院自动化研究所 一种基于模糊树到精确树的统计机器翻译方法
US20150081277A1 (en) * 2014-08-28 2015-03-19 Kambiz Behi System and Method for Automatically Classifying Text using Discourse Analysis
CN107818082A (zh) * 2017-09-25 2018-03-20 沈阳航空航天大学 结合短语结构树的语义角色识别方法
CN108363816A (zh) * 2018-03-21 2018-08-03 北京理工大学 基于句义结构模型的开放式实体关系抽取方法
CN108920455A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种汉语自动生成文本的自动评价方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吕国英等: "基于CFN的汉语篇章连贯性研究", 《中文信息学报》 *
李婷等: "集中趋势自适应增强的英语作文评分算法", 《计算机工程与应用》 *
潘婷婷等: "基于混合语义空间的汉译英自动评分模型", 《桂林电子科技大学学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339765A (zh) * 2020-02-18 2020-06-26 腾讯科技(深圳)有限公司 文本质量评估方法、文本推荐方法及装置、介质及设备
CN111339765B (zh) * 2020-02-18 2023-11-03 腾讯科技(深圳)有限公司 文本质量评估方法、文本推荐方法及装置、介质及设备
CN111709224A (zh) * 2020-06-22 2020-09-25 桂林电子科技大学 一种英语短文句子层次主题连贯分析方法
CN111709224B (zh) * 2020-06-22 2023-04-07 桂林电子科技大学 一种英语短文句子层次主题连贯分析方法
CN113553830A (zh) * 2021-08-11 2021-10-26 桂林电子科技大学 一种基于图的英语文本句子语篇连贯分析方法
CN113553830B (zh) * 2021-08-11 2023-01-03 桂林电子科技大学 一种基于图的英语文本句子语篇连贯分析方法
CN114970491A (zh) * 2022-08-02 2022-08-30 深圳市城市公共安全技术研究院有限公司 一种文本衔接性判断方法、装置、电子设备及存储介质
CN114970491B (zh) * 2022-08-02 2022-10-04 深圳市城市公共安全技术研究院有限公司 一种文本衔接性判断方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110287497B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
CN110287497A (zh) 一种英语文本的语义结构连贯分析方法
US20170315984A1 (en) Systems and methods for text analytics processor
Wang et al. First experiments with neural translation of informal to formal mathematics
RU2610241C2 (ru) Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
CN110704598A (zh) 一种语句信息的抽取方法、抽取装置及可读存储介质
Ide et al. Standards for language resources
US20160224541A1 (en) System and method for generating and using user semantic dictionaries for natural language processing of user-provided text
KR20100038378A (ko) 지능적인 텍스트 주석을 위한 방법, 시스템 및 컴퓨터 프로그램
WO2017163346A1 (ja) 文章解析システム及びプログラム
Vel Pre-processing techniques of text mining using computational linguistics and python libraries
Simov et al. Using context information for knowledge-based word sense disambiguation
JP2003141114A (ja) 複数言語対訳テキスト入力による第3言語テキスト生成アルゴリズム及び装置、プログラム
Bryl et al. Interlinking and knowledge fusion
Kiyavitskaya et al. Semi-Automatic Semantic Annotations for Web Documents.
Le-Hong et al. Fast dependency parsing using distributed word representations
Rajbhoj et al. A RFP system for generating response to a request for proposal
Sateli et al. An automatic workflow for the formalization of scholarly articles’ structural and semantic elements
Kunanets et al. Enhanced LSA Method with Ukraine Language Support.
Terčon et al. CLASSLA-Stanza: The Next Step for Linguistic Processing of South Slavic Languages
Mangassarian et al. A general framework for subjective information extraction from unstructured English text
Guerram et al. A domain independent approach for ontology semantic enrichment
Declerck et al. Cross-linking Austrian dialectal Dictionaries through formalized Meanings
Falkenstine et al. Natural Language Processing for Autonomous Identification of Impactful Changes to Specification Documents
Aina A Hybrid Yoruba Noun Ontology
JP2002334076A (ja) テキスト処理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190927

Assignee: Guilin ruiweisaide Technology Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2023980046266

Denomination of invention: A Coherence Analysis Method for Semantic Structure of English Text

Granted publication date: 20230331

License type: Common License

Record date: 20231108

EE01 Entry into force of recordation of patent licensing contract