CN111914533A - 一种解析英语长句的方法及系统 - Google Patents

一种解析英语长句的方法及系统 Download PDF

Info

Publication number
CN111914533A
CN111914533A CN201910377288.7A CN201910377288A CN111914533A CN 111914533 A CN111914533 A CN 111914533A CN 201910377288 A CN201910377288 A CN 201910377288A CN 111914533 A CN111914533 A CN 111914533A
Authority
CN
China
Prior art keywords
english
corpus
sample
words
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910377288.7A
Other languages
English (en)
Inventor
张平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201910377288.7A priority Critical patent/CN111914533A/zh
Publication of CN111914533A publication Critical patent/CN111914533A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供了一种解析英语长句的方法及系统,其方法包括:获取英语语料;识别所述英语语料中的语料连接词;根据所述语料连接词确定所述英语语料中包含的语义层级;分析所述英语语料的句子结构,根据所述句子结构识别所述英语语料中的主体词语;根据所述语料连接词、所述语义层级以及所述主体词语将所述英语语料转化为对应的多个英语短句;解析所述英语短句得到所述英语语料对应的语料语义。本发明通过将英语长句解析成多个英语短句可以直观的展示出英语长句中的多个语义层级,从而让英语初学者以及英语基础较差的学习者更加容易理解。

Description

一种解析英语长句的方法及系统
技术领域
本发明涉及自然语言处理技术领域,尤指一种解析英语长句的方法及系统。
背景技术
熟练的掌握英语,已经成为我们必须具备的素质之一,我们虽然采用了多种方式提高自己的英语水平,但是效果却不尽如人意。对于英语初学者,在学习英语时,目前大多英语老师都是让学生死记硬背单词的各个释义各个短语的搭配、以及语法规则等学习内容。
上述的单纯地靠记忆力进行学习对于结构比较简单以及简短的英语句子可能还比较有效,但是对于较长的英语句子,例如其中包含有定语从句、状语从句等多重语义层级的英语语料,依靠死记硬背掌握的知识理解起来有一定的难度。
因此,需要一种解析英语长句的方法及系统辅助学生解析英语长句的语义。
发明内容
本发明的目的是提供一种解析英语长句的方法及系统,实现通过将英语长句解析成多个英语短句可以直观的展示出英语长句中的多个语义层级,从而让英语初学者以及英语基础较差的学习者更加容易理解。
本发明提供的技术方案如下:
本发明提供一种解析英语长句的方法,包括:
获取英语语料;
识别所述英语语料中的语料连接词;
根据所述语料连接词确定所述英语语料中包含的语义层级;
分析所述英语语料的句子结构,根据所述句子结构识别所述英语语料中的主体词语;
根据所述语料连接词、所述语义层级以及所述主体词语将所述英语语料转化为对应的多个英语短句;
解析所述英语短句得到所述英语语料对应的语料语义。
进一步的,还包括:
获取可以作为连接词的关键词,根据所述关键词建立关键词库;
获取包含连接词的英语样本,定义所述英语样本中的所述连接词为样本连接词并进行标记;
将所述英语样本与所述关键词库比对,确定所述英语样本中的样本关键词;
将所述样本连接词与所述样本关键词进行比对;
若所述样本关键词多于所述样本连接词,则根据所述英语样本的句式结构,分析所述样本连接词的连接词属性信息,以及非样本连接词的样本关键词的非连接词属性信息;
根据所述连接词属性信息和所述非连接词属性信息生成连接词识别模型。
进一步的,将所述样本连接词与所述样本关键词进行比对具体包括:
分别统计所述样本连接词的连接词个数,以及所述样本关键词的关键词词个数,相同的样本连接词和样本关键词计算一次;
将所述连接词个数和所述关键词词个数进行比对;
分别统计每一个所述样本连接词出现的连接词次数,以及每一个所述样本关键词出现的关键词词次数;
将相同的样本连接词和样本关键词对应的所述连接词次数和所述关键词词次数进行比对。
进一步的,识别所述英语语料中的语料连接词具体包括:
将所述英语语料与所述关键词库比对,确定所述英语语料中的语料关键词;
根据所述英语语料的句式结构,分析所述语料关键词的语料属性信息;
根据所述语料属性信息,结合所述连接词识别模型识别所述英语语料中语料连接词。
进一步的,还包括:
结合所述英语短句对所述英语语料进行解析。
本发明还提供一种解析英语长句的系统,包括:
语料获取模块,获取英语语料;
连接词识别模块,识别所述语料获取模块获取的所述英语语料中的语料连接词;
层级分析模块,根据所述连接词识别模块识别的所述语料连接词确定所述英语语料中包含的语义层级;
主体分析模块,分析所述语料获取模块获取的所述英语语料的句子结构,根据所述句子结构识别所述英语语料中的主体词语;
转化模块,根据所述连接词识别模块识别的所述语料连接词、所述层级分析模块确定的所述语义层级,以及所述主体分析模块确定的所述主体词语将所述英语语料转化为对应的多个英语短句;
语义解析模块,解析所述转化模块得到的所述英语短句得到所述英语语料对应的语料语义。
进一步的,还包括:
词库建立模块,获取可以作为连接词的关键词,根据所述关键词建立关键词库;
样本获取模块,获取包含连接词的英语样本,定义所述英语样本中的所述连接词为样本连接词并进行标记;
关键词识别模块,将所述样本获取模块获取的所述英语样本与所述词库建立模块建立的所述关键词库比对,确定所述英语样本中的样本关键词;
比对模块,将所述样本获取模块获取的所述样本连接词与所述关键词识别模块识别的所述样本关键词进行比对;
属性分析模块,若所述比对模块比对出所述样本关键词多于所述样本连接词,则根据所述英语样本的句式结构,分析所述样本连接词的连接词属性信息,以及非样本连接词的样本关键词的非连接词属性信息;
模型生成模块,根据所述属性分析模块得到的所述连接词属性信息和所述非连接词属性信息生成连接词识别模型。
进一步的,所述比对模块具体包括:
统计单元,分别统计所述样本连接词的连接词个数,以及所述样本关键词的关键词词个数,相同的样本连接词和样本关键词计算一次;
比对单元,将所述统计单元得到的所述连接词个数和所述关键词词个数进行比对;
所述统计单元,分别统计每一个所述样本连接词出现的连接词次数,以及每一个所述样本关键词出现的关键词词次数;
比对单元,将所述统计单元得到的相同的样本连接词和样本关键词对应的所述连接词次数和所述关键词词次数进行比对。
进一步的,所述连接词识别模块具体包括:
关键词识别单元,将所述语料获取模块获取的所述英语语料与所述词库建立模块建立的所述关键词库比对,确定所述英语语料中的语料关键词;
属性分析单元,根据所述语料获取模块获取的所述英语语料的句式结构,分析所述关键词识别单元识别的所述语料关键词的语料属性信息;
连接词识别单元,根据所述属性分析单元确定的所述语料属性信息,结合所述模型生成模块生成的所述连接词识别模型识别所述英语语料中语料连接词。
进一步的,还包括:
语料解析模块,结合所述转化模块得到的所述英语短句对所述语料获取模块获取的所述英语语料进行解析。
通过本发明提供的一种解析英语长句的方法及系统,能够带来以下至少一种有益效果:
1、本发明中,通过分析英语语料中从句的语料连接词以及语义层级,将英语语料转化为便于理解的多个逻辑上具有相关性的英语短句,然后再结合英语短句的语义解析英语语料,降低了理解包含较多从句的英语语料的难度。
2、本发明中,通过分析英语样本中样本连接词和非样本连接词的样本关键词对应的属性信息,并总结其中的规律,进而生成连接词识别模型,从而保证能够快速准确地识别出英语语料中的语料连接词。
3、本发明中,通过建立好的连接词识别模型自动识别待解析的英语语料中的语料连接词,避免人工进行识别,一方面系统识别速度较快,另一方面系统基于大量的英语样本生成的连接词识别模型的识别准确率更高。
附图说明
下面将以明确易懂的方式,结合附图说明优选的实施方式,对一种解析英语长句的方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种解析英语长句的方法的一个实施例的流程图;
图2是本发明一种解析英语长句的方法的另一个实施例的流程图;
图3是本发明一种解析英语长句的方法的另一个实施例的流程图;
图4是本发明一种解析英语长句的方法的另一个实施例的流程图;
图5是本发明一种解析英语长句的系统的一个实施例的结构示意图
图6是本发明一种解析英语长句的系统的另一个实施例的结构示意图。
附图标号说明:
100解析英语长句的系统
10词库建立模块 20样本获取模块 30关键词识别模块
40比对模块 41统计单元 42比对单元
50属性分析模块 60模型生成模块
110语料获取模块
120连接词识别模块 121关键词识别单元 122属性分析单元 123连接词识别单元
130层级分析模块
140主体分析模块 150转化模块
160语义解析模块 170语料解析模块
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所述描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或集合的存在或添加。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘出了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
具体实现中,本申请实施例中描述的终端设备包括但不限于诸如具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话、膝上型计算机、家教机或平板计算机之类的其他便携式设备。还应当理解的是,在某些实施例中,所述终端设备并非便携式通信设备,而是具有触摸敏感表面(例如:触摸屏显示器和/或触摸板)的台式计算机。
在接下来的讨论中,描述了包括显示器和触摸敏感表面的终端设备。然而,应当理解的是,终端设备可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其他物理用户接口设备。
终端设备支持各种应用程序,例如以下中的一个或多个:绘图应用程序、演示应用程序、网络创建应用程序、文字处理应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄像机应用程序、Web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。
可以在终端设备上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样,终端的公共物理架构(例如,触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。
另外,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
本发明的一个实施例,如图1所示,一种解析英语长句的方法,包括:
S100获取英语语料;
具体的,获取待解析的英语语料,该英语语料为结构比较复杂的英语长句,其中可能包含多个定语从句、状语从句等多个语义层级,并且该英语语料中定语从句、状语从句等从句的连接词没有被省略。
另外,英语语料可以是用户在学习过程中的作业内容,例如短文作文、英语对话等,也可以是用户的口语练习资料。因此,终端可以是通过语音获取模块获取的英语语料,也可以拍照识别获取。
S200识别所述英语语料中的语料连接词;
具体的,对于完全按照语法规则得到的英语语料,定语从句、状语从句等从句一般都会有连接词作为其标记,例如某一个英语语料为:I like eating potato what iscooked by my sister when I was a child,其中英语单词what和when分别是对应的定语从句和状语从句的语料连接词,也可以看做是其标记。因此,识别获取的英语语料中的语料连接词。
S300根据所述语料连接词确定所述英语语料中包含的语义层级;
具体的,根据所述语料连接词确定英语语料中包含的语义层级,也就是判断英语语料中包含的定语从句、状语从句等从句的种类以及个数。例如,某一个英语语料为:Ilike eating potato what is cooked by my sisterwhen I was a child,其中英语单词what和when分别是对应的定语从句和状语从句的语料连接词,英语语料中包含一个定语从句和一个状语从句,因此可以确定该英语语料的语义层级。
S400分析所述英语语料的句子结构,根据所述句子结构识别所述英语语料中的主体词语;
具体的,分析英语语料的句子结构,判断英语语料的主谓宾以及每个单词的成分,根据句子结构识别英语语料中的主体词语,主体词语包括英语语料中的主谓宾以及与从句相关的英语单词。
例如,某一个英语语料为:I like eating potato what is cooked by mysister when I was a child,其中英语单词what和when分别是对应的定语从句和状语从句的语料连接词,其中,I是主语,like是谓语,eating potato是动宾短语,potato是定语从句的主语,因此,可以将I、like、eatingpotato、potato都作为英语语料的主体词语。
S500根据所述语料连接词、所述语义层级以及所述主体词语将所述英语语料转化为对应的多个英语短句;
具体的,根据语料连接词、所述语义层级以及主体词语将英语语料转化为对应的多个英语短句,每一个英语短语同样具有完整的结构,用户能够从中获取部分有效信息。并且依照英语语料中语义层级的逻辑对所有的英语短句进行排序。
例如,某一个英语语料为:I like eating potato what is cooked by mysister when I was a child,其中,英语单词what和when分别是对应的定语从句和状语从句的语料连接词,提取I、like、eating potato、potato为主体词语。因此,可以将该英语语料转化为对应的以下三个英语短句。英语短句1为:I was a child,英语短句2为:I likeeating potato,英语短句3为:potato is cooked by my sister。英语短句1与英语短句2中存在时间上的联系,英语短句2与英语短句3中则是逻辑上存在出场顺序的先后,由英语短句2中的宾语potato引出英语短句3中的主语potato。因此,上述的英语短句1、英语短句2以及英语短句3中存在逻辑上的先后顺序。
S600解析所述英语短句得到所述英语语料对应的语料语义。
具体的,由于英语短句的结构比较简单,涉及到的语法知识点比较基础,因此解析英语短句可以快速准确地完成。单独解析各个英语短句的语义,然后将所有的英语短句的语义进行结合,最终得到英语语料对应的语料语义,
本实施例中,通过分析英语语料中从句的语料连接词以及语义层级,将英语语料转化为便于理解的多个逻辑上具有相关性的英语短句,然后再结合英语短句的语义解析英语语料,降低了理解包含较多从句的英语语料的难度。
本发明的另一个实施例,是上述的实施例的优化实施例,如图2所示,包括:
S010获取可以作为连接词的关键词,根据所述关键词建立关键词库;
具体的,获取可以作为连接词的关键词,例如,常用于时间状语从句的when,用于定语从句的what、that等,关键词的获取方式可以是从语法规则中获取允许作为从句连接词的词语。
将所有的获取的关键词建立关键词库,并且在词库中可以按照每个关键词所能表示的从句类型进行分类。因此,可能出现同一个关键词可能属于多个不同的从句类别。
S020获取包含连接词的英语样本,定义所述英语样本中的所述连接词为样本连接词并进行标记;
具体的,获取包含连接词的英语样本,也就是说获取包含有至少一个从句的英语样本,并且其连接词没有被省略。定义英语样本中的连接词为样本连接词并进行标记,因为同一个英语单词,可能作为英语从句的连接词,也可能是句子主谓宾或者其它的成分。为了进行区分,需要将作用为从句连接词的英语单词进行标记。
例如,某一个英语样本为:what is it in that box what is on the table,出现的第二个what是定语从句的连接词,也就是该英语样本的样本连接词,为了和出现的第一个what进行区别,对样本连接词进行标记。
并不是每一个英语样本中都会出现同一个英语单词作为连接词和非连接词同时出现,但是为了确保不会混淆,对所有的英语样本中的样本连接词都进行标记。
S030将所述英语样本与所述关键词库比对,确定所述英语样本中的样本关键词;
具体的,将英语样本中的每一个英语单词与关键词库中的关键词逐一地进行比对,确定比对相符的定义为英语样本中的样本关键词。其中,英语样本中可能出现多个英语单词与同一个关键词比对相符,也就是同一个关键词即某一个样本关键词在该英语样本中出现多次。
例如,某一个英语样本为:what is it in that box what is on the table,出现的第二个what是定语从句的连接词,将该英语样本和关键词库中的关键词进行比对,得到的样本关键词有what和that。
S040将所述样本连接词与所述样本关键词进行比对;
S041分别统计所述样本连接词的连接词个数,以及所述样本关键词的关键词词个数,相同的样本连接词和样本关键词计算一次;
S042将所述连接词个数和所述关键词词个数进行比对;
具体的,将样本连接词与样本关键词进行比对,例如,某一个英语样本为:what isit in that box what is on the table,出现的第二个what是定语从句的连接词,将样本连接词what和样本关键词what、that进行比对,首先比对两者的个数,连接词个数为一个,关键词词个数为两个,因此其中必然有一个样本关键词为非连接词。
S043分别统计每一个所述样本连接词出现的连接词次数,以及每一个所述样本关键词出现的关键词词次数;
S044将相同的样本连接词和样本关键词对应的所述连接词次数和所述关键词词次数进行比对。
具体的,无论之前比对的连接词个数和关键词词个数是否一致,都还需要比对相同的样本连接词和样本关键词出现的次数。例如,某一个英语样本为:what is it in thatbox what is on the table,出现的第二个what是定语从句的连接词,将样本连接词what和样本关键词what相同,样本连接词what对应的连接词次数为一次,样本关键词what对应的关键词次数为两次,因此其中必然有一个样本关键词what为非连接词。
S050若所述样本关键词多于所述样本连接词,则根据所述英语样本的句式结构,分析所述样本连接词的连接词属性信息,以及非样本连接词的样本关键词的非连接词属性信息;
具体的,如果样本关键词多于样本连接词,无论是样本关键词个数多于样本连接词个数,还是样本关键词次数多于样本连接词次数,其中肯定有样本关键词的作用非连接词,因此分别统计两者的属性信息,即连接词属性信息和非连接词属性信息,属性信息包括单词在英语样本中的位置、成分,以及相邻单词的词性等。
S060根据所述连接词属性信息和所述非连接词属性信息生成连接词识别模型。
具体的,分析连接词属性信息的共同特征、非连接词属性信息的共同特征以及连接词属性信息和非连接词属性信息之间的区别特征,并进行规律总结,最终生成连接词识别模型。
S100获取英语语料;
S200识别所述英语语料中的语料连接词;
S300根据所述语料连接词确定所述英语语料中包含的语义层级;
S400分析所述英语语料的句子结构,根据所述句子结构识别所述英语语料中的主体词语;
S500根据所述语料连接词、所述语义层级以及所述主体词语将所述英语语料转化为对应的多个英语短句;
S600解析所述英语短句得到所述英语语料对应的语料语义。
本实施例中,通过分析英语样本中样本连接词和非样本连接词的样本关键词对应的属性信息,并总结其中的规律,进而生成连接词识别模型,从而保证能够快速准确地识别出英语语料中的语料连接词。
本发明的另一个实施例,是上述的实施例的优化实施例,如图3所示,包括:
S010获取可以作为连接词的关键词,根据所述关键词建立关键词库;
S020获取包含连接词的英语样本,定义所述英语样本中的所述连接词为样本连接词并进行标记;
S030将所述英语样本与所述关键词库比对,确定所述英语样本中的样本关键词;
S040将所述样本连接词与所述样本关键词进行比对;
S050若所述样本关键词多于所述样本连接词,则根据所述英语样本的句式结构,分析所述样本连接词的连接词属性信息,以及非样本连接词的样本关键词的非连接词属性信息;
S060根据所述连接词属性信息和所述非连接词属性信息生成连接词识别模型。
S100获取英语语料;
S200识别所述英语语料中的语料连接词;
S210将所述英语语料与所述关键词库比对,确定所述英语语料中的语料关键词;
具体的,将英语语料中的每一个英语单词与关键词库中的关键词逐一地进行比对,确定比对相符的定义为英语语料中的语料关键词。其中,英语语料中可能出现多个英语单词与同一个关键词比对相符,也就是同一个关键词即某一个语料关键词在该英语语料中出现多次。
S220根据所述英语语料的句式结构,分析所述语料关键词的语料属性信息;
具体的,根据英语语料的句式结构,分析每一个语料关键词的语料属性信息,如果同一个语料关键词出现多次,则每一处的语料属性信息都要分别分析保存并进行区分。
S230根据所述语料属性信息,结合所述连接词识别模型识别所述英语语料中语料连接词。
具体的,根据语料属性信息,结合连接词识别模型识别英语语料中语料连接词,如果某一语料属性信息不符合连接词识别模型中总结的连接词属性信息的规律,则对应的语料关键词不属于语料连接词。
其中,为了能够得到精准的语料连接词识别结果,连接词识别模型中无论是连接词属性信息的规律还是非连接词属性信息的规律各自都具有一定数量的特征,语料属性信息可能部分特征与连接词属性信息的规律相符,部分特征与非连接词属性信息的规律相符,可以对相符的匹配率进行比较,选择匹配度较高。
另外,如果识别出英语语料中的语料连接词,可以根据相应的语料属性信息对已生成的连接词识别模型进行更新,连接词识别模型所获取的资源越多,其识别结果也能更加地快速和准确。
S300根据所述语料连接词确定所述英语语料中包含的语义层级;
S400分析所述英语语料的句子结构,根据所述句子结构识别所述英语语料中的主体词语;
S500根据所述语料连接词、所述语义层级以及所述主体词语将所述英语语料转化为对应的多个英语短句;
S600解析所述英语短句得到所述英语语料对应的语料语义。
本实施例中,通过建立好的连接词识别模型自动识别待解析的英语语料中的语料连接词,避免人工进行识别,一方面系统识别速度较快,另一方面系统基于大量的英语样本生成的连接词识别模型的识别准确率更高。
本发明的另一个实施例,是上述的实施例的优化实施例,如图4所示,包括:
S100获取英语语料;
S200识别所述英语语料中的语料连接词;
S300根据所述语料连接词确定所述英语语料中包含的语义层级;
S400分析所述英语语料的句子结构,根据所述句子结构识别所述英语语料中的主体词语;
S500根据所述语料连接词、所述语义层级以及所述主体词语将所述英语语料转化为对应的多个英语短句;
S600解析所述英语短句得到所述英语语料对应的语料语义。
S700结合所述英语短句对所述英语语料进行解析。
具体的,结合转化得到的英语短句对英语语料进行解析。例如,可以同时将转化的英语短句和英语语料进行显示,对英语语料的句式结构以及所运用的语法规则进行讲解,便于用户理解英语语料,真正地掌握其中所涉及到的语法知识点。
另外,还可以推送相关度较高或者相同类型句式结构的英语样本供用户巩固学习。例如,可以只显示相应的英语样本让用户进行英语短句的转化,再检验其结果是否正确,对用户进行拓展训练。
本实施例中,一方面基于单个的英语语料对相关的语法知识点进行解析,另一方面推送相似用法的英语样本供用户学习,从而更好地辅助用户学习英语。
本发明的一个实施例,如图5所示,一种解析英语长句的系统100,包括:
语料获取模块110,获取英语语料;
连接词识别模块120,识别所述语料获取模块110获取的所述英语语料中的语料连接词;
层级分析模块130,根据所述连接词识别模块120识别的所述语料连接词确定所述英语语料中包含的语义层级;
主体分析模块140,分析所述语料获取模块110获取的所述英语语料的句子结构,根据所述句子结构识别所述英语语料中的主体词语;
转化模块150,根据所述连接词识别模块120识别的所述语料连接词、所述层级分析模块130确定的所述语义层级,以及所述主体分析模块140确定的所述主体词语将所述英语语料转化为对应的多个英语短句;
语义解析模块160,解析所述转化模块150得到的所述英语短句得到所述英语语料对应的语料语义。
本实施例中的各个模块的具体操作方式在上述对应的方法实施例中已经进行了详细描述,因此不再一一进行赘述。
本发明的另一个实施例,是上述的实施例的优化实施例,如图6所示,包括:
词库建立模块10,获取可以作为连接词的关键词,根据所述关键词建立关键词库;
样本获取模块20,获取包含连接词的英语样本,定义所述英语样本中的所述连接词为样本连接词并进行标记;
关键词识别模块30,将所述样本获取模块20获取的所述英语样本与所述词库建立模块10建立的所述关键词库比对,确定所述英语样本中的样本关键词;
比对模块40,将所述样本获取模块20获取的所述样本连接词与所述关键词识别模块30识别的所述样本关键词进行比对;
所述比对模块40具体包括:
统计单元41,分别统计所述样本连接词的连接词个数,以及所述样本关键词的关键词词个数,相同的样本连接词和样本关键词计算一次;
比对单元42,将所述统计单元41得到的所述连接词个数和所述关键词词个数进行比对;
所述统计单元41,分别统计每一个所述样本连接词出现的连接词次数,以及每一个所述样本关键词出现的关键词词次数;
比对单元42,将所述统计单元41得到的相同的样本连接词和样本关键词对应的所述连接词次数和所述关键词词次数进行比对。
属性分析模块50,若所述比对模块40比对出所述样本关键词多于所述样本连接词,则根据所述英语样本的句式结构,分析所述样本连接词的连接词属性信息,以及非样本连接词的样本关键词的非连接词属性信息;
模型生成模块60,根据所述属性分析模块50得到的所述连接词属性信息和所述非连接词属性信息生成连接词识别模型。
语料获取模块110,获取英语语料;
连接词识别模块120,识别所述语料获取模块110获取的所述英语语料中的语料连接词;
所述连接词识别模块120具体包括:
关键词识别单元121,将所述语料获取模块110获取的所述英语语料与所述词库建立模块10建立的所述关键词库比对,确定所述英语语料中的语料关键词;
属性分析单元122,根据所述语料获取模块110获取的所述英语语料的句式结构,分析所述关键词识别单元121识别的所述语料关键词的语料属性信息;
连接词识别单元123,根据所述属性分析单元122确定的所述语料属性信息,结合所述模型生成模块60生成的所述连接词识别模型识别所述英语语料中语料连接词。
层级分析模块130,根据所述连接词识别模块120识别的所述语料连接词确定所述英语语料中包含的语义层级;
主体分析模块140,分析所述语料获取模块110获取的所述英语语料的句子结构,根据所述句子结构识别所述英语语料中的主体词语;
转化模块150,根据所述连接词识别模块120识别的所述语料连接词、所述层级分析模块130确定的所述语义层级,以及所述主体分析模块140确定的所述主体词语将所述英语语料转化为对应的多个英语短句;
语义解析模块160,解析所述转化模块150得到的所述英语短句得到所述英语语料对应的语料语义。
语料解析模块170,结合所述转化模块150得到的所述英语短句对所述语料获取模块110获取的所述英语语料进行解析。
本实施例中的各个模块的具体操作方式在上述对应的方法实施例中已经进行了详细描述,因此不再一一进行赘述。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种解析英语长句的方法,其特征在于,包括:
获取英语语料;
识别所述英语语料中的语料连接词;
根据所述语料连接词确定所述英语语料中包含的语义层级;
分析所述英语语料的句子结构,根据所述句子结构识别所述英语语料中的主体词语;
根据所述语料连接词、所述语义层级以及所述主体词语将所述英语语料转化为对应的多个英语短句;
解析所述英语短句得到所述英语语料对应的语料语义。
2.根据权利要求1所述的解析英语长句的方法,其特征在于,还包括:
获取可以作为连接词的关键词,根据所述关键词建立关键词库;
获取包含连接词的英语样本,定义所述英语样本中的所述连接词为样本连接词并进行标记;
将所述英语样本与所述关键词库比对,确定所述英语样本中的样本关键词;
将所述样本连接词与所述样本关键词进行比对;
若所述样本关键词多于所述样本连接词,则根据所述英语样本的句式结构,分析所述样本连接词的连接词属性信息,以及非样本连接词的样本关键词的非连接词属性信息;
根据所述连接词属性信息和所述非连接词属性信息生成连接词识别模型。
3.根据权利要求2所述的解析英语长句的方法,其特征在于,将所述样本连接词与所述样本关键词进行比对具体包括:
分别统计所述样本连接词的连接词个数,以及所述样本关键词的关键词词个数,相同的样本连接词和样本关键词计算一次;
将所述连接词个数和所述关键词词个数进行比对;
分别统计每一个所述样本连接词出现的连接词次数,以及每一个所述样本关键词出现的关键词词次数;
将相同的样本连接词和样本关键词对应的所述连接词次数和所述关键词词次数进行比对。
4.根据权利要求2所述的解析英语长句的方法,其特征在于,识别所述英语语料中的语料连接词具体包括:
将所述英语语料与所述关键词库比对,确定所述英语语料中的语料关键词;
根据所述英语语料的句式结构,分析所述语料关键词的语料属性信息;
根据所述语料属性信息,结合所述连接词识别模型识别所述英语语料中语料连接词。
5.根据权利要求1-4任一项所述的解析英语长句的方法,其特征在于,还包括:
结合所述英语短句对所述英语语料进行解析。
6.一种解析英语长句的系统,其特征在于,包括:
语料获取模块,获取英语语料;
连接词识别模块,识别所述语料获取模块获取的所述英语语料中的语料连接词;
层级分析模块,根据所述连接词识别模块识别的所述语料连接词确定所述英语语料中包含的语义层级;
主体分析模块,分析所述语料获取模块获取的所述英语语料的句子结构,根据所述句子结构识别所述英语语料中的主体词语;
转化模块,根据所述连接词识别模块识别的所述语料连接词、所述层级分析模块确定的所述语义层级,以及所述主体分析模块确定的所述主体词语将所述英语语料转化为对应的多个英语短句;
语义解析模块,解析所述转化模块得到的所述英语短句得到所述英语语料对应的语料语义。
7.根据权利要求6所述的解析英语长句的系统,其特征在于,还包括:
词库建立模块,获取可以作为连接词的关键词,根据所述关键词建立关键词库;
样本获取模块,获取包含连接词的英语样本,定义所述英语样本中的所述连接词为样本连接词并进行标记;
关键词识别模块,将所述样本获取模块获取的所述英语样本与所述词库建立模块建立的所述关键词库比对,确定所述英语样本中的样本关键词;
比对模块,将所述样本获取模块获取的所述样本连接词与所述关键词识别模块识别的所述样本关键词进行比对;
属性分析模块,若所述比对模块比对出所述样本关键词多于所述样本连接词,则根据所述英语样本的句式结构,分析所述样本连接词的连接词属性信息,以及非样本连接词的样本关键词的非连接词属性信息;
模型生成模块,根据所述属性分析模块得到的所述连接词属性信息和所述非连接词属性信息生成连接词识别模型。
8.根据权利要求7所述的解析英语长句的系统,其特征在于,所述比对模块具体包括:
统计单元,分别统计所述样本连接词的连接词个数,以及所述样本关键词的关键词词个数,相同的样本连接词和样本关键词计算一次;
比对单元,将所述统计单元得到的所述连接词个数和所述关键词词个数进行比对;
所述统计单元,分别统计每一个所述样本连接词出现的连接词次数,以及每一个所述样本关键词出现的关键词词次数;
比对单元,将所述统计单元得到的相同的样本连接词和样本关键词对应的所述连接词次数和所述关键词词次数进行比对。
9.根据权利要求7所述的解析英语长句的系统,其特征在于,所述连接词识别模块具体包括:
关键词识别单元,将所述语料获取模块获取的所述英语语料与所述词库建立模块建立的所述关键词库比对,确定所述英语语料中的语料关键词;
属性分析单元,根据所述语料获取模块获取的所述英语语料的句式结构,分析所述关键词识别单元识别的所述语料关键词的语料属性信息;
连接词识别单元,根据所述属性分析单元确定的所述语料属性信息,结合所述模型生成模块生成的所述连接词识别模型识别所述英语语料中语料连接词。
10.根据权利要求6-9任一项所述的解析英语长句的系统,其特征在于,还包括:
语料解析模块,结合所述转化模块得到的所述英语短句对所述语料获取模块获取的所述英语语料进行解析。
CN201910377288.7A 2019-05-07 2019-05-07 一种解析英语长句的方法及系统 Pending CN111914533A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910377288.7A CN111914533A (zh) 2019-05-07 2019-05-07 一种解析英语长句的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910377288.7A CN111914533A (zh) 2019-05-07 2019-05-07 一种解析英语长句的方法及系统

Publications (1)

Publication Number Publication Date
CN111914533A true CN111914533A (zh) 2020-11-10

Family

ID=73242693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910377288.7A Pending CN111914533A (zh) 2019-05-07 2019-05-07 一种解析英语长句的方法及系统

Country Status (1)

Country Link
CN (1) CN111914533A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI735380B (zh) * 2019-11-20 2021-08-01 中央研究院 自然語言處理方法與其計算裝置
CN113658463A (zh) * 2021-08-19 2021-11-16 安徽淘云科技股份有限公司 英语语法显示方法、装置和设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281645A (zh) * 2014-08-27 2015-01-14 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
KR101540628B1 (ko) * 2014-03-04 2015-07-31 홍경태 영어 학습 장치 및 방법
CN107273358A (zh) * 2017-06-18 2017-10-20 北京理工大学 一种基于管道模式的端到端英文篇章结构自动分析方法
US20180246872A1 (en) * 2017-02-28 2018-08-30 Nice Ltd. System and method for automatic key phrase extraction rule generation
KR101906561B1 (ko) * 2017-12-15 2018-12-05 김홍빈 문장구조 이해가 용이한 영어문장 표시방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101540628B1 (ko) * 2014-03-04 2015-07-31 홍경태 영어 학습 장치 및 방법
CN104281645A (zh) * 2014-08-27 2015-01-14 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
US20180246872A1 (en) * 2017-02-28 2018-08-30 Nice Ltd. System and method for automatic key phrase extraction rule generation
CN107273358A (zh) * 2017-06-18 2017-10-20 北京理工大学 一种基于管道模式的端到端英文篇章结构自动分析方法
KR101906561B1 (ko) * 2017-12-15 2018-12-05 김홍빈 문장구조 이해가 용이한 영어문장 표시방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI735380B (zh) * 2019-11-20 2021-08-01 中央研究院 自然語言處理方法與其計算裝置
CN113658463A (zh) * 2021-08-19 2021-11-16 安徽淘云科技股份有限公司 英语语法显示方法、装置和设备

Similar Documents

Publication Publication Date Title
US10698977B1 (en) System and methods for processing fuzzy expressions in search engines and for information extraction
US9910886B2 (en) Visual representation of question quality
US11521603B2 (en) Automatically generating conference minutes
Derczynski et al. Microblog-genre noise and impact on semantic annotation accuracy
US8463598B2 (en) Word detection
US8386240B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
JP5936698B2 (ja) 単語意味関係抽出装置
US20170177715A1 (en) Natural Language System Question Classifier, Semantic Representations, and Logical Form Templates
JP5379138B2 (ja) 領域辞書の作成
CN108304375A (zh) 一种信息识别方法及其设备、存储介质、终端
CN113220836B (zh) 序列标注模型的训练方法、装置、电子设备和存储介质
JP2001075966A (ja) データ分析システム
US10606903B2 (en) Multi-dimensional query based extraction of polarity-aware content
Lommatzsch et al. An Information Retrieval-based Approach for Building Intuitive Chatbots for Large Knowledge Bases.
US20220365956A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
CN111950301A (zh) 一种中译英的英语译文质量分析方法及系统
CN111914533A (zh) 一种解析英语长句的方法及系统
Singh et al. Review of real-word error detection and correction methods in text documents
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN102346777B (zh) 一种对例句检索结果进行排序的方法和装置
CN102609410A (zh) 规范文档辅助写作系统及规范文档生成方法
Baishya et al. Present state and future scope of Assamese text processing
Lu et al. Language model for Mongolian polyphone proofreading
JP4033089B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
WO2008017188A1 (fr) Système et procédé pour réaliser un support d'enseignement de cours de langue

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination