CN111680493B

CN111680493B - 英语文本分析方法、装置、可读存储介质及计算机设备

Info

Publication number: CN111680493B
Application number: CN202010804125.5A
Authority: CN
Inventors: 高玉伟
Original assignee: Jiangxi Vaneducation Technology Inc
Current assignee: Jiangxi Wind Vane Intelligent Technology Co ltd
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2021-05-07
Anticipated expiration: 2040-08-12
Also published as: CN111680493A

Abstract

一种英语文本分析方法、装置、可读存储介质及计算机设备，该方法包括：识别待分析的文本内容，以确定所述文本内容中的各个待分析句子；利用ELMO预训练模型分别对每个所述待分析句子进行分析，以获取各个所述待分析句子中的单词成分信息和依赖关系信息；根据所述单词成分信息和所述依赖关系信息对所述待分析句子进行分解，并提取所述待分析句子中的主干句子特征和从句特征；确定多个所述待分析句子中主干句子特征和从句特征的丰富度排名靠前的预设数量的待分析句子，并作为所述文本中的长难句。本发明中的方法根据文本内容中句子特征的丰富度来确定长难句，能够更加准确地找到文本内容中的长难句，为后续对长难句进行分析奠定基础。

Description

英语文本分析方法、装置、可读存储介质及计算机设备

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种英语文本分析方法、装置、可读存储介质及计算机设备。

背景技术

目前人工智能领域迅速发展，且持续升温，在教育领域的实际应用也逐渐崭露头角。AI智能教育中，NLP（Natural Language Processing，自然语言处理）相关的应用场景极为丰富，自2018年BERT（Bidirectional Encoder Representation from Transformers）预训练模型问世以来，NLP领域取得了突飞猛进的发展。

然而在实际应用场景中，NLP技术也具有较大的技术瓶颈。尤其是在英语领域，英语长难句解析涉及到较深的语义理解的相关技术点，是NLP领域中的较大技术瓶颈。

现在市面上诸多互联网教育产品，通常是根据英语文章中句子的长度来确定该文章中的长难句，很多情况下一个长句的结构很简单，并没有很复杂的句式。因此，目前长难句确定方法比较片面，无法确定文章中真正的长难句。

发明内容

鉴于上述状况，有必要针对现有技术中英语文章中的长难句确定方法片面的问题，提供一种英语文本分析方法、装置、可读存储介质及计算机设备。

一种英语文本分析方法，包括：

识别待分析的文本内容，以确定所述文本内容中的各个待分析句子；

利用ELMO预训练模型分别对每个所述待分析句子进行分析，以获取各个所述待分析句子中的单词成分信息和依赖关系信息；

根据所述单词成分信息和所述依赖关系信息对所述待分析句子进行分解，并提取所述待分析句子中的主干句子特征和从句特征；

确定多个所述待分析句子中主干句子特征和从句特征的丰富度排名靠前的预设数量的待分析句子，并作为所述文本中的长难句。

进一步的，上述英语文本分析方法，其中，所述识别待分析的文本内容，以确定所述文本内容中的各个待分析的句子的步骤包括：

识别待分析的文本内容，以确定所述文本内容中的各个句子以及所述文本内容的主题；

确定所述文本内容中与所述主题相关的多个句子，并作为文本内容的待分析句子。

进一步的，上述英语文本分析方法，其中，所述确定所述文本内容中与所述主题相关的多个句子，并作为文本内容的待分析句子的步骤包括：

提取所述文本内容中与所述主题相关的若干个主题关键词，并利用关键词相似度匹配算法计算各个所述句子与所述主题的相关度；

确定相关度最大的预设数量的句子作为所述待分析句子。

进一步的，上述英语文本分析方法，其中，所述提取所述文本内容中与所述主题相关的若干个主题关键词的步骤包括：

利用关键词识别模型，抽取所述文本内容中与所述主题相关度最高的若干词汇作为所述文本内容的主题关键词。

进一步的，上述英语文本分析方法，其中，所述识别待分析的文本内容，以确定所述文本内容的主题的步骤包括：

基于预训练的话题识别BERT模型，识别所述文本内容的主题。

进一步的，上述英语文本分析方法，其中，所述根据所述单词成分信息和所述依赖关系信息对所述待分析句子进行分解，并提取所述待分析句子中的主干句子特征和从句特征的步骤包括：

根据单词成分信息和所述依赖关系信息，对各个所述待分析句子进行初步分解，以得到每个所述待分析句子中构成主干句子的特征组合和构成从句的特征组合；

根据预设的精确匹配规则对每个所述待分析句子中的特征组合进行定位，以确定符合语句标准的主干句子特征和从句特征。

进一步的，上述英语文本分析方法，所述确定多个所述待分析句子中主干句子特征和从句特征的丰富度排名靠前的预设数量的待分析句子，并作为所述文本中的长难句的步骤之后还包括：

将所述长难句通过文本生成算法进行解析，生成解析文本。

本发明实施例还提供了一种英语文本分析装置，包括：

识别模块，用于识别待分析的文本内容，以确定所述文本内容中的各个待分析句子；

分析模块，用于利用ELMO预训练模型分别对每个所述待分析句子进行分析，以获取各个所述待分析句子中的单词成分信息和依赖关系信息；

提取模块，用于根据所述单词成分信息和所述依赖关系信息对所述待分析句子进行分解，并提取所述待分析句子中的主干句子特征和从句特征；

第一确定模块，用于确定多个所述待分析句子中主干句子特征和从句特征的丰富度排名靠前的预设数量的待分析句子，并作为所述文本中的长难句。

进一步的，上述英语文本分析装置，其中，所述识别模块包括：

识别子模块，用于识别待分析的文本内容，以确定所述文本内容中的各个句子以及所述文本内容的主题；

第二确定模块，用于确定所述文本内容中与所述主题相关的多个句子，并作为文本内容的待分析句子。

进一步的，上述英语文本分析装置，其中，所述第二确定模块具体用于：

确定相关度最大的预设数量的句子作为所述待分析句子。

进一步的，上述英语文本分析装置，其中，所述提取模块包括：

初步分解模块，用于根据单词成分信息和所述依赖关系信息，对各个所述待分析句子进行初步分解，以得到每个所述待分析句子中构成主干句子的特征组合和构成从句的特征组合；

精确匹配模块，用于根据预设的精确匹配规则对每个所述待分析句子中的特征组合进行定位，以确定符合语句标准的主干句子特征和从句特征。

本发明实施例还提供了一种可读存储介质，其上存储有程序，所述程序被处理器执行时实现上述任一所述的方法。

本发明实施例还提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现上述任意一项所述的方法。

本发明实施例基于句子成分分析的英语长难句解析，结合ELMO预训练模型，精准拆分英语句子结构，提取单词成分信息和依赖关系信息，根据该单词成分信息和依赖关系信息识别待分析句子中的主干句子特征和从句特征，并根据主干句子特征和从句特征的丰富度确定若干个长难句。本发明中的方法根据文本内容中句子特征的丰富度来确定长难句，能够更加准确地找到文本内容中的长难句，为后续对长难句进行分析奠定基础。

附图说明

图1为本发明第一实施例提供的英语文本分析方法的流程图；

图2为本发明第二实施例提供的英语文本分析方法的流程图；

图3为本发明第三实施例提供的英语文本分析装置的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

请参阅图1，为本发明第一实施例中的英语文本分析方法，包括步骤S11~S14。

步骤S11，识别待分析的文本内容，以确定所述文本内容中的各个待分析的句子。

该待分析的文本内容例如可以为一篇完整的英语文章也可以是一段英语文字等。获取到该文本内容后，对该文本内容进行识别，以确定文本内容中的各个句子，一般来说，以文本内容中的句号为分界划分各个句子。本实施例中可将该文本内容中识别到的所有句子都作为待分析的句子。

步骤S12，利用ELMO预训练模型分别对每个所述待分析句子进行分析，以获取各个所述待分析句子中的单词成分信息和依赖关系信息。

本实施例中对各个句子采用ELMO模型进行分析，ELMO：embedding from languagemodel，本质上是一个双向的LSTM语言模型，由一个前向和一个后向语言模型构成，主要用来英语句子的成分分析。具体实施时，可利用大数据对成分分析和单词依赖关系的ELMO模型进行预训练，使模型可充分识别各种句子成分结构信息，具备自动准确识别句子成分特征的性能。利用ELMO预训练的NLP成分解析模型，对文本内容至的各个句子进行单词成分分析和依赖关系分析，获取句子中单词成分信息及依赖关系信息。

其中，单词成分信息包括：英语句子中每个单词的词性、位置信息、句子中的成分属性等信息。其中，单词的词性例如包括名词、动词、形容词、数词、代词、副词等。单词的成分属性例如为主语、谓语、宾语、定语、状语等。

依赖关系信息包括：句子中单词之间的从属关系、结构体的从属关系等信息。

步骤S13，根据所述单词成分信息和所述依赖关系信息对所述待分析句子进行分解，并提取所述待分析句子中的主干句子特征和从句特征。

利用句子中提取的单词依赖关系属性，去除待分析句子中的修饰性成分，只保留主句的核心成分，还原句子的主干信息，得到主干句子特征。并根据模型解析的单词成分信息和依赖关系信息，区分各个从句的从句特征。

该主干句子特征包括作为主语、谓语和宾语的单词。该从句特征包括构成从句的各个单词。该从句主要有以下几种形式：主语从句、宾语从句、表语从句、同位语从句、定语从句、状语从句。

步骤S14，确定多个所述待分析句子中主干句子特征和从句特征的丰富度排名靠前的预设数量的目标待分析句子，并作为所述文本中的长难句。

确定了各个待分析句子的主干句子特征和从句特征之后，分别统计各个待分析句子的主干句子特征和从句特征的丰富度。主干句子特征和从句特征数量越多或从句类型越多表明待分析句子的特征越丰富，也即是表明该待分析的句子越长和越难。将丰富度最大的数个（如2个或3个）待分析句子作为该文本的长难句。

本实施例基于句子成分分析的英语长难句解析，结合ELMO预训练模型，精准拆分英语句子结构，提取单词成分信息和依赖关系信息，根据该单词成分信息和依赖关系信息识别待分析句子中的主干句子特征和从句特征，并根据主干句子特征和从句特征的丰富度确定若干个长难句。本实施例中的方法根据文本内容中句子特征的丰富度来确定长难句，能够更加准确地找到文本内容中的长难句，为后续对长难句进行分析奠定基础。

请参阅图2，为本发明第二实施例中的英语文本分析方法，包括步骤S21~S27。

步骤S21，识别待分析的文本内容，以确定所述文本内容中的各个句子以及所述文本内容的主题。

本实施例中获取到该文本内容后，对该文本内容进行识别，以确定文本内容中的各个句子，以及该文本内容的主题。

该文本内容主题的确定可根据现有的语言模型进行自动识别，例如可采用英语语篇话题识别BERT模型，自动识别提取文本内容的主题，并打上主题标签。确定该文本内容的主题之后，再确定与该主题内容相关的多个待分析句子。

该BERT模型基于大数据预训练得到的文本分类模型，已经广泛应用于的英语语篇话题标注项目，可自动识别提取语篇的文章主题，并打上主题标签，主题标签例如包括“旅游与交通”、“文学与艺术”，“文娱与体育”，“历史与地理”等方面。

步骤S22，提取所述文本内容中与所述主题相关的若干个主题关键词，并利用关键词相似度匹配算法计算各个所述句子与所述主题的相关度。

步骤S23，确定相关度最大的预设数量的句子作为所述待分析句子。

确定了文本内容的主题后，可利用关键词识别模型，抽取文章中与主题相关度最高的若干核心词汇作为该文本内容的关键词。该关键词识别模型可采用Tf-idf算法（termfrequency–inverse document frequency），该算法是一种用于信息检索与数据挖掘的常用加权技术。

采用关键词识别模型对语篇中的词汇进行主题相关度的信息识别时，提取的关键词的数量可根据实际需要件设置，一般可提取8至12个与主题相关度最高的关键词。

基于提取的主题关键词，利用关键词相似度匹配算法计算文本内容中的各个句子与主体关键词的相似度，从而确定各个句子与该主题的相关度，相似度越大说明与文本内容的主题越相关。

按照与主题的相关度从高至低选择若干个句子作为该文本内容的待分析句子。选择出的待分析句子的数量可根据实际需要进行设置，例如可选择出6至8个待分析句子。

进一步的，在本发明的一实施例中，在筛选待分析句子时还可增加筛选标准，该筛选标准例如包括句子的长度、分句的个数、关联词的数量等。即首先根据相关度筛选若干个与主题相关的待选句子；再根据该筛选标准从该待选句子中选择几个作为待分析句子。具体来说，该若干个待选句子中，根据该筛选标准选择句子长度越最长（即单词数量越多），以及分句和关联词数量最多的几个待选句子作为待分析句子。

步骤S24，利用ELMO预训练模型分别对每个所述待分析句子进行分析，以获取各个所述待分析句子中的单词成分信息和依赖关系信息。

将各个待分析句子依次输入ELMO预训练模型中，获取句子成分的解析树。从该解析树中分别提取单词成分信息和依赖关系信息。单词成分信息包含每个单词的词性标签，每个单词在句子中的位置信息，该单词在句子结构中的成分属性等；依赖关系信息包含特殊句型的标志（强调句、倒装句等），各种从句（主语从句、状语从句、定语从句等）的特征属性信息。

步骤S25，根据单词成分信息和所述依赖关系信息，对各个所述待分析句子进行初步分解，以得到每个所述待分析句子中构成主干句子的特征组合和构成从句的特征组合。

步骤S26，根据预设的精确匹配规则对每个所述待分析句子中的特征组合进行定位，以确定符合语句标准的主干句子特征和从句特征。

根据每个待分析句子至的单词成分信息和依赖关系信息，对待分析句子进行初步分解，得到主干句子的特征组合和从句的特征组合。对待分析进行初步分解的过程可通过特征预分类模型进行。该特征预分类模型为经过预训练后的语言模型。

根据该初步分解过程并不能精确的识别到的主干句子特征和从句特征。在该初步分解过程中得到的主干句子的特征组合和从句的特征组合。每个特征组合由多个特征词组成。句子的特征组合变化较多，不同的特征词组合在一起可能得到不同的从句。例如一个待分析句子中包含10个特征词，第一个、第二个和第三个特征词组合在一起构成定语从句，第二个词组和第6个词组可能组成状语从句。因此，一个待分析句子经过初步分解后可能形成多种句子结构的特征组合。

初步分解得到的各个特征组合利用预设的精确匹配规则进行精确定位，将主干句子和从句中置信度低的特征组合删除，保留置信度高的几个从句特征组合，从而得到主干句子特征和从句特征。其中，该精确匹配规则为专业人员总结的特殊句型、各种从句的识别标准，作为精准化识别长难句重要特征的保障。例如，句子：The third type is theunhappily married couple, who remain together out of a sense of economicresponsibility for their children, because of the high costs of separation,or because of the consumption benefits of marriage。经过模型解析之后，得到其中一个从句的特征组合为who remain together out of ，children，根据该精确匹配规则可知该特征组合具有从句特性且修饰前面的名词性词语，因为该结构体引导词为who且前面以逗号分隔，同时修饰的名词性词语couple具有人的属性，所以可以确定该特征组合为who引导的非限定性定语从句。

步骤S27，确定多个所述待分析句子中主干句子特征和从句特征的丰富度排名靠前的预设数量的目标待分析句子，并作为所述文本中的长难句。

主干句子特征和从句特征的丰富度根据主干句子特征和从句特征数量来确定，主干句子特征和从句特征数量和越多表明待分析句子的特征越丰富。去除句子各修饰成分之后剩余的核心信息，且具备完整句子的结构，因此被认定为句子主干，而句子中包含各种引导词引导的从句、修饰词等越多，表明该句子的从句属性比较丰富，因此被判定为理想的长难句。

本实施例与第一实施例相比，首先需要筛选出该文本内容中与主题相关度最大的若干个待分析句子，然后对该待分析句子进行长难句的分析和确定。由此可找到与该文本内容主题相关的若干个长难句，以便于后续有针对性的解析文本中的长难句，以便于用户更好的理解该文本内容。

进一步的，作为本发明的另一种实施方式，该英语文本分析方法还包括如下步骤：

将所述长难句通过文本生成算法进行解析，生成解析文本。

该实施例中，将识别出的长难句，通过自主开发的文本生成算法进行解析，将识别出的长难句的特征信息进行有效地文本逻辑组织，生成符合自然语言逻辑的解析文本内容。

请参阅图3，为本发明第三实施例至的英语文本分析装置，包括：

识别模块10，用于识别待分析的文本内容，以确定所述文本内容中的各个待分析句子；

分析模块20，用于利用ELMO预训练模型分别对每个所述待分析句子进行分析，以获取各个所述待分析句子中的单词成分信息和依赖关系信息；

提取模块30，用于根据所述单词成分信息和所述依赖关系信息对所述待分析句子进行分解，并提取所述待分析句子中的主干句子特征和从句特征；

第一确定模块40，用于确定多个所述待分析句子中主干句子特征和从句特征的丰富度排名靠前的预设数量的待分析句子，并作为所述文本中的长难句。

进一步的，上述英语文本分析装置，其中，所述识别模块10包括：

确定相关度最大的预设数量的句子作为所述待分析句子。

进一步的，上述英语文本分析装置，其中，所述提取模块30包括：

本发明实施例所提供的英语文本分析装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例还提出了一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述英语文本分析方法。

本发明实施例还提出了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现上述的英语文本分析方法。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种英语文本分析方法，其特征在于，包括：

确定多个所述待分析句子中主干句子特征和从句特征的丰富度排名靠前的预设数量的待分析句子，并作为所述文本中的长难句；

所述识别待分析的文本内容，以确定所述文本内容中的各个待分析的句子的步骤包括：

确定所述文本内容中与所述主题相关的多个句子，并作为文本内容的待分析句子；

所述根据所述单词成分信息和所述依赖关系信息对所述待分析句子进行分解，并提取所述待分析句子中的主干句子特征和从句特征的步骤包括：

2.如权利要求1所述的英语文本分析方法，其特征在于，所述确定所述文本内容中与所述主题相关的多个句子，并作为文本内容的待分析句子的步骤包括：

确定相关度最大的预设数量的句子作为所述待分析句子。

3.如权利要求2所述的英语文本分析方法，其特征在于，所述提取所述文本内容中与所述主题相关的若干个主题关键词的步骤包括：

4.如权利要求1所述的英语文本分析方法，其特征在于，所述识别待分析的文本内容，以确定所述文本内容的主题的步骤包括：

基于预训练的话题识别BERT模型，识别所述文本内容的主题。

5.如权利要求1所述的英语文本分析方法，其特征在于，所述确定多个所述待分析句子中主干句子特征和从句特征的丰富度排名靠前的预设数量的待分析句子，并作为所述文本中的长难句的步骤之后还包括：

将所述长难句通过文本生成算法进行解析，生成解析文本。

6.一种英语文本分析装置，其特征在于，包括：

第一确定模块，用于确定多个所述待分析句子中主干句子特征和从句特征的丰富度排名靠前的预设数量的待分析句子，并作为所述文本中的长难句；

所述识别模块包括：

第二确定模块，用于确定所述文本内容中与所述主题相关的多个句子，并作为文本内容的待分析句子；

所述提取模块包括：

7.一种可读存储介质，其上存储有程序，其特征在于，所述程序被处理器执行时实现如权利要求1－5任一所述的方法。

8.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1－5任意一项所述的方法。