CN114492401A

CN114492401A - 基于大数据提取英语词汇的工作方法

Info

Publication number: CN114492401A
Application number: CN202210078704.5A
Authority: CN
Inventors: 鲍玲玲
Original assignee: Chongqing Industry Polytechnic College
Current assignee: Chongqing Industry Polytechnic College
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-05-13
Anticipated expiration: 2042-01-24
Also published as: CN114492401B

Abstract

本发明提出了一种基于大数据提取英语词汇的工作方法，包括如下步骤：S1，提取海量中文文章，根据英语词汇在文本中的上下文，对语句语义进行上下文分析，并且提取英语词汇在文章中的位置，根据英语含义进行文章指引；S2，通过词汇特征目标函数对英语词汇进行出现位置的迭代优化判断，形成词汇隐含变量；S3，在隐含变量中计算英语词汇匹配关系出现概率，根据出现概率训练待分类的中文文章，进行高匹配度文章的分类操作。

Description

基于大数据提取英语词汇的工作方法

技术领域

本发明涉及大数据分析领域，尤其涉及一种基于大数据提取英语词汇的工作方法。

背景技术

由于当今社会知识爆炸，在进行数据收集过程中，论文或者其它文献或者浏览器网页充斥的大量的英语词汇，对于上下文的衔接和理解造成了一定的阻碍，而且无法统计在中文的自然语言中出现英语的次数以及对上下文的关联程度，如果英语词汇的出现呈梯度上升，通过神经网络学习的方法能够起到一定的学习作用，并且将提取的英语词汇中学习的内容进行数据归类，根据不同的文章内容，划分不同的文章类别，这就亟需本领域技术人员解决相应的技术问题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于大数据提取英语词汇的工作方法。

为了实现本发明的上述目的，本发明提供了一种基于大数据提取英语词汇的工作方法，包括如下步骤：

S1，提取海量中文文章，根据英语词汇在文本中的上下文，对语句语义进行上下文分析，并且提取英语词汇在文章中的位置，根据英语含义进行文章指引；

S2，通过词汇特征目标函数对英语词汇进行出现位置的迭代优化判断，形成词汇隐含变量；

S3，在隐含变量中计算英语词汇匹配关系出现概率，根据出现概率训练待分类的中文文章，进行高匹配度文章的分类操作。

优选的，所述S1包括：

S1-1，通过对海量中文文章的遍历搜索，有英语词汇的文章进行筛选，没有英语词汇的文章进行删除；

S1-2，获取英语词汇在文章中的位置，根据英语词汇出现的次数以及语义，对文章进行语义指引；

S1-3，对于包括英语词汇的文章，根据英语词汇含义映射到语义向量中，形成不同语义的英语词汇向量集。

优选的，所述S1还包括：

S1-4，根据所述英语词汇在文章上下文区域获取应用场景信息，对应用场景信息划分英语词汇的应用语境分类，收集应用语境的类似文章；

S1-5，对类似文章建立英语词汇关联关系的例证信息，对例证信息中设置英语词汇导向性类别信息，判断英语词汇导向性类别信息的文章属性，通过对英语词汇学习派生出语义指标指引因子，进行英语词汇文章语义划分；

对语义指标指引因子为

s₁为语义获取系数，通过语义获取系数对全部英语词汇进行归类的数量I_i(a)进行调节，剔除过多的无效英语词汇；s₂为语义偏移系数，通过语义偏移系数对全部多重含义的英语词汇进行归类的数量I_j(b)进行调节，s₃为有效语义调节系数，J为英语词汇在文章中出现的次数，其中i和j为正整数；

S1-6，通过语义指标指引因子分类后的英语词汇向量集L，生成目标英语词汇特征图谱信息。对于特征图谱的生成过程，是根据语义指标指引因子计算的算子数值形成的特征点，最后连成的特征曲线形成的图谱。

优选的，所述S2包括：

S2-1，根据提取的特征图谱中英语词汇的依赖关系，由词汇特征目标函数进行训练，得到相关英语词汇所指引的文章相关性判别；

在提取的特征图谱中，由于英语词汇在前期指引因子的维度进行收敛的情况下，形成正则化的英语词汇关联关系，根据关联关系所指向的英语词汇的特征维度，对英语词汇进行词汇特征目标函数Z(x)的计算，

L为英语词汇向量集，y_k为英语词汇出现在文章中的列y上的k层空间尺度，x_k为英语词汇出现在文章中的行x上k层的空间尺度，将L乘以偏置值z再乘以迭代因子λ除以行和列的空间尺度测算的距离值，能够形成词汇在向量中迭代的目标数值，通过正则化因子η进行调节，再乘以英语词汇向量的多层语义维度Y。

优选的，所述S2还包括：

S2-2，对于判别后的英语词汇文章的特征计算词汇隐含变量，建立相应英语词汇文章的索引信息，把隐含变量嵌入索引信息，成为英语词汇文章的属性条件；

根据隐含变量Q对英语词汇的特征索引关联，隐含变量根据英语词汇的属性，例如为：动词、名词、副词、形容词，将该隐含变量嵌入英语词汇索引信息，

Q＝k₁·K+k₂·M+N·μ

k₁为词汇动态选择变化度，K为原始选择词汇向量，k2为词汇匹配因子，M为英语词汇的种类，N为同种类英语词汇在英语词汇向量集中出现频率，μ为选择因子。

优选的，所述S2还包括：

S2-3，将具备该属性条件的英语词汇文章进行使用功能标注，从而建立深层语义分类器；

该深层语义分类器R为

其中，W为上下文逻辑权重，σ为调节因子，c为英语词汇初始分类因子，d为英语词汇失效查询因子，Q为隐含变量。

优选的，所述S3包括：

S3-1，包含隐含变量的收集分类器对英语词汇的匹配关系进行概率分析，由出现词汇次数调节权重α和词汇语义种类调节权重β进行特征调节划分；

S3-2，将出现次数调节权重和语义调节权重代入英语词汇倾向性公式，从而对相同和类似文章进行特征分类。

T_score＝|V_e·α-V_f·β|，其中V_e为包含该英语词汇的句子，V_f为提取到的目标英语词汇句子。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明是通过对海量中文文章中出现英语词汇的场景进行提炼和筛选，对于词汇的分类通过建立词汇关联关系和语义指标指引因子进行属性划分，并进行分类的过程，分类途径易于掌握，并且快速收敛，具有很强的趋势性和鲁棒性。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明总体示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

如图1所示，本发明公开一种基于大数据提取英语词汇的工作方法，包括如下步骤：

S2，通过词汇特征目标函数对英语词汇进行出现位置(根据依赖关系平衡调节英语词汇的选择分类)的迭代优化判断，形成词汇隐含变量；

由于英语词汇在中文文献中位置不确定性，英语词汇提取过程需要对词汇含义以及词汇出现频率进行筛选和统计；

所述S1包括：

S1-1，通过对海量中文文章的遍历搜索，有英语词汇的文章进行筛选，没有英语词汇的文章进行删除；英语词汇的筛选包括：两个以上的英语字母组合、大写英语字母组合或者未识别的字母组合；

S1-3，对于包括英语词汇的文章，根据英语词汇含义映射到语义向量中，形成不同语义的英语词汇向量集；有英语导向性词汇positive、passive、happiness、sadness、scholarship、liveness、formal或informal；将包含相应的英语词汇文章形成相应的英语词汇向量集；将英语词汇所在的文章与向量集形成映射关系；

英语词汇用在对专业技术词汇的描述，例如：metaverse，用于科技类，或者元宇宙的技术文献，或者COVID-19，用于生物医药类；

例证信息是由文章上下文的情感信息，主题思想信息，即文章分类信息，换句话说，根据文章分类属性划分为科技类的文章，从中获取的英语词汇，根据该英语词汇使用场景的不同，可能将该科技类的文章划分到符合该英语词汇含义的英语词汇向量集中；如果英语词汇为ginger，在文章分类中是生物科技类，但是在导向性类别信息中也可能是情感类，因为ginger即有生姜，也有充满活力的含义，根据英语词汇语义进行导向性类别分类，从而根据导向性类别分类划分文章属性，而不是根据文章类别进行划分；

对语义指标指引因子为

s₁为语义获取系数，通过语义获取系数对全部英语词汇进行归类的数量I_i(a)进行调节，剔除过多的无效英语词汇；s₂为语义偏移系数，通过语义偏移系数对全部多重含义的英语词汇进行归类的数量I_j(b)进行调节，其中I_i(a)和I_j(b)为包含关系，全部英语词汇进行归类的数量包含全部多重含义的英语词汇进行归类的数量，s₃为有效语义调节系数，J为英语词汇在文章中出现的次数，其中i和j为正整数；

将语义指标指引因子在英语词汇文章中根据词汇出现的语义和数量进行代入计算，从而对文章进行划分；

S1-6，通过语义指标指引因子分类后的英语词汇向量集L，生成目标英语词汇特征图谱信息。对于特征图谱的生成过程，是根据语义指标指引因子计算的算子数值形成的特征点，最后连成的特征曲线形成的图谱；

经过学习之后对英语词汇文章进行向量集分类，根据语义指标指引因子对文章进行进一步的归类，形成具备目标英语词汇特征图谱信息，用于对英语词汇出现位置进行后期的目标分类。

优选的，所述S2包括：

L为英语词汇向量集，y_k为英语词汇出现在文章中的列y上的k层空间尺度，x_k为英语词汇出现在文章中的行x上k层的空间尺度，将L乘以偏置值z再乘以迭代因子λ除以行和列的空间尺度测算的距离值，能够形成词汇在向量中迭代的目标数值，通过正则化因子η进行调节，再乘以英语词汇向量的多层语义维度Y；进行目标函数计算；该计算对于英语词汇数据的框架处理有很好的关联作用，并且能够从向量的行列维度进行词汇语义特征的目标计算；

Q＝k₁·K+k₂·M+N·μ

k₁为词汇动态选择变化度，K为原始选择词汇向量，将K从英语词汇文章中提取出来后，通过k1进行变化度的选择，k2为词汇匹配因子，M为英语词汇的种类，通过词汇匹配因子对英语词汇种类进行选择，N为同种类英语词汇在英语词汇向量集中出现频率，μ为选择因子，用于对出现的英语词汇文章进行选择；

该深层语义分类器R为

其中，W为上下文逻辑权重，σ为调节因子，c为英语词汇初始分类因子，d为英语词汇失效查询因子，Q为隐含变量，通过初始分类因子对上下文逻辑权重进行平衡调节，并对失效查询进行平衡调节，由隐含变量对1-c进行索引赋值，从而能够对英语词汇语义根据设定的条件进行分类；

通过实验证明能够对大数据中英语词汇文章进行语义分类，具有很好的分类效果。

优选的，所述S3包括：

T_score＝|V_e·α-V_f·β|，其中V_e为包含该英语词汇的句子，使用α对句子的英语词汇匹配信息进行调节，V_f为提取到的目标英语词汇句子，使用β对句子进行语义种类调节。其得分的不同从而划分不同的英语词汇文章。

由于现有的分类过程都是基于文章的上下文含义，以及文章的主题思想进行分类，本发明能够根据英语词汇出现的次数，以及英语词汇的含义，进行文章分类，能够为英语学习过程中，根据本发明的分类提取方法，对英语词汇应用场景进行深入的学习。而且本发明是通过对海量中文文章中出现英语词汇的场景进行提炼和筛选，并进行分类的过程，分类途径非常独特，并且快速收敛，具有很强的趋势性和鲁棒性。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于大数据提取英语词汇的工作方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于大数据提取英语词汇的工作方法，其特征在于，所述S1包括：

3.根据权利要求2所述的基于大数据提取英语词汇的工作方法，其特征在于，所述S1还包括：

对语义指标指引因子为

4.根据权利要求1所述的基于大数据提取英语词汇的工作方法，其特征在于，所述S2包括：

5.根据权利要求4所述的基于大数据提取英语词汇的工作方法，其特征在于，所述S2还包括：

Q＝k₁·K+k₂·M+N·μ

6.根据权利要求5所述的基于大数据提取英语词汇的工作方法，其特征在于，所述S2还包括：

该深层语义分类器R为

7.根据权利要求1所述的基于大数据提取英语词汇的工作方法，其特征在于，所述S3包括：