CN114492401B - 基于大数据提取英语词汇的工作方法 - Google Patents

基于大数据提取英语词汇的工作方法 Download PDF

Info

Publication number
CN114492401B
CN114492401B CN202210078704.5A CN202210078704A CN114492401B CN 114492401 B CN114492401 B CN 114492401B CN 202210078704 A CN202210078704 A CN 202210078704A CN 114492401 B CN114492401 B CN 114492401B
Authority
CN
China
Prior art keywords
english
vocabulary
english vocabulary
articles
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210078704.5A
Other languages
English (en)
Other versions
CN114492401A (zh
Inventor
鲍玲玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Industry Polytechnic College
Original Assignee
Chongqing Industry Polytechnic College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Industry Polytechnic College filed Critical Chongqing Industry Polytechnic College
Priority to CN202210078704.5A priority Critical patent/CN114492401B/zh
Publication of CN114492401A publication Critical patent/CN114492401A/zh
Application granted granted Critical
Publication of CN114492401B publication Critical patent/CN114492401B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于大数据提取英语词汇的工作方法,包括如下步骤:S1,提取海量中文文章,根据英语词汇在文本中的上下文,对语句语义进行上下文分析,并且提取英语词汇在文章中的位置,根据英语含义进行文章指引;S2,通过词汇特征目标函数对英语词汇进行出现位置的迭代优化判断,形成词汇隐含变量;S3,在隐含变量中计算英语词汇匹配关系出现概率,根据出现概率训练待分类的中文文章,进行高匹配度文章的分类操作。

Description

基于大数据提取英语词汇的工作方法
技术领域
本发明涉及大数据分析领域,尤其涉及一种基于大数据提取英语词汇的工作方法。
背景技术
由于当今社会知识爆炸,在进行数据收集过程中,论文或者其它文献或者浏览器网页充斥的大量的英语词汇,对于上下文的衔接和理解造成了一定的阻碍,而且无法统计在中文的自然语言中出现英语的次数以及对上下文的关联程度,如果英语词汇的出现呈梯度上升,通过神经网络学习的方法能够起到一定的学习作用,并且将提取的英语词汇中学习的内容进行数据归类,根据不同的文章内容,划分不同的文章类别,这就亟需本领域技术人员解决相应的技术问题。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于大数据提取英语词汇的工作方法。
为了实现本发明的上述目的,本发明提供了一种基于大数据提取英语词汇的工作方法,包括如下步骤:
S1,提取海量中文文章,根据英语词汇在文本中的上下文,对语句语义进行上下文分析,并且提取英语词汇在文章中的位置,根据英语含义进行文章指引;
S2,通过词汇特征目标函数对英语词汇进行出现位置的迭代优化判断,形成词汇隐含变量;
S3,在隐含变量中计算英语词汇匹配关系出现概率,根据出现概率训练待分类的中文文章,进行高匹配度文章的分类操作。
优选的,所述S1包括:
S1-1,通过对海量中文文章的遍历搜索,有英语词汇的文章进行筛选,没有英语词汇的文章进行删除;
S1-2,获取英语词汇在文章中的位置,根据英语词汇出现的次数以及语义,对文章进行语义指引;
S1-3,对于包括英语词汇的文章,根据英语词汇含义映射到语义向量中,形成不同语义的英语词汇向量集。
优选的,所述S1还包括:
S1-4,根据所述英语词汇在文章上下文区域获取应用场景信息,对应用场景信息划分英语词汇的应用语境分类,收集应用语境的类似文章;
S1-5,对类似文章建立英语词汇关联关系的例证信息,对例证信息中设置英语词汇导向性类别信息,判断英语词汇导向性类别信息的文章属性,通过对英语词汇学习派生出语义指标指引因子,进行英语词汇文章语义划分;
对语义指标指引因子为
Figure BDA0003485183190000021
s1为语义获取系数,通过语义获取系数对全部英语词汇进行归类的数量Ii(a)进行调节,剔除过多的无效英语词汇;s2为语义偏移系数,通过语义偏移系数对全部多重含义的英语词汇进行归类的数量Ij(b)进行调节,s3为有效语义调节系数,J为英语词汇在文章中出现的次数,其中i和j为正整数;
S1-6,通过语义指标指引因子分类后的英语词汇向量集L,生成目标英语词汇特征图谱信息。对于特征图谱的生成过程,是根据语义指标指引因子计算的算子数值形成的特征点,最后连成的特征曲线形成的图谱。
优选的,所述S2包括:
S2-1,根据提取的特征图谱中英语词汇的依赖关系,由词汇特征目标函数进行训练,得到相关英语词汇所指引的文章相关性判别;
在提取的特征图谱中,由于英语词汇在前期指引因子的维度进行收敛的情况下,形成正则化的英语词汇关联关系,根据关联关系所指向的英语词汇的特征维度,对英语词汇进行词汇特征目标函数Z(x)的计算,
Figure BDA0003485183190000031
L为英语词汇向量集,yk为英语词汇出现在文章中的列y上的k层空间尺度,xk为英语词汇出现在文章中的行x上k层的空间尺度,将L乘以偏置值z再乘以迭代因子λ除以行和列的空间尺度测算的距离值,能够形成词汇在向量中迭代的目标数值,通过正则化因子η进行调节,再乘以英语词汇向量的多层语义维度Y。
优选的,所述S2还包括:
S2-2,对于判别后的英语词汇文章的特征计算词汇隐含变量,建立相应英语词汇文章的索引信息,把隐含变量嵌入索引信息,成为英语词汇文章的属性条件;
根据隐含变量Q对英语词汇的特征索引关联,隐含变量根据英语词汇的属性,例如为:动词、名词、副词、形容词,将该隐含变量嵌入英语词汇索引信息,
Q=k1·K+k2·M+N·μ
k1为词汇动态选择变化度,K为原始选择词汇向量,k2为词汇匹配因子,M为英语词汇的种类,N为同种类英语词汇在英语词汇向量集中出现频率,μ为选择因子。
优选的,所述S2还包括:
S2-3,将具备该属性条件的英语词汇文章进行使用功能标注,从而建立深层语义分类器;
该深层语义分类器R为
Figure BDA0003485183190000041
其中,W为上下文逻辑权重,σ为调节因子,c为英语词汇初始分类因子,d为英语词汇失效查询因子,Q为隐含变量。
优选的,所述S3包括:
S3-1,包含隐含变量的收集分类器对英语词汇的匹配关系进行概率分析,由出现词汇次数调节权重α和词汇语义种类调节权重β进行特征调节划分;
S3-2,将出现次数调节权重和语义调节权重代入英语词汇倾向性公式,从而对相同和类似文章进行特征分类。
Tscore=|Ve·α-Vf·β|,其中Ve为包含该英语词汇的句子,Vf为提取到的目标英语词汇句子。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明是通过对海量中文文章中出现英语词汇的场景进行提炼和筛选,对于词汇的分类通过建立词汇关联关系和语义指标指引因子进行属性划分,并进行分类的过程,分类途径易于掌握,并且快速收敛,具有很强的趋势性和鲁棒性。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明总体示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
如图1所示,本发明公开一种基于大数据提取英语词汇的工作方法,包括如下步骤:
S1,提取海量中文文章,根据英语词汇在文本中的上下文,对语句语义进行上下文分析,并且提取英语词汇在文章中的位置,根据英语含义进行文章指引;
S2,通过词汇特征目标函数对英语词汇进行出现位置(根据依赖关系平衡调节英 语词汇的选择分类)的迭代优化判断,形成词汇隐含变量;
S3,在隐含变量中计算英语词汇匹配关系出现概率,根据出现概率训练待分类的中文文章,进行高匹配度文章的分类操作。
由于英语词汇在中文文献中位置不确定性,英语词汇提取过程需要对词汇含义以及词汇出现频率进行筛选和统计;
所述S1包括:
S1-1,通过对海量中文文章的遍历搜索,有英语词汇的文章进行筛选,没有英语词汇的文章进行删除;英语词汇的筛选包括:两个以上的英语字母组合、大写英语字母组合或者未识别的字母组合;
S1-2,获取英语词汇在文章中的位置,根据英语词汇出现的次数以及语义,对文章进行语义指引;
S1-3,对于包括英语词汇的文章,根据英语词汇含义映射到语义向量中,形成不同语义的英语词汇向量集;有英语导向性词汇positive、passive、happiness、sadness、scholarship、liveness、formal或informal;将包含相应的英语词汇文章形成相应的英语词汇向量集;将英语词汇所在的文章与向量集形成映射关系;
S1-4,根据所述英语词汇在文章上下文区域获取应用场景信息,对应用场景信息划分英语词汇的应用语境分类,收集应用语境的类似文章;
英语词汇用在对专业技术词汇的描述,例如:metaverse,用于科技类,或者元宇宙的技术文献,或者COVID-19,用于生物医药类;
S1-5,对类似文章建立英语词汇关联关系的例证信息,对例证信息中设置英语词汇导向性类别信息,判断英语词汇导向性类别信息的文章属性,通过对英语词汇学习派生出语义指标指引因子,进行英语词汇文章语义划分;
例证信息是由文章上下文的情感信息,主题思想信息,即文章分类信息,换句话说,根据文章分类属性划分为科技类的文章,从中获取的英语词汇,根据该英语词汇使用场景的不同,可能将该科技类的文章划分到符合该英语词汇含义的英语词汇向量集中;如果英语词汇为ginger,在文章分类中是生物科技类,但是在导向性类别信息中也可能是情感类,因为ginger即有生姜,也有充满活力的含义,根据英语词汇语义进行导向性类别分类,从而根据导向性类别分类划分文章属性,而不是根据文章类别进行划分;
对语义指标指引因子为
Figure BDA0003485183190000061
s1为语义获取系数,通过语义获取系数对全部英语词汇进行归类的数量Ii(a)进行调节,剔除过多的无效英语词汇;s2为语义偏移系数,通过语义偏移系数对全部多重含义的英语词汇进行归类的数量Ij(b)进行调节,其中Ii(a)和Ij(b)为包含关系,全部英语词汇进行归类的数量包含全部多重含义的英语词汇进行归类的数量,s3为有效语义调节系数,J为英语词汇在文章中出现的次数,其中i和j为正整数;
将语义指标指引因子在英语词汇文章中根据词汇出现的语义和数量进行代入计算,从而对文章进行划分;
S1-6,通过语义指标指引因子分类后的英语词汇向量集L,生成目标英语词汇特征图谱信息。对于特征图谱的生成过程,是根据语义指标指引因子计算的算子数值形成的特征点,最后连成的特征曲线形成的图谱;
经过学习之后对英语词汇文章进行向量集分类,根据语义指标指引因子对文章进行进一步的归类,形成具备目标英语词汇特征图谱信息,用于对英语词汇出现位置进行后期的目标分类。
优选的,所述S2包括:
S2-1,根据提取的特征图谱中英语词汇的依赖关系,由词汇特征目标函数进行训练,得到相关英语词汇所指引的文章相关性判别;
在提取的特征图谱中,由于英语词汇在前期指引因子的维度进行收敛的情况下,形成正则化的英语词汇关联关系,根据关联关系所指向的英语词汇的特征维度,对英语词汇进行词汇特征目标函数Z(x)的计算,
Figure BDA0003485183190000071
L为英语词汇向量集,yk为英语词汇出现在文章中的列y上的k层空间尺度,xk为英语词汇出现在文章中的行x上k层的空间尺度,将L乘以偏置值z再乘以迭代因子λ除以行和列的空间尺度测算的距离值,能够形成词汇在向量中迭代的目标数值,通过正则化因子η进行调节,再乘以英语词汇向量的多层语义维度Y;进行目标函数计算;该计算对于英语词汇数据的框架处理有很好的关联作用,并且能够从向量的行列维度进行词汇语义特征的目标计算;
S2-2,对于判别后的英语词汇文章的特征计算词汇隐含变量,建立相应英语词汇文章的索引信息,把隐含变量嵌入索引信息,成为英语词汇文章的属性条件;
根据隐含变量Q对英语词汇的特征索引关联,隐含变量根据英语词汇的属性,例如为:动词、名词、副词、形容词,将该隐含变量嵌入英语词汇索引信息,
Q=k1·K+k2·M+N·μ
k1为词汇动态选择变化度,K为原始选择词汇向量,将K从英语词汇文章中提取出来后,通过k1进行变化度的选择,k2为词汇匹配因子,M为英语词汇的种类,通过词汇匹配因子对英语词汇种类进行选择,N为同种类英语词汇在英语词汇向量集中出现频率,μ为选择因子,用于对出现的英语词汇文章进行选择;
S2-3,将具备该属性条件的英语词汇文章进行使用功能标注,从而建立深层语义分类器;
该深层语义分类器R为
Figure BDA0003485183190000081
其中,W为上下文逻辑权重,σ为调节因子,c为英语词汇初始分类因子,d为英语词汇失效查询因子,Q为隐含变量,通过初始分类因子对上下文逻辑权重进行平衡调节,并对失效查询进行平衡调节,由隐含变量对1-c进行索引赋值,从而能够对英语词汇语义根据设定的条件进行分类;
通过实验证明能够对大数据中英语词汇文章进行语义分类,具有很好的分类效果。
优选的,所述S3包括:
S3-1,包含隐含变量的收集分类器对英语词汇的匹配关系进行概率分析,由出现词汇次数调节权重α和词汇语义种类调节权重β进行特征调节划分;
S3-2,将出现次数调节权重和语义调节权重代入英语词汇倾向性公式,从而对相同和类似文章进行特征分类。
Tscore=|Ve·α-Vf·β|,其中Ve为包含该英语词汇的句子,使用α对句子的英语词汇匹配信息进行调节,Vf为提取到的目标英语词汇句子,使用β对句子进行语义种类调节。其得分的不同从而划分不同的英语词汇文章。
由于现有的分类过程都是基于文章的上下文含义,以及文章的主题思想进行分类,本发明能够根据英语词汇出现的次数,以及英语词汇的含义,进行文章分类,能够为英语学习过程中,根据本发明的分类提取方法,对英语词汇应用场景进行深入的学习。而且本发明是通过对海量中文文章中出现英语词汇的场景进行提炼和筛选,并进行分类的过程,分类途径非常独特,并且快速收敛,具有很强的趋势性和鲁棒性。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (6)

1.一种基于大数据提取英语词汇的工作方法,其特征在于,包括如下步骤:
S1,提取海量中文文章,根据英语词汇在文本中的上下文,对语句语义进行上下文分析,并且提取英语词汇在文章中的出现位置,根据英语词汇含义进行文章语义指引;
S1-1,通过对海量中文文章的遍历搜索,有英语词汇的文章进行筛选,没有英语词汇的文章进行删除;
S1-2,获取英语词汇在文章中的位置,根据英语词汇出现的次数以及语义,对文章进行语义指引;
S1-3,对于包括英语词汇的文章,根据英语词汇含义映射到语义向量中,形成不同语义的英语词汇向量集;
S2,通过词汇特征目标函数对英语词汇进行出现位置的迭代优化判断,形成词汇隐含变量;
S3,在隐含变量中计算英语词汇匹配关系出现概率,根据出现概率训练待分类的中文文章,进行高匹配度文章的分类操作。
2.根据权利要求1所述的基于大数据提取英语词汇的工作方法,其特征在于,所述S1包括:
S1-4,根据所述英语词汇在文章上下文区域获取应用场景信息,对应用场景信息划分英语词汇的应用语境分类,收集应用语境的类似文章;
S1-5,对类似文章建立英语词汇关联关系的例证信息,对例证信息中设置英语词汇导向性类别信息,判断英语词汇导向性类别信息的文章属性,通过对英语词汇学习派生出语义指标指引因子,进行英语词汇文章语义划分;
对语义指标指引因子为
Figure FDA0003870913630000021
s1为语义获取系数,通过语义获取系数对全部英语词汇进行归类的数量Ii(a)进行调节,剔除过多的无效英语词汇;s2为语义偏移系数,通过语义偏移系数对全部多重含义的英语词汇进行归类的数量Ij(b)进行调节,s3为有效语义调节系数,J为英语词汇在文章中出现的次数,其中i和j为正整数;
S1-6,通过语义指标指引因子分类后的英语词汇向量集L,生成目标英语词汇特征图谱信息;对于特征图谱的生成过程,是根据语义指标指引因子计算的算子数值形成的特征点,最后连成的特征曲线形成的图谱。
3.根据权利要求1所述的基于大数据提取英语词汇的工作方法,其特征在于,所述S2包括:
S2-1,根据提取的特征图谱中英语词汇的依赖关系,由词汇特征目标函数进行训练,得到相关英语词汇所指引的文章相关性判别;
在提取的特征图谱中,由于英语词汇在前期指引因子的维度进行收敛的情况下,形成正则化的英语词汇关联关系,根据关联关系所指向的英语词汇的特征维度,对英语词汇进行词汇特征目标函数Z(x)的计算,
Figure FDA0003870913630000022
L为英语词汇向量集,yk为英语词汇出现在文章中的列y上的k层空间尺度,xk为英语词汇出现在文章中的行x上k层的空间尺度,将L乘以偏置值z再乘以迭代因子λ除以行和列的空间尺度测算的距离值,能够形成词汇在向量中迭代的目标数值,通过正则化因子η进行调节,再乘以英语词汇向量的多层语义维度Y。
4.根据权利要求3所述的基于大数据提取英语词汇的工作方法,其特征在于,所述S2还包括:
S2-2,对于判别后的英语词汇文章的特征计算词汇隐含变量,建立相应英语词汇文章的索引信息,把隐含变量嵌入索引信息,成为英语词汇文章的属性条件;
根据隐含变量Q对英语词汇的特征索引关联,隐含变量根据英语词汇的属性,为:动词、名词、副词、形容词,将该隐含变量嵌入英语词汇索引信息,
Q=k1·K+k2·M+N·μ
k1为词汇动态选择变化度,K为原始选择词汇向量,k2为词汇匹配因子,M为英语词汇的种类,N为同种类英语词汇在英语词汇向量集中出现频率,μ为选择因子。
5.根据权利要求4所述的基于大数据提取英语词汇的工作方法,其特征在于,所述S2还包括:
S2-3,将具备该属性条件的英语词汇文章进行使用功能标注,从而建立深层语义分类器;
该深层语义分类器R为
Figure FDA0003870913630000031
其中,W为上下文逻辑权重,σ为调节因子,c为英语词汇初始分类因子,d为英语词汇失效查询因子,Q为隐含变量。
6.根据权利要求1所述的基于大数据提取英语词汇的工作方法,其特征在于,所述S3包括:
S3-1,包含隐含变量的收集分类器对英语词汇的匹配关系进行概率分析,由出现词汇次数调节权重α和词汇语义种类调节权重β进行特征调节划分;
S3-2,将出现次数调节权重和语义调节权重代入英语词汇倾向性公式,从而对相同和类似文章进行特征分类;
Tscore=|Ve·α-Vf·β|,其中Ve为包含该英语词汇的句子,Vf为提取到的目标英语词汇句子。
CN202210078704.5A 2022-01-24 2022-01-24 基于大数据提取英语词汇的工作方法 Active CN114492401B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210078704.5A CN114492401B (zh) 2022-01-24 2022-01-24 基于大数据提取英语词汇的工作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210078704.5A CN114492401B (zh) 2022-01-24 2022-01-24 基于大数据提取英语词汇的工作方法

Publications (2)

Publication Number Publication Date
CN114492401A CN114492401A (zh) 2022-05-13
CN114492401B true CN114492401B (zh) 2022-11-15

Family

ID=81474976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210078704.5A Active CN114492401B (zh) 2022-01-24 2022-01-24 基于大数据提取英语词汇的工作方法

Country Status (1)

Country Link
CN (1) CN114492401B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015043077A1 (zh) * 2013-09-29 2015-04-02 北大方正集团有限公司 语义信息获取方法及其关键词扩展方法和检索方法及系统
WO2016199160A2 (en) * 2015-06-12 2016-12-15 Satyanarayana Krishnamurthy Language processing and knowledge building system
CN108363694A (zh) * 2018-02-23 2018-08-03 北京窝头网络科技有限公司 关键词提取方法及装置
CN109408814A (zh) * 2018-09-30 2019-03-01 中国地质大学(武汉) 基于释义基元词的中英跨语言词汇表征学习方法及系统
CN109885686A (zh) * 2019-02-20 2019-06-14 延边大学 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015043077A1 (zh) * 2013-09-29 2015-04-02 北大方正集团有限公司 语义信息获取方法及其关键词扩展方法和检索方法及系统
WO2016199160A2 (en) * 2015-06-12 2016-12-15 Satyanarayana Krishnamurthy Language processing and knowledge building system
CN108363694A (zh) * 2018-02-23 2018-08-03 北京窝头网络科技有限公司 关键词提取方法及装置
CN109408814A (zh) * 2018-09-30 2019-03-01 中国地质大学(武汉) 基于释义基元词的中英跨语言词汇表征学习方法及系统
CN109885686A (zh) * 2019-02-20 2019-06-14 延边大学 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Hybrid method for determining technical vocabulary;Deny Arnos Kwary;《System》;20110504;第39卷(第2期);全文 *
双语交叉分类模型的设计与实现;林鸿飞等;《中文信息学报》;20010625;第15卷(第6期);全文 *
纺织科技英语强化训练的词汇分类方法;李岗岗等;《西安工程大学学报》;20160831;第30卷(第4期);全文 *

Also Published As

Publication number Publication date
CN114492401A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN106776562A (zh) 一种关键词提取方法和提取系统
CN107895000B (zh) 一种基于卷积神经网络的跨领域语义信息检索方法
CN108509521B (zh) 一种自动生成文本索引的图像检索方法
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
CN110209818B (zh) 一种面向语义敏感词句的分析方法
CN103678422A (zh) 网页分类方法和装置、网页分类器的训练方法和装置
Odeh et al. Arabic text categorization algorithm using vector evaluation method
CN110110116A (zh) 一种整合深度卷积网络和语义分析的商标图像检索方法
CN107391565A (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
CN114841173A (zh) 基于预训练模型的学术文本语义特征提取方法、系统和存储介质
CN114265936A (zh) 一种科技项目文本挖掘的实现方法
Trabelsi et al. A hybrid deep model for learning to rank data tables
CN114492401B (zh) 基于大数据提取英语词汇的工作方法
CN114511027B (zh) 通过大数据网络进行英语远程数据提取方法
CN113780832B (zh) 舆情文本评分方法、装置、计算机设备和存储介质
Han et al. Unsupervised Word Sense Disambiguation based on Word Embedding and Collocation.
KR101400548B1 (ko) 문서의 자동 학습 장치와 이를 이용한 문서 자동 학습 방법, 문서의 자동 분류 장치와 이를 이용한 문서 자동 분류 방법
CN111027315B (zh) 一种基于Word2Vec模型的WordNet中词语相似度计算方法
MalarSelvi et al. Analysis of Different Approaches for Automatic Text Summarization
KR101240330B1 (ko) 다차원 문서 분류 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant