CN111859924B - 一种基于word2vec模型构建词网的方法和装置 - Google Patents

一种基于word2vec模型构建词网的方法和装置 Download PDF

Info

Publication number
CN111859924B
CN111859924B CN202010703335.5A CN202010703335A CN111859924B CN 111859924 B CN111859924 B CN 111859924B CN 202010703335 A CN202010703335 A CN 202010703335A CN 111859924 B CN111859924 B CN 111859924B
Authority
CN
China
Prior art keywords
word
data
network
words
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010703335.5A
Other languages
English (en)
Other versions
CN111859924A (zh
Inventor
张辉
杨玺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202010703335.5A priority Critical patent/CN111859924B/zh
Publication of CN111859924A publication Critical patent/CN111859924A/zh
Application granted granted Critical
Publication of CN111859924B publication Critical patent/CN111859924B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于word2vec模型构建词网的方法和装置,属于词网构建技术领域,本发明包括词网数据清洗功能、词网模型构建功能与词网数据动态添加功能。通过对科技产出的关键词、摘要、名称数据结合相关停用词进行切词分词处理等数据清洗处理形成基本词库,然后针对基本词库采取word2vec网络模型对数据进行编码以及空间定位操作,通过持续迭代训练将数据收敛,最终形成词网数据库。在已构建词网数据库的基础上,支持动态加入相关词的功能。通过对新词的关联属性与词网中已有词进行对比,并计算新词的空间向量平均值,得到新词在词网空间中的相对位置,最终实现词网数据的更新。

Description

一种基于word2vec模型构建词网的方法和装置
技术领域
本发明涉及词网构建技术,尤其涉及一种基于word2vec模型构建词网的方法和装置。
背景技术
现有的词网构建技术及方案有很多种,但大多方案词与词间的关系比较单一,造成整个词网的网络结构较为简单,且当新词加入词网时,需要重新训练,扩展性不足。
发明内容
为了解决以上技术问题,本发明提供了一种基于word2vec模型构建词网的方法,为基于word2vec模型结合自然语言技术优化词网的准确度、词网的构建效率、词网的扩展性以及丰富词网的网络结构。有效优化及提升基于词网数据实现的相关词云展现、数据标引及数据打标签等应用场景的准确度。
本发明的技术方案是:
一种基于word2vec模型构建词网的方法,基于自然语言处理技术,经过对数据通过停用词、切词、词频统计等一系列操作对数据进行清洗,通过word2vec网络模型对词进行深度挖掘和训练,结合词向量建立词与词间的关联关系,通过持续迭代不断丰富词网的网络结构,并且针对新进词,通过与词网比对更新词网,增强了词网的更新迭代效率和扩展性。
通过对科技产出的关键词、摘要、名称数据结合相关停用词进行切词分词处理等数据清洗处理形成基本词库,然后针对基本词库采取word2vec网络模型对数据进行编码以及空间定位操作,通过持续迭代训练将数据收敛,最终形成词网数据库。
进一步的,
在已构建词网数据库的基础上,支持动态加入相关词的功能;通过对新词的关联属性与词网中已有词进行对比,并计算新词的空间向量平均值,得到新词在词网空间中的相对位置,最终实现词网数据的更新。
本发明还公开了一种基于word2vec模型构建词网的装置,包括词网数据清洗组件、词网模型构建组件与词网数据动态添加组件。
(1)在词网数据清洗组件中,采取数据分词、数据规范化、词频统计的清洗方式将文本数据转化为可训练数据;
(2)在词网模型构建组件中,采取word2vec网络模型对数据进行编码以及空间定位操作;
(3)词网数据动态添加组件,解决新兴词汇快速加入词网的功能。
进一步的,
(1)在词网数据清洗组件中,
输入数据源采用科技产出数据,选取近十年的文本数据,统一格式后存入数据库进行统一处理,在数据库中对源数据的摘要以及关键词进行提取,利用jieba全模式切词,将摘要中所有的可以成词的词语扫描出来,并使用特定的关键词网进行更加细致的筛选,与数据关键词合并,得到相关联的字符组,引入停用词表对字符组停用词进行初步清洗,将初步清洗后的数据引入深度清洗流程,进行大小写规范,低频词筛除与替换,建立词组索引,清洗无效或数据量过少数据,将数据编码统计词频存入词网数据库,并组成清洗后的有效数据进行关联关系提取形成数组并划分训练集与测试集,将所有集合存入训练数据库。
(2)在词网模型构建组件中,引入word2vec网络模型中的CBOW模型,将高维度的one-hot词向量嵌入到低维并赋予其语义相似性,运用CBOW类train的核心方法,实现了CBOW的前向传播过程和反向传播算法。
rain方法需要传入中心词的one-hot向量和它one-hot向量表示的语境列表,传入one-hot向量事实上也就是传入索引值。
运用设置的初始嵌入向量维度,关联词范围最小值与最大值,负采样数以及迭代次数,构建序贯模型,添加嵌入层,这些样本将以id的形式输入到以很小的随机权重值初始化的通用嵌入层,每个样本都会被嵌入层转化为特定形式的空间向量;
之后将每一段样本生成的向量矩阵送入lambda层,计算所有向量平均值;均值数据再经过激活函数为softmax的全连接层,将输出向量的最大值以概率形式标注得到具有最大概率值的目标词以便提取这些目标词的空间位置;
在词向量循环中迭代,将数据进行迭代,判断收敛趋势是否达标与有效,当学习率比较小的时候,可以训练出更优的权重向量。但是较小的学习率也意味着更长的训练时间,而且如果是非凸问题则还有可能会陷入局部解中。若趋势收敛过慢,则调整模型参数重新迭代。若达标待模型迭代完成将模型存入模型网络数据库用来之后更新迭代,将生成的词网数据存入词网数据库用来提供之后的服务并结束此组件。
进一步的,
(3)词网数据动态添加组件中,新兴词汇入网在已得到词网中根据新新词汇与新兴词汇出现的文本进行之前的数据处理操作,完成数据清洗与分词采取词向量平均的方式将生僻词与新兴词汇动态添加进词网数据库,丰富词网容量。
首先对新进数据进行关键词提取,得到相关联的词组,在已经训练好的词网数据中找到该关联词组的位置,并对已出现密集度高的关键词进行空间向量平均值计算,得到新兴词汇在空间中的相对位置,并根据此相对位置确定新兴词汇所在领域,并与输入领域进行对比,若无问题,将此词汇与词汇相对位置存入词网数据,若领域有偏差则重新提取高密度关键词阈值。全部词汇写入完成后将数据归档,结束此组件。
本发明的有益效果是
本发明创造的基于word2vec模型构建词网的方法和装置是以自然语言处理技术为核心,运用更少的维度,更快的速度与更强的通用性,通过对词网的搭建逐步提高词网数据的范围与精度。在之后的开发中可以利用构建的词网数据,根据输入的实体数据的关键词、研究方向以及摘要信息,在词网数据数据库中寻找各关键词所对应的空间向量值,并分组进行空间向量平均值的操作,得到关键词的相对位置,并输出至标签数据库。根据各标签数据库中向量余弦夹角判断各实体数据的关联关系。并以此为基础对各零散单元进行统一标注,构建智能单元分析体系,实现了有效的离散单元挖掘分析与处理功能,提高了科技信息的价值与信息获取精度。
附图说明
图1是本发明的系统流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如附图1所示。整体可分为三大组件,分别为词网数据清洗组件、词网模型构建组件与词网数据动态添加组件,技术实现方案如下:
(1)在词网数据清洗组件中,采取数据分词、数据规范化、词频统计等清洗方式将文本数据转化为可训练数据。输入数据源采用科技产出数据,选取近十年的科技产出论文、报告、专利等文本数据,统一格式后存入数据库进行统一处理,在数据库中对源数据的摘要以及关键词进行提取,利用jieba全模式切词,将摘要中所有的可以成词的词语扫描出来,并使用特定的关键词网进行更加细致的筛选,与数据关键词合并,得到相关联的字符组,引入停用词表对字符组停用词进行初步清洗,将初步清洗后的数据引入深度清洗流程,进行大小写规范,低频词筛除与替换,建立词组索引,清洗无效或数据量过少数据,将数据编码统计词频存入词网数据库,并组成清洗后的有效数据进行关联关系提取形成数组并划分训练集与测试集,将所有集合存入训练数据库。
(2)在词网模型构建组件中,采取word2vec网络模型对数据进行编码以及空间定位操作。引入word2vec网络模型中的CBOW模型,将高维度的one-hot词向量嵌入到低维并赋予其语义相似性,运用CBOW类train的核心方法,实现了CBOW的前向传播过程和反向传播算法。
为了提高复用性,train方法需要传入中心词的one-hot向量和它one-hot向量表示的语境列表。由于one-hot向量及其稀疏且仅与字符在词典中的位置有关,因而传入one-hot向量事实上也就是传入索引值。
运用设置的初始嵌入向量维度,关联词范围最小值与最大值,负采样数以及迭代次数,构建序贯模型,添加嵌入层,这些样本将以id的形式输入到以很小的随机权重值初始化的通用嵌入层,每个样本都会被嵌入层转化为特定形式的空间向量。
之后将每一段样本生成的向量矩阵送入lambda层,计算所有向量平均值。均值数据再经过激活函数为softmax的全连接层,将输出向量的最大值以概率形式标注得到具有最大概率值的目标词以便提取这些目标词的空间位置。
在词向量循环中迭代,将数据进行迭代,判断收敛趋势是否达标与有效,当学习率比较小的时候,可以训练出更优的权重向量。但是较小的学习率也意味着更长的训练时间,而且如果是非凸问题则还有可能会陷入局部解中。若趋势收敛过慢,则调整模型参数重新迭代。若达标待模型迭代完成将模型存入模型网络数据库用来之后更新迭代,将生成的词网数据存入词网数据库用来提供之后的服务并结束此组件。
(3)词网数据动态添加组件解决了新兴词汇快速加入词网的功能。新兴词汇入网不需要整个网络重新运算,在已得到词网中根据新新词汇与新兴词汇出现的文本进行之前的数据处理操作,完成数据清洗与分词采取词向量平均的方式将生僻词与新兴词汇动态添加进词网数据库,丰富词网容量。首先对新进数据进行关键词提取,得到相关联的词组,在已经训练好的词网数据中找到该关联词组的位置,并对已出现密集度高的关键词进行空间向量平均值计算,得到新兴词汇在空间中的相对位置,并根据此相对位置确定新兴词汇所在领域,并与输入领域进行对比,若无问题,将此词汇与词汇相对位置存入词网数据,若领域有偏差则重新提取高密度关键词阈值。全部词汇写入完成后将数据归档,结束此组件。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (5)

1.一种基于word2vec模型构建词网的方法,其特征在于,
基于自然语言处理技术,经过对数据通过停用词、切词、词频统计一系列操作对数据进行清洗,通过word2vec网络模型对词进行挖掘和训练,结合词向量建立词与词间的关联关系,通过持续迭代不断丰富词网的网络结构,并且针对新进词,通过与词网比对更新词网;
其中,
(1)在词网数据清洗组件中,输入数据源采用科技产出数据,选取近十年的文本数据,统一格式后存入数据库进行统一处理,在数据库中对源数据的摘要以及关键词进行提取,利用jieba全模式切词,将摘要中所有的可以成词的词语扫描出来,并使用特定的关键词网进行更加细致的筛选,与数据关键词合并,得到相关联的字符组,引入停用词表对字符组停用词进行初步清洗,将初步清洗后的数据引入深度清洗流程,进行大小写规范,低频词筛除与替换,建立词组索引,清洗无效数据,将数据编码统计词频存入词网数据库,并组成清洗后的有效数据进行关联关系提取形成数组并划分训练集与测试集,将所有集合存入训练数据库;
(2)在词网模型构建组件中,引入word2vec网络模型中的CBOW模型,将高维度的one-hot词向量嵌入到低维并赋予其语义相似性,运用CBOW类train的核心方法,实现了CBOW的前向传播过程和反向传播算法;
CBOW类train的核心方法需要传入中心词的one-hot向量和它one-hot向量表示的语境列表,传入one-hot向量事实上也就是传入索引值;
运用设置的初始嵌入向量维度,关联词范围最小值与最大值,负采样数以及迭代次数,构建序贯模型,添加嵌入层,这些样本将以id的形式输入到以很小的随机权重值初始化的通用嵌入层,每个样本都会被嵌入层转化为特定形式的空间向量;
之后将每一段样本生成的向量矩阵送入lambda层,计算所有向量平均值;均值数据再经过激活函数为softmax的全连接层,将输出向量的最大值以概率形式标注得到具有最大概率值的目标词以便提取这些目标词的空间位置;
(3)词网数据动态添加组件中,新兴词汇入网在已得到词网中根据新新词汇与新兴词汇出现的文本进行之前的数据处理操作,完成数据清洗与分词采取词向量平均的方式将生僻词与新兴词汇动态添加进词网数据库,丰富词网容量;
首先对新进数据进行关键词提取,得到相关联的词组,在已经训练好的词网数据中找到该关联词组的位置,并对已出现密集度高的关键词进行空间向量平均值计算,得到新兴词汇在空间中的相对位置,并根据此相对位置确定新兴词汇所在领域,并与输入领域进行对比,若无问题,将此词汇与词汇相对位置存入词网数据,若领域有偏差则重新提取高密度关键词阈值;全部词汇写入完成后将数据归档,结束此组件。
2.根据权利要求1所述的方法,其特征在于,
通过对科技产出的关键词、摘要、名称数据结合相关停用词进行切词分词处理等数据清洗处理形成基本词库,然后针对基本词库采取word2vec网络模型对数据进行编码以及空间定位操作,通过持续迭代训练将数据收敛,最终形成词网数据库。
3.根据权利要求2所述的方法,其特征在于,
在已构建词网数据库的基础上,支持动态加入相关词的功能;通过对新词的关联属性与词网中已有词进行对比,并计算新词的空间向量平均值,得到新词在词网空间中的相对位置,最终实现词网数据的更新。
4.一种基于word2vec模型构建词网的装置,其特征在于,
包括词网数据清洗组件、词网模型构建组件与词网数据动态添加组件,
(1)词网数据清洗组件,采取数据分词、数据规范化、词频统计的清洗方式将文本数据转化为可训练数据;
(2)词网模型构建组件,采取word2vec网络模型对数据进行编码以及空间定位操作;
(3)词网数据动态添加组件,解决新兴词汇快速加入词网的功能;
其中,
在词网数据清洗组件中,输入数据源采用科技产出数据,选取近十年的文本数据,统一格式后存入数据库进行统一处理,在数据库中对源数据的摘要以及关键词进行提取,利用jieba全模式切词,将摘要中所有的可以成词的词语扫描出来,并使用特定的关键词网进行更加细致的筛选,与数据关键词合并,得到相关联的字符组,引入停用词表对字符组停用词进行初步清洗,将初步清洗后的数据引入深度清洗流程,进行大小写规范,低频词筛除与替换,建立词组索引,清洗无效数据,将数据编码统计词频存入词网数据库,并组成清洗后的有效数据进行关联关系提取形成数组并划分训练集与测试集,将所有集合存入训练数据库;
在词网模型构建组件中,引入word2vec网络模型中的CBOW模型,将高维度的one-hot词向量嵌入到低维并赋予其语义相似性,运用CBOW类train的核心方法,实现了CBOW的前向传播过程和反向传播算法;
CBOW类train的核心方法需要传入中心词的one-hot向量和它one-hot向量表示的语境列表,传入one-hot向量事实上也就是传入索引值;
运用设置的初始嵌入向量维度,关联词范围最小值与最大值,负采样数以及迭代次数,构建序贯模型,添加嵌入层,这些样本将以id的形式输入到以很小的随机权重值初始化的通用嵌入层,每个样本都会被嵌入层转化为特定形式的空间向量;
之后将每一段样本生成的向量矩阵送入lambda层,计算所有向量平均值;均值数据再经过激活函数为softmax的全连接层,将输出向量的最大值以概率形式标注得到具有最大概率值的目标词以便提取这些目标词的空间位置;
词网数据动态添加组件中,新兴词汇入网在已得到词网中根据新新词汇与新兴词汇出现的文本进行之前的数据处理操作,完成数据清洗与分词采取词向量平均的方式将生僻词与新兴词汇动态添加进词网数据库,丰富词网容量;首先对新进数据进行关键词提取,得到相关联的词组,在已经训练好的词网数据中找到该关联词组的位置,并对已出现密集度高的关键词进行空间向量平均值计算,得到新兴词汇在空间中的相对位置,并根据此相对位置确定新兴词汇所在领域,并与输入领域进行对比,若无问题,将此词汇与词汇相对位置存入词网数据,若领域有偏差则重新提取高密度关键词阈值;全部词汇写入完成后将数据归档,结束此组件。
5.根据权利要求4所述的装置,其特征在于,
在词向量循环中迭代,将数据进行迭代,判断收敛趋势是否达标与有效,若迭代5w轮次,通过损失函数计算差值小于200,则调整模型参数重新迭代;若达标待模型迭代完成将模型存入模型网络数据库用来之后更新迭代,将生成的词网数据存入词网数据库用来提供之后的服务并结束此组件。
CN202010703335.5A 2020-07-21 2020-07-21 一种基于word2vec模型构建词网的方法和装置 Active CN111859924B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010703335.5A CN111859924B (zh) 2020-07-21 2020-07-21 一种基于word2vec模型构建词网的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010703335.5A CN111859924B (zh) 2020-07-21 2020-07-21 一种基于word2vec模型构建词网的方法和装置

Publications (2)

Publication Number Publication Date
CN111859924A CN111859924A (zh) 2020-10-30
CN111859924B true CN111859924B (zh) 2024-04-05

Family

ID=73001378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010703335.5A Active CN111859924B (zh) 2020-07-21 2020-07-21 一种基于word2vec模型构建词网的方法和装置

Country Status (1)

Country Link
CN (1) CN111859924B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146704B (zh) * 2022-05-27 2023-11-07 中睿信数字技术有限公司 基于分布式数据库和机器学习的事件自动分类方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
CN108920466A (zh) * 2018-07-27 2018-11-30 杭州电子科技大学 一种基于word2vec和TextRank的科技文本关键词提取方法
CN109753566A (zh) * 2019-01-09 2019-05-14 大连民族大学 基于卷积神经网络的跨领域情感分析的模型训练方法
WO2019214149A1 (zh) * 2018-05-11 2019-11-14 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
KR20200007713A (ko) * 2018-07-12 2020-01-22 삼성전자주식회사 감성 분석에 의한 토픽 결정 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
WO2019214149A1 (zh) * 2018-05-11 2019-11-14 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
KR20200007713A (ko) * 2018-07-12 2020-01-22 삼성전자주식회사 감성 분석에 의한 토픽 결정 방법 및 장치
CN108920466A (zh) * 2018-07-27 2018-11-30 杭州电子科技大学 一种基于word2vec和TextRank的科技文本关键词提取方法
CN109753566A (zh) * 2019-01-09 2019-05-14 大连民族大学 基于卷积神经网络的跨领域情感分析的模型训练方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于专利摘要词嵌入分布式表示方法的改进;刘刚;曹雨虹;裴莹莹;李玉;;信息通信(第04期);全文 *
基于深度学习的慢性肝病CT报告相似度分析;常炳国;刘清星;;计算机应用与软件(第08期);全文 *
基于领域知识词网的学科知识簇实现初探――以武汉理工大学自动化学科知识簇建设为例;王华伟;周和玉;韦靓;郏林;张然;王海泉;于雷;;情报理论与实践(第09期);全文 *

Also Published As

Publication number Publication date
CN111859924A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN108897857B (zh) 面向领域的中文文本主题句生成方法
CN111694924B (zh) 一种事件抽取方法和系统
CN108319666B (zh) 一种基于多模态舆情分析的供电服务评估方法
CN110275936B (zh) 一种基于自编码神经网络的相似法律案例检索方法
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
CN110532554A (zh) 一种中文摘要生成方法、系统及存储介质
CN111209749A (zh) 一种将深度学习应用于中文分词的方法
CN110928981A (zh) 一种文本标签体系搭建及完善迭代的方法、系统及存储介质
CN111581368A (zh) 一种基于卷积神经网络的面向智能专家推荐的用户画像方法
CN110569505A (zh) 一种文本输入方法及装置
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN114925195A (zh) 一种融合词汇编码与结构编码的标准内容文本摘要生成方法
CN111984791A (zh) 一种基于注意力机制的长文分类方法
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN111859924B (zh) 一种基于word2vec模型构建词网的方法和装置
CN107622047B (zh) 一种设计决策知识的提取和表达方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN115860015B (zh) 一种基于翻译记忆的转写文本翻译方法和计算机设备
Audhkhasi et al. Recent progress in deep end-to-end models for spoken language processing
CN114036946B (zh) 一种文本特征提取及辅助检索的系统及方法
CN110738987B (zh) 一种基于统一表征的关键词检索方法
CN116541505B (zh) 一种基于自适应对话分割的对话摘要生成方法
CN115019801A (zh) 基于ResNet-GAU模型的PCVCs端到端语音识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant