CN108268449A - 一种基于词项聚类的文本语义标签抽取方法 - Google Patents

一种基于词项聚类的文本语义标签抽取方法 Download PDF

Info

Publication number
CN108268449A
CN108268449A CN201810138008.2A CN201810138008A CN108268449A CN 108268449 A CN108268449 A CN 108268449A CN 201810138008 A CN201810138008 A CN 201810138008A CN 108268449 A CN108268449 A CN 108268449A
Authority
CN
China
Prior art keywords
lexical item
vector
text
node
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810138008.2A
Other languages
English (en)
Inventor
丁治明
李雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201810138008.2A priority Critical patent/CN108268449A/zh
Publication of CN108268449A publication Critical patent/CN108268449A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于词项聚类的文本语义标签抽取方法,对用户输入的文本数据,根据词向量映射以及聚类运算,最后将聚类质心做反映射回词项,将其作为语义标签返回给用户。本方法基于Hinton的单词分布式表示假说,在神经网络语言模型的基础上,采用词嵌入生成技术,提出了一种文本的关键词抽取方法。本模型使用低维空间中的向量作为单词的语义表示,采用聚类算法对低维空间中词项的分布进行语义计算,并使用向量到单词映射的方式对语义信息解码,从而抽取出文本的语义标签。本方法得到的实验效果显著。

Description

一种基于词项聚类的文本语义标签抽取方法
技术领域
本发明属于数据挖掘领域,涉及一种基于词项聚类的文本语义标签抽取方法。
背景技术
随着互联网的发展,互联网基础设施的快速增长,使得大量用户数据的收集变得越来月容易,而这些数据中有很大一部分就是自然语言形式的文本数据。而使用语义标签的方式对文本打上更概括更抽象的语义标签,使得文本数据的分析以及挖掘都变得更加便捷。
文本作为人思想的高层次抽象表达,形式丰富语义复杂,对计算机而言纯粹的文本是不可理解的,因而将文本转化成计算机可处理的数学表达形式,是计算机处理文本的基础。本专利单词分布式表示假说,在语言模型的基础上,采用词嵌入生成技术,提出了一种文本的关键词抽取方法。本模型使用低维空间中的向量作为单词的语义表示,采用聚类算法对低维空间中词项的分布进行语义计算,并使用向量到单词映射的方式对语义信息解码,从而抽取出文本的语义标签。
发明内容
本发明所涉及的文本语义标签抽取是从文本中抽取出可代表文本语义信息的词语的过程,对自然语言的处理也有重要的应用价值。本方法基于Hinton的单词分布式表示假说,在神经网络语言模型的基础上,采用词嵌入生成技术,提出了一种文本的关键词抽取方法。本模型使用低维空间中的向量作为单词的语义表示,采用聚类算法对低维空间中词项的分布进行语义计算,并使用向量到单词映射的方式对语义信息解码,从而抽取出文本的语义标签。
本发明采用的技术方案为一种基于词项聚类的文本语义标签抽取方法,步骤总体上分为两步,其流程图如图1所示,该方法具体步骤为:
步骤一:词项在高维几何空间的向量映射。在所给的文本数据集上,以词项分布式假说的表示形式建立文本数据的语言模型,采用梯度下降算法同时对语言模型和词向量表示迭代训练,得到所有词项对应的向量。
步骤1.1:对文本数据集进行数据预处理。中文数据集中,首先对中文文本进行分词处理,将完整的句子划分成词语的集合;由于自然语言中存在很多无语义的连词、代词等词语,所以最后需要进行去停用词处理,滤掉无语义的词项。
步骤1.2:建立n元语言模型。CBOW语言模型中,CBOW语言模型的方法是,根据分布式假说,将词项W映射为d维空间中的向量表示,那么词项W写为W->V∈Rd。此时向量V中每个值均为待定的系数,文本语料中词项的共现关系即出现在同一句话中的词项提供确定这些系数的依据。依据N元语言模型理论,将一个完整的句子视为词项连接的序列,而序列中从第t-n到t+n个元素作为一个子单元,将第t-n到第t-1个元素和第t+1到t+n个元素作为模型的输入,第t个元素作为模型的标注值,以第n个单词的上下文信息预测第n个出现的概率。
模型的结构主要分为输入层、映射层和输出层三层,图2为n=2时的CBOW模型:输入层输入的是词项W(t)所处的上下文V(t-2)、V(t-1)、V(t+1)、V(t+2),其中V(t-2)、V(t-1)、V(t+1)、V(t+2)分别为W(t)所处的上下文词项W(t-2)、W(t-1)、W(t+1)、W(t+2)对应的分布式表示向量;映射层用以合并输入层各项的值,计算各个维度上的和,生成映射层向量输出层根据映射层的值计算出输出W(t)。
步骤1.3:使用预处理过后的文本数据,使用层次softmax,对语言模型以及词向量训练过程加速。层次softmax为了加速模型的计算,以树形结构替代之前输出层的扁平结构,以词项在语料中出现频率构成的Huffman树作为模型的输出层。为了便于模型更新,Huffman树结构中引入以下计法:
a>pw:从根节点出点到达词项W对应叶子节点的路径。
b>lw:路径pw上包含的节点个数。
路径pw中的lw个节点,表示根节点,表示词项W对应叶节点。
词项W的Huffman编码由lw-1位编码构成,表示路径pw上第j个节点对应的编码即根节点不对应编码。
路径节点中非叶子结点对应的向量,表示路径pw上第j个非叶节点对应的权重向量。
非叶子结点作为二分类的解释,定义左子树即编码为1的分支为负类,右子树即编码为0的分支为正类,即有既然每个非叶子节点都作为一个二分类器,此处使用逻辑斯特回归算法来进行节点的分类,则在对于词项W,其路径pw中的第j个叶节点上有,其中p表示词项W在当前分类节点所代表的语义上表现为正类的概率,则1-p表示词项W在该语义上表现为负类的概率,为隐藏层的向量表示,为路径pw上第j个非叶节点对应的权重向量。而在整个模型中,要求在上下文为Context(w)的条件下,模型的输出为词项W,则要求其路径上所有非叶节点二分类器的分类结果路径编码为的概率最大。词项W在非叶节点上被分为的概率为:
词项W在非叶节点上被分为的概率或者为:
则词项W被分类为编码为的路径pw的概率为:
因此若想语言模型的性能和词向量的质量更好,则需要使上述概率尽可能的大,此时可最大化似然概率求解最大概率,从而使模型优化。计似然概率为:
使用梯度上升算法,求解最大化L时,参数xw的更新公式,有:
根据参数的更新公式,遍历语料文本中全部语句,依次迭代训练处模型参数θ以及词项分布式表示向量V,则有模型训练算法:
由上述训练算法,多轮训练之后,得到的向量V(u)即是词项的分布式语义表示,而文本中所含所有词项的向量组成的矩阵则描述一篇文本的语义。
步骤二:根据语言模型训练过程中得到的词向量,在高维集合空间中做聚类计算,得到文本的中心语义向量,再根据该向量反映射,得到文本的中心语义标签。
步骤2.1:做K-means聚类计算,得到文本中心语义向量。算法流程如下:
输出:簇划分C={C1,C2,...,Ck}
在K-Means算法迭代收敛后,即可得到每个簇的簇心,而簇心即为当前文本中核心语义在d维空间的向量表示。
步骤2.2:根据该向量反映射,得到文本的中心语义标签。围绕簇心计算其最临近点,将其最邻近点对应的词项作为文本语义标签返回。
经实验结果证明,本方法得到的实验效果显著。
附图说明
图1:语言模型结构图。
图2:语言模型结构图。
图3:层次softmax模型优化图。
具体实施方式
下面结合相关附图对本发明进行解释和阐述:
步骤一:词项在高维几何空间的向量映射。
步骤1.1:在论文数据集上,以词项分布式假说的表示形式建立文本数据的语言模型(如附图2所示),其中输入层输入的是词项W(t)的上下文单词W(t-2)、W(t-1)、W(t+1)、W(t+2),而映射层主要用以合并输入层各项的值,计算各个维度上的和,生成映射层向量有H∈Rd。输出层根据映射层的值计算出输出W(t)。
步骤1.2:使用层次softmax结构(如附图3所示)替换输出层。模型最末端是一颗二叉树结构,该二叉树结构由全体文本数据中出现过的所有词项确定,每一个叶子节点都对应一个词项;而非叶子节点则表示一次二分类计算。
步骤1.3:采用梯度下降算法同时对语言模型和词向量表示迭代训练,根据公式
可知词项W(i)对应向量V的值在训练过程中不断迭代更新,直到训练结束。将最终得到的每个词项对应的向量V的值保存到一个map数据结构中。
步骤二:根据语言模型训练过程中得到的词向量,在高维集合空间中做聚类计算,得到文本的中心语义向量,再根据该向量反映射,得到文本的中心语义标签。
步骤2.1:a、输入用户需要做语义标签提取的文本数据,通过步骤一中训练的词向量以及词表的对应关系,将输入文本数据映射成集合空间点集R;
b、在几何空间中对点集R中的元素指定K个初始质心,并通过这K个初始质心计算每个点所属于的类别。
c、调整质心,根据每个点所属的不同类别,计算每个类别点的坐标均值,并以此均值替代原来的指定的质心。
d、重复过程c直到质心不再改变,返回k个质心集合C。
在K-Means算法迭代收敛后,即可得到每个簇的簇心,而簇心即为当前文本中核心语义在d维空间的向量表示。
步骤2.2:根据步骤一中计算的质心C以及点集R,对C中每个元素c计算点集R中离C最近的点rc。根据步骤一中保存词向量映射关系的map数据结构,将点rc对应向量反映射回词表中,得到元素c对应的语义标签W(c)。由此得到文本的语义标签集合L={wc1,wc2,...,wck},将所得语义标签集返回给用户。

Claims (1)

1.一种基于词项聚类的文本语义标签抽取方法,其特征在于,该方法具体步骤为:
步骤一:词项在高维几何空间的向量映射;在所给的文本数据集上,以词项分布式假说的表示形式建立文本数据的语言模型,采用梯度下降算法同时对语言模型和词向量表示迭代训练,得到所有词项对应的向量;
步骤1.1:对文本数据集进行数据预处理;中文数据集中,首先对中文文本进行分词处理,将完整的句子划分成词语的集合;由于自然语言中存在很多无语义的连词、代词等词语,所以最后需要进行去停用词处理,滤掉无语义的词项;
步骤1.2:建立n元语言模型;CBOW语言模型中,CBOW语言模型的方法是,根据分布式假说,将词项W映射为d维空间中的向量表示,那么词项W写为W->V∈Rd;此时向量V中每个值均为待定的系数,文本语料中词项的共现关系即出现在同一句话中的词项提供确定这些系数的依据;依据N元语言模型理论,将一个完整的句子视为词项连接的序列,而序列中从第t-n到t+n个元素作为一个子单元,将第t-n到第t-1个元素和第t+1到t+n个元素作为模型的输入,第t个元素作为模型的标注值,以第n个单词的上下文信息预测第n个出现的概率;
模型的结构主要分为输入层、映射层和输出层三层,图2为n=2时的CBOW模型:输入层输入的是词项W(t)所处的上下文V(t-2)、V(t-1)、V(t+1)、V(t+2),其中V(t-2)、V(t-1)、V(t+1)、V(t+2)分别为W(t)所处的上下文词项W(t-2)、W(t-1)、W(t+1)、W(t+2)对应的分布式表示向量;映射层用以合并输入层各项的值,计算各个维度上的和,生成映射层向量输出层根据映射层的值计算出输出W(t);
步骤1.3:使用预处理过后的文本数据,使用层次softmax,对语言模型以及词向量训练过程加速;层次softmax为了加速模型的计算,以树形结构替代之前输出层的扁平结构,以词项在语料中出现频率构成的Huffman树作为模型的输出层;为了便于模型更新,Huffman树结构中引入以下计法:
a>pw:从根节点出点到达词项W对应叶子节点的路径;
b>lw:路径pw上包含的节点个数;
路径pw中的lw个节点,表示根节点,表示词项W对应叶节点;
词项W的Huffman编码由lw-1位编码构成,表示路径pw上第j个节点对应的编码即根节点不对应编码;
路径节点中非叶子结点对应的向量,表示路径pw上第j个非叶节点对应的权重向量;
非叶子结点作为二分类的解释,定义左子树即编码为1的分支为负类,右子树即编码为0的分支为正类,即有既然每个非叶子节点都作为一个二分类器,此处使用逻辑斯特回归算法来进行节点的分类,则在对于词项W,其路径pw中的第j个叶节点上有,其中p表示词项W在当前分类节点所代表的语义上表现为正类的概率,则1-p表示词项W在该语义上表现为负类的概率,为隐藏层的向量表示,为路径pw上第j个非叶节点对应的权重向量;而在整个模型中,要求在上下文为Context(w)的条件下,模型的输出为词项W,则要求其路径上所有非叶节点二分类器的分类结果路径编码为的概率最大;词项W在非叶节点被分为的概率为:
词项W在非叶节点上被分为的概率或者为:
则词项W被分类为编码为的路径pw的概率为:
因此若想语言模型的性能和词向量的质量更好,则需要使上述概率尽可能的大,此时可最大化似然概率求解最大概率,从而使模型优化;计似然概率为:
使用梯度上升算法,求解最大化L时,参数xw的更新公式,有:
根据参数的更新公式,遍历语料文本中全部语句,依次迭代训练处模型参数θ以及词项分布式表示向量V,则有模型训练算法:
由上述训练算法,多轮训练之后,得到的向量V(u)即是词项的分布式语义表示,而文本中所含所有词项的向量组成的矩阵则描述一篇文本的语义;
步骤二:根据语言模型训练过程中得到的词向量,在高维集合空间中做聚类计算,得到文本的中心语义向量,再根据该向量反映射,得到文本的中心语义标签;
步骤2.1:做K-means聚类计算,得到文本中心语义向量;算法流程如下:
在K-Means算法迭代收敛后,即可得到每个簇的簇心,而簇心即为当前文本中核心语义在d维空间的向量表示;
步骤2.2:根据该向量反映射,得到文本的中心语义标签;围绕簇心计算其最临近点,将其最邻近点对应的词项作为文本语义标签返回。
CN201810138008.2A 2018-02-10 2018-02-10 一种基于词项聚类的文本语义标签抽取方法 Pending CN108268449A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810138008.2A CN108268449A (zh) 2018-02-10 2018-02-10 一种基于词项聚类的文本语义标签抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810138008.2A CN108268449A (zh) 2018-02-10 2018-02-10 一种基于词项聚类的文本语义标签抽取方法

Publications (1)

Publication Number Publication Date
CN108268449A true CN108268449A (zh) 2018-07-10

Family

ID=62774241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810138008.2A Pending CN108268449A (zh) 2018-02-10 2018-02-10 一种基于词项聚类的文本语义标签抽取方法

Country Status (1)

Country Link
CN (1) CN108268449A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710837A (zh) * 2018-11-30 2019-05-03 平安科技(深圳)有限公司 基于word2vec的用户缺失画像的补充方法和相关设备
CN109767817A (zh) * 2019-01-16 2019-05-17 南通大学 一种基于神经网络语言模型的药物潜在不良反应发现方法
CN109857863A (zh) * 2019-01-04 2019-06-07 北京车慧科技有限公司 一种语句分类系统
CN109981625A (zh) * 2019-03-18 2019-07-05 中国人民解放军陆军炮兵防空兵学院郑州校区 一种基于在线层次聚类的日志模板抽取方法
CN110147851A (zh) * 2019-05-29 2019-08-20 北京达佳互联信息技术有限公司 图像筛选方法、装置、计算机设备及存储介质
CN110705274A (zh) * 2019-09-06 2020-01-17 电子科技大学 基于实时学习的融合型词义嵌入方法
CN111177370A (zh) * 2019-12-03 2020-05-19 北京工商大学 一种自然语言处理的算法
CN111191457A (zh) * 2019-12-16 2020-05-22 浙江大搜车软件技术有限公司 自然语言语义识别方法、装置、计算机设备和存储介质
CN111191456A (zh) * 2018-11-15 2020-05-22 零氪科技(天津)有限公司 一种使用序列标注进行识别文本分段的方法
CN111325030A (zh) * 2020-03-31 2020-06-23 卓尔智联(武汉)研究院有限公司 文本标签构建方法、装置、计算机设备和存储介质
CN112232195A (zh) * 2020-10-15 2021-01-15 北京临近空间飞行器系统工程研究所 一种手写汉字识别方法、装置及存储介质
CN112347775A (zh) * 2019-08-08 2021-02-09 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006055894A2 (en) * 2004-11-17 2006-05-26 North Dakota State University Data mining of very large spatial dataset
CN105389379A (zh) * 2015-11-20 2016-03-09 重庆邮电大学 一种基于文本分布式特征表示的垃圾稿件分类方法
CN107122352A (zh) * 2017-05-18 2017-09-01 成都四方伟业软件股份有限公司 一种基于k‑means、word2vec的抽取关键词的方法
CN107291693A (zh) * 2017-06-15 2017-10-24 广州赫炎大数据科技有限公司 一种改进词向量模型的语义计算方法
CN107544957A (zh) * 2017-07-05 2018-01-05 华北电力大学 一种面向商品目标词的情感倾向分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006055894A2 (en) * 2004-11-17 2006-05-26 North Dakota State University Data mining of very large spatial dataset
CN105389379A (zh) * 2015-11-20 2016-03-09 重庆邮电大学 一种基于文本分布式特征表示的垃圾稿件分类方法
CN107122352A (zh) * 2017-05-18 2017-09-01 成都四方伟业软件股份有限公司 一种基于k‑means、word2vec的抽取关键词的方法
CN107291693A (zh) * 2017-06-15 2017-10-24 广州赫炎大数据科技有限公司 一种改进词向量模型的语义计算方法
CN107544957A (zh) * 2017-07-05 2018-01-05 华北电力大学 一种面向商品目标词的情感倾向分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
李跃鹏 等: "基于word2vec 的关键词提取算法", 《科研信息化技术与应用》 *
码农场: "word2vec原理推导与代码分析", 《HTTPS://WWW.HANKCS.COM/NLP/WORD2VEC.HTML》 *
陈立 等: "关键词提取的K-means 方法在设备分类中的运用", 《计算机系统应用》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191456A (zh) * 2018-11-15 2020-05-22 零氪科技(天津)有限公司 一种使用序列标注进行识别文本分段的方法
CN111191456B (zh) * 2018-11-15 2023-05-09 零氪科技(天津)有限公司 一种使用序列标注进行识别文本分段的方法
CN109710837A (zh) * 2018-11-30 2019-05-03 平安科技(深圳)有限公司 基于word2vec的用户缺失画像的补充方法和相关设备
CN109857863A (zh) * 2019-01-04 2019-06-07 北京车慧科技有限公司 一种语句分类系统
CN109767817A (zh) * 2019-01-16 2019-05-17 南通大学 一种基于神经网络语言模型的药物潜在不良反应发现方法
CN109981625B (zh) * 2019-03-18 2021-08-27 中国人民解放军陆军炮兵防空兵学院郑州校区 一种基于在线层次聚类的日志模板抽取方法
CN109981625A (zh) * 2019-03-18 2019-07-05 中国人民解放军陆军炮兵防空兵学院郑州校区 一种基于在线层次聚类的日志模板抽取方法
CN110147851A (zh) * 2019-05-29 2019-08-20 北京达佳互联信息技术有限公司 图像筛选方法、装置、计算机设备及存储介质
CN110147851B (zh) * 2019-05-29 2022-04-01 北京达佳互联信息技术有限公司 图像筛选方法、装置、计算机设备及存储介质
CN112347775A (zh) * 2019-08-08 2021-02-09 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110705274A (zh) * 2019-09-06 2020-01-17 电子科技大学 基于实时学习的融合型词义嵌入方法
CN110705274B (zh) * 2019-09-06 2023-03-24 电子科技大学 基于实时学习的融合型词义嵌入方法
CN111177370A (zh) * 2019-12-03 2020-05-19 北京工商大学 一种自然语言处理的算法
CN111177370B (zh) * 2019-12-03 2023-08-11 北京工商大学 一种自然语言处理的算法
CN111191457A (zh) * 2019-12-16 2020-05-22 浙江大搜车软件技术有限公司 自然语言语义识别方法、装置、计算机设备和存储介质
CN111191457B (zh) * 2019-12-16 2023-09-15 浙江大搜车软件技术有限公司 自然语言语义识别方法、装置、计算机设备和存储介质
CN111325030A (zh) * 2020-03-31 2020-06-23 卓尔智联(武汉)研究院有限公司 文本标签构建方法、装置、计算机设备和存储介质
CN112232195A (zh) * 2020-10-15 2021-01-15 北京临近空间飞行器系统工程研究所 一种手写汉字识别方法、装置及存储介质
CN112232195B (zh) * 2020-10-15 2024-02-20 北京临近空间飞行器系统工程研究所 一种手写汉字识别方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN108268449A (zh) 一种基于词项聚类的文本语义标签抽取方法
CN108897857B (zh) 面向领域的中文文本主题句生成方法
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN110413986A (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN109902159A (zh) 一种基于自然语言处理的智能运维语句相似度匹配方法
CN109492232A (zh) 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法
CN108874878A (zh) 一种知识图谱的构建系统及方法
CN109189925A (zh) 基于点互信息的词向量模型和基于cnn的文本分类方法
CN111782768B (zh) 基于双曲空间表示和标签文本互动的细粒度实体识别方法
CN107273355A (zh) 一种基于字词联合训练的中文词向量生成方法
CN107291693A (zh) 一种改进词向量模型的语义计算方法
CN106776562A (zh) 一种关键词提取方法和提取系统
CN110321925A (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
CN111881677A (zh) 基于深度学习模型的地址匹配算法
CN110609849B (zh) 一种基于sql语法树节点类型的自然语言生成方法
CN106844327B (zh) 文本编码方法及系统
CN111222318B (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN110188193A (zh) 一种基于最短依存子树的电子病历实体关系抽取方法
CN111209749A (zh) 一种将深度学习应用于中文分词的方法
CN112306494A (zh) 一种基于卷积和循环神经网络的代码分类及聚类方法
CN111027595A (zh) 双阶段语义词向量生成方法
CN109992775A (zh) 一种基于高级语义的文本摘要生成方法
CN110765755A (zh) 一种基于双重选择门的语义相似度特征提取方法
CN111767325B (zh) 基于深度学习的多源数据深度融合方法
CN113204674B (zh) 基于局部-整体图推理网络的视频-段落检索方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180710