CN106383816A - 基于深度学习的中文少数民族地区地名的识别方法 - Google Patents

基于深度学习的中文少数民族地区地名的识别方法 Download PDF

Info

Publication number
CN106383816A
CN106383816A CN201610847942.2A CN201610847942A CN106383816A CN 106383816 A CN106383816 A CN 106383816A CN 201610847942 A CN201610847942 A CN 201610847942A CN 106383816 A CN106383816 A CN 106383816A
Authority
CN
China
Prior art keywords
word
place name
represent
training
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610847942.2A
Other languages
English (en)
Other versions
CN106383816B (zh
Inventor
赵丹丹
白哓宇
王秋雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Language Digital Technology Co., Ltd.
Original Assignee
Dalian Nationalities University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Nationalities University filed Critical Dalian Nationalities University
Priority to CN201610847942.2A priority Critical patent/CN106383816B/zh
Publication of CN106383816A publication Critical patent/CN106383816A/zh
Application granted granted Critical
Publication of CN106383816B publication Critical patent/CN106383816B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

基于深度学习的中文少数民族地区地名的识别方法,技术要点是:语料预处理,对包含少数民族地区地名的文本数据进行标注、分词以及序列化;词向量训练,针对词向量和字向量分别进行训练,将字和词的上下文信息均加入到最终使用的词向量中;少数民族地区地名识别模型训练,基于深度学习,利用循环神经网络将前序构建的包含丰富语义信息的词向量、数字化文本及标注信息作为该神经网络模型的输入,基于反向传播算法以及梯度下降算法对该模型进行训练;少数民族地区地名识别。本发明能有效的降低在少数民族地区地名识别时特征选取的复杂性,充分利用未标注语料中蕴含的丰富的句法和语法信息,提高了少数民族地区地名识别的精度,增加模型的泛化能力。

Description

基于深度学习的中文少数民族地区地名的识别方法
技术领域
本发明涉及自然语言处理技术领域,涉及深度学习、词向量应用及命名实体识别。尤其涉及一种少数民族地区地名识别方法。
背景技术
实体识别是自然语言处理的基础工作。在MUC-7会议中,命名实体(Named Entity)被明确细化为7类名词实体:人名、地名、机构名、日期、时间、金额和百分比数值。地名作为实体中的重要组成部分其识别的准确性对后续信息抽取、信息检索、信息推荐和机器翻译等任务有着重要的影响。尤其是地名作为地理信息的重要线索,其识别的准确程度直接影响地理信息系统等对信息的定位及相关的进一步应用。少数民族地区的地名由于其与民族特性的相关联系,其地名一般较长,并且名字的各个字之间未必成词。这些特点直接影响其识别的精度。虽然中文中地名的识别率已经相对较高,但通常的命名实体识别方法对少数民族地区的地名识别效果不够理想。
在现有的技术中,识别地名的方法有如下几种:1、通过从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则,通过计算地名的构词可信度和接续可信度从而识别中文地名;2、以带特征词的中文地名和不带特征词的中文地名作为识别对象,通过构建地名识别规则库,以及对规则库中规则的量化处理来体现规则在识别地名中的可信程度的不同;3、支持向量机(SVM)、最大熵或CRF等统计模型中文地名自动识别方法:按字或词抽取特征向量的属性,然后将这些属性转换成对应模型能够接受的形式并进行模型训练,在通过得到机器学习模型来识别地名;4、在基于统计模型识别地名的基础上,通过对错误识别结果的分析,构建规则库对识别结果进行后处理。
以上方法的研究对象都不是针对少数民族地区的地名,对在地名库中出现较少,名字长且比较奇怪的少数民族地区的地名识别效果都会受到影响。另外,传统的识别方法或者需要规则的制定,或者需要特征的提取,成本高且可移植性不强。本发明提出的方法,通过文本词向量的训练,将字和词的上下文特征蕴含于词向量中,利用深度学习的原理,将地名训练语料的数字化信息和标识作为输入,通过循环神经网络模型训练,得到中文中少数民族地区地名的识别模型。进而通过该模型实现少数民族地区地名的识别。该方法针对少数民族地区地名设计,具有较好的可移植性。
发明内容
本发明对中文中少数民族地区地名提出了针对性的识别方法。通过深度学习手段:词向量的构建、模型的训练来识别少数民族地区地名,不需要繁复的规则制定和困难的特征提取。
本发明的技术方案:
一种基于深度学习的中文少数民族地区地名的识别方法,包括以下步骤:
步骤1:对语料进行预处理;
步骤2:词向量训练;
步骤3:模型训练;
步骤4:少数民族地区地名识别及后处理。
进一步的,步骤1中所述对语料进行预处理,对包含少数民族地区地名的中文语料进行预处理操作,具体包括以下几个子步骤:
步骤(a):利用中文分词工具对中文文本进行分词;
步骤(b):对步骤(a)中已分词后的语料进行数字化处理;
步骤(c):为步骤(a)每一个分词分配少数民族地区地名标注标签,并对其进行数字化表示;采用BIO标识少数民族地区地名的开始、接续和非地名表示,数字化替代1代表B、2代表I、0代表O。
进一步的,步骤2中所述词向量训练,包括以下子步骤:
步骤(a):初始词向量训练,将分好词、未标注的大规模语料采用skip-gram模型进行训练;
步骤(b):字向量训练,采用如下字词联合训练方案来取得字向量的值,字向量训练采用skip-gram模型;
Skip-gram模型的优化目标为,w的上下文中的某个词对wj对词w的条件概率:
式中:
P ( w | w j ) = exp ( e ′ ( w ) e T ( w j ) ) Σ w ′ ∈ V e ′ ( w ′ ) T e ( w j ) ;
其中V表示词表,优化上下文中某个词wj对目标词w的条件概率,以及上下文词中各个的汉字chk对目标词w的条件概率:
式中,D表示数据集,wj表示文本序列中的第j个词,c为wj的上下文,chk表示词wj中的汉字,|wj|表示词wj的字数,0<β<1为加权系数,其中归一化项用于使不同字数的词在训练中拥有同样的地位;
步骤(c):最终词向量取得由两部分组成:词本身初始词向量和组成这个词的汉字字向量,训练过程中,使用词本身的初始词向量以及组成这个词的各个字向量的平均值表示这个词的语义。
进一步的,步骤3中所述模型训练,采用循环神经网络模型进行训练,具体包括以下几个子步骤:
步骤(a):首先根据模型的窗口参数win的大小,将当前词的前win/2和后win/2个词所对应的词向量进行首尾相接,组合成新的词向量表示当前词,没有前词和后词使用-1表示;
步骤(b):将句子进行分块操作,保证每一个块的长度不长于参数值bs的大小;
步骤(c):将步骤(b)中的每一个块作为一个示例进行模型的训练,将步骤(a)中合并的词向量和前一步隐含层的输出作为模型输入,得到隐含层,如公式所示:
hi=sig(xi·Wxh+hi-1·Whh+bh)
式中,sig为神经元节点的激活函数,取sig(z)=1/(1+e-z),xi表示第i个词的词向量,hi-1表示隐含层第i-1个节点的输出,Whh表示前一隐含层节点与当前隐含层节点的权重,Wxh表示当前输入层节点与当前隐含层节点的权重,hi表示当前隐藏层节点的输出;
然后,利用隐含层输出计算模型输出层第i个节点输出ci,如公式所示:
ci=soft(hi·Whc+ci-1·Wcc+bc)
式中,hi表示隐含层第i个节点的输出,ci-1表示输出层第i-1个节点的输出,Wcc和Whc分别表示前一输出层节点与当前输出层节点的权重和当前隐藏层节点与当前输出层节点的权重。soft为softmax激活函数,k为输出层节点数,zi=hi·Whc+ci-1·Wcc+bc为输出层第i个节点的输入值。
进一步的,步骤4所述少数民族地区地名识别及后处理包括以下子步骤:
步骤(a):利用步骤3训练得到循环神经网络模型,在未标注数据上进行测试,识别未标注数据中的少数民族地区地名作为目标地名;
步骤(b):将数字化标识转换回BIO模式并按需求呈现识别结果。
有益效果:利用本发明能有效的降低在少数民族地区地名识别时特征选取的复杂性,充分利用未标注语料中蕴含的丰富的句法和语法信息,提高了少数民族地区地名识别的精度,增加模型的泛化能力。
附图说明
图1为本发明一种基于深度学习的中文少数民族地区地名的识别方法流程图;
图2为本发明采用的词向量训练流程图;
图3为本发明实施的RNN地名识别模型的示例性示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细描述。
图1显示了本发明地名识别方法的流程。需要对语料进行预处理,将文本序列化、标注数字化,并将文本替换为训练好的词向量来训练循环神经网络模型对模型进行构建。训练好了识别模型,就可以利用它来对预处理后的测试语料进行测试识别。识别后再进行必要的后处理。下面结合图1对本发明加以详细说明。
一种基于深度学习的中文少数民族地区地名的识别方法,包括以下步骤:
步骤1:对语料进行预处理:我们使用从网上下载的包含少数民族地区地名的中文语料,对其进行预处理操作,具体包括以下几个子步骤:
步骤(a):利用中文分词工具对中文文本进行分词;
步骤(b):对步骤(a)中已分词后的语料进行数字化处理;
步骤(c):为步骤(a)每一个分词分配少数民族地区地名标注标签,并对其进行数字化表示。采用BIO标识少数民族地区地名的开始、接续和非地名表示,数字化替代1代表B、2代表I、0代表O。
步骤2:词向量训练:在神经网络模型中,使用词向量表示词。为保证词向量的质量,本发明采用字、词结合的词向量来更确切地表达,大规模语料集中的句法、语义等丰富的信息。
步骤(a):初始词向量训练。将分好词、未标注的大规模语料使用Word2Vec工具,采用skip-gram模型进行训练,采样阈值取5,词向量维度设定100维。
步骤(b):字向量训练。因少数民族地区地名的特殊性,有较高比例的地名中各个字之间未必成词,所以考虑字向量。单独训练字向量虽然相对方便、简单,但它又常常丢失其作为词的上下文含义。所以本发明采用如下字词联合训练方案来取得字向量的值。字向量训练采用skip-gram模型。
Skip-gram模型的优化目标为,w的上下文中的某个词对wj对词w的条件概率:
式中:
P ( w | w j ) = exp ( e ′ ( w ) e T ( w j ) ) Σ w ′ ∈ V e ′ ( w ′ ) T e ( w j ) ;
其中,V表示词表(单词的集合)。
为了实现字词联合训练,本文提出同时优化上下文中某个词wj对目标词w的条件概率,以及上下文词中各个的汉字chk对目标词w的条件概率:
式中,D表示数据集,wj表示文本序列中的第j个词,c为wj的上下文,chk表示词wj中的汉字,|wj|表示词wj的字数,0<β<1为加权系数。其中归一化项用于使不同字数的词在训练中拥有同样的地位。
步骤(c):最终词向量取得由两部分组成:词本身初始词向量和组成这个词的汉字字向量。训练过程中,使用词本身的初始词向量以及组成这个词的各个字向量的平均值表示这个词的语义。
本发明使用大规模无标注语料训练得到的词向量去替换神经网络模型中的随机词向量,通过此操作,神经网络模型在初始阶段,词向量就已经包含了丰富的信息,模型在已知丰富信息的前提下,接收训练语料进行模型的训练可以大大的提高系统的性能。
步骤3:模型训练,我们采用循环神经网络(RNN)模型进行训练。具体包括以下几个子步骤:
步骤(a):首先根据模型的窗口参数win的大小,将当前词的前win/2和后win/2个词所对应的词向量进行首尾相接,组合成新的词向量表示当前词。没有前词和后词使用-1表示。
步骤(b):将句子进行分块操作,保证每一个块的长度不长于参数值bs的大小,此处设定为9。
步骤(c):将步骤(b)中的每一个块作为一个示例进行模型的训练,将步骤(a)中合并的词向量和前一步隐含层的输出作为模型输入,得到隐含层,如公式所示:
hi=sig(xi·Wxh+hi-1·Whh+bh)
式中,sig为神经元节点的激活函数,取sig(z)=1/(1+e-z),xi表示第i个词的词向量,hi-1表示隐含层第i-1个节点的输出,Whh表示前一隐含层节点与当前隐含层节点的权重,Wxh表示当前输入层节点与当前隐含层节点的权重,hi表示当前隐藏层节点的输出。
然后,利用隐含层输出计算模型输出层第i个节点输出ci,如公式所示:
ci=soft(hi·Whc+ci-1·Wcc+bc)
式中,hi表示隐含层第i个节点的输出,ci-1表示输出层第i-1个节点的输出,Wcc和Whc分别表示前一输出层节点与当前输出层节点的权重和当前隐藏层节点与当前输出层节点的权重。soft为softmax激活函数,k为输出层节点数,zi=hi·Whc+ci-1·Wcc+bc为输出层第i个节点的输入值。
步骤4:少数民族地区地名识别及后处理:
步骤(a):利用步骤3训练得到循环神经网络模型,在未标注数据上进行测试,识别未标注数据中的少数民族地区地名作为目标地名。
步骤(b):将数字化标识转换回BIO模式并按需求呈现识别结果。
下面以网上下载的数据整理后的数据集中一个具体实例:
阿西尔达斡尔民族乡素有“歌舞之乡”、“摔跤之乡”的美誉。
下面举例对本发明加以详细说明:
步骤1、数据预处理:具体子步骤如下:
利用分词工具对语料进行分词处理,然后对分词后的每一个词进行数字化处理并分配分类标签,最终每一个词都有一个序列和一个标签。
步骤2:词向量训练:利用word2vec工具对步骤1生成的分词进行词向量训练,获得每一个词的上下文信息表示。比如上例中少数民族地名“阿西尔达斡尔民族乡”中的“民族”一词,它的初始词向量表示为<0.675590 -0.431968 1.438434 0.559229 -0.8674780.187683 1.467837 -1.981601 -0.517042 -1.159152 0.651845 2.442123…>
计算组成民族的两个字的字向量,“民”的字向量表示<1.513607 -1.3380991.143857 1.141281 0.415794 0.708997 -0.567144 0.287029 -0.826816 0.3081800.477060 -0.68784…>,“族”的字向量表示<0.590240 1.129969 -0.752465 -1.213565 -0.439796 0.240206 -1.103969 -2.192901 -0.163616 -0.707005 -0.1125280.301551…>
最终“民族”的词向量表示为<0.9265 -0.2134 0.6099 0.1623 -0.2972 0.3790-0.0678 -1.2958 -0.5025 -0.5193 0.3388 0.6853…>
步骤3:模型训练:采用循环神经网络(RNN)训练模型。少数民族地区地名识别中需要识别的类型有地名开始,地名接续,非少数民族地区地名。标注文件分别以1、2和0来标识。如我们的例句标识文件对应的内容为:
1 2 2 2 2 2 2 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
经过多次实验,我们选择9层神经网络模型,输入层有500维(滑动窗口5,词向量100维),隐藏层节点个数为100,利用反向传播以及梯度下降算法,训练得到中文少数民族地区地名识别模型。
步骤4:少数民族地区地名识别及后处理:首先,利用步骤3训练得到循环神经网络模型,在未标注数据上进行测试,对每个词进行预测,判断其对应标识并输出标注文件。最后再将输出文件转换为可读标识即完成了少数民族地区地名的识别工作。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。

Claims (5)

1.一种基于深度学习的中文少数民族地区地名的识别方法,其特征在于,包括以下步骤:
步骤1:对语料进行预处理;
步骤2:词向量训练;
步骤3:模型训练;
步骤4:少数民族地区地名识别及后处理。
2.如权利要求1所述的基于深度学习的中文少数民族地区地名的识别方法,其特征在于,步骤1中所述对语料进行预处理,对包含少数民族地区地名的中文语料进行预处理操作,具体包括以下几个子步骤:
步骤(a):利用中文分词工具对中文文本进行分词;
步骤(b):对步骤(a)中已分词后的语料进行数字化处理;
步骤(c):为步骤(a)每一个分词分配少数民族地区地名标注标签,并对其进行数字化表示;采用BIO标识少数民族地区地名的开始、接续和非地名表示,数字化替代1代表B、2代表I、0代表O。
3.如权利要求1所述的基于深度学习的中文少数民族地区地名的识别方法,其特征在于,步骤2中所述词向量训练,包括以下子步骤:
步骤(a):初始词向量训练,将分好词、未标注的大规模语料采用skip-gram模型进行训练;
步骤(b):字向量训练,采用如下字词联合训练方案来取得字向量的值,字向量训练采用skip-gram模型;
Skip-gram模型的优化目标为,w的上下文中的某个词对wj对词w的条件概率:
式中:
P ( w | w j ) = exp ( e &prime; ( w ) e T ( w j ) ) &Sigma; w &prime; &Element; V e &prime; ( w &prime; ) T e ( w j ) ;
其中V表示词表,优化上下文中某个词wj对目标词w的条件概率,以及上下文词中各个的汉字chk对目标词w的条件概率:
式中,D表示数据集,wj表示文本序列中的第j个词,c为wj的上下文,chk表示词wj中的汉字,|wj|表示词wj的字数,0<β<1为加权系数,其中归一化项用于使不同字数的词在训练中拥有同样的地位;
步骤(c):最终词向量取得由两部分组成:词本身初始词向量和组成这个词的汉字字向量,训练过程中,使用词本身的初始词向量以及组成这个词的各个字向量的平均值表示这个词的语义。
4.如权利要求1所述的基于深度学习的中文少数民族地区地名的识别方法,其特征在于,步骤3中所述模型训练,采用循环神经网络模型进行训练,具体包括以下几个子步骤:
步骤(a):首先根据模型的窗口参数win的大小,将当前词的前win/2和后win/2个词所对应的词向量进行首尾相接,组合成新的词向量表示当前词,没有前词和后词使用-1表示;
步骤(b):将句子进行分块操作,保证每一个块的长度不长于参数值bs的大小;
步骤(c):将步骤(b)中的每一个块作为一个示例进行模型的训练,将步骤(a)中合并的词向量和前一步隐含层的输出作为模型输入,得到隐含层,如公式所示:
hi=sig(xi·Wxh+hi-1·Whh+bh)
式中,sig为神经元节点的激活函数,取sig(z)=1/(1+e-z),xi表示第i个词的词向量,hi-1表示隐含层第i-1个节点的输出,Whh表示前一隐含层节点与当前隐含层节点的权重,Wxh表示当前输入层节点与当前隐含层节点的权重,hi表示当前隐藏层节点的输出;
然后,利用隐含层输出计算模型输出层第i个节点输出ci,如公式所示:
ci=soft(hi·Whc+ci-1·Wcc+bc)
式中,hi表示隐含层第i个节点的输出,ci-1表示输出层第i-1个节点的输出,Wcc和Whc分别表示前一输出层节点与当前输出层节点的权重和当前隐藏层节点与当前输出层节点的权重。soft为softmax激活函数,k为输出层节点数,zi=hi·Whc+ci-1·Wcc+bc为输出层第i个节点的输入值。
5.如权利要求1所述的基于深度学习的中文少数民族地区地名的识别方法,其特征在于,步骤4所述少数民族地区地名识别及后处理包括以下子步骤:
步骤(a):利用步骤3训练得到循环神经网络模型,在未标注数据上进行测试,识别未标注数据中的少数民族地区地名作为目标地名;
步骤(b):将数字化标识转换回BIO模式并按需求呈现识别结果。
CN201610847942.2A 2016-09-26 2016-09-26 基于深度学习的中文少数民族地区地名的识别方法 Expired - Fee Related CN106383816B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610847942.2A CN106383816B (zh) 2016-09-26 2016-09-26 基于深度学习的中文少数民族地区地名的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610847942.2A CN106383816B (zh) 2016-09-26 2016-09-26 基于深度学习的中文少数民族地区地名的识别方法

Publications (2)

Publication Number Publication Date
CN106383816A true CN106383816A (zh) 2017-02-08
CN106383816B CN106383816B (zh) 2018-11-30

Family

ID=57935855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610847942.2A Expired - Fee Related CN106383816B (zh) 2016-09-26 2016-09-26 基于深度学习的中文少数民族地区地名的识别方法

Country Status (1)

Country Link
CN (1) CN106383816B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168952A (zh) * 2017-05-15 2017-09-15 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN107423284A (zh) * 2017-06-14 2017-12-01 中国科学院自动化研究所 融合中文单词内部结构信息的句子表示的构建方法及系统
CN107818080A (zh) * 2017-09-22 2018-03-20 新译信息科技(北京)有限公司 术语识别方法及装置
CN108038104A (zh) * 2017-12-22 2018-05-15 北京奇艺世纪科技有限公司 一种实体识别的方法及装置
CN108170683A (zh) * 2018-01-22 2018-06-15 北京百度网讯科技有限公司 用于获取信息的方法和装置
CN108874997A (zh) * 2018-06-13 2018-11-23 广东外语外贸大学 一种面向电影评论的人名命名实体识别方法
CN109460434A (zh) * 2018-10-25 2019-03-12 北京知道创宇信息技术有限公司 数据提取模型建立方法及装置
CN110348001A (zh) * 2018-04-04 2019-10-18 腾讯科技(深圳)有限公司 一种词向量训练方法和服务器
CN111563381A (zh) * 2019-02-12 2020-08-21 阿里巴巴集团控股有限公司 文本处理方法和装置
CN111563376A (zh) * 2019-02-12 2020-08-21 阿里巴巴集团控股有限公司 菜名识别方法和装置
CN113095065A (zh) * 2021-06-10 2021-07-09 北京明略软件系统有限公司 一种中文字向量学习方法及装置
CN113111170A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型接处警文本轨迹地信息提取方法和装置
CN113111164A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型接处警文本居住地信息提取方法和装置
CN113961664A (zh) * 2020-07-15 2022-01-21 上海乐言信息科技有限公司 基于深度学习的数值词处理方法、系统、终端及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120265521A1 (en) * 2005-05-05 2012-10-18 Scott Miller Methods and systems relating to information extraction
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN104615589A (zh) * 2015-02-15 2015-05-13 百度在线网络技术(北京)有限公司 训练命名实体识别模型的方法、命名实体识别方法及装置
CN105868184A (zh) * 2016-05-10 2016-08-17 大连理工大学 一种基于循环神经网络的中文人名识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120265521A1 (en) * 2005-05-05 2012-10-18 Scott Miller Methods and systems relating to information extraction
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN104615589A (zh) * 2015-02-15 2015-05-13 百度在线网络技术(北京)有限公司 训练命名实体识别模型的方法、命名实体识别方法及装置
CN105868184A (zh) * 2016-05-10 2016-08-17 大连理工大学 一种基于循环神经网络的中文人名识别方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168952A (zh) * 2017-05-15 2017-09-15 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN107423284A (zh) * 2017-06-14 2017-12-01 中国科学院自动化研究所 融合中文单词内部结构信息的句子表示的构建方法及系统
CN107423284B (zh) * 2017-06-14 2020-03-06 中国科学院自动化研究所 融合中文单词内部结构信息的句子表示的构建方法及系统
CN107818080A (zh) * 2017-09-22 2018-03-20 新译信息科技(北京)有限公司 术语识别方法及装置
CN108038104A (zh) * 2017-12-22 2018-05-15 北京奇艺世纪科技有限公司 一种实体识别的方法及装置
CN108170683B (zh) * 2018-01-22 2019-05-07 北京百度网讯科技有限公司 用于获取信息的方法和装置
CN108170683A (zh) * 2018-01-22 2018-06-15 北京百度网讯科技有限公司 用于获取信息的方法和装置
CN110348001A (zh) * 2018-04-04 2019-10-18 腾讯科技(深圳)有限公司 一种词向量训练方法和服务器
CN110348001B (zh) * 2018-04-04 2022-11-25 腾讯科技(深圳)有限公司 一种词向量训练方法和服务器
CN108874997A (zh) * 2018-06-13 2018-11-23 广东外语外贸大学 一种面向电影评论的人名命名实体识别方法
CN109460434A (zh) * 2018-10-25 2019-03-12 北京知道创宇信息技术有限公司 数据提取模型建立方法及装置
CN111563381A (zh) * 2019-02-12 2020-08-21 阿里巴巴集团控股有限公司 文本处理方法和装置
CN111563376A (zh) * 2019-02-12 2020-08-21 阿里巴巴集团控股有限公司 菜名识别方法和装置
CN111563381B (zh) * 2019-02-12 2023-04-21 阿里巴巴集团控股有限公司 文本处理方法和装置
CN113111170A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型接处警文本轨迹地信息提取方法和装置
CN113111164A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于深度学习模型接处警文本居住地信息提取方法和装置
CN113961664A (zh) * 2020-07-15 2022-01-21 上海乐言信息科技有限公司 基于深度学习的数值词处理方法、系统、终端及介质
CN113095065A (zh) * 2021-06-10 2021-07-09 北京明略软件系统有限公司 一种中文字向量学习方法及装置
CN113095065B (zh) * 2021-06-10 2021-09-17 北京明略软件系统有限公司 一种中文字向量学习方法及装置

Also Published As

Publication number Publication date
CN106383816B (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
CN106383816A (zh) 基于深度学习的中文少数民族地区地名的识别方法
CN110825881B (zh) 一种建立电力知识图谱的方法
CN109783657A (zh) 基于受限文本空间的多步自注意力跨媒体检索方法及系统
WO2021114745A1 (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN107203511A (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
Dong et al. A commodity review sentiment analysis based on BERT-CNN model
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN109359297B (zh) 一种关系抽取方法及系统
CN110019839A (zh) 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN109408642A (zh) 一种基于距离监督的领域实体属性关系抽取方法
CN107153642A (zh) 一种基于神经网络识别文本评论情感倾向的分析方法
CN107577662A (zh) 面向中文文本的语义理解系统及方法
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN110502753A (zh) 一种基于语义增强的深度学习情感分析模型及其分析方法
CN107038480A (zh) 一种基于卷积神经网络的文本情感分类方法
CN112183670B (zh) 一种基于知识蒸馏的少样本虚假新闻检测方法
CN112183064B (zh) 基于多任务联合学习的文本情绪原因识别系统
CN108647225A (zh) 一种电商黑灰产舆情自动挖掘方法和系统
CN108765383A (zh) 基于深度迁移学习的视频描述方法
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
CN107180084A (zh) 词库更新方法及装置
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN113094502A (zh) 一种多粒度外卖用户评论情感分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190612

Address after: 116023 Room 613, 6th Floor, Kechuang Building, 131 Guangxian Road, Dalian High-tech Industrial Park, Liaoning Province

Patentee after: Dalian Language Digital Technology Co., Ltd.

Address before: 116600 No. 18 Liaohe West Road, Dalian Economic and Technological Development Zone, Liaoning Province

Patentee before: Dalian ethnic university

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181130

Termination date: 20200926