CN112364623A - 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法 - Google Patents

基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法 Download PDF

Info

Publication number
CN112364623A
CN112364623A CN202011204830.8A CN202011204830A CN112364623A CN 112364623 A CN112364623 A CN 112364623A CN 202011204830 A CN202011204830 A CN 202011204830A CN 112364623 A CN112364623 A CN 112364623A
Authority
CN
China
Prior art keywords
word
chinese
information
lexical
crf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011204830.8A
Other languages
English (en)
Inventor
于江德
胡顺义
王希杰
�谷川�
赵红丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anyang Normal University
Original Assignee
Anyang Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anyang Normal University filed Critical Anyang Normal University
Priority to CN202011204830.8A priority Critical patent/CN112364623A/zh
Publication of CN112364623A publication Critical patent/CN112364623A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明属于词法分析技术领域,公开了基于Bi‑LSTM‑CRF的三位一体字标注汉语词法分析方法,基于三位一体字标注汉语词法分析的思路构建模型的训练语料和测试语料;搭建Bi‑LSTM‑CRF模型;输入训练语料通过多次迭代训练Bi‑LSTM‑CRF模型;切分输入的汉语文本,并将其输入训练好的模型;确定输入汉语文本最终的词法信息标记序列;依据词法信息标记序列对输入文本进行汉语分词、汉语词性标注和汉语命名实体识别,获得最终的汉语词法分析结果。本发明免去采用传统机器学习建模的人工特征工程,将表示学习方法引入机器学习中,可以将特征表示、提取、选择交给模型自动完成,提升了效率,提高了汉语词法分析的精度。

Description

基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法
技术领域
本发明属于词法分析技术领域,具体涉及基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法。
背景技术
在中文信息处理领域,汉语词法分析是其中一项重要的基础性课题。它不仅是句法分析、语义分析、篇章理解等深层中文信息处理的基础,也是机器翻译、问答系统、信息抽取和阅读理解等应用的关键环节。汉语词法分析主要包括汉语分词、词性标注与命名实体识别三项子任务,下面分析目前已有技术方案时主要有两个关注点:(1)分别对三项子任务独立处理还是三项子任务融合起来一体化处理;(2)汉语词法分析建模以传统机器学习为主还是以近些年主流的深度神经网络为主。
就关注点(1)而言,在国内外相关研究中,大部分学者习惯将三项子任务独立起来进行考虑,尤其习惯于将汉语分词和词性标注依次处理,分词之后再在词序列基础上考虑词性标注问题。这种将汉语词法分析的三项子任务独立处理的方法容易造成错误向上传递放大累加,并且多类信息难以整合利用的不足。也有一些学者对汉语词法分析的分词、词性标注、命名实体识别三项任务的一体化进行了探索。文献[1](刘群,张华平,俞鸿魁,等. 基于层叠隐马模型的汉语词法分析.计算机研究与发展,2004,41(8):1421-1429.)公开了一种基于层叠隐马模型的汉语词法分析,该方法将汉语分词、词性标注和未登录词识别集成到一个完整的理论框架中,但该方法需要词典的支持,对词性标注也是在词序列的基础上进行。专利文献[2](安阳师范学院于江德等于2013年9月16日提交的公开号为CN103473221A的中国专利“汉语词法分析方法”)公开了一种基于传统机器学习模型的汉语词法分析方法,该方法将汉语词法分析的三项子任务统一到一个字序列标注框架中实现,真正实现了三项子任务一体化处理,但该方法需要进行大量的设定样本窗口大小、设置特征模板集、上下文特征选择等特征工程工作,这些工作需要大量的人工参与,设计并选择有效的特征费时费力。
就关注点(2)而言,在汉语词法分析建模方面,2015年之前多以传统机器学习来建模实现,2015年之后,多以深度神经网络为主建模实现。上面所提到的文献[1]和专利文献[2] 均采用传统机器学习建模实现,这些方法需要进行较多的人工特征工程,耗费人力较多。文献[3](姜维,王晓龙,关毅,等.基于多知识源的中文词法分析系统.计算机学报,2007, 30(1):137-145.)公开了一种基于混合语言模型的汉语词法分析系统,该方法将汉语分词、词性标注和命名实体识别集成到一个系统中,但实现时还是三项子任务独立处理,且都是基于传统机器学习建模。文献[4](谢腾,杨俊安,刘辉.基于BERT_BiLSTM_CRF模型的中文实体识别.计算机系统应用,2020,29(7):48-55.)公开了一种基于BERT_BiLSTM_CRF模型的中文命名实体识别方法,该方法使用深度神经网络实现中文命名实体识别。专利文献[5](平安科技有限公司于2019年4月22日提交的公开号为CN 110222329A的中国专利“一种基于深度学习的中文分词方法和装置”)公开了一种基于深度学习的中文分词方法和装置,该方法仅基于深度学习完成了汉语词法分析中的分词子任务。文献[4]和专利文献 [5]虽然使用深度神经网络对任务建模,但都是对汉语词法分析三项子任务之一进行处理。
鉴于此,特提出本发明。本发明提出一种将汉语词法分析的三项子任务统一到字序列标注框架中的三位一体字标注汉语词法分析方法,且基于Bi-LSTM-CRF(双向长短期记忆网络 -条件随机场,Bidirectional Long Short-Term Memory-Conditional Randomfield, Bi-LSTM-CRF)进行汉语词法分析建模,免去采用传统机器学习建模的人工特征工程,将表示学习方法引入机器学习中,可以将特征表示、提取、选择交给模型自动完成,在一定程度上减少了人工,提升了效率,提高了汉语词法分析的精度。
发明内容
本发明的目的在于:提供一种基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法,将汉语词法分析的三项子任务统一到字序列标注框架中,且基于Bi-LSTM-CRF进行汉语词法分析建模,免去采用传统机器学习建模的人工特征工程,将表示学习方法引入机器学习中,可以将特征表示、提取、选择交给算法自动完成,在一定程度上减少了人工,提升了效率,提高了汉语词法分析的精度。
本发明采用的技术方案如下:
基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法,该方法包括以下步骤:
(1)基于三位一体字标注汉语词法分析的思路构建模型的训练语料和测试语料,具体为:
(11)将汉语词法分析的三个子任务全部统一到字标注的框架中,在每个字的标记中包含了词位、词性、命名实体三类信息,形式为“词位_词性或命名实体类别”,字标记由两部分组成,中间用下划线隔开,下划线之前是词位信息,之后是词性或命名实体类别信息,每个字的标记“词位_词性或命名实体类别”称为该字的词法信息标记;
(12)将已经经过汉语词法分析,即已经进行了汉语分词、词性标注与命名实体识别之后的语料按三位一体字标注汉语词法分析方法的思路转换成字标注序列,即每个字对应一个词法信息标记,这里的字包含汉字及标点符号、数字、英文字母等非中文字符,转换得到三位一体字标注的汉语词法分析语料;
(13)将三位一体字标注汉语词法分析语料按一定比例划分为训练语料和测试语料,这些语料用于模型的迭代训练。
(2)搭建Bi-LSTM-CRF模型,采用该模型完成三位一体字标注汉语词法分析的训练和预测;所述Bi-LSTM-CRF模型如图1所示,具体如下:
(21)最上边是字向量层:用于接收字序列输入数据,输入的字序列数据是以字向量的方式输入到模型中,且模型训练前输入随机初始化的字向量,最终字向量在模型训练结束时得到;
(22)中间是Bi-LSTM层:由一层或多层双向长短期记忆网络构成,Bi-LSTM层能够使用输入的字序列的“历史”和“未来”信息,用于对所输入的字序列数据的特征进行有效提取计算,Bi-LSTM层的最后接一个节点数为词法信息标记类别数的全连接层;
(23)最下边是CRF层:通过前面两层的前馈计算后输入到CRF层,该层基于词法信息标记的转移概率矩阵,实现字序列的词法信息标记预测,得到字序列的最终词法信息标记序列;
(3)输入训练语料通过多次迭代训练搭建的Bi-LSTM-CRF模型,得到训练好的模型参数,这些参数包括训练语料中各个字的字向量,以及模型的权重参数、偏置项参数,还包括CRF 层的转移概率矩阵等;
(4)切分输入的汉语文本,并将其输入训练好的模型:将输入的汉语文本切分为多个语句,一个语句为一个字序列;将输入的汉语文本对应的字序列输入训练好的Bi-LSTM-CRF模型;
(5)确定输入汉语文本最终的词法信息标记序列:CRF层采用Viterbi算法确定所述输入的汉语文本对应的字序列的最终的词法信息标记序列;
(6)依据词法信息标记序列对输入文本进行汉语分词、汉语词性标注和汉语命名实体识别,从而获得最终的汉语词法分析结果。
进一步的,所述步骤(11)中,词位是指该字在所构成的特定词语中所占据的构词位置,规定字只有四种词位B、M、E、S,其中,B代表当前字占据一个多字词的词首,M代表当前字占据一个多字词的词中,E代表当前字占据一个多字词的词尾,S代表当前字是一个单字词。
进一步的,所述步骤(11)中,词性是该字所在的特定词语所属词语类别;其中,该字所在的词语若为命名实体,则标记中下划线后为相应命名实体类别。
进一步的,所述命名实体类别包括人名、地名、组织机构名三类,分别用PER、LOC、ORG标识。
进一步的,所述步骤(6)中,具体根据最终的词法信息标记序列中的“词位信息”进行汉语分词,得到分词结果;根据最终的词法信息标记序列中的“词性信息”进行汉语词性标注,得到词性标注结果;或根据最终的词法信息标记序列中的“命名实体信息”进行汉语命名实体识别,得到命名实体识别结果。
进一步的,其中,对于多字词的情况,选取词尾字的词法信息标记中的词性信息或命名实体信息作为整个词语的词性或命名实体。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
(1)本发明中,将汉语词法分析的三项子任务:汉语分词、词性标注、命名实体识别统一到字序列标注框架中实现,每个字的标记中包含了词位、词性、命名实体三类词法信息,即基于三位一体词法信息标注的汉语词法分析,因此克服了错误向上传递放大累加,并且多类信息难以整合利用的不足,能显著提高汉语分词、词性标注、命名实体识别的精度。
(2)本发明中,基于Bi-LSTM-CRF进行汉语词法分析建模,免去采用传统机器学习建模的人工特征工程,将表示学习方法引入机器学习中,可以将特征表示、提取、选择交给算法自动完成,在一定程度上减少了人工,提升了效率。
(3)本发明中,对未登录词语也能较好的切分和标注,尤其是人名、地名、组织机构名三类命名实体。
附图说明
图1为本发明实施例1的Bi-LSTM-CRF模型示意图;
图2为本发明实施例1的三位一体字标注示意图;
图3为本发明实施例1的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
本实施例提供一种基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法,该方法包括以下步骤:
(1)基于三位一体字标注汉语词法分析的思路构建模型的训练语料和测试语料,具体为;
(11)将汉语词法分析的三个子任务全部统一到字标注的框架中,在每个字的标记中包含了词位、词性、命名实体三类信息,形式为“词位_词性或命名实体类别”,字标记由两部分组成,中间用下划线隔开,下划线之前是词位信息,之后是词性或命名实体类别信息,每个字的标记“词位_词性或命名实体类别”称为该字的词法信息标记;
其中,词位是指该字在所构成的特定词语中所占据的构词位置,规定字只有四种词位B、 M、E、S,其中,B代表当前字占据一个多字词的词首,M代表当前字占据一个多字词的词中,E代表当前字占据一个多字词的词尾,S代表当前字是一个单字词;
其中,词性是该字所在的特定词语所属词语类别;其中,该字所在的词语若为命名实体,则标记中下划线后为相应命名实体类别;
其中,所述命名实体类别包括人名、地名、组织机构名三类,分别用PER、LOC、ORG标识。
例如:字串序列“小华去学术论坛开会”,汉语词法分析结果为“小华/PER去/V学术/ORG论坛/ORG开会/Vi”。
(12)将已经经过汉语词法分析,即已经进行了汉语分词、词性标注与命名实体识别之后的语料按三位一体字标注汉语词法分析方法的思路转换成字标注序列,即每个字对应一个词法信息标记,这里的字包含汉字及标点符号、数字、英文字母等非中文字符,转换得到三位一体字标注的汉语词法分析语料;
(13)将三位一体字标注汉语词法分析语料按一定9∶1的比例划分为训练语料和测试语料,这些语料用于模型的迭代训练。
如下表1,列出了训练语料中所有的词法信息标记:
Figure BDA0002756712220000051
Figure BDA0002756712220000061
表1
(2)搭建Bi-LSTM-CRF模型,采用该模型完成三位一体字标注汉语词法分析的训练和预测;所述Bi-LSTM-CRF模型如图1所示,具体如下:
(21)最上边是字向量层:用于接收字序列输入数据,输入的字序列数据是以字向量的方式输入到模型中,且模型训练前输入随机初始化的字向量,最终字向量在模型训练结束时得到;
(22)中间是Bi-LSTM层:由一层或多层双向长短期记忆网络构成,Bi-LSTM层能够使用输入的字序列的“历史”和“未来”信息,用于对所输入的字序列数据的特征进行有效提取计算,Bi-LSTM层的最后接一个节点数为词法信息标记类别数的全连接层;
(23)最下边是CRF层:通过前面两层的前馈计算后输入到CRF层,该层基于词法信息标记的转移概率矩阵,实现字序列的词法信息标记预测,得到字序列的最终的词法信息标记序列;
(3)输入训练语料通过多次迭代训练搭建的Bi-LSTM-CRF模型,得到训练好的模型参数,这些参数包括训练语料中各个字的字向量,以及模型的权重参数、偏置项参数,还包括CRF 层的转移概率矩阵等;
(4)切分输入的汉语文本,并将其输入训练好的模型:将输入的汉语文本切分为多个语句,一个语句为一个字序列;将输入的汉语文本对应的字序列输入训练好的Bi-LSTM-CRF模型;
(5)确定输入汉语文本最终的词法信息标记序列:CRF层采用Viterbi算法确定所述输入的汉语文本对应的字序列的最终的词法信息标记序列;
(6)依据词法信息标记序列对输入文本进行汉语分词、汉语词性标注和汉语命名实体识别,从而获得最终的汉语词法分析结果。
具体的,根据最终的词法信息标记序列中的“词位信息”进行汉语分词,得到分词结果;根据最终的词法信息标记序列中的“词性信息”进行汉语词性标注,得到词性标注结果;或根据最终的词法信息标记序列中的“命名实体信息”进行汉语命名实体识别,得到命名实体识别结果;其中,对于多字词的情况,选取词尾字的词法信息标记中的词性信息或命名实体信息作为整个词语的词性或命名实体。
例如,字串序列“小华去学术论坛开会”,按三位一体字标注汉语词法分析构建语料的思路输入训练好的模型可以得到该字串的标注结果,如图2所示。再由该字串的词法信息标记序列可以得到最终的汉语词法分析结果:“小华/PER去/V学术论坛/ORG开会/Vi”以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法,其特征在于,该方法包括以下步骤:
(1)基于三位一体字标注汉语词法分析的思路构建模型的训练语料和测试语料,具体步骤如下:
(11)将汉语词法分析的三个子任务全部统一到字标注的框架中,在每个字的标记中包含了词位、词性、命名实体三类信息,形式为“词位_词性或命名实体类别”,字标记由两部分组成,中间用下划线隔开,下划线之前是词位信息,之后是词性或命名实体类别信息,每个字的标记“词位_词性或命名实体类别”称为该字的词法信息标记;
(12)将已经经过汉语词法分析,即已经进行了汉语分词、词性标注与命名实体识别之后的语料按三位一体字标注汉语词法分析方法的思路转换成字标注序列,即每个字对应一个词法信息标记,这里的字包含汉字及标点符号、数字、英文字母等非中文字符,转换得到三位一体字标注的汉语词法分析语料;
(13)将三位一体字标注汉语词法分析语料按一定比例划分为训练语料和测试语料,这些语料用于模型的迭代训练,
(2)搭建Bi-LSTM-CRF模型,采用该模型完成三位一体字标注汉语词法分析的训练和预测,具体如下:
(21)最上边是字向量层:用于接收字序列输入数据,输入的字序列数据是以字向量的方式输入到模型中,且模型训练前输入随机初始化的字向量,最终字向量在模型训练结束时得到;
(22)中间是Bi-LSTM层:由一层或多层双向长短期记忆网络构成,Bi-LSTM层能够使用输入的字序列的“历史”和“未来”信息,用于对所输入的字序列数据的特征进行有效提取计算,Bi-LSTM层的最后接一个节点数为词法信息标记类别数的全连接层;
(23)最下边是CRF层:通过前面两层的前馈计算后输入到CRF层,该层基于词法信息标记的转移概率矩阵,实现字序列的词法信息标记预测,得到字序列的最终词法信息标记序列;
(3)输入训练语料提高多次迭代训练搭建的Bi-LSTM-CRF模型,得到训练好的模型参数,这些参数包括训练语料中各个字的字向量,以及模型的权重参数、偏置项参数,还包括CRF层的转移概率矩阵等;
(4)切分输入的汉语文本,并将其输入训练好的模型:将输入的汉语文本切分为多个语句,一个语句为一个字序列;将输入的汉语文本对应的字序列输入训练好的Bi-LSTM-CRF模型;
(5)确定输入汉语文本最终的词法信息标记序列:CRF层采用Viterbi算法确定所述输入的汉语文本对应的字序列的最终的词法信息标记序列;
(6)依据词法信息标记序列对输入文本进行汉语分词、汉语词性标注和汉语命名实体识别,从而获得最终的汉语词法分析结果。
2.根据权利要求1所述的基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法,其特征在于,所述步骤(11)中,词位是指该字在所构成的特定词语中所占据的构词位置,规定字只有四种词位B、M、E、S,其中,B代表当前字占据一个多字词的词首,M代表当前字占据一个多字词的词中,E代表当前字占据一个多字词的词尾,S代表当前字是一个单字词。
3.根据权利要求1所述的基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法,其特征在于,所述步骤(11)中,词性是该字所在的特定词语所属词语类别;其中,该字所在的词语若为命名实体,则标记中下划线后为相应命名实体类别。
4.根据权利要求3所述的基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法,其特征在于,所述命名实体类别包括人名、地名、组织机构名三类,分别用PER、LOC、ORG标识。
5.根据权利要求1所述的基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法,其特征在于,所述步骤(6)中,具体根据最终的词法信息标记序列中的“词位信息”进行汉语分词,得到分词结果;根据最终的词法信息标记序列中的“词性信息”进行汉语词性标注,得到词性标注结果;或根据最终的词法信息标记序列中的“命名实体信息”进行汉语命名实体识别,得到命名实体识别结果。
6.根据权利要求5所述的基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法,其特征在于,对于多字词的情况,选取词尾字的词法信息标记中的词性信息或命名实体信息作为整个词语的词性或命名实体。
CN202011204830.8A 2020-11-02 2020-11-02 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法 Pending CN112364623A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011204830.8A CN112364623A (zh) 2020-11-02 2020-11-02 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011204830.8A CN112364623A (zh) 2020-11-02 2020-11-02 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法

Publications (1)

Publication Number Publication Date
CN112364623A true CN112364623A (zh) 2021-02-12

Family

ID=74512601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011204830.8A Pending CN112364623A (zh) 2020-11-02 2020-11-02 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法

Country Status (1)

Country Link
CN (1) CN112364623A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112907301A (zh) * 2021-03-29 2021-06-04 哈尔滨工业大学 一种基于Bi-LSTM-CRF模型的内容相关广告投放方法及系统
CN113095082A (zh) * 2021-04-15 2021-07-09 湖南四方天箭信息科技有限公司 一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质
CN113239692A (zh) * 2021-05-12 2021-08-10 同方知网数字出版技术股份有限公司 一种基于古代汉语的分词方法
CN113536794A (zh) * 2021-06-22 2021-10-22 河北远东通信系统工程有限公司 一种基于置信度的Active-BiLSTM-CRF中文层级地址分词方法
CN113657118A (zh) * 2021-08-16 2021-11-16 北京好欣晴移动医疗科技有限公司 基于通话文本的语义分析方法、装置和系统
CN116227497A (zh) * 2022-11-29 2023-06-06 广东外语外贸大学 一种基于深度神经网络的句子构式分析方法及装置
CN113657118B (zh) * 2021-08-16 2024-05-14 好心情健康产业集团有限公司 基于通话文本的语义分析方法、装置和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473221A (zh) * 2013-09-16 2013-12-25 于江德 汉语词法分析方法
CN109829159A (zh) * 2019-01-29 2019-05-31 南京师范大学 一种古汉语文本的一体化自动词法分析方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473221A (zh) * 2013-09-16 2013-12-25 于江德 汉语词法分析方法
CN109829159A (zh) * 2019-01-29 2019-05-31 南京师范大学 一种古汉语文本的一体化自动词法分析方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112907301A (zh) * 2021-03-29 2021-06-04 哈尔滨工业大学 一种基于Bi-LSTM-CRF模型的内容相关广告投放方法及系统
CN113095082A (zh) * 2021-04-15 2021-07-09 湖南四方天箭信息科技有限公司 一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质
CN113239692A (zh) * 2021-05-12 2021-08-10 同方知网数字出版技术股份有限公司 一种基于古代汉语的分词方法
CN113536794A (zh) * 2021-06-22 2021-10-22 河北远东通信系统工程有限公司 一种基于置信度的Active-BiLSTM-CRF中文层级地址分词方法
CN113657118A (zh) * 2021-08-16 2021-11-16 北京好欣晴移动医疗科技有限公司 基于通话文本的语义分析方法、装置和系统
CN113657118B (zh) * 2021-08-16 2024-05-14 好心情健康产业集团有限公司 基于通话文本的语义分析方法、装置和系统
CN116227497A (zh) * 2022-11-29 2023-06-06 广东外语外贸大学 一种基于深度神经网络的句子构式分析方法及装置
CN116227497B (zh) * 2022-11-29 2023-09-26 广东外语外贸大学 一种基于深度神经网络的句子构式分析方法及装置

Similar Documents

Publication Publication Date Title
CN110019839B (zh) 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN109284400B (zh) 一种基于Lattice LSTM和语言模型的命名实体识别方法
CN107168945B (zh) 一种融合多特征的双向循环神经网络细粒度意见挖掘方法
CN111209412B (zh) 一种循环更新迭代的期刊文献知识图谱构建方法
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN111310471B (zh) 一种基于bblc模型的旅游命名实体识别方法
CN112364623A (zh) 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN107818164A (zh) 一种智能问答方法及其系统
CN112560478B (zh) 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法
CN111144119B (zh) 一种改进知识迁移的实体识别方法
CN112541356B (zh) 一种生物医学命名实体识别的方法和系统
CN110609983B (zh) 一种政策文件结构化分解方法
CN110879831A (zh) 基于实体识别技术的中医药语句分词方法
CN111738007A (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN111061882A (zh) 一种知识图谱构建方法
CN111008526A (zh) 一种基于双通道神经网络的命名实体识别方法
CN111444704A (zh) 基于深度神经网络的网络安全关键词抽取方法
CN113065341A (zh) 一种环境类投诉举报文本自动标注和分类方法
CN107894976A (zh) 一种基于Bi‑LSTM的混合语料分词方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及系统
CN112966510A (zh) 一种基于albert的武器装备实体抽取方法、系统及存储介质
CN112836501A (zh) 一种基于Bert+BiLSTM+CRF的知识元自动抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination