CN111444726A - 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 - Google Patents

基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 Download PDF

Info

Publication number
CN111444726A
CN111444726A CN202010228609.XA CN202010228609A CN111444726A CN 111444726 A CN111444726 A CN 111444726A CN 202010228609 A CN202010228609 A CN 202010228609A CN 111444726 A CN111444726 A CN 111444726A
Authority
CN
China
Prior art keywords
word
character
network
corpus
semantic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010228609.XA
Other languages
English (en)
Other versions
CN111444726B (zh
Inventor
徐宁
于佳卉
刘小峰
姚潇
蒋爱民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Campus of Hohai University
Original Assignee
Changzhou Campus of Hohai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Campus of Hohai University filed Critical Changzhou Campus of Hohai University
Priority to CN202010228609.XA priority Critical patent/CN111444726B/zh
Publication of CN111444726A publication Critical patent/CN111444726A/zh
Application granted granted Critical
Publication of CN111444726B publication Critical patent/CN111444726B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种语义信息提取方法和装置,属于自然语言处理技术领域,方法包括:获取待识别的语料数据;对获取到的语料数据进行预处理,预处理包括将语料数据转换为词向量和/或字向量;将向量转换后的语料信息输入至预先训练的语义信息提取模型,得到命名实体识别结果;所述语义信息提取模型包括双向长短时记忆网络和CRF层网络,其训练样本为已标注字符标签和实体标签的语料数据的向量形式;双向长短时记忆网络的输出为待识别语句中各词中字符映射到标签的概率矩阵,CRF层网络根据双向长短时记忆网络的输出,确定待识别语句的标签序列并输出。本发明通过将格子结构的长短时记忆网络改进为双向,使其能够更好的获知文章中一个句子前后文的信息,从而更准确地判断这个句子的语义。

Description

基于双向格子结构的长短时记忆网络的中文语义信息提取方 法和装置
技术领域
本发明涉及自然语言处理技术领域,特别是一种基于双向格子结构的长短时记忆神经网络的中文语义信息提取方法和装置。
背景技术
信息抽取是指从自然语言文本中抽取指定类型的实体、关系、事件等信息,并且形成结构化数据输出的文本处理技术。它是自然语言处理领域经常用到的一项技术,也是该领域研究的重点技术之一。信息抽取的任务有实体识别与抽取、实体消歧、关系抽取、事件抽取,其中实体识别是信息抽取的主要任务之一,意义十分重大。
对于实体识别这一任务,目前已经存在一些方法,比如,基于规则的命名实体识别方法,该方法是定义一个规则,将语料和规则进行匹配,从而识别出实体;基于词典的命名实体识别方法,该方法是将尽量多的实体建立词典,经过训练使文本中的词与词典中的词相匹配,匹配上的即为该词典中对应分类的实体;基于传统机器学习的命名实体识别的方法,该方法是对文本信息提取特征,从而学习前后词的语义信息,做出相应的分类;基于长短时记忆网络-条件随机场(Long Short Term Memory-Conditional Random Field,LSTM-CRF)的命名实体识别的方法,该方法主要有两种,基于词向量和基于字符向量,主要是对前一种方法的改进,即令长短时记忆网络LSTM进行提取特征,令CRF层进行分类判断。
上述方法存在以下缺陷:
1、基于规则的命名实体识别方法比较死板,并且规则太多,费时费力;
2、基于词典的命名实体识别方法十分依赖于词典库,并且不能识别未登录词;
3、基于传统机器学习的命名实体识别方法的特征模板需要人工提取,耗时耗力,且建立的模板质量十分影响识别效果;
4、基于LSTM-CRF的命名实体识别方法,基于词向量的方法十分依赖分词效果,即若分词错误则影响识别;而基于字符向量的方法虽优于基于词向量的方法,但是它不能充分利用单词和词序信息,也会影响识别效果。
发明内容
本发明的目的是,提供基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置,提高语义识别准确度。
本发明采取的技术方案如下。
一方面,本发明提供一种语义信息提取方法,包括:
获取待识别的语料数据;
对获取到的语料数据进行预处理,预处理包括将语料数据转换为词向量和/或字向量;
将向量转换后的语料信息输入至预先训练的语义信息提取模型,得到命名实体识别结果;所述语义信息提取模型包括双向长短时记忆网络和CRF层网络,其训练样本为已标注字符标签和实体标签的语料数据的向量形式;双向长短时记忆网络的输出为待识别语句中各词中字符映射到标签的概率矩阵,CRF层网络根据双向长短时记忆网络的输出确定待识别语句的标签序列并输出。
本发明将传统格子结构的长短时记忆网络Lattice LSTM由单向改进为双向,在训练和识别时不仅能够充分利用单词和词序信息,不会因为分词错误影响识别结果,且能够更好的联系上下文的信息,使得机器如人工智能问答系统,能够更好的理解词在语句中的具体意思,进而针对识别出的实体回答相应问题。
可选的,所述待识别的语料数据为中文语句文本。也即本发明适用于中文语义信息的提取。在问答系统中,可首先将获取到的用户语音数据转换文中文语句文本,然后进行语义提取。语料数据源可根据自然语言识别所应用的领域来决定,如医疗领域,可通过爬虫三九健康网、寻医问药网等网站获取语料文本数据。
可选的,对获取到的语料信息进行预处理还包括数据清洗。如过滤噪声数据,可采用现有技术。
可选的,对获取到的语料数据进行预处理时,将待识别语料与预设的单词查找树进行匹配,得到相应的单词集合,进而采用嵌入层Embedding将语料数据转换为词向量和字向量。Embedding层可采用现有的word2vec工具实现语料数据到向量的转换。单词查找树可根据汉语词典设置,用于待识别语句与汉语词典词库之间的匹配,已查找到待识别语句所包含的实体单词。
可选的,语义信息提取模型的训练包括:
样本语料标注:对多个样本语句进行标注处理,标注出各样本语句中的字符标签;
对标注后的样本语料进行预处理,抽取得到训练样本语句,及其对应的标签序列和单词集合;
利用训练样本对双向格子结构的长短时记忆网络进行训练,以调整其网络参数;
基于训练样本及双向格子结构的长短时记忆网络的输出对CRF层网络进行训练,以调整其网络参数;
得到训练完成的语义信息提取模型。
可选的,语义信息提取模型训练还包括根据训练样本及训练过程中的识别结果计算准确率P和召回率R,并根据以下公式计算评价分数F1:
Figure BDA0002428583050000031
响应于评价分数值大于预设值,则停止模型训练。
可选的,样本语料标注采用BMESO(begin,middle,end,single,other)标记方法。即位于该词语最开始的字符标记为B,位于该词语中间的字符标记为M,位于该词语末尾的词语标记为E,若该词语只有一个字符则标记为S,若该词语没有带标签或者不属于实体标签则标记为O。
可选的,对标注后的样本语料进行预处理包括:
(2.1)统计已标注样本语料的字符,得到字符集合,然后对每个字符编号,得到字符集合对应的字符编号集合;统计已标注样本语料的标签,得到标签集合,然后对每个标签编号,得到标签集合对应的标签编号集合;
(2.2)基于汉语词典建立单词查找树,将各语句与单词查找树进行匹配,保留匹配成功的单词,得到样本语料对应的单词集合;
(2.3)对单词集合中的单词去重处理并编号,得到新的单词集合及其对应的词编号集合;
(2.4)将样本语料中的字符和标签分别根据字符编号集合和标签编号集合转换为对应编号;同时将各语句中的各单词根据词编号集合转换为对应的编号。
模型训练时,将转换编号后的样本语料随机排列,采用随机无放回的方式从样本语料中抽取若干语句及其对应的标签和对应的单词集合,进行向量转换后,作为双向格子结构的长短时记忆网络的输入。
可选的,双向格子结构的长短时记忆网络的隐藏层包括前向网络层和反向网络层,前向网络层和反向网络层分别设置字处理网络单元和词处理网络单元;字处理网络单元包括输入门、输出门和遗忘门,词处理网络单元包括输入门和遗忘门;
字处理网络单元的输入量包括当前字符的字符向量、前一个字符的细胞状态和字处理网络单元的输出,以及以当前字符为末位字符的单词从词处理网络单元输出的细胞状态;词处理网络单元的输入包括当前单词向量,以及当前单词的首位字符在字处理网络单元的输出和细胞状态。
具体的,定义待识别中文文本的字符序列为S={c1,c2,c3......,cm},序列S与单词查找树匹配得到的单词集合为
Figure BDA0002428583050000041
表示从B到E结束的单词子序列;
嵌入层对于字符和单词分别按照以下公式进行向量转换:
Figure BDA0002428583050000042
Figure BDA0002428583050000043
其中,
Figure BDA0002428583050000044
为字符ci经嵌入层转换后得到的字符向量,
Figure BDA0002428583050000045
为单词集合
Figure BDA0002428583050000046
的词向量,ec、ew代表嵌入层的权重;
Figure BDA0002428583050000047
分别表示字符向量处理网络单元的输入门、输出门和遗忘门的控制,σ、tanh表示激活函数sigmoid和tanh,字符向量处理网络单元对于输入的字符向量
Figure BDA0002428583050000048
按照下式进行处理:
Figure BDA0002428583050000049
Figure BDA00024285830500000410
Figure BDA0002428583050000051
Figure BDA0002428583050000052
Figure BDA0002428583050000053
式中,
Figure BDA0002428583050000054
表示经tanh函数处理后的细胞状态,为中间信息状态;
Figure BDA0002428583050000055
表示前一个字符的字符向量处理网络单元输出;
Figure BDA0002428583050000056
Figure BDA0002428583050000057
分别表示前向和反向两个方向的输出,
Figure BDA0002428583050000058
为结合两个方向的最后的输出;
Figure BDA0002428583050000059
表示从前一个字符及其相关的词传过来的细胞状态;WC表示字处理单网络元的权重矩阵,
Figure BDA00024285830500000510
表示WC的转置矩阵;bc表示字处理网络单元中的常数项;⊙表示矩阵点积;
Figure BDA00024285830500000511
分别表示词向量处理网络单元中的输入门和遗忘门的控制,词向量处理网络单元对于输入的词向量
Figure BDA00024285830500000512
按照下式进行处理:
Figure BDA00024285830500000513
Figure BDA00024285830500000514
式中,
Figure BDA00024285830500000515
表示从B开始到E结束的词的细胞状态,
Figure BDA00024285830500000516
表示经tanh函数处理后的细胞状态,为中间信息状态;
Figure BDA00024285830500000517
表示第B个字在字处理网络单元的输出;
Figure BDA00024285830500000518
表示词处理网络单元权重矩阵的转置;bw表示词处理网络单元的常数项;
字处理网络单元中,对应字符向量
Figure BDA00024285830500000519
的输出细胞状态
Figure BDA00024285830500000520
按照下式计算:
Figure BDA00024285830500000521
其中,
Figure BDA00024285830500000522
为从b到j组成的单词的细胞状态,
Figure BDA00024285830500000523
为从b到j组成的单词的细胞状态的权重,
Figure BDA0002428583050000061
为第j个字的细胞状态的权重,
Figure BDA0002428583050000062
为对应
Figure BDA0002428583050000063
在字处理网络单元中经tanh函数处理后的细胞状态,
Figure BDA0002428583050000064
中,b'代表所有可能的b集合,
Figure BDA0002428583050000065
表示从b'到d组成的词,D表示所规定函数的定义域;
并有:
Figure BDA0002428583050000066
Figure BDA0002428583050000067
上式中,
Figure BDA0002428583050000068
表示表示从b到j组成的词的输入门,
Figure BDA0002428583050000069
表示第j个字的输入门,
Figure BDA00024285830500000610
表示从b″到d组成的词,b″表示所有可能的b'集合。
可选的,双向长短时记忆网络的输出为待识别语句中各词中字符映射到标签的非归一化概率矩阵,CRF层网络采用维特比算法根据双向长短时记忆网络的输出,确定待识别语句的标签序列。可确保更准确快速的得到最优结果。
第二方面,本发明提供一种语义信息提取装置,包括:
语料数据获取模块,被配置用于获取待识别的语料数据;
预处理模块,被配置用于对获取到的语料数据进行预处理,预处理包括将语料数据转换为词向量和/或字向量;
语义信息提取模块,用于将向量转换后的语料信息输入至预先训练的语义信息提取模型,得到命名实体识别结果;所述语义信息提取模型包括双向长短时记忆网络和CRF层网络,其训练样本为已标注字符标签和实体标签的语料数据的向量形式;双向长短时记忆网络的输出为待识别语句中各词中字符映射到标签的概率矩阵,CRF层网络根据双向长短时记忆网络的输出,确定待识别语句的标签序列并输出。
有益效果
与现有技术相比,本发明具有以下优点和进步:
1:采用双向格子结构的长短时记忆网络Lattice LSTM进行实体标签预测,相比于传统基于字符嵌入的方法,格子结构的长短时记忆网络Lattice LSTM能够充分利用单词和词序信息,相比于传统基于词嵌入的方法,Lattice LSTM不会因为分词错误影响识别结果;
2:将格子结构的长短时记忆网络由单向改为双向,能够更好的联系上下文的信息,得到词在文章中的具体意思;
3:条件随机场CRF层使用维特比算法确定待识别语句的标签序列,能够更准确快速的得到最优结果。
附图说明
图1所示为本发明的方法原理及流程示意图;
图2所示为本发明语义信息提取模型构建过程示意图;
图3所示为现有Lattice LSTM网络示意图;
图4所示为本发明双向Lattice LSTM网络示意图;
图5所示为本发明双向Lattice LSTM网络中字符向量处理原理示意图;
图6所示为本发明双向Lattice LSTM网络中词向量处理原理示意图;
图7所示为应用本发明方法的一种应用例模型的评价结果输出。
具体实施方式
以下结合附图和具体实施例进一步描述。
实施例1
本实施例为一种语义信息提取方法,如图1所示,包括:
获取待识别的语料数据;
对获取到的语料数据进行预处理,预处理包括将语料数据转换为词向量和/或字向量;
将向量转换后的语料信息输入至预先训练的语义信息提取模型,得到命名实体识别结果;所述语义信息提取模型包括双向长短时记忆网络和CRF层网络,其训练样本为已标注字符标签和实体标签的语料数据的向量形式;双向长短时记忆网络的输出为待识别语句中各词中字符映射到标签的概率矩阵,CRF层网络根据双向长短时记忆网络的输出确定待识别语句的标签序列并输出。
本发明旨在通过将传统格子结构的长短时记忆网络Lattice LSTM由单向改进为双向,在训练和识别时不仅能够充分利用单词和词序信息,不会因为分词错误影响识别结果,且能够更好的联系上下文的信息,使得机器如人工智能问答系统,能够更好的理解词在语句中的具体意思,进而针对识别出的实体回答相应问题。
实施例1-1
基于实施例1,本实施例具体介绍语义信息提取方法的实现,主要包括以下内容。
一、待识别语料样本及其预处理
本实施例用于识别的自然语言为中文语句文本,可为问答系统从用户处获取的询问语句或查询命令等。
对获取到的语料信息进行预处理包括数据清洗。如过滤文本噪声数据,可采用现有技术。
语料信息数据清洗后,将待识别语料与预设的单词查找树进行匹配,得到相应的单词集合,进而采用嵌入层Embedding将语料数据转换为词向量和字向量。Embedding层可采用现有的word2vec工具实现语料数据到向量的转换。单词查找树可根据汉语词典设置,用于待识别语句与汉语词典词库之间的匹配,已查找到待识别语句所包含的实体单词。
然后即可采用嵌入层Embedding将语料数据转换为词向量和/或字向量。Embedding层可采用现有的word2vec工具实现语料数据到向量的转换。
语义信息的提取是通过预先搭建好的语义信息提取模型,对输入的字向量、词向量进行理解,识别出文本中的命名实体,如用户在问答系统中给出问题:华为在北京有公司吗?经语义信息提取模型可识别问题语句中的字符标签:华B-ORG为E-ORG在O北B-LOC京E-LOC有O公O司O吗O,即识别出其中的命名实体北京和华为,之后即可根据识别出的实体进行答案检索,进而回答出问题。
二、语义信息提取模型构建及其训练
语义信息提取模型包括双向格子结构的长短时记忆网络和CRF层网络,其中双向格子结构的长短时记忆网络由现有的图3所示的单向Lattice LSTM改进得到,参考图4所示,双向格子结构的长短时记忆网络LSTM在单向格子结构的LSTM的基础上,添加了一层反方向的网络层layer,原layer为前向网络Forward Layer,新添加的为反向网络BackwardLayer,这样可以使语料信息能够两个方向同时流动,能够更好的提取出句子中各字、词的信息,从而能够更好的识别出语料在整个句子中的语义。
在改进为双向的基础上,双向格子结构的长短时记忆网络设置字处理网络单元和词处理网络单元,以能够同时分别处理字向量和词向量。
参考图5、图6所示,字处理网络单元包括输入门、输出门和遗忘门,词处理网络单元包括输入门和遗忘门;
字处理网络单元的输入量包括当前字符的字符向量、上一个字符的细胞状态,以及以当前字符为末位字符的单词从词处理网络单元输出的细胞状态;词处理网络单元的输入包括当前单词向量,以及当前单词的首位字符在字处理网络单元的输出和细胞状态。
双向长短时记忆网络的输出为待识别语句中各词中字符映射到标签的非归一化概率矩阵,CRF层网络采用维特比算法根据双向长短时记忆网络的输出,确定待识别语句的标签序列,可确保更准确快速的得到最优结果。
语义信息提取模型搭建完成后,对于特定领域的自然语言识别可利用已有的相关领域语料数据进行模型训练,如医疗领域,可以通过爬虫三九健康网、寻医问药网等网站的语料数据。
语义信息提取模型的训练包括以下内容:
(1)对文本资料进行标注处理,生成训练集、测试集和验证集;
(2)对已标注语料进行预处理;
(3)双向格子结构的长短时记忆网络Lattice LSTM训练;
(4)条件随机场CRF层训练;
(5)根据CRF层所得结果对模型预测结果进行评分。
步骤(1)、语料标注处理
(1.1)对已有语料数据进行标注处理,具体方式为采用BMESO(begin,middle,end,single,other)的标记方式对训练语料数据进行标注,即位于该词语最开始的字符标记为B,位于该词语中间的字符标记为M,位于该词语末尾的词语标记为E,若该词语只有一个字符则标记为S,若该词语没有带标签或者不属于实体标签则标记为O。例如有语句为“小明今年在北京上学,明年准备去华为工作。”,则其标注结果为:小B-NAME、明E-NAME、今O、年O、在O、北B-LOC、京E-LOC、上O、学O、明O、年O、准O、备O、去O、华B-ORG、为E-ORG、工O、作O。
(1.2)然后可将数据集按照1:1:8的比例分为dev(验证集)、test(测试集)、train(训练集)三类数据集,以备后续对模型进行训练验证。
步骤二、对标注语料进行预处理
(2.1)统计标注语料的字符,得到字符集合,然后将每个字符进行编号,得到字符集合相对应的字符编号集合;统计标注语料的标签,得到标签集合,然后将每个标签也进行编号,得到标签集合对应的标签编号集合;
(2.2)基于汉语词典建立一棵单词查找树,将标注语料中的每一条语句与单词查找树进行匹配,匹配成功的词保留,从而得到单词集合;
比如一句话是“南京市长江小学”,匹配的过程如下所示:首先匹配“南”作为首字符的词,然后逐一查找单词树中是否有“南京市长江小学”、“南京市长江小”,“南京市长江”,“南京市长”,“南京市”,“南京”,最后可以得到以“南”字为首字符的词的一个列表[“南京市”,“南京”],然后再依次查找以‘京’,‘市’,‘长’,‘江’,‘小’,‘学’作为首字符的词,将匹配到的词保存到单词集合中;
(2.3)对单词集合中的词进行去重得到新的单词集合,并对新单词集合中的词进行编号,得到新对应的词编号集合;
(2.4)将标注语料中的字符和标签分别根据字符编号集合和标签编号集合转换为对应编号,并让标注语料中的每条语句与单词查找树进行匹配,保存每一句话匹配到的词,并将这些词根据词编号集合转换为对应的编号;
(2.5)将步骤2.4中转换成编号后的语料随机排列顺序,并采用随机无放回的方式从标注语料中抽取若干语句,以及其对应的标签和对应的单词集合。
如对于语料“南京市长江小学”,则字符编号集合为:1南2京3市4长5江6小7学,标签编号集合为:1.O 2.B-LOC 3.M-LOC 4.E-LOC 5.B-ORG 6.E-ORG,匹配后,获得的词编号集合为:1.南京2.南京市3.市长4.长江5.长江小学。
然后将所有集合随机排列,训练模型时,抽取BatchSize句语句进行测试,对于语句“南京市长江小学”,即同时抽取其标签B-LOC、M-LOC、E-LOC、B-ORG、M-ORG、E-ORG和单词集合南京、南京市、市长、长江、长江小学。
步骤三、双向格子结构的长短时记忆网络Lattice LSTM训练
双向格子结构的长短时记忆网络Lattice LSTM模型是基于长短时记忆网络LSTM模型搭建的,并在单向长短时记忆网络结构LSTM的基础上改造为双向,从而更好的联系上下文信息。并通过设置字处理网络单元和词处理网络单元能够同时处理字符向量和词向量。
通过模型训练对于双向Lattice LSTM模型中的相关参数进行调整,字处理网络单元和词处理网络单元分别处理字符向量和词向量时的内部结构图如图5和图6所示。
假设需要处理一个字符序列S=c1,c2,c3......,cm,首先需要利用嵌入层Embedding将语料数据转换为词向量和/或字向量,对于字符通过
Figure BDA0002428583050000111
可以得到每个字符的字符向量
Figure BDA0002428583050000112
即字处理网络单元的输入向量。
Figure BDA0002428583050000113
分别表示字符向量处理网络单元的输入门、输出门和遗忘门的控制,σ、tanh表示激活函数sigmoid和tanh,字符向量处理网络单元对于输入的字符向量
Figure BDA0002428583050000114
按照下式进行处理:
Figure BDA0002428583050000121
Figure BDA0002428583050000122
Figure BDA0002428583050000123
Figure BDA0002428583050000124
Figure BDA0002428583050000125
式中,
Figure BDA0002428583050000126
表示经tanh函数处理后的细胞状态,为中间信息状态;
Figure BDA0002428583050000127
表示前一个字符的字符向量处理网络单元输出;
Figure BDA0002428583050000128
Figure BDA0002428583050000129
分别表示前向和反向两个方向的输出,
Figure BDA00024285830500001210
为结合两个方向的最后的输出;
Figure BDA00024285830500001211
表示从前一个字符及其相关的词传过来的细胞状态;WC表示字处理单网络元的权重矩阵,
Figure BDA00024285830500001212
表示WC的转置矩阵;bc表示字处理网络单元中的常数项;⊙表示矩阵点积;
假定序列S和单词查找树进行匹配,得到这个序列的词集合表示为
Figure BDA00024285830500001213
从b开始到e结束的词的子序列;其向量形式为:
Figure BDA00024285830500001214
Figure BDA00024285830500001215
分别表示词向量处理网络单元中的输入门和遗忘门的控制,词向量处理网络单元对于输入的词向量
Figure BDA00024285830500001216
按照下式进行处理:
Figure BDA00024285830500001217
Figure BDA00024285830500001218
式中,
Figure BDA0002428583050000131
表示从b开始到e结束的词的细胞状态,
Figure BDA0002428583050000132
表示经tanh函数处理后的细胞状态,为中间信息状态;
Figure BDA0002428583050000133
表示第b个字在字处理网络单元的输出;
Figure BDA0002428583050000134
表示词处理网络单元权重矩阵的转置;bw表示词处理网络单元的常数项;
从图6中可以看到词LSTM单元中没有输出门,是因为词LSTM单元的细胞状态都传给这个词最后一个字的字LSTM单元。除此之外,字符LSTM单元的输入不仅来自上一个字符的状态和字符向量,并且还包括前面多个词的LSTM单元输出的细胞状态
Figure BDA0002428583050000135
因此字处理网络单元中,当前字的细胞状态输出计算公式如下:
Figure BDA0002428583050000136
其中,
Figure BDA0002428583050000137
为从b到j组成的单词的细胞状态,
Figure BDA0002428583050000138
为从b到j组成的单词的细胞状态的权重,
Figure BDA0002428583050000139
为第j个字的细胞状态的权重,
Figure BDA00024285830500001310
为对应
Figure BDA00024285830500001311
在字处理网络单元中经tanh函数处理后的细胞状态,
Figure BDA00024285830500001312
中,b'代表所有可能的b集合,
Figure BDA00024285830500001313
表示从b'到d组成的词,D表示所规定函数的定义域;
并有:
Figure BDA00024285830500001314
Figure BDA00024285830500001315
上式中,
Figure BDA00024285830500001316
表示表示从b到j组成的词的输入门,
Figure BDA00024285830500001317
表示第j个字的输入门,
Figure BDA00024285830500001318
表示从b″到d组成的词,b″表示所有可能的b'集合。
如对于句子“南京市长江小学”中的
Figure BDA00024285830500001319
“学”的细胞状态,输入量包含
Figure BDA00024285830500001320
(学)、
Figure BDA00024285830500001321
(小学)、
Figure BDA0002428583050000141
(长江小学)的信息,所以有:
Figure BDA0002428583050000142
Figure BDA0002428583050000143
Figure BDA0002428583050000144
Figure BDA0002428583050000145
通过模型训练可不断调整网络中各层次之间的权重参数等,使得模型能够对待识别语句输出更加可靠的字符映射到标签的非归一化概率矩阵。
步骤四、条件随机场CRF层训练,使得CRF层找出句子级别的标签信息。
双向长短时记忆网络的输出为待识别语句中各词中字符映射到标签的非归一化概率矩阵,CRF层网络采用维特比算法根据双向长短时记忆网络的输出,确定待识别语句的标签序列。具体算法如下。
(4.1)设双向长短时记忆网络Bi-LSTM的输出矩阵为P,其中Pm,u为词wm映射到标签的非归一化概率;我们假定存在一个转移矩阵A,则Am,u表示标签m转移到标签u的转移概率。
对于输入序列x对应的输出标签序列y,定义分数为:
Figure BDA0002428583050000146
(4.2)利用逻辑回归模型softmax函数,为每一个正确的标签序列y定义一个概率值:
Figure BDA0002428583050000151
利用对数似然,可以得到:
log(p(y|x))=score(x,y)-log(∑y′expscore((x,y′)))
(4.3)如果存在N个样本,
Figure BDA0002428583050000154
则可以得到其损失函数为:
Figure BDA0002428583050000152
其中||θ||2为L2正则项,λ为正则化参数。
步骤五、根据CRF层所得结果对模型预测结果进行评分
根据训练样本及训练过程中的CRF层识别结果计算准确率P和召回率R,利用以下公式计算评价分数F1:
Figure BDA0002428583050000153
响应于评价分数值大于预设值,则停止模型训练。
步骤六、模型评分
(6.1)根据模型运行结果得出相应的准确率、召回率。
(6.2)根据F1分数计算标准进行计算,得出F1的总得分。
本发明在Lattice LSTM结构的基础上,将单向LSTM变成双向LSTM改进,解决了单向结构只能影响当前位置后面序列的问题,从而使得原结构在能够影响当前位置后面序列的基础上,也能够对当前位置以及该位置前面的序列进行影响,能够更好的获知句子前后文的语义信息。参考图7所示,利用本发明的方法,在resumeNER数据集上,经过计算得分,精确率可达到0.926813,回归率可达到0.930528,f1达到0.928667,其中准确率最高,达到0.962347,有效提高了命名实体识别的准确率,可应用于其他领域进行实体识别。
实施例2
本实施例为一种语义信息提取装置,包括:
语料数据获取模块,被配置用于获取待识别的语料数据;
预处理模块,被配置用于对获取到的语料数据进行预处理,预处理包括将语料数据转换为词向量和/或字向量;
语义信息提取模块,用于将向量转换后的语料信息输入至预先训练的语义信息提取模型,得到命名实体识别结果;所述语义信息提取模型包括双向长短时记忆网络和CRF层网络,其训练样本为已标注字符标签和实体标签的语料数据的向量形式;双向长短时记忆网络的输出为待识别语句中各词中字符映射到标签的概率矩阵,CRF层网络根据双向长短时记忆网络的输出,确定待识别语句的标签序列并输出。
本实施例装置中各模块的具体实现,以及语义信息提取模型的构建、训练等内容,采取实施例1和实施例1-1的实施方式。
本实施例的语义信息提取装置可实现于人工智能领域中的问答系统中,实现对用户语句的语义识别,以更加准确的执行用户指令或返回用户所需信息。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品,该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种语义信息提取方法,其特征是,包括:
获取待识别的语料数据;
对获取到的语料数据进行预处理,预处理包括将语料数据转换为词向量和/或字向量;
将向量转换后的语料信息输入至预先训练的语义信息提取模型,得到命名实体识别结果;所述语义信息提取模型包括双向长短时记忆网络和CRF层网络,其训练样本为已标注字符标签和实体标签的语料数据的向量形式;双向长短时记忆网络的输出为待识别语句中各词中字符映射到标签的概率矩阵,CRF层网络根据双向长短时记忆网络的输出确定待识别语句的标签序列并输出。
2.根据权利要求1所述的方法,其特征是,所述待识别的语料数据为中文语句文本。
3.根据权利要求1所述的方法,其特征是,对获取到的语料信息进行预处理还包括数据清洗。
4.根据权利要求1所述的方法,其特征是,对获取到的语料数据进行预处理时,将待识别语料与预设的单词查找树进行匹配,得到相应的单词集合,进而采用嵌入层Embedding将语料数据转换为词向量和字向量。
5.根据权利要求1所述的方法,其特征是,语义信息提取模型的训练包括:
样本语料标注:对多个样本语句进行标注处理,标注出各样本语句中的字符标签;
对标注后的样本语料进行预处理,抽取得到训练样本语句,及其对应的标签序列和单词集合;
利用训练样本对双向格子结构的长短时记忆网络进行训练,以调整其网络参数;
基于训练样本利用双向格子结构的长短时记忆网络的输出对CRF层网络进行训练,以调整其网络参数;
得到训练完成的语义信息提取模型。
6.根据权利要求5所述的方法,其特征是,语义信息提取模型训练还包括根据训练样本及训练过程中的识别结果计算准确率P和召回率R,并根据以下公式计算评价分数F1:
Figure FDA0002428583040000011
响应于评价分数值大于预设值,则停止模型训练。
7.根据权利要求5所述的方法,其特征是,对标注后的样本语料进行预处理包括:
(2.1)统计已标注样本语料的字符,得到字符集合,然后对每个字符编号,得到字符集合对应的字符编号集合;统计已标注样本语料的标签,得到标签集合,然后对每个标签编号,得到标签集合对应的标签编号集合;
(2.2)基于汉语词典建立单词查找树,将各语句与单词查找树进行匹配,保留匹配成功的单词,得到样本语料对应的单词集合;
(2.3)对单词集合中的单词去重处理并编号,得到新的单词集合及其对应的词编号集合;
(2.4)将样本语料中的字符和标签分别根据字符编号集合和标签编号集合转换为对应编号;同时将各语句中的各单词根据词编号集合转换为对应的编号;
模型训练时,将转换编号后的样本语料随机排列,采用随机无放回的方式从样本语料中抽取若干语句及其对应的标签和对应的单词集合,进行向量转换后,作为双向格子结构的长短时记忆网络的输入。
8.根据权利要求1或5所述的方法,其特征是,可选的,双向格子结构的长短时记忆网络的隐藏层包括前向网络层和反向网络层,前向网络层和反向网络层分别设置字处理网络单元和词处理网络单元;字处理网络单元包括输入门、输出门和遗忘门,词处理网络单元包括输入门和遗忘门;
字处理网络单元的输入量包括当前字符的字符向量、前一个字符的细胞状态和字处理网络单元的输出,以及以当前字符为末位字符的单词从词处理网络单元输出的细胞状态;词处理网络单元的输入包括当前单词向量,以及当前单词的首位字符在字处理网络单元的输出和细胞状态;
双向长短时记忆网络的输出为待识别语句中各词中字符映射到标签的非归一化概率矩阵,CRF层网络采用维特比算法根据双向长短时记忆网络的输出,确定待识别语句的标签序列。。
9.根据权利要求8所述的方法,其特征是,定义待识别中文文本的字符序列为S={c1,c2,c3……,cm},序列S与单词查找树匹配得到的单词集合为
Figure FDA0002428583040000031
表示从B到E结束的单词子序列;
嵌入层对于字符和单词分别按照以下公式进行向量转换:
Figure FDA0002428583040000032
Figure FDA0002428583040000033
其中,
Figure FDA0002428583040000034
为字符ci经嵌入层转换后得到的字符向量,
Figure FDA0002428583040000035
为单词集合
Figure FDA0002428583040000036
的词向量,ec、ew代表嵌入层的权重;
Figure FDA0002428583040000037
fi c分别表示字符向量处理网络单元的输入门、输出门和遗忘门的控制,σ、tanh表示激活函数sigmoid和tanh,字符向量处理网络单元对于输入的字符向量
Figure FDA0002428583040000038
按照下式进行处理:
Figure FDA0002428583040000039
Figure FDA00024285830400000310
Figure FDA00024285830400000311
Figure FDA00024285830400000312
Figure FDA00024285830400000313
式中,
Figure FDA00024285830400000314
表示经tanh函数处理后的细胞状态,为中间信息状态;
Figure FDA00024285830400000315
表示前一个字符的字符向量处理网络单元输出;
Figure FDA00024285830400000316
Figure FDA00024285830400000317
分别表示前向和反向两个方向的输出,
Figure FDA00024285830400000318
为结合两个方向的最后的输出;
Figure FDA00024285830400000319
表示从前一个字符及其相关的词传过来的细胞状态;WC表示字处理单网络元的权重矩阵,
Figure FDA00024285830400000320
表示WC的转置矩阵;bc表示字处理网络单元中的常数项;
Figure FDA00024285830400000321
表示矩阵点积;
Figure FDA0002428583040000041
分别表示词向量处理网络单元中的输入门和遗忘门的控制,词向量处理网络单元对于输入的词向量
Figure FDA0002428583040000042
按照下式进行处理:
Figure FDA0002428583040000043
Figure FDA0002428583040000044
式中,
Figure FDA0002428583040000045
表示从B开始到E结束的词的细胞状态,
Figure FDA0002428583040000046
表示经tanh函数处理后的细胞状态,为中间信息状态;
Figure FDA0002428583040000047
表示第B个字在字处理网络单元的输出;
Figure FDA0002428583040000048
表示词处理网络单元权重矩阵的转置;bw表示词处理网络单元的常数项;
字处理网络单元中,对应字符向量
Figure FDA0002428583040000049
的输出细胞状态
Figure FDA00024285830400000410
按照下式计算:
Figure FDA00024285830400000411
其中,
Figure FDA00024285830400000412
为从b到j组成的单词的细胞状态,
Figure FDA00024285830400000413
为从b到j组成的单词的细胞状态的权重,
Figure FDA00024285830400000414
为第j个字的细胞状态的权重,
Figure FDA00024285830400000415
为对应
Figure FDA00024285830400000416
在字处理网络单元中经tanh函数处理后的细胞状态,
Figure FDA00024285830400000417
中,b'代表所有可能的b集合,
Figure FDA00024285830400000418
表示从b'到d组成的词,D表示所规定函数的定义域;
并有:
Figure FDA00024285830400000419
Figure FDA00024285830400000420
上式中,
Figure FDA0002428583040000051
表示表示从b到j组成的词的输入门,
Figure FDA0002428583040000052
表示第j个字的输入门,
Figure FDA0002428583040000053
表示从b″到d组成的词,b″表示所有可能的b'集合。
10.一种采用权利要求1-9任一项语义信息提取方法的语义信息提取装置,其特征是,包括:
语料数据获取模块,被配置用于获取待识别的语料数据;
预处理模块,被配置用于对获取到的语料数据进行预处理,预处理包括将语料数据转换为词向量和/或字向量;
语义信息提取模块,用于将向量转换后的语料信息输入至预先训练的语义信息提取模型,得到命名实体识别结果;所述语义信息提取模型包括双向长短时记忆网络和CRF层网络,其训练样本为已标注字符标签和实体标签的语料数据的向量形式;双向长短时记忆网络的输出为待识别语句中各词中字符映射到标签的概率矩阵,CRF层网络根据双向长短时记忆网络的输出,确定待识别语句的标签序列并输出。
CN202010228609.XA 2020-03-27 2020-03-27 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 Active CN111444726B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010228609.XA CN111444726B (zh) 2020-03-27 2020-03-27 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010228609.XA CN111444726B (zh) 2020-03-27 2020-03-27 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置

Publications (2)

Publication Number Publication Date
CN111444726A true CN111444726A (zh) 2020-07-24
CN111444726B CN111444726B (zh) 2024-02-09

Family

ID=71649114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010228609.XA Active CN111444726B (zh) 2020-03-27 2020-03-27 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置

Country Status (1)

Country Link
CN (1) CN111444726B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015901A (zh) * 2020-09-08 2020-12-01 迪爱斯信息技术股份有限公司 文本分类方法及装置、警情分析系统
CN112101036A (zh) * 2020-09-22 2020-12-18 山东旗帜信息有限公司 一种基于预定义关系的知识联合抽取的方法及装置
CN112215005A (zh) * 2020-10-12 2021-01-12 小红书科技有限公司 实体识别方法及装置
CN112347229A (zh) * 2020-11-12 2021-02-09 润联软件系统(深圳)有限公司 一种答案抽取方法、装置、计算机设备及存储介质
CN112417874A (zh) * 2020-11-16 2021-02-26 珠海格力电器股份有限公司 命名实体的识别方法和装置、存储介质、电子装置
CN112668758A (zh) * 2020-12-15 2021-04-16 山东鲁能软件技术有限公司 一种配电网网格化规划成果的校验方法
CN112733526A (zh) * 2021-01-28 2021-04-30 成都不问科技有限公司 一种自动识别财税文件中征税对象的抽取方法
CN112800764A (zh) * 2020-12-31 2021-05-14 江苏网进科技股份有限公司 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法
CN112826513A (zh) * 2021-01-05 2021-05-25 华中科技大学 一种基于深度学习和特异性矫正在fecg上胎儿心率检测系统
CN112836056A (zh) * 2021-03-12 2021-05-25 南宁师范大学 一种基于网络特征融合的文本分类方法
CN112925995A (zh) * 2021-02-22 2021-06-08 北京百度网讯科技有限公司 获取poi状态信息的方法及装置
CN113095085A (zh) * 2021-03-30 2021-07-09 北京达佳互联信息技术有限公司 文本的情感识别方法、装置、电子设备和存储介质
CN113191150A (zh) * 2021-05-21 2021-07-30 山东省人工智能研究院 一种多特征融合的中文医疗文本命名实体识别方法
CN113221546A (zh) * 2021-06-09 2021-08-06 中国银行股份有限公司 手机银行资讯数据处理方法及装置
CN113297379A (zh) * 2021-05-25 2021-08-24 善诊(上海)信息技术有限公司 一种文本数据多标签分类方法及装置
CN113407672A (zh) * 2021-06-22 2021-09-17 珠海格力电器股份有限公司 一种命名实体识别方法、装置、存储介质及电子设备
CN113536793A (zh) * 2020-10-14 2021-10-22 腾讯科技(深圳)有限公司 一种实体识别方法、装置、设备以及存储介质
CN113591479A (zh) * 2021-07-23 2021-11-02 深圳供电局有限公司 电力计量的命名实体识别方法、装置和计算机设备
CN113705218A (zh) * 2021-09-03 2021-11-26 四川大学 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置
CN113836891A (zh) * 2021-08-31 2021-12-24 北京智谱华章科技有限公司 基于多元标注策略的结构化信息抽取方法和装置
CN114444485A (zh) * 2022-01-24 2022-05-06 四川大学 一种云环境网络设备实体识别方法
CN114510946A (zh) * 2022-04-21 2022-05-17 山东师范大学 基于深度神经网络的中文命名实体识别方法及系统
CN118013962A (zh) * 2024-04-09 2024-05-10 华东交通大学 一种基于双向序列生成的汉语篇章连接词识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180189269A1 (en) * 2016-12-30 2018-07-05 Microsoft Technology Licensing, Llc Graph long short term memory for syntactic relationship discovery
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN110807324A (zh) * 2019-10-09 2020-02-18 四川长虹电器股份有限公司 一种基于IDCNN-crf与知识图谱的影视实体识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180189269A1 (en) * 2016-12-30 2018-07-05 Microsoft Technology Licensing, Llc Graph long short term memory for syntactic relationship discovery
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN110807324A (zh) * 2019-10-09 2020-02-18 四川长虹电器股份有限公司 一种基于IDCNN-crf与知识图谱的影视实体识别方法

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015901A (zh) * 2020-09-08 2020-12-01 迪爱斯信息技术股份有限公司 文本分类方法及装置、警情分析系统
CN112101036A (zh) * 2020-09-22 2020-12-18 山东旗帜信息有限公司 一种基于预定义关系的知识联合抽取的方法及装置
CN112215005A (zh) * 2020-10-12 2021-01-12 小红书科技有限公司 实体识别方法及装置
CN113536793A (zh) * 2020-10-14 2021-10-22 腾讯科技(深圳)有限公司 一种实体识别方法、装置、设备以及存储介质
CN112347229B (zh) * 2020-11-12 2021-07-20 润联软件系统(深圳)有限公司 一种答案抽取方法、装置、计算机设备及存储介质
CN112347229A (zh) * 2020-11-12 2021-02-09 润联软件系统(深圳)有限公司 一种答案抽取方法、装置、计算机设备及存储介质
CN112417874A (zh) * 2020-11-16 2021-02-26 珠海格力电器股份有限公司 命名实体的识别方法和装置、存储介质、电子装置
CN112668758A (zh) * 2020-12-15 2021-04-16 山东鲁能软件技术有限公司 一种配电网网格化规划成果的校验方法
CN112800764B (zh) * 2020-12-31 2023-07-04 江苏网进科技股份有限公司 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法
CN112800764A (zh) * 2020-12-31 2021-05-14 江苏网进科技股份有限公司 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法
CN112826513A (zh) * 2021-01-05 2021-05-25 华中科技大学 一种基于深度学习和特异性矫正在fecg上胎儿心率检测系统
CN112733526A (zh) * 2021-01-28 2021-04-30 成都不问科技有限公司 一种自动识别财税文件中征税对象的抽取方法
CN112733526B (zh) * 2021-01-28 2023-11-17 成都不问科技有限公司 一种自动识别财税文件中征税对象的抽取方法
CN112925995A (zh) * 2021-02-22 2021-06-08 北京百度网讯科技有限公司 获取poi状态信息的方法及装置
US11977574B2 (en) 2021-02-22 2024-05-07 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for acquiring POI state information
CN112925995B (zh) * 2021-02-22 2022-01-28 北京百度网讯科技有限公司 获取poi状态信息的方法及装置
CN112836056A (zh) * 2021-03-12 2021-05-25 南宁师范大学 一种基于网络特征融合的文本分类方法
CN112836056B (zh) * 2021-03-12 2023-04-18 南宁师范大学 一种基于网络特征融合的文本分类方法
CN113095085A (zh) * 2021-03-30 2021-07-09 北京达佳互联信息技术有限公司 文本的情感识别方法、装置、电子设备和存储介质
CN113095085B (zh) * 2021-03-30 2024-04-19 北京达佳互联信息技术有限公司 文本的情感识别方法、装置、电子设备和存储介质
CN113191150A (zh) * 2021-05-21 2021-07-30 山东省人工智能研究院 一种多特征融合的中文医疗文本命名实体识别方法
CN113191150B (zh) * 2021-05-21 2022-02-25 山东省人工智能研究院 一种多特征融合的中文医疗文本命名实体识别方法
CN113297379A (zh) * 2021-05-25 2021-08-24 善诊(上海)信息技术有限公司 一种文本数据多标签分类方法及装置
CN113221546A (zh) * 2021-06-09 2021-08-06 中国银行股份有限公司 手机银行资讯数据处理方法及装置
CN113407672A (zh) * 2021-06-22 2021-09-17 珠海格力电器股份有限公司 一种命名实体识别方法、装置、存储介质及电子设备
CN113591479A (zh) * 2021-07-23 2021-11-02 深圳供电局有限公司 电力计量的命名实体识别方法、装置和计算机设备
CN113836891A (zh) * 2021-08-31 2021-12-24 北京智谱华章科技有限公司 基于多元标注策略的结构化信息抽取方法和装置
CN113705218B (zh) * 2021-09-03 2023-03-21 四川大学 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置
CN113705218A (zh) * 2021-09-03 2021-11-26 四川大学 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置
CN114444485A (zh) * 2022-01-24 2022-05-06 四川大学 一种云环境网络设备实体识别方法
CN114510946B (zh) * 2022-04-21 2022-08-23 山东师范大学 基于深度神经网络的中文命名实体识别方法及系统
CN114510946A (zh) * 2022-04-21 2022-05-17 山东师范大学 基于深度神经网络的中文命名实体识别方法及系统
CN118013962A (zh) * 2024-04-09 2024-05-10 华东交通大学 一种基于双向序列生成的汉语篇章连接词识别方法

Also Published As

Publication number Publication date
CN111444726B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN111444726A (zh) 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置
CN108874782B (zh) 一种层次注意力lstm和知识图谱的多轮对话管理方法
CN110287481B (zh) 命名实体语料标注训练系统
CN110807320B (zh) 基于cnn双向gru注意力机制的短文本情感分析方法
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN109003601A (zh) 一种针对低资源土家语的跨语言端到端语音识别方法
CN110083831A (zh) 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN111046670B (zh) 基于毒品案件法律文书的实体及关系联合抽取方法
CN109800411A (zh) 临床医疗实体及其属性抽取方法
CN106980609A (zh) 一种基于词向量表示的条件随机场的命名实体识别方法
CN108519890A (zh) 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN111241294A (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN109284400A (zh) 一种基于Lattice LSTM和语言模型的命名实体识别方法
CN112115238A (zh) 一种基于bert和知识库的问答方法和系统
CN111914556B (zh) 基于情感语义转移图谱的情感引导方法及系统
CN112115721A (zh) 一种命名实体识别方法及装置
CN111325029A (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN113505209A (zh) 一种面向汽车领域的智能问答系统
CN112163429B (zh) 结合循环网络及bert的句子相关度获取方法、系统及介质
CN110991185A (zh) 一种文章中实体的属性抽取方法及装置
CN110009025A (zh) 一种用于语音测谎的半监督加性噪声自编码器
CN109033073B (zh) 基于词汇依存三元组的文本蕴含识别方法及装置
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN113673254A (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN115510864A (zh) 一种融合领域词典的中文农作物病虫害命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant