CN114004231A - 一种中文专词抽取方法、系统、电子设备及存储介质 - Google Patents

一种中文专词抽取方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN114004231A
CN114004231A CN202111257220.9A CN202111257220A CN114004231A CN 114004231 A CN114004231 A CN 114004231A CN 202111257220 A CN202111257220 A CN 202111257220A CN 114004231 A CN114004231 A CN 114004231A
Authority
CN
China
Prior art keywords
chinese
vocabulary
document data
model
special
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111257220.9A
Other languages
English (en)
Inventor
王梦婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Nuonuo Network Technology Co ltd
Original Assignee
Zhejiang Nuonuo Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Nuonuo Network Technology Co ltd filed Critical Zhejiang Nuonuo Network Technology Co ltd
Priority to CN202111257220.9A priority Critical patent/CN114004231A/zh
Publication of CN114004231A publication Critical patent/CN114004231A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种中文专词抽取方法,所述中文专词抽取方法包括:获取中文文档数据,并对中文文档数据进行预处理和专词标注得到训练语料数据集;拼接嵌入层特征、词汇层特征和句子层特征得到中文文档数据的词汇特征表示;根据词汇特征表示构建BiLSTM模型和文档图;利用BiLSTM模型和文档图构建专词抽取框架模型;将训练语料数据集输入专词抽取框架模型进行训练;若接收到未知中文文档数据,则利用训练后的专词抽取框架模型抽取未知中文文档数据中的中文专词。本申请能够降低中文专词的抽取误差,提高实体识别精准度。本申请还公开了一种中文专词抽取系统、一种存储介质及一种电子设备,具有以上有益效果。

Description

一种中文专词抽取方法、系统、电子设备及存储介质
技术领域
本申请涉及信息抽取和自然语言理解领域,特别涉及一种中文专词抽取方法、系统、一种存储介质及一种存储介质。
背景技术
信息抽取(information extraction),简称IE,即从自然语言文本中抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构,这些信息通常包括实体(entity)、关系(relation)、事件(event)。相对应,信息抽取主要包括三个子任务:关系抽取(RE)、命名实体识别(NER)和事件抽取(EE)。
命名实体识别(Named Entity Recognition),简称NER,是指识别文本中具有特定意义的专有名词的边界和类别,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。命名实体识别是文本处理中的基础技术,广泛应用在自然语言处理、推荐系统、知识图谱等领域。命名实体识别过程中需要抽取特定的词汇,对于特殊领域的数据集,引入垂直领域中的专词(专词词汇)信息对于提升实体识别效率极其重要。一般引入词汇信息的方法就是先对数据集中的中文句子进行分词处理,然后基于字符和词汇进行建模训练,这种方法的效果反而比基于字符的方法的效果差,因为分词过程中会产生分错词的误差,该误差会传递到模型中。
因此,如何降低中文专词的抽取误差,提高实体识别精准度是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种中文专词抽取方法、系统、一种电子设备及一种存储介质,能够降低中文专词的抽取误差,提高实体识别精准度。
为解决上述技术问题,本申请提供一种中文专词抽取方法,该中文专词抽取方法包括:
获取中文文档数据,并对所述中文文档数据进行预处理和专词标注得到训练语料数据集;
分别提取所述中文文档数据的嵌入层特征、词汇层特征和句子层特征,拼接所述嵌入层特征、所述词汇层特征和所述句子层特征得到所述中文文档数据的词汇特征表示;
根据所述词汇特征表示构建BiLSTM模型和文档图;
利用所述BiLSTM模型和所述文档图构建专词抽取框架模型;其中,所述专词抽取框架模型的编辑器为所述文档图,解码器为CRF;
将所述训练语料数据集输入所述专词抽取框架模型进行训练;
若接收到未知中文文档数据,则利用训练后的所述专词抽取框架模型抽取所述未知中文文档数据中的中文专词。
可选的,对所述中文文档数据进行预处理和专词标注得到训练语料数据集,包括:
对所述中文文档数据进行预处理;
采用BIO标注方式对预处理后的所述中文文档数据进行专词标注;
按照预设比例将专词标注后的中文文档数据划分为所述训练语料数据集和测试语料数据集。
可选的,在将所述训练语料数据集输入所述专词抽取框架模型进行训练之后,还包括:
利用所述测试数据对训练后的专词抽取框架模型进行校验,得到模型评估结果。
可选的,提取所述中文文档数据的嵌入层特征,包括:
构建词嵌入概率模型,利用所述词嵌入概率模型获取所述中文文档数据的嵌入层特征。
可选的,提取所述中文文档数据的词汇层特征,包括:
基于专词词表构建flat_lattice结构,并建立所述flat_lattice结构对应的词汇相对位置编码矩阵;
根据所述词汇相对位置编码矩阵构建XLNet注意力网络层;
利用所述XLNet注意力网络层提取所述中文文档数据的词汇层特征。
可选的,提取所述中文文档数据的句子层特征,包括:
在所述中文文档数据中按照预设句子窗口融合上下文句子信息的特征,得到所述中文文档数据的句子层特征。
可选的,根据所述词汇特征表示构建BiLSTM模型和文档图,包括:
根据所述词汇特征表示构建BiLSTM模型,以便得到局部信息增强后的词汇特征表示;
以词汇为节点、句子间是否出现实体作为建立邻边的判断标准,构建所述中文文档数据对应的初始文档图,利用所述词汇特征表示训练所述初始文档图得到所述文档图,以便得到全局信息增强后的词汇特征表示。
本申请还提供了一种中文专词抽取系统,该系统包括:
标注模块,用于获取中文文档数据,并对所述中文文档数据进行预处理和专词标注得到训练语料数据集;
特征提取模块,用于分别提取所述中文文档数据的嵌入层特征、词汇层特征和句子层特征,拼接所述嵌入层特征、所述词汇层特征和所述句子层特征得到所述中文文档数据的词汇特征表示;
模型构建模块,用于根据所述词汇特征表示构建BiLSTM模型和文档图;还用于利用所述BiLSTM模型和所述文档图构建专词抽取框架模型;其中,所述专词抽取框架模型的编辑器为所述文档图,解码器为CRF;
训练模块,用于将所述训练语料数据集输入所述专词抽取框架模型进行训练;
专词抽取模块,用于若接收到未知中文文档数据,则利用训练后的所述专词抽取框架模型抽取所述未知中文文档数据中的中文专词。
本申请还提供了一种存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述中文专词抽取方法执行的步骤。
本申请还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述中文专词抽取方法执行的步骤。
本申请提供了一种中文专词抽取方法,其特征在于,包括:获取中文文档数据,并对所述中文文档数据进行预处理和专词标注得到训练语料数据集;分别提取所述中文文档数据的嵌入层特征、词汇层特征和句子层特征,拼接所述嵌入层特征、所述词汇层特征和所述句子层特征得到所述中文文档数据的词汇特征表示;根据所述词汇特征表示构建BiLSTM模型和文档图;利用所述BiLSTM模型和所述文档图构建专词抽取框架模型;其中,所述专词抽取框架模型的编辑器为所述文档图,解码器为CRF;将所述训练语料数据集输入所述专词抽取框架模型进行训练;若接收到未知中文文档数据,则利用训练后的所述专词抽取框架模型抽取所述未知中文文档数据中的中文专词。
本申请提取中文文档数据的嵌入层特征、词汇层特征和句子层特征,然后将中文文档数据的嵌入层特征、词汇层特征和句子层特征拼接得到中文文档数据的词汇特征表示,进而利用词汇特征表示构建BiLSTM模型和文档图,BiLSTM模型能够对词汇特征进行局部信息增强,文档图能够对词汇特征进行全局信息增强。利用BiLSTM模型和文档图构建的专词抽取框架模型能够获取全局的语义理解,本申请能够降低中文专词的抽取误差,提高实体识别精准度。本申请同时还提供了一种中文专词抽取系统、一种存储介质和一种电子设备,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种中文专词抽取方法的流程图;
图2为本申请实施例所提供的一种基于文档级全局信息的中文专词抽取流程图;
图3为本申请实施例所提供的一种基于文档建模的特征提取方法的流程图;
图4为本申请实施例所提供的一种基于图神经网络的中文专词抽取的流程图;
图5为本申请实施例所提供的一种中文专词抽取系统的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面请参见图1,图1为本申请实施例所提供的一种中文专词抽取方法的流程图。
具体步骤可以包括:
S101:获取中文文档数据,并对所述中文文档数据进行预处理和专词标注得到训练语料数据集;
其中,中文文档数据中可以包括多个中文句子,在得到中问文档数据之后,可以对中文文档数据进行预处理。上述预处理可以包括去除中文文档数据中的重复句子、标点符号等操作。本步骤还可以对预处理后的中文文档数据进行专词标注得到训练语料数据集。上述专此标注指对文档中的专业词汇进行标注的操作,专业词汇指特定领域下的一些词语,本实施例可以提供专业词汇表。例如服务器专业词汇表中的专词包括:迁移、宕机、高可用、上电等。
具体的,本步骤可以对所述中文文档数据进行预处理;采用BIO标注方式对预处理后的所述中文文档数据进行专词标注;按照预设比例将专词标注后的中文文档数据划分为所述训练语料数据集和测试语料数据集。训练语料数据集用于对专词抽取框架模型进行训练,测试语料数据集用于对专词抽取框架模型的训练效果进行检测。
S102:分别提取所述中文文档数据的嵌入层特征、词汇层特征和句子层特征,拼接所述嵌入层特征、所述词汇层特征和所述句子层特征得到所述中文文档数据的词汇特征表示;
其中,本实施例可以通过以下方式提取嵌入层特征:构建词嵌入概率模型,利用所述词嵌入概率模型获取所述中文文档数据的嵌入层特征。本实施例可以通过以下方式提取词汇层特征:基于专词词表构建flat_lattice结构,并建立所述flat_lattice结构对应的词汇相对位置编码矩阵;根据所述词汇相对位置编码矩阵构建XLNet注意力网络层;利用所述XLNet注意力网络层提取所述中文文档数据的词汇层特征。本实施例可以通过以下方式提取句子层特征:在所述中文文档数据中按照预设句子窗口融合上下文句子信息的特征,得到所述中文文档数据的句子层特征。
在得到嵌入层特征、词汇层特征和句子层特征的基础上,本实施例可以拼接嵌入层特征、词汇层特征和句子层特征得到中文文档数据的词汇特征表示。
S103:根据所述词汇特征表示构建BiLSTM模型和文档图;
其中,本实施例可以根据所述词汇特征表示构建BiLSTM模型,以便得到局部信息增强后的词汇特征表示;以词汇为节点、句子间是否出现实体作为建立邻边的判断标准,构建所述中文文档数据对应的初始文档图,利用所述词汇特征表示训练所述初始文档图得到所述文档图,以便得到全局信息增强后的词汇特征表示。
S104:利用所述BiLSTM模型和所述文档图构建专词抽取框架模型;
其中,所述专词抽取框架模型的编辑器为所述文档图,解码器为CRF(ConditionalRandom Fields,条件随机场),本实施例可以将文档图作为编码器。
S105:将所述训练语料数据集输入所述专词抽取框架模型进行训练;
其中,在将所述训练语料数据集输入所述专词抽取框架模型进行训练之后,还可以利用所述测试数据对训练后的专词抽取框架模型进行校验,得到模型评估结果。
S106:若接收到未知中文文档数据,则利用训练后的所述专词抽取框架模型抽取所述未知中文文档数据中的中文专词。
其中,未知中文文档数据为未抽取专词的中文文档,在接收到未知中文文档数据之后,可以将未知中文文档数据输入训练后的所述专词抽取框架模型,得到未知中文文档数据中的中文专词。在得到中文专词之后,可以进行实体识别,进而利用对话系统根据实体识别结果输出对应的答复内容。
本实施例提取中文文档数据的嵌入层特征、词汇层特征和句子层特征,然后将中文文档数据的嵌入层特征、词汇层特征和句子层特征拼接得到中文文档数据的词汇特征表示,进而利用词汇特征表示构建BiLSTM模型和文档图,BiLSTM模型能够对词汇特征进行局部信息增强,文档图能够对词汇特征进行全局信息增强。利用BiLSTM模型和文档图构建的专词抽取框架模型能够获取全局的语义理解,本实施例能够降低中文专词的抽取误差,提高实体识别精准度。
下面通过在实际应用中的实施例说明上述实施例描述的流程。
NER技术主要通过序列标注问题建模实现,包括实体标注和实体识别。不同的数据集可能采用不同的实体标注方法,最常见的标注方法有BIO,BIOES,BIOES+,Markup。实体识别方法按照发展历程主要分为四大类:(1)基于规则的方法,例如词典和规则模板等;(2)基于机器学习的方法,例如隐马尔可夫模型(Hidden Markov Model,HMM),最大熵马尔可夫(Maxmium Entropy Markov Model MEMM),最大熵(MaxmiumEntropy,ME),支持向量机(Support Vector Machine,SVM)、无向图条件随机场(Conditional RandomFields,CRF)等;(3)基于深度学习的方法,例如BiLSTM-CRF,BiLSTM-CNN-CRF等;(4)基于注意力机制的方法,例如Transformer-CRF,BERT-CRF等。
目前主流热门方法为基于注意力机制的方法,通常是基于单一句子进行序列标注建模,即在构建词汇特征时只考虑句子内部上下文结构信息以及句子内词汇语义信息。这样对于在文档级专词抽取场景下可能会损失全局信息,因为该类方法没有充分考虑到句子间的信息,例如相邻句子的结构或语义一般具有高度相似性,即可能存在相同类型的实体,反之也成立,如果出现相同类型的实体,那么这两句文本在语义上具有高度相似性。其次,该类方法同样没有考虑到词汇内部词嵌入层面的分布式结构信息。此外,对于特殊领域的数据集,引入垂直领域中的专词词汇信息对于提升实体识别效率极其重要。一般引入词汇信息的方法就是先对数据集中的中文句子进行分词处理,然后基于字符和词汇进行建模训练,这种方法的效果反而比基于字符的方法的效果差,因为分词过程中会产生分错词的误差,该误差会传递到模型中。另一种引入词汇信息的方法是建立词向量或者词汇列表,即利用一个具备良好分词结果的词向量,或者利用词汇和实体边界信息,通过图网络提取相关信息。这种方法主要有两种模式,一个是设计一个动态抽取框架,能够兼容词汇输入,另一种是基于词汇信息构建自适应词嵌入,与模型框架无关。
请参见图2,图2为本申请实施例所提供的一种基于文档级全局信息的中文专词抽取流程图,具体实施步骤如下:
步骤1:获取中文特定领域的文档数据,并进行数据预处理和标注获得训练和测试数据集。
步骤2:基于原始数据集,通过文档的三个层面进行全局建模,获得相应的特征表示。全局建模指的是基于一个文档建模,而不是对文档中单个句子或者单个词汇建模。
步骤3:基于特征表示,构建BiLSTM模型和文档图,进行局部和全局信息增强。
步骤4:构建基于全局图神经网络为编码器,CRF为解码器的专词抽取框架。
步骤5:将训练数据输入模型进行训练,保存模型。
步骤6:将测试数据输入模型进行模型校验,得到模型评估结果。
上述实施例提出了一种基于文档建模的特征提取方法,该方法主要融合了三个维度建模信息,即词嵌入层,词汇层和句子层面:在词嵌入层通过词汇窗口h直接训练概率模型获得浓度为k的具有分布式感知信息的词嵌入特征表示;在词汇层则通过引入中文flat-lattice结构进行中文词汇增强,然后通过XLNet注意力层,获得最后的词汇层特征表示;在句子层面,则通过句子窗口k构建当前句子的相邻句子特征表示,然后通过门控机制融合到当前句子的特征中。本实施例提出了一种基于图神经网络的中文专词抽取方法,该方法首先经过BiLSTM模型进行局部信息增强,以此特征表示为基础实体为节点,不同句子间是否出现相同实体为邻边,构建文档图,该文档图可以对模型进行全局信息增强,最后通过全局图神经网络进行计算,并通过CRF进行解码,该方法比基于单一句子和注意力机制的方法具有更全局的语义理解,同时具有更高的实体识别精确度。
作为对于上述实施例的进一步介绍,步骤1可以包括以下步骤:
步骤1.1:获取中文特定领域下的原始文档数据,本发明中使用电票场景下的数据,并对数据进行预处理。
步骤1.2:采用BIO标注方式对数据进行专词标注,B表示专词起始,I表示专词,O表示非专词。
步骤1.3:将数据集以9∶1比例划分为训练和测试语料数据集。
作为对于上述实施例的进一步介绍,步骤2可以包括以下步骤:
步骤2.1:对词嵌入层进行建模特征提取。
嵌入层特征提取通过直接训练概率模型来获得分布式感知信息。其中,概率分布模型假设词嵌入层向量数据是以vMF分布状态呈现,训练损失计算如下:
Figure BDA0003324277060000091
Figure BDA0003324277060000092
以上公式中,L表示损失函数,ei表示当前词嵌入向量,ei+j表示相邻词嵌入向量,k和v为vMF分布的参数,分别为浓度系数k和均值向量v;v为最终获得的词嵌入表示。P为概率符号,D为所有词汇向量集合,h为滑动窗口,exp为以e为底的指数函数,u为训练参数,w为词汇,w’为某个词汇,T为向量转置操作。
步骤2.2:词汇层特征提取方式主要包括提取flat_lattice结构和XLNet注意力网络搭建;
lat_lattice结构是FLAT模型中将中文Lattice结构扁平化,以便于适用于注意力网络;基于专词词表构建flat_lattice结构,同时建立对应词汇的相对位置编码矩阵;基于lattice结构的相对位置编码构建XLNet注意力网络层,计算方式如下所示:
Figure BDA0003324277060000093
Figure BDA0003324277060000094
Figure BDA0003324277060000095
vj=(xj+pj)WV
XLNet注意力网络层就是基于XLNet相对位置编码方式的自注意机制网络,能够充分获取到词汇之间的相互关系,以上公式中u和v为可以训练的向量参数,wi表示第i个词汇经过注意力计算后的向量表示,其中ai,j表示第i个词汇与第j个词汇之间的注意力分,即相关性;WQ,WK,WV为可训练的矩阵参数,
Figure BDA0003324277060000101
表示相对位置表示矩阵R中关于位置i的token与位置j的token的相对距离,Pi表示位置j上的token的绝对位置向量。
步骤2.3:句子层特征提取方式主要通过融合相邻句子和当前句子的特征来实现。
为了模型后续的可扩展性,设置句子窗口f来表示相邻句子数量,为了降低模型复杂性,此处f取值2,即取当前句子前2条相邻句子作为前文信息特征,后2条相邻句子作为后文信息特征。
通过计算与当前句子的关联度得分,获得最后融合上下文句子信息的特征表示,计算公式如下所示,其中sp,f表示最后融合特征,si表示当前句子特征,sp和sf分别表示前一句特征和后一句特征,wT
Figure BDA0003324277060000102
Figure BDA0003324277060000103
均为可训练参数矩阵,σ为激活函数,b为偏置向量:
sp,f=softmax(f(si,sp))sp+softmax(f(si,sf))
Figure BDA0003324277060000104
将上下文句子特征与当前句子特征通过门控机制融合在一起,获得最终词汇特征表示:
si=λ·si+(1-λ)·sp,f
Figure BDA0003324277060000105
以上公式中,λ作为门控参数控制当前句子和相邻上下句子的融合强度,
Figure BDA0003324277060000106
Figure BDA0003324277060000107
为三个可以训练的参数矩阵,下标g表示门控gate参数λ的训练参数,最后,将步骤2.1获得的词嵌入特征表示ei,步骤2.2获得的词汇特征表示Wi,以及步骤2.3获得的句子特征表示Si,以拼接的方式融合为最终的词汇特征表示。
请参见图3,图3为本申请实施例所提供的一种基于文档建模的特征提取方法的流程图,基于文档建模的特征提取模块主要是在三个层面进行建模特征提取,分别是词嵌入层,词汇层,句子层,其中词嵌入层通过直接训练概率模型来获取相应浓度的特征表示,词汇层面则通过引入flat-lattice结构进行词汇增强,然后通过XLNet注意力层充分融合词汇间的相对位置信息,而句子层则通过特定窗口大小的上下文关系来对相邻句子进行建模,最后基于门控机制来融合到当前句子表示中。
请参见图4,图4为本申请实施例所提供的一种基于图神经网络的中文专词抽取的流程图,该方法主要分为三个步骤,首先通过BiLSTM模型和构建文档图的形式进行局部和全局信息增强,然后通过全局GNN进行编码,最后通过CRF进行标签解码。作为对于上述实施例的进一步介绍,步骤3可以包括以下步骤:
步骤3.1:基于步骤2提取的特征表示,构建BiLSTM模型,获得局部信息增强后的特征表示hi
步骤3.2:以词汇作为节点,句子间是否出现相同实体作为建立邻边的判断标准,构建对应文档样本的文档图GD={VD,ED},其中VD表示节点集合,ED表示邻边集合;
步骤3.3:基于文档图,计算经过全局信息增强后的特征表示ai,公式如下所示,N(i)表示当前节点所有相邻的节点集合,Wa和ba为可训练参数:
Figure BDA0003324277060000111
本实施例可以构建基于全局GNN网络(即文档图)为编码器,CRF为解码器的专词抽取框架模型;将训练数据输入模型进行训练,保存模型。
作为对于上述实施例的进一步介绍,评价指标包括精确率,召回率和综合评价指标F1,计算方式如下所示,其中,TP表示正样本被预测为正样本,FP表示负样本被预测为正样本,FN表示正样本被预测为负样本。
P(精确率)=TP/(TP+FP);
R(召回率)=TP/(TP+FN);
F1(综合评价指标)=2PR/(P+R)。
本实施例可以作为很多上层应用的底层支持,例如专业领域智能客服进行文档问答的时候,基于文档抽取到的实体,可以准确捕获到用户的意向,另外例如构建特定领域的知识图谱的时候,很多公司内部资料均为文档级,这里就需要基于文档级别的资料进行实体和实体间的关系抽取。
请参见图5,图5为本申请实施例所提供的一种中文专词抽取系统的结构示意图,该系统可以包括:
标注模块501,用于获取中文文档数据,并对所述中文文档数据进行预处理和专词标注得到训练语料数据集;
特征提取模块502,用于分别提取所述中文文档数据的嵌入层特征、词汇层特征和句子层特征,拼接所述嵌入层特征、所述词汇层特征和所述句子层特征得到所述中文文档数据的词汇特征表示;
模型构建模块503,用于根据所述词汇特征表示构建BiLSTM模型和文档图;还用于利用所述BiLSTM模型和所述文档图构建专词抽取框架模型;其中,所述专词抽取框架模型的编辑器为所述文档图,解码器为CRF;
训练模块504,用于将所述训练语料数据集输入所述专词抽取框架模型进行训练;
专词抽取模块505,用于若接收到未知中文文档数据,则利用训练后的所述专词抽取框架模型抽取所述未知中文文档数据中的中文专词。
本实施例提取中文文档数据的嵌入层特征、词汇层特征和句子层特征,然后将中文文档数据的嵌入层特征、词汇层特征和句子层特征拼接得到中文文档数据的词汇特征表示,进而利用词汇特征表示构建BiLSTM模型和文档图,BiLSTM模型能够对词汇特征进行局部信息增强,文档图能够对词汇特征进行全局信息增强。利用BiLSTM模型和文档图构建的专词抽取框架模型能够获取全局的语义理解,本实施例能够降低中文专词的抽取误差,提高实体识别精准度。
进一步的,标注模块501,用于对所述中文文档数据进行预处理;还用于采用BIO标注方式对预处理后的所述中文文档数据进行专词标注;还用于按照预设比例将专词标注后的中文文档数据划分为所述训练语料数据集和测试语料数据集。
进一步的,还包括:
评估模块,用于在将所述训练语料数据集输入所述专词抽取框架模型进行训练之后,利用所述测试数据对训练后的专词抽取框架模型进行校验,得到模型评估结果。
进一步的特征提取模块502包括:
嵌入层特征提取单元,用于构建词嵌入概率模型,利用所述词嵌入概率模型获取所述中文文档数据的嵌入层特征;
词汇层特征提取模块,用于基于专词词表构建flat_lattice结构,并建立所述flat_lattice结构对应的词汇相对位置编码矩阵;还用于根据所述词汇相对位置编码矩阵构建XLNet注意力网络层;还用于利用所述XLNet注意力网络层提取所述中文文档数据的词汇层特征;
句子层特征提取模块,用于在所述中文文档数据中按照预设句子窗口融合上下文句子信息的特征,得到所述中文文档数据的句子层特征。
进一步的,模型构建模块503用于根据所述词汇特征表示构建BiLSTM模型,以便得到局部信息增强后的词汇特征表示;还用于以词汇为节点、句子间是否出现实体作为建立邻边的判断标准,构建所述中文文档数据对应的初始文档图,利用所述词汇特征表示训练所述初始文档图得到所述文档图,以便得到全局信息增强后的词汇特征表示。
由于系统部分的实施例与方法部分的实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本申请还提供了一种存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还提供了一种电子设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种中文专词抽取方法,其特征在于,包括:
获取中文文档数据,并对所述中文文档数据进行预处理和专词标注得到训练语料数据集;
分别提取所述中文文档数据的嵌入层特征、词汇层特征和句子层特征,拼接所述嵌入层特征、所述词汇层特征和所述句子层特征得到所述中文文档数据的词汇特征表示;
根据所述词汇特征表示构建BiLSTM模型和文档图;
利用所述BiLSTM模型和所述文档图构建专词抽取框架模型;其中,所述专词抽取框架模型的编辑器为所述文档图,解码器为CRF;
将所述训练语料数据集输入所述专词抽取框架模型进行训练;
若接收到未知中文文档数据,则利用训练后的所述专词抽取框架模型抽取所述未知中文文档数据中的中文专词。
2.根据权利要求1所述中文专词抽取方法,其特征在于,对所述中文文档数据进行预处理和专词标注得到训练语料数据集,包括:
对所述中文文档数据进行预处理;
采用BIO标注方式对预处理后的所述中文文档数据进行专词标注;
按照预设比例将专词标注后的中文文档数据划分为所述训练语料数据集和测试语料数据集。
3.根据权利要求2所述中文专词抽取方法,其特征在于,在将所述训练语料数据集输入所述专词抽取框架模型进行训练之后,还包括:
利用所述测试数据对训练后的专词抽取框架模型进行校验,得到模型评估结果。
4.根据权利要求1所述中文专词抽取方法,其特征在于,提取所述中文文档数据的嵌入层特征,包括:
构建词嵌入概率模型,利用所述词嵌入概率模型获取所述中文文档数据的嵌入层特征。
5.根据权利要求1所述中文专词抽取方法,其特征在于,提取所述中文文档数据的词汇层特征,包括:
基于专词词表构建flat_lattice结构,并建立所述flat_lattice结构对应的词汇相对位置编码矩阵;
根据所述词汇相对位置编码矩阵构建XLNet注意力网络层;
利用所述XLNet注意力网络层提取所述中文文档数据的词汇层特征。
6.根据权利要求1所述中文专词抽取方法,其特征在于,提取所述中文文档数据的句子层特征,包括:
在所述中文文档数据中按照预设句子窗口融合上下文句子信息的特征,得到所述中文文档数据的句子层特征。
7.根据权利要求1至6任一项所述中文专词抽取方法,其特征在于,根据所述词汇特征表示构建BiLSTM模型和文档图,包括:
根据所述词汇特征表示构建BiLSTM模型,以便得到局部信息增强后的词汇特征表示;
以词汇为节点、句子间是否出现实体作为建立邻边的判断标准,构建所述中文文档数据对应的初始文档图,利用所述词汇特征表示训练所述初始文档图得到所述文档图,以便得到全局信息增强后的词汇特征表示。
8.一种中文专词抽取装置,其特征在于,包括:
标注模块,用于获取中文文档数据,并对所述中文文档数据进行预处理和专词标注得到训练语料数据集;
特征提取模块,用于分别提取所述中文文档数据的嵌入层特征、词汇层特征和句子层特征,拼接所述嵌入层特征、所述词汇层特征和所述句子层特征得到所述中文文档数据的词汇特征表示;
模型构建模块,用于根据所述词汇特征表示构建BiLSTM模型和文档图;还用于利用所述BiLSTM模型和所述文档图构建专词抽取框架模型;其中,所述专词抽取框架模型的编辑器为所述文档图,解码器为CRF;
训练模块,用于将所述训练语料数据集输入所述专词抽取框架模型进行训练;
专词抽取模块,用于若接收到未知中文文档数据,则利用训练后的所述专词抽取框架模型抽取所述未知中文文档数据中的中文专词。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1至7任一项所述中文专词抽取方法的步骤。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至7任一项所述中文专词抽取方法的步骤。
CN202111257220.9A 2021-10-27 2021-10-27 一种中文专词抽取方法、系统、电子设备及存储介质 Pending CN114004231A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111257220.9A CN114004231A (zh) 2021-10-27 2021-10-27 一种中文专词抽取方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111257220.9A CN114004231A (zh) 2021-10-27 2021-10-27 一种中文专词抽取方法、系统、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114004231A true CN114004231A (zh) 2022-02-01

Family

ID=79924386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111257220.9A Pending CN114004231A (zh) 2021-10-27 2021-10-27 一种中文专词抽取方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114004231A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330354A (zh) * 2022-03-02 2022-04-12 杭州海康威视数字技术股份有限公司 一种基于词汇增强的事件抽取方法、装置及存储介质
CN114611521A (zh) * 2022-04-13 2022-06-10 国家电网有限公司大数据中心 一种实体识别方法、装置、设备及存储介质
CN116502634A (zh) * 2023-04-14 2023-07-28 永中软件股份有限公司 一种基于人工智能的专有名词校对方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330354A (zh) * 2022-03-02 2022-04-12 杭州海康威视数字技术股份有限公司 一种基于词汇增强的事件抽取方法、装置及存储介质
CN114611521A (zh) * 2022-04-13 2022-06-10 国家电网有限公司大数据中心 一种实体识别方法、装置、设备及存储介质
CN114611521B (zh) * 2022-04-13 2024-04-09 国家电网有限公司大数据中心 一种实体识别方法、装置、设备及存储介质
CN116502634A (zh) * 2023-04-14 2023-07-28 永中软件股份有限公司 一种基于人工智能的专有名词校对方法

Similar Documents

Publication Publication Date Title
CN111783474B (zh) 一种评论文本观点信息处理方法、装置及存储介质
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN114004231A (zh) 一种中文专词抽取方法、系统、电子设备及存储介质
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN110309282B (zh) 一种答案确定方法及装置
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN111563384A (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN113158674B (zh) 一种人工智能领域文档关键信息抽取方法
CN115374786A (zh) 实体和关系联合抽取方法及装置、存储介质和终端
CN113254581B (zh) 一种基于神经语义解析的金融文本公式抽取方法及装置
CN112183060B (zh) 多轮对话系统的指代消解方法
CN113486174A (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN116562295A (zh) 一种面向桥梁领域文本的增强语义命名实体识别方法
CN116467417A (zh) 问题答案的生成方法、装置、设备及存储介质
CN116127013A (zh) 一种个人敏感信息知识图谱查询方法和装置
CN116304014A (zh) 训练实体类型识别模型的方法、实体类型识别方法及装置
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN115630652A (zh) 客服会话情感分析系统、方法及计算机系统
CN114611489A (zh) 文本逻辑条件抽取ai模型构建方法、抽取方法及系统
CN113012685B (zh) 音频识别方法、装置、电子设备及存储介质
CN114357164A (zh) 情感-原因对抽取方法、装置、设备及可读存储介质
CN115600580B (zh) 文本匹配方法、装置、设备及存储介质
CN117573845B (zh) 一种面向跨领域人机协同作业的机器人自然语言理解方法
CN116108186B (zh) 一种多模态方面级情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination