CN111091002B - 一种中文命名实体的识别方法 - Google Patents
一种中文命名实体的识别方法 Download PDFInfo
- Publication number
- CN111091002B CN111091002B CN201911173134.2A CN201911173134A CN111091002B CN 111091002 B CN111091002 B CN 111091002B CN 201911173134 A CN201911173134 A CN 201911173134A CN 111091002 B CN111091002 B CN 111091002B
- Authority
- CN
- China
- Prior art keywords
- ner
- learning
- dataset
- task
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种中文命名实体的识别方法,其特点是采用CWS和POS标签信息用于单词关系推断,通过对抗学习中包含的NER、CWS和POS标记任务中提取与实体边界有关的公共信息,以及多任务学习把NER、CWS和POS三个任务放在一起训练,其中每个任务都含有多个自我注意力机制的组件,以便从各种嵌入中提取特定任务的特定信息,并将该信息与从对抗学习中获得的通用信息进行适当组合来识别实体。本发明与现有技术相比具有为中文里面的实体识别和应用工作提供了一个新的解决方案,方法简便,效率高。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其是一种具有多任务对抗学习和自我注意能力机制的中文命名实体的识别方法。
背景技术
命名实体识别(NER)是初步且重要的自然语言处理(NLP)中的任务,NER任务的主要目的是从非结构化文本中识别人的名字,地点,组织和日期等作为实体。许多下游NLP任务或应用程序都依赖NER进行信息提取,例如问题回答,关系提取,事件提取和实体链接等等。NER任务可视为序列标记任务,众所周知,由于难以确定实体边界,因此从非结构化文本中识别命名实体具有挑战性。识别中文命名实体更加困难,因为句子中包含的中文字符不会用空格隔开,并且中文中没有明确的单词边界。人们通常应先执行中文分词(CWS)来确定单词边界,然后再执行其他中文文本处理任务。而且,中文实体可能由多个分词组成,同时确定多个分词属于一个实体是不简单的,因为很难确定这之间的关系。因此,对于中国的NER而言,至关重要的是,使用其他信息来帮助确定实体边界,利用CWS信息可以帮助识别单词边界,而采用与分段单词关系有关的信息可以帮助将紧密相关的单词正确地分在一起以进行实体识别。对句子进行句法分析可以为将分段单词固定在一起提供有效的信息,但是通常很难获得高度精确的句法分析结果,词性(POS)标记信息很容易获得,可以用来推断连续词的语义关系。
NER、CWS和POS标记任务包含一些特定于任务的信息和一些任务共享的信息,这些信息都很有帮助用于确定实体边界。例如,NER任务将从句子“美丽生态是上市公司”中识别“美丽生态”为实体,这将被视为两个独立的实体在CWS和POS标记任务中使用“美丽”和“生态”两个词,而这三个任务将为“是”,“列出”和“公司”标识相同的边界。将单词“美丽”与单词“生态”关联为“组织”实体需要捕获它们之间的依赖关系。“建造美丽生态城市”一句中不应将“美丽”和“生态”视为实体。
现有技术的统计模型不能显式地对远程依赖性进行建模,并且基于BiLSTM的模型(即双向长期短期内存),即使可以对远程依赖性进行建模,也无法直接关联两个字符。
发明内容
本发明的目的是针对现有技术的不足而设计的一种中文命名实体的识别方法,采用对抗式多任务学习的NER模型,以集成CWS和POS标记中文NER的信息用于单词关系推断方法,在多任务对抗学习的基础上,结合中文分词和词性(POS)标签信息与经典BiLSTM-CRF模型相结合,通过对抗学习中包含的NER,CWS和POS标记任务中提取与实体边界有关的公共信息,而且通过多任务学习把NER,CWS和POS三个任务放在一起训练,其中每个任务都含有多个自我注意力机制的组件,以便从各种嵌入中提取特定任务的特定信息,并将该信息与从对抗学习中获得的通用信息进行适当组合来识别实体,为中文里面的实体识别和应用工作提供了一个新的解决方案。
本发明的目的是这样实现的:一种中文命名实体识别方法,其特点是该方法按下述步骤进行中文命名实体的识别:
步骤1,定义网络爬虫爬取的金融新闻中要识别的命名实体类型:根据不同的实体类型形成不同的标签;
步骤2,利用FastText工具在爬取的无标注的金融新闻中进行学习,获取固定长度的词向量并组成相应的词汇表;
步骤3,选择步骤1中爬取的金融新闻中的部分高质量的新闻,进行人工标注;
步骤4,对步骤3中选择的高质量的新闻,利用开源工具对新闻进行分词标注和词性标注;
步骤5,找到开源的并且标注好的词性标注数据和分词标注数据,还有4个开源的NER的数据集;
步骤6,使用ZH-NER模型对步骤3~步骤5中标注好的数据进行训练,得到命名实体识别模型,该模型可以识别金融文本中的实体;
步骤7,对步骤6中生成的命名实体识别模型输入关于金融文本中的语料信息,识别模型将实现对4个开源的NER语料和2个人工标注的金融语料数据集中的实体进行识别,并得到测试集的精度。
本发明的特点还在于:步骤1中所述对爬取的金融新闻中要识别的命名实体类型,包括:LOC、ORG-A、ORG-O、PER、SERVER和PRODUCTION。
步骤2中所述利用FastText工具在爬取的无标注的金融新闻中进行学习,训练得到的词向量每一维代表了特定的词语特征,可选维度为50,100,128或200。
步骤3中所述对选取的高质量的语料进行人工标注时,采用的是BIOES标注集,即标注集中包含{B,I,O,E,S},其中B表示命名实体词语的开头,I表示命名实体词语的中间部分,E表示命名实体词语的结尾,S表示单个词就是一个命名实体,O表示词语不属于命名实体的部分。
步骤4中所述利用开源工具对新闻进行分词标注和词性标注,这里利用的开源工具为Jieba工具。
步骤5中所述选择的开源的词性标注数据为UD1数据集,分词标注数据为MSRdataset (SIGHAN2005)数据集,NER数据集为Weibo NER数据集、MSRA数据集、OntoNotes4数据集和Chinese Resume数据集。
步骤6中所述ZH-NER模型中的NER框架是基于对抗性多任务学习,共同的任务共享信息,与实体有关的NER,CWS和POS标记任务共享的边界是通过对抗学习来提取的,然后与从NER,CWS和POS中提取的任务特定信息结合起来,然后共同学习来标记任务,其训练模型的具体步骤如下:
步骤6.1,模型训练语料库包含两种数据集,用于对抗学习的数据集,以及用于多任务学习的数据集。用于对抗学习的数据集包括多个NER数据集,一个CWS数据集和一个POS标记数据集。用于多任务学习的数据集包括多个NER数据集,其中每个NER数据集都是人工标注的,工具包生成CWS数据集和POS数据集。用于对抗性学习的NER数据集与用于多任务学习的数据集是相同的。在模型训练期间,所有真实标签都用于计算样本损失。此外,工具包生成的CWS和POS标记标签被编码为One-hot向量,以提取特定于任务的信息,而One-hot向量的维数就是标签的数量。训练语料库中包含的每个句子的字符或单词都映射到它们的分布式表示中根据预先训练的字符和单词嵌入。
步骤6.2,在每轮对抗性多任务学习培训中,使用相应的数据集依次训练NER,CWS和POS标记任务中的每一个:在训练NER任务时,将NER数据集用于对抗学习和多任务学习;当训练CWS任务时,在对抗学习中使用CWS数据集,在多任务学习中使用NER数据集。在训练POS标记任务时,将使用POS标记数据集在对抗学习中使用NER数据集进行多任务学习。值得注意的是,多任务学习仅使用NER数据集,并带有由工具箱生成的CWS和POS标签,并且这些标签被视为用于任务损失评估的真实标签。
步骤6.3,在通过对抗性多任务学习训练任务之前,我们对齐数据集中包含的句子与那些用于多任务学习的内容以进行对抗性学习,然后获得一系列对齐的句子对。然后将每个对齐的句子对馈送到我们的模型以进行任务训练,其中来自对抗学习数据集的句子用于对抗学习,而来自多任务学习数据集的句子用于多任务学习。值得注意的是,如果对抗性学习的句子数少于多任务学习的句子数,则会复制当前数据集以进行数据集扩展。
步骤6.4,在对抗性学习中,句子首先被馈送到共享信息提取器以进行隐藏状态编码,通过名为Shared BiLSTM的BiLSTM神经网络和称为SA-3的自注意力神经网络。然后,将句子的编码隐藏状态馈送到任务区分器,该任务将努力区分从句子中选择哪个数据集。当对抗学习训练结束时,任务判别器应该不能清楚地区分输入句子的源数据集,并且应该提取共同的任务共享信息,其中任务判别器应该判断所有源数据集都包含具有相等概率的输入句子。
步骤6.5,在多任务学习中,训练任务的训练语料库中的句子首先被馈送到对应的私有BiLSTM神经网络进行隐藏状态编码任务,然后将编码后的隐藏状态馈送到称为SA-1的自注意神经网络,以捕获句子隐藏状态中包含的关键特征。每个训练任务还包含第二个自我注意神经网络,称为SA-2,以整合从CWS的One-hot编码的隐藏状态和POS标记标签。然后将SA-1,SA-2和SA-3的输出馈送到第四个自我注意神经网络SA-4,以进行信息集成,其中将从各个自我注意网络中提取的每种信息分配给一个适当的权重。有了多个自我注意的组成部分,我们可以为输入句子获取隐藏状态,然后将隐藏状态用于特定于任务的标签预测,从而可以计算出该任务的句子损失。
步骤7中测试模型的具体步骤如下:
步骤7.1,评估四个公共数据集,即Weibo NER、MSRA、OntoNotes4和ChineseResume数据集和两个私有数据集,即长期新闻和短期新闻数据集。所述Weibo NER数据集由社交媒体数据组成,标注了四种实体:PER,LOC,ORG和GEO(地缘政治),包括命名实体和名义实体;所述MSRA数据集包含三种带标注的命名实体:ORG,PER和LOC。 OntoNotes4带有四个标注命名实体的种类:PER,ORG,LOC和GPE(地理行政实体);所述Chinese Resume数据集[48]带有8种命名实体的注释:CONT(国家/地区)、EDU(教育机构)、LOC、PER、ORG、PRO(专业)、RACE(种族/背景)和TITLE(职位);所述长新闻数据集由长新闻新闻文档组成;所述短新闻数据集由新闻标题、微信群聊消息和问答(QA)消息组成;所述长新闻数据集和短新闻数据集使用六种命名实体进行注释:ORG、PER、LOC,PROD(产品)、SERV(服务)和TIME。
步骤7.2,使用MSR数据集(来自SIGHAN2005)获取CWS信息,使用UD1数据集获取POS标记信息来进行对抗学习,根据在Chinese Resume开发集上获得的NER性能来调整超参数;初始学习率设置为0.001,使用Adam来优化所有可训练参数;BiLSTM隐藏状态dh的维数设置为120,自我注意单元数设置为240,自我关注头的数量设置为10;为了避免过度拟合,将学习率设置为0.3,并将训练六个评估数据集上的批处理大小达到80,损失权重系数被设置为0.06;使用Jieba工具包生成CWS和POS标签标签。实验中使用的字符嵌入是经过预先训练的,通过120万个金融新闻文档对数据集进行了训练,训练方法是FastText,其中维度设置为64。我们使用精确率(P),召回率(R)和F1得分作为绩效评估指标。
本发明与现有技术相比具有为中文里面的实体识别和应用工作提供了一个新的解决方案,方法简便,效率高,并具有如下有益的技术效果:
(1)基于对抗式多任务学习的NER模型,以集成CWS和POS标记中文NER的信息,通过对抗性学习提取与跨NER,CWS和POS标记任务共享的实体边界有关的公共信息,然后通过多任务学习将任务共享信息整合到NER中,其中NER,CWS和POS标记任务中的每一个都通过多个自我关注组件进行训练。
(2) ZH-NER模型是第一个通过CWS和POS标签信息对中文NER进行对抗性多任务学习的模型。
(3)运用多种自我注意力来学习和整合与单词和实体边界有关的关键特征,这些特征是从带有三种标签的不同训练语料库中获得的。
(4)与其他最新的NER模型相比,在四个公共和两个私有中文NER数据集上进行了广泛的实验,以评估本发明的命名实体识别模型的性能。
附图说明
图1本发明的命名实体识别模型结构示意图;
图2~图3为本发明带有NER、CWS和POS标记任务的单词和实体边界的实例图;
图4为本发明的在Weibo NER数据集上的实验效果对比图;
图5为本发明的在MSRA数据集上的实验效果对比图;
图6为本发明的在OntoNotes4数据集上的实验效果对比图;
图7为本发明的在Chinese Resume数据集上的实验效果对比图;
图8为本发明的在人工标注的两个金融语料数据集上的实验效果对比图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
实施例1
参阅附图1,本发明按下述步骤进行具有多任务对抗学习和自我注意能力机制的中文命名实体识别:
步骤1,定义网络爬虫爬取的金融新闻中要识别的命名实体类型:根据不同的实体类型形成不同的标签。
步骤1:所述对爬取的金融新闻中要识别的命名实体类型,包括:LOC、ORG-A、ORG-O、PER、SERVER和PRODUCTION。
步骤2:利用FastText工具在爬取的无标注的金融新闻中进行学习,获取固定长度的词向量并组成相应的词汇表,所述利用FastText工具在爬取的无标注的金融新闻中进行学习,训练得到的词向量每一维代表了特定的词语特征,可选维度为50、100、128或200,最终选取其中的一个维度进行训练。
参阅附图2,选择步骤1中爬取的金融新闻中的部分高质量的新闻,进行人工标注,所述对选取的高质量的语料进行人工标注时,采用的是BIOES标注集,即标注集中包含{B,I,O,E,S},其中B表示命名实体词语的开头,I表示命名实体词语的中间部分,E表示命名实体词语的结尾,S表示单个词就是一个命名实体,O表示词语不属于命名实体的部分。
参阅附图3,例如有这样一句语料,“美丽生态股份有限公司是一家上市公司,总部在深圳”,经过Jieba的分词工具后变成了“美丽 生态 股份 有限 公司 是 一家 上市 公司 , 总部 在 深圳 ”,经过人工标注后,标注后变成了“B-ORG I-ORG I-ORG I-ORG E-ORGO O O O O O O S-LOC O”;
其中:“O”表示表示词语不属于命名实体的部分,;S-LOC”表示深圳就是一个命名实体;“B-ORG”表示组织机构的第一个词;“I-ORG” 表示组织机构的中间的词;“E-ORG”表示组织机构的最后一个词。
步骤4:对步骤3中选择的高质量的新闻,利用开源工具对新闻进行分词标注和词性标注,所述开源工具为Jieba工具;
步骤5:找到开源的并且标注好的词性标注数据和分词标注数据,还有4个开源的NER的数据集,所述选择的开源的词性标注数据为UD1数据集,分词标注数据为MSR dataset(SIGHAN2005)数据集,NER数据集为Weibo NER数据集、MSRA数据集、OntoNotes4数据集和Chinese Resume数据集。
例如UD1数据集中的语料为:“怀孕_VERB 期_PART 为_VERB 421_NUM 至_CONJ457_NUM 日_NOUN ._PUNCT”;
例如MSR dataset (SIGHAN2005)数据集中的语料为:““ 人们 常 说 生活 是 一部 教科书 , 而 血 与 火 的 战争 更 是 不可多得 的 教科书 , 她 确实 是 名副其实 的 ‘ 我 的 大学 ’ ”;
步骤6:使用ZH-NER模型对步骤3~步骤5中标注好的数据进行训练,得到命名实体识别模型,该模型可以识别金融文本中的实体,所述ZH-NER模型中的NER框架是基于对抗性多任务学习,共同的任务共享信息,与实体有关的NER、CWS和POS标记任务共享的边界是通过对抗学习来提取的,然后与从NER、CWS和POS中提取的任务特定信息结合起来,然后共同学习来标记任务,其具体步骤如下:
a、模型训练语料库包含两种数据集,用于对抗学习的数据集,以及用于多任务学习的数据集,用于对抗学习的数据集包括多个NER数据集,一个CWS数据集和一个POS标记数据集;用于多任务学习的数据集包括多个NER数据集,其中每个NER数据集都是人工标注的,工具包生成CWS数据集和POS数据集。用于对抗性学习的NER数据集与用于多任务学习的数据集是相同的,在模型训练期间,所有真实标签都用于计算样本损失。此外,工具包生成的CWS和POS标记标签被编码为One-hot向量,以提取特定于任务的信息,而One-hot向量的维数就是标签的数量。训练语料库中包含的每个句子的字符或单词都映射到它们的分布式表示中根据预先训练的字符和单词嵌入;
b、在每轮对抗性多任务学习培训中,使用相应的数据集依次训练NER、CWS和POS标记任务中的每一个:在训练NER任务时,将NER数据集用于对抗学习和多任务学习;当训练CWS任务时,在对抗学习中使用CWS数据集,在多任务学习中使用NER数据集;在训练POS标记任务时,将使用POS标记数据集在对抗学习中使用NER数据集进行多任务学习。值得注意的是,多任务学习仅使用NER数据集,并带有由工具箱生成的CWS和POS标签,并且这些标签被视为用于任务损失评估的真实标签;
c、在通过对抗性多任务学习训练任务之前,对齐数据集中包含的句子与那些用于多任务学习的内容以进行对抗性学习,然后获得一系列对齐的句子对,最后将每个对齐的句子对馈送到我们的模型以进行任务训练,其中来自对抗学习数据集的句子用于对抗学习,而来自多任务学习数据集的句子用于多任务学习。值得注意的是,如果对抗性学习的句子数少于多任务学习的句子数,则会复制当前数据集以进行数据集扩展。
d、在对抗性学习中,句子首先被馈送到共享信息提取器以进行隐藏状态编码,通过名为Shared BiLSTM的BiLSTM神经网络和称为SA-3的自注意力神经网络,然后,将句子的编码隐藏状态馈送到任务区分器,该任务将努力区分从句子中选择哪个数据集。当对抗学习训练结束时,任务判别器应该不能清楚地区分输入句子的源数据集,并且应该提取共同的任务共享信息,其中任务判别器应该判断所有源数据集都包含具有相等概率的输入句子。
e、在多任务学习中,训练任务的训练语料库中的句子首先被馈送到对应的私有BiLSTM神经网络进行隐藏状态编码任务,然后将编码后的隐藏状态馈送到称为SA-1的自注意神经网络,以捕获句子隐藏状态中包含的关键特征。每个训练任务还包含第二个自我注意神经网络,称为SA-2,以整合从CWS的One-hot编码的隐藏状态和POS标记标签,最后将SA-1、SA-2和SA-3的输出馈送到第四个自我注意神经网络SA-4以进行信息集成,其中将从各个自我注意网络中提取的每种信息分配给一个适当的权重,有了多个自我注意的组成部分,就可以为输入句子获取隐藏状态,然后将隐藏状态用于特定于任务的标签预测,从而可以计算出该任务的句子损失。
例如,多任务的模块中有一句话A,这句话有三种不同的标注方法,分别放到后面的NER任务,CWS任务和POS中,每个任务学习这句话独有的信息,然后CWS任务中有关这句话的信息以及POS任务中有关这句话的信息再给NER任务用;在对抗训练中,NER的数据集同样使用A这句话,CWS中使用B这句话,POS任务中使用C这句话,对抗训练的目的就是提取这三句话的公共信息,使得公共信息对所有任务都有用,然后把这部分公共信息放到多任务学习中的NER任务中去,共同学习;多任务学习中的NER任务将这三部分信息进行注意力机制来提取更加重要的信息,然后进行训练得到NER的模型。
步骤7:对步骤6中生成的命名实体识别模型输入关于金融文本中的语料信息,识别模型将实现对4个开源的NER语料和2个人工标注的金融语料数据集中的实体进行识别,并得到测试集的精度,其具体步骤如下:
a、本发明评估了四个公共数据集,即Weibo NER、MSRA、OntoNotes4和ChineseResume数据集和两个私有数据集,即长期新闻和短期新闻数据集。Weibo NER数据集由社交媒体数据组成,标注了四种实体,分别为:PER、LOC、ORG和GEO(地缘政治),包括命名实体和名义实体;MSRA数据集包含三种带标注的命名实体,分别为:ORG、PER和LOC; OntoNotes4带有四个标注命名实体的种类,分别为:PER、ORG、LOC和GPE(地理行政实体);Chinese Resume数据集[48]带有8种命名实体的注释:分别为:CONT(国家/地区)、EDU(教育机构)、LOC、PER、ORG、PRO(专业)、RACE(种族/背景)和TITLE(职位);长新闻数据集由长新闻新闻文档组成,短新闻数据集由新闻标题,微信群聊消息和问答(QA)消息组成,这两个数据集使用六种命名实体进行注释,分别为:ORG、PER、LOC、PROD(产品)、SERV(服务)和TIME。
b、本发明使用MSR数据集(来自SIGHAN2005)获取CWS信息,使用UD1数据集获取POS标记信息来进行对抗学习,根据在Chinese Resume开发集上获得的NER性能来调整超参数。初始学习率设置为0.001,使用Adam来优化所有可训练参数;BiLSTM隐藏状态dh的维数设置为120;自我注意单元数设置为240;自我关注头的数量设置为10。为了避免过度拟合,将学习率设置为0.3,并将训练六个评估数据集上的批处理大小达到80,损失权重系数被设置为0.06,使用Jieba工具包生成CWS和POS标签标签。本实验中使用的字符嵌入是经过预先训练的,通过120万个金融新闻文档对数据集进行了训练,训练方法是FastText,其中维度设置为64,使用精确率(P)、召回率(R)和F1得分作为绩效评估指标。
例如,已经有了训练好的模型,给出Weibo NER、MSRA、OntoNotes4和ChineseResume数据集和两个私有数据集中的测试集,使用模型对这些测试集进行预测,然后用预测出来的结果和真正的结果进行计算,就能分别得到(P)、召回率(R)和F1。
参阅附图4,从Weibo NER数据集上的实验效果中可以看出,采用本发明的模型,其Overall(F1)值最高,说明这个模型最好。
参阅附图5,从MSRA数据集上的实验效果中可以看出,采用本发明的模型,其F1值最高,说明这个模型最好。
参阅附图6,从OntoNotes4数据集上的实验效果中可以看出,采用本发明的模型,其F1值最高,说明这个模型最好。
参阅附图7,从Chinese Resume数据集上的实验效果中可以看出,采用本发明的模型,其F1值最高,说明这个模型最好。
参阅附图8,从人工标注的两个金融语料数据集上的实验效果中可以看出,采用本发明的模型,其F1值最高,说明这个模型最好。
上述仅为本发明的最佳实施例,但本发明专利的保护范围并不限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明转来的保护范围。
Claims (7)
1.一种中文命名实体的识别方法,其特征在于按下述步骤进行中文命名实体的识别:
步骤1,定义网络爬虫爬取要识别的命名实体类型,并根据不同的实体类型形成不同的标签;
步骤2,利用FastText工具在爬取无标注的实体中进行学习,获取固定长度的词向量并组成相应的词汇表;
步骤3,选择上述步骤1爬取的部分高质量的文本并进行人工标注;
步骤4,对上述步骤3中选择的高质量的文本,利用开源工具对文本进行分词标注和词性标注;
步骤5,找到开源的并且标注好的词性标注数据和分词标注数据,以及四个开源的NER的数据集;
步骤6,使用ZH-NER模型对步骤3~步骤5中标注好的数据进行训练,得到命名实体识别模型,所述ZH-NER模型中的NER框架是基于对抗性多任务学习,共同的任务共享信息,与实体有关的NER、CWS和POS标记任务共享的边界是通过对抗学习来提取的,然后与从NER、CWS和POS中提取的任务特定信息结合起来,共同学习来标记任务;
步骤7,对上述步骤6中生成的命名实体识别模型输入文本中的语料信息, 实现对四个开源的NER语料和二个人工标注的语料数据集中的实体进行识别,得到测试集的精度;
所述步骤6中使用ZH-NER模型对步骤3~步骤5中标注好的数据进行训练,其具体步骤如下:
a、模型训练语料库包含两种数据集,用于对抗学习的数据集,以及用于多任务学习的数据集,所述对抗学习的数据集包括:多个NER数据集、一个CWS数据集和一个POS标记数据集;所述多任务学习的数据集包括:多个NER数据集;所述NER数据集为人工标注的;所述CWS数据集和一个POS标记数据集为工具包生成,其CWS和POS标记标签被编码为One-hot向量,以提取特定于任务的信息;所述One-hot向量的维数为标签的数量;所述对抗性学习的NER数据集与多任务学习的数据集是相同的;所述训练语料库中包含的每个句子的字符或单词均映射到它们的分布式表示中,并根据预先训练的字符和单词嵌入;
b、在每轮对抗性多任务学习培训中,使用相应的数据集依次训练NER任务、CWS任务和POS标记任务中的每一个,所述训练NER任务时使用NER数据集用于对抗学习和多任务学习;所述训练CWS任务时在对抗学习中使用CWS数据集,在多任务学习中使用NER数据集;所述训练POS标记任务时使用POS标记数据集在对抗学习中使用NER数据集进行多任务学习;所述多任务学习仅使用NER数据集,并带有由工具箱生成的CWS和POS标签,并且这些标签被视为用于任务损失评估的真实标签;
c、在通过对抗性多任务学习训练任务之前,对齐数据集中包含的句子与那些用于多任务学习的内容以进行对抗性学习,然后获得一系列对齐的句子对,并将每个对齐的句子对馈送到ZH-NER模型以进行任务训练,其中来自对抗学习数据集的句子用于对抗学习,而来自多任务学习数据集的句子用于多任务学习,如对抗性学习的句子数少于多任务学习的句子数,则会复制当前数据集以进行数据集扩展;
d、在对抗性学习中,句子首先被馈送到共享信息提取器以进行隐藏状态编码,并通过名为Shared BiLSTM的BiLSTM神经网络和称为SA-3的自注意力神经网络,将句子的编码隐藏状态馈送到任务区分器,所述任务区分器从句子中选择哪个数据集,当对抗学习训练结束时由任务判别器提取共同的任务共享信息,并判断所有源数据集都包含具有相等概率的输入句子;
e、在多任务学习中,训练任务的训练语料库中的句子首先被馈送到对应的私有BiLSTM神经网络进行隐藏状态编码任务,然后将编码后的隐藏状态馈送到称为SA-1的自注意神经网络,以捕获句子隐藏状态中包含的关键特征,每个训练任务还包含称为SA-2、SA-3和SA-4四个自我注意神经网络,所述SA-2自我注意神经SA-2整合从CWS的One-hot编码的隐藏状态和POS标记标签,并将SA-1、SA-2和SA-3三个自我注意神经网络的输出馈送到SA-4自我注意神经网络进行信息集成,其中将从各个自我注意网络中提取的每种信息分配给一个适当的权重,以多个自我注意的组成部分为输入句子获取隐藏状态后将隐藏状态用于特定于任务的标签预测,从而计算该任务的句子损失。
2.根据权利要求1所述中文命名实体的识别方法,其特征在于所述步骤1中的命名实体类型包括:LOC、ORG-A、ORG-O、PER、SERVER和PRODUCTION。
3.根据权利要求1所述中文命名实体的识别方法,其特征在于所述步骤2中的词向量选维度为50、100、128和200,其每一维代表了特定的词语特征。
4.根据权利要求1所述中文命名实体的识别方法,其特征在于所述步骤3中的人工标注采用包含{B,I,O,E,S}的BIOES标注集,其中:B表示命名实体词语的开头;I表示命名实体词语的中间部分;E表示命名实体词语的结尾;S表示单个词就是一个命名实体;O表示词语不属于命名实体的部分。
5.根据权利要求1所述中文命名实体的识别方法,其特征在于所述步骤4中的开源工具为Jieba工具。
6.根据权利要求1所述中文命名实体的识别方法,其特征在于所述步骤5中的词性标注数据为UD1数据集;分词标注数据为MSR dataset (SIGHAN2005)数据集;NER数据集为WeiboNER数据集、MSRA数据集、OntoNotes4数据集和Chinese Resume数据集。
7.根据权利要求1所述中文命名实体的识别方法,其特征在于所述步骤7中的实体进行识别,得到测试集的精度,其具体步骤如下:
a、评估Weibo NER、MSRA、OntoNotes4和Chinese Resume四个公共数据集和长期新闻、短期新闻两个私有数据集,所述Weibo NER公共数据集由社交媒体数据组成,并标注了PER、LOC、ORG和GEO四种实体,以及命名实体和名义实体;所述MSRA公共数据集为ORG、PER和LOC三种带标注的命名实体:所述 OntoNotes4公共数据集为PER、ORG、LOC和GPE四个标注命名实体的种类:所述Chinese Resume公共数据集为使用CONT、EDU、LOC、PER、ORG、PRO、RACE和TITLE的命名实体进行注释;长新闻数据集由长新闻新闻文档组成;短新闻数据集由新闻标题、微信群聊消息和问答消息组成;所述两个私有数据集使用ORG、PER、LOC、PROD、SERV和TIME的命名实体进行注释;
b、使用MSR数据集获取CWS信息,使用UD1数据集获取POS标记信息来进行对抗学习,以及根据在Chinese Resume开发集上获得的NER性能来调整超参数,所述对抗学习的初始学习率设置为0.001,并使用Adam来优化所有可训练参数,BiLSTM隐藏状态dh的维数设置为120,自我注意单元数设置为240,自我关注头的数量设置为10;所述对抗学习的学习率设置为0.3,并将训练六个评估数据集上的批处理大小达到80,损失权重系数被设置为0.06;所述CWS信息和POS标记信息由Jieba工具包生成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911173134.2A CN111091002B (zh) | 2019-11-26 | 2019-11-26 | 一种中文命名实体的识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911173134.2A CN111091002B (zh) | 2019-11-26 | 2019-11-26 | 一种中文命名实体的识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111091002A CN111091002A (zh) | 2020-05-01 |
CN111091002B true CN111091002B (zh) | 2023-06-09 |
Family
ID=70393694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911173134.2A Active CN111091002B (zh) | 2019-11-26 | 2019-11-26 | 一种中文命名实体的识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111091002B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052684A (zh) * | 2020-09-07 | 2020-12-08 | 南方电网数字电网研究院有限公司 | 电力计量的命名实体识别方法、装置、设备和存储介质 |
CN112131880B (zh) * | 2020-09-25 | 2023-11-07 | 泰康保险集团股份有限公司 | 一种命名实体识别方法、装置及系统 |
US11675978B2 (en) | 2021-01-06 | 2023-06-13 | International Business Machines Corporation | Entity recognition based on multi-task learning and self-consistent verification |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108463815A (zh) * | 2016-01-07 | 2018-08-28 | Mz知识产权控股有限责任公司 | 聊天数据的命名实体识别 |
CN109783812A (zh) * | 2018-12-28 | 2019-05-21 | 中国科学院自动化研究所 | 基于自注意力机制的中文命名实体识别方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190108448A1 (en) * | 2017-10-09 | 2019-04-11 | VAIX Limited | Artificial intelligence framework |
US10437936B2 (en) * | 2018-02-01 | 2019-10-08 | Jungle Disk, L.L.C. | Generative text using a personality model |
-
2019
- 2019-11-26 CN CN201911173134.2A patent/CN111091002B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108463815A (zh) * | 2016-01-07 | 2018-08-28 | Mz知识产权控股有限责任公司 | 聊天数据的命名实体识别 |
CN109783812A (zh) * | 2018-12-28 | 2019-05-21 | 中国科学院自动化研究所 | 基于自注意力机制的中文命名实体识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111091002A (zh) | 2020-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN107122416B (zh) | 一种中文事件抽取方法 | |
Sukkarieh et al. | Automarking: using computational linguistics to score short ‚free− text responses | |
CN111091002B (zh) | 一种中文命名实体的识别方法 | |
CN111475629A (zh) | 一种面向数学辅导问答系统的知识图谱构建方法及其系统 | |
CN113821605B (zh) | 一种事件抽取方法 | |
CN114416942A (zh) | 一种基于深度学习的自动化问答方法 | |
CN111274829A (zh) | 一种利用跨语言信息的序列标注方法 | |
CN115759092A (zh) | 一种基于albert的网络威胁情报命名实体识别方法 | |
CN113297379A (zh) | 一种文本数据多标签分类方法及装置 | |
CN113420543A (zh) | 基于改进Seq2Seq模型的数学试题自动标注方法 | |
Chen et al. | Research on automatic essay scoring of composition based on CNN and OR | |
Chernova | Occupational skills extraction with FinBERT | |
Oka et al. | Fully automated short answer scoring of the trial tests for common entrance examinations for Japanese university | |
Pirovani et al. | Adapting NER (CRF+ LG) for Many Textual Genres. | |
Suman et al. | Gender Age and Dialect Recognition using Tweets in a Deep Learning Framework-Notebook for FIRE 2019. | |
CN114077655A (zh) | 一种答案抽取模型的训练方法及装置 | |
CN112966518A (zh) | 一种面向大规模在线学习平台的优质答案识别方法 | |
Lahbari et al. | A rule-based method for Arabic question classification | |
CN116341519A (zh) | 基于背景知识的事件因果关系抽取方法、装置及存储介质 | |
Bai et al. | Gated character-aware convolutional neural network for effective automated essay scoring | |
Gautam et al. | Using neural tensor networks for open ended short answer assessment | |
Fritzner | Automated information extraction in natural language | |
CN114138947A (zh) | 文本处理方法及装置 | |
Xiao et al. | Automatic generation of multiple-choice items for prepositions based on word2vec |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |