CN116629267B - 一种基于多粒度命名实体识别方法 - Google Patents
一种基于多粒度命名实体识别方法 Download PDFInfo
- Publication number
- CN116629267B CN116629267B CN202310897384.0A CN202310897384A CN116629267B CN 116629267 B CN116629267 B CN 116629267B CN 202310897384 A CN202310897384 A CN 202310897384A CN 116629267 B CN116629267 B CN 116629267B
- Authority
- CN
- China
- Prior art keywords
- character
- word
- vector
- phrase
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 235000019580 granularity Nutrition 0.000 title claims abstract description 10
- 239000013598 vector Substances 0.000 claims abstract description 109
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 8
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 4
- 239000010421 standard material Substances 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000012546 transfer Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 238000003058 natural language processing Methods 0.000 description 5
- 229910000831 Steel Inorganic materials 0.000 description 4
- 239000010959 steel Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 101001013832 Homo sapiens Mitochondrial peptide methionine sulfoxide reductase Proteins 0.000 description 2
- 102100031767 Mitochondrial peptide methionine sulfoxide reductase Human genes 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 244000207740 Lemna minor Species 0.000 description 1
- 235000006439 Lemna minor Nutrition 0.000 description 1
- 235000001855 Portulaca oleracea Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于多粒度命名实体识别方法,包括获取标准物料库的数据集;计算数据集各数据的字符嵌入向量、词嵌入向量和短语嵌入向量;基于注意力机制,获取词关键信息和短语关键信息;将词关键信息和短语关键信息融合到字符信息中,得到新的字符信息和新的字符嵌入向量;基于双向LSTM模型,提取新的字符嵌入向量的隐藏层状态;构建多粒度命名实体识别模型,将隐藏层状态输入所述模型训练;采用训练好的模型处理待识别数据。本发明结合多粒度的语义信息进行训练,学习到字符级、词级别、短语级别的信息特征,丰富了句子的语义,具有优秀准确的运行性能;同时利用双向LSTM模型对多粒度信息进一步处理,提高了中文实体识别的效果。
Description
技术领域
本发明属于计算机技术领域,具体涉及一种基于多粒度命名实体识别方法。
背景技术
命名实体识别(Named Entity Recognition,NER)是自然语言处理(NaturalLanguage Processing,NLP)的一个子领域,它从纯文本中识别和分类实体,如产品、品牌、位置和其他类型。NER是信息提取、信息检索和文本摘要中的一项基本任务,它有助于以结构化的方式组织相关信息。
大规模的预训练语言模型,如BERT和RoBERTa,已经成为各种自然语言处理(NLP)任务的基本支柱。由于这些模型的优异性能,许多工作将其应用到命名实体识别(NER)中。然而,由于中英文之间存在着一些差异,例如分词的方式,导致NER模型不能轻易地从英语转换到中文。现在已经有大量针对中文进行优化的大规模预训练模型,例如:BERT-wwm为中文BERT引入了全词掩蔽策略,它用中文遮住了整个单词,而不是遮住单个汉字。
目前仍然有两个问题阻碍了中文的NER模型性能。首先是多粒度词信息未得到充分利用,由于中文的基本构成是字和词,它们可以组合成短语,字符、单词和不同大小的短语组成了多粒度的单词信息。传统中文的NER模型中,常用字信息和词信息,而短语信息往往被忽略,短语的长度不是固定的,可能比单词和短语携带更丰富的语义信息;其次是词信息可能导致分词错误和噪声,以“南京市长江大桥”为例,正确的分词是“南京市/长江大桥”,然而,将短语分词为“南京/市长/江大桥”是错误的,分词会导致错误的传播。
因此,本发明提供了一种基于多粒度命名实体识别方法,以至少解决上述部分技术问题。
发明内容
本发明要解决的技术问题是:提供一种基于多粒度命名实体识别方法,以至少解决上述部分技术问题。
为实现上述目的,本发明采用的技术方案如下:
一种基于多粒度命名实体识别方法,包括以下步骤:
步骤1、获取标准物料库的数据集;
步骤2、对数据集中的各数据进行多粒度编码,得到包含字符信息的字符嵌入向量、包含词信息的词嵌入向量和包含短语信息的短语嵌入向量;
步骤3、基于注意力机制,由字符嵌入向量和词嵌入向量得到词关键信息,再由字符嵌入向量和短语嵌入向量得到短语关键信息;将词关键信息和短语关键信息融合再合并到字符信息中,得到新的字符信息和包含新的字符信息的新的字符嵌入向量;
步骤4、基于双向LSTM模型,提取新的字符嵌入向量的隐藏层状态;
步骤5、构建多粒度命名实体识别模型,将隐藏层状态输入多粒度命名实体识别模型进行训练;
步骤6、采用训练好的多粒度命名实体识别模型对待识别数据进行处理,得到多粒度命名实体识别结果。
进一步地,所述步骤2包括:步骤21、使用字符编码器,生成所述数据的输入句子的字符嵌入向量,/>,s代表输入句子、n代表输入句子的字符长度,ci代表输入句子的第i个字符,e ci 代表第i个字符的字符向量,/>;步骤22、使用分词器,生成所述数据的输入句子的各分词向量w i ,/>;使用词编码器,对分词向量w i 中的字符求其平均字符并作为分词向量w i 的词向量e wt ,/>,e ck 代表第k个字符的向量表示,i代表词开始位置索引,j代表词结束位置索引;将数据的输入句子中每个分词中各字符替换为对应的词向量,得到词嵌入向量/>,;步骤23、将所述数据的输入句子拆分成不同长度的短语词项g t ,对任意短语项g t 计算其对应的短语向量/>,/>,e ck 代表第k个字符的向量表示,i代表词开始位置索引,j代表词结束位置索引;将数据的输入句子中每个短语词项中各字符替换为对应的短语向量,得到短语嵌入向量/>,。
进一步地,在所述步骤21中,采用BERT-wwm模型作为字符编码器。
进一步地,在所述步骤22中,采用基于字符的预训练模型并结合基于上下文语义动态生成的词嵌入作为词编码器。
进一步地,在所述步骤23中,利用n-gram算法将输入句子拆分成不同长度的短语词项。
进一步地,所述步骤3包括:步骤31、将字符嵌入向量作为注意力机制的查询向量,得到字符嵌入向量/>在第p个位置上词信息的注意力分布/>和短语信息的注意力分布/>,/> 代表字符嵌入向量,/>代表第p个位置上的词向量,/>代表第k个位置上的词向量,/>代表第p个位置上的短语向量,代表代表第k个位置上的短语向量,/>;将每个位置的注意力分布/>和短语信息的注意力分布/>加权,分别得到词关键信息/>和短语关键信息/>,,/>,/>代表第p个位置上的字符向量,/>代表第p个位置上的短语向量;步骤32、将字符嵌入向量/>中第i个字符的字符向量e ci 嵌入对应的词关键信息u w i 与短语关键信息u g i ,得到新的字符信息/>,基于新的字符信息/>得到新的字符嵌入向量/>,/>,/>。
进一步地,所述步骤4包括:将新的字符嵌入向量输入到Bi-LSTM模块,得到隐藏层状态/>。
进一步地,所述步骤5包括:步骤51、构建多粒度命名实体识别模型;步骤52、将隐藏层状态输入多粒度命名实体识别模型,采用条件随机场算法,迭代得到转移得分,计算最大得分路径;步骤53、更新并保存训练后模型的参数。
与现有技术相比,本发明具有以下有益效果:
本发明结合多粒度的语义信息进行训练,能够学习到字符级、词级别、短语级别的信息特征,丰富了句子的语义,具有优秀、准确的运行性能;同时利用双向LSTM模型对多粒度信息进一步处理, 提高了中文实体识别的效果。
附图说明
图1为本发明的方法流程图。
实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进一步详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于多粒度命名实体识别方法,包括以下步骤:
步骤1、获取标准物料库的数据集;
步骤2、对数据集中的各数据进行多粒度编码,得到包含字符信息的字符嵌入向量、包含词信息的词嵌入向量和包含短语信息的短语嵌入向量;
步骤3、基于注意力机制,由字符嵌入向量和词嵌入向量得到词关键信息,再由字符嵌入向量和短语嵌入向量得到短语关键信息;将词关键信息和短语关键信息融合再合并到字符信息中,得到新的字符信息和包含新的字符信息的新的字符嵌入向量;
步骤4、基于双向LSTM模型,提取新的字符嵌入向量的隐藏层状态;
步骤5、构建多粒度命名实体识别模型,将隐藏层状态输入所述模型进行训练;
步骤6、采用训练好的多粒度命名实体识别模型对待识别数据进行处理,得到多粒度命名实体识别结果。
首先,本发明需要获取标准物料库的数据集,数据集每行代表一个待识别的最小存货单位(Stock Keeping Unit,SKU),即包含物料商品的标题和描述的输入句子。例如:“萍钢螺纹钢 12m 规格:Φ12 牌号:HRB400E;山西建邦螺纹钢 9m 规格:Φ25 牌号:HRB400E;莱钢永锋螺纹钢规格:Φ25牌号:HRB400E”。
字符是中文NER重要的信息,由于字符信息具有明确的语义和固定的长度,因此字符编码具有重要作用。本发明将字符信息、词信息和短语信息进行融合,丰富了句子的语义。本发明使用字符编码器,生成所述数据的输入句子的字符嵌入向量,,s代表输入句子、n代表输入句子的字符长度,ci代表输入句子的第i个字符,e ci 代表第i个字符的字符向量,i∈(1,2,...,n)。作为优选,采用BERT-wwm模型作为字符编码器。
由于预训练的词嵌入(word2vec, Glove等)的数量是有限的,它们不能完全覆盖标记化的词。此外,字符的嵌入空间与单词的嵌入空间不同,会影响了模型的性能。本发明使用分词器,将输入句子分词(如:Jieba分词,LTP分词等)为(w1,w2,...,w i ,...,wn),w i 为所述数据的输入句子的各分词向量。为了保持词嵌入形状与字符嵌入形状一致,本发明采用词编码器,对分词向量w i 中的字符求其平均字符并作为分词向量w i 的词向量e wt ,,e ck 代表第k个字符的向量表示,i代表词开始位置索引,j代表词结束位置索引,所述平均字符基于上下文语义动态生成;将数据的输入句子中每个分词中各字符替换为对应的词向量,得到词嵌入向量/>,/>。作为优选,采用基于字符的预训练模型并结合基于上下文语义动态生成的词嵌入作为词编码器。
由于分词器可能会在词编码中产生分词错误,从而降低模型的性能。为此,本发明引入短语编码来缓解所述问题的影响,多粒度词信息来缓解上述问题的影响,随着短语信息的加入,该模型可以在遇到字符时学习到更多的词信息。本发明将所述数据的输入句子拆分成不同长度的短语词项g t ,对任意短语项g t 计算其对应的短语向量,,e ck 代表第k个字符的向量表示,i代表词开始位置索引,j代表词结束位置索引;将数据的输入句子中每个短语词项中各字符替换为对应的短语向量,得到短语嵌入向量/>,/>。作为优选,利用n-gram算法将输入句子拆分成不同长度的短语词项g t 。
本发明还基于注意力机制,利用字符信息引导词信息和短语信息,再将词信息和短语信息整合回字符信息,得到新的字符信息,也称为多粒度词信息。本发明使用了使用了两个独立的注意网络,一个用于组合字符信息和词信息,另一个用于组合字符信息和短语信息,具体为将字符嵌入向量作为注意力机制的查询向量,得到字符嵌入向量/>在第p个位置上词信息的注意力分布/>和短语信息的注意力分布/>, 代表字符嵌入向量,/>代表第p个位置上的词向量,/>代表第k个位置上的词向量,/>代表第p个位置上的短语向量,/>代表代表第k个位置上的短语向量,/>,然后根据注意力分布可以去有选择性地提取关键信息,对输入信息进行加权求和,将每个位置的注意力分布/>和短语信息的注意力分布/>加权,分别得到词关键信息/>和短语关键信息/>,分别得到词关键信息/>和短语关键信息/>,/>,/>,/>代表第p个位置上的字符向量,/>代表第p个位置上的短语向量;然后,进一步将上述经过注意力机制后得到的词关键信息/>和短语关键信息/>结合起来,并且将融合后的多粒度信息合并到字符信息中,得到新的字符信息,具体为将字符嵌入向量E S 中第i个字符的字符向量e ci 嵌入对应的词关键信息u w i 与短语关键信息u g i ,得到新的字符信息/>,再基于新的字符信息/>,得到新的字符嵌入向量/>,/>,/>。
本发明还通过由一层双向Bi-LSTM组成的模块来提取深度语义信息,可以有效地解决序列数据的建模问题。Bi-LSTM模型可以同时考虑一个单词前面和后面的上下文信息,从而更好地理解单词的语义,更好地捕捉序列中的长期依赖关系。具体为:将新的字符嵌入向量输入到Bi-LSTM模块,得到隐藏层状态/>。
在得到隐藏层状态后,构建多粒度命名实体识别模型;将隐藏层状态/>输入多粒度命名实体识别模型,采用条件随机场算法(CRF),迭代得到转移得分,计算最大得分路径;更新并保存训练后模型的参数。在命名实体识别NER任务中,Bi-LSTM善于处理长距离的文本信息,但无法处理相邻标签之间的依赖关系。而条件随机场算法(CRF)能通过邻近标签的关系获得一个最优的预测序列,弥补Bi-LSTM的缺点。对于任一个序列/>,对应的真实标签序列为/>,/>表示所有可能的标注序列,采用维特比(Viterbi)算法得到/>的预测序列产生概率,即最大得分路径/>,计算公式为:/>,其中/>是从标签/>到标签/>状态的转移得分,其中,CRF条件随机场中的转移得分/>是通过计算两个相邻标签之间的特征函数f得分的总和得到的;最后,更新并保存训练后模型的参数。
本发明采用两个中文的NER基准数据集,包括人民日报数据集和MSRA语料数据集,同时使用本申请人的内部云筑产品品牌数据集进行模型实际效果的验证。前两个基准数据集在中文NER中被广泛使用和认可,它们可以保证实验结果的公平性和可比性。
本发明采用召回率R、精确率P 和F1值来评判模型的性能,各评价指标的计算方法如下:
式中, a是识别正确的实体数, A是总实体个数, B是识别出的实体数。
具体试验结果如下表1至表3所示:
表1人民日报语料测试结果(单位: %)
0032.表2 MSRA语料测试结果(单位: %)
表3云筑产品品牌语料测试结果(单位: %)
试验表明,本发明提出的模型方法优于其他模型,并在中文NER基准数据集上实现了最先进方法的性能,能够学习到字符级,词级别、短语级别的信息特征,进一步提高了中文实体识别的效果。
最后应说明的是:以上各实施例仅仅为本发明的较优实施例用以说明本发明的技术方案,而非对其限制,当然更不是限制本发明的专利范围;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围;也就是说,但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色,其所解决的技术问题仍然与本发明一致的,均应当包含在本发明的保护范围之内;另外,将本发明的技术方案直接或间接的运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (5)
1.一种基于多粒度命名实体识别方法,其特征在于,包括以下步骤:
步骤1、获取标准物料库的数据集;
步骤2、对数据集中的各数据进行多粒度编码,得到包含字符信息的字符嵌入向量、包含词信息的词嵌入向量和包含短语信息的短语嵌入向量;
步骤3、基于注意力机制,由字符嵌入向量和词嵌入向量得到词关键信息,再由字符嵌入向量和短语嵌入向量得到短语关键信息;将词关键信息和短语关键信息融合再合并到字符信息中,得到新的字符信息和包含新的字符信息的新的字符嵌入向量;
步骤4、基于双向LSTM模型,提取新的字符嵌入向量的隐藏层状态;
步骤5、构建多粒度命名实体识别模型,将隐藏层状态输入多粒度命名实体识别模型进行训练;
步骤6、采用训练好的多粒度命名实体识别模型对待识别数据进行处理,得到多粒度命名实体识别结果;
所述步骤2包括:步骤21、使用字符编码器,生成所述数据的输入句子的字符嵌入向量,/>,s代表输入句子、n代表输入句子的字符长度,ci代表输入句子的第i个字符,e ci 代表第i个字符的字符向量,/>;步骤22、使用分词器,生成所述数据的输入句子的各分词向量w i ,/>;使用词编码器,对分词向量w i 中的字符求其平均字符并作为分词向量w i 的词向量e wt ,/>,e ck 代表第k个字符的向量表示,i代表词开始位置索引,j代表词结束位置索引;将数据的输入句子中每个分词中各字符替换为对应的词向量,得到词嵌入向量/>,/>;步骤23、将所述数据的输入句子拆分成不同长度的短语词项g t ,对任意短语项g t 计算其对应的短语向量/>,/>,e ck 代表第k个字符的向量表示,i代表词开始位置索引,j代表词结束位置索引;将数据的输入句子中每个短语词项中各字符替换为对应的短语向量,得到短语嵌入向量/>,/>;
在所述步骤23中, 利用n-gram算法将输入句子拆分成不同长度的短语词项;
所述步骤3包括:步骤31、将字符嵌入向量作为注意力机制的查询向量,得到字符嵌入向量/>在第p个位置上词信息的注意力分布/>和短语信息的注意力分布/>, 代表字符嵌入向量,/>代表第p个位置上的词向量,/>代表第k个位置上的词向量,/>代表第p个位置上的短语向量,/>代表代表第k个位置上的短语向量,/>;将每个位置的注意力分布/>和短语信息的注意力分布/>加权,分别得到词关键信息/>和短语关键信息/>,/>,,/>代表第p个位置上的字符向量,/>代表第p个位置上的短语向量;步骤32、将字符嵌入向量/>中第i个字符的字符向量e ci 嵌入对应的词关键信息u w i 与短语关键信息u g i ,得到新的字符信息/>,基于新的字符信息/>得到新的字符嵌入向量/>,,/>。
2.根据权利要求1所述的一种基于多粒度命名实体识别方法,其特征在于,在所述步骤21中,采用BERT-wwm模型作为字符编码器。
3.根据权利要求1所述的一种基于多粒度命名实体识别方法,其特征在于,在所述步骤22中,采用基于字符的预训练模型并结合基于上下文语义动态生成的词嵌入作为词编码器。
4.根据权利要求1所述的一种基于多粒度命名实体识别方法,其特征在于,所述步骤4包括:将新的字符嵌入向量输入到Bi-LSTM模块,得到隐藏层状态/>。
5.根据权利要求4所述的一种基于多粒度命名实体识别方法,其特征在于,所述步骤5包括:步骤51、构建多粒度命名实体识别模型;步骤52、将隐藏层状态输入多粒度命名实体识别模型,采用条件随机场算法,迭代得到转移得分,计算最大得分路径;步骤53、更新并保存训练后模型的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310897384.0A CN116629267B (zh) | 2023-07-21 | 2023-07-21 | 一种基于多粒度命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310897384.0A CN116629267B (zh) | 2023-07-21 | 2023-07-21 | 一种基于多粒度命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116629267A CN116629267A (zh) | 2023-08-22 |
CN116629267B true CN116629267B (zh) | 2023-12-08 |
Family
ID=87638573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310897384.0A Active CN116629267B (zh) | 2023-07-21 | 2023-07-21 | 一种基于多粒度命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116629267B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112352275A (zh) * | 2018-12-13 | 2021-02-09 | 微软技术许可有限责任公司 | 具有多级别文本信息的神经文本到语音合成 |
CN112836046A (zh) * | 2021-01-13 | 2021-05-25 | 哈尔滨工程大学 | 一种四险一金领域政策法规文本实体识别方法 |
CN113158659A (zh) * | 2021-02-08 | 2021-07-23 | 银江股份有限公司 | 一种基于司法文本的涉案财物计算方法 |
CN113496122A (zh) * | 2020-04-08 | 2021-10-12 | 中移(上海)信息通信科技有限公司 | 命名实体识别方法、装置、设备及介质 |
CN113779993A (zh) * | 2021-06-09 | 2021-12-10 | 北京理工大学 | 一种基于多粒度文本嵌入的医学实体识别方法 |
CN114781380A (zh) * | 2022-03-21 | 2022-07-22 | 哈尔滨工程大学 | 一种融合多粒度信息的中文命名实体识别方法、设备和介质 |
CN114841167A (zh) * | 2022-05-17 | 2022-08-02 | 重庆邮电大学 | 一种基于图神经网络多嵌入联合的临床命名实体识别方法 |
US11475254B1 (en) * | 2017-09-08 | 2022-10-18 | Snap Inc. | Multimodal entity identification |
-
2023
- 2023-07-21 CN CN202310897384.0A patent/CN116629267B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11475254B1 (en) * | 2017-09-08 | 2022-10-18 | Snap Inc. | Multimodal entity identification |
CN112352275A (zh) * | 2018-12-13 | 2021-02-09 | 微软技术许可有限责任公司 | 具有多级别文本信息的神经文本到语音合成 |
CN113496122A (zh) * | 2020-04-08 | 2021-10-12 | 中移(上海)信息通信科技有限公司 | 命名实体识别方法、装置、设备及介质 |
CN112836046A (zh) * | 2021-01-13 | 2021-05-25 | 哈尔滨工程大学 | 一种四险一金领域政策法规文本实体识别方法 |
CN113158659A (zh) * | 2021-02-08 | 2021-07-23 | 银江股份有限公司 | 一种基于司法文本的涉案财物计算方法 |
CN113779993A (zh) * | 2021-06-09 | 2021-12-10 | 北京理工大学 | 一种基于多粒度文本嵌入的医学实体识别方法 |
CN114781380A (zh) * | 2022-03-21 | 2022-07-22 | 哈尔滨工程大学 | 一种融合多粒度信息的中文命名实体识别方法、设备和介质 |
CN114841167A (zh) * | 2022-05-17 | 2022-08-02 | 重庆邮电大学 | 一种基于图神经网络多嵌入联合的临床命名实体识别方法 |
Non-Patent Citations (1)
Title |
---|
多方法融合蒙汉机器翻译与译文重排序研究;武静;《中国优秀博士学位论文全文数据库信息科技辑》(第6期);I138-136 * |
Also Published As
Publication number | Publication date |
---|---|
CN116629267A (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310471B (zh) | 一种基于bblc模型的旅游命名实体识别方法 | |
Torisawa | Exploiting Wikipedia as external knowledge for named entity recognition | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN112101040B (zh) | 一种基于知识图谱的古代诗词语义检索方法 | |
CN111241807A (zh) | 一种基于知识引导注意力的机器阅读理解方法 | |
CN114154504B (zh) | 一种基于多信息增强的中文命名实体识别算法 | |
Szarvas et al. | A highly accurate Named Entity corpus for Hungarian | |
Akkaya et al. | Transfer learning for Turkish named entity recognition on noisy text | |
CN112800239A (zh) | 意图识别模型训练方法、意图识别方法及装置 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质 | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
Khan et al. | A clustering framework for lexical normalization of Roman Urdu | |
CN114330349A (zh) | 一种特定领域命名实体识别方法 | |
CN116629267B (zh) | 一种基于多粒度命名实体识别方法 | |
CN114330350A (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 | |
Croce et al. | Grammatical Feature Engineering for Fine-grained IR Tasks. | |
Trandafili et al. | Employing a Seq2Seq Model for Spelling Correction in Albanian Language | |
CN113486666A (zh) | 一种医学命名实体识别方法及系统 | |
CN114328902A (zh) | 文本标注模型构建方法和装置 | |
Grönroos et al. | North Sámi morphological segmentation with low-resource semi-supervised sequence labeling | |
Li et al. | A Chinese NER Method Based on Chinese Characters' Multiple Information | |
Suriyachay et al. | Enhancement of character-level representation in bi-LSTM model for Thai NER | |
Zhang et al. | Improving neural chinese word segmentation using unlabeled data | |
CN110909547A (zh) | 一种基于改进深度学习的司法实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20230822 Assignee: China Construction e-commerce Co.,Ltd. Assignor: Yunzhu Information Technology (Chengdu) Co.,Ltd. Contract record no.: X2024980012861 Denomination of invention: A Multi Granularity Named Entity Recognition Method Granted publication date: 20231208 License type: Common License Record date: 20240826 |