CN112149421A - 一种基于bert嵌入的软件编程领域实体识别方法 - Google Patents
一种基于bert嵌入的软件编程领域实体识别方法 Download PDFInfo
- Publication number
- CN112149421A CN112149421A CN202011007465.1A CN202011007465A CN112149421A CN 112149421 A CN112149421 A CN 112149421A CN 202011007465 A CN202011007465 A CN 202011007465A CN 112149421 A CN112149421 A CN 112149421A
- Authority
- CN
- China
- Prior art keywords
- model
- software
- field
- sequence
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及一种基于BERT嵌入的软件编程领域实体识别方法,属于自然语言处理、深度学习和软件资源挖掘技术领域。首先,利用自然语言处理技术对软件问答社区StackOverflow的数据集进行文本解析和预处理,结合领域分析确定软件编程领域实体类别,并基于Bart自然语言标注工具对样本数据进行人工标注获得训练集和测试集;然后,通过BERT预训练语言模型获得输入序列的语义和向量化表示,并结合BiGRU双向循环神经网络对输入序列进行模型训练;最后,通过CRF条件随机场对输入标签序列建模,从而得到概率最大的标签序列,实现软件编程领域的实体识别。本发明基于深度学习训练方法,能在少量标注样本数据的情况下,有效识别软件编程领域特定的实体。
Description
技术领域
本发明涉及一种基于BERT嵌入的软件编程领域实体识别方法,属于自然语言处理、深度学习和软件资源挖掘技术领域。
背景技术
在大众化软件开发时代,有超过5000万余名软件开发人员在StackOverFlow软件知识社区进行有关开发技术、配置管理、项目组织等软件编程问答交流。这些海量社会化文本数据包含软件工程的各类问题和答案,蕴含着丰富的软件编程领域知识。软件编程知识的自动获取、共享和推荐将有利于软件开发人员快速解决项目开发过程中遇到的问题,提高软件开发质量。
传统的信息检索方式无法满足软件编程特定领域的需求,以实体为中心的信息检索和基于知识图谱的知识智能化管理将成为有效解决方案,而准确识别软件编程领域特定的实体并归类是工作的第一步。
传统命名实体识别(Named Entity Recognition,NER)的主要任务是识别出文本中的人名、地名等有意义的专有名称并加以归类。由于软件编程知识来自软件知识社区的社会化文本,并具有特定的软件领域特征,传统的模型和方法不适应,存在如下问题:
(1)软件知识社区的文本内容不遵循严格的语言规则,存在大量拼写错误,以及简写等情况。
(2)基于规则、词典和知识库的方法依赖专家手工创建,工作繁琐且无法实现自动化更新。
(3)基于监督学习、半监督学习的方法,需要人工标注大量的样本数据、无法解决单词多义性,造成实体识别效果不佳。
发明内容
本发明要解决的技术问题是提出一种基于BERT嵌入的软件编程领域实体识别方法,可以有效提高从软件知识社区的社会化文本中提取软件编程知识实体的精度,解决上述问题,为下一步构建软件编程领域知识图谱提供有效支持。
本发明的技术方案是:一种基于BERT嵌入的软件编程领域实体识别方法,首先,利用自然语言处理技术对软件问答社区StackOverflow(stackoverflow.com)的数据集进行文本解析和预处理,结合领域分析确定软件编程领域实体类别,并基于Bart自然语言标注工具对样本数据进行人工标注获得训练集和测试集;然后,通过 BERT(BidirectionalEncoder Representations from Transformers)预训练语言模型获得输入序列的语义和向量化表示,并结合BiGRU(Bi-Gated Recurrent Unit)双向循环神经网络对输入序列进行模型训练;最后,通过CRF(Conditional Random Field)条件随机场对输入标签序列建模,从而得到概率最大的标签序列,实现软件编程领域的实体识别。
具体步骤为:
Step1、软件问答社区数据集预处理。
软件问答社区StackOverflow的数据集是以html标签格式存储的社会化文本数据,需要对其进行数据解析、内容提取、去标记、分词等文本预处理操作。所述步骤Step1 的具体步骤为:
Step1.1:解析html文本,提取软件编程问答内容文本。
Step1.2:去除文本中包含的标签内容,以空格为分隔符进行分词,标签内容包括链接和源代码。
Step1.3:按1:9的比例,将样本数据划分为测试集和训练集。
Step2、样本数据标注。
在完成软件问答社区数据预处理后,通过Bart自然语言标注工具对样本数据进行手工标注。所述步骤Step2的具体步骤为:
Step2.1:结合软件编程领域分析,研究并确定软件编程领域实体的类别清单。
Step2.2:根据Step2.1确定的实体类别清单,利用Bart自然语言标注工具和交叉验证法对软件问答社区样本数据进行人工标注。
Step3、特征提取及向量化。
为了提升模型的特征提取能力,获取输入序列的分布式向量表示,采用BERT预训练语言模型对文本序列进行特征提取和向量化表示。所述步骤Step3的具体步骤为:
Step3.1:在BERT模型预训练中,采用Masked语言模型MLM(Masked LanguageModel)和下一句预测NSP(Next Sentence Prediction)两种策略用于模型预训练,用[CLS]表示句首,[SEP]表示句尾,并随机遮盖15%的单词。
BERT模型预训练。BERT模型采用12层或24层的双向Transformer作为特征提取器,并通过大量无标签语料数据进行预训练。为了让模型掌握自然语言知识,采用了Masked语言模型MLM(Masked Language Model)和下一句预测NSP(Next Sentence Prediction)两种策略用于模型预训练。用[CLS]表示句首,[SEP]表示句尾,并随机遮盖15%的单词(其中80%用masked token替代,10%用随机的单词替代,10%保持原词不变)。
Step3.2:构建BERT模型的输入表示,对于输入词序列X=(x1,x2,···,xn),n表示输入词序列的长度,每个单词向量由Token Embeddings、Segment Embeddings和Position Embeddings三部分求和得到。
其中,Token Embeddings表示词向量,Segment Embeddings表示句子向量,用于区分不同的句子,Position Embeddings是通过模型学习得到的位置向量。
Step3.3:载入BERT模型并训练。导入BERT预先训练好的英文模型(不考虑字母大小写),并结合Step2中产生的软件问答社区标注样本数据进行模型训练。
Step3.4:获取BERT模型的输出,得到软件问答社区标注样本数据的词向量表示序列:C=(c1,c2,···,cn)。
Step4:将Step3中得到软件问答社区单词序列向量C=(c1,c2,···,cn)输入到BiGRU-CRF模型进行软件编程领域实体识别,具体步骤为:
Step4.1:把Step3中输出的序列向量C=(c1,c2,···,cn)输入双向循环神经网络BiGRU 进行模型训练。
GRU输入为前一时刻隐藏层ht-1和当前输入xt,输出为下一时刻隐藏层信息ht。
rt=σ(Wr·[ht-1,xt]) (2)
zt=σ(Wz·[ht-1,xt]) (3)
Step4.2:在BiGRU双向神经网络的hidden层之后接入CRF层,把通过BiGRU模型得到的每个单词对应的标签概率作为条件随机场CRF的输入,CRF通过统计标签直接的转移概率对双向循环神经网络的结果加以限制从而得到测试集数据的最终预测结果。
对于输入序列X=(x1,x2,···,xn)和对应的标签序列Y=(y1,y2,···,yn),通过式(5) 进行分数评估:
标签序列y的最大概率用SoftMax函数计算,见式(6):
对于训练集和(xi,yi)采用最大条件似然函数评估,见式(7):
Step5、模型结果评价,采用精确率(precision)、准确率(accuracy)、召回率(recall) 和F1值等评价指标对模型结果进行评价。
本发明的有益效果是:本发明所采用的构建词向量方法和特征提取器(BERT),是基于深度神经网络的预训练语言模型,它通过在所有层中联合调节上下文来预训练文本的深层双向表示,能有效降低向量空间维度、提高训练效率,与其他语言模型相比BERT模型更加高效,更能表征自然语言特征,适合进行软件编程社会化文本挖掘;采用BiGRU双向循环网络进行模型训练并结合条件随机场CRF的转移特征对结果序列加以限制,有效解决了标签之间的顺序性问题;通过以上步骤实现软件编程领域实体的精准识别,为下一步软件编程领域知识图谱的构建提供了基础。
附图说明
图1是本发明的步骤流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
如图1所示,一种基于BERT嵌入的软件编程领域实体识别方法,本实施例的语料数据是从StackOverflow发布的官方数据转储中抽取不同标签的问答文本。例如:面向对象和过程的语言(Java、C)、Web和脚本语言(JavaScript、PHP、Python)、标记语言(html)、平台(android)和库(jquery),共获得4000个StackOverflow问答。具体实施过程包括:软件问答社区数据集预处理(Step1),样本数据标注(Step2),特征提取及向量化(Step3),BiGRU-CRF模型训练及实体标注(Step4)和效果评价(Step5)。
所述软件编程领域实体识别方法的具体步骤如下(具体程序实现采用Python语言):
Step1、软件问答社区数据集预处理。
通过StackOverflow官方网站下载官方转储的数据集。软件问答社区StackOverflow 的数据集是以HTML标签格式存储的社会化文本数据,需要对其进行数据解析、内容提取、去标记、分词等文本预处理操作。所述步骤Step1的具体步骤为:
Step1.1、调用Python语言的HTML文档解析库BeautifulSoup,解析HTML文本,提取软件编程问答内容文本。
Step1.2、调用Python语言的文本处理库,去除文本中包含的链接、源代码等标签内容,以空格为分隔符进行分词。
Step1.3、按1:9的比例,将样本数据划分为测试集和训练集。
Step2、样本数据标注。
在完成软件问答社区数据预处理后,通过Bart自然语言标注工具对样本数据进行手工标注。所述步骤Step2的具体步骤为:
Step2.1、组成一个标注小组,结合软件编程领域分析,研究并确定了5类软件实体,分别是:PL(编程语言)、Plat(平台)、API、Fram(工具库框架)和Stan(软件标准)。
Step2.2、根据Step2.1确定的实体类别清单,利用Bart自然语言标注工具和交叉验证法对软件问答社区样本数据进行人工标注。样本标注示例如下:
Step3、特征提取及向量化。
为了提升模型的特征提取能力,获取输入序列的分布式向量表示,采用BERT预训练语言模型对文本序列进行特征提取和向量化表示。所述步骤Step3的具体步骤为:
Step3.1、BERT模型预训练。BERT预训练语言模型有两种:BERT-Base和 BERT-Large,两者模型网络结构相似,只是部分参数不同。本发明采用BERT-Base模型,共12层,隐层为768维,采用12头模式,共110M个参数。
Step3.2、构建BERT模型的输入表示。获取BERT模型的输入:input_ids、input_mask、 segment_ids,分别表示句子中单词id组成的tensor、与句子长度匹配的mask、表明单词属于第一个句子还是第二个句子(0或1)。
Step3.3、载入BERT模型并训练。导入BERT预先在海量语料中训练好的英文模型cased_L-12_H-768_A-12(考虑字母大小写),并结合Step2产生的软件问答社区标注样本数据进行模型训练。
Step3.4、获取BERT模型的输出,得到软件问答社区标注样本数据的词向量表示序列:C=(c1,c2,···,cn)。
Step4、将Step3步骤得到软件问答社区单词序列向量C=(c1,c2,···,cn)输入到 BiGRU-CRF模型进行软件编程领域实体识别。所述步骤Step4的具体步骤为:
Step4.1、把Step3步骤输出的序列向量C=(c1,c2,···,cn)输入双向循环神经网络 BiGRU进行模型训练。
GRU输入为前一时刻隐藏层ht-1和当前输入xt,输出为下一时刻隐藏层信息ht,见公式(1)。
rt=σ(Wr·[ht-1,xt]) (2)
zt=σ(Wz·[ht-1,xt]) (3)
Step4.2、在BiGRU双向神经网络的hidden层之后接入CRF层,把通过BiGRU模型得到的每个单词对应的标签概率作为条件随机场CRF的输入,CRF通过统计标签直接的转移概率对双向循环神经网络的结果加以限制从而得到测试集数据的最终预测结果。
对于输入序列X=(x1,x2,···,xn)和对应的标签序列Y=(y1,y2,···,yn),通过公式(5) 进行分数评估:
标签序列y的最大概率用SoftMax函数计算,见公式(6):
对于训练集和(xi,yi)采用最大条件似然函数评估,见公式(7):
Step5、效果评价。通过实验分析,本发明所述方法的准确率(accuracy)达到98.02%,精确率(precision)达到78.52%,召回率(recall)达到71.02%,F1值达到74.58%。对应每个实体类别的精确率(precision)、召回率(recall)、F1值如下所示:
实体类别 | 精确率(precision) | 召回率(recall) | F1值 |
PL | 93.75% | 96.77% | 95.24% |
Plat | 100.00% | 80.00% | 88.89% |
API | 68.42% | 66.10% | 67.24% |
Fram | 75.00% | 52.94% | 62.07% |
Stan | 86.36% | 76.00% | 80.85% |
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (2)
1.一种基于BERT嵌入的软件编程领域实体识别方法,其特征在于:
首先,利用自然语言处理技术对软件问答社区StackOverflow的数据集进行文本解析和预处理,结合领域分析确定软件编程领域实体类别,并基于Bart自然语言标注工具对样本数据进行人工标注获得训练集和测试集;然后,通过BERT预训练语言模型获得输入序列的语义和向量化表示,并结合BiGRU双向循环神经网络对输入序列进行模型训练;最后,通过CRF条件随机场对输入标签序列建模,从而得到概率最大的标签序列,实现软件编程领域的实体识别。
2.根据权利要求1所述的基于BERT嵌入的软件编程领域实体识别方法,其特征在于具体步骤为:
Step1、软件问答社区数据集预处理;
Step1.1:解析html文本,提取软件编程问答内容文本;
Step1.2:去除文本中包含的标签内容,以空格为分隔符进行分词,标签内容包括链接和源代码;
Step1.3:按1:9的比例,将样本数据划分为测试集和训练集;
Step2、样本数据标注;
Step2.1:结合软件编程领域分析,确定软件编程领域实体的类别清单;
Step2.2:根据Step2.1确定的实体类别清单,利用Bart自然语言标注工具和交叉验证法对软件问答社区样本数据进行人工标注;
Step3、特征提取及向量化;
Step3.1:在BERT模型预训练中,采用Masked语言模型MLM和下一句预测NSP两种策略用于模型预训练,用[CLS]表示句首,[SEP]表示句尾,并随机遮盖15%的单词;
Step3.2:构建BERT模型的输入表示,对于输入词序列X=(x1,x2,…,xn),n表示输入词序列的长度,每个单词向量由Token Embeddings、Segment Embeddings和PositionEmbeddings三部分求和得到;
其中,Token Embeddings表示词向量,Segment Embeddings表示句子向量,用于区分不同的句子,Position Embeddings是通过模型学习得到的位置向量;
Step3.3:导入BERT预先训练好的英文模型,并结合Step2中产生的软件问答社区标注样本数据进行模型训练;
Step3.4:获取BERT模型的输出,得到软件问答社区标注样本数据的词向量表示序列:C=(c1,c2,…,cn);
Step4:将Step3中得到软件问答社区单词序列向量C=(c1,c2,…,cn)输入到BiGRU-CRF模型进行软件编程领域实体识别,具体步骤为:
Step4.1:把Step3中输出的序列向量C=(c1,c2,…,cn)输入双向循环神经网络BiGRU进行模型训练;
GRU输入为前一时刻隐藏层ht-1和当前输入xt,输出为下一时刻隐藏层信息ht;
rt=σ(Wr·[ht-1,xt]) (2)
zt=σ(Wz·[ht-1,xt]) (3)
Step4.2:在BiGRU双向神经网络的hidden层之后接入CRF层,把通过BiGRU模型得到的每个单词对应的标签概率作为条件随机场CRF的输入,CRF通过统计标签直接的转移概率对双向循环神经网络的结果加以限制从而得到测试集数据的最终预测结果;
对于输入序列X=(x1,x2,…,xn)和对应的标签序列Y=(y1,y2,…,yn),通过式(5)进行分数评估:
标签序列y的最大概率用SoftMax函数计算,见式(6):
对于训练集和(xi,yi)采用最大条件似然函数评估,见式(7):
Step5:采用精确率、准确率、召回率和F1值对模型结果进行评价。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011007465.1A CN112149421A (zh) | 2020-09-23 | 2020-09-23 | 一种基于bert嵌入的软件编程领域实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011007465.1A CN112149421A (zh) | 2020-09-23 | 2020-09-23 | 一种基于bert嵌入的软件编程领域实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112149421A true CN112149421A (zh) | 2020-12-29 |
Family
ID=73897772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011007465.1A Pending CN112149421A (zh) | 2020-09-23 | 2020-09-23 | 一种基于bert嵌入的软件编程领域实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112149421A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076127A (zh) * | 2021-04-25 | 2021-07-06 | 南京大学 | 编程环境下问答内容的提取方法、系统、电子设备及介质 |
CN113204679A (zh) * | 2021-04-13 | 2021-08-03 | 武汉大学 | 一种代码查询模型的生成方法和计算机设备 |
CN113282977A (zh) * | 2021-03-19 | 2021-08-20 | 广州天越电子科技有限公司 | 一种基于NLP技术bert模型的CAD中文输入快捷命令方法 |
CN113591475A (zh) * | 2021-08-03 | 2021-11-02 | 美的集团(上海)有限公司 | 无监督可解释分词的方法、装置和电子设备 |
CN113688911A (zh) * | 2021-08-26 | 2021-11-23 | 安徽咪鼠科技有限公司 | 一种基于softmax的文本多标签分类方法 |
CN113779988A (zh) * | 2021-09-07 | 2021-12-10 | 科大国创云网科技有限公司 | 一种通信领域过程类知识事件抽取方法 |
CN113869054A (zh) * | 2021-10-13 | 2021-12-31 | 天津大学 | 一种基于深度学习的电力领域项目特征识别方法 |
CN113869055A (zh) * | 2021-10-13 | 2021-12-31 | 天津大学 | 基于深度学习的电网项目特征属性识别方法 |
CN114035783A (zh) * | 2021-11-10 | 2022-02-11 | 成都淞幸科技有限责任公司 | 一种软件代码知识图谱构建方法及工具 |
CN114580422A (zh) * | 2022-03-14 | 2022-06-03 | 昆明理工大学 | 一种结合近邻分析的两阶段分类的命名实体识别方法 |
CN114757191A (zh) * | 2022-03-29 | 2022-07-15 | 国网江苏省电力有限公司营销服务中心 | 基于深度学习的电力舆情领域命名实体识别方法系统 |
CN115469860A (zh) * | 2022-10-28 | 2022-12-13 | 山东大学 | 基于指令集的需求到软件领域模型的自动生成方法及系统 |
CN116010583A (zh) * | 2023-03-17 | 2023-04-25 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种级联耦合的知识增强对话生成方法 |
CN116910646A (zh) * | 2023-07-04 | 2023-10-20 | 南京航空航天大学 | So网站中知识单元的内部链接目的分类方法 |
CN117493568A (zh) * | 2023-11-09 | 2024-02-02 | 中安启成科技有限公司 | 一种端到端软件功能点提取与识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388560A (zh) * | 2018-03-17 | 2018-08-10 | 北京工业大学 | 基于语言模型的gru-crf会议名称识别方法 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
-
2020
- 2020-09-23 CN CN202011007465.1A patent/CN112149421A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388560A (zh) * | 2018-03-17 | 2018-08-10 | 北京工业大学 | 基于语言模型的gru-crf会议名称识别方法 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113282977A (zh) * | 2021-03-19 | 2021-08-20 | 广州天越电子科技有限公司 | 一种基于NLP技术bert模型的CAD中文输入快捷命令方法 |
CN113204679A (zh) * | 2021-04-13 | 2021-08-03 | 武汉大学 | 一种代码查询模型的生成方法和计算机设备 |
CN113076127A (zh) * | 2021-04-25 | 2021-07-06 | 南京大学 | 编程环境下问答内容的提取方法、系统、电子设备及介质 |
CN113076127B (zh) * | 2021-04-25 | 2023-08-29 | 南京大学 | 编程环境下问答内容的提取方法、系统、电子设备及介质 |
WO2022226714A1 (zh) * | 2021-04-25 | 2022-11-03 | 南京大学 | 编程环境下问答内容的提取方法、系统、电子设备及介质 |
CN113591475A (zh) * | 2021-08-03 | 2021-11-02 | 美的集团(上海)有限公司 | 无监督可解释分词的方法、装置和电子设备 |
CN113688911A (zh) * | 2021-08-26 | 2021-11-23 | 安徽咪鼠科技有限公司 | 一种基于softmax的文本多标签分类方法 |
CN113779988A (zh) * | 2021-09-07 | 2021-12-10 | 科大国创云网科技有限公司 | 一种通信领域过程类知识事件抽取方法 |
CN113869054A (zh) * | 2021-10-13 | 2021-12-31 | 天津大学 | 一种基于深度学习的电力领域项目特征识别方法 |
CN113869055A (zh) * | 2021-10-13 | 2021-12-31 | 天津大学 | 基于深度学习的电网项目特征属性识别方法 |
CN113869054B (zh) * | 2021-10-13 | 2024-07-26 | 天津大学 | 一种基于深度学习的电力领域项目特征识别方法 |
CN114035783A (zh) * | 2021-11-10 | 2022-02-11 | 成都淞幸科技有限责任公司 | 一种软件代码知识图谱构建方法及工具 |
CN114580422A (zh) * | 2022-03-14 | 2022-06-03 | 昆明理工大学 | 一种结合近邻分析的两阶段分类的命名实体识别方法 |
CN114757191A (zh) * | 2022-03-29 | 2022-07-15 | 国网江苏省电力有限公司营销服务中心 | 基于深度学习的电力舆情领域命名实体识别方法系统 |
CN115469860B (zh) * | 2022-10-28 | 2023-02-17 | 山东大学 | 基于指令集的需求到软件领域模型的自动生成方法及系统 |
CN115469860A (zh) * | 2022-10-28 | 2022-12-13 | 山东大学 | 基于指令集的需求到软件领域模型的自动生成方法及系统 |
CN116010583A (zh) * | 2023-03-17 | 2023-04-25 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种级联耦合的知识增强对话生成方法 |
CN116010583B (zh) * | 2023-03-17 | 2023-07-18 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种级联耦合的知识增强对话生成方法 |
CN116910646A (zh) * | 2023-07-04 | 2023-10-20 | 南京航空航天大学 | So网站中知识单元的内部链接目的分类方法 |
CN116910646B (zh) * | 2023-07-04 | 2024-02-09 | 南京航空航天大学 | So网站中知识单元的内部链接目的分类方法 |
CN117493568A (zh) * | 2023-11-09 | 2024-02-02 | 中安启成科技有限公司 | 一种端到端软件功能点提取与识别方法 |
CN117493568B (zh) * | 2023-11-09 | 2024-04-19 | 中安启成科技有限公司 | 一种端到端软件功能点提取与识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112149421A (zh) | 一种基于bert嵌入的软件编程领域实体识别方法 | |
CN111177326B (zh) | 基于精标注文本的关键信息抽取方法、装置及存储介质 | |
CN111639171A (zh) | 一种知识图谱问答方法及装置 | |
CN111985239A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN108121702A (zh) | 数学主观题评阅方法及系统 | |
CN110457585B (zh) | 负面文本的推送方法、装置、系统及计算机设备 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN113191148A (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN113505589B (zh) | 一种基于bert模型的mooc学习者认知行为识别方法 | |
CN113160917B (zh) | 一种电子病历实体关系抽取方法 | |
CN113779227B (zh) | 案情事实抽取方法及系统及装置及介质 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN112966117A (zh) | 实体链接方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
Agarwal et al. | Autoeval: A nlp approach for automatic test evaluation system | |
CN114492460B (zh) | 基于衍生提示学习的事件因果关系抽取方法 | |
CN114648029A (zh) | 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法 | |
CN107783958B (zh) | 一种目标语句识别方法及装置 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN112667819A (zh) | 一种实体描述推理知识库构建与推理证据量化信息获取方法和装置 | |
CN114595329B (zh) | 一种原型网络的少样本事件抽取系统及方法 | |
CN116127954A (zh) | 一种基于词典的新工科专业中文知识概念抽取方法 | |
CN115130475A (zh) | 一种可扩展的通用端到端命名实体识别方法 | |
CN115270713A (zh) | 一种人机协同语料库构建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |