CN113934837A - 基于预训练模型的关键短语生成方法、装置及储存介质 - Google Patents
基于预训练模型的关键短语生成方法、装置及储存介质 Download PDFInfo
- Publication number
- CN113934837A CN113934837A CN202111072717.3A CN202111072717A CN113934837A CN 113934837 A CN113934837 A CN 113934837A CN 202111072717 A CN202111072717 A CN 202111072717A CN 113934837 A CN113934837 A CN 113934837A
- Authority
- CN
- China
- Prior art keywords
- words
- word
- module
- phrases
- combination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 title claims abstract description 23
- 230000011218 segmentation Effects 0.000 claims abstract description 13
- 230000009849 deactivation Effects 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims description 22
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000001174 ascending effect Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000001914 filtration Methods 0.000 abstract description 2
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 230000009466 transformation Effects 0.000 abstract 1
- 230000015572 biosynthetic process Effects 0.000 description 19
- 238000003786 synthesis reaction Methods 0.000 description 19
- 238000004891 communication Methods 0.000 description 11
- 230000003321 amplification Effects 0.000 description 9
- 238000003199 nucleic acid amplification method Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 230000010354 integration Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于训练模型的关键短语生成方法,包括:S1、获取待处理的文本数据;S2、对获取的文本数据进行分词和词性标注;S3、建立停用词库,去除存在于停用词库中的词;过滤掉不是动词和名词的词语;S4、进行N‑gram组合,得到候选词组合;S5、基于Bert的预训练模型分别对文本数据和候选词组合进行文本向量转化;S6、对文档级别的向量表示和候选词向量表示进行余弦相似度计算,进行语义相似度排序;S7、根据设定值选取S6中语义相似度排序靠前的词或短语形成关键词。本发明利用开源的预训练模型Bert进行文本向量化表示,较为完整获取文本语义层面的信息,有助于关键词的提取,根据N‑gram组合获取短语级别的关键词,相比单个的词语意思更加完整。
Description
技术领域
本发明涉及文自然语言处理领域,具体涉及基于预训练模型的关键短语生成方法、装置及储存介质,用以识别和提取文档中的关键短语内容,过滤多余内容,快速获取有价值的信息。
背景技术
传统的关键词提取算法分为无监督方法和有监督方法两大类,基于有监督学习的关键词分类方法如申请号为CN202010880346.0的发明专利公开的训练关键短语标识模型的方法、装置、设备和存储介质,该类方法实施的前提是需要有大量的文本预料以及对应的是否为关键词标签,以及加上大量的神经网络模型的训练才能获取有效的模型,因此其获取成本较高、流程繁琐,在无大量标注数据和计算资源场景下并不适用。
无监督方法中通用的是基于TF-IDF的关键词提取方法,存在关键词力度较小、关键词散乱或偏离主题较远,导致提取的关键词不能表达文本整体的语义,现有技术如申请号为CN201710369600.9的发明专利所公开的一种基于改进TF-IDF关键词提取算法以及申请号为CN201410056332.1的发明专利公开的一种专利文献关键短语自动提取方法。
发明内容
为了解决现有技术中存在的问题,本发明提供了一种基于预训练模型的关键短语生成方法、装置及存储介质,基于深度学习预训练模型(Bert),通过中文分词、词性标注、去停用词、相邻关键词组合、基于Bert的文本篇章级别的向量表示、词语级别的文本向量表示、基于余弦相似度筛选关键候选词。
本发明的技术目的是通过以下技术方案实现的:
一种基于训练模型的关键短语生成方法,该方法包括以下步骤:
S1、获取待处理的文本数据;
S2、对获取的文本数据进行分词和词性标注;
S3、建立停用词库,去除存在于停用词库中的词;此外过滤掉步骤S2中词性标注不是动词和名词的词语;
S4、对S3中的结果进行N-gram组合,得到候选词组合;
S5、基于Bert的预训练模型分别对S1中的文本数据和S4中的候选词组合进行文本向量转化,分别得到文本数据的文档级别的向量表示和候选词组合的候选词向量表示;
S6、对文档级别的向量表示和候选词向量表示进行余弦相似度计算,得到每个词或短语与文本数据整体之间的语义相似度;得到每个词或短语的语义相似度排序;
S7、根据设定值选取S6中语义相似度排序靠前的词或短语形成关键词。
进一步地,在步骤S4中,将相邻位置的词组合形成短语,再将短语添加到N-gram组合前的词形成候选词组合。
进一步地,在步骤S4中N=1或N=2或N=3。
一种基于预训练模型的关键短语生成装置,该装置包括:
文本获取单元,用于获取原始文本;
分词模块,用以将获取的原始文本分为若干词语;
词性标注模块,用以对分词模块分出的词语进行词性标注;
提取模块,用以根据词性筛选条件提取词语;
短语组合模块,用以将提取模块所提取的词语进行组合形成短语;
预训练模型,借助预训练模型对原始文本进行向量化表示,对提取模块提取的词语进行向量化表示,对短语组合模块组合形成的短语进行向量化表示;
判断模块,计算提取模块所提取的词语和原始文本的语义相似度以及短语组合模块组合形成的短语和原始文本的语义相似度,并根据语义相似度对短语及提取模块提取的词语进行降序或升序排列;
关键词提取模块,用以根据语义相似度排名从提取判断模块计算的词语和短语中提取关键词。
进一步地,提取模块提取词性标注为名词和动词的词语,并按照提取的词语在原始文本中的顺序排列。
进一步地,短语组合模块借助N-gram模型进行词语组合形成短语。
进一步地,所述预训练模型为Bert模型。
一种计算机存储介质,计算机存储介质中存储有计算机程序,计算机程序在运行时按照S1-S7的方法执行。
相比现有技术,本发明的有益效果在于:
1、本发明采用无监督的方式从原始文本中提取关键词,减少了对数据收集的依赖和对计算资源的依赖;
2、根据N-gram组合获取短语级别的关键词,相比单个的词语意思更加完整;
3、利用开源的预训练模型Bert进行文本向量化表示,可以较为完整获取文本语义层面的信息,有助于关键词的提取。
附图说明
图1是本发明的基于预训练模型的关键短语生成方法流程示意图。
具体实施方式
下面结合具体实施方式对本发明的技术方案进行进一步描述:
一种基于与训练模型的关键短语生成方法,该方法包括以下步骤:
S1、获取待处理的文本数据;
比如输入的文本内容为:“基于单片机与FPGA的波形发生器,核心技术是直接数字频率合成。FPGA集成了固定分频器、单片机通信模块、波形合成器及波形选择等模块,其输出的8位数据通过D/A转换并经功率放大后即得所需波形。单片机控制键盘与显示模块,提供了良好的人机界面。经过设计和电路测试,系统能产生正弦波、三角波和方波等波形,控制灵活,输出波形性能良好”
S2、对获取的文本数据进行分词和词性标注;
将获取的原始文本信息进行分词和词性标注,分词和词性标注的的方法属于现有技术,此处不再赘述,如选用百度开源接入的LAC工具,得到如下分词、标注结果:
[('基于','p'),('单片机','n'),('与','p'),('FPGA','nz'),('的','u'),('波形发生器','n'),(',','w'),('核心','n'),('技术','n'),('是','v'),('直接数字频率合成','v'),('FPGA','nz'),('集成','v'),('了','u'),('固定分频器/','nz'),('单片机','nz'),('通信','nz'),('模块','nz'),('/','w'),('波形合成','n'),('器','n'),('及','c'),('波形','n'),('选择','vn'),('等','u'),('模块','n'),(',','w'),('其','r'),('输出','v'),('的','u'),('8位数','m'),('据','p'),('通过','p'),('D/A','nz'),('转换','v'),('并','c'),('经','p'),('功率','n'),('放大','v'),('后','f'),('即','d'),('得','v'),('所需','v'),('波形','n'),('单片机','n'),('控制',‘v’),('键盘','n'),('与','c'),('显示','v'),('模块','n'),(',','w'),('提供','v'),('了','u'),('良好','a'),('的','u'),('人机界面','n'),('经过','p'),('设计','vn'),('和','c'),('电路','n'),('测试','vn'),(',','w'),('系统','n'),('能','v'),('产生','v'),('正弦波','n'),('/','w'),('三角波','n'),('和','c'),('方波','n'),('等','u'),('波形','n'),(',','w'),('控制','v'),('灵活','a'),(',','w'),('输出','vn'),('波形','n'),('性能','n'),('良好','a')]
其中,n表示名词,f表示方位名词,r表示代词,p表示介词,d表示副词,m表示数量词,nz表示其他专名,u表示助词,a表示形容词,w表示标点符号,v表示动词,c表示连词,vn表示名动词;还有PER表示人名,ad表示副形词,q表示量词,LOC表示地名,s表示处所名词,vd表示动副词,an表示名形词,xc表示其他虚词,ORG表示机构名,nw表示作品名,TIME表示时间。
S3、建立通用的停用词库,去除存在于停用词库中的词;此外过滤掉步骤S2中词性标注不是动词和名词的词语;
遍历预先建立的停用词库,如果在停用词库中找到相同的词语,将从文本中的该词语剔除;此外,根据词性标注选取词性标注为名词和动词的词语,得到如下结果:
['单片机','FPGA','波形发生器','核心','技术','直接数字频率合成','FPGA','集成','固定分频器/','单片机','通信','模块','波形合成','器','波形','模块','输出','D/A','转换','功率','放大','所需','波形','单片机','键盘','显示','模块','提供','人机界面','电路','系统','能','产生','正弦波','三角波','方波','波形','波形','性能']
S4、对S3中的结果进行N-gram组合,得到候选词组合;
N的值可以是1,也可以是2,也可以是3,当N等于1时,每个词都是独立的分布的;当N等于2时,每个词都与与之相邻的一个词有关;当N等于3时,每个词都与与之相邻的两个词有关。
以N=2为例,对词语进行组合得到以下短语:
['单片机FPGA','FPGA波形发生器','波形发生器核心','核心技术','技术直接数字频率合成','直接数字频率合成FPGA','FPGA集成','集成固定分频器/','固定分频器/单片机','单片机通信','通信模块','模块波形合成','波形合成器','器波形','波形模块','模块输出','输出D/A','D/A转换','转换功率','功率放大','放大所需','所需波形','波形单片机','单片机键盘','键盘显示','显示模块','模块提供','提供人机界面','人机界面电路','电路系统','系统能','能产生','产生正弦波','正弦波三角波','三角波方波','方波波形','波形波形','波形性能']
将短语和组合前的词语进行汇总,得到如下集合:
['单片机FPGA','FPGA波形发生器','波形发生器核心','核心技术','技术直接数字频率合成','直接数字频率合成FPGA','FPGA集成','集成固定分频器/','固定分频器/单片机','单片机通信','通信模块','模块波形合成','波形合成器','器波形','波形模块','模块输出','输出D/A','D/A转换','转换功率','功率放大','放大所需','所需波形','波形单片机','单片机键盘','键盘显示','显示模块','模块提供','提供人机界面','人机界面电路','电路系统','系统能','能产生','产生正弦波','正弦波三角波','三角波方波','方波波形','波形波形','波形性能','单片机','FPGA','波形发生器','核心','技术','直接数字频率合成','FPGA','集成','固定分频器/','单片机','通信','模块','波形合成','器','波形','模块','输出','D/A','转换','功率','放大','所需','波形','单片机','键盘','显示','模块','提供','人机界面','电路','系统','能','产生','正弦波','三角波','方波','波形','波形','性能']
S5、基于Bert的预训练模型分别对S1中的文本数据和S4中的候选词组合进行文本向量转化,分别得到文本数据的文档级别的向量表示和候选词组合的候选词向量表示;Bert预训练模型是由Google AI团队提出的预训练语言模型BERT(Bidirectional EncoderRepresentations from Transformers),该模型先使用大量无监督语料进行语言模型预训练(Pre-training),再使用少量标注语料进行微调(Fine-tuning)来完成具体NLP任务(分类、序列标注、句间关系判断和机器阅读理解等),离线的模型可以提供文本的向量表示能力,获得文本的基于上下文的语义信息。
S6、对文档级别的向量表示和候选词向量表示进行余弦相似度计算,得到每个词及短语与文本数据整体之间的语义相似度;得到每个词或短语的语义相似度排序;
以候选词“波形合成”为例:
Score(波形合成)=cosine_similarity(encoder(Text),encoder(波形合成))
其中:cosine_similarity:向量的余弦相似度计算方法;
encoder:基于Bert的预训练模型,输入文本,输出768维的向量表示;
Text:获取的文本;
encoder(Text):获得文档级别的文档向量表示;
encoder(波形合成):得到词‘波形合成’的向量表示。
通过计算获取每个词与文本数据整体之间的语义相似度以及每个短语与文本数据整体之间的语义相似度,并根据语义相似度进行降序排列或升序排列;本实施例中选取降序的方式进行排列。
S7、根据设定值选取S6中语义相似度排序靠前的词或短语形成关键词。如果是降序方式排列的,选取语义相似度靠前的M的词或短语,M根据需要进行设定;如果是采取降序方式排列的。
比如输出的关键词结果如下:
[{'value':'波形合成','score':0.5080477},
{'value':'波形发生器','score':0.46826917},
{'value':'固定分频器','score':0.45810807},
{'value':'人机界面','score':0.38156873},
{'value':'正弦波','score':0.3615404},
{'value':'单片机','score':0.35427338},
{'value':'FPGA','score':0.27511185}]
选取语义相似度(score)值靠前的词或短语,设定选取排名前三的词或短语,则以“波形合成”、“波形发生器”、“固定分频器”作为关键短语输出。
一种基于预训练模型的关键短语生成装置,该装置包括:
文本获取单元,用于而获取原始文本;
分词模块,用以将获取的原始文本分为若干词语;
词性标注模块,用以对分词模块分出的词语进行词性标注;
提取模块,用以根据词性筛选条件提取词语,提取模块提取词性标注为名词和动词的词语,并按照提取的词语在原始文本中的顺序排列;
短语组合模块,借助N-gram模型将提取模块所提取的词语进行组合形成短语;
预训练模型,预训练模型为Bert模型,借助预训练模型对原始文本进行向量化表示,对提取模块提取的词语进行向量化表示,对短语组合模块组合形成的短语进行向量化表示;
判断模块,计算提取模块所提取的词语和原始文本的语义相似度以及短语组合模块组合形成的短语和原始文本的语义相似度,并根据语义相似度对短语及提取模块提取的词语进行降序或升序排列;
关键词提取模块,用以根据语义相似度排名从提取判断模块计算的词语和短语中提取关键词。
一种计算机存储介质,计算机存储介质中存储有计算机程序,计算机程序在运行时按照如下方法执行:
S1、获取待处理的文本数据;
S2、对获取的文本数据进行分词和词性标注;
S3、建立停用词库,去除存在于停用词库中的词;此外过滤掉步骤S2中词性标注不是动词和名词的词语;
S4、对S3中的结果进行N-gram组合,得到候选词组合;将相邻位置的词组合形成短语,再将短语添加到N-gram组合前的词形成候选词组合;N=1或N=2或N=3;
S5、基于Bert的预训练模型分别对S1中的文本数据和S4中的候选词组合进行文本向量转化,分别得到文本数据的文档级别的向量表示和候选词组合的候选词向量表示;
S6、对文档级别的向量表示和候选词向量表示进行余弦相似度计算,得到每个词或短语与文本数据整体之间的语义相似度;得到每个词或短语的语义相似度排序;
S7、根据设定值选取S6中语义相似度排序靠前的词或短语形成关键词。
本实施例只是对本发明的进一步解释,并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性的修改,但是只要在本发明的权利要求范围内都受到专利法的保护。
Claims (8)
1.一种基于训练模型的关键短语生成方法,其特征在于,该方法包括以下步骤:
S1、获取待处理的文本数据;
S2、对获取的文本数据进行分词和词性标注;
S3、建立停用词库,去除存在于停用词库中的词;此外过滤掉步骤S2中词性标注不是动词和名词的词语;
S4、对S3中的结果进行N-gram组合,得到候选词组合;
S5、基于Bert的预训练模型分别对S1中的文本数据和S4中的候选词组合进行文本向量转化,分别得到文本数据的文档级别的向量表示和候选词组合的候选词向量表示;
S6、对文档级别的向量表示和候选词向量表示进行余弦相似度计算,得到每个词或短语与文本数据整体之间的语义相似度;得到每个词或短语的语义相似度排序;
S7、根据设定值选取S6中语义相似度排序靠前的词或短语形成关键词。
2.根据权利要求1所述的一种基于训练模型的关键短语生成方法,其特征在于,在步骤S4中,将相邻位置的词组合形成短语,再将短语添加到N-gram组合前的词形成候选词组合。
3.根据权利要求2所述的一种基于训练模型的关键短语生成方法,其特征在于,在步骤S4中N=1或N=2或N=3。
4.一种基于预训练模型的关键短语生成装置,其特征在于,该装置包括:
文本获取单元,用于而获取原始文本;
分词模块,用以将获取的原始文本分为若干词语;
词性标注模块,用以对分词模块分出的词语进行词性标注;
提取模块,用以根据词性筛选条件提取词语;
短语组合模块,用以将提取模块所提取的词语进行组合形成短语;
预训练模型,借助预训练模型对原始文本进行向量化表示,对提取模块提取的词语进行向量化表示,对短语组合模块组合形成的短语进行向量化表示;
判断模块,计算提取模块所提取的词语和原始文本的语义相似度以及短语组合模块组合形成的短语和原始文本的语义相似度,并根据语义相似度对短语及提取模块提取的词语进行降序或升序排列;
关键词提取模块,用以根据语义相似度排名从提取判断模块计算的词语和短语中提取关键词。
5.根据权利要求4所述的一种基于预训练模型的关键短语生成装置,其特征在于,所述提取模块提取词性标注为名词和动词的词语,并按照提取的词语在原始文本中的顺序排列。
6.根据权利要求4所述的一种基于预训练模型的关键短语生成装置,其特征在于,所述短语组合模块借助N-gram模型进行词语组合形成短语。
7.根据权利要求4所述的一种基于预训练模型的关键短语生成装置,其特征在于,所述预训练模型为Bert模型。
8.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机程序,所述计算机程序在运行时按照如权利要求1-3所述的任意一项权利要求所述的方法执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111072717.3A CN113934837A (zh) | 2021-09-14 | 2021-09-14 | 基于预训练模型的关键短语生成方法、装置及储存介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111072717.3A CN113934837A (zh) | 2021-09-14 | 2021-09-14 | 基于预训练模型的关键短语生成方法、装置及储存介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113934837A true CN113934837A (zh) | 2022-01-14 |
Family
ID=79275738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111072717.3A Pending CN113934837A (zh) | 2021-09-14 | 2021-09-14 | 基于预训练模型的关键短语生成方法、装置及储存介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113934837A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114781379A (zh) * | 2022-06-22 | 2022-07-22 | 中科雨辰科技有限公司 | 一种获取关键短语的数据处理系统 |
CN114936551A (zh) * | 2022-04-28 | 2022-08-23 | 北京明朝万达科技股份有限公司 | 一种基于词义相似度的智能数据治理方法和系统 |
CN115048515A (zh) * | 2022-06-09 | 2022-09-13 | 广西力意智能科技有限公司 | 文档分类方法、装置、设备和存储介质 |
CN115964474A (zh) * | 2022-12-29 | 2023-04-14 | 企知道网络技术有限公司 | 一种政策关键词抽取方法、装置、存储介质及电子设备 |
CN116956835A (zh) * | 2023-09-15 | 2023-10-27 | 京华信息科技股份有限公司 | 一种基于预训练语言模型的文书生成方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274806A (zh) * | 2020-01-20 | 2020-06-12 | 医惠科技有限公司 | 分词和词性识别方法、装置及电子病历的分析方法、装置 |
CN111611807A (zh) * | 2020-05-18 | 2020-09-01 | 北京邮电大学 | 一种基于神经网络的关键词提取方法、装置及电子设备 |
CN111651986A (zh) * | 2020-04-28 | 2020-09-11 | 银江股份有限公司 | 事件关键词提取方法、装置、设备及介质 |
CN112214989A (zh) * | 2020-10-19 | 2021-01-12 | 扬州大学 | 一种基于bert的汉语句子简化方法 |
CN112395875A (zh) * | 2020-11-17 | 2021-02-23 | 中国平安人寿保险股份有限公司 | 一种关键词提取方法、装置、终端以及存储介质 |
WO2021051871A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 文本抽取方法、装置、设备及存储介质 |
CN112883171A (zh) * | 2021-02-02 | 2021-06-01 | 中国科学院计算技术研究所 | 基于bert模型的文档关键词抽取方法及装置 |
CN113268995A (zh) * | 2021-07-19 | 2021-08-17 | 北京邮电大学 | 中文学术关键词抽取方法、装置和存储介质 |
-
2021
- 2021-09-14 CN CN202111072717.3A patent/CN113934837A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021051871A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 文本抽取方法、装置、设备及存储介质 |
CN111274806A (zh) * | 2020-01-20 | 2020-06-12 | 医惠科技有限公司 | 分词和词性识别方法、装置及电子病历的分析方法、装置 |
CN111651986A (zh) * | 2020-04-28 | 2020-09-11 | 银江股份有限公司 | 事件关键词提取方法、装置、设备及介质 |
CN111611807A (zh) * | 2020-05-18 | 2020-09-01 | 北京邮电大学 | 一种基于神经网络的关键词提取方法、装置及电子设备 |
CN112214989A (zh) * | 2020-10-19 | 2021-01-12 | 扬州大学 | 一种基于bert的汉语句子简化方法 |
CN112395875A (zh) * | 2020-11-17 | 2021-02-23 | 中国平安人寿保险股份有限公司 | 一种关键词提取方法、装置、终端以及存储介质 |
CN112883171A (zh) * | 2021-02-02 | 2021-06-01 | 中国科学院计算技术研究所 | 基于bert模型的文档关键词抽取方法及装置 |
CN113268995A (zh) * | 2021-07-19 | 2021-08-17 | 北京邮电大学 | 中文学术关键词抽取方法、装置和存储介质 |
Non-Patent Citations (1)
Title |
---|
詹飞;朱艳辉;梁文桐;冀相冰;: "基于BERT和TextRank关键词提取的实体链接方法", 湖南工业大学学报, no. 04, 15 July 2020 (2020-07-15) * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114936551A (zh) * | 2022-04-28 | 2022-08-23 | 北京明朝万达科技股份有限公司 | 一种基于词义相似度的智能数据治理方法和系统 |
CN115048515A (zh) * | 2022-06-09 | 2022-09-13 | 广西力意智能科技有限公司 | 文档分类方法、装置、设备和存储介质 |
CN114781379A (zh) * | 2022-06-22 | 2022-07-22 | 中科雨辰科技有限公司 | 一种获取关键短语的数据处理系统 |
CN114781379B (zh) * | 2022-06-22 | 2022-09-16 | 中科雨辰科技有限公司 | 一种获取关键短语的数据处理系统 |
CN115964474A (zh) * | 2022-12-29 | 2023-04-14 | 企知道网络技术有限公司 | 一种政策关键词抽取方法、装置、存储介质及电子设备 |
CN116956835A (zh) * | 2023-09-15 | 2023-10-27 | 京华信息科技股份有限公司 | 一种基于预训练语言模型的文书生成方法 |
CN116956835B (zh) * | 2023-09-15 | 2024-01-02 | 京华信息科技股份有限公司 | 一种基于预训练语言模型的文书生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113934837A (zh) | 基于预训练模型的关键短语生成方法、装置及储存介质 | |
CN108304468B (zh) | 一种文本分类方法以及文本分类装置 | |
CN111611810B (zh) | 一种多音字读音消歧装置及方法 | |
CN111046656B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN103314369B (zh) | 机器翻译装置和方法 | |
Banik et al. | Gru based named entity recognition system for bangla online newspapers | |
CN114707503B (zh) | 基于多任务学习的前端文本分析方法 | |
Zhao et al. | Classification of natural language processing techniques for requirements engineering | |
Gutiérrez-Fandiño et al. | Spanish legalese language model and corpora | |
WO2023098971A1 (en) | Method and apparatus for self-supervised extractive question answering | |
Bouziane et al. | Toward an arabic question answering system over linked data | |
KR20080029417A (ko) | 시맨틱 웹 어노테이션을 위한 웹 문서의 자동 의미정보추출 방법 및 그 시스템 | |
CN114974310A (zh) | 基于人工智能的情感识别方法、装置、计算机设备及介质 | |
CN113590768B (zh) | 一种文本关联度模型的训练方法及装置、问答方法及装置 | |
CN114328860A (zh) | 一种基于多模型匹配的交互咨询方法、装置和电子设备 | |
Raza et al. | Saraiki Language Word Prediction And Spell Correction Framework | |
Myint | Assigning automatically Part-of-Speech tags to build tagged corpus for Myanmar language | |
Gharat et al. | Natural language processing theory applications and difficulties | |
Dhivyashree et al. | A Combined Model of NLP with Business Process Modelling for Sentiment Analysis | |
Oh et al. | Question understanding based on sentence embedding on dialog systems for banking service | |
Masethe et al. | Word sense disambiguation pipeline framework for low resourced morphologically rich languages | |
Wen et al. | Improving Extraction of Chinese Open Relations Using Pre-trained Language Model and Knowledge Enhancement | |
Aparna et al. | A review on different approaches of pos tagging in NLP | |
Li et al. | Research on Keywords Variations in Linguistics Based on TF-IDF and N-gram | |
CN114036946B (zh) | 一种文本特征提取及辅助检索的系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |