CN111651986B - 事件关键词提取方法、装置、设备及介质 - Google Patents
事件关键词提取方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN111651986B CN111651986B CN202010352088.9A CN202010352088A CN111651986B CN 111651986 B CN111651986 B CN 111651986B CN 202010352088 A CN202010352088 A CN 202010352088A CN 111651986 B CN111651986 B CN 111651986B
- Authority
- CN
- China
- Prior art keywords
- event
- layer
- text data
- keywords
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000010586 diagram Methods 0.000 claims abstract description 17
- 238000012216 screening Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 38
- 238000002372 labelling Methods 0.000 claims description 16
- 230000000873 masking effect Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 208000015181 infectious disease Diseases 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 7
- 206010035664 Pneumonia Diseases 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- FMGBNISRFNDECK-CZSBRECXSA-N Coronatine Chemical compound CC[C@H]1C[C@]1(C(O)=O)NC(=O)C1=C[C@H](CC)C[C@@H]2C(=O)CC[C@H]12 FMGBNISRFNDECK-CZSBRECXSA-N 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- FMGBNISRFNDECK-UHFFFAOYSA-N coronatine Natural products CCC1CC1(C(O)=O)NC(=O)C1=CC(CC)CC2C(=O)CCC12 FMGBNISRFNDECK-UHFFFAOYSA-N 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000004072 lung Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种事件关键词提取方法,涉及自然语言处理技术领域,用于解决现有事件提取不准确的问题,该方法包括以下步骤:获取文本数据及所述文本数据的标注数据;将所述文本数据及所述标注数据以句子形式输入第一BERT模型进行训练,得到句子层关键词;对第二BERT模型进行模型精调,得到文档层关键词;生成事件关系图;根据所述事件关系图筛选出符合预设条件的若干文档层关键词作为事件关键词。本发明还公开了一种事件关键词提取装置、电子设备和计算机存储介质。本发明通过对半监督的方法进行关键词提取,并通过事件关系图实现关键词筛选。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种事件关键词提取方法、 装置、设备及介质。
背景技术
文本结构化技术被广泛应用于数据预处理、数据分析、知识图谱、数据 搜索、内容推荐等领域。随着数据增长越来越快,噪声数据将有用数据淹没的可能性也随之变大;为了去除噪声,以提取重要信息,文本结构化技术, 尤其是事件提取的方法成为了目前重点研究的方向。
现有技术开始使用BERT模型及其相关方法来进行事件的提取,对事件 进行提取时,通常只提取其中最重要的一句话,并对其进行属性信息(时间,地点等)补充,以作为文档级事件的提取结果。但是,由于文档信息的碎片化,有效信息分散在多个句子中,导致该方法容易产生较大的信息损失,适用对 象有限,通常只能应用于金融新闻快讯等领域。
现有技术还有使用迁移句子进行时间提取的方法,其通过统计分析、有 向图等方式找出文档重点及高频事件,作为提取结果,但是此方法会使得上下文间的相关性被简化,导致信息损失较大。
此外,现有的事件提取方法都需要大量的文档标注文本,但是以文档为 标注对象的语料标注难度大,获取成本高。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种事件关键词 提取方法,其通过句子层模型的有监督训练结合文档层模型的无监督训练,并通过事件关系图实现文档关键词的提取。
本发明的目的之一采用以下技术方案实现:
一种事件关键词提取方法,包括以下步骤:
获取文本数据及所述文本数据的标注数据;
将所述文本数据及所述标注数据以句子形式输入第一BERT模型进行训 练,得到句子层关键词;
将所述句子层关键词作为掩码对象,将所述文本数据以文档形式输入第 二BERT模型进行模型精调,得到文档层关键词;
计算所述文档层关键词的自注意系数,根据所述自注意系数生成事件关 系图;
根据所述事件关系图筛选出符合预设条件的若干文档层关键词作为事件 关键词。
进一步地,将所述文本数据及所述标注数据以句子形式输入第一BERT 模型进行训练,得到句子层关键词,包括以下步骤:
将所述文本数据划分为若干句子,将所述若干句子导入所述第一BERT 模型进行模型精调;
将所述若干句子分别进行字符切分,将得到的字符转换为字符向量;
将所述字符向量及所述标注数据输入精调后的所述第一BERT模型进行 训练;
得到所述文本数据的预测标注类型,根据所述标注类型,从所述文本数 据中映射到对应位置的词,得到句子层关键词。
进一步地,将所述文本数据以句子为单位导入所述第一BERT模型进行 模型精调,包括以下步骤:
将所述文本数据以句子为单位拆分成字符;
将所述字符转换为字符向量,并进行随机字符掩码,输入所述第一BERT 模型得到所述字符掩码处的预测值;
根据所述预测值与真实值的误差更新所述第一BERT模型的参数。
进一步地,将所述句子层关键词作为掩码对象,将所述文本数据以文档 形式输入第二BERT模型进行模型精调,得到文档层关键词,包括以下步骤:
以文档为单位,将所述文本数据分成字符;
将所述字符转换为字符向量,并将所述句子层关键词作为掩码对象;
通过所述第一BERT模型预测所述掩码对象的结果,更新所述第一BERT 模型的参数,得到所述第二BERT模型;
以文档为单位,将所述文本数据输入所述第二BERT模型,得到文档层 关键词。
进一步地,将所述句子层关键词作为掩码对象,将所述文本数据以文档 形式输入第二BERT模型进行模型精调,得到文档层关键词,包括以下步骤:
以文档为单位,将所述文本数据分成词组;
将所述词组转换为词向量,并将所述句子层关键词作为掩码对象,输入 所述第二BERT模型;
根据所述掩码对象预测结果对所述第二BERT模型进行训练;
以文档为单位,将所述文本数据输入训练后的所述第二BERT模型,得 到文档层关键词。
进一步地,计算所述文档层关键词的自注意系数,根据所述自注意系数 生成事件关系图,包括以下步骤:
对所述第二BERT模型进行参数分析,计算所述第二BERT模型中每一 层每一头的向量间自注意系数;
通过KL变换去除所述自注意系数中的无效值与重复值;
合并经过KL变换后的所述自注意系数,得到所述事件关系图。
进一步地,所述每一层每一头的向量间自注意系数通过键向量、查询向 量进行点乘的方法计算得到。
本发明的目的之二在于提供一种事件关键词提取装置,其通过句子层模 型的有监督训练结合文档层模型的无监督训练,并通过事件关系图实现文档关键词的提取。
本发明的目的之二采用以下技术方案实现:
一种事件关键词提取装置,其包括:
获取模块,用于获取文本数据及所述文本数据的标注数据;
事件提取模块,用于将所述文本数据及所述标注数据以句子形式输入第 一BERT模型进行训练,得到句子层关键词;将所述句子层关键词作为掩码对象,将所述文本数据以文档形式输入第二BERT模型进行模型精调,得到 文档层关键词,计算所述文档层关键词的自注意系数,根据所述自注意系数 生成事件关系图,根据所述事件关系图筛选出符合预设条件的若干文档层关键词作为事件关键词。
本发明的目的之三在于提供执行发明目的之一的电子设备,其包括处理 器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,所述计算机程序被处理器执行时实现上述的事件关键词提取方法。
本发明的目的之四在于提供存储发明目的之一的计算机可读存储介质, 其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的事件关键词提取方法。
相比现有技术,本发明的有益效果在于:
本发明通过半监督方法进行事件关键词的提取,在句子层利用有监督的 方式提取每句话对应关键词,在文档层利用无监督的方式提取文档中的关键词,既降低了标注成本,又保证了提取精度,利用事件关系图作为提取结果, 可保留的关键词信息且关键词信息更精确。
附图说明
图1是实施例一的事件关键词提取方法的流程图;
图2是实施例一的第一BERT模型训练方法的流程图;
图3是实施例一的模型精调方法的流程图;
图4是实施例二的第二BERT模型精调方法的流程图;
图5是实施例三的事件关键词筛选方法的流程图;
图6是实施例四的事件关键词提取装置的结构框图;
图7是实施例五的电子设备的结构框图。
具体实施方式
以下将结合附图,对本发明进行更为详细的描述,需要说明的是,以下 参照附图对本发明进行的描述仅是示意性的,而非限制性的。各个不同实施例之间可以进行相互组合,以构成未在以下描述中示出的其他实施例。
实施例一
实施例一提供了一种事件关键词提取方法,旨在通过利用半监督的方式提 取文档关键词,并根据自注意系数,定位出文章中的重点事件关键词。
本发明事件提取模型通过对BERT模型进行训练完成构建;BERT模型 是一种语言表征模型,它使用Transformer的双向编码器表示。与其他语言表征模型不同,BERT旨在通过联合调节所有层中的上下文来预先训练深度 双向表示。因此,预训练的BERT模型可以通过一个额外的输出层进行微调, 以适用于不同的场景。
请参照图1所示,一种事件关键词提取方法,包括以下步骤:
S110、获取文本数据及所述文本数据的标注数据;
由于不同领域的关键词不同,因此S110中的文本数据为同一领域内的 文本数据,例如医疗新闻领域的文本数据。文本数据由不同文档组成,文档由不同句子组成。
本实施例中,上述标注数据为使用Bio实体识别格式标注的数据,标注数据的前缀包括起始字符、内部字符和其他字符(Begin,Innel,Other),后缀 为标注类型,具体的标注类型可以根据实际需求进行设定,例如在医疗新闻领域,通过loc,sym,ent,ob等后缀来表示事件地点,事件疾病,事件本 体,事件作用对象等。例如对于句子“截至今日,城市A新冠肺炎传染人数已接近两万”,对应标注为[O O O O O Bloc Iloc Bsym Isym Isym IsymBent Ient Bob Iob O O O O O]。标注对象视业务场景定义,例如上文的日期和数字被标注为O,但某些更需要日期和数字的场景下,这些信息就需要被定义为触发词并标注。另外,标注的标签也要针对业务场景进行分级,例如loc 标签可进一步分为国家,省份,地市,区县等多个粒度,以区分多义词,从 而用于更大语料库中。
S120、将所述文本数据及所述标注数据以句子形式输入第一BERT模型 进行训练,得到句子层关键词;
请参照图2所示,S120具体包括以下步骤:
S1201、将所述文本数据划分为若干句子,将所述若干句子导入所述第 一BERT模型进行模型精调;
上述的第一BERT模型可以是现有的一些中文关键字模型,例如在wiki 百科等语料中训练的BERT-chinese-base模型。
S1201中的模型精调是为了提高模型对语料的适应性,实现对新数据集 内特殊词汇和语法的契合性,以提升模型精度。精调主要通过对掩码字符进行预测完成,具体地,请参照图3所示,将所述文本数据以句子为单位导入所述第一BERT模型进行模型精调,包括以下步骤:
S1201.1、将所述文本数据以句子为单位拆分成字符;
将句子拆分为字符的具体过程是常见的技术手段,本实施例不对此作过 多赘述。
S1201.2、将所述字符转换为字符向量,并进行随机字符掩码,输入所述 第一BERT模型得到所述字符掩码处的预测值;
字符向量的转换方法本实施例不作具体限制,独热嵌入,cosine嵌入等 方法都可以用于实现上述的字符向量转换过程。
字符掩码时,仅对字符进行掩码,保留字符的标注数据,掩码的具体字 符可以是仅对事件字符掩码,也可以是随机选择事件和属性字符进行掩码,在实际的模型精调中,可以根据精调后的模型掩码预测效果进行掩码词的选 择。
本实施例中,第一BERT模型中的双向Transformer编码器为六层Transformer编码器,每一层包括一个自注意模块,两个层规范模块和一个前 向反馈模块,当然编码器的层数可以根据实际需求进行改变。
S1201.3、根据所述预测值与真实值的误差更新所述第一BERT模型的参 数。
在实际训练时,需要使用优化器来优化预测值和真实值之间的误差,本 实施例中选用梯度下降法作为模型的优化器。
上述的精调过程中,第一BERT模型的输出维度为n*t,t表示字典中的 字数量,n为句子中字符数量。在每个维度的值表示预测为对应字符的概率。例如某一掩码的预测输出为[0.0,0.0,0.1,0.3,……],假设字典的第4个 字为‘肺’,表示掩码对应字符为‘肺’的概率是0.3。
S1202、将所述若干句子分别进行字符切分,将得到的字符转换为字符 向量;
字符向量的转换方法请参照S1201.2步骤中的说明。
S1203、将所述字符向量及所述标注数据输入精调后的所述第一BERT 模型进行训练;
需要说明的是,为预测每个字符对应的标签,需保持现有模型参数不变, 并在模型后端增加一层全连接层,使用Softmax函数计算字符对应标注类型的概率,以便于模型可以根据字符进行标注预测;以预测值和真实值间的误 差作为反馈。模型训练时,只需对全连接层进行训练,并更新其参数。
S1204、得到所述文本数据的预测标注类型,根据所述标注类型,从所 述文本数据中映射到对应位置的词,得到句子层关键词。
需要说明的是,可以根据实际需求,将属性词作为关键词的一部分,以 使最后的到的事件关键词更准确,属性词例如事件、地点等相关词。
S130、将所述句子层关键词作为掩码对象,将所述文本数据以文档形式 输入第二BERT模型进行模型精调,得到文档层关键词;
本实施例中,S130的第二BERT模型为字符级模型,具体训练过程包括 以下步骤:
以文档为单位,将所述文本数据分成字符;
将所述字符转换为字符向量,并将所述句子层关键词作为掩码对象;
通过所述第一BERT模型预测所述掩码对象的结果,更新所述第一BERT 模型的参数,得到所述第二BERT模型;
以文档为单位,将所述文本数据输入所述第二BERT模型,得到文档层 关键词。
上述步骤中,会沿用第一BERT模型,并通过断点恢复进行训练,得到 第二BERT模型,上述步骤中,掩码的作用是为了对模型进行精调,具体过程请参照S1201.1-S1201.3。
需要说明的是,由于文档通常字符数较多,会超出BERT的512字符数据的长度限制,因此,可以通过使用Transformer–XL等支持长文档的衍生 模型实现。
S140、计算所述文档层关键词的自注意系数,根据所述自注意系数生成 事件关系图;
由于第二BERT模型输出的关键词会有上百甚至上千个,因此需要对其 进行筛选,以便于得到每个文档对应的几个关键词,本实施例中通过自注意系数实现关键词的筛选;自注意系数是BERT模型训练过程中的一个参数,其可以表示词的重要性,本实施例中通过该参数实现对关键词的筛选。
需要说明的是,为了更直观地体现关键词间的相关性和重要性,还可以 对事件关系图进行可视化展示。事件关键词间的自注意系数代表相关性,可视化展示时,通过事件关键词间的连线进行展示,连线颜色越深表示相关性 越强;事件关键词与其他事件关键词的相关性越强,关联事件越多,则其重要性越强。
S150、根据所述事件关系图筛选出符合预设条件的若干文档层关键词作 为事件关键词。
预设条件可以根据实际情况进行设定,例如自注意系数大于0.5或自注 意系数最大的若干个文档层关键词。
实施例二
实施例二是在实施例一的基础上进行的,其主要对第二BERT模型的一 种实现方式进行了解释和说明。
本实施例中的第二BERT模型是一种词级模型,即基于词进行模型训练。
请参照图4所示,将所述句子层关键词作为掩码对象,将所述文本数据 以文档形式输入第二BERT模型进行模型精调,得到文档层关键词,包括以下步骤:
S210、以文档为单位,将所述文本数据分成词组;
需要说明的是,为了降低数据稀疏性带来的模型不可收敛可能性,可以 对文本数据进行数据扩增,数据扩增可以通过随机打乱句子顺序、同义词替换等方法实现。
S220、将所述词组转换为词向量,并将所述句子层关键词作为掩码对象, 输入所述第二BERT模型;
词向量的转换方法本实施例中不作具体限定,可以通过word2vec词嵌入 等方法实现。
S230、根据所述掩码对象预测结果对所述第二BERT模型进行训练;
S230中的训练为参数正态随机初始化训练,或者根据现有基于词的BERT预训练模型进行精调;
精调和训练的具体过程请参照实施例一中模型精调和训练的相关解释和 说明。参数正态随机初始化是常见的模型训练方法,本实施例不作过多赘述。
S240、以文档为单位,将所述文本数据输入训练后的所述第二BERT模 型,得到文档层关键词。
本实施例中第二BERT模型的Transformer编码器与实施例一中相同,即一个六层Transformer编码器,每一层包括一个自注意模块,两个层规范 模块和一个前向反馈模块,当然,Transformer编码器的层数也可以根据实际 需求进行增加。
实施例三
实施例三是在实施例一的基础上进行的,其主要对关键词筛选的具体过 程进行了解释和说明。
请参照图5所示计算所述文档层关键词的自注意系数,根据所述自注意 系数生成事件关系图,包括以下步骤:
S310、对所述第二BERT模型进行参数分析,计算所述第二BERT模型 中每一层每一头的向量间自注意系数;
本实施例中,上述的参数分析通过使用BERTViz工具实现,参数分析时, 无需考虑模型的输出值,只需分析模型在计算过程中的自注意系数;上述的每一头指的是BERT模型中的注意力头。
具体地,在第二BERT模型的每一层的自注意模块上,每一层每一头的 向量间自注意系数通过键向量、查询向量进行点乘的方法计算得到。例如,键字符(键向量)为‘q’,查询字符(查询向量)为‘p’,q和p均为汉字的指代,二者的组合为城市A的具体名称,其对应向量分别为[0.1,-0.2,0.5],[0.1,-0.3,0.0],则自注意系数为0.07;根据此方法可以依次算出所有 字符之间的自注意系数。
S320、通过KL变换去除所述自注意系数中的无效值与重复值。
系数合并时,由于在不同层和不同Head上的计算自注意系数存在无效 值,因此不可以直接合并,可以通过使用KL变换以去除重复、相关和无效 项。
S330、合并经过KL变换后的所述自注意系数,得到所述事件关系图。
上述过程以一个6层双向Transformer编码器为例,每层的自注意模型有12个Head,则共有72组自注意系数矩阵,每组为N*N维,N为事件词数量;然 后将矩阵展开为向量x,整个模型共72个x向量,组成X矩阵,维度72*N2。 接着,计算去均值的协方差矩阵。定义为每一行的均值,则协方差 矩阵为K=0.5*L*LT,LT为L的转置矩阵。然后,对K矩阵进行特征分解,计算特征值并对特征值排序,选若干个最大特征值对应的X向量为去噪声后的自注 意系数矩阵Y。最后,将Y矩阵按行相加,合并成一维向量,转换为N*N矩阵,作为事件关系图,请参照表1所示,为一个事件关系图的示例,从表一可以看 出“城市A”与“新冠肺炎”、“城市B”、“城市C”的相关性较强,“传染”与 “新冠肺炎”,“人数”相关性较强。
若预设条件为自注意系数(自注意系数的和)最高的3个关键词,则对应 的事件关键词为{传染,新冠肺炎,城市A}。
计算时通过合并每个字符与文档层关键词的自注意系数完成,例如城市A 的具体名称包含了两个汉字,并分别使用q和p进行指代,其中“q”与“传染”的自注意系数为0.15,“p”与“传染”的自注意系数为0.16,则“城市A”与 “传染”的自注意系数为0.31。
城市A | 新冠肺炎 | 城市B | 城市C | 传染 | |
城市A | / | 0.26 | 0.24 | 0.13 | 0.31 |
新冠肺炎 | / | / | 0.16 | 0.09 | 0.67 |
城市B | / | / | / | 0.17 | 0.22 |
城市C | / | / | / | / | 0.19 |
传染 | / | / | / | / | / |
表1
表1
实施例四
实施例四公开了一种对应上述实施例的事件关键词提取方法对应的装置, 为上述实施例的虚拟装置结构,请参照图6所示,包括:
获取模块410,用于获取文本数据及所述文本数据的标注数据;
事件提取模块420,用于将所述文本数据及所述标注数据以句子形式输 入第一BERT模型进行训练,得到句子层关键词;将所述句子层关键词作为掩码对象,将所述文本数据以文档形式输入第二BERT模型进行模型精调, 得到文档层关键词,计算所述文档层关键词的自注意系数,根据所述自注意系数生成事件关系图,根据所述事件关系图筛选出符合预设条件的若干文档层关键词作为事件关键词。实施例五
图7为本发明实施例五提供的一种电子设备的结构示意图,如图7所示, 该电子设备包括处理器510、存储器520、输入装置530和输出装置540;计算机设备中处理器510的数量可以是一个或多个,图7中以一个处理器510为例; 电子设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或其他方式连接,图7中以通过总线连接为例。
存储器520作为一种计算机可读存储介质,可用于存储软件程序、计算机 可执行程序以及模块,如本发明实施例中的事件关键词提取方法对应的程序指令/模块(例如,事件关键词提取方法装置中的获取模块410和事件提取模块 420)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述实施例一至实施 例三的事件关键词提取方法。
存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存 储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器520可进一步包括相对于处理器510 远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可用于接收输入的用户身份信息、文本数据以及标注数据等。 输出装置540可包括显示屏等显示设备。
实施例六
本发明实施例六还提供一种包含计算机可执行指令的存储介质,该存储介 质可用于计算机执行事件关键词提取方法,该方法包括:
获取文本数据及所述文本数据的标注数据;
将所述文本数据及所述标注数据以句子形式输入第一BERT模型进行训 练,得到句子层关键词;
将所述句子层关键词作为掩码对象,将所述文本数据以文档形式输入第 二BERT模型进行模型精调,得到文档层关键词;
计算所述文档层关键词的自注意系数,根据所述自注意系数生成事件关 系图;
根据所述事件关系图筛选出符合预设条件的若干文档层关键词作为事件 关键词。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其 计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的基于事件关键词提取方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到, 本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上 或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机 软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory, RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施 例所述的方法。
值得注意的是,上述基于事件关键词提取方法装置的实施例中,所包括的 各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相 互区分,并不用于限制本发明的保护范围。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出 其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
Claims (8)
1.一种事件关键词提取方法,其特征在于,包括以下步骤:
获取文本数据及所述文本数据的标注数据;
将所述文本数据及所述标注数据以句子形式输入第一BERT模型进行训练,得到句子层关键词;
其中,将所述文本数据及所述标注数据以句子形式输入第一BERT模型进行训练,得到句子层关键词,包括以下步骤:
将所述文本数据划分为若干句子,将所述若干句子导入所述第一BERT模型进行模型精调;
将所述若干句子分别进行字符切分,将得到的字符转换为字符向量;
将所述字符向量及所述标注数据输入精调后的所述第一BERT模型进行训练;
得到所述文本数据的预测标注类型,根据所述标注类型,从所述文本数据中映射到对应位置的词,得到句子层关键词;
将所述句子层关键词作为掩码对象,将所述文本数据以文档形式输入第二BERT模型进行模型精调,得到文档层关键词;
计算所述文档层关键词的自注意系数,根据所述自注意系数生成事件关系图;
其中,计算所述文档层关键词的自注意系数,根据所述自注意系数生成事件关系图,包括以下步骤:
对所述第二BERT模型进行参数分析,计算所述第二BERT模型中每一层每一头的向量间自注意系数;
通过KL变换去除所述自注意系数中的无效值与重复值;
合并经过KL变换后的所述自注意系数,得到所述事件关系图;
根据所述事件关系图筛选出符合预设条件的若干文档层关键词作为事件关键词。
2.如权利要求1所述的事件关键词提取方法,其特征在于,将所述文本数据以句子为单位导入所述第一BERT模型进行模型精调,包括以下步骤:
将所述文本数据以句子为单位拆分成字符;
将所述字符转换为字符向量,并进行随机字符掩码,输入所述第一BERT模型得到所述字符掩码处的预测值;
根据所述预测值与真实值的误差更新所述第一BERT模型的参数。
3.如权利要求1所述的事件关键词提取方法,其特征在于,将所述句子层关键词作为掩码对象,将所述文本数据以文档形式输入第二BERT模型进行模型精调,得到文档层关键词,包括以下步骤:
以文档为单位,将所述文本数据分成字符;
将所述字符转换为字符向量,并将所述句子层关键词作为掩码对象;
通过所述第一BERT模型预测所述掩码对象的结果,更新所述第一BERT模型的参数,得到所述第二BERT模型;
以文档为单位,将所述文本数据输入所述第二BERT模型,得到文档层关键词。
4.如权利要求1所述的事件关键词提取方法,其特征在于,将所述句子层关键词作为掩码对象,将所述文本数据以文档形式输入第二BERT模型进行模型精调,得到文档层关键词,包括以下步骤:
以文档为单位,将所述文本数据分成词组;
将所述词组转换为词向量,并将所述句子层关键词作为掩码对象,输入所述第二BERT模型;
根据所述掩码对象预测结果对所述第二BERT模型进行训练;
以文档为单位,将所述文本数据输入训练后的所述第二BERT模型,得到文档层关键词。
5.如权利要求1所述的事件关键词提取方法,其特征在于,所述每一层每一头的向量间自注意系数通过键向量、查询向量进行点乘的方法计算得到。
6.一种用于实现权利要求1-5任一项所述的事件关键词提取方法的装置,其特征在于,其包括:
获取模块,用于获取文本数据及所述文本数据的标注数据;
事件提取模块,用于将所述文本数据及所述标注数据以句子形式输入第一BERT模型进行训练,得到句子层关键词;将所述句子层关键词作为掩码对象,将所述文本数据以文档形式输入第二BERT模型进行模型精调,得到文档层关键词,计算所述文档层关键词的自注意系数,根据所述自注意系数生成事件关系图,根据所述事件关系图筛选出符合预设条件的若干文档层关键词作为事件关键词。
7.一种电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一项所述的事件关键词提取方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一项所述的事件关键词提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010352088.9A CN111651986B (zh) | 2020-04-28 | 2020-04-28 | 事件关键词提取方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010352088.9A CN111651986B (zh) | 2020-04-28 | 2020-04-28 | 事件关键词提取方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111651986A CN111651986A (zh) | 2020-09-11 |
CN111651986B true CN111651986B (zh) | 2024-04-02 |
Family
ID=72352637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010352088.9A Active CN111651986B (zh) | 2020-04-28 | 2020-04-28 | 事件关键词提取方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651986B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329477A (zh) * | 2020-11-27 | 2021-02-05 | 上海浦东发展银行股份有限公司 | 基于预训练模型的信息抽取方法、装置、设备及存储介质 |
CN112541341A (zh) * | 2020-12-18 | 2021-03-23 | 广东电网有限责任公司 | 一种文本事件元素提取方法 |
CN113254628A (zh) * | 2021-05-18 | 2021-08-13 | 北京中科智加科技有限公司 | 事件关系的确定方法和装置 |
US11361571B1 (en) | 2021-06-28 | 2022-06-14 | International Business Machines Corporation | Term extraction in highly technical domains |
CN113672727B (zh) * | 2021-07-28 | 2024-04-05 | 重庆大学 | 一种金融文本实体关系抽取方法及系统 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN109710770A (zh) * | 2019-01-31 | 2019-05-03 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种基于迁移学习的文本分类方法及装置 |
CN110032641A (zh) * | 2019-02-14 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 计算机执行的、利用神经网络进行事件抽取的方法及装置 |
CN110059323A (zh) * | 2019-04-22 | 2019-07-26 | 苏州大学 | 基于自注意力机制的多领域神经机器翻译方法 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN110134772A (zh) * | 2019-04-18 | 2019-08-16 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN110147452A (zh) * | 2019-05-17 | 2019-08-20 | 北京理工大学 | 一种基于层级bert神经网络的粗粒度情感分析方法 |
CN110162787A (zh) * | 2019-05-05 | 2019-08-23 | 西安交通大学 | 一种基于主题信息的类别预测方法及装置 |
CN110377714A (zh) * | 2019-07-18 | 2019-10-25 | 泰康保险集团股份有限公司 | 基于迁移学习的文本匹配方法、装置、介质及设备 |
CN110413746A (zh) * | 2019-06-25 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 对用户问题进行意图识别的方法及装置 |
CN110543639A (zh) * | 2019-09-12 | 2019-12-06 | 扬州大学 | 一种基于预训练Transformer语言模型的英文句子简化算法 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN110737769A (zh) * | 2019-10-21 | 2020-01-31 | 南京信息工程大学 | 一种基于神经主题记忆的预训练文本摘要生成方法 |
CN110825848A (zh) * | 2019-06-10 | 2020-02-21 | 北京理工大学 | 一种基于短语向量的文本分类方法 |
CN110851604A (zh) * | 2019-11-12 | 2020-02-28 | 中科鼎富(北京)科技发展有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
CN110968702A (zh) * | 2019-11-29 | 2020-04-07 | 北京明略软件系统有限公司 | 一种事理关系提取方法及装置 |
-
2020
- 2020-04-28 CN CN202010352088.9A patent/CN111651986B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN109710770A (zh) * | 2019-01-31 | 2019-05-03 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种基于迁移学习的文本分类方法及装置 |
CN110032641A (zh) * | 2019-02-14 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 计算机执行的、利用神经网络进行事件抽取的方法及装置 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN110134772A (zh) * | 2019-04-18 | 2019-08-16 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN110059323A (zh) * | 2019-04-22 | 2019-07-26 | 苏州大学 | 基于自注意力机制的多领域神经机器翻译方法 |
CN110162787A (zh) * | 2019-05-05 | 2019-08-23 | 西安交通大学 | 一种基于主题信息的类别预测方法及装置 |
CN110147452A (zh) * | 2019-05-17 | 2019-08-20 | 北京理工大学 | 一种基于层级bert神经网络的粗粒度情感分析方法 |
CN110825848A (zh) * | 2019-06-10 | 2020-02-21 | 北京理工大学 | 一种基于短语向量的文本分类方法 |
CN110413746A (zh) * | 2019-06-25 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 对用户问题进行意图识别的方法及装置 |
CN110377714A (zh) * | 2019-07-18 | 2019-10-25 | 泰康保险集团股份有限公司 | 基于迁移学习的文本匹配方法、装置、介质及设备 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN110543639A (zh) * | 2019-09-12 | 2019-12-06 | 扬州大学 | 一种基于预训练Transformer语言模型的英文句子简化算法 |
CN110737769A (zh) * | 2019-10-21 | 2020-01-31 | 南京信息工程大学 | 一种基于神经主题记忆的预训练文本摘要生成方法 |
CN110851604A (zh) * | 2019-11-12 | 2020-02-28 | 中科鼎富(北京)科技发展有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
CN110968702A (zh) * | 2019-11-29 | 2020-04-07 | 北京明略软件系统有限公司 | 一种事理关系提取方法及装置 |
Non-Patent Citations (7)
Title |
---|
基于Transformer和BERT的名词隐喻识别;张冬瑜;崔紫娟;李映夏;张伟;林鸿飞;;数据分析与知识发现(第04期);第100-108页 * |
基于图注意力网络的因果关系抽取;许晶航;左万利;梁世宁;王英;;计算机研究与发展(第01期);第159-174页 * |
如何使用NLP高效解析语言文字;徐铮浩;;电子技术与软件工程(第05期);第173-174页 * |
张晓 ; 李业刚 ; 王栋 ; 史树敏 ; .基于ERNIE的命名实体识别.智能计算机与应用.2020,(第03期),第21-26页正文第2.1节,图3. * |
李舟军 ; 范宇 ; 吴贤杰 ; .面向自然语言处理的预训练技术研究综述.计算机科学.2020,(第03期),第162-173页. * |
王晓莉 ; 叶东毅 ; .基于字词特征自注意力学习的社交媒体文本分类方法.模式识别与人工智能.2020,(第04期),第287-294页. * |
陆金梁 ; 张家俊 ; .基于多语言预训练语言模型的译文质量估计方法.厦门大学学报(自然科学版).2020,(第02期),第151-158页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111651986A (zh) | 2020-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111651986B (zh) | 事件关键词提取方法、装置、设备及介质 | |
CN110909548B (zh) | 中文命名实体识别方法、装置及计算机可读存储介质 | |
CN107122413B (zh) | 一种基于图模型的关键词提取方法及装置 | |
US8386240B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
CN112395385B (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
TWI656450B (zh) | 從中文語料庫提取知識的方法和系統 | |
CN110162771B (zh) | 事件触发词的识别方法、装置、电子设备 | |
CN107102983B (zh) | 一种基于网络知识源的中文概念的词向量表示方法 | |
US20230076658A1 (en) | Method, apparatus, computer device and storage medium for decoding speech data | |
CN111625621B (zh) | 一种文档检索方法、装置、电子设备及存储介质 | |
CN110826298B (zh) | 一种智能辅助定密系统中使用的语句编码方法 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN111104801A (zh) | 基于网址域名的文本分词方法、系统、设备及介质 | |
CN116049354A (zh) | 基于自然语言的多表格检索方法及装置 | |
CN114398943B (zh) | 样本增强方法及其装置 | |
CN113360654B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN113591488A (zh) | 一种语义分析方法及装置 | |
CN111178009B (zh) | 一种基于特征词加权的文本多语种识别方法 | |
WO2021139076A1 (zh) | 智能化文本对话生成方法、装置及计算机可读存储介质 | |
CN111680146A (zh) | 确定新词的方法、装置、电子设备及可读存储介质 | |
CN110705285A (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
Benedetto et al. | The puzzle of Basil’s Epistula 38: A mathematical approach to a philological problem | |
CN114462378A (zh) | 科技项目查重方法、系统、计算机设备及存储介质 | |
US20180033425A1 (en) | Evaluation device and evaluation method | |
CN113205384B (zh) | 文本处理方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Country or region after: China Address after: No. 2 Xiyuanba Road, Xihu District, Hangzhou City, Zhejiang Province, 311112 Applicant after: Yinjiang Technology Co.,Ltd. Address before: No. 2 Xiyuanba Road, Xihu District, Hangzhou City, Zhejiang Province, 311112 Applicant before: ENJOYOR Co.,Ltd. Country or region before: China |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |