CN112884354B - 一种字词双维度的化妆品安全监管领域事件信息抽取方法 - Google Patents
一种字词双维度的化妆品安全监管领域事件信息抽取方法 Download PDFInfo
- Publication number
- CN112884354B CN112884354B CN202110278179.7A CN202110278179A CN112884354B CN 112884354 B CN112884354 B CN 112884354B CN 202110278179 A CN202110278179 A CN 202110278179A CN 112884354 B CN112884354 B CN 112884354B
- Authority
- CN
- China
- Prior art keywords
- word
- text
- field
- cosmetic safety
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000002537 cosmetic Substances 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 239000013598 vector Substances 0.000 claims description 40
- 230000009466 transformation Effects 0.000 claims description 15
- 230000002457 bidirectional effect Effects 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 4
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/30—Creation or generation of source code
- G06F8/31—Programming languages or programming paradigms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Computer Security & Cryptography (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种字词双维度的化妆品安全监管领域事件信息抽取方法,包括:对互联网上爬取到的舆情事件数据进行预处理,在公共领域资源库的基础上构建化妆品安全领域word embedding资源库、对其使用领域语料进行增量训练、通过基于BERT的神经网络提取字词双维度文本特征,完成化妆品安全监管领域事件信息抽取。本发明一定程度上解决了化妆品安全监管领域事件信息抽取准确程度不高,领域性强的难题,通过构建新的模型,将字维度作为文本向量化表示的基础上再加入词维度进行辅助表示,提高事件信息抽取准确性。
Description
技术领域
本发明涉及人工智能领域,尤其是指一种字词双维度的化妆品安全监管领域事件信息抽取方法。
背景技术
随着人们生活质量的普遍提高,化妆品的安全逐渐成为了人们日常生活中重点关注的一方面,在化妆品安全监管领域内加强化妆品安全风险管理能力是重点内容,如应强化突发事件应急处置。化妆品安全事件的发生往往会伴随生成大量的信息,监管部门和大众很难从第一时间从互联网上大量的信息中获取到准确的事件信息,事件信息抽取技术作为信息抽取技术的一种,可以为监管部门提供决策支撑的辅助作用,为化妆品安全事件发生后的舆情监控提供支持,也可以为普通群众提供第一时间的信息收集与发布作用。所以建立起事件信息抽取模型对化妆品安全的监管是具有重大意义的。
事件信息抽取从模式匹配逐渐发展到基于统计的机器学习方法,机器学习方法中当下以人工神经网络为基础的深度学习最为高效,深度学习不仅将事件抽取看作是分类任务,还看作是序列标注任务。
目前有些模型使用级联(pipline)的方式,先进行触发词的识别,再进行论元的提取。这种方法会一定的不足,会导致前一阶段的误差传播到后一阶段导致误差传播。本发明采用联合抽取的方式,将触发词和论元同时抽取,进而提高两个子任务的性能,同时加入了全局特征以表示触发词和论元之间的全局信息。
本发明采用标注序列标注模式,将事件论元抽取问题变成一个端到端的问题。同时采用双网络模型结构,一个使用以字维度文本向量化表示作为输入,另一个引入了领域词机制,使用词维度文本向量化表示作为输入。
发明内容
本发明的技术解决问题是:克服了现有技术领域针对性不强,事件信息抽取不完全的问题,提供一种字词双维度的化妆品安全监管领域事件信息抽取方法,提高化妆品安全领域舆情事件信息抽取准确性,以解决目前化妆品安全领域相关的监管需求,在此处提出的方法能够快速准确的对化妆品安全事件进行信息抽取,大幅提高监管者的工作效率,辅助监管者做出判断。
本发明所提出的方法是:一种字词双维度的化妆品安全监管领域事件信息抽取方法,包括以下步骤:
步骤1、使用python编程语言根据化妆品安全监管领域的特点,针对发生的舆情事件编写网络爬虫,并对爬虫爬取到的原始文本数据进行去重和筛选预处理,再去除原始文本数据中没有含义的停用词,提取化妆品安全监管领域的专业词汇,同时形成可用的舆情事件文本语料。
步骤2、根据步骤1获得的化妆品安全监管领域的专业词汇,结合公共领域的词嵌入(word embedding)资源库来获得化妆品安全领域词嵌入资源库。在公共领域词嵌入资源库基础上,使用化妆品安全监管领域的专业词汇对词嵌入资源库进行增量训练,获得化妆品安全领域词嵌入资源库。
步骤3、首先基于双向深度自注意力变换网络的编码器(BERT-BidirectionalEncoder Representations from Transformers)构建的字维度和词维度两个维度上的预训练模型,步骤2得到化妆品安全领域词嵌入资源库来获取字词双维度文本向量化表示。首先使用第二步构建的化妆品安全领域词嵌入资源库词嵌入资源库对两个维度上的预训练模型进行增量训练,得到了针对化妆品安全领域的预训练模型。然后将步骤1形成的舆情事件文本语料输入在字维度上构建的预训练模型,运行模型得到字维度上的文本向量化表示;然后同样将步骤1形成的舆情事件文本语料输入词维度上构建的预训练模型得到词维度上的文本向量化表示。
步骤4、根据步骤3的结果,获得所需的词维度和字维度两种不同维度的输入向量,将字维度文本向量化表示作为主要输入信息,将文本向量化表示扩展到字向量长度,并作为辅助输入信息,输入到基于双向深度自注意力变换网络的编码器BERT模型中并对进行训练,得到融合全文语义信息后的文本向量。
步骤5、根据步骤4得到模型训练后的输出后,将输出的融合全文语义信息后的文本向量再输入到条件随机场CRF(Conditional Random Fields)中,在通过条件随机场计算最优概率后得到最终的事件信息抽取结果。
进一步的,所述步骤1中,构建的适用于化妆品安全领域的网络爬虫,其爬取主要内容有化妆品安全领域词汇百科,化妆品安全突发事件发生后的舆情新闻报道,人们对于化妆品安全突发事件的评论信息。爬取内容中的化妆品安全领域词汇百科内容用来提取化妆品安全领域的领域专业词汇,化妆品安全突发事件的舆情新闻报导以及人们的评论信息两部分内容形成可以使用的事件文本语料。
进一步的,所述步骤2中,在公共领域词嵌入资源库的基础上,将步骤1中得到的化妆品领域专业词汇输入到跳跃式(skip-gram)模型中,对公共领域词嵌入资源库进行增量训练,随着步骤1中爬取内容的不断增多,每隔一段时间,当积累一定数量的可以进行增量训练的内容后,再次将其输入到跳跃式(skip-gram)模型中对公共领域词嵌入资源库进行增量训练,最终将公共领域词嵌入资源库扩展为适用于化妆品安全领域的词嵌入资源库。
进一步的,所述步骤3中,将步骤1中形成的可以使用的舆情事件文本语料输入到预训练模型中获取文本的向量化表示,其中具体执行过程为对整段文本输入按句子进行分割,然后使用深度自注意力变换网络对输入进行编码,编码后对句子的部分内容进行掩盖(mask),掩盖后通过句子剩余内容对掩盖内容进行预测,并将预测掩盖结果与真实掩盖内容进行对比,得到预测的误差,根据预测误差对模型的参数进行调整,通过这种预测任务将输入文本映射到了向量空间中,从而得到了字维度(以中文字为单位)的文本向量化表示。但是词维度需要在输入到预训练前首先进行中文的分词工作,然后同样可得词维度(以中文词为单位)上的文本输入向量。
进一步的,所述步骤4中,字维度文本向量化表示作为主要输入信息,词维度文本向量化表示作为辅助输入信息时,首先需要将字维度文本向量化和词维度文本向量化表示进行向量融合,再将不同维度的两种向量输入统一到同一个维度,字维度文本向量化表示vc∈Rn,词维度文本向量表示为vw∈Rm,通过线性变换将向量统一到同一维度后,然后将两种文本向量化表示进行相加,最后添加与文本等长的向量存储文本的分句信息,作为分割嵌入向量与和文本向量化表示,一并输入到双向深度自注意力变换网络的编码器BERT中。
进一步的,所述步骤5中,通过条件随机场得到最终舆情事件信息抽取结果,根据化妆品安全领域的特点,同时参考ACE2005语料库以及CEC语料库的数据标签和标注内容,舆情事件抽取得到的主要信息内容重新定义并分为6类:事件发生时间(Happened Time)、事件发生地点(Location)、事件参与者(Event Participant)、参与者行为(ParticipantsBehavior)、事件受影响对象(Affect Object)、受影响对象的状态变化(Affect State)。
本发明与现有技术相比的优点在于:
本发明能够通过双向深度自注意力变换网络的编码器BERT(BERT-BidirectionalEncoder Representations from Transformers)网络的字词双维度事件信息抽取模型快速判断出化妆品安全突发事件中的关键信息,并针对化妆品安全领域事件信息抽取方面构建更全面、针对性更强的化妆品安全领域Embedding资源库,将字符级和词语级两种不同的文本分布式表示作为模型输入,最后结合双路网络的特征提取结果对事件信息进行抽取标记。本发明提出的模型充分利用BERT的特性,从预训练模型中获取字向量表示和词向量表示,从而借助预训练模型使用的海量的文本来更加准确的将文本进行分布式的表示。同时,将文本的词向量表示作为字向量表示的补充信息,为双向深度自注意力变换网络的编码器网络BERT加入中文组词的语言信息。从字向量级别对文本语义进行进一步挖掘,避免因为非结构化的、缺少规范的文本语料,造成特征提取不全面而损失分类精度,有效提高事件信息抽取效果。
附图说明
图1是本发明方法流程示意图;
图2是字词双维度的事件信息抽取模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
如图1所示,本发明一种字词双维度的化妆品安全监管领域事件信息抽取方法包括:对互联网上爬取到的舆情事件数据进行预处理,在公共领域资源库的基础上构建化妆品安全领域word embedding资源库、使用领域语料进行增量训练、基于BERT神经网络的字词双维度文本特征提取。本发明一定程度上解决了化妆品领域事件信息抽取准确程度不高,领域性强的难题,通过构建新的模型,将字维度作为文本向量化表示的基础上再加入词维度进行辅助表示,提高事件信息抽取准确性。
具体包括以下步骤:
步骤1、使用python编程语言根据化妆品安全监管领域的特点,针对发生的舆情事件编写网络爬虫,其爬取主要内容有化妆品安全领域词汇百科,化妆品安全突发事件发生后的舆情新闻报道,人们对于化妆品安全突发事件的评论信息。对爬虫爬取到的原始文本数据进行去重和筛选预处理,再去除原始文本数据中没有含义的停用词,爬取内容中的化妆品安全领域词汇百科内容用来提取化妆品安全领域的领域专业词汇,化妆品安全突发事件的舆情新闻报导以及人们的评论信息两部分内容形成可以使用的事件文本语料。
步骤2、根据步骤1获得的化妆品安全监管领域的专业词汇,结合公共领域的词嵌入(word embedding)资源库来获得化妆品安全领域词嵌入资源库。在公共领域词嵌入资源库基础上,将步骤1中得到的化妆品领域专业词汇输入到跳跃式(skip-gram)模型中,对公共领域词嵌入资源库进行增量训练,随着步骤1中爬取内容的不断增多,每隔一段时间,当积累一定数量的可以进行增量训练的内容后,再次将其输入到跳跃式(skip-gram)模型中对公共领域词嵌入资源库进行增量训练,最终将公共领域词嵌入资源库扩展为适用于化妆品安全领域的词嵌入资源库。
步骤3、首先基于双向深度自注意力变换网络的编码器(BERT-BidirectionalEncoder Representations from Transformers)构建的字维度和词维度两个维度上的预训练模型,步骤2得到化妆品安全领域词嵌入资源库来获取字词双维度文本向量化表示。首先使用步骤2构建的化妆品安全领域词嵌入资源库词嵌入资源库对两个维度上的预训练模型进行增量训练,得到了针对化妆品安全领域的预训练模型。然后将步骤1形成的事件文本语料输入在字维度上构建的预训练模型,运行模型得到字维度上的文本向量化表示;其中具体执行过程为对整段文本输入按句子进行分割,然后使用深度自注意力变换网络器BERT对输入进行编码,编码后对句子的部分内容进行掩盖(mask),掩盖后通过句子剩余内容对掩盖内容进行预测,并将预测掩盖结果与真实掩盖内容进行对比,得到预测的误差,根据预测误差对模型的参数进行调整,通过这种预测任务将输入文本映射到了向量空间中,从而得到了字维度(以中文字为单位)的文本向量化表示。然后同样将步骤1形成的舆情事件文本语料输入词维度上构建的预训练模型得到词维度上的文本向量化表示。但是词维度需要在输入到预训练前首先进行中文的分词工作。
步骤4、根据步骤3的结果,可以获得所需的词维度和字维度两种不同维度的输入向量。模型的输入为字维度文本向量化表示和词维度文本向量化表示,字维度文本向量化表示作为主要输入信息,词维度文本向量化表示作为辅助输入信息。首先需要将字维度文本向量化和词维度文本向量化表示进行向量融合,首先将不同维度的两种向量输入统一到同一个维度,字维度文本向量化表示vc∈Rn,词维度文本向量表示为vw∈Rm,通过线性变换将向量统一到同一维度后,然后将两种文本向量化表示进行相加。再使用与文本等长的向量存储文本的分句信息,作为分割嵌入向量与和文本向量化表示一并输入到双向深度自注意力变换网络的编码器中。输入向量输入到模型中并对模型进行训练后,得到模型的输出是步骤3输入预训练模型的文本语料对应的融合全文语义信息后的文本向量。
步骤5、根据步骤4得到模型训练后的输出后,将输出的融合全文语义信息后的文本向量再输入到条件随机场CRF(Conditional Random Fields)中,在通过条件随机场计算最优概率后得到最终的事件信息抽取结果,根据化妆品安全领域的特点,同时参考ACE2005语料库以及CEC语料库的数据标签和标注内容,舆情事件抽取得到的主要信息内容重新定义并分为6类:事件发生时间(Happened Time)、事件发生地点(Location)、事件参与者(Event Participant)、参与者行为(Participants Behavior)、事件受影响对象(AffectObject)、受影响对象的状态变化(Affect State)。
参见图1中,展示了本发明所提出的方法的整体示意图,对爬取的化妆品安全舆情微博数据进行预处理,结合开放域word embedding资源库构建化妆品安全领域wordembedding资源库,然后爬取多个可信网站的化妆品安全事件新闻对word embedding资源库进行增量训练,通过预训练模型获取字维度的文本向量化表示以及词维度的文本向量化表示,最终得到字词双维度文本特征向量并进行化妆品安全事件的信息抽取。
在图2所示模型图中,首先左侧网络通过预训练模型得到词维度的文本向量化表示,然后输入到右侧网络中结合得到的字维度文本向量化表示,然后进行字词融合,然后通过BERT神经网络后将输出经过CRF层,得到最佳的输出信息标记序列,根据序列标记结果对应相应位置的文本得到事件信息抽取结果。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (6)
1.一种字词双维度的化妆品安全监管领域事件信息抽取方法,其特征在于,包括以下步骤:
步骤1、针对基于化妆品安全监管领域发生的舆情事件,构建的适用于化妆品安全领域的网络爬虫,并对网络爬虫爬取到的原始文本数据进行去重和筛选预处理,再去除原始文本数据中没有含义的停用词,提取化妆品安全监管领域的专业词汇,同时形成事件文本语料;
步骤2、使用步骤1提取的化妆品安全监管领域的专业词汇,对公共领域的词嵌入资源库进行增量训练,获得化妆品安全领域词嵌入资源库;
步骤3、采用基于双向深度自注意力变换网络的编码器BERT构建字维度和词维度两个维度上的预训练模型,再使用化妆品安全领域词嵌入资源库对字维度和词维度两个维度上的预训练模型进行增量训练,得到针对化妆品安全领域的字维度和词维度预训练模型,然后将事件文本语料输入到在字维度预训练模型,得到字维度文本向量化表示,将事件文本语料输入词维度预训练模型得到词维度文本向量化表示;
步骤4、根据步骤3的结果,获得所需的词维度和字维度两种不同维度的输入向量,将字维度文本向量化表示作为主要输入信息,将文本向量化表示扩展到字向量长度,并作为辅助输入信息,输入到基于双向深度自注意力变换网络的编码器BERT中并对进行训练,得到融合全文语义信息后的文本向量;
步骤5、将融合全文语义信息后的文本向量再输入到条件随机场CRF中,在通过条件随机场计算最优概率后得到最终的事件信息抽取结果。
2.根据权利要求1所述的一种字词双维度的化妆品安全监管领域事件信息抽取方法,其特征在于:所述步骤1中,构建的适用于化妆品安全领域的网络爬虫时,爬取主要内容有化妆品安全领域词汇百科,化妆品安全突发事件发生后的舆情新闻报道,人们对于化妆品安全突发事件的评论信息;爬取内容中的化妆品安全领域词汇百科内容用来提取化妆品安全领域的领域专业词汇,化妆品安全突发事件的舆情新闻报导以及人们的评论信息两部分内容形成使用的事件文本语料。
3.根据权利要求1所述的一种字词双维度的化妆品安全监管领域事件信息抽取方法,其特征在于:所述步骤2中,在公共领域词嵌入资源库的基础上,将步骤1中得到的化妆品领域专业词汇输入到跳跃式模型中,对公共领域词嵌入资源库进行增量训练,随着步骤1中爬取内容的不断增多,每隔一段时间,当积累一定数量的进行增量训练的内容后,再次将其输入到跳跃式模型中对公共领域词嵌入资源库进行增量训练,最终将公共领域词嵌入资源库扩展为适用于化妆品安全领域的词嵌入资源库。
4.根据权利要求1所述的一种字词双维度的化妆品安全监管领域事件信息抽取方法,其特征在于:所述步骤3中,将舆情事件文本语料输入到预训练模型中获取文本的向量化表示时,其中具体执行过程为对整段文本输入按句子进行分割,然后使用深度自注意力变换网络对输入进行编码,编码后对句子的部分内容进行掩盖,掩盖后通过句子剩余内容对掩盖内容进行预测,并将预测掩盖结果与真实掩盖内容进行对比,得到预测的误差,根据预测误差对模型的参数进行调整,通过这种预测将输入文本映射到了向量空间中,得到字维度文本向量化表示;词维度在输入到预训练前首先进行中文的分词工作,然后同样得到词维度文本输入向量。
5.根据权利要求1所述的一种字词双维度的化妆品安全监管领域事件信息抽取方法,其特征在于:所述步骤4中,字维度文本向量化表示作为主要输入信息,词维度文本向量化表示作为辅助输入信息时,首先需要将字维度文本向量化和词维度文本向量化表示进行向量融合,再将不同维度的两种向量输入统一到同一个维度,字维度文本向量化表示vc∈Rn,词维度文本向量表示为vw∈Rm,通过线性变换将向量统一到同一维度后,然后将两种文本向量化表示进行相加,最后添加与文本等长的向量存储文本的分句信息,作为分割嵌入向量与和文本向量化表示,一并输入到双向深度自注意力变换网络的编码器BERT中。
6.根据权利要求1所述的面向化妆品安全监管领域的字词双维度舆情事件信息抽取方法,其特征在于:所述步骤5中,事件信息抽取结果的内容分为6类:事件发生时间、事件发生地点、事件参与者、参与者行为、事件受影响对象、受影响对象的状态变化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110278179.7A CN112884354B (zh) | 2021-03-15 | 2021-03-15 | 一种字词双维度的化妆品安全监管领域事件信息抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110278179.7A CN112884354B (zh) | 2021-03-15 | 2021-03-15 | 一种字词双维度的化妆品安全监管领域事件信息抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112884354A CN112884354A (zh) | 2021-06-01 |
CN112884354B true CN112884354B (zh) | 2023-07-11 |
Family
ID=76042016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110278179.7A Active CN112884354B (zh) | 2021-03-15 | 2021-03-15 | 一种字词双维度的化妆品安全监管领域事件信息抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112884354B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101341502A (zh) * | 2005-08-05 | 2009-01-07 | 辉瑞产品公司 | 自动化批量制造 |
WO2020211275A1 (zh) * | 2019-04-18 | 2020-10-22 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7275070B2 (en) * | 2001-01-23 | 2007-09-25 | Conformia Software, Inc. | System and method for managing the development and manufacturing of a pharmaceutical drug |
US20030120532A1 (en) * | 2001-12-26 | 2003-06-26 | Brumm Russell Joseph | Use of standard formatted electronic maps for design, manufacturing and regulatory compliance |
JP7041281B2 (ja) * | 2019-07-04 | 2022-03-23 | 浙江大学 | ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法 |
-
2021
- 2021-03-15 CN CN202110278179.7A patent/CN112884354B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101341502A (zh) * | 2005-08-05 | 2009-01-07 | 辉瑞产品公司 | 自动化批量制造 |
WO2020211275A1 (zh) * | 2019-04-18 | 2020-10-22 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
基于BERT-wwm-ext多特征文本表示的经济事件主体抽取方法研究;陈平;匡尧;陈婧;;武汉电力职业技术学院学报(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112884354A (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112101041B (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN111783394B (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN110110054A (zh) | 一种基于深度学习的从非结构化文本中获取问答对的方法 | |
CN106202010A (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN113868432B (zh) | 一种用于钢铁制造企业的知识图谱自动构建方法和系统 | |
CN106933804A (zh) | 一种基于深度学习的结构化信息抽取方法 | |
CN109492113A (zh) | 一种面向软件缺陷知识的实体、关系联合抽取方法 | |
CN113761893B (zh) | 一种基于模式预训练的关系抽取方法 | |
CN109918647A (zh) | 一种安全领域命名实体识别方法及神经网络模型 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
WO2023159767A1 (zh) | 目标词语的检测方法、装置、电子设备及存储介质 | |
CN117252255B (zh) | 一种面向辅助决策的灾害应急知识图谱构建方法 | |
CN113987201A (zh) | 一种基于本体适配器的零样本知识图谱补全方法 | |
CN113312912A (zh) | 一种用于交通基础设施检测文本的机器阅读理解方法 | |
CN115292568B (zh) | 一种基于联合模型的民生新闻事件抽取方法 | |
CN116595023A (zh) | 地址信息的更新方法和装置、电子设备及存储介质 | |
CN117390189A (zh) | 基于前置分类器的中立文本生成方法 | |
CN117131856A (zh) | 一种基于问题引导的交通事故文本因果关系抽取方法 | |
CN112148879B (zh) | 一种自动给代码打数据结构标签的计算机可读存储介质 | |
CN112884354B (zh) | 一种字词双维度的化妆品安全监管领域事件信息抽取方法 | |
CN115048929B (zh) | 敏感文本监测方法及装置 | |
CN113505207B (zh) | 一种金融舆情研报的机器阅读理解方法及系统 | |
CN114297408A (zh) | 一种基于级联二进制标注框架的关系三元组抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |