CN109299470B - 文本公告中触发词的抽取方法及系统 - Google Patents
文本公告中触发词的抽取方法及系统 Download PDFInfo
- Publication number
- CN109299470B CN109299470B CN201811295979.4A CN201811295979A CN109299470B CN 109299470 B CN109299470 B CN 109299470B CN 201811295979 A CN201811295979 A CN 201811295979A CN 109299470 B CN109299470 B CN 109299470B
- Authority
- CN
- China
- Prior art keywords
- word
- trigger
- words
- sentence
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 54
- 239000013598 vector Substances 0.000 claims description 37
- 230000003993 interaction Effects 0.000 claims description 29
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种文本公告中触发词的抽取方法及系统,该方法包括步骤:步骤1,通过标点符号对文本公告的整体内容进行分句,得到若干个句子;步骤2,将每个句子划分为若干个词,并将若干个词与预建立的词典中的触发词进行匹配,依序将匹配成功的同一个词转换成带不同序号标识的相同符号;步骤3,将经步骤2处理后的每一个句子输入触发词抽取模型中,输出得到每个词的为触发词的概率值,概率值大于等于0.5的词即为触发词。通过本发明方法及系统可以较为准确地抽取出事件的触发词,且适应性光,可应用于各种事件触发词发抽取。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种文本公告中触发词的抽取方法及系统。
背景技术
事件作为信息的一种表现形式,其定义为特定的人或物在特定时间和特定地点相互作用的客观事实,一般存在一个句子里。事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化信息呈现给用户。事件抽取任务可分解为两个子任务,即事件分类任务和事件元素识别任务。事件分类任务是判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务;事件元素识别任务则是一个基于词对的多分类任务,判断句子中任意一对触发词和实体之间的角色关系。
目前进行事件抽取一般有两种方式:基于模式匹配和基于机器学习,基于模式匹配是通过待抽取的句子与已有的模板进行匹配,该方式针对特定领域可以取得较高性能,但移植性差,无法适应复杂多变的描述;而基于机器学习是指将事件类别及事件元素的识别转换为分类问题,基于短语或句子层级的信息,具有领域无关,移植性好的优点,但需要大量的标注语料,一般机器学习模型从形式多变句子里抽取出触发词的效果不佳。
发明内容
本发明的目的在于提供一种文本公告中的触发词抽取方法及系统,可以提高触发词抽取的准确性和增强适应能力。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
一种文本公告中触发词的抽取方法,包括以下步骤:
步骤1,通过标点符号对文本公告的整体内容进行分句,得到若干个句子;
步骤2,将每个句子划分为若干个词,并将若干个词与预建立的词典中的触发词进行匹配,依序将匹配成功的同一个词转换成带不同序号标识的相同符号;
步骤3,将经步骤2处理后的每一个句子输入触发词抽取模型中,输出得到每个词为触发词的概率值,概率值大于等于阈值的词即为触发词。
在更优化的方案中,在将每个句子划分为若干个词之前,还包括步骤:基于预先设立的若干个关键词,去掉不包含任一个关键词的句子;此时,所述将每个句子划分为若干个词是指,将保留下来的每个句子划分为若干个词。设置关键词,相当于问答模型的问题,这样能更好的帮助模型在下一步定位出触发词。
在更优化的方案中,在输出得到每个词为触发词的概率值之后,还包括步骤:将大于等于阈值的概率值用第一字符替换,将小于阈值的概率值用第二字符替换。例如对每个句子中的词输出Y或者N,Y代表是触发词,N代表该词不是触发词,更容易发现句子中的触发词并抽取。
另一方面,本发明实施例同时提供了一种文本公告中触发词的抽取系统,包括以下模块:
分句模块,用于通过标点符号对文本公告的整体内容进行分句,得到若干个句子;
分词模块,用于将每个句子划分为若干个词,并将若干个词与预建立的词典中的触发词进行匹配,依序将匹配成功的同一个词转换成带不同序号标识的相同符号;
触发词抽取模块,将所述分词模块输出的每一个句子输入触发词抽取模型中,输出得到每个词的为触发词的概率值,概率值大于等于阈值的词即为触发词。
再一方面,本发明实施例同时提供了一种包括计算机可读指令的计算机可读存储介质,所述计算机可读指令在被执行时使处理器执行本发明实施例中所述方法中的操作。
再一方面,本发明实施例同时提供了一种电子设备,包括:存储器,存储程序指令;处理器,与所述存储器相连接,执行存储器中的程序指令,实现本发明实施例中所述方法中的步骤。
与现有技术相比,本发明具有以下优势:
模式匹配与机器学习相结合的方式,既能够适应复杂多变的描述,增强适应性,又可以提高抽取结果的准确度。
将问答模型移植在事件触发词的抽取中,能更好的帮助抽取模型定位出触发词。
通过门控式基于注意力的循环神经网络及自匹配注意力机制,改进的输入方式和修改的输出层,保证了对复杂公告的事件触发词的抽取效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明较佳实施例中所述的一种文本公告中触发词的抽取方法的流程图。
图2为实施例中触发词抽取模型的训练流程图。
图3为实施例中触发词抽取模型的结构图。
图4为实施例中所举示例的文本公告。
图5为本实施例中提供的一种文本公告中触发词的抽取系统的功能模块图。
图6为本实施例中提供的一种电子设备的结构框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
触发词可以认为是标识事件的谓词(又称为锚),是事件的基本要素之一,可以理解为标志一个事件发生的词,一般有0到多个,通过下面的抽取方法,可以把所有的触发词都抽取出来。
请参阅图1,本实施例示意性地提供了一种文本公告中触发词的抽取方法,包括以下步骤:
S10,通过标点符号对文本公告的整体内容进行分句,得到若干个句子。此处的标点符号包括句号、感叹号、分号、问号,不包括逗号、冒号,因为一句话一般含有完整语义,逗号分割会破坏这个完整的语义。
S20,基于预先设立的若干个关键词,去掉不包含任一个关键词的句子,将保留下来的每个句子划分为若干个词,并将若干个词与预建立的词典中的触发词进行匹配,依序将匹配成功的同一个词转换成带不同序号标识的相同符号。
例如,将待选触发词替换为T_0,…,T_n,n为自然数。句子中所有的与词典中记录的触发词相同的词统称为待选触发词,因此多个句子中可能都包含词典中的词,但不是说所有句子中该词都是触发词,是必须出现在合适的位置,表示一个事件的发生才能是触发词,因此此处将句子中所有的与词典中记录的触发词相同的词统称为待选触发词,后面步骤抽取出的触发词即出自于这些替换的待选触发词中。
需要说明的是,本步骤中,是设置了关键词,先通过关键词剔除掉部分句子,再对保留下来的句子进行相应处理,关键词相当于问答模型的问题,这样的目的是能更好的帮助抽取模型在下一步定位出触发词。基于此,基于关键词剔除不包含关键词的句子的操作并不是本方法所必须的步骤,仅是作为有选的实施方案。
S30,将经S20处理后的每一个句子输入触发词抽取模型中,输出得到每个词为触发词的概率值,概率值大于等于阈值的词即为触发词。一般地,阈值设置为0.5。
本步骤中,为了便于更快速地识别出触发词所在的位置,更优地,在得出句子中没干过次为触发词的概率值后,将大于等于阈值的概率值用第一字符(例如Y)替换,将小于阈值的概率值用第二字符(例如N)替换,输出由Y和N组成的字符串,由于字符串中仅有2个字符,且Y字符的个数相对较少,所以很容易识别出,即完成触发词快速抽取操作。
请参阅图2,本实施例示意性地提供了上述触发词抽取模型的训练方法,该方法包括以下步骤:
S101,随机抽取一份文本公告,将该文本公告的整体内容按标点符号进行切分,切分为若干句子。
因为一个事件的触发词和要素一般存在于同一个句子中,所以此处将文本公告的整体内容进行分句,以便于下一步的处理。
S102,基于预设的与触发词相关的关键词,去掉不包含关键词的句子,仅保留包含关键词的句子,并将保留下来的每一个句子划分为若干个词,并将若干个词与预建立的词典中的触发词进行匹配,依序将匹配成功的同一个词转换成带不同序号标识的相同符号,例如符号T_0,…,T_n,n为自然数,且不同的触发词用不同的符号表示,被替换的词称为待选触发词。
作为一种实施方式的举例,此处的和触发词有关可以用是否在触发词附近经常出现的方式来判断。
关键词相当于问答模型的问题,这样能避免分词不准影响触发词识别,能更好的帮助抽取模型在下一步定位出触发词,即更好的确定是不是触发词。过滤掉不包含关键词的句子后,也可以提高处理效率。作为另一种实施方式,也可以直接将所有句子划分为若干个词,再将句子中的待选触发词替换掉。
将关键词和句子分句后分别用词向量和字向量映射成向量,准备输入初始的抽取模型中进行训练。此处同时使用字和词这两种形式,丰富了输入特征。词向量生成方法,称之为word2vec,是深度自然语言处理的基本步骤,通用步骤,word2vec通过使用大量外部语料(如维基百科上所有中文语料)无监督的方法生成各个词和字对应的向量,然后通过词典简单映射即可。
S103,将经步骤S102处理后得到的一个个句子输入初始抽取模型中进行预测,输出得到句子中每个词的为触发词的概率值。概率值大于0.5的词即为触发词。
由于句子中每个词都用一个概率值表示,整个句子就是由若干个概率值组成,这样不便于发现触发词的位置。因此,作为在更优的方案中,本步骤在计算出每个词的概率值后,还要将每个概率值按照“大于0.5用字母Y代替、小于0.5用字母N代替”的原则进行转换,输出由字母Y和N组成的字符串。Y所在位置的词即为触发词。
将关键词和句子输入模型后,通过门控式基于注意力循环神经网络进行关键词和句子的交互信息,相当于带着关键词在句子中找寻需要的信息,过滤不需要的信息。进一步采用自匹配注意力机制捕捉长距离词距的信息,鸟瞰整个句子,以定位那些对确认触发词真正有帮助的部分。一般模型都是关注周边比较短的词距,比如词的前面2个词,后面2个词的状况,但是自注意力匹配机制通过句子和句子本身之间进行一个注意力匹配机制,就能观察到更远的词距的词的信息,整句的信息,以帮助定位那些对确认触发词真正有帮助的部分。
S104,将经步骤S102处理后得到的一个个句子进行人工标注,用Y表示触发词,N表示非触发词。
S105,将步骤S103中得到的预测结果与步骤S104中得到标签数据进行损失计算,并根据损失计算结果优化原始模型的参数。
重新随机抽取新的文本公告,循环执行步骤S101~S105,直至步骤S105的损失计算结果的变化很小,即损失计算结果的变化量在设定的变化范围内,完成触发词抽取模型的构建。触发词抽取模型构建完成后,即可通过该模型抽取出待识别文本公告中事件的触发词。
触发词抽取模型的结构
如图3所示,抽取模型从下往上可分为四层:
第一层Embed层,分别使用了词和字的向量表示关键词(即触发词的周边词)和句子,这样能够丰富输入的特征,通过一个双向GRU网络,将字向量从四维[批长,句长,词长,字向量]转成词向量一样的三维[批长,句长,词向量],并与词向量拼接作为最终的Embeding。该层可以看成模拟人类的阅读概览,通过关注词的周围词语境中对这些词进行理解,对关键词和句子都会这么操作。
第二层Encoding层,即图中Keyword&Sentence Enconding,在这一层同样使用双向GRU来编码关键词和句子的Embeding,用一个双向RNN来分别产生关键词和句子新的表示和/>其中所用的公式分别为:
第三层Interaction层,采用双Interaction层架构,第一Interaction层负责捕捉句子和关键词之间的交互信息,即图中keyword Sentence Matching部分,而第二个Interaction层负责捕捉句子内部各词之间的交互信息,即Sentence Self-Matching图中部分。
以下是第一个Interaction层的公式:
当是整个关键词(uK)注意力集中向量,
为了确定句子和关键词的相关性的重要程度,增加另一个门,即:
这部分称之为门控基于注意力的循环神经网络(gated attention-basedrecurrent networks)。
从Encoding层到第一个Interaction可以看成模拟人类第二遍阅读,该网络会使用文本本身的语境来调节来自句子的词表征,在阅读中段落的某个词,会在关键词部分和句子的相关部分之间形成链接。
以下为第二个Interaction层的公式:
当是整个句子(vS)注意力集中向量
在增加一个门进行控制,以上部分即自匹配注意力(Self-MatchedAttention),使用注意力来比较同一段落中相距较远的词。可以看成模拟人的第三次阅读,有自知的完整的句子理解,基于前两次阅读后,第三次阅读不是单单基于词及其邻近词,而是从整个句子的角度来寻找需要的信息。
最后一层Trigger word Prediction,通过sigmoid判断当前词是否为触发词即可。
针对不同的事件,触发词不一样,词典不一样,但抽取模型结构是一样的,只是不同的事件需要不同的大量的样本训练才能针对该事件的触发词进行抽取。
应用举例
本实施例中,仅以上市公司增减持事件触发词的抽取为例,对本实施例中上述方法进行应用举例说明。如图4所示,为厦门XXX股份有限公司关于持股5%以上股东减持股份的提示性公告的文本示意图,通过本发明上述触发词抽取方法,抽取出该公告中股份减持时间的触发词。
具体的,整个触发词抽取流程如下:
(1)格式转换。由于该公告为PDF格式,不能直接进行处理,因此需要将该公告全文转换为txt文本格式。当然的,如果公告直接是文本格式的公告,则无需执行本步操作。
(2)将格式转换后的文本公告,通过标点符号对公告内容进行分句。
仅以图4所示公告为例,公告内容中依次有一个冒号和五个句号,因此将公告内容划分为五个句子。
(3)基于预先设定的词典中的触发词及与触发词相关的多个关键词,保留包含任一关键词和触发词的句子(包含关键词的句子中包含触发词,所以也可以理解为保留包含任一关键词的句子),删除不包含关键词和触发词的句子,并将保留下来的句子进行整句分词,并将待选触发词替换为T_0,…,T_n,n为自然数。句子中所有的与词典中记录的触发词相同的词统称为待选触发词。从图4公告可以看到有多个减持,但不是说句子中所有的减持就是触发词,是必须减持出现在合适的位置,表示一个事件的发生才能是触发词,因此此处将句子中所有的与词典中记录的触发词相同的词统称为待选触发词,后面步骤抽取出的触发词即出自于这些替换的待选触发词中。
仅以图4所示公告中的股份减持事件为例,触发词有“减持”、“卖出”,设定的与触发词相关的关键词有“通过”、“累计”、“交易所”、“于”、“自”等词,那么步骤(2)划分得到的5个句子,经过本步骤后保留下来有3个句子,即公告内容中的前面3个句子。
然后将保留下来的句子进行分词,并将句子中的“减持”、“卖出”依序替换为T_0,…,T_n。词是自然语言处理的基本单位,自然语言各种技术一般都是以词为单位来处理的,分词是一项很成熟的技术,此处不做细述。
例如图4所示公告中的句子:
“自厦门XXX股份有限公司(以下简称XXX)股改限售期结束至2010年12月31日,B公司累计减持XXX9567989股,占XXX股份总数的4.2524%,2011年1月1日至2013年12月31日B公司未减持XXX股份”。
经过本步骤处理后为:
“自|厦门|XXX|股份|有限|公司|(|以下|简称|XXX|)|股改|限售期|结束|至|2010年|12月31日|,|B公司|累计|T_0|XXX|9567989|股|,|占|XXX|股份|总数|的|4.2524%|,|2011年1月1日|至|2013年12月31日|B公司|未|T_1|XXX|股份”。
需要说明的是,该句子中只包含词典中的“减持”一词,不包含“卖出”一词,在其他示例中,假设还包含“卖出”一词,则可以通过另外的字符将待选触发词替换,例如用T_0,…,T_n替换“减持”,用t_0,…,t_n替换“卖出”,以进行区分,便于后面句子的还原。
另外,作为优选的方案,T_0至T_n的排序是针对每个句子而言的。例如,针对上面的句子,有两个减持,分别用了T_0、T_1替换,而针对其后的句子则又是重新排序,结果为:“加计|本次|T_0|,|B公司|累计|T_1|XXX|11752826|股|,|占|XXX|股份|总数|的|5.22%”。
(4)将保留下来且分词完成的每一个句子输入抽取模型中进行触发词抽取,每次输入一个句子,每输入一个句子得到该句子中每个词为触发词的概率值,并将每个概率值按照“大于0.5用字母Y代替,小于0.5用字母N代替”的原则,输出由字母Y和N组成的字符串,字母Y所在位置的词即为触发词。
例如上面的示例,即“自|厦门|XXX|股份|有限|公司|(|以下|简称|XXX|)|股改|限售期|结束|至|2010年|12月31日|,|B公司|累计|T_0|XXX|9567989|股|,|占|XXX|股份|总数|的|4.2524%|,|2011年1月1日|至|2013年12月31日|B公司|未|T_1|XXX|股份”经过本步骤后的结果是:N|N|N|N|N|N|N|N|N|N|N|N|N|N|N|N|N|N|N|N|N|Y|N|N|N|N|N|N|N|N|N|N|N|N|N|N|N|N|N|N|N,Y所在位置的词即为触发词,即可抽出该位置的词,实现减持事件的触发词抽取。
相比于从一堆不同的数值中找出大于0.5的数值,从由Y和N组成的字符串中找出Y的位置的方式更容易,更简单。如图4所示公告中,经过本实施例方法抽取出来的两个事件中的触发词为图4中红色框线所标示。
请参阅图5,基于相同的发明构思,本实施例中同时提供了一种文本公告中触发词的抽取系统,图5中所示的各模块之间的箭头表示数据的传输方向。具体的,该触发词抽取系统包括以下模块:
分句模块,用于通过标点符号对文本公告的整体内容进行分句,得到若干个句子;
分词模块,用于将每个句子划分为若干个词,并将若干个词与预建立的词典中的触发词进行匹配,依序将匹配成功的同一个词转换成带不同序号标识的相同符号;
触发词抽取模块,将所述分词模块输出的每一个句子输入触发词抽取模型中,输出得到每个词的为触发词的概率值,概率值大于等于阈值的词即为触发词。
在更优化的方案中,上述系统中还包括过滤模块,用于基于预先设立的若干个关键词,去掉不包含任一个关键词的句子,仅保留包含关键词的句子。当然,此时的分词及替换模块,则具体用于将所述过滤模块保留下来的每个句子划分为若干个词,并将若干个词与预建立的词典中的触发词进行匹配,依序将匹配成功的同一个词转换成带不同序号标识的相同符号。
在更优化的方案中,上述触发词抽取模块也可以采用另一种实施方式进行触发词的抽取,例如,将所述分词模块输出的每一个句子输入触发词抽取模型中,输出得到每个词的为触发词的概率值,并将大于等于阈值的概率值用第一字符替换,将小于阈值的概率值用第二字符替换,抽取出第一字符所在位置的词即为触发词。
上述抽取系统与本实施例中前述抽取方法是基于相同的构思而提出的,因此,此处系统描述中未涉及之处请参阅前述方法描述中的相关内容,例如,分词模块可以采用将关键词和句子分词后分别用词向量和字向量映射成向量准备输入至触发词抽取模型中。又例如,触发词抽取模块中,触发词抽取模型通过门控式基于注意力循环神经网络捕捉关键词和句子的交互信息,进一步采用自匹配注意力机制捕捉同一句子内部长距离词距的信息。
如图6所示,本实施例同时提供了一种电子设备,该电子设备可以包括处理器51和存储器52,其中存储器52耦合至处理器51。值得注意的是,该图是示例性的,还可以使用其他类型的结构来补充或替代该结构,实现数据提取、报告生成、通信或其他功能。
如图6所示,该电子设备还可以包括:输入单元53、显示单元54和电源55。值得注意的是,该电子设备也并不是必须要包括图6中显示的所有部件。此外,电子设备还可以包括图6中没有示出的部件,可以参考现有技术。
处理器51有时也称控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该处理器51接收输入并控制电子设备的各个部件的操作。
其中,存储器52例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其他合适装置中的一种或多种,可存储上述处理器51的配置信息、处理器51执行的指令、记录的表格数据等信息。处理器51可以执行存储器52存储的程序,以实现信息存储或处理等。在一个实施例中,存储器52中还包括缓冲存储器,即缓冲器,以存储中间信息。
输入单元53例如用于向处理器51提供各个文本报告。显示单元54用于显示处理过程中的各种结果,该显示单元例如可以为LCD显示器,但本发明并不限于此。电源55用于为电子设备提供电力。
本发明实施例还提供一种计算机可读指令,其中当在电子设备中执行所述指令时,所述程序使得电子设备执行本发明方法所包含的操作步骤。
本发明实施例还提供一种存储有计算机可读指令的存储介质,其中所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种文本公告中触发词的抽取方法,其特征在于,包括以下步骤:
步骤1,通过标点符号对文本公告的整体内容进行分句,得到若干个句子;
步骤2,将每个句子划分为若干个词,并将若干个词与预建立的词典中的触发词进行匹配,依序将匹配成功的同一个词转换成带不同序号标识的相同符号;
步骤3,将经步骤2处理后的每一个句子输入触发词抽取模型中,输出得到每个词为触发词的概率值,概率值大于等于阈值的词即为触发词;
触发词抽取模型通过门控式基于注意力循环神经网络捕捉关键词和句子的交互信息;
触发词抽取模型采用自匹配注意力机制捕捉同一句子内部长距离词距的信息;
在将每个句子划分为若干个词之前,还包括步骤:基于预先设立的若干个关键词,去掉不包含任一个关键词的句子;此时,所述将每个句子划分为若干个词是指,将保留下来的每个句子划分为若干个词;
所述步骤2中,是将关键词和句子分词后分别用词向量和字向量映射成向量输入至触发词抽取模型中;
抽取模型从上到下包括4层结构:
第一层Embed层,分别使用了词和字的向量表示关键词和句子,通过一个双向GRU网络,将字向量从批长、句长、词长、字向量的四个维度,转成词向量的批长、句长、词向量的三维,并与词向量拼接作为最终的Embeding;
第二层Encoding层,
使用双向GRU来编码关键词和句子的Embeding,用一个双向RNN来分别产生关键词和句子新的表示 和/>;其中所用的公式分别为:
;
第三层Interaction层,为双Interaction层架构,
第一Interaction层负责捕捉句子和关键词之间的交互信息;
第二个Interaction层负责捕捉句子内部各词之间的交互信息;
其中,第一个Interaction层的公式:
当是整个关键词(/>)注意力集中向量,
句子和关键词的重要程度的门为:
其中,第二个Interaction层的公式:
当是整个句子(/>)注意力集中向量
增加一个门进行控制;
使用注意力来比较同一段落中相距较远的词;
还包括一层Trigger word Prediction,通过sigmoid判断当前词是否为触发词。
2.一种根据权利要求1所述的方法,其特征在于,在输出得到每个词为触发词的概率值之后,还包括步骤:将大于等于阈值的概率值用第一字符替换,将小于阈值的概率值用第二字符替换。
3.一种文本公告中触发词的抽取系统,其特征在于,包括以下模块:
分句模块,用于通过标点符号对文本公告的整体内容进行分句,得到若干个句子;
分词模块,用于将每个句子划分为若干个词,并将若干个词与预建立的词典中的触发词进行匹配,依序将匹配成功的同一个词转换成带不同序号标识的相同符号;
触发词抽取模块,将所述分词模块输出的每一个句子输入触发词抽取模型中,输出得到每个词的为触发词的概率值,概率值大于等于阈值的词即为触发词;
触发词抽取模型通过门控式基于注意力循环神经网络捕捉关键词和句子的交互信息;
触发词抽取模型采用自匹配注意力机制捕捉同一句子内部长距离词距的信息;
还包括过滤模块,用于基于预先设立的若干个关键词,去掉不包含任一个关键词的句子,仅保留包含关键词的句子;此时,所述分词及替换模块具体用于将所述过滤模块保留下来的每个句子划分为若干个词,并将若干个词与预建立的词典中的触发词进行匹配,依序将匹配成功的同一个词转换成带不同序号标识的相同符号;
抽取模型从下往上可分为四层:
第一层Embed层,分别使用了词和字的向量表示关键词和句子,通过一个双向GRU网络,将字向量从四维[批长,句长,词长,字向量]转成词向量一样的三维[批长,句长,词向量],并与词向量拼接作为最终的Embeding;
第二层Encoding层,
这一层同样使用双向GRU来编码关键词和句子的Embeding,用一个双向RNN来分别产生关键词和句子新的表示 和/>;其中所用的公式分别为:
;
第三层Interaction层,采用双Interaction层架构,第一Interaction层负责捕捉句子和关键词之间的交互信息,即keyword Sentence Matching部分,而第二个Interaction层负责捕捉句子内部各词之间的交互信息;
以下是第一个Interaction层的公式:
当是整个关键词(/>)注意力集中向量,
为了确定句子和关键词的相关性的重要程度,增加另一个门,即:
以下为第二个Interaction层的公式:
当是整个句子(/>)注意力集中向量
在增加一个门进行控制,以上部分即自匹配注意力(Self-Matched Attention),使用注意力来比较同一段落中相距较远的词;
最后一层Trigger word Prediction,通过sigmoid判断当前词是否为触发词即可。
4.一种根据权利要求3所述的系统,其特征在于,所述触发词抽取模块,具体用于将所述分词模块输出的每一个句子输入触发词抽取模型中,输出得到每个词的为触发词的概率值,并将大于等于阈值的概率值用第一字符替换,将小于阈值的概率值用第二字符替换,抽取出第一字符所在位置的词即为触发词。
5.一种包括计算机可读指令的计算机可读存储介质,其特征在于,所述计算机可读指令在被执行时使处理器执行权利要求1所述方法中的操作。
6.一种电子设备,其特征在于,所述的设备包括:
存储器,存储程序指令;
处理器,与所述存储器相连接,执行存储器中的程序指令,实现权利要求1所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811295979.4A CN109299470B (zh) | 2018-11-01 | 2018-11-01 | 文本公告中触发词的抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811295979.4A CN109299470B (zh) | 2018-11-01 | 2018-11-01 | 文本公告中触发词的抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109299470A CN109299470A (zh) | 2019-02-01 |
CN109299470B true CN109299470B (zh) | 2024-02-09 |
Family
ID=65146271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811295979.4A Active CN109299470B (zh) | 2018-11-01 | 2018-11-01 | 文本公告中触发词的抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109299470B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377753B (zh) * | 2019-07-01 | 2022-10-21 | 吉林大学 | 基于关系触发词与gru模型的关系抽取方法及装置 |
CN110489514B (zh) * | 2019-07-23 | 2023-05-23 | 成都数联铭品科技有限公司 | 提升事件抽取标注效率的系统及方法、事件抽取方法及系统 |
CN114841162B (zh) * | 2022-05-20 | 2024-01-05 | 中国电信股份有限公司 | 文本处理方法、装置、设备及介质 |
CN115577112B (zh) * | 2022-12-09 | 2023-04-18 | 成都索贝数码科技股份有限公司 | 一种基于类型感知门控注意力机制的事件抽取方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951438A (zh) * | 2017-02-13 | 2017-07-14 | 北京航空航天大学 | 一种面向开放域的事件抽取系统及方法 |
CN107122416A (zh) * | 2017-03-31 | 2017-09-01 | 北京大学 | 一种中文事件抽取方法 |
CN107133211A (zh) * | 2017-04-26 | 2017-09-05 | 中国人民大学 | 一种基于注意力机制的作文评分方法 |
CN107239445A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络的新闻事件抽取的方法及系统 |
CN107590138A (zh) * | 2017-08-18 | 2018-01-16 | 浙江大学 | 一种基于词性注意力机制的神经机器翻译方法 |
CN107957990A (zh) * | 2017-11-20 | 2018-04-24 | 东软集团股份有限公司 | 一种触发词扩展方法、装置以及事件提取方法及系统 |
CN108345583A (zh) * | 2017-12-28 | 2018-07-31 | 中国科学院自动化研究所 | 基于多语注意力机制的事件识别及分类方法及装置 |
CN108376131A (zh) * | 2018-03-14 | 2018-08-07 | 中山大学 | 基于seq2seq深度神经网络模型的关键词抽取方法 |
CN108447534A (zh) * | 2018-05-18 | 2018-08-24 | 灵玖中科软件(北京)有限公司 | 一种基于nlp的电子病历数据质量管理方法 |
CN108628970A (zh) * | 2018-04-17 | 2018-10-09 | 大连理工大学 | 一种基于新标记模式的生物医学事件联合抽取方法 |
-
2018
- 2018-11-01 CN CN201811295979.4A patent/CN109299470B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951438A (zh) * | 2017-02-13 | 2017-07-14 | 北京航空航天大学 | 一种面向开放域的事件抽取系统及方法 |
CN107122416A (zh) * | 2017-03-31 | 2017-09-01 | 北京大学 | 一种中文事件抽取方法 |
CN107133211A (zh) * | 2017-04-26 | 2017-09-05 | 中国人民大学 | 一种基于注意力机制的作文评分方法 |
CN107239445A (zh) * | 2017-05-27 | 2017-10-10 | 中国矿业大学 | 一种基于神经网络的新闻事件抽取的方法及系统 |
CN107590138A (zh) * | 2017-08-18 | 2018-01-16 | 浙江大学 | 一种基于词性注意力机制的神经机器翻译方法 |
CN107957990A (zh) * | 2017-11-20 | 2018-04-24 | 东软集团股份有限公司 | 一种触发词扩展方法、装置以及事件提取方法及系统 |
CN108345583A (zh) * | 2017-12-28 | 2018-07-31 | 中国科学院自动化研究所 | 基于多语注意力机制的事件识别及分类方法及装置 |
CN108376131A (zh) * | 2018-03-14 | 2018-08-07 | 中山大学 | 基于seq2seq深度神经网络模型的关键词抽取方法 |
CN108628970A (zh) * | 2018-04-17 | 2018-10-09 | 大连理工大学 | 一种基于新标记模式的生物医学事件联合抽取方法 |
CN108447534A (zh) * | 2018-05-18 | 2018-08-24 | 灵玖中科软件(北京)有限公司 | 一种基于nlp的电子病历数据质量管理方法 |
Non-Patent Citations (6)
Title |
---|
Attention is all you need;Ashish Vaswani 等;《arxiv》;1-15 * |
Biomedical Event Trigger Identification Using Bidirectional Recurrent Neural Network Based Models;Rahul 等;《BioNLP 2017》;316-321 * |
Event Detection via Gated Multilingual Attention Mechanism;Jian Liu 等;《AAAI18》;4865-4872 * |
Gated Self-Matching Networks for Reading Comprehension and Question Answering;Wenhui Wang 等;《Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics》;189-198 * |
Lishuang Li等.Biomedical event extraction based on GRU integrating attention mechanism.《BMC Bioinformatics》.2018,93-100. * |
基于深度学习的中文论述类问题只能回答系统的研究与实现;王英涛;《中国优秀硕士学位论文全文数据库》;I138-976 * |
Also Published As
Publication number | Publication date |
---|---|
CN109299470A (zh) | 2019-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299470B (zh) | 文本公告中触发词的抽取方法及系统 | |
CN110287480B (zh) | 一种命名实体识别方法、装置、存储介质及终端设备 | |
CN110781276A (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN112001177A (zh) | 融合深度学习与规则的电子病历命名实体识别方法及系统 | |
CN110852087A (zh) | 中文纠错方法和装置、存储介质及电子装置 | |
Fonseca et al. | Mac-morpho revisited: Towards robust part-of-speech tagging | |
CN112270196A (zh) | 实体关系的识别方法、装置及电子设备 | |
CN111401058B (zh) | 一种基于命名实体识别工具的属性值抽取方法及装置 | |
CN110096572B (zh) | 一种样本生成方法、装置及计算机可读介质 | |
CN113360654B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN113901170A (zh) | 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备 | |
CN113553853B (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
CN105593845A (zh) | 基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法 | |
CN109033073B (zh) | 基于词汇依存三元组的文本蕴含识别方法及装置 | |
CN111382366B (zh) | 基于语言和非语言特征的社交网络用户识别方法及装置 | |
CN111401012A (zh) | 文本纠错方法、电子设备及计算机可读存储介质 | |
Hashmi et al. | Feedback learning: Automating the process of correcting and completing the extracted information | |
CN115526176A (zh) | 文本识别方法及装置、电子设备、存储介质 | |
CN110232328A (zh) | 一种征信报告解析方法、装置及计算机可读存储介质 | |
CN112818693A (zh) | 一种电子元器件型号词的自动提取方法及系统 | |
Kang et al. | Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism | |
CN110232193A (zh) | 一种结构化文本翻译方法及装置 | |
CN114003708B (zh) | 基于人工智能的自动问答方法、装置、存储介质及服务器 | |
CN115730071A (zh) | 电力舆情事件的抽取方法、装置、电子设备及存储介质 | |
KR102569381B1 (ko) | 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |