CN111382228B - 用于输出信息的方法和装置 - Google Patents
用于输出信息的方法和装置 Download PDFInfo
- Publication number
- CN111382228B CN111382228B CN202010187499.7A CN202010187499A CN111382228B CN 111382228 B CN111382228 B CN 111382228B CN 202010187499 A CN202010187499 A CN 202010187499A CN 111382228 B CN111382228 B CN 111382228B
- Authority
- CN
- China
- Prior art keywords
- sentence
- task
- event
- model
- argument
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开的实施例公开了用于输出信息的方法和装置,涉及知识图谱技术领域。该方法的一具体实施方式包括:响应于接收到待识别的文档,将文档切分成至少一个句子;对于每个句子,将该句子输入多任务学习框架的深度学习神经网络,得到该句子的第一模型表示向量;将每个句子的第一模型表示向量输入多任务学习框架的事件分类模型,输出每个句子的事件类型;将每个句子的事件类型和对应的论元角色名拼接成问题;将每个句子对应的问题和文档输入多任务学习框架的深度学习神经网络,得到每个句子的第二模型表示向量;将每个句子的第二模型表示向量输入多任务学习框架的论元角色识别模型,输出每个句子的论元角色值。该实施方式能够提高信息筛选效率。
Description
技术领域
本公开的实施例涉及计算机技术领域,具体涉及用于输出信息的方法和装置。
背景技术
信息抽取在海量的数据处理中有着非常重要的作用,其中事件抽取任务是从文本中抽取结构化的事件信息,包括事件的类型、触发词、事件的论元角色。事件抽取应用很广,在金融领域,可以定位、定量、定性分析金融中的各项活动,极大的解决人力资源;医疗领域,通过诊断说明书以及病患的症状表述,可以很快锁定病患的疾病情况,可以让患者对病状的了解更加明确。
事件抽取主要研究方法有两大类:基于模式匹配和基于机器学习。
基于模式匹配的事件抽取是在一些模式的指导下进行事件类型的识别和论元抽取。模式主要用于指明构成目标信息的上下文约束环,集中体现了领域知识和语言知识的融合。模式主要是依赖人工构建,有研究引入机器学习方法加速模式的构建。
基于机器学习的事件抽取将事件类型及事件论元的识别转化成为分类问题,其核心在于分类器的构造和特征的选择。近年来不少研究使用深度神经网络通过学习语义特征进行事件抽取。特别是深度学习方法,在事件抽取中取得了不错的效果。
目前通过联合抽取的方式存在如下问题,1)事件抽取语料获取成本高,因此训练语料数量少,尤其是部分事件类型下的数据稀疏,导致在深度学习方法中训练不够,最终影响抽取效果;2)现有的联合抽取方法由于优化模型的过程中必须使用相同的数据作为输入,限制了模型对大语料的运用;3)现有的技术方案中论元识别和抽取是两个任务,子任务多导致联合学习的方式优化方式设计困难。
发明内容
本公开的实施例提出了用于输出信息的方法和装置。
第一方面,本公开的实施例提供了一种用于输出信息的方法,包括:响应于接收到待识别的文档,将文档切分成至少一个句子;对于每个句子,将该句子输入多任务学习框架的深度学习神经网络,得到该句子的第一模型表示向量;将每个句子的第一模型表示向量输入多任务学习框架的事件分类模型,输出每个句子的事件类型;将每个句子的事件类型和对应的论元角色名拼接成问题;将每个句子对应的问题和文档输入多任务学习框架的深度学习神经网络,得到每个句子的第二模型表示向量;将每个句子的第二模型表示向量输入多任务学习框架的论元角色识别模型,输出每个句子的论元角色值。
在一些实施例中,在输出每个句子的事件类型之后,该方法还包括:将文档中相同事件类型的句子合并。
在一些实施例中,该方法通过如下步骤训练多任务学习框架:获取第一训练样本集,其中,第一训练样本包括事件句和用于表征事件句中事件类型的第一标注信息;将第一训练样本集中的第一训练样本中的事件句和第一标注信息分别作为多任务学习框架的输入和期望输出,利用机器学习方法训练深度学习神经网络和事件分类模型;获取第二训练样本集,其中,第二训练样本包括包含由事件类型和论元角色名组成的问题、用于表征问题对应的答案的起始位置和终止位置的第二标注信息;将第二训练样本集中的第二训练样本中的问题和第二标注信息分别作为多任务学习框架的输入和期望输出,利用机器学习方法训练多任务学习框架的深度学习神经网络和论元角色识别模型。
在一些实施例中,该方法还包括:如果训练过程中事件分类模型的损失值大于预定阈值,则在论元角色识别模型的训练过程中加入惩罚。
在一些实施例中,多任务学习框架包括:输入层、参数共享层、任务参数层和任务输出层。
在一些实施例中,参数共享层是深度学习网络,多个任务共享深度学习网络的参数,输出当前输入的模型表示向量,任务参数层包括事件分类模型和论元角色识别模型,任务参数层接收共享参数层输出的当前输入的模型表示向量,与任务参数层的参数做运算得到任务相关的表示向量,不同任务拥有不同的参数,任务输出层输出事件类型和论元角色的起始位置和终止位置。
第二方面,本公开的实施例提供了一种用于输出信息的装置,包括:切分单元,被配置成响应于接收到待识别的文档,将文档切分成至少一个句子;第一表示单元,被配置成对于每个句子,将该句子输入多任务学习框架的深度学习神经网络,得到该句子的第一模型表示向量;事件分类单元,被配置成将每个句子的第一模型表示向量输入多任务学习框架的事件分类模型,输出每个句子的事件类型;拼接单元,被配置成将每个句子的事件类型和对应的论元角色名拼接成问题;第二表示单元,被配置成将每个句子对应的问题和文档输入多任务学习框架的深度学习神经网络,得到每个句子的第二模型表示向量;论元识别单元,被配置成将每个句子的第二模型表示向量输入多任务学习框架的论元角色识别模型,输出每个句子的论元角色值。
在一些实施例中,该装置还包括合并单元,被配置成:在输出每个句子的事件类型之后,将文档中相同事件类型的句子合并。
在一些实施例中,该装置还包括训练单元,被配置成:获取第一训练样本集,其中,第一训练样本包括事件句和用于表征事件句中事件类型的第一标注信息;将第一训练样本集中的第一训练样本中的事件句和第一标注信息分别作为多任务学习框架的输入和期望输出,利用机器学习装置训练深度学习神经网络和事件分类模型;获取第二训练样本集,其中,第二训练样本包括包含由事件类型和论元角色名组成的问题、用于表征问题对应的答案的起始位置和终止位置的第二标注信息;将第二训练样本集中的第二训练样本中的问题和第二标注信息分别作为多任务学习框架的输入和期望输出,利用机器学习装置训练多任务学习框架的深度学习神经网络和论元角色识别模型。
在一些实施例中,训练单元进一步被配置成:如果训练过程中事件分类模型的损失值大于预定阈值,则在论元角色识别模型的训练过程中加入惩罚。
在一些实施例中,多任务学习框架包括:输入层、参数共享层、任务参数层和任务输出层。
在一些实施例中,参数共享层是深度学习网络,多个任务共享深度学习网络的参数,输出当前输入的模型表示向量,任务参数层包括事件分类模型和论元角色识别模型,任务参数层接收共享参数层输出的当前输入的模型表示向量,与任务参数层的参数做运算得到任务相关的表示向量,不同任务拥有不同的参数,任务输出层输出事件类型和论元角色的起始位置和终止位置。
第三方面,本公开的实施例提供了一种用于输出信息的电子设备,包括:一个或多个处理器;储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一的方法。
第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一的方法。
本公开针对现有的联合学习事件抽取存在的缺陷,引入多任务学习框架优化模型,主要改进点有1)为了减少子任务数量,将论元识别和角色分类以及事件触发词抽取转化为以阅读理解为基础的方法;2)在事件抽取语料标注的过程中,不同部分标注的成本不一样,比如,对于事件触发词的标注、事件类型的标注,其标注成本远低于论元和论元角色标注的成本,而事件类型的识别对于论元角色识别和分类至关重要,事件类型的识别会导致整个识别的错误,因此可以通过增加事件类型的标注数据提升事件类型分类的效果,这样可以在有限资源的条件下快速提升抽取效果,因此,本公开提出了一种多任务学习框架的联合学习事件抽取方法。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本公开的用于输出信息的方法的一个实施例的流程图;
图3是根据本公开的用于输出信息的方法的一个应用场景的示意图;
图4是根据本公开的用于输出信息的方法的又一个实施例的流程图;
图5是根据本公开的用于输出信息的装置的一个实施例的结构示意图;
图6是适于用来实现本公开的实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的用于输出信息的方法或用于输出信息的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如文档编辑类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且支持文本浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的文档提供事件抽取服务的后台抽取服务器。后台抽取服务器可以对接收到的事件抽取请求等数据进行分析等处理,并将处理结果(例如事件类型、论元角色、触发词)反馈给终端设备。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本公开的实施例所提供的用于输出信息的方法一般由服务器105执行,相应地,用于输出信息的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
为了方便理解,对本申请涉及的一些概念进行如下说明:
1、事件抽取:抽取文本中的事件将其结构化,主要分为触发词抽取、事件分类、论元识别和论元角色分类三个子任务。
IE系统抽取的信息随数据类型不同而不同。一般来说,面向新闻报道的IE系统要抽取的核心内容主要包括实体、关系、事件。其中,实体是指在世界中真实存在的目标,关系是指实体之间的一些关系,如:整体-部分关系,雇用与被雇用关系等等。而事件则是由某些原因、条件引起,发生在特定时间、地点,并可能伴随某些必然结果。事件可能涉及到多个实体的行为,如:恐怖行动、坠机事件、职务变动等等。随着事件的发生,实体的关系和状态不断发生变化。
事件抽取与一般的信息抽取的主要区别在千:针对自由文本的信息抽取一般包括实体及其关系的抽取,而事件反映了实体参与者之间的关系和状态的变化。
2、论元角色(Argument role):事件的论元包括事件的参与者以及与事件紧密相关的属性(如:时间属性),论元角色住要由实体、数值或时间来担当。一个事件可能涉及0或多个论元。每类事件所涉及的论元角色有所不同,所有类别可涉及到35个角色,时间和地点是每个类别都可能涉及的一般性论元角色。
3、触发词:表示事件核心动作词,例如“举办”、“地震”、“求婚”等。
继续参考图2,示出了根据本公开的用于输出信息的方法的一个实施例的流程200。该用于输出信息的方法,包括以下步骤:
步骤201,响应于接收到待识别的文档,将文档切分成至少一个句子。
在本实施例中,用于输出信息的方法的执行主体(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用其进行文档浏览的终端接收待识别的文档。文档中可包括至少一个句子,通过分隔符(例如,句号)进行句子切分,将文档切分成至少一个句子。然后开始执行事件类型分类任务。
步骤202,对于每个句子,将该句子输入多任务学习框架的深度学习神经网络,得到该句子的第一模型表示向量。
在本实施例中,深度学习神经网络用于提取输入的句子的特征,每个句子可提取出该句子的第一模型表示向量。深度学习神经网络位于参数共享层,深度学习神经网络的参数是由事件类型分类任务和论元角色识别任务共享的。
步骤203,将每个句子的第一模型表示向量输入多任务学习框架的事件分类模型,输出每个句子的事件类型。
在本实施例中,事件分类模型可以是分类器,也可以是序列标注模型。如果是分类器,则可直接得到事件类型。如果是序列标注模型,则可标注出触发词,从而确定出事件类型。至此,事件类型分类任务已经完成,开始执行论元角色识别任务。
可选地,一个文档中有些句子的事件类型是相同的,则可将它们合并,后续处理时无需重复进行论元角色识别。
步骤204,将每个句子的事件类型和对应的论元角色名拼接成问题并和文档组成问题文档对。
在本实施例中,每种事件类型都有预设的论元角色名,例如,事件类型“地震”对应的论元角色名包括“时间”、“地点”、“震级”、“死亡人数”等。对于该文本涉及的所有事件类型,每种事件类型都和其对应的论元角色名拼接成问题。例如,地震-震级。再将问题和文档组成问题文档对<问题,文档>。
步骤205,将每个句子对应的问题文档对输入多任务学习框架的深度学习神经网络,得到每个问题文档对的第二模型表示向量。
在本实施例中,将拼接的问题和原始的文档再一次输入深度学习神经网络。论元角色识别任务和事件类型分类任务共享深度学习神经网络的参数。深度学习神经网络可从问题文档对中提取第二模型表示向量。
步骤206,将每个问题文档对的第二模型表示向量输入多任务学习框架的论元角色识别模型,输出每个句子的论元角色值。
在本实施例中,论元角色识别模型是一种预先训练的神经网络,可识别出论元角色在文档中的起始位置和终止位置,即为问题的答案,从而确定出论元角色值。
继续参见图3,图3是根据本实施例的用于输出信息的方法的应用场景的一个示意图。在图3的应用场景中,用户将文档输入多任务学习框架来检测文档中的事件类型和论元角色。多任务学习框架包括:输入层、参数共享层、任务参数层和任务输出层。具体处理流程如下:
1、输入层:对于事件类型分类任务,输入主要是事件句子。如果文档有多个句子,则需要切分成单句后再逐句处理。对于论元角色识别任务,在阅读理解模式下,输入是构造的问题文档对<问题,文档>:问题是事件类型和论元角色的名拼接而成的,文档是潜在包含事件论元答案的内容。
2、参数共享层:为任一现有的分类算法模型,包括深度学习方法,多个任务共享这部分参数,任一任务更新模型都会更新这部分参数。
3、任务参数层:参数共享层输出当前输入的模型表示向量,与任务参数层的参数做运算得到任务相关的的表示向量,不同任务拥有不同的参数,根据输入任务数据不同,在前向网络计算和参数更新时,不同任务之间互不影响。
4、任务输出层:事件类型分类任务输出事件类型,如果使用序列标注法识别出的事件类型,则还可输出触发词。论元角色识别任务输出的是答案在文档中的起始位置和终止位置。
本发明在海量数据处理、搜索引擎、推荐系统中广泛的应用价值;通过本发明的方法对文本进行事件抽取,得到结构化信息,可以提升机器理解文本内容的能力,帮助减少大量信息,进一步提升人工效果。
进一步参考图4,其示出了用于输出信息的方法的又一个实施例的流程400。该用于输出信息的方法的流程400,包括以下步骤:
步骤401,获取第一训练样本集。
在本实施例中,第一训练样本包括事件句和用于表征事件句中事件类型的第一标注信息。在通过人工标注一批事件类型数据之后,加入到训练样本中,在整个训练过程中由于事件类型训练语料增多,导致事件类型分类训练更加准确,从而可以提升整个抽取效果,
步骤402,将第一训练样本集中的第一训练样本中的事件句和第一标注信息分别作为多任务学习框架的输入和期望输出,利用机器学习方法训练深度学习神经网络和事件分类模型。
在本实施例中,对于每个第一训练样本,将该第一训练样本中的事件句输入多任务学习框架中的输入层,然后再经过参数共享层提取出第一训练样本的模型表示向量。再将模型表示向量输入事件分类模型,输出该事件句属于各个事件类别的概率。将该概率与第一标注信息进行比较后,调整深度学习神经网络的参数和事件分类模型的参数。具体训练过程是现有技术,因此不再赘述。
步骤403,获取第二训练样本集。
在本实施例中,第二训练样本包括包含由事件类型和论元角色名、文档组成的问题文档对、用于表征问题对应的答案的起始位置和终止位置的第二标注信息。
步骤404,将第二训练样本集中的第二训练样本中的问题文档对和第二标注信息分别作为多任务学习框架的输入和期望输出,利用机器学习方法训练多任务学习框架的深度学习神经网络和论元角色识别模型。
在本实施例中,对于每个第二训练样本,将该第二训练样本中的问题文档对输入多任务学习框架中的输入层,然后再经过参数共享层提取出第二训练样本的模型表示向量。再将模型表示向量输入论元角色识别模型,输出论元角色值的起始位置和终止位置,即确定出答案。将输出的答案与第二标注信息进行比较后,调整深度学习神经网络的参数和论元角色识别模型的参数。具体训练过程是现有技术,因此不再赘述。
在本实施例的一些可选的实现方式中,如果训练过程中事件分类模型的损失值大于预定阈值,则在论元角色识别模型的训练过程中加入惩罚。由于事件类型分类错误(构造错误的需要回答的问题)直接影响论元角色的抽取结果,因此,在训练过程中,如果类型分类错误,将加入惩罚,在两个任务中的损失值计算过程中加入惩罚数值(如果是错的)。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了一种用于输出信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于输出信息的装置500包括:切分单元501、第一表示单元502、事件分类单元503、拼接单元504、第二表示单元505和论元识别单元506。其中,切分单元501,被配置成响应于接收到待识别的文档,将文档切分成至少一个句子;第一表示单元502,被配置成对于每个句子,将该句子输入多任务学习框架的深度学习神经网络,得到该句子的第一模型表示向量;事件分类单元503,被配置成将每个句子的第一模型表示向量输入多任务学习框架的事件分类模型,输出每个句子的事件类型;拼接单元504,被配置成将每个句子的事件类型和对应的论元角色名拼接成问题;第二表示单元505,被配置成将每个句子对应的问题和文档输入多任务学习框架的深度学习神经网络,得到每个句子的第二模型表示向量;论元识别单元506,被配置成将每个句子的第二模型表示向量输入多任务学习框架的论元角色识别模型,输出每个句子的论元角色值。
在本实施例中,用于输出信息的装置500的切分单元501、第一表示单元502、事件分类单元503、拼接单元504、第二表示单元505和论元识别单元506的具体处理可以参考图2对应实施例中的步骤201-步骤206。
在本实施例的一些可选的实现方式中,该装置还包括合并单元(附图中未示出),被配置成:在输出每个句子的事件类型之后,将文档中相同事件类型的句子合并。
在本实施例的一些可选的实现方式中,该装置还包括训练单元(附图中未示出),被配置成:获取第一训练样本集,其中,第一训练样本包括事件句和用于表征事件句中事件类型的第一标注信息;将第一训练样本集中的第一训练样本中的事件句和第一标注信息分别作为多任务学习框架的输入和期望输出,利用机器学习装置训练深度学习神经网络和事件分类模型;获取第二训练样本集,其中,第二训练样本包括包含由事件类型和论元角色名组成的问题、用于表征问题对应的答案的起始位置和终止位置的第二标注信息;将第二训练样本集中的第二训练样本中的问题和第二标注信息分别作为多任务学习框架的输入和期望输出,利用机器学习装置训练多任务学习框架的深度学习神经网络和论元角色识别模型。
在本实施例的一些可选的实现方式中,训练单元进一步被配置成:如果训练过程中事件分类模型的损失值大于预定阈值,则在论元角色识别模型的训练过程中加入惩罚。
在本实施例的一些可选的实现方式中,多任务学习框架包括:输入层、参数共享层、任务参数层和任务输出层。
在本实施例的一些可选的实现方式中,参数共享层是深度学习网络,多个任务共享深度学习网络的参数,输出当前输入的模型表示向量,任务参数层包括事件分类模型和论元角色识别模型,任务参数层接收共享参数层输出的当前输入的模型表示向量,与任务参数层的参数做运算得到任务相关的表示向量,不同任务拥有不同的参数,任务输出层输出事件类型和论元角色的起始位置和终止位置。
下面参考图6,其示出了适于用来实现本公开的实施例的电子设备(例如图1中的服务器或终端设备)600的结构示意图。本公开的实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的终端设备/服务器仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图6中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开的实施例的方法中限定的上述功能。需要说明的是,本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:响应于接收到待识别的文档,将文档切分成至少一个句子;对于每个句子,将该句子输入多任务学习框架的深度学习神经网络,得到该句子的第一模型表示向量;将每个句子的第一模型表示向量输入多任务学习框架的事件分类模型,输出每个句子的事件类型;将每个句子的事件类型和对应的论元角色名拼接成问题并和文档组成问题文档对;将每个句子对应的问题文档对输入多任务学习框架的深度学习神经网络,得到每个问题文档对的第二模型表示向量;将每个问题文档对的第二模型表示向量输入多任务学习框架的论元角色识别模型,输出每个句子的论元角色值。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括切分单元、第一表示单元、事件分类单元、拼接单元、第二表示单元和论元识别单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,切分单元还可以被描述为“响应于接收到待识别的文档,将所述文档切分成至少一个句子的单元”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (14)
1.一种用于输出信息的方法,包括:
响应于接收到待识别的文档,将所述文档切分成至少一个句子;
对于每个句子,将该句子输入多任务学习框架的深度学习神经网络,得到该句子的第一模型表示向量,其中,深度学习神经网络位于参数共享层,深度学习神经网络的参数是由事件类型分类任务和论元角色识别任务共享的;
将每个句子的第一模型表示向量输入所述多任务学习框架的事件分类模型,输出每个句子的事件类型,其中,所述事件分类模型包括分类器,直接对句子分类得到事件类型;
将每个句子的事件类型和对应的论元角色名拼接成问题并和所述文档组成问题文档对;
将每个句子对应的问题文档对输入所述多任务学习框架的深度学习神经网络,得到每个问题文档对的第二模型表示向量;
将每个问题文档对的第二模型表示向量输入所述多任务学习框架的论元角色识别模型,输出每个句子的论元角色值。
2.根据权利要求1所述的方法,其中,在输出每个句子的事件类型之后,所述方法还包括:
将所述文档中相同事件类型的句子合并。
3.根据权利要求1所述的方法,其中,所述方法通过如下步骤训练所述多任务学习框架:
获取第一训练样本集,其中,第一训练样本包括事件句和用于表征事件句中事件类型的第一标注信息;
将所述第一训练样本集中的第一训练样本中的事件句和第一标注信息分别作为所述多任务学习框架的输入和期望输出,利用机器学习方法训练所述深度学习神经网络和所述事件分类模型;
获取第二训练样本集,其中,第二训练样本包括包含由事件类型、论元角色名、文档组成的问题文档对、用于表征问题对应的答案的起始位置和终止位置的第二标注信息;
将所述第二训练样本集中的第二训练样本中的问题文档对和第二标注信息分别作为所述多任务学习框架的输入和期望输出,利用机器学习方法训练所述多任务学习框架的深度学习神经网络和论元角色识别模型。
4.根据权利要求3所述的方法,其中,所述方法还包括:
如果训练过程中所述事件分类模型的损失值大于预定阈值,则在所述论元角色识别模型的训练过程中加入惩罚。
5.根据权利要求1-4之一所述的方法,其中,所述多任务学习框架包括:输入层、参数共享层、任务参数层和任务输出层。
6.根据权利要求5所述的方法,其中,所述参数共享层是深度学习网络,多个任务共享所述深度学习网络的参数,输出当前输入的模型表示向量,所述任务参数层包括事件分类模型和论元角色识别模型,所述任务参数层接收所述参数共享层输出的当前输入的模型表示向量,与任务参数层的参数做运算得到任务相关的表示向量,不同任务拥有不同的参数,所述任务输出层输出事件类型和论元角色的起始位置和终止位置。
7.一种用于输出信息的装置,包括:
切分单元,被配置成响应于接收到待识别的文档,将所述文档切分成至少一个句子;
第一表示单元,被配置成对于每个句子,将该句子输入多任务学习框架的深度学习神经网络,得到该句子的第一模型表示向量,其中,深度学习神经网络位于参数共享层,深度学习神经网络的参数是由事件类型分类任务和论元角色识别任务共享的;
事件分类单元,被配置成将每个句子的第一模型表示向量输入所述多任务学习框架的事件分类模型,输出每个句子的事件类型,其中,所述事件分类模型包括分类器,直接对句子分类得到事件类型;
拼接单元,被配置成将每个句子的事件类型和对应的论元角色名拼接成问题;
第二表示单元,被配置成将每个句子对应的问题和所述文档输入所述多任务学习框架的深度学习神经网络,得到每个句子的第二模型表示向量;
论元识别单元,被配置成将每个句子的第二模型表示向量输入所述多任务学习框架的论元角色识别模型,输出每个句子的论元角色值。
8.根据权利要求7所述的装置,其中,所述装置还包括合并单元,被配置成:
在输出每个句子的事件类型之后,将所述文档中相同事件类型的句子合并。
9.根据权利要求7所述的装置,其中,所述装置还包括训练单元,被配置成:
获取第一训练样本集,其中,第一训练样本包括事件句和用于表征事件句中事件类型的第一标注信息;
将所述第一训练样本集中的第一训练样本中的事件句和第一标注信息分别作为所述多任务学习框架的输入和期望输出,利用机器学习装置训练所述深度学习神经网络和所述事件分类模型;
获取第二训练样本集,其中,第二训练样本包括包含由事件类型和论元角色名组成的问题、用于表征问题对应的答案的起始位置和终止位置的第二标注信息;
将所述第二训练样本集中的第二训练样本中的问题和第二标注信息分别作为所述多任务学习框架的输入和期望输出,利用机器学习装置训练所述多任务学习框架的深度学习神经网络和论元角色识别模型。
10.根据权利要求9所述的装置,其中,所述训练单元进一步被配置成:
如果训练过程中所述事件分类模型的损失值大于预定阈值,则在所述论元角色识别模型的训练过程中加入惩罚。
11.根据权利要求7-10之一所述的装置,其中,所述多任务学习框架包括:输入层、参数共享层、任务参数层和任务输出层。
12.根据权利要求11所述的装置,其中,所述参数共享层是深度学习网络,多个任务共享所述深度学习网络的参数,输出当前输入的模型表示向量,所述任务参数层包括事件分类模型和论元角色识别模型,所述任务参数层接收所述参数共享层输出的当前输入的模型表示向量,与任务参数层的参数做运算得到任务相关的表示向量,不同任务拥有不同的参数,所述任务输出层输出事件类型和论元角色的起始位置和终止位置。
13.一种用于输出信息的电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010187499.7A CN111382228B (zh) | 2020-03-17 | 2020-03-17 | 用于输出信息的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010187499.7A CN111382228B (zh) | 2020-03-17 | 2020-03-17 | 用于输出信息的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111382228A CN111382228A (zh) | 2020-07-07 |
CN111382228B true CN111382228B (zh) | 2023-06-06 |
Family
ID=71218762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010187499.7A Active CN111382228B (zh) | 2020-03-17 | 2020-03-17 | 用于输出信息的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111382228B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112001929B (zh) * | 2020-07-17 | 2022-04-01 | 完美世界控股集团有限公司 | 图片资产处理方法及装置、存储介质、电子装置 |
CN111862977B (zh) | 2020-07-27 | 2021-08-10 | 北京嘀嘀无限科技发展有限公司 | 一种语音对话处理方法和系统 |
CN112270198B (zh) * | 2020-10-27 | 2021-08-17 | 北京百度网讯科技有限公司 | 角色确定方法、装置、电子设备及存储介质 |
CN112380849B (zh) * | 2020-11-20 | 2024-05-28 | 北京百度网讯科技有限公司 | 生成兴趣点提取模型和提取兴趣点的方法和装置 |
CN112528625B (zh) * | 2020-12-11 | 2024-02-23 | 北京百度网讯科技有限公司 | 事件抽取的方法、装置、计算机设备以及可读存储介质 |
CN112559747B (zh) * | 2020-12-15 | 2024-05-28 | 北京百度网讯科技有限公司 | 事件分类处理方法、装置、电子设备和存储介质 |
CN112765980B (zh) * | 2021-02-01 | 2023-05-12 | 广州市刑事科学技术研究所 | 一种面向警情笔录的事件论元角色抽取方法和装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598535A (zh) * | 2014-12-29 | 2015-05-06 | 中国科学院计算机网络信息中心 | 一种基于最大熵的事件抽取方法 |
CN106055536A (zh) * | 2016-05-19 | 2016-10-26 | 苏州大学 | 一种中文事件联合推理方法和系统 |
CN107122416A (zh) * | 2017-03-31 | 2017-09-01 | 北京大学 | 一种中文事件抽取方法 |
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN110032641A (zh) * | 2019-02-14 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 计算机执行的、利用神经网络进行事件抽取的方法及装置 |
CN110134720A (zh) * | 2019-05-17 | 2019-08-16 | 苏州大学 | 融合局部特征与深度学习的事件联合抽取方法 |
CN110597994A (zh) * | 2019-09-17 | 2019-12-20 | 北京百度网讯科技有限公司 | 事件元素识别方法和装置 |
CN110765265A (zh) * | 2019-09-06 | 2020-02-07 | 平安科技(深圳)有限公司 | 信息分类抽取方法、装置、计算机设备和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8930254B2 (en) * | 2005-06-13 | 2015-01-06 | CommEq Asset Management Ltd. | Financial methodology to valuate and predict the news impact of major events on financial instruments |
US10133728B2 (en) * | 2015-03-20 | 2018-11-20 | Microsoft Technology Licensing, Llc | Semantic parsing for complex knowledge extraction |
US20180013818A1 (en) * | 2016-07-11 | 2018-01-11 | Facebook, Inc. | Events Discovery Interface |
-
2020
- 2020-03-17 CN CN202010187499.7A patent/CN111382228B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598535A (zh) * | 2014-12-29 | 2015-05-06 | 中国科学院计算机网络信息中心 | 一种基于最大熵的事件抽取方法 |
CN106055536A (zh) * | 2016-05-19 | 2016-10-26 | 苏州大学 | 一种中文事件联合推理方法和系统 |
CN107122416A (zh) * | 2017-03-31 | 2017-09-01 | 北京大学 | 一种中文事件抽取方法 |
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN110032641A (zh) * | 2019-02-14 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 计算机执行的、利用神经网络进行事件抽取的方法及装置 |
CN110134720A (zh) * | 2019-05-17 | 2019-08-16 | 苏州大学 | 融合局部特征与深度学习的事件联合抽取方法 |
CN110765265A (zh) * | 2019-09-06 | 2020-02-07 | 平安科技(深圳)有限公司 | 信息分类抽取方法、装置、计算机设备和存储介质 |
CN110597994A (zh) * | 2019-09-17 | 2019-12-20 | 北京百度网讯科技有限公司 | 事件元素识别方法和装置 |
Non-Patent Citations (3)
Title |
---|
CHEN Yu-bo et al."Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks".《The 53rd Meeting of the Association for Computational Linguistics》.2015, * |
中文事件抽取技术研究;赵妍妍等;《中文信息学报》;20080115(第01期);全文 * |
基于神经网络方法的事件抽取研究;彭楚越;《现代计算机》;20200225(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111382228A (zh) | 2020-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111382228B (zh) | 用于输出信息的方法和装置 | |
KR102554121B1 (ko) | 텍스트의 엔티티 포커스의 마이닝 방법 및 장치 | |
US11822568B2 (en) | Data processing method, electronic equipment and storage medium | |
CN109359194B (zh) | 用于预测信息类别的方法和装置 | |
CN115982376B (zh) | 基于文本、多模数据和知识训练模型的方法和装置 | |
CN113011169B (zh) | 一种会议纪要的处理方法、装置、设备及介质 | |
CN111460288B (zh) | 用于检测新闻事件的方法和装置 | |
CN111915086A (zh) | 异常用户预测方法和设备 | |
WO2024099171A1 (zh) | 视频生成方法和装置 | |
CN113360660A (zh) | 文本类别识别方法、装置、电子设备和存储介质 | |
CN117633228A (zh) | 模型训练方法和装置 | |
CN117319705A (zh) | 视频生成方法、装置、介质及电子设备 | |
CN113033707B (zh) | 视频分类方法、装置、可读介质及电子设备 | |
CN113051933B (zh) | 模型训练方法、文本语义相似度确定方法、装置和设备 | |
CN118170378A (zh) | 页面生成方法、装置、电子设备、存储介质以及程序产品 | |
CN108664610B (zh) | 用于处理数据的方法和装置 | |
CN114697762B (zh) | 一种处理方法、装置、终端设备及介质 | |
CN113807056B (zh) | 一种文档名称序号纠错方法、装置和设备 | |
CN109857838B (zh) | 用于生成信息的方法和装置 | |
CN110502630B (zh) | 信息处理方法及设备 | |
CN113255819A (zh) | 用于识别信息的方法和装置 | |
CN110879868A (zh) | 顾问方案生成方法、装置、系统、电子设备及介质 | |
CN112699687A (zh) | 内容编目方法、装置和电子设备 | |
CN112308074A (zh) | 用于生成缩略图的方法和装置 | |
CN112308745A (zh) | 用于生成信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |