CN110489514A - 提升事件抽取标注效率的系统及方法、事件抽取方法及系统 - Google Patents
提升事件抽取标注效率的系统及方法、事件抽取方法及系统 Download PDFInfo
- Publication number
- CN110489514A CN110489514A CN201910667745.6A CN201910667745A CN110489514A CN 110489514 A CN110489514 A CN 110489514A CN 201910667745 A CN201910667745 A CN 201910667745A CN 110489514 A CN110489514 A CN 110489514A
- Authority
- CN
- China
- Prior art keywords
- text
- marked
- vector
- sentence
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种提升事件抽取标注效率的方法及系统,该方法包括步骤:按照存在事件的可能性的大小,将待标注文本由大到小进行排序;以便于在对待标注文本进行标注时,仅对排序靠前的设定数量的待标注文本进行标注。本发明方法及系统,先预判各份待标注文本存在事件的可能性大小,然后根据可能性大小进行排序,标注时只需对排序靠前的设定数量的待标注文本进行标注,因此可以极大地提高事件抽取标注效率。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种提升事件抽取标注效率的系统及方法,以及事件抽取方法及系统。
背景技术
在知识图谱领域,事件是发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。事件抽取是指从自然语言文本中抽取出用户感兴趣的事件信息,并以结构化的形式呈现出来,如什么人/组织,什么时间,在什么地方,做了什么事。事件抽取标注是指为了进行事件抽取,人工将数据中需要抽取的事件内容标注出来。有了人工标注的这部分数据,就能通过算法模型来学习如何自动抽取事件要素等内容。
目前进行事件抽取标注,一般通过如下过程进行:首先确定语料来源,一般选取各大新闻舆情网站,相关专业网站等,然后通过爬虫对这些数据源的网页进行爬取,处理好爬取后的网页,转化成一篇篇待标注的文本语料,然后将这些文本语料放在标注平台上进行标注。在实际工作中发现,待标注的语料里事件分布非常稀疏,往往需要标注人员阅读多篇不包含事件的语料,才能真正标注到一篇有事件的语料,阅读大量无关的文本,严重干扰标注进度,浪费标注人力。
发明内容
本发明的目的在于改善现有技术中所存在的上述不足,提供一种提升事件抽取标注效率的系统及方法,以提升事件抽取标注的效率。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
一种提升事件抽取标注效率的方法,包括以下步骤:
按照存在事件的可能性的大小,将待标注文本由大到小进行排序,以便于在对待标注文本进行标注时,仅对排序靠前的设定数量的待标注文本进行标注。
上述方案中,先预判各份待标注文本存在事件的可能性大小,然后根据可能性大小进行排序,标注时只需对排序靠前的设定数量的待标注文本进行标注,因此可以极大地提高事件抽取标注效率。
在一个实施方案中,所述按照存在事件的可能性的大小,将待标注文本由大到小进行排序的步骤,包括:将已标注的若干份文本转换为一个由多维向量组成的参考矩阵;将每一份待标注文本转换为多维向量,计算该多维向量与所述参考矩阵之间的距离;按照距离的大小,将待标注文本由大到小进行排序。
另一方面,本发明实施例中还提供了一种提升事件抽取标注效率的系统,包括:排序模块,用于按照存在事件的可能性的大小,将待标注文本由大到小进行排序;抽取模块,用于仅抽取出排序靠前的设定数量的待标注文本,以便于对抽取出的待标注文本进行标注。
在一个具体实施方案中,所述排序模块包括:
文本转换子模块,用于将已标注的文本转换为多维向量,以及将待标注文本转换为多维向量;
参考矩阵生成子模块,用于将已标注的若干份文本转换得到的多维向量组成一个参考矩阵;
距离计算子模块,用于针对于每一份待标注文本转换得到的多维向量,计算该多维向量与所述参考矩阵之间的距离;
排序子模块,用于按照距离的大小,将待标注文本由大到小进行排序。
基于相同的发明构思,本发明实施例还提供了一种事件抽取方法,包括以下步骤:
按照存在事件的可能性的大小,将待抽取文本由大到小进行排序;
仅将排序靠前的设定数量的待抽取文本进行事件抽取。
进一步地,所述按照存在事件的可能性的大小,将待抽取文本由大到小进行排序的步骤,包括:
将已标注的若干份文本转换为一个由多维向量组成的参考矩阵;
将每一份待抽取文本转换为多维向量,计算该多维向量与所述参考矩阵之间的距离;
按照距离的大小,将待抽取文本由大到小进行排序。
另一方面,本发明实施例还提供了一种事件抽取系统,包括:
文本筛选模块,用于将将待抽取文本,按照存在事件的可能性的大小,由大到小进行排序,并筛选出排序靠前的设定数量的待抽取文本;
事件抽取模块,基于预先训练好的事件抽取模型,对筛选出的待抽取文本进行事件抽取。
其中,文本筛选模块包括:
文本转换子模块,用于将已标注的若干份文本转换为一个由多维向量组成的参考矩阵,以及将每一份待抽取文本转换为多维向量;
距离计算子模块,用于计算由待抽取文本转换得到的多维向量与所述参考矩阵之间的距离;
排序筛选子模块,用于按照距离的大小,将待抽取文本由大到小进行排序,并筛选出排序靠前的设定数量的待抽取文本。
再一方面,本发明实施例同时提供了一种电子设备,包括:存储器,存储程序指令;处理器,与所述存储器相连接,执行存储器中的程序指令,实现本发明实施例中所述方法中的步骤。
与现有技术相比,本发明通过先预判各份待标注文本存在事件的可能性大小,然后根据可能性大小进行排序,标注时只需对排序靠前的设定数量的待标注文本进行标注,因此可以极大地提高事件抽取标注效率。同理的,本发明提供的事件抽取方法或系统,先对待抽取的文本进行排序,只对包含事件的可能性较大的文本进行抽取,这样可以有效地减少噪音数据(即不包含事件的文本) 的计算,节省事件抽取模型的计算量,同时减少在预测后进行分析的数据量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为实施例中所述的提升事件抽取标注效率的方法的流程图。
图2为已进行标注的文本示例图。
图3a-b分别为采用传统方法和本发明方法进行事件抽取标注情况对比图。
图4为实施例中所述的提升事件抽取标注效率的系统的示意框图。
图5为实施例中事件抽取方法的流程图。
图6为实施例中事件抽取系统的示意框图。
图7为事件抽取过程的一种表示图。
图8为实施例中所述的电子设备的组成框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本实施例中示意性地提供了一种提升事件抽取标注效率的方法,包括以下步骤:
步骤1,按照标点符号,如句号、问号、感叹号等语句结束符号,将已进行人工标注的若干份(例如20-30份)文本拆分成若干个语句,从所述若干个语句中提取出带标注的语句,并将所述带标注的语句中的人名、公司名和机构名替换为PER、COM和ORG。此处的已标注的文本可以是待标注文本中的一部分,也可以是待标注文本以外的文本。若此处的已标注的文本可以是待标注文本中的一部分,那么后文中步骤3中的待标注文本则是指剩下的部分待标注文本。
本实施例中,此处采用NER工具,将带标注的语句中的人名、公司名和机构名替换为PER、COM和ORG。NER(Named Entity Recognition)即命名实体识别,识别语料中人名、地名、组织机构名等命名实体,识别文本中具有特定意义的实体,利用该工具可以提高识别效率。
容易理解的,此处将带标注的语句中的人名、公司名和机构名替换为PER、 COM和ORG的目的是为了便于识别实体,此处的PER、COM、ORG仅是一种表示方式举例,代表一个实体名集合,可以用任意符号替换实体名,例如用person 代替人名,或者用P代替人名。
容易理解的,并不是每个语句中都包含人名、公司名和机构名,此处表达的含义是,当语句中包含人名时,将人名替换为PER,当语句中包含公司名时,将公司名替换为COM,当语句中包含机构名时,将机构名替换为ORG。
另外的,事件的组成一般还包括时间和地点,因此,当语句中包含有时间时,也可以将时间替换为TIM,当语句中包含有地点名时,也可以将地点名替换为ADR。在实际实验例中,仅对人名、公司名和机构名进行替换就已经能够取得很好的效果,如果再将时间和/或地点进行替换,会取得更好的效果。人物、时间、地点都是组成事件的要素,因此理论上,可以将人名、公司名、机构名、时间、地点名中的全部或任意部分进行替换。
步骤2,将替换后的每一条带标注的语句转换成一个多维向量。本实施例中,此处采用BERT模型将语句转换成向量,一个语句转换成一个768维的向量。若该已标注的文本由多条语句组成,例如前述20-30份已标注文本中有n条带标注的语句,则此处转换后会得到n个768维的向量,这n个768维的向量组成一个矩阵,此处定义为参考矩阵。
BERT(Bidirectional Encoder Representations from Transformers),是谷歌公司发布的基于双向Transformer的大规模预训练语言模型,该预训练模型能高效抽取文本信息并应用于各种NLP任务,可以把该模型理解成一个语言编码器,把输入的句子或者段落转化成特征向量。利用BERT模型将语句转换成多维向量,向量的维度可以设置,在试验例中,转换为768维向量,具有很好的效果。当然地,也可以采用其他模型转换为其他维度的多维向量,BERT模型仅是在试验例中采用的模型,并得到了很好的效果。
步骤3,对待标注文本进行编号,然后按照标点符号,将每一份待标注文本拆分成若干个语句,并将语句中存在的人名、公司名和机构名替换为PER、COM 和ORG。此处,假设有m份待标注文本,则可以分别编号为1,2,3……m。
步骤4,将步骤3中替换后的每一条语句转换成一个多维向量,同时记录每条语句所在的文本的编号。本步骤中,将语句转换为多维向量的操作与步骤2 中相同,即也是采用BERT模型将语句转换为768维向量。
需要注意的是,步骤2与步骤4中将语句转换为多维向量所采用的模型和维度设置需要一致,避免因向量差异导致的后续步骤中距离计算不准确。
步骤5,针对于步骤4中得到的每一个多维向量,将其与步骤2中所述参考矩阵进行余弦距离计算,并从得到的n个距离值中选取最大的距离值作为该多维向量与参考矩阵的距离值;针对于每一份文本,将组成该文本的若干个语句对应的若干个距离值中,最大的距离值作为该文本的距离值。
在试验例中采用的是余弦距离公式进行计算,得到的效果非常好,余弦距离公式为计算得到的距离值越大则认为与已标注语句越相似。假设编号z的待标注文本由10个语句组成,则z有将有10 个[-1,1]的值,分别代表z文本中每个语句与参考矩阵的余弦距离值,然后按编号选取最大的距离值作为该编号文本的距离值,一个编号文本得到一个最终距离值。
计算多维向量与参考矩阵之间的距离值的目的是判断对应的语句与标注文本的相似性,在试验例中采用的余弦距离公式进行计算,并取得了非常好的效果,但是也可以采用其他距离计算公式进行计算,例如欧式距离等。
步骤6,对步骤5中得到的各个编号的文本的距离值,按从大到小的顺序进行排序。
在对待标注文本进行标注时,按照排序依次对文本进行标注,当标注到设定数量的文本时停止标注,即是说仅对排序靠前的设定数量的待标注文本进行标注。
本实施例上述方法中,通过距离计算来预判各份待标注文本存在事件的可能性大小,并按照可能性大小进行排序,使得在实际标注时,按顺序对待标注文本依次进行标注,当标注数量达到设定阈值时即可停止标注,也就是对于排序靠后的待标注文本无需再标注,因此可以提高事件抽取标注的效率。传统方法标注一个事件可能需要阅读10000份文本,采用本实施例上述方法,可能只需要阅读2000份文本,因此标注效率大大提高。
试验例
以“高管违法事件”为例,文本如图2所示,通过人工将“发生时间”,“事件主体”,“事件客体”和“事件类型”标注出来。
将标注好的文本,按照标点符号进行拆分,如“高管违法”标注了两个句子,即:“炒作收藏普洱茶能赚钱集资诈骗上亿元某公司19名高管被公诉,某公司董事长某某,同他人借炒作普洱茶收藏升值之名,非法吸收公众存款1.27 亿元。”和“某某被某市检察院以非法吸收公众存款罪、抽逃出资两项罪名批捕。”将这两个句子通过训练好的NER工具进行处理,处理后得到“炒作收藏普洱茶能赚钱集资诈骗上亿元某公司19名高管被公诉,COM董事长PER,同他人借炒作普洱茶收藏升值之名,非法吸收公众存款1.27亿元。”和“PER被 ORG以非法吸收公众存款罪、抽逃出资两项罪名批捕。”通过BERT模型将这两个句子分别映射成两个768维的向量,分别表示为:[0.68263084 0.47312447 -0.11322339……0.06155907-0.0781996],[0.5823743-0.1099439 0.13799139……-0.0769674 0.15395439]。
请参阅图3a-b,图3a是采用传统方法标注情况,图3b为采用本实施例所述方法标注情况,图中每一行编号代表一个标注文本,对待标注文本进行编号,传统方法按编号依次对各个文本进行阅读标注,由图3b可知,本方法是按计算出的距离值由大到小进行依次标注,因此图3a和图3b中的编号不对应。Entities 为0或1的标注文本是不含有事件的文本,大于1的实体则是含有事件的文本,对于图3a和图3b,可以明显看出经过本发明方法处理后,有事件标注文本大大提升,经过统计,处理前有事件文本标注/无事件文本标注大约是1:10,即需要看10篇无事件文本才能找到一篇有事件文本进行标注,然而经过本发明方法重新排序后该值提升为1:3,即只需要看3篇无事件文本就能找到一篇有事件文本进行标注,效率大大提升。
请参阅图4,基于相同的发明构思,本实施例中同时提供了一种提升事件抽取标注效率的系统,包括排序模块和抽取模块,其中,排序模块用于按照存在事件的可能性的大小,将待标注文本由大到小进行排序;抽取模块用于仅抽取出排序靠前的设定数量的待标注文本,以便于对抽取出的待标注文本进行标注。
如图4所示,本实施例中,排序模块包括:
文本转换子模块,用于将已标注的文本转换为多维向量,以及将待标注文本转换为多维向量。具体地,文本转换子模块先将文本按照标点符号拆分为若干条语句,然后再利用BERT模型将每一条语句转换为768维向量。
参考矩阵生成子模块,用于将已标注的若干份文本转换得到的多维向量组成一个参考矩阵。假设从若干份已标注的文本中提取出n条带标注的语句,那么经过文本转换子模块转换后得到n个768维向量,这n个768维向量就组成了一个矩阵,定义为参考矩阵。
距离计算子模块,用于针对于每一份待标注文本转换得到的多维向量,计算该多维向量与所述参考矩阵之间的距离。作为举例,此处距离计算子模块采用余弦距离计算每一个多维向量与参加矩阵之间的距离,针对每一个多维向量,以得到的n个距离值中的最大值作为对应的语句与参考矩阵之间的距离值,针对于每一份待标注文本,假设组成该待标注文本的语句有z条,那么以z个距离值中的最大值作为该该待标注文本与参考矩阵之间的距离值。距离值越大,表明该待标注文本存在事件的可能性越大。
排序子模块,用于按照距离的大小,将待标注文本由大到小进行排序,即按照待标注文本与参考矩阵之间的距离值的大小进行排序。
本系统中未描述之处请参考前述方法实施例中的相应描述,此处不再赘述。
实施例2
请参阅图5,本实施例中提供了一种事件抽取方法,包括以下步骤:
步骤21,按照存在事件的可能性的大小,将待抽取文本由大到小进行排序。
步骤22,仅将排序靠前的设定数量的待抽取文本进行事件抽取。
本方法是基于前述实施例1的相同构思而进行的,因此方法的执行过程可以参考实施例1中所述方法的相关描述。例如,步骤21的执行过程如下:
将已标注的若干份文本转换为一个由多维向量组成的参考矩阵。具体地,首先将已标注的若干份文本拆分成若干条语句(一份文本包含一条或多条语句),从所述若干条语句中提取出带标注的语句,定义所述带标注的语句的条数为n;然后将所述带标注的语句中存在的实体名替换为对应的符号,例如将人名替换为PER等;最后将替换后的每一条带标注的语句转换成一个多维向量,n 个多维向量组成所述参考矩阵。
将每一份待抽取文本转换为多维向量,计算该多维向量与所述参考矩阵之间的距离。将待抽取文本转换为多维向量所采用的方法同上述将已标注的若干份文本转换为多维向量,即先将文本拆分为语句,然后将语句中的实体名替换为符号,再将替换后的语句转换为多维向量。
按照距离的大小,将待抽取文本由大到小进行排序。此处,是将多维向量与参考矩阵进行余弦距离计算,从得到的n个距离值中选取最大的距离值作为该多维向量与参考矩阵的距离值;针对于每一份待抽取文本,将组成该待标注文本的若干条语句对应的若干个距离值中,最大的距离值作为该待标注文本的距离值,然后将待抽取文本,按照距离值的大小,由大到小进行排序。
步骤22中,仅将排序靠前的设定数量的待抽取文本进行事件抽取。执行时可以设定一个阈值,例如仅对排序靠前的60%的待抽取文本进行事件抽取。对于阈值的设定,可以根据需要而设置,例如为了加快抽取效率,阈值可以设置得相对较小,而为了保障尽可能地不漏掉可能包含事件的文本,则阈值可以设置得相对较大,即尽量多包含一些文本。
如图7所示,本实施例中同时提供了一种事件抽取系统,包括文本筛选模块和事件抽取模块。其中,文本筛选模块用于将将待抽取文本,按照存在事件的可能性的大小,由大到小进行排序,并筛选出排序靠前的设定数量的待抽取文本。事件抽取模块则基于预先训练好的事件抽取模型,对筛选出的待抽取文本进行事件抽取。
更具体地,文本筛选模块包括:
文本转换子模块,用于将已标注的若干份文本转换为一个由多维向量组成的参考矩阵,以及将每一份待抽取文本转换为多维向量;
距离计算子模块,用于计算由待抽取文本转换得到的多维向量与所述参考矩阵之间的距离;
排序筛选子模块,用于按照距离的大小,将待抽取文本由大到小进行排序,并筛选出排序靠前的设定数量的待抽取文本。
图7为事件抽取过程的一种表示图,在图7中,将不包含事件的待抽取文本称为噪音数据,将包含事件的待抽取文本称为有效数据。从图中可以看出,在训练好事件抽取模型后,由于输入的数据仍然存在噪音数据与有效数据混合在一起的问题(为了说明,图7中将噪音数据和有效数据分开了,实际预测过程中,这两者是混合在一起的),通过将待抽取文本进行排序筛选,排序靠前的文本才输入训练好的事件抽取模型中进行预测,经过这样的处理,可以有效地减少噪音数据的计算,节省事件抽取模型的计算量,同时减少在预测后进行分析的计算量。
如图8所示,本实施例同时提供了一种电子设备,该电子设备可以包括处理器51和存储器52,其中存储器52耦合至处理器51。值得注意的是,该图是示例性的,还可以使用其他类型的结构来补充或替代该结构,实现数据提取、报告生成、通信或其他功能。
如图8所示,该电子设备还可以包括:输入单元53、显示单元54和电源 55。值得注意的是,该电子设备也并不是必须要包括图8中显示的所有部件。此外,电子设备还可以包括图8中没有示出的部件,可以参考现有技术。
处理器51有时也称控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该处理器51接收输入并控制电子设备的各个部件的操作。
其中,存储器52例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其他合适装置中的一种或多种,可存储上述处理器51 的配置信息、处理器51执行的指令、记录的表格数据等信息。处理器51可以执行存储器52存储的程序,以实现信息存储或处理等。在一个实施例中,存储器52中还包括缓冲存储器,即缓冲器,以存储中间信息。
输入单元53例如用于向处理器51提供待标注的文本数据。显示单元54用于显示处理过程中的各种结果,例如输入的文本数据、转换后的多维向量、计算出的距离值等,该显示单元例如可以为LCD显示器,但本发明并不限于此。电源55用于为电子设备提供电力。
本发明实施例还提供一种计算机可读指令,其中当在电子设备中执行所述指令时,所述程序使得电子设备执行本发明方法所包含的操作步骤。
本发明实施例还提供一种存储有计算机可读指令的存储介质,其中所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成模块及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (14)
1.一种提升事件抽取标注效率的方法,其特征在于,包括以下步骤:
按照存在事件的可能性的大小,将待标注文本由大到小进行排序,以便于在对待标注文本进行标注时,仅对排序靠前的设定数量的待标注文本进行标注。
2.根据权利要求1所述的方法,其特征在于,所述按照存在事件的可能性的大小,将待标注文本由大到小进行排序的步骤,包括:
将已标注的若干份文本转换为一个由多维向量组成的参考矩阵;
将每一份待标注文本转换为多维向量,计算该多维向量与所述参考矩阵之间的距离;
按照距离的大小,将待标注文本由大到小进行排序。
3.根据权利要求2所述的方法,其特征在于,所述将已标注的若干份文本转换为一个由多维向量组成的参考矩阵的步骤,包括:
将已标注的若干份文本拆分成若干条语句,从所述若干条语句中提取出带标注的语句,定义所述带标注的语句的条数为n;
将所述带标注的语句中存在的实体名替换为对应的符号;
将替换后的每一条带标注的语句转换成一个多维向量,n个多维向量组成所述参考矩阵;
所述将每一份待标注文本转换为多维向量的步骤,包括:
对待标注文本进行编号后,将每一份待标注文本拆分成若干个语句,并将语句中存在的实体名替换为对应的符号;
将替换后的每一条语句转换成一个多维向量,同时记录每条语句所在的文本的编号。
4.根据权利要求3所述的方法,其特征在于,将所述带标注的语句或待标注文本拆分得到的语句中,存在的实体名替换为对应的符号的步骤,包括:
若实体名为人名,则将人名替换为PER;和/或,
若实体名为公司名,则将公司名替换为COM;和/或,
若实体名为机构名,则将机构名替换为ORG。
5.根据权利要求3所述的方法,其特征在于,所述将替换后的每一条带标注的语句转换成一个多维向量的步骤,包括:利用BERT模型将替换后的每一条带标注的语句转换成一个768维向量;所述将替换后的每一条语句转换成一个多维向量的步骤,包括:利用BERT模型将替换后的每一条语句转换成一个768维向量。
6.根据权利要求3所述的方法,其特征在于,所述计算该多维向量与所述参考矩阵之间的距离的步骤,包括:
针对于由待标注文本得到的每一个多维向量,将其与所述参考矩阵进行余弦距离计算,并从得到的n个距离值中选取最大的距离值作为该多维向量与参考矩阵的距离值;针对于每一份待标注文本,将组成该待标注文本的若干条语句对应的若干个距离值中,最大的距离值作为该待标注文本的距离值。
7.一种提升事件抽取标注效率的系统,其特征在于,包括:
排序模块,用于按照存在事件的可能性的大小,将待标注文本由大到小进行排序;
抽取模块,用于仅抽取出排序靠前的设定数量的待标注文本,以便于对抽取出的待标注文本进行标注。
8.根据权利要求7所述的系统,其特征在于,所述排序模块包括:
文本转换子模块,用于将已标注的文本转换为多维向量,以及将待标注文本转换为多维向量;
参考矩阵生成子模块,用于将已标注的若干份文本转换得到的多维向量组成一个参考矩阵;
距离计算子模块,用于针对于每一份待标注文本转换得到的多维向量,计算该多维向量与所述参考矩阵之间的距离;
排序子模块,用于按照距离的大小,将待标注文本由大到小进行排序。
9.一种事件抽取方法,其特征在于,包括以下步骤:
按照存在事件的可能性的大小,将待抽取文本由大到小进行排序;
仅将排序靠前的设定数量的待抽取文本进行事件抽取。
10.根据权利要求9所述的方法,其特征在于,所述按照存在事件的可能性的大小,将待抽取文本由大到小进行排序的步骤,包括:
将已标注的若干份文本转换为一个由多维向量组成的参考矩阵;
将每一份待抽取文本转换为多维向量,计算该多维向量与所述参考矩阵之间的距离;
按照距离的大小,将待抽取文本由大到小进行排序。
11.一种事件抽取系统,其特征在于,包括:
文本筛选模块,用于将将待抽取文本,按照存在事件的可能性的大小,由大到小进行排序,并筛选出排序靠前的设定数量的待抽取文本;
事件抽取模块,基于预先训练好的事件抽取模型,对筛选出的待抽取文本进行事件抽取。
12.根据权利要求11所述的系统,其特征在于,所述文本筛选模块包括:
文本转换子模块,用于将已标注的若干份文本转换为一个由多维向量组成的参考矩阵,以及将每一份待抽取文本转换为多维向量;
距离计算子模块,用于计算由待抽取文本转换得到的多维向量与所述参考矩阵之间的距离;
排序筛选子模块,用于按照距离的大小,将待抽取文本由大到小进行排序,并筛选出排序靠前的设定数量的待抽取文本。
13.一种包括计算机可读指令的计算机可读存储介质,其特征在于,所述计算机可读指令在被执行时使处理器执行权利要求1-6任一所述方法中的操作,或者所述计算机可读指令在被执行时使处理器执行权利要求9-10任一所述方法中的操作。
14.一种电子设备,其特征在于,所述的设备包括:
存储器,存储程序指令;
处理器,与所述存储器相连接,执行存储器中的程序指令,实现权利要求1-6任一所述方法中的步骤,或者实现权利要求9-10任一所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910667745.6A CN110489514B (zh) | 2019-07-23 | 2019-07-23 | 提升事件抽取标注效率的系统及方法、事件抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910667745.6A CN110489514B (zh) | 2019-07-23 | 2019-07-23 | 提升事件抽取标注效率的系统及方法、事件抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110489514A true CN110489514A (zh) | 2019-11-22 |
CN110489514B CN110489514B (zh) | 2023-05-23 |
Family
ID=68548041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910667745.6A Active CN110489514B (zh) | 2019-07-23 | 2019-07-23 | 提升事件抽取标注效率的系统及方法、事件抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110489514B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110968661A (zh) * | 2020-03-04 | 2020-04-07 | 成都数联铭品科技有限公司 | 事件抽取方法及系统、计算机可读存储介质及电子设备 |
CN111325020A (zh) * | 2020-03-20 | 2020-06-23 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107797993A (zh) * | 2017-11-13 | 2018-03-13 | 成都蓝景信息技术有限公司 | 一种基于序列标注的事件抽取方法 |
US20180349488A1 (en) * | 2017-06-02 | 2018-12-06 | Apple Inc. | Event extraction systems and methods |
CN109299470A (zh) * | 2018-11-01 | 2019-02-01 | 成都数联铭品科技有限公司 | 文本公告中触发词的抽取方法及系统 |
CN109543153A (zh) * | 2018-11-13 | 2019-03-29 | 成都数联铭品科技有限公司 | 一种序列标注系统及方法 |
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN109635280A (zh) * | 2018-11-22 | 2019-04-16 | 园宝科技(武汉)有限公司 | 一种基于标注的事件抽取方法 |
CN109815481A (zh) * | 2018-12-17 | 2019-05-28 | 北京百度网讯科技有限公司 | 对文本进行事件抽取的方法、装置、设备和计算机存储介质 |
-
2019
- 2019-07-23 CN CN201910667745.6A patent/CN110489514B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180349488A1 (en) * | 2017-06-02 | 2018-12-06 | Apple Inc. | Event extraction systems and methods |
CN107797993A (zh) * | 2017-11-13 | 2018-03-13 | 成都蓝景信息技术有限公司 | 一种基于序列标注的事件抽取方法 |
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN109299470A (zh) * | 2018-11-01 | 2019-02-01 | 成都数联铭品科技有限公司 | 文本公告中触发词的抽取方法及系统 |
CN109543153A (zh) * | 2018-11-13 | 2019-03-29 | 成都数联铭品科技有限公司 | 一种序列标注系统及方法 |
CN109635280A (zh) * | 2018-11-22 | 2019-04-16 | 园宝科技(武汉)有限公司 | 一种基于标注的事件抽取方法 |
CN109815481A (zh) * | 2018-12-17 | 2019-05-28 | 北京百度网讯科技有限公司 | 对文本进行事件抽取的方法、装置、设备和计算机存储介质 |
Non-Patent Citations (2)
Title |
---|
TAO LIAO: "Event Relations Extraction Based on Event Co-occurrence Network", 《2015 8TH INTERNATIONAL SYMPOSIUM ON COMPUTATIONAL INTELLIGENCE AND DESIGN》 * |
梁月仙等: "一种基于时空分析的事件抽取方法", 《国外电子测量技术》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110968661A (zh) * | 2020-03-04 | 2020-04-07 | 成都数联铭品科技有限公司 | 事件抽取方法及系统、计算机可读存储介质及电子设备 |
CN111325020A (zh) * | 2020-03-20 | 2020-06-23 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN111325020B (zh) * | 2020-03-20 | 2023-03-31 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110489514B (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Linden et al. | The privacy policy landscape after the GDPR | |
Baroni et al. | Nouns are vectors, adjectives are matrices: Representing adjective-noun constructions in semantic space | |
Ghosh et al. | Fracking sarcasm using neural network | |
Mukherjee et al. | Effect of negation in sentences on sentiment analysis and polarity detection | |
CN107204184B (zh) | 语音识别方法及系统 | |
Reznicek et al. | Competing target hypotheses in the Falko corpus | |
US20180232361A1 (en) | Systems and methods for using machine learning and rules-based algorithms to create a patent specification based on human-provided patent claims such that the patent specification is created without human intervention | |
CN109145216A (zh) | 网络舆情监控方法、装置及存储介质 | |
CN108563620A (zh) | 文本自动写作方法和系统 | |
Khan et al. | Sentiment classification using sentence-level lexical based | |
CN106126619A (zh) | 一种基于视频内容的视频检索方法及系统 | |
CN105893344A (zh) | 基于用户语义情感分析的应答方法和装置 | |
CN103514213B (zh) | 词语提取方法及装置 | |
Paraschiv et al. | UPB at GermEval-2019 Task 2: BERT-Based Offensive Language Classification of German Tweets. | |
CN105095179B (zh) | 对用户评价进行处理的方法及装置 | |
CN108733675B (zh) | 基于大量样本数据的情感评价方法及装置 | |
KR20130001552A (ko) | 온톨로지 기반의 문서 분류 방법 및 장치 | |
Newell et al. | An attribution relations corpus for political news | |
CN110489514A (zh) | 提升事件抽取标注效率的系统及方法、事件抽取方法及系统 | |
CN113627797A (zh) | 入职员工画像生成方法、装置、计算机设备及存储介质 | |
CN106485525A (zh) | 信息处理方法及装置 | |
Liyanage et al. | Augmenting reddit posts to determine wellness dimensions impacting mental health | |
CN104077274A (zh) | 一种从文档集中抽取热词短语的方法和装置 | |
Babu et al. | Sentiment Analysis on Dravidian Code-Mixed YouTube Comments using Paraphrase XLM-RoBERTa Model. | |
CN110232328A (zh) | 一种征信报告解析方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |