CN115600577B - 一种用于新闻稿件标注的事件分割方法及系统 - Google Patents
一种用于新闻稿件标注的事件分割方法及系统 Download PDFInfo
- Publication number
- CN115600577B CN115600577B CN202211294322.2A CN202211294322A CN115600577B CN 115600577 B CN115600577 B CN 115600577B CN 202211294322 A CN202211294322 A CN 202211294322A CN 115600577 B CN115600577 B CN 115600577B
- Authority
- CN
- China
- Prior art keywords
- result
- hierarchical
- feature
- initial
- aggregation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供了一种用于新闻稿件标注的事件分割方法及系统,应用于新闻稿件标注技术领域,该方法包括:通过采集获得新闻稿件数据。构建初始分级特征,对新闻稿件数据的识别划分,获得初始层级拆分结果。通过新闻稿件数据的拆分前排布构建层级关联关系。对初始层级拆分结果进行逐层级特征词识别,生成层级特征词标识集合,对初始层级拆分结果进行结构化关联评价,生成结构化关联评价结果。通过层级关联关系、层级特征词标识集合和结构化关联评价结果进行所述初始层级拆分结果的关联度评价。通过关联度评价结果进行事件划分聚合标注。解决了现有技术新闻稿件标注采取人工标注的方式进行,导致标注效率较低且需要耗费大量的时间和人力资源的技术问题。
Description
技术领域
本发明涉及新闻稿件标注技术领域,具体涉及一种用于新闻稿件标注的事件分割方法及系统。
背景技术
新闻稿件用于体现新闻的客观事实,一般由题目、引言、主题、背景和结论五个部分组成。在完成新闻稿件后,需要通过计算机根据标注内容生成知识图谱,对稿件中的主旨部分进行标注,使得计算机可以清楚快速的获知稿件的主旨内容。在现有技术中,新闻稿件的标注多为工作人员按照标注经验进行新闻稿件的标注,标注效率较低且需要耗费大量的时间和人力资源。
因此,在现有技术中新闻稿件标注采取人工标注的方式进行,导致标注效率较低,且需要耗费大量的时间和人力资源的技术问题。
发明内容
本申请提供一种用于新闻稿件标注的事件分割方法及系统,用于针对解决现有技术中新闻稿件标注采取人工标注的方式进行,导致标注效率较低且需要耗费大量的时间和人力资源的技术问题。
鉴于上述问题,本申请提供了一种用于新闻稿件标注的事件分割方法及系统。
本申请的第一个方面,提供了一种用于新闻稿件标注的事件分割方法,所述方法包括:采集获得新闻稿件数据;构建初始分级特征,基于所述初始分级特征进行所述新闻稿件数据的识别划分,获得初始层级拆分结果;通过所述新闻稿件数据的拆分前排布构建层级关联关系;对所述初始层级拆分结果进行逐层级特征词识别,生成层级特征词标识集合;基于结构化特征进行所述初始层级拆分结果的结构化关联评价,生成结构化关联评价结果;通过所述层级关联关系、所述层级特征词标识集合和所述结构化关联评价结果进行所述初始层级拆分结果的关联度评价;通过关联度评价结果进行事件划分聚合标注,将事件划分聚合标注结果反馈至标注用户。
本申请的第二个方面,提供了一种用于新闻稿件标注的事件分割系统,所述系统包括:新闻稿件数据采集模块,用于采集获得新闻稿件数据;初始层级拆分模块,用于构建初始分级特征,基于所述初始分级特征进行所述新闻稿件数据的识别划分,获得初始层级拆分结果;层级关联关系构建模块,用于通过所述新闻稿件数据的拆分前排布构建层级关联关系;层级特征词标识集合获取模块,用于对所述初始层级拆分结果进行逐层级特征词识别,生成层级特征词标识集合;关联评价结果获取模块,用于基于结构化特征进行所述初始层级拆分结果的结构化关联评价,生成结构化关联评价结果;关联度评价模块,用于通过所述层级关联关系、所述层级特征词标识集合和所述结构化关联评价结果进行所述初始层级拆分结果的关联度评价;标注结果反馈模块,用于通过关联度评价结果进行事件划分聚合标注,将事件划分聚合标注结果反馈至标注用户。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请实施例提供的方法通过采集获得新闻稿件数据。构建初始分级特征,对新闻稿件数据的识别划分,获得初始层级拆分结果。通过新闻稿件数据的拆分前排布构建层级关联关系。对初始层级拆分结果进行逐层级特征词识别,生成层级特征词标识集合,对初始层级拆分结果进行结构化关联评价,生成结构化关联评价结果。通过层级关联关系、层级特征词标识集合和结构化关联评价结果进行所述初始层级拆分结果的关联度评价。通过关联度评价结果进行事件划分聚合标注。实现了对新闻稿件的自动化标注,提高了标注的工作效率,减少新闻稿件标注的耗费时间,并进一步减少了对人力资源的浪费。解决了现有技术新闻稿件标注采取人工标注的方式进行,导致标注效率较低且需要耗费大量的时间和人力资源的技术问题。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1为本申请提供的一种用于新闻稿件标注的事件分割方法流程示意图;
图2为本申请提供的一种用于新闻稿件标注的事件分割方法中获取结构化特征的流程示意图;
图3为本申请提供的一种用于新闻稿件标注的事件分割方法中获取事件划分聚合标注结果的流程示意图;
图4为本申请提供了一种用于新闻稿件标注的事件分割系统结构示意图。
附图标记说明:新闻稿件数据采集模块11,初始层级拆分模块12,层级关联关系构建模块13,层级特征词标识集合获取模块14,关联评价结果获取模块15,关联度评价模块16,标注结果反馈模块17。
具体实施方式
本申请提供一种用于新闻稿件标注的事件分割方法及系统,用于针对解决现有技术中新闻稿件标注采取人工标注的方式进行,导致标注效率较低且需要耗费大量的时间和人力资源的技术问题。
下面将参考附图对本申请中的技术方案进行清楚、完整地描述。所描述的实施内容例仅为本申请所能实现的部分内容,而不是本申请的全部内容。
实施例一
如图1所示,本申请提供了一种用于新闻稿件标注的事件分割方法,所述方法包括:
步骤100:采集获得新闻稿件数据;
步骤200:构建初始分级特征,基于所述初始分级特征进行所述新闻稿件数据的识别划分,获得初始层级拆分结果;
步骤300:通过所述新闻稿件数据的拆分前排布构建层级关联关系;
具体的,采集获取新闻稿件数据,构建初始分级特征,其中初始分级特征用于对新闻稿件数据根据文稿章节或其他标识新闻稿件层级顺序的方式,进行层级划分。根据初始分级特征对新闻稿件数据进行识别划分,将新闻稿件数据根据初始分级特征拆分为多个层级。通过新闻稿件数据的拆分前排布构建层级关联关系,其中层级关联关系,为各层级之间的关联关系,如包含、并列、顺序等层级之间的关联关系,即根据新闻稿件数据拆分前排布顺序获取各层级之间的关联关系。由于稿件撰写完成后计算机并不能直接识别层级之间的关系,因此需要通过初始分级特征对稿件进行初步拆分,并获取拆分结果之间的关联关系,便于后续对稿件进行进一步标注。
步骤400:对所述初始层级拆分结果进行逐层级特征词识别,生成层级特征词标识集合;
步骤500:基于结构化特征进行所述初始层级拆分结果的结构化关联评价,生成结构化关联评价结果;
步骤600:通过所述层级关联关系、所述层级特征词标识集合和所述结构化关联评价结果进行所述初始层级拆分结果的关联度评价;
步骤700:通过关联度评价结果进行事件划分聚合标注,将事件划分聚合标注结果反馈至标注用户。
具体的,对初始层级拆分结果进行逐层级特征词识别,即根据初始层级拆分结果逐级对拆分结果进行特征词识别,识别其中包含该层级主旨的特征词,在进行特征词识别时可以通过文本关键词提取算法进行特征词提取,根据提取结果生成层级特征词标识集合。随后基于结构化特征对初始层级拆分结果进行结构化关联评价,其中结构化特征为内容设计语义结构,即评价该层级中的语义关系,形成语义层次网络,便于根据语义层次关系进行后续的新闻稿件事件划分聚合标注。通过层级关联关系、层级特征词标识集合和结构化关联评价结果进行初始层级拆分结果的关联度评价,评价初始层级拆分结果之间是否存在关联度。在进行关联度获取时,通过获取被拆分层级之间的关联关系,以及各层级特征词标识集合和结构化关联评价结果,对初始层级拆分结果之间的关联程度进行评价。最后,通过关联度评价结果进行事件划分聚合标注,即根据各初始层级拆分结果的关联程度对新闻稿件初始层级拆分结果进行聚合,将初始层级拆分结果中关联程度较高的内容进行聚合,将事件划分聚合标注结果反馈至标注用户,完成对新闻稿件的标注。由于在进行计算机自动化标注时,计算机并不能直接获知标注的具体内容,因此需要根据上述构建好的处理方法和程序对稿件内容进行逐步处理,最终转化成可以量化的数据,进而实现对新闻稿件的自动化标注,提高了标注的工作效率,减少新闻稿件标注的耗费时间,并进一步减少了对人力资源的浪费。
如图2所示,本申请实施例提供的方法步骤500还包括:
步骤510:构建结构化特征分类标签,其中,所述结构化特征分类标签包括组成标签、包含标签、种属标签、嵌套标签;
步骤520:通过大数据进行所述结构化特征分类标签的数据特征填充,生成初始特征填充结果;
步骤530:对所述初始特征填充结果进行人工标识修正,通过人工标识修正结果生成所述结构化特征。
具体的,构建结构化特征分类标签,其中结构化特征分类标签包括组成标签、包含标签、种属标签、嵌套标签。随后,通过大数据对结构化特征分类标签进行数据特征填充,填充上述组成标签、包含标签、种属标签、嵌套标签中的标签特征,其中组成标签为语义段之间具有局部功能组成整体功能的关系,如计算机由显示器,主机等组成、包含标签为客观存在的空间形式逻辑关系定义下的局部与整体关系,如交通工具包含汽车、飞机、轮船等、种属标签为按相同分类特征定义下的一事物类与其子类的关系,如汽车、飞机、轮船均具备运输的功能因此其均属于运输工具、嵌套标签为根据事物或事件有时序,因而组成关系表示为嵌套关系,如医院看病过程包括分诊、挂号、诊断的流程,而分诊、挂号、诊断的流程和看病过程为嵌套关系。随后填充结构化特征分类标签,生成初始特征填充结果。最后对初始特征填充结果进行人工标识修正,通过人工标识修正结果生成所述结构化特征,在结构化特征中包含各标签的具体数据填充结果,通过获取结构化特征为后续评价各层级拆分结果的关联性提供了支持。
如图3所示,本申请实施例提供的方法步骤700还包括:
步骤710:构建事件关键词特征;
步骤720:通过所述事件关键词特征进行所述层级特征词标识集合的特征词聚合,获得初始聚合结果;
步骤730:对所述初始层级拆分结果进行指代特征词识别,生成指代特征词识别集合;
步骤740:根据所述层级关联关系进行所述指代特征词识别集合的事件关键词特征匹配,获得匹配结果;
步骤750:通过所述匹配结果进行所述初始聚合结果的聚合补充,得到所述事件划分聚合标注结果。
具体的,构建事件关键词特征,其中事件关键词特征为新闻稿件事件的关键词所构成的特征。通过事件关键词特征进行层级特征词标识集合的特征词聚合,即聚合层级特征词标识集合中与事件关键词特征相同的特征词,获得初始聚合结果。随后,对初始层级拆分结果进行指代特征词识别,即识别初始层级拆分结果中的指代词,并生成指代特征词识别集合。在指代特征词识别集合中包含各初始层级拆分结果中的指代词。进一步,通过层级之间的关联关系,对指代特征词识别集合进行事件关键词特征匹配,匹配每个指代特征词识别集合中元素所指代的事件关键词特征,获取匹配结果。最后,通过匹配结果进行初始聚合结果的聚合补充,即补充指代事件关键词特征,得到事件划分聚合标注结果。实现了对新闻稿件的自动化标注,提高了标注的工作效率,减少新闻稿件标注的耗费时间,并进一步减少了对人力资源的浪费。
本申请实施例提供的方法步骤700还包括:
步骤760:对所述初始层级拆分结果进行句用识别,生成句用分类识别结果;
步骤770:基于所述句用分类识别结果进行所述初始层级拆分结果的句用标识;
步骤780:将句用标识结果添加至所述事件划分聚合标注结果中。
具体的,对初始层级拆分结果进行句用识别,其中句用为句子的具体类型,按照表达方式分类句用可分为引导句、疑问句、事件句、比较句等。以事件句句用为例,事件中包含事件的描述、定义、评价、状态、关系等。通过对句子的句用进行识别,生成句用分类结果。在进行句用识别时,通过构建句用神经网络模型进行句用识别,通过大数据获取不同句用的句子,标识各句子的具体句用,随后将句子作为训练数据,将标识的句用作为监督数据,输入未经训练的神经网络模型对模型进行训练,并通过上述句子进行验证。当验证结果达到预定准确率阈值时完成训练,获取句用神经网络模型。基于句用分类识别结果进行初始层级拆分结果的句用标识,标识该句用的具体类型。最后将句用标识结果添加至所述事件划分聚合标注结果中。实现了对新闻稿件的自动化标注,提高了标注的工作效率,减少新闻稿件标注的耗费时间,并进一步减少了对人力资源的浪费。
本申请实施例提供的方法步骤700还包括:
步骤781:判断所述句用标识结果是否存在疑问句;
步骤782:当存在疑问句时,则对所述疑问句进行问体和问题识别,获得问体识别结果和问题识别结果;
步骤783:将所述问体识别结果和所述问题识别结果添加至所述事件划分聚合标注结果。
具体的,判断句用标识结果是否存在疑问句,即判断获取的句用是否包含疑问句。当存在疑问句时,则对疑问句进行问体和问题识别,其中问体为疑问聚焦的对象,问题为所问的具体内容。由于疑问句在进行标注时,不仅仅需要对所问的具体内容进行标注,还需要对疑问的聚焦对象进行获取,这样的标注才可以完整的体现疑问的具体主旨。最后,将所述问体识别结果和所述问题识别结果添加至所述事件划分聚合标注结果。实现了对新闻稿件的自动化标注,提高了标注的工作效率,减少新闻稿件标注的耗费时间,并进一步减少了对人力资源的浪费。
本申请实施例提供的方法步骤700还包括:
步骤800:对所述层级特征词标识集合进行主体人物、客体人物和相关人物识别,得到人物标识结果;
步骤810:对所述层级特征词标识集合进行环境特征识别,得到环境特征识别结果;
步骤820:将所述人物标识结果和所述环境特征识别结果作为事件划分聚合标注结果的参考特征。
具体的,对层级特征词标识集合进行主体人物、客体人物和相关人物识别,得到人物标识结果。由于在进行新闻稿件中可能出现多个人物类型,需要对该新闻稿件中的人物进行识别,识别主体人物、客体人物和相关人物识别,得到人物标识结果。随后,对层级特征词标识集合进行环境特征识别,得到环境特征识别结果,即识别层级特征词标识集合中的环境特征,即人物所处的具体环境信息,如位置,场合等环境特征。最后,将所述人物标识结果和所述环境特征识别结果作为事件划分聚合标注结果的参考特征。以便于在事件划分聚合标注结果中更清楚的体现人物关系以及人物所处的具体环境特征。实现了对新闻稿件的自动化标注,提高了标注的工作效率,减少新闻稿件标注的耗费时间,并进一步减少了对人力资源的浪费。
本申请实施例提供的方法步骤700还包括:
步骤830:构建所述事件关键词特征的相关关键词特征;
步骤840:基于所述相关关键词特征进行所述层级特征词标识集合的特征词聚合,获得辅助聚合结果;
步骤850:通过所述匹配结果进行所述辅助聚合结果的聚合补充,得到所述事件划分聚合标注结果。
具体的,构建事件关键词特征的相关关键词特征,其中相关关键词特征为事件关键词特征的相似或相近意的关键词。随后,基于所述相关关键词特征进行层级特征词标识集合的特征词聚合,聚合层级特征词标识集合中与相关关键词特征一致的特征词,得到辅助聚合结果。通过获取辅助聚合结果,便于对事件进行辅助标注。最后,通过所述匹配结果进行所述辅助聚合结果的聚合补充,得到所述事件划分聚合标注结果,在原有标注的基础上进行辅助补充,以保证新闻稿件标注的完成性。实现了对新闻稿件的自动化标注,提高了标注的工作效率,减少新闻稿件标注的耗费时间,并进一步减少了对人力资源的浪费。
综上所述,本申请实施例提供的方法通过采集获得新闻稿件数据。构建初始分级特征,对新闻稿件数据的识别划分,获得初始层级拆分结果。通过新闻稿件数据的拆分前排布构建层级关联关系。对初始层级拆分结果进行逐层级特征词识别,生成层级特征词标识集合,对初始层级拆分结果进行结构化关联评价,生成结构化关联评价结果。通过层级关联关系、层级特征词标识集合和结构化关联评价结果进行所述初始层级拆分结果的关联度评价。通过关联度评价结果进行事件划分聚合标注。通过获取关联度评价结果对新闻稿件进行事件划分聚合标注,完成了对初始层级拆分结果中关联程度较高的内容进行聚合标注。实现了对新闻稿件的自动化标注,提高了标注的工作效率,减少新闻稿件标注的耗费时间,并进一步减少了对人力资源的浪费。解决了现有技术新闻稿件标注采取人工标注的方式进行,导致标注效率较低且需要耗费大量的时间和人力资源的技术问题。
实施例二
基于与前述实施例中一种用于新闻稿件标注的事件分割方法相同的发明构思,如图4所示,本申请提供了一种用于新闻稿件标注的事件分割系统,所述系统包括:
新闻稿件数据采集模块11,用于采集获得新闻稿件数据;
初始层级拆分模块12,用于构建初始分级特征,基于所述初始分级特征进行所述新闻稿件数据的识别划分,获得初始层级拆分结果;
层级关联关系构建模块13,用于通过所述新闻稿件数据的拆分前排布构建层级关联关系;
层级特征词标识集合获取模块14,用于对所述初始层级拆分结果进行逐层级特征词识别,生成层级特征词标识集合;
关联评价结果获取模块15,用于基于结构化特征进行所述初始层级拆分结果的结构化关联评价,生成结构化关联评价结果;
关联度评价模块16,用于通过所述层级关联关系、所述层级特征词标识集合和所述结构化关联评价结果进行所述初始层级拆分结果的关联度评价;
标注结果反馈模块17,用于通过关联度评价结果进行事件划分聚合标注,将事件划分聚合标注结果反馈至标注用户。
进一步地,所述关联评价结果获取模块15还用于:
构建结构化特征分类标签,其中,所述结构化特征分类标签包括组成标签、包含标签、种属标签、嵌套标签;
通过大数据进行所述结构化特征分类标签的数据特征填充,生成初始特征填充结果;
对所述初始特征填充结果进行人工标识修正,通过人工标识修正结果生成所述结构化特征。
进一步地,所述标注结果反馈模块17还用于:
构建事件关键词特征;
通过所述事件关键词特征进行所述层级特征词标识集合的特征词聚合,获得初始聚合结果;
对所述初始层级拆分结果进行指代特征词识别,生成指代特征词识别集合;
根据所述层级关联关系进行所述指代特征词识别集合的事件关键词特征匹配,获得匹配结果;
通过所述匹配结果进行所述初始聚合结果的聚合补充,得到所述事件划分聚合标注结果。
进一步地,所述标注结果反馈模块17还用于:
对所述初始层级拆分结果进行句用识别,生成句用分类识别结果;
基于所述句用分类识别结果进行所述初始层级拆分结果的句用标识;
将句用标识结果添加至所述事件划分聚合标注结果中。
进一步地,所述标注结果反馈模块17还用于:
判断所述句用标识结果是否存在疑问句;
当存在疑问句时,则对所述疑问句进行问体和问题识别,获得问体识别结果和问题识别结果;
将所述问体识别结果和所述问题识别结果添加至所述事件划分聚合标注结果。
进一步地,所述标注结果反馈模块17还用于:
对所述层级特征词标识集合进行主体人物、客体人物和相关人物识别,得到人物标识结果;
对所述层级特征词标识集合进行环境特征识别,得到环境特征识别结果;
将所述人物标识结果和所述环境特征识别结果作为事件划分聚合标注结果的参考特征。
进一步地,所述标注结果反馈模块17还用于:
构建所述事件关键词特征的相关关键词特征;
基于所述相关关键词特征进行所述层级特征词标识集合的特征词聚合,获得辅助聚合结果;
通过所述匹配结果进行所述辅助聚合结果的聚合补充,得到所述事件划分聚合标注结果。
上述实施例二用于执行如实施例一中的方法,其执行原理以及执行基础均可以通过实施例一中记载的内容获取,在此不做过多赘述。尽管结合具体特征及其实施例对本申请进行了描述,但本申请不受这里描述的示例实施例的限制。基于本申请的实施例,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围,这样获取的内容也属于本申请保护的范围。
Claims (7)
1.一种用于新闻稿件标注的事件分割方法,其特征在于,所述方法包括:
采集获得新闻稿件数据;
构建初始分级特征,基于所述初始分级特征进行所述新闻稿件数据的识别划分,获得初始层级拆分结果;
通过所述新闻稿件数据在拆分前的排布顺序构建层级关联关系,获取各层级之间的关联关系;
对所述初始层级拆分结果进行逐层级特征词识别,生成层级特征词标识集合;
基于结构化特征进行所述初始层级拆分结果的结构化关联评价,生成结构化关联评价结果,其中,所述结构化关联评价结果是评价所述初始层级的语义关系,所述结构化特征为内容涉及的语义结构;
通过所述层级关联关系、所述层级特征词标识集合和所述结构化关联评价结果进行所述初始层级拆分结果的关联度评价;
通过关联度评价结果进行事件分割聚合标注,将事件分割聚合标注结果反馈至标注用户;
其中,所述方法还包括:
构建事件关键词特征;
通过所述事件关键词特征进行所述层级特征词标识集合的特征词聚合,聚合层级特征词标识集合中与事件关键词特征相同的特征词,获得初始聚合结果;
对所述初始层级拆分结果进行指代特征词识别,生成指代特征词识别集合;
根据所述层级关联关系进行所述指代特征词识别集合的事件关键词特征匹配,匹配每个指代特征词识别集合中元素所指代的事件关键词特征,获得匹配结果,
通过所述匹配结果进行所述初始聚合结果的聚合补充,得到所述事件分割聚合标注结果,其中,所述聚合补充为补充指代特征词识别集合中元素所指代的事件关键词特征。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
构建结构化特征分类标签,其中,所述结构化特征分类标签包括组成标签、包含标签、种属标签、嵌套标签;
通过大数据进行所述结构化特征分类标签的数据特征填充,生成初始特征填充结果;
对所述初始特征填充结果进行人工标识修正,通过人工标识修正结果生成所述结构化特征。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
对所述初始层级拆分结果进行句用识别,生成句用分类识别结果,其中,所述句用识别为通过构建句用神经网络模型对句子的具体类型进行识别;
基于所述句用分类识别结果进行所述初始层级拆分结果的句用标识;
将句用标识结果添加至所述事件分割聚合标注结果中。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
判断所述句用标识结果是否存在疑问句;
当存在疑问句时,则对所述疑问句进行问体和问题识别,获得问体识别结果和问题识别结果,其中,所述问体为疑问聚焦的对象,所述问题为所问的具体内容;
将所述问体识别结果和所述问题识别结果添加至所述事件分割聚合标注结果。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
对所述层级特征词标识集合进行主体人物、客体人物和相关人物识别,得到人物标识结果;
对所述层级特征词标识集合进行环境特征识别,得到环境特征识别结果;
将所述人物标识结果和所述环境特征识别结果作为事件分割聚合标注结果的参考特征。
6.如权利要求2所述的方法,其特征在于,所述方法还包括:
构建所述事件关键词特征的相关关键词特征;
基于所述相关关键词特征进行所述层级特征词标识集合的特征词聚合,获得辅助聚合结果;
通过所述匹配结果进行所述辅助聚合结果的聚合补充,得到所述事件分割聚合标注结果。
7.一种用于新闻稿件标注的事件分割系统,其特征在于,所述系统包括:
新闻稿件数据采集模块,用于采集获得新闻稿件数据;
初始层级拆分模块,用于构建初始分级特征,基于所述初始分级特征进行所述新闻稿件数据的识别划分,获得初始层级拆分结果;
层级关联关系构建模块,用于通过所述新闻稿件数据在拆分前的排布顺序构建层级关联关系,获取各层级之间的关联关系;
层级特征词标识集合获取模块,用于对所述初始层级拆分结果进行逐层级特征词识别,生成层级特征词标识集合;
关联评价结果获取模块,用于基于结构化特征进行所述初始层级拆分结果的结构化关联评价,生成结构化关联评价结果,其中,所述结构化关联评价结果是评价所述初始层级的语义关系,所述结构化特征为内容涉及的语义结构;
关联度评价模块,用于通过所述层级关联关系、所述层级特征词标识集合和所述结构化关联评价结果进行所述初始层级拆分结果的关联度评价;
标注结果反馈模块,用于通过关联度评价结果进行事件分割聚合标注,将事件分割聚合标注结果反馈至标注用户;
进一步地,所述标注结果反馈模块用于:
构建事件关键词特征;
通过所述事件关键词特征进行所述层级特征词标识集合的特征词聚合,聚合层级特征词标识集合中与事件关键词特征相同的特征词,获得初始聚合结果;
对所述初始层级拆分结果进行指代特征词识别,生成指代特征词识别集合;
根据所述层级关联关系进行所述指代特征词识别集合的事件关键词特征匹配,匹配每个指代特征词识别集合中元素所指代的事件关键词特征,获得匹配结果,
通过所述匹配结果进行所述初始聚合结果的聚合补充,得到所述事件分割聚合标注结果,其中,所述聚合补充为补充指代特征词识别集合中元素指代的事件关键词特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211294322.2A CN115600577B (zh) | 2022-10-21 | 2022-10-21 | 一种用于新闻稿件标注的事件分割方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211294322.2A CN115600577B (zh) | 2022-10-21 | 2022-10-21 | 一种用于新闻稿件标注的事件分割方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115600577A CN115600577A (zh) | 2023-01-13 |
CN115600577B true CN115600577B (zh) | 2023-05-23 |
Family
ID=84848557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211294322.2A Active CN115600577B (zh) | 2022-10-21 | 2022-10-21 | 一种用于新闻稿件标注的事件分割方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115600577B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559234A (zh) * | 2013-10-24 | 2014-02-05 | 北京邮电大学 | RESTful Web服务的自动化语义标注系统和方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1894686A (zh) * | 2003-11-21 | 2007-01-10 | 皇家飞利浦电子股份有限公司 | 用于文档构造的文本分段和主题注释 |
CN102982076B (zh) * | 2012-10-30 | 2015-08-19 | 新华通讯社 | 基于语义标签库的多维度内容标注方法 |
CN110888991B (zh) * | 2019-11-28 | 2023-12-01 | 哈尔滨工程大学 | 一种弱标注环境下的分段式语义标注方法 |
CN111859862B (zh) * | 2020-07-22 | 2024-03-22 | 海尔优家智能科技(北京)有限公司 | 文本的数据标注方法和装置、存储介质及电子装置 |
-
2022
- 2022-10-21 CN CN202211294322.2A patent/CN115600577B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559234A (zh) * | 2013-10-24 | 2014-02-05 | 北京邮电大学 | RESTful Web服务的自动化语义标注系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115600577A (zh) | 2023-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783394B (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
Sebastiani | Classification of text, automatic | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
CN112163424B (zh) | 数据的标注方法、装置、设备和介质 | |
CN112395421B (zh) | 课程标签的生成方法、装置、计算机设备及介质 | |
CN113821605B (zh) | 一种事件抽取方法 | |
CN111507089B (zh) | 基于深度学习模型的文献分类方法、装置和计算机设备 | |
CN109409433A (zh) | 一种社交网络用户的人格识别系统和方法 | |
CN111858896A (zh) | 一种基于深度学习的知识库问答方法 | |
CN114817454A (zh) | 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN104573030A (zh) | 一种文本情绪预测方法及装置 | |
CN111428480A (zh) | 简历识别方法、装置、设备及存储介质 | |
CN113946677A (zh) | 基于双向循环神经网络和注意力机制的事件识别分类方法 | |
CN115713085A (zh) | 文献主题内容分析方法及装置 | |
CN113806493A (zh) | 一种用于互联网文本数据的实体关系联合抽取方法、装置 | |
CN112579666A (zh) | 智能问答系统和方法及相关设备 | |
CN117668180A (zh) | 文档问答方法、文档问答设备以及可读存储介质 | |
CN112579730A (zh) | 高扩展性、多标签的文本分类方法和装置 | |
CN112685440B (zh) | 标记搜索语义角色的结构化查询信息表达方法 | |
Dann et al. | Reconstructing the giant: Automating the categorization of scientific articles with deep learning techniques | |
CN115600577B (zh) | 一种用于新闻稿件标注的事件分割方法及系统 | |
Ezzat et al. | Topicanalyzer: A system for unsupervised multi-label arabic topic categorization | |
CN114840657A (zh) | 一种基于混合模式的api知识图谱自适应构建及智能问答方法 | |
CN111930909B (zh) | 一种面向地质智能问答的数据自动化序列标注识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |