CN108984519B

CN108984519B - 基于双模式的事件语料库自动构建方法、装置及存储介质

Info

Publication number: CN108984519B
Application number: CN201810614464.XA
Authority: CN
Inventors: 过弋; 王志宏
Original assignee: East China University of Science and Technology; Shihezi University
Current assignee: East China University of Science and Technology; Shihezi University
Priority date: 2018-06-14
Filing date: 2018-06-14
Publication date: 2022-07-05
Anticipated expiration: 2038-06-14
Also published as: CN108984519A

Abstract

本发明实施例涉及数据处理领域，公开了一种基于双模式的事件语料库自动构建方法、装置、及存储介质。其中，基于双模式的事件语料库自动构建方法包括：获取用户输入的第一主题事件关键词；根据第一主题事件关键词进行检索获得第一主题事件语料，对第一主题事件语料进行扩展获得第二主题事件语料；根据第二主题事件语料与主题的相关性获得第三主题事件语料，并由第三事件语料构成语料库。通过提供一种基于双模式的事件语料库自动构建方法，不需要专家进行标注与主题事件相关的新闻信息，因此，提高了构建语料的效率并节省了人工成本。并且，能够自动收集到所有相关事件语料，使语料库更加完整，准确度更高。

Description

基于双模式的事件语料库自动构建方法、装置及存储介质

技术领域

本发明实施例涉及数据处理领域，特别涉及一种基于双模式的事件语料库自动构建方法、装置及存储介质。

背景技术

近些年，网络技术得到飞速发展，互联网数据由于更新迅速，范围广泛，获取容易等优点已经成为人们获取信息的主要来源。据统计显示，网络数据中的绝大部分都是以文本的形式存储，记录着大量的新闻事件，而这些新闻事件往往围绕着某个主题展开。在大数据时代，从海量数据中筛选出和某个主题相关的所有新闻事件，并构建新闻主题事件语料库，有助于新闻事件的挖掘和分析。

发明人发现现有技术中至少存在如下问题：现在大多数新闻主题事件语料库在构建时，往往需要专家进行人工标注与主题事件相关的新闻信息，不仅效率低而且成本高。并且对于新闻事件来说，一般一个主题事件会有很多相关的子主题事件，人工标注时很难收集到所有相关事件语料，从而导致语料库不完整，覆盖不全面，并且准确度不高。

发明内容

本发明实施方式的目的在于提供一种基于双模式的事件语料库自动构建方法、装置及存储介质，能够提高构建语料的效率并节省成本，并使构建的语料库更加完整，准确度更高。

为解决上述技术问题，本发明的实施方式提供了一种基于双模式的事件语料库自动构建方法，包括：获取用户输入的第一主题事件关键词；

根据第一主题事件关键词进行检索获得第一主题事件语料，对第一主题事件语料进行扩展获得第二主题事件语料；

根据第二主题事件语料与主题的相关性获得第三主题事件语料，并由第三事件语料构成语料库；

其中，所述对第一主题事件语料进行扩展获得第二主题事件语料为扩展模式；根据第二主题事件语料与主题的相关性获得第三主题事件语料为收缩模式。

本发明的实施方式还提供了一种事件语料库的自动构建装置，包括：第一获取模块、第二获取模块和第三获取模块；

第一获取模块，用于获取用户输入的第一主题事件关键词；

第二获取模块，用于根据第一主题事件关键词进行检索获得第一主题事件语料，对第一主题事件语料进行扩展获得第二主题事件语料；

第三获取模块，用于根据第二主题事件语料与主题的相关性获得第三主题事件语料，并由第三事件语料构成语料库；

其中，对第一主题事件语料进行扩展获得第二主题事件语料为扩展模式；根据第二主题事件语料与主题的相关性获得第三主题事件语料为收缩模式。

本发明的实施方式还提供了一种电子设备，包括至少一个处理器；以及，

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述实施方式中的基于双模式的事件语料库自动构建方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述实施方式中的基于双模式的事件语料库自动构建方法。

本发明实施方式相对于现有技术而言，能够根据用户输入的第一主题事件关键词，自动进行检索获得第一主题事件语料，并针对第一主题事件语料进行扩展获得第二主题事件语料，因此在不需要人工标注的情况下，能够通过自动检索和扩展的方式使构建的语料库内容更加完整，同时节省了人工标注的成本。另外，针对第二主题事件语料与主题的相关性获得第三主题事件语料，由第三主题事件语料构成语料库，因此最终构建的语料库中是包含与主题内容相关性更高的语料，从而提高了语料库精确度。

另外，在对第一主题事件语料进行扩展获得第二主题事件语料之前，基于双模式的事件语料库自动构建方法还包括：对第一主题事件语料进行内容去噪，获得仅包括正文内容的第一主题事件语料。通过对第一主题事件语料进行内容去噪，排除了第一主题事件语料中对于扩展获得第二主题事件语料不相关的信息，提高了后续扩展的速度。

另外，对第一主题事件语料进行扩展获得第二主题事件语料，包括：针对仅包括正文内容的第一主题事件语料进行提取获得第二主题事件关键词；根据第二主题事件关键词进行检索，根据检索结果获得第二主题事件语料，其中，第二主题事件关键词包括第一主题事件关键词。通过对仅包括正文内容的第一主题事件语料进行提取获得第二主题事件关键词，并且第二主题事件语料是第二主题事件关键词通过检索获得的。由于第二主题事件关键词包括第一主题事件关键词，因此检索获得的第二主题事件语料的范围要大于第一主题事件语料，使最终建立的语料库更加完整。

另外，根据第二主题事件关键词进行检索，根据检索结果获得第二主题事件语料之前，包括：确定第二主题事件关键词的个数大于等于预设阈值。通过用户设定预设阈值，将第二主题事件关键词的个数与用户设定的预设阈值进行对比，当第二主题事件关键词的个数大于等于预设阈值，说明达到了用户对第一主题事件语料进行扩展的要求。

另外，根据第二主题事件语料与主题的相关性获得第三主题事件语料，包括：对第二主题事件语料进行向量化处理，获得第二主题事件语料的特征向量；根据与主题的相关性将特征向量进行聚类处理，获得至少一个语料簇；将至少一个语料簇按照大小进行排序，并按照由大到小的顺序选择预设个数的语料簇；根据选择的语料簇获得第三主题事件语料。将获得的第二主题事件语料根据与主题的相关性获得第三主题事件语料，并且第三主题事件语料要小于第二主题事件语料，但与主题的相关度更高，因此提高了所构建的语料库的准确度。

另外，获得至少一个语料簇之后，基于双模式的事件语料库自动构建方法还包括：接收用户指令，并删除指令指定的语料簇。通过接收用户指令，采用人工干预的方式，将获得的至少一个语料簇中与主题相关性比较小的语料簇进行删除，进一步提高了所构建的语料库的准确度。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本申请第一实施例中基于双模式的事件语料库自动构建方法的流程图；

图2是本申请第二实施例中基于双模式的事件语料库自动构建方法的流程图；

图3是本申请第三实施例中基于双模式的事件语料库自动构建装置的方框示意图；

图4是本申请第四实施例中基于双模式的事件语料库自动构建装置的方框示意图；

图5是本申请第五实施例中的电子设备的结构示例图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种基于双模式的事件语料库自动构建方法。具体流程如图1所示，具体流程如下：

步骤101，获取用户输入的第一主题事件关键词。

其中，在本实施方式中，对于用户输入的第一主题事件关键词的个数并不做具体限定，即使获取的用户输入的第一主题事件关键词的个数只有一个也可以完成对事件语料库的自动构建。

需要说明的是，本实施方式中的第一主题事件关键词可以由用户自行进行确定，根据用户输入的不同类型的第一主题事件关键词，分别相应的自动建立不同类型的语料库。例如用户输入的第一主题事件关键词为“会议A”，则会自动建立与“会议A”相关的语料库。

步骤102，根据第一主题事件关键词进行检索获得第一主题事件语料，对第一主题事件语料进行扩展获得第二主题事件语料。

其中，可以采用网络爬虫的方式进行检索，基于用户输入的第一主题事件关键词进行检索获得更多的与主题事件关联的子事件，检索获得的与主题事件关联的子事件构成第一主题事件语料，并且第一主题事件语料具体以网页的形式进行表示。

需要说明的是，在获得第一主题事件语料之后，需要对第一主题事件语料进行内容去噪，获得仅包括正文内容的第一主题事件语料。

在一个具体实现中，可以采用数据处理方式，将以网页形式表示的第一主题事件语料进行网页正文抽取，然后对抽取的正文进行内容去重，最后对内容去重后的正文进行广告过滤操作，以去除与主题事件不相关的内容。因此，实现了对第一主题事件语料的内容去噪过程，获得仅包括正文的第一主题事件语料。

具体的，对第一主题事件语料进行扩展获得第二主题事件语料，具体采用针对仅包括正文内容的第一主题事件语料进行提取获得第二主题事件关键词，根据第二主题事件关键词进行检索，根据检索结果获得第二主题事件语料。其中，对第一主题事件语料进行扩展获得第二主题事件语料为扩展模式。

例如，根据第一主题事件关键词“会议A”获得第一主题事件语料，因为第一主题事件语料是以网页的形式进行表示，因此网页内容中包括了很多与“会议A”相关的具体内容。针对以网页形式表示的第一主题事件语料进行提取，可以获得第二主题事件关键词，如“会议A”、“会议A时间”、“会议A参会人员”和“会议A地点”等。其中，第二主题事件关键词的个数大于第一主题事件关键词，并且第二主题事件关键词包括第一主题事件关键词。

需要说明的是，由于对第一主题事件语料进行扩展获得第二主题事件语料的过程是不断进行的，因此，用户需要设定一个预设阈值，该预设阈值表示了提取的第二主题事件关键词的上限。当确定第二主题事件关键词的个数大于等于预设阈值时，则确定符合用户对建立的数据库的完整度的要求。同时，当第二主题事件关键词的个数大于等于预设阈值时，也说明了对第二主题事件关键词的提取操作是逐渐趋于平稳的。此时，则根据第二主题事件关键词进行检索，根据检索结果获得第二主题事件语料。由于第二主题事件关键词的个数大于第一主题事件关键词，所以通过对第二主题事件关键词进行检索所获得的第二主题事件语料要多于第一主题事件语料。从而保证了语料库的完整度。

值得一提的是，本实施方式中预设阈值是用户自行建立的，而在获得第二主题事件关键词后，也可以接收用户指令，对第二主题事件关键词中的与主题相关度比较低的关键词进行删除，此项功能体现了人工的参与性。

步骤103，根据第二主题事件语料与主题的相关性获得第三主题事件语料，并由第三主题事件语料构成语料库。

具体过程为，对第二主题事件语料进行向量化处理，获得第二主题事件语料的特征向量。根据与主题的相关性将特征向量进行聚类处理，获得至少一个语料簇；将至少一个语料簇按照大小进行排序，并按照由大到小的顺序选择预设个数的语料簇；根据选择的语料簇获得第三主题事件语料。其中，根据第二主题事件语料与主题的相关性获得第三主题事件语料为收缩模式。

具体实现中，可以采用深度学习模型，具体为doc2vec对第二主题事件语料进行向量化处理，即将第二主题事件的网页内容中的文档分别以一个固定长度的向量进行表示，由于第二主题事件语料包括多个网页内容，而每个网页相应的获得一个固定长度的特征向量。因此，第二主题事件可以由多个特征向量进行表示。

其中，由于主题包括多个子主题，计算获得的特征向量与子主题之间的相关性，如果相关性大于子主题所设定的预设阈值，则确定该特征向量属于该子主题所对应的语料簇，从而获得至少一个语料簇。

与现有技术相比，能够根据用户输入的第一主题事件关键词，自动进行检索获得第一主题事件语料，并针对第一主题事件语料进行扩展获得第二主题事件语料，因此在不需要人工标注的情况下，能够通过自动检索和扩展的方式使构建的语料库内容更加完整，同时节省了人工标注的成本。另外，针对第二主题事件语料与主题的相关性获得第三主题事件语料，由第三主题事件语料构成语料库，因此最终构建的语料库中是包含与主题内容相关性更高的语料，从而提高了语料库精确度。

本发明的第二实施方式涉及一种基于双模式的事件语料库自动构建方法。本实施例在第一实施例的基础上做了进一步改进，具体改进之处为：在根据第二主题事件语料与主题的相关性获得第三主题事件语料的过程中加入人工干预的过程。本实施例中基于双模式的事件语料库自动构建方法的流程如图2所示。具体的说，在本实施例中，包括步骤201至步骤207，其中步骤201至步骤202与第一实施方式中的步骤101至步骤102大致相同，步骤203至步骤207是对第一实施方式中步骤103的具体介绍，其中步骤205是相对于第一实施方式来说，新增的内容。下面主要介绍不同之处，未在本实施方式中详尽描述的技术细节，可参见第一实施例所提供的基于双模式的事件语料库自动构建方法，此处不再赘述。

在步骤201至步骤204之后，执行步骤205。

在步骤205中，接收用户指令，并删除指令指定的语料簇。

需要说明的是，本实施方式在获得至少一个语料簇后，能够根据用户指令，删除明显比较小的语料簇，而这些根据用户指令所删除的语料簇，是明显与主题相关性比较小的语料，因此，通过人工干预的操作过程，可以提高构建的语料库的准确度。另外，由于删除了与主题相关性比较下的语料簇，提高了后续构建语料库的速度。

在步骤205之后，执行步骤206至步骤207。

与现有技术相比，能够根据用户输入的第一主题事件关键词，自动进行检索获得第一主题事件语料，并针对第一主题事件语料进行扩展获得第二主题事件语料，因此在不需要人工标注的情况下，能够通过自动检索和扩展的方式使构建的语料库内容更加完整，同时节省了人工标注的成本。另外，针对第二主题事件语料与主题的相关性获得第三主题事件语料，由第三主题事件语料构成语料库，因此最终构建的语料库中是包含与主题内容相关性更高的语料，从而提高了语料库精确度。由于加入了人工干预的过程，进一步提高了所构建的语料库得准确度。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种事件语料库的自动构建装置，具体结构如如图3所示。

如图3所示，事件语料库的自动构建装置包括：第一获取模块301,第二获取模块302和第三获取模块303。

其中，第一获取模块301，用于获取用户输入的第一主题事件关键词。

第二获取模块302，用于根据第一主题事件关键词进行检索获得第一主题事件语料，对第一主题事件语料进行扩展获得第二主题事件语料

第三获取模块303，用于根据第二主题事件语料与主题的相关性获得第三主题事件语料，并由第三事件语料构成语料库。

不难发现，本实施方式为与第一实施方式相对应的装置实施例，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

本发明第四实施方式涉及一种事件语料库的自动构建装置。该实施方式与第三实施方式大致相同，具体结构如图4所示。其中，主要改进之处在于：第四实施方式对第三实施方式中的第三获取模块303的结构进行了具体描述。

其中，第三获取模块303，包括：向量处理模块3031、聚类处理模块3032、人工干预模块3033、选择模块3034和语料库构建模块3035。

向量处理模块3031，用于对第二主题事件语料进行向量化处理，获得第二主题事件语料的特征向量。

聚类处理模块3032，用于根据与主题的相关性将特征向量进行聚类处理，获得至少一个语料簇。

人工干预模块3033，用于接收用户指令，并删除指令指定的语料簇。

选择模块3034，用于将至少一个语料簇按照大小进行排序，并按照由大到小的顺序选择预设个数的语料簇。

语料库构建模块3035，用于根据选择的语料簇获得第三主题事件语料，并由第三主题事件语料构成语料库。

不难发现，本实施方式为与第二实施方式相对应的装置实施例，本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第二实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明第五实施方式涉及一种电子设备，如图5所示，包括至少一个处理器401；以及，与至少一个处理器401通信连接的存储器402；其中，存储器402存储有可被至少一个处理器401执行的指令，指令被至少一个处理器401执行，以使至少一个处理器401能够执行上述实施例中的基于双模式的事件语料库自动构建方法。

本实施例中，处理器401以中央处理器(Central Processing Unit，CPU)为例，存储器402以可读写存储器(Random Access Memory，RAM)为例。处理器401、存储器402可以通过总线或者其他方式连接，图5中以通过总线连接为例。存储器402作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中实现环境信息确定方法的程序就存储于存储器402中。处理器401通过运行存储在存储器402中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述基于双模式的事件语料库自动构建方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储选项列表等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个程序模块存储在存储器402中，当被一个或者多个处理器401执行时，执行上述任意方法实施例中的基于双模式的事件语料库自动构建方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请的第六实施方式涉及一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序被处理器执行时能够实现本发明任意方法实施例中涉及的基于双模式的事件语料库自动构建方法。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种基于双模式的事件语料库自动构建方法，其特征在于，包括：

获取用户输入的第一主题事件关键词；

根据所述第一主题事件关键词进行检索获得第一主题事件语料，对所述第一主题事件语料进行扩展获得第二主题事件语料；

根据所述第二主题事件语料与主题的相关性获得第三主题事件语料，并由所述第三主题事件语料构成语料库；

其中，所述对所述第一主题事件语料进行扩展获得第二主题事件语料为扩展模式；所述根据所述第二主题事件语料与主题的相关性获得第三主题事件语料为收缩模式；

所述根据所述第二主题事件语料与主题的相关性获得第三主题事件语料，包括：

对所述第二主题事件语料进行向量化处理，获得所述第二主题事件语料的特征向量；

根据与所述主题的相关性将所述特征向量进行聚类处理，获得至少一个语料簇；

将所述至少一个语料簇按照大小进行排序，并按照由大到小的顺序选择预设个数的所述语料簇；

根据选择的所述语料簇获得所述第三主题事件语料。

2.根据权利要求1所述的基于双模式的事件语料库自动构建方法，其特征在于，在所述对所述第一主题事件语料进行扩展获得第二主题事件语料之前，所述基于双模式的事件语料库自动构建方法还包括：

对所述第一主题事件语料进行内容去噪，获得仅包括正文内容的第一主题事件语料。

3.根据权利要求2所述的基于双模式的事件语料库自动构建方法，其特征在于，所述对所述第一主题事件语料进行扩展获得第二主题事件语料，包括：

针对所述仅包括正文内容的第一主题事件语料进行提取获得第二主题事件关键词；

根据所述第二主题事件关键词进行检索，根据检索结果获得第二主题事件语料，其中，所述第二主题事件关键词包括所述第一主题事件关键词。

4.根据权利要求3所述的基于双模式的事件语料库自动构建方法，其特征在于，所述根据所述第二主题事件关键词进行检索，根据检索结果获得第二主题事件语料之前，包括：

确定所述第二主题事件关键词的个数大于等于预设阈值。

5.根据权利要求1所述的基于双模式的事件语料库自动构建方法，其特征在于，所述获得至少一个语料簇之后，所述基于双模式的事件语料库自动构建方法还包括：

接收用户指令，并删除所述指令指定的所述语料簇。

6.一种基于双模式的事件语料库自动构建装置，其特征在于，包括：第一获取模块、第二获取模块和第三获取模块；

所述第一获取模块，用于获取用户输入的第一主题事件关键词；

所述第二获取模块，用于根据所述第一主题事件关键词进行检索获得第一主题事件语料，对所述第一主题事件语料进行扩展获得第二主题事件语料；

所述第三获取模块，用于根据所述第二主题事件语料与主题的相关性获得第三主题事件语料，并由所述第三主题事件语料构成语料库；

其中，所述第三获取模块还用于对所述第二主题事件语料进行向量化处理，获得所述第二主题事件语料的特征向量；根据与所述主题的相关性将所述特征向量进行聚类处理，获得至少一个语料簇；将所述至少一个语料簇按照大小进行排序，并按照由大到小的顺序选择预设个数的所述语料簇；根据选择的所述语料簇获得所述第三主题事件语料；

其中，所述对所述第一主题事件语料进行扩展获得第二主题事件语料为扩展模式；所述根据所述第二主题事件语料与主题的相关性获得第三主题事件语料为收缩模式。

7.根据权利要求6所述的基于双模式的事件语料库自动构建装置，其特征在于，所述基于双模式的事件语料库自动构建装置还包括处理模块；

所述处理模块，用于对所述第一主题事件语料进行内容去噪，获得仅包括正文内容的第一主题事件语料。

8.一种电子设备，其特征在于，包括

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至5任一项所述的基于双模式的事件语料库自动构建方法。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5任一项所述的基于双模式的事件语料库自动构建方法。