CN115422948B

CN115422948B - 一种基于语义分析的事件层次网络识别系统及方法

Info

Publication number: CN115422948B
Application number: CN202211372951.2A
Authority: CN
Inventors: 宋永生; 王楠
Original assignee: Wenling Technology Beijing Co ltd
Current assignee: Wenling Technology Beijing Co ltd
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2023-01-24
Anticipated expiration: 2042-11-04
Also published as: CN115422948A

Abstract

本申请公开了一种基于语义分析的事件层次网络识别系统及方法，包括：为待分析的目标文本指定主题描述；对指定的主题描述进行分词处理，并基于预设概念库查找出各分词的关联语义概念，完成事件识别；利用扩展主题描述对目标文本进行初次过滤，以在过滤后获得候选文本段；确定所提取的文段特征向量与扩展主题向量的相关度，以进行二次过滤，获得目标事件的相关文本；从相关文本中提取多个子事件，并确定与目标事件之间的关联关系，从而提取事件和事件之间的关系；基于所确定的关联关系构建目标事件的事件层次网络。本申请实施例的事件层次网络识方法能够自动构建事件层次网络图谱，解决人工标注成本高、效率低的问题。

Description

一种基于语义分析的事件层次网络识别系统及方法

技术领域

本发明涉及数据处理领域，尤其涉及一种基于语义分析的事件层次网络识别系统及方法。

背景技术

随着互联网信息量爆炸式的增长，在浩如烟海的信息源中快速、准确地获取所需信息的需求愈发迫切。事件抽取作为信息抽取的深层次研究任务，其旨在从纯文本中抽取出用户感兴趣的事件，并以结构化的形式呈现给用户。常见的重要下游应用，比如：构建知识图谱、智能问答和信息检索等。对文本进行事件抽取，尤其是多主体嵌套事件抽取是非常困难的。例如对于新闻文本等领域，大量文本均存在多主体嵌套事件，对准确抽取文本信息提出了巨大挑战。并且大多数情况下，同一个新闻文本中大概率具有海量的信息，从而可能包含诸多的事件。而从这类海量的文本数据中准确获取出用户感兴趣的事件，并呈现给用户是亟待解决的。

发明内容

本申请实施例提供一种基于语义分析的事件层次网络识别系统及方法，用以从待分析文本中确定出用户感兴趣的事件层次网络。

本申请实施例提出一种基于语义分析的事件层次网络识别方法，应用于从待分析的目标文本中识别出目标事件的层次网络，包括：

获取待分析的目标文本；

基于所述目标事件，为所述待分析的目标文本指定主题描述；

对指定的主题描述进行分词处理，并基于预设概念库查找出各分词的关联语义概念；

基于语义逻辑关系组合所查询出的关联语义概念，以形成数个扩展主题描述；

利用查找的关联语义概念，以及，所述扩展主题描述对所述目标文本进行初次过滤，以在过滤后获得候选文本段；

从所述候选文本段中提取文段特征向量，并基于所述扩展主题描述构建扩展主题向量；

确定所提取的文段特征向量与所述扩展主题向量的相关度，以进行二次过滤，获得目标事件的相关文本；

从所述相关文本中提取多个子事件，并确定子事件与子事件之间，以及，子事件与目标事件之间的关联关系；

基于所确定的关联关系构建所述目标事件的事件层次网络。

可选的，利用查找的关联语义概念，以及，所述扩展主题描述对所述目标文本进行初次过滤，以在过滤后获得候选文本段包括：

从所述目标文本中选取包含关联语义概念的多个子文本段；

对任一子文本段：

基于目标事件为各关联语义概念配置对应的语义权重；

确定任一子文本段中各关联语义概念在所述任一子文本段的等效出现密度满足：

其中，

表示子文本段k中所有关联语义概念的等效出现密度，l表示关联语义概念的总数，

表示第i个关联语义概念在任一子文本段的出现次数，

表示第i个关联语义概念的语义权重，

表示子文本段k的字数；

确定各扩展主题描述与所述任一子文本段之间的语义关联度的最大值

；

根据所述等效出现密度

以及语义关联度的最大值

，确定所述任一子文本段的关联度满足：

其中，

表示子文本段k的关联度；

去除关联度低于预设关联度阈值的文本段，以获得候选文本段。

可选的，从所述候选文本段中提取文段特征向量，并基于所述扩展主题描述构建扩展主题向量包括：

从所述候选文本中提取特征项

；

为各特征项，重复确定任一特征项的等效出现密度：

其中，

表示任一特征项的等效出现密度，

表示第m个特征项包含的相关关联语义概念的语义权重最大值，

表示第m个特征项包含的相关关联语义概念在任一子文本段的等效出现次数，

表示任一子文本段的字数；

配置等效权重满足：

其中，

为权重系数，

为权重基数；

构建文段特征向量D=(

)，其中

；

基于所述扩展主题描述构建扩展主题向量

=(

)，其中

表示第j 个扩展主题描述的特征项数。

可选的，基于所述扩展主题描述构建扩展主题向量包括：

确定所述扩展主题描述的各分词，并根据各分词的同义词构建正例样本；

基于所述正例样本的近义词构建关联样本；

基于所述扩展主题描述的各分词、所述正例样本中第一数量的同义词以及所述关联样本中第二数量的近义词构建扩展主题向量。

可选的，确定所提取的文段特征向量与所述扩展主题描述向量的相关度，以进行二次过滤，获得目标事件的相关文本包括：

其中，

表示文段特征向量D与第j个扩展主题向量

之间的相关度；

为任一扩展主题描述：

选取相关度大于预设相关度阈值的文本段，以获得所述任一扩展主题描述对应的文本作为中间文本。

可选的，进行二次过滤，获得目标事件的相关文本还包括：

对任一扩展主题描述的中间文本：

计算确定所述中间文本中各词的互信息量，满足：

其中，

表示中间文本的第g个词，

表示词

的互信息量，

表示词

在扩展主题向量

对应的文本集中的权重，

表示词

在关联语义概念集中的权重；

选取互信息量大于预设互信息量阈值的词汇，以形成目标事件的相关文本。

可选的，从所述相关文本中提取多个子事件，并确定子事件与子事件之间，以及，子事件与目标事件之间的关联关系包括：

从所述相关文本中提取多个子事件；

对于各子事件，确定各子事件在所属的任一子文本段的语序位置关系；

基于所确定的语序位置关系，确定两两子事件之间的关联关系，以确定子事件与子事件之间，以及，子事件与目标事件之间的关联关系。

可选的，基于所确定的关联关系构建所述目标事件的事件层次网络包括：

对基于任一扩展主题描述确定的关联关系，构建对应的子事件层次网络；

判断任意两个子事件层次网络中的相同的子事件节点；

基于相同的子事件节点合并任意两个子事件层次网络，以获得目标事件的事件层次网络。

本申请实施例还提出一种基于语义分析的事件层次网络识别系统，包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被处理器执行时实现如前述的基于语义分析的事件层次网络识别方法的步骤。

本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前述的基于语义分析的事件层次网络识方法的步骤。

本申请实施例的基于语义分析的事件层次网络识别方法，能够根据用户指定的主题描述，识别出关联的事件层次网络，并且不会受到特定场景的限制，具有普遍的适用性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本实施例的事件层次网络识别方法的基本流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请实施例提出一种基于语义分析的事件层次网络识别方法，应用于从待分析的目标文本中识别出目标事件的层次网络，如图1所示，包括：

在步骤S101中，获取待分析的目标文本。本示例中的目标文本可以是任一的输入文本，例如新闻媒体类，生物类，甚至是计算机相关类别。

在步骤S102中，基于所述目标事件，为所述待分析的目标文本指定主题描述。具体实施中可以由用户来指定主题描述，例如输入一段文字描述作为主题描述，主题描述也可以基于预先设置的主题类别来让用户进行选择，具体可以根据实际需要设置。

在步骤S103中，对指定的主题描述进行分词处理，并基于预设概念库查找出各分词的关联语义概念。本示例中预设概念库可以包含各类概念的同义词，同义语义，近义词，近义语义等关联概念，具体的预设概念库可以根据各类词典，百科等确定。

在步骤S104中，基于语义逻辑关系组合所查询出的关联语义概念，以形成数个扩展主题描述，从而完成事件识别。本示例中具体对用户指定的主题描述形成多个扩展的主题描述，由此可以提高所识别出的事件网络的丰富程度和准确性。在一些具体示例中，拓展主题不仅靠关联语义辞典获得，还可以基于事物表达的逻辑进行推理获得，例如“甲方购买乙方产品”，通过逻辑推理，甲方应该付给乙方钱，乙方才会将产品给甲方，所以，“乙方收到甲方的钱”与前一句表述的意思相同，通过逻辑推理可以合并扩展的主题描述中，意思表述相同的主题描述，从而简化运算量。

在步骤S105中，利用查找的关联语义概念，以及，所述扩展主题描述对所述目标文本进行初次过滤，以在过滤后获得候选文本段。在一些实施例中，利用查找的关联语义概念，以及，所述扩展主题描述对所述目标文本进行初次过滤，以在过滤后获得候选文本段具体可以采用如下方式：

从所述目标文本中选取包含关联语义概念的多个子文本段；

对任一子文本段：

基于目标事件为各关联语义概念配置对应的语义权重；

其中，

表示第i个关联语义概念在任一子文本段的出现次数，

表示第i个关联语义概念的语义权重，

表示子文本段k的字数；

；

根据所述等效出现密度

以及语义关联度的最大值

，确定所述任一子文本段的关联度满足：

其中，

表示子文本段k的关联度；

去除关联度低于预设关联度阈值的文本段，以获得候选文本段。本示例中通过设置等效出现密度和语义关联度，能够粗过滤掉待分析的目标文本中与用户指定的主题描述关联度低或者无关联的文本段，且保留下关联度高的文段，其中等效出现密度越大，被保留下来的概率越大，通过本示例的语法分析方法，能够有效提高识别出事物和事物之间关系的效率。

在步骤S106中，从所述候选文本段中提取文段特征向量，并基于所述扩展主题描述构建扩展主题向量。

在步骤S107中，确定所提取的文段特征向量与所述扩展主题向量的相关度，以进行二次过滤，获得目标事件的相关文本。本示例中进一步利用文本向量之间的相关度来进行二次过滤，从而获得目标事件的相关文本。本示例中，二次过滤为进一步的精准过滤，通过两级过滤的设计，能够进一步提高事件层次的识别准确度。

在步骤S108中，从所述相关文本中提取多个子事件，并确定子事件与子事件之间，以及，子事件与目标事件之间的关联关系。具体的关联关系可以是组成关系、包含关系、种属关系、类似关系等。

在步骤S109中，基于所确定的关联关系构建所述目标事件的事件层次网络。本示例中进一步提取子事件和子事件之间的关联关系，例如关联关系中组成关系、包含关系、种属关系和嵌套关系可以用于对事件进行分层，同义关系、类似关系可以确定子事件之间属于同层关系，从而构建事件网络。

本申请实施例的基于语义分析的事件层次网络识别方法，能够根据用户指定的主题描述，识别出关联的事件层次网络，并且不会受到特定场景的限制，具有普遍的适用性。本申请实施例能够自动构建所识别出的事件层次网络，解决人工标注成本高、效率低的问题。

在一些实施例中，从所述候选文本段中提取文段特征向量，并基于所述扩展主题描述构建扩展主题向量包括：

从所述候选文本中提取特征项

。

为各特征项，重复确定任一特征项的等效出现密度：

其中，

表示任一特征项的等效出现密度，

表示任一子文本段的。本示例中采用类似于前述示例的等效出现密度重复确定各特征项的等效出现密度。并配置等效权重满足：

其中，

为权重系数，

为权重基数；

构建文段特征向量D=(

)，其中

；

基于所述扩展主题描述构建扩展主题向量

=(

)，其中

表示第j个扩展主题描述的特征项数。

在一些实施例中，基于所述扩展主题描述构建扩展主题向量包括：

基于所述正例样本的近义词构建关联样本；

基于所述扩展主题描述的各分词、所述正例样本中第一数量的同义词以及所述关联样本中第二数量的近义词构建扩展主题向量。具体可以采用如下方式，从正例样本中选取第一数量的同义词，从关联样本中选取第二数量的近义词，构建扩展主题向量，满足：

其中，

为扩展主题描述的分词、正例样本和关联样本的成分权重，

且，

为分词，

、

分别为选取的同义词、近义词。

在一些实施例中，确定所提取的文段特征向量与所述扩展主题描述向量的相关度，以进行二次过滤，获得目标事件的相关文本包括：

其中，

表示文段特征向量D与第j个扩展主题向量

之间的相关度；

为任一扩展主题描述：

在一些实施例中，进行二次过滤，获得目标事件的相关文本还包括：

对任一扩展主题描述的中间文本：

计算确定所述中间文本中各词的互信息量，满足：

其中，

表示中间文本的第g个词，

表示词

的互信息量，

表示词

在扩展主题向量

对应的文本集中的权重，

表示词

在关联语义概念集中的权重，本示例中关联语义概念集为各关联语义概念组成的集合。

选取互信息量大于预设互信息量阈值的词汇，以形成目标事件的相关文本。具体的选取方式，可以利用所确定的互信息量进行排序，并选取指定数量的词或者文段作为目标事件的相关文本。本示例中，针对初次过滤之后的文本量还可能很大的技术问题，本示例通过二次过滤，能够去除表现力不强的词汇或者文本，进一步提高运算效率，简化运算。

在一些实施例中，从所述相关文本中提取多个子事件，并确定子事件与子事件之间，以及，子事件与目标事件之间的关联关系包括：

从所述相关文本中提取多个子事件；

对于各子事件，确定各子事件在所属的任一子文本段的语序位置关系，本示例中所指的语序位置关系可以是词或者文段出现的先后关系，从属关系，或者指向关系，引出关系等，具体可以根据相关文本中的关系词以及语义顺序来确定语序位置关系。

基于所确定的语序位置关系，确定两两子事件之间的关联关系，以确定子事件与子事件之间，以及，子事件与目标事件之间的关联关系。具体可以根据相关文本中的关系词，例如“包括”、“属于”等属性相关词汇来确定与目标事件之间的关联关系。

在一些实施例中，基于所确定的关联关系构建所述目标事件的事件层次网络包括：

对基于任一扩展主题描述确定的关联关系，构建对应的子事件层次网络。由于扩展主题描述中可能不包含目标事件，而仅包含目标事件的子事件，本示例中基于扩展主题向量对于每一个扩展主题描述确定一个子事件层次网络。所构建出的子事件层次网络中呈树状结构，根节点为扩展主题描述的相关事件。

判断任意两个子事件层次网络中的相同的子事件节点，本示例中所指的相同的子事件节点可以是同义节点，也即实质相同的子事件节点。

基于相同的子事件节点合并任意两个子事件层次网络，以获得目标事件的事件层次网络。本示例中进一步将具有相同的子事件节点的任意两个子事件层次网络合并，从而形成目标事件的事件层次网络。通过合并的方式，能够在一个事件层次网络中表示出更多的事件关联关系，从而在以结构化的形式呈现给用户的过程中，体现出更丰富的事件组分以及层次关系。

此外，尽管已经在本文中描述了示例性实施例，其范围包括任何和所有基于本公开的具有等同元件、修改、省略、组合（例如，各种实施例交叉的方案）、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释，并不限于在本说明书中或本申请的实施期间所描述的示例，其示例将被解释为非排他性的。因此，本说明书和示例旨在仅被认为是示例，真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。

以上描述旨在是说明性的而不是限制性的。例如，上述示例（或其一个或更多方案）可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外，在上述具体实施方式中，各种特征可以被分组在一起以简单化本公开。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反，本公开的主题可以少于特定的公开的实施例的全部特征。从而，以下权利要求书作为示例或实施例在此并入具体实施方式中，其中每个权利要求独立地作为单独的实施例，并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

以上实施例仅为本公开的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本公开的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。