CN115422948B - 一种基于语义分析的事件层次网络识别系统及方法 - Google Patents

一种基于语义分析的事件层次网络识别系统及方法 Download PDF

Info

Publication number
CN115422948B
CN115422948B CN202211372951.2A CN202211372951A CN115422948B CN 115422948 B CN115422948 B CN 115422948B CN 202211372951 A CN202211372951 A CN 202211372951A CN 115422948 B CN115422948 B CN 115422948B
Authority
CN
China
Prior art keywords
event
text
sub
target
events
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211372951.2A
Other languages
English (en)
Other versions
CN115422948A (zh
Inventor
宋永生
王楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenling Technology Beijing Co ltd
Original Assignee
Wenling Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenling Technology Beijing Co ltd filed Critical Wenling Technology Beijing Co ltd
Priority to CN202211372951.2A priority Critical patent/CN115422948B/zh
Publication of CN115422948A publication Critical patent/CN115422948A/zh
Application granted granted Critical
Publication of CN115422948B publication Critical patent/CN115422948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于语义分析的事件层次网络识别系统及方法,包括:为待分析的目标文本指定主题描述;对指定的主题描述进行分词处理,并基于预设概念库查找出各分词的关联语义概念,完成事件识别;利用扩展主题描述对目标文本进行初次过滤,以在过滤后获得候选文本段;确定所提取的文段特征向量与扩展主题向量的相关度,以进行二次过滤,获得目标事件的相关文本;从相关文本中提取多个子事件,并确定与目标事件之间的关联关系,从而提取事件和事件之间的关系;基于所确定的关联关系构建目标事件的事件层次网络。本申请实施例的事件层次网络识方法能够自动构建事件层次网络图谱,解决人工标注成本高、效率低的问题。

Description

一种基于语义分析的事件层次网络识别系统及方法
技术领域
本发明涉及数据处理领域,尤其涉及一种基于语义分析的事件层次网络识别系统及方法。
背景技术
随着互联网信息量爆炸式的增长,在浩如烟海的信息源中快速、准确地获取所需信息的需求愈发迫切。事件抽取作为信息抽取的深层次研究任务,其旨在从纯文本中抽取出用户感兴趣的事件,并以结构化的形式呈现给用户。常见的重要下游应用,比如:构建知识图谱、智能问答和信息检索等。对文本进行事件抽取,尤其是多主体嵌套事件抽取是非常困难的。例如对于新闻文本等领域,大量文本均存在多主体嵌套事件,对准确抽取文本信息提出了巨大挑战。并且大多数情况下,同一个新闻文本中大概率具有海量的信息,从而可能包含诸多的事件。而从这类海量的文本数据中准确获取出用户感兴趣的事件,并呈现给用户是亟待解决的。
发明内容
本申请实施例提供一种基于语义分析的事件层次网络识别系统及方法,用以从待分析文本中确定出用户感兴趣的事件层次网络。
本申请实施例提出一种基于语义分析的事件层次网络识别方法,应用于从待分析的目标文本中识别出目标事件的层次网络,包括:
获取待分析的目标文本;
基于所述目标事件,为所述待分析的目标文本指定主题描述;
对指定的主题描述进行分词处理,并基于预设概念库查找出各分词的关联语义概念;
基于语义逻辑关系组合所查询出的关联语义概念,以形成数个扩展主题描述;
利用查找的关联语义概念,以及,所述扩展主题描述对所述目标文本进行初次过滤,以在过滤后获得候选文本段;
从所述候选文本段中提取文段特征向量,并基于所述扩展主题描述构建扩展主题向量;
确定所提取的文段特征向量与所述扩展主题向量的相关度,以进行二次过滤,获得目标事件的相关文本;
从所述相关文本中提取多个子事件,并确定子事件与子事件之间,以及,子事件与目标事件之间的关联关系;
基于所确定的关联关系构建所述目标事件的事件层次网络。
可选的,利用查找的关联语义概念,以及,所述扩展主题描述对所述目标文本进行初次过滤,以在过滤后获得候选文本段包括:
从所述目标文本中选取包含关联语义概念的多个子文本段;
对任一子文本段:
基于目标事件为各关联语义概念配置对应的语义权重;
确定任一子文本段中各关联语义概念在所述任一子文本段的等效出现密度满足:
Figure DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE002
表示子文本段k中所有关联语义概念的等效出现密度,l表示关联语义概 念的总数,
Figure DEST_PATH_IMAGE003
表示第i个关联语义概念在任一子文本段的出现次数,
Figure DEST_PATH_IMAGE004
表示第i个关联语 义概念的语义权重,
Figure DEST_PATH_IMAGE005
表示子文本段k的字数;
确定各扩展主题描述与所述任一子文本段之间的语义关联度的最大值
Figure DEST_PATH_IMAGE006
根据所述等效出现密度
Figure 531994DEST_PATH_IMAGE002
以及语义关联度的最大值
Figure 511451DEST_PATH_IMAGE006
,确定所述任一子文本 段的关联度满足:
Figure DEST_PATH_IMAGE007
其中,
Figure DEST_PATH_IMAGE008
表示子文本段k的关联度;
去除关联度低于预设关联度阈值的文本段,以获得候选文本段。
可选的,从所述候选文本段中提取文段特征向量,并基于所述扩展主题描述构建扩展主题向量包括:
从所述候选文本中提取特征项
Figure DEST_PATH_IMAGE009
为各特征项,重复确定任一特征项的等效出现密度:
Figure DEST_PATH_IMAGE010
其中,
Figure DEST_PATH_IMAGE011
表示任一特征项的等效出现密度,
Figure DEST_PATH_IMAGE012
表示第m个特征项包含的相关关 联语义概念的语义权重最大值,
Figure DEST_PATH_IMAGE013
表示第m个特征项包含的相关关联语义概念在任一子 文本段的等效出现次数,
Figure DEST_PATH_IMAGE014
表示任一子文本段的字数;
配置等效权重满足:
Figure DEST_PATH_IMAGE015
其中,
Figure DEST_PATH_IMAGE016
为权重系数,
Figure DEST_PATH_IMAGE017
为权重基数;
构建文段特征向量D=(
Figure DEST_PATH_IMAGE018
),其中
Figure DEST_PATH_IMAGE019
基于所述扩展主题描述构建扩展主题向量
Figure DEST_PATH_IMAGE020
=(
Figure DEST_PATH_IMAGE021
),其中
Figure DEST_PATH_IMAGE022
表示第j 个扩展主题描述的特征项数。
可选的,基于所述扩展主题描述构建扩展主题向量包括:
确定所述扩展主题描述的各分词,并根据各分词的同义词构建正例样本;
基于所述正例样本的近义词构建关联样本;
基于所述扩展主题描述的各分词、所述正例样本中第一数量的同义词以及所述关联样本中第二数量的近义词构建扩展主题向量。
可选的,确定所提取的文段特征向量与所述扩展主题描述向量的相关度,以进行二次过滤,获得目标事件的相关文本包括:
Figure DEST_PATH_IMAGE023
其中,
Figure DEST_PATH_IMAGE024
表示文段特征向量D与第j个扩展主题向量
Figure 107168DEST_PATH_IMAGE020
之间的相关度;
为任一扩展主题描述:
选取相关度大于预设相关度阈值的文本段,以获得所述任一扩展主题描述对应的文本作为中间文本。
可选的,进行二次过滤,获得目标事件的相关文本还包括:
对任一扩展主题描述的中间文本:
计算确定所述中间文本中各词的互信息量,满足:
Figure DEST_PATH_IMAGE025
其中,
Figure DEST_PATH_IMAGE026
表示中间文本的第g个词,
Figure DEST_PATH_IMAGE027
表示词
Figure DEST_PATH_IMAGE028
的互信息量,
Figure DEST_PATH_IMAGE029
表 示词
Figure 862896DEST_PATH_IMAGE028
在扩展主题向量
Figure 942848DEST_PATH_IMAGE020
对应的文本集中的权重,
Figure DEST_PATH_IMAGE030
表示词
Figure 906256DEST_PATH_IMAGE028
在关联语义概念集 中的权重;
选取互信息量大于预设互信息量阈值的词汇,以形成目标事件的相关文本。
可选的,从所述相关文本中提取多个子事件,并确定子事件与子事件之间,以及,子事件与目标事件之间的关联关系包括:
从所述相关文本中提取多个子事件;
对于各子事件,确定各子事件在所属的任一子文本段的语序位置关系;
基于所确定的语序位置关系,确定两两子事件之间的关联关系,以确定子事件与子事件之间,以及,子事件与目标事件之间的关联关系。
可选的,基于所确定的关联关系构建所述目标事件的事件层次网络包括:
对基于任一扩展主题描述确定的关联关系,构建对应的子事件层次网络;
判断任意两个子事件层次网络中的相同的子事件节点;
基于相同的子事件节点合并任意两个子事件层次网络,以获得目标事件的事件层次网络。
本申请实施例还提出一种基于语义分析的事件层次网络识别系统,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的基于语义分析的事件层次网络识别方法的步骤。
本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的基于语义分析的事件层次网络识方法的步骤。
本申请实施例的基于语义分析的事件层次网络识别方法,能够根据用户指定的主题描述,识别出关联的事件层次网络,并且不会受到特定场景的限制,具有普遍的适用性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本实施例的事件层次网络识别方法的基本流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本申请实施例提出一种基于语义分析的事件层次网络识别方法,应用于从待分析的目标文本中识别出目标事件的层次网络,如图1所示,包括:
在步骤S101中,获取待分析的目标文本。本示例中的目标文本可以是任一的输入文本,例如新闻媒体类,生物类,甚至是计算机相关类别。
在步骤S102中,基于所述目标事件,为所述待分析的目标文本指定主题描述。具体实施中可以由用户来指定主题描述,例如输入一段文字描述作为主题描述,主题描述也可以基于预先设置的主题类别来让用户进行选择,具体可以根据实际需要设置。
在步骤S103中,对指定的主题描述进行分词处理,并基于预设概念库查找出各分词的关联语义概念。本示例中预设概念库可以包含各类概念的同义词,同义语义,近义词,近义语义等关联概念,具体的预设概念库可以根据各类词典,百科等确定。
在步骤S104中,基于语义逻辑关系组合所查询出的关联语义概念,以形成数个扩展主题描述,从而完成事件识别。本示例中具体对用户指定的主题描述形成多个扩展的主题描述,由此可以提高所识别出的事件网络的丰富程度和准确性。在一些具体示例中,拓展主题不仅靠关联语义辞典获得,还可以基于事物表达的逻辑进行推理获得,例如“甲方购买乙方产品”,通过逻辑推理,甲方应该付给乙方钱,乙方才会将产品给甲方,所以,“乙方收到甲方的钱”与前一句表述的意思相同,通过逻辑推理可以合并扩展的主题描述中,意思表述相同的主题描述,从而简化运算量。
在步骤S105中,利用查找的关联语义概念,以及,所述扩展主题描述对所述目标文本进行初次过滤,以在过滤后获得候选文本段。在一些实施例中,利用查找的关联语义概念,以及,所述扩展主题描述对所述目标文本进行初次过滤,以在过滤后获得候选文本段具体可以采用如下方式:
从所述目标文本中选取包含关联语义概念的多个子文本段;
对任一子文本段:
基于目标事件为各关联语义概念配置对应的语义权重;
确定任一子文本段中各关联语义概念在所述任一子文本段的等效出现密度满足:
Figure 235606DEST_PATH_IMAGE001
其中,
Figure 450818DEST_PATH_IMAGE002
表示子文本段k中所有关联语义概念的等效出现密度,l表示关联语义概 念的总数,
Figure 182013DEST_PATH_IMAGE003
表示第i个关联语义概念在任一子文本段的出现次数,
Figure 988426DEST_PATH_IMAGE004
表示第i个关联语义 概念的语义权重,
Figure 70652DEST_PATH_IMAGE005
表示子文本段k的字数;
确定各扩展主题描述与所述任一子文本段之间的语义关联度的最大值
Figure 73243DEST_PATH_IMAGE006
根据所述等效出现密度
Figure 182978DEST_PATH_IMAGE002
以及语义关联度的最大值
Figure 878401DEST_PATH_IMAGE006
,确定所述任一子文本 段的关联度满足:
Figure 933076DEST_PATH_IMAGE007
其中,
Figure 536096DEST_PATH_IMAGE008
表示子文本段k的关联度;
去除关联度低于预设关联度阈值的文本段,以获得候选文本段。本示例中通过设置等效出现密度和语义关联度,能够粗过滤掉待分析的目标文本中与用户指定的主题描述关联度低或者无关联的文本段,且保留下关联度高的文段,其中等效出现密度越大,被保留下来的概率越大,通过本示例的语法分析方法,能够有效提高识别出事物和事物之间关系的效率。
在步骤S106中,从所述候选文本段中提取文段特征向量,并基于所述扩展主题描述构建扩展主题向量。
在步骤S107中,确定所提取的文段特征向量与所述扩展主题向量的相关度,以进行二次过滤,获得目标事件的相关文本。本示例中进一步利用文本向量之间的相关度来进行二次过滤,从而获得目标事件的相关文本。本示例中,二次过滤为进一步的精准过滤,通过两级过滤的设计,能够进一步提高事件层次的识别准确度。
在步骤S108中,从所述相关文本中提取多个子事件,并确定子事件与子事件之间,以及,子事件与目标事件之间的关联关系。具体的关联关系可以是组成关系、包含关系、种属关系、类似关系等。
在步骤S109中,基于所确定的关联关系构建所述目标事件的事件层次网络。本示例中进一步提取子事件和子事件之间的关联关系,例如关联关系中组成关系、包含关系、种属关系和嵌套关系可以用于对事件进行分层,同义关系、类似关系可以确定子事件之间属于同层关系,从而构建事件网络。
本申请实施例的基于语义分析的事件层次网络识别方法,能够根据用户指定的主题描述,识别出关联的事件层次网络,并且不会受到特定场景的限制,具有普遍的适用性。本申请实施例能够自动构建所识别出的事件层次网络,解决人工标注成本高、效率低的问题。
在一些实施例中,从所述候选文本段中提取文段特征向量,并基于所述扩展主题描述构建扩展主题向量包括:
从所述候选文本中提取特征项
Figure 195878DEST_PATH_IMAGE009
为各特征项,重复确定任一特征项的等效出现密度:
Figure 593361DEST_PATH_IMAGE010
其中,
Figure 135332DEST_PATH_IMAGE011
表示任一特征项的等效出现密度,
Figure 542043DEST_PATH_IMAGE012
表示第m个特征项包含的相关关 联语义概念的语义权重最大值,
Figure 853070DEST_PATH_IMAGE013
表示第m个特征项包含的相关关联语义概念在任一子 文本段的等效出现次数,
Figure 890296DEST_PATH_IMAGE014
表示任一子文本段的。本示例中采用类似于前述示例的等效出 现密度重复确定各特征项的等效出现密度。并配置等效权重满足:
Figure DEST_PATH_IMAGE031
其中,
Figure 981880DEST_PATH_IMAGE016
为权重系数,
Figure 926702DEST_PATH_IMAGE017
为权重基数;
构建文段特征向量D=(
Figure DEST_PATH_IMAGE032
),其中
Figure DEST_PATH_IMAGE033
基于所述扩展主题描述构建扩展主题向量
Figure 170864DEST_PATH_IMAGE020
=(
Figure DEST_PATH_IMAGE034
),其中
Figure DEST_PATH_IMAGE035
表示第j个 扩展主题描述的特征项数。
在一些实施例中,基于所述扩展主题描述构建扩展主题向量包括:
确定所述扩展主题描述的各分词,并根据各分词的同义词构建正例样本;
基于所述正例样本的近义词构建关联样本;
基于所述扩展主题描述的各分词、所述正例样本中第一数量的同义词以及所述关联样本中第二数量的近义词构建扩展主题向量。具体可以采用如下方式,从正例样本中选取第一数量的同义词,从关联样本中选取第二数量的近义词,构建扩展主题向量,满足:
Figure DEST_PATH_IMAGE036
其中,
Figure DEST_PATH_IMAGE037
为扩展主题描述的分词、正例样本和关联样本的成分权重,
Figure DEST_PATH_IMAGE038
且,
Figure DEST_PATH_IMAGE039
为分词,
Figure DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE041
分别为选取的同义词、近义词。
在一些实施例中,确定所提取的文段特征向量与所述扩展主题描述向量的相关度,以进行二次过滤,获得目标事件的相关文本包括:
Figure 614877DEST_PATH_IMAGE023
其中,
Figure 911866DEST_PATH_IMAGE024
表示文段特征向量D与第j个扩展主题向量
Figure 348795DEST_PATH_IMAGE020
之间的相关度;
为任一扩展主题描述:
选取相关度大于预设相关度阈值的文本段,以获得所述任一扩展主题描述对应的文本作为中间文本。
在一些实施例中,进行二次过滤,获得目标事件的相关文本还包括:
对任一扩展主题描述的中间文本:
计算确定所述中间文本中各词的互信息量,满足:
Figure 883681DEST_PATH_IMAGE025
其中,
Figure 810180DEST_PATH_IMAGE026
表示中间文本的第g个词,
Figure 797728DEST_PATH_IMAGE027
表示词
Figure 835085DEST_PATH_IMAGE028
的互信息量,
Figure DEST_PATH_IMAGE042
表 示词
Figure 37527DEST_PATH_IMAGE028
在扩展主题向量
Figure 587457DEST_PATH_IMAGE020
对应的文本集中的权重,
Figure 62301DEST_PATH_IMAGE030
表示词
Figure 903349DEST_PATH_IMAGE028
在关联语义概念集 中的权重,本示例中关联语义概念集为各关联语义概念组成的集合。
选取互信息量大于预设互信息量阈值的词汇,以形成目标事件的相关文本。具体的选取方式,可以利用所确定的互信息量进行排序,并选取指定数量的词或者文段作为目标事件的相关文本。本示例中,针对初次过滤之后的文本量还可能很大的技术问题,本示例通过二次过滤,能够去除表现力不强的词汇或者文本,进一步提高运算效率,简化运算。
在一些实施例中,从所述相关文本中提取多个子事件,并确定子事件与子事件之间,以及,子事件与目标事件之间的关联关系包括:
从所述相关文本中提取多个子事件;
对于各子事件,确定各子事件在所属的任一子文本段的语序位置关系,本示例中所指的语序位置关系可以是词或者文段出现的先后关系,从属关系,或者指向关系,引出关系等,具体可以根据相关文本中的关系词以及语义顺序来确定语序位置关系。
基于所确定的语序位置关系,确定两两子事件之间的关联关系,以确定子事件与子事件之间,以及,子事件与目标事件之间的关联关系。具体可以根据相关文本中的关系词,例如“包括”、“属于”等属性相关词汇来确定与目标事件之间的关联关系。
在一些实施例中,基于所确定的关联关系构建所述目标事件的事件层次网络包括:
对基于任一扩展主题描述确定的关联关系,构建对应的子事件层次网络。由于扩展主题描述中可能不包含目标事件,而仅包含目标事件的子事件,本示例中基于扩展主题向量对于每一个扩展主题描述确定一个子事件层次网络。所构建出的子事件层次网络中呈树状结构,根节点为扩展主题描述的相关事件。
判断任意两个子事件层次网络中的相同的子事件节点,本示例中所指的相同的子事件节点可以是同义节点,也即实质相同的子事件节点。
基于相同的子事件节点合并任意两个子事件层次网络,以获得目标事件的事件层次网络。本示例中进一步将具有相同的子事件节点的任意两个子事件层次网络合并,从而形成目标事件的事件层次网络。通过合并的方式,能够在一个事件层次网络中表示出更多的事件关联关系,从而在以结构化的形式呈现给用户的过程中,体现出更丰富的事件组分以及层次关系。
本申请实施例还提出一种基于语义分析的事件层次网络识别系统,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的基于语义分析的事件层次网络识别方法的步骤。
本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的基于语义分析的事件层次网络识方法的步骤。
此外,尽管已经在本文中描述了示例性实施例,其范围包括任何和所有基于本公开的具有等同元件、修改、省略、组合(例如,各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释,并不限于在本说明书中或本申请的实施期间所描述的示例,其示例将被解释为非排他性的。因此,本说明书和示例旨在仅被认为是示例,真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。
以上描述旨在是说明性的而不是限制性的。例如,上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外,在上述具体实施方式中,各种特征可以被分组在一起以简单化本公开。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反,本公开的主题可以少于特定的公开的实施例的全部特征。从而,以下权利要求书作为示例或实施例在此并入具体实施方式中,其中每个权利要求独立地作为单独的实施例,并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。
以上实施例仅为本公开的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本公开的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

Claims (6)

1.一种基于语义分析的事件层次网络识别方法,其特征在于,应用于从待分析的目标文本中识别出目标事件的层次网络,包括:
获取待分析的目标文本;
基于所述目标事件,为所述待分析的目标文本指定主题描述;
对指定的主题描述进行分词处理,并基于预设概念库查找出各分词的关联语义概念;
基于语义逻辑关系组合所查询出的关联语义概念,以形成数个扩展主题描述;
利用查找的关联语义概念,以及,所述扩展主题描述对所述目标文本进行初次过滤,以在过滤后获得候选文本段;
从所述候选文本段中提取文段特征向量,并基于所述扩展主题描述构建扩展主题向量;
确定所提取的文段特征向量与所述扩展主题向量的相关度,以进行二次过滤,获得目标事件的相关文本;
从所述相关文本中提取多个子事件,并确定子事件与子事件之间,以及,子事件与目标事件之间的关联关系;
基于所确定的关联关系构建所述目标事件的事件层次网络
利用查找的关联语义概念,以及,所述扩展主题描述对所述目标文本进行初次过滤,以在过滤后获得候选文本段包括:
从所述目标文本中选取包含关联语义概念的多个子文本段;
对任一子文本段:
基于目标事件为各关联语义概念配置对应的语义权重;
确定任一子文本段中各关联语义概念在所述任一子文本段的等效出现密度满足:
Figure 140078DEST_PATH_IMAGE001
其中,
Figure 998312DEST_PATH_IMAGE002
表示子文本段k中所有关联语义概念的等效出现密度,l表示关联语义概念的 总数,
Figure 689188DEST_PATH_IMAGE003
表示第i个关联语义概念在任一子文本段的出现次数,
Figure 632873DEST_PATH_IMAGE004
表示第i个关联语义概念 的语义权重,
Figure 83708DEST_PATH_IMAGE005
表示子文本段k的字数;
确定各扩展主题描述与所述任一子文本段之间的语义关联度的最大值
Figure 937395DEST_PATH_IMAGE006
根据所述等效出现密度
Figure 658226DEST_PATH_IMAGE002
以及语义关联度的最大值
Figure 479420DEST_PATH_IMAGE006
,确定所述任一子文本段的 关联度满足:
Figure 452055DEST_PATH_IMAGE007
其中,
Figure 550461DEST_PATH_IMAGE008
表示子文本段k的关联度;
去除关联度低于预设关联度阈值的文本段,以获得候选文本段;
确定所提取的文段特征向量与所述扩展主题向量的相关度,以进行二次过滤
Figure 68293DEST_PATH_IMAGE009
其中,
Figure 127516DEST_PATH_IMAGE010
表示文段特征向量D与第j个扩展主题向量
Figure 294055DEST_PATH_IMAGE011
之间的相关度;
为任一扩展主题描述:
选取相关度大于预设相关度阈值的文本段,以获得所述任一扩展主题描述对应的文本作为中间文本;
进行二次过滤,获得目标事件的相关文本还包括:
对任一扩展主题描述的中间文本:
计算确定所述中间文本中各词的互信息量,满足:
Figure 840443DEST_PATH_IMAGE012
其中,
Figure 168656DEST_PATH_IMAGE013
表示中间文本的第g个词,
Figure 449596DEST_PATH_IMAGE014
表示词
Figure 768626DEST_PATH_IMAGE015
的互信息量,
Figure 576045DEST_PATH_IMAGE016
表示词
Figure 950526DEST_PATH_IMAGE015
在扩展主题向量
Figure 968029DEST_PATH_IMAGE011
对应的文本集中的权重,
Figure 210792DEST_PATH_IMAGE017
表示词
Figure 748084DEST_PATH_IMAGE015
在关联语义概念集中的权 重;
选取互信息量大于预设互信息量阈值的词汇,以形成目标事件的相关文本;
从所述相关文本中提取多个子事件,并确定子事件与子事件之间,以及,子事件与目标事件之间的关联关系包括:
从所述相关文本中提取多个子事件;
对于各子事件,确定各子事件在所属的任一子文本段的语序位置关系;
基于所确定的语序位置关系,确定两两子事件之间的关联关系,以确定子事件与子事件之间,以及,子事件与目标事件之间的关联关系。
2.如权利要求1所述的基于语义分析的事件层次网络识别方法,其特征在于,从所述候选文本段中提取文段特征向量,并基于所述扩展主题描述构建扩展主题向量包括:
从所述候选文本中提取特征项
Figure 418099DEST_PATH_IMAGE018
为各特征项,重复确定任一特征项的等效出现密度:
Figure 424364DEST_PATH_IMAGE019
其中,
Figure 80604DEST_PATH_IMAGE020
表示任一特征项的等效出现密度,
Figure 862615DEST_PATH_IMAGE021
表示第m个特征项包含的相关关联语义 概念的语义权重最大值,
Figure 828166DEST_PATH_IMAGE022
表示第m个特征项包含的相关关联语义概念在任一子文本段的 等效出现次数,
Figure 570994DEST_PATH_IMAGE023
表示任一子文本段的字数;
配置等效权重满足:
Figure 155559DEST_PATH_IMAGE024
其中,
Figure 152596DEST_PATH_IMAGE025
为权重系数,
Figure 429994DEST_PATH_IMAGE026
为权重基数;
构建文段特征向量D=(
Figure 128960DEST_PATH_IMAGE027
),其中
Figure 907429DEST_PATH_IMAGE028
基于所述扩展主题描述构建扩展主题向量
Figure 132874DEST_PATH_IMAGE011
=(
Figure 456539DEST_PATH_IMAGE029
),其中
Figure 33014DEST_PATH_IMAGE030
表示第j个扩 展主题描述的特征项数。
3.如权利要求2所述的基于语义分析的事件层次网络识别方法,其特征在于,基于所述扩展主题描述构建扩展主题向量包括:
确定所述扩展主题描述的各分词,并根据各分词的同义词构建正例样本;
基于所述正例样本的近义词构建关联样本;
基于所述扩展主题描述的各分词、所述正例样本中第一数量的同义词以及所述关联样本中第二数量的近义词构建扩展主题向量。
4.如权利要求1所述的基于语义分析的事件层次网络识别方法,其特征在于,基于所确定的关联关系构建所述目标事件的事件层次网络包括:
对基于任一扩展主题描述确定的关联关系,构建对应的子事件层次网络;
判断任意两个子事件层次网络中的相同的子事件节点;
基于相同的子事件节点合并任意两个子事件层次网络,以获得目标事件的事件层次网络。
5.一种基于语义分析的事件层次网络识系统,其特征在于,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的基于语义分析的事件层次网络识方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的基于语义分析的事件层次网络识方法的步骤。
CN202211372951.2A 2022-11-04 2022-11-04 一种基于语义分析的事件层次网络识别系统及方法 Active CN115422948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211372951.2A CN115422948B (zh) 2022-11-04 2022-11-04 一种基于语义分析的事件层次网络识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211372951.2A CN115422948B (zh) 2022-11-04 2022-11-04 一种基于语义分析的事件层次网络识别系统及方法

Publications (2)

Publication Number Publication Date
CN115422948A CN115422948A (zh) 2022-12-02
CN115422948B true CN115422948B (zh) 2023-01-24

Family

ID=84208384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211372951.2A Active CN115422948B (zh) 2022-11-04 2022-11-04 一种基于语义分析的事件层次网络识别系统及方法

Country Status (1)

Country Link
CN (1) CN115422948B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116011461B (zh) * 2023-03-02 2023-07-21 文灵科技(北京)有限公司 一种基于事件分类模型的概念抽象系统及方法
CN117371440B (zh) * 2023-12-05 2024-03-12 广州阿凡提电子科技有限公司 基于aigc的话题文本大数据分析方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417865A (zh) * 2022-01-24 2022-04-29 平安科技(深圳)有限公司 灾害事件的描述文本处理方法、装置、设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740238B (zh) * 2016-03-04 2019-02-01 北京理工大学 一种融合句义信息的事件关系强度图构建方法
CN106484767B (zh) * 2016-09-08 2019-06-21 中国科学院信息工程研究所 一种跨媒体的事件抽取方法
AU2019389172B2 (en) * 2018-11-30 2022-11-24 Thomson Reuters Enterprise Centre Gmbh Systems and methods for identifying an event in data
CN110941692B (zh) * 2019-09-28 2022-07-29 西南电子技术研究所(中国电子科技集团公司第十研究所) 互联网政治外交类新闻事件抽取方法
CN110866126A (zh) * 2019-11-22 2020-03-06 福建工程学院 一种高校网络舆情风险评估方法
CN113449508B (zh) * 2021-07-15 2023-01-17 上海理工大学 一种基于事件链的网络舆情关联推演预测分析方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417865A (zh) * 2022-01-24 2022-04-29 平安科技(深圳)有限公司 灾害事件的描述文本处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN115422948A (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
CN115422948B (zh) 一种基于语义分析的事件层次网络识别系统及方法
CN108073568B (zh) 关键词提取方法和装置
WO2022116537A1 (zh) 一种资讯推荐方法、装置、电子设备和存储介质
CN106156204B (zh) 文本标签的提取方法和装置
CN108897887B (zh) 一种基于知识图谱和用户相似度的教学资源推荐方法
Sabuna et al. Summarizing Indonesian text automatically by using sentence scoring and decision tree
WO2002025479A1 (en) A document categorisation system
JP3735335B2 (ja) 類似性判断のための例題ベース検索方法及び検索システム
CN108090178B (zh) 一种文本数据分析方法、装置、服务器和存储介质
CN111090771B (zh) 歌曲搜索方法、装置及计算机存储介质
CN114661872B (zh) 一种面向初学者的api自适应推荐方法与系统
US9652997B2 (en) Method and apparatus for building emotion basis lexeme information on an emotion lexicon comprising calculation of an emotion strength for each lexeme
CN116501875B (zh) 一种基于自然语言和知识图谱的文档处理方法和系统
CN110929498A (zh) 一种短文本相似度的计算方法及装置、可读存储介质
KR20220134695A (ko) 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법
Celikyilmaz et al. Leveraging web query logs to learn user intent via bayesian latent variable model
CN114443847A (zh) 文本分类、文本处理方法、装置、计算机设备及存储介质
Buntoro et al. Sentiment analysis candidates of Indonesian Presiden 2014 with five class attribute
CN116975271A (zh) 文本相关性的确定方法、装置、计算机设备和存储介质
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
JP2006227823A (ja) 情報処理装置及びその制御方法
JP2001188678A (ja) 言語事例推論装置,言語事例推論方法及び言語事例推論プログラムが記述された記憶媒体
CN115858733A (zh) 跨语言实体词检索方法、装置、设备及存储介质
CN111858885B (zh) 一种关键词分离的用户问题意图识别方法
Gheni et al. Suggesting new words to extract keywords from title and abstract

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant