CN114792092A - 一种基于语义增强的文本主题抽取方法及装置 - Google Patents

一种基于语义增强的文本主题抽取方法及装置 Download PDF

Info

Publication number
CN114792092A
CN114792092A CN202210720789.2A CN202210720789A CN114792092A CN 114792092 A CN114792092 A CN 114792092A CN 202210720789 A CN202210720789 A CN 202210720789A CN 114792092 A CN114792092 A CN 114792092A
Authority
CN
China
Prior art keywords
semantic
text
unit
data sequence
original text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210720789.2A
Other languages
English (en)
Other versions
CN114792092B (zh
Inventor
王涛
罗铮
邓昕
黄涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Pku High-Tech Soft Co ltd
Original Assignee
Wuhan Pku High-Tech Soft Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Pku High-Tech Soft Co ltd filed Critical Wuhan Pku High-Tech Soft Co ltd
Priority to CN202210720789.2A priority Critical patent/CN114792092B/zh
Publication of CN114792092A publication Critical patent/CN114792092A/zh
Application granted granted Critical
Publication of CN114792092B publication Critical patent/CN114792092B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于语义增强的文本主题抽取方法及装置,涉及文本处理技术领域。本申请中,首先对原始文本中的影响句法关系分析的文本进行预处理,以提高最终抽取文本主题的精准度。然后数据序列进行编码,并构建句法关系依存图以获得知识增强后的文本,以增强文本中的拓展知识,且充分利用了词语的内部信息、外部上下文信息和句法信息,提升最终主题抽取的精准度。基于句法关系依存图中每个节点的权重值抽取数据序列中的文本主题,不但速度快,而且精确度较高。

Description

一种基于语义增强的文本主题抽取方法及装置
技术领域
本发明涉及文本处理技术领域,具体而言,涉及一种基于语义增强的文本主题抽取方法及装置。
背景技术
目前信息技术突飞猛进,加之互联网的便利,使得数据越来越多,数字化资源在生活中随处可见,而文本则是在网络上分布最广的包含信息的载体。因此,文本信息的爆发式增长使得信息检索面临着更大的挑战。在如此庞大的数据浪潮下,如何快速的进行无纸化阅读、高效获取文本中的关键信息并根据电子文本进行检索已然成为了自然语言处理领域的热门话题。在如今的信息化时代,以文本和语音为主的信息载体使人与计算机之间的交互愈发频繁,如何使计算机读懂人类的语言已经成为当今科研的热门方向。计算机拥有海量的非结构化文本数据,因此人类期望使智能化机器感知人类的知识,这就涉及自然语言处理中所包含的实体识别、文本分类、自动摘要、情感分析等任务。
句法解析是自然语言处理中一个重要的任务,其目的是对句子的内在含义进行解析并将其转换成容易理解的逻辑语言。目前对于文本主题的提取主要利用LDA主题提取算法,LDA主题提取算法利用文档的隐含语义信息来提取关键词,且通常忽略了自然语言中情感程度等重要信息,使得主题模型提取的关键词比较宽泛,不能很好的反应文档主题。
发明内容
本发明的目的在于提供一种基于语义增强的文本主题抽取方法及装置,以改善上述问题。为了实现上述目的,本发明采取的技术方案如下:
第一方面,本申请提供了一种基于语义增强的文本主题抽取方法,包括:
获取数据序列,所述数据序列是原始文本经过预处理后得到的集合,所述预处理是对所述原始文本中提取出的初始核心字符和初始核心词。优选地,其中预处理的方法包括:判断所述原始文本中是否含有第一预设信息,所述第一预设信息为预设分隔符;若所述原始文本中含有所述第一预设信息,确定删除字段信息,所述删除字段信息包括所述第一预设信息的起始位置和终止位置;基于所述删除字段信息,对所述原始文本进行删除,得到删除后的所述原始文本;基于删除后的所述原始文本利用DBpedia Spotlight进行实体识别,并基于预设阈值提取必要实体;基于所有的所述必要实体,对所述原始文本进行句法分析得到数据序列。
对所述数据序列进行编码,并构建句法关系依存图,所述句法关系依存图是以词语为节点,且以句子中两个所述节点之间的依存关系为边构建的图谱。优选地,句法关系依存图的构建方法包括:基于所述数据序列通过BERT预训练模型,得到每个字的向量编码;基于所述数据序列通过BiLSTM模型计算,得到每个词的向量编码;基于每个所述词的向量编码通过GAT模型进行语法增强,得到文本的向量编码;将同一位置的所述字的向量编码、所述词的向量编码和所述文本的向量编码进行拼接,得到重组序列;基于所述重组序列构建语义提升矩阵;根据所述语义提升矩阵解析所述数据序列,得到句法关系依存图。
其中,上述基于所述重组序列构建语义提升矩阵的方法包括:基于所述重组序列计算,得到语义相关度集合,所述语义相关度集合中的每个语义相关度为两个词之间的余弦相识度的均值;基于所述语义相关度集合分别计算,得到语义提升矩阵。
基于所述句法关系依存图计算每个所述节点的权重值。优选地,权重值的计算方法包括:基于每个所述语义相关度的大小进行降序排列;基于降序排列后的所述语义相关度和预设个数,得到筛选后的所述语义相关度;基于筛选后的所述语义相关度,计算所述语义提升矩阵中所述语义相关度的权重。
基于所述权重值对所述数据序列进行排序和输出,从而对文本主题进行抽取。
第二方面,本申请还提供了一种基于语义增强的文本主题抽取装置,包括获取模块、构建模块、计算模块和抽取模块,其中:
获取模块:用于获取数据序列,所述数据序列是原始文本经过预处理后得到的集合,所述预处理是对所述原始文本中提取出的初始核心字符和初始核心词,其中将所述原始文本按照如下公式进行概率标记,并基于所述概率标记进行预处理,公式为:
Figure 100002_DEST_PATH_IMAGE001
其中:a为所述原始文本经过知识库中实体指标所标注过的所有实体的集合;
Figure 100002_DEST_PATH_IMAGE002
为将命名性指标b标注为实体a的次数;
Figure 100002_DEST_PATH_IMAGE003
为知识库中命名性指标b出现的总次数。
优选地,获取模块包括判断单元、截取单元、删除单元、识别单元和分析单元,其中:
判断单元:用于判断所述原始文本中是否含有第一预设信息,所述第一预设信息为预设分隔符。
截取单元:用于若所述原始文本中含有所述第一预设信息,确定删除字段信息,所述删除字段信息包括所述第一预设信息的起始位置和终止位置。
删除单元:用于基于所述删除字段信息,对所述原始文本进行删除,得到删除后的所述原始文本。
识别单元:用于基于删除后的所述原始文本利用DBpedia Spotlight进行实体识别,并基于预设阈值提取必要实体。
分析单元:用于基于所有的所述必要实体,对所述原始文本进行句法分析得到数据序列。
构建模块:用于对所述数据序列进行编码,并构建句法关系依存图,所述句法关系依存图是以词语为节点,且以句子中两个所述节点之间的依存关系为边构建的图谱。
优选地,构建模块包括第一单元、第二单元、第三单元、重组单元、计算单元和解析单元,其中:
第一单元:用于基于所述数据序列通过BERT预训练模型,得到每个字的向量编码。
第二单元:用于基于所述数据序列通过BiLSTM模型计算,得到每个词的向量编码。
第三单元:用于基于每个所述词的向量编码通过GAT模型进行语法增强,得到文本的向量编码。
重组单元:用于将同一位置的所述字的向量编码、所述词的向量编码和所述文本的向量编码进行拼接,得到重组序列。
计算单元:用于基于所述重组序列构建语义提升矩阵。
优选地,计算单元包括第四单元和第五单元,其中:
第四单元:用于基于所述重组序列计算,得到语义相关度集合,所述语义相关度集合中的每个语义相关度为两个词之间的余弦相识度的均值;
第五单元:用于基于所述语义相关度集合分别计算,得到语义提升矩阵。
解析单元:用于根据所述语义提升矩阵解析所述数据序列,得到句法关系依存图。
计算模块:用于基于所述句法关系依存图计算每个所述节点的权重值。
优选地,计算模块包括排序单元、筛选单元和第六单元,其中:
排序单元:用于基于每个所述语义相关度的大小进行降序排列;
筛选单元:用于基于降序排列后的所述语义相关度和预设个数,得到筛选后的所述语义相关度;
第六单元:用于基于筛选后的所述语义相关度,计算所述语义提升矩阵中所述语义相关度的权重。
抽取模块:用于基于所述权重值对所述数据序列进行排序和输出,从而对文本主题进行抽取。
本发明的有益效果为:
本申请中,首先对原始文本中的影响句法关系分析的文本进行预处理,以提高最终抽取文本主题的精准度。然后数据序列进行编码,并构建句法关系依存图以获得知识增强后的文本,以增强文本中的拓展知识,且充分利用了词语的内部信息、外部上下文信息和句法信息,提升最终主题抽取的精准度。基于句法关系依存图中每个节点的权重值抽取数据序列中的文本主题,不但速度快,而且精确度较高。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域图像普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例中所述的基于语义增强的文本主题抽取方法流程示意图;
图2为本发明实施例中所述的基于语义增强的文本主题抽取装置结构示意图;
图3为本发明实施例中所述的基于语义增强的文本主题抽取方法设备结构示意图。
图中:710、获取模块;711、判断单元;712、截取单元;713、删除单元;714、识别单元;715、分析单元;720、构建模块;721、第一单元;722、第二单元;723、第三单元;724、重组单元;725、计算单元;7251、第四单元;7252、第五单元;726、解析单元;730、计算模块;731、排序单元;732、筛选单元;733、第六单元;740、抽取模块;800、基于语义增强的文本主题抽取方法设备;801、处理器;802、存储器;803、多媒体组件;804、I/O接口;805、通信组件。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域图像普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1:
本实施例提供了一种基于语义增强的文本主题抽取方法。
参见图1,图1中示出了本方法包括步骤S1、步骤S2、步骤S3和步骤S4,其中:
步骤S1、获取数据序列,所述数据序列是原始文本经过预处理后得到的集合,所述预处理是对所述原始文本中提取出的初始核心字符和初始核心词,其中将所述原始文本按照如下公式进行概率标记,并基于所述概率标记进行预处理,公式为:
Figure 829610DEST_PATH_IMAGE001
其中:a为所述原始文本经过知识库中实体指标所标注过的所有实体的集合;
Figure 100002_DEST_PATH_IMAGE004
为将命名性指标b标注为实体a的次数;
Figure 896923DEST_PATH_IMAGE003
为知识库中命名性指标b出现的总次数。
可以理解的是,在本步骤中,在本实施例中根据上述公式对原始文本进行概率标记,并基于所述概率标记进行预处理,将语句的依存结构转化为以核心字和核心词构成的逻辑形式,同时为了避免干扰信息对逻辑形式的影响,丢弃重要性较低的核心字或核心词,从而提高文本主题的输出精度。在其他实施例中,还根据原始文本利用模板匹配、手写语法规则、lambad算子或组合范畴语法分析器等方式进行预处理。
进一步地,上述预处理方法包括步骤S11、步骤S12、步骤S13、步骤S14和步骤S15。
步骤S11、判断所述原始文本中是否含有第一预设信息,所述第一预设信息为预设分隔符。
可以理解的是,在本步骤中,第一预设信息为括号。在文本中经常会使用括号对某个内容进行解释或说明,将原始文本作为句法分析对象会影响其分析效果,而将其删除也不会影响语义,因此对原始数据进行相应的删除处理。首先检验待分析的原始文本中是否含有第一预设信息。在其他实施例中也可以是别的分隔符,如中括号等,具体不作限制。
步骤S12、若所述原始文本中含有所述第一预设信息,确定删除字段信息,所述删除字段信息包括所述第一预设信息的起始位置和终止位置。
步骤S13、基于所述删除字段信息,对所述原始文本进行删除,得到删除后的所述原始文本。
可以理解的是,在本步骤中,根据括号位于句子中的位置信息,将括号以及括号内的文字进行删除,得到删除后的原始文本,以避免影响句法分析效果。
步骤S14、基于删除后的所述原始文本利用DBpedia Spotlight进行实体识别,并基于预设阈值提取必要实体。
可以理解的是,在本步骤中,基于原始文本从互联网中获取相应的知识库(如维基百科等),并利用DBpedia Spotlight分别计算原始文本中每个命名实体的标记概率,并根据公式(1)计算标记概率,公式(1)如下所示:
Figure DEST_PATH_IMAGE005
(1)
其中:a为文本经过知识库中实体指标b所标注过的所有实体的集合;
Figure DEST_PATH_IMAGE006
为将命名性指标标注为实体a的次数;
Figure DEST_PATH_IMAGE007
为知识库中命名性指标b出现的总次数。然后基两个实体之间存在关系和预设的关系阈值判断实体的相关性,进而提取必要实体。其中两个实体之间最直接的关系记录为1,当该关系超过关系阈值则将该关系丢弃。如果文本中有不相关的实体,则选择知识库中具有相似含义的可能性最高的实体。不相关的实体与两个实体之间的关系是文本向量的增强知识,将其加入原始文本中以获得知识增强后的文本。
步骤S15、基于所有的所述必要实体,对所述原始文本进行句法分析得到数据序列。
可以理解的是,在本步骤中,基于所有的所述必要实体,选择DBpedia知识库用于构造“首部实体+实体关系+尾实体”属性的文本表示形式以增强文本中的拓展知识,可以很好的解决相似性和相关性混淆的问题,以获得最终的数据序列。
步骤S2、对所述数据序列进行编码,并构建句法关系依存图,所述句法关系依存图是以词语为节点,且以句子中两个所述节点之间的依存关系为边构建的图谱。
可以理解的是,在本步骤中,根据语法依存理论,解析数据序列中语言单位内成分之间的依存关系,并构建句法关系依存图描述数据序列中词与词之间的依存关系。
优选地,句法关系依存图的构建方法包括步骤S21、步骤S22、步骤S23、步骤S24、步骤S25和步骤S26。
步骤S21、基于所述数据序列通过BERT预训练模型,得到每个字的向量编码。
可以理解的是,在本步骤中,利用BERT预训练模型以句编码的形式对字进行编码。本实施例中的BERT预训练模型包含Token Embeddings和Position Embeddings两个部分。Token Embedding通过查表的方式获得嵌入向量,Position Embedding用于对字的位置进行编码。通过BERT预训练模型输出每个字的嵌入向量,如汉字
Figure DEST_PATH_IMAGE008
的字嵌入向量表示为
Figure DEST_PATH_IMAGE009
步骤S22、基于所述数据序列通过BiLSTM模型计算,得到每个词的向量编码。
可以理解的是,在本步骤中,基于所述数据序列在句子上利用BERT预训练模型进行字编码,使字的向量融入上下文的信息,然后再通过BiLSTM模型计算,将BERT字编码转化为包含上下文信息的词的向量编码。假设本实施例中,对文本每个词
Figure DEST_PATH_IMAGE010
,其中
Figure DEST_PATH_IMAGE011
为文本第t个词,
Figure DEST_PATH_IMAGE012
为词中的第i个字。BiLSTM模型包括正向LSTM和反向LSTM,正向从
Figure DEST_PATH_IMAGE013
读取到
Figure 350776DEST_PATH_IMAGE012
,反向从
Figure 107992DEST_PATH_IMAGE012
读取到
Figure 312708DEST_PATH_IMAGE013
,将BiLSTM模型两个方向上的隐藏层进行拼接,得到词
Figure DEST_PATH_IMAGE014
的向量编码,如公式(2)-(4)所示:
Figure DEST_PATH_IMAGE015
(2)
Figure DEST_PATH_IMAGE016
(3)
Figure DEST_PATH_IMAGE017
(4)
其中:
Figure DEST_PATH_IMAGE018
为正向LSTM输出的隐藏层的特征向量;
Figure DEST_PATH_IMAGE019
为反向LSTM输出的隐藏层的特征向量;
Figure DEST_PATH_IMAGE020
为汉字S的字嵌入向量;i为汉字S的个数;
Figure DEST_PATH_IMAGE021
为第i个词的向量编码;
Figure 478985DEST_PATH_IMAGE018
为词的尾字的的隐藏层的特征向量;
Figure 85547DEST_PATH_IMAGE019
为词的首字的隐藏层的特征向量;符号||表示连接。
步骤S23、基于每个所述词的向量编码通过GAT模型进行语法增强,得到文本的向量编码。
可以理解的是,在本步骤中,以文本中每个词为节点,基于句法依存分析结果构建节点之间的边,得到关系图。基于关系图利用GAT神经网络模型,产各个节点对应的文本的向量编码,以增强句法语义。
步骤S24、将同一位置的所述字的向量编码、所述词的向量编码和所述文本的向量编码进行拼接,得到重组序列。
可以理解的是,在本步骤中,重组序列充分利用了词语的内部信息、外部上下文信息和句法信息,利用其构建语义提升矩阵能提升最终主题抽取的精准度。
步骤S25、基于所述重组序列构建语义提升矩阵。
进一步地,上述基于所述重组序列构建语义提升矩阵的方法包括步骤S251和步骤S252。
步骤S251、基于所述重组序列计算,得到语义相关度集合,所述语义相关度集合中的每个语义相关度为两个词之间的余弦相识度的均值。
可以理解的是,在本步骤中,本实施例中根据公式(5)-(6)分别计算两个词之间的语义相关度,公式(5)-(6)如下所示:
Figure DEST_PATH_IMAGE022
(5)
Figure DEST_PATH_IMAGE023
(6)
其中:
Figure DEST_PATH_IMAGE024
分别为文本中两个不同位置的词;
Figure DEST_PATH_IMAGE025
为两个词之间的余弦相似度;
Figure DEST_PATH_IMAGE026
分别为两个不同的词的向量编码;
Figure DEST_PATH_IMAGE027
为两个词之间的语义相关度;
Figure DEST_PATH_IMAGE028
为通过公式(5)计算全局词嵌入向量的余弦相似度;
Figure DEST_PATH_IMAGE029
为通过公式(5)计算局部词嵌入向量的余弦相似度。根据语义相关度选取对主题贡献率大(语义相关度较高)的词进行语义提升,取前k个词构建词的语义相关度集合。
步骤S252、基于所述语义相关度集合分别计算,得到语义提升矩阵。
可以理解的是,在本步骤中,根据公式(7)计算提升矩阵,公式(7)如下所示:
Figure DEST_PATH_IMAGE030
(7)
其中:
Figure DEST_PATH_IMAGE031
为提升矩阵;
Figure 933373DEST_PATH_IMAGE024
分别为文本中两个不同位置的词;
Figure 422123DEST_PATH_IMAGE032
为词S相对于词
Figure DEST_PATH_IMAGE033
的比重值。
步骤S26、根据所述语义提升矩阵解析所述数据序列,得到句法关系依存图。
可以理解的是,在本步骤中,根据语义提升矩阵的每一个数值解析两个词之间是否存在关系,确定在依存句法树中对应的两个词之间是否连线,根据所有的连线连接所有词,得到句法关系依存图。
步骤S3、基于所述句法关系依存图计算每个所述节点的权重值。
可以理解的是,在本步骤中,基于灰色关联分析法、主成分分析法等,对句法关系依存图中的每个节点计算权重值。
进一步地,本实施例中权重值的计算方法包括步骤S31、步骤S32和步骤S33。
步骤S31、基于每个所述语义相关度的大小进行降序排列。
步骤S32、基于降序排列后的所述语义相关度和预设个数,得到筛选后的所述语义相关度。
步骤S33、基于筛选后的所述语义相关度,计算所述语义提升矩阵中所述语义相关度的权重。
可以理解的是,在本步骤中,根据公式(8)计算语义提升矩阵中语义相关度的权重,公式(8)如下所示:
Figure 31571DEST_PATH_IMAGE034
(8)
其中:
Figure DEST_PATH_IMAGE035
为权重值;
Figure 430323DEST_PATH_IMAGE024
分别为文本中两个不同位置的词;
Figure 797850DEST_PATH_IMAGE027
为两个词之间的语义相关度;y为词的总个数;
步骤S4、基于所述权重值对所述数据序列进行排序和输出,从而对文本主题进行抽取。
基于每个词的权重值确定其抽取粒度,并根据该抽取粒度对数据序列进行标注,并基于标注信息进行文本主题的抽取。
实施例2:
如图2所示,本实施例提供了一种基于语义增强的文本主题抽取装置,包括获取模块710、构建模块720、计算模块730和抽取模块740,其中:
获取模块710:用于获取数据序列,所述数据序列是原始文本经过预处理后得到的集合,所述预处理是对所述原始文本中提取出的初始核心字符和初始核心词,其中将所述原始文本按照如下公式进行概率标记,并基于所述概率标记进行预处理,公式为:
Figure 977159DEST_PATH_IMAGE001
其中:a为所述原始文本经过知识库中实体指标所标注过的所有实体的集合;
Figure 189965DEST_PATH_IMAGE036
为将命名性指标b标注为实体a的次数;
Figure DEST_PATH_IMAGE037
为知识库中命名性指标b出现的总次数。
优选地,获取模块710包括判断单元711、截取单元712、删除单元713、识别单元714和分析单元715,其中:
判断单元711:用于判断所述原始文本中是否含有第一预设信息,所述第一预设信息为预设分隔符。
截取单元712:用于若所述原始文本中含有所述第一预设信息,确定删除字段信息,所述删除字段信息包括所述第一预设信息的起始位置和终止位置。
删除单元713:用于基于所述删除字段信息,对所述原始文本进行删除,得到删除后的所述原始文本。
识别单元714:用于基于删除后的所述原始文本利用DBpedia Spotlight进行实体识别,并基于预设阈值提取必要实体。
分析单元715:用于基于所有的所述必要实体,对所述原始文本进行句法分析得到数据序列。
构建模块720:用于对所述数据序列进行编码,并构建句法关系依存图,所述句法关系依存图是以词语为节点,且以句子中两个所述节点之间的依存关系为边构建的图谱。
优选地,构建模块720包括第一单元721、第二单元722、第三单元723、重组单元724、计算单元725和解析单元726,其中:
第一单元721:用于基于所述数据序列通过BERT预训练模型,得到每个字的向量编码。
第二单元722:用于基于所述数据序列通过BiLSTM模型计算,得到每个词的向量编码。
第三单元723:用于基于每个所述词的向量编码通过GAT模型进行语法增强,得到文本的向量编码。
重组单元724:用于将同一位置的所述字的向量编码、所述词的向量编码和所述文本的向量编码进行拼接,得到重组序列。
计算单元725:用于基于所述重组序列构建语义提升矩阵。
优选地,计算单元725包括第四单元7251和第五单元7252,其中:
第四单元7251:用于基于所述重组序列计算,得到语义相关度集合,所述语义相关度集合中的每个语义相关度为两个词之间的余弦相识度的均值;
第五单元7252:用于基于所述语义相关度集合分别计算,得到语义提升矩阵。
解析单元726:用于根据所述语义提升矩阵解析所述数据序列,得到句法关系依存图。
计算模块730:用于基于所述句法关系依存图计算每个所述节点的权重值。
优选地,计算模块730包括排序单元731、筛选单元732和第六单元733,其中:
排序单元731:用于基于每个所述语义相关度的大小进行降序排列;
筛选单元732:用于基于降序排列后的所述语义相关度和预设个数,得到筛选后的所述语义相关度;
第六单元733:用于基于筛选后的所述语义相关度,计算所述语义提升矩阵中所述语义相关度的权重。
抽取模块740:用于基于所述权重值对所述数据序列进行排序和输出,从而对文本主题进行抽取。
需要说明的是,关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
实施例3:
相应于上面的方法实施例,本实施例中还提供了一种基于语义增强的文本主题抽取方法设备800,下文描述的一种基于语义增强的文本主题抽取方法设备800与上文描述的一种基于语义增强的文本主题抽取方法可相互对应参照。
图3是根据示例性实施例示出的一种基于语义增强的文本主题抽取方法设备800的框图。如图3所示,该基于语义增强的文本主题抽取方法设备800可以包括:处理器801,存储器802。该基于语义增强的文本主题抽取方法设备800还可以包括多媒体组件803,I/O接口804,以及通信组件805中的一者或多者。
其中,处理器801用于控制该基于语义增强的文本主题抽取方法设备800的整体操作,以完成上述的基于语义增强的文本主题抽取方法中的全部或部分步骤。存储器802用于存储各种类型的数据以支持在该基于语义增强的文本主题抽取方法设备800的操作,这些数据例如可以包括用于在该基于语义增强的文本主题抽取方法设备800上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器802可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件803可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器802或通过通信组件805发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口804为处理器801和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件805用于该基于语义增强的文本主题抽取方法设备800与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件805可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,基于语义增强的文本主题抽取方法设备800可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital SignalProcessing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的基于语义增强的文本主题抽取方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机存储介质,该程序指令被处理器执行时实现上述的基于语义增强的文本主题抽取方法的步骤。例如,该计算机存储介质可以为上述包括程序指令的存储器802,上述程序指令可由基于语义增强的文本主题抽取方法设备800的处理器801执行以完成上述的基于语义增强的文本主题抽取方法。
实施例4:
相应于上面的方法实施例,本实施例中还提供了一种存储介质,下文描述的一种存储介质与上文描述的一种基于语义增强的文本主题抽取方法可相互对应参照。
一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的基于语义增强的文本主题抽取方法的步骤。
该存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的存储介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域图像的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域图像的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于语义增强的文本主题抽取方法,其特征在于,包括:
获取数据序列,所述数据序列是原始文本经过预处理后得到的集合,所述预处理是对所述原始文本中提取出的初始核心字符和初始核心词;其中将所述原始文本按照如下公式进行概率标记,并基于所述概率标记进行预处理,公式为:
Figure DEST_PATH_IMAGE001
其中:a为所述原始文本经过知识库中实体指标所标注过的所有实体的集合;
Figure DEST_PATH_IMAGE002
为将命名性指标b标注为实体a的次数;
Figure DEST_PATH_IMAGE003
为知识库中命名性指标b出现的总次数;
对所述数据序列进行编码,并构建句法关系依存图,所述句法关系依存图是以词语为节点,且以句子中两个所述节点之间的依存关系为边构建的图谱;
基于所述句法关系依存图计算每个所述节点的权重值;
基于所述权重值对所述数据序列进行排序和输出,从而对文本主题进行抽取。
2.根据权利要求1所述的基于语义增强的文本主题抽取方法,其特征在于,所述预处理的方法包括:
判断所述原始文本中是否含有第一预设信息,所述第一预设信息为预设分隔符;
若所述原始文本中含有所述第一预设信息,确定删除字段信息,所述删除字段信息包括所述第一预设信息的起始位置和终止位置;
基于所述删除字段信息,对所述原始文本进行删除,得到删除后的所述原始文本;
基于删除后的所述原始文本利用DBpedia Spotlight进行实体识别,并基于预设阈值提取必要实体;
基于所有的所述必要实体,对所述原始文本进行句法分析得到数据序列。
3.根据权利要求1所述的基于语义增强的文本主题抽取方法,其特征在于,对所述数据序列进行编码,并构建句法关系依存图包括:
基于所述数据序列通过BERT预训练模型,得到每个字的向量编码;
基于所述数据序列通过BiLSTM模型计算,得到每个词的向量编码;
基于每个所述词的向量编码通过GAT模型进行语法增强,得到文本的向量编码;
将同一位置的所述字的向量编码、所述词的向量编码和所述文本的向量编码进行拼接,得到重组序列;
基于所述重组序列构建语义提升矩阵;
根据所述语义提升矩阵解析所述数据序列,得到句法关系依存图。
4.根据权利要求3所述的基于语义增强的文本主题抽取方法,其特征在于,基于所述重组序列构建语义提升矩阵包括:
基于所述重组序列计算,得到语义相关度集合,所述语义相关度集合中的每个语义相关度为两个词之间的余弦相识度的均值;
基于所述语义相关度集合分别计算,得到语义提升矩阵。
5.根据权利要求4所述的基于语义增强的文本主题抽取方法,其特征在于,基于所述句法关系依存图计算每个所述节点的权重值包括:
基于每个所述语义相关度的大小进行降序排列;
基于降序排列后的所述语义相关度和预设个数,得到筛选后的所述语义相关度;
基于筛选后的所述语义相关度,计算所述语义提升矩阵中所述语义相关度的权重。
6.一种基于语义增强的文本主题抽取装置,其特征在于,包括:
获取模块:用于获取数据序列,所述数据序列是原始文本经过预处理后得到的集合,所述预处理是对所述原始文本中提取出的初始核心字符和初始核心词,其中将所述原始文本按照如下公式进行概率标记,并基于所述概率标记进行预处理,公式为:
Figure 369641DEST_PATH_IMAGE001
其中:a为所述原始文本经过知识库中实体指标所标注过的所有实体的集合;
Figure DEST_PATH_IMAGE004
为将命名性指标b标注为实体a的次数;
Figure 427726DEST_PATH_IMAGE003
为知识库中命名性指标b出现的总次数;
构建模块:用于对所述数据序列进行编码,并构建句法关系依存图,所述句法关系依存图是以词语为节点,且以句子中两个所述节点之间的依存关系为边构建的图谱;
计算模块:用于基于所述句法关系依存图计算每个所述节点的权重值;
抽取模块:用于基于所述权重值对所述数据序列进行排序和输出,从而对文本主题进行抽取。
7.根据权利要求6所述的基于语义增强的文本主题抽取装置,其特征在于,所述获取模块包括:
判断单元:用于判断所述原始文本中是否含有第一预设信息,所述第一预设信息为预设分隔符;
截取单元:用于若所述原始文本中含有所述第一预设信息,确定删除字段信息,所述删除字段信息包括所述第一预设信息的起始位置和终止位置;
删除单元:用于基于所述删除字段信息,对所述原始文本进行删除,得到删除后的所述原始文本;
识别单元:用于基于删除后的所述原始文本利用DBpedia Spotlight进行实体识别,并基于预设阈值提取必要实体;
分析单元:用于基于所有的所述必要实体,对所述原始文本进行句法分析得到数据序列。
8.根据权利要求6所述的基于语义增强的文本主题抽取装置,其特征在于,所述构建模块包括:
第一单元:用于基于所述数据序列通过BERT预训练模型,得到每个字的向量编码;
第二单元:用于基于所述数据序列通过BiLSTM模型计算,得到每个词的向量编码;
第三单元:用于基于每个所述词的向量编码通过GAT模型进行语法增强,得到文本的向量编码;
重组单元:用于将同一位置的所述字的向量编码、所述词的向量编码和所述文本的向量编码进行拼接,得到重组序列;
计算单元:用于基于所述重组序列构建语义提升矩阵;
解析单元:用于根据所述语义提升矩阵解析所述数据序列,得到句法关系依存图。
9.根据权利要求8所述的基于语义增强的文本主题抽取装置,其特征在于,所述计算单元包括:
第四单元:用于基于所述重组序列计算,得到语义相关度集合,所述语义相关度集合中的每个语义相关度为两个词之间的余弦相识度的均值;
第五单元:用于基于所述语义相关度集合分别计算,得到语义提升矩阵。
10.根据权利要求9所述的基于语义增强的文本主题抽取装置,其特征在于,所述计算模块包括:
排序单元:用于基于每个所述语义相关度的大小进行降序排列;
筛选单元:用于基于降序排列后的所述语义相关度和预设个数,得到筛选后的所述语义相关度;
第六单元:用于基于筛选后的所述语义相关度,计算所述语义提升矩阵中所述语义相关度的权重。
CN202210720789.2A 2022-06-24 2022-06-24 一种基于语义增强的文本主题抽取方法及装置 Active CN114792092B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210720789.2A CN114792092B (zh) 2022-06-24 2022-06-24 一种基于语义增强的文本主题抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210720789.2A CN114792092B (zh) 2022-06-24 2022-06-24 一种基于语义增强的文本主题抽取方法及装置

Publications (2)

Publication Number Publication Date
CN114792092A true CN114792092A (zh) 2022-07-26
CN114792092B CN114792092B (zh) 2022-09-13

Family

ID=82463823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210720789.2A Active CN114792092B (zh) 2022-06-24 2022-06-24 一种基于语义增强的文本主题抽取方法及装置

Country Status (1)

Country Link
CN (1) CN114792092B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034327A (zh) * 2023-10-09 2023-11-10 广东源恒软件科技有限公司 一种电子书内容加密防护方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408642A (zh) * 2018-08-30 2019-03-01 昆明理工大学 一种基于距离监督的领域实体属性关系抽取方法
US20190095525A1 (en) * 2017-09-27 2019-03-28 International Business Machines Corporation Extraction of expression for natural language processing
CN110196913A (zh) * 2019-05-23 2019-09-03 北京邮电大学 基于文本生成式的多实体关系联合抽取方法和装置
US20210216712A1 (en) * 2020-01-15 2021-07-15 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for labeling core entity, and electronic device
CN113255320A (zh) * 2021-05-13 2021-08-13 北京熙紫智数科技有限公司 基于句法树和图注意力机制的实体关系抽取方法及装置
CN113392651A (zh) * 2020-11-09 2021-09-14 腾讯科技(深圳)有限公司 训练词权重模型及提取核心词的方法、装置、设备和介质
CN113609866A (zh) * 2021-08-11 2021-11-05 财付通支付科技有限公司 文本标记方法、装置、设备及存储介质
CN113988075A (zh) * 2021-10-28 2022-01-28 广东工业大学 基于多任务学习的网络安全领域文本数据实体关系抽取法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190095525A1 (en) * 2017-09-27 2019-03-28 International Business Machines Corporation Extraction of expression for natural language processing
CN109408642A (zh) * 2018-08-30 2019-03-01 昆明理工大学 一种基于距离监督的领域实体属性关系抽取方法
CN110196913A (zh) * 2019-05-23 2019-09-03 北京邮电大学 基于文本生成式的多实体关系联合抽取方法和装置
US20210216712A1 (en) * 2020-01-15 2021-07-15 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for labeling core entity, and electronic device
CN113392651A (zh) * 2020-11-09 2021-09-14 腾讯科技(深圳)有限公司 训练词权重模型及提取核心词的方法、装置、设备和介质
CN113255320A (zh) * 2021-05-13 2021-08-13 北京熙紫智数科技有限公司 基于句法树和图注意力机制的实体关系抽取方法及装置
CN113609866A (zh) * 2021-08-11 2021-11-05 财付通支付科技有限公司 文本标记方法、装置、设备及存储介质
CN113988075A (zh) * 2021-10-28 2022-01-28 广东工业大学 基于多任务学习的网络安全领域文本数据实体关系抽取法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
倪兵: "基于语义依存和外部知识库的关键词抽取", 《计算机工程与设计》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034327A (zh) * 2023-10-09 2023-11-10 广东源恒软件科技有限公司 一种电子书内容加密防护方法
CN117034327B (zh) * 2023-10-09 2024-03-19 广东源恒软件科技有限公司 一种电子书内容加密防护方法

Also Published As

Publication number Publication date
CN114792092B (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
CN112685565B (zh) 基于多模态信息融合的文本分类方法、及其相关设备
CN109388795B (zh) 一种命名实体识别方法、语言识别方法及系统
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
US20210216580A1 (en) Method and apparatus for generating text topics
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
US10803253B2 (en) Method and device for extracting point of interest from natural language sentences
US20080052262A1 (en) Method for personalized named entity recognition
WO2021135469A1 (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN111046656B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN111931517A (zh) 文本翻译方法、装置、电子设备以及存储介质
CN113434636B (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN110674297B (zh) 舆情文本分类模型构建和舆情文本分类方法、装置及设备
CN113553848A (zh) 长文本分类方法、系统、电子设备、计算机可读存储介质
CN112149386A (zh) 一种事件抽取方法、存储介质及服务器
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
JP2022091122A (ja) 汎化処理方法、装置、デバイス、コンピュータ記憶媒体及びプログラム
CN114792092B (zh) 一种基于语义增强的文本主题抽取方法及装置
CN111950261B (zh) 提取文本关键词的方法、设备和计算机可读存储介质
CN115115432B (zh) 基于人工智能的产品信息推荐方法及装置
CN115169370B (zh) 语料数据增强方法、装置、计算机设备及介质
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备
CN111555960A (zh) 信息生成的方法
CN111046168A (zh) 用于生成专利概述信息的方法、装置、电子设备和介质
WO2023137903A1 (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN114595338A (zh) 基于混合特征表示的实体关系联合抽取系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant