CN113806554A - 面向海量会议文本的知识图谱构建方法 - Google Patents

面向海量会议文本的知识图谱构建方法 Download PDF

Info

Publication number
CN113806554A
CN113806554A CN202111072123.2A CN202111072123A CN113806554A CN 113806554 A CN113806554 A CN 113806554A CN 202111072123 A CN202111072123 A CN 202111072123A CN 113806554 A CN113806554 A CN 113806554A
Authority
CN
China
Prior art keywords
conference
content
layer
meeting
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111072123.2A
Other languages
English (en)
Other versions
CN113806554B (zh
Inventor
孙建伟
许佑骏
俞俊峰
张华桁
李俊学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yunsi Intelligent Information Technology Co ltd
Original Assignee
Shanghai Yunsi Intelligent Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yunsi Intelligent Information Technology Co ltd filed Critical Shanghai Yunsi Intelligent Information Technology Co ltd
Priority to CN202111072123.2A priority Critical patent/CN113806554B/zh
Publication of CN113806554A publication Critical patent/CN113806554A/zh
Application granted granted Critical
Publication of CN113806554B publication Critical patent/CN113806554B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了面向海量会议文本的知识图谱构建方法,具体地,包含以下三个步骤:1)会议纪要提取首先基于纪要模板提取每个纪要文档的共有属性,再基于联合建模提取每个纪要文档中的实体和关系。2)会议内容的提取首先基于会议内容模板提取每个会议内容文档的共有属性,再针对非结构化的文档分段,每一段作为知识图中的一个实体。3)会议纪要和会议内容关系提取,通过建立会议纪要和会议内容的关系,每一条会议纪要能和每一段会议内容建立联系,这个过程本发明采用一个基于语义匹配的模型提取关系。所述方法基于自建数据集完成模型训练,能构建一个基于会议文本数据的知识图谱,基于该知识图谱可完成会议信息的检索。

Description

面向海量会议文本的知识图谱构建方法
技术领域
本发明涉及自然语言处理领域,尤其涉及一种面向海量会议文本的知识图谱构建方法。
背景技术
近年来,社会日益认识到传统的搜索引擎检索模型已不能满足复杂信息的需求,建议根据复杂信息的特点,为复杂的搜索任务提供额外的增强服务。这是主流搜索引擎公司谷歌,Bing,百度的共识。自动问答系统是一个更先进的下一代搜索引擎,它返回简单、直接和实时的答案,而不是带有超链接的排序列表。知识图谱是包含大量概念和关系的语义网络,具有可解释性。近年来,因其出色的知识表示能力被广泛应用于问答系统、推荐系统和搜索引擎中,提高了许多智能系统的性能。目前会议检索领域对知识图谱有巨大的需求,首先需要从海量半结构化的会议数据中构建会议知识图谱,再通过对知识图谱的检索,能够回答具有可解释性的复杂查询。
实体关系描述了存在事物之间的关联关系,定义为两个或多个实体之间的某种联系,是知识图自动构建和自然语言理解的基础。关系抽取是指从文本中自动检测和识别实体之间的某种语义关系。近二十年来,关系抽取一直是人们研究的热点。内核方法,图模型等在其中得到了广泛的应用,并取得了一些成果。会议纪要实体与会议内容实体的对应关系可以被建模为文本相似度计算。目前文本相似度计算的方法可分为语义匹配和相关性匹配,语义匹配通过利用词汇信息(例如,单词、短语、实体)和组合结构(例如,依赖树)来强调“意义”对应,而相关性匹配则侧重于关键字匹配。虽然在高层次上,相关性和语义匹配都是对文本相似性进行建模,但两者各有局限。
发明内容
本发明面向海量会议文本的知识图谱构建方法包括以下步骤:
步骤S1、基于半结构化的会议纪要提取知识图实体和关系
步骤S1.1:针对获取的会议纪要内容,采用不同的纪要模板提取会议纪要各部分内容,例如会议时间,会议地点,会议纪要条目。
步骤S1.2:使用会议纪要文本语料库对BERT模型预训练。将BERT模型添加到联合提取模型中。
步骤S1.3:预设网络中LSTM层数、LSTM单元大小。
步骤S1.4:使用BERT预训练模型代替训练集和测试集。
步骤S1.5:训练联合学习模型。联合学习模型包含BERT层、编码层、解码层、softmax层。BERT层用于学习单词的语义信息,分为预训练和微调两步,由两个TRM层组成,编码层用于学习输入数据的表示特性,编码层即BILSTM,由两个LSTM层组成,一个前向LSTM层,一个反向LSTM层;每个LSTM层由一系列循环连接的子网组成,每个时间步骤都是一个LSTM存储块,LSTM存储块根据隐藏层的状态在当时时刻计算隐藏层的状态向量;解码层用于生成标签序列,由单层LSTM网络组成,使用前一时刻存储单元的输出向量、前一时刻的隐层状态、编码层的当前隐层状态、当前时刻计算隐层状态;输出层包含Softmax以归一化处理,其中输出后面的字母B、I、E分别标识实体或关系的起始、中间和结尾;
步骤S1.6:用联合学习模型提取会议纪要中的实体与联系。
步骤S2、基于非结构化的会议内容提取知识图实体
步骤S2.1:构建会议内容文本数据集。通过将自建的会议语音数据转化为会议内容文本,构建一个包含7K多文档的会议内容数据集。每一个会议内容文档都是非结构化的文本格式。
步骤S2.2:以端到端的方式,通过随机梯度下降来完成模型训练。使用训练好的模型预测会议内容文中中的每个句子作为段落结尾句的概率,训练的最终目标是使得所有段的交叉熵之和最小。
步骤S2.3:完成会议内容的实体提取,将模型应用于会议内容文本,模型的输出将是一个包含若干段文本的向量,每一段作为一个会议内容实体加入知识中。
步骤S3、提取会议纪要和会议内容的关系。
步骤S3.1:将会议纪要和会议内容转化为单词嵌入表示。
步骤S3.2:进行层次化表示学习,用由分度编码器、广度编码器和上下文编码器组合而成的混合编码器。深度编码器由多个卷积层分层堆叠而成,宽度编码器并行地组织卷积层,上下文编码器利用双向LSTMs提取全局上下文特征。
步骤S3.3:将混合编码器的输出作为相关性匹配和语义匹配的输入。相关性匹配模块输出相关性分数,会议纪要与会议内容相关性分数使用如下公式计算。S=UqUc T,S∈Rn ×m。其中Si,j表示会议内容短语向量Uc[j]和会议纪要短语向量Uq[i]之间的相似性分数。
步骤S3.4:计算归一化的相似度矩阵。用softmax将内容中的所有短语的匹配分数归一化,并帮助区分分数较高的匹配。用max或mean方法计算判别特征向量。Max方法如下:
Figure BDA0003260780470000031
Mean方法如下:
Figure BDA0003260780470000032
步骤S3.5:将池化后的分数与特征权重相乘,wgt(q)i表示会议纪要中第i个术语的权重,最终分类层的特征输入如下:
Figure BDA0003260780470000033
步骤S3.6:计算双线性注意力,REP操作通过重复丢失维度中的元素将输入向量转化为一个Rn×m矩阵。softmaxcol是一个列级别的softmax运算符,操作如下:
Figure BDA0003260780470000034
A=softmaxcol(A)
步骤S3.7:从两个方向执行共同注意力,,maxcol是列级别的max池化操作,
Figure BDA0003260780470000035
表示通过关注权重的原始查询表示来表示感知查询的内容嵌入,
Figure BDA0003260780470000036
表示和内容有关的查询中的最后重要的词语的权重和操作如下:
Figure BDA0003260780470000037
Figure BDA0003260780470000038
步骤S3.8:采用增强连接,将额外的Bi LSTM应用于连接的上下文嵌入H以捕获序列中的上下文依赖关系,并使用最后一个隐藏状态作为语义匹配模块OSM的输出特征,即
Figure BDA0003260780470000039
OSM=BiLSTM(H)
步骤S3.9:将从每个编码层上学习到的相关性特征和语义特征
Figure BDA0003260780470000041
连接在一起,使用具有ReLU激活的两层全连接层来生成最终预测向量o;
步骤S3.10:最终分类,训练过程使得将所有样本(oi,yj)的负对数似然损失L最小化,最终给出相似度分数;
步骤S3.11:将最终相似度分数作为会议纪要与会议内容的关系,完成会议内容与会议纪要的关系提取。
附图说明
图1为本发明面向海量会议文本的知识图谱构建方法的整体流程图。
图2为本发明面向海量会议文本的知识图谱构建方法的会议纪要实体和关系提取网络模型结构图。
图3为本发明面向海量会议文本的知识图谱构建方法的会议内容实体提取网络模型结构图。
图4为本发明面向海量会议文本的知识图谱构建方法的会议纪要与会议内容对应关系提取的整体框图。
具体实施方式
下面将结合本发明实施例中的附图1~3,对本发明实施例中的技术方案进行清楚完整地描述,显然,所有描述地实施例仅是本发明一部分实施例,而不是全部的实施例。融合本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的范围。
本发明的目的是完整并具有可扩展性的知识图谱的构建,能挖掘知识图谱中实体之间潜在的关系,自动添加、删除或更改知识图谱内容,使其具有较好的可扩展性。构造好的会议知识图谱可用于后续的会议检索引擎、会议内容可视化场景。
为使本发明的上述目的,特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明做进一步详细说明。
图1为本发明一种面向海量会议文本的知识图谱构建方法一个整体流程图,如图1所示,实现整个方法的步骤包括。
步骤S1:基于半结构化的会议纪要提取知识图实体和关系。
步骤S2:基于非结构化的会议内容提取知识图实体。
步骤S3:提取会议纪要和会议内容的关系。
进一步,所述步骤S1中半结构化的会议纪要提取知识图实体和关系包含的详细步骤如下。
步骤S1.1:针对获取的会议纪要内容,采用不同的纪要模板提取会议纪要各部分内容,例如会议时间,会议地点,会议纪要条目。
步骤S1.2:使用自建的会议纪要文本语料库对BERT模型预训练。将BERT模型添加到联合提取模型中。会议纪要语料库是会议纪要的集合,获取方式为整合企业用户开会时上传的会议纪要,由于系统采用统一的会议纪要记录模板,故可根据模板完成会议纪要条目与属性的知识实体提取。具体地,会议纪要模板为表格形式,表头为会议时间、会议地点、会议主持人、待办事项这四项内容,使用openpyxl库提取指定行和列的数据。
步骤S1.3:预设网络中LSTM层数、LSTM单元大小。
步骤S1.4:训练联合学习模型。联合学习模型包含BERT层、编码层、解码层、softmax层。如图2所示,图2为会议纪要实体和关系提取网络模型结构图。
步骤S1.5:用联合学习模型提取每条会议纪要的实体与联系。
进一步,所述步骤S2中会议内容提取知识图实体包含的详细步骤如下。将文本分割视为监督学习任务,其中输入x是一个文档,表示为n个句子序列s1,…,sn和标签y=(y1,…yn-1)是文档的分割,由n-1二进制值表示,其中yi表示si是否结束一个段。基于非结构化的会议内容提取知识图实体包含的详细步骤如下。
步骤S2.1:构建会议内容文本语料库,包含7K多个文档。随机地将文档数据集划分为训练集、测试集和验证集。会议内容语料库是会议内容文档的合集,具体的获取方式是整合企业用户每次线上会议的语音记录,将其转换为会议文本的形式,获取会议内容数据集后,需要对其进行预处理以减少噪声。
步骤S2.2:训练模型阶段,使用模型预测每个句子作为段落结束的概率,最终将所有段的交叉熵之和降到最小。以端到端的方式,通过随机梯度下降来完成训练。所述模型如图3所示,为会议内容实体提取网络模型结构图。该模型由两个子网络组成,都基于LSTM体系结构,低层子网是两层双向LSTM,用于生成句子表示;高层子网是一个两层双向LSTM,用作分段预测,将低层子网的输出作为输入,其中,在每个LSTM的输出上都应用一个全连接层获得n个向量序列,再应用softmax获得分n-1段的概率。
步骤S2.3:使用模型完成会议内容的文本分割,每一段分割文本作为一个会议内容的实体。完成会议内容的实体提取。
图4为本发明面向海量会议文本的知识图谱构建方法的会议纪要与会议内容对应关系提取的整体框图。本发明将相关性匹配和语义信号匹配结合,相关性和语义匹配信号在文本相似度计算中是互补的,将它们结合起来可以提高数据效率。进一步,所述步骤S3中提取会议纪要和会议内容的关系的详细步骤如下。
步骤S3.1:单词嵌入层将会议纪要和会议内容转化为嵌入表示Q和C。
步骤S3.2:层次表示学习,该步骤设计一个混合编码器,由三种类型的编码器混合而成,分别是深度编码器、广度编码器和上下文编码器。混合编码器的输入是句子对,句子对中的q对应于会议纪要,c对应于会议内容,每一个会议纪要以及每一个会议内容会被表示为单词的集合,
Figure BDA0003260780470000061
即表示会议纪要,
Figure BDA0003260780470000062
即表示会议内容,n和m分别表示会议纪要和会议内容中的单词数。
深度编码器由多个卷积层分层堆叠而成,以获得更高层次的K-GRAM表示。卷积层对文本应用卷积滤波器,该过程被嵌入矩阵表示。每一个滤波器作为一个滑动窗口,通过输入嵌入进行增量移动,以捕获k个相邻项的组合表示。一个卷积层有F个滤波器,带padding的CNN层会生成一个h层的输出矩阵
Figure BDA0003260780470000063
第h层和h-1层的关系是Uh=CNNh(Uh-1)。其中,Uh-1是第h-1层卷积层的输出矩阵,U0=U表示输入矩阵直接从词嵌入层获得。每个CNN层的参数由查询和文档组成。
宽度编码器和深度编码器不同,宽度编码器并行地组织卷积层,每一个卷积层都有一个不同的窗口大小k,以获得相应的K-GRAM表示。给定N个卷积层,CNN层的窗口大小将在集合{K,K+1,....K+N-1}中。
深度和宽度编码器是用卷积捕获K-GRAM模式,而上下文编码器与深度和宽度编码器不同,它利用双向LSTMs提取全局上下文特征。给定N个双向LSTM层,第n层的输出可表示为:Uh=BiLSTMh(Uh-1),h=1,........N这三个编码器代表了不同的折中,深度和宽度编码器更容易并行执行推理,而且训练速度比上下文编码器要快很多。
步骤S3.3:将混合编码器的输出分别作为语义匹配和相关性匹配的输入,计算相关性分数,将会议纪要表示为矩阵Uq,会议内容表示为矩阵Uc。则每个编码层上的会议纪要和会议内容的相关性分数计算如下:S=UqUc T,S∈Rn×m,其中Si,j表示会议内容短语向量Uc[j]和会议纪要短语向量Uq[i]之间的相似性分数。
步骤S3.4:计算归一化相似度矩阵,通过在S的会议内容列上应用softmax来获得一个归一化的相似度矩阵
Figure BDA0003260780470000071
对于每一个会议纪要i,上述softmax将会议内容中的所有短语的匹配分数归一化,并帮助区分分数较高的匹配。一个精确的匹配相似度分数为1.0。
步骤S3.5:计算判别特征向量,使用max和mean将相似度矩阵转化为判别特征向量:
Figure BDA0003260780470000072
max(S),mean(S)∈Rn
步骤S3.6:将池化后的分数与特定权重相乘,作为最终分类层的特征输入模型中,由ORM表示,
Figure BDA0003260780470000073
ORM∈2·Rn,其中,wgt(q)i表示会议纪要中第i个术语的权重,有更深的编码器层或更宽的编码器层能捕获较长的短语,故它的值在中间层编码器会发生变化。选择逆文档频率作为加权函数,一个较高的IDF表示在集合中会更罕见的发生,因此具有更大的鉴别能力。
步骤S3.7:计算双线性注意力,给定由中间编码器生成的Uq∈Rn×F以及Uc∈Rm×F,计算双线性注意力计算如下:
Figure BDA0003260780470000074
A=softmaxcol(A)
A∈Rn×m
其中,Wq,Wc∈RF,Wb∈RF×F,REP操作通过重复丢失维度中的元素将输入向量转化为一个Rn×m矩阵。softmaxcol是一个列级别的softmax运算符。
步骤S3.8:从两个方向执行共同注意力,分别是从会议纪要到会议内容以及从会议内容到会议纪要,如下所示:
Figure BDA0003260780470000081
Figure BDA0003260780470000082
Figure BDA0003260780470000083
其中,maxcol是列级别的max池化操作。
Figure BDA0003260780470000084
表示通过关注权重的原始查询表示来表示感知查询的内容嵌入。
Figure BDA0003260780470000085
表示和内容有关的查询中的最后重要的词语的权重和。
步骤S3.9:采取增强连接来探索
Figure BDA0003260780470000086
Figure BDA0003260780470000087
之间的关系,将Bi LSTM应用于连接的上下文嵌入H以捕获序列中的上下文依赖关系,并使用最后一个维度为d的隐藏状态作为语义匹配模块的输出特征OSM:如下所示:
Figure BDA0003260780470000088
OSM=BiLSTM(H)
H∈Rm×4F,OSM=Rd
步骤S3.10:将从每个编码层上学习到的相关性特征和语义特征
Figure BDA0003260780470000089
连接在一起,使用具有ReLU激活的两层全连接层来生成最终预测向量o。
步骤S3.11:最终分类,训练过程使得将所有样本(oi,yj)的负对数似然损失L最小化,最终给出相似度分数。如下所示:
Figure BDA00032607804700000810
l=1,2,....N,
L=-∑logoi[yi]
其中,N是编码层的数量。
步骤S3.12:将最终相似度分数作为会议纪要与会议内容的关系。完成会议内容与会议纪要的关系提取。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明实际内容。

Claims (1)

1.一种面向海量会议文本的知识图谱自动构建方法,其特征在于,所述面向海量会议结构化文本的知识图谱构建方法包含以下步骤:
步骤S1:基于半结构化的会议纪要提取知识图实体和关系,包括以下步骤:
步骤S1.1:采用纪要模板提取会议纪要各部分内容,例如会议时间,会议地点,会议纪要条目;
步骤S1.2:使用会议纪要文本语料库对BERT模型预训练,会议纪要语料库是会议纪要的集合,获取方式为整合企业用户开会时上传的会议纪要,系统采用统一的会议纪要记录模板,根据模板完成会议纪要条目与属性的知识实体提取,具体地,会议纪要模板为表格形式,表头为会议时间、会议地点、会议主持人、待办事项这四项内容,使用openpyxl库提取指定行和列的数据;
步骤S1.3:预设网络中LSTM层数、LSTM单元大小;
步骤S1.4:使用BERT预训练模型代替训练集和测试集;
步骤S1.5:训练联合学习模型,联合学习模型包含BERT层、编码层、解码层、softmax层;
步骤S1.6:用联合学习模型提取会议纪要中的实体与联系;
步骤S2:基于非结构化的会议内容提取知识图实体,将会议内容的实体提取视为一个基于监督学习任务的文本分割任务,将输入的会议内容文档划分为不同句子集合,其中输入x是一个文档,表示为n个句子序列s1,…,sn和标签y=(y1,…yn-1)是文档的分割,由n-1二进制值表示,其中yi表示si是否结束一个段,每一个句子几何作为一个会议内容实体,以便将其与会议纪要建立联系;包括以下步骤:
步骤S2.1:收集由会议语音转录的会议内容文本数据集,并划分训练集、测试集和验证集;会议内容文本语料库是会议内容文档的合集,具体的获取方式是整合企业用户每次线上会议的语音记录,将其转换为会议文本的形式,获取会议内容数据集后,需要对其进行预处理以减少噪声;
步骤S2.2:训练模型阶段,使用模型预测每个句子作为段落结束的概率,最终将所有段的交叉熵之和降到最小,以端到端的方式,通过随机梯度下降来完成训练,所述模型由两个子网络组成,都基于LSTM体系结构,低层子网是两层双向LSTM,用于生成句子表示;高层子网是一个两层双向LSTM,用作分段预测,将低层子网的输出作为输入,其中,在每个LSTM的输出上都应用一个全连接层获得n个向量序列,再应用softmax获得分n-1段的概率;
步骤S2.3:使用模型完成会议内容的文本分割,每一段分割文本作为一个会议内容的实体,完成会议内容的实体提取;
步骤S3:提取会议纪要和会议内容的关系,包括以下步骤:
步骤S3.1:使用单词嵌入层将会议纪要和会议内容转化为嵌入表示Q和C;
步骤S3.2:层次表示学习,该步骤设计一个混合编码器,由三种类型的编码器混合而成,分别是深度编码器、广度编码器和上下文编码器;混合编码器的输入是句子对,句子对中的q对应于会议纪要,c对应于会议内容,每一个会议纪要以及每一个会议内容会被表示为单词的集合,
Figure FDA0003260780460000021
即表示会议纪要,
Figure FDA0003260780460000022
即表示会议内容,n和m分别表示会议纪要和会议内容中的单词数;
步骤S3.3:将混合编码器的输出分别作为语义匹配和相关性匹配的输入,计算相关性分数,将会议纪要表示为矩阵Uq,会议内容表示为矩阵Uc,每个编码层上的会议纪要和会议内容的相关性分数计算如下:S=UqUc T,S∈Rn×m,其中Si,j表示会议内容短语向量Uc[j]和会议纪要短语向量Uq[i]之间的相似性分数;
步骤S3.4:计算归一化相似度矩阵,通过在S的会议内容列上应用softmax来获得一个归一化的相似度矩阵
Figure FDA0003260780460000023
对于每一个会议纪要i,上述softmax将会议内容中的所有短语的匹配分数归一化,并帮助区分分数较高的匹配,一个精确的匹配相似度分数为1.0;
步骤S3.5:计算判别特征向量,使用max和mean将相似度矩阵转化为判别特征向量:
Figure FDA0003260780460000031
max(S),mean(S)∈Rn
步骤S3.6:将池化后的分数与特定权重相乘,作为最终分类层的特征输入模型中,由ORM表示,
Figure FDA0003260780460000032
其中,wgt(q)i表示会议纪要中第i个术语的权重;
步骤S3.7:计算双线性注意力,给定由中间编码器生成的Uq∈Rn×F以及Uc∈Rm×F,计算双线性注意力计算如下:
Figure FDA0003260780460000033
A=softmaxcol(A)
A∈Rn×m
其中,Wq,Wc∈RF,Wb∈RF×F,REP操作通过重复丢失维度中的元素将输入向量转化为一个Rn×m矩阵,softmaxcol是一个列级别的softmax运算符;
步骤S3.8:从两个方向执行共同注意力,分别是从会议纪要到会议内容以及从会议内容到会议纪要,如下所示:
Figure FDA0003260780460000034
Figure FDA0003260780460000035
Figure FDA0003260780460000036
其中,maxcol是列级别的max池化操作;
步骤S3.9:采取增强连接来探索
Figure FDA0003260780460000037
Figure FDA0003260780460000038
之间的关系,将额外的BiLSTM应用于连接的上下文嵌入H以捕获序列中的上下文依赖关系,并使用最后一个维度为d的隐藏状态作为语义匹配模块OSM的输出特征:如下所示:
Figure FDA0003260780460000041
OSM=BiLSTM(H)
H∈Rm×4F,OSM=Rd
步骤S3.10:将从每个编码层上学习到的相关性特征和语义特征
Figure FDA0003260780460000042
连接在一起,使用具有ReLU激活的两层全连接层来生成最终预测向量o;
步骤S3.11:最终分类,训练过程使得将所有样本(oi,yj)的负对数似然损失L最小化,最终给出相似度分数,如下所示:
Figure FDA0003260780460000043
l=1,2,....N,
L=-∑logoi[yi]
其中,N是编码层的数量;
步骤S3.12:将最终相似度分数作为会议纪要与会议内容的关系,完成会议内容与会议纪要的关系提取。
CN202111072123.2A 2021-09-14 2021-09-14 面向海量会议文本的知识图谱构建方法 Active CN113806554B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111072123.2A CN113806554B (zh) 2021-09-14 2021-09-14 面向海量会议文本的知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111072123.2A CN113806554B (zh) 2021-09-14 2021-09-14 面向海量会议文本的知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN113806554A true CN113806554A (zh) 2021-12-17
CN113806554B CN113806554B (zh) 2023-07-21

Family

ID=78941169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111072123.2A Active CN113806554B (zh) 2021-09-14 2021-09-14 面向海量会议文本的知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN113806554B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114385827A (zh) * 2021-12-29 2022-04-22 上海云思智慧信息技术有限公司 面向会议知识图谱的检索方法
CN116304109A (zh) * 2023-03-30 2023-06-23 上海云思智慧信息技术有限公司 基于会议知识图谱的检索方法、系统、介质及电子设备
WO2023124648A1 (zh) * 2021-12-30 2023-07-06 科大讯飞股份有限公司 一种文本纪要生成方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487197A (zh) * 2020-11-06 2021-03-12 中科云谷科技有限公司 基于会议记录构建知识图谱的方法、装置及处理器
CN112613314A (zh) * 2020-12-29 2021-04-06 国网江苏省电力有限公司信息通信分公司 基于bert模型的电力通信网络知识图谱构建方法
US20210149993A1 (en) * 2019-11-15 2021-05-20 Intuit Inc. Pre-trained contextual embedding models for named entity recognition and confidence prediction
CN113239210A (zh) * 2021-05-25 2021-08-10 河海大学 基于自动化补全知识图谱的水利文献推荐方法及系统
CN113312501A (zh) * 2021-06-29 2021-08-27 中新国际联合研究院 基于知识图谱的安全知识自助查询系统的构建方法及装置
CN113312772A (zh) * 2021-05-31 2021-08-27 上海云思智慧信息技术有限公司 基于推荐算法的会议布局排座方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210149993A1 (en) * 2019-11-15 2021-05-20 Intuit Inc. Pre-trained contextual embedding models for named entity recognition and confidence prediction
CN112487197A (zh) * 2020-11-06 2021-03-12 中科云谷科技有限公司 基于会议记录构建知识图谱的方法、装置及处理器
CN112613314A (zh) * 2020-12-29 2021-04-06 国网江苏省电力有限公司信息通信分公司 基于bert模型的电力通信网络知识图谱构建方法
CN113239210A (zh) * 2021-05-25 2021-08-10 河海大学 基于自动化补全知识图谱的水利文献推荐方法及系统
CN113312772A (zh) * 2021-05-31 2021-08-27 上海云思智慧信息技术有限公司 基于推荐算法的会议布局排座方法及系统
CN113312501A (zh) * 2021-06-29 2021-08-27 中新国际联合研究院 基于知识图谱的安全知识自助查询系统的构建方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
乔波: "基于农业叙词表的知识图谱构建技术研究", 《中国博士学位论文电子期刊网》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114385827A (zh) * 2021-12-29 2022-04-22 上海云思智慧信息技术有限公司 面向会议知识图谱的检索方法
WO2023124648A1 (zh) * 2021-12-30 2023-07-06 科大讯飞股份有限公司 一种文本纪要生成方法、装置、设备及存储介质
CN116304109A (zh) * 2023-03-30 2023-06-23 上海云思智慧信息技术有限公司 基于会议知识图谱的检索方法、系统、介质及电子设备

Also Published As

Publication number Publication date
CN113806554B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
Gabeur et al. Multi-modal transformer for video retrieval
CN111611361B (zh) 抽取式机器智能阅读理解问答系统
CN111581961B (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
Xiao et al. Convolutional hierarchical attention network for query-focused video summarization
CN111159407B (zh) 训练实体识别和关系分类模型的方法、装置、设备及介质
CN113806554B (zh) 面向海量会议文本的知识图谱构建方法
CN110765240B (zh) 多相关句子对的语义匹配评估方法
CN112241468A (zh) 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质
CN110933518B (zh) 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法
CN111524593B (zh) 基于上下文语言模型和知识嵌入的医疗问答方法及系统
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN114428850B (zh) 一种文本检索匹配方法和系统
CN108073576A (zh) 智能搜索方法、搜索装置以及搜索引擎系统
CN111178053A (zh) 一种结合语义和文本结构进行生成式摘要抽取的文本生成方法
CN113392265A (zh) 多媒体处理方法、装置及设备
CN116821291A (zh) 基于知识图谱嵌入与语言模型交替学习的问答方法及系统
CN113590818B (zh) 一种基于cnn与gru及knn融合的政务文本数据分类方法
CN111008277B (zh) 一种自动文本摘要方法
CN110321565B (zh) 基于深度学习的实时文本情感分析方法、装置及设备
CN112883229B (zh) 基于多特征图注意网络模型的视频-文本跨模态检索方法和装置
CN112380874B (zh) 一种基于图卷积网络的多人对话语篇分析方法
CN114154496A (zh) 基于深度学习bert模型的煤监类案对比方法及装置
CN109857906B (zh) 基于查询的无监督深度学习的多视频摘要方法
Zhong et al. Deep convolutional hamming ranking network for large scale image retrieval
CN117493608B (zh) 一种文本视频检索方法、系统及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant