CN112487197A - 基于会议记录构建知识图谱的方法、装置及处理器 - Google Patents
基于会议记录构建知识图谱的方法、装置及处理器 Download PDFInfo
- Publication number
- CN112487197A CN112487197A CN202011232612.5A CN202011232612A CN112487197A CN 112487197 A CN112487197 A CN 112487197A CN 202011232612 A CN202011232612 A CN 202011232612A CN 112487197 A CN112487197 A CN 112487197A
- Authority
- CN
- China
- Prior art keywords
- entities
- text
- conference
- meeting
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000006243 chemical reaction Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 23
- 238000012216 screening Methods 0.000 abstract 1
- 238000004590 computer program Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000009440 infrastructure construction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010225 co-occurrence analysis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种基于会议记录构建知识图谱的方法、装置、处理器及存储介质。方法包括:获取会议记录文本,会议记录文本通过语音会议记录转换得到;通过语言模型对会议记录文本进行预处理,语言模型是根据预设专业领域的语料数据进行训练得到的;提取出预处理后的会议记录文本中的实体及实体之间的关系;根据实体及实体之间的关系建立对应的知识图谱,可以对在会议中即时记录的语音信息转换为更容易阅读和理解的结构化知识,从而优化了会议场景下连续的语音可能出现的断句问题,提升了会议纪要的细腻度和精度,同时能够对会议中提到的大量内容中提取出会议的核心内容,构建结构化的知识图谱,减少人工的筛选,大幅度地提升了内容的可读性。
Description
技术领域
本发明涉及计算机技术领域,具体地涉及一种基于会议记录构建知识图谱的方法、装置及处理器。
背景技术
知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
然而,现有技术中,知识图谱的构建都是基于直接的文本创建的,并且构建的知识图谱与各个文本对应的专业领域是毫不相关的,导致创建的知识图谱与专业领域相关,无法针对特定的文本建立相关的知识图谱。
发明内容
本发明实施例的目的是提供一种基于会议记录构建知识图谱的方法、装置、处理器及存储介质。
为了实现上述目的,本发明第一方面提供一种基于会议记录构建知识图谱的方法,包括:
获取会议记录文本,会议记录文本通过语音会议记录转换得到;
通过语言模型对会议记录文本进行预处理,语言模型是根据预设专业领域的语料数据进行训练得到的;
提取出预处理后的会议记录文本中的实体及实体之间的关系;
根据实体及实体之间的关系建立对应的知识图谱。
在本发明的实施例中,通过语言模型对会议记录文本进行预处理包括:将会议记录文本输入至语言模型,通过语言模型确定会议记录文本中包含的指代词和主语;对指代词和主语进行分类,确定指代词对应的替代主语;将会议记录文本中的指代词替换为与替代主语,得到预处理后的会议记录文本。
在本发明的实施例中,对指代词和主语进行分类,确定指代词对应的替代主语包括:确定每个指代词对应的候选词;将候选词转换为特征向量;确定每个特征向量对应的置信度;将置信度最高的特征向量对应的候选词作为指代词对应的替代主语。
在本发明的实施例中,提取出预处理后的会议记录文本中的实体及实体之间的关系包括:通过语言模型确定预处理后的会议记录文本中的实体;确定实体对应的专业领域;根据专业领域确定实体对应的类别;根据实体以及实体对应的类别确定实体及实体之间的关系。
在本发明的实施例中,提取出预处理后的会议记录文本中的实体及实体之间的关系包括:提取出会议记录文本中的动词及动词短语;将动词及动词短语作为实体关系组的谓词,并将动词及动词短语作为根节点遍历与之相关的名词短语;根据预设的语言规则确定动词和动词短语以及名词短语的关系。
在本发明的实施例中,上述方法还包括:在提取出预处理后的会议记录文本中的实体及实体之间的关系之后,将任意确定相同的实体与实体之间的关系的两组进行去重合并;对确定为语义近似的两组实体进行聚类;根据进行聚类后的实体及实体之间的关系构建对应的知识图谱。
在本发明的实施例中,上述方法还包括:在获取会议记录文本之后,获取会议记录文本对应的会议主题;根据会议主题获取相对应的专业词汇包;根据专业词汇包对会议记录文本中包含的专业词汇进行纠正。
在本发明的实施例中,上述方法还包括:在根据实体及实体之间的关系建立对应的知识图谱之后,将知识图谱发送至关联的显示屏上进行展示。
本发明第二方面提供一种基于会议记录构建知识图谱的装置,被配置成执行上述的基于会议记录构建知识图谱的方法。
本发明第三方面提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令在被处理器执行时使得处理器被配置成执行上述的基于会议记录构建知识图谱的方法。
本发明第四方面提供一种处理器,被配置成执行上述的基于会议记录构建知识图谱的方法。
上述基于会议记录构建知识图谱的方法,通过语言模型对获取到的会议记录文本进行预处理,并提取出预处理后的会议记录文本中的实体及实体之间的关系,从而根据实体及实体之间的关系建立对应的知识图谱,这种方式可以对在会议中即时记录的语音信息转换为更容易阅读和理解的结构化知识,从而优化了会议场景下连续的语音可能出现的断句问题,提升了会议纪要的细腻度和精度,同时能够对会议中提到的大量内容中提取出会议的核心内容,构建结构化的知识图谱,减少人工的筛选,大幅度地提升了内容的可读性。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1示意性示出了根据本发明实施例的基于会议记录构建知识图谱的方法的流程示意图;
图2示意性示出了根据本发明实施例的会议记录文本创建的知识图谱的示意图;
图3示意性示出了根据本发明实施例的步骤103的流程示意图;
图4示意性示出了根据本发明实施例的基于会议记录构建知识图谱的装置的结构框图;以及
图5示意性示出了根据本发明实施例的计算机设备的内部结构图。
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
图1示意性示出了根据本发明实施例的基于会议记录构建知识图谱的方法的流程示意图。如图1所示,在本发明一实施例中,提供了一种基于会议记录构建知识图谱的方法,包括以下步骤:
步骤101,获取会议记录文本,会议记录文本通过语音会议记录转换得到。
步骤102,通过语言模型对会议记录文本进行预处理,语言模型是根据预设专业领域的语料数据进行训练得到的。
在会议的开会过程中,可以对会议进行录音以得到对应的语音会议记录,并通过语音识别技术将语音会议记录转换成会议记录文本。服务器可以获取到该会议记录文本,并通过语言模型对会议记录文本进行预处理。其中,语言模型可以是自然语言处理的模型。在将语言模型投入至实际使用之前,可以先对语言模型进行训练。具体地,此语言模型是根据预设专业领域的语料数据进行训练得到的。例如,语言模型需要会起重机相关的会议的会议记录文本进行预处理,那么则可以预先使用起重机所在的重机械领域的语料数据对语言模型进行训练,以使语言模型预先学习与起重机相关的词汇。
在一个实施例中,通过语言模型对会议记录文本进行预处理包括:将会议记录文本输入至语言模型,通过语言模型确定会议记录文本中包含的指代词和主语;对指代词和主语进行分类,确定指代词对应的替代主语;将会议记录文本中的指代词替换为与替代主语,得到预处理后的会议记录文本。
在获取到会议记录文本后,可以将会议记录文本输入至语言模型中,通过语言模型确定会议记录文本中包含的指代词和主语。其中,指代词是指含糊不清楚的代词,通常替代了这一句话中的某个名词,比如,“这个”、“那个”、“那里”、“他”、“她”、“它”等等。主语则是指句子中的某个主语对应的词。比如“起重机”、“挖掘机”、“李总”、“工作人员”、“公司”等等,每句话中的指代词和主语都会有所不同,需要根据实际的句子进行区分。当会议记录文本中有多个句子时,可以确定出每个句子中包含的指代词和主语。然后,可以对全部的指代词和主语进行分类,分类的目的是为了确认每个指代词对应的替代主语。
在一个实施例中,对指代词和主语进行分类,确定指代词对应的替代主语包括:确定每个指代词对应的候选词;将候选词转换为特征向量;确定每个特征向量对应的置信度;将置信度最高的特征向量对应的候选词作为指代词对应的替代主语。
首先,可以对会议记录文本进行断句处理,将一大段的会议记录文本分割成多个句子,从而可以确定出每一句中包含的指代词所对应的候选词。针对会议场景下,讲话人连续说话的情况会比较频繁,给断句带来了技术难点,从而影响接下来知识图谱构建的精度。因此,可以通过上述中预训练的语言模型预测大段连续语音转换文本后其中的标点符号,然后可以通过标点符号进行智能的断句,以将会议记录文本分成多个句子。
具体地,语言模型可以通过上文来预测下一个字或者符号,比如:国庆节我想回老__。语言模型会预测‘家’这个词发生的概率比较大,从而来判断‘家’字就是接下来会出现的字。实现的方法有很多,一种是基于纯统计学的方法,比如在大量的文本数据集里面去找相邻的的词发生的概率,这个技术被广泛的成为n-gram技术,n表示相邻词范围窗口的大小。比如n=1时,表示家在上面例子中出现的概率是基于‘老’和‘家’同时发生的概率,依次类推n=2时,表示为基于‘回’、‘老’一起和‘家’发生的概率。另一种是机器学习的方法,利用一个深度学习模型通过以上描述的学习方式来构建一个语言模型,之后通过将上文(或者上下文)输入到模型,模型来预测标点符号所在的位置。
假设,第一句话为“起重机目前的发展是很好的,但目前我们在处理这个项目时有一点需要注意”。通过语言模型可以确定这句话中包含的指代词为“这个”,主语有两个,分别为“起重机”、“我们”。那么针对指代词“这个”,其对应的候选词有“起重机”和“我们”,即接下来需要确定指代词“这个”对应的主语应该是“起重机”还是“我们”。具体地,可以将每个候选词转换为特征向量,以确定每个特征向量对应该指代词的置信度。比如,“起重机”的特征向量对应的置信度为0.8,“我们”的特征向量对应的置信度为0.3,那么可以将置信度最高的特征向量对应的候选词作为该指代词对应的替代主语,即可以将“起重机”确定为指代词“这个”对应的替代主语,并可以将确定的替代主语将原来的指代词进行替换,则这一句话将被修改为“起重机目前的发展是很好的,但目前我们在起重机项目时有一点需要注意”。以此方式可实现对全部的会议记录文本进行预处理。此过程也可以称为指代消解。
步骤103,提取出预处理后的会议记录文本中的实体及实体之间的关系。
步骤104,根据实体及实体之间的关系建立对应的知识图谱。
在对会议记录文本进行预处理后,可以对预处理后的会议记录文本进行实体以及实体关系的提取操作。知识图谱的架构主要包括自身的逻辑结构以及体系架构,知识图谱在逻辑结构上可分为模式层与数据层两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。而事实可以用(实体1,关系,实体2)、(实体、属性,属性值)这样的三元组来表达。
具体地,可以对断句后的句子进行分词、词性标注与依存语法分析,将每个动词短语作为候选三元组的谓词,并将其作为根节点遍历与其相关的名词短语(包括指代消解后的指代词)。然后使用基于规则的方法提取三元组(实体-关系-实体、实体-关系-属性)。词性标注时,可以标注成主要的几大类,比如:n(名词),v(动词),a(形容词)。依存语法分析是对输入的文本句子进行分析以得到句子的句法结构的处理过程。语义分析通常以句法分析的输出结果作为输入以便获得更多的指示信息。根据句法结构的表示形式不同,最常见的句法分析任务可以分为以下三种:句法结构分析,又称短语结构分析,也叫成分句法分析,作用是识别出句子中的短语结构以及短语之间的层次句法关系;依存关系分析,又称依存句法分析,简称依存分析,作用是识别句子中词汇与词汇之间的相互依存关系;深层文法句法分析,即利用深层文法对句子进行深层的句法以及语义分析。
在提取出预处理后的会议记录文本中的实体及实体之间的关系后,则可以根据实体及实体之间的关系建立对应的知识图谱。
如图2所示的知识图谱示意图,是根据某一次会议的会议记录文本构建的。提取出来的核心词汇包括有:基建、贵州公司、中国电信、通村公路、危房改造、设备、改善、子公司、实施、需要等,然后可以将具备关系的两个词进行连接,表示这个词之间存在一定的实体关系。如此,可以清楚地分辨会议的核心内容和提及到的名词之间的关系。其中,在会议中提到的“基建”,可以确定其全称为“基础设施建设”,因此可将会议记录文本中的“基建”替换为“基础设施建设”。
在一个实施例中,如图3所示,步骤103包括:
步骤301,通过语言模型确定预处理后的会议记录文本中的实体。
步骤302,确定实体对应的专业领域。
步骤303,根据专业领域确定实体对应的类别。
步骤304,根据实体以及实体对应的类别确定实体及实体之间的关系。
在对预处理后的会议记录文本中的实体及实体之间的关系进行提取时,可以先通过语言模型确定所述预处理后的会议记录文本中的实体,比如起重机,挖掘机,中联重科等词语。然后再确定各个实体对应的专业领域,如起重机和挖掘机对应的专业领域为重型机械设备,此处的专业领域也可以是其他领域,可以由设计者设定不同的专业领域所对应的词汇。在确定出实体所对应的专业领域后,可以根据专业领域确定实体对应的类别,从而可以根据实体以及实体对应的类别确定实体及实体之间的关系。如,在确定起重机和挖掘机对应的专业领域为重型机械设备后,可以确定起重机和挖掘机属于机械设备名词,然后再去确定这一实体与其他实体之间的关系。
在一个实施例中,提取出预处理后的会议记录文本中的实体及实体之间的关系包括:提取出会议记录文本中的动词及动词短语;将动词及动词短语作为实体关系组的谓词,并将动词及动词短语作为根节点遍历与之相关的名词短语;根据预设的语言规则确定动词和动词短语以及名词短语的关系。
在对会议记录文本中的实体以及实体关系进行抽取时,可以先提取出会议记录文本中的动词及动词短语,并将提取出来的动词和动词短语作为实体关系组的谓词。其中,谓语是一句话的主要部分,即表达一个完整的意思所不可或缺的部分。通常来说,一句话由主谓两部分组成,主语可以省略和空缺,谓语则必须出现。因此,将提取出来的动词和动词短语作为实体关系组的谓词,实际上是将这句话中最重要的动作进行保留,以保全这句话的中心含义。在进行动词和动词短语的提取时,可以按照预先设定的动词规则进行提取。在将提取出来的动词及动词短语作为实体关系组的谓词后,可以将动词及动词短语作为根节点遍历与之相关的名词短语,也就是说,在确定谓词后,可以以该词作为中心(根节点),遍历与之存在关系的其他名词短语,并将遍历到的名词短语作为与该根节点连接的分节点,以此,可以建立对应的知识图谱。
在一个实施例中,上述方法还包括:在提取出预处理后的会议记录文本中的实体及实体之间的关系之后,将任意确定相同的实体与实体之间的关系的两组进行去重合并;对确定为语义近似的两组实体进行聚类;根据进行聚类后的实体及实体之间的关系构建对应的知识图谱。
在提取出会议记录文本中的实体及实体之间的关系后,可以对提取出的关系组进行聚类去重处理。具体地,可以任意选择两组实体组进行比对,当确定有两种相同时,则可以对这两组实体进行去重合并,保留其中一组即可。并且,在确定有两组实体的语义近似时,可以对这两组实体进行聚类。确定实体之间的语义是否属于近似时,可以通过技术人员预先设定的比对规则来确定。在对提取出的实体组进行去重合并,以及对语义近似的实体组进行聚类后,可以根据处理后的实体组构建对应的知识图谱。
在一个实施例中,上述方法还包括:在获取会议记录文本之后,获取会议记录文本对应的会议主题;根据会议主题获取相对应的专业词汇包;根据专业词汇包对会议记录文本中包含的专业词汇进行纠正。
在对会议记录文本进行预处理之前,可以先对会议记录文本中的文本进行纠正。纠正过程为,可以先获取到会议记录文本所对应的会议主题,根据该会议主题即可获取到与之相对应的专业词汇包,从而可以根据专业词汇包对会议记录文本中的专业词汇进行纠正。比如,假设会议记录文本中有轮胎压路机,在通过语音会议记录转换得到的会议记录文本中,一开始可能转换的文本为“轮胎轧路机”。在获取到对应的专业词汇包后,则可以将“轮胎轧路机”纠正为“轮胎压路机”。
在一个实施例中,上述方法还包括:在根据实体及实体之间的关系建立对应的知识图谱之后,将知识图谱发送至关联的显示屏上进行展示。
上述基于会议记录构建知识图谱的方法,通过语言模型对获取到的会议记录文本进行预处理,并提取出预处理后的会议记录文本中的实体及实体之间的关系,从而根据实体及实体之间的关系建立对应的知识图谱,这种方式可以对在会议中即时记录的语音信息转换为更容易阅读和理解的结构化知识,从而优化了会议场景下连续的语音可能出现的断句问题,提升了会议纪要的细腻度和精度,同时能够对会议中提到的大量内容中提取出会议的核心内容,构建结构化的知识图谱,减少人工的筛选,大幅度地提升了内容的可读性。
在一个实施例中,如图4所示,提供了一种基于会议记录构建知识图谱的装置,包括:
文本获取模块401,用于获取会议记录文本,会议记录文本通过语音会议记录转换得到。
文本处理模块402,用于通过语言模型对会议记录文本进行预处理,语言模型是根据预设专业领域的语料数据进行训练得到的。
知识图谱创建模块403,用于提取出预处理后的会议记录文本中的实体及实体之间的关系;根据实体及实体之间的关系建立对应的知识图谱。
在一个实施例中,文本处理模块402还用于将会议记录文本输入至语言模型,通过语言模型确定会议记录文本中包含的指代词和主语;对指代词和主语进行分类,确定指代词对应的替代主语;将会议记录文本中的指代词替换为与替代主语,得到预处理后的会议记录文本。
在一个实施例中,文本处理模块402还用于确定每个指代词对应的候选词;将候选词转换为特征向量;确定每个特征向量对应的置信度;将置信度最高的特征向量对应的候选词作为指代词对应的替代主语。
在一个实施例中,文本处理模块402还用于在获取会议记录文本之后,获取会议记录文本对应的会议主题;根据会议主题获取相对应的专业词汇包;根据专业词汇包对会议记录文本中包含的专业词汇进行纠正。
在一个实施例中,知识图谱创建模块403还用于通过语言模型确定预处理后的会议记录文本中的实体;确定实体对应的专业领域;根据专业领域确定实体对应的类别;根据实体以及实体对应的类别确定实体及实体之间的关系。
在一个实施例中,知识图谱创建模块403还用于提取出会议记录文本中的动词及动词短语;将动词及动词短语作为实体关系组的谓词,并将动词及动词短语作为根节点遍历与之相关的名词短语;根据预设的语言规则确定动词和动词短语以及名词短语的关系。
在一个实施例中,知识图谱创建模块403还用于在提取出预处理后的会议记录文本中的实体及实体之间的关系之后,将任意确定相同的实体与实体之间的关系的两组进行去重合并;对确定为语义近似的两组实体进行聚类;根据进行聚类后的实体及实体之间的关系构建对应的知识图谱。
在一个实施例中,知识图谱创建模块403还用于在根据实体及实体之间的关系建立对应的知识图谱之后,将知识图谱发送至关联的显示屏上进行展示。
所述基于会议记录构建知识图谱的装置包括处理器和存储器,上述文本获取模块、文本处理模块和知识图谱创建模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序模块中实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现建立会议记录对应的知识图谱。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现上述基于会议记录构建知识图谱的方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述基于会议记录构建知识图谱的方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器A01、网络接口A02、存储器(图中未示出)和数据库(图中未示出)。其中,该计算机设备的处理器A01用于提供计算和控制能力。该计算机设备的存储器包括内存储器A03和非易失性存储介质A04。该非易失性存储介质A04存储有操作系统B01、计算机程序B02和数据库(图中未示出)。该内存储器A03为非易失性存储介质A04中的操作系统B01和计算机程序B02的运行提供环境。该计算机设备的数据库用于存储会议记录等数据。该计算机设备的网络接口A02用于与外部的终端通过网络连接通信。该计算机程序B02被处理器A01执行时以实现一种基于会议记录构建知识图谱的方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取会议记录文本,会议记录文本通过语音会议记录转换得到;通过语言模型对会议记录文本进行预处理,语言模型是根据预设专业领域的语料数据进行训练得到的;提取出预处理后的会议记录文本中的实体及实体之间的关系;根据实体及实体之间的关系建立对应的知识图谱。
在一个实施例中,通过语言模型对会议记录文本进行预处理包括:将会议记录文本输入至语言模型,通过语言模型确定会议记录文本中包含的指代词和主语;对指代词和主语进行分类,确定指代词对应的替代主语;将会议记录文本中的指代词替换为与替代主语,得到预处理后的会议记录文本。
在一个实施例中,对指代词和主语进行分类,确定指代词对应的替代主语包括:确定每个指代词对应的候选词;将候选词转换为特征向量;确定每个特征向量对应的置信度;将置信度最高的特征向量对应的候选词作为指代词对应的替代主语。
在一个实施例中,提取出预处理后的会议记录文本中的实体及实体之间的关系包括:通过语言模型确定预处理后的会议记录文本中的实体;确定实体对应的专业领域;根据专业领域确定实体对应的类别;根据实体以及实体对应的类别确定实体及实体之间的关系。
在一个实施例中,提取出预处理后的会议记录文本中的实体及实体之间的关系包括:提取出会议记录文本中的动词及动词短语;将动词及动词短语作为实体关系组的谓词,并将动词及动词短语作为根节点遍历与之相关的名词短语;根据预设的语言规则确定动词和动词短语以及名词短语的关系。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在提取出预处理后的会议记录文本中的实体及实体之间的关系之后,将任意确定相同的实体与实体之间的关系的两组进行去重合并;对确定为语义近似的两组实体进行聚类;根据进行聚类后的实体及实体之间的关系构建对应的知识图谱。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在获取会议记录文本之后,获取会议记录文本对应的会议主题;根据会议主题获取相对应的专业词汇包;根据专业词汇包对会议记录文本中包含的专业词汇进行纠正。
在一个实施例中,在根据实体及实体之间的关系建立对应的知识图谱之后,将知识图谱发送至关联的显示屏上进行展示。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取会议记录文本,会议记录文本通过语音会议记录转换得到;通过语言模型对会议记录文本进行预处理,语言模型是根据预设专业领域的语料数据进行训练得到的;提取出预处理后的会议记录文本中的实体及实体之间的关系;根据实体及实体之间的关系建立对应的知识图谱。
在一个实施例中,通过语言模型对会议记录文本进行预处理包括:将会议记录文本输入至语言模型,通过语言模型确定会议记录文本中包含的指代词和主语;对指代词和主语进行分类,确定指代词对应的替代主语;将会议记录文本中的指代词替换为与替代主语,得到预处理后的会议记录文本。
在一个实施例中,对指代词和主语进行分类,确定指代词对应的替代主语包括:确定每个指代词对应的候选词;将候选词转换为特征向量;确定每个特征向量对应的置信度;将置信度最高的特征向量对应的候选词作为指代词对应的替代主语。
在一个实施例中,提取出预处理后的会议记录文本中的实体及实体之间的关系包括:通过语言模型确定预处理后的会议记录文本中的实体;确定实体对应的专业领域;根据专业领域确定实体对应的类别;根据实体以及实体对应的类别确定实体及实体之间的关系。
在一个实施例中,提取出预处理后的会议记录文本中的实体及实体之间的关系包括:提取出会议记录文本中的动词及动词短语;将动词及动词短语作为实体关系组的谓词,并将动词及动词短语作为根节点遍历与之相关的名词短语;根据预设的语言规则确定动词和动词短语以及名词短语的关系。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在提取出预处理后的会议记录文本中的实体及实体之间的关系之后,将任意确定相同的实体与实体之间的关系的两组进行去重合并;对确定为语义近似的两组实体进行聚类;根据进行聚类后的实体及实体之间的关系构建对应的知识图谱。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在获取会议记录文本之后,获取会议记录文本对应的会议主题;根据会议主题获取相对应的专业词汇包;根据专业词汇包对会议记录文本中包含的专业词汇进行纠正。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在根据实体及实体之间的关系建立对应的知识图谱之后,将知识图谱发送至关联的显示屏上进行展示。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种基于会议记录构建知识图谱的方法,其特征在于,所述方法包括:
获取会议记录文本,所述会议记录文本通过语音会议记录转换得到;
通过语言模型对所述会议记录文本进行预处理,所述语言模型是根据预设专业领域的语料数据进行训练得到的;
提取出预处理后的会议记录文本中的实体及实体之间的关系;
根据所述实体及实体之间的关系建立对应的知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述通过语言模型对所述会议记录文本进行预处理包括:
将所述会议记录文本输入至所述语言模型,通过所述语言模型确定所述会议记录文本中包含的指代词和主语;
对所述指代词和所述主语进行分类,确定所述指代词对应的替代主语;
将所述会议记录文本中的指代词替换为与所述替代主语,得到预处理后的会议记录文本。
3.根据权利要求2所述的方法,其特征在于,所述对所述指代词和所述主语进行分类,确定所述指代词对应的替代主语包括:
确定每个指代词对应的候选词;
将所述候选词转换为特征向量;
确定每个特征向量对应的置信度;
将置信度最高的特征向量对应的候选词作为所述指代词对应的替代主语。
4.根据权利要求1所述的方法,其特征在于,所述提取出预处理后的会议记录文本中的实体及实体之间的关系包括:
通过所述语言模型确定所述预处理后的会议记录文本中的实体;
确定所述实体对应的专业领域;
根据所述专业领域确定所述实体对应的类别;
根据所述实体以及所述实体对应的类别确定所述实体及实体之间的关系。
5.根据权利要求1所述的方法,其特征在于,所述提取出预处理后的会议记录文本中的实体及实体之间的关系包括:
提取出所述会议记录文本中的动词及动词短语;
将所述动词及所述动词短语作为实体关系组的谓词,并将所述动词及所述动词短语作为根节点遍历与之相关的名词短语;
根据预设的语言规则确定所述动词和所述动词短语以及所述名词短语的关系。
6.根据权利要求1所述的方法,其特征在于,还包括:
在所述提取出预处理后的会议记录文本中的实体及实体之间的关系之后,将任意确定相同的实体与实体之间的关系的两组进行去重合并;
对确定为语义近似的两组实体进行聚类;
根据进行聚类后的实体及实体之间的关系构建对应的知识图谱。
7.根据权利要求1所述的方法,其特征在于,还包括:
在获取会议记录文本之后,获取所述会议记录文本对应的会议主题;
根据所述会议主题获取相对应的专业词汇包;
根据所述专业词汇包对所述会议记录文本中包含的专业词汇进行纠正。
8.根据权利要求1所述的方法,其特征在于,还包括:
在所述根据所述实体及实体之间的关系建立对应的知识图谱之后,将所述知识图谱发送至关联的显示屏上进行展示。
9.一种处理器,其特征在于,所述处理器被配置成执行根据权利要求1至8中任一项所述的基于会议记录构建知识图谱的方法。
10.一种基于会议记录构建知识图谱的装置,其特征在于,包括根据权利要求9所述的处理器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011232612.5A CN112487197A (zh) | 2020-11-06 | 2020-11-06 | 基于会议记录构建知识图谱的方法、装置及处理器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011232612.5A CN112487197A (zh) | 2020-11-06 | 2020-11-06 | 基于会议记录构建知识图谱的方法、装置及处理器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112487197A true CN112487197A (zh) | 2021-03-12 |
Family
ID=74928831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011232612.5A Pending CN112487197A (zh) | 2020-11-06 | 2020-11-06 | 基于会议记录构建知识图谱的方法、装置及处理器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112487197A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129895A (zh) * | 2021-04-20 | 2021-07-16 | 上海仙剑文化传媒股份有限公司 | 一种语音检测处理系统 |
CN113806554A (zh) * | 2021-09-14 | 2021-12-17 | 上海云思智慧信息技术有限公司 | 面向海量会议文本的知识图谱构建方法 |
CN114398464A (zh) * | 2021-12-28 | 2022-04-26 | 北方工业大学 | 一种基于知识图谱的研讨数据展示方法及系统 |
CN116304109A (zh) * | 2023-03-30 | 2023-06-23 | 上海云思智慧信息技术有限公司 | 基于会议知识图谱的检索方法、系统、介质及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090144609A1 (en) * | 2007-10-17 | 2009-06-04 | Jisheng Liang | NLP-based entity recognition and disambiguation |
KR20100072841A (ko) * | 2008-12-22 | 2010-07-01 | 한국전자통신연구원 | 대용어 복원 방법 |
US9535902B1 (en) * | 2013-06-28 | 2017-01-03 | Digital Reasoning Systems, Inc. | Systems and methods for entity resolution using attributes from structured and unstructured data |
CN108874878A (zh) * | 2018-05-03 | 2018-11-23 | 众安信息技术服务有限公司 | 一种知识图谱的构建系统及方法 |
CN110188206A (zh) * | 2019-05-08 | 2019-08-30 | 北京邮电大学 | 基于翻译模型的协同迭代联合实体对齐方法及装置 |
CN111507088A (zh) * | 2020-04-15 | 2020-08-07 | 深圳前海微众银行股份有限公司 | 语句补全方法、设备及可读存储介质 |
CN111782800A (zh) * | 2020-06-30 | 2020-10-16 | 上海仪电(集团)有限公司中央研究院 | 一种面向事件追溯的智能会议分析方法 |
-
2020
- 2020-11-06 CN CN202011232612.5A patent/CN112487197A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090144609A1 (en) * | 2007-10-17 | 2009-06-04 | Jisheng Liang | NLP-based entity recognition and disambiguation |
KR20100072841A (ko) * | 2008-12-22 | 2010-07-01 | 한국전자통신연구원 | 대용어 복원 방법 |
US9535902B1 (en) * | 2013-06-28 | 2017-01-03 | Digital Reasoning Systems, Inc. | Systems and methods for entity resolution using attributes from structured and unstructured data |
CN108874878A (zh) * | 2018-05-03 | 2018-11-23 | 众安信息技术服务有限公司 | 一种知识图谱的构建系统及方法 |
CN110188206A (zh) * | 2019-05-08 | 2019-08-30 | 北京邮电大学 | 基于翻译模型的协同迭代联合实体对齐方法及装置 |
CN111507088A (zh) * | 2020-04-15 | 2020-08-07 | 深圳前海微众银行股份有限公司 | 语句补全方法、设备及可读存储介质 |
CN111782800A (zh) * | 2020-06-30 | 2020-10-16 | 上海仪电(集团)有限公司中央研究院 | 一种面向事件追溯的智能会议分析方法 |
Non-Patent Citations (2)
Title |
---|
余凡: "《领域本体构建方法及实证研究 以测绘学领域为例》", 31 August 2015, 武汉:武汉大学出版社, pages: 118 - 122 * |
阿塔夫·法辛达等: "《社交媒体自然语言处理 第2版》", 31 August 2011, 广州:中山大学出版社, pages: 190 - 192 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129895A (zh) * | 2021-04-20 | 2021-07-16 | 上海仙剑文化传媒股份有限公司 | 一种语音检测处理系统 |
CN113129895B (zh) * | 2021-04-20 | 2022-12-30 | 上海仙剑文化传媒股份有限公司 | 一种语音检测处理系统 |
CN113806554A (zh) * | 2021-09-14 | 2021-12-17 | 上海云思智慧信息技术有限公司 | 面向海量会议文本的知识图谱构建方法 |
CN114398464A (zh) * | 2021-12-28 | 2022-04-26 | 北方工业大学 | 一种基于知识图谱的研讨数据展示方法及系统 |
CN114398464B (zh) * | 2021-12-28 | 2023-01-24 | 北方工业大学 | 一种基于知识图谱的研讨数据展示方法及系统 |
CN116304109A (zh) * | 2023-03-30 | 2023-06-23 | 上海云思智慧信息技术有限公司 | 基于会议知识图谱的检索方法、系统、介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230196014A1 (en) | Stylistic Text Rewriting for a Target Author | |
CN112487197A (zh) | 基于会议记录构建知识图谱的方法、装置及处理器 | |
US10726204B2 (en) | Training data expansion for natural language classification | |
Phatthiyaphaibun et al. | Pythainlp: Thai natural language processing in python | |
US9588958B2 (en) | Cross-language text classification | |
CN110276071B (zh) | 一种文本匹配方法、装置、计算机设备及存储介质 | |
CN114547329A (zh) | 建立预训练语言模型的方法、语义解析方法和装置 | |
US20200192941A1 (en) | Search method, electronic device and storage medium | |
US20190018833A1 (en) | System and method for rule creation from natural language text | |
RU61442U1 (ru) | Система автоматизированного упорядочения неструктурированного информационного потока входных данных | |
CN112380866A (zh) | 一种文本话题标签生成方法、终端设备及存储介质 | |
Antony et al. | A survey of advanced methods for efficient text summarization | |
CN112579733A (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
Potter | A survey of knowledge acquisition from natural language | |
CN111199170B (zh) | 配方文件识别方法及装置、电子设备、存储介质 | |
CN113779200A (zh) | 目标行业词库的生成方法、处理器及装置 | |
CN111967253A (zh) | 一种实体消歧方法、装置、计算机设备及存储介质 | |
CN113688615A (zh) | 一种字段注释生成、字符串理解方法、设备及存储介质 | |
Leitao et al. | NLForSpec: Translating Natural Language Descriptions into Formal Test Case Specifications. | |
CN111160028A (zh) | 判断两个文本语义相似度的方法、装置、存储介质及设备 | |
US11783112B1 (en) | Framework agnostic summarization of multi-channel communication | |
Walsh | Natural Language Processing | |
CN114385779B (zh) | 一种应急调度指令执行方法、装置及电子设备 | |
CN116225770B (zh) | 补丁匹配方法、装置、设备及存储介质 | |
CN113590768B (zh) | 一种文本关联度模型的训练方法及装置、问答方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |