CN111241298B - 信息处理方法、装置和计算机可读存储介质 - Google Patents
信息处理方法、装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN111241298B CN111241298B CN202010018141.1A CN202010018141A CN111241298B CN 111241298 B CN111241298 B CN 111241298B CN 202010018141 A CN202010018141 A CN 202010018141A CN 111241298 B CN111241298 B CN 111241298B
- Authority
- CN
- China
- Prior art keywords
- text
- entity
- profile
- information
- brief introduction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种信息处理方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取至少两个的待融合实体对应的简介文本;所述简介文本用于描述对应的所述待融合实体的实体信息;分别提取每个所述简介文本对应的语义特征信息,以及,提取各个所述简介文本之间的公共特征信息;根据每个所述简介文本对应的语义特征信息和所述公共特征信息,确定所述至少两个的待融合实体之间的实体相似度;当所述实体相似度符合预设条件时,将所述至少两个的待融合实体进行融合,得到融合后实体。本申请提供的方案可以提高实体融合效率。
Description
技术领域
本申请涉及知识图谱技术领域,特别是涉及一种基于知识图谱的信息处理方法、装置、计算机可读存储介质和计算机设备。
背景技术
知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
在知识图谱的构建过程中,现有技术在进行实体融合时,往往需要基于人工制定复杂繁琐的规则,通过属性相似度比较来对待融合实体进行实体融合,使得现有技术在进行实体融合时存在效率不高的问题。
发明内容
基于此,有必要针对现有技术在进行实体融合时存在效率不高的技术问题,提供一种知识图谱的信息处理方法、装置、计算机可读存储介质和计算机设备。
一种信息处理方法,包括:
获取至少两个的待融合实体对应的简介文本;所述简介文本用于描述对应的所述待融合实体的实体信息;
分别提取每个所述简介文本对应的语义特征信息,以及,提取各个所述简介文本之间的公共特征信息;
根据每个所述简介文本对应的语义特征信息和所述公共特征信息,确定所述至少两个的待融合实体之间的实体相似度;
当所述实体相似度符合预设条件时,将所述至少两个的待融合实体进行融合,得到融合后实体。
一种信息处理装置,所述装置包括:
获取模块,用于获取至少两个的待融合实体对应的简介文本;所述简介文本用于描述对应的所述待融合实体的实体信息;
提取模块,用于分别提取每个所述简介文本对应的语义特征信息,以及,提取各个所述简介文本之间的公共特征信息;
确定模块,用于根据每个所述简介文本对应的语义特征信息和所述公共特征信息,确定所述至少两个的待融合实体之间的实体相似度;
融合模块,用于当所述实体相似度符合预设条件时,将所述至少两个的待融合实体进行融合,得到融合后实体。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取至少两个的待融合实体对应的简介文本;所述简介文本用于描述对应的所述待融合实体的实体信息;
分别提取每个所述简介文本对应的语义特征信息,以及,提取各个所述简介文本之间的公共特征信息;
根据每个所述简介文本对应的语义特征信息和所述公共特征信息,确定所述至少两个的待融合实体之间的实体相似度;
当所述实体相似度符合预设条件时,将所述至少两个的待融合实体进行融合,得到融合后实体。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取至少两个的待融合实体对应的简介文本;所述简介文本用于描述对应的所述待融合实体的实体信息;
分别提取每个所述简介文本对应的语义特征信息,以及,提取各个所述简介文本之间的公共特征信息;
根据每个所述简介文本对应的语义特征信息和所述公共特征信息,确定所述至少两个的待融合实体之间的实体相似度;
当所述实体相似度符合预设条件时,将所述至少两个的待融合实体进行融合,得到融合后实体。
上述信息处理方法、装置、计算机可读存储介质和计算机设备,通过首先获取至少两个的待融合实体对应的简介文本;并分别提取每个简介文本对应的语义特征信息,以及,提取各个简介文本之间的公共特征信息;进而根据每个简介文本对应的语义特征信息和公共特征信息,确定至少两个的待融合实体之间的实体相似度;从而在实体相似度符合预设条件时,将至少两个的待融合实体进行融合得到融合后实体,如此,通过利用待融合实体的简介信息以及各个简介信息中的公共特征信息作为辅助特征来对待融合实体进行实体融合,避免在对待融合实体进行融合时需要提前人工制定复杂繁琐的规则,从而提高了在构建知识图谱过程中的实体融合效率。
附图说明
图1为一个实施例中一种信息处理方法的应用环境图;
图2为一个实施例中一种信息处理方法的流程示意图;
图3为一个实施例中一种知识图谱的示意图;
图4为一个实施例中一种知识图谱的构建示意图;
图5为一个实施例中一种融合后实体的示意图;
图6为另一个实施例中一种信息处理方法的流程示意图;
图7为一个实施例中一种解编码模型的模型结构示意图;
图8为一个实施例中另一种信息处理方法的流程示意图;
图9为另一个实施例中另一种信息处理方法的流程示意图;
图10为一个实施例中一种信息处理方法的相似三元组提取过程的流程图;
图11为一个实施例中一种基于知识图谱的信息处理方法的流程示意图;
图12为一个实施例中一种信息处理模型的模型结构示意图;
图13为一个实施例中一种信息处理装置的结构框图;
图14为一个实施例中一种信息处理装置的融合模块的结构框图;
图15为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中一种信息处理方法的应用环境图。其中,服务器110首先获取至少两个的待融合实体对应的简介文本;简介文本用于描述对应的待融合实体的实体信息;然后,服务器110分别提取每个简介文本对应的语义特征信息,以及,提取各个简介文本之间的公共特征信息;再然后,服务器110根据每个简介文本对应的语义特征信息和公共特征信息,确定至少两个的待融合实体之间的实体相似度;最后,当服务器110确定实体相似度符合预设条件时,将至少两个的待融合实体进行融合,得到融合后实体。实际应用中,服务器110可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图2所示,在一个实施例中,提供了一种信息处理方法。本实施例主要以该方法应用于上述图1中的服务器110来举例说明。参照图2,该信息处理方法具体包括如下步骤:
S202,获取至少两个的待融合实体对应的简介文本;简介文本用于描述对应的待融合实体的实体信息。
其中,实体可以是指存储于知识图谱中的现实世界的事物,比如人、地名、概念、药物、公司等。例如,刘某某、上海、维生素C等等。
其中,知识图谱可以是指用于可视化描述真实世界中存在的各种知识发展进程与结构关系的图形,为了便于本领域技术人员的理解,图3提供了在一个实施例中一种知识图谱的示意图。
同时,图4提供了在一个实施例中一种知识图谱的构建示意图。如图4所示,实际应用中,在构建知识图谱时,需要经过运营平台连接配置平台,并通过配置平台进行一系列的配置操作,进而执行数据抽取、数据解析、分类对齐、数据清洗、实体融合、关系建设、实体出库。其中,服务器110在进行分类对齐、数据清洗、实体融合、关系建设的步骤时,服务器110可以在算法池中获取并按照相对应的预设算法执行上述的步骤。
其中,待融合实体可以是指需要进行实体融合的实体。实际应用中,不同的待融合实体具有不同的数据源。例如,某一百科网页(如百度百科)中所描述的刘某某和某一电影影评网页(如豆瓣网)中所描述的刘某某。
其中,简介文本用于描述对应的待融合实体的实体信息。例如,待融合实体对应的简介文本可以是某一百科网页中对的刘某某的人物简介所对应的文本和某一电影影评网页中对的刘某某的人物简介所对应的文本。
S204,分别提取每个简介文本对应的语义特征信息,以及,提取各个简介文本之间的公共特征信息。
其中,语义特征信息可以是指携带有简介文本所具有的语义特征的信息。
其中,公共特征信息可以是指各个简介文本之间的共同具有的特征信息。
具体实现中,服务器110在获取至少两个的待融合实体对应的简介文本之后,服务器110可以分别提取每个简介文本对应的语义特征信息。在服务器110提取每个简介文本对应的语义特征信息的过程中,服务器110可以分别将每个待融合实体对应的简介文本进行向量化,得到每个待融合实体对应的向量化简介文本,然后,将每个待融合实体对应的向量化简介文本,分别输入至对应的语义提取模型中,并根据对应的语义提取模型的输出结果,确定每个简介文本对应的语义特征信息。
于此同时,服务器110还可以通过读取至少两个的待融合实体对应的简介文本,提取出各个简介文本之间的公共特征信息。例如,公共特征信息可以是各个简介文本中共同存在的文本内容、各个简介文本中共同存在的三元组、各个简介文本中的相似三元组等。
S206,根据每个简介文本对应的语义特征信息和公共特征信息,确定至少两个的待融合实体之间的实体相似度。
其中,实体相似度可以用于表征至少两个的待融合实体之间的相似程度的值。实际应用中,实体相似度可以是上述至少两个的待融合实体为同一个实体的概率值。
具体实现中,服务器110在分别提取出每个简介文本对应的语义特征信息,以及,提取出各个简介文本之间的公共特征信息之后,服务器110对每个简介文本对应的语义特征信息和各个简介文本之间的公共特征信息进行特征提纯,根据特征提纯结果,确定至少两个的待融合实体之间的实体相似度。实际应用中,服务器110可以对每个简介文本对应的语义特征信息和公共特征信息进行全连接处理,得到全连接结果。并使用预设的激活函数,确定全连接结果对应的函数值,并将该函数值作为至少两个的待融合实体之间的实体相似度。
S208,当实体相似度符合预设条件时,将至少两个的待融合实体进行融合,得到融合后实体。
具体实现中,当服务器110确定至少两个的待融合实体之间的实体相似度之后,服务器110可以对实体相似度进行判断,确定该实体相似度是否符合预设条件,例如,实体相似度是否高于预设值,实体相似度是否处于预设数值范围等,当服务器110判定该实体相似度符合预设条件时,服务器110则判定上述的待融合实体是来源于不同知识库或数据源的同一实体,并对将至少两个的待融合实体进行融合,得到融合后实体。为了便于本领域技术人员的理解,图5提供了在一个实施例中一种融合后实体的示意图。
上述信息处理方法,通过获取至少两个的待融合实体对应的简介文本;并分别提取每个简介文本对应的语义特征信息,以及,提取各个简介文本之间的公共特征信息;进而根据每个简介文本对应的语义特征信息和公共特征信息,确定至少两个的待融合实体之间的实体相似度;从而在实体相似度符合预设条件时,将至少两个的待融合实体进行融合得到融合后实体,如此,通过利用待融合实体的简介信息以及各个简介信息中的公共特征信息作为辅助特征来对待融合实体进行实体融合,避免在对待融合实体进行融合时需要提前人工制定复杂繁琐的规则,从而提高了在构建知识图谱过程中的实体融合效率。
在一个实施例中,分别提取每个简介文本对应的语义特征信息,包括:将各个简介文本的文本内容向量化,确定各个简介文本对应的文本向量;分别对每个简介文本对应的文本向量进行特征提取,确定每个简介文本对应的语义特征信息。
具体实现中,服务器110在分别提取每个简介文本对应的语义特征信息的过程中,具体包括:服务器110将各个简介文本的文本内容向量化,确定各个简介文本对应的文本向量;然后,服务器110分别对每个简介文本对应的文本向量进行特征提取,确定每个简介文本对应的语义特征信息。具体来说,当至少两个的待融合实体包括第一待融合实体和第二待融合实体时,服务器110在提取每个简介文本对应的语义特征信息的过程中,服务器110具体可以分别将第一待融合实体对应的简介文本和第一待融合实体对应的简介文本进行向量化,得到第一待融合实体对应的第一文本向量和第二待融合实体对应的第二文本向量。
然后,服务器110将第一文本向量输入至对应的第一语义提取模型和将第二文本向量输入至对应的第二语义提取模型;再然后,服务器110根据第一语义提取模型的第一输出结果,确定第一待融合实体对应的语义特征信息,以及,根据第二语义提取模型的第二输出结果,确定第二待融合实体对应的语义特征信息。
需要说明的是,第一语义提取模型和第二语义提取模型可以是网络结构相同且权重共享的神经网络模型,即第一语义提取模型和第二语义提取模型可以组成孪生神经网络模型(Siamese Network)。
本实施例的技术方案,在提取每个简介文本对应的语义特征信息的过程中,通过将各个简介文本的文本内容向量化,确定各个简介文本对应的文本向量;然后,在分别将每个简介文本对应的文本向量进行特征提取,确定每个简介文本对应的语义特征信息,从而可以实现将文本准确地转化为包含有语义特征的数值型特征,便于后续对每个简介文本对应的文本向量进行特征提取,确定每个简介文本对应的语义特征信息,进而提高了在构建知识图谱过程中的实体融合效率。
在一个实施例中,将各个简介文本的文本内容向量化,确定各个简介文本对应的文本向量,包括:对每个简介文本的文本内容进行分词处理,确定每个简介文本中的至少两个的词;对每个简介文本中的至少两个的词进行向量化处理,确定每个简介文本对应的至少两个的词向量;将每个简介文本对应的至少两个的词向量,作为每个简介文本对应的文本向量。
具体实现中,服务器110在将各个简介文本的文本内容向量化,确定各个简介文本对应的文本向量的过程中,具体包括如下步骤:首先,服务器110对每个简介文本的文本内容进行分词处理,确定每个简介文本中的至少两个的词;然后,服务器110对每个简介文本中的至少两个的词进行向量化处理,确定每个简介文本对应的至少两个的词向量;具体来说,最后,服务器110可以每个简介文本中的至少两个的词进行向量化处理输入至预训练的词向量生成模型,通过该词向量生成模型,对每个简介文本中的至少两个的词进行向量化处理,确定每个简介文本对应的至少两个的词向量。实际应用中,词向量生成模型可以是基于上亿次query(一种机器训练方法)预训练得到的word2vec(一群用来产生词向量的相关模型)。如此,word2vec可以在保留简介文本中每个词的含义的同时将简介文本的每个词转化为对应的词向量。
最后,服务器110将每个简介文本对应的至少两个的词向量,作为每个简介文本对应的文本向量。
本实施例的技术方案,通过对对每个简介文本的文本内容进行分词处理,确定每个简介文本中的至少两个的词;然后,对每个简介文本中的至少两个的词进行向量化处理,确定每个简介文本对应的至少两个的词向量;从而可以在保留简介文本中每个词的含义的同时将简介文本的每个词转化为对应的词向量,准确生成包含有简介文本语义特征的文本向量,便于后续对该文本向量进行特征提取,从而准确地确定每个简介文本对应的语义特征信息,进而提高了在构建知识图谱过程中的实体融合效率。
如图6所示,在另一个实施例中,提供了一种信息处理方法。参照图6,该信息处理方法具体包括如下步骤:S602,获取至少两个的待融合实体对应的简介文本;所述简介文本用于描述对应的所述待融合实体的实体信息。S604,对每个所述简介文本的文本内容进行分词处理,确定每个所述简介文本中的至少两个的词。S606,对每个所述简介文本中的至少两个的词进行向量化处理,确定每个所述简介文本对应的至少两个的词向量。 S608,将每个所述简介文本对应的至少两个的词向量,作为每个所述简介文本对应的文本向量。S610,分别对每个所述简介文本对应的文本向量进行特征提取,确定每个所述简介文本对应的语义特征信息。S612,提取各个所述简介文本之间的公共特征信息,并根据每个所述简介文本对应的语义特征信息和所述公共特征信息,确定所述至少两个的待融合实体之间的实体相似度。S614,当所述实体相似度符合预设条件时,将所述至少两个的待融合实体进行融合,得到融合后实体。上述步骤的具体限定可以参见上文实施例的具体限定,在此不再赘述。
在一个实施例中,分别提取每个简介文本对应的语义特征信息,包括:通过预训练的解编码模型中的解码器,对每个简介文本对应的文本向量进行解码,得到文本解码向量;根据文本解码向量,确定每个简介文本对应的文本编码向量;根据文本解码向量和文本编码向量,确定每个简介文本对应的语义特征信息。其中,在根据文本解码向量,确定每个简介文本对应的文本编码向量的过程中,通过基于注意力机制,获取文本解码向量对应的匹配度权重;匹配度权重为根据文本解码向量与文本解码向量对应的文本向量之间的匹配程度得到的;根据匹配度权重,对文本解码向量进行权重调整,得到加权后的文本解码向量;通过解编码模型中的编码器,对加权后的文本解码向量进行编码,得到文本编码向量。
其中,解编码模型可以是指对简介文本对应的文本向量进行解码处理和编码处理的神经网络模型。其中,解编码模型包括解码器和编码器。
其中,匹配度权重为根据文本解码向量与文本解码向量对应的文本向量之间的匹配程度得到的。
具体实现中,服务器110在提取每个简介文本对应的语义特征信息的过程中,服务器110可以将每个简介文本对应的文本向量作为输入参数,输入至对应的预训练的解编码模型;然后,服务器110通过预训练的解编码模型中的解码器,对每个简介文本对应的文本向量进行解码,得到文本解码向量;其中,该文本解码向量可以包括该文本向量对应的语义编码。
然后,服务器110再在根据文本解码向量,确定每个简介文本对应的文本编码向量;具体来说,服务器110通过基于注意力机制,获取文本解码向量对应的匹配度权重;其中,匹配度权重可以是服务器110为根据文本解码向量与文本解码向量对应的文本向量之间的匹配程度得到的;根据匹配度权重,对文本解码向量进行权重调整,得到加权后的文本解码向量,使得解编码模型的编码器可以针对性地提取出与当前任务相关的语义特征;然后,服务器110通过解编码模型中的编码器,对加权后的文本解码向量进行编码,得到文本编码向量。最后,服务器110根据文本解码向量和文本编码向量通过最大池化层或平均池化层等方式,确定每个简介文本对应的语义特征信息。
本实施例的技术方案,通过预训练的解编码模型中的解码器,对每个简介文本对应的文本向量进行解码,得到文本解码向量;根据文本解码向量,确定每个简介文本对应的文本编码向量;根据文本解码向量和文本编码向量,确定每个简介文本对应的语义特征信息,从而可以提取各个待融合实体的简介文本中所携带的不同层面的语义信息;同时,通过采用注意力机制,对文本解码向量进行权重调整,使得可以针对性地提取出与当前任务相关的语义特征,进而使服务器可以更加快速地根据每个简介文本对应的语义特征信息,快速且准确地判断各个待融合实体是否需要融合,进而提高了在构建知识图谱过程中的实体融合效率。
为了便于本领域技术人员的理解,上述实施例中的解编码模型的模型结构可以参见图7,图7提供的一种解编码模型的模型结构;其中,解编码模型700可以包括解码器(Encoder)740、注意力机制层(Attention Layer)730、编码器(Decoder)720和最大池化层(Max-pooling)710;实际应用中,服务器110在提取每个简介文本对应的语义特征信息的过程中,服务器110可以将每个简介文本对应的文本向量作为输入参数,输入至解码器740供解码器740进行语义解码,得到具有语义编码的文本解码向量。然后,服务器110将文本解码向量输入至注意力机制层730,如此注意力机制层730可以通过基于注意力机制,获取文本解码向量对应的匹配度权重;其中,匹配度权重可以是服务器110为根据文本解码向量与文本解码向量对应的文本向量之间的匹配程度得到的;根据匹配度权重,对文本解码向量进行权重调整,得到加权后的文本解码向量。然后,服务器110再将加权后的文本解码向量作为输入参数,输入至编码器720中,使编码器720对加权后的文本解码向量进行编码,得到文本编码向量。最后,服务器110通过shortcut connection(直连连接或捷径连接)的方式将解码器740输出的文本解码向量和编码器720输出的文本编码向量,连接至最大池化层710。通过最大池化层710对文本解码向量和文本编码向量进行最大池化,得到最大池化结果;最后,服务器110将最大池化结果,作为解编码模型700的输出结果即简介文本对应的语义特征信息。实际应用中,注意力机制层730可以由预训练的基于神经网络的注意力模型构成。
实际应用中,解码器740和编码器720均可以采用Bi-GRU(双向门控循环单元网络)的网络结构。具体地,解码器740可以采用第一BiGRU层,编码器720可以采用第二BiGRU层。如此,可以将上述的解编码模型700命名为Hierarchical Residual BiGRU(分层残差双向门控循环单元网络)。其中,Hierarchical(分层)是指解编码模型700可以由两层BiGRU堆叠而成。Residual(残差)是指解编码模型700中采用shortcut connection(直连连接或捷径连接)的方式将解码器740输出的文本解码向量和编码器720输出的文本编码向量,连接至最大池化层710。
在一个实施例中,根据文本解码向量和文本编码向量,确定每个简介文本对应的语义特征信息,包括:对每个简介文本对应的文本解码向量和每个简介文本对应的文本编码向量进行最大池化,得到最大池化结果;将最大池化结果,作为每个简介文本对应的语义特征信息。
其中,最大池化(max-pooling)可以是指取局部接受域中值最大的点。
具体实现中,服务器110在根据文本解码向量和文本编码向量,确定每个简介文本对应的语义特征信息的过程中,具体包括:服务器110对每个简介文本对应的文本解码向量和每个简介文本对应的文本编码向量进行最大池化,得到最大池化结果;具体来说,服务器110可以将每个简介文本对应的文本解码向量和每个简介文本对应的文本编码向量输入至最大池化层进行最大池化,得到最大池化结果;最后,服务器110将最大池化结果,作为每个简介文本对应的语义特征信息。
本实施例的技术方案,服务器在根据文本解码向量和文本编码向量,确定每个简介文本对应的语义特征信息的过程中,通过对每个简介文本对应的文本解码向量和每个简介文本对应的文本编码向量进行最大池化,得到最大池化结果;从而使得得到的最大池化结果可以准确地提取出携带有简介文本对应的不同层面的语义信息,进而使每个简介文本对应的语义特征信息,均可以准确地表达出简介文本对应的语义,从而便于后续快速地对判断出待融合实体是否需要融合,进而提高了在构建知识图谱过程中的实体融合效率。
如图8所示,在一个实施例中,提供了另一种信息处理方法。参照图8,该信息处理方法具体包括如下步骤:S802,获取至少两个的待融合实体对应的简介文本;所述简介文本用于描述对应的所述待融合实体的实体信息。S804,将各个所述简介文本的文本内容向量化,确定各个所述简介文本对应的文本向量。S806,通过预训练的解编码模型中的解码器,对每个所述简介文本对应的文本向量进行解码,得到文本解码向量;S808,基于注意力机制,获取所述文本解码向量对应的匹配度权重;所述匹配度权重为根据所述文本解码向量与所述文本解码向量对应的文本向量之间的匹配程度得到的。S810,根据所述匹配度权重,对所述文本解码向量进行权重调整,得到加权后的文本解码向量。S812,通过所述解编码模型中的编码器,对所述加权后的文本解码向量进行编码,得到所述文本编码向量。S814,对每个所述简介文本对应的文本解码向量和每个所述简介文本对应的文本编码向量进行最大池化,得到最大池化结果,作为每个所述简介文本对应的语义特征信息。S816,提取各个所述简介文本之间的公共特征信息,并根据每个所述简介文本对应的语义特征信息和所述公共特征信息,确定所述至少两个的待融合实体之间的实体相似度。S818,当所述实体相似度符合预设条件时,将所述至少两个的待融合实体进行融合,得到融合后实体。上述步骤的具体限定可以参见上文实施例的具体限定,在此不再赘述。
在一个实施例中,至少两个的待融合实体包括第一实体和第二实体,提取各个简介文本之间的公共特征信息,包括:获取第一实体的简介文本与第二实体的简介文本之间的公共属性信息,获取第一实体的简介文本与第二实体的简介文本之间的公共文本信息,以及,获取第一实体的简介文本与第二实体的简介文本之间的公共领域信息;将公共属性信息、公共文本信息和公共领域信息中的至少一种作为各个简介文本之间的公共特征信息。
其中,至少两个的待融合实体包括第一实体和第二实体。
其中,公共属性信息可以是指各个简介文本所描述的实体共同具有的属性的信息。
其中,公共文本信息可以是指各个简介文本中均共同具有的文本内容的信息。
其中,公共领域信息可以是指各个简介文本所描述的实体共同所处的领域的信息。
具体实现中,服务器110在提取各个简介文本之间的公共特征信息的过程中,具体包括:服务器110分别读取第一实体的简介文本的文本内容与第二实体的简介文本的文本内容;然后,服务器110在第一实体的简介文本的文本内容与第二实体的简介文本的文本内容中,获取第一实体的简介文本与第二实体的简介文本之间的公共属性信息,获取第一实体的简介文本与第二实体的简介文本之间的公共文本信息,以及,获取第一实体的简介文本与第二实体的简介文本之间的公共领域信息;最后,服务器110将公共属性信息、公共文本信息和公共领域信息中的至少一种作为各个简介文本之间的公共特征信息。
本实施例的技术方案,通过分别提取出第一实体的简介文本与第二实体的简介文本之间的公共属性信息、公共文本信息、公共领域信息等信息作为公共特征信息,从而可以更为快速地供服务器判断出待融合实体是否需要融合,进而提高了在构建知识图谱过程中的实体融合效率。
如图9所示,在另一个实施例中,提供了另一种信息处理方法。参照图9,该信息处理方法具体包括如下步骤:S902,获取至少两个的待融合实体对应的简介文本;所述简介文本用于描述对应的所述待融合实体的实体信息。S904,分别提取每个所述简介文本对应的语义特征信息;其中,所述至少两个的待融合实体包括第一实体和第二实体。S906,获取所述第一实体的简介文本与所述第二实体的简介文本之间的公共属性信息。S908,获取所述第一实体的简介文本与所述第二实体的简介文本之间的公共文本信息。S910,获取所述第一实体的简介文本与所述第二实体的简介文本之间的公共领域信息。S912,将所述公共属性信息、所述公共文本信息和所述公共领域信息中的至少一种作为各个所述简介文本之间的公共特征信息。 S914,根据每个所述简介文本对应的语义特征信息和所述公共特征信息,确定所述至少两个的待融合实体之间的实体相似度。S916,当所述实体相似度符合预设条件时,将所述至少两个的待融合实体进行融合,得到融合后实体。上述步骤的具体限定可以参见上文实施例的具体限定,在此不再赘述。
在一个实施例中,获取第一实体的简介文本与第二实体的简介文本之间的公共属性信息,包括:获取第一实体的简介文本与第二实体的简介文本之间的相似三元组;相似三元组为属性值相似的至少两个的三元组;确定相似三元组的数量,作为各个简介文本之间的公共属性信息。
其中,相似三元组为属性值相似的至少两个的三元组。
具体实现中,服务器110在获取第一实体的简介文本与第二实体的简介文本之间的公共属性信息的过程中,具体包括:服务器110通分别读取第一实体的简介文本与第二实体的简介文本;然后,服务器110在第一实体的简介文本的文本内容和第二实体的简介文本的文本内容中,提取出第一实体的简介文本中的三元组和第二实体的简介文本中的三元组;然后,服务器110在第一实体的简介文本中的三元组和第二实体的简介文本中的三元组中,确定第一实体的简介文本与第二实体的简介文本之间的相似三元组;其中,相似三元组为属性值相似的至少两个的三元组;最后,服务器110通过统计相似三元组的组数,并将相似三元组的组数作为各个简介文本之间的公共属性信息。
本实施例的技术方案,在获取第一实体的简介文本与第二实体的简介文本之间的公共属性信息的过程中,通过获取第一实体的简介文本与第二实体的简介文本之间的相似三元组,其中,相似三元组可以是指属性值相似的至少两个的三元组;然后,通过确定相似三元组的数量,并将相似三元组的数量,作为各个简介文本之间的公共属性信息,从而使公共属性信息在参数量较少的情况下,可以准确携带有第一实体的简介文本与第二实体的简介文本之间的公共属性信息,进而使服务器可以快速判断出待融合实体是否需要融合,提高了在构建知识图谱过程中的实体融合效率。
在一个实施例中,获取第一实体的简介文本与第二实体的简介文本之间的相似三元组,包括:提取第一实体的简介文本中的三元组,以及,提取第二实体的简介文本中的三元组;确定第一实体的简介文本中的三元组与第二实体的简介文本中的三元组之间的三元组相似度;当三元组相似度大于预设的三元组相似度阈值时,确定第一实体的简介文本中的三元组与第二实体的简介文本中的三元组为相似三元组。
其中,三元组相似度可以是指用于表征至少两个的三元组之间的相似程度的值。
具体实现中,服务器110在获取第一实体的简介文本与第二实体的简介文本之间的相似三元组的过程中,具体包括:服务器110通过分别读取第一实体的简介文本与第二实体的简介文本;然后,服务器110在第一实体的简介文本的文本内容和第二实体的简介文本的文本内容中,提取出第一实体的简介文本中的三元组和第二实体的简介文本中的三元组;然后,服务器110分别两两计算第一实体的简介文本中的三元组与第二实体的简介文本中的三元组之间的三元组相似度。
实际应用中,服务器110可以将第一实体的简介文本中的三元组转换为第一特征向量和将第二实体的简介文本中的三元组转换为第二特征向量;然后,服务器110通过计算出第一特征向量与第二特征向量之间的向量距离,例如,欧氏距离,并将计算得到的向量距离作为第一实体的简介文本中的三元组与第二实体的简介文本中的三元组之间的三元组相似度;然后,服务器110判断该三元组相似度是否大于预设的三元组相似度阈值时;若该三元组相似度大于三元组相似度阈值,服务器110则确定第一实体的简介文本中的三元组与第二实体的简介文本中的三元组为相似三元组。若该三元组相似度小于或等于三元组相似度阈值,服务器110则不执行确定第一实体的简介文本中的三元组与第二实体的简介文本中的三元组为相似三元组的步骤。
本实施例的技术方案,通过在获取第一实体的简介文本与第二实体的简介文本之间的相似三元组的过程中,通过确定第一实体的简介文本中的三元组与第二实体的简介文本中的三元组之间的三元组相似度,当三元组相似度大于预设的三元组相似度阈值时,准确地确定第一实体的简介文本中的三元组与第二实体的简介文本中的三元组为相似三元组,从而提高了服务器确定第一实体的简介文本与第二实体的简介文本之间的相似三元组的准确度。
如图10所示,在一个实施例中,提供了一种信息处理方法的相似三元组提取过程的流程图。参照图10,具体包括如下步骤:S1002,提取所述第一实体的简介文本中的三元组,以及,提取所述第二实体的简介文本中的三元组。S1004,确定所述第一实体的简介文本中的三元组与所述第二实体的简介文本中的三元组之间的三元组相似度。S1006,当所述三元组相似度大于预设的三元组相似度阈值时,确定所述第一实体的简介文本中的三元组与所述第二实体的简介文本中的三元组为所述相似三元组。S1008,确定所述相似三元组的数量,作为各个所述简介文本之间的公共属性信息。上述步骤的具体限定可以参见上文实施例的具体限定,在此不再赘述。
在一个实施例中,获取第一实体的简介文本与第二实体的简介文本之间的公共文本信息,包括:确定第一实体的简介文本与第二实体的简介文本之间的相同文本内容;将相同文本内容的文本长度,作为各个简介文本之间的公共文本信息。
其中,相同文本内容可以指文字相同的文本内容。
具体实现中,服务器110在获取第一实体的简介文本与第二实体的简介文本之间的公共文本信息的过程中,具体包括:首先,服务器110分别读取第一实体的简介文本与第二实体的简介文本;然后,服务器110在第一实体的简介文本的文本内容和第二实体的简介文本的文本内容中,确定第一实体的简介文本与第二实体的简介文本之间的相同文本内容;最后,服务器110将相同文本内容的文本长度,作为各个简介文本之间的公共文本信息。
本实施例的技术方案,在获取第一实体的简介文本与第二实体的简介文本之间的公共文本信息的过程中,通过获取第一实体的简介文本与第二实体的简介文本之间的相同文本内容;然后,通过确定相同文本内容的文本长度,并将相同文本内容的文本长度,作为各个简介文本之间的公共文本信息,从而使公共文本信息在参数量较少的情况下,准确携带有第一实体的简介文本与第二实体的简介文本之间的公共文本信息对应的特征,进而使服务器可以快速判断出待融合实体是否需要融合,提高了在构建知识图谱过程中的实体融合效率。
在一个实施例中,获取第一实体的简介文本与第二实体的简介文本之间的公共领域信息,包括:根据第一实体的简介文本,确定第一实体的领域信息;以及,根据第二实体的简介文本,确定第二实体的领域信息;确定第一实体的领域信息与第二实体的领域信息之间的相同领域信息;将相同领域信息,作为各个简介文本之间的公共领域信息。
其中,领域信息可以是指实体所属领域对应的信息,例如,当实体为刘某某时,则该实体对应的领域信息可以是艺人等。
具体实现中,服务器110在获取第一实体的简介文本与第二实体的简介文本之间的公共领域信息的过程中,具体包括:服务器110分别读取第一实体的简介文本与第二实体的简介文本;然后,服务器110在第一实体的简介文本的文本内容和第二实体的简介文本的文本内容中,确定第一实体的领域信息和第二实体的领域信息。然后,服务器110在第一实体的领域信息和第二实体的领域信息中,确定第一实体的领域信息与第二实体的领域信息之间的相同领域信息;最后,服务器110将该相同领域信息对应的特征向量,作为各个简介文本之间的公共领域信息。
例如,服务器110通过在第一实体的简介文本中,确定第一实体的领域信息为领域A、领域B、和领域D,同时,服务器110通过在第二实体的简介文本中,确定第二实体的领域信息为领域C、领域B和领域F;然后,服务器110确定第一实体的领域信息与第二实体的领域信息之间的相同领域信息为领域B后,服务器110将领域B,作为各个简介文本之间的公共领域信息。
本实施例的技术方案,在获取第一实体的简介文本与第二实体的简介文本之间的公共领域信息的过程中,通过获取第一实体的简介文本与第二实体的简介文本之间的相同领域信息;然后,通过将相同领域信息,作为各个简介文本之间的公共领域信息,从而可以使服务器可以快速判断出待融合实体是否需要融合,提高了在构建知识图谱过程中的实体融合效率。
在一个实施例中,根据每个简介文本对应的语义特征信息和公共特征信息,确定至少两个的待融合实体之间的实体相似度,包括:通过预设的全连接层,将每个简介文本对应的语义特征信息和公共特征信息进行全连接处理,得到全连接结果;通过预设的激活函数,确定全连接结果对应的激活函数值,作为至少两个的待融合实体之间的实体相似度。
具体实现中,服务器110在根据每个简介文本对应的语义特征信息和公共特征信息,确定至少两个的待融合实体之间的实体相似度的过程中,具体包括:首先,当服务器110通过预设的全连接层,将每个简介文本对应的语义特征信息和公共特征信息进行全连接处理,得到全连接结果;具体来说,上述的预设的全连接层包括第一全连接层和第二全连接层,服务器110首先将每个简介文本对应的语义特征信息和公共特征信息输入至第一全连接层,得到第一全连接结果;然后,服务器110再将第一全连接结果输入至第二全连接层,得到全连接结果。再然后,服务器110获取预设的激活函数,通过该激活函数,确定全连接结果对应的激活函数值,作为至少两个的待融合实体之间的实体相似度。实际应用中,激活函数可以是Sigmoid函数。
本实施例的技术方案,通过使用预设的全连接层,将每个简介文本对应的语义特征信息和公共特征信息进行全连接处理,从而可以实现快速地对每个简介文本对应的语义特征信息和公共特征信息进行特征提纯,同时通过使用预设的激活函数,确定全连接结果对应的激活函数值,并作为至少两个的待融合实体之间的实体相似度,进而以概率的形式输出实体相似度预测的结果。
在一个实施例中,还包括:获取实体相似度阈值;判断实体相似度是否低于实体相似度阈值;若否,则判定实体相似度符合预设条件。
具体实现中,当服务器110在据每个简介文本对应的语义特征信息和公共特征信息,确定至少两个的待融合实体之间的实体相似度的步骤之后,服务器110获取实体相似度阈值;然后,服务器110判断待融合实体之间的实体相似度是否低于实体相似度阈值,若实体相似度高于或等于实体相似度阈值,则判定该实体相似度符合预设条件,对上述的至少两个的待融合实体进行实体融合,得到融合后实体。若实体相似度低于实体相似度阈值,则判定该至少两个的待融合实体并不是知识图谱中的同一个实体,则服务器110不执行对待融合实体进行实体融合。
本实施例的技术方案,通过:获取实体相似度阈值;判断实体相似度是否低于实体相似度阈值,进而判断高效地判断出待融合实体是否需要融合,提高了在构建知识图谱过程中的实体融合效率。
如图11所示,在一个实施例中,提供了一种基于知识图谱的信息处理方法。参照图11,该信息处理方法具体包括如下步骤:
S1102,获取至少两个的待融合实体对应的简介文本。所述简介文本用于描述对应的所述待融合实体的实体信息。S1104,将各个所述简介文本的文本内容向量化,确定各个所述简介文本对应的文本向量。S1106,分别对每个所述简介文本对应的文本向量进行特征提取,确定每个所述简介文本对应的语义特征信息。S1108,提取各个所述简介文本之间的公共特征信息。S1110,通过预设的全连接层,将每个所述简介文本对应的语义特征信息和所述公共特征信息进行全连接处理,得到全连接结果。S1112,通过预设的激活函数,确定所述全连接结果对应的激活函数值,作为至少两个的待融合实体之间的实体相似度。S1114,获取实体相似度阈值。判断实体相似度是否低于实体相似度阈值。S1116,若否,则将所述至少两个的待融合实体进行融合,得到融合后实体。上述步骤的具体限定可以参见上文实施例的具体限定,在此不再赘述。
应该理解的是,虽然图2、图6、图8、图9、图10和图11的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图6、图8、图9、图10和图11中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
为了便于本领域技术人员的理解,图12提供了一种信息处理模型的模型结构示意图:其中,当至少两个的实体包括第一实体和第二实体时,服务器110可以分别将第一实体对应的简介文本和第一实体对应的简介文本进行向量化,得到第一实体对应的第一文本向量和第二实体对应的第二文本向量。然后,服务器110将第一文本向量输入至对应的第一解编码模型和将第二文本向量输入至对应的第二解编码模型;再然后,服务器110根据第一解编码模型的第一输出结果,确定第一实体对应的语义特征信息,以及,根据第二解编码模型的第二输出结果,确定第二实体对应的语义特征信息。与此同时,服务器110提取出第一实体对应的简介文本和第一实体对应的简介文本之间的公共属性信息、公共文本信息和公共领域信息。再然后,服务器110将第一实体对应的语义特征信息、第二实体对应的语义特征信息、公共属性信息、公共文本信息和公共领域信息等公共特征信息输入至第一全连接层,得到第一全连接结果;然后,服务器110再将第一全连接结果输入至第二全连接层,得到全连接结果。再然后,服务器110获取预设的激活函数如Sigmoid函数,通过该Sigmoid函数,确定全连接结果对应的激活函数值,作为至少两个的待融合实体之间的实体相似度。实际应用中,向量化层可以采用embedding层(一种向量化网络模型)。
需要说明的是,第一解编码模型和第二解编码模型可以是网络结构相同且权重共享即共享参数的神经网络模型,即第一解编码模型和第二解编码模型可以组成孪生神经网络模型。例如,在判断待融合实体是否需要融合时,采用共享参数的孪生神经网络模型进行相似度匹配,其中,该孪生神经网络模型可以是由两个共享参数的分层残差双向门控循环单元网络作为子网络组成的。
如图13所示,在一个实施例中,提供了一种信息处理装置,该装置包括:
获取模块1310,用于获取至少两个的待融合实体对应的简介文本;所述简介文本用于描述对应的所述待融合实体的实体信息;
提取模块1320,用于分别提取每个所述简介文本对应的语义特征信息,以及,提取各个所述简介文本之间的公共特征信息;
确定模块1330,用于根据每个所述简介文本对应的语义特征信息和所述公共特征信息,确定所述至少两个的待融合实体之间的实体相似度;
融合模块1340,用于当所述实体相似度符合预设条件时,将所述至少两个的待融合实体进行融合,得到融合后实体。
上述的一种信息处理装置,通过获取至少两个的待融合实体对应的简介文本;并分别提取每个简介文本对应的语义特征信息,以及,提取各个简介文本之间的公共特征信息;进而根据每个简介文本对应的语义特征信息和公共特征信息,确定至少两个的待融合实体之间的实体相似度;从而在实体相似度符合预设条件时,将至少两个的待融合实体进行融合得到融合后实体,如此,通过利用待融合实体的简介信息以及各个简介信息中的公共特征信息作为辅助特征来对待融合实体进行实体融合,避免在对待融合实体进行融合时需要提前人工制定复杂繁琐的规则,从而提高了在构建知识图谱过程中的实体融合效率。
在其中一个实施例中,上述的提取模块1320,包括:向量化子模块,用于将各个所述简介文本的文本内容向量化,确定各个所述简介文本对应的文本向量;特征提取子模块,用于分别对每个所述简介文本对应的文本向量进行特征提取,确定每个所述简介文本对应的语义特征信息。
在其中一个实施例中,上述的向量化子模块,具体用于对每个所述简介文本的文本内容进行分词处理,确定每个所述简介文本中的至少两个的词;对每个所述简介文本中的至少两个的词进行向量化处理,确定每个所述简介文本对应的至少两个的词向量; 将每个所述简介文本对应的至少两个的词向量,作为每个所述简介文本对应的文本向量。
在其中一个实施例中,上述的特征提取子模块,具体用于通过预训练的解编码模型中的解码器,对每个所述简介文本对应的文本向量进行解码,得到文本解码向量;根据所述文本解码向量,确定每个所述简介文本对应的文本编码向量;根据所述文本解码向量和所述文本编码向量,确定所述每个所述简介文本对应的语义特征信息。
在其中一个实施例中,上述的特征提取子模块,还具体用于基于注意力机制,获取所述文本解码向量对应的匹配度权重;所述匹配度权重为根据所述文本解码向量与所述文本解码向量对应的文本向量之间的匹配程度得到的;根据所述匹配度权重,对所述文本解码向量进行权重调整,得到加权后的文本解码向量;通过所述解编码模型中的编码器,对所述加权后的文本解码向量进行编码,得到所述文本编码向量。
在其中一个实施例中,上述的特征提取子模块,还具体用于对每个所述简介文本对应的文本解码向量和每个所述简介文本对应的文本编码向量进行最大池化,得到最大池化结果;将所述最大池化结果,作为每个所述简介文本对应的语义特征信息。
在其中一个实施例中,所述至少两个的待融合实体包括第一实体和第二实体,上述的提取模块1320,包括:信息获取子模块,用于获取所述第一实体的简介文本与所述第二实体的简介文本之间的公共属性信息,获取所述第一实体的简介文本与所述第二实体的简介文本之间的公共文本信息,以及,获取所述第一实体的简介文本与所述第二实体的简介文本之间的公共领域信息;确定子模块,用于将所述公共属性信息、所述公共文本信息和所述公共领域信息中的至少一种作为各个所述简介文本之间的公共特征信息。
在其中一个实施例中,上述的提取模块1320,具体用于获取所述第一实体的简介文本与所述第二实体的简介文本之间的相似三元组;所述相似三元组为属性值相似的至少两个的三元组;确定所述相似三元组的数量,作为各个所述简介文本之间的公共属性信息。
在其中一个实施例中,上述的提取模块1320,具体还用于提取所述第一实体的简介文本中的三元组,以及,提取所述第二实体的简介文本中的三元组;确定所述第一实体的简介文本中的三元组与所述第二实体的简介文本中的三元组之间的三元组相似度;当所述三元组相似度大于预设的三元组相似度阈值时,确定所述第一实体的简介文本中的三元组与所述第二实体的简介文本中的三元组为所述相似三元组。
在其中一个实施例中,上述的提取模块1320,具体用于确定所述第一实体的简介文本与所述第二实体的简介文本之间的相同文本内容;将所述相同文本内容的文本长度,作为各个所述简介文本之间的公共文本信息。
在其中一个实施例中,上述的提取模块1320,具体用于根据所述第一实体的简介文本,确定所述第一实体的领域信息;以及,根据所述第二实体的简介文本,确定所述第二实体的领域信息;确定所述第一实体的领域信息与所述第二实体的领域信息之间的相同领域信息;将所述相同领域信息,作为各个所述简介文本之间的公共领域信息。
在其中一个实施例中,上述的提取模块1320,具体用于通过预设的全连接层,将每个所述简介文本对应的语义特征信息和所述公共特征信息进行全连接处理,得到全连接结果;通过预设的激活函数,确定所述全连接结果对应的激活函数值,作为至少两个的待融合实体之间的实体相似度。
在其中一个实施例中,为了便于本领域技术人员的理解,如图14所示,提供了一种信息处理装置的融合模块的结构框图:其中,上述的融合模块1340,包括:阈值获取子模块1341,用于获取实体相似度阈值;判断子模块1342,用于判断所述实体相似度是否低于所述实体相似度阈值;判定子模块1343,用于若否,则判定所述实体相似度符合预设条件。
关于一种信息处理装置的具体限定可以参见上文中对于一种信息处理方法的限定,在此不再赘述。上述一种信息处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图15示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器110。如图10所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现信息处理方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行信息处理方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图15中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的信息处理装置可以实现为一种计算机程序的形式,计算机程序可在如图15所示的计算机设备上运行。计算机设备的存储器中可存储组成该信息处理装置的各个程序模块,比如,图13所示的获取模块1310、提取模块1320、确定模块1330和融合模块1340。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的信息处理方法中的步骤。
例如,图15所示的计算机设备可以通过如图13所示的信息处理装置中的获取模块1310执行获取至少两个的待融合实体对应的简介文本;所述简介文本用于描述对应的所述待融合实体的实体信息。计算机设备可通过提取模块1320执行分别提取每个所述简介文本对应的语义特征信息,以及,提取各个所述简介文本之间的公共特征信息。计算机设备可通过确定模块1330执行根据每个所述简介文本对应的语义特征信息和所述公共特征信息,确定所述至少两个的待融合实体之间的实体相似度。计算机设备可通过融合模块1340执行当所述实体相似度符合预设条件时,将所述至少两个的待融合实体进行融合,得到融合后实体。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述信息处理方法的步骤。此处信息处理方法的步骤可以是上述各个实施例的信息处理方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述信息处理方法的步骤。此处信息处理方法的步骤可以是上述各个实施例的信息处理方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Onl15 Memor15,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memor15,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memor15,SRAM)或动态随机存取存储器(D15namic Random Access Memor15,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (26)
1.一种信息处理方法,其特征在于,所述方法包括:
获取至少两个的待融合实体对应的简介文本;所述简介文本用于描述对应的所述待融合实体的实体信息;
分别提取每个所述简介文本对应的语义特征信息,以及,提取各个所述简介文本之间的公共特征信息;所述公共特征信息包括各个所述简介文本之间共有属性的公共属性信息、各个所述简介文本之间共有文本内容的公共文本信息或者各个所述简介文本之间共同所处领域的公共领域信息中的至少一项;
通过预设的全连接层,将每个所述简介文本对应的语义特征信息和所述公共特征信息进行全连接处理,得到全连接结果;
通过预设的激活函数,确定所述全连接结果对应的激活函数值,作为至少两个的待融合实体之间的实体相似度;
当所述实体相似度符合预设条件时,将所述至少两个的待融合实体进行融合,得到融合后实体。
2.根据权利要求1所述的方法,其特征在于,所述分别提取每个所述简介文本对应的语义特征信息,包括:
将各个所述简介文本的文本内容向量化,确定各个所述简介文本对应的文本向量;
分别对每个所述简介文本对应的文本向量进行特征提取,确定每个所述简介文本对应的语义特征信息。
3.根据权利要求2所述的方法,其特征在于,所述将各个所述简介文本的文本内容向量化,确定各个所述简介文本对应的文本向量,包括:
对每个所述简介文本的文本内容进行分词处理,确定每个所述简介文本中的至少两个的词;
对每个所述简介文本中的至少两个的词进行向量化处理,确定每个所述简介文本对应的至少两个的词向量;
将每个所述简介文本对应的至少两个的词向量,作为每个所述简介文本对应的文本向量。
4.根据权利要求2所述的方法,其特征在于,所述分别提取每个所述简介文本对应的语义特征信息,包括:
通过预训练的解编码模型中的解码器,对每个所述简介文本对应的文本向量进行解码,得到文本解码向量;
根据所述文本解码向量,确定每个所述简介文本对应的文本编码向量;
根据所述文本解码向量和所述文本编码向量,确定所述每个所述简介文本对应的语义特征信息。
5.根据权利要求4所述的方法,其特征在于,所述根据所述文本解码向量,确定每个所述简介文本对应的文本编码向量,包括:
基于注意力机制,获取所述文本解码向量对应的匹配度权重;所述匹配度权重为根据所述文本解码向量与所述文本解码向量对应的文本向量之间的匹配程度得到的;
根据所述匹配度权重,对所述文本解码向量进行权重调整,得到加权后的文本解码向量;
通过所述解编码模型中的编码器,对所述加权后的文本解码向量进行编码,得到所述文本编码向量。
6.根据权利要求4所述的方法,其特征在于,所述根据所述文本解码向量和所述文本编码向量,确定所述每个所述简介文本对应的语义特征信息,包括:
对每个所述简介文本对应的文本解码向量和每个所述简介文本对应的文本编码向量进行最大池化,得到最大池化结果;
将所述最大池化结果,作为每个所述简介文本对应的语义特征信息。
7.根据权利要求1所述的方法,其特征在于,所述至少两个的待融合实体包括第一实体和第二实体,所述提取各个所述简介文本之间的公共特征信息,包括:
获取所述第一实体的简介文本与所述第二实体的简介文本之间的公共属性信息,获取所述第一实体的简介文本与所述第二实体的简介文本之间的公共文本信息,以及,获取所述第一实体的简介文本与所述第二实体的简介文本之间的公共领域信息;
将所述公共属性信息、所述公共文本信息和所述公共领域信息中的至少一种作为各个所述简介文本之间的公共特征信息。
8.根据权利要求7所述的方法,其特征在于,所述获取所述第一实体的简介文本与所述第二实体的简介文本之间的公共属性信息,包括:
获取所述第一实体的简介文本与所述第二实体的简介文本之间的相似三元组;所述相似三元组为属性值相似的至少两个的三元组;
确定所述相似三元组的数量,作为各个所述简介文本之间的公共属性信息。
9.根据权利要求8所述的方法,其特征在于,所述获取所述第一实体的简介文本与所述第二实体的简介文本之间的相似三元组,包括:
提取所述第一实体的简介文本中的三元组,以及,提取所述第二实体的简介文本中的三元组;
确定所述第一实体的简介文本中的三元组与所述第二实体的简介文本中的三元组之间的三元组相似度;
当所述三元组相似度大于预设的三元组相似度阈值时,确定所述第一实体的简介文本中的三元组与所述第二实体的简介文本中的三元组为所述相似三元组。
10.根据权利要求7所述的方法,其特征在于,获取所述第一实体的简介文本与所述第二实体的简介文本之间的公共文本信息,包括:
确定所述第一实体的简介文本与所述第二实体的简介文本之间的相同文本内容;
将所述相同文本内容的文本长度,作为各个所述简介文本之间的公共文本信息。
11.根据权利要求7所述的方法,其特征在于,获取所述第一实体的简介文本与所述第二实体的简介文本之间的公共领域信息,包括:
根据所述第一实体的简介文本,确定所述第一实体的领域信息;以及,根据所述第二实体的简介文本,确定所述第二实体的领域信息;
确定所述第一实体的领域信息与所述第二实体的领域信息之间的相同领域信息;
将所述相同领域信息,作为各个所述简介文本之间的公共领域信息。
12.根据权利要求1-11任一项所述的方法,其特征在于,还包括:
获取实体相似度阈值;
判断所述实体相似度是否低于所述实体相似度阈值;
若否,则判定所述实体相似度符合预设条件。
13.一种信息处理装置,其特征在于,所述装置包括:
获取模块,用于获取至少两个的待融合实体对应的简介文本;所述简介文本用于描述对应的所述待融合实体的实体信息;
提取模块,用于分别提取每个所述简介文本对应的语义特征信息,以及,提取各个所述简介文本之间的公共特征信息;所述公共特征信息包括各个所述简介文本之间共有属性的公共属性信息、各个所述简介文本之间共有文本内容的公共文本信息或者各个所述简介文本之间共同所处领域的公共领域信息中的至少一项;
确定模块,用于通过预设的全连接层,将每个所述简介文本对应的语义特征信息和所述公共特征信息进行全连接处理,得到全连接结果;通过预设的激活函数,确定所述全连接结果对应的激活函数值,作为至少两个的待融合实体之间的实体相似度;
融合模块,用于当所述实体相似度符合预设条件时,将所述至少两个的待融合实体进行融合,得到融合后实体。
14.根据权利要求13所述的装置,其特征在于,所述提取模块,包括:
向量化子模块,用于将各个所述简介文本的文本内容向量化,确定各个所述简介文本对应的文本向量;
特征提取子模块,用于分别对每个所述简介文本对应的文本向量进行特征提取,确定每个所述简介文本对应的语义特征信息。
15.根据权利要求14所述的装置,其特征在于,
所述向量化子模块,还用于对每个所述简介文本的文本内容进行分词处理,确定每个所述简介文本中的至少两个的词;对每个所述简介文本中的至少两个的词进行向量化处理,确定每个所述简介文本对应的至少两个的词向量;将每个所述简介文本对应的至少两个的词向量,作为每个所述简介文本对应的文本向量。
16.根据权利要求14所述的装置,其特征在于,
所述特征提取子模块,还用于通过预训练的解编码模型中的解码器,对每个所述简介文本对应的文本向量进行解码,得到文本解码向量;根据所述文本解码向量,确定每个所述简介文本对应的文本编码向量;根据所述文本解码向量和所述文本编码向量,确定所述每个所述简介文本对应的语义特征信息。
17.根据权利要求16所述的装置,其特征在于,
所述特征提取子模块,还用于基于注意力机制,获取所述文本解码向量对应的匹配度权重;所述匹配度权重为根据所述文本解码向量与所述文本解码向量对应的文本向量之间的匹配程度得到的;根据所述匹配度权重,对所述文本解码向量进行权重调整,得到加权后的文本解码向量;通过所述解编码模型中的编码器,对所述加权后的文本解码向量进行编码,得到所述文本编码向量。
18.根据权利要求16所述的装置,其特征在于,
所述特征提取子模块,还用于对每个所述简介文本对应的文本解码向量和每个所述简介文本对应的文本编码向量进行最大池化,得到最大池化结果;将所述最大池化结果,作为每个所述简介文本对应的语义特征信息。
19.根据权利要求13所述的装置,其特征在于,所述至少两个的待融合实体包括第一实体和第二实体;所述提取模块,包括:
信息获取子模块,用于获取所述第一实体的简介文本与所述第二实体的简介文本之间的公共属性信息,获取所述第一实体的简介文本与所述第二实体的简介文本之间的公共文本信息,以及,获取所述第一实体的简介文本与所述第二实体的简介文本之间的公共领域信息;
确定子模块,用于将所述公共属性信息、所述公共文本信息和所述公共领域信息中的至少一种作为各个所述简介文本之间的公共特征信息。
20.根据权利要求19所述的装置,其特征在于,
所述提取模块,还用于获取所述第一实体的简介文本与所述第二实体的简介文本之间的相似三元组;所述相似三元组为属性值相似的至少两个的三元组;确定所述相似三元组的数量,作为各个所述简介文本之间的公共属性信息。
21.根据权利要求20所述的装置,其特征在于,
所述提取模块,还用于提取所述第一实体的简介文本中的三元组,以及,提取所述第二实体的简介文本中的三元组;确定所述第一实体的简介文本中的三元组与所述第二实体的简介文本中的三元组之间的三元组相似度;当所述三元组相似度大于预设的三元组相似度阈值时,确定所述第一实体的简介文本中的三元组与所述第二实体的简介文本中的三元组为所述相似三元组。
22.根据权利要求19所述的装置,其特征在于,
所述提取模块,还用于确定所述第一实体的简介文本与所述第二实体的简介文本之间的相同文本内容;将所述相同文本内容的文本长度,作为各个所述简介文本之间的公共文本信息。
23.根据权利要求19所述的装置,其特征在于,
所述提取模块,还用于根据所述第一实体的简介文本,确定所述第一实体的领域信息;以及,根据所述第二实体的简介文本,确定所述第二实体的领域信息;确定所述第一实体的领域信息与所述第二实体的领域信息之间的相同领域信息;将所述相同领域信息,作为各个所述简介文本之间的公共领域信息。
24.根据权利要求13至23任意一项所述的装置,其特征在于,还包括:
阈值获取子模块,用于获取实体相似度阈值;
判断子模块,用于判断所述实体相似度是否低于所述实体相似度阈值;
判定子模块,用于若否,则判定所述实体相似度符合预设条件。
25.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。
26.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010018141.1A CN111241298B (zh) | 2020-01-08 | 2020-01-08 | 信息处理方法、装置和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010018141.1A CN111241298B (zh) | 2020-01-08 | 2020-01-08 | 信息处理方法、装置和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241298A CN111241298A (zh) | 2020-06-05 |
CN111241298B true CN111241298B (zh) | 2023-10-10 |
Family
ID=70865554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010018141.1A Active CN111241298B (zh) | 2020-01-08 | 2020-01-08 | 信息处理方法、装置和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241298B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528028A (zh) * | 2020-12-28 | 2021-03-19 | 北京华彬立成科技有限公司 | 投融资信息挖掘方法、装置、电子设备和存储介质 |
CN114678141A (zh) * | 2022-03-17 | 2022-06-28 | 中国科学院深圳理工大学(筹) | 药物对相互作用关系的预测方法、设备及介质 |
CN114896363B (zh) * | 2022-04-19 | 2023-03-28 | 北京月新时代科技股份有限公司 | 一种数据管理方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107102989A (zh) * | 2017-05-24 | 2017-08-29 | 南京大学 | 一种基于词向量、卷积神经网络的实体消歧方法 |
CN109918663A (zh) * | 2019-03-04 | 2019-06-21 | 腾讯科技(深圳)有限公司 | 一种语义匹配方法、装置及存储介质 |
JP2019125343A (ja) * | 2018-01-17 | 2019-07-25 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 曖昧なエンティティワードに基づくテキスト処理方法及び装置 |
CN110277086A (zh) * | 2019-06-25 | 2019-09-24 | 中国科学院自动化研究所 | 基于电网调度知识图谱的语音合成方法、系统及电子设备 |
CN110427612A (zh) * | 2019-07-02 | 2019-11-08 | 平安科技(深圳)有限公司 | 基于多语言的实体消歧方法、装置、设备和存储介质 |
CN110457680A (zh) * | 2019-07-02 | 2019-11-15 | 平安科技(深圳)有限公司 | 实体消歧方法、装置、计算机设备和存储介质 |
-
2020
- 2020-01-08 CN CN202010018141.1A patent/CN111241298B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107102989A (zh) * | 2017-05-24 | 2017-08-29 | 南京大学 | 一种基于词向量、卷积神经网络的实体消歧方法 |
JP2019125343A (ja) * | 2018-01-17 | 2019-07-25 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 曖昧なエンティティワードに基づくテキスト処理方法及び装置 |
CN109918663A (zh) * | 2019-03-04 | 2019-06-21 | 腾讯科技(深圳)有限公司 | 一种语义匹配方法、装置及存储介质 |
CN110277086A (zh) * | 2019-06-25 | 2019-09-24 | 中国科学院自动化研究所 | 基于电网调度知识图谱的语音合成方法、系统及电子设备 |
CN110427612A (zh) * | 2019-07-02 | 2019-11-08 | 平安科技(深圳)有限公司 | 基于多语言的实体消歧方法、装置、设备和存储介质 |
CN110457680A (zh) * | 2019-07-02 | 2019-11-15 | 平安科技(深圳)有限公司 | 实体消歧方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111241298A (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241298B (zh) | 信息处理方法、装置和计算机可读存储介质 | |
CN111382555B (zh) | 数据处理方法、介质、装置和计算设备 | |
CN112164391A (zh) | 语句处理方法、装置、电子设备及存储介质 | |
CN111259851B (zh) | 一种多模态事件检测方法及装置 | |
CN111666370B (zh) | 面向多源异构航天数据的语义索引方法和装置 | |
CN111783903B (zh) | 文本处理方法、文本模型的处理方法及装置、计算机设备 | |
CN114020936B (zh) | 多模态事理图谱的构建方法、系统和可读存储介质 | |
CN114926835A (zh) | 文本生成、模型训练方法和装置 | |
CN113407851B (zh) | 基于双塔模型的确定推荐信息的方法、装置、设备和介质 | |
CN114330966A (zh) | 一种风险预测方法、装置、设备以及可读存储介质 | |
CN112528654A (zh) | 自然语言处理方法、装置及电子设备 | |
CN113343692A (zh) | 搜索意图的识别方法、模型训练方法、装置、介质及设备 | |
CN114329004A (zh) | 数字指纹生成、数据推送方法、装置和存储介质 | |
CN113673225A (zh) | 中文句子相似性判别方法、装置、计算机设备和存储介质 | |
CN116975651A (zh) | 相似度确定模型处理方法、目标对象搜索方法和装置 | |
CN116977714A (zh) | 图像分类方法、装置、设备、存储介质和程序产品 | |
CN115795038A (zh) | 基于国产化深度学习框架的意图识别方法和装置 | |
CN116957128A (zh) | 业务指标预测方法、装置、设备和存储介质 | |
CN115186085A (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 | |
CN113919338B (zh) | 处理文本数据的方法及设备 | |
CN114329016A (zh) | 图片标签生成方法和文字配图方法 | |
CN112149424A (zh) | 语义匹配方法、装置、计算机设备和存储介质 | |
CN112579774A (zh) | 模型训练方法、模型训练装置及终端设备 | |
CN115994541B (zh) | 界面语义数据生成方法、装置、计算机设备和存储介质 | |
CN117938951B (zh) | 信息推送方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40024833 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |