CN110134943B

CN110134943B - 领域本体生成方法、装置、设备及介质

Info

Publication number: CN110134943B
Application number: CN201910265705.9A
Authority: CN
Inventors: 邓悦; 金戈; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2023-04-18
Anticipated expiration: 2039-04-03
Also published as: CN110134943A

Abstract

本发明公开了一种领域本体生成方法、装置、计算机设备及存储介质，该方法包括：获取领域信息，采用自然语言处理算法准确地提取领域关键字，根据动词领域关键字与名词领域关键字之间的搭配关系，获取名词领域关键字对应的目标物体的物体类型，在预设的词向量数据库中，获取名词领域关键字对应的属于物体类型下的目标词向量，因此可以根据不同的语境精准地确定出关键字的准确含义，获取到词向量，提高了获取词向量的准确性，采用预设的层次聚类算法生成领域词向量对应的层次聚类树作为领域本体，相似类别或相同类别的词向量得到了聚类，方便查询领域词向量，采用了计算机自动化处理机制，避免了人为主观因素的干扰，提高了领域本体的生成效率。

Description

领域本体生成方法、装置、设备及介质

技术领域

本发明涉及数据处理领域，尤其涉及一种领域本体生成方法、装置、计算机设备及存储介质。

背景技术

领域本体，是指某个领域之中概念词及其相互之间关系的形式化表达的集合体。因为领域本体是用于构建很多应用系统的基础，随着应用系统的构建需求不断增大，领域本体的生成也越来越重要，尤其是，对于用户画像领域而言，领域本体是构建用户画像的重要基础。

在传统方法中，通常在专业的领域专家团队及数据系统经过复杂的分析之后，才能创建领域本体，因此创建领域本体的过程耗时久及成本高，导致领域本体的生成效率低下，其中，词向量是用于生成领域本体的重要元素，但是在现有技术中，往往不能为一个词准确地获取对应的词向量，从而导致词向量的获取准确率低下，进而导致采用词向量来构建的领域本体的生成准确率低下。

因此，寻找一种高效和准确的领域本体生成方法成为本领域技术人员亟需解决的问题。

发明内容

本发明实施例提供一种领域本体生成方法、装置、计算机设备及存储介质，以解决由于创建领域本体耗时久及成本高而导致领域本体的生成效率低下的问题，及由于词向量的获取准确率低而导致的领域本体的生成准确率低下的问题。

一种领域本体生成方法，包括：

在预设的信息数据库中，获取预设的领域对应的领域信息；

采用预设的自然语言处理算法，对所述领域信息进行提取处理，得到领域关键字，其中，所述领域关键字包括动词领域关键字和名词领域关键字；

根据所述动词领域关键字与所述名词领域关键字之间的预设的动宾搭配关系，确定出所述名词领域关键字对应的目标物体的物体类型；

根据所述名词领域关键字和所述物体类型，在预设的词向量数据库中，获取所述名词领域关键字对应的属于所述物体类型下的目标词向量，并将所述目标词向量确定为领域词向量；

采用预设的层次聚类算法生成所述领域词向量对应的层次聚类树，并将所述层级聚类树确定为所述预设的领域的领域本体。

一种领域本体生成装置，包括：

信息获取模块，用于在预设的信息数据库中，获取预设的领域对应的领域信息；

关键字提取模块，用于采用预设的自然语言处理算法，对所述领域信息进行提取处理，得到领域关键字，其中，所述领域关键字包括动词领域关键字和名词领域关键字；

类型确定模块，用户根据所述动词领域关键字与所述名词领域关键字之间的预设的动宾搭配关系，确定出所述名词领域关键字对应的目标物体的物体类型；

词向量获取模块，用于根据所述名词领域关键字和所述物体类型，在预设的词向量数据库中，获取所述名词领域关键字对应的属于所述物体类型下的目标词向量，并将所述目标词向量确定为领域词向量；

层次聚类树生成模块，用于采用预设的层次聚类算法生成所述领域词向量对应的层次聚类树，并将所述层级聚类树确定为所述预设的领域的领域本体。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述领域本体生成方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述领域本体生成方法的步骤。

上述领域本体生成方法、装置、计算机设备及存储介质中，服务端首先在预设的信息数据库中，自动地获取领域信息，然后采用自然语言处理算法准确地提取领域关键字，从而确保了领域关键字的准确性，同时根据动词领域关键字与名词领域关键字之间的搭配关系，快速地获取名词领域关键字对应的目标物体的物体类型，从而可以根据名词领域关键字和物体类型，在预设的词向量数据库中，快速地获取名词领域关键字对应的属于物体类型下的目标词向量，因此可以根据不同的语境精准地确定出关键字的准确含义，并在确保名词领域关键字准确性的前提下，准确地获取到词向量，提高了获取词向量的准确性，在确保词向量的准确性的前提下，采用预设的层次聚类算法生成法人领域词向量对应的领域本体的准确性也得到了保证，因此提高了领域本体的生成准确性，同时因为相似类别或相同类别的词向量得到了聚类，从而可以方便查询领域词向量，得到方便查询的领域本体，以及采用了计算机高效的自动化处理机制，避免了人为主观因素的干扰，降低了人力成本，因此提高了领域本体的生成效率和准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中领域本体生成方法的一应用环境示意图；

图2是本发明一实施例中领域本体生成方法的一流程图；

图3是本发明一实施例中领域本体生成方法中步骤S50的一流程图；

图4是本发明一实施例中领域本体生成方法中步骤S20的一流程图；

图5是本发明一实施例中领域本体生成方法中步骤S203的一流程图；

图6是本发明一实施例中领域本体生成装置的一示意图；

图7是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的领域本体生成方法，可应用如图1的应用环境中，该应用环境包括服务端和客户端，其中，客户端通过有线网络或无线网络与服务端进行通信。其中，客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务端或者是多个服务端组成的服务端集群来实现。服务端用于获取领域信息和分析该领域信息，以及根据该领域信息生成领域本体。

在一实施例中，如图2所示，提供一种领域本体生成方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S10、在预设的信息数据库中，获取预设的领域对应的领域信息。

具体地，服务端预先设置信息数据库和领域，在设置好的信息数据库中，获取设置好的领域对应的领域信息的存储路径，然后根据该存储路径提取该领域信息。

其中，领域是指专门活动或事业的范围、部类或部门，比如该领域可以为艺术领域等。领域信息为在该领域范围内的信息，比如该领域信息可以为音乐家的个人信息或一首音乐的属性信息等。信息数据库可以为SQL数据库或oracle数据库等。

为了更好地理解步骤S10，下面通过一个例子进行说明，具体表述如下：

例如，假设信息数据库为MySQL数据库，领域为音乐领域，音乐领域对应的领域信息为“这次的演出，我弹钢琴，张三是和弦大地管弦乐团演奏交响乐的拉手”，“这次的演出，我弹钢琴，张三是和弦大地管弦乐团演奏交响乐的拉手”的存储路径为“C:\ProgramFiles\MySQL\MySQL Server 5.0\data\”，首先在MySQL数据库中获取“C:\Program Files\MySQL\MySQL Server 5.0\data\”，然后根据“C:\Program Files\MySQL\MySQL Server5.0\data\”提取“这次的演出，我弹钢琴，张三是和弦大地管弦乐团演奏交响乐的拉手”。

S20、采用预设的自然语言处理算法，对领域信息进行提取处理，得到领域关键字，其中，领域关键字包括动词领域关键字和名词领域关键字。

在本实施例中，自然语言处理算法是指能实现人与计算机之间用自然语言进行有效通信的方法。

具体地，服务端采用预设的自然语言处理算法，对领域信息进行提取处理，得到领域关键字，同时服务端在词性数据库中，获取每个领域关键字的词性，根据词性确定出名词领域关键字和动词领域关键字，也即词性为名词的关键字确定为名词领域关键字，词性为动词的关键字确定为动词领域关键字，其中，该领域关键字为专门给该领域而设置的关键字。

例如，继续以步骤S10中的例子进行说明，采用隐马尔可夫模型，对“这次的演出，我弹钢琴，张三是和弦大地管弦乐团演奏交响乐的拉手”进行提取处理，得到动词领域关键字为“弹”，名词领域关键字为“钢琴”、“和弦大地管弦乐团演奏交响乐”和“拉手”，其中，隐马尔可夫模型是指用来描述一个含有隐含未知参数的马尔可夫过程的统计模型。

需要说明的是，预设的自然语言处理算法可以为隐马尔可夫模型或马尔科夫链模型，还可以为其他模型，预设的自然语言处理算法的具体内容，可以根据实际应用进行设定，此处不做限制。

S30、根据动词领域关键字与名词领域关键字之间的预设的动宾搭配关系，确定出名词领域关键字对应的目标物体的物体类型。

本发明实施例中，动词领域关键字为词性属于动词的领域关键字，比如动词领域关键字可以为“弹”或“吃”等，名词领域关键字为词性属于名词的领域关键字，比如名词领域关键字可以为“钢琴”或“苹果”等。

具体地，服务端按照每个动词与每个名词之间标准的搭配方式，预先设置好动词领域关键字与名词领域关键字之间的动宾搭配关系，比如动词“吃”搭配的宾语名词可以为属于食物类的食物所对应的名词，属于食物类的食物所对应的名词可以为“苹果”或“米饭”等。可以理解的是，服务端根据动词领域关键字与名词领域关键字之间的预设的动宾搭配关系，确定出该名词领域关键字对应的目标物体的物体类型，比如，假设动词领域关键字为“吃”，名词领域关键字为“苹果”，则根据动词“吃”与“苹果”之间的动宾搭配关系，可以确定出“苹果”属于食物类，而不可能是公司名称“苹果”。其中，物体类型为该目标物体所属于的类型，比如目标物体“苹果”的物体类型为“水果”。

S40、根据名词领域关键字和物体类型，在预设的词向量数据库中，获取名词领域关键字对应的属于物体类型下的目标词向量，并将目标词向量确定为领域词向量。

具体地，词向量数据库预先保存了每个领域的所有的名词领域关键字，而一个名词在不同的语境中可能表达不同的含义，比如“苹果发布一款新手机”中“苹果”所表达的含义为“苹果公司”，而“小明爱吃苹果”中“苹果”所表达的含义为“水果苹果”，所以服务端为名词领域关键字都有一个类别属性，也即服务端为给名词领域关键字做了不同的分类，一个名词领域关键字在不同的类别下的目标词向量是不同的，比如，名词领域关键字“苹果”在食物类别下的目标词向量为“1002”，而在公司名称类别下的目标词向量为“2001”，其中，名词领域关键字是由预设的词向量模型生成得到。可以理解的是，只要根据名词领域关键字和该名词领域关键字所对应的目标物体的物体类型，也即，只要根据名词领域关键字和该名词领域关键字的分类，便可以在预设的词向量数据库中，快速准确地获取名词领域关键字对应的属于物体类型下的目标词向量，并将目标词向量确定为领域词向量，提高了获取领域词向量的准确性。

其中，词向量模型可以为深层神经网络模型，还可以为其他模型，深层神经网络模型为一种用来产生词向量的神经网络模型。该领域词向量为专门给该名词领域关键字而设置的词向量。

进一步地，深层神经网络模型可以由输入层+编码层+第一循环神经网络层+第二循环神经网络层+第三循环神经网络层+全连接层组成。

需要说明的是，词向量是指用一个预设长度的向量来表示一个词的属性，词向量的分量代表一个词的各个属性，比如该词向量的一个分量代表一个词的词性，比如词性可以为名词或动词等，该词向量的另一个分量代表该词的意义类别，比如意义类别可以为专有名词或普通名词等。

可以理解的是，词向量数据库可以为SQL数据库或oracle数据库等，预设长度和词向量数据库的具体内容，可以根据实际应用进行设定，此处不做限制。

S50、采用预设的层次聚类算法生成领域词向量对应的层次聚类树，并将层级聚类树确定为预设的领域的领域本体。

具体地，首先计算出每两个领域词向量之间的相似度，然后根据最大相似度对应的领域词向量生成新的领域词向量，最后根据之前的领域词向量、生成的新的领域词向量和预设的层次聚类算法生成这些领域词向量对应的层次聚类树，并将该层级聚类树确定为用于该领域的领域本体，其中，领域本体是指特定某一个领域中的概念词和概念词之间的关系的集合体，比如领域本体可以为音乐领域中的概念词和概念词之间的关系的集合体。

其中，层次聚类算法可以为Kmeans聚类算法，或者为其他聚类算法等。Kmeans聚类算法为将输入的n个领域词向量划分为k个聚类以便使得所获得的同一聚类中的领域词向量的相似度较高，而不同聚类中的领域词向量的相似度较小的聚类算法。可以理解的是，领域词向量代表用户的属性、偏好、生活习惯、行为等数字化的信息，用户画像为采用领域词向量抽象出来的标签化用户模型。

需要说明的是，预设的层次聚类算法的具体内容，可以根据实际需求进行设定，此处不做限制。

在图2对应的实施例中，服务端首先在预设的信息数据库中，自动地获取领域信息，然后采用自然语言处理算法准确地提取领域关键字，从而确保了领域关键字的准确性，同时根据动词领域关键字与名词领域关键字之间的搭配关系，快速地获取名词领域关键字对应的目标物体的物体类型，从而可以根据名词领域关键字和物体类型，在预设的词向量数据库中，快速地获取名词领域关键字对应的属于物体类型下的目标词向量，因此可以根据不同的语境精准地确定出关键字的准确含义，并在确保名词领域关键字准确性的前提下，准确地获取到词向量，提高了获取词向量的准确性，在确保词向量的准确性的前提下，采用预设的层次聚类算法生成法人领域词向量对应的领域本体的准确性也得到了保证，因此提高了领域本体的生成准确性，同时因为相似类别或相同类别的词向量得到了聚类，从而可以方便查询领域词向量，得到方便查询的领域本体，以及采用了计算机高效的自动化处理机制，避免了人为主观因素的干扰，降低了人力成本，因此提高了领域本体的生成效率和准确性。

在一具体实施例中，如图3所示，步骤S50，也即采用预设的层次聚类算法生成领域词向量对应的层次聚类树，具体包括如下步骤：

S501、生成每个领域词向量对应的子节点，得到包含N个子节点的节点集合，其中，N为正整数。

具体地，首先给每个领域词向量注明编号，该编号从1到N，然后采用二叉树的节点的创建方法，生成每个领域词向量对应的子节点得到包含N个子节点的节点集合，其中，N为正整数，该二叉树为一种数据结构，该子节点为二叉树中的子节点。

例如，假设领域词向量的数量为50个，则采用二叉链表生成50个领域词向量对应的50个子节点，得到含50个子节点的节点集合。

S502、采用预设的相似度算法，计算节点集合中每两个子节点之间的节点相似度。

具体地，假设该相似度算法为欧氏距离算法，则首先采用该欧氏距离算法，计算节点集合中每两个子节点之间的欧氏距离，然后将该欧氏距离确定为节点集合中每两个子节点之间的节点相似度。

或者，该相似度算法可以为余弦相似度算法，则首先采用该余弦相似度算法计算节点集合中每两个子节点之间的余弦相似度，然后将该余弦相似度确定为该节点相似度。

需要说明的是，节点相似度越高，则代表两个子节点越相似，反之，节点相似度越低，则代表两个子节点越相远。

S503、根据节点相似度筛选出节点集合中最相似的两个子节点，并为筛选出的最相似的两个子节点生成对应的父节点。

具体地，服务端根据节点相似度筛选出节点集合中最相似的两个子节点，然后按照二叉树从下往上的生成方法，将节点集合中最相似的两个子节点生成对应的父节点。其中，该父节点为二叉树中的父节点，本步骤S503中二叉树的内容与步骤S501中二叉树的内容一致，此处不再阐述。

其中，当采用欧式距离算法计算节点相似度时，节点集合中每两个子节点之间的欧氏距离越大，则代表该节点相似度越小，也即代表节点集合中每两个子节点越相远，反之，该欧氏距离越小，则代表该节点相似度越大，也即代表节点集合中每两个子节点越相似。当采用余弦相似度算法计算节点相似度时，节点集合中每两个子节点之间的余弦相似度值越大，则代表该节点相似度越大，也即代表节点集合中每两个子节点越相似，反之，该余弦相似度值越小，则代表该节点相似度越小，也即代表节点集合中每两个子节点越相远。

S504、将筛选出的值最大的节点相似度对应的两个子节点从节点集合中删除，将父节点作为新的子节点加入节点集合中，并返回采用预设的相似度算法，计算每两个子节点之间的节点相似度的步骤继续执行，直到节点集合中的节点数量为1。

具体地，首先将已筛选出的值最大的节点相似度对应的两个子节点从节点集合中删除，然后将父节点作为新的子节点加入该节点集合中，并返回执行步骤S502，也即，返回执行采用预设的相似度算法，计算每两个子节点之间的节点相似度的步骤，直到该节点集合中的节点数量为1为止，也即直到生成二叉树中的根结点为止。

例如，假设节点集合包括“A”、“B”、“C”和“D”，已筛选出的值最大的节点相似度对应的两个子节点为“A”和“B”，“A”和“B”生成的父节点为“E”，则将“A”和“B”从“A”、“B”、“C”和“D”中删除，将“E”作为新的子节点加入节点集合中，并返回执行步骤S502。

S505、按照二叉树的形式，采用预设的连接线将子节点与对应的父节点之间进行连接处理，得到领域词向量对应的层次聚类树。

具体地，首先采用预设的半径将每个子节点与对应的父节点设置一个圆，然后按照二叉树的形式，采用预设的连接线将每个子节点的圆的外边与对应的父节点的圆的外边之间进行连接处理，得到领域词向量对应的层次聚类树。

需要说明的是，预设的连接线可以为直线，还可以为其他线等。

在图3对应的实施例中，通过上述步骤S501至步骤S505，首先自动地生成每个领域词向量对应的子节点，得从而提高了生成子节点的自动化水平，然后采用预设的相似度算法，计算节点集合中每两个子节点之间的节点相似度，因为节点相似度越大，则代表两个子节点越相似，所以保证能够为相似度越高的两个子节点生成对应的准确的父节点，确保了父节点的准确性，接下来将筛选出的值最大的节点相似度对应的两个子节点从节点集合中删除，并将父节点作为新的子节点加入节点集合中，避免了更新后的节点集合收到原来的子节点干扰，同时返回采用预设的相似度算法，计算每两个子节点之间的节点相似度的步骤继续执行，也即采用相同的计算方法循环准确地计算，直到节点集合中的节点数量为1，通过这种准确的迭代计算确保了生成的每个父节点的准确性，最后按照二叉树的形式，采用预设的连接线将子节点与对应的准确的父节点之间进行自动地连接，得到该领域词向量对应的层次聚类树，确保了生成的层次聚类树的准确性，提高了层次聚类树的生成的自动化水平。

在一具体实施例中，步骤S502，也即采用预设的相似度算法，计算节点集合中每两个子节点之间的节点相似度，具体包括如下步骤：

S5021、将节点集合中每两个子节点输入至如下欧氏距离计算公式中，得到节点相似度：

其中，D为节点集合中每两个子节点之间的节点相似度，m为每个子节点对应的领域词向量的分量的数量，x_i为每两个子节点中的一个子结点对应的领域词向量的第i个分量，y_i为每两个子节点中的另一个子结点对应的领域词向量的第i个分量。

具体地，将节点集合中每两个子节点输入至上述欧氏距离计算公式中进行计算处理，得到两个子节点对应的欧氏距离，并将该欧氏距离确定为节点相似度。

比如，假设节点集合中一个子节点对应的领域词向量为[1200]，节点集合中另一个子节点对应的领域词向量为[1210]，则将[1200]和[1210]代入上述欧氏距离计算公式中进行计算处理，得到两个子节点对应的欧氏距离为1，并将1确定为节点相似度。

在一具体实施例中，通过上述步骤S5021，因为标准的欧氏距离计算公式具有准确地的计算功能，所以将节点集合中每两个子节点输入至如下欧氏距离计算公式中，便可以得到准确的节点相似度，确保了计算出的节点相似度的准确性。

在一具体实施例中，如图4所示，步骤S20，也即采用预设的自然语言处理算法，对领域信息进行提取处理，得到领域关键字，具体包括如下步骤：

S201、采用预设的分词工具对领域信息进行分词处理，得到每个子领域信息。

在本实施例中，分词为将连续的字序列按照一定的规范重新组合成词序列的过程。

具体地，通常该领域信息为一段话或一句话，为了得到子领域信息，需要采用预设的分词工具对该领域信息进行分词处理，得到每个子领域信息，也即得到每个单独的词。

例如，继续以步骤S10中的例子进行说明，则采用中科院汉语分词系统对“这次的演出，我弹钢琴，张三是和弦大地管弦乐团演奏交响乐的拉手”进行分词处理，得到“这次”、“的”、“演出”、“我”、“弹”、“钢琴”、“张三”、“是”、“和弦大地管弦乐团演奏交响乐”和“拉手”。

需要说明的是，预设的分词工具的具体内容，可以根据实际应用进行设定，此处不做限制。

S202、采用预设的停用词去除工具对每个子领域信息进行去除停用词处理，得到去除停用词后的每个子领域信息。

在本实施例中，停用词为在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据之前或之后会自动过滤掉某些字或词，如“的”、“是”和“在”。

具体地，服务端采用预设的停用词去除工具，对每个子领域信息进行去除停用词，得到去除停用词后的每个子领域信息，比如，继续以步骤S201中的例子进行说明，服务端采用Nltk去除停用词工具对“这次”、“的”、“演出”、“我”、“弹”、“钢琴”、“张三”、“是”、“和弦大地管弦乐团演奏交响乐”和“拉手”进行去除停用词，得到“演出”、“弹”、“钢琴”、“和弦大地管弦乐团演奏交响乐”和“拉手”，其中，Nltk为python下处理语言的主要工具包，可以实现去除停用词的功能，python是一种计算机程序设计语言。

S203、采用TF-IDF算法，计算去除停用词后的每个子领域信息对应的重要值，其中，重要值为去除后的每个子领域信息在领域信息中的重要程度对应的值。

在本实施例中，TF-IDF算法，英文全称为term frequency–inverse documentfrequency，是一种用于信息检索与数据挖掘的常用加权算法。

具体地，服务端采用TF-IDF算法，计算去除停用词后的每个子领域信息对应的重要值，也即，计算去除停用词后的每个子领域信息的词频和逆文档频率，然后根据计算得到的词频和逆文档频率确定出去除停用词后的每个子领域信息对应的重要值，其中，重要值为去除后的每个子领域信息在该领域信息中的重要程度对应的值。比如，继续以步骤S202中的例子进行说明，服务端采用TF-IDF算法，计算“钢琴”对应的重要值和“演出”对应的重要值。

需要说明的是，该子领域信息对应的重要值越大，代表该子领域信息在在该领域信息中的重要程度越高，反之该子领域信息对应的重要值越低，代表该子领域信息在在该领域信息中的重要程度越低。

S204、判断每个重要值是否大于或等于预设的阈值。

具体地，服务端首先从阈值数据库中获取预设的阈值，然后将步骤S203中计算得到的每个子领域信息对应的重要值与获取到的阈值进行逐个对比，从而判断出每个子领域信息对应的重要值大于预设的阈值，或者判断出每个子领域信息对应的重要值等于预设的阈值，比如，继续以步骤S203中的例子进行说明，假设“钢琴”对应的重要值为7，和“演出”对应的重要值为5，该预设的阈值为6，则显然“钢琴”对应的重要值大于该预设的阈值。

需要说明的是，该阈值数据库可以为为SQL数据库或oracle数据库等，该重要值和该阈值数据库的具体内容，可以根据实际应用进行设定，此处不做限制。

S205、当重要值大于或等于预设的阈值时，确定大于或等于预设的阈值的重要值对应的子领域信息为领域关键字。

具体地，当步骤S203中计算得到的子领域信息对应的重要值大于或等于预设的阈值时，确定该子领域信息为领域关键字，继续以步骤S204中的例子进行说明，“钢琴”对应的重要值7大于该预设的阈值6，则将“钢琴”确定为领域关键字。其中，本步骤S205中的领域关键字的内容与步骤S20中的领域关键字的内容一致，此处不再阐述。

在图4对应的实施例中，通过上述步骤S201至步骤S205，先准确地将领域信息分成单独的子领域信息，然后对每个子领域信息进行去除停用词，得到去除干扰的停用词后的子领域信息，避免了存在干扰的子领域信息，接下来采用TF-IDF算法自动准确地计算每个子领域信息的重要值，并根据重要值和预设的阈值，自动地确定该子领域信息是否为领域关键字，提高了确定出领域关键字的准确率和自动化水平。

在一具体实施例中，如图5所示，步骤S203，也即采用预设的层次聚类算法生成领域词向量对应的层次聚类树，具体包括如下步骤：

S2031、在预设的语料数据库中，获取去除停用词后的每个子领域信息对应的词频。

在本实施例中，预设的语料数据库存储了各个子领域信息，处于随时可以调用的状态。

具体地，在该预设的语料数据库中获取去除停用词后的每个子领域信息对应的词频的存储路径，然后根据该存储路径提取该词频。其中，该词频是指该子领域信息在该语料数据库中出现的次数，比如，继续以步骤S203中的例子进行说明，“钢琴”的词频为0.035。

需要说明的是，子领域信息对应的词频越大，代表子领域信息在语料数据库中出现的次数越高，反之子领域信息对应的词频越低，代表子领域信息在语料数据库中出现的次数越低，优选地，语料数据库可以为为SQL数据库或oracle数据库等，语料数据库的具体内容，可以根据实际应用进行设定，此处不做限制。

S2032、在预设的语料数据库中，获取去除停用词后的每个子领域信息对应的逆文档频率。

在本实施例中，该预设的语料数据库存储了各个预设的文件，处于随时可以调用的状态。

具体地，针对每个子领域信息，在该预设的语料数据库中，先获取包含该领域信息之文件的文件数目，然后获取文件的总数目，最后将该总数目除以该文件数目，再将得到的商取对数，从而得到该领域信息对应的逆文档频率，比如，继续以步骤S203中的例子进行说明，假设“钢琴”一词在1000份文件出现过，而文件的总数目是10000000份的话，经过计算其逆向文件频率为9.21。其中，该逆文档频率是指该子领域信息的普遍重要性的度量。

需要说明的是，子领域信息对应的逆文档频率越大，代表子领域信息的普遍重要性越高，反之子领域信息对应的逆文档频率越低，代表子领域信息的普遍重要性越低，可以理解的是，本步骤S2032中的语料数据库的内容与步骤S2031中的语料数据库的内容一致，此处不再阐述。

S2033、针对去除停用词后的每个子领域信息，将词频与逆文档频率的乘积确定为该子领域信息对应的重要值。

具体地，针对步骤S202中得到的去除停用词后的每个子领域信息，将该子领域信息的词频与该子领域信息的逆文档频率的乘积确定为该子领域信息对应的重要值。比如，继续以步骤S202和步骤S203中的例子进行说明，“钢琴”的词频为0.035，“钢琴”的逆文档频率为9.21，则经过计算0.035与9.21的乘积为0.32，将0.32确定为“钢琴”对应的重要值。

在图5对应的实施例中，通过上述步骤S2031至步骤S2033，先准确地计算每个子领域信息对应的词频，也即准确地计算每个子领域信息在该语料数据库中出现的次数，然后准确地计算每个子领域信息对应的逆文档频率，也即准确地计算每个子领域信息的普遍重要性，因为该子领域信息的次数越高，代表该子领域信息在该语料数据库中越重要，同时该子领域信息的普遍重要性越高，代表该子领域信息的普遍性越重要，因此根据词频和逆文档频率，可以准确地计算出每个子领域信息的重要值，提高了重要值的计算准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种领域本体生成装置，该领域本体生成装置与上述实施例中领域本体生成方法一一对应。如图6所示，该领域本体生成装置包括信息获取模块601、关键字提取模块602、类型确定模块603、词向量获取模块604和层次聚类树生成模块605。各功能模块详细说明如下：

信息获取模块601，用于在预设的信息数据库中，获取预设的领域对应的领域信息；

关键字提取模块602，用于采用预设的自然语言处理算法，对领域信息进行提取处理，得到领域关键字，其中，领域关键字包括动词领域关键字和名词领域关键字；

类型确定模块603，用于根据动词领域关键字与名词领域关键字之间的预设的动宾搭配关系，确定出名词领域关键字对应的目标物体的物体类型；

词向量获取模块604，用于根据名词领域关键字和物体类型，在预设的词向量数据库中，获取名词领域关键字对应的属于物体类型下的目标词向量，并将目标词向量确定为领域词向量；

层次聚类树生成模块605，用于采用预设的层次聚类算法生成领域词向量对应的层次聚类树，并将层级聚类树确定为预设的领域的领域本体。

进一步地，层次聚类树生成模块605，包括：

子节点确定子模块6051，用于生成每个领域词向量对应的子节点，得到包含N个子节点的节点集合，其中，N为正整数；

相似度计算子模块6052，用于采用预设的相似度算法，计算节点集合中每两个子节点之间的节点相似度；

相似度筛选子模块6053，用于根据节点相似度筛选出节点集合中最相似的两个子节点，并为筛选出的最相似的两个子节点生成对应的父节点；

子节点删除子模块6054，用于将筛选出的值最大的节点相似度对应的两个子节点从节点集合中删除，将父节点作为新的子节点加入节点集合中，并返回采用预设的相似度算法，计算每两个子节点之间的节点相似度的步骤继续执行，直到节点集合中的节点数量为1；

聚类树生成子模块6055，用于按照二叉树的形式，采用预设的连接线将子节点与对应的父节点之间进行连接处理，得到领域词向量对应的层次聚类树。

进一步地，相似度计算子模块6052，包括：

子节点输入子模块60521，用于将节点集合中每两个子节点输入至如下欧氏距离计算公式中，得到节点相似度：

进一步地，关键字提取模块602包括：

分词子模块6021，用于采用预设的分词工具对领域信息进行分词处理，得到每个子领域信息；

去除子模块6022，用于采用预设的停用词去除工具对每个子领域信息进行去除停用词处理，得到去除停用词后的每个子领域信息；

重要值计算子模块6023，用于采用TF-IDF算法，计算去除停用词后的每个子领域信息对应的重要值，其中，重要值为去除后的每个子领域信息在领域信息中的重要程度对应的值；

判断子模块6024，用于判断每个重要值是否大于或等于预设的阈值；

关键字确定子模块6025，用于当重要值大于或等于预设的阈值时，确定大于或等于预设的阈值的重要值对应的子领域信息为领域关键字。

进一步地，重要值计算子模块6023包括：

词频获取子模块60231，用于在预设的语料数据库中，获取去除停用词后的每个子领域信息对应的词频；

频率获取子模块60232，用于在预设的语料数据库中，获取去除停用词后的每个子领域信息对应的逆文档频率；

重要值确定子模块60233，用于针对去除停用词后的每个子领域信息，将词频与逆文档频率的乘积确定为该子领域信息对应的重要值。

关于领域本体生成装置的具体限定可以参见上文中对于领域本体生成方法的限定，在此不再赘述。上述领域本体生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储领域本体生成方法所涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种领域本体生成方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例领域本体生成方法的步骤，例如图2所示的步骤S10至步骤S50。或者，处理器执行计算机程序时实现上述实施例中领域本体生成装置的各模块/单元的功能，例如图6所示模块601至模块605的功能。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中领域本体生成方法，或者，该计算机程序被处理器执行时实现上述装置实施例中领域本体生成装置中各模块/单元的功能。为避免重复，这里不再赘述。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种领域本体生成方法，其特征在于，所述领域本体生成方法包括：

在预设的信息数据库中，获取预设的领域对应的领域信息；采用预设的分词工具对所述领域信息进行分词处理，得到每个子领域信息；

采用预设的停用词去除工具对每个所述子领域信息进行去除停用词处理，得到去除停用词后的每个所述子领域信息；

在预设的语料数据库中，获取所述去除停用词后的每个所述子领域信息对应的词频；

在所述预设的语料数据库中，针对任一子领域信息，获取包含所述子领域信息之文件的文件数目以及所述语料数据库中所有文件的总数目，对所述总数目与所述文件数目的商求对数，确定求对数的结果为对应子领域信息的逆文档频率；

针对所述去除停用词后的每个所述子领域信息，将所述词频与所述逆文档频率的乘积确定为该子领域信息对应的重要值，确定大于或等于预设的阈值的重要值对应的子领域信息为领域关键字；

在词性数据库中，获取每个领域关键字的词性，根据词性确定出名词领域关键字和动词领域关键字，名词领域关键字的词性为名词，动词领域关键字的词性为动词；

采用预设的层次聚类算法生成所述领域词向量对应的层次聚类树，并将所述层次聚类树确定为所述预设的领域的领域本体。

2.如权利要求1所述的领域本体生成方法，其特征在于，所述采用预设的层次聚类算法生成所述领域词向量对应的层次聚类树包括：

生成每个所述领域词向量对应的子节点，得到包含N个子节点的节点集合，其中，N为正整数；

采用预设的相似度算法，计算所述节点集合中每两个所述子节点之间的节点相似度；

根据所述节点相似度筛选出所述节点集合中最相似的两个子节点，并为筛选出的最相似的两个子节点生成对应的父节点；

将筛选出的值最大的所述节点相似度对应的两个所述子节点从所述节点集合中删除，将所述父节点作为新的子节点加入所述节点集合中，并返回所述采用预设的相似度算法，计算每两个所述子节点之间的节点相似度的步骤继续执行，直到所述节点集合中的节点数量为1；

按照二叉树的形式，采用预设的连接线将所述子节点与对应的所述父节点之间进行连接处理，得到所述领域词向量对应的所述层次聚类树。

3.如权利要求2所述的领域本体生成方法，其特征在于，所述采用预设的相似度算法，计算所述节点集合中每两个所述子节点之间的节点相似度包括：

将所述节点集合中每两个所述子节点输入至如下欧氏距离计算公式中，得到所述节点相似度：

其中，为所述节点集合中每两个所述子节点之间的所述节点相似度，为每个所述子节点对应的所述领域词向量的分量的数量，为每两个所述子节点中的一个所述子节点对应的所述领域词向量的第个分量，为每两个所述子节点中的另一个所述子节点对应的所述领域词向量的第个分量。

4.一种领域本体生成装置，其特征在于，所述领域本体生成装置包括：

关键字提取模块，用于采用预设的分词工具对所述领域信息进行分词处理，得到每个子领域信息；

类型确定模块，用于根据所述动词领域关键字与所述名词领域关键字之间的预设的动宾搭配关系，确定出所述名词领域关键字对应的目标物体的物体类型；

层次聚类树生成模块，用于采用预设的层次聚类算法生成所述领域词向量对应的层次聚类树，并将所述层次聚类树确定为所述预设的领域的领域本体。

5.如权利要求4所述的领域本体生成装置，其特征在于，所述层次聚类树生成模块包括：

子节点确定子模块，用于生成每个所述领域词向量对应的子节点，得到包含N个子节点的节点集合，其中，N为正整数；

相似度计算子模块，用于采用预设的相似度算法，计算所述节点集合中每两个所述子节点之间的节点相似度；

相似度筛选子模块，用于根据所述节点相似度筛选出所述节点集合中最相似的两个子节点，并为筛选出的最相似的两个子节点生成对应的父节点；

子节点删除子模块，用于将筛选出的值最大的所述节点相似度对应的两个所述子节点从所述节点集合中删除，将所述父节点作为新的子节点加入所述节点集合中，并返回所述采用预设的相似度算法，计算每两个所述子节点之间的节点相似度的步骤继续执行，直到所述节点集合中的节点数量为1；

聚类树生成子模块，用于按照二叉树的形式，采用预设的连接线将所述子节点与对应的所述父节点之间进行连接处理，得到所述领域词向量对应的所述层次聚类树。

6.如权利要求5所述的领域本体生成装置，其特征在于，相似度计算子模块包括：

子节点输入子模块，用于将所述节点集合中每两个所述子节点输入至如下欧氏距离计算公式中，得到所述节点相似度：

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的领域本体生成方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的领域本体生成方法。