CN108664595B

CN108664595B - 领域知识库构建方法、装置、计算机设备和存储介质

Info

Publication number: CN108664595B
Application number: CN201810433419.4A
Authority: CN
Inventors: 於跃; 王艳飞; 万周斌; 朱汝锋
Original assignee: Workway Shenzhen Information Technology Co ltd
Current assignee: Workway Shenzhen Information Technology Co ltd
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2020-10-16
Anticipated expiration: 2038-05-08
Also published as: CN108664595A

Abstract

本申请涉及一种领域知识库构建方法、装置、计算机设备和存储介质。该方法包括：获取当前待构建领域中的领域核心词语；根据领域核心词语获取对应的待处理文本；对待处理文本进行拆分，得到对应的待分析语句；对待分析语句进行分割，得到多个待分析词语；根据预设规则从多个待分析词语中获取目标中心词语；对待分析语句进行句法结构分析，得到与待分析语句对应的目标句法结构；将目标中心词语、领域核心词语和目标句法结构建立关系，将关系存储入与待构建领域对应的领域知识库中。采用本方法能够提高知识抽取的准确性。

Description

领域知识库构建方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种领域知识库构建方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的发展，出现了领域知识库这个概念，领域知识库是领域内所包括的概念以及概念间的关系的集合，其中概念是其所属领域的知识，可以通过领域内的词条来知识，概念间的关系是概念间的相似程度，可以通过数值来表示。如对于金融领域的领域知识库来说，金融、经济学和流通等词条可以作为其所属领域的领域知识库中的概念，随着信息的发展，领域知识库可以使知识信息化和有序化，且利用知识的共享和交流。

然而，目前的领域知识库的知识抽取通常采用机器学习或者是语言分析，其中基于机器学习的知识抽取主要是基于人工标注数据训练出来的分类模型并设置阈值来做信息标注判断，而基于语言分析的知识抽取主要是基于语言理论细分语言单元，并对语言单元做性质或属性分类从而达到知识抽取。但是由于知识抽取两大分支本身发展的局限性，造成识别出的领域知识的准确性低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高知识抽取的准确性的领域知识库构建方法、装置、计算机设备和存储介质。

一种领域知识库构建方法，该方法包括：

获取当前待构建领域中的领域核心词语；

根据领域核心词语获取对应的待处理文本；

对待处理文本进行拆分，得到对应的待分析语句；

对待分析语句进行分割，得到多个待分析词语；

根据预设规则从多个待分析词语中获取目标中心词语；

对待分析语句进行句法结构分析，得到与待分析语句对应的目标句法结构；

将目标中心词语、领域核心词语和目标句法结构建立关系，将关系存储入与待构建领域对应的领域知识库中。

在其中一个实施例中，根据领域核心词语获取对应的待处理文本，包括：获取当前待构建领域中的领域核心词语和领域核心词语对应的多个领域词语；根据领域核心词语和多个领域词语生成对应的文本；对文本进行分词，得到多个分词结果；将分词结果作为词向量模型的训练数据，对词向量模型进行训练得到已训练的词向量模型；获取已训练的词向量模型的模型向量数据；从模型向量数据中获取与领域核心词语和各个领域词语对应的领域核心词语向量和领域词语向量；根据领域核心词语向量和各个领域词语向量计算得到对应的相似度集合；从相似度集合中选取目标相似度，根据目标相似度获取对应的待处理文本。

在其中一个实施例中，根据领域核心词语和多个领域词语生成对应的文本之后，还包括：获取多个领域词语对应的链接地址；检测链接地址是否已经进行领域词语的提取，若是，则对链接地址进行提取标识；将链接地址、提取标识与领域核心词语建立关联关系，并将关联关系写入文本。

在其中一个实施例中，该方法还包括：获取目标相似度对应的领域核心词语向量和领域词语向量；获取与领域核心词语向量对应的目标领域核心词语和与领域词语向量对应的目标领域词语；根据获取到的目标领域核心词语和目标领域词语生成合法词典。

在其中一个实施例中，合法词典用于对根据预设规则从多个待分析词语中获取到的目标中心词语进行矫正或者核对处理。

在其中一个实施例中，根据预设规则从多个待分析词语中获取目标中心词语，包括：获取各个待分析词语对应的各个词性信息；根据预设规则从各个词性信息中选取目标词性信息；根据目标词性信息获取与目标词性信息对应的目标词语。

在其中一个实施例中，对待分析语句进行句法结构分析，得到与待分析语句对应的目标句法结构，包括：对待分析语句进行分词，得到三元组形式的待分析语句；根据三元组形式的待分析语句获取与待分析语句对应的目标句法结构。

一种领域知识库构建装置，该装置包括：

领域核心词语获取模块，用于获取当前待构建领域中的领域核心词语；

待处理文本获取模块，用于根据领域核心词语获取对应的待处理文本；

待分析语句生成模块，用于对待处理文本进行拆分，得到对应的待分析语句；

待分析语句分割模块，用于对待分析语句进行分割，得到多个待分析词语；

目标中心词语选取模块，用于根据预设规则从多个待分析词语中获取目标中心词语；

待分析语句分析模块，用于对待分析语句进行句法结构分析，得到与待分析语句对应的目标句法结构；

领域知识库生成模块，用于将目标中心词语、领域核心词语和目标句法结构建立关系，将关系存储入与待构建领域对应的领域知识库中。

一种计算机设备，包括存储器、处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取当前待构建领域中的领域核心词语；

根据领域核心词语获取对应的待处理文本；

对待处理文本进行拆分，得到对应的待分析语句；

对待分析语句进行分割，得到多个待分析词语；

根据预设规则从多个待分析词语中获取目标中心词语；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取当前待构建领域中的领域核心词语；

根据领域核心词语获取对应的待处理文本；

对待处理文本进行拆分，得到对应的待分析语句；

对待分析语句进行分割，得到多个待分析词语；

根据预设规则从多个待分析词语中获取目标中心词语；

上述领域知识库构建方法、装置、计算机设备和存储介质，服务器或者终端获取当前待构建领域中的领域核心词语，再根据领域核心词语获取对应的待处理文本，对待处理文本进行拆分，得到对应的待分析语句，然后再对待分析语句进行分割，得到多个待分析词语，再根据预设规则从多个待分析词语中获取目标中心词语，对待分析语句进行句法结构分析，得到与待分析语句对应的目标句法结构，最后将目标中心词语、领域核心词语和目标句法结构建立关系，将关系存储入与待构建领域对应的领域知识库中。对于待处理文本所属的领域的识别，将处理得到的领域核心词语、目标中心词语以及目标句法结构建立关系，将建立好的关系存储至待构建领域对应的知识库中，在这个过程中不仅无需消耗人力，而且最后构建出的领域知识库的知识抽取的准确性较高。

附图说明

图1为一个实施例中领域知识库构建方法的应用环境图；

图2为一个实施例中领域知识库构建方法的流程示意图；

图3为一个实施例中根据领域核心词语获取对应的待处理文本步骤的流程示意图；

图4为另一个实施例中领域知识库构建方法的流程示意图；

图5为又一个实施例中领域知识库构建方法的流程示意图；

图6为一个实施例中根据预设规则从多个待分析词语中获取目标中心词语步骤的流程示意图；

图7为一个实施例中对待分析语句进行句法结构分析，得到与待分析语句对应的目标句法结构的流程示意图；

图8为一个实施例中领域知识库构建装置的结构框图；

图9为一个实施例中待处理文本获取模块的结构框图；

图10为又一个实施例中领域知识库构建装置的结构框图；

图11为一个实施例中计算机设备的内部结构图；

图12为又一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的领域知识库构建方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

具体地，终端102可通过相关的应用程序或者应用界面等将当前待构建领域中的领域核心词语上传至服务器104中，服务器104获取当前待构建领域中的领域核心词语，根据领域核心词语获取对应的待处理文本，再对待处理文本进行拆分，得到对应的待分析语句，然后对待分析语句进行分割，得到多个待分析词语，再根据预设规则从多个待分析词语中获取目标中心词语，再对待分析语句进行句法结构分析，得到与待分析语句对应的目标句法结构，最后将目标中心词语、领域核心词语和目标句法结构建立关系，将关系存储入与待构建领域对应的领域知识库中。

在一个实施例中，如图2所示，提供了一种领域知识库构建方法，以该方法应用于图1中的终端或者服务器为例进行说明，包括以下步骤：

步骤202，获取当前待构建领域中的领域核心词语。

步骤204，根据领域核心词语获取对应的待处理文本。

其中，当前待构建领域是指从全量知识库中提取出的某个特定领域，领域核心词语是指待构建领域中具有代表性的概念，其中，领域核心词语的确定的规则可自定义，自定义规则可以是但不限于某一领域中最具有代表性的概念，或者是根据自身业务需求将某些特定词作为领域核心词语，或者是在预设次数范围内出现的次数最高的词语作为领域核心词语等等。如从全量知识库中提取出的金融领域来作为待构建领域时，可以将“金融”这个用户公知的词语作为金融领域的领域核心词语，也根据自身业务需求将“银行”这个具有代表性的词语作为金融领域的领域核心词语。具体地，获取当前待构建领域中的领域核心词语可以是但不限于通过数据抓取方式从待构建领域中的各个文本中获取，也可以由领域内的专家或者从事编辑工作的人员手工指定等等。

进一步地，在获取到领域核心词语后，可根据领域核心词语从预先生成的文本集合中获取到与领域核心词语对应的文本，再将获取到的与领域核心词语对应的文本作为待处理文本。其中，预先生成的文本集合是一组各个领域核心词语对应的文本组成的集合，而文本集合中的元素文本中包括各个领域核心词语与相关的领域词语等等。

步骤206，对待处理文本进行拆分，得到对应的待分析语句。

具体地，在获取到领域核心词语对应的待处理文本后，根据预设拆分规则对待处理文本进行拆分，其中预设拆分规则可自定义，自定义规则可以是但不限于以待处理文本内容的句子为单位进行拆分，或者是以待处理文本的具体内容进行拆分，或者是以待处理文本的内容的预设字数为单位进行拆分等等。在根据预设拆分规则对待处理文本进行拆分后，得到与待处理文本对应的各个待分析语句。

在一个实施例中，若预设拆分规则为以待处理文本内容的句子为单位进行拆分，如待处理文本内容为：“小明啊，今天天气挺好的。我们想组织一场户外运动，包括跑步、羽毛球、篮球、徒步等等。你想加入我们吗？”那么对待处理文本内容进行拆分得到的对应的待分析语句为：“小明啊，今天天气挺好的”，“我们想组织一场户外运动，包括跑步、羽毛球、篮球、徒步等等”和“你想加入我们吗？”。

步骤208，对待分析语句进行分割，得到多个待分析词语。

步骤210，根据预设规则从多个待分析词语中获取目标中心词语。

具体地，由于得到的待分析语句还是由多个词语组成的，为了得到待分析语句中的各个词语的词性信息，因此需要根据一定的分割规则对待分析语句进行分割从而得到对应多个待分析词语。其中，分割规则可以是根据词语在待分析语句中的成分、词性以及词语的搭配习惯进行分割。

进一步地，在对待分析语句分割，得到多个待分析词语后，根据各个待分析词语的词性信息对各个待分析词语进行词性标注，具体地词性标注可以是根据中文构词法进行标注。例如，名词性短语块、副词性短语、形容词短语等等。再对各个待分析词语进行词性标注后，根据预设规则从各个待分析词语的词性标注中获取到目标中心词语。其中，预设规则可自定义，自定义可以是但不限于从各个待分析词语的词性标注中选出某一特定的目标待分析词语作为目标中心词，如从各个待分析词语的词性标注中选取名词性短语块作为目标中心词语。或者从各个待分析词语的词性标注中根据待分析语句的句法选取出目标待分析词语作为目标中心词，如待分析语句的句法为主谓宾结果，则从待分析语句分割得到的多个待分析语句中将主语和宾语对应的待分析词语作为目标终点词语。

步骤212，对待分析语句进行句法结构分析，得到与待分析语句对应的目标句法结构。

其中，句法结构分析是指词语与词语之间按照一定的规则组合构成的，也可称为句法分析，也就是说句法结构分析是指对待分析语句中的词语语法功能进行分析。而待分析语句是由多个词语组成的句子，而多个词语之间的组合方式有很多种，所以得到的待分析语句也会有多个，因此需要对待分析语句进行句法结构分析，得到与待分析语句对应的目标句法结构。具体地，句法结构分析需要对待分析语句中的句法成分进行切分，再根据切分后的各个句法成分在句法结构中的相互关系以及语法功能标注不同的名称。例如：主语、谓语、定语、名词短语、动词短语、形容词短语、副词短语等。再根据各个标注后的词语之间的逻辑关系、词语与词语之间的句法等进行分析，最终得到与待分析语句对应的目标句法结构。如，待分析语句为：“我来晚了”，先对待分析语句中的句法成分进行切片，得到切分后的各个词语为：“我”、“来”、“晚了”，再根据切片后的各个句法成分在句法结果中的相互关系以及语法功能标注：“我”为主语，“来”为谓语，“晚了”为宾语，因此最终得到与待分析语句对应的目标句法结果为：主语+谓语+宾语。

步骤214，将目标中心词语、领域核心词语和目标句法结构建立关系，将关系存储入与待构建领域对应的领域知识库中。

具体地，在获取到目标中心词语、领域核心词语以及对应的目标句法结构后，将目标中心词语、领域核心词语以及对应的目标句法结构建立关系。其中，建立关系可以是但不限于建议一一对应的关系等等。再建立完目标中心词语、领域核心词语以及对应的目标句法结果的关系后，将该建立好的关系存储入与待构建领域对应的领域知识库中。如，目标中心词语为金融，领域核心词语为银行，对应的目标句法结构为主谓宾，因此将目标中心词语、领域核心词语和目标句法结构建立关系为与领域核心词语银行相关的目标中心词语为金融，而与银行相关的句法结构有主谓宾这个句法结构。

上述领域知识库构建方法中，服务器或者终端获取当前待构建领域中的领域核心词语，再根据领域核心词语获取对应的待处理文本，对待处理文本进行拆分，得到对应的待分析语句，然后再对待分析语句进行分割，得到多个待分析词语，再根据预设规则从多个待分析词语中获取目标中心词语，对待分析语句进行句法结构分析，得到与待分析语句对应的目标句法结构，最后将目标中心词语、领域核心词语和目标句法结构建立关系，将关系存储入与待构建领域对应的领域知识库中。对于待处理文本所属的领域的识别，将处理得到的领域核心词语、目标中心词语以及目标句法结构建立关系，不仅无需消耗人力，而且最后构建出的领域知识库的抽取的领域知识的准确性较高。

在一个实施例中，如图3所示，根据领域核心词语获取对应的待处理文本，包括：

步骤302，获取当前待构建领域中的各个领域核心词语和领域核心词语对应的多个领域词语。

步骤304，根据各个领域核心词语和多个领域词语生成对应的文本。

具体地，从当前待构建领域中获取到对应的领域核心词语后，根据该领域核心词语获取对应的多个领域词语。这里的领域词语是指与领域核心词语相关的词语，如领域核心词语为：“银行”，而获取到的多个领域词语为：“金融机构”、“商品货币经济”等等。其中与领域核心词语对应的多个领域词语的获取方式可以是但不限于具体通过网络爬虫，在互联网上抓取网页信息，然后将抓取的网页信息与门户网站提供的信息进行比对，得到与领域核心词语对应的多个领域词语。与领域核心词语对应的多个领域词语的获取方式或者是从各大门户网站中抓取与领域核心词语对应的多个领域词语，这里的门户网站是通向某类综合性互联网信息资源并提供有关信息服务的应用系统。又或者是从现有的全量知识库网站中抓取，如百度百科或者维基百科等网站中抓取。

进一步地，在获取到当前待构建领域中的领域核心词语和对应的多个领域词语后，根据领域核心词语和对应的多个领域词语生成与领域核心词语对应的文本。文本的具体生成可以是将领域核心词语与对应的多个领域词语建立一一对应的关系，将该关系写入领域核心词语对应的文本中，或者将领域核心词语作为文件名，将与领域核心词语对应的多个领域词语保存在领域核心词语对应的文件中，从而组成各个领域核心词语对应的文本。

步骤306，对文本进行分词，得到多个分词结果。

步骤308，将分词结果作为词向量模型的训练数据，对词向量模型进行训练得到已训练的词向量模型。

具体地，在根据各个领域核心词语和对应的多个领域词语生成对应的文本后，需对各个领域核心词语对应的文本进行分词，具体的对文本进行分词可以是但不限于借助相关的分词工具进行分词，如Jieba分词工具，或者对文本进行分词又可以是根据预设分词规则进行分词，预设分词规则可自定义，自定义可以是但不限于根据文本中的句法成分进行分词，或者是根据词语之间的搭配习惯进行分词等等。在对各个领域核心词语对应的文本进行分词，得到多个分词结果后，将分词结果作为词向量模型的训练数据，即将多个分词结果作为词向量模型的输入数据，对词向量模型进行训练从而得到已训练的词向量模型。这里的词向量模型是用于将各个分词结果转换为计算机可以理解的稠密向量。

步骤310，获取已训练的词向量模型的模型向量数据。

步骤312，从模型向量数据中获取与各个领域核心词语和各个领域词语对应的领域核心词语向量和领域词语向量。

具体地，在获得已训练的词向量模型，此时该训练好的词向量模型已经有输入数据了，则再获取已训练好的词向量模型的所有模型向量数据。其中，各个模型向量数据都有对应的各个领域核心词语和各个领域核心词语对应的各个领域词语。因此，在进一步根据获取到的已训练好的词向量模型的模型向量数据中获取与各个领域核心词语和各个领域词语匹配的领域核心词语向量和领域词语向量。

步骤314，根据领域核心词语向量和各个领域词语向量计算得到对应的相似度集合。

步骤316，从相似度集合中选取目标相似度，根据目标相似度获取对应的待处理文本。

具体地，在获取到与各个领域核心词语和各个领域词语对应的领域核心词语向量和领域词语向量后，根据各个领域核心词语和各个领域词语对应的领域核心词语向量和领域词语向量计算各个领域核心词语向量和对应的领域词语向量之间的相似度，其中相似度越高说明该领域核心词语向量和对应的领域词语向量越接近，匹配度越高。

进一步地，将各个领域核心词语向量和对应的领域词语向量对应的相似度组成相似度集合，再从相似度集合中选取目标相似度。其中选取目标相似度的规则可自定义，自定义可以是但不限于从相似度集合中选取大于预设相似度阈值的相似度作为目标相似度，或者从相似度集合中选取大于第一预设相似度阈值且小于等于第二预设相似度阈值的相似度作为目标相似度等等。最后，由于各个相似度都有对应的领域核心词语向量和对应各个领域词语向量，而各个领域核心词语向量和对应的各个领域词语向量都有对应的领域核心词语和对应的领域词语。因此，先根据目标相似度获取对应的目标领域核心词语向量和对应的各个目标领域词语向量，再根据目标领域核心词语向量和各个目标领域词语向量从各个文本集合中获取匹配的文本，将获取到匹配的文本作为待处理文本。

在一个实施例中，如图4所示，根据各个领域核心词语和多个领域词语生成对应的文本之后，还包括：

步骤402，获取多个领域词语对应的链接地址。

步骤404，检测链接地址是否已经进行领域词语的提取，若是，则对链接地址进行提取标识。

步骤406，将链接地址、提取标识与领域核心词语建立关联关系，并将关联关系写入文本。

具体地，在根据各个领域核心词语和多个领域词语生成对应的文本之后，获取各个领域核心词语对应的领域词语对应的链接地址，所谓链接地址是存放各个领域核心词语对应的各个领域词语对应的存放地址，可根据该存放地址获取到对应的领域词语。在获取到各个领域核心词语对应的多个领域词语对应的链接地址后，检测获取到的链接地址是否已经进行领域词语的提取。具体地领域词语的提取可以是但不限于该链接地址对应的网络页面的某一特定段落的文字内容中的相关词语作为领域词语，或者是该链接地址对应的网络页面的某一类型的文字内容中的相关作为领域词语等等。若检测出获取到的链接地址已经进行过领域词语的提取后，则对该链接地址进行提取标识，所谓提取标识是用来唯一标识链接地址已进行提取的标识。提取标识可以是但不限于在文本中用相关的文字来标识，如：“已爬取”，或者是在文本中用相关的ID来标识，如用数字1来标识已提取的意思，用数字0来标识未提取的意思。反之，若检测出获取到的链接地址未进行领域词语的提取，则进入该链接地址对应的网页页面中进行各个领域核心词语对应的领域词语的提取，其中可以根据各个领域核心词语的获取时间顺序点击对应的链接地址从而进行领域词语的提取。

进一步地，再将链接地址、提取标识和领域核心词语建立关联关系，即将连接地址、提取标识和领域核心词语之间绑定在一起，将这建立好的关联关系写入到领域核心词语对应的文本中。其中，该链接地址、提取标识和领域核心词语的关联关系在领域核心词语对应的文本中的文件格式可以是但不限于：“银行https://xxxxx.xxxxx.com/item/xxxxxxxxx已爬取”，其中，“银行”为领域核心词语，“https://xxxxx.xxxxx.com/item/xxxxxxxxx”为链接地址，而“已爬取”为提取标识。

在一个实施例中，如图5所示，在图3所示的领域知识库构建方法的基础上，还包括：

步骤502，获取目标相似度对应的领域核心词语向量和领域词语向量。

步骤504，获取与领域核心词语向量对应的目标领域核心词语和与领域词语向量对应的目标领域词语。

步骤506，根据获取到的目标领域核心词语和目标领域词语生成合法词典。

具体地，在从相似度集合中选取出目标相似度后，根据目标相似度获取对应的领域核心词语向量和对应的领域词语向量，再获取与领域核心词语向量对应的目标领域核心词语和与领域词语向量对应的目标领域词语，将获取到的目标领域核心词语和目标领域词语组成合法词典。也就是说，合法词典中包括了各个领域核心词语以及对应的领域词语。

在一个实施例中，合法词典用于对根据预设规则从多个待分析词语中获取到的目标中心词语进行矫正或者核对处理。

具体地，由于合法词典中包括了各个领域核心词语以及对应的领域词语，因此可将合法词典作为一个标准，可根据合法词典对从多个待分析词语中获取到的目标中心词语进行矫正或者核对处理。若根据预设规则从多个待分析词语中获取目标中心词语是使用了相关的分词工具，则可将生成的合法词典配置到用于分词的分词工具中，然后分词工具可自动根据生成的合法词典在待分析词语进行分词时自动进行矫正或者核对处理，从而保证了待分析词语进行分词得到目标中心词语的准确性。若根据预设规则从多个待分析词语获取目标中心词语未使用了任何相关的分词工具，则可在对待分析词语获取目标中心词语后，根据合法词典中的词语对目标中心词语进行矫正或者核对，如错别字矫正或者多音字转换等等。

在一个实施例中，如图6所示，根据预设规则从多个待分析词语中获取目标中心词语，包括：

步骤602，获取各个待分析词语对应的各个词性信息。

步骤604，根据预设规则从各个词性信息中选取目标词性信息。

步骤606，根据目标词性信息获取与目标词性信息对应的目标词语。

具体地，由于待分析词语是待分析语句中进行分割得到的，因此待分析词语可以根据在待分析语句中的句法成分或者功能等等获取对应的各个词性信息，这里的词性信息包括但不限于名词、动词、主语、谓语、宾语等等。在获取到的各个待分析词语对应的各个词性信息后，根据预设规则从各个词性信息中选取目标词性信息。其中，预设规则可自定义，自定义可以是但不限于某一特定的词性信息作为目标词性信息，如选取词性信息为名词性词语作为目标词性信息。进一步地，再根据目标词性信息从各个待分析词语中获取与目标词性信息对应的目标词语。如，预设规则为选取名词性词语作为目标词性信息，那么根据该目标信息获取各个待分析词语中的所有词性信息为名词性词语，那么名词性词语对应的待分析词语为最后的目标词语。

在一个实施例中，如图7所示，对待分析语句进行句法结构分析，得到与待分析语句对应的目标句法结构，包括：

步骤702，对待分析语句进行分词，得到三元组形式的待分析语句。

步骤704，根据三元组形式的待分析语句获取与待分析语句对应的目标句法结构。

具体地，在对待分析语句进行分析时，先根据待分析语句中的句法成分进行切分，再根据切片后的各个句法成分在句法结构中的相互关系以及语法功能标注不同的名称。例如：主语、谓语、定语、名词短语、动词短语、形容词短语、副词短语等。再根据各个标注后的词语之间的逻辑关系、词语与词语之间的句法等进行分析，最终得到与待分析语句对应的目标句法结构。其中，在进行句法分析时，可以用三元组形式来表示待分析语句。如待分析语句为：“我来晚了”，先对待分析语句中的句法成分进行切片，得到切分后的各个词语为：“我”、“来”、“晚了”，再根据切片后的各个句法成分在句法结果中的相互关系以及语法功能标注：“我”为主语，“来”为谓语，“晚了”为宾语。而用三元组形成表示待分析语句为：{我，来，晚了}，而根据三元组形式的待分析语句获取与待分析语句对应的目标句法结构为：主语+谓语+宾语。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种领域知识库构建装置800，该装置包括：

领域核心词语获取模块802，用于获取当前待构建领域中的领域核心词语。

待处理文本获取模块804，用于根据领域核心词语获取对应的待处理文本。

待分析语句生成模块806，用于对待处理文本进行拆分，得到对应的待分析语句。

待分析语句分割模块808，用于对待分析语句进行分割，得到多个待分析词语。

目标中心词语选取模块810，用于根据预设规则从多个待分析词语中获取目标中心词语。

待分析语句分析模块812，用于对待分析语句进行句法结构分析，得到与待分析语句对应的目标句法结构。

领域知识库生成模块814，用于将目标中心词语、领域核心词语和目标句法结构建立关系，将关系存储入与待构建领域对应的领域知识库中。

在一个实施例中，如图9所示，该待处理文本获取模块804包括：

领域核心词语获取单元804a，用于获取当前待构建领域中的各个领域核心词语和各个领域核心词语对应的多个领域词。

文本生成单元804b，用于根据各个领域核心词语和多个领域词语生成对应的文本。

文本分词单元804c，用于对文本进行分词，得到多个分词结果。

词向量模型训练单元804d，用于将分词结果作为词向量模型的训练数据，对词向量模型进行训练得到已训练的词向量模型。

模型向量数据获取单元804e，用于获取已训练的词向量模型的模型向量数据。

词语向量获取单元804f，用于从模型向量数据中获取与各个领域核心词语和各个领域词语对应的领域核心词语向量和领域词语向量。

相似度集合生成单元804g，用于根据各个领域核心词语向量和各个领域词语向量计算得到对应的相似度集合。

待处理文本获取单元804h，用于从相似度集合中选取目标相似度，根据目标相似度获取对应的待处理文本。

在一个实施例中，如图10所示，该领域知识库构建装置800还包括：

链接地址获取模块1002，用于获取多个领域词语对应的链接地址。

检测模块1004，用于检测链接地址是否已经进行领域词语的提取，若是，则对链接地址进行提取标识。

关联关系建立模块1006，用于将链接地址、提取标识与领域核心词语建立关联关系，并将关联关系写入文本。

在一个实施例中，该领域知识库构建装置800还用于获取目标相似度对应的领域核心词语向量和领域词语向量；获取与领域核心词语向量对应的目标领域核心词语和与领域词语向量对应的目标领域词语；根据获取到的目标领域核心词语和目标领域词语生成合法词典。

在一个实施例中，该领域知识库构建装置800还用于获取各个待分析词语对应的各个词性信息；根据预设规则从各个词性信息中选取目标词性信息；根据目标词性信息获取与目标词性信息对应的目标词语。

在一个实施例中，该领域知识库构建装置800还用于对待分析语句进行分词，得到三元组形式的待分析语句；根据三元组形式的待分析语句获取与待分析语句对应的目标句法结构。

关于领域知识库构建装置的具体限定可以参见上文中对于领域知识库构建方法的限定，在此不再赘述。上述领域知识库构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储领域知识库构建所需的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种领域知识库构建方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种领域知识库构建方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图11或图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取当前待构建领域中的领域核心词语；根据领域核心词语获取对应的待处理文本；对待处理文本进行拆分，得到对应的待分析语句；对待分析语句进行分割，得到多个待分析词语；根据预设规则从多个待分析词语中获取目标中心词语；对待分析语句进行句法结构分析，得到与待分析语句对应的目标句法结构；将目标中心词语、领域核心词语和目标句法结构建立关系，将关系存储入与待构建领域对应的领域知识库中。

在一个实施例中，根据领域核心词语获取对应的待处理文本，包括：获取当前待构建领域中的各个领域核心词语和各个领域核心词语对应的多个领域词语；根据各个领域核心词语和多个领域词语生成对应的文本；对文本进行分词，得到多个分词结果；将分词结果作为词向量模型的训练数据，对词向量模型进行训练得到已训练的词向量模型；获取已训练的词向量模型的模型向量数据；从模型向量数据中获取与各个领域核心词语和各个领域词语对应的领域核心词语向量和领域词语向量；根据各个领域核心词语向量和各个领域词语向量计算得到对应的相似度集合；从相似度集合中选取目标相似度，根据目标相似度获取对应的待处理文本。

在一个实施例中，根据各个领域核心词语和多个领域词语生成对应的文本之后，还包括：获取多个领域词语对应的链接地址；检测链接地址是否已经进行领域词语的提取，若是，则对链接地址进行提取标识；将链接地址、提取标识与领域核心词语建立关联关系，并将关联关系写入文本。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取目标相似度对应的领域核心词语向量和领域词语向量；获取与领域核心词语向量对应的目标领域核心词语和与领域词语向量对应的目标领域词语；根据获取到的目标领域核心词语和目标领域词语生成合法词典。

在一个实施例中，根据预设规则从多个待分析词语中获取目标中心词语，包括：获取各个待分析词语对应的各个词性信息；根据预设规则从各个词性信息中选取目标词性信息；根据目标词性信息获取与目标词性信息对应的目标词语。

在一个实施例中，对待分析语句进行句法结构分析，得到与待分析语句对应的目标句法结构，包括：对待分析语句进行分词，得到三元组形式的待分析语句；根据三元组形式的待分析语句获取与待分析语句对应的目标句法结构。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取当前待构建领域中的领域核心词语；根据领域核心词语获取对应的待处理文本；对待处理文本进行拆分，得到对应的待分析语句；对待分析语句进行分割，得到多个待分析词语；根据预设规则从多个待分析词语中获取目标中心词语；对待分析语句进行句法结构分析，得到与待分析语句对应的目标句法结构；将目标中心词语、领域核心词语和目标句法结构建立关系，将关系存储入与待构建领域对应的领域知识库中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种领域知识库构建方法，所述方法包括：

获取当前待构建领域中的领域核心词语；

根据所述领域核心词语获取对应的待处理文本；

对所述待处理文本进行拆分，得到对应的待分析语句；

对所述待分析语句进行分割，得到多个待分析词语；

根据预设规则从所述多个待分析词语中获取目标中心词语；

对所述待分析语句进行句法结构分析，得到与所述待分析语句对应的目标句法结构，包括：

对所述待分析语句中的句法成分进行切分，根据切分后的句法成分在句法结构中的相互关系及语法功能，为每一所述切分后的句法成分标注名称；

对标注名称的每一所述切分后的句法成分之间的逻辑关系进行分析，得到与所述待分析语句对应的目标句法结构；

将所述目标中心词语、所述领域核心词语和所述目标句法结构建立关系，将所述关系存储入与待构建领域对应的领域知识库中。

2.根据权利要求1所述的方法，其特征在于，所述根据所述领域核心词语获取对应的待处理文本，包括：

获取当前待构建领域中的各个领域核心词语和各个所述领域核心词语对应的多个领域词语；

根据各个所述领域核心词语和所述多个领域词语生成对应的文本；

对所述文本进行分词，得到多个分词结果；

将所述分词结果作为词向量模型的训练数据，对所述词向量模型进行训练得到已训练的词向量模型；

获取所述已训练的词向量模型的模型向量数据；

从所述模型向量数据中获取与各个所述领域核心词语和各个所述领域词语对应的领域核心词语向量和所述领域词语向量；

根据各个所述领域核心词语向量和各个所述领域词语向量计算得到对应的相似度集合；

从所述相似度集合中选取目标相似度，根据所述目标相似度获取对应的待处理文本。

3.根据权利要求2所述的方法，其特征在于，所述根据各个所述领域核心词语和所述多个领域词语生成对应的文本之后，还包括：

获取所述多个领域词语对应的链接地址；

检测所述链接地址是否已经进行所述领域词语的提取，若是，则对所述链接地址进行提取标识；

将所述链接地址、所述提取标识与所述领域核心词语建立关联关系，并将所述关联关系写入所述文本。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取所述目标相似度对应的所述领域核心词语向量和所述领域词语向量；

获取与所述领域核心词语向量对应的目标领域核心词语和与所述领域词语向量对应的目标领域词语；

根据获取到的所述目标领域核心词语和所述目标领域词语生成合法词典。

5.根据权利要求4所述的方法，其特征在于，所述合法词典用于对所述根据预设规则从所述多个待分析词语中获取到的所述目标中心词语进行矫正或者核对处理。

6.根据权利要求1所述的方法，其特征在于，所述根据预设规则从所述多个待分析词语中获取目标中心词语，包括：

获取各个待分析词语对应的各个词性信息；

根据预设规则从各个所述词性信息中选取目标词性信息；

根据所述目标词性信息获取与所述目标词性信息对应的目标词语。

7.根据权利要求1所述的方法，其特征在于，所述对所述待分析语句进行句法结构分析，得到与所述待分析语句对应的目标句法结构，包括：

对所述待分析语句进行分词，得到三元组形式的待分析语句；

根据所述三元组形式的待分析语句获取与所述待分析语句对应的目标句法结构。

8.一种领域知识库构建装置，其特征在于，所述装置包括：

待处理文本获取模块，用于根据所述领域核心词语获取对应的待处理文本；

待分析语句生成模块，用于对所述待处理文本进行拆分，得到对应的待分析语句；

待分析语句分割模块，用于对所述待分析语句进行分割，得到多个待分析词语；

目标中心词语选取模块，用于根据预设规则从所述多个待分析词语中获取目标中心词语；

待分析语句分析模块，用于对所述待分析语句进行句法结构分析，得到与所述待分析语句对应的目标句法结构，包括：对所述待分析语句中的句法成分进行切分，根据切分后的句法成分在句法结构中的相互关系及语法功能，为每一所述切分后的句法成分标注名称；对标注名称的每一所述切分后的句法成分之间的逻辑关系进行分析，得到与所述待分析语句对应的目标句法结构；

领域知识库生成模块，用于将所述目标中心词语、所述领域核心词语和所述目标句法结构建立关系，将所述关系存储入与待构建领域对应的领域知识库中。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。