CN107526795A

CN107526795A - 知识库的构建方法及装置、存储介质、计算设备

Info

Publication number: CN107526795A
Application number: CN201710706041.6A
Authority: CN
Inventors: 汤奇峰; 齐炜
Original assignee: ZAMPLUS ADVERTISING (SHANGHAI) CO Ltd
Current assignee: ZAMPLUS ADVERTISING (SHANGHAI) CO Ltd
Priority date: 2017-08-17
Filing date: 2017-08-17
Publication date: 2017-12-29
Anticipated expiration: 2037-08-17
Also published as: CN107526795B

Abstract

一种知识库的构建方法及装置、存储介质、计算设备，所述方法包括：确定行业标准词库，以及与所述行业标准词库对应的有用词规则和停用词规则；基于所述有用词规则从原始短语中提取有用词语；对所述原始短语进行分词，以得到多个词语；如果所述多个词语中包含与所述行业标准词库中的标准词匹配的词语，那么将所述匹配的词语按照在所述原始短语中的位置关系组合，以得到组合词语；将所述组合词语与所述有用词语组合以得到第一新短语，并将所述第一新短语加入知识库。采用本发明技术方案能够将杂乱无序的文本数据处理为规范有序，具有结构化数据格式的行业知识库，方便后续数据处理，有利于提高行业信息和行业知识的准确率。

Description

知识库的构建方法及装置、存储介质、计算设备

技术领域

本发明涉及信息处理领域，特别涉及一种知识库的构建方法及装置、存储介质、计算设备。

背景技术

现代大数据处理的信息大部分来自于互联网。互联网数据包括互联网上的公开数据或者爬虫爬取的数据等海量数据。互联网数据来源多样，格式多样；信息特征不明显、不规整、不易读，有很多干扰信息；数据存在冲突，甚至存在错误。这些冲突的或者错误的“脏数据”如果出现在统计结果中，不仅可能引起歧义，甚至也会得出错误的结论。因此，在基于互联网数据的大数据处理中，现有技术一般采用数据清洗技术处理脏数据。所谓数据清洗，是指发现并纠正数据文件中的错误，对数据进行审查和校验的过程。数据清洗的目的在于删除重复和冗余信息，纠正错误，获取一致性数据，方便后续的数据处理和分析。

但是，如何将杂乱无序的短语数据(也即原始短语)处理为规范有序，结构一致的行业知识库的问题，目前尚未提出有效的解决方案。

发明内容

本发明解决的技术问题是如何将杂乱无序的原始短语处理为规范有序，结构一致的行业知识库。

为解决上述技术问题，本发明实施例提供一种知识库的构建方法，包括：确定行业标准词库，以及与所述行业标准词库对应的有用词规则和停用词规则；基于所述有用词规则从原始短语中提取有用词语；对所述原始短语进行分词，以得到多个词语；如果所述多个词语中包含与所述行业标准词库中的标准词匹配的词语，那么将所述匹配的词语按照在所述原始短语中的位置关系组合，以得到组合词语；将所述组合词语与所述有用词语组合以得到第一新短语，并将所述第一新短语加入知识库。

可选的，所述的知识库的构建方法还包括：如果所述多个词语中不包含与所述行业标准词库中的标准词匹配的词语，那么基于所述停用词规则从所述原始短语中删除停用词语，以得到删除后词语；将所述删除后词语与所述有用词语组合以得到第二新短语，并将所述第二新短语加入所述知识库。

可选的，所述将所述删除后词语与所述有用词语组合以得到第二新短语包括：如果所述删除后词语与所述有用词语重复，那么删除重复的内容后进行组合，以得到所述第二新短语。

可选的，所述行业标准词库中的标准词包括：从公开数据和/或网络爬虫爬取的数据中获取的标准词。

可选的，所述有用词规则和所述停用词规则由正则表达式定义。

可选的，所述将所述组合词语与所述有用词语组合以得到第一新短语包括：如果所述组合词语中包含的匹配的词语与所述有用词语重复，那么删除重复的内容后进行组合，以得到所述第一新短语。

为解决上述技术问题，本发明实施例还提供一种知识库的构建装置，包括：确定模块，适于确定行业标准词库，以及与所述行业标准词库对应的有用词规则和停用词规则；提取模块，适于基于所述有用词规则从原始短语中提取有用词语；分词模块，适于对所述原始短语进行分词，以得到多个词语；第一词语组合模块，如果所述多个词语中包含与所述行业标准词库中的标准词匹配的词语，那么所述第一词语组合模块适于将所述匹配的词语按照在所述原始短语中的位置关系组合，以得到组合词语；第一封装模块，适于将所述组合词语与所述有用词语组合，以得到第一新短语，并将所述第一新短语加入知识库。

可选的，所述的知识库的构建装置还包括：第二词语组合模块，如果所述多个词语中不包含与所述行业标准词库中的标准词匹配的词语，那么所述第二词语组合模块适于基于所述停用词规则从所述原始短语中删除停用词语，以得到删除后词语；第二封装模块，适于将所述删除后词语与所述有用词语组合，以得到第二新短语，并将所述第二新短语加入知识库。

可选的，如果所述删除后词语与所述有用词语重复，那么所述第二封装模块适于删除重复的内容后进行组合，以得到第二新短语。

可选的，如果所述组合词语中包含的匹配的词语与所述有用词语重复，那么所述第一封装模块适于删除重复的内容后进行组合，以得到所述第一新短语。

为解决上述技术问题，本发明实施例还提供一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述任一项所述知识库的构建方法的步骤。

为解决上述技术问题，本发明实施例还提供一种计算设备，包括存储器和处理器。所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述任一项所述知识库的构建方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例提供一种知识库的构建方法，包括：确定行业标准词库，以及与所述行业标准词库对应的有用词规则和停用词规则；基于所述有用词规则从原始短语中提取有用词语；对所述原始短语进行分词，以得到多个词语；如果所述多个词语中包含与所述行业标准词库中的标准词匹配的词语，那么将所述匹配的词语按照在所述原始短语中的位置关系组合，以得到组合词语；将所述组合词语与所述有用词语组合以得到第一新短语，并将所述第一新短语加入知识库。考虑到行业应用领域的差异性将导致其知识库的背景特征、属性特征、使用特征千差万别，因此本发明技术方案构建的知识库首先以行业标准词库作为参考，并确定对应的有用词规则和停用词规则，可以充分考虑行业的特殊性和专有性，使得本发明实施例构建的知识库能够清晰描述行业概要信息，易于理解，可读性强。其次，将原始短语分词得到语义更小的词语，消除原始短语过长或语义复杂带来的不利因素，有利于获得与所述行业标准词库中的标准词匹配的词语，提高行业信息和行业知识的准确率。此外，将所述组合词语与基于有用词规则提取的有用词语组合可以获得新短语，有利于准确获取与所属行业关联的组合词语，进而得到规范有序，提供一致性数据的知识库，方便后续数据处理。通过本发明实施例构建的行业知识库，可以进一步完善行业知识库信息，纠正原始短语的错误，减小误差，提高行业信息和行业知识的准确率，有利于高效检索，进而提高行业知识库的数据处理效率。

进一步，本发明实施例所述的知识库的构建方法还包括：如果所述多个词语中不包含与所述行业标准词库中的标准词匹配的词语，那么基于所述停用词规则从所述原始短语中删除停用词语，以得到删除后词语；将所述删除后词语与所述有用词语组合以得到第二新短语，并将所述第二新短语加入所述知识库。基于所述停用词规则可以删除冗余信息，减少非必要信息，使得所述删除后词语与所述有用词语组合得到的新短语规范有序，方便后续信息检索与数据处理。

附图说明

图1是本发明实施例一种知识库的构建方法的流程图；

图2是本发明实施例另一种知识库的构建方法的流程图；

图3是本发明实施例知识库的构建方法的一种应用场景示意图；

图4是本发明实施例知识库的构建方法的另一种应用场景示意图；

图5是本发明实施例一种知识库的构建装置的结构示意图。

具体实施方式

如背景所述，为了从海量互联网数据中识别、提取出对分析某一主题有意义的数据，现有技术按照预定的规则进行数据清洗，但未考虑行业差异化对数据清洗产生的影响。因而，现有的数据清洗方法难以按照行业应用领域建立描述行业特征概要信息的知识库。

本发明实施例提供一种知识库的构建方法，包括：确定行业标准词库，以及与所述行业标准词库对应的有用词规则和停用词规则；基于所述有用词规则从原始短语中提取有用词语；对所述原始短语进行分词，以得到多个词语；如果所述多个词语中包含与所述行业标准词库中的标准词匹配的词语，那么将所述匹配的词语按照在所述原始短语中的位置关系组合，以得到组合词语；将所述组合词语与所述有用词语组合以得到第一新短语，并将所述第一新短语加入知识库。考虑到行业应用领域的差异性将导致其知识库的背景特征、属性特征、使用特征千差万别，因此本发明技术方案构建的知识库首先以行业标准词库作为参考，通过对已有的行业标准词库进行收集和整理确定行业标准词库，并以此确定对应的有用词规则和停用词规则，可以充分考虑行业的特殊性和专有性，使得本发明构建的知识库能够清晰描述行业概要信息，易于理解，可读性强。其次，将原始短语分词得到语义更小的词语，消除原始短语过长或语义复杂带来的不利因素，有利于获得与所述行业标准词库中的标准词匹配的词语，提高行业信息和行业知识的准确率。此外，将所述组合词语与基于有用词规则提取的有用词语组合可以获得新短语，有利于准确获取与所属行业关联的组合词语，进而得到规范有序，提供一致性数据的知识库，方便后续数据处理。通过本发明实施例构建的行业知识库，可以进一步完善行业知识库信息，纠正原始短语的错误，减小误差，提高行业信息和行业知识的准确率，有利于高效检索，进而提高行业知识库的数据处理效率。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种知识库的构建方法的流程图。

图1所示的知识库的构建方法可以包括以下步骤。

步骤S101：确定行业标准词库，以及与所述行业标准词库对应的有用词规则和停用词规则。

步骤S102：基于所述有用词规则从原始短语中提取有用词语。

步骤S103：对所述原始短语进行分词，以得到多个词语。

步骤S104：如果所述多个词语中包含与所述行业标准词库中的标准词匹配的词语，那么将所述匹配的词语按照在所述原始短语中的位置关系组合，以得到组合词语。

步骤S105：将所述组合词语与所述有用词语组合以得到第一新短语，并将所述第一新短语加入知识库。

具体实施中，知识库的建立需要按照行业来进行，以便充分考虑行业的特殊性和专有性，从而满足所属行业独特的数据处理需求。相应的，行业标准词库也需要按照行业类别确定。在步骤S101中，行业标准词库是预先确定的，其确定方式可以包括以下几种：(1)输入法词库，例如搜狗细胞词库，百度输入法词库等；(2)垂直类网站抓取词库，例如豆瓣电影可以抓取影视类标准词库，汽车之家可以抓取汽车品牌、车型标准词库，携程网可以抓取酒店品牌标准词库等；(3)人工整理得到词库，例如通过人工的方式收集、整理词库。行业标准词库中的标准词包括针对特定行业从互联网上的公开数据，或者网络爬虫获取的数据中获取的标准词。

有用词规则和停用词规则也是预先确定的，二者通常是针对特定行业的，也即和行业标准词库对应。所述有用词规则和所述停用词规则是基于行业知识确定的词语的集合，在确定时还可以同时结合人对行业的认知。例如，有用词语可以是一些不在行业标准词库中，但属于特定行业中信息含量较高的词语，例如，电商商品名称中的一些规格词“xx毫米”、“xx瓶”、“xx千克”等。停用词语也可以称为无用词或者干扰词，主要是词语中的非关键内容(或者是特定行业中信息含量较低的词语)，在删除停用词语的情况下，也不会影响对词语的阅读和理解。例如，视频名称中的“xx版”、“第x集”、“第x季”等，酒店名称中的“xx分店”、“xx连锁”等，电商商品名称中的“促销”、“特价”等。可以看到，有用词语和停用词语一般由行业知识来确定，或者也可以同时结合人类社会对事物的认知考虑来确定。有用词语和停用词语并不是固定的，可能会随着时间变化不断更改。因此，一般情况下，有用词规则和停用词规则的确定过程可以加入人工的确定和筛选步骤。所述有用词规则和停用词规则均可以采用正则表达式来定义。

在所述步骤S102的具体实施中，基于所述有用词规则从原始短语中提取有用词语。不同行业的有用词语可能完全不同，例如影视行业中，“第x集”可以作为有用词语完善视频信息；酒类行业中，“x度”可以作为有用词语完善酒精纯度信息等。

在所述步骤S103的具体实施中，对原始短语进行分词，以便将语义切分为比较小的单字或单词，从而获得多个词语。可以采用中文分词器对原始短语进行分词。中文分词器技术已经比较成熟，可以选择的中文分词器包括但不限于：庖丁解牛(Paoding)分词器，汉语处理包(Han Language Processing，HanLP)分词器，Java分布式中文分词组件(word分词器)等。实际应用中，可以根据易用性或者功能性等需求选择一个合适的分词器。具体的，可以将行业标准词库作为分词参考准则进行分词，以便获得与所述行业标准词库中的标准词匹配的词语，消除原始短语过长或语义复杂带来的不利因素，以便获得与所述行业标准词库中的标准词匹配的词语。

具体实施中，在所述步骤S104中，将通过分词器得到的多个词语与所述行业标准词库中的标准词进行匹配，如果存在匹配的词语，那么将所述匹配的词语按照所述原始短语中的位置关系例如初始顺序组合，以得到组合词语。

如果所述多个词语中不包含与所述行业标准词库中的标准词匹配的词语，那么基于所述停用词规则从所述原始短语中删除停用词语，以得到删除后词语。其中，所述行业标准词库中的标准词包括从公开数据和/或网络爬虫爬取的数据中获取的标准词。

具体实施中，在所述步骤S105中，将所述组合词语与所述有用词语组合以得到第一新短语，并将所述第一新短语加入知识库。显然，如果所述组合词语中包含的匹配的词语与所述有用词语重复，那么可以直接删除重复的内容后进行组合，得到所述第一新短语后，将所述第一新短语加入知识库。其中，被删除的内容可以是重复的匹配的词语，也可以是重复的有用词语。将所述组合词语与有用词语组合，有利于准确获取与所属行业关联的组合词语，进而得到规范有序，提供一致性数据的知识库，方便后续数据处理。

进一步，可以将所述删除后词语与所述有用词语组合以得到第二新短语，如果所述删除后词语与所述有用词语重复，那么可以直接删除重复的内容后进行组合，以得到所述第二新短语，并将第二新短语加入知识库。其中，被删除的内容可以是重复的删除后词语，或者也可以是重复的有用词语。加入知识库的第一新短语、第二新短语是结构化的新短语，具有确定的结构化数据组织形式，有利于后续数据处理。

通过本发明实施例构建的行业知识库，可以进一步完善行业知识库信息，纠正原始短语的错误，减小误差，提高行业信息和行业知识准确率，有利于高效检索，进而提高行业知识库的数据处理效率。图2是本发明实施例另一种知识库的构建方法的流程图。

图2所示的知识库的构建方法可以包括以下步骤。

步骤S201：确定行业标准词库，以及与所述行业标准词库对应的有用词规则和停用词规则。

步骤S202：基于所述有用词规则从原始短语中提取有用词语。

步骤S203：对所述原始短语进行分词，以得到多个词语。

步骤S204：判断所述多个词语中是否包含与所述行业标准词库中的标准词匹配的词语？如果是，则转到步骤S205A；如果否，则转到步骤S206A。

步骤S205A：如果所述多个词语中包含与所述行业标准词库中的标准词匹配的词语，那么将所述匹配的词语按照在所述原始短语中的位置关系组合，以得到组合词语。

步骤S205B：将所述组合词语与所述有用词语组合以得到第一新短语，转到步骤S207。

步骤S206A：如果所述多个词语中不包含与所述行业标准词库中的标准词匹配的词语，那么基于所述停用词规则从所述原始短语中删除停用词语，以得到删除后词语。

步骤S206B：将所述删除后词语与所述有用词语组合以得到第二新短语。

步骤S207：将所述第一新短语或所述第二新短语加入知识库。

具体实施中，知识库的建立需要按照行业来进行，以便充分考虑行业的特殊性和专有性，从而满足所属行业独特的数据处理需求。相应的，行业标准词库也需要按照行业分别确定。在所述步骤S201中，行业标准词库可以是预先确定的，其确定的方式可以包括以下几种：(1)输入法词库，例如搜狗细胞词库，百度输入法词库等；(2)垂直类网站抓取词库，例如豆瓣电影可以抓取影视类标准词库，汽车之家可以抓取汽车品牌、车型标准词库，携程网可以抓取酒店品牌标准词库等；(3)人工整理得到词库，例如通过人工的方式收集、整理词库。行业标准词库中的标准词包括针对特定行业从互联网上的公开数据，或者网络爬虫获取的数据中获取的标准词。

所述有用词规则和所述停用词规则也是预先确定的，二者通常是针对特定行业的，也即和行业标准词库对应。所述有用词规则和所述停用词规则是基于行业知识确定的词语的集合，在确定时还可以同时结合人对行业的认知。例如，有用词语可以是一些不在行业标准词库中，但属于特定行业中信息含量较高的词语，例如，电商商品名称中的一些规格词“xx毫米”、“xx瓶”、“xx千克”等。停用词语也可以称为无用词或者干扰词，主要是词语中的非关键内容(或者是特定行业中信息含量较小的词语)，在删除停用词语的情况下，也不会影响对词语的阅读和理解。例如，视频名称中的“xx版”、“第x集”、“第x季”等，酒店名称中的“xx分店”、“xx连锁”等，电商商品名称中的“促销”、“特价”等。可以看到，有用词语和停用词语一般由行业知识来确定，也可以同时结合人类社会对事物的认知考虑来确定。有用词语和停用词语并不是固定的，可能会随着时间变化不断更改。因此，一般情况下，有用词规则和停用词规则的确定过程可以加入人工确定和筛选步骤。所述有用词规则和停用词规则均可以采用正则表达式来定义。

在所述步骤S202的具体实施中，基于所述有用词规则从原始短语中提取有用词语。不同行业的有用词语可能完全不同，例如影视行业中，“第x集”可以作为有用词语完善视频信息；酒类行业中，“x度”可以作为有用词语完善酒精纯度信息等。

在所述步骤S203的具体实施中，对原始短语进行分词，以便将语义切分为比较小的单字或单词，从而获得多个词语。可以采用中文分词器对原始短语进行分词。中文分词器技术已经比较成熟，可以选择的中文分词器包括但不限于：Paoding分词器，HanLP分词器，word分词器等。实际应用中，可以根据易用性或者功能性等需求选择一个合适的分词器。具体的，可以将行业标准词库作为分词参考准则进行分词，以便获得与所述行业标准词库中的标准词匹配的词语，消除原始短语过长或语义复杂带来的不利因素，有利于获得与所述行业标准词库中的标准词匹配的词语。

具体实施中，在所述步骤S204中，判断通过分词器得到的多个词语是否包含与所述行业标准词库中的标准词匹配的词语。如果是，则转向所述步骤S205A；如果否，则转向所述步骤S206A。

如果通过分词器得到的多个词语与所述行业标准词库中的标准词存在匹配的词语，那么流程转向所述步骤S205A，即将所述匹配的词语按照所述原始短语中的位置关系例如初始顺序组合，得到组合词语。在所述步骤S205B中，将所述组合词语与所述有用词语组合得到第一新短语。显然，如果所述组合词语中包含的匹配的词语与所述有用词语重复，那么可以直接删除重复的内容后进行组合，以得到所述第一新短语。其中，被删除的内容可以是重复的匹配的词语，也可以是重复的有用词语。接着，所述步骤S205B转向所述步骤S207。

如果所述多个词语中不包含与所述行业标准词库中的标准词匹配的词语，那么流程转向所述步骤S206A，即基于所述停用词规则从所述原始短语中删除停用词语，以得到删除后词语，以便进一步完善行业知识库信息，纠正原始短语的错误，减小误差，提高准确率。在所述步骤S206B中，可以将所述删除后词语与所述有用词语组合，如果所述删除后词语与所述有用词语重复，那么可以直接删除重复的内容后进行组合，以得到所述第二新短语。其中，被删除的内容可以是重复的删除后词语，或者也可以是重复的有用词语。

在所述步骤S207中，将所述第一新短语或所述第二新短语加入知识库。知识库内的数据(第一新短语和/或第二新短语)是结构化数据，具有确定的结构化组织形式，方便后续数据处理。通过本发明实施例构建的行业知识库，有利于高效检索行业信息和行业知识，进而提高行业知识库的数据处理效率。

图3是本发明实施例知识库的构建方法的一种应用场景示意图。

参考图3，拟构建一种视频知识库，因而需要对原始短语视频标题进行清洗和规整。在一个非限定例子中，原始短语是“汪汪队立大功第二季：01企鹅任务”，在此条件下，结合图1所示的知识库构建方法，构建视频知识库的具体流程如下。

(1)确定视频标准词库301、有用词规则302和停用词规则303。其中，所述视频标准词库301中包括标准词“汪汪队立大功”；所述有用词规则302包括有用词语“第+季”；所述停用词规则303包括停用词语“的”。

(2)根据所述有用词规则302在原始短语中提取出有用词语“第二季”。

(3)中文分词器对原始短语“汪汪队立大功第二季：01企鹅任务”进行分词，得到“汪汪队立大功”、“第二季”、“01”、“企鹅”、“任务”五个词语。

(4)由于所述视频标准词库301中包括“汪汪队立大功”，即满足所述多个词语中包含与所述视频标准词库301中的标准词匹配的词语，因而可以将匹配的词语“汪汪队立大功”与所述步骤(2)得到的有用词语组合，得到第一新短语“汪汪队立大功第二季”。

(5)将“汪汪队立大功第二季”加入视频知识库304，流程结束。

图4是本发明实施例知识库的构建方法的另一种应用场景示意图。

参考图4，拟构建一种影视剧知识库，因而需要对原始短语标题进行清洗和规整。在一个非限定例子中，原始短语是“电视剧《择偶记》网络版花絮”，在此条件下，结合图2所示的知识库的构建方法，构建影视剧知识库的具体流程如下。

(1)确定视频标准词库401，以及与所述视频标准词库401对应的有用词规则402和停用词规则403。其中，所述视频标准词库401中包括标准词“择天记”；所述有用词规则302包括有用词语“择偶记”；所述停用词规则303包括停用词语“XX版”和“花絮”。

(2)基于所述有用词规则402从原始短语中提取有用词语“择偶记”。

(3)利用中文分词器对原始短语“电视剧择偶记网络版花絮”进行分词，得到“电视剧”、“择偶记”、“网络版”和“花絮”四个词语。

(4)判断所述多个词语中是否包含与所述视频标准词库401中的标准词匹配的词语。如果是，则流程转到步骤(5)，否则转到步骤(6A)。由于视频标准词库401中仅包含“择天记”，却不包含“择偶记”，即不存在匹配的词语，因而跳过步骤(5)，转向步骤(6A)。

(5)如果所述多个词语中包含与所述视频标准词库401中的标准词匹配的词语，那么将所述匹配的词语按照在所述原始短语中的位置关系组合，以得到组合词语；将所述组合词语与所述有用词语组合以得到第一新短语，转到步骤(7)。

(6A)如果所述多个词语中不包含与所述视频标准词库401中的标准词匹配的词语，那么基于所述停用词规则403从所述原始短语中删除停用词语“网络版”以及“花絮”，得到删除后词语“电视剧择偶记”。

(6B)将所述删除后词语“电视剧择偶记”与步骤(2)提取的有用词语“电视剧”组合，由于删除后词语“电视剧择偶记”与有用词语“择偶记”含有重复内容“择偶记”，因而需删除重复内容(“择偶记”)后进行组合，最终得到第二新短语“电视剧择偶记”。

(7)将所述第二新短语“电视剧择偶记”加入影视剧知识库404，流程结束。

图5是本发明实施例一种知识库的构建装置的结构示意图。

图5所示的知识库的构建装置50可以包括确定模块501、提取模块502、分词模块503、第一词语组合模块504A以及第一封装模块505A、第二词语组合模块504B以及第二封装模块505B。

具体实施中，所述确定模块501适于确定行业标准词库，以及与所述行业标准词库对应的有用词规则和停用词规则。知识库的建立需要按照行业来进行，以便充分考虑行业的特殊性和专有性，从而满足所属行业独特的数据处理需求。相应的，行业标准词库也需要按照行业分别确定。所述确定模块501确定行业标准词库的方式可以包括以下几种：(1)输入法词库，例如搜狗细胞词库、百度输入法词库等；(2)垂直类网站抓取词库，例如豆瓣电影可以抓取影视类标准词库、汽车之家可以抓取汽车品牌及车型标准词库，携程网可以抓取酒店品牌标准词库等；(3)人工整理得到词库，例如通过人工的方式收集、整理词库。其中，行业标准词库中的标准词包括针对特定行业从互联网上的公开数据，或者网络爬虫获取的数据中获取的标准词。

所述确定模块501可以确定所述有用词规则和所述停用词规则。所述有用词规则和所述停用词规则可以是预先确定的，二者通常是针对特定行业的，也即和行业标准词库对应。所述有用词语和所述停用词语是基于行业知识确定的词语的集合，在确定时还可以同时结合人对行业的认知。例如，有用词语可以是一些不在行业标准词库中，但属于特定行业中包含行业信息量较高的词语，例如，电商商品名称中的一些规格词“xx毫米”、“xx瓶”、“xx千克”等。停用词语也可以称为无用词或者干扰词，主要是词语中的非关键内容(或者是特定行业中信息含量较低的词语)。在删除停用词语的情况下，也不会影响对词语的阅读和理解。例如，视频名称中的“xx版”、“第x集”、“第x季”等，酒店名称中的“xx分店”、“xx连锁”等，电商商品名称中的“促销”、“特价”等。可以看到，有用词语和停用词语一般由行业知识来确定，或者也可以同时结合人类社会对事物的认知考虑来确定。有用词语和停用词语并不是固定的，可能会随着时间变化不断更改。因此，一般情况下，确定有用词规则和停用词规则的确定过程可以加入人工的确定和筛选步骤。所述有用词规则和停用词规则均可以采用正则表达式来定义。

具体实施中，所述提取模块502适于基于所述有用词规则从原始短语中提取有用词语。不同行业的有用词语可能完全不同，例如影视行业中，“第x集”可以作为有用词语完善视频信息；酒类行业中，“x度”可以作为有用词语完善酒精纯度信息等。

在所述分词模块503的具体实施中，适于对原始短语进行分词，以便将语义切分为比较小的单字或单词，从而获得多个词语。所述分词模块503可以采用中文分词器进行分词。中文分词器技术已经比较成熟，可以选择的中文分词器包括但不限于：Paoding分词器，HanLP分词器，word分词器等。实际应用中，分词模块503可以根据易用性或者功能性等需求选择一个合适的分词器。具体的，可以将行业标准词库作为分词参考准则进行分词，以便获得与所述行业标准词库中的标准词匹配的词语，消除原始短语过长或语义复杂带来的不利因素，有利于获得与所述行业标准词库中的标准词匹配的词语。

具体实施中，将通过分词器得到的多个词语与所述行业标准词库中的标准词进行匹配，如果存在匹配的词语，那么所述第一词语组合模块504A将所述匹配的词语按照所述原始短语中的位置关系例如初始顺序组合，以得到组合词语。

所述第一封装模块505A可以将所述组合词语与所述有用词语组合以得到第一新短语。显然，如果所述组合词语中包含的匹配的词语与所述有用词语重复，那么可以直接删除重复的内容(可以是重复的匹配的词语，也可以是重复的有用词语)后再进行组合得到所述第一新短语，然后将所述第一新短语加入知识库。

如果所述多个词语中不包含与所述行业标准词库中的标准词匹配的词语，那么所述第二词语组合模块504B可以基于所述停用词规则从所述原始短语中删除停用词语，以得到删除后词语。

进一步，所述第二封装模块505B可以将所述删除后词语与所述有用词语组合，如果所述删除后词语与所述有用词语重复，那么可以直接删除重复的内容后进行组合，以得到所述第二新短语，并将所述第二新短语加入知识库，以便进一步完善行业知识库信息，纠正原始短语的错误，减小误差，提高准确率。其中，被删除的内容可以是重复的删除后词语，或者也可以是重复的有用词语。

进一步地，本发明实施例还公开了一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述图1和图2所示实施例所述知识库的构建方法的步骤。优选地，所述存储介质可以包括计算机可读存储介质。优选地，所述存储介质可以包括ROM、RAM、磁盘或光盘等。

进一步地，本发明实施例还公开了一种计算设备，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述图1和图2所示实施例所述知识库的构建方法的步骤。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种知识库的构建方法，其特征在于，包括：

确定行业标准词库，以及与所述行业标准词库对应的有用词规则和停用词规则；

基于所述有用词规则从原始短语中提取有用词语；

对所述原始短语进行分词，以得到多个词语；

如果所述多个词语中包含与所述行业标准词库中的标准词匹配的词语，那么将所述匹配的词语按照在所述原始短语中的位置关系组合，以得到组合词语；

将所述组合词语与所述有用词语组合以得到第一新短语，并将所述第一新短语加入知识库。

2.根据权利要求1所述的知识库的构建方法，其特征在于，还包括：

如果所述多个词语中不包含与所述行业标准词库中的标准词匹配的词语，那么基于所述停用词规则从所述原始短语中删除停用词语，以得到删除后词语；

将所述删除后词语与所述有用词语组合以得到第二新短语，并将所述第二新短语加入所述知识库。

3.根据权利要求2所述的知识库的构建方法，其特征在于，所述将所述删除后词语与所述有用词语组合以得到第二新短语包括：如果所述删除后词语与所述有用词语重复，那么删除重复的内容后进行组合，以得到所述第二新短语。

4.根据权利要求1所述的知识库的构建方法，其特征在于，所述行业标准词库中的标准词包括：从公开数据和/或网络爬虫爬取的数据中获取的标准词。

5.根据权利要求1所述的知识库的构建方法，其特征在于，所述有用词规则和所述停用词规则由正则表达式定义。

6.根据权利要求1所述的知识库的构建方法，其特征在于，所述将所述组合词语与所述有用词语组合以得到第一新短语包括：如果所述组合词语中包含的匹配的词语与所述有用词语重复，那么删除重复的内容后进行组合，

以得到所述第一新短语。

7.一种知识库的构建装置，其特征在于，包括：

确定模块，适于确定行业标准词库，以及与所述行业标准词库对应的有用词规则和停用词规则；

提取模块，适于基于所述有用词规则从原始短语中提取有用词语；

分词模块，适于对所述原始短语进行分词，以得到多个词语；

第一词语组合模块，如果所述多个词语中包含与所述行业标准词库中的标准词匹配的词语，那么所述第一词语组合模块适于将所述匹配的词语按照在所述原始短语中的位置关系组合，以得到组合词语；

第一封装模块，适于将所述组合词语与所述有用词语组合，以得到第一新短语，并将所述第一新短语加入知识库。

8.根据权利要求7所述的知识库的构建装置，其特征在于，还包括：

第二词语组合模块，如果所述多个词语中不包含与所述行业标准词库中的标准词匹配的词语，那么所述第二词语组合模块适于基于所述停用词规则从所述原始短语中删除停用词语，以得到删除后词语；

第二封装模块，适于将所述删除后词语与所述有用词语组合，以得到第二新短语，并将所述第二新短语加入知识库。

9.根据权利要求8所述的知识库的构建装置，其特征在于，如果所述删除后词语与所述有用词语重复，那么所述第二封装模块适于删除重复的内容后进行组合，以得到第二新短语。

10.根据权利要求7所述的知识库的构建装置，其特征在于，所述行业标准词库中的标准词包括：从公开数据和/或网络爬虫爬取的数据中获取的标准词。

11.根据权利要求7所述的知识库的构建装置，其特征在于，所述有用词规则和所述停用词规则由正则表达式定义。

12.根据权利要求7所述的知识库的构建装置，其特征在于，如果所述组合词语中包含的匹配的词语与所述有用词语重复，那么所述第一封装模块适于删除重复的内容后进行组合，以得到所述第一新短语。

13.一种存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至6任一项所述知识库的构建方法的步骤。

14.一种计算设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1至6中任一项所述知识库的构建方法的步骤。