CN105608218B

CN105608218B - 智能问答知识库的建立方法、建立装置及建立系统

Info

Publication number: CN105608218B
Application number: CN201511030332.5A
Authority: CN
Inventors: 曾永梅; 李波; 姚贡之; 朱频频
Original assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Current assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date: 2015-12-31
Filing date: 2015-12-31
Publication date: 2018-11-27
Anticipated expiration: 2035-12-31
Also published as: CN105608218A

Abstract

一种智能问答知识库的建立方法、建立装置和建立系统，所述建立方法包括：提供领域知识数据库，领域知识数据库包括多个预置知识；接收初始请求信息；将初始请求信息与所述领域知识数据库中的预置知识进行语义相似度计算，并判断语义相似度计算结果的最大值是否大于相似度阈值，当相似度计算结果的最大值大于相似度阈值时，将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库；当相似度计算结果小于相似度阈值时，抽象语义推荐步骤，获得与所述初始请求信息对应的一个或多个具体语义表达式，将该初始请求信息以及所具体语义表达式存入智能问答知识库。本发明的方法提高智能问答知识库的建立效率。

Description

智能问答知识库的建立方法、建立装置及建立系统

技术领域

本发明涉及数据处理技术领域，特别涉及一种智能问答知识库的建立方法、建立装置及建立系统。

背景技术

知识库，又称为智能数据库或人工智能数据库。知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群，是针对某一(或某些)领域问题求解的需要，采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据，由专家经验得到的启发式知识，如某领域内有关的定义、定理和运算法则以及常识性知识等。

知识库有着广泛的应用，典型的应用有智能问答系统或自动问题系统，自动问题系统中存储着一些预设的问题，并存储预设问题对应的答案信息，在公众用户提出问题时，自动问题系统会将公众用户提出的问题与预设的问题进行匹配，若匹配成功，自动问题系统会将该预设问题对应的答案信息反馈给公众用户。

参考图1，图1为现有技术智能问答系统中的知识库建立装置的结构示意图，包括：人机界面10，用于输入待存储的问题；存入单元11，用于接收人机界面10输入的待存储问题，并将接收的待存储问题存入问题库12；问题库12，用于存储接收的待存储问题。

由于不同用户提出问题的角度不同以及表达方式不同，为了提高智能问答系统的准确性，在对问题库中的问题进行预设时，需要人工从人机界面输入不同表达方式的多个问题，耗时耗力，效率较低，因而现有的存储装置进行问题存储时的效率有待改善。

发明内容

本发明解决的问题是怎样提高智能问答知识库建立的效率。

为解决上述问题，本发明提供了一种智能问答知识库的建立方法，包括：

提供领域知识数据库，所述领域知识数据库包括多个预置知识，所述预置知识包括：一个标准问以及一个或多个扩展问；

接收初始请求信息；

将所述初始请求信息与所述领域知识数据库中的预置知识进行语义相似度计算，并判断语义相似度计算结果的最大值是否大于相似度阈值，当相似度计算结果的最大值大于相似度阈值时，将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库；

当相似度计算结果的最大值小于相似度阈值时，继续下面步骤：

提供抽象语义数据库，所述抽象语义数据库包括多个抽象语义表达式，所述抽象语义表达式包括缺失语义成分；

根据所述抽象语义数据库对所述初始请求信息进行抽象语义推荐处理，当获得与所述初始请求信息对应的一个或多个抽象语义表达式时，从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容，并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式，将该初始请求信息以及所述具体语义表达式存入智能问答知识库。

可选的，所述语义相似度计算采用以下一种或多种方式的结合：基于向量空间模型的计算方法、基于隐形语义索引模型的计算方法、基于属性论的语义相似度计算方法和基于汉明距离的语义相似度计算方法。

可选的，分别计算所述初始请求信息与所述标准问的语义相似度以及所述初始请求信息与每个所述扩展问的语义相似度，并将计算结果中的最高值作为所述初始请求信息与该预置知识的语义相似度结果。

可选的，所述相似度阈值大于或等于0.7且小于或等于1.0。

可选的，在进行相似度计算之前还包括：对所述初始请求信息进行文本预处理。

可选的，所述方法还包括：当无法获得与所述初始请求信息对应的抽象语义表达式时，通过人工方式在所述智能问答知识库中添加与所述初始请求信息对应的扩展问。

可选的，所述方法还包括：将所述初始请求信息存入智能问答知识库的同时，提供与所述初始请求信息对应的答案，并将该答案一并存入智能问答知识库。

可选的，所述方法还包括：当停止接收初始请求信息之后，从领域知识数据库中至少提取未存入智能问答知识库的部分数目的预置知识，并将提取的预置知识存入智能问答知识库，所述预置知识还包括答案。

可选的，所述抽象语义推荐处理包括：

对所述初始请求信息进行分词处理，得到若干单独词；

将每个单独词识别为语义规则词或非语义规则词；

分别对每个非语义规则词进行词性标注处理，得到每个非语义规则词的词性信息；

分别对每个语义规则词进行词类判断处理，得到每个语义规则词的词类信息；

对抽象语义数据库进行搜索处理，得到与所述初始请求信息相关的抽象语义候选集，所述抽象语义候选集包括多个抽象语义表达式；

根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理，得到与所述初始请求信息匹配的抽象语义表达式。

可选的，所述抽象语义推荐处理包括：

对所述初始请求信息进行分词处理，得到若干单独词；

分别对每个所述单独词进行词性标注处理，得到每个单独词的词性信息；

分别对每个所述单独词进行词类判断处理，得到每个单独词的词类信息；

可选的，在进行匹配处理之前还包括：判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内，当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时，去除部分抽象语义表达式；当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时，从默认集合中补充部分抽象语义表达式。

可选的，所述抽象语义表达式还包括语义规则词；所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单独词相同或属于同一词类。

可选的，与所述初始请求信息匹配的抽象语义表达式满足以下条件：

缺失语义成分对应的词性包括对应的填充内容的词性；

初始请求信息中填充内容外对应的单独词与语义规则词相同或两者属于同一词类；

该抽象语义表达式与初始请求信息的顺序相同。

可选的，当与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时，还包括：

分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理，从所述初始请求信息中提取与得分较高的N个抽象语义表达式的缺失语义成分对应的内容，将提取的内容填充到得分较高的N个抽象语义表达式对应的缺失语义成分，得到与所述初始请求信息对应的N个具体语义表达式。

可选的，所述打分处理采用以下一种或多种方式的结合：

缺失语义成分匹配的数量越多，得分越高；

设定一抽象语义表达式中某一缺失语义成分为核心语义成分，其他缺失语义成分与该核心语义成分的距离越近，得分越高；

词性置信度越大，得分越高；

根据预先设定的抽象语义表达式的优先级，优先级越高，得分越高；

根据自然语言模型进行判断，对爬取的大量语料数据的分词给出对抽象语义表达式进行填充后获得的数据信息语义是否正确的概率，概率越高，得分越高。

本发明还提供了一种智能问答知识库的建立装置，包括：

预置知识获取单元，用于获取多个预置知识，所述预置知识包括：一个标准问以及一个或多个扩展问；

接收单元，用于接收初始请求信息；

计算单元，用于将所述初始请求信息与所述预置知识进行语义相似度计算；

判断单元，用于判断语义相似度计算结果的最大值是否大于相似度阈值；

抽象语义表达式获取单元，用于获取多个抽象语义表达式，所述抽象语义表达式包括缺失语义成分；

抽象语义推荐模块，用于相似度计算结果的最大值小于相似度阈值时，根据所述多个抽象语义表达式对所述初始请求信息进行抽象语义推荐处理，获得与所述初始请求信息对应的一个或多个抽象语义表达式；

填充单元，用于当获得与所述初始请求信息对应的一个或多个抽象语义表达式时，从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容，并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式；

存入单元，用于当相似度计算结果的最大值大于相似度阈值时，将相似度计算结果的最大值对应的预置知识中的标准问和扩展问以及对应的初始请求信息存入智能问答知识库；或者当相似度计算结果的最大值小于相似度阈值时，将所述具体语义表达式以及对应的初始请求信息存入智能问答知识库。

可选的，所述计算单元采用以下一种或多种方式的结合进行语义相似度计算：基于向量空间模型的计算方法、基于隐形语义索引模型的计算方法、基于属性论的语义相似度计算方法和基于汉明距离的语义相似度计算方法。

可选的，所述计算单元分别计算所述初始请求信息与所述标准问的语义相似度以及所述初始请求信息与每个所述扩展问的语义相似度，并将计算结果中的最高值作为所述初始请求信息与该预置知识的语义相似度结果。

可选的，所述相似度阈值大于或等于0.7且小于或等于1.0。

可选的，所述装置还包括文本预处理单元：用于对所述初始请求信息进行文本预处理。

可选的，所述抽象语义推荐模块包括：分词单元、规则词识别单元、词性标注单元、词类判断单元、搜索单元和匹配单元，其中，所述分词单元，用于对所述初始请求信息进行分词处理，得到若干单独词；规则词识别单元，用于将每个单独词识别为语义规则词或非语义规则词；词性标注单元，用于分别对每个非语义规则词进行词性标注处理，得到每个非语义规则词的词性信息；词类判断单元，用于分别对每个语义规则词进行词类判断处理，得到每个语义规则词的词类信息；搜索单元，用于对抽象语义表达式获取单元获取的多个抽象语义表达式进行搜索处理，得到与所述初始请求信息相关的抽象语义候选集，所述抽象语义候选集包括多个抽象语义表达式；匹配单元，用于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理，得到与所述初始请求信息匹配的抽象语义表达式。

可选的，所述抽象语义推荐模块还包括：分词单元、词性标注单元、词类判断单元、搜索单元和匹配单元，其中，分词单元，用于对所述初始请求信息进行分词处理，得到若干单独词；词性标注单元，用于分别对每个所述单独词进行词性标注处理，得到每个单独词的词性信息；词类判断单元，用于分别对每个所述单独词进行词类判断处理，得到每个单独词的词类信息；搜索单元，用于对抽象语义表达式获取单元获取的多个抽象语义表达式进行搜索处理，得到与所述初始请求信息相关的抽象语义候选集，所述抽象语义候选集包括多个抽象语义表达式；匹配单元，用于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理，得到与所述初始请求信息匹配的抽象语义表达式。

可选的，所述抽象语义推荐模块还包括：数目判断单元、去除单元和补充单元，其中：数目判断单元，用于判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内；去除单元，用于当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时，去除部分抽象语义表达式；补充单元，用于当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时，从默认集合中补充部分抽象语义表达式。

可选的，所述抽象语义表达式还包括语义规则词；所述搜索单元搜索得到的所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单独词相同或属于同一词类。

可选的，所述匹配单元得到与所述初始请求信息匹配的抽象语义表达式满足以下条件：

缺失语义成分对应的词性包括对应的填充内容的词性；

初始请求信息中填充内容外对应的关键词与语义规则词相同或两者属于同一词类；

该抽象语义表达式与初始请求信息的顺序相同。

可选的，所述装置还包括打分单元，用于当抽象语义推荐模块获得的与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时，分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理，将提取的内容填充到得分较高的N个抽象语义表达式对应的缺失语义成分，得到与所述初始请求信息对应的N个具体语义表达式。

可选的，所述打分单元采用以下一种或多种方式的结合进行打分处理：

缺失语义成分匹配的数量越多，得分越高；

词性置信度越大，得分越高；

可选的，所述装置还包括：答案提供单元，用于提供与初始请求信息对应的答案；所述存入单元将所述初始请求信息存入智能问答知识库的同时，将答案提供单元提供的答案一并存入智能问答知识库。

可选的，所述装置还包括：提取单元，用于当接收单元停止接收初始请求信息之后，从预置知识获取单元中至少提取未存入智能问答知识库的部分数目的预置知识；所述存入单元将提取单元提取的预置知识存入智能问答知识库。

本发明还提供了一种智能问答知识库的建立系统，包括：

领域知识数据库，所述领域知识数据库包括多个预置知识，所述预置知识包括：一个标准问以及一个或多个扩展问；

抽象语义数据库，所述抽象语义数据库包括多个抽象语义表达式，所述抽象语义表达式包括缺失语义成分；

还包括：上述所述的建立装置。

与现有技术相比，本发明的技术方案具有以下优点：

本发明智能问答知识库的建立方法，在接收初始请求信息后，将所述初始请求信息与所述领域知识数据库中的预置知识进行语义相似度计算，并判断语义相似度计算结果的最大值是否大于相似度阈值，当相似度计算结果的最大值大于相似度阈值时，将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库；当相似度计算结果小于相似度阈值时，根据所述抽象语义数据库对所述初始请求信息进行抽象语义推荐处理，当获得与所述初始请求信息对应的一个或多个抽象语义表达式时，从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容，并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式，将该初始请求信息以及所述具体语义表达式存入智能问答知识库。本发明的方法，在接收到用户输入的一条初始请求信息后，在进行语义相似度计算以及将相似度计算结果与相似度阈值进行比较后，将相似度计算结果的最大值对应的预置知识及对应的初始请求信息存储到智能问答知识库中存储到智能问答知识库中，因而用户在建立智能问答知识库，无需多次向智能问答知识库输入相关联的多个问题，从而提高了智能问答知识库建立效率；在相似度计算结果小于相似度阈值时，则进行抽象语义的推荐处理，获得与所述初始请求信息对应的一个或多个具体语义表达式，该获得的一个或多个具体语义表达式表达的语义与初始请求信息所要表达的语义相同或近似，然后将一个或多个具体语义表达式及对应的初始请求信息存入智能问答知识库，因而用户只需要输入一条初始请求信息，本发明的方法可以对该初始请求信息进行自动的扩展，获得与该初始请求信息相关的若干条信息(一个或多个具体语义表达式)，存入智能问答知识库，进一步提高了智能问答知识库的建立效率和存储内容的准确性；并且，本发明的方法，先进行语义相似度计算，通过对相似度计算结果是否大于相似度阈值进行判断，当相似度计算结果的最大值大于相似度阈值时，将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库；当相似度计算结果小于相似度阈值时，进行抽象语义推荐处理，因而可以将领域知识数据库中用户需要的预置知识优先推荐到智能问答知识库中，从而处理简单，进一步提高了建库的效率。

进一步，在进行语义相似度计算之前，可对初始请求信息与领域知识数据库中的预置知识进行文本预处理，以从初始请求信息与领域知识数据库中的预置知识中抽取出有代表性的特征，作为相似度计算的基础，以提高进行相似度计算时的准确性。

进一步，对单独词进行词性标注处理，得到每个单独词的词性信息的目的是为后续将输入的初始信息与抽象语义表达式的匹配提供匹配的依据，提高了后续匹配的精度和效率。

进一步，分别对每个所述单独词进行词类判断处理的目的是为了判断每个单独词是否具有相应的词类，在进行匹配处理时，通过判断初始请求信息中部分内容与抽象语义表达式中的对应的语义规则词的是否属于同一词类，从而判断初始请求信息与该抽象语义表达式的匹配程度，提高了匹配的精度和效率。

进一步，对抽象语义数据库进行搜索处理，得到与所述初始请求信息相关的抽象语义候选的目的是为了减少后续进行匹配处理时的负担以及减少处理时间，以提高系统的性能。

进一步，与所述初始请求信息匹配的抽象语义表达式满足以下条件：缺失语义成分对应的词性(或属性)包括对应的填充内容的词性；初始请求信息中填充内容外对应的单独词与语义规则词相同或两者属于同一词类；该抽象语义表达式与初始请求信息的顺序相同，使得获得的抽象语义表达式与初始请求信息匹配程度较高。

进一步，在进行词性标注处理和词类判断处理之前，进行识别每个单独词为语义规则词或非语义规则词的步骤，然后对识别为非语义规则词的每个单独词进行词性标注处理，对识别为语义规则词的每个单独词进行词类判断处理，因而词性标注处理和词类判断处理的对象分别是部分单独词，减少了词性标注处理和词类判断处理所需的时间，提高了处理效率。

进一步，当与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时，还包括：分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理，因而可以将与初始请求信息最匹配的具体语义表达式存入智能问答知识库，从而保证建立的智能问答知识库具有较高的准确性。

本发明智能问答知识库的建立装置，接收单元在接收到用户输入的一条初始请求信息后，计算单元将所述初始请求信息与所述预置知识进行语义相似度计算，判断单元将所述初始请求信息与所述预置知识进行语义相似度计算，存入单元在当相似度计算结果的最大值大于相似度阈值时，将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库，因而用户在使用本发明的装置建立智能问答知识库时，无需多次向智能问答知识库输入相关联的多个问题，从而提高了智能问答知识库建立效率；抽象语义推荐模块在相似度计算结果小于相似度阈值时，则进行抽象语义的推荐处理，获得与所述初始请求信息对应的一个或多个具体语义表达式，填充单元在获得的一个或多个具体语义表达式表达的语义与初始请求信息所要表达的语义相同或近似，存入单元将一个或多个具体语义表达式及对应的初始请求信息存入智能问答知识库，因而用户使用本发明的装置只需要输入一条初始请求信息，本发明的装置可以对该初始请求信息进行自动的扩展，获得与该初始请求信息相关的若干条信息(一个或多个具体语义表达式)，存入智能问答知识库，进一步提高了智能问答知识库的建立效率；并且，本发明的装置，可以先进行语义相似度计算，通过对相似度计算结果是否大于相似度阈值进行判断，当相似度计算结果的最大值大于相似度阈值时，将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库；当相似度计算结果小于相似度阈值时，进行抽象语义推荐处理，因而可以将用户需要的预置知识优先推荐到智能问答知识库中，从而处理简单，进一步提高了建库的效率。

本发明智能问答知识库的建立系统，除了包括建立装置外还包括领域知识数据库和抽象语义数据库，领域知识数据库用于提供预置知识，抽象语义数据库用于提供抽象语义表达式，因而在智能问答知识库的建立时，一个领域知识数据库和抽象语义数据库可以向不同的建立装置提供数据信息。

附图说明

图1为现有技术智能问答系统中的知识库建立装置的结构示意图；

图2～图6为本发明实施例智能问答知识库的建立方法的流程示意图；

图7～图10为本发明实施例智能问答知识库的建立装置的结构示意图；

图11为本发明实施例智能问答知识库的建立系统的结构示意图。

具体实施方式

下面结合附图对本发明的具体实施例做详细的说明。

图2～图6为本发明实施例智能问答知识库的建立方法的流程示意图；图7～图10为本发明实施例智能问答知识库的建立装置的结构示意图。

请参考图2，所述智能问答知识库的建立方法，包括步骤：

步骤S101，提供领域知识数据库，所述领域知识数据库包括多个预置知识，所述预置知识包括：一个标准问以及一个或多个扩展问；

步骤S102，接收初始请求信息；

步骤S103，将所述初始请求信息与所述领域知识数据库中的预置知识进行语义相似度计算；

步骤S104，判断语义相似度计算结果的最大值是否大于相似度阈值，当相似度计算结果的最大值大于相似度阈值时，则进行步骤S105，当相似度计算结果的最大值小于相似度阈值时，则进行步骤S106～步骤S109；

步骤S105，将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库；

步骤S106，提供抽象语义数据库，所述抽象语义数据库包括多个抽象语义表达式，所述抽象语义表达式包括缺失语义成分；

步骤S107，根据所述抽象语义数据库对所述初始请求信息进行抽象语义推荐处理；

步骤S108，当获得与所述初始请求信息对应的一个或多个抽象语义表达式时，从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容，并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式；

步骤S109，将该初始请求信息以及所述具体语义表达式存入智能问答知识库。

下面对上述过程进行详细的描述。

进行步骤S101，提供领域知识数据库，所述领域知识数据库包括多个预置知识，所述预置知识包括：一个标准问以及一个或多个扩展问。

所述领域知识数据库中包括(存储)有多个预置知识，在一实施例中，每个预置知识包括一个标准问以及一个或多个扩展问。所述扩展问为标准问的不同表达形式，其均表达同一语义。

针对同一领域，为了使得对应的领域知识数据库可以用于建立多个不同的智能问答数据库，所述领域知识数据库中的预置知识可以是本领域的通用知识。

需要说明的是，所述标准问和所述扩展问均既可以采用语义表达式的形式，也可以采用具体的问句形式，其都在本发明的保护范围中。

在另一实施例中，所述预置知识除了包括一个标准问以及一个或多个扩展问，还可以包括与该标准问以及一个或多个扩展问对应的答案。

本实施例中以电信领域的关于如何开通彩铃作为示例进行说明，所述领域知识数据库中存储有与“彩铃如何开通”有关的预置知识包括：“彩铃如何开通”，“开通彩铃的步骤是怎样的”，“我要开通彩铃怎么办”，“如何开通彩铃”。将上述问题的其中一个问题作为标准问，其他三个问题作为扩展问。在一实施例中，比如可以将排在最前面的一个问题“彩铃如何开通”作为标准问，将另外的三个问题作为相应的扩展问，在其他实施例中也可以指定其它问题为标准问。

所述领域知识数据库中还存储有“彩铃如何开通”对应的答案。

所述领域知识数据库中还可以存储其他的预置知识，例如，如何开通GPRS的预置知识、如何办理停机手续的预置知识、如何开通长途优惠业务的预置知识。

在一实施例中，所述领域知识数据库中存储的预置知识以文本的形式存在，预置知识为多个时，不同的预置知识具有对应的存储区间以及对应的存储地址。

在其他实施例中，所述预置知识可以以其他的形式存在，比如预置知识中的标准问和扩展问可以以文本的形式存在，而对应的答案可以以语音或视频等多媒体形式存在。

本发明中不限定具体的领域，如：通信领域、金融领域、电子政务领域、电子商务领域、日常生活领域、智能家居领域以及智能交通领域等。

进行步骤S102，接收初始请求信息。

所述初始请求信息为需要与所述领域知识数据库中的预置知识进行语义相似度计算的信息或者为需要进行抽象语义推荐的信息。

在一实施例中，所述初始请求信息为人机界面输入的信息，比如所述初始请求信息为键盘或触摸屏等输入的文本信息，或者所述初始信息也可以从话筒输入，然后经语音识别引擎转化为的文本信息。

以如何开通彩铃作为示例进行说明，本实施例中，所述接收的初始请求信息为“我要怎样才能开通彩铃”。

进行步骤S103，将所述初始请求信息与所述领域知识数据库中的预置知识进行语义相似度计算。

语义相似度是指初始请求信息与领域知识数据库中的预置知识基于字与词语上的匹配程度、和(或者)语义上的符合程度。

所述预置知识为多个时，将所述初始请求信息依次与所述领域知识数据库中的预置知识进行语义相似度计算，获得相应的语义相似度结果。

在一实施例中，当每个领域知识包括一个标准问以及一个或多个扩展问，分别计算所述初始请求信息与所述标准问的语义相似度以及所述初始请求信息与每个所述扩展问的语义相似度，并将计算结果中的最高值作为所述初始请求信息与该预置知识的语义相似度结果。

在一实施例中，语义相似度计算的过程为依据一种相似度计算方法分别对初始请求信息与领域知识数据库中的预置知识进行相似度计算处理，获得与初始请求信息对应的第一特征值，以及与预置知识对应的第二特征值，然后将第一特征值和第二特征值进行比较或处理获得相似度值(或者语义相似度计算结果)。所述比较或处理可以为相比运算、相减运算或者其他形式的运算。所述第一特征值与第二特征值越接近，表明初始请求信息与对应的预置知识的相似度越高，反之则越低。

需要说明的是，在进行语义相似度计算时，获得第一特征值和第二特征值过程可以并行进行(同时进行计算)，也可以串行进行(先后进行计算)。

所述语义相似度计算依据相似度计算方法采用以下一种或多种方式的结合：基于向量空间模型(Vector Space Model，VSM)的计算方法、基于隐形语义索引模型(LatentSemantic Indexing，LSI)的计算方法、基于属性论的语义相似度计算方法或基于汉明距离的语义相似度计算方法。需要说明的是，所述相似度计算方法还可以为其他的语义相似度的计算方法。

本实施例中，以基于向量空间模型的计算方法对初始请求信息与领域知识数据库中的预置知识进行语义相似度计算作为示例，初始请求信息与领域知识数据库中的预置知识被看作是由相互独立的词条组(T₁,T₂,…….,T_n)构成，对于每一个词条T_i(1≤i≤n)，根据其在句中的重要程度赋以一定的权值W_i，并将T₁,T₂,…….,T_n看成一个n维系坐标系中的坐标轴，W₁,W₂,…….,W_n为对应的坐标值，这样由(T₁,T₂,…….,T_n)分解而得到的正交字条矢量组就构成一个向量空间，词条则映射成为空间中的一个点。对于初始请求信息与领域知识数据库中的预置知识都可以映射到此向量空间中，用词条矢量(T₁,W₁,T₂,W₂,…….,T_n,W_n)来表示，从而将语句信息的匹配问题转化为向量空间中矢量匹配的问题。具体到初始请求信息与领域知识数据库中的预置知识，两者的语义相似度计算结果为两向量对应的交角的比值，具体为预置知识对应的词条矢量在向量空间中对应的第一角度(第一特征值)与初始请求信息对应的词条矢量在向量空间中对应的第二角度(第二特征值)之比，所述比值越接近于1表示两者的相似度越高。在其他实施例中，两者的相似度计算结果也可用向量之间的夹角来表示，夹角越小，说明两者相似度越高，所述夹角(相似度值)为预置知识对应的词条矢量在向量空间中对应的第一角度(第一特征值)减去初始请求信息对应的词条矢量在向量空间中对应的第二角度(第二特征值)。

需要说明的是，在进行语义相似度计算之前，可对初始请求信息与领域知识数据库中的预置知识进行文本预处理，以从初始请求信息与领域知识数据库中的预置知识中抽取出有代表性的特征，作为相似度计算的基础，以提高进行相似度计算时的准确性。在一实施例中，所述文本预处理包括分词处理和去停用词处理。此外，文本预处理还可以去除部分无意义词语，如：“我”“想”“吗”等。

所述分词处理依据一定分词规则进行，在系统中预先设定分词的规则，进行分词处理时，调用设定的分词规则，对初始请求信息与对应的领域知识数据库中的预置知识分别进行分词处理，形成若干词条构成的两个词条串。

去停用词处理是预先建立一个停用词列表，去停用词时，每一个词条与停用词列表中的词进行匹配，如果该词条存在于停用词列表中，则将该词条从中文分词处理后的词条串中删除。

所述分词处理可用采用正向(逆向)最大匹配法、最佳匹配法、逐词遍历法或词频统计法，或其他合适的分词方法。去停用词处理是是去除句子中识别意义不大但出现频率很高的词，这些词在计算相似度的过程中会引入较大的误差，可用看成是一种噪音，比如：“这，的，和”等词。

以如何开通彩铃作为示例进行说明，将接收的初始请求信息“我要怎样才能开通彩铃”分别与领域知识数据库中若干预置知识进行语义相似度计算。

以初始请求信息为“我要怎样才能开通彩铃”与一个预置知识(“彩铃如何开通”，“开通彩铃的步骤是怎样的”，“我要开通彩铃怎么办”，“如何开通彩铃”)进行语义相似度计算为例，将初始请求信息为“我要怎样才能开通彩铃”分别与“彩铃如何开通”，“开通彩铃的步骤是怎样的”，“我要开通彩铃怎么办”，“如何开通彩铃”进行语义相似度计算，获得四个语义相似度值，将四个语义相似度值中的最大值作为语义相似度计算结果。

领域知识数据库中有若干预置知识，相应的获得若干相似度计算结果。

进行步骤S104，判断语义相似度计算结果的最大值是否大于相似度阈值，当相似度计算结果的最大值大于相似度阈值时，则进行步骤S105；当相似度计算结果的最大值小于相似度阈值时，则进行步骤S106。

相似度阈值为预先设置。在一实施例中，所述相似度阈值大于或等于0.7且小于或等于1.0。需要说明的是，所述相似度阈值可以为其他的数值。

当相似度计算结果的最大值大于相似度阈值时，则进行步骤S105，将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问一并存入智能问答知识库。

本实施例将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库的时候，可以将该初始请求信息作为存储的标准问，而将相似度计算结果的最大值对应的预置知识中的标准问以及扩展问作为该存储的标准问下的扩展问。

在一实施例中，当相似度计算结果的最大值大于相似度阈值时，将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库的同时，提供与所述初始请求信息对应的答案，并将该答案一并存入智能问答知识库。所述提供的与所述初始请求信息对应的答案为用户自己提供的答案，该答案与初始请求信息具有对应关系。此时存入智能问答知识库的答案更加准确。

在另一实施例中，当相似度计算结果的最大值大于相似度阈值时，将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库的同时，将领域知识数据库存储的与该预置知识对应的答案也一并存储到智能问答知识库中。此时建库的效率更高。

当相似度计算结果的最大值大于相似度阈值时，说明初始请求信息与相应的预置知识相似度很高，表示该预置知识为用户希望存储到智能问答知识库的预置知识。本发明实施例的方法，在接收到用户输入的一条初始请求信息后，在进行语义相似度计算以及将相似度计算结果与相似度阈值进行比较后，将达到相似度阈值的预置知识及对应的初始请求信息存储到智能问答知识库中，因而用户在建立智能问答知识库，无需多次向智能问答知识库输入相关联的多个问题，从而提高了智能问答知识库建立效率。

以如何开通彩铃作为示例进行说明，初始请求信息为“我要怎样才能开通彩铃”与预置知识(“彩铃如何开通”，“开通彩铃的步骤是怎样的”，“我要开通彩铃怎么办”，“如何开通彩铃”)的相似度计算结果大于相似度阈值，将该预置知识(“彩铃如何开通”，“开通彩铃的步骤是怎样的”，“我要开通彩铃怎么办”，“如何开通彩铃”)存入智能问答知识库中。

需要说明的是，在一实施例中，当相似度计算结果等于相似度阈值时，进行步骤S105。在其他实施例中，当相似度计算结果等于相似度阈值时，也可以进行步骤S106～步骤S109。

当相似度计算结果的最大值小于相似度阈值时，则进行步骤S106～步骤S109。

由于智能问答知识库建立时涉及的知识多种多样，以及智能问答知识库对应的领域不同，使得接收到的初始请求信息也是多种多样，而相应的领域知识数据库中不可能囊括所有的领域知识，通过相似度计算的方式还是存在一些限制，为了进一步提高智能问答知识库建立效率，在相似度计算结果的最大值小于相似度阈值时，进行步骤S106～步骤S109，继续进行智能问答知识库的建立过程。

比如，在一实施例中，当接收的初始请求信息为“通过网上银行如何开通交通银行信用卡”时，所述初始请求信息“通过网上银行如何开通交通银行信用卡”与领域知识数据库中预置知识进行语义相似度计算获得的相似度计算结果会小于相似度阈值，而用户恰恰需要在智能问答知识库建立与通过网上银行如何开通交通银行信用卡的相关的内容，因而本发明后续实施例中提供了另外的建立方法，以在相似度计算结果小于相似度阈值时，进一步提高智能问答知识库建立效率。

进行步骤S106，提供抽象语义数据库，所述抽象语义数据库包括多个抽象语义表达式，所述抽象语义表达式包括缺失语义成分。

所述抽象语义数据库中存储有多个抽象语义表达式，每个抽象语义表达式包括缺失语义成分，后续在抽象语义表达式中的缺失语义成分对应的位置填充内容构成具体语义表达式。

所述抽象语义表达式中除了包括缺失语义成分之外，还可以包括语义规则词。在一实施例中，所述语义规则词还标注有词类信息，词类信息表示该规则词属于某一词类，一个词类中具有若干用法相同或语义相近的若干关键词。

所述抽象语义表达式可以只具有缺失语义成分，将这种形式的抽象语义表达式定义为默认集合。

一个抽象语义表达式中可以包括多个缺失语义成分，每个缺失语义成分具有对应的属性，并且不同缺失语义成分的属性不同，缺失语义成分的属性定义了填充该缺失语义成分对应的内容的属性，即初始请求信息中只有满足缺失语义成分对应属性的部分内容才能填充对应的缺失语义成分，从而形成具体语义表达式。

在一具体实施例中，所述抽象语义数据库中存储的若干抽象语义表达式包括：通过[concept1][action][concept2]($如何)办理；通过[concept]办理($如何)办理；[concept2]($如何)通过[concept1]办理；($如何)通过[concept]办理；通过[concept]($如何)办理；通过[concept1]($如何)办理[concept2]；通过[concept][action]($如何)办理；[concept2]通过[concept1]($如何)办理；通过[concept1]($如何)开通[concept2]；通过[concept1]($如何)[action][concept2]；[action1][concept1]($如何)[action2][concept2]；[action1][concept1]($如何)[action2][concept2]；哪里可以[action][concept]；[action][concept]的步骤；[concept1][action][concept2]。

上述语义表达式中，“[]”表示缺失语义成分，“[]”的内容表示该缺失语义成分的属性，语义表达式中其他内容表示语义规则词，具体的上述表达式中，“[concept]”，“[concept1]”，“[concept2]”，“[action]”，“[action1]”，“[action2]”表示缺失语义成分，“[]”的内容“concept”，“concept1”，“concept2”，“action”，“action1”，“action2”表示对应的缺失语义成分的属性，其中“concept”表示缺失语义成分“[concept]”为概念属性的缺失语义成分，后续填充该缺失语义成分的内容至少包括初始请求信息中的一个具有名词词性的单独词，或者包括初始请求信息中一个具有名词词性的单独词以及若干具有其他词性的单独词的组合；“concept1”表示缺失语义成分“[concept1]”为第一个概念属性的缺失语义成分，其中“concept”和“1”结合表示该缺失语义成分的属性，“concept”表示概念属性，“1”表示位置属性，为第一个，后续填充该缺失语义成分的内容为至少包括初始请求信息中第一个具有名词词性的单独词，或者包括初始请求信息中第一个具有名词词性的单独词以及若干具有其他词性的单独词的组合；“concept2”表示缺失语义成分“[concept2]”为第二个概念属性的缺失语义成分，后续填充该缺失语义成分的内容为至少包括初始请求信息中第二个具有名词词性的单独词，或者包括初始请求信息中第二个具有名词词性的单独词以及若干其他词性的单独词的组合；“action”表示缺失语义成分“[action]”为动作属性的缺失语义成分，后续填充该缺失语义成分的内容至少包括初始请求信息中的一个具有动词词性的单独词，或者包括初始请求信息中一个具有动词词性的单独词以及若干具有其他词性的单独词的组合；“action1”表示缺失语义成分“[action1]”为第一个具有动作属性的缺失语义成分，后续填充该缺失语义成分的内容至少包括初始请求信息中的第一个具有动词词性的单独词，或者包括初始请求信息中第一个具有动词词性的单独词以及若干具有其他词性的单独词的组合；“action2”表示缺失语义成分“[action2]”为第二个具有动作属性的缺失语义成分，后续填充该缺失语义成分的内容至少包括初始请求信息中的第二个具有动词词性的单独词，或者包括初始请求信息中第二个具有动词词性的单独词以及若干具有其他词性的单独词的组合。

上述各语义表达式中缺失语义成分之外的内容如“通过”，“($如何)”，“办理”，“开通”，“的步骤”等表示语义规则词，其中语义规则词“($如何)”表示“如何”这个语义规则词属于词类“$如何”，在一实施例中，所述“$如何”词类包括关键词“如何”，“怎么”，“怎么样”，“怎样”，词类可以在建立抽象语义表达式时同时建立。相应的通过表示这个语义规则词属于词类“$通过”，在一实施例，所述词类“$开通”中包括关键词“开通”、“办理”、“订购”“申请”。后续在进行缺失语义成分的填充形成具体语义时，具有词类的语义规则词可以用该词类中的其他关键词代替。

上述语义表达式中，将语义表达式“[concept1][action][concept2]”定义为默认集合。

需要说明的是，上述抽象语义表达式中缺失语义成分的表示方式以及词类信息的表示方式是为描述和表示的方便，仅作为一个示例，其不用限制本发明的保护范围，本发明的其他实施例中，对抽象语义表达式中缺失语义和词类信息可以采用其他的表示方式。

进行步骤S107，根据所述抽象语义数据库对所述初始请求信息进行抽象语义推荐处理，获得与所述初始请求信息对应的一个或多个抽象语义表达式。

进行抽象语义推荐处理的目的是从抽象语义数据库中获得与所述初始请求信息对应的一个或多个抽象语义表达式，从而可以将初始请求信息部分内容填充在该一个或多个抽象语义表达式中的对应的缺失语义成分以得到一个或多个具体语义表达式，一个或多个具体语义表达式表达的语义与初始请求信息所要表达的语义相同或近似，后续可以将获得一个或多个具体语义表达式及对应的初始请求信息存入智能问答知识库，因而用户只需要输入一条初始请求信息，本发明的方法可以对该初始请求信息进行自动的扩展，获得与该初始请求信息相关的若干条信息(一个或多个具体语义表达式)，存入智能问答知识库，提高了智能问答知识库的建立效率。

本实施例中可以将初始请求信息作为标准问，将具体语义表达式作为对应的扩展问，并将所述初始请求信息存入智能问答知识库的同时，提供与所述初始请求信息对应的答案，并将该答案一并存入智能问答知识库，从而形成智能问答知识库的一个知识点，后续可以不断对该知识点进行更新优化。

在一实施例中，请参考图3，步骤S107包括步骤S107a、步骤S107b、步骤S107c、步骤S107d和步骤S107h五个子步骤。

进行步骤S107a，对所述初始请求信息进行分词处理，得到若干单独词。

所述分词处理可用采用正向(逆向)最大匹配法、最佳匹配法、逐词遍历法或词频统计法，或其他合适的分词方法。

需要说明的是，在一实施例中，进行步骤S107a的分词处理可以与进行步骤S103时的分词处理为同一分词处理，即步骤S103对初始请求信息进行分词处理后，在进行步骤S107a时无需再重复进行分词处理，直接采用步骤S103进行分词处理得到的结果。在其他实施例中，进行步骤S107a的分词处理与进行步骤S103时的分词处理为不同的分词处理步骤，即在进行步骤S107时，重新对初始请求信息进行分词处理。

以接收的初始请求信息为“通过网上银行如何开通信用卡”作为示例进行说明。

对初始请求信息“通过网上银行如何开通信用卡”进行分词处理，得到若干单独词“通过”，“网上银行”，“如何”，“开通”，“信用卡”。

进行步骤S107b，分别对每个所述单独词进行词性标注处理，得到每个单独词的词性信息。

对单独词进行词性标注处理，得到每个单独词的词性信息的目的是为后续将输入的初始信息与抽象语义表达式的匹配提供匹配的依据。

具体的，在一实施例中，标注上述的单独词“通过”的词性为第一个动词、介词，标注单独词“网上银行”的词性为第一个名词，标注单独词“如何”的词性为代词，标注单独词“开通”的词性为第二个动词，标注单独词“信用卡”的词性为第二个名词。需要说明的是词性标注为第一个名词时表示单独词“网上银行”为第一个具有名词词性的单独词，第二个名词、第一个动词或第二个动词的解释类似。

在另一实施例中，标注上述的单独词“通过”的词性为动词、介词，标注单独词“网上银行”的词性为第一个名词，标注单独词“如何”的词性为代词，标注单独词“开通”的词性为动词，标注单独词“信用卡”的词性为第二个名词。

在进行词性标注时，还可以结合上下文的语义环境，以提高词性标注的准确率。

进行步骤S107c，分别对每个所述单独词进行词类判断处理，得到每个单独词的词类信息。

分别对每个所述单独词进行词类判断处理的目的是为了判断每个单独词是否具有相应的词类，在一实施例中，其具体过程为：将每个单独词与词类库中的若干词类进行匹配，若某一词类中存在该单独词，则该单独词具有相应的词类，当单独词具有相应的词类，则对该单独词进行属于某一词类(或词类信息)的标记，后续在进行匹配处理时，通过判断初始请求信息中部分内容与抽象语义表达式中的对应的语义规则词的是否属于同一词类，从而判断初始请求信息与该抽象语义表达式的匹配程度，提高了匹配的精度和效率。

具体的，对单独词“通过”，“网上银行”，“如何”，“开通”，“信用卡”进行词类判断处理，通过判断，单独词“如何”具有对应的词类“$如何”，所述“$如何”词类中包括关键词“如何”，“怎么”，“怎么样”，“怎样”，对单独词“如何”进行属于词类“$如何”的标记。单独词“开通”具有对应的词类“$开通”，所述词类“$开通”中包括关键词“开通”、“办理”、“订购”“申请”。后续在进行缺失语义成分的填充形成具体语义时，具有词类的某一单独词对某个缺失语义成分进行填充时，可以将该词类中的其他关键词代替该单独词对对应的某个缺失语义成分进行填充。

进行步骤S107d，对抽象语义数据库进行搜索处理，得到与所述初始请求信息相关的抽象语义候选集，所述抽象语义候选集包括多个抽象语义表达式。

对抽象语义数据库进行搜索处理，得到与所述初始请求信息相关的抽象语义候选的目的是为了减少后续进行匹配处理时的负担以及减少处理时间，以提高系统的性能。

所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单独词相同或属于同一词类。在一实施例中，进行搜索处理时，根据抽象语义数据库中的抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单独词是否相同或是否属于同一词类，若某个抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单独词相同或属于同一词类，则将该抽象语义表达式作为抽象语义候选集中的一个抽象语义表达式。在其他实施例中，可以根据其他的搜索方式对抽象语义数据库进行搜索，得到与所述初始请求信息相关的抽象语义候选集。

在具体的实施例中，对抽象语义数据库进行搜索处理，得到与所述初始请求信息“通过网上银行如何开通信用卡”相关的抽象语义候选集包括抽象语义表达式：通过[concept1][action][concept2]($如何)办理；通过[concept]办理($如何)办理；[concept2]($如何)通过[concept1]办理；($如何)通过[concept]办理；通过[concept]($如何)办理；通过[concept1]($如何)办理[concept2]；通过[concept1]($如何)开通[concept2]；通过[concept][action]($如何)办理；通过[concept1]($如何)开通[concept2]；[concept2]通过[concept1]($如何)办理；通过[concept1]($如何)[action][concept2]；[action1][concept1]($如何)[action2][concept2]；[action1][concept1]($如何)[action2][concept2]。上述抽象语义候选集中的抽象语义表达式部分语义规则词(通过，通过，办理或($如何))与所述初始请求信息中至少部分单独词(通过，办理或如何)相同或属于同一词类。

步骤S107h，根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理，得到与所述初始请求信息匹配的抽象语义表达式。

在一实施例中，与所述初始请求信息匹配的抽象语义表达式满足以下条件：缺失语义成分对应的词性(或属性)包括对应的填充内容的词性；初始请求信息中填充内容外对应的单独词与语义规则词相同或两者属于同一词类；该抽象语义表达式与初始请求信息的顺序相同。即进行匹配时，根据以上条件进行匹配，当抽象语义候选集中某一个抽象语义表达式同时满足上述三个条件时，该抽象语义表达式即为与所述初始请求信息匹配的抽象语义表达式，以提高匹配的精度和准确度。即进行匹配处理时，根据上述条件判断某抽象语义表达式是否为与初始请求信息匹配的抽象语义表达式。

在其他实施例中，与所述初始请求信息匹配的抽象语义表达式可以只满足前述的一个或两个条件，具体为，与所述初始请求信息匹配的抽象语义表达式满足以下条件：缺失语义成分对应的词性(或属性)包括对应的填充内容的词性。或者，与所述初始请求信息匹配的抽象语义表达式满足以下条件：缺失语义成分对应的词性(或属性)包括对应的填充内容的词性；初始请求信息中填充内容外对应的单独词与语义规则词相同或两者属于同一词类。或者，与所述初始请求信息匹配的抽象语义表达式满足以下条件：缺失语义成分对应的词性(或属性)包括对应的填充内容的词性；该抽象语义表达式与初始请求信息的顺序相同。

具体的，通过匹配处理，得到与所述初始请求信息“通过网上银行如何开通信用卡”匹配的抽象语义表达式包括：通过[concept1]($如何)[action][concept2]，该语义表达式中相应的缺失语义成分[concept1]与单独词“网上银行”对应，缺失语义成分[action]与单独词“开通”对应，缺失语义成分[concept2]与单独词“信用卡”对应；[action1][concept1]($如何)[action2][concept2]，该语义表达式中相应的缺失语义成分[concept1]与单独词“网上银行”对应，缺失语义成分[action1]与单独词“通过”对应；缺失语义成分[concept2]与单独词“信用卡”对应，缺失语义成分[action2]与单独词“开通”对应；通过[concept1]($如何)开通[concept2]，该语义表达式中相应的缺失语义成分[concept1]与单独词“网上银行”对应，缺失语义成分[concept2]与单独词“信用卡”对应。

在其他实施例中，当无法获得与所述初始请求信息对应的抽象语义表达式时，还可以通过人工方式在所述智能问答知识库中添加与所述初始请求信息对应的扩展问。

在另一实施例中，请参考图4，步骤S107包括步骤S107a、步骤S107b、步骤S107c、步骤S107d、步骤S107e、步骤S107f、步骤S107g和步骤S107h八个子步骤，本实施例中与前一实施例的区别在于在进行步骤S107d之后以及步骤S107h之前，还要进行步骤S107e、步骤S107f、步骤S107g。本实施例中的目的是防止抽象语义候选集中的抽象语义表达式的数量过多或过少，以提高智能问答知识库的建立效率和精确度。

下面对步骤S107e、步骤S107f、步骤S107g进行详细说明，本实施例中的其他步骤请参考前述实施例，在此不再赘述。

在对抽象语义数据库进行搜索处理，得到与所述初始请求信息相关的抽象语义候选集，所述抽象语义候选集包括多个抽象语义表达式后，进行步骤S107e，判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内，当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时，进行步骤S107f，去除部分抽象语义表达式；当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时，进行步骤S107g，从默认集合中补充部分抽象语义表达式；当所述抽象语义候选集中抽象语义表达式的数目位于预定范围内时，直接进行步骤S107h，根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理，得到与所述初始请求信息匹配的抽象语义表达式。

所述预定范围可以预先设定，其可以是一个具体的数值，也可以是一个数值范围。

当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时，去除部分抽象语义表达式，然后将抽象语义候选集中剩余的抽象语义表达式进行后续步骤S107h。在一实施例中，所述去除部分抽象语义表达式去除方式可以随机去除，或者按照一定的规则去除，比如去除序号为奇数(或偶数)的抽象语义表达式，或者每间隔固定数量的抽象语义表达式去除一个或多个抽象语义表达式。

当所述抽象语义候选集中抽象语义表达式的数目小于预定范围内时，从默认集合中补充部分抽象语义表达式，然后将补充默认集合的抽象语义候选集进行后续步骤S107h。

在又一实施例中，请参考图5，所述步骤S107包括步骤S107i、步骤S107j、步骤S107k、步骤S107l、步骤S107m和步骤S107n六个子步骤，具体包括：

步骤S107i，对所述初始请求信息进行分词处理，得到若干单独词；

步骤S107j，将每个单独词识别为语义规则词或非语义规则词；

步骤S107k，分别对每个非语义规则词进行词性标注处理，得到每个非语义规则词的词性信息；

步骤S107l，分别对每个语义规则词进行词类判断处理，得到每个语义规则词的词类信息；

步骤S107m，对抽象语义数据库进行搜索处理，得到与所述初始请求信息相关的抽象语义候选集，所述抽象语义候选集包括多个抽象语义表达式；

步骤S107n，根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理，得到与所述初始请求信息匹配的抽象语义表达式。

本实施例与前述实施例的区别在于，在进行词性标注处理和词类判断处理之前，进行识别每个单独词为语义规则词或非语义规则词的步骤，然后对识别为非语义规则词的每个单独词进行词性标注处理，对识别为语义规则词的每个单独词进行词类判断处理，因而词性标注处理和词类判断处理的对象分别是部分单独词，减少了词性标注处理和词类判断处理所需的时间，提高了处理效率。

下面对步骤S107j进行详细说明，本实施例中步骤S107j之外的其他步骤与前述实施例的部分步骤类似，具体请参考前述实施例相关部分的描述，在此不再赘述。

进行步骤S107j，将每个单独词识别为语义规则词或非语义规则词。

识别单独词为语义规则词或语义规则词的过程为：提供语义规则词库，所述语义规则词库中包括若干语义规则词；判断若干单独词是否存在于语义规则词库中，若某一单独词存在于语义规则词库中，则该单独词为语义规则词，若某一单独词不存在于语义规则词库中，则该单独词为非语义规则词。

在具体的实施例中，提供的语义规则词库中包括语义规则词：“通过”，“如何”，“怎么”，“怎么办”等，初始请求信息为“通过网上银行如何开通信用卡”，通过分词处理，得到若干单独词“通过”，“网上银行”，“如何”，“开通”，“信用卡”；判断单独词“通过”，“网上银行”，“如何”，“开通”，“信用卡”是否存在于语义规则词库中。通过判断，单独词“如何”存在于语义规则库，因而识别单独词“如何”为语义规则词，单独词“通过”存在于语义规则库，因而识别单独词“通过”为语义规则词，而单独词“网上银行”，“开通”和“信用卡”不存在于语义规则词库中，则识别单独词“网上银行”，“开通”和“信用卡”为非语义规则词。后续在进行词类判断处理时，只对语义规则词“如何”和“通过”进行词类判断处理，获得语义规则词“如何”和“通过”的词类信息；在进行词性标注处理时，只对非语义规则词“网上银行”，“开通”和“信用卡”进行词性标注处理，分别获得非语义规则词“网上银行”，“开通”和“信用卡”的词性信息。

需要说明的是，在其他实施例中，在进行步骤S107m之后，进行步骤S107n之前，还可以包括步骤：判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内，当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时，去除部分抽象语义表达式；当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时，从默认集合中补充部分抽象语义表达式。

请继续参考图2，进行步骤S108，当获得与所述初始请求信息对应的一个或多个抽象语义表达式时，从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容，并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式。

具体的，与所述初始请求信息“通过网上银行如何开通信用卡”匹配的抽象语义表达式包括：通过[concept1]($如何)[action][concept2]，从初始请求信息中提取单独词“网上银行”填充对应的缺失语义成分[concept1]，从初始请求信息中提取单独词“开通”填充对应的缺失语义成分[action]，从初始请求信息中提取单独词“信用卡”填充对应的缺失语义成分[concept2]，形成具体语义表达式：通过网上银行($如何)($开通)信用卡，($如何)表示语义规则词“如何”可以为关键词“怎么”、“怎么样”或“怎样”替代，($开通)表示单独词“开通”可以被“办理”、“订购”或“申请”替代；[action1][concept1]($如何)[action2][concept2]，从初始请求信息中提取单独词“网上银行”填充对应的缺失语义成分[concept1]，从初始请求信息中提取单独词“通过”填充对应的缺失语义成分[action1]，从初始请求信息中提取单独词“信用卡”填充对应的缺失语义成分[concept2]，从初始请求信息中提取单独词“开通”填充对应的缺失语义成分[action2]，形成具体语义表达式：通过网上银行($如何)开通信用卡；通过[concept1]($如何)开通[concept2]，从初始请求信息中提取单独词“网上银行”填充对应的缺失语义成分[concept1]，从初始请求信息中提取单独词“信用卡”填充对应的缺失语义成分[concept2]，形成具体语义表达式：通过网上银行($如何)开通信用卡。

在一实施例中，在进行步骤S108前，当与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时，还包括：分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理。

具体请参考图6，步骤S108包括步骤S108a、步骤S108b、步骤S108c、步骤S108d四个子步骤。

首先进行步骤S108a，判断与所述初始请求信息匹配的抽象语义表达式的数目M是否大于需要存入智能问答知识库中具体语义表达式的数目N，当与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时，进行步骤S108c；当与所述初始请求信息匹配的抽象语义表达式的数目M小于需要存入智能问答知识库中具体语义表达式的数目N时，进行步骤S108b；

步骤S108c，分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理，然后进行步骤S108d；

步骤S108d，从所述初始请求信息中提取与得分较高的N个抽象语义表达式的缺失语义成分对应的内容，将提取的内容填充到得分较高的N个抽象语义表达式对应的缺失语义成分，得到与所述初始请求信息对应的N个具体语义表达式，接着进行步骤S109；

步骤S108b，从所述初始请求信息中提取与M个抽象语义表达式的缺失语义成分对应的内容，将提取的内容填充到对应的M个抽象语义表达式对应的缺失语义成分，得到与所述初始请求信息对应的M个具体语义表达式；然后进行步骤S109。

需要说明的是，当与所述初始请求信息匹配的抽象语义表达式的数目M等于需要存入智能问答知识库中具体语义表达式的数目N时，既可以进行步骤S108c，也可以进行步骤S108b。

进行打分处理的目的是将与初始请求信息最匹配的预定数目的具体语义表达式存入智能问答知识库。

在一实施例中，所述打分处理采用以下一种或多种方式的结合：

方式一，缺失语义成分匹配的数量越多，得分越高。

比如，通过匹配处理，得到与所述初始请求信息“通过网上银行如何开通信用卡”匹配的抽象语义表达式：通过[concept1]($如何)[action][concept2]，该语义表达式中相应的缺失语义成分[concept1]与单独词“网上银行”对应，缺失语义成分[action]与单独词“开通”对应，缺失语义成分[concept2]与单独词“信用卡”对应，每个缺失语义成分均有对应的填充内容，因而该抽象语义表达式的缺失语义成分匹配的数量很多，得分较高。

方式二，设定一抽象语义表达式中某一缺失语义成分为核心语义成分，其他缺失语义成分与该核心语义成分的距离越近，得分越高。

比如，通过匹配处理，得到与所述初始请求信息“通过网上银行如何开通信用卡”匹配的抽象语义表达式，包括，抽象语义表达式1：通过[concept1]($如何)[action][concept2]；抽象语义表达式2：[action1][concept1]($如何)[action2][concept2]。

设定缺失语义成分[concept2]为核心语义成分，由于抽象语义表达式2中，缺失语义成分[action1]距离核心语义成分[concept2]的距离大于抽象语义表达式1中缺失语义成分[concept1]距离核心语义成分[concept2]的距离，抽象语义表达式1的得分高于抽象语义表达式2的得分。

方式三，词性置信度越大，得分越高。当多个单独词构成的内容填充抽象语义表达式中对应的某一缺失语义成分时，若填充内容的某个位置的一个单独词为业务属性词汇时，则该抽象语义表达式得分较高。

在一实施例中，当至少两个单独词构成的内容填充抽象语义表达式中对应的某一缺失语义成分时，若所述内容的末尾的一个单独词为业务属性词汇，则该抽象语义表达式得分较高。

比如，当填充某一填充抽象语义表达式中某一缺失语义成分对应的内容为“个人信用卡”时，该内容有两个单独词“个人”和“信用卡”构成，“个人信用卡”中的末尾的一个单独词为“信用卡”，单独词“信用卡”属于业务属性词汇，则该抽象语义表达式得分较高。

方式四，根据预先设定的抽象语义表达式的优先级，优先级越高，得分越高。

在建立抽象语义数据库时，可以定义抽象语义数据库中某些抽象语义表达式的优先级较高，在匹配处理时，如果得到该优先级较高的抽象语义表达式，则该优先级较高的抽象语义表达式的得分较高。

比如，在建立抽象语义数据库时，定义抽象语义表达式“通过[concept1]($如何)[action][concept2]”具有较高的优先级。在具体的实施例中，可以对该抽象语义表达式打上标记，该标记代表该抽象语义表达式的具有较高的优先级，或者该标记表示该抽象语义表达式的优先级别的高低。

通过匹配处理，得到与所述初始请求信息“通过网上银行如何开通信用卡”匹配的抽象语义表达式为：通过[concept1]($如何)[action][concept2]，由于该语义表达式的具有较高的优先级，因而得分较高。

方式五，根据自然语言模型进行判断，对爬取的大量语料数据的分词给出对抽象语义表达式进行填充后获得的数据信息语义是否正确的概率，概率越高，得分越高。

请继续参考图2，进行步骤S109，将该初始请求信息以及所述具体语义表达式存入智能问答知识库。

本实施例将该初始请求信息以及所述具体语义表达式存入智能问答知识库时，可以将该初始请求信息作为标准问，将具体语义表达式作为该存储的标准问下的扩展问。此外，将该初始请求信息以及所述具体语义表达式存入智能问答知识库的同时，提供与所述初始请求信息对应的答案，并将该答案一并存入智能问答知识库。所述与初始请求信息对应的答案为用户提供。

本实施例可以根据不同的设定，仅将得分最靠前的一个具体语义表达式及对应的初始请求信息一并存入智能问答知识库，也可以将得分最靠前的多个具体语义表达式及对应的初始请求信息一并存入智能问答知识库。

由于用户输入的初始请求信息的数目是有限的，且用户输入的初始请求信息也很难与领域知识库中所有的预置知识都对应，即通过步骤S103、步骤S104和步骤S105也很难将领域知识库中所有的预置知识都存入智能问答知识库，因此当停止接收初始请求信息之后，本发明还可以从领域知识数据库中至少提取未存入智能问答知识库的部分数目的预置知识，并将提取的预置知识存入智能问答知识库，所述预置知识还包括答案。

在一个具体例子中，领域知识库中包括1000个预置知识，用户输入的500条初始请求信息分别与500个预置知识的语义相似度计算结果的最大值都大于相似度阈值，从而将这500个预置知识的标准问和扩展问都存入了智能问答知识库，但是仍剩余500个预置知识未包括在智能问答知识库中。由于领域知识库中的知识多为本领域的通用知识，因此可以有效利用剩余的500个预置知识，在不输入对应的初始请求信息的前提下，将这500个预置知识直接存入智能问答知识库中，在智能问答知识库中新增500个知识点。

需要说明的是，将预置知识直接存入智能问答知识库时，预置知识的标准问作为智能问答知识库中对应知识点的标准问，预置知识的扩展问作为智能问答知识库中对应知识点的扩展问，预置知识的答案作为智能问答知识库中对应知识点的答案，从而在高效利用领域知识库的同时，进一步提高了智能知识库的建立效率。

为了防止领域知识库中的预置知识不符合智能问答知识库的要求，可以对未存入智能问答知识库的预置知识进行筛选，从而仅将部分数目的预置知识存入智能问答知识库，以保证建库的准确性。

本发明实施例还提供了一种智能问答知识库的建立装置，请参考图7，包括：

预置知识获取单元201，用于获取多个预置知识，所述预置知识包括：一个标准问以及一个或多个扩展问；

接收单元202，用于接收初始请求信息；

计算单元203，用于将所述初始请求信息与所述预置知识进行语义相似度计算；

判断单元204，用于判断语义相似度计算结果的最大值是否大于相似度阈值；

抽象语义表达式获取单元302，用于获取多个抽象语义表达式，所述抽象语义表达式包括缺失语义成分；

抽象语义推荐模块301，用于相似度计算结果最大值小于相似度阈值时，根据所述多个抽象语义表达式对所述初始请求信息进行抽象语义推荐处理，获得与所述初始请求信息对应的一个或多个抽象语义表达式；

填充单元303，用于当获得与所述初始请求信息对应的一个或多个抽象语义表达式时，从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容，并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式；

存入单元205，用于当相似度计算结果的最大值大于相似度阈值时，将相似度计算结果的最大值对应的预置知识中的标准问以及扩展问以及对应的初始请求信息存入智能问答知识库206；或者当相似度计算结果的最大值小于相似度阈值时，将所述具体语义表达式以及对应的初始请求信息存入智能问答知识库206。

所述计算单元203采用以下一种或多种方式的结合进行语义相似度计算：基于向量空间模型的计算方法、基于隐形语义索引模型的计算方法、基于属性论的语义相似度计算方法和基于汉明距离的语义相似度计算方法。

所述计算单元203分别计算所述初始请求信息与所述标准问的语义相似度以及所述初始请求信息与每个所述扩展问的语义相似度，并将计算结果中的最高值作为所述初始请求信息与该预置知识的语义相似度结果。

在一实施例中，所述相似度阈值大于或等于0.7且小于或等于1.0。

在一实施例中，抽象语义推荐模块301进行抽象语义推荐处理过程包括：

对所述初始请求信息进行分词处理，得到若干单独词；

对抽象语义表达式获取单元获取的多个抽象语义表达式进行搜索处理，得到与所述初始请求信息相关的抽象语义候选集，所述抽象语义候选集包括多个抽象语义表达式；

在一实施例中，抽象语义推荐模块301在进行匹配处理之前还包括：判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内，当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时，去除部分抽象语义表达式；当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时，从默认集合中补充部分抽象语义表达式。

需要说明的是，当抽象语义推荐模块无法获得与所述初始请求信息对应的抽象语义表达式时，通过人工方式在所述智能问答知识库中添加与所述初始请求信息对应的扩展问。

需要说明的是，本实施例和后续实施例关于建立装置的某个单元(或模块)功能的其他限定或描述请参考前述智能问答知识库的建立方法部分的相关限定或描述，在此不再赘述。

在另一实施例中，所述建立装置还包括：答案提供单元，用于提供与初始请求信息对应的答案；所述存入单元将所述初始请求信息存入智能问答知识库的同时，将答案提供单元提供的答案一并存入智能问答知识库。

在又一实施例中，所述建立装置还包括：提取单元，用于当接收单元停止接收初始请求信息之后，从预置知识获取单元中至少提取未存入智能问答知识库的部分数目的预置知识；所述存入单元将提取单元提取的预置知识存入智能问答知识库。

在另一实施例中，请参考图8，所述装置还包括文本预处理单元207：用于对所述初始请求信息进行文本预处理。在一实施例中，所述文本预处理包括分词处理和去停用词处理。此外，文本预处理还可以去除部分无意义词语，如：“我”“想”“吗”等。

抽象语义推荐模块301包括：分词单元301a，用于对所述初始请求信息进行分词处理，得到若干单独词；词性标注单元301b，用于分别对每个所述单独词进行词性标注处理，得到每个单独词的词性信息；词类判断单元301c，用于分别对每个所述单独词进行词类判断处理，得到每个单独词的词类信息；搜索单元301d，用于对抽象语义表达式获取单元302获取的多个抽象语义表达式进行搜索处理，得到与所述初始请求信息相关的抽象语义候选集，所述抽象语义候选集包括多个抽象语义表达式；匹配单元301e，用于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理，得到与所述初始请求信息匹配的抽象语义表达式。

所述抽象语义表达式还包括语义规则词；所述搜索单元301d搜索得到的所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单独词相同或属于同一词类。

所述匹配单元301e得到与所述初始请求信息匹配的抽象语义表达式满足以下条件：

缺失语义成分对应的词性包括对应的填充内容的词性；

该抽象语义表达式与初始请求信息的顺序相同。

在另一实施例中，请参考图9，所述抽象语义推荐模块301包括：分词单元301a、规则词识别单元301f、词性标注单元301b、词类判断单元301c、搜索单元301d、匹配单元301e，其中，

所述分词单元301a，用于对所述初始请求信息进行分词处理，得到若干单独词；

规则词识别单元301f，用于将每个单独词识别为语义规则词或非语义规则词；

词性标注单元301b，用于分别对每个非语义规则词进行词性标注处理，得到每个非语义规则词的词性信息；

词类判断单元301c，用于分别对每个语义规则词进行词类判断处理，得到每个语义规则词的词类信息；

搜索单元301d，用于对抽象语义表达式获取单元302获取的多个抽象语义表达式进行搜索处理，得到与所述初始请求信息相关的抽象语义候选集，所述抽象语义候选集包括多个抽象语义表达式；

匹配单元301e，用于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理，得到与所述初始请求信息匹配的抽象语义表达式。

在另一实施例中，请参考图10，所述智能问答知识库的建立装置还包括打分单元304，用于当抽象语义推荐模块301获得的与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时，分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理，将提取的内容填充到得分较高的N个抽象语义表达式对应的缺失语义成分，得到与所述初始请求信息对应的N个具体语义表达式。

所述打分单元304采用以下一种或多种方式的结合进行打分处理：

缺失语义成分匹配的数量越多，得分越高；

根据词性置信度，多个单独词填充某一的语义成分符时，多个单独词中某一位置单独词为某一属性词汇时，得分越高；

本发明还提供了一种智能问答知识库的建立系统，请参考图11，包括：

领域知识数据库401，所述领域知识数据库401包括多个预置知识，所述预置知识包括：一个标准问以及一个或多个扩展问；

抽象语义数据库501，所述抽象语义数据库501包括多个抽象语义表达式，所述抽象语义表达式包括缺失语义成分；

智能问答知识库的建立装置21，所述智能问答知识库的建立装置21包括：

预置知识获取单元201，用于从领域知识数据库401中获取多个预置知识；

接收单元202，用于接收初始请求信息；

抽象语义表达式获取单元302，用于从抽象语义数据库501中获取多个抽象语义表达式；

可以对领域知识数据库401中预置知识进行编辑操作，对抽象语义数据库501中抽象语义表达式进行编辑操作，所述编辑操作包括：增加、删除、替换等操作。

需要说明的是，关于建立系统的各单元、模块的其他限定或描述，请参考前述实施例，在此不再赘述。

综上，本发明实施例智能问答知识库的建立方法，在接收到用户输入的一条初始请求信息后，在进行语义相似度计算以及将相似度计算结果与相似度阈值进行比较后，将相似度计算结果的最大值对应的预置知识及对应的初始请求信息存储到智能问答知识库中存储到智能问答知识库中，因而用户在建立智能问答知识库，无需多次向智能问答知识库输入相关联的多个问题，从而提高了智能问答知识库建立效率；在相似度计算结果小于相似度阈值时，则进行抽象语义的推荐处理，获得与所述初始请求信息对应的一个或多个具体语义表达式，该获得的一个或多个具体语义表达式表达的语义与初始请求信息所要表达的语义相同或近似，然后将一个或多个具体语义表达式及对应的初始请求信息存入智能问答知识库，因而用户只需要输入一条初始请求信息，本发明的方法可以对该初始请求信息进行自动的扩展，获得与该初始请求信息相关的若干条信息(一个或多个具体语义表达式)，存入智能问答知识库，进一步提高了智能问答知识库的建立效率；并且，本发明的方法，先进行语义相似度计算，通过对相似度计算结果是否大于相似度阈值进行判断，当相似度计算结果的最大值大于相似度阈值时，将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库；当相似度计算结果小于相似度阈值时，进行抽象语义推荐处理，因而可以将领域知识数据库中用户需要的预置知识优先推荐到智能问答知识库中。

本发明实施例的智能问答知识库的建立装置，接收单元在接收到用户输入的一条初始请求信息后，计算单元将所述初始请求信息与所述预置知识进行语义相似度计算，判断单元将所述初始请求信息与所述预置知识进行语义相似度计算，存入单元在当相似度计算结果的最大值大于相似度阈值时，将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库，因而用户在使用本发明的装置建立智能问答知识库时，无需多次向智能问答知识库输入相关联的多个问题，从而提高了智能问答知识库建立效率；抽象语义推荐模块在相似度计算结果小于相似度阈值时，则进行抽象语义的推荐处理，获得与所述初始请求信息对应的一个或多个具体语义表达式，填充单元在获得的一个或多个具体语义表达式表达的语义与初始请求信息所要表达的语义相同或近似，存入单元将一个或多个具体语义表达式及对应的初始请求信息存入智能问答知识库，因而用户使用本发明的装置只需要输入一条初始请求信息，本发明的装置可以对该初始请求信息进行自动的扩展，获得与该初始请求信息相关的若干条信息(一个或多个具体语义表达式)，存入智能问答知识库，进一步提高了智能问答知识库的建立效率；并且，本发明的装置，可以先进行语义相似度计算，通过对相似度计算结果是否大于相似度阈值进行判断，当相似度计算结果的最大值大于相似度阈值时，将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库；当相似度计算结果小于相似度阈值时，进行抽象语义推荐处理，因而可以将用户需要的预置知识优先推荐到智能问答知识库中。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种智能问答知识库的建立方法，其特征在于，包括：

接收初始请求信息，所述初始请求信息为需要与所述领域知识数据库中的预置知识进行语义相似度计算的信息或者为需要进行抽象语义推荐的信息；

2.如权利要求1所述的建立方法，其特征在于，所述语义相似度计算采用以下一种或多种方式的结合：基于向量空间模型的计算方法、基于隐形语义索引模型的计算方法、基于属性论的语义相似度计算方法和基于汉明距离的语义相似度计算方法。

3.如权利要求1所述的建立方法，其特征在于，分别计算所述初始请求信息与所述标准问的语义相似度以及所述初始请求信息与每个所述扩展问的语义相似度，并将计算结果中的最高值作为所述初始请求信息与该预置知识的语义相似度结果。

4.如权利要求1所述的建立方法，其特征在于，所述相似度阈值大于或等于0.7且小于或等于1.0。

5.如权利要求1所述的建立方法，其特征在于，在进行相似度计算之前还包括：对所述初始请求信息进行文本预处理。

6.如权利要求1所述的建立方法，其特征在于，还包括：当无法获得与所述初始请求信息对应的抽象语义表达式时，通过人工方式在所述智能问答知识库中添加与所述初始请求信息对应的扩展问。

7.如权利要求1所述的建立方法，其特征在于，还包括：将所述初始请求信息存入智能问答知识库的同时，提供与所述初始请求信息对应的答案，

并将该答案一并存入智能问答知识库。

8.如权利要求1所述的建立方法，其特征在于，还包括：当停止接收初始请求信息之后，从领域知识数据库中至少提取未存入智能问答知识库的部分数目的预置知识，并将提取的预置知识存入智能问答知识库，所述预置知识还包括答案。

9.如权利要求1所述的建立方法，其特征在于，所述抽象语义推荐处理包括：

对所述初始请求信息进行分词处理，得到若干单独词；

将每个单独词识别为语义规则词或非语义规则词；

10.如权利要求1所述的建立方法，其特征在于，所述抽象语义推荐处理包括：

对所述初始请求信息进行分词处理，得到若干单独词；

分别对每个单独词进行词性标注处理，得到每个单独词的词性信息；

分别对每个单独词进行词类判断处理，得到每个单独词的词类信息；

11.如权利要求9或10所述的建立方法，其特征在于，在进行匹配处理之前还包括：判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内，当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时，去除部分抽象语义表达式；当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时，从默认集合中补充部分抽象语义表达式。

12.如权利要求9或10所述的建立方法，其特征在于，所述抽象语义表达式还包括语义规则词；所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单独词相同或属于同一词类。

13.如权利要求12所述的建立方法，其特征在于，与所述初始请求信息匹配的抽象语义表达式满足以下条件：

缺失语义成分对应的词性包括对应的填充内容的词性；

该抽象语义表达式与初始请求信息的顺序相同。

14.如权利要求9或10所述的建立方法，其特征在于，当与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时，还包括：

15.如权利要求14所述的建立方法，其特征在于，所述打分处理采用以下一种或多种方式的结合：

缺失语义成分匹配的数量越多，得分越高；

词性置信度越大，得分越高；

根据自然语言模型进行判断，对爬取的大量语料数据的分词给出对抽象语义表达式进行填充后获得的数据信息语义是否正确的概率，概率越高，

得分越高。

16.一种智能问答知识库的建立装置，其特征在于，包括：

预置知识获取单元，用于获取领域知识数据库中的多个预置知识，所述预置知识包括：一个标准问以及一个或多个扩展问；

接收单元，用于接收初始请求信息，所述初始请求信息为需要与所述领域知识数据库中的预置知识进行语义相似度计算的信息或者为需要进行抽象语义推荐的信息；

17.如权利要求16所述的建立装置，其特征在于，所述计算单元采用以下一种或多种方式的结合进行语义相似度计算：基于向量空间模型的计算方法、基于隐形语义索引模型的计算方法、基于属性论的语义相似度计算方法和基于汉明距离的语义相似度计算方法。

18.如权利要求16所述的建立装置，其特征在于，所述计算单元分别计算所述初始请求信息与所述标准问的语义相似度以及所述初始请求信息与每个所述扩展问的语义相似度，并将计算结果中的最高值作为所述初始请求信息与该预置知识的语义相似度结果。

19.如权利要求16所述的建立装置，其特征在于，所述相似度阈值大于或等于0.7且小于或等于1.0。

20.如权利要求16所述的建立装置，其特征在于，所述装置还包括文本预处理单元：用于对所述初始请求信息进行文本预处理。

21.如权利要求16所述的建立装置，其特征在于，所述抽象语义推荐模块包括：分词单元、规则词识别单元、词性标注单元、词类判断单元、搜索单元和匹配单元，其中，

所述分词单元，用于对所述初始请求信息进行分词处理，得到若干单独词；

规则词识别单元，用于将每个单独词识别为语义规则词或非语义规则词；

词性标注单元，用于分别对每个非语义规则词进行词性标注处理，得到每个非语义规则词的词性信息；

词类判断单元，用于分别对每个语义规则词进行词类判断处理，得到每个语义规则词的词类信息；

搜索单元，用于对抽象语义表达式获取单元获取的多个抽象语义表达式进行搜索处理，得到与所述初始请求信息相关的抽象语义候选集，所述抽象语义候选集包括多个抽象语义表达式；

匹配单元，用于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理，得到与所述初始请求信息匹配的抽象语义表达式。

22.如权利要求16所述的建立装置，其特征在于，抽象语义推荐模块包括：

分词单元、词性标注单元、词类判断单元、搜索单元和匹配单元，其中，

分词单元，用于对所述初始请求信息进行分词处理，得到若干单独词；

词性标注单元，用于分别对每个所述单独词进行词性标注处理，得到每个单独词的词性信息；

词类判断单元，用于分别对每个所述单独词进行词类判断处理，得到每个单独词的词类信息；

23.如权利要求21或22所述的建立装置，其特征在于，所述抽象语义推荐模块还包括：数目判断单元、去除单元和补充单元，其中：数目判断单元，用于判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内；去除单元，用于当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时，去除部分抽象语义表达式；补充单元，用于当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时，从默认集合中补充部分抽象语义表达式。

24.如权利要求21或22所述的建立装置，其特征在于，所述抽象语义表达式还包括语义规则词；所述搜索单元搜索得到的所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单独词相同或属于同一词类。

25.如权利要求24所述的建立装置，其特征在于，所述匹配单元得到与所述初始请求信息匹配的抽象语义表达式满足以下条件：

缺失语义成分对应的词性包括对应的填充内容的词性；

该抽象语义表达式与初始请求信息的顺序相同。

26.如权利要求21或22所述的建立装置，其特征在于，所述智能问答知识库的建立装置还包括打分单元，用于当抽象语义推荐模块获得的与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时，分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理，将提取的内容填充到得分较高的N个抽象语义表达式对应的缺失语义成分，得到与所述初始请求信息对应的N个具体语义表达式。

27.如权利要求26所述的建立装置，其特征在于，所述打分单元采用以下一种或多种方式的结合进行打分处理：

缺失语义成分匹配的数量越多，得分越高；

词性置信度越大，得分越高；

得分越高。

28.如权利要求16所述的建立装置，其特征在于，还包括：答案提供单元，

用于提供与初始请求信息对应的答案；所述存入单元将所述初始请求信息存入智能问答知识库的同时，将答案提供单元提供的答案一并存入智能问答知识库。

29.如权利要求16所述的建立装置，其特征在于，还包括：提取单元，用于当接收单元停止接收初始请求信息之后，从预置知识获取单元中至少提取未存入智能问答知识库的部分数目的预置知识；所述存入单元将提取单元提取的预置知识存入智能问答知识库。

30.一种智能问答知识库的建立系统，其特征在于，包括：

权利要求16～29任一项所述的建立装置。