CN110019304B

CN110019304B - 扩展问答知识库的方法及存储介质、终端

Info

Publication number: CN110019304B
Application number: CN201711362324.XA
Authority: CN
Inventors: 陈培华; 朱频频
Original assignee: Shanghai Xiaoi Robot Technology Co Ltd
Current assignee: Shanghai Xiaoi Robot Technology Co Ltd
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2024-01-05
Anticipated expiration: 2037-12-18
Also published as: CN110019304A

Abstract

一种扩展问答知识库的方法及存储介质、终端，扩展问答知识库的方法包括：获取待处理问题，并对所述待处理问题进行分词，以得到多个原始词语，所述待处理问题为问答知识库中的标准问或扩展问；对所述多个原始词语进行相关词替换，以得到原始词语与相关词组合或者相关词与相关词组合的多个扩展问句；对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断；根据判断结果对所述多个扩展问句进行过滤；将过滤后的多个扩展问句作为待处理问题的扩展问加入问答知识库。通过本发明技术方案可以自动生成扩展问并保证扩展问的有效性。

Description

扩展问答知识库的方法及存储介质、终端

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种扩展问答知识库的方法及存储介质、终端。

背景技术

现有技术中，用于问答的问答知识库通常包括多个知识点，每一知识点包括一个标准问、标准问对应的一个或多个扩展问以及答案。为了实现问答的准确性，需要在问答知识库中对标准问进行扩展，形成尽可能多的扩展问。问答知识库中的扩展问通常需要人工写。或者使用语义模板、语义表达式生成扩展问。

但是，现有技术中上述生成扩展问的方式所形成的扩展问的数量有限；此外，形成的扩展问中存在无效扩展问，占用系统资源，还导致用户问题无法与标准问和扩展问匹配，影响问答的准确性。

发明内容

本发明解决的技术问题是如何自动生成扩展问并保证扩展问的有效性。

为解决上述技术问题，本发明实施例提供一种扩展问答知识库的方法，包括：

利用预设原始语料对词向量模型进行训练，利用所述训练完成的词向量模型获取每组同义词中所有词语的词向量，以及所述预设原始语料中所有词语的词向量；根据词向量之间的距离确定每组同义词中所有词语的相关词；将每组同义词中所有词语的相关词取交集，以确定多组新增相关词，并更新同义词词典，以用于进行相关词替换；

获取待处理问题，并对所述待处理问题进行分词，以得到多个原始词语，所述待处理问题为问答知识库中的标准问或扩展问；

对所述多个原始词语进行相关词替换，以得到原始词语与相关词组合或者相关词与相关词组合的多个扩展问句；

对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断；

根据判断结果对所述多个扩展问句进行过滤；

将过滤后的多个扩展问句作为待处理问题的扩展问加入问答知识库。

可选的，所述对所述多个原始词语进行相关词替换包括：利用所述多个原始词语对应的词类对所述多个原始词语进行相关词替换；或者，利用同义词词典对所述多个原始词语进行同义词替换。

可选的，所述对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断包括：确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率；利用所述组合概率计算扩展问句的有效分数；将所述扩展问句的有效分数与设定阈值比较，以得到所述判断结果。

可选的，所述根据判断结果对所述多个扩展问进行过滤包括：如果所述判断结果表示所述扩展问句的有效分数达到所述设定阈值，则保留所述扩展问句，以作为所述待处理问题的扩展问。

可选的，所述利用所述组合概率计算扩展问句的有效分数包括：计算所述组合概率之和，以作为所述扩展问句的有效分数。

可选的，所述确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率包括：利用汉语语言模型或神经网络语言模型确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率。

可选的，所述获取待扩展的问句之前还包括：利用预设原始语料对所述汉语语言模型或所述神经网络语言模型进行训练。

可选的，所述问答知识库包括多个知识点，每个知识点包括一个标准问、一个或多个扩展问和一个答案。

本发明实施例还公开了一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述扩展问答知识库的方法的步骤。

本发明实施例还公开了一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所述扩展问答知识库的方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明技术方案通过获取待处理问题，并对所述待处理问题进行分词，以得到多个原始词语；对所述多个原始词语进行相关词替换，以得到原始词语与相关词组合或者相关词与相关词组合的多个扩展问句；对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断；根据判断结果对所述多个扩展问进行过滤；将将过滤后的多个扩展问句作为待处理问题的扩展问加入问答知识库。本发明技术方案中，由于每一词语对应大量相关词，因此通过对待处理问题中的原始词语进行相关词替换后，可以得到数量庞大的扩展问句；此外，通过对扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断，来过滤无效扩展问，从而保证了所形成的扩展问的有效性；进而可以保证所形成的扩展问能够与用户问题相匹配，提高后续用户问答的及时性和准确性。

进一步，所述对所述多个原始词语进行相关词替换包括：利用所述多个原始词语对应的词类对所述多个原始词语进行相关词替换；或者，利用同义词词典对所述多个原始词语进行同义词替换。本发明技术方案中，可以利用词类或同义词词典进行相关词替换；由于词类和同义词词典中包括与原始词语语义相似的词语，因此在利用词类或同义词词典进行相关词替换后，可以获得与待处理问题语义相似的多个扩展问句。此外，词类和同义词词典可以进行更新和扩展词汇量，进而保证获得的扩展问句的数量。

进一步，所述对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断包括：确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率；利用所述组合概率计算扩展问句的有效分数；将所述扩展问句的有效分数与设定阈值比较，以得到所述判断结果。本发明技术方案中，相邻词语之间的组合概率可以表示相邻词语在语法上组合的有效性；通过扩展问句的相邻词语之间的组合概率可以计算扩展问句的有效分数，以表示扩展问句在语法上的有效性，从而可以根据扩展问句的有效分数与设定阈值对扩展问句进行判断，保证了对扩展问句进行有效性判断的准确性。

进一步，所述获取待扩展的问句之前还包括：利用预设原始语料对词向量模型进行训练；利用训练完成的词向量模型获取多组新增相关词，并更新同义词词典，以用于进行相关词替换。本发明技术方案中，通过训练词向量模型来获取多组相关词，可以扩展同义词词典的词汇量；进而在利用同义词词典进行相关词替换时，可以获得更多的扩展问句。此外，通过词向量模型获得的多组相关词质量较高，从而可以提高后续利用同义词词典获得的扩展问句的质量。

附图说明

图1是本发明实施例一种扩展问答知识库的方法的流程图；

图2是图1所示步骤S103的一种具体实施方式的流程图；

图3是本发明实施例另一种扩展问答知识库的方法的部分流程图；

图4图3所示步骤S302的一种具体实施方式的流程图；

图5图3所示步骤S302的另一种具体实施方式的流程图。

具体实施方式

如背景技术中所述，现有技术中上述生成扩展问的方式所形成的扩展问的数量有限；此外，形成的扩展问中存在无效扩展问，占用系统资源，还导致用户问题无法与标准问和扩展问匹配，影响问答的准确性。

本发明技术方案中，由于每一词语对应大量相关词，因此通过对待处理问题中的原始词语进行相关词替换后，可以得到数量庞大的扩展问；此外，通过对扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断，来过滤无效扩展问，从而保证了所形成的扩展问的有效性；进而可以保证所形成的扩展问能够与用户问题相匹配，提高后续用户问答的及时性和准确性。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种扩展问答知识库的方法的流程图。

如图1所示，扩展问答知识库的方法可以包括以下步骤：

步骤S101：获取待处理问题，并对所述待处理问题进行分词，以得到多个原始词语，所述待处理问题为问答知识库中的标准问或扩展问；

步骤S102：对所述多个原始词语进行相关词替换，以得到原始词语与相关词组合或者相关词与相关词组合的多个扩展问句；

步骤S103：对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断；

步骤S104：根据判断结果对所述多个扩展问句进行过滤；

步骤S105：将过滤后的多个扩展问句作为待处理问题的扩展问加入问答知识库。

由于后续的相关词替换是针对词语进行的，因此在步骤S101的具体实施中，对待处理问题进行分词处理，以得到待处理问题的多个原始词语。具体而言，所述待处理问题可以为文本。如果待处理问题为语音，则需要将语音转换为文本，再进行分词处理。

本实施例中所述待处理问题可以为知识点中的标准问或有效扩展问。本实施例中，通过对知识点中的标准问或有效扩展问进行扩展，可以得到标准问或有效扩展问的多个有效扩展问。一方面保证了知识点中扩展问句的数量，另一方面保证了知识点中扩展问句的质量；进而在利用知识点进行用户问答时，可以提高答案回复的准确性。

在步骤S102的具体实施中，通过对多个原始词语进行相关词替换，可以得到多个扩展问句。多个扩展问句包括原始词语与相关词组合形成的扩展问句，以及相关词与相关词组合形成的扩展问句。具体而言，每一原始词语对应相关词。在进行相关词替换时，利用原始词语对应的相关词对原始词语进行替换。

例如，待处理问题分词后得到原始词语1和原始词语2；原始词语1对应相关词1和相关词2，原始词语2对应相关词A和相关词B；那么，相关词1和相关词2可以对原始词语1进行替换，相关词A和相关词B可以对原始词语2进行替换。在经过相关词替换后，形成的扩展问句包括以下几种：相关词1和原始词语2、相关词2和原始词语2、原始词语1和相关词A、原始词语1和相关词B、相关词1和相关词A、相关词2和相关词A、相关词1和相关词B以及相关词2和相关词B。

可以理解的是，原始词语对应的相关词可以是与原始词语语义相似的词语，例如语义相似可以是语义相似度大于预设值。

经过步骤S102后，可以获得多个扩展问句。多个扩展问句中可能存在无效扩展问句。无效扩展问可以是不符合语法标准的扩展问句。由于无效扩展问在使用时无法与用户问题进行匹配，因此需要对无效扩展问进行过滤，并保留除无效扩展问之外的有效扩展问。

在步骤S103和步骤S104的具体实施中，通过对扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断，来确定该扩展问句是否是无效扩展问。也就是说，通过判断扩展问句中每两个相邻词语之间的组合是否有效，可以确定该扩展问句是否有效。如果扩展问句中存在至少两个相邻词语的组合无效，则该扩展问句为无效扩展问。

具体而言，相邻词语之间的组合有效性可以是指相邻词语之间的组合是否符合语法标准。

需要说明的是，对相邻词语之间的组合是否符合语法标准的判断可以采用任意可实施的方式，本发明实施例对此不做限制。

经过步骤S103可以得到对每两个相邻词语之间的组合有效性的判断结果。以及根据扩展问句中每两个相邻词语之间的组合有效性的判断结果确定该扩展问句是否有效，进而在步骤S104中可以过滤无效扩展问，保留有效扩展问。

本发明实施例中，由于每一词语对应大量相关词，因此通过对待处理问题中的原始词语进行相关词替换后，可以得到数量庞大的扩展问句；此外，通过对扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断，来过滤无效扩展问，从而保证了所形成的待处理问题的有效性；进而可以保证所形成的待处理问题能够与用户问题相匹配，提高后续用户问答的及时性和准确性。

本发明实施例可以应用于机器人问答系统中扩展问句的自动生成，可以丰富机器人的问答知识库，提升机器人问答效果。

经过步骤S104之后，执行步骤S105，将过滤后的多个扩展问句进行输出，以加入问答知识库，其中，所述过滤后的多个扩展问句为所述待处理问题的有效扩展问。

本实施例中，经过步骤S104后，得到过滤后的多个扩展问句。过滤后的多个扩展问句为待处理问题的有效扩展问，也即为符合语法标准的扩展问句。由此，可以将过滤后的多个扩展问句进行输出至问答知识库中。更具体而言，将过滤后的多个扩展问句加入待处理问题所属的知识点。

本发明一个优选实施例中，步骤S102可以包括以下步骤：利用所述多个原始词语对应的词类对所述多个原始词语进行相关词替换。

本实施例中，可以利用多个原始词语对应的词类对所述多个原始词语进行相关词替换。具体而言，每一词类可以包括多个词语；词类可以是按照词语的语义进行划分的，一组语义相关的词组织在一起可以形成词类。具体地，词类可以由词类名和一组语义相关词语所组成。词类名可以是在这组相关词中具有标签作用的词，即词类的代表。一个词类中至少包括一个词(即词类名本身)。例如，词类名为“手机”的词类可以包括多个词语“手机”、“mobile”、“mobilephone”、“电话”等。

由于词类中包括与原始词语语义相似的词语，因此在利用词类对该原始词语进行相关词替换后，可以获得与待处理问题语义相似的多个扩展问句。此外，词类可以定期进行更新和扩展词汇量，进而保证获得的扩展问句的数量。

本发明另一个优选实施例中，步骤S102可以包括以下步骤：利用同义词词典对所述多个原始词语进行同义词替换。

本发明技术方案中，可以利用同义词词典进行相关词替换。同义词词典包括多组语义相近的词语。在实际的应用中，同义词词典有多种版本，本发明实施例不限制同义词词典的具体类型。

由于同义词词典中包括与原始词语语义相似的词语，因此在利用同义词词典进行相关词替换后，可以获得与待处理问题语义相似的多个扩展问句。此外，同义词词典可以定期进行更新和扩展词汇量，进而保证获得的扩展问句的数量。

本发明一个具体实施例中，如图2所示，步骤S103可以包括以下步骤：

步骤S201：确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率；

步骤S202：利用所述组合概率计算扩展问句的有效分数；

步骤S203：将所述扩展问句的有效分数与设定阈值比较，以得到所述判断结果。

本发明实施例给出了得到判断结果的一个具体实施方式。在步骤S201的具体实施中，相邻词语之间的组合概率可以表示包括所述相关词的相邻词语的组合有效性。确定组合概率可以采用任意可实施的算法或模型，本发明实施例对此不做限制。

进一步地，可以利用汉语语言模型或神经网络语言模型确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率。

本实施例中，汉语语言模型或神经网络语言模型可以是预先配置的。将分词后的扩展问句输入至汉语语言模型或神经网络语言模型，汉语语言模型或神经网络语言模型可以输出该扩展问句中每两个相邻词语之间的组合概率。

进一步地，在步骤S101之前可以包括以下步骤：利用预设原始语料对所述汉语语言模型或所述神经网络语言模型进行训练。

本实施例中，在对待处理问题进行扩展之前，需要的准备工作是获得训练完成的汉语语言模型或所述神经网络语言模型，以用以判断相邻词语的组合有效性。

具体而言，预设原始语料可以是大量的问答数据。所述问答的数据的来源可以是通过爬虫爬取的，也可以是人工问答数据。在保证预设原始语料的数据量足够大的基础上，可以保证对所述汉语语言模型或所述神经网络语言模型的训练效果，进而保证汉语语言模型或所述神经网络语言模型对相邻词语进行组合有效性判断的准确性。

进一步而言，所述预设原始语料可以是针对特定业务领域的，也可以是覆盖多种业务领域的。

如前所述，扩展问句中所有每两个相邻词语的组合有效性可以标识该扩展问句的有效性。在本实施例中，相邻词语的组合有效性由组合概率表示，由此，可以利用所述组合概率计算扩展问句的有效分数。具体而言，有效分数可以是多个组合概率的加权平均；也可以是多个组合概率的加权之和；还可以是多个组合概率的乘积等。

进一步地，可以计算所述组合概率之和，以作为所述扩展问句的有效分数。

扩展问句的有效分数可以表示扩展问句的有效性。将扩展问句的有效分数与设定阈值比较，可以得到扩展问句是否有效的判断结果。具体而言，扩展问句的有效分数越高，该扩展问句的有效性越高；反之则越低。如果扩展问句的有效分数达到所述设定阈值，则表示该扩展问句为有效扩展问；否则该扩展问句为无效扩展问。

可以理解的是，在实际的应用中，设定阈值的具体数值可以根据实际应用环境进行适应性配置，本发明实施例对此不做限制。

本发明一个具体实施例中，步骤S104可以包括以下步骤：如果所述判断结果表示所述扩展问句的有效分数达到所述设定阈值，则保留所述扩展问句，以作为所述待处理问题的扩展问句。

如前所述，如果扩展问句的有效分数达到所述设定阈值，则表示该扩展问句为有效扩展问，则可以保留该扩展问句。该扩展问句将作为待处理问题的扩展问句。在后续步骤中，可以将该扩展问句与待处理问题作为一个知识点放入问答知识库中，并用以与用户问题进行匹配。

由于本发明实施例中保留的扩展问句是经过有效性筛选的，因此在利用知识点与用户问题进行匹配时，可以避免无法匹配的情况，可以提高匹配的准确性。

在本发明另一个优选实施例中，如图3所示，所述扩展问答知识库的方法在步骤S101之前还可以包括以下步骤：

步骤S301：利用预设原始语料对词向量模型进行训练；

步骤S302：利用训练完成的词向量模型获取多组新增相关词，并更新同义词词典，以用于进行相关词替换。

本实施例中，同义词词典可以用于进行相关词替换。为了保证对原始词语进行相关词替换后扩展问句的丰富性，在利用同义词词典对原始词语进行相关词替换之前，可以对同义词词典进行更新和扩展，以提高同义词词典的丰富性。

具体实施中，预设原始语料可以是预先配置的。例如可以是大量的自然语言数据。用预设原始语料对词向量模型进行训练完成后，训练完成的词向量模型可以获取词语的词向量。也就是说，利用训练完成的词向量模型获取预设原始语料中的多组相关词；通过与同义词词典中的同义词相比较，可以确定多组相关词中的多组新增相关词。通过将多组新增相关词添加至同义词词典，可以实现对同义词词典的扩展。进一步地，每组新增相关词包括多个语义相近的词语。

具体而言，根据词语的词向量可以计算词语之间的语义相似度，根据词语之间的语义相似度可以确定多组相关词。例如，两个词语之间的语义相似度大于预设值时，两个词语互为相关词。

本发明实施例中，通过训练词向量模型来获取多组相关词，可以扩展同义词词典的词汇量；进而在利用同义词词典进行相关词替换时，可以获得更多的扩展问句。此外，通过词向量模型获得的多组相关词质量较高，从而可以提高后续利用同义词词典获得的扩展问句的质量。

具体实施中，如图4所示，图3中的步骤S302可以包括以下步骤：

步骤S401：利用所述训练完成的词向量模型获取述预设原始语料中所有词语的词向量；

步骤S402：根据词向量之间的距离确定所述多组新增相关词。

本发明实施例中，词向量之间的距离可以表征词向量对应的词语的语义相似性。利用训练完成的词向量模型获取预设原始预料中所有的词向量后，可以分别计算每两个词向量之间的距离，并根据距离确定多组新增相关词。具体地，两个词向量之间的距离达到预设数值时，确定该词向量对应的词语为相关词。

具体实施中，如图5所示，图3中的步骤S302可以包括以下步骤：

步骤S501：利用所述训练完成的词向量模型获取每组同义词中所有词语的词向量，以及所述预设原始语料中所有词语的词向量；

步骤S502：根据词向量之间的距离确定每组同义词中所有词语的相关词；

步骤S503：将每组同义词中所有词语的相关词取交集，以确定所述多组新增相关词。

本发明实施例中，同义词词典具备多组同义词。可以利用训练完成的词向量模型获取多组同义词的词向量以及预设原始语料中所有词语的词向量。对于一组同义词，可以计算得到该组同义词中每一词语的相关词。也即，根据词向量之间的距离确定每一词语的相关词。

由此，对于一组同义词中多个词语，可以得到多组相关词。由于多组相关词之间可能有重复，因此将每组同义词中所有词语的相关词取交集，以确定所述多组新增相关词。

本发明实施例还公开了一种存储介质，其上存储有计算机指令，所述计算机指令运行时可以执行图1至图4中所示的扩展问答知识库的方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。所述存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。

本发明实施例还公开了一种终端，所述终端可以包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令。所述处理器运行所述计算机指令时可以执行图1至图4中所示的扩展问答知识库的方法的步骤。所述终端包括但不限于手机、计算机、平板电脑等终端设备。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种扩展问答知识库的方法，其特征在于，包括：

利用预设原始语料对词向量模型进行训练，利用所述训练完成的词向量模型获取每组同义词中所有词语的词向量，以及所述预设原始语料中所有词语的词向量；根据词向量之间的距离确定每组同义词中所有词语的相关词；

将每组同义词中所有词语的相关词取交集，以确定多组新增相关词，并更新同义词词典，以用于进行相关词替换；

根据判断结果对所述多个扩展问句进行过滤；

2.根据权利要求1所述的扩展问答知识库的方法，其特征在于，所述对所述多个原始词语进行相关词替换包括：

利用所述多个原始词语对应的词类对所述多个原始词语进行相关词替换；

或者，利用同义词词典对所述多个原始词语进行同义词替换。

3.根据权利要求1所述的扩展问答知识库的方法，其特征在于，所述对每一扩展问句中包括所述相关词的相邻词语之间的组合有效性进行判断包括：

确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率；

利用所述组合概率计算扩展问句的有效分数；

将所述扩展问句的有效分数与设定阈值比较，以得到所述判断结果。

4.根据权利要求3所述的扩展问答知识库的方法，其特征在于，所述根据判断结果对所述多个扩展问句进行过滤包括：

如果所述判断结果表示所述扩展问句的有效分数达到所述设定阈值，则保留所述扩展问句，以作为所述待处理问题的扩展问。

5.根据权利要求3所述的扩展问答知识库的方法，其特征在于，所述利用所述组合概率计算扩展问句的有效分数包括：

计算所述组合概率之和，以作为所述扩展问句的有效分数。

6.根据权利要求3所述的扩展问答知识库的方法，其特征在于，所述确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率包括：

利用汉语语言模型或神经网络语言模型确定每一扩展问句中包括所述相关词的相邻词语之间的组合概率。

7.根据权利要求6所述的扩展问答知识库的方法，其特征在于，所述获取待扩展的问句之前还包括：

利用预设原始语料对所述汉语语言模型或所述神经网络语言模型进行训练。

8.根据权利要求1所述的扩展问答知识库的方法，其特征在于，所述问答知识库包括多个知识点，每个知识点包括一个标准问、一个或多个扩展问和一个答案。

9.一种存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至8中任一项所述扩展问答知识库的方法的步骤。

10.一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1至8中任一项所述扩展问答知识库的方法的步骤。