CN111858876A

CN111858876A - 一种知识库的生成方法、文本查找方法和装置

Info

Publication number: CN111858876A
Application number: CN202010408304.7A
Authority: CN
Inventors: 李翔; 李健; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2020-10-30
Anticipated expiration: 2040-05-14
Also published as: CN111858876B

Abstract

本发明实施例提供了一种知识库的生成方法、文本查找方法和装置，所述知识库的生成方法包括：获取目标用户与其他用户对话产生的对话语音；在所述对话语音中提取所述目标用户的目标语音，并将所述目标语音转换为目标文本；基于所述目标用户的所述目标文本，生成标准问题以及所述标准问题对应的标准答案；采用所述标准问题以及所述标准问题对应的标准答案，生成知识库。从而可以得到包含目标用户个人知识体系以及个人认知的目标文本，并实现获得可以体现出目标用户的知识体系以及个人认知的知识库。其他用户可以通过所述知识库，获取基于目标用户的知识体系以及个人认知得到的答案。目标用户可以通过所述知识库，对自身的知识体系进行回溯。

Description

一种知识库的生成方法、文本查找方法和装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种知识库的生成方法、一种文本查找方法、一种知识库的生成装置和一种文本查找装置。

背景技术

人可以通过获得知识，应用知识，或者信息加工的过程，得到个人的知识体系，以及个人对世界的认知。然而，个人的知识体系以及个人对世界的认知，只有本人可以了解。若他人希望向一个人咨询问题，获取个人基于其本人知识体系以及本人认知的形成的答案，那么他人一般只能向该个人本人进行咨询，而较难通过其他方式获取该个人对问题的回复。

例如，对于医生、律师、心理咨询师等经常接收他人咨询的职业来说，若咨询者希望得到职业人士对其提出问题的回复，通常需要直接向职业人士咨询，而较难通过其他方式获取职业人士对问题的回复。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种知识库的生成方法、一种文本查找方法、一种知识库的生成装置和一种文本查找装置。

为了解决上述问题，本发明实施例公开了一种知识库的生成方法，包括：

获取目标用户与其他用户对话产生的对话语音；

在所述对话语音中提取所述目标用户的目标语音，并将所述目标语音转换为目标文本；

基于所述目标用户的所述目标文本，生成标准问题以及所述标准问题对应的标准答案；

采用所述标准问题以及所述标准问题对应的标准答案，生成知识库。

可选地，所述在所述对话语音中提取所述目标用户的目标语音，并将所述目标语音转换为目标文本的步骤，包括：

在所述对话语音中，确定至少一段有效语音；

提取所述有效语音的语音声纹特征；

将所述语音声纹特征与预设的目标用户声纹特征进行比对，若所述语音声纹特征与所述目标用户声纹特征相似，将所述有效语音确定为目标语音；

基于语音识别，将所述目标语音转换为目标文本。

可选地，所述基于所述目标用户的所述目标文本，生成标准问题以及所述标准问题对应的标准答案的步骤，包括：

在所述目标文本获取至少一个标准答案；

基于所述标准答案，生成所述标准答案对应的标准问题。

可选地，所述方法还包括：

采用预设的实体识别模型，在所述目标文本中，提取至少一个实体；

基于所述目标文本，确定所述实体对应的属性以及属性值，生成所述实体对应的三元组。

可选地，所述方法还包括：

确定所述知识点之间的相似度；所述知识点包括所述三元组，和/或，所述标准答案；

基于所述知识点之间的相似度，将所述知识点分为至少一个类别。

本发明实施例还公开了一种文本查找方法，所述方法包括：

获取提问文本；

在所述知识库中查找与所述提问文本相似度最高的标准问题，确定为目标标准问题；其中，所述知识库通过获取目标用户与其他用户对话产生的对话语音；在所述对话语音中提取所述目标用户的目标语音，并将所述目标语音转换为目标文本；基于所述目标用户的所述目标文本，生成标准问题以及所述标准问题对应的标准答案；采用所述标准问题以及所述标准问题对应的标准答案生成知识库得到；

在所述知识库中，查找所述目标标准问题对应的标准答案，作为目标文本。

本发明实施例还公开了一种知识库的生成装置，包括：

获取模块，用于获取目标用户与其他用户对话产生的对话语音；

转换模块，用于在所述对话语音中提取所述目标用户的目标语音，并将所述目标语音转换为目标文本；

问题答案生成模块，用于基于所述目标用户的所述目标文本，生成标准问题以及所述标准问题对应的标准答案；

知识库生成模块，用于采用所述标准问题以及所述标准问题对应的标准答案，生成知识库

可选地，所述转换模块包括：

有效语音确定子模块，用于在所述对话语音中，确定至少一段有效语音；

提取子模块，用于提取所述有效语音的语音声纹特征；

比对子模块，用于将所述语音声纹特征与预设的目标用户声纹特征进行比对，若所述语音声纹特征与所述目标用户声纹特征相似，将所述有效语音确定为目标语音；

转换子模块，用于基于语音识别，将所述目标语音转换为目标文本。

可选地，所述问题答案生成模块包括：

答案获取子模块，用于在所述目标文本获取至少一个标准答案；

问题生成子模块，用于基于所述标准答案，生成所述标准答案对应的标准问题。

可选地，所述装置还包括：

实体提取模块，用于采用预设的实体识别模型，在所述目标文本中，提取至少一个实体；

三元组生成模块，用于基于所述目标文本，确定所述实体对应的属性以及属性值，生成所述实体对应的三元组。

可选地，所述装置还包括：

相似度确定模块，用于确定所述知识点之间的相似度；所述知识点包括所述三元组，和/或，所述标准答案；

分类模块，用于基于所述知识点之间的相似度，将所述知识点分为至少一个类别。

本发明实施例还公开了一种文本查找装置，所述装置包括：

提问模块，用于获取提问文本；

第一查找模块，用于在所述知识库中查找与所述提问文本相似度最高的标准问题，确定为目标标准问题；其中，所述知识库通过获取目标用户与其他用户对话产生的对话语音；在所述对话语音中提取所述目标用户的目标语音，并将所述目标语音转换为目标文本；基于所述目标用户的所述目标文本，生成标准问题以及所述标准问题对应的标准答案；采用所述标准问题以及所述标准问题对应的标准答案生成知识库得到；

第二查找模块，用于在所述知识库中，查找所述目标标准问题对应的标准答案，作为目标文本。

本发明实施例还公开了一种装置，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述装置执行如本发明实施例所述的一个或多个的方法。

本发明实施例还公开了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如本发明实施例所述的一个或多个的方法。

本发明实施例包括以下优点：

本发明实施例的知识库的生成方法，通过获取目标用户与其他用户对话产生的对话语音，在所述对话语音中提取所述目标用户的目标语音，并将所述目标语音转换为目标文本；从而可以通过获取对话语音，得到包含目标用户个人知识体系以及个人认知的目标文本。其后，基于所述目标用户的所述目标文本，生成标准问题以及所述标准问题对应的标准答案，并采用所述标准问题以及所述标准问题对应的标准答案，生成知识库。从而实现获得可以一定程度上体现出目标用户的知识体系以及个人认知的知识库。其他用户可以通过所述知识库，获取基于目标用户的知识体系以及个人认知得到的答案。目标用户也可以通过所述知识库，对自身的知识体系进行回溯。

附图说明

图1是本发明实施例的一种知识库的生成方法实施例的步骤流程图；

图2是本发明实施例的另一种知识库的生成方法实施例的步骤流程图；

图3是本发明实施例的一种文本查找方法实施例的步骤流程图；

图4是本发明实施例的一种知识库的生成装置实施例的结构框图；

图5是本发明实施例的一种文本查找装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

语言文字是社会交流的基础，每个人每天都可以通过语音表达自己的思想，发表自己对世界的认知，从而与其它人实现信息的交互和沟通。每个人每天产出的海量语音数据中，可以包含大量个人的非结构化的知识内容，以及基于个人认知的表达。由此，本发明实施例通过从目标用户与其他用户之间对话产生的语音中获取目标用户的目标语音，并将所述目标语音转换为目标文本，其后，可以在目标问题中提取生成标准问题以及标准问题对应的标准答案，并采用所述标准问题以及标准答案生成知识库。知识库基于用户的目标语音得到，一定程度上可以表达目标用户个人的知识体系以及个人认识，从而其他用户可以基于所述知识库，实现获取基于目标用户知识体系以及个人认知得到的回复，目标用户可以可以采用所述问答模型，回溯自己的知识体系。

参照图1，示出了本发明的一种知识库的生成方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，获取目标用户与其他用户对话产生的对话语音；

在本发明实施例中，目标用户与其他用户进行对话的过程中，目标用户容易更多地表达出个人的思想以及认知，从而获取目标用户与其他用户对话产生的对话语音，作为提取标准问题以及标准答案的素材。

其中，所述目标用户可以为需要提取个人知识体系以及个人认知的用户。所述其他用户可以为与所述目标用户进行对话的用户。在一份对话语音中，所述其他用户可以为一个或一个以上。所述其他用户与所述目标用户之间的关系可以为陌生关系，也可以为熟识关系，也可以为亲属关系，本发明对此不做限制。

步骤102，在所述对话语音中提取所述目标用户的目标语音，并将所述目标语音转换为目标文本；

在本发明实施例中，所述对话语音中可以包含目标用户的语音，以及其他用户的语音。由此，可以在所述对话语音中，提取所述目标用户的语音，即目标语音。其后，可以将所述目标语音转化为目标文本，作为提取标准问题以及标准答案的素材。

在具体实现中，可以采用声纹识别的方式，在所述对话语音中，提取所述目标用户的目标语音，并采用语音识别的方式，将所述目标语音转换为为文本，从而得到所述目标文本。

步骤103，基于所述目标用户的所述目标文本，生成标准问题以及所述标准问题对应的标准答案；

在本发明实施例中，所述目标文本中可以包括所述目标用户的个人知识体系以及个人认知。由此，可以基于所述目标用户的所述目标文本，生成训练模型使用的标准问题以及所述标准问题对应的标准答案，从而所述标准问题以及所述标准答案中，也可以包括所述目标用户的个人知识体系以及个人认知。

其中，所述标准问题可以为针对至少一个实体所提出的问题。所述标准答案可以为针对所述标准问题中的实体所提出的答案。

在具体实现中，所述目标文本中可以包括至少一个实体，以及用户基于自身知识体系以及个人认知形成的，针对所述实体的描述。例如，所述目标文本可以为“我听说奇异果也可以被称为猕猴桃”，其中，“奇异果”可以为实体，而“奇异果也称为猕猴桃”可以为目标用户针对实体“奇异果”的描述。而用户对所述实体的描述，可以认为是用户对所述实体的一种回答，从而可以基于所述目标文本中用户对实体的描述，生成标准问题，以及所述标准问题对应的答案。例如，可以基于“奇异果也称为猕猴桃”，生成标准问题“奇异果也被称为什么？”，以及标准答案“奇异果也被称为猕猴桃”。

具体地，可以根据实际需要，采用手工编制规则的方式生成标准问题以及标准答案，也可以根据句法模板以及关键词生成标准问题以及标准答案，也可以根据句法依赖分析生成标准问题以及标准答案，也可以基于语义分析生成标准问题以及标准答案，本发明对此不做限制。

步骤104，采用所述标准问题以及所述标准问题对应的标准答案，训练预设模型，生成知识库。

在本发明实施例中，可以采用所述标准问题以及所述标准问题对应的标准答案，生成知识库。所述知识库可以包括至少一对所述标准问题以及所述标准问题对应的标准答案。所述标准问题以及所述标准答案基于所述目标用户的目标语音得到，从而所述知识库可以一定程度上体现出目标用户的知识体系以及个人认知。其他用户可以通过所述知识库，获取基于目标用户的知识体系以及个人认知得到的答案。例如，患者可以通过医生的知识库，获取对其病况咨询的回复。目标用户也可以通过所述知识库，对自身的知识体系进行回溯。

参照图2，示出了本发明的一种问答模型的训练方法实施例的步骤流程图，具体可以包括如下步骤：

步骤201，获取目标用户与其他用户对话产生的对话语音；

步骤202，在所述对话语音中提取所述目标用户的目标语音，并将所述目标语音转换为目标文本；

在本发明的一种实施例中，所述在所述对话语音中提取所述目标用户的目标语音，并将所述目标语音转换为目标文本的步骤，包括：

S11，在所述对话语音中，确定至少一段有效语音；

在本发明实施例中，目标用户与其他用户在进行交流的过程中，可以存在停顿，或者，由于其他非人声的环境声音的影响而暂停交流。由此，所述对话语音中可以存在无人声的静音段，或者非人声的无效语音段。可以在所述对话语音中，检测所述对话语音中存在人声的有效语音，并进一步确定一段有效语音的起点与终点，从而可以在所述对话语音中，提取得到至少一段有效语音。

可选地，所述对话语音中可以存在背景噪声，为了提高语音识别的准确率，还可以根据实际需要，对所述对话语音进行降噪处理，使提取到的所述有效语音中，人声可以更加清晰，便于语音识别。

S12，提取所述有效语音的语音声纹特征；

在本发明实施例中，每一个人说话，都可以具有特定的习惯方式，从而可以形成每一个人独有的声纹特征。声纹特征可以由波长、频率，强度、共鸣方式、平均音高、音域、不同音素的共振峰等多种维度的声学特征参数组成，其可以具有稳定性、可测量性、以及唯一性。由此，可以提取所述有效语音中声学特征参数，从而得到所述有效语音的语音声纹特征。

S13，将所述语音声纹特征与预设的目标用户声纹特征进行比对，若所述语音声纹特征与所述目标用户声纹特征相似，将所述有效语音确定为目标语音；

在本发明实施例中，可以将所述语音声纹特征与预设的目标用户声纹特征进行比对，确定所述语音声纹特征与所述目标用户声纹特征的相似度，若所述相似度大于预设相似度阈值，则可以认为所述语音声纹特征与所述目标用户的声纹特征相似，并将所述有效语音确定为目标语音。

其中，所述目标用户的声纹特征可以通过提前获取目标用户的语音，并提取所述目标用户的语音中的声学特征参数，得到所述目标用户的声纹特征。

在具体实现中，可以采用所述目标用户的声纹特征，对一预设的待训练声纹识别模型进行训练，从而可以得到所述目标用户的声纹识别模型。作为本发明的一种可选的实施方式，可以将声纹特征作为输入，将是否为目标用户的语音的判断结果作为输出，训练所述待训练声纹识别模型，从而得到所述目标用户的声纹识别模型。所述声纹识别模型可以获取从一段语音中提取得到的语音声纹特征，并确定该段语音的语音声纹特征与所述目标用户声纹特征的相似度，并基于所述相似度，最终输出该段语音是否为目标用户的语音的判断结果。

可选地，还可以对预设获取的至少一个用户的声纹特征进行分类，将相互之间相似度较高的声纹特征分为同一类，并提取出同一类声纹特征共有的特征参数。由此，在目标用户具有多个的情况下，可以在获取所述有效语音之后，先将基于所述有效语音的声纹特征，确定所述有效语音所属的分类，再将所述有效语音输入所属分类中的至少一个声纹识别模型进行识别，确定与所述有效语音匹配的目标用户。

S14，基于语音识别，将所述目标语音转换为目标文本。

在本发明实施例中，可以基于语音识别，将所述目标语音转换为目标文本，作为提取标准问题以及标准答案的素材。

步骤203，在所述目标文本获取至少一个标准答案；

在本发明实施例中，所述目标文本中可以包含目标用户的个人知识体系以及个人认知。由此，为了可以尽可能多地学习所述目标文本中的目标用户的表达方式、目标用户的个人知识体系、目标用户的个人认知，可以在所述目标文本中获取至少一个标准答案。

其中，一般来说，所述目标文本可以包括至少一个实体，以及用户基于自身知识体系以及个人认知形成的，针对所述实体的描述。从而所述标准答案可以包括对至少一个实体的描述。

而由于所述目标语音中每一段有效语音的时长各不相同，由此，从所述目标语音进行语音识别得到的所述目标文本的长度也可以各不相同。若所述目标文本的长度较长，这可能所述目标文本包含了多种不同的对实体的描述内容，多种不同的描述内容可以进行切分，以得到更多的标准答案以及标准问题。此外，目标文本的长度较长，还容易导致后续生成标准问题，以及模型训练的难度增加。

由此，可以对所述目标文本进行切分，得到至少一个具有合适长度的文本，并将该文本作为标准答案，从而得到至少一个标准答案。

在具体实现中，若所述目标文本的字数小于或等于第一预设字数，则可以不对所述目标文本进行切分，直接将所述目标问题标准答案。所述第一预设字数可以为10、50、100等，本发明对此不做限制。

若所述目标文本的字数大于第一预设字数，且小于或等于第二预设字数，则可以基于目标文本中每一分句的字数、分句中包含的实体数量等，在目标文本中，选取重要性较高的至少一个分句，作为标准答案。其中，所述分句可以基于所述目标文本中的标点符号，对所述目标文本进行断句得到。所述第二预设字数可以为100、200、300等，本发明对此不做限制。

若所述目标文本的字数大于第二预设字数，且小于或等于第三预设字数，则可以认为所述目标文本包含的内容较多，由此，可以先基于目标万分本中的标点符号，对所述目标文本进行拆分，将所述目标文本拆分为至少一个字数小于第四预设字数的段落，再基于目标文本中每一分句的字数、分句中包含的实体数量等，在段落中选取重要性较高的至少一个分句，作为标准答案。其中，所述第三预设字数可以为200、300、400等，本发明对此不做限制。所述第四预设字数可以为100、200、300等，本发明对此不做限制。

步骤204，基于所述标准答案，生成所述标准答案对应的标准问题；

在本发明实施例中，在确定所述标准答案后，可以基于所述标准答案，生成所述标准答案对应的标准问题。从而实现基于目标文本，生成标准问题以及与所述标准问题对应的标准答案。

在具体实现中，可以手工编制至少一个问题模板，并基于所述标准答案的内容，生成标准问题。也可以基于预设的句法模板以及标准答案中的关键词提取，生成标准问题。也可以提取标准答案中的实体，并基于实体类型映射到不同的提问方式，并基于句法依赖关系调整语序，生成标准问题。也可以基于语义分析，确定标准答案中不同成分间的语义关系，确定对应的问题类型以及形式，生成标准问题。本发明对此不做限制。

步骤205，采用所述标准问题以及所述标准问题对应的标准答案，生成知识库。

可选地，还可以在获取所述标准问题以及所述标准问题对应的标准答案之后，可以将所述标准问题作为预设模型的输入，将所述标准答案作为预设模型的输出，训练一预设模型，从而可以得到一问答模型。通过采用标准问题以及标准答案对所述预设模型进行训练，可以使所述预设模型学习所述标准问题以及标准答案中包含的目标用户的知识体系以及个人认知，使训练得到的问答模型可以一定程度上体现出目标用户的知识体系以及个人认知。其他用户可以通过所述问答模型，获取基于目标用户的知识体系以及个人认知得到的回复。标用户也可以通过所述问答模型，对自身的知识体系进行回溯。

其中，所述预设模型可以为CNN(Convolutional Neural Network，卷积神经网络)模型、LSTM(Long Short Term Memory，长短期记忆)模型、 BERT(Bidirectional EncoderRepresentation from Transformers，基于 Transformers的双向编码器)模型，本发明对此不做限制。

在具体实现中，可以将一部分所述标准问题以及所述标准问题对应的标准答案作为训练集，将一部分所述标准问题以及所述标准问题对应的标准答案作为测试集，采用训练集训练所述预设模型，并采用所述测试集测试所述预设模型，并调整模型参数，对模型进行迭代训练。在若干次迭代过程中，选取损失函数最小，或者正确率最高的模型，作为问答模型。

在本发明的一种实施例中，还可以在所述目标文本中，提取至少一个实体，并确定所述实体对应的属性以及属性值，生成所述实体对应的三元组。

其中，实体可以为具有指的是有可区别性且独立存在的事物。如中国、英国、北京、伦敦等。所述实体可以具有属性以及属性值。属性可以为与所述实体具有的性质，属性值可以为实体具有的性质对应的具体信息。

例如，英国的面积为24.41万平方公里。其中，“面积”为实体“英国”所具有的属性，“24.41万平方公里”为属性“面积”的属性值。

又例如，例如，书籍《机械设备》的作者为张某。其中，“名称”以及“作者”为实体“机械设备”所具有的属性，“机械设备”为属性“名称”的属性值，“张某”为属性“作者”的属性值。

所述方法包括：

S21，采用预设的实体识别模型，在所述目标文本中，提取至少一个实体；

在本发明实施例中，可以采用预设的实体识别模型，在所述目标文本中，识别并提取至少一个实体。其中，所述实体识别模型可以为经过训练的机器学习模型。例如，条件随机场模型、隐马尔可夫模型等。可以选取一部分目标文本，并确定所述目标问题中包含的实体，作为训练集，训练所述机器学习模型，从而得到所述实体识别模型。

在具体实现中，所述实体识别模型可以对所述目标文本中具有特定意义或者指代性强的实体进行识别，并根据实际需要，进一步所述实体对应的类别，从而在所述目标文本中，提取至少一个实体。

S22，基于所述目标文本，确定所述实体对应的属性以及属性值，生成所述实体对应的三元组；

在本发明实施例中，在提取所述实体之后，可以基于所述目标文本中，所述实体与目标文本中其他内容之间的关系，确定所述实体对应的属性以及属性值。

在具体实现中，利用句法依赖关系，确定所述目标文本中的观点，以及该观点所描述的实体对象之间的语义关系，从而确定所述实体的属性以及属性值。也可以采用基于句法的词汇化模板，确定目标文本中实体与目标文本中其他内容之间的语义关系，从而确定所述实体的属性以及属性值。也可以采用预设的属性识别模型，识别所述目标文本中实体的属性以及属性值。例如，可以采用所述属性识别模型，确定所述目标文本中每一分词的权重向量，并基于权重向量进行关系分类，从而识别得到与所述实体关联的属性。又例如，可以将所述实体识别模型以及所述属性识别模型串联使用，基于所述实体识别模型识别得到的实体以及实体标签进一步识别实体之间的关系，从而得到实体的属性以及属性值。属性识别模型可以为CNN模型、LSTM模型等，本发明对此不做限制。

在本发明实施例中，可以采用所述目标文本中提取到的所述实体以及所述实体对应的属性以及属性值，生成所述实体对应的三元组。其中，所述三元组可以采用一条包含所述实体，所述所述实体对应的属性以及属性值的记录，记录所述实体、所述实体对应的属性以及属性值。例如，“实体|属性| 属性值”。所述三元组由所述目标文本提取得到，可以一定程度上包含目标用户的知识体系以及个人认知。可以基于所述三元组，进一步扩充所述知识库，使所述知识库中可以包括更多目标用户的知识体系以及个人认知。

可选地，在获取咨询者咨询的问题后，可以识别所述咨询者咨询的问题中包含的至少一个实体，并基于所述实体，匹配至少一个包含所述实体的三元组。其后，可以基于所述三元组中的属性以及属性值，采用预设的句法模板生成答案答复所述咨询者。也可以计算所述三元组与咨询者咨询的问题之间的文本相似度，并将所述三元组中与咨询者咨询的问题之间文本相似度最高的目标三元组，并采用预设的句法模板生成答案答复所述咨询者。也可以计算所述三元组与所述标准答案之间的文本相似度，并将与所述三元组文本相似度最高的标准答案作为输出，答复所述咨询者。

在本发明的一种实施例中，所述方法还包括：

S31，确定所述知识点之间的相似度；所述知识点包括所述三元组，和/ 或，所述标准答案；

在本发明实施例中，可以基于知识点之间的相似度，对所述知识点进行聚类，进一步提高所述知识库的检索能力。所述知识点包括所述三元组，和 /或，所述标准答案。

在具体实现中，可以采用预设的向量模型，将所述知识点转换为向量表达的形式。其后，可以计算所述知识点的向量之间的向量距离，并基于所述向量距离确定所述知识点的之间文本相似度。

在具体实现中，还可以采用预设的语义相似度模型，计算所述知识点题之间的语义相似度。将所述知识点转换为向量表达的形式。其后，可以将两个所述知识点输入所述语义相似度模型中，所述语义相似度模型可以输出对两个所述知识点的语义相似度的匹配得分。

S32，基于所述标准问题之间的相似度，将所述标准问题分为至少一个类别。

在本发明实施例中，可以对所述知识点进行分类，将相似的知识点归入同一类中。从而将所述知识点分为至少一个类别。

在具体实现中，可以根据所要分类的类别数量，所述类别数量的知识点，作为每一个分类的质心。其后，可以基于所述作为质心的知识点与其他知识点之间的相似度，将所述其他知识点归入与其相似度最高的质心知识点的同一类别中。其后，对于每一类知识点，可以基于所述知识点之间的向量距离，将位于一类知识点的中心的标准问题作为新的质心，重新对所述知识点进行分类，重复上述步骤直至分类收敛。从而完成将所述知识点分为至少一个类别。

位于同一类别的知识点可以认为其是相似的，则所述知识点对应的标准问题也可以认为是存在一定的关联性。从而同一类别的知识点对应的标准问题可以为一种类别的知识点的多种提问方式。从而一个标准问题可以对应更多的回答方式，进一步扩展了知识库的互动能力。

进一步地，咨询者向所述知识库提出问题时，可以计算咨询者提出的问题与所述标准问题之间的相似度，确定咨询者提出的问题对应的知识点类别，在同一类别的知识点中，进一步确定关联性最高的目标知识点，并输出所述目标知识点。同时，也可以将咨询者提出的问题也加入所述知识点类别对应的问题中，进一步扩展所述知识库理解问题的能力。

参照图3，示出了本发明的一种文本查找方法实施例的步骤流程图，具体可以包括如下步骤：

步骤301，获取提问文本；

在本发明实施例中，在需要向所述知识库提问的情况下，可以向所述知识库输入提问文本，从而所述知识库可以获取提问文本。

在具体实现中，所述提问文本可以基于获取咨询者输入的文本，或者基于获取咨询者输入的语音和/或图像，并将所述语音和/或图像转换为文本得到。

步骤302，在所述知识库中查找与所述提问文本相似度最高的标准问题，确定为目标标准问题；其中，所述知识库通过获取目标用户与其他用户对话产生的对话语音；在所述对话语音中提取所述目标用户的目标语音，并将所述目标语音转换为目标文本；基于所述目标用户的所述目标文本，生成标准问题以及所述标准问题对应的标准答案；采用所述标准问题以及所述标准问题对应的标准答案生成知识库得到；

在本发明实施例中，所述知识库中可以包括至少一个标准问题，可以计算所述提问文本与所述标准问题之间的相似度，并将与所述提问文本相似度最高的标准问题确定为目标标准问题。

其中，所述知识库通过获取目标用户与其他用户对话产生的对话语音；在所述对话语音中提取所述目标用户的目标语音，并将所述目标语音转换为目标文本；基于所述目标用户的所述目标文本，生成标准问题以及所述标准问题对应的标准答案；采用所述标准问题以及所述标准问题对应的标准答案生成知识库得到。

步骤303，在所述知识库中，查找所述目标标准问题对应的标准答案，作为目标文本。

在本发明实施例中，在所述知识库中，所述目标标准问题可以具有对应的标准答案，可以将所述目标标准问题对应的标准答案作为目标文本，并输出所述目标文本，从而得到实现答复咨询者输入的问题。

本发明实施例的文本查找方法，通过在所述知识库中查找与所述提问文本相似度最高的标准问题，确定为目标标准问题，并在所述知识库中，查找所述目标标准问题对应的标准答案，作为目标文本。从而可以通过所述知识库，获取基于目标用户的知识体系以及个人认知得到的答案。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明的一种知识库的生成装置实施例的结构框图，具体可以包括如下模块：

获取模块401，用于获取目标用户与其他用户对话产生的对话语音；

转换模块402，用于在所述对话语音中提取所述目标用户的目标语音，并将所述目标语音转换为目标文本；

问题答案生成模块403，用于基于所述目标用户的所述目标文本，生成标准问题以及所述标准问题对应的标准答案；

知识库生成模块404，用于采用所述标准问题以及所述标准问题对应的标准答案，生成知识库。

在本发明一种实施例，所述转换模块402包括：

提取子模块，用于提取所述有效语音的语音声纹特征；

在本发明一种实施例，所述问题答案生成模块403包括：

在本发明一种实施例，所述装置还包括：

参照图5，示出了本发明的一种文本查找装置实施例的结构框图，具体可以包括如下模块：

提问模块501，用于获取提问文本；

第一查找模块502，用于在所述知识库中查找与所述提问文本相似度最高的标准问题，确定为目标标准问题；其中，所述知识库通过获取目标用户与其他用户对话产生的对话语音；在所述对话语音中提取所述目标用户的目标语音，并将所述目标语音转换为目标文本；基于所述目标用户的所述目标文本，生成标准问题以及所述标准问题对应的标准答案；采用所述标准问题以及所述标准问题对应的标准答案生成知识库得到；

第二查找模块503，用于在所述知识库中，查找所述目标标准问题对应的标准答案，作为目标文本。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种装置，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述装置执行本发明实施例所述的方法。

本发明实施例还提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行本发明实施例所述的方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种知识库的生成方法、一种文本查找方法、一种知识库的生成装置和一种文本查找装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种知识库的生成方法，其特征在于，包括：

获取目标用户与其他用户对话产生的对话语音；

2.根据权利要求1所述的方法，其特征在于，所述在所述对话语音中提取所述目标用户的目标语音，并将所述目标语音转换为目标文本的步骤，包括：

在所述对话语音中，确定至少一段有效语音；

提取所述有效语音的语音声纹特征；

基于语音识别，将所述目标语音转换为目标文本。

3.根据权利要求1所述的方法，其特征在于，所述基于所述目标用户的所述目标文本，生成标准问题以及所述标准问题对应的标准答案的步骤，包括：

在所述目标文本获取至少一个标准答案；

基于所述标准答案，生成所述标准答案对应的标准问题。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.一种文本查找方法，其特征在于，所述方法包括：

获取提问文本；

7.一种知识库的生成装置，其特征在于，包括：

知识库生成模块，用于采用所述标准问题以及所述标准问题对应的标准答案，生成知识库。

8.一种文本查找装置，其特征在于，所述装置包括：

提问模块，用于获取提问文本；

9.一种装置，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述装置执行如权利要求1-5或6所述的一个或多个的方法。

10.一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如权利要求1-5或6所述的一个或多个的方法。