CN110053055A

CN110053055A - 一种机器人及其回答问题的方法、存储介质

Info

Publication number: CN110053055A
Application number: CN201910161317.6A
Authority: CN
Inventors: 邓悦; 金戈; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-03-04
Filing date: 2019-03-04
Publication date: 2019-07-26

Abstract

本申请实施例公开了一种机器人及其回答问题的方法、存储介质，其中方法包括步骤：接收用户发送的问题，将所述问题转化格式文本；对所述格式文本进行分词，得到关键词词集；将所述关键词词集中的关键词输入到预先建立好的机器学习模型中，得到与所述关键词相匹配的答案；输出所述答案。上述机器人，通过将接收的问题进行分词，得到与问题相应的关键词，再在机器学习模型中对关键词进行机器学习，得到与所述关键词相匹配的答案。本发明实施例中机器人发送至用户的答案不仅是与问题相关的答案，而且是当前最有可能被用户问题的答案，这样大大提高了问题和答案匹配成功的概率，提升了回答问题的准确率。

Description

一种机器人及其回答问题的方法、存储介质

技术领域

本发明涉及语音交互技术领域，特别涉及一种机器人及其回答问题的方法、存储介质。

背景技术

机器人是目前非常热的一个人工智能研发与产品方向。其中最常见的一种是机器人为机器学习式机器人。机器学习式机器人指的事先存在一个对话库，聊天系统接收到用户输入句子后，通过在对话库中以搜索匹配的方式进行应答内容提取，很明显这种方式对对话库要求很高，需要对话库足够大，能够尽量多地匹配用户问句，否则会经常出现找不到合适回答内容的情形，因为在真实场景下用户说什么都是可能的，但是它的好处是回答质量高，因为对话库中的内容都是真实的对话数据，表达比较自然。

对于特定领域的机器学习式机器人，业内会采用文本分类的方法，即预先设定好回答，当机器人接收到问题时，输出预先设定好的回答。存在的缺陷是当机器人接收到的问题很长，问题对应了好几个预先设定的回答时，机器人的表现通常不会理想。

发明内容

本发明实施例提供了一种机器人及其回答问题的方法、存储介质。当机器人接收到的问题很长时，该机器人发送至用户的答案不仅是与问题相关的答案，而且是当前最有可能被用户问题的答案，这样可提高问题和答案匹配成功的概率，提升了回答问题的准确率。

第一方面，本申请提供了一种机器人回答问题的方法，该方法包括步骤：首先，机器人接收用户发送的问题，将所述问题转化格式文本；接着，机器人对所述格式文本进行分词，得到关键词词集；接着，机器人将所述关键词词集中的关键词输入到预先建立好的机器学习模型中，得到与所述关键词相匹配的答案；最后，机器人输出所述答案。

一种实施方式中，所述对所述格式文本进行分词，得到关键词词集，包括：对所述格式文本进行分词和去停用词，得到候选词词集；确定与所述候选词词集中的候选词相应的预设关键词；将所述预设关键词聚合构成关键词词集。

一种实施方式中，机器人依次按照句号、问号、感叹号、分号、逗号中的任意一个组合对所述格式文本进行切分，得到各个分词。

一种实施方式中，将所述关键词词集中的关键词输入到预先建立好的机器学习模型中，得到与所述关键词相匹配的答案，包括：按照关键词词集中的关键词的热度值排名名次，依次从所述关键词词集中取出关键词；将所述关键词词集中的关键词输入到预先建立好的机器学习模型中，得到与取出的关键词相匹配的答案。

一种实施方式中，所述确定与所述候选词词集中的候选词相应的预设关键词包括：使用N元语法模型N-Gram从文本库中构造出候选关键词集合，所述候选关键词集合包括：多个候选关键词；根据所述候选关键词的相邻字符在所述文本库中的出现概率计算所述候选关键词的信息熵，所述相邻字符包括：在所述文本库的上下文中与所述候选关键词的位置相邻的字符；将所述候选关键词的信息熵作为文本特征训练机器学习模型，将所述机器学习模型输出的候选关键词加入预设类别的关键词库中。

一种实施方式中，该方法还包括：根据所述候选关键词包括的所有字符分别在所述文本库中的出现概率计算所述候选关键词的互信息；通过如下方式计算所述候选关键词的互信息：

其中，所述MI(X₁,...,X_N)表示所述候选关键词的互信息，所述P(X₁,...,X_N) 表示候选关键词X₁,...,X_N内的字符X₁,...,X_N在所述文本库中的出现概率，所述 P(X₁)表示所述候选关键词X₁,...,X_N内的字符x1在所述文本库中的出现概率，所述P(X_N)表示所述候选关键词X₁,...,X_N内的字符X_N在所述文本库中的出现概率。

第二方面，本申请实施例提供了一种机器人，包括：

接收模块，用于接收用户发送的问题，将所述问题转化格式文本，并对所述格式文本进行分词，得到关键词词集；处理模块，用于将所述关键词词集中的关键词输入到预先建立好的机器学习模型中，得到与所述关键词相匹配的答案；输出模块，用于输出所述答案。

一种实施方式中，所述处理模块包括：分词单元，用于对所述格式文本进行分词和去停用词，得到候选词词集；处理单元，用于确定与所述候选词词集中的候选词相应的预设关键词；聚合单元，用于将所述预设关键词聚合构成关键词词集。

一种实施方式中，所述分词单元依次按照句号、问号、感叹号、分号、逗号中的任意一个组合对所述格式文本进行切分，得到各个分词。

一种实施方式中，所述处理单元按照关键词词集中的关键词的热度值排名名次，依次从所述关键词词集中取出关键词；将所述关键词词集中的关键词输入到预先建立好的机器学习模型中，得到与取出的关键词相匹配的答案。

一种实施方式中，所述处理单元确定与所述候选词词集中的候选词相应的预设关键词包括：使用N元语法模型N-Gram从文本库中构造出候选关键词集合，所述候选关键词集合包括：多个候选关键词；根据所述候选关键词的相邻字符在所述文本库中的出现概率计算所述候选关键词的信息熵，所述相邻字符包括：在所述文本库的上下文中与所述候选关键词的位置相邻的字符；将所述候选关键词的信息熵作为文本特征训练机器学习模型，将所述机器学习模型输出的候选关键词加入预设类别的关键词库中。

一种实施方式中，所述处理单元还用于：根据所述候选关键词包括的所有字符分别在所述文本库中的出现概率计算所述候选关键词的互信息；通过如下方式计算所述候选关键词的互信息：

其中，所述MI(X₁,...,X_N)表示所述候选关键词的互信息，所述P(X₁,...,X_N) 表示候选关键词X₁,...,X_N内的字符X₁,...,X_N在所述文本库中的出现概率，所述 P(X₁)表示所述候选关键词X₁,...,X_N内的字符X₁在所述文本库中的出现概率，所述P(X_N)表示所述候选关键词X₁,...,X_N内的字符X_N在所述文本库中的出现概率。

第三方面，本发明实施例还公开了一种机器人，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现前述第一方面任一项所述方法的步骤。

第四方面，本发明实施例还公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述第一方面任一项所述的方法的步骤。

本发明的实施例提供的技术方案可以包括以下有益效果：

上述机器人，机器人接收用户的问题，通过将所述问题转化格式文本，然后再对对所述格式文本进行分词，得到关键词词集，再在机器学习模型中对关键词进行机器学习，得到与所述关键词相匹配的答案，这样使得机器学习得到的答案都是与问题相关的问题。即使机器人收到的问题很长，通过分词得到关键词词集并进行机器学习，使得机器人发送至用户的答案不仅是与问题相关的答案，而且是当前最有可能被用户问题的答案。这样大大提高了问题和答案匹配成功的概率，提升了回答问题的准确率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种机器人回答问题的方法的场景示意图；

图2是根据一示例性实施例示出的一种机器人回答问题的方法流程图；

图3是根据一示例性实施例示出的另一种机器人回答问题的方法流程图；

图4是根据一示例性实施例示出的一种机器人的电子装置的示例框图；

图5是根据一示例性实施例示出的另一种机器人的电子装置的示例框图；

图6是根据一示例性实施例示出的另一种机器人的电子装置的示例框图；

图7是根据一示例性实施例示出的一种用于实现上述机器人回答问题的方法的计算机可读存储介质。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。附图所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

图1是根据一示例性实施例示出的一种机器人回答的方法的应用场景示意图。该方法可以应用于各种机器人，例如在线机器人、扫地机器人、儿童教育机器人、聊天机器人等等。机器人内置机器学习功能，通过不断的机器学习，构建有完善的问题和答案数据库。该机器人接收用户发送的问题，将所述问题转化格式文本，对所述格式文本进行分词，得到关键词词集，再在机器学习模型中对关键词进行机器学习，得到与所述关键词相匹配的答案。这样使得机器学习得到的答案都是与问题相关的问题。机器人发送至用户的答案不仅是与问题相关的答案，而且是当前最有可能被用户问题的答案。这样大大提高了问题和答案匹配成功的概率，提升了回答问题的准确率。

如图2所示，图1为本申请实施例提供的一种机器人回答问题的方法的流程图，包括以下步骤101～103：

步骤101：接收用户的问题，将所述问题转化格式文本。

在一个实施例中，当用户以语音形式输入问题时，机器人录制语音数据，机器人可通过已训练好的机器学习模型对接收的语音数据进行语音识别，得到与输入的语音数据相对应的文字内容。

关于语音识别，本实施例中通过如下步骤实现：

获取待识别的语音数据，提取所述语音数据中的Filter Bank(滤波器组)特征和MFCC(Mel frequency cepstrum coefficient，梅尔倒谱系数)特征，在本实施例中，Filter Bank特征和MFCC特征都是语音识别中用来表示语音特征的参数。其中，FilterBank用于深度学习模型，MFCC用于混合高斯模型。在提取语音数据中的FilterBank特征和MFCC特征之前，一般需要对语音数据进行预处理。具体地，首先对输入的语音数据进行预加重处理，通过使用一个高通滤波器提升语音信号中的高频部分，使得频谱更平滑，然后将经过预加重处理的语音数据进行分帧加窗，从而将非平稳的语音信号转变为短时平稳的信号，接着通过端点检测，区分语音与噪声，并提取出有效的语音部分。为了提取语音数据中的Filter Bank特征和MFCC特征，首先，将经过预处理的语音数据进行快速傅里叶变换，从而将时域的语音信号转换为频域的能量谱进行分析，然后将能量谱通过一组梅尔尺度的三角滤波器组，突出语音的共振峰特征，之后计算每个滤波器组输出的对数能量，该滤波器组输出的特征就是Filter Bank特征。进一步的，将计算得到的对数能量经离散余弦变换得到MFCC系数，即 MFCC特征。再将所述MFCC特征作为训练后的GMM-HMM模型的输入数据，获取所述训练后的GMM-HMM模型输出的第一似然概率矩阵。在本实施例中，声学模型和语言模型共同实现对语音的识别。其中，声学模型的作用是用于识别语音帧与音素状态的对齐关系。GMM-HMM模型属于声学模型的一部分，用于将语音帧与音素状态进行初步对齐。具体地，将提取的待识别的语音数据的MFCC特征作为训练后的GMM-HMM模型的输入数据，然后获取该模型输出的似然概率矩阵，为了便于和后续进行区分，这里称为“第一似然概率矩阵”。似然概率矩阵表示的是语音帧与音素状态上的对齐关系，即根据计算得到的似然概率矩阵就可以得到语音帧与音素状态上的对齐关系，只不过，通过 GMM-HMM训练得到的对齐关系并不十分准确，所以这里通过第一似然概率矩阵相当于对语音帧和音素状态进行了初步对齐。

进一步地，将所述Filter Bank特征作为训练后的LSTM模型的输入特征，获取所述LSTM模型输出的后验概率矩阵，以及获取待识别语音数据中每一帧语音数据对应的Filter Bank特征并按照时间排序；以及，将每一帧语音数据以及该帧的前后预设帧数的Filter Bank特征作为所述训练后的具有连接单元的 LSTM模型的输入特征，通过所述连接单元控制层与层之间的信息流动，获取输出的每一帧语音数据对应的音素状态上的后验概率；再根据所述每一帧语音数据对应的后验概率确定所述待识别语音数据对应的后验概率矩阵；以及，将所述后验概率矩阵和所述第一似然概率矩阵作为训练后的HMM模型的输入数据，获取输出的第二似然概率矩阵；以及，根据所述第二似然概率矩阵在音素解码网络中获取与所述待识别的语音数据对应的目标词序列。

在一个实施例中，当用户以文本形式输入问题时，机器人直接提取文字内容。

步骤102：对所述格式文本进行分词，得到关键词词集。

其中，分词是将以句子或自然段落等形式呈现的文本划分成一个一个的词的过程。一种实施例中，依次按照句号(。)、问号(？)、感叹号(！)、分号 (；)、逗号(，)中的任意一个组合对所述格式文本进行分词，得到各个分词 w1、w2、……wn-1、wn，以中文分词为例。中文分词(Chinese Word Segmentation)指的是将一个格式文本依次按照句号(。)、问号(？)、感叹号 (！)、分号(；)、逗号(，)中的任意一个组合切分成一个一个单独的词。

在一个实施例中，机器人对问题进行分词后，再去停用词后，得到与用户输入的问题相对应的关键词。其中，停用词(Stop Words)是指在信息机器学习中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉的某些字或词，比如一些应用十分广泛的词、语气助词、客套词、介词或连接词等。

具体地，机器人可以提前建立停用词词库进行匹配，将已经停用的词去掉，去停用词还可以包括去掉客套词(如请问、请问一下等)、语气助词(如的、吗、呢、啊等)等对问题问题意义关系不大但出现频率较高的词。举例说明，当机器人获取客户输入的文字内容为“请问信用卡的办理时间是什么时候呢？”，机器人对获取的问题的文字内容进行分词，得到“请问信用卡的办理时间是什么时候呢”的候选词词集，再去掉停用词后，得到“信用卡”、“办理”、“时间”、“时候”的关键词组成的关键词词集。

具体地，机器人可预先设置多个预设关键词，以及每个预设关键词的同义词。机器人对问题进行分词和去停用词，得到候选词词集，将候选词词集中的候选词与多个预设关键词，以及预设关键词的同义词进行比对，当候选词为预设关键词或该预设关键词的同义词时，将该预设关键词作为与候选词相应的预设关键词。

举例说明，用户发送的问题为“请问信用卡的办理时间是什么时候呢？”，机器人经过分词、去停用词处理后得到“信用卡办理时间时候”的候选词词集。假如预设关键词包括“信用卡”、“办理”和“时间”，则将候选词词集中的候选词与多个预设关键词，以及预设关键词的同义词进行比对后，可确定与候选词“信用卡”相对应的预设关键词为“信用卡”；与候选词“办理”相对应的预设关键词为“办理”；与候选词“时间”相对应的预设关键词为“时间”；与候选词“时候”相对应的预设关键词为“时间”。

具体地，机器人可将确定的与候选词词集中的候选词相应的预设关键词聚合，构成关键词词集。该关键词词集与问题相对应。比如，机器人将预设关键词“信用卡”、“办理”和“时间”聚合构成“信用卡办理时间”关键词词集。

一种实施方式中，确定与所述候选词词集中的候选词相应的预设关键词包括：使用N元语法模型N-Gram从文本库中构造出候选关键词集合，所述候选关键词集合包括：多个候选关键词；根据所述候选关键词的相邻字符在所述文本库中的出现概率计算所述候选关键词的信息熵，所述相邻字符包括：在所述文本库的上下文中与所述候选关键词的位置相邻的字符；将所述候选关键词的信息熵作为文本特征训练机器学习模型，将所述机器学习模型输出的候选关键词加入预设类别的关键词库中。例如根据实际场景采用2-Gram(即bigram)、3- Gram(即trigram)、4-Gram构造新的候选关键词集合。需要说明的是，在bigram语法模型下，一个词的出现仅依赖于它前面出现的一个词，从而可以使用bigram语法模型筛选出候选关键词，在trigram语法模型下，一个词的出现仅依赖于它前面出现的两个词，从而可以使用trigram语法模型筛选出候选关键词。在实践中用的最多的就是bigram和trigram了，可以取得很好的分词效果。但是对于高于四元的语法模型，本发明实施例中同样适用，只需要文本语料库有需要更庞大的语料即可，从而取得更好的分词精度。

进一步地，一种实施方式中，根据所述候选关键词包括的所有字符分别在所述文本库中的出现概率计算所述候选关键词的互信息。通过如下方式计算所述候选关键词的互信息：

其中，所述MI(X₁,...,X_N)表示所述候选关键词的互信息，所述P(X₁,...,X_N) 表示候选关键词X₁,...,X_N内的字符X₁,...,X_N在所述文本库中的出现概率，其中 P(X₁)表示所述候选关键词X₁,...,X_N内的字符X₁在所述文本库中的出现概率，所述P(X_N)表示所述候选关键词X₁,...,X_N内的字符X_N在所述文本库中的出现概率。

在机器学习中，可以使用互信息这个指标来衡量候选关键词内部之间的相关性，从而衡量出候选关键词内部的聚合程度，其中，N的取值由所使用的N 元语法模型筛选出的候选关键词包括的字符个数来决定。

上述实施例中，通过将问题进行分词和去停用词，得到候选词词集，再对候选词词集中的候选词进行关联查询，确定与候选词相应的关键词，这样可以避免关键词的重复出现，提高了对关键词进行机器学习的效率。

步骤103：将所述关键词词集中的关键词输入到预先建立好的机器学习模型中，得到与所述关键词相匹配的答案。

步骤104：输出所述答案。

其中，机器学习模型是预先建立的用来存储预设问题和/或备选答案的库。具体地，机器人将所述关键词词集中的关键词输入到预先建立好的机器学习模型中，得到与关键词相匹配的预设问题。其中，相匹配可以是该预设问题中出现了关键词，也可以是该预设问题与关键词相关等。

在一个实施例中，机器人可对关键词词集中的所有关键词同时进行机器学习，在机器学习模型中学习到预设问题中存在任一关键词或与任一关键词相关时，将学习到的预设问题作为与关键词相匹配的预设问题。

在一个实施例中，机器人可每次从关键词词集中取出一个关键词，只将取出的关键词输入到机器学习模型，得到与关键词相匹配的预设问题。具体地，机器人可随机从关键词词集中取出一个关键词；也可以按关键词在关键词集中的排列顺序，依次从关键词集中取出一个关键词；机器人还可以根据关键词的热度值排名名次，依次从关键词词集中取出关键词。

在一个实施例中，机器人还获取与预设问题相应的热度值。其中，热度值是表示搜索热度的数值，热度值越高，表示被选中的频次或可能性就越大。具体地，机器人可记录每次用户返回的针对发送至用户的预设问题的选中反馈信息，根据一段时间内的预设问题被问题的历史次数，设置预设问题的热度值。机器学习模型找到与关键词相匹配的预设问题后，可直接确定该预设问题的热度值。

具体的，按照关键词词集中的关键词的热度值排名名次，依次从关键词词集中取出关键词，并依次对取出的关键词进行机器学习，可得到与问题相应的答案。

具体地，机器人可通过获取关键词相应的热度值，再将关键词按相应的热度值降序排名，得到关键词的热度值排名名次。机器人可按照关键词词集中的关键词的热度值排名名次，依次从关键词词集中取出一个关键词。在机器学习模型中对当前取出的关键词进行机器学习，得到与取出的关键词相匹配的答案。

在一个实施例中，机器人从关键词词集中取出第一关键词，在机器学习模型中对第一关键词进行机器学习，得到与第一关键词相匹配的答案，机器人将热度值满足预设条件即超过第二阈值的答案发送至用户。机器人再从关键词词集中取出第二关键词，对第二关键词进行机器学习，得到与第二关键词相匹配的答案。当用户给机器人返回前次展示的问题未选中反馈信息时，机器人将第二关键词所对应的，且热度值满足预设条件的答案发送至用户。以此循环，直到机器人接收到用户反馈的针对发送的答案的选中反馈信息时结束。

其中，对于排名名次非首位的关键词，输入到预先建立好的机器学习模型中，得到与取出的关键词相匹配的答案的步骤，在将与前次取出的关键词相对应的，且热度值满足预设条件的答案发送至用户的步骤之后执行；所述方法还包括：当接收到用户返回的针对发送至所述用户的答案的选中反馈信息时，停止所述按照关键词词集中的关键词的热度值排名名次，依次从所述关键词词集中取出关键词的步骤。

在一个实施例中，当机器人接收到用户返回的针对发送至用户的答案的选中反馈信息时，停止按照关键词词集中的关键词的热度值排名名次，依次从关键词词集中取出关键词的步骤。当机器人接收到用户返回的未选中反馈信息时，则按照关键词词集中的关键词的热度值排名名次，依次从关键词词集中取出关键词。

举例说明，当机器人获取到的关键词词集为“信用卡办理时间”。其中， “信用卡”的热度值大于“时间”的热度值，大于“办理”的热度值。则关键词的热度值排名名次为：第一名：信用卡；第二名：时间；第三名：办理。机器人首先从上述关键词词集中取出“信用卡”，并对“信用卡”进行机器学习，得到与“信用卡”匹配的答案，再按照答案的热度值排名名次，将排名名次小于或等于预设值的答案发送至用户。当机器人接收到用户反馈的选中反馈信息时，则完成了本次问题匹配的过程。当机器人接收到用户反馈的的未选中反馈信息时，则从关键词词集中取出“时间”关键词，并对“时间”进行机器学习，得到与“时间”匹配的答案，以此类推，直到机器人接收到用户反馈的选中反馈信息为止。

在一个实施例中，如图3所示，该方法还包括步骤：

201：按第一权值调整关键词词集中的所有关键词的热度值。

202：确定与选中的预设问题相对应的、且属于关键词词集的关键词。

203：按第二权值调整确定的关键词的热度值。

具体地，机器人对格式文本进行分词，得到关键词词集后，可按第一权值调整关键词词集中的所有关键词的热度值，比如按第一权值增加所有关键词的热度值。机器人接收用户返回的针对发送至用户的预设问题的选中反馈信息后，可反向确定与选中的预设问题相对应的、且属于关键词词集的关键词，并按第二权值调整确定的关键词的热度值，比如按第二权值增加确定的关键词的热度值。在一个实施例中，第二权值大于第一权值。

上述实施例中，按照第一权值调整关键词词集中的关键词的热度值，按照第二权值调整与选中的预设问题相对应的、且属于关键词词集的关键词的热度值，可根据关键词实际被采纳的情况，依相应的权值调整关键词的热度值，使得关键词的热度值与关键词被采纳的概率呈正相关。

在一个实施例中，该方法还包括：按第三权值调整与匹配的预设问题相应的热度值，按第四权值调整与选中的预设问题相应的热度值。

具体地，机器人在机器学习模型中对关键词词集中的关键词进行机器学习，得到与所述关键词相匹配的预设问题后，可按第三权值调整与匹配的预设问题相应的热度值，比如按第三权值增加匹配的预设问题的热度值。在接收用户返回的针对发送至用户的预设问题的选中反馈信息后，由于选中的预设问题是最贴近客户的机器学习意愿的，机器人可按第四权值调整与选中的预设问题相应的热度值，比如按第四权值增加选中的预设问题相应的热度值。在一个实施例中，第四权值大于第三权值。

上述实施例中，通过第三权值调整与匹配的预设问题相应的热度值，可增加匹配的预设问题后续被推荐的可能性。通过第四权值调整与选中的预设问题相应的热度值，由于选中的预设问题是最贴近客户的机器学习意愿的，这样可增加选中的预设问题后续被机器学习推荐的可能性。这样可提高问题匹配成功的概率，使得机器人回到问题的准确度得以提升。

上述机器人，通过将接收的问题进行分词，得到与问题相应的关键词，再在机器学习模型中对关键词进行机器学习，得到与所述关键词相匹配的答案。这样使得机器学习得到的答案都是与问题相关的问题。再从匹配成功的答案中筛选出热度值满足预设条件的答案发送至用户，由于满足预设条件的热度值所对应的答案是当前被搜索的频次和可能性都很高的答案，因此使得发送至用户的答案不仅是与问题相关的答案，而且是当前最有可能被用户问题的答案。这样大大提高了问题和答案匹配成功的概率，使得回答准确率得以提升。

应该理解的是，虽然图2和图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和图3中的至少一部分骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与步骤可以包括多个子步骤或者多个阶段，这些其它子步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图4所示，本发明实施例还公开了一种机器人，该机器人包括：

接收模块301，用于接收用户发送的问题，将所述问题转化格式文本。

分词模块302，用于并对所述格式文本进行分词，得到关键词词集。

处理模块303，用于将所述关键词词集中的关键词输入到预先建立好的机器学习模型中，得到与所述关键词相匹配的答案。

输出模块304，用于输出所述答案。

下面详细地介绍上述各个模块。

一个实施例中，当用户以语音形式输入问题时，接收模块201录制语音数据，接收模块301可通过已训练好的机器学习模型对接收的语音数据进行语音识别，得到与输入的语音数据相对应的文字内容。关于语音识别，目前已有成熟的技术，在这里不再赘述。

一个实施例中，当用户以文本形式输入问题时，接收模块201直接提取文字内容。

一种实施例中，所述分词模块302依次按照句号(。)、问号(？)、感叹号(！)、分号(；)、逗号(，)中的任意一个组合对所述格式文本进行切分，得到各个分词。

如图5所示，其中，处理模块303还包括：

去词单元3031，用于对所述格式文本进行分词和去停用词，得到候选词词集。

处理单元3032，用于确定与所述候选词词集中的候选词相应的预设关键词。

聚合单元3033，用于将所述预设关键词聚合构成关键词词集。

对于分词模块302来说，其中，分词是将以句子或自然段落等形式呈现的格式文本划分成一个一个的词的过程。一种实施例中，依次按照句号(。)、问号(？)、感叹号(！)、分号(；)、逗号(，)中的任意一个组合进行切分，得到各个分词。以中文分词为例。中文分词(Chinese Word Segmentation)指的是将一个汉字序列依次按照句号(。)、问号(？)、感叹号(！)、分号(；)、逗号 (，)中的任意一个组合切分成一个一个单独的词。

具体地，聚合单元3033可将确定的与候选词词集中的候选词相应的预设关键词聚合，构成关键词词集。该关键词词集与问题相对应。比如，机器人将预设关键词“信用卡”、“办理”和“时间”聚合构成“信用卡办理时间”关键词词集。

关于确定与所述候选词词集中的候选词相应的预设关键词的具体实现方式可以参考前述实施例的举例说明，在此不再赘述。

其中，处理单元3032还按照关键词词集中的关键词的热度值排名名次，依次从所述关键词词集中取出关键词；将所述关键词词集中的关键词输入到预先建立好的机器学习模型中，得到与取出的关键词相匹配的答案；当接收到用户返回的针对发送至所述用户的答案的选中反馈信息时，停止所述按照关键词词集中的关键词的热度值排名名次，依次从所述关键词词集中取出关键词。其中，热度值是表示搜索热度的数值，热度值越高，表示被选中的频次或可能性就越大。具体地，机器人可记录每次用户返回的针对发送至用户的预设问题的选中反馈信息，根据一段时间内的预设问题被问题的历史次数，设置预设问题的热度值。机器学习模型找到与关键词相匹配的预设问题后，可直接确定该预设问题的热度值。

在一个实施例中，机器人从关键词词集中取出第一关键词，在机器学习模型中对第一关键词进行机器学习，得到与第一关键词相匹配的答案，机器人将热度值满足预设条件即超过第二阈值的答案发送至用户。机器人再从关键词词集中取出第二关键词，对第二关键词进行机器学习，得到与第二关键词相匹配的答案，当用户给机器人返回前次展示的问题未选中反馈信息时，机器人将第二关键词所对应的，且热度值满足预设条件的答案发送至用户。以此循环，直到机器人接收到用户反馈的针对发送的答案的选中反馈信息时结束。

在一个实施例中，当机器人接收到用户返回的针对发送至用户的答案的选中反馈信息时，停止按照关键词词集中的关键词的热度值排名名次，依次从关键词词集中取出关键词的步骤。当机器人接收到用户返回的未选中反馈信息时，则执行按照关键词词集中的关键词的热度值排名名次，依次从关键词词集中取出关键词的步骤。

在一个实施例中，按第一权值调整关键词词集中的所有关键词的热度值；确定与选中的预设问题相对应的、且属于关键词词集的关键词；按第二权值调整确定的关键词的热度值。

具体地，机器人在机器学习模型中对关键词词集中的关键词进行机器学习，得到与所述关键词相匹配的预设问题后，可按第三权值调整与匹配的预设问题相应的热度值，比如按第三权值增加匹配的预设问题的热度值。在接收用户返回的针对发送至用户的预设问题的选中反馈信息后，由于选中的预设问题是最贴近用户的机器学习意愿的，机器人可按第四权值调整与选中的预设问题相应的热度值，比如按第四权值增加选中的预设问题相应的热度值。在一个实施例中，第四权值大于第三权值。

上述实施例中，通过第三权值调整与匹配的预设问题相应的热度值，可增加匹配的预设问题后续被推荐的可能性。通过第四权值调整与选中的预设问题相应的热度值，由于选中的预设问题是最贴近用户的机器学习意愿的，这样可增加选中的预设问题后续被机器学习推荐的可能性。这样可提高问题匹配成功的概率，使得机器人回答问题的准确度得以提升。

关于装置的具体限定可以参见上文中对于问题匹配方法的限定，在此不再赘述。上述问题匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

下面参照图5来描述根据本发明的这种实施方式的电子设备400。图5显示的电子设备400仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，电子设备400以通用计算设备的形式表现。电子设备400的组件可以包括但不限于：上述至少一个处理单元410、上述至少一个存储单元 420、连接不同系统组件(包括存储单元420和处理单元410)的总线430。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元 410执行，使得所述处理单元410执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元410可以执行如图1或图3中所示的方法步骤。

存储单元420可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(Random Access Memory，RAM)4201和/或高速缓存存储单元4202，还可以进一步包括只读存储单元(Read-Only Memory,ROM)4203。

存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204，这样的程序模块4205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线430可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备400也可以与一个或多个外部设备500(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备400交互的设备通信，和/或与使得该电子设备400能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口450进行。并且，电子设备400还可以通过网络适配器460与一个或者多个网络(例如局域网(Local Area Network,LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器460通过总线630与电子设备400的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图7所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品600，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RandomAccess Memory， RAM)、只读存储器(Read-Only Memory,ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、 C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LocalArea Network，LAN)或广域网(Wide Area Network，WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种机器人回答问题的方法，其特征在于，包括：

接收用户发送的问题，将所述问题转化格式文本；

对所述格式文本进行分词，得到关键词词集；

将所述关键词词集中的关键词输入到预先建立好的机器学习模型中，得到与所述关键词相匹配的答案；

输出所述答案。

2.根据权利要求1所述的方法，其特征在于，所述对所述格式文本进行分词，得到关键词词集，包括：

对所述格式文本进行分词和去停用词，得到候选词词集；

确定与所述候选词词集中的候选词相应的预设关键词；

将所述预设关键词聚合构成所述关键词词集。

3.根据权利要求1或2所述的方法，其特征在于，所述对所述格式文本进行分词包括：依次按照句号、问号、感叹号、分号、逗号中的任意一个组合对所述格式文本进行切分，得到各个分词。

4.根据权利要求1所述的方法，其特征在于，将所述关键词词集中的关键词输入到预先建立好的机器学习模型中，得到与所述关键词相匹配的答案，包括：

按照关键词词集中的关键词的热度值排名名次，依次从所述关键词词集中取出关键词；

将所述关键词词集中的关键词输入到预先建立好的机器学习模型中，得到与取出的关键词相匹配的答案；其中，对于排名名次非首位的关键词，输入到预先建立好的机器学习模型中，得到与取出的关键词相匹配的答案。

5.根据权利要求2所述的方法，其特征在于，所述确定与所述候选词词集中的候选词相应的预设关键词包括：

使用N元语法模型N-Gram从文本库中构造出候选关键词集合，所述候选关键词集合包括：多个候选关键词；

根据所述候选关键词的相邻字符在所述文本库中的出现概率计算所述候选关键词的信息熵，所述相邻字符包括：在所述文本库的上下文中与所述候选关键词的位置相邻的字符；

将所述候选关键词的信息熵作为文本特征训练机器学习模型，将所述机器学习模型输出的候选关键词加入预设类别的关键词库中。

6.根据权利要求5所述的方法，其特征在于，还包括：根据所述候选关键词包括的所有字符分别在所述文本库中的出现概率计算所述候选关键词的互信息；通过如下方式计算所述候选关键词的互信息：

其中，所述MI(X₁,...,X_N)表示所述候选关键词的互信息，所述P(X₁,...,X_N)表示候选关键词X₁,...,X_N内的字符X₁,...,X_N在所述文本库中的出现概率，所述P(X₁)表示所述候选关键词X₁,...,X_N内的字符X₁在所述文本库中的出现概率，所述P(X_N)表示所述候选关键词X₁,...,X_N内的字符X_N在所述文本库中的出现概率。

7.一种机器人，其特征在于，包括：

接收模块，用于接收用户发送的问题，将所述问题转化格式文本，并对所述格式文本进行分词，得到关键词词集；

处理模块，用于将所述关键词词集中的关键词输入到预先建立好的机器学习模型中，得到与所述关键词相匹配的答案；

输出模块，用于输出所述答案。

8.根据权利要求7所述的机器人，其特征在于，所述处理模块包括：

分词单元，用于对所述格式文本进行分词和去停用词，得到候选词词集；

处理单元，用于确定与所述候选词词集中的候选词相应的预设关键词；

聚合单元，用于将所述预设关键词聚合构成关键词词集。

9.一种机器人，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述的方法的步骤。