CN111143565A

CN111143565A - 一种k-means自学习系统

Info

Publication number: CN111143565A
Application number: CN201911385789.6A
Authority: CN
Inventors: 王�琦
Original assignee: Hangzhou Resthour Technology Co ltd
Current assignee: Hangzhou Resthour Technology Co ltd
Priority date: 2019-12-29
Filing date: 2019-12-29
Publication date: 2020-05-12

Abstract

本发明涉及一种k‑means自学习系统，包括如下步骤：S1：记录语音质料，将语音识别的内容用json的形式储存下来，并且按照要求标注一些标签；S2：对数据进行清洗，把每个中文句子进行一次清洗，去掉噪音；S3：把规定格式的语料放入kmeans的模型，进行迭代训练；S4：根据Calinski‑Harabasz分数来确定k值；S5：根据每个簇的质心，获得最靠近质心的句子；S6：将句子保存为csv模式的文档输出发送到运维人员的邮箱；S7：运维人员按照要求填写答案之后上传；S8：把规定格式的新内容通过训练添加到机器人的知识库。该发明中通过kmeans的模型，进行迭代训练另外根据Calinski‑Harabasz分数来确定k值，能够快速找到一堆中文文本中的最核心内容并提取输出，提高工作效率。

Description

一种k-means自学习系统

技术领域

本发明涉及人工智能技术领域，具体为一种k-means自学习系统。

背景技术

人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学，而自学习系统也是人工智能的一部分。

现有的自学习系统在使用时不能快速的找出最核心内容并提取输出，也不能为交互机器人快速增加知识库，鉴于现有的自学习系统中的缺陷，有必要将其进行改进，来完善此项装置，为工作人员提供更大的便利。

发明内容

本发明的目的在于提供一种k-means自学习系统，以解决上述背景技术提出的唤醒词是众多语音公司提供的交互流程入口，通过开发者提供的唤醒词，语音公司对唤醒词的声学特征打包编译，预置到开发者的系统中，但这种方式开发的设备并不能称之为智能，相对而言太过于机械化，并且对于一个刚入门的用户，如果不知道唤醒词，则整个交互都无从谈起，极大的限制用户体验的问题。

为实现上述目的，本发明提供如下技术方案：一种k-means自学习系统，包括如下步骤：

S1：记录语音质料，将语音识别的内容用json的形式储存下来，并且按照要求标注一些标签；

S2：对数据进行清洗，把每个中文句子进行一次清洗，去掉噪音；

S3：把规定格式的语料放入kmeans的模型，进行迭代训练；

S4：根据Calinski-Harabasz分数来确定k值；

S5：根据每个簇的质心，获得最靠近质心的句子；

S6：将句子保存为csv模式的文档输出发送到运维人员的邮箱；

S7：运维人员按照要求填写答案之后上传；

S8：把规定格式的新内容通过训练添加到机器人的知识库。

优选的，所述S1中，用python里面的panda包，读取json文件并且得到需要的生数据。

优选的，所述S3中把语料进行分词，根据词频，得到相应的字典，把语料全部变成词向量和句子和句向量的对应表。

与现有技术相比，本发明的有益效果是：该k-means自学习系统：

通过kmeans的模型，进行迭代训练另外根据Calinski-Harabasz分数来确定k值，能够快速找到一堆中文文本中的最核心内容并提取输出，帮助交互机器人快速增加知识库，快速的减少人工的工作量，提高工作效率，可以快速细化生数据并且为数据再利用做前期工作。

附图说明

图1为本发明的流程示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：一种k-means自学习系统， S1：记录语音质料，将语音识别的内容用json的形式储存下来，并且按照要求标注一些标签；

S3：把规定格式的语料放入kmeans的模型，进行迭代训练；

S4：根据Calinski-Harabasz分数来确定k值；

S5：根据每个簇的质心，获得最靠近质心的句子；

S7：运维人员按照要求填写答案之后上传；

S8：把规定格式的新内容通过训练添加到机器人的知识库。

进一步的，所述S1中，用python里面的panda包，读取json文件并且得到需要的生数据。

进一步的，所述S3中把语料进行分词，根据词频，得到相应的字典，把语料全部变成词向量和句子和句向量的对应表。

具体的，把数据根据talker的不同，获得有用的信息，如：robot1，robot2，robot3，分别代表用不同的模块来回答，根据需求不同，我们将获得不一样的数据，这次我们选择的是robot1，代表是机器人没有回答的问题，一共9000 个句子和问题；收集全是robot1回答的数据集，开始清洗，映射，拆分句子，形成词组组成的句子。然后把句子变成对应的token数字，且固定句子的长度，统一格式。获取unknown单词和pad的token。对句子进行token转换，对于未在词典中出现过的词用unk的token填充。接着构建句子token，使用知乎预先训练的词向量(300维)，作为大字典。通过之前的映射，构建自己的词向量矩阵。因为设定每个句子最大的长度为20个词，构成数据集-句向量矩阵(20*300),通过句向量求和来合成句向量，输出句向量numpy格式。数据集成为9000*300的格式，把输入的数据集形成句向量和句子的映射表，形成了map的格式，9000个句子和9000*300的映射表，一一对应，后期还原句子的时候有用,Input_map，把9000*300的矩阵一个个扔入k-means中聚类。形成9000个300维的点，然后随机选k个点，第一个点是随机，其他都是相互的最远点。(比如随机选了第一个点，然后第二个点是剩下的8999个点中选择的最远点，剩下的点以此类推)，形成k个初始质心，然后9000个点根据离每个质心的距离，选择最近的，被分为k个簇。然后这些这个簇的点再找到这个簇里的质心。然后所有的点再跑一遍，算出离每个点的距离， 9000个点再次被归为k个簇。直到最后两次的质心都完全相同为止；每个k 都有一个值，然后统计他们的Calinski--Harabasz分数，这个分数越好，证明聚类的效果越好。因此每个k值都会根据输入的句子数量有上限和跨度的调整。9000个句子的上限是900，就是k值不大于900，然后从5开始，每5 个一跳。得到这中间分数最高值对应的k值，为这次分类的k值；根据k值，获得最终的质心，然后用cos相似函数，算每个簇中离质心最接近的点。这就是这个簇中，意思最重要的点，输出这个点的向量。K个 [0.2,-0.3,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,]类似的300维向量；这些向量形成的数组output_embeding,根据Input_map对应输出中文句子，并储存为 csv的模式再输出，answer.csv，然后这个文件会发送到运维人员的邮箱；运维人员填写好答案之后，按照路径上传到网上，后台的程序会自动的把内容填充到知识库中。

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种k-means自学习系统，其特征在于：包括如下步骤：

S3：把规定格式的语料放入kmeans的模型，进行迭代训练；

S4：根据Calinski-Harabasz分数来确定k值；

S5：根据每个簇的质心，获得最靠近质心的句子；

S7：运维人员按照要求填写答案之后上传；

S8：把规定格式的新内容通过训练添加到机器人的知识库。

2.根据权利要求1所述的一种k-means自学习系统，其特征在于：所述S1中，用python里面的panda包，读取json文件并且得到需要的生数据。

3.根据权利要求1所述的一种k-means自学习系统，其特征在于：所述S3中把语料进行分词，根据词频，得到相应的字典，把语料全部变成词向量和句子和句向量的对应表。