CN111143565A - 一种k-means自学习系统 - Google Patents

一种k-means自学习系统 Download PDF

Info

Publication number
CN111143565A
CN111143565A CN201911385789.6A CN201911385789A CN111143565A CN 111143565 A CN111143565 A CN 111143565A CN 201911385789 A CN201911385789 A CN 201911385789A CN 111143565 A CN111143565 A CN 111143565A
Authority
CN
China
Prior art keywords
sentence
learning system
answers
corpus
requirements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911385789.6A
Other languages
English (en)
Inventor
王�琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Resthour Technology Co ltd
Original Assignee
Hangzhou Resthour Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Resthour Technology Co ltd filed Critical Hangzhou Resthour Technology Co ltd
Priority to CN201911385789.6A priority Critical patent/CN111143565A/zh
Publication of CN111143565A publication Critical patent/CN111143565A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明涉及一种k‑means自学习系统,包括如下步骤:S1:记录语音质料,将语音识别的内容用json的形式储存下来,并且按照要求标注一些标签;S2:对数据进行清洗,把每个中文句子进行一次清洗,去掉噪音;S3:把规定格式的语料放入kmeans的模型,进行迭代训练;S4:根据Calinski‑Harabasz分数来确定k值;S5:根据每个簇的质心,获得最靠近质心的句子;S6:将句子保存为csv模式的文档输出发送到运维人员的邮箱;S7:运维人员按照要求填写答案之后上传;S8:把规定格式的新内容通过训练添加到机器人的知识库。该发明中通过kmeans的模型,进行迭代训练另外根据Calinski‑Harabasz分数来确定k值,能够快速找到一堆中文文本中的最核心内容并提取输出,提高工作效率。

Description

一种k-means自学习系统
技术领域
本发明涉及人工智能技术领域,具体为一种k-means自学习系统。
背景技术
人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,而自学习系统也是人工智能的一部分。
现有的自学习系统在使用时不能快速的找出最核心内容并提取输出,也不能为交互机器人快速增加知识库,鉴于现有的自学习系统中的缺陷,有必要将其进行改进,来完善此项装置,为工作人员提供更大的便利。
发明内容
本发明的目的在于提供一种k-means自学习系统,以解决上述背景技术提出的唤醒词是众多语音公司提供的交互流程入口,通过开发者提供的唤醒词,语音公司对唤醒词的声学特征打包编译,预置到开发者的系统中,但这种方式开发的设备并不能称之为智能,相对而言太过于机械化,并且对于一个刚入门的用户,如果不知道唤醒词,则整个交互都无从谈起,极大的限制用户体验的问题。
为实现上述目的,本发明提供如下技术方案:一种k-means自学习系统,包括如下步骤:
S1:记录语音质料,将语音识别的内容用json的形式储存下来,并且按照要求标注一些标签;
S2:对数据进行清洗,把每个中文句子进行一次清洗,去掉噪音;
S3:把规定格式的语料放入kmeans的模型,进行迭代训练;
S4:根据Calinski-Harabasz分数来确定k值;
S5:根据每个簇的质心,获得最靠近质心的句子;
S6:将句子保存为csv模式的文档输出发送到运维人员的邮箱;
S7:运维人员按照要求填写答案之后上传;
S8:把规定格式的新内容通过训练添加到机器人的知识库。
优选的,所述S1中,用python里面的panda包,读取json文件并且得到需要的生数据。
优选的,所述S3中把语料进行分词,根据词频,得到相应的字典,把语料全部变成词向量和句子和句向量的对应表。
与现有技术相比,本发明的有益效果是:该k-means自学习系统:
通过kmeans的模型,进行迭代训练另外根据Calinski-Harabasz分数来确定k值,能够快速找到一堆中文文本中的最核心内容并提取输出,帮助交互机器人快速增加知识库,快速的减少人工的工作量,提高工作效率,可以快速细化生数据并且为数据再利用做前期工作。
附图说明
图1为本发明的流程示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种k-means自学习系统, S1:记录语音质料,将语音识别的内容用json的形式储存下来,并且按照要求标注一些标签;
S2:对数据进行清洗,把每个中文句子进行一次清洗,去掉噪音;
S3:把规定格式的语料放入kmeans的模型,进行迭代训练;
S4:根据Calinski-Harabasz分数来确定k值;
S5:根据每个簇的质心,获得最靠近质心的句子;
S6:将句子保存为csv模式的文档输出发送到运维人员的邮箱;
S7:运维人员按照要求填写答案之后上传;
S8:把规定格式的新内容通过训练添加到机器人的知识库。
进一步的,所述S1中,用python里面的panda包,读取json文件并且得到需要的生数据。
进一步的,所述S3中把语料进行分词,根据词频,得到相应的字典,把语料全部变成词向量和句子和句向量的对应表。
具体的,把数据根据talker的不同,获得有用的信息,如:robot1,robot2,robot3,分别代表用不同的模块来回答,根据需求不同,我们将获得不一样的数据,这次我们选择的是robot1,代表是机器人没有回答的问题,一共9000 个句子和问题;收集全是robot1回答的数据集,开始清洗,映射,拆分句子,形成词组组成的句子。然后把句子变成对应的token数字,且固定句子的长度,统一格式。获取unknown单词和pad的token。对句子进行token转换,对于未在词典中出现过的词用unk的token填充。接着构建句子token,使用知乎预先训练的词向量(300维),作为大字典。通过之前的映射,构建自己的词向量矩阵。因为设定每个句子最大的长度为20个词,构成数据集-句向量矩阵(20*300),通过句向量求和来合成句向量,输出句向量numpy格式。数据集成为9000*300的格式,把输入的数据集形成句向量和句子的映射表,形成了map的格式,9000个句子和9000*300的映射表,一一对应,后期还原句子的时候有用,Input_map,把9000*300的矩阵一个个扔入k-means中聚类。形成9000个300维的点,然后随机选k个点,第一个点是随机,其他都是相互的最远点。(比如随机选了第一个点,然后第二个点是剩下的8999个点中选择的最远点,剩下的点以此类推),形成k个初始质心,然后9000个点根据离每个质心的距离,选择最近的,被分为k个簇。然后这些这个簇的点再找到这个簇里的质心。然后所有的点再跑一遍,算出离每个点的距离, 9000个点再次被归为k个簇。直到最后两次的质心都完全相同为止;每个k 都有一个值,然后统计他们的Calinski--Harabasz分数,这个分数越好,证明聚类的效果越好。因此每个k值都会根据输入的句子数量有上限和跨度的调整。9000个句子的上限是900,就是k值不大于900,然后从5开始,每5 个一跳。得到这中间分数最高值对应的k值,为这次分类的k值;根据k值,获得最终的质心,然后用cos相似函数,算每个簇中离质心最接近的点。这就是这个簇中,意思最重要的点,输出这个点的向量。K个 [0.2,-0.3,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,]类似的300维向量;这些向量形成的数组output_embeding,根据Input_map对应输出中文句子,并储存为 csv的模式再输出,answer.csv,然后这个文件会发送到运维人员的邮箱;运维人员填写好答案之后,按照路径上传到网上,后台的程序会自动的把内容填充到知识库中。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种k-means自学习系统,其特征在于:包括如下步骤:
S1:记录语音质料,将语音识别的内容用json的形式储存下来,并且按照要求标注一些标签;
S2:对数据进行清洗,把每个中文句子进行一次清洗,去掉噪音;
S3:把规定格式的语料放入kmeans的模型,进行迭代训练;
S4:根据Calinski-Harabasz分数来确定k值;
S5:根据每个簇的质心,获得最靠近质心的句子;
S6:将句子保存为csv模式的文档输出发送到运维人员的邮箱;
S7:运维人员按照要求填写答案之后上传;
S8:把规定格式的新内容通过训练添加到机器人的知识库。
2.根据权利要求1所述的一种k-means自学习系统,其特征在于:所述S1中,用python里面的panda包,读取json文件并且得到需要的生数据。
3.根据权利要求1所述的一种k-means自学习系统,其特征在于:所述S3中把语料进行分词,根据词频,得到相应的字典,把语料全部变成词向量和句子和句向量的对应表。
CN201911385789.6A 2019-12-29 2019-12-29 一种k-means自学习系统 Pending CN111143565A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911385789.6A CN111143565A (zh) 2019-12-29 2019-12-29 一种k-means自学习系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911385789.6A CN111143565A (zh) 2019-12-29 2019-12-29 一种k-means自学习系统

Publications (1)

Publication Number Publication Date
CN111143565A true CN111143565A (zh) 2020-05-12

Family

ID=70521373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911385789.6A Pending CN111143565A (zh) 2019-12-29 2019-12-29 一种k-means自学习系统

Country Status (1)

Country Link
CN (1) CN111143565A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140358928A1 (en) * 2013-06-04 2014-12-04 International Business Machines Corporation Clustering Based Question Set Generation for Training and Testing of a Question and Answer System
CN106844723A (zh) * 2017-02-10 2017-06-13 厦门大学 基于问答系统的医学知识库构建方法
CN107784105A (zh) * 2017-10-26 2018-03-09 平安科技(深圳)有限公司 基于海量问题的知识库构建方法、电子装置及存储介质
CN109033270A (zh) * 2018-07-09 2018-12-18 深圳追科技有限公司 一种基于人工客服日志自动构建客服知识库的方法
CN110162611A (zh) * 2019-04-23 2019-08-23 苏宁易购集团股份有限公司 一种智能客服应答方法及系统
CN110211001A (zh) * 2019-05-17 2019-09-06 深圳追一科技有限公司 一种酒店助理客服系统、数据处理方法及相关设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140358928A1 (en) * 2013-06-04 2014-12-04 International Business Machines Corporation Clustering Based Question Set Generation for Training and Testing of a Question and Answer System
CN106844723A (zh) * 2017-02-10 2017-06-13 厦门大学 基于问答系统的医学知识库构建方法
CN107784105A (zh) * 2017-10-26 2018-03-09 平安科技(深圳)有限公司 基于海量问题的知识库构建方法、电子装置及存储介质
CN109033270A (zh) * 2018-07-09 2018-12-18 深圳追科技有限公司 一种基于人工客服日志自动构建客服知识库的方法
CN110162611A (zh) * 2019-04-23 2019-08-23 苏宁易购集团股份有限公司 一种智能客服应答方法及系统
CN110211001A (zh) * 2019-05-17 2019-09-06 深圳追一科技有限公司 一种酒店助理客服系统、数据处理方法及相关设备

Similar Documents

Publication Publication Date Title
US11645547B2 (en) Human-machine interactive method and device based on artificial intelligence
CN106611597B (zh) 基于人工智能的语音唤醒方法和装置
CN105632251B (zh) 具有语音功能的3d虚拟教师系统及其方法
CN106205609B (zh) 一种基于音频事件和主题模型的音频场景识别方法及其装置
CN108231062B (zh) 一种语音翻译方法及装置
CN106297773B (zh) 一种神经网络声学模型训练方法
CN107944027A (zh) 创建语义键索引的方法及系统
CN108804698A (zh) 基于人物ip的人机交互方法、系统、介质及设备
CN110517664A (zh) 多方言识别方法、装置、设备及可读存储介质
CN109918650A (zh) 自动生成采访稿的采访智能机器人装置及智能采访方法
CN109949799B (zh) 一种语义解析方法及系统
CN110096698A (zh) 一种考虑主题的机器阅读理解模型生成方法与系统
CN112466316A (zh) 一种基于生成对抗网络的零样本语音转换系统
CN101414412A (zh) 互动式声控儿童教育学习装置
CN107437417A (zh) 基于循环神经网络语音识别中语音数据增强方法及装置
CN109741735A (zh) 一种建模方法、声学模型的获取方法和装置
CN113096242A (zh) 虚拟主播生成方法、装置、电子设备及存储介质
CN108231066A (zh) 语音识别系统及其方法与词汇建立方法
CN112232086A (zh) 一种语义识别方法、装置、计算机设备及存储介质
CN109977401A (zh) 一种基于神经网络的语义识别方法
CN109977382A (zh) 诗句生成模型的训练方法、自动写诗方法及装置
CN106444987A (zh) 一种儿童虚拟智能设备及其操作方法
CN111090726A (zh) 一种基于nlp的电力行业文字客服交互方法
CN111968646B (zh) 一种语音识别方法及装置
CN108831503A (zh) 一种口语评测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200512

WD01 Invention patent application deemed withdrawn after publication