CN117453867B - 一种基于自然语言处理的智能育儿系统和装置 - Google Patents

一种基于自然语言处理的智能育儿系统和装置 Download PDF

Info

Publication number
CN117453867B
CN117453867B CN202311245094.4A CN202311245094A CN117453867B CN 117453867 B CN117453867 B CN 117453867B CN 202311245094 A CN202311245094 A CN 202311245094A CN 117453867 B CN117453867 B CN 117453867B
Authority
CN
China
Prior art keywords
child
text
voice
model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311245094.4A
Other languages
English (en)
Other versions
CN117453867A (zh
Inventor
李舵文
熊纯
严鹤
王俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunqi Intelligent Technology Co ltd
Original Assignee
Yunqi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunqi Intelligent Technology Co ltd filed Critical Yunqi Intelligent Technology Co ltd
Priority to CN202311245094.4A priority Critical patent/CN117453867B/zh
Publication of CN117453867A publication Critical patent/CN117453867A/zh
Application granted granted Critical
Publication of CN117453867B publication Critical patent/CN117453867B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供一种基于自然语言处理的智能育儿系统和装置,属于设备监控技术领域,包括:育儿百科模块,其配置获取育儿资源数据,利用育儿资源数据对语言大模型进行训练;育儿纠错模块,其配置为对日常对话进行实时监控,捕获到语音后进行文本转换,利用预训练的分类模型对文本进行分类,得到文本标签和概率值,文本标签包括文本需要纠错,将文本标签为文本需要纠错的文本传输至知识库中,得到纠错反馈,根据概率值确定纠错反馈的方式并传达给用户;智能陪伴模块,其配置为根据年龄阶段形成对应的陪伴方式,结合知识库对不同年龄阶段的儿童进行智能陪伴。本发明不仅能提供健康科学的育儿知识,还能有效监督育儿方法的有效应用。

Description

一种基于自然语言处理的智能育儿系统和装置
技术领域
本发明属于设备监护技术领域,具体涉及一种基于自然语言处理的智能育儿系统和装置。
背景技术
科学、健康的育儿方式对于孩子的全面发展、心理健康和未来的生活都具有重要的影响,而这就要求父母有足够的时间和精力去获取并应用关于儿童生理、心理、行为和营养等方面的知识,为家长提供正确、科学的育儿指导,以促进儿童的全面发展。但现实情况,可能是爷爷奶奶带娃没有途径获取或排斥更加先进科学的育儿方式理念,又或者是爸爸妈妈空闲时间通过百度、抖音、微信公众号或周围的人获取的一些可能存在不合理的育儿方式,极少数父母积极学习接触科学理念也可能有效实施。
科学的育儿方式不仅能促进儿童身心的健康成长,还能有效促进家庭的和谐关系。由于家庭成员原始文化背景不同、信息来源不一样,导致在育儿的各项方式和观念上存在区别,不仅令育儿方法不能得到实施,问题严重时引起家庭矛盾。
中国申请号为202310311685.0的发明专利公开了用于看护儿童的方法及装置、电子设备、存储介质,可及时地干预儿童相关联场景的日常行为,实现扩展看护适用场景的目的。但该现有技术无法对育儿过程进行纠正。
发明内容
有鉴于此,本发明一种基于自然语言处理的智能育儿系统和装置,包含育儿纠错、育儿百科以及智能陪伴三个模块,不仅能提供健康科学的育儿知识,还能有效监督育儿方法的有效应用,同时在儿童与父母之间沟通相处中提供助力。
本发明的技术目的是这样实现的:
一方面,本发明提供一种基于自然语言处理的智能育儿系统,包括:
育儿百科模块,其配置获取育儿资源数据,利用育儿资源数据对语言大模型进行训练,将训练后的语言大模型作为知识库,并采用离线部署;
育儿纠错模块,其配置为对日常对话进行实时监控,捕获到语音后进行文本转换,利用预训练的分类模型对文本进行分类,得到文本标签和概率值,文本标签包括文本需要纠错,将文本标签为文本需要纠错的文本传输至知识库中,得到纠错反馈,根据概率值确定纠错反馈的方式并传达给用户;
智能陪伴模块,其配置为根据年龄阶段形成对应的陪伴方式,结合知识库对不同年龄阶段的儿童进行智能陪伴。
在上述技术方案的基础上,优选的,语言大模型的训练过程为:
获取育儿相关的文本数据;
将文本数据进行格式转换,形成json格式的文本数据,json格式中包括prompt、response和history,其中prompt为育儿问题,response为该问题的相关解答,history代表多轮问答的上下文信息;
获取经过语言基础训练的语言大模型,语言大模型采用基于transformer的网络框架;
利用多查询注意力对语言大模型进行模型加速,并采用json格式的文本数据对语言大模型进行模型微调,得到训练后的语言大模型。
在上述技术方案的基础上,优选的,多查询注意力的计算过程为:
输入查询矩阵Q、键矩阵K和值矩阵V;
将查询矩阵Q分成多个查询向量Q1,Q2,...,Qm
对每个查询向量Qx,计算Qx与键矩阵K之间的注意力分数:
将注意力分数归一化,得到注意力权重;
将注意力权重与值矩阵中的向量进行加权求和,得到对查询的注意力表示,其注意力公式如下:
式中,sim代表相似度计算,Kx和Vx分别表示K和V中的向量,Kx和Vx均通过共享注意力头的K和V矩阵得到。
在上述技术方案的基础上,优选的,模型微调的过程为:
将json格式的文本数据输入语言大模型中,并在输入层的每一层中添加可微调参数prefix;
对语言大模型进行第一次微调训练,将json格式的文本数据与相应的prefix进行拼接,生成与育儿相关的内容,通过最小化生成结果与标准答案之间的差异来更新prompt参数,其中,在该次训练中,仅对prompt参数进行微调,保持其他参数不变;
在第一次微调训练完成后,对语言大模型进行第二次微调训练,利用json格式的文本数据对语言大模型进行进一步的训练,通过最小化生成结果与标准答案之间的差异来更新模型的参数,其中,在该次训练中,将prompt参数冻结,对其他参数和prefix进行微调。
在上述技术方案的基础上,优选的,在对语言大模型进行第一次微调训练和第二次微调训练时,通过控制prefix参数的数量和维度,限制模型可训练参数的量。
在上述技术方案的基础上,优选的,育儿纠错模块包括:
语音处理单元,其配置为实时获取语音,并对语音进行处理,将语音转换为文本;
文本分类单元,其配置为利用预训练的分类模型对文本进行分类,得到文本标签和概率值,文本标签包括文本需要纠错,将文本标签为文本需要纠错的文本筛选出来,作为待纠错文本,获取待纠错文本前后时间间隔不超过30秒的文本内容,作为待纠错文本的补充本文,在补充文本前添加提示词,将待纠错文本、补充本文及提示词传输至育儿百科模块的知识库中;
纠错反馈单元,其配置为接收知识库对待纠错文本的纠错建议,并形成纠错反馈,根据待纠错文本的概率值设置其对应纠错反馈的方式,按照纠错反馈的方式将纠错反馈传达给用户。
在上述技术方案的基础上,优选的,语音处理单元的执行过程为:
将语音信号以10s为跨度,每1秒进行窗口捕捉,得到一系列的窗口语音(w1,w2,...wn);
设置静默阈值和静默时长阈值,对每个窗口语音进行静默监测,将超过静默时长阈值的静默部分从语音中分割出来,得到一系列语音段sij,其中i代表窗口号,j代表该窗口的语音段;
对处于不同窗口下连续不存在静默部分的语音段进行合并,记录合并后语音段的起始时间和结束时间;
使用语音识别方法将每段合并后的语音转换为文本,得到每段语音的起始时间、结束时间和对应的文本内容,表示为(strat,end,text)。
在上述技术方案的基础上,优选的,分类模型的预训练过程为:
采集家庭普通日常用语和常见育儿误区的数据,并人工标注每个数据,将需要纠错的数据标签记为“1”,得到训练数据;
使用tokenizer工具对采集到的训练数据进行转换,得到inputs token和segmenttoken,加载到分类模型,并设置MLM任务;
设置训练超参数,包括学习率、训练轮次、学习率预热比率和衰减系数;
使用训练数据对分类模型进行迭代训练,直至满足性能指标,得到预训练的分类模型。
在上述技术方案的基础上,优选的,纠错反馈的方式包括:
语音反馈的方式,若概率值超过概率阈值,则选择该语音反馈的方式;
文本提醒的方式,若概率值低于概率阈值,则选择该文本提醒的方式。
另一方面,本发明还提供一种基于自然语言处理的智能育儿装置,包括硬件平台和软件系统,软件系统为上述任一所述的系统,硬件平台包括:
机器人机身,其形状为圆筒形,外表层部分区域覆盖橡胶;
动力系统,其采用驱动轮和万向轮的组合方式,用于为机器人机身的运动提供动力;
传感器系统,其由超声波感应器和其他功能性传感器组成,用于感知周围环境和提供安全性功能;
任务载荷,其为完成特定任务而添加的硬件;
计算主机,包含硬件和软件,硬件包括CPU、NPU神经网络推理卡、存储模块,软件包括操作系统、播放软件、打印系统,用于接收传感器系统或任务载荷传来的数据进行数据分析,并控制其他系统进行反馈,同时存储历史运行数据;
电源系统,采用可充式电池,用于提供不同电耗模式。
本发明的方法相对于现有技术具有以下有益效果:
(1)本发明提供的育儿系统,包含育儿纠错、育儿百科以及智能陪伴三个模块,不仅能提供健康科学的育儿知识,还能有效监督育儿方法的有效应用,同时在儿童与父母之间沟通相处中提供助力;
(2)本发明的育儿百科模块,融入众多经过认证的先进科学的育儿书籍、文献,囊括生活、饮食、医疗、娱乐、心理等各个方面,提供交互式的智能对话方式,让父母能够更加便捷的获取有保证的科学育儿专业知识;
(3)本发明的育儿纠错模块,监听儿童与父母在家沟通相处时的生活对话,检测出存在不合理的育儿方式,并给出正确的建议。该模块能避免一些错误的育儿谣言和不合理的传统育儿观念,保证育儿过程的科学性;
(4)本发明的智能陪伴模块,会在儿童不同阶段提供不同的交互式的陪伴方式,辅助缓解父母的疲劳和压力,保证儿童心理和智力的健康成长;
(5)本发明针对育儿领域训练专业化的语言大模型,且在模型加速和微调方面采用优化后的技术,使该模型可以实现离线部署,有效保护用户隐私;
(6)本发明在传统你问我答交互式的聊天机器人上做出优化,提出主动实时监控、分类、预警的模式,纠正一些传统错误的育儿问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的系统结构图;
图2为本发明实施例的装置架构图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
如图1所示,一方面,本发明提供一种基于自然语言处理的智能育儿系统,包括:
育儿百科模块,其配置获取育儿资源数据,利用育儿资源数据对语言大模型进行训练,将训练后的语言大模型作为知识库;
育儿纠错模块,其配置为对日常对话进行实时监控,捕获到语音后进行文本转换,利用预训练的分类模型对文本进行分类,得到文本标签和概率值,文本标签包括文本需要纠错,将文本标签为文本需要纠错的文本传输至知识库中,得到纠错反馈,根据概率值确定纠错反馈的方式并传达给用户;
智能陪伴模块,其配置为根据年龄阶段形成对应的陪伴方式,结合知识库对不同年龄阶段的儿童进行智能陪伴。
具体地,育儿百科模块,以海量日常生活语料和专业科学育儿资源数据为基础,使用一种基于自回归空白填充的大语言模型,为用户提供一种交互式的智能语音问答方式的咨询方式,便捷地为父母提供专业的育儿知识,同时也是其他功能模块的基础知识库。
具体地,在本发明一实施例中,语言大模型的训练过程为:
获取育儿相关的文本数据;
将文本数据进行格式转换,形成json格式的文本数据,json格式中包括prompt、response和history,其中prompt为育儿问题,response为该问题的相关解答,history代表多轮问答的上下文信息;
获取经过语言基础训练的语言大模型,语言大模型采用基于transformer的网络框架;
利用多查询注意力对语言大模型进行模型加速,并采用json格式的文本数据对语言大模型进行模型微调,得到训练后的语言大模型。
以一个具体的例子对语言大模型的训练过程进行说明:
(1)数据采集
考虑数据来源的可靠性,主要通过以下三个途径采集数据:1)官方认真且具有时效性的育儿相关网站,例如世界卫生组织、美国儿科协会等网站,利用爬虫针对其结构进行文本数据爬取汇总;2)具有权威性的育儿方面专业书籍,例如《你就是孩子最好的玩具》、《美国儿科学会育儿百科》等,可使用ORC技术对书本进行扫描获取文本数据;3)育儿专家常驻的育儿微信公众号,例如丁香妈妈、年糕妈妈等,公众号文章具有非常强的时效性,会针对当前社会的育儿热点问题进行讨论,需要人为手工筛选具有权威可靠的内容。
(2)数据预处理
语言大模型需要使用SFT格式的数据进行训练,因此要将数据转换为包含一问一答的json格式,其中prompt为育儿问题,response为该问题的相关专业解答,history代表多轮对话的上下文信息。
{“prompt”:“否认孩子的感受的危险”,“response”:“儿童精神科医师兼精神分析学家唐纳德·温尼考特(Don-aldWinnicott)观看孩子玩捉迷藏时发现,躲藏起来是一种乐趣,但没人发现自己时却是一种灾难。生活也是如此。成年及童年时期,我们可能都喜欢藏匿一些秘密,但如果没有人在我们想要展现真实自我的地方和时间点看到我们,那对我们来说就是灾难。”,“history”:[]}
育儿相关文章多为标题-子标题-内容的排版格式,且标题可能多为问句,将每个子标题作为一个prompt,且对于问句子标题,一般为育儿中存在的误区,需要加强训练,同时提供陈述句和问句的prompt,而上下子标题中的内容,可以作为history进行上下文提示。
(3)模型加速
由于语言大模型需要海量的文本数据以及资源进行训练,可以直接使用目前已训练好的已掌握一定语言理解基础的预训练模型,有效降低数据和硬件成本。目前语言大模型有GLM和LIama,都是支持中文语言大模型。本实施例使用一种基于自回归空白填充目标的通用预训练框架GLM,经过约1T的token双语训练具有60亿参数,且拥有自回归、自编码以及二维编码等特性,该预训练模型已有非常强的NLU能力,使用少量的数据在此基础上训练也能得到很好的模型。
同时,由于该模型规模较大,可在该模型的基础上采用多查询注意力(MultiQueryAttention)技术进行模型加速,主要方式是通过共享transformer中注意力头的key和value矩阵,每个head中仅保留query矩阵的参数。该方法大大减少参数维度,减少了对硬件的显存要求和推理耗时,但对模型的效果影响非常小。多查询注意力的计算过程为:
输入查询矩阵Q、键矩阵K和值矩阵V;
将查询矩阵Q分成多个查询向量Q1,Q2,...,Qm
对每个查询向量Qx,计算Qx与键矩阵K之间的注意力分数:
将注意力分数归一化,得到注意力权重;
将注意力权重与值矩阵中的向量进行加权求和,得到对查询的注意力表示,其注意力公式如下:
式中,sim代表相似度计算,Kx和Vx分别表示K和V中的向量,Kx和Vx均通过共享注意力头的K和V矩阵得到。
本实施例采用Multi QueryAttention技术,可以大大减少注意力头的参数量,从而提高模型推理的效率和速度。同时,由于每个查询可以自由地关注不同的信息,这种技术对模型的效果影响非常小。
(4)模型微调
将json格式的文本数据输入语言大模型中,并在输入层的每一层中添加可微调参数prefix;这些prefix可以是与育儿领域相关的提示或标记,用于引导模型生成与育儿相关的内容。
对语言大模型进行第一次微调训练,将json格式的文本数据与相应的prefix进行拼接,生成与育儿相关的内容,通过最小化生成结果与标准答案之间的差异来更新prompt参数,其中,在该次训练中,仅对prompt参数进行微调,保持其他参数不变。
在第一次微调训练完成后,对语言大模型进行第二次微调训练,利用json格式的文本数据对语言大模型进行进一步的训练,通过最小化生成结果与标准答案之间的差异来更新模型的参数,其中,在该次训练中,将prompt参数冻结,对其他参数和prefix进行微调。
其中,在对语言大模型进行第一次微调训练和第二次微调训练时,通过控制prefix参数的数量和维度,限制模型可训练参数的量,使其仅占总参数量的1%左右。这样可以在有限的硬件资源下进行训练,同时保持模型的相对较小规模。
本实施例通过两次微调方式结合的方法在保持模型规模较小的同时,利用prompt参数和prefix参数引导模型生成与育儿相关的内容,从而达到较好的效果。微调后即得到针对育儿领域的语言大模型childcare_model。
(5)模型部署
考虑用户隐私的保护,模型部署优先采用离线部署,由于语言大模型往往参数量大,存在硬件要求高、推理速度慢等问题,本实施例采用训练后INT8量化的方式对模型进行量化,即将参数映射到(-127,127)范围内,经验证该模型可在13G显存的环境下正常运行。
(6)语音转换
在系统中设置一个语音转换接口,可通过智能语音对话这种交互的方式为用户提供服务,因此需要实现语音转文本以及文本转语音作为该接口的输入输出预处理步骤。
具体地,本发明一实施例中,育儿纠错模块包括:
语音处理单元,其配置为实时获取语音,并对语音进行处理,将语音转换为文本;
文本分类单元,其配置为利用预训练的分类模型对文本进行分类,得到文本标签和概率值,文本标签包括文本需要纠错,将文本标签为文本需要纠错的文本筛选出来,作为待纠错文本,获取待纠错文本前后时间间隔不超过30秒的文本内容,作为待纠错文本的补充本文,在补充文本前添加提示词,将待纠错文本、补充本文及提示词传输至育儿百科模块的知识库中;
纠错反馈单元,其配置为接收知识库对待纠错文本的纠错建议,并形成纠错反馈,根据待纠错文本的概率值设置其对应纠错反馈的方式,按照纠错反馈的方式将纠错反馈传达给用户。
具体地,本发明一实施例中,语音处理单元的执行过程为:
将语音信号以10s为跨度,每1秒进行窗口捕捉,得到一系列的窗口语音(w1,w2,...wn);
设置静默阈值和静默时长阈值,对每个窗口语音进行静默监测,将超过静默时长阈值的静默部分从语音中分割出来,得到一系列语音段sij,其中i代表窗口号,j代表该窗口的语音段;
对处于不同窗口下连续不存在静默部分的语音段进行合并,记录合并后语音段的起始时间和结束时间;
使用语音识别方法将每段合并后的语音转换为文本,得到每段语音的起始时间、结束时间和对应的文本内容,表示为(strat,end,text)。
本实施例中,静默阈值为-16dBFS,静默时长阈值为3秒。
本实施例通过对语音进行窗口捕捉和静默检测,可以将连续的语音段从静默部分中分割出来,减少了静默对语音识别的干扰,提高了识别的准确性。通过对语音段进行合并,将处于不同窗口下连续的语音段合并为一个完整的语音段,提高了语音分割的精度,减少了语音段之间的断裂和重叠。通过记录合并后语音段的起始时间和结束时间,可以提供准确的语音段信息,方便后续的处理和分析。通过对语音进行窗口捕捉和静默检测,可以对大量语音数据进行快速处理和分析,提高处理效率。
具体地,本发明一实施例中,分类模型的预训练过程为:
采集家庭普通日常用语和常见育儿误区的数据,并人工标注每个数据,将需要纠错的数据标签记为“1”,得到训练数据;
使用tokenizer工具对采集到的训练数据进行转换,得到inputs token和segmenttoken,加载到分类模型,并设置MLM任务;
设置训练超参数,包括学习率、训练轮次、学习率预热比率和衰减系数;
使用训练数据对分类模型进行迭代训练,直至满足性能指标,得到预训练的分类模型。
以一具体例子对分类模型的预训练过程进行说明:
正常情况下,家庭日常对话量都非常大,只有少数对话内容属于育儿相关,而其中需要纠错的问题范围更小,可以优先筛选出常见育儿误区问题,再将问题传递给育儿百科模型,能够大大降低计算量实现纠错的及时性。由于该分类问题场景较为简单,可优先选用通用性较强的一些预训练模型。
首先需要采集家庭普通日常用语和常见育儿误区,其中日常用语目前开源语料较多无需特意采集,而常见育儿误区可选取育儿百科中采集数据中的问句作为训练集,例如“益生菌是否能够缓解儿童便秘?”。采集数据通过手动标签生成训练集,其中1代表该文本需要纠错。
再使用tokenizer工具对输入文本进行转换,获得inputs token和segmenttoken,并加载预训练模型bert,该模型使用了MLM任务,即在输入序列中随机遮蔽一些词汇,然后让模型预测这些被遮蔽的词汇。这样的预训练方式使得模型能够学习到更全面的语义信息。
设置模型训练超参数进行模型训练,包含学习率(1e-5)、训练轮次(20)、学习率预热比率(0.1)以及衰减系数(0.01)等,最终得到预训练的分类模型sort_model,作为育儿纠错的前置任务。
本实施例通过采集丰富的数据集,并手动标注每个文本的分类标签,可以训练出准确的文本分类模型,提高分类准确性。通过使用预训练模型,如BERT,可以利用大规模的语料库进行训练,提高模型的泛化能力和可信度,从而提高纠错效果的准确性和可靠性。通过针对育儿领域的特定问题进行数据采集和模型训练,可以使模型更好地理解育儿问题,提供个性化的纠错建议,从而提高纠错效果的个性化程度。通过将训练好的分类模型应用于育儿纠错的前置任务,可以实时对输入文本进行分类,判断是否需要进行纠错,提高纠错效果的实时性和响应速度。
本实施例中,利用预训练的分类模型对文本进行分类,即可得到文本标签和概率值,文本标签包括文本需要纠错,将文本标签为文本需要纠错的文本筛选出来,作为待纠错文本。为增强语义理解,将筛选过后的待纠错文本(start,end,text)前后间隔不超过30s的文本内容合并,获得具有该场景下上下文的补充文本。由于上下文长度和内容均不定,可能出现非育儿文本占较大篇幅而导致回答的偏差,需添加提示词prompt(例如“在育儿领域中”)提交给育儿百科模型childcare_model。
本实施例中,纠错反馈的方式包括:
语音反馈的方式,若概率值超过概率阈值,则选择该语音反馈的方式;
文本提醒的方式,若概率值低于概率阈值,则选择该文本提醒的方式。
为避免育儿过程中可能出现的频繁提醒导致的焦虑,在一定时间周期内避免同一问题重复纠错。同时在得到模型的反馈后,根据分类模型sort_model的概率值p来判断纠错的方式,若p值较高(>0.8),可直接语音反馈的方式,若p值较低(≤0.8)可使用文本提醒(留言、微信绑定等)的方式普及相关知识。
本实施例通过提供上下文补充文本和提示词,帮助模型更好地理解语义和背景信息,从而提高纠错准确性。通过合并上下文补充文本和添加提示词,提供更全面的背景信息,帮助模型更好地理解上下文,从而提高语义理解能力。通过根据分类模型sort_model的结果判断纠错方式,可以根据p值的高低灵活选择纠错方式,提高纠错效果的灵活性和适用性。
具体地,本发明一实施例中,智能陪伴模块包括:
有效积极的陪伴对儿童的成长和发展有着非常重要的作用,能促进儿童的认知发展,通过一起读书、玩耍和学习获得新的知识和技能,帮助他们发展思维和解决问题的能力。但实际父母因为家务、工作等原因,无法一直保持活力和耐心陪伴孩子。本系统的智能陪伴模块提供多种不同年龄阶段的陪伴方式,为儿童成长提供助力。
(1)早期婴幼儿阶段(0~2岁),该阶段的儿童对声乐电动玩具和色彩鲜艳的图画比较感兴趣。智能陪伴可通过语音控制或按钮控制,转为不同模式(动物、骑车等)的电动玩具,发出模仿声音并按照特定的轨迹运行。同时,能够打印出一些(动物、汽车等)相关的简单绘画,并对绘画做出简单的语音描述,让该阶段的孩子有更好的认知。
(2)幼儿园阶段(2~5岁),该阶段的儿童对音乐、绘画、绘本等有较好的兴趣,且已经拥有足够的学习模仿能力。智能陪伴模块在该阶段可提供非常友好的交互模式陪伴儿童进行学习娱乐,音乐播放分为普通模式和教学模式,使用鼓励、提问的方式让孩子一起唱。该阶段的孩子可以看懂一些具有剧情的绘本,可根据孩子爱好打印相关绘本,并通过提问和强调语气的方式增加儿童乐趣。同时,由于该阶段的儿童无法独立完成较为复杂的画,绘画功能主要是通过打印动物、汽车、生活用品等的轮廓图,用语音提示的方式让儿童上色,提高儿童对事物的认知。
(3)学龄阶段(5岁以上),该阶段的儿童对绘画、故事书、手工等有较高的热情,且有了一定的学习任务。在娱乐方面,智能陪伴能够打印相关的材料,再通过鼓励、提问的方式指导儿童。在学习方面,该模块收录各个阶段的学习内容和资源,通过布置任务、语音互动以及材料打印的方式,养成儿童学习的习惯,对儿童提出问题做出解答并指导学习方法,让儿童获得足丰富的知识。
虽然智能陪伴能提供丰富的、具有乐趣的陪伴方式,但是儿童特别是早期婴幼儿阶段依然需要足够的父母互动式的交流陪伴,智能陪伴模块主要起辅助陪伴和丰富陪伴过程的工具,尽量在父母的监护下,随着孩子年龄的增长逐步提高智能陪伴的比例,缓解父母带娃的压力并让孩子健康成长。
本实施例的智能陪伴模块具体如下效果:
1.促进认知发展:通过与智能陪伴模块的互动,儿童可以获得更多的认知刺激,有助于促进他们的认知发展。
2.提升学习能力:智能陪伴模块提供了丰富的学习资源和任务,可以帮助儿童培养学习兴趣和学习习惯,提升他们的学习能力。
3.增强创造力:通过绘画、音乐等创造性活动,智能陪伴模块可以激发儿童的创造力,培养他们的艺术才能和创新思维。
4.提供陪伴和娱乐:智能陪伴模块提供了多种有趣的陪伴方式,可以满足儿童的娱乐需求,减轻父母的压力,同时增强家庭互动和亲子关系。
5.增加儿童对事物的认知:通过打印绘画和提供相关材料,智能陪伴模块可以帮助儿童认识和了解更多的事物,拓宽他们的视野和知识领域。
如图2所示,另一方面,本发明还提供一种基于自然语言处理的智能育儿装置,包括硬件平台和软件系统,软件系统为上述任一所述的系统,硬件平台包括:
机器人机身,其形状为圆筒形,外表层部分区域覆盖橡胶。
智能育儿机器人的机身主要呈现圆筒形,采用流线型设计,兼顾美观和实用性。为防止儿童磕碰,采用圆润的曲线和光滑的表面,同时部分区域覆盖橡塑。同时可选择儿童风格的机身图案,柔和的颜色搭配,给人一种友好和温暖的感觉。
动力系统,其采用驱动轮和万向轮的组合方式,有效避免家庭环境乱导致无法运行的问题,用于为机器人机身的运动提供动力。
传感器系统,其由超声波感应器和其他功能性传感器组成,用于感知周围环境和提供安全性功能。功能性传感器例如烟雾传感器,能够检测并提醒禁止抽烟等。
任务载荷,其为完成特定任务而添加的硬件;例如支持语音人机交互的语音系统、智能陪伴的打印系统、摄像头等。
计算主机,包含硬件和软件,硬件包括CPU、NPU神经网络推理卡、存储模块,软件包括操作系统、播放软件、打印系统,用于接收传感器系统或任务载荷传来的数据进行数据分析,并控制其他系统进行反馈,同时存储历史运行数据。
电源系统,采用可充式电池,考虑不同功能模块电量要求差距较大,用于提供不同电耗模式。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于自然语言处理的智能育儿系统,其特征在于,包括:
育儿百科模块,其配置获取育儿资源数据,利用育儿资源数据对语言大模型进行训练,将训练后的语言大模型作为知识库,并采用离线部署;
语言大模型的训练过程为:
获取育儿相关的文本数据;
将文本数据进行格式转换,形成json格式的文本数据,json格式中包括prompt、response和history,其中prompt为育儿问题,response为该问题的相关解答,history代表多轮问答的上下文信息;
获取经过语言基础训练的语言大模型,语言大模型采用基于transformer的网络框架;
利用多查询注意力对语言大模型进行模型加速,并采用json格式的文本数据对语言大模型进行模型微调,得到训练后的语言大模型;
多查询注意力的计算过程为:
输入查询矩阵Q、键矩阵K和值矩阵V;
将查询矩阵Q分成多个查询向量Q1,Q2,...,Qm
对每个查询向量Qx,计算Qx与键矩阵K之间的注意力分数:
将注意力分数归一化,得到注意力权重;
将注意力权重与值矩阵中的值向量进行加权求和,得到对查询的注意力表示,其注意力公式如下:
式中,sim代表相似度计算,Kx和Vx分别表示K和V中的向量,Kx和Vx均通过共享注意力头的K和V矩阵得到;
模型微调的过程为:
将json格式的文本数据输入语言大模型中,并在输入层的每一层中添加可微调参数prefix;
对语言大模型进行第一次微调训练,将json格式的文本数据与相应的prefix进行拼接,生成与育儿相关的内容,通过最小化生成结果与标准答案之间的差异来更新prompt参数,其中,在该次训练中,仅对prompt参数进行微调,保持其他参数不变;
在第一次微调训练完成后,对语言大模型进行第二次微调训练,利用json格式的文本数据对语言大模型进行进一步的训练,通过最小化生成结果与标准答案之间的差异来更新模型的参数,其中,在该次训练中,将prompt参数冻结,对其他参数和prefix进行微调;
育儿纠错模块,其配置为对日常对话进行实时监控,捕获到语音后进行文本转换,利用预训练的分类模型对文本进行分类,得到文本标签和概率值,文本标签包括文本需要纠错,将文本标签为文本需要纠错的文本传输至知识库中,得到纠错反馈,根据概率值确定纠错反馈的方式并传达给用户;
智能陪伴模块,其配置为根据年龄阶段形成对应的陪伴方式,结合知识库对不同年龄阶段的儿童进行智能陪伴。
2.如权利要求1所述的一种基于自然语言处理的智能育儿系统,其特征在于,在对语言大模型进行第一次微调训练和第二次微调训练时,通过控制prefix参数的数量和维度,限制模型可训练参数的量。
3.如权利要求1所述的一种基于自然语言处理的智能育儿系统,其特征在于,育儿纠错模块包括:
语音处理单元,其配置为实时获取语音,并对语音进行处理,将语音转换为文本;
文本分类单元,其配置为利用预训练的分类模型对文本进行分类,得到文本标签和概率值,文本标签包括文本需要纠错,将文本标签为文本需要纠错的文本筛选出来,作为待纠错文本,获取待纠错文本前后时间间隔不超过30秒的文本内容,作为待纠错文本的补充本文,在补充文本前添加提示词,将待纠错文本、补充本文及提示词传输至育儿百科模块的知识库中;
纠错反馈单元,其配置为接收知识库对待纠错文本的纠错建议,并形成纠错反馈,根据待纠错文本的概率值设置其对应纠错反馈的方式,按照纠错反馈的方式将纠错反馈传达给用户。
4.如权利要求3所述的一种基于自然语言处理的智能育儿系统,其特征在于,语音处理单元的执行过程为:
将语音信号以10s为跨度,每1秒进行窗口捕捉,得到一系列的窗口语音(w1,w2,...wn);
设置静默阈值和静默时长阈值,对每个窗口语音进行静默监测,将超过静默时长阈值的静默部分从语音中分割出来,得到一系列语音段sij,其中i代表窗口号,j代表该窗口的语音段;
对处于不同窗口下连续不存在静默部分的语音段进行合并,记录合并后语音段的起始时间和结束时间;
使用语音识别方法将每段合并后的语音转换为文本,得到每段语音的起始时间、结束时间和对应的文本内容,表示为(strat,end,text)。
5.如权利要求3所述的一种基于自然语言处理的智能育儿系统,其特征在于,分类模型的预训练过程为:
采集家庭普通日常用语和常见育儿误区的数据,并人工标注每个数据,将需要纠错的数据标签记为“1”,得到训练数据;
使用tokenizer工具对采集到的训练数据进行转换,得到inputs token和segmenttoken,加载到分类模型,并设置MLM任务;
设置训练超参数,包括学习率、训练轮次、学习率预热比率和衰减系数;
使用训练数据对分类模型进行迭代训练,直至满足性能指标,得到预训练的分类模型。
6.如权利要求1所述的一种基于自然语言处理的智能育儿系统,其特征在于,纠错反馈的方式包括:
语音反馈的方式,若概率值超过概率阈值,则选择该语音反馈的方式;
文本提醒的方式,若概率值低于概率阈值,则选择该文本提醒的方式。
7.一种基于自然语言处理的智能育儿装置,其特征在于,包括硬件平台和软件系统,软件系统为上述权利要求1-6任一所述的系统,硬件平台包括:
机器人机身,其形状为圆筒形,外表层部分区域覆盖橡胶;
动力系统,其采用驱动轮和万向轮的组合方式,用于为机器人机身的运动提供动力;
传感器系统,其由超声波感应器和其他功能性传感器组成,用于感知周围环境和提供安全性功能;
任务载荷,其为完成特定任务而添加的硬件;
计算主机,包含硬件和软件,硬件包括CPU、NPU神经网络推理卡、存储模块,软件包括操作系统、播放软件、打印系统,用于接收传感器系统或任务载荷传来的数据进行数据分析,并控制其他系统进行反馈,同时存储历史运行数据;
电源系统,采用可充式电池,用于提供不同电耗模式。
CN202311245094.4A 2023-09-25 2023-09-25 一种基于自然语言处理的智能育儿系统和装置 Active CN117453867B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311245094.4A CN117453867B (zh) 2023-09-25 2023-09-25 一种基于自然语言处理的智能育儿系统和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311245094.4A CN117453867B (zh) 2023-09-25 2023-09-25 一种基于自然语言处理的智能育儿系统和装置

Publications (2)

Publication Number Publication Date
CN117453867A CN117453867A (zh) 2024-01-26
CN117453867B true CN117453867B (zh) 2024-04-23

Family

ID=89578881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311245094.4A Active CN117453867B (zh) 2023-09-25 2023-09-25 一种基于自然语言处理的智能育儿系统和装置

Country Status (1)

Country Link
CN (1) CN117453867B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295217A (zh) * 2016-08-19 2017-01-04 吕佳宁 一种孕育机器人
US20200395008A1 (en) * 2019-06-15 2020-12-17 Very Important Puppets Inc. Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models
CN113378579A (zh) * 2021-05-31 2021-09-10 五八到家有限公司 一种语音录入结构化数据的方法、系统及电子设备
CN113807973A (zh) * 2021-09-16 2021-12-17 平安科技(深圳)有限公司 文本纠错方法、装置、电子设备及计算机可读存储介质
CN114444479A (zh) * 2022-04-11 2022-05-06 南京云问网络技术有限公司 一种端到端中文语音文本纠错方法、装置和存储介质
CN114757169A (zh) * 2022-03-22 2022-07-15 中国电子科技集团公司第十研究所 基于albert模型自适应小样本学习智能纠错方法
CN115858758A (zh) * 2022-12-28 2023-03-28 国家电网有限公司信息通信分公司 一种多非结构化数据识别的智慧客服知识图谱系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295217A (zh) * 2016-08-19 2017-01-04 吕佳宁 一种孕育机器人
US20200395008A1 (en) * 2019-06-15 2020-12-17 Very Important Puppets Inc. Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models
CN113378579A (zh) * 2021-05-31 2021-09-10 五八到家有限公司 一种语音录入结构化数据的方法、系统及电子设备
CN113807973A (zh) * 2021-09-16 2021-12-17 平安科技(深圳)有限公司 文本纠错方法、装置、电子设备及计算机可读存储介质
CN114757169A (zh) * 2022-03-22 2022-07-15 中国电子科技集团公司第十研究所 基于albert模型自适应小样本学习智能纠错方法
CN114444479A (zh) * 2022-04-11 2022-05-06 南京云问网络技术有限公司 一种端到端中文语音文本纠错方法、装置和存储介质
CN115858758A (zh) * 2022-12-28 2023-03-28 国家电网有限公司信息通信分公司 一种多非结构化数据识别的智慧客服知识图谱系统

Also Published As

Publication number Publication date
CN117453867A (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
Golinkoff et al. Becoming a word learner: A debate on lexical acquisition
Rosenthal et al. Social learning and cognition
Armstrong How literature plays with the brain: The neuroscience of reading and art
Tulving et al. The Oxford handbook of memory
Burling et al. Primate calls, human language, and nonverbal communication [and comments and reply]
Johansen Literary discourse: A semiotic-pragmatic approach to literature
Harré et al. The discursive mind
Riley Language and literacy 3-7: Creative approaches to teaching
Losonsky Linguistic turns in modern philosophy
Harr Language-specific factors in first language acquisition: The expression of motion events in French and German
Andersson et al. Empirical philosophical investigations in education and embodied experience
Worley Corrupting youth: History and principles of philosophical enquiry
Hollich et al. A change is afoot: Emergentist thinking in language acquisition
CN117453867B (zh) 一种基于自然语言处理的智能育儿系统和装置
West Narrative as dialectic abduction
Swanson Knowledge as a Feeling: How Neuroscience and Psychology Impact Human Information Behavior
De Vega et al. Reflecting on the debate
Kearns Meaning, structure and speech acts
Dechaine et al. Linguistics for dummies
Najnin et al. Pragmatically framed cross-situational noun learning using computational reinforcement models
Evans et al. ’Metacognitive Approaches to developing Oracy
Savage-Rumbaugh et al. The fully conscious ape
Peltzer-Karpf et al. Figure-ground segregation in visual and linguistic development: A dynamic systems account
Franchi et al. Linguistic primitives: A new model for language development in robotics
Parrish Text-influenced expressions of understanding: Differences in kindergartners’ discourse and written retellings of traditional and digital texts during buddy reading

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An intelligent parenting system and device based on natural language processing

Granted publication date: 20240423

Pledgee: China Postal Savings Bank Co.,Ltd. Wuhan Branch

Pledgor: Yunqi Intelligent Technology Co.,Ltd.

Registration number: Y2024980029917