CN117972107A - 一种知识内容生成方法及电子设备 - Google Patents
一种知识内容生成方法及电子设备 Download PDFInfo
- Publication number
- CN117972107A CN117972107A CN202410094626.7A CN202410094626A CN117972107A CN 117972107 A CN117972107 A CN 117972107A CN 202410094626 A CN202410094626 A CN 202410094626A CN 117972107 A CN117972107 A CN 117972107A
- Authority
- CN
- China
- Prior art keywords
- text
- knowledge
- user
- chapter
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000003993 interaction Effects 0.000 claims abstract description 45
- 238000012360 testing method Methods 0.000 claims description 48
- 238000004458 analytical method Methods 0.000 claims description 20
- 230000008929 regeneration Effects 0.000 abstract 1
- 238000011069 regeneration method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 36
- 230000004044 response Effects 0.000 description 25
- 238000012549 training Methods 0.000 description 19
- 238000004891 communication Methods 0.000 description 18
- 230000001276 controlling effect Effects 0.000 description 14
- ALSTYHKOOCGGFT-KTKRTIGZSA-N (9Z)-octadecen-1-ol Chemical compound CCCCCCCC\C=C/CCCCCCCCO ALSTYHKOOCGGFT-KTKRTIGZSA-N 0.000 description 12
- 238000013459 approach Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000002787 reinforcement Effects 0.000 description 5
- 230000037361 pathway Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013433 optimization analysis Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
本申请实施例公开一种知识内容生成方法及电子设备,该方法包括:获取用户交互接口传递的由用户输入的第一文本信息和知识偏好,所述知识偏好为用户期望掌握的知识的方向或体系;获取所述第一文本信息对应的第一文本;对所述第一文本进行改写,以生成符合所述知识偏好的第二文本;根据所述用户交互接口的类型,向用户输出所述第二文本。本申请实施例通过收集用户的知识偏好,对第一文本进行改写,完成文本内容的重新生成,实现用户边阅读第二文本边掌握感兴趣的知识,使用户不必刻意记忆或理解知识内容,就能在不知不觉间掌握所学知识的用法,提升用户学习知识的兴趣性、积极性和效率。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种知识内容生成方法及电子设备。
背景技术
在日常生活中人们可以汲取知识内容,例如阅读文章和小说,观看电视剧,浏览网页等。人们对于知识内容具有不同的兴趣偏好和使用习惯,对于知识内容的理解和掌握程度也不同。有些知识内容需要人们去背诵或记忆,有些知识内容需要人们耗费时间去理解和熟悉,才能掌握知识内容的用法。
发明内容
本申请一些实施例提供了一种知识内容生成方法及电子设备,实现根据用户的兴趣偏好,对知识内容进行改写,提升用户学习知识内容的兴趣、积极性和效率。
第一方面,本申请一些实施例提供一种电子设备,包括:
至少一种用户交互接口,用于获取用户输入的第一文本信息和知识偏好,所述知识偏好为用户期望掌握的知识的方向或体系;
控制器,用于执行:
获取所述用户交互接口传递的所述第一文本信息和所述知识偏好;
获取所述第一文本信息对应的第一文本;
对所述第一文本进行改写,以生成符合所述知识偏好的第二文本;
根据所述用户交互接口的类型,向用户输出所述第二文本。
在一些实施例中,所述控制器对所述第一文本进行改写,以生成符合所述知识偏好的第二文本,包括:对所述第一文本进行内容分析,将所述第一文本划分为多个章节,并获取文本分析结果,所述文本分析结果包括多个章节的章节起始位置和章节完结位置,所述章节起始位置和所述章节完结位置用于定位章节;将所述第一文本、所述文本分析结果和所述知识偏好输入至预训练的内容生成模型;获取所述内容生成模型输出的所述第二文本,所述第二文本包括多个章节对应的知识地图,并标记所述知识地图为未读状态;其中,所述知识地图为所述内容生成模型根据所述知识偏好对所述章节进行改写后生成的文本内容。
在一些实施例中,所述控制器还用于执行:在检测到第一章节被用户浏览完结时,标记所述第一章节为已读状态;根据所述第一章节,生成第一问卷,所述第一问卷包括多项测试题目;利用所述第一问卷,测试用户对所述第一章节的掌握程度。
在一些实施例中,所述控制器利用所述第一问卷,测试用户对所述第一章节的掌握程度,包括:获取用户输入的针对多项测试题目的答案信息;将所述答案信息与标准答案进行比较,获取所述第一问卷中的正确题目数量;根据所述正确题目数量和所述第一问卷包括的题目总数,计算用户对所述第一章节的掌握程度。
在一些实施例中,所述控制器还用于执行:根据预先构建的指令库,对所述内容生成模型进行有监督微调;其中,所述指令库包括多个排序的指令,所述指令是用户基于知识的兴趣和偏好对文本改写所提出的可能性命令。
在一些实施例中,所述控制器还用于执行:根据用户提交的问卷测试结果,统计第一知识点和第二知识点;其中,所述问卷测试结果包括所述第一问卷中的测试题目和答案信息,并标记所述测试题目的作答情况,所述作答情况包括回答正确、回答错误和空缺;所述第一知识点包括答案正确的测试题目涉及的知识点,所述第二知识点是包括回答错误和空缺的测试题目涉及的知识点;控制所述内容生成模型调整所述第一知识点和第二知识点的占比。
在一些实施例中,所述控制器控制所述内容生成模型调整所述第一知识点和第二知识点的占比,包括:降低第一比例,所述第一比例为所述第一知识点在所述第二文本中的占比,或者所述第一比例为所述第一知识点在未读章节中的占比;提高第二比例,所述第二比例为所述第二知识点在所述第二文本中的占比,或者所述第二比例为所述第二知识点在未读章节中的占比。
在一些实施例中,所述控制器还用于执行:如果用户对所述第一章节的掌握程度不小于预设阈值,控制所述内容生成模型调整超参数;其中,所述超参数用于根据用户对所述第一章节的掌握程度进行奖励或惩罚,所述超参数包括章节字数、剧情紧凑程度和角色出现概率;如果用户对所述第一章节的掌握程度小于预设阈值,使所述内容生成模型保持当前的超参数不变。
在一些实施例中,所述控制器根据所述用户交互接口的类型,向用户输出所述第二文本,包括:如果所述用户交互接口为语音接口,控制声音播放器播报所述第二文本;其中,所述声音播放器为电子设备内置扬声器,或者通过有线或无线方式外接的播放设备;如果所述用户交互接口为搜索应用接口,控制显示器在搜索结果页面显示所述第二文本;如果所述用户交互接口为对话应用接口,控制显示器在对话页面显示作为回复的所述第二文本。
第二方面,本申请一些实施例还提供一种知识内容生成方法,包括:
获取用户交互接口传递的由用户输入的第一文本信息和知识偏好,所述知识偏好为用户期望掌握的知识的方向或体系;
获取所述第一文本信息对应的第一文本;
对所述第一文本进行改写,以生成符合所述知识偏好的第二文本;
根据所述用户交互接口的类型,向用户输出所述第二文本。
第三方面,本申请一些实施例还提供一种计算机存储介质,该计算机存储介质中存储有程序指令,当程序指令在计算机上运行时,使得计算机执行以上各方面及其各个实现方式中涉及的方法。
本申请实施例提供用户交互接口,收集用户输入的第一文本信息和知识偏好,其中第一文本信息是用户感兴趣的文本(例如小说、文章等),指示偏好是用户期望掌握的知识的方向、形态和体系等,用户交互接口采集后传递给控制器,控制器根据第一文本信息,可以获取相应的文本数据(即第一文本),并对第一文本进行改写,生成与用户的知识偏好相匹配的第二文本,例如用户输入“我要看小说B,中英混合”,则控制器将小说B中的一些词汇编译为英文,得到中英文混合版本的小说B,并基于用户接口的类型,选取输出第二文本的方式(例如语音播报、对话回复等),这样用户可以浏览到符合自己兴趣偏好的第二文本,实现用户边阅读边掌握感兴趣的知识,使用户不必刻意记忆或理解知识内容,就能在不知不觉间掌握所学知识的用法,提升用户学习知识的兴趣性、积极性和效率。
附图说明
为了更清楚地说明本申请一些实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一些实施例提供的语音交互场景的示意图;
图2为本申请一些实施例提供的服务器和电子设备的软件架构配置及交互图;
图3为本申请一些实施例提供的显示设备与控制装置之间操作场景的示意图;
图4为本申请一些实施例提供的控制装置的硬件配置框图;
图5为本申请一些实施例提供的显示设备的硬件配置框图;
图6为本申请一些实施例提供的显示设备中软件配置图;
图7为本申请一些实施例提供的第一种知识内容获取途径的示意图;
图8为本申请一些实施例提供的第二种知识内容获取途径的示意图;
图9为本申请一些实施例提供的第三种知识内容获取途径的示意图一;
图10为本申请一些实施例提供的第三种知识内容获取途径的示意图二;
图11为本申请一些实施例提供的知识内容生成方法的流程图一;
图12为本申请一些实施例提供的第一文本和知识偏好的获取途径示意图一;
图13为本申请一些实施例提供的第一文本和知识偏好的获取途径示意图二;
图14为本申请一些实施例提供的第一文本和知识偏好的获取途径示意图三;
图15为本申请一些实施例提供的第一文本和知识偏好的获取途径示意图四;
图16为本申请一些实施例提供的SFT的预测流程示意图;
图17为本申请一些实施例提供的RM的评估流程示意图;
图18为本申请一些实施例提供的PPO的优化流程图;
图19为本申请一些实施例提供的知识内容生成方法的流程图二;
图20为本申请一些实施例提供的问卷测试的示意图一;
图21为本申请一些实施例提供的问卷测试的示意图二。
具体实施方式
为使本申请示例性实施例的目的、技术方案和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施例中的技术方案进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
基于本申请中示出的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整技术方案。
应当理解,本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,例如能够根据本申请一些实施例图示或描述中给出那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
本申请一些实施例提供的知识内容生成方法可以应用于电子设备,电子设备是可以与用户进行交互的设备,交互方式包括但不限于语音交互、UI交互(又称:文本交互)等。
图1为本申请一些实施例提供的语音交互场景的示意图。参见图1,语音交互场景中包括电子设备200和服务器400。
在一些实施例中,电子设备200可以实现对语音指令的采集、识别和响应,电子设备200示例性包括显示设备200a(例如智能电视、电脑等)、移动终端200b、智能音箱200c等。电子设备200可以配置语音助手应用(例如昵称为:小X),用户通过与语音助手进行交互以输入语音指令,例如用户对着电子设备200说出唤醒词“小X,小X”,在语音助手被唤醒并应答后(例如回复“我在呢”),用户可以根据意图输入相应的语音指令。
在一些实施例中,服务器400与电子设备200可以通过多种通信方式进行数据交互。例如允许电子设备200通过局域网(LAN)、无线局域网(WLAN)或其他网络,与服务器400通信连接。示例性的,电子设备200与服务器400可以进行信息和数据的交互,以及接收软件程序更新等。
服务器400可以配置语音模型,服务器400在接收到电子设备200采集并发送的语音指令后,可以使用语音模型对语音指令进行语音处理(包括预处理和语义解析等)和意图识别,并将识别结果(例如:语音文本、意图指令等)反馈给电子设备200,这样电子设备200可以根据识别结果,对语音指令做出响应,例如识别结果指示为“播放歌曲A”,则电子设备200启动播放器程序,播放歌曲A。
在一些实施例中,服务器400还可以响应于电子设备200的业务请求,将对应的业务数据(例如:应用数据,媒资数据等)发送给电子设备200。服务器400可以与电子设备200中配置的应用程序进行通信,应用程序包括但不限于听歌应用、听书应用、天气查询类应用等。这样,电子设备200在响应语音指令时,可以向服务器400发送资源获取请求,接收服务器400在响应资源获取请求后反馈的目标资源数据,并播报该目标资源数据。
在一些实施例中,例如语音意图识别结果指示为“播放小说B”,则电子设备200可以启动听书应用,听书应用向服务器400发送资源获取请求;服务器400响应该资源获取请求,将小说B的音频资源发送给电子设备200,电子设备200可以控制听书应用播放小说B的音频资源。
在一些实施例中,语音交互场景中可以包括至少一个服务器400。例如:服务器400a用于对电子设备200发送的语音指令进行语音处理和意图识别;服务器400b用于与听歌应用进行交互,实现向听歌应用提供音源,处理听歌应用的其他业务功能;服务器400c用于与听书应用进行交互,实现向听书应用提供电子书的音频资源,处理听书应用的其他业务功能;服务器400d用于与天气查询类应用进行交互,实现根据查询请求提供天气信息,天气信息包括但不限于当前地区当日的气候状态、最低温度、最高温度、实时温度等。
在一些实施例中,服务器400可以是一个服务器集群,也可以是多个服务器集群,可以包括一类或多类服务器。
在一些实施例中,电子设备200可以是硬件设备,也可以是软件装置。当电子设备200为硬件设备时,可以是具有声音采集功能的各种电子设备,包括但不限于:智能电视、智能冰箱、智能空调、智能音箱等家电设备,智能手机、平板电脑、电子书阅读器、智能手表、智能游戏机、计算机、AI设备、机器人、智能车载等终端设备。
在一些实施例中,当电子设备200为软件装置时,可以包括至少一个软件功能模块/服务/模型(例如语音服务、声音采集模块、语音处理模块、业务模块等),该软件装置可以应用于在上述列举的硬件电子设备中。该软件装置可以实现成多个软件或软件模块(例如用来提供声音采集服务),也可以实现成单个软件或软件模块。在此不做具体限定。
图2为本申请一些实施例提供的服务器和电子设备的软件架构配置及交互图。电子设备200在不同的设备类型和操作系统下可以具有不同的软件配置,以配置Android(安卓)操作系统的的电子设备200为例,如图2所示,电子设备200从逻辑上可以分为应用程序(Applications)层(简称“应用层21”)、内核层22和硬件层23。服务器400包括但不限于通信控制模块41、意图识别模块42、数据存储模块43和远场数据扩充模块44。
在一些实施例中,继续参见图2,硬件层23可以包括通信器、检测器和控制器,其中检测器包括声音采集器(例如:麦克风),声音采集器用于采集用户输入的语音。在其他实施例中,硬件层23还可以包括显示器等。
在一些实施例中,继续参见图2,应用层21包括一个或多个应用。应用可以为系统应用,也可以为第三方应用。例如,应用层21可以包括语音应用,语音应用可以提供语音交互界面和相关语音服务,语音应用可以与通信控制模块41进行交互,实现电子设备200与服务器400的通信连接。
在一些实施例中,内核层22作为硬件层23和应用层21之间的软件中间件,用于管理和控制硬件资源和软件资源。
在一些实施例中,内核层22包括检测器驱动,检测器驱动可以包括麦克风驱动,麦克风驱动用于将检测器中麦克风采集的语音数据发送至应用层21的语音应用。在电子设备200中的语音应用启动,电子设备200与服务器400已建立通信连接的情况下,麦克风驱动用于将麦克风采集的语音数据发送至语音应用。之后,语音应用可以将该语音数据发送至服务器中的意图识别模块42;意图识别模块42用于将电子设备200发送的语音数据输入至意图识别模型,意图识别模型可以是配置语音处理、意图识别等算法的模型,用于输出语音数据指示的用户意图,例如用户意图为“播放小说C”。
如果电子设备200为显示设备200a,显示设备200a可以具有多种实施形式。例如,可以是电视、智能电视、激光投影设备、显示器(monitor)、电子白板(electronic bulletinboard)、电子桌面(electronic table)等。图1和图3为显示设备200a的一种示例性实施例。
图3为本申请一些实施例提供的显示设备与控制装置之间操作场景(包括UI交互)的示意图。如图3所示,用户可通过智能终端300或控制装置100对显示设备200a进行操控。
在一些实施例中,控制装置100可以是遥控器100a,遥控器100a和显示设备200a的通信包括红外协议通信或蓝牙协议通信,及其他短距离通信方式,通过无线或有线方式来控制显示设备200a。用户可以通过遥控器100a配置的按键、语音键、控制面板等输入用户指令,来控制显示设备200a。
在一些实施例中,控制装置100还可以是鼠标100b、键盘(图中未示出)等装置。以鼠标100b为例,鼠标100b可以通过有线方式或无线方式与显示设备200a连接,用户可以通过鼠标100b配置的左键、右键或滚轮等输入用户指令,以控制显示设备200a。
在一些实施例中,也可以使用智能终端300(如移动终端、平板电脑、计算机、笔记本电脑等)控制显示设备200a。例如,使用在智能终端300上运行的应用程序控制显示设备200a。
在一些实施例中,显示设备200a可以不使用上述的控制装置100和智能终端300等实体装置接收指令,而是通过触摸、手势或语音等方式接受用户的控制。
在一些实施例中,显示设备200a还可以采用除了控制装置100和智能终端300之外的方式进行控制,例如可以通过显示设备200a设备内部配置的获取语音指令的模块直接接收用户的语音指令,也可以通过显示设备200a设备外部设置的语音控制装置来接收用户的语音指令。
在一些实施例中,显示设备200a还与服务器400进行数据通信。可允许显示设备200a通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200a提供各种内容和互动。服务器400可以是一个集群,也可以是多个集群,可以包括一类或多类服务器。
图4为本申请一些实施例提供的控制装置的配置框图。如图4所示,控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令,并将操作指令转换为显示设备200a可识别和响应的指令,起到用户与显示设备200a之间交互中介作用。用户输入/输出接口140中包括若干按键,例如语音键、确认键、方向键等。
图5为本申请一些实施例提供的显示设备的硬件配置框图。如图5所示,显示设备200a包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。
在一些实施例中,控制器250包括处理器,视频处理器,音频处理器,图形处理器,RAM,ROM,用于输入/输出的第一接口至第n接口。
显示器260包括用于呈现画面的显示屏组件,以及驱动图像显示的驱动组件,用于接收源自控制器输出的图像信号,进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。
在一些实施例中,用户可以通过操作控制装置100,基于UI界面与显示设备200a进行交互,例如文本问答,搜索并查看感兴趣的知识内容或资源(例如小说、文档等)等。
在一些实施例中,显示器260可为液晶显示器、OLED显示器、以及投影显示器,还可以为一种投影装置和投影屏幕。
在一些实施例中,通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如:通信器可以包括Wifi模块,蓝牙模块,有线以太网模块等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。显示设备200a可以通过通信器220与控制装置100或服务器400建立控制信号和数据信号的发送和接收。
用户接口,可用于接收控制装置100(如:红外遥控器100a等)传输的控制信号。
在一些实施例中,检测器230用于采集外部环境或与外部交互的信号。例如,检测器230包括光接收器,用于采集环境光线强度的传感器;或者,检测器230包括图像采集器,如摄像头,可以用于采集外部环境场景、用户的属性或用户交互手势;或者,检测器230包括声音采集器,如麦克风等,用于接收外部声音,例如采集用户输入的语音指令。
外部装置接口240可以包括但不限于如下:高清多媒体接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。
调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号以及EPG数据信号。
控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备200a的工作和响应用户的操作。控制器250控制显示设备200a的整体操作。例如:响应于接收到用于选择在显示器260上显示UI对象的用户命令,控制器250便可以执行与由用户命令选择的对象有关的操作。
在一些实施例中,控制器包括中央处理器(Central Processing Unit,CPU),视频处理器,音频处理器,图形处理器(Graphics Processing Unit,GPU),RAM(Random AccessMemory,RAM),ROM(Read-Only Memory,ROM),用于输入/输出的第一接口至第n接口,通信总线(Bus)等中的至少一种。
用户可在显示器260上显示的图形用户界面(GUI)输入用户命令,则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者,用户可通过输入特定的语音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
“用户界面”,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。
图6为本申请一些实施例提供的显示设备中软件配置图。如图6所示,在一些实施例中,将系统分为四层,从上至下分别为应用程序(Applications)层(简称“应用层”),应用程序框架(Application Framework)层(简称“框架层”),安卓运行时(Android runtime)和系统库层(简称“系统运行库层”),以及内核层。
在一些实施例中,应用程序层中运行有至少一个应用程序,这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等;也可以是第三方开发者所开发的应用程序。在具体实施时,应用程序层中的应用程序包不限于以上举例。
在一些实施例中,应用层可以包括语音应用、搜索应用、问答应用等支持与用户交互的应用。例如,用户可以通过语音查询感兴趣的知识内容,或者,在用户界面提供的搜索控件中搜索知识内容,或者,通过问答应用提问相关知识内容。用户获取知识内容的途径不限于前述几种示例。
框架层为应用程序提供应用编程接口(application programming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心,这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口,可在执行中访问系统中的资源和取得系统的服务。
如图6所示,本申请一些实施例中框架层包括管理器(Managers),内容提供者(Content Provider)等,其中管理器包括以下模块中的至少一个:活动管理器(ActivityManager)用于与系统中正在运行的所有活动进行交互,管理各应用程序的生命周期以及通常的导航回退功能,比如控制应用程序的退出、打开、后退等;位置管理器(LocationManager)用于给系统服务或应用提供了系统位置服务的访问;文件包管理器(PackageManager)用于检索当前安装在设备上的应用程序包相关的各种信息;通知管理器(Notification Manager)用于控制通知消息的显示和清除;窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件,管理所有的窗口程序,比如获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕,控制显示窗口变化(例如窗口缩放、抖动显示、扭曲变形显示等)等。
在一些实施例中,系统运行库层为上层即框架层提供支撑,当框架层被使用时,安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。
在一些实施例中,内核层是硬件和软件之间的层。如图6所示,内核层至少包含以下驱动中的至少一种:音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(例如指纹传感器,温度传感器,压力传感器等)、以及电源驱动等。
在日常生活中人们可以通过不同方式汲取知识内容,知识内容可以包括文本(例如文章、小说、网页资源信息等)、视频(例如电视剧、电影等)、音频(例如有声小说、广播、音乐等)等不同类型,并且知识内容的体系、领域和方向也具有多样性。人们对于知识内容具有不同的兴趣偏好和使用习惯,对于知识内容的理解和掌握程度也不同,有些知识内容需要人们去背诵或记忆,有些知识内容需要人们耗费时间去理解和熟悉,才能熟练掌握相关领域知识的用法。
知识内容具有多种获取途径,包括但不限于如下几种:
图7为本申请一些实施例提供的第一种知识内容获取途径的示意图。参见图7,用户可以通过与电子设备200进行语音交互以获取感兴趣的知识内容。
在一些实施例中,参见图7,用户对电子设备200说出“我要听小说B”,电子设备200的声音采集器(例如麦克风)采集语音数据,并将该语音数据发送给服务器400a;服务器400a解析该语音数据,并返回语音识别结果;电子设备200根据语音识别结果,获知用户要收听小说B,可以向服务器400b请求获取小说B的音频资源,并控制声音播放器播放小说B的音频资源,其中声音播放器可以是电子设备200的内置扬声器或者通过有线或无线方式外接的播放装置(例如音响、蓝牙音响,蓝牙耳机等)。这样,用户通过语音搜索感兴趣的知识内容,并通过收听电子设备200的有声播报来汲取知识内容。
图8为本申请一些实施例提供的第二种知识内容获取途径的示意图。参见图8的视图(a),显示设备200a的主页或某些应用(例如浏览器应用、阅读类应用等)的页面中可设置搜索控件81,用户可以通过控制装置(例如遥控器、鼠标等)点击搜索控件81,实现基于UI的交互。显示设备200a的控制器250响应于用户点击搜索控件81的操作,参见图8的视图(b),控制显示器搜索页面,搜索页面包括第一文本信息输入框81a、显示输入面板82,输入面板82可以包括虚拟键盘821和语音按钮822。
在一些实施例中,参见图8的视图(b),搜索页面还可以显示历史搜索记录,以便用户快速输入历史搜索过的关键词。搜索页面还可以包括清除记录按钮83,清除记录按钮83用于一键清除全部的历史搜索记录。
在一些实施例中,虚拟键盘821是非实体键盘,一般与本机设置的输入法有关,例如英文输入法、中文输入法(例如拼音9键输入、拼音26键输入等)。用户通过控制装置100与虚拟键盘821进行交互以实现打字功能,进而在第一文本信息输入框81a内输入关键词(例如“诗词”),然后触发搜索页面中的搜索按钮81b,则参见图8的视图(c),控制器可以控制显示器显示搜索结果页面83,搜索结果页面83用于显示与用户输入的关键词匹配的搜索结果,搜索结果可以包括资源的内容信息和链接等。这样,用户可以操作控制装置100,在搜索结果页面83中选择感兴趣的目标资源,并查看该目标资源提供的知识内容。
在一些实施例中,控制器250响应于用户点击语音按钮822的操作,启动语音应用,并控制声音采集器采集用户输入的语音数据(例如用户说出“搜索诗词”),语音应用在识别该语音数据后,可以生成并向控制器250发送搜索命令,搜索命令中包含关键词。控制器250响应于该搜索命令,搜索与关键词匹配的资源,并控制显示器显示图8的视图(c)示例的搜索结果页面83。
在一些实施例中,若显示设备200a为笔记本电脑、台式电脑等设备,则可以通过有线方式(例如USB连接)或无线方式(例如蓝牙连接)与实体键盘装置连接。这样,控制器响应于用户点击搜索控件81的操作,可以检测本机是否连接实体键盘装置。如果本机未连接实体键盘装置,则控制显示器显示虚拟键盘821。如果本机已连接实体键盘装置,则控制器不控制显示器显示虚拟键盘821,使用户利用实体键盘装置,例如敲击实体键盘装置上的物理按键(例如拼音键、回车键等),在搜索控件81的第一文本信息输入框81a内输入关键词。
图9为本申请一些实施例提供的第三种知识内容获取途径的示意图。显示设备200a可以安装对话应用(又称:问答应用),参见图9的视图(a),显示设备200a的主页或应用中心可以显示对话应用图标91,控制器250响应于用户点击对话应用图标91的操作,参见图9的视图(b),可以控制显示器显示对话页面92,对话页面92支持用户通过文本形式与对话系统进行交互。
在一些实施例中,继续参见图9的视图(b),对话页面92包括但不限于:提示信息921、第二文本信息输入框922和发送按钮923。其中,提示信息921用于提示用户通过输入并发送文本进行对话操作。在用户点击第二文本信息输入框922时,控制器可以控制显示器在第二文本信息输入框922中显示光标922a,用户可以通过虚拟键盘或实体键盘装置,在第二文本信息输入框922中输入本文A,然后点击发送按钮923。
图10为本申请一些实施例提供的第三种知识内容获取途径的示意图二。控制器响应于用户点击发送按钮923的操作,参见图10的视图(a),在对话页面92中新增文本A对应的消息记录,对话应用接收到文本A,可以控制显示器显示应答状态。例如,文本A示例为“我要看小说Novol1”,如图10的视图(a)所示,应答状态可以呈现为“请稍候,对话系统正在为您搜索小说Novol1…”。
在一些实施例中,对话应用可以向关联的服务器(例如:服务器400d)发送资源获取请求,该资源获取请求包括小说Novol1的标识信息(例如小说的名称、ID等)。服务器400d响应于该资源获取请求,可以将小说Novol1的资源链接(例如URL)反馈给对话应用,对话应用访问小说Novol1的URL,下载小说Novol1的文本内容(简称:文本B),参见图10的视图(b),控制显示器取消应答状态,并在对话页面92中新增文本B对应的消息记录,这样用户可以查看文本B以阅读小说Novol1的内容。其中,用户相当于提问方,对话应用相当于应答方,通过一问一答,完成知识内容的反馈和输出。需要说明的是,知识内容的获取途径和交互方式不限于上述几种实施例,用户可以通过多样化途径汲取不同类型、体系和领域的知识内容。
在一些实施例中,用户可以根据自身兴趣偏好、知识使用环境和场景,完成知识内容的转化和学习。举例说明:在一些工作环境中人与人之间可以使用纯中文交流,在另一些工作环境中人与人之间偏好于使用中英混用的对话交流方式,例如人物甲如果想对人物乙传达“明天我有个会议要开,这边你帮我承担一下”,人物甲可能习惯说成“tomorrow,我有个meeting要开,这边你帮我take on一下”。
在这种中英混用的语言环境中,人物甲需要慢慢学习累积知识和经验,从而掌握在任一语句中哪些文字适合使用中文,哪些词汇需要翻译成英文。例如,人物甲在知识掌握程度较低时,可能会说成“明天,我有个meeting要开,这边你help me承担一下”,人物甲需要耗时时间去学习中英混合的对话知识的惯常用法,例如多听工作环境中其他人的对话,多看涉及中英混用场景的影视等。有些知识需要人去总结经验或者深刻理解,甚至需要背诵或记忆下来,因此人们在学习知识时往往要耗时较长时间才能熟练掌握,导致学习效率低。
为了解决上述技术问题,本申请实施例一种知识内容生成方法及电子设备,旨在实现根据用户的兴趣偏好和对知识内容的掌握情况,对知识内容进行改写,使用户不必刻意记忆或理解知识内容,就能在不知不觉间就能掌握所学知识内容的用法,提升用户学习知识内容的兴趣性、积极性和学习效率。
图11为本申请一些实施例提供的知识内容生成方法的流程图一。参见图11,指示内容生成方法应用于电子设备200,并配置为由电子设备200的控制器执行,该方法包括如下程序步骤:
步骤S111,获取用户输入的第一文本信息和知识偏好。
其中,第一文本是用户通过上述实施例提供的任一途径(例如语音、搜索、对话/问答等),选择的相关资源的原始文本内容。知识偏好是用户期望掌握的知识方向、知识形态、知识领域或者知识体系等。例如,小说B为第一文本,知识偏好为语句中英混用,即用户想要观看小说B的中英混用版本。
图12为本申请一些实施例提供的第一文本和知识偏好的获取途径示意图一。参见图12,针对语音交互场景,用户语音的语句格式配置为“第一文本信息和知识偏好”,例如用户可以对电子设备200说出“我要听中英混用版本的小说B”,或者“播放小说B,中英混用”。这样,语音应用可以从意图识别结果中提取出第一文本信息为小说B,则第一文本为小说B的文本内容,知识偏好为中英混用。
图13为本申请一些实施例提供的第一文本和知识偏好的获取途径示意图二。参见图13,针对搜索场景,用户可以通过虚拟键盘或实体键盘装置,在第一文本信息输入框81a内搜索语句,搜索语句的格式配置为“第一文本信息和知识偏好”,其中第一文本信息和知识偏好之间可以利用空格、逗号(,)、分号(;)、顿号(、)等标点符号进行间隔和区分,或者第一文本信息和知识偏好之间不使用空格或标点符号分隔。例如,用户可以在第一文本信息输入框81a内输入“小说B中英混用”,显示设备200a的搜索应用接收到该搜索语句,从搜索语句中提取出第一文本信息为小说B,则第一文本为小说B的文本内容,知识偏好则为中英混用。
图14为本申请一些实施例提供的第一文本和知识偏好的获取途径示意图三。参见图14,针对对话/问答场景,用户可以通过虚拟键盘或实体键盘装置,在第二文本信息输入框922中输入提问语句,提问语句的格式配置为“第一文本信息和知识偏好”,其中第一文本信息和知识偏好之间可以利用空格、逗号(,)、分号(;)、顿号(、)等标点符号进行间隔和区分,或者第一文本信息和知识偏好之间不使用空格或标点符号分隔。例如,用户可以在第二文本信息输入框922内输入“小说B,中英混用”,显示设备200a的对话应用接收到该提问语句,从该提问语句中提取出第一文本信息为小说B,则第一文本为小说B的文本内容,知识偏好则为中英混用。
图15为本申请一些实施例提供的第一文本和知识偏好的获取途径示意图四。参见图15,针对对话/问答场景,第二文本信息输入框922中可以第一输入区域922a和第二输入区域922b。这样,用户可以在第一输入区域922a中输入第一文本信息,以及,在第二输入区域922b中输入知识偏好,然后点击发送按钮923。对话应用响应于发送按钮923被触发,获取用户在第一输入区域922a已输入的第一文本信息,以及获取用户在第二输入区域922b已输入的知识偏好,从而保证第一文本和知识偏好的精准获取。
需要说明的是,对于搜索场景,搜索控件81的第一文本信息输入框81a可以参照第二文本信息输入框922进行输入区域分区设置,本申请不再赘述。
步骤S112,获取所述第一文本信息对应的第一文本,根据知识偏好,对第一文本进行内容改写,生成第二文本。
在一些实施例中,电子设备200可以选用内容生成模型,并对内容生成模型进行训练。其中,内容生成模型是用于对文本内容进行改写和重生成的语言模型,以使文本内容符合用户的知识偏好。
在一些实施例中,内容生成模型可以选择通用的自然语言模型,例如GPT(Generative Pre-Trained Transformer,生成式预训练变换器)、ChatGPT等模型。其中,GPT模型可以通过预先训练大规模文本数据(例如广泛的网络文本)来学习语言模式和语境,并生成连贯、具有上下文理解能力的文本,实现机器翻译系统、问答系统、情感分析等任务,被用作大型文本数据集转换时的基础模型。ChatGPT模型则是在GPT模型的基础上进行微调和细化的版本,增加针对性的优化和特定领域的训练,以提供更准确、更相关和富有创造性的对话回复,ChatGPT模型可应用于对话/问答场景,例如智能客服、智能助手、文本生成、社交回复/评论等,ChatGPT生成的内容通常为纯文本格式。内容生成模型不限定,可以根据使用场景和环境进行选取,例如针对问答/对话场景,电子设备200可以配置ChatGPT模型。
在一些实施例中,以预训练ChatGPT模型为例,ChatGPT模型的训练流程可以包括预训练和强化训练。
在一些实施例中,ChatGPT模型的预训练流程可以包括:首先电子设备200可以收集大量的待训练数据,待训练数据可以是购置的或者从互联网获取,例如从互联网的网站和论坛上获取对话内容或开放式的聊天记录等,然后对待训练数据进行清洗和过滤,以消除重复、冗余或无效的数据内容,保证数据质量、模型的准确性和稳定性。ChatGPT主要使用Transformer模型结构进行预训练,Transformer模型是一种基于注意力机制的神经网络模型,通过将对话文本和特殊的对话标记结合在一起,形成带有上下文信息的输入,以便让模型更好地理解对话的语义和语境。
在一些实施例中,在预训练时,ChatGPT可以将待训练数据划分为多个batch(批次),每个batch包含多个样本,每个样本由一个或多个对话构成,通过batch生成,可以并行地进行模型训练。为了提高训练效率,ChatGPT可以采用流水线预处理方法,先对数据进行分词和编码等处理,然后进行特定任务的预处理,例如MLM(Masked Language Modeling,掩盖语言建模)。在预训练过程中,ChatGPT会定期保存模型参数,以便重新加载模型或进行下游任务的微调等。
在一些实施例中,预训练模型是基于收集的语料库生成,所以预训练模型并不一定具备真实的知识,模型仅是根据语料库中的统计信息生成回复,而没有一个判断合适与否的机制,导致模型的生成结果可能具有不合适或冒犯性的回复。针对该问题,可以预先构建至少一个知识库,知识库可以覆盖多语种、数学、语文、物理、化学、生物、医学、文学等不同知识领域,以实现对模型进行知识增强,即利用构建的知识库进行对话引导,将知识库与ChatGPT模型相结合,使ChatGPT模型能够从知识库中获取真实的知识,并基于相关知识生成对话的回复内容,从而避免一些错误或不适宜的回复。
ChatGPT模型的强化训练流程可以包括:SFT(Supervised Tine-tuning,有监督微调)、RM(Reward Model,奖励模型)、基于PPO(Proximal Policy Optimization,近端策略优化)的RL(Reinforcement Learning,强化学习)。
在一些实施例中,基于构建的知识库,可以根据SFT策略,利用预先收集的海量对话数据,对预训练的ChatGPT模型进行监督训练和微调,引导ChatGPT采用问答对话的形式输出知识内容。
图16为本申请一些实施例提供的SFT的预测流程示意图,参见图16,可以根据语料库中的文本A生成一个Query(查询),并将Query输入到SFT模型中,由SFT模型输出Response(响应)。假设Query为一个问题,则Response为该问题对应的至少一个答案。
在一些实施例中,预先构建指令库,指令库中包括至少一个指令,指令是用户基于知识的兴趣和偏好可能会对内容改写所提出的要求/命令,例如在知识偏好为文本内容中英混用时,一个示例性的指令为‘将文本内容中的英文占比减少至20%’,以规避因文本中英文过多导致用户无法读懂内容;或者,另一个示例性的指令为‘将文本内容中的英文难度等级设置为初级’,例如减少低频或生僻的英文词汇,提升高频、基础和简易英文的词汇量。可以由人工根据用户偏好对指令库中的指令进行排序。
图17为本申请一些实施例提供的RM的评估流程示意图。参见图17,可以将Query+Response输入至RM模型中,并基于预先构建的指令库,训练RM模型,RM模型可以对ChatGPT生成的文本进行评分,使得ChatGPT的输出结果更符合用户偏好。当ChatGPT生成一个Query对应的k(k≥1)个Response(即TOPk)时,可以基于指令库对输出的TOPk进行排序,这些排序最终被训练为可对答案优劣评分的奖励模型,使ChatGPT更好地预测人类的表达方式。奖励模型的目标是学习人类对于不同答案的偏好,并将这些偏好编码到奖励模型中,这样奖励模型可以在输出奖励信号中给出ChatGPT输出的新Response的得分,从而在后续训练中引导ChatGPT生成符合用户偏好的文本内容。
在一些实施例中,SFT微调和RM奖励机制需要大量人工标注,进一步地,根据RM模型的输出,可以采用基于人工强化学习的近端策略优化(PPO)算法,对SFT模型做进一步微调,使机器脱离“人类老师”,自动检查学习成果,并微调SFT模型策略。PPO通过最大化预期奖励来调整模型的策略,使模型更倾向于选择能够获取更高奖励的答案。
图18为本申请一些实施例提供的PPO的优化流程图。参见图18,PPO纳入了SFT模型中的KL(Kullback-Leibler)散度,KL散度用于表征两个分布函数之间的相似性,并对极远距离进行惩罚。使用KL散度作为惩罚项,可以减少响应(Response)与SFT模型输出的距离,以防止当前模型因过度优化而较大地偏离原始模型。
在一些实施例中,参见图18,可以将Query+Response分别输入当前SFT模型和原始SFT模型,将当前SFT模型和原始SFT模型的输出进行基于log的运算,以计算KL散度,将KM模型输出的奖励信号和KL散度输入给PPO模型,由PPO模型进行策略优化分析和迭代,从而微调SFT模型的策略,包括微调SFT模型中的参数。
在一些实施例中,根据用户选择的知识偏好,电子设备200可以利用已训练的内容生成模型,对用户选择的第一文本进行改写,从而生成符合用户所选知识偏好的第二文本。例如,第一文本为纯中文的小说novol2,用户指定的知识偏好为中英混用,则内容生成模型在小说novol2的基础上,将小说novol2中的特定词汇编译为英文,最终重生成知识语境为中英混用的小说re_novol2(即第二文本),从而使模型生成的第二文本符合用户指定的知识偏好。
在一些实施例中,可以使用类比手段,引导内容生成模型去生成re_novol2。预先定义至少一对作为类比参照的文本(以下简称:预置文本对),预置文本对示例性表示为(novol1,re_novol1),其中novol1为参照文本的原始版本,re_novol1是对novol1进行中英混用改写后的文本版本。
在一些实施例中,可以将预置文本对和novol2输入到内容生成模型,内容生成模型通过对预置文本对进行类比,掌握内容改写的规则,该规则例如为将哪类词汇(例如名词、动词)编译为英文,哪些语法、文字和字符(例如人名、数字等)保持原文等。内容生成模型利用该规则对novol2进行改写,最终生成并输出第二文本re_novol2。
需要说明的是,内容生成模型的类型和训练流程不限于上述实施例的示例,内容生成模型的训练流程可以由电子设备200执行,也可以在服务器端执行,例如服务器在训练完成内容生成模型之后,可以向电子设备200推送消息通知,电子设备200接收到该消息通知,将内容生成模型下载并配置到本机。另外,本申请实施例以中英混用的知识偏好为例,说明模型如何生成新内容,对于其他使用环境、场景和用户偏好,可以适应性参照上述实施例。
步骤S113,根据第一文本和知识偏好的获取途径,向用户输出第二文本。
在一些实施例中,参照图12,针对语音场景,电子设备200可以控制声音播放器,有声播报内容生成模型输出的第二文本,以使用户收听该第二文本。
在一些实施例中,参照图13的视图(b),针对搜索场景,电子设备200可以在搜索结果页面显示内容生成模型输出的第二文本,以使用户浏览该第二文本。
在一些实施例中,参照图14的视图(b),针对对话/问答场景,电子设备200可以在对话页面显示内容生成模型输出的第二文本,以使用户浏览该第二文本。
在一些实施例中,参照图14的视图(b),针对文本中改写之处,内容生成模型可以进行描述、解释或翻译等操作。例如第一文本为“明天我有个会议要开,这边你帮我承担一下”,第二文本为“tomorrow,我有个meeting要开,这边你帮我take on一下”。则电子设备200在显示该第二文本时,可以增加对英文词汇的解释,例如呈现为“tomorrow(明天),我有个meeting(会议)要开,这边您帮我take on(承担)一下”,以使用户能够明白修改成英文的词汇的中文释义,这样就算用户不求甚解,也能在多听或多读文本内容后,掌握中英混用语言环境的用法,例如在一段语句中哪些词汇适合使用英文。
图19为本申请一些实施例提供的知识内容生成方法的流程图二。基于前述实施例,参见图19,知识内容生成方法可以配置在电子设备200中,并由控制器执行,该方法可以包括如下步骤:
步骤一,根据预先构建的知识库,预训练内容生成模型。
步骤二:用户交互接口获取用户输入的第一文本信息和知识偏好。
步骤三:对第一文本信息对应的第一文本进行内容分析,得到文本分析结果。
在一些实施例中,电子设备200可以使用文本分析模型,对第一文本进行内容分析,以获取第一文本的内容属性信息,并根据内容属性信息对第一本文进行等级分类,例如划分为N个等级,每个等级对应一个chapteri(章节/片段),其中i表示章节序号,1≤i≤N,N取值不限定,N大于或等于1。文本分析结果包括chapteri的章节信息,章节信息包括但不限于chapteri的起始位置、完结位置、字数、主题、剧情紧凑程度等信息。
在一些实施例中,电子设备200所使用的文本分析模型不限定。文本分析模型包括但不限于统计语言模型、TextRank(文本排序)模型、主题模型、TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)模型、Content Analysis(内容分析)模型等。
在一些实施例中,如果第一文本属于文学类,例如为小说,则文本分析模型获取小说的内容属性信息,该内容属性信息包括但不限于主题、剧情地图、剧情紧凑程度/剧情节奏、剧情转折点等多重信息。这样,文本分析模型根据该内容属性信息,对小说的文本内容进行分级,得到N个衔接的chapteri,例如chapter1对应主角出生篇,chapter2对应主角成长篇,chapter3对应主角历险篇,chapter4对应主角奋斗篇…。
步骤四:将第一文本、文本分析结果和知识偏好输入至内容生成模型。
步骤五:内容生成模型生成chapteri对应的知识地图,并输出第二文本。
在一些实施例中,内容生成模型根据用户所选知识偏好,将chapteri的文本内容进行改写,例如由纯中文改写为中英混合,将改写后生成的文本内容表示为re_chapteri,则re_chapteri成为chapteri对应的知识地图。
在一些实施例中,参见图19,内容生成模型输出的第二文本中包含N个排序的知识地图,N个知识地图按照第一文本的内容顺序进行排序和无缝衔接。对于语音场景,电子设备200控制声音播放器有声播报第二文本;对于搜索场景、对话/问答场景,电子设备200控制显示器在UI界面显示第二文本。
步骤六:在检测到chapteri浏览完结时,标记chapteri为已读状态,并利用问卷测试用户对已读chapteri的掌握程度Leveli。
在一些实施例中,用户未浏览的chapteri被标记为未读状态,控制器可以监控第二文本的浏览进度,在第二文本的浏览进度达到chapteri的完结位置时,即确定chapteri浏览完结,则将chapteri由未读状态变更为已读状态。
在一些实施例中,在chapteri变更至已读状态时,控制器可以根据chapteri的文本内容,生成对应chapteri的问卷(以下简称:testpaperi)。testpaperi可以包括K个测试题目(questionj),j表示testpaperi中测试题目的序号,1≤j≤K,K取值不限定,K大于1。测试题目的形式不限定,例如为选择题、判断题、填空题等。
在一些实施例中,在chapteri变更至已读状态时,对于语音场景,电子设备200可以控制声音播放器先播报第一测试提示信息,第一测试提示信息例如配置为“为了解您对已读章节的知识掌握程度,请听下面的问卷,并语音回答每个题目”。在第一测试提示信息播报结束后,按照j从1到K递增的顺序,继续控制声音播放器按序播报testpaperi中的questionj,并获取用户语音输入的questionj的答案(以下简称:answerj),直至遍历testpaperi中的K个测试题目,则基于testpaperi的测试结束。
图20为本申请一些实施例提供的问卷测试的示意图一。以对话/问答场景为例,在chapteri变更至已读状态时,电子设备200可以控制显示器在对话页面的上层显示测试提示弹窗201,参见图20,显示测试提示弹窗201包括第二测试提示信息201a、确认按钮201b和取消按钮201c。
在一些实施例中,参见图20,第二测试提示信息201a例如配置为“您已完成一个章节内容的阅读任务,为了解您对已读章节的知识掌握程度,以便更好地提升您的知识水平,建议您参加问卷测试,请问是否进入问卷测试?”。若用户不同意问卷测试,可以点击取消按钮201c,则控制器控制显示器关闭测试提示弹窗201,不控制显示器显示testpaperi。
图21为本申请一些实施例提供的问卷测试的示意图二。若用户同意参加问卷测试,则可点击确认按钮201b,则控制器响应于用户点击确认按钮201b的操作,参见图21,控制显示器关闭测试提示弹窗201,并在对话页面的上层显示问卷弹窗211,问卷弹窗211包括可视化的测试问卷211a和提交按钮211b。
在一些实施例中,参见图21,用户在填写完成测试问卷211a之后,可以点击提交按钮211b,以完成“交卷”。控制器响应于用户点击提交按钮211b的操作,可以控制显示器关闭问卷弹窗211,并获取用户已填写并提交的answerj。
在一些实施例中,控制器可以将answerj与标准答案进行比对,以完成“阅卷”。控制器可以统计正确题的数量K1或者错题的数量K2,其中错题包括回答错误的题目和空缺题目(即用户未作答)。这样,控制器可以根据K、K1和K2,计算掌握程度Leveli,Leveli=K1/K,或者,Leveli=(K-K2)/K。
步骤七:根据预先构建的指令库,对内容生成模型进行有监督微调(例如SFT)。
步骤八:根据用户提交的问卷测试结果,统计第一知识点和第二知识点,控制内容生成模型调整降低第一比例和提高第二比例。
在一些实施例中,问卷测试结果包括testpaperi中的questionj+answerj,并标记questionj的作答情况,作答情况包括回答正确、回答错误和空缺。其中,第一知识点是回答正确的question涉及的知识点,第二知识点包括回答错误和空缺的question涉及的知识点,知识点不限定,例如针对知识偏好为中英混用的场景,知识点可以为英文语法、编译为英文的词汇类别、英文难易等。
在一些实施例中,第一比例为第一知识点在第二文本或未读chapter中的占比,第二比例为第二知识点在第二文本或未读chapter中的占比。通过调整第一比例和第二比例,降低第一知识点的占比,提高第二知识点的占比,使用户在后续阅读第二文本时能够针对掌握程度较低的知识点进行强化学习,从而攻克知识弱点。
步骤九:判断掌握程度Leveli是否小于预设阈值S。
如果Leveli不小于S(包括大于或等于),则执行步骤十;如果Leveli小于S,则执行步骤十一。
步骤十:控制内容生成模型调整超参数。
在一些实施例中,超参数用于根据用户对chapteri的掌握程度Leveli进行奖励或惩罚。如果Leveli不小于S,表明用户对测试的知识点掌握程度较高,则可以调整超参数,以解锁更多用户可能感兴趣的内容。其中,超参数包括但不限于角色(例如主角)出现概率prob、章节字数chapter_length、剧情紧凑程度dense_level等。
在一些实施例中,以小说为例,如果用户对testpaperi测试的知识点掌握程度较高,由于用户在读一篇小说时关注点和兴趣度更多倾向于主角,则内容生成模型可以通过奖励机制,提升角色出现概率prob,以奖励用户获取更多与主角有关的内容,从而激励用户,提升用户对知识学习的积极性和兴趣性。
在一些实施例中,在对小说进行chapter分类时,剧情转折点是一个参考因素,例如将剧情转折点之前的部分内容划分到chapteri,将该剧情转折点之后的内容划分到后续章节中(≥chapteri+1),这样用户在收听/阅读完chapteri时,无法获知转折点之后的精彩剧情,然而用户感兴趣的剧情或小说高潮往往在转折点之后,尤其当剧情不紧凑时,用户可能迟迟无法收听或阅读到感兴趣剧情,导致用户没有耐心或丧失兴趣性。因此,如果用户对testpaperi测试的知识点掌握程度较高,则内容生成模型可以通过奖励机制,扩大章节字数chapter_length,和/或,提高剧情紧凑程度dense_level,以奖励用户可以更快收听或阅读到小说中感兴趣的剧情内容,从而激励用户,提升用户对知识学习的积极性和兴趣性。需要说明的是,内容生成模型还可以调整其他超参数,达到对用户知识掌握程度高的奖励,内容生成模型在控制知识点比例和超参数时可以仅针对未读状态的chapter,或者也可针对第二文本全文。
步骤十一:内容生成模型保持当前的超参数不变。
如果Leveli小于S,表明用户对测试的知识点掌握程度较低,则内容生成模型不调整超参数。这样,可能伴随着剧情不紧凑,角色出现概率低等情况,迫使用户在收听/阅读后续chapter时认真学习chapter涉及的知识点,以及认真对待每次问卷测试,以提升知识掌握程度Leveli,从而获取更多奖励和激励。
本申请实施例可以实现根据用户兴趣偏好和知识掌握程度,调整内容生成模型中的相关参数(例如:知识点比例、超参数等),模型可以输出符合用户知识偏好的文本内容,使用户不必刻意记忆或理解知识内容,就能在不知不觉间掌握所学知识的用法,提升用户学习知识的兴趣性、积极性和效率。
此外,通过知识掌握程度Leveli,调控内容输出模型的超参数,从而同步调整知识地图,这样用户知识掌握程度越高,越能获取模型给予的激励,例如小说剧情更紧凑,用户更容易收听/阅读到精彩剧情或者出现主角的内容,提升用户体验,提升用户学习知识的兴趣性、积极性和效率,加速用户对知识的熟练掌握。
在一些实施例中,本申请一些实施例还提供一种计算机存储介质,该计算机存储介质可存储有程序。当计算机存储介质配置在电子设备200中时,该程序执行时可以包括以上实施例中知识内容生成方法包括的程序步骤。其中,计算机存储介质可为磁碟、光盘、只读存储记忆体(英文:Read-Only Memory,简称ROM)或随机存储记忆体(英文:RandomAccess Memory,简称RAM)等。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释本公开的内容,从而使得本领域技术人员更好的使用所述实施方式。
Claims (10)
1.一种电子设备,其特征在于,包括:
至少一种用户交互接口,用于获取用户输入的第一文本信息和知识偏好,所述知识偏好为用户期望掌握的知识的方向或体系;
控制器,用于执行:
获取所述用户交互接口传递的所述第一文本信息和所述知识偏好;
获取所述第一文本信息对应的第一文本;
对所述第一文本进行改写,以生成符合所述知识偏好的第二文本;
根据所述用户交互接口的类型,向用户输出所述第二文本。
2.根据权利要求1所述的电子设备,其特征在于,所述控制器对所述第一文本进行改写,以生成符合所述知识偏好的第二文本,包括:
对所述第一文本进行内容分析,将所述第一文本划分为多个章节,并获取文本分析结果,所述文本分析结果包括多个章节的章节起始位置和章节完结位置,所述章节起始位置和所述章节完结位置用于定位章节;
将所述第一文本、所述文本分析结果和所述知识偏好输入至预训练的内容生成模型;
获取所述内容生成模型输出的所述第二文本,所述第二文本包括多个章节对应的知识地图,并标记所述知识地图为未读状态;其中,所述知识地图为所述内容生成模型根据所述知识偏好对所述章节进行改写后生成的文本内容。
3.根据权利要求2所述的电子设备,其特征在于,所述控制器还用于执行:
在检测到第一章节被用户浏览完结时,标记所述第一章节为已读状态;
根据所述第一章节,生成第一问卷,所述第一问卷包括多项测试题目;
利用所述第一问卷,测试用户对所述第一章节的掌握程度。
4.根据权利要求3所述的电子设备,其特征在于,所述控制器利用所述第一问卷,测试用户对所述第一章节的掌握程度,包括:
获取用户输入的针对多项测试题目的答案信息;
将所述答案信息与标准答案进行比较,获取所述第一问卷中的正确题目数量;
根据所述正确题目数量和所述第一问卷包括的题目总数,计算用户对所述第一章节的掌握程度。
5.根据权利要求4所述的电子设备,其特征在于,所述控制器还用于执行:
根据预先构建的指令库,对所述内容生成模型进行有监督微调;其中,所述指令库包括多个排序的指令,所述指令是用户基于知识的兴趣和偏好对文本改写所提出的可能性命令。
6.根据权利要求3或5所述的电子设备,其特征在于,所述控制器还用于执行:
根据用户提交的问卷测试结果,统计第一知识点和第二知识点;其中,所述问卷测试结果包括所述第一问卷中的测试题目和答案信息,并标记所述测试题目的作答情况,所述作答情况包括回答正确、回答错误和空缺;所述第一知识点包括答案正确的测试题目涉及的知识点,所述第二知识点是包括回答错误和空缺的测试题目涉及的知识点;
控制所述内容生成模型调整所述第一知识点和第二知识点的占比。
7.根据权利要6所述的电子设备,其特征在于,所述控制器控制所述内容生成模型调整所述第一知识点和第二知识点的占比,包括:
降低第一比例,所述第一比例为所述第一知识点在所述第二文本中的占比,或者所述第一比例为所述第一知识点在未读章节中的占比;
提高第二比例,所述第二比例为所述第二知识点在所述第二文本中的占比,或者所述第二比例为所述第二知识点在未读章节中的占比。
8.根据权利要求3-5任一项所述的电子设备,其特征在于,所述控制器还用于执行:
如果用户对所述第一章节的掌握程度不小于预设阈值,控制所述内容生成模型调整超参数;其中,所述超参数用于根据用户对所述第一章节的掌握程度进行奖励或惩罚,所述超参数包括章节字数、剧情紧凑程度和角色出现概率;
如果用户对所述第一章节的掌握程度小于预设阈值,使所述内容生成模型保持当前的超参数不变。
9.根据权利要求1所述的电子设备,其特征在于,所述控制器根据所述用户交互接口的类型,向用户输出所述第二文本,包括:
如果所述用户交互接口为语音接口,控制声音播放器播报所述第二文本;其中,所述声音播放器为电子设备内置扬声器,或者通过有线或无线方式外接的播放设备;
如果所述用户交互接口为搜索应用接口,控制显示器在搜索结果页面显示所述第二文本;
如果所述用户交互接口为对话应用接口,控制显示器在对话页面显示作为回复的所述第二文本。
10.一种知识内容生成方法,其特征在于,包括:
获取用户交互接口传递的由用户输入的第一文本信息和知识偏好,所述知识偏好为用户期望掌握的知识的方向或体系;
获取所述第一文本信息对应的第一文本;
对所述第一文本进行改写,以生成符合所述知识偏好的第二文本;
根据所述用户交互接口的类型,向用户输出所述第二文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410094626.7A CN117972107A (zh) | 2024-01-23 | 2024-01-23 | 一种知识内容生成方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410094626.7A CN117972107A (zh) | 2024-01-23 | 2024-01-23 | 一种知识内容生成方法及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117972107A true CN117972107A (zh) | 2024-05-03 |
Family
ID=90849055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410094626.7A Pending CN117972107A (zh) | 2024-01-23 | 2024-01-23 | 一种知识内容生成方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117972107A (zh) |
-
2024
- 2024-01-23 CN CN202410094626.7A patent/CN117972107A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11868732B2 (en) | System for minimizing repetition in intelligent virtual assistant conversations | |
CN111033492B (zh) | 为自动化助手提供命令束建议 | |
US7627466B2 (en) | Natural language interface for driving adaptive scenarios | |
Dybkjaer et al. | Evaluation and usability of multimodal spoken language dialogue systems | |
Wahlster | Smartkom: Symmetric multimodality in an adaptive and reusable dialogue shell | |
US7983997B2 (en) | Interactive complex task teaching system that allows for natural language input, recognizes a user's intent, and automatically performs tasks in document object model (DOM) nodes | |
US8156060B2 (en) | Systems and methods for generating and implementing an interactive man-machine web interface based on natural language processing and avatar virtual agent based character | |
Jeon et al. | A systematic review of research on speech-recognition chatbots for language learning: Implications for future directions in the era of large language models | |
US20190340200A1 (en) | Multi-modal interaction between users, automated assistants, and other computing services | |
EP1986175A2 (en) | Method, interface and system for obtaining user input | |
Park et al. | Systematic review on chatbot techniques and applications | |
US11080073B2 (en) | Computerized task guidance across devices and applications | |
Lopatovska et al. | User recommendations for intelligent personal assistants | |
US11790697B1 (en) | Systems for and methods of creating a library of facial expressions | |
US11769013B2 (en) | Machine learning based tenant-specific chatbots for performing actions in a multi-tenant system | |
Wahlster | Dialogue systems go multimodal: The smartkom experience | |
CN112232066A (zh) | 一种教学纲要生成方法、装置、存储介质及电子设备 | |
Becker et al. | Natural and intuitive multimodal dialogue for in-car applications: The SAMMIE system | |
Meena et al. | Human-computer interaction | |
CN113592430B (zh) | 日程管理方法、装置、电子设备、存储介质 | |
CN117972107A (zh) | 一种知识内容生成方法及电子设备 | |
CN110114754B (zh) | 用于应用开发的计算系统、计算机实现的方法和存储介质 | |
CN112017487A (zh) | 一种基于人工智能的平板Flash学习系统 | |
Melichar | Design of multimodal dialogue-based systems | |
Pulliza | Let the Robot Do It for Me: Assessing Voice as a Modality for Visual Analytics for Novice Users |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |