CN113609103A

CN113609103A - 一种基于ai的交互式阅读支持数据库构建方法及系统

Info

Publication number: CN113609103A
Application number: CN202110940321.XA
Authority: CN
Inventors: 毋东明; 张嘉祥; 王磊磊; 黄运鑫; 谢江博; 王霞娇; 孙颖钰
Original assignee: Shanxi Chuanshi Technology Co ltd
Current assignee: Shanxi Chuanshi Technology Co ltd
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2021-11-05

Abstract

本发明公开了一种基于AI的用户交互式阅读支持数据系统的构建方法，包括以下步骤：S1、采集、输入或生成文本、语音、图像、动画及相关阅读素材数据；S2、采集、输入用户的基本信息、新手任务、阅读历史记录、阅读过程记录及相关数据，用于识别用户阅读能力；S3、对数据进行挖掘与分析，得到各文本、语音、图像、动画之间的相关性数据，合成交互式虚拟陪伴实体对话角色引导数据；S4、构建数据库，用于存储数据；S5、构建数据管理单元，管理各数据库。本发明通过软硬件协同配合进行数据采集和处理，用于主动引导式的儿童在线阅读平台产品开发，通过用户端、管理端与云端的大数据协同，实现对大批量用户的个性化在线阅读的服务支持。

Description

一种基于AI的交互式阅读支持数据库构建方法及系统

技术领域

本发明涉及在线儿童教育与计算机信息交互技术领域，尤其涉及一种基于AI的交互式阅读支持数据库构建方法及系统。

背景技术

近些年，很多发达国家相继出台了早期儿童学习与发展指南，对于有效转变公众的教育观念，有针对性地指导教师、引导家长，提高学前教育机构的保教质量发挥了重要作用。我国教育部 2012年发布了《3-6岁儿童学习与发展指南》，从健康、语言、社会、科学、艺术等五个领域描述幼儿学习与发展，分别对3至4岁、4至5岁、5至6岁三个年龄段末期幼儿应该知道什么、能做什么，大致可以达到什么发展水平提出了合理期望。但是截止到目前，尚未发现对该《指南》进行系统化落实的信息化平台、方法及工具。

3-6岁学前少儿传统的识字及书面阅读学习方式，一般采用有人陪伴和引导的字卡、识字教材、识字动画片、识字课程等进行，多数均为单向灌输式原理，少儿往往无法在阅读语境中独立完成理解、记忆，学习效果和效率较差。同时，传统儿童在阅读的场景中，由于少儿的识字量较少，尤其还未掌握拼音和查字典能力时，必须由老师或父母陪伴，随时告知孩子不认识的字，费时费力。遇到有大量生字的读物时，儿童会倍感吃力，很难建立阅读自信心与成就感，很难培养儿童独立自主学习的习惯与品质。

现有技术中，中国发明申请CN110276078A公开了一种公用素材库建立方法，包括获取公众号信息库中素材数据，制得公众号账户/素材数据表；创建以素材信息为基本知识单元和以素材类别、素材属性类型之间的关联关系为框架的初始素材库；新增素材信息，并更新初始素材库；该发明还公开了上述公用素材库建立系统。该发明可以解决微信公众号运营中素材统一搜集、编辑、分类管理分析的问题，尤其是在编辑素材过程中，通过与素材库中现有标题进行查重，避免标题重复带来用户阅读率的下降、素材库管理更加高效、准确。但是，该方案仅能处理已经信息化处理的素材，而难以处理纸质材料等非信息化处理的素材，同时其缺乏针对性，不能针对儿童阅读需求而提供专业化的阅读素材数据。

中国发明专利申请号CN201910261855.2公开了一种少儿数字阅读指引设备，包括：提取单元，数据采集单元，一级筛选单元、二级筛选单元和排列展示单元。该发明其一方面能够根据少儿自身的兴趣以及爱好对图书进行自动筛选，另一方面能够根据同龄人以及大一岁的其他少儿进行读书的指引，保证少儿的阅读的书都是有益的且合适的，并且能够起到引导作用，使少儿形成正确的读书观；另外随着少儿的年龄增大，形成较为正确的读书观后，该设备能够根据年龄来降低非主观因素在对图书进行筛选中的影响力，保证推荐的图书更符合用户的要求。但是，该发明技术方案存在三方面的不足：一是仅能对书面读物的进行索引和推荐处理，而不能对读物的内容进行处理；二是需要额外购置专用的照明装置，该装置不便携、只能在固定的场所使用，不能像智能手机、智能平板电脑一样随身携带、随时使用；三是其仅仅解决了少儿数字阅读指引问题，不能对具体阅读数据、用户阅读能力、阅读记录等数据进行处理，不支持带有社交属性的群体学习，也不能针对3-6岁儿童学习与发展的个性化阅读需求，进行主动引导式、个性化阅读能力提升模型训练，在该用户下次登录系统时其历史阅读信息也不能自动加载，无法长期、持续提升其独立阅读能力。

发明内容

本发明的目的在于针对现有技术上述的不足，提供一种基于AI的用户交互式阅读支持数据系统构建方法，针对3-6岁儿童学习与发展的个性化阅读需求，构建数据库、用于开发主动引导式的儿童在线阅读平台产品；具体通过设置前端服务器、AI服务器、数据服务器等，采用独特的算法、流程和用户终端传感数据，交互验证用户阅读能力数据，准确判断出用户当前的识字、语义理解等能力，并通过数据采集、处理和展示等，进一步对其下一次阅读给出智能化、个性化推荐，以长期、持续提升其独立阅读能力。

本发明的目的还在于，提供实施上述方法的用户交互式阅读支持数据系统，通过软硬件协同配合进行数据库构建，进行主动引导式的儿童在线阅读平台产品开发；用户端、管理端与云端的大数据通过网络协同，提供对大批量用户的个性化在线阅读服务支持。

为实现上述目的，其提供的技术方案如下：

一种基于AI的用户交互式阅读支持数据系统的构建方法，其特征在于，包括以下步骤：

S1、采集、输入或生成文本、语音、图像、动画及相关阅读素材数据，用于合成交互式阅读材料；

S2、采集、输入用户的基本信息、新手任务、阅读历史记录、阅读过程记录及相关数据，用于识别用户阅读能力；

S3、对S1、S2的数据进行挖掘与分析，得到各文本、语音、图像、动画之间的相关性数据，用于合成交互式虚拟陪伴实体对话角色引导数据；

S4、构建一个或者多个结构化与非结构化数据库，分别用于存储步骤S1、S2、S3的数据；

S5、构建一数据管理单元，与S4的各数据库连接，并根据户交互式阅读支持系统的数据调用、存储或者更新请求，对所述多个数据库中的数据实施对应的操作。

所述的步骤S1，具体还包括以下步骤：

S1-1获取适用于儿童的语料库、自然语言样本集、专用语言样本集、对话引擎，抽取阅读素材数据中文本数据，对数据构建特征工程，建立阅读素材内容分类属性特征、上下文属性特征以及素材标题语义特征；

S1-2使用自然语言样本进行训练，获得通用交互阅读支持模型，以及使用专用语言样本进行训练，获得面向特定用户的专用交互阅读支持模型；

S1-3根据预设测试集，对所述通用交互阅读支持模型以及专用交互阅读支持模型进行迭代，获得混合比例；

S1-4根据所述混合比例，将所述通用交互阅读支持模型以及专用交互阅读支持模型进行混合，得到交互阅读支持模型，并合成基于该支持模型的交互式阅读材料。

所述的步骤S1-1，具体还包括以下步骤：

对语料库的阅读素材中文文本数据，进行分类与各项属性标注：

分类包括：儿歌、童谣、故事、童话、百科、绘本、国学、诗词、诗歌、成语、歇后语、寓言、课文、名篇、作文、笑话、谜语、脑筋急转弯、儿童新闻等；

属性标注包括：标题、作者、关键词、专辑、专题、释义（诗词、古文）等。

所述的步骤S2，具体包括以下步骤：

S2-1：获取用户的多维数据，包括昵称、年龄、性别、年级等用户基础数据，进行用户相关数据构建特征工程，建立用户属性特征、用户时序特征；

S2-2：获取用户的测试记录、阅读记录、阅读场景、阅读交互过程数据，运算、识别、预测该用户的阅读能力，得到该特定用户的阅读能力数据等多维数据。

所述的步骤S3，具体还包括以下步骤：

S3-1、分别获取多篇阅读素材，并逐一转换为数字化数据，存储后获得基础阅读素材数据库；

S3-2、将阅读素材逐一抽取或转换后抽取为UTF-8编码的文本数据，存储后获得阅读素材文本数据库；

S3-3、通过AI 中文NLP机器学习处理工具，对文本数据逐一进行中文分词和标注处理，根据常用汉字的字量、词素量、词量、短语、句式、文本总长度，基于语义自动抽取中文搭配，逐一计算或标注各篇阅读素材的语义理解难度区间阈值；例如将取值区间设定为1～10000，代表阅读该素材需要识读的汉字数量的绝对值，例如需要已掌握500-600字才能识读的素材，则该素材的区间阈值为500-600；

S3-4、通过AI机器深度学习，对各篇素材进行语义计算、义元分类计算，获得事件分类、实体分类、属性分类、属性值分类数据，存储后分别获得阅读素材的事件分类数据库、实体分类数据库、属性分类数据库、属性值分类数据库，并进一步运算获得各篇文本素材之间的文本近似度、主题相关性和主题近似性数据；

S3-5：获取交互式虚拟陪伴实体对话角色数据：获取阅读用户关联的社交主体（爸、妈、爷爷、奶奶、老师、同学、朋友等）的包括称呼、年龄、性别、职业、受教育水平等用户基础数据，进行该社交主体相关数据构建特征工程，建立用户属性特征、用户时序特征；

S3-6：基于步骤S3-1～S3-5得到的数据，通过基于特定角色的对话引擎或话术模板，计算、合成虚拟陪伴实体对话角色引导数据。

所述的步骤S3-3，具体还包括以下步骤：

S3-3-1：进行中文分词，用汉语分词工具，对各篇中文文本阅读素材进行分词处理，检测并处理未收录词；

S3-3-2：批量分类索引处理、标注类型，以热词、关键字为要素将素材文本批量归入类型库；

S3-3-3：进行聚类分析，识别生词量，并根据生词量，及生词出现的频率、位置，根据总词汇量设定难度级别；

S3-3-4：进行文本近似度分析，根据设定的新鲜度（区别度、反向匹配度）阶梯（根据前后文生词量每增加15%为一个等级），计算得到新鲜度分级数据；

S3-3-5：进行文本语义分析，根据设定的内容重复度（以生词出现的总量15%为一个等级）阶梯，将生词出现的位置接近、频率接近、语义接近的两篇或多篇素材标注为互为关联，并得到其相互之间的关联度分级数据；

S3-3-6：时序分析模块：根据新鲜度及关联度分级数据，计算得到各篇阅读素材的文本时序（先后顺序），得到各篇文本阅读素材的时序矢量数据。

所述的步骤S4，具体包括如下步骤：

S4-1构建一个或者多个结构化数据库，分别用于存储管理步骤S1、S2、S3数据的存储、调用、更新管理；结构化数据库为：MySQL，PostgreSQL， Microsoft SQL Server，Oracle中的一种或多种；

S4-2构建一个或多个非结构化数据库，分别用于存储管理步骤S1、S2、S3数据的存储、调用、更新管理；非结构化数据库为：Redis，MongoDB，Elasticsearch，Cassandra，Hbase中的一种或者多种。

所述的步骤S5，具体包括如下步骤：

S5-1：基于docker搭建hadoop+spark+hive+hbase集群，作为分布式大数据管理单元；

S5-2：将该单元与步骤S4的各数据库连接，对数据进行数据源-->ETL-->存储-->分析-->输出全流程管理。

一种实施所述构建方法的基于AI的用户交互式阅读支持数据系统，其特征在于，其包括：其包括通过互联网相互连接并通讯的多个用户终端、管理终端及基于Web或app的运算与服务端，该运算与服务端包括相互连接并通讯的用户管理单元、I/O管理单元、交互阅读管理单元、数据管理单元及运算与控制单元；所述的用户终端、管理终端内置有与该运算与服务端协同工作的应用程序；所述的数据管理单元，用来管理和存储数据，包括相连接并通讯的：用户数据库模块、阅读材料数据库模块、阅读能力数据库模块、阅读交互过程数据库模块、AI模型数据库模块、系统设置数据库模块、数据存储管理模块。

本发明相比现有技术的优点及有益效果是：

1、本发明提供基于AI的用户交互式阅读支持数据系统的构建方法及系统，采用AI与大数据技术，针对3-6岁儿童学习与发展的个性化、自主化、独立化的阅读需求，进行主动引导式的儿童阅读产品开发，对阅读材料进行大批量、智能化数据处理，并针对性的构建多级结构化与非结构化数据相结合的数据库，为大批量的用户提供基于主动引导的、个性化阅读支持服务；本发明提供的阅读支持数据知识齐全、资源丰富，支持有引导的交互式阅读，用户体验轻松、欢快，经测试比采用家长陪伴的纸质阅读材料的阅读能力提升效率可提升30%以上。

2、本发明提供的基于AI的用户交互式阅读支持数据系统的构建方法及系统，通过管理终端或者用户终端，对大量的书面及电子、多媒体读物的文字、图像、语音、视频等内容进行采集、输入，或者由运算与控制单元生成并进行智能化处理，从而进一步运算、生成可匹配用户阅读能力的多媒体读物，突破现有技术的限制，适用于大批量、多类型、个性化阅读材料的整理加工，所构建的数据库适合进行主动引导式的儿童在线阅读平台产品的开发。

3、本发明提供的基于AI的用户交互式阅读支持数据系统的构建方法及系统，可通过智能运算得到用户掌握的单字、词语、语音、句式等数据，进行用户的多维度综合阅读能力综合判断，并训练与其对应的个性化阅读能力提升模型，在该用户下次登录系统时自动加载，以长期、持续提升其独立阅读及认知能力。

4、本发明基于AI的用户交互式阅读支持数据系统的构建方法及系统，通过文本素材处理获得语义理解难度区间阈值、文本近似度、主题相关性和主题近似性数据、合成虚拟陪伴实体对话角色引导数据，可实现为根据不同读者的能力与需求而提供针对性的、逐步提升阅读及认知能力的，有主动引导的交互式阅读支持数据。

5、本发明基于AI的用户交互式阅读支持数据系统的构建方法及系统，创建的虚拟陪伴对话角色的卡通形象，悬浮在用户终端的交互阅读页面上，通过其与用户的交互对话问答语音或动画，主动引导用户进行阅读、理解和沟通，在用户阅读过程中提供实时交互、遇到问题时提供实时指引，降低用户独立阅读的难度，提高阅读的用户体验。

附图说明

图1是本发明实施例AI的用户交互式阅读支持数据系统整体模块结构示意图；

图2是图1中运算与服务端的模块结构示意图。

图3是图2中数据管理单元的模块结构示意图；

图4是本发明实施例的整体网络拓扑结构示意图。

图5是本发明实施例1用户终端交互对话页面示意图。

图6是本发明实施例1的用户终端交互页面示意图；

图7是本发明实施例1的用户终端交互页面操作说明示意图；

图8是本发明实施例2的网络拓扑结构示意图。

图9是本发明实施例2的用户终端交互页面渲染效果示意图；

图10是本发明实施例2用户终端主动式交互对话页面示意图。

具体实施方式

下面结合附图与实施例，对本发明的技术方案进行详细说明。

实施例1：

参见附图1-7，本发明实施例提供的基于AI的用户交互式阅读支持数据系统的构建方法，包括以下步骤：

S1、通过用户端或者管理端，采集、输入或生成文本、语音、图像、动画及相关阅读素材数据，用于合成交互式阅读材料，具体包括；

S1-1运算与控制单元通过用户端或者管理端，获取适用于儿童的语料库、自然语言样本集、专用语言样本集、对话引擎，抽取阅读素材数据中文本数据，对数据构建特征工程，建立阅读素材内容分类属性特征、上下文属性特征以及素材标题语义特征；

S1-2运算与控制单元使用自然语言样本进行训练，获得通用交互阅读支持模型，以及使用专用语言样本进行训练，获得面向特定用户的专用交互阅读支持模型；

S2、采集、输入用户的基本信息、新手任务、阅读历史记录、阅读过程记录及相关数据，用于识别用户阅读能力，具体包括；

S3、运算与控制单元对S1、S2的数据进行挖掘与分析，得到各文本、语音、图像、动画之间的相关性数据，用于合成交互式虚拟陪伴实体对话角色引导数据；

S3-3、运算与控制单元通过AI 中文NLP机器学习处理工具，对文本数据逐一进行中文分词和标注处理，根据常用汉字的字量、词素量、词量、短语、句式、文本总长度，基于语义自动抽取中文搭配，逐一计算或标注各篇阅读素材的语义理解难度区间阈值，本实施例将该区间阈值的取值范围设置为1～10000，代表阅读某篇特定素材需要识读的汉字数量范围（绝对值），例如需要掌握50～60字才能识读该素材，则该素材的语义理解难度阈值为50～60，通常其中的生词占比少于去重后总字数的15%；

S3-4、运算与控制单元通过AI机器深度学习，对各篇素材进行语义计算、义元分类计算，获得事件分类、实体分类、属性分类、属性值分类数据，存储后分别获得阅读素材的事件分类数据库、实体分类数据库、属性分类数据库、属性值分类数据库，并进一步运算获得各篇文本素材之间的文本近似度、主题相关性和主题近似性数据；

S3-5：获取交互式虚拟陪伴实体对话角色数据：获取阅读用户关联的社交主体（包括爸、妈、爷爷、奶奶、老师、同学、朋友等）的包括称呼、年龄、性别、职业、受教育水平等用户基础数据，进行该社交主体相关数据构建特征工程，建立用户属性特征、用户时序特征；

该虚拟陪伴对话角色，是悬浮在用户终端的交互阅读页面上，通过与用户的交互对话问答语音或动画，主动引导用户进行阅读、理解和沟通的虚拟陪伴卡通形象；本实施例中的交互式虚拟陪伴对话角色的卡通形象为“AI魔豆”，其角色为同学（或同龄玩伴），其交互页面设计见图5；

S3-6：基于步骤S3-1～S3-5得到的数据，通过基于特定角色的对话引擎或话术模板，计算、合成虚拟陪伴实体对话角色引导数据；

S4、构建一个或者多个结构化与非结构化数据库，分别用于存储管理步骤S1、S2、S3数据的存储、调用、更新管理；

S5、构建一数据管理单元，与S4的各数据库连接，并根据户交互式阅读支持系统的数据调用、存储或者更新请求，对所述多个数据库中的数据实施对应的操作，具体包括如下步骤：

一种实施前述构建方法的基于AI的用户交互式阅读支持数据系统，其包括：其包括通过互联网相互连接并通讯的多个用户终端、管理终端及基于Web或app的运算与服务端，该运算与服务端包括相互连接并通讯的用户管理单元、I/O管理单元、交互阅读管理单元、数据管理单元及运算与控制单元；所述的用户终端、管理终端内置有与该运算与服务端协同工作的应用程序；所述的数据管理单元，用来管理和存储数据，包括相连接并通讯的用户数据库模块、阅读材料数据库模块、阅读能力数据库模块、阅读交互过程数据库模块、AI模型数据库模块、系统设置数据库模块、数据存储管理模块。

本实施例提供的基于AI的用户交互式阅读支持数据系统系统，其为浏览器/应用服务器/数据库服务器多层结构，其具体包括通过互联网连接并通讯的管理终端、前端服务器、AI服务器、数据服务器、Web服务器、用户终端；所述的管理终端有多个，用来与AI服务器通讯、向该AI服务器导入程序及数据；所述的AI服务器至少有一个，用来接收、存储、处理管理终端传输的数据和程序，并训练机器深度学习的模型；所述的数据服务器至少有一个，用来存储数据；所述的Web服务器至少有一个，用来接收用户终端的请求、验证用户身份，按需调取AI服务器中的数据，并将其反馈给用户终端；所述的用户终端有多个，其内置交互阅读终端支持程序，接收用户指令、采集用户阅读相关的数据，并将其发送给Web服务器。

参见附图5、6、7，其均为用户终端（智能手机或平板电脑）的阅读交互界面，其中显示了用户信息、文本阅读素材、图像、语言、文本近似度（相关性推荐值）等信息，供用户通过该智能终端，在系统页面操作功能提示以及虚拟陪伴角色（卡通形象“AI魔豆”）的主动交互式引导下，完成一篇或者多篇素材的阅读。

本实施例提供的基于AI的用户交互式阅读支持数据系统的数据整理及用户阅读过程为：系统通过用户终端、管理终端分别获取多篇阅读素材，并逐一转换为数字化数据，存储后获得基础阅读素材数据库；通过运算与服务端将阅读素材逐一抽取或转换后抽取为文本数据，存储后获得阅读素材文本数据库；通过AI服务器对文本数据逐一进行中文分词处理，根据常用汉字的字量、词量、组词、短语、句式，逐一计算并标注各篇阅读素材的难度值；通过AI服务器的机器深度学习，对各篇素材进行分类、属性、关联处理，存储后分别获得阅读素材的分类数据库、属性数据库、关联数据库；AI服务器基于所述阅读素材的难度值及已知用户信息，计算特定用户当前阅读能力并得到其阅读能力值，并根据特定用户的阅读能力值，以及85%规则匹配设定数量的阅读素材作为候选阅读素材，存储后获得与该特定用户匹配的候选阅读素材数据库；Web服务器根据用户发出的阅读请求，调取与其匹配的候选阅读素材数据库中的阅读素材，输出到用户使用的智能终端，展示给该用户阅读，并获取用户阅读过程数据；在该用户完成一篇阅读素材的阅读后，AI服务器从候选阅读素材数据库调取分类、属性与该篇素材均接近而且关联度高的另外一篇阅读素材，以支持该用户逐步提升其阅读能力，拓宽其知识宽度；数据服务器将特定用户调取的阅读素材、阅读时间、阅读地点及阅读过程数据进行存储，获得特定用户的阅读记录数据库；数据服务器将所述基础阅读素材数据库、阅读素材文本数据库、分类数据库、属性数据库、关联数据库、候选阅读素材数据库及特定用户的阅读记录数据库，采用统一框架进行管理和存储，完成用户交互式阅读支持数据系统的构建。

当特定的用户进行重复阅读或者长期累进阅读时，该用户再次发出的阅读请求，Web服务器首先从阅读记录数据库调取该用户前次的阅读过程数据，通过AI机器学习对该特定用户的阅读能力值进行运算、调整，然后系统各部分相互配合，完成该特定用户多次阅读的跟踪和支持数据库构建。

一个不具备独立阅读及交互、沟通能力的儿童，将大大影响其能知识学习和身心成长。采用本发明实施例提供的方法及系统，已经开发出在线的“魔方AI阅读平台”，实现对儿童等用户 “识字不用教，阅读不用陪”，降低家长及社会的教育成本。“魔方AI阅读平台”是充分利用AI、大数据、云计算、移动互联网等新一代信息技术，打造的“独立阅读能力培养+家校融合+智能跟踪体系”的智慧教育软硬件结合的在线阅读引导与支持系统。本发明采用对儿童阅读支持数据的智能化处理，配合儿童阅读能力的自适应AI分级，实现阅读材料个性化和主动引导其阅读过程，使儿童用户可以较快的速度进入训练和提供其独立阅读能力，比传统的阅读辅导手段可提前3-4年具备较好的独立阅读能力（识字量达到1000字、正确理解5个类型的阅读材料）。

实施例2：

参见附图8-10，本发明实施例提供的基于AI的用户交互式阅读支持数据构建方法及系统，其与实施例1基本上相同，其不同之处在于：

所述的步骤S3-3，具体还包括以下步骤：

S3-3-1：运算与控制单元进行中文分词，用汉语分词工具，对各篇中文文本阅读素材进行分词处理，检测并处理未收录词；

S3-3-4：进行文本近似度分析，根据设定的新鲜度（区别度、反向匹配度）阶梯（例如根据前后文生字或生词量每增加15%为一个等级），计算得到新鲜度分级数据；

S3-3-6：时序分析模块：根据新鲜度及关联度分级数据，计算得到各篇阅读素材的文本时序（先后顺序），得到各篇文本阅读素材的时序矢量数据，在用户多次、重复、累进阅读时，为基于时序的推荐算法提供数据支持。

本实施例中，所述的运算与服务端的运算与控制单元，包括多个可用区交换机及应用服务器；用户管理单元，包括网关、路由器及负载均衡服务器；I/O管理单元，包括由多个缓存服务器组成的缓存集群；交互阅读管理单元，包括由文件服务器组成的文件服务集群；所述的数据管理单元，包括由多个数据库服务器组成的数据库集群。

本实施例中，所述构建基础阅读素材数据库，是根据常用汉字字典或词库，收集包含文本信息的待阅读素材作为语料，以内容独立的素材篇幅为单位，由工作终端、前端服务器对待阅读语料的文本数据进行采集、命名，将文本转换为txt格式文档，并将多篇素材文档随机分为阅读对象和测试对象，分别生成对话语料数据库进行存储，形成基础阅读素材数据库；

所述基础阅读素材数据库中，还包括单个文字或词组的多媒体数据，包含该文字或词组的读音、教学动画、笔画、字源、组词、例句等数据。

所述基础阅读素材数据库的构建方法，还可以采用如下步骤：

S3-1-1：各工作终端将其采集的文本、图像、视频、语音等信息，提取、分离、转换出对应的文本信息，或者标注与其内容对应的文本信息；

S3-1-2：根据常用汉字词库，收集包含文本信息的待阅读素材作为语料，以内容独立的素材篇幅为单位，由工作终端、前端服务器对待阅读语料的文本数据进行采集、命名，将文本转换为txt格式文档，并将多篇素材文档随机分为阅读对象和测试对象存储进行存储，形成阅读素材数据库；

S3-1-3：根据常用汉字词库，构建以汉字为索引的多媒体词库的步骤，使阅读素材数据库包括与该汉字关联的语音、图像、组词、短语、句式、释义、短故事等；

S3-1-4：将数据经前端服务器或运算与控制单元的AI服务器处理后，存入数据服务器中，得到基础阅读素材数据库。

本实施例构建阅读素材的分类数据库、属性数据库、关联数据库，还可采用如下方法：通过运算与控制单元的AI服务器对阅读素材文本数据库中存储的多篇阅读素材文档，分别进行中文分词处理，根据常用汉字词库，扫描全部的素材文档，统计各篇阅读素材中的词频；根据关键热词的词频，通过SVM机器深度学习算法，训练阅读素材文本关联度分类器，自动进行各阅读素材文档的分类、属性和关联度标注，（或人工辅助标注），分别形成阅读素材的分类数据、属性数据、关联数据，获得机器阅读理解数据集，存储后获得阅读素材的分类数据库、属性数据库、关联数据库。所述的阅读素材文档的分类类型为：健康、语言、社会、科学、艺术五个类型；该关联度标注基于内容关联度85%规则和兴趣关联度85%规则进行。所述的阅读素材文本关联度分类器，训练的阅读元素包括：汉字、语音、图像、组词、短语、句式、释义，以及用户年龄、性别、年级；该阅读素材文本关联度分类器，根据健康、语言、社会、科学、艺术五大类别，分别训练单类别的关联性模型，或训练跨类别的关联性模型；所述的阅读素材文本关联度分类器，训练规则为85%规则，即相互关联的两篇阅读素材，至少其中一种相同的阅读元素的近似度，为大于或等于85%；设定关联度为文本相似度，其预设阈值为85%，判断目标文本近似度的相对大小：若所述相似度＞预设阈值则判断为关联，弱相似度＜预设阈值，判断为无关联。

所述的特定用户阅读能力数据库的构建，还可以采用如下方法：系统引导特定用户终端连接Web服务器注册，并提交用户昵称、年龄、性别、年级等用户数据，AI服务器通过其阅读记录、阅读能力模型，运算、预测该用户的阅读能力，得到该特定用户的阅读能力值；将该特定用户的所述昵称、年龄、性别、年级、阅读记录等数据进行存储，得到用户阅读能力数据库。

用户能力提升模型训练，可采用如下方法实现：运算与控制单元，基于时间序列的预测模型Prophet，将能力、水平、阅读习惯近似的用户分组管理，跟踪、记录、对比各用户能力提升的过程数据，优化能力提升模型。

所述的训练阅读能力提升模型，通过如下方法实现：先用测试对象进行机器阅读能力提升学习得到训练数据，再与用户实际的阅读对象和训练数据进行对比，进行机器学习和模型训练，得到个性化的阅读能力提升模型。

该阅读引导数据库包括：前导读单数据、中导读单数据、后导读单数据；其分别由AI服务器通过机器深度学习，分别生成对话式的该阅读引导数据，在用户终端阅读界面采用浮动窗口的可视化卡通化工具，引导用户对素材的阅读和理解；其中的前导读单数据，是根据阅读素材库的内容，在用户阅读前提出阅读问题，引导用户选择阅读素材、并且提示用户阅读要点，提高用户的阅读兴趣和针对性；中导读单数据，是用来在用户阅读过程中，以可视化浮动窗口的形式，提问题或者回答问题，引导用户联系背景知识，强化理解；后导读单数据，是用来在用户完成单篇阅读素材的阅读后，通过提问题、抛话题、布置阅读任务等形式，加深用户对于素材内容的理解和记忆。

由所述的AI服务器调取阅读引导数据库中的数据，进行机器学习、训练，得到阅读理解任务数据集；所述的AI服务器还内置有对话引导阅读理解模型，其包括文本对话引导阅读理解模型，语音对话引导阅读理解模型，以及图形对话引导阅读理解模型。

所述的导读单数据，是根据素材内容及用户阅读记录等数据，虚拟家长、同学、老师等角色，本实施例“AI魔豆”的角色为老师，为用户提供交互陪伴式的提问、讲述、回应的策略，采用AI对话工具和训练模型生成，支持儿童理解阅读素材，从而在成人、阅读素材和儿童用户之间建立一种社会合作与交往的关系的数据。参见图10，本实施例中的虚拟角色为“AI魔豆”老师，其卡通形象悬浮在交互页面上，通过与用户的对话，引导用户完成阅读。

本发明其他实施例中，还可以对纸质绘本进行数据采集、处理和智能化的难度分析、阅读推荐，实现线上线下相结合的交互式阅读引导。很多家长希望儿童用户阅读纸质绘本与书籍，但无法评估幼儿的识字阅读能力是否可以完成阅读该绘本。幼儿园以及其他教育服务机构设置的线下实体绘本馆，通常会引入大量的绘本并提供借阅服务，家长普遍反映这些绘本的阅读难度难以快速判断，因此并不能根据儿童的当前识字阅读能力进行精准化的绘本选择和交互式阅读引导服务。

采用本发明提供的阅读支持数据库构建方法，可将纸质绘本书籍资源根据其条形码与封面图像作为索引、录入数据库，并进行智能化分析、处理，生成《智选绘本》的列表，根据用户识字阅读能力匹配度进行标识与推荐，通过智能用户终端进行AI测读，得到识字阅读能力数据；当用户选择需要选择的一批纸质绘本后，通过智能终端扫描或者拍照上传绘本的条形码或封面图像到本系统中，系统调取该该绘本的数据、用户识字阅读能力数据，运算后在交互页面上快速输出《识读评估报告》，告知用户阅读能力以该绘本的匹配度、推荐度等关键信息，帮助用户做出准确选择；用户选择纸质绘本后，本发明的数据库系统为其提供同步阅读引导。本系统可以进行纸质绘本阅读前的生字筛选，在用户在智选列表选取绘本、或扫码拍照评估后，本系统可以自动生成该绘本里儿童不认识的生字，首先进行预习，然后再开设纸质绘本的阅读。即用户可以选择先通过智能用户终端选择先在本系统引导下将生字及全文先学习一次、再阅读纸质绘本，也可以选择在阅读纸质绘本时，对遇到生字、生词时在本系统中学习，即在阅读纸质绘本的过程中，通过本系统随时查询生字，完成有主动引导的用户在线阅读。同时，本系统会将用户的阅读记录数据加以保存，供其下次阅读时调取。

通过本发明提供的系统，用户可以选择先学习生字再阅读纸质绘本，或在阅读纸质绘本的过程中，通过本系统随时查询生字，实现线上与线下阅读引导的结合。

对于本发明系统内还未收录的绘本数据，用户可以通过用户终端进行逐页拍照、上传到本系统中，由本系统进行各项数据处理；后台运营、管理人员接收到信息后，通过管理终端进行该绘本信息的录入，然后由系统进行数据处理。

采用本发明技术方案开发的用户终端运行的软件“魔方AI阅读APP”，是专为儿童打造的AI智能阅读平台，以苏霍姆林斯基教育思想和加涅心理学教学论为基础，结合艾宾浩斯的遗忘曲线，进行用户阅读能力持续跟踪和提升规划，设置用户阅读提醒功能，引导用户阅读复习旧的阅读材料或者新的阅读材料，通过为儿童用户提供在线的实时阅读、复习和虚拟陪伴服务，逐步提高其识字、阅读、理解和认知以及人机交互沟通能力。本发明在阅读材料数据库中事先采集、录入了大量的优质图书，包括自然知识、有趣的故事和各类绘本，用户（包括家长）随时可以阅读，让用户从小养成好的阅读习惯，促进用户的知识及心智成长。

本发明上述实施例中AI技术的应用，主要表现在如下几个方面：构建语料库，进行文本分析和向量化处理；训练并使用词性标注模型，进行词性标注；训练自定义的依存分析器，并利用该依存分析器进行句子结构分析；通过主题建模工具建模，对于语料库进行AI训练而获得主题模型；根据在5个不同的主题模型内以85%的主题一致性为标准（关联度），进行上下文的匹配、个性化推荐；在主题模型的基础上，进行文本聚类和文本分类机器深度学习，将相似的文档组合在一起；进行词嵌入：Word2Vec 或Doc2Vec对文本进行向量化处理；用K-means 进行聚类学习；基于排序学习的推荐算法规则推荐阅读材料等。

在本发明的其他实施例中，支持的语言：中文可以是简体、繁体，其他语言包括但不限于日语、韩语、英语、法语、德语等各种语言体系；采用的阅读素材及数据还可以是其他的形式、类型、内容，或划分为其他的阶段和板块，其交互页面也可以采用其他的展示形式，均可以实现本发明的技术效果，在此不再一一列出。

以上仅为本发明的具体实施例，并不以此限定本发明的保护范围；在不违反本发明构思的基础上所作的任何替换与改进，均属本发明的保护范围。

Claims

1.一种基于AI的用户交互式阅读支持数据系统的构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于AI的用户交互式阅读支持数据系统的构建方法，其特征在于，所述的步骤S1，具体还包括以下步骤：

3.根据权利要求2所述的基于AI的用户交互式阅读支持数据系统的构建方法，其特征在于，所述的步骤S1-1，具体还包括以下步骤：

分类包括：儿歌、童谣、故事、童话、百科、绘本、国学、诗词、诗歌、成语、歇后语、寓言、课文、名篇、作文、笑话、谜语、脑筋急转弯、儿童新闻；

属性标注包括：标题、作者、关键词、专辑、专题、释义。

4.根据权利要求1所述的基于AI的用户交互式阅读支持数据系统的构建方法，其特征在于，所述的步骤S2，具体包括以下步骤：

S2-1：获取用户的多维数据，包括昵称、年龄、性别、年级的用户基础数据，进行用户相关数据构建特征工程，建立用户属性特征、用户时序特征；

S2-2：获取用户的测试记录、阅读记录、阅读场景、阅读交互过程数据，运算、识别、预测该用户的阅读能力，得到该特定用户的阅读能力数据的多维数据。

5.根据权利要求1所述的基于AI的用户交互式阅读支持数据系统的构建方法，其特征在于，所述的步骤S3，具体还包括以下步骤：

S3-3、通过AI 中文NLP机器学习处理工具，对文本数据逐一进行中文分词和标注处理，根据常用汉字的字量、词素量、词量、短语、句式、文本总长度，基于语义自动抽取中文搭配，逐一计算或标注各篇阅读素材的语义理解难度区间阈值；

S3-5：获取交互式虚拟陪伴实体对话角色数据：获取阅读用户关联的社交主体的包括称呼、年龄、性别、职业、受教育水平的用户基础数据，进行该社交主体相关数据构建特征工程，建立用户属性特征、用户时序特征；

6.根据权利要求5所述的基于AI的用户交互式阅读支持数据系统的构建方法，其特征在于，所述的步骤S3-3，具体还包括以下步骤：

S3-3-4：进行文本近似度分析，根据设定的新鲜度阶梯，计算得到新鲜度分级数据；

S3-3-5：进行文本语义分析，根据设定的内容重复度阶梯，将生词出现的位置接近、频率接近、语义接近的两篇或多篇素材标注为互为关联，并得到其相互之间的关联度分级数据；

S3-3-6：时序分析模块：根据新鲜度及关联度分级数据，计算得到各篇阅读素材的文本时序，得到各篇文本阅读素材的时序矢量数据。

7.根据权利要求1所述的基于AI的用户交互式阅读支持数据系统的构建方法，其特征在于，所述的步骤S4，具体包括如下步骤：

8.根据权利要求1所述的基于AI的用户交互式阅读支持数据系统的构建方法，其特征在于，所述的步骤S5，具体包括如下步骤：

9.一种实施权利要求1-8之一所述构建方法的基于AI的用户交互式阅读支持数据系统，其特征在于，其包括：其包括通过互联网相互连接并通讯的多个用户终端、管理终端及基于Web或app的运算与服务端，该运算与服务端包括相互连接并通讯的用户管理单元、I/O管理单元、交互阅读管理单元、数据管理单元及运算与控制单元；所述的用户终端、管理终端内置有与该运算与服务端协同工作的应用程序；所述的数据管理单元，用来管理和存储数据，包括相连接并通讯的：用户数据库模块、阅读材料数据库模块、阅读能力数据库模块、阅读交互过程数据库模块、AI模型数据库模块、系统设置数据库模块、数据存储管理模块。

10.根据权利要求9所述的于AI的用户交互式阅读支持数据系统，其特征在于，所述的运算与服务端的运算与控制单元，包括多个可用区交换机及应用服务器；用户管理单元，包括网关、路由器及负载均衡服务器；I/O管理单元，包括由多个缓存服务器组成的缓存集群；交互阅读管理单元，包括由文件服务器组成的文件服务集群；所述的数据管理单元，包括由多个数据库服务器组成的数据库集群。