CN114741472A - 辅助绘本阅读的方法、装置、计算机设备及存储介质 - Google Patents

辅助绘本阅读的方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114741472A
CN114741472A CN202210338436.6A CN202210338436A CN114741472A CN 114741472 A CN114741472 A CN 114741472A CN 202210338436 A CN202210338436 A CN 202210338436A CN 114741472 A CN114741472 A CN 114741472A
Authority
CN
China
Prior art keywords
page
interactive
picture book
content
interactive page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210338436.6A
Other languages
English (en)
Inventor
宋伟
李来林
尚跃进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Luka Beijing Intelligent Technology Co ltd
Original Assignee
Beijing Wuling Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wuling Technology Co ltd filed Critical Beijing Wuling Technology Co ltd
Priority to CN202210338436.6A priority Critical patent/CN114741472A/zh
Publication of CN114741472A publication Critical patent/CN114741472A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/062Combinations of audio and printed presentations, e.g. magnetically striped cards, talking books, magnetic tapes with printed texts thereon
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种辅助绘本阅读的方法、装置、计算机设备及存储介质,其中,该辅助绘本阅读的方法包括:获取实时绘本特征,基于绘本数据库和实时绘本特征匹配目标绘本以及目标绘本页;基于目标绘本对应的绘本文本,提取目标绘本页对应的绘本页文本;采用语言处理模块对绘本页文本进行分析,获取互动页内容;基于互动内容数据库对互动页内容进行匹配,若匹配结果为失败,则通过音频处理模块,将互动页内容转换为互动页音频并播放互动页音频。该方法可提升读者尤其是儿童在阅读绘本过程中的参与度,利于读者深入理解绘本内容携带的知识,提高自助学习绘本知识的能力。

Description

辅助绘本阅读的方法、装置、计算机设备及存储介质
技术领域
本发明涉及自然语言理解技术领域,尤其涉及一种辅助绘本阅读的方法、装置、计算机设备及存储介质。
背景技术
绘本是家庭首选的儿童读物,是最适合幼儿阅读的图书。它不仅讲故事,传播知识,还可以全面帮助孩子建构精神世界,培养多元智能。随着越来越多的家长对绘本的认知度不断提升,为幼儿选购大量绘本已成为普遍现象。而并非所有家长都有时间或者有能力带领孩子对绘本进行深度阅读,孩子对于绘本提供的知识并不能实现高效吸收。如何帮助儿童完成对于绘本知识的深度理解成为亟待解决的问题。
发明内容
本发明实施例提供一种辅助绘本阅读的方法、装置、计算机设备及存储介质,以解决帮助儿童完成对于绘本知识的深度理解的问题。
一种辅助绘本阅读的方法,包括:
获取实时绘本特征,基于绘本数据库和实时绘本特征匹配目标绘本以及目标绘本页;
基于目标绘本对应的绘本文本,提取目标绘本页对应的绘本页文本;
采用语言处理模块对绘本页文本进行分析,获取互动页内容;
基于互动内容数据库对互动页内容进行匹配,若匹配结果为失败,则通过音频处理模块,将互动页内容转换为互动页音频并播放互动页音频。
优选地,获取实时绘本特征,基于绘本数据库和实时绘本特征匹配目标绘本以及目标绘本页,包括:
获取在同一待识别绘本页上实时识别的绘本页文字、实时拍摄的绘本页图片或绘本页视频;基于绘本页文字、绘本页图片或绘本页视频,在绘本数据库中进行特征匹配,获取对应的目标绘本以及目标绘本页。
优选地,采用语言处理模块对绘本页文本进行分析,获取互动页内容,包括:
采用语言理解模块处理绘本页文本,生成结构化数据;
结合绘本知识库和语言生成模块对结构化数据进行信息提取,生成互动页内容。
优选地,结构化数据包括关键词;
结合绘本知识库和语言生成模块对结构化数据进行信息提取,生成互动页内容,包括:
提取关键词的词义关系;
基于词义关系和绘本知识库对关键词进行筛选,获取筛选结果作为保留词;
对保留词进行排序、聚合和语法化处理,获取互动页内容。
优选地,互动内容数据库包括用户ID;
在基于互动内容数据库对互动页内容进行匹配之后,还包括:
若匹配结果为成功,则基于用户ID获取互动页内容对应的互动页播放率以及最近播放时间;若互动页播放率大于播放率阈值或者最近播放时间晚于播放时间阈值,则停止转换互动页内容成为互动页音频。
优选地,互动页内容包括互动页问题和互动页答案;
播放互动页音频,包括:
播放互动页问题,在预设问题等待时间后播放互动页答案。
优选地,还包括:
获取互动页内容请求,互动页内容请求包括互动页ID和用户互动音频;
将用户互动音频转换为用户互动文本;
采用语言理解模块对用户互动文本和互动页ID对应的绘本页进行分析,获取互动页回复内容;
将互动页回复内容转换为互动页回复音频并播放互动页回复音频。
一种辅助绘本阅读的装置,包括:
获取绘本特征模块,用于获取实时绘本特征,基于绘本数据库和实时绘本特征匹配目标绘本以及目标绘本页;
提取绘本文本模块,用于基于目标绘本对应的绘本文本,提取目标绘本页对应的绘本页文本;获取互动页内容模块,用于采用语言处理模块对绘本页文本进行分析,获取互动页内容;播放互动页音频模块,用于基于互动内容数据库对互动页内容进行匹配,若匹配结果为失败,则通过音频处理模块,将互动页内容转换为互动页音频并播放互动页音频。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述辅助绘本阅读的方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述辅助绘本阅读的方法。
上述辅助绘本阅读的方法、装置、计算机设备及存储介质,通过语言理解模块分析绘本页文本,生成互动页内容再转化为互动页音频在阅读过程中播放,用于完成绘本的互动阅读,提升读者尤其是儿童在阅读绘本过程中的参与度,利于读者深入理解绘本内容携带的知识,提高自助学习绘本知识的能力,节省人工带读的时间。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中辅助绘本阅读的方法的应用环境示意图;
图2是本发明一实施例中辅助绘本阅读的方法的流程图;
图3是本发明另一实施例中辅助绘本阅读的方法的第一流程图;
图4是本发明另一实施例中辅助绘本阅读的方法的第二流程图;
图5是本发明另一实施例中辅助绘本阅读的方法的第三流程图;
图6是本发明另一实施例中辅助绘本阅读的方法中语言生成模块对结构化数据进行信息提取的流程示意图;
图7是本发明另一实施例中辅助绘本阅读的方法的第四流程图;
图8是本发明另一实施例中辅助绘本阅读的方法的第五流程图;
图9是本发明另一实施例中辅助绘本阅读的方法的全流程示意图;
图10是本发明一实施例中辅助绘本阅读的装置的示意图;
图11是本发明一实施例中计算机设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的辅助绘本阅读的方法,可应用在如图1的应用环境中,该辅助绘本阅读的方法应用在辅助绘本阅读的系统中,该辅助绘本阅读的系统包括客户端和服务器,其中,客户端通过网络与服务器进行通信。客户端又称为用户端,是指与服务器相对应,为客户端提供本地服务的程序。进一步地,客户端为计算机端程序、智能设备的APP程序或嵌入其他APP的第三方小程序。该客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等计算机设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
深度阅读(Deep Reading)是一种基于知识图谱,集成与书籍相关的知识源,具备内容理解、关联分析以及读者行为分析能力,支持个性化、基于上下文感知的知识推荐,向读者主动提供全面、关联、智能的深度知识服务的全新阅读模式。
在一实施例中,如图2所示,提供一种辅助绘本阅读的方法,以该方法应用在图1中的服务器为例进行说明,具体包括如下步骤:
S10.获取实时绘本特征,基于绘本数据库和实时绘本特征匹配目标绘本以及目标绘本页。
其中,绘本特征是可以用于识别出具体为某本绘本的性质特征,比如封面或封底页的独特设计、绘本中某页的图片以及绘本侧面页的设计等。实时绘本特征是本系统实时捕获的绘本特征,用于识别具体绘本,或者具体绘本中的某页。目标绘本是系统通过匹配实时绘本特征后确定的某个绘本。目标绘本页是实时绘本特征是实时绘本特征所在的绘本中的具体页面,可为封面页、绘本中间页或者封底页等。
绘本数据库是存储系统可识别的所有绘本的数据库,可存储的内容可包括每本绘本的ISBN号、书名、作者、摘要、绘本文本、绘本图像以及绘本音频等。
具体地,本实施例提供的辅助绘本阅读的方法可形成一套辅助绘本阅读的系统,为了便于描述,以下将辅助绘本阅读的系统简称为系统。系统可通过实时捕获设备中的摄像头等获取实时绘本特征,将捕获到的实时绘本特征进行特征识别从而定位到目标绘本中的目标绘本页,从而利于后续步骤基于当前目标绘本页准备互动页内容,互动页内容可为当前页面上绘本内容的具体深入讲解,也可为基于绘本页上的内容实时产生的问题,此处不作具体限定。
S20.基于目标绘本对应的绘本文本,提取目标绘本页对应的绘本页文本。
其中,绘本文本是按页记录目标绘本每页显示的文字的文本。
具体地,系统可通过绘本数据库调取出目标绘本对应的绘本文本以及目标绘本页上对应的具体绘本页上的文本作为绘本页文本,从而实现精准互动,形成场景化个性化的互动页内容。
S30.采用语言处理模块对绘本页文本进行分析,获取互动页内容。
其中,语言理解模块是读取绘本页文本的含义后并生成对应互动页内容的模块。
具体地,自然语言处理(NLP,Natural Language Processing)是通过计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本标志。没有语言,人类的思维也就无从谈起,所以自然语言处理体现了人工智能的最高任务与境界,也就是说,只有当计算机具备了处理自然语言的能力时,机器才算实现了真正的智能。
自然语言处理包括语法分析、语义分析、篇章理解等。从应用角度来看,自然语言处理具有广泛的应用前景。特别是在信息时代,自然语言处理的应用包罗万象,例如:机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
自然语言处理(NLP)分为自然语言理解(NLU)和自然语言生成(NLG),NLU负责理解文本内容,而NLG负责根据信息生成文本内容,该信息可以是语音、视频、图片、文字等等。对应地,于本实施例中,语言处理模块包括语言理解模块和语言生成模块。
自然语言理解(NLU,Natural Language Understanding):使计算机理解自然语言(人类语言文字)等,重在理解。具体来说,就是理解语言、文本等,提取出有用的信息,用于下游的任务。它可以是使自然语言结构化,比如分词、词性标注、句法分析等;也可以是表征学习,字、词、句子的向量表示(Embedding),构建文本表示的文本分类;还可以是信息提取,如信息检索(包括个性化搜索和语义搜索,文本匹配等),又如信息抽取(命名实体提取、关系抽取、事件抽取等)。
自然语言生成(NLG,Natural Language Generation):提供结构化的数据、文本、图表、音频、视频等,生成人类可以理解的自然语言形式的文本。NLG又可以分为三大类,文本到文本(text-to-text),如翻译、摘要等、文本到其他(text-to-other),如文本生成图片、其他到文本(other-to-text),如视频生成文本。
S40.基于互动内容数据库对互动页内容进行匹配,若匹配结果为失败,则通过音频处理模块,将互动页内容转换为互动页音频并播放互动页音频。
其中,音频处理模块是将文字转换为音频的模块。
互动内容数据库是记录针对某个用户保存的关于绘本已播放过的互动页内容的数据库,为了避免同一互动页内容多次进行播放,进而提升系统的灵活性和可适用性,提高对于绘本深度学习的实际意义性。
具体地,TTS是人机对话的一部分,让机器能够说话。在内置芯片的支持之下,通过神经网络的设计,文字可智能地转化为自然语音流。TTS技术对文本文件进行实时转换,转换时间之短可以秒计算。在其特有智能语音控制器作用下,文本输出的语音音律流畅,使得听者在听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感。TTS语音合成技术覆盖国标一、二级汉字,具有英文接口,自动识别中、英文,支持中英文混读。所有声音均采用真人普通话为标准发音,实现了120-150个汉字/分钟的快速语音合成,朗读速度达3-4个汉字/秒,使用户可以听到清晰悦耳的音质和连贯流畅的语调。
TTS不仅能帮助有视觉障碍的人阅读计算机上的信息,更能增加文本文档的可读性。TTS应用包括语音驱动的邮件以及声音敏感系统,并常与声音识别程序一起使用。
本实施例可采用TTS(Text-To-Speech,从文本到语音)模块将文本转换为可播放音频也即互动页音频。
本实施例提供的辅助绘本阅读的方法,通过语言理解模块分析绘本页文本,生成互动页内容再转化为互动页音频在阅读过程中播放,用于完成绘本的互动阅读,提升读者尤其是儿童在阅读绘本过程中的参与度,利于读者深入理解绘本内容携带的知识,提高自助学习绘本知识的能力,节省人工带读的时间。
在一具体实施例中,如图3所述,在步骤S10中,即即获取实时绘本特征,基于绘本数据库和实时绘本特征匹配目标绘本以及目标绘本页,具体包括如下步骤:
S11.获取在同一待识别绘本页上实时识别的绘本页文字、实时拍摄的绘本页图片或绘本页视频。
S12.基于绘本页文字、绘本页图片或绘本页视频,在绘本数据库中进行特征匹配,获取对应的目标绘本以及目标绘本页。
具体地,本实施例可采用图像识别工具或者文本识别工具,比如通过ORC(OpticalCharacter Recognition,光学字符识别)电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供语言处理模块进一步编辑加工。
在一具体实施例中,如图4所述,在步骤S30中,即采用语言处理模块对绘本页文本进行分析,获取互动页内容,具体包括如下步骤:
S31.采用语言理解模块处理绘本页文本,生成结构化数据。
S32.结合绘本知识库和语言生成模块对结构化数据进行信息提取,生成互动页内容。
其中,结构化数据是存储在数据库里,可以用常规方法以传统方式进行分析或处理的来逻辑表达实现的数据,这些数据类型大致可以分为两大类:数值数据(图像,数字等等)和类别数据。结构化的数据可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。举例如下表一所示:
id name age gender
<sup>1</sup> Liu Yi 20 male
<sup>2</sup> Chen Er 35 female
<sup>3</sup> Zhang San <sup>28</sup> male
表一
绘本知识库是用于规定绘本互动内容规则的知识图谱库。互动内容规则于本实施例包括:单条的变量或者多条变量的判断,应用情景的提问规则,可提出互动页内容的方式和可提点,互动内容的字数、后续配音的配音人的音色等,比如,判定互动页内容存在红色苹果,可依据应用情景的提问规则向读者提出以下互动问题:“苹果是什么颜色的,英文怎么叫,你知道关于苹果的什么故事或者谚语,你还喜欢什么水果”等。
具体地,系统可通过结构化数据提供的属性和实体,进一步提取出绘本页文本的语义和语义关系,进而根据绘本知识库匹配出对应的互动页内容。
在一具体实施例中,结构化数据包括关键词。如图5和图6所述,在步骤S332中,即结合绘本知识库和语言生成模块对结构化数据进行信息提取,生成互动页内容,具体包括如下步骤:
S321.提取关键词的词义关系。
S322.基于词义关系和绘本知识库对关键词进行筛选,获取筛选结果作为保留词。
S323.对保留词进行排序、聚合和语法化处理,获取互动页内容。
其中,语法化具体包括添加连接词、参考表达式生成以及语言实现等过程。
具体地,本实施例的具体实现过程如下:
(1)1确定内容(content Determination)确定需要包含在生成的目标文章中的信息。
(2)文本结构(Text Structuring)根据确定的内容,合理化的组织文本顺序。以写山文章为例:山脚->山腰->山顶。
(3)句子聚合(Sentence Aggregation)将确定中的内容进行合并,例如有些信息可以组合成一句话。
(4)语法化(Lexicalisation)当每一句话的内容确定以后,在这些内容中添加合适的连接词。
(5)参考表达式生成(Referring Expressiong Generation|REG)对于给定的词和短语,判断出所在的领域,通过REG来进行领域识别,更换为该领域的词汇。
(6)语言实现(Linguistic Realisation)将所有相关的单词和确定的短语组合形成一个结构良好的完整句子。
在一具体实施例中,互动内容数据库包括用户ID。如图7所述,即在步骤S40之后,即在基于互动内容数据库对互动页内容进行匹配之后,还具体包括如下步骤:
S401.若匹配结果为成功,则基于用户ID获取互动页内容对应的互动页播放率以及最近播放时间。
S402.若互动页播放率大于播放率阈值或者最近播放时间晚于播放时间阈值,则停止转换互动页内容成为互动页音频。
其中,互动页播放率为该互动页内容比该互动页所有互动内容的播放次数的比值。最近播放时间即为上次播放相同的互动页内容的最近时间。
播放阈值是播放互动页内容的最大互动页播放率。可以理解地,当某个互动页内容即使最近播放时间未晚于播放时间阈值,但其播放率阈值过高,也应暂时避免再次推送给读者。可以理解地,播放时间阈值即为设置为距离当前时间的间隔时间,可依据应用场景设置为一周、两周等,此处不作具体限定。
本实施例通过设置播放率阈值和播放时间阈值,可有效控制相同的互动页内容的播放次数,避免短时间内多次播放造成重复性问题,并且可形成其他新的问题,提高深度学习绘本阅读知识的可靠性和有效性。
在一具体实施例中,互动页内容包括互动页问题和互动页答案。在步骤S40中,即播放互动页音频,具体包括如下步骤:
S41.播放互动页问题,在预设问题等待时间后播放互动页答案。
具体地,本实施例不仅可向读者提出问题,还可继续向读者推出问题的答案,以帮助读者有效理解问题,判定自己给出的答案对错,真正促进深度学习绘本知识的效果,提升学习绘本知识的智能化和自助化。
在一具体实施例中,如图8所述,即还具体包括如下步骤:
S501.获取互动页内容请求,互动页内容请求包括互动页ID和用户互动音频。
S502.将用户互动音频转换为用户互动文本。
S503.采用语言理解模块对用户互动文本和互动页ID对应的绘本页进行分析,获取互动页回复内容。
S504.将互动页回复内容转换为互动页回复音频并播放互动页回复音频。
具体地,互动页内容请求是读者通过绘本页上主动发起提问的请求,便于无人协助阅读绘本时,读者若对当前绘本页存在疑问,可及时通过绘本页上的指示按钮等向提供提出问题,以使系统真正成为辅助阅读的伴读伙伴。
可以理解地,为了更加精确地理解读者提出的问题的含义,互动页内容请求是包括提问时所在的绘本页的页数,也即互动页ID所代表的绘本页的页数。用户互动音频即为用户输入系统的提问音频。
本实施例提供的辅助绘本阅读的方法,如图9所示,通过语言理解模块分析绘本页文本,生成互动页内容再转化为互动页音频在阅读过程中播放,用于完成绘本的互动阅读,提升读者尤其是儿童在阅读绘本过程中的参与度,利于读者深入理解绘本内容携带的知识,提高自助学习绘本知识的能力,节省人工带读的时间。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种辅助绘本阅读的装置,该辅助绘本阅读的装置与上述实施例中辅助绘本阅读的方法一一对应。如图10所示,该辅助绘本阅读的装置包括获取绘本特征模块10、提取绘本文本模块20、获取互动页内容模块30和播放互动页音频模块40。各功能模块详细说明如下:
获取绘本特征模块10,用于获取实时绘本特征,基于绘本数据库和实时绘本特征匹配目标绘本以及目标绘本页。
提取绘本文本模块20,用于基于目标绘本对应的绘本文本,提取目标绘本页对应的绘本页文本。
获取互动页内容模块30,用于采用语言处理模块对绘本页文本进行分析,获取互动页内容。
播放互动页音频模块40,用于基于互动内容数据库对互动页内容进行匹配,若匹配结果为失败,则通过音频处理模块,将互动页内容转换为互动页音频并播放互动页音频。
优选地,获取绘本特征模块10包括获取实时绘本页文字子模块和获取目标绘本页子模块。各功能模块详细说明如下:
获取实时绘本页文字子模块,用于获取在同一待识别绘本页上实时识别的绘本页文字、实时拍摄的绘本页图片或绘本页视频。
获取目标绘本页子模块,用于基于绘本页文字、绘本页图片或绘本页视频,在绘本数据库中进行特征匹配,获取对应的目标绘本以及目标绘本页。
优选地,获取互动页内容模块30包括生成结构化数据子模块和生成互动页内容子模块。各功能模块详细说明如下:
生成结构化数据子模块,用于采用语言理解模块处理绘本页文本,生成结构化数据。
生成互动页内容子模块,用于结合绘本知识库和语言生成模块对结构化数据进行信息提取,生成互动页内容。
优选地,生成互动页内容子模块包括提取词义关系单元、获取保留词单元和获取互动页内容单元。各功能模块详细说明如下:
提取词义关系单元,用于提取关键词的词义关系。
获取保留词单元,用于基于词义关系和绘本知识库对关键词进行筛选,获取筛选结果作为保留词。
获取互动页内容单元,用于对保留词进行排序、聚合和语法化处理,获取互动页内容。
优选地,该辅助绘本阅读的装置还包括获取播放时间模块和停止转换互动页内容模块。各功能模块详细说明如下:
获取播放时间模模块,用于若匹配结果为成功,则基于用户ID获取互动页内容对应的互动页播放率以及最近播放时间。
停止转换互动页内容模块,用于若互动页播放率大于播放率阈值或者最近播放时间晚于播放时间阈值,则停止转换互动页内容成为互动页音频。
优选地,播放互动页音频模块40包括播放互动页问题子模块。功能模块详细说明如下:
播放互动页问题子模块,用于播放互动页问题,在预设问题等待时间后播放互动页答案。
优选地,该辅助绘本阅读的装置还包括获取内容请求模块、转换用户互动文本模块、获取回复内容模块和播放互动页回复音频模块。各功能模块详细说明如下:
获取内容请求模块,用于获取互动页内容请求,互动页内容请求包括互动页ID和用户互动音频。
转换用户互动文本模块,用于将用户互动音频转换为用户互动文本。
获取回复内容模块,用于采用语言理解模块对用户互动文本和互动页ID对应的绘本页进行分析,获取互动页回复内容。
播放互动页回复音频模块,用于将互动页回复内容转换为互动页回复音频并播放互动页回复音频。
关于辅助绘本阅读的装置的具体限定可以参见上文中对于辅助绘本阅读的方法的限定,在此不再赘述。上述辅助绘本阅读的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于辅助绘本阅读的方法相关的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种辅助绘本阅读的方法。
在一实施例中,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例辅助绘本阅读的方法,例如图2所示S10至步骤S40。或者,处理器执行计算机程序时实现上述实施例中辅助绘本阅读的装置的各模块/单元的功能,例如图10所示模块10至模块40的功能。为避免重复,此处不再赘述。
在一实施例中,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例辅助绘本阅读的方法,例如图2所示S10至步骤S40。或者,该计算机程序被处理器执行时实现上述装置实施例中辅助绘本阅读的装置中各模块/单元的功能,例如图10所示模块10至模块40的功能。为避免重复,此处不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种辅助绘本阅读的方法,其特征在于,包括:
获取实时绘本特征,基于绘本数据库和所述实时绘本特征匹配目标绘本以及目标绘本页;
基于所述目标绘本对应的绘本文本,提取所述目标绘本页对应的绘本页文本;
采用语言处理模块对所述绘本页文本进行分析,获取互动页内容;
基于互动内容数据库对所述互动页内容进行匹配,若匹配结果为失败,则通过音频处理模块,将所述互动页内容转换为互动页音频并播放所述互动页音频。
2.根据权利要求1所述的辅助绘本阅读的方法,其特征在于,所述获取实时绘本特征,基于绘本数据库和所述实时绘本特征匹配目标绘本以及目标绘本页,包括:
获取在同一待识别绘本页上实时识别的绘本页文字、实时拍摄的绘本页图片或绘本页视频;
基于所述绘本页文字、绘本页图片或绘本页视频,在所述绘本数据库中进行特征匹配,获取对应的目标绘本以及所述目标绘本页。
3.根据权利要求1所述的辅助绘本阅读的方法,其特征在于,所述采用语言处理模块对所述绘本页文本进行分析,获取互动页内容,包括:
采用语言理解模块处理所述绘本页文本,生成结构化数据;
结合绘本知识库和语言生成模块对所述结构化数据进行信息提取,生成所述互动页内容。
4.根据权利要求3所述的辅助绘本阅读的方法,其特征在于,所述结构化数据包括关键词;
所述结合绘本知识库和语言生成模块对所述结构化数据进行信息提取,生成所述互动页内容,包括:
提取关键词的词义关系;
基于所述词义关系和所述绘本知识库对所述关键词进行筛选,获取筛选结果作为保留词;
对所述保留词进行排序、聚合和语法化处理,获取所述互动页内容。
5.根据权利要求1所述的辅助绘本阅读的方法,其特征在于,所述互动内容数据库包括用户ID;
在所述基于互动内容数据库对所述互动页内容进行匹配之后,还包括:
若匹配结果为成功,则基于用户ID获取所述互动页内容对应的互动页播放率以及最近播放时间;
若所述互动页播放率大于播放率阈值或者最近播放时间晚于播放时间阈值,则停止转换所述互动页内容成为所述互动页音频。
6.根据权利要求1所述的辅助绘本阅读的方法,其特征在于,所述互动页内容包括互动页问题和互动页答案;
播放所述互动页音频,包括:
播放所述互动页问题,在预设问题等待时间后播放所述互动页答案。
7.根据权利要求1所述的辅助绘本阅读的方法,其特征在于,还包括:
获取互动页内容请求,所述互动页内容请求包括互动页ID和用户互动音频;
将所述用户互动音频转换为用户互动文本;
采用所述语言理解模块对所述用户互动文本和所述互动页ID对应的绘本页进行分析,获取互动页回复内容;
将所述互动页回复内容转换为互动页回复音频并播放所述互动页回复音频。
8.一种辅助绘本阅读的装置,其特征在于,包括:
获取绘本特征模块,用于获取实时绘本特征,基于绘本数据库和所述实时绘本特征匹配目标绘本以及目标绘本页;
提取绘本文本模块,用于基于所述目标绘本对应的绘本文本,提取所述目标绘本页对应的绘本页文本;
获取互动页内容模块,用于采用语言处理模块对所述绘本页文本进行分析,获取互动页内容;
播放互动页音频模块,用于基于互动内容数据库对所述互动页内容进行匹配,若匹配结果为失败,则通过音频处理模块,将所述互动页内容转换为互动页音频并播放所述互动页音频。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述辅助绘本阅读的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述辅助绘本阅读的方法。
CN202210338436.6A 2022-04-01 2022-04-01 辅助绘本阅读的方法、装置、计算机设备及存储介质 Pending CN114741472A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210338436.6A CN114741472A (zh) 2022-04-01 2022-04-01 辅助绘本阅读的方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210338436.6A CN114741472A (zh) 2022-04-01 2022-04-01 辅助绘本阅读的方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN114741472A true CN114741472A (zh) 2022-07-12

Family

ID=82279220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210338436.6A Pending CN114741472A (zh) 2022-04-01 2022-04-01 辅助绘本阅读的方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114741472A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117765779A (zh) * 2024-02-20 2024-03-26 厦门三读教育科技有限公司 基于孪生神经网络的儿童绘本智能化导读方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117765779A (zh) * 2024-02-20 2024-03-26 厦门三读教育科技有限公司 基于孪生神经网络的儿童绘本智能化导读方法及系统
CN117765779B (zh) * 2024-02-20 2024-04-30 厦门三读教育科技有限公司 基于孪生神经网络的儿童绘本智能化导读方法及系统

Similar Documents

Publication Publication Date Title
US7860705B2 (en) Methods and apparatus for context adaptation of speech-to-speech translation systems
US11704501B2 (en) Providing a response in a session
Juola et al. A prototype for authorship attribution studies
WO2019100350A1 (en) Providing a summary of a multimedia document in a session
KR102041621B1 (ko) 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법
CN110597952A (zh) 信息处理方法、服务器及计算机存储介质
KR102644992B1 (ko) 교육 컨텐츠 주제 기반의 대화형 인공지능 아바타 영어 말하기 교육 방법, 장치 및 이에 대한 시스템
KR20050086478A (ko) 언어 변환 시스템 및 방법과 프로그램 저장 장치
George et al. Conversational implicatures in English dialogue: Annotated dataset
Schulze et al. Intelligent CALL
Mahyoob et al. A proposed framework for human-like language processing of ChatGPT in academic writing
Dhanjal et al. An optimized machine translation technique for multi-lingual speech to sign language notation
CN114741472A (zh) 辅助绘本阅读的方法、装置、计算机设备及存储介质
Aliyeva Text Linguistics and the Use of Linguistic Data in Modern Technologies: Prospects for Development
Toyoda Evaluation of computerised reading-assistance systems for reading Japanese texts–from a linguistic point of view
US20230069113A1 (en) Text Summarization Method and Text Summarization System
KR102350359B1 (ko) 음성 인식 알고리즘을 이용한 영상 편집 방법
Navalakha et al. Review of Chatbot system in Marathi language
Bhagwat et al. Review of Chatbot system in Hindi language
KR20230080849A (ko) 실시간 온라인 전문 강의용 주제 친화적 자막 생성 방법 및 시스템
Khoshafah et al. Effect of Diacritics on Machine Translation Performance: A Case Study of Yemeni Literature
Jiang SDW-ASL: A Dynamic System to Generate Large Scale Dataset for Continuous American Sign Language
RKDMP et al. Real-time sign language translator
JP2005092616A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Trotta Italian Multimodal Corpus: Verbal and Non-Verbal Communication in Political Domain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100000 Room D529, No. 501, Floor 5, Building 2, Fourth District, Wangjing Dongyuan, Chaoyang District, Beijing

Applicant after: Beijing Wuling Technology Co.,Ltd.

Address before: Room 06, 2163, 13 / F, building 523, Wangjing Dongyuan, Chaoyang District, Beijing 100102

Applicant before: Beijing Wuling Technology Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230105

Address after: 100000 Room 815, Floor 8, Building 6, Yard 33, Guangshun North Street, Chaoyang District, Beijing

Applicant after: Luka (Beijing) Intelligent Technology Co.,Ltd.

Address before: 100000 Room D529, No. 501, Floor 5, Building 2, Fourth District, Wangjing Dongyuan, Chaoyang District, Beijing

Applicant before: Beijing Wuling Technology Co.,Ltd.