CN116704828A - 语言及认知辅助系统及方法 - Google Patents

语言及认知辅助系统及方法 Download PDF

Info

Publication number
CN116704828A
CN116704828A CN202210181144.6A CN202210181144A CN116704828A CN 116704828 A CN116704828 A CN 116704828A CN 202210181144 A CN202210181144 A CN 202210181144A CN 116704828 A CN116704828 A CN 116704828A
Authority
CN
China
Prior art keywords
language
processor
information
cognition
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210181144.6A
Other languages
English (en)
Inventor
邓书涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Libuti Technology Service Shanghai Center
Original Assignee
Libuti Technology Service Shanghai Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Libuti Technology Service Shanghai Center filed Critical Libuti Technology Service Shanghai Center
Priority to CN202210181144.6A priority Critical patent/CN116704828A/zh
Publication of CN116704828A publication Critical patent/CN116704828A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/062Combinations of audio and printed presentations, e.g. magnetically striped cards, talking books, magnetic tapes with printed texts thereon
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K7/00Methods or arrangements for sensing record carriers, e.g. for reading patterns
    • G06K7/0008General problems related to the reading of electronic memory record carriers, independent of its reading method, e.g. power transfer
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Toys (AREA)

Abstract

本发明提供一种语言及认知辅助系统和方法,所述系统包括处理器、音箱、麦克风、点读笔、存储器和读卡器,所述处理器与音箱、点读笔、存储器和读卡器连接,所述处理器与麦克风无线连接,所述存储器存储有数据库,包括场景、话题、人员信息。本发明可用于向4岁以下幼儿提供语言及认知辅助服务,以及向其他年龄段的儿童提供语言学习辅助服务,也可用于向早期老年痴呆症患者,脑创伤后康复期病人提供康复辅助,同时也可以用于向没有亲属陪伴的普通老年人提供聊天服务。

Description

语言及认知辅助系统及方法
技术领域
本发明涉及认知辅助技术领域,具体涉及语言及认知辅助系统及方法。
背景技术
儿童认知功能的发育以神经系统成熟为基础,随着年龄的增长及不断接受外界信息的刺激,儿童认知功能逐步发育完善。作为认知的重要组成部分,语言不仅是交流认知过程和结果的工具,同时也扩展了认知的领域。更重要的是,语言本身也提供了一种认知的范式,是认知的重要工具。外国人很难通过翻译体会到中国古诗词的优美意境,是因为外国人不具备中文这一“认知范式(工具)”。同样地,很多优秀的外文著作中国人读起来很难感受到其优秀,也是因为缺乏对应的“范式”。通过学习外语或者方言扩展语言能力,是扩展认知范式,扩展认知能力的重要方法。
众所周知:幼儿的语言能力(无论普通话或者方言)是出生即已经开始发展,并在3-4岁即已基本形成。同样众所周知地:孩子的语言能力完全取决于他的语言环境。一个在中文环境中成长的中国孩子在3岁不会说中文(或某种方言)通常会被认为是语言发展有缺陷的。同样地,一个美国的孩子如果到四岁才开始学习英文,也是不可想象的。
当前,市场上存在各种“智能机器人”,“智能学习机”以及“智能陪伴机器人”等。这些设备通常玩具以及陪伴的属性更高,可以扩充孩子已有语言(比如中文)的能力,也可以提供极其有限的外语教学的辅助(比如儿歌,单词或者故事所起到的熏陶作用)。但是,市场上并不存在有效的适用于超低龄幼儿的,使得原本没有某种语言环境的幼儿可以从无到有地学习并学会这门语言的工具(技术),比如,可以从零开始让美国孩子学会中文的工具(技术)。这是因为,市场上的设备(技术)通常无法营造一种“外语”的语言环境。而这样的外语环境是依赖于对于“场景”的理解的。缺少了对于场景的理解,任何设备都将仅仅是单向的“播放”工具,而无法如同父母般对于“场景”的应答,无法根据场景向幼儿提供对应的语言刺激,也无法对于幼儿的反应进行语言反馈,从而无法真正地创造一个语言的“环境”。在没有中文语言环境的情况下教美国孩子学习中文,其结果可能是孩子学会了一些字词,或者一些歌曲,但是无法真正学会中文。本发明试图解决这样的问题,即:提供一种基于“场景”识别的系统,让没有中文环境的孩子从零开始学会说中文,或者没有外文环境的中国孩子从零开始学会外文。
发明内容
针对现有技术所存在的上述缺点,本发明在于提供语言及认知辅助系统及方法。本发明可用于向4岁以下幼儿提供认知及语言发展辅助服务(尤其是外语及方言),该服务也可以延伸至其他年龄段的儿童;也可用于向早期老年痴呆症患者,脑创伤后康复期病人提供康复辅助;同时也可以用于向没有亲属陪伴的普通老年人提供聊天服务。
为实现上述目的,本发明提供一种语言及认知辅助系统,包括处理器、存储器、音箱、麦克风点读笔和读卡器,所述处理器与音箱、蓝牙扩展器、点读笔和读卡器、存储器连接,所述处理器与麦克风无线连接。
所述存储器存储有数据库,包括场景、话题、音频、人员信息。
上述语言及认知辅助系统,还包括RFID标签、蓝牙信标和传感器,所述RFID标签与读卡器连接,所述蓝牙信标和传感器与处理器连接。
上述传感器包括温湿度传感器、声音传感器、光电传感器以及人体传感器。
上述读卡器为RFID读卡器。
上述辅助系统还包括蓝牙扩展器,所述蓝牙扩展器与处理器和读卡器连接。
上述语言及认知辅助系统还包括摄像头,所述摄像头和处理器连接。
上述语言及认知辅助系统还包括服务器,所述处理器与服务器通过互联网连接。
本发明第二方面提供语言及认知辅助方法,所述方法使用了上述语言及认知辅助系统,包括以下步骤:
(1)麦克风获取所处“场景”内照护者、幼儿以及周围环境的声音信息,将声音信息传输给处理器,同时,RFID标签、蓝牙信标和传感器将采集的信息上传至处理器;
(2)处理器将获取的信息传输给服务器,服务器根据接收的信息与预设的信息匹配,匹配确认对应的“场景”;
(3)在“场景”确定后,处理器调用存储器中存储的历史信息或服务器中的信息以及运用算法选定最终话题;
(4)根据选定的话题,由算法进一步确定该话题对应的语句;
(5)由音箱播放预录制的语句。
上述步骤(1)前还包括步骤(11)训练阶段,通过麦克风在训练阶段获取幼儿的声音信息,将声音信息上传至处理器,再由处理器上传至服务器,与预训练过的模型进行合并训练,形成训练后的幼儿专用ASR模型。
上述步骤(1)中,还可以通过摄像头辅助“场景”识别,摄像头以图片或者视频的方式捕获与“场景”相关的信息,将相关的信息上传至处理器。
上述步骤(1)中,还可以通过点读笔配合专用的印刷品,来读取笔头所在位置的OID编码,并且将OID编码关联得到对应的音频,发送至处理器进行播放。
有益效果
采用本发明提供的技术方案,与已知的公有技术相比,具有如下有益效果:
本发明使用了多项基础的人工智能技术以及物联网技术,将各基础技术综合使用,使得原本通过任何一项单项技术都无法达到的对于幼儿生长活动环境,尤其是幼儿本人的活动以及幼儿周边当前正在发生的活动(“场景”)的理解变为可能,使得对于幼儿的声音的理解变为可能,使得根据当前环境和活动向幼儿播放有意义的可控的音频内容(对话)变为可能,本发明可用于向4岁以下幼儿提供语言及认知辅助服务,以及向其他年龄段的儿童提供语言学习辅助服务,也可用于向早期老年痴呆症患者,脑创伤后康复期病人提供康复辅助,同时也可以用于向没有亲属陪伴的普通老年人提供聊天服务。
本发明使用的以RFID为主的传感技术比其他的传感技术以及图像技术成本更低,而且感应距离更容易控制,从而能够更加有效地捕捉“场景”。
附图说明
图1为语言及认知辅助系统的示意图;
图2为语言及认知辅助方法的流程图。
图中标号说明:
1、处理器;2、服务器;3、音箱;4、麦克风;5、蓝牙扩展器;6、点读笔;7、摄像头;8、读卡器;9、RFID标签;10、蓝牙信标;11、传感器;12.存储器。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”、“顶/底端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置有”、“套设/接”、“连接”等,应做广义理解,例如“连接”,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,或者通过网络或蓝牙连接,还可以是两个元件内部的连通;本发明中的“蓝牙连接”或者“Wifi连接”仅仅是无线连接的两个例子,实际实施中既可以是基于Wifi/传统蓝牙协议的连接,也可以是蓝牙低功耗,或者Zigbee以及其他协议的无线连接;对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
本发明实施例中,“幼儿”仅仅指代最常见的一类被照护者。本发明也可以应用于除了“幼儿”之外的其他类型的被照护者,比如病人或者老人。
实施例1:语言及认知辅助系统
请参照图1所示,语言及认知辅助系统,包括处理器1、服务器2、音箱3、麦克风4、蓝牙扩展器5、点读笔6、摄像头7和读卡器8,存储器12,处理器1与服务器2通过互联网连接,处理器1与音箱3、蓝牙扩展器5、点读笔6、摄像头7和读卡器8、存储器12连接,处理器1与麦克风4无线连接。
在本实施例中,服务器2主要处理从位于工作现场的处理器1上传的读卡信息以及录音信息,进行场景匹配和筛选,然后,根据匹配到的场景确定话题,并进一步进行音频匹配(确定需要播放的音频);此外,也处理其他的行政事务,比如场景配置,语音配置,信息储存等;服务器2在进行场景匹配的时候,结合了传感器11信息以及读卡器8读到的标签信息,非语言的声音信息,以及语音(这里特指语言)信息,或者摄像头7所提供的图像信息;语音信息首先经过ASR由语音转为文字,再经过人工智能的算法进行分词,识别意图和实体,以及事件;图像信息由计算机视觉算法解析;另外还运行经过训练的语音识别程序(ASR),自然语言处理程序(NLP)以及计算机视觉程序(CV),以支持“场景”识别和对话。需要说明的是,在本实施例中,服务器2还可以外接其他第三方服务,如百度云、阿里云等。
在本实施例中,处理器1通过有线或者Wifi方式接入家庭网络,从而与服务器2连接,同时,处理器1通过有线或者无线方式与家庭里的其他设备(麦克风4、音箱3、读卡器8、点读笔6、传感器11、摄像头7以及蓝牙扩展器5、存储器12)进行连接,此外,摄像头7以及蓝牙扩展器5为可选设备,使用者根据需求进行选择。其中,处理器1指令播放的音频内容可以是预先录制的,也可以是现场以TTS(文本转语音)的方式生成的。也可以从服务器2下载并由处理器1下达指令播放,多数音频通常预先已经由处理器1下载部署在存储器12内,但也可以由服务器2根据对话(播放)需要实时向处理器1推送。除了实时推送之外,服务器2也可以定期或者在条件触发时自动更新处理器1中的音频内容数据。处理器1也负责向读卡器8下发读卡指令,并从读卡器8收取读卡结果;负责向蓝牙音箱3转发播放指令以及指定播放内容;向麦克风4下发录音指令,以及收取录音结果(音频文件或者音频流);向点读笔6下达获取OID编码的指令,并收取获得的OID编码;向摄像头7下发拍摄指令,以及收取图片或者视频。
此外,本发明还可以配备手机APP/小程序,家长可以根据自己的作息和孩子的作息调整控制处理器1响应或沉默,也可以通过语音指令调整本发明系统响应或沉默。如设定处理器1在每天早上7点到晚上7点之间工作,则处理器1工作期间,会响应周围环境,开启读卡器8,蓝牙音箱3,麦克风4等附属设备,并根据处理器1采集的数据进行场景匹配和播放。也可以从服务器2接收是否开启读卡的指令,是否开启点读(获取OID编码)的指令,也接收播放的指令,以及需要播放的内容。处理器1将其收到的读卡结果,从点读笔6获取到的OID编码,上传的音频,上传的图片及视频,上传的播放的结果等(播放开始,播放结束,播放失败等反馈信息)上传到服务器2并存储到存储器12中,以供处理器1或服务器2调用。在上传音频之前,处理器1会将音频进行回声消除、降噪、切分、静音段删除等预处理。
需要说明的是,处理器1可以是直接连在墙电(插座)上的从而摆放位置比较固定,也可以是使用充电电池的移动设备;处理器1可能使用一个以上的蓝牙模块与传感器11、读卡器8以及其他蓝牙设备通信。
在本实施例中,读卡器8是移动式的射频设备,以智能手表和/或者智能腰带的形式存在(在具体实施例中:读卡器8可以与音箱一起搭载在跟随小车上),使用电池供电。本发明中处理器1除了通过蓝牙扩展器5与读卡器8进行连接外,还可以通过无线方式直接连接读卡器8。无线连接采用Wifi或者蓝牙等方式;读卡器8的功能一般是根据预设的时间,间歇地与房间里布设的固定或者移动的RFID标签9(以贴纸的方式存在)通信,读取标签9的ID以及该标签所存储的其他信息,并将读取结果上传到处理器1,以便处理器1直接确认场景、话题、是否播放等,或者由处理器1将信息上传给服务器2,服务器2根据反馈的信息选择匹配的场景,确定话题,并决定播放或者不播放。如果处理器1配置足够,也可以由处理器1根据反馈的信息选择匹配的场景,确定话题等。
在本实施例中,音箱3从处理器1收取播放指令以及需要播放的内容,并进行播放。其起到模拟了人的“嘴巴”的功能。音箱3与处理器1可以是Wifi连接或者蓝牙连接,也可以是直接以有线的方式连接;音箱3与处理器1可能是以单独的设备的方式存在,也可能是合体的。此外,音箱3既可以是用插座供电的,也可以是使用充电电池供电的,可以是不能自主移动的(需要被携带至不同的地点),也可以是单独或者与处理器1一起搭载在可以自行移动(比如,具有跟随功能)的小车或者双足机器人上的。同时,需要说明的是,在本系统中音箱3为一个或多个。
在本实施例中,麦克风4从处理器1接收开启录音以及结束录音的指令,对于周围环境以及人声进行录音,并将录音内容发送到处理器1,其起到模拟了人的“耳朵”的功能;麦克风4可以是使用充电电池供电的,也可以是与智能手表或者智能腰带等读卡器8集成在一起的,也可以是与音箱3集成在一起的。需要说明的是,根据使用阶段不同,本系统中可以存在多个麦克风4:佩戴在照护者身上的麦克风4,佩戴在幼儿身上的麦克风4,以及与蓝牙音箱3合体的麦克风4。
在本实施例中,点读笔6通过配合专用的印刷品来读取笔头所在位置的OID编码,并且由算法根据不同的场景将OID编码关联到对应的音频,进行播放。本系统主要使用点读笔6进行播放位置获取以及幼儿反馈获取。此外,点读笔6与处理器1的连接采用Wifi或者蓝牙的方式,其可以由电池供电,为移动设备。
在本实施例中,摄像头7为可选设备,辅助“场景”识别。摄像头7以图片或者视频的方式捕获与家庭场景相关的信息,并由处理器1将图片或者视频信息与传感器11、标签以及语音信息进行综合,识别出家庭场景。在摄像头辅助场景识别时,摄像头捕获到的图片信息或者视频信息将与预训练过的模型中的信息比对,从而匹配“场景”。此外,摄像头7也可以辅助提供安全监控,摄像头7可以是固定安装的,也可以是与音箱3或者处理器1集成的,可以使用插座供电,也可以使用电池供电。需要说明的是,摄像头7与处理器1连接,连接方式为Wifi或者有线连接(有线连接通常发生在当摄像头7与处理器1集成在一起的情况下)。
在本实施例中,蓝牙扩展器5的主要作用为延长读卡器8的传输距离,其本身并不承担读卡、录音或者播放的职能;蓝牙扩展器5为可选硬件,根据应用环境的实际状况选择使用。在使用时,蓝牙扩展器5一端与读卡器8或者其他蓝牙硬件连接,另一端与处理器1连接。
此外,蓝牙扩展器5可以有多个,当有两个以上的蓝牙扩展器5时,蓝牙扩展器5之间可以自行组网(Mesh)以进一步增加传输距离,扩大覆盖面积。需要说明的是,在本实施例中,蓝牙扩展器5为固定安装,由插座取电。
在本发明中,语言及认知辅助系统还包括RFID标签9、蓝牙信标10和传感器11;RFID标签9与读卡器8连接,蓝牙信标10和传感器11均与处理器1连接。
在本实施例中,读卡器8与RFID标签9是一种简单、稳定、可控而且经济的物联网设施,在本应用中主要是用来感知家庭活动场景的。在本实施例中的家庭活动是指家里面当前在发生的事情,比如照护者冲泡了奶粉、加热了冷藏的母乳、将奶瓶从厨房拿到了幼儿的身前、或者照护者在做饭,在洗碗,洗菜,扫地,洗衣服,晾衣服,收衣服,看电视,照镜子,或者抱着幼儿在房间走动,等等。这些标签通过单独或者组合,通过组合的不同方式、不同时间,传递了家庭活动的信息。算法通过分析标签的存在与否,存在的位置和反射的顺序,存在时间长短,反射的信号强弱,以及同一时间其他传感器11的信息(比如温湿度,光线,是否感应到人体)来判断家庭当前的活动。需要说明的是,本发明中使用“家庭活动”,也可能发生在车上,同时也可能发生在其他场所,比如商场,公园等等。
在本发明中,传感器11包括温湿度传感器、声音传感器、光电传感器以及人体传感器。
在本实施例中,通过传感器11采集的信息,能够用来辅助判断家庭当前的活动。
在本发明中,读卡器8为RFID读卡器。
在本实施例中,RFID读卡器是一种能阅读电子标签数据的自动识别设备,标签进入电磁场后,接收读卡器发出的射频信号,凭借感应电流所获得的能量发送出存储在芯片中的产品信息,或者主动发送某一频率的信号,由读卡器读取信息。
在本实施例中,服务器2可以自带存储器,或者配备云存储。
实施例2:语言及认知辅助方法
如图2所示,在实施例1的基础上,本发明还提供了语言及认知辅助方法,包括以下步骤:
(1)麦克风4获取所处“场景”内照护者、幼儿以及周围环境的声音信息(包括非语言的声音信息,以及语音信息),将声音信息传输给处理器1,同时,RFID标签9、蓝牙信标10和传感器11将采集的信息上传至处理器1。
进一步的,步骤(1)之前,还包括步骤,训练阶段,麦克风4在训练阶段获取幼儿的声音信息,将声音信息上传至处理器1,再由处理器1上传至服务器2,与预训练过的模型进行合并训练,最终形成训练后的幼儿专用ASR模型。
进一步的,还可以通过摄像头7辅助“场景”识别,摄像头7以图片或者视频的方式捕获与“场景”相关的信息,将相关的信息上传至处理器1。
此外,还可以通过点读笔6配合专用的印刷品,来读取笔头所在位置的OID编码,并且将OID编码关联得到对应的音频,发送至处理器1,再由音箱3进行播放。点读笔获取到的OID编码还可以用于判断幼儿对于之前系统播放内容(语音)的反馈。
(2)服务器2将获取的信息与预设的信息匹配,通过算法确定匹配对应的“场景”;
(3)在“场景”确定后,服务器2调用历史信息,以及运用算法选定最终话题;
(4)服务器2再根据选定的话题,由算法最终确定该话题对应的语句。
(5)由音箱3播放预录制或者TTS即时生成的语句。也就是模仿真人“说话”。
在本方法中,所有的播放内容均是按照场景组织的,场景分为不同的级别,分为场景、子场景、微场景以及话题。
所有的播放(包括对话,因为在系统中对话是录音和播放的综合)均是围绕着场景的,围绕着当前在幼儿身边所发生的事情,以及存在的人、物、声音(包括以中文方式展开的照护者和照护者,以及照护者和幼儿之间的对话),换句话说,本发明中的播放均是围绕着幼儿的所见以及所听展开的。
本发明能够最大程度地还原幼儿形成认知以及学习语言的过程:1)通过将眼睛所见与耳朵所听建立关联形成基础概念(“语言”),2)用基础概念(语言)去解释或者延伸到复杂概念。
此外,按照场景组织播放内容的另一个出发点是:幼儿的语言形成并不是一个刻意的“教授”的过程,而是一个混合的“沉浸”的过程。任何一次的周围人的行为以及语言都不可能单独地让幼儿学会某一个字,某一个词,或者某一个句子,但是在幼儿的发育过程中,从出生到基本完全地掌握对话,相对自由地交流(大约4岁)这中间是非常多的无意识的重复,“暴露”在场景中,无意识地将眼睛所看到与耳朵所听到的形成了关联,即,形成了基础的“概念”,这个概念就是“这个东西,是这个声音”,这个概念就是“语言”。
在本发明中,系统是以主动的方式与幼儿(偶尔也与照护者)互动的,是主动陪伴,换句话说,本系统如同机器人一样是一直在,而且一直寻找合适的时机开启与幼儿的对话(或者播放)的。当然,针对已经有了基础语言能力的幼儿,系统也会对幼儿的语言做出应对(“对话”)。
另外,本发明能够实现专门针对超低龄幼儿的语音识别,其具体说明如下:
本发明在传统的语音识别的基础上通过对于一个特定家庭的特定幼儿的语言习惯进行建模的方式实现对于特定幼儿的语音识别。这类似于以父母(家人)的身份去理解日常相伴的孩子的语言。作为一种说明实例:亲戚朋友很难听懂一个孩子的语言,但是孩子的父母总是更容易听懂孩子的语言,主要是因为父母感受着孩子语言发展的每一个细小的变化,知晓孩子当前的语言发展水平,包括当前孩子的词库。这个机制的作用原理是:每一个孩子所用的词都是父母亲自教的,只有父母知道自己教过了哪些词,没教过哪些词,而其他人比如亲戚朋友是没有这些信息的。当孩子说一个词或者一句话时,父母将孩子可能所要表达的内容的范围进行了收缩。这个收缩是基于孩子的当前认知以及当前词汇,而这个“当前认知与当前词汇”是只有父母知道的,任何其他的人都不知道或者不清楚。换句话说,一个传统的通用的语音识别模型可以看作是“其他人(亲戚邻居)”,它们不知道幼儿的当前认知水平与词库,因此无法有意义地对于幼儿所要表达的内容进行收缩(限定一个更小的范围)。但是,在范围限定的情况下,因为范围限定了,所以即使按照传统的观念里面听起来不像(置信度没有达到传统的置信度要求,比如80%)的一些表达,在父母眼里也可以命中一个答案。因为父母知道,备选答案实际上没有那么多。但是,其他人并不知道备选答案的范围。其他人眼里面,这样的发声,所对应的备选的“文字”太多了,但是每一个都不足以达到基本的置信度要求。比如,通常置信度要求是80%,但是低龄/超低龄幼儿的发音是那么的模糊,以及有那么不规则的停顿,所以传统的适用于成年人(或者儿童/青少年)的通用ASR模型不能给出任何一个置信度超过80%的备选答案,即使勉强给出一个,也可能非常地不准确,不着边际。
通过上述说明可知,与传统的通用语音识别模型不同,本发明所创造的综合的幼儿专用ASR模型利用了类似于父母理解自己孩子语言的原理,即“因人而异,将备选答案的范围收窄”,去识别特定幼儿的语言。针对一个孩子的语言识别模型基本上仅仅适用于该幼儿而不适用于其他幼儿。
具体地讲,本系统根据幼儿认知以及语言的不同发展阶段综合使用特定人孤立词识别模型1,非特定人孤立词识别模型2,非特定人通用语音识别模型3。模型1和2在本地端(处理器)部署但是其模型参数(包括词表,置信度与其他参数等)根据特定幼儿的发展情况实时更新(服务器推送)。模型3既可以在本地部署(简化版),也可以在服务器部署(完整版),也可以同时在本地与服务器部署。模型3中为不同的幼儿设置不同的热词库且热词库实时更新。幼儿词库的更新根据幼儿月龄,专家知识以及系统收集到的照护者与包括幼儿在内的其他人的关于幼儿语言发展这个话题的对话完成。系统收集此类语言发展水平信息时,可能与照护者进行确认,也可能直接通过场景获得(比如,照护者教幼儿说话的场景)。系统对于模型的更新是持续进行的。任何一次的对话(或者录音)都可能成为未来模型更新的语料。在系统与幼儿的对话中,系统根据当前以及历史场景情况对于不同模型的识别结果进行再校验,选择最符合场景的识别结果。
本发明与现有技术相比:
1)与室内定位技术。
室内定位技术大多用在商场中,其主要的技术原理为在室内布设固定的读取装置,从而可以根据这些固定装置与待定位物体(比如手机)的相对位置来计算出待定位物体的实际位置的方法。
通常,这些固定位置的读取装置在活动场所中的安装位置是在定位地图中标定好的,或者可以通过某种机制计算出来,从而当有多个定位装置(或者一个以雷达的方式存在的定位装置)的时候,通过计算那个移动装置与多个固定装置之间的相对位置的方法来标定移动装置的位置。室内定位的另外一个原理是测量移动装置所发射或者反射的信号的强度。通过比较信号强度来计算出相对位置,再进一步计算出来绝对位置。
本发明所提供的系统与上述其他的定位技术的相似点在于也使用了电磁感应,本系统中的读卡器8是RFID读卡器,而RFID读卡器也是市面上的几种定位技术中的其中一种的主要装置。
但是,本系统的侧重点不在于判别任何一个人或者物品的绝对位置,而在于判别这些位置或者位置变动所代表的行为模式(“场景”),从而将其对应于系统要展现出的某个问题或某段对话。本系统通常不能给出任何一个物品的绝对位置,也不使用“地图”的概念。
从技术上,本系统并不是布设多个固定的读取装置,而是反过来,在照护者的身上布设一个移动的读取装置,以及在跟随小车上布设第二个读取装置(小车本身可选,主要为承载蓝牙音箱。第二个读取装置也为可选)。本系统中的标签(贴纸)既可能是固定的,也可能是可移动的。本系统关注的是这些标签被读取到的时间,与其他标签被读到的时间之间的关系,以及信号强度。
2)与市面上的娃娃机器人相比。
这些机器人(比如“智能机器人”,“智能学习机”,“智能陪伴机器人”等等)通常是没有行走功能的,体积为比拳打略大,甚至是大约一只小狗大小的具有麦克风与音箱的电子设备。这些所谓的机器人与另外一类可以行走(无论轮式或者双足)不同。可行走的机器人另行分析。这些智能机器人通常服务对象为大孩子,大约3-10岁,更多地是一种具有多种交互方式的玩具。这些机器人通常需要配合APP使用,家长通过登录APP的方式在APP选择需要播放的节目,甚至指定播放的时间,机器人在设定的时间进行播放。播放内容方面,这些机器人通常有丰富的音频内容,从中文到英文,甚至也会有其他语言,通常是儿歌或者故事,或者音乐,也会有阅读绘本。这些“机器人”通常也可以通过按键或者唤醒词的方式与孩子互动;在被唤醒之后,这些机器人通常可以讲笑话,查天气。但是,这些机器人通常除了孩子的基本信息(男女,出生日期,姓名)之外,并不会针对孩子的情况进行任何播放内容的定制。任何的播放内容都需要父母通过APP指定。
部分机器人有摄像头,可以进行指读(手指点到某本书的封面,或者书里面的某一个页面,某一个词)机器人会播放对应的内容。但是,通常不会有针对这些内容的对话。更多地以“播放为主”。这些机器人通常不会主动与孩子对话,是一种“被动”的工作模式(在激活之后,回答孩子的问题)。这些机器人的设计基本上是针对大孩子的,是“玩具”。这些所谓的机器人,会在孩子一开始接触的时候吸引孩子的注意力,但是通常在几分钟或者十几分钟之后,孩子会对这样的机器人失去兴趣。有的孩子对机器人的兴趣可能更长一点,但是总之,这些机器人无法持续地吸引孩子的注意力。主要原因是:这些机器人并没有融入孩子的生活,没有任何针对性的针对孩子生活的个性化对话内容。这些机器人所播放的内容,通常在一天的任何时间都可以播放,在一年的任何一天都可以播放,没有场景(或者家庭活动)的概念。
3)与市面上已经存在的轮式或者双足行走机器人之间的区别。
当前市面上的轮式或者双足行走机器人通常有两类,一类是需要人控制才可以移动的机器人,另一类是可以自主规划行走,而且自主决定行走(采取一定的策略,比如跟随,或者巡检)的机器人。
第二类机器人通常使用摄像头或者雷达(激光雷达,或者红外线传感器,其他传感器)来为自己定位并规划路线。行走的路径规划,避障,姿态(腿脚,身体,手臂,甚至是手)是这些机器人所使用的主要技术。
除此之外,在上述的“智能机器人”中所融合的那些功能,播放音乐儿歌故事,查天气,讲笑话等等也可能会出现在轮式或者双足行走机器人身上。
但是,这两类行走机器人的主要功能都是“陪伴”,并没有使用“场景”的概念,更没有专门针对场景设置不同的播放策略,也更没有专门用场景去实现对应外语的语言能力形成。
另外,这些机器人通常可能有屏幕,可以让孩子通过屏幕与机器人进行一些互动,甚至一些游戏。这些机器人对于孩子的吸引力会更强一点,但是依然是“玩具”的角色。
通常,这些机器人没有针对孩子做定制,并不试图去记录分析孩子的日常行为并针对性地开启根据这些差异(每一个幼儿都与其他幼儿完全不同)的个性化对话。
相比而言,本发明的系统(也可以称为“聊天机器人”)是完全个性化的,针对每一个孩子的生活进行对话(包括不同的场景/活动,也包括孩子的家庭成员、成员的特点、甚至成员的工作,根据节日、日期、星期、时间等开启不同的对话(播放),是一个完全沉浸在真实的场景里的对话(或者播放))。
4)与市面上的高度模仿人类或者动物运动功能的仿生机器人或者仿生“机器狗”的比较
市面上存在着高度模仿人类或者动物运动功能的仿生机器人或者机器狗,比如美国波士顿动力公司的机器人/机器狗,国内的团队设计的“绝影”、“莱卡狗”等。这些机器人/机器狗以运动能力为主要特征和区分度,主要为了实现某项运动功能(比如搬运或者侦察等),其技术主要集中在物理环境感知,路径规划,平衡和和抓握、负重,行走或者奔跑,使用高精度和大功率精密电机等。
与本节第3)点所述的双足行走机器人类似,这些仿生机器人/机器狗并不是以语言能力为其主要技术特征,通常没有专门为不同的“场景”设计不同的语言,也没有为任何一个用户进行专门的个性化的对话定制。
与这些系统相比,本发明所述的系统更加强调“场景”与“语言”,以及对于“语言”的定制。
5)与市面上的“行为探测系统”的主要区别。
市面上存在着以摄像头为主要感知手段的“行为探测系统”,通常用作居家照护中对于老年人行为的监测,例如老年人摔倒、或者小孩爬高、小孩接触有触电危险的设备或者插座等等。
摄像头通常是固定在房间里的不同的地方的,可能有一个或者多个。这些系统的特点是使用图像识别技术,利用静态图像或者动态图像(视频),在人工智能算法(图像识别)的帮助下识别室内的特定的活动。从“感知动作”这个意义上来说,这样的“行为探测系统”与本系统非常接近。但是,区别在于,通过图像识别行为的训练难度非常大,成本非常高。上述的行为感知系统是通过图像或者视频实现的,实现难度比较高。通过图片训练计算机识别活动所需要的系统训练规模非常巨大,而且效果不好。在使用阶段,摄像头所拍摄到照片处理所需要消耗的计算资源非常巨大,造成要么在服务器上处理但是图片传输的要求非常高(传输量大),要么需要在工作现场布设算力非常大的台式机。当然,这一技术在未来可能变得更加容易使用。
这一系统的一个潜在问题是,需要使用摄像头,这个可能引起更多的隐私担心。(任何的麦克风,摄像头都会有隐私担心,但是摄像头的隐私担心会更加明显)。
本系统以传感器11、RFID标签信号和语音为主进行场景识别,而把图像识别作为辅助场景识别工具。另外,识别环境和行为(场景)只是本系统的一个中间步骤。本系统的核心是基于场景的对话(播放)。
6)与市面上的语言学习APP的比较。
语言学习类的APP通常是安装在手机或者平板电脑上的。通常,语言学习类的APP(比如斑马英语,叽里呱啦,iEnglish等)均是针对大孩子设计的,是在孩子有了基本的认知和基础的中文语言能力之后所使用的产品。孩子已经有了基本的中文认知了,知道了一个杯子是“杯子(中文的发音)”,面前的人是“爸爸”或者“妈妈”,知道了“跟我读”就是跟着平板电脑的里面发音重复,等等。
这些产品也有“场景”的概念,但是这些“场景”是通过视频或者图片的方式实现的。这些“场景”也可以对于孩子学习英语起到作用,但是没有直接置身于实际的场景中并听到对应的英文的声音的效果明显。但是,毋庸置疑的是,任何类型的场景,都会比没有场景的“学习(诵读,记忆)”要更加地有效。
为了吸引孩子使用产品,这些语言学习类的APP通常会使用对于孩子比较有吸引力的声音以及图片,包括视频,卡通;通常也会有互动的简单游戏,让孩子在游戏中练习。游戏本身也可能带有场景因素。这类APP通常也提供“能力(水平,发音)评测”的功能。
通常,这些语言学习类的APP是需要孩子的父母督促孩子每天使用一定时间的。也不排除孩子使用一段时间之后习惯了,或者喜欢了,自己愿意使用的情况。
这些语言学习类APP的主要机制是,大量的阅读和跟读,以动画或者视频的方式吸引孩子跟读。因此,从效果上来说,这些语言学习类的APP是会有一定效果的。
但是,APP的最大问题在于父母会处在“两难”的境地:既想让孩子使用APP进行学习,又担心孩子沉溺于手机或者电脑影响视力,养成打游戏(从小型的游戏,简单的游戏到复杂的游戏)的习惯。
另外,这些APP的使用对象通常是大孩子(比如3岁以后),所以,这时候,这些孩子花在APP上的时间,就是他们不能做其他事情(比如轮滑,比如钢琴音乐画画,又比如和其他小朋友玩)的时间。这主要是因为,大孩子的时间更加宝贵,而且大孩子已经知道了“玩”是好玩的事情,而“学习”是没有“玩”好玩的事情。它们更想把时间花在“玩”上,而不是对着APP跟读或者学单词、学句子上面。(不排除有孩子会喜欢APP,但是整体上,大孩子更想自己支配自己的时间,更想把时间用在“玩”)。
与之不同的是,本申请所涉及到的系统是在孩子4个月到4岁之间使用,利用的是孩子基本上无意识的时间,这时候的时间对于孩子本身是不宝贵的。这个年龄段的孩子的时间,本来就是在完全的无意识中“浪费掉的”(比如,在家里的小床上躺着,在房间里翻身,爬,站起来,坐下去,在房间里走动,等等)。本系统利用了孩子的“碎片时间”进行了认知能力的形成以及外语语言能力的培养。
本系统里面走出来的孩子,在4岁以后不需要像其他孩子一样再花时间在基础的英语上面。(即使他们继续参加传统的英语培训班,那也是在一个完全不同的层次上面)。
7)与各种英语培训班及英语培训机构所使用的辅助学习系统的比较。
英语培训机构通常针对4岁以上的孩子(偶尔也有到3岁的孩子的,但是比例非常低)。这些孩子需要在培训现场接受大约每周两节课的培训。因为培训的时间有限,所以培训机构通常提供APP以供孩子及其家长在课后让孩子复习,当然也有线下的复习教材。
培训机构的APP与本节第6)点中所描述的语言学习类APP比较接近。通常也提供能力(水平,发音)评测的功能。本系统与语言学习类APP之间的异同,也基本上适用于培训机构的APP。
8)与“天猫精灵”、“小度音箱”以及“小米小爱”(统称“智能音箱”)的比较。
通常智能音箱是一个以“声音”为主要输入源的对话系统。当前的智能音箱通常不含有“场景感知功能”(但是可能含有光线感知,人体红外感知功能)。智能音箱当前的使用主要是娱乐(播放音乐,讲笑话,讲故事),具有一定的陪伴功能,但是以被动对话为主。当前所有智能音箱均需要语音激活(有的语音激活指令比较巧妙,但是依然需要激活)。当前没有主动对话的智能音箱。智能音箱的另外一个主要应用是物联网的控制,比如开关电灯,开关窗帘。也可以实现一些生活功能,比如查询天气,查询航班,做某种知识的搜索等。智能音箱可以做到更加实用的功能,比如订机票(不是查航班,而是查航班之后继续到预定的环节)。
但是,智能音箱通常不会为用户进行定制,不会知道家庭活动(场景),也不会知道家庭成员的身份以及他们当天的活动,历史的活动,更不会根据这些活动设计针对性的对话。在智能音箱的聊天功能中,聊天是使用的生成式对话技术,所以对话内容是不可控的。
智能音箱是可以用于幼儿的语言(尤其是中文)学习的一个辅助工具,但是当前的任何一个智能音箱均无法作为幼儿外语语言能力形成的主要工具。
相比智能音箱,本发明所述的系统是一个以“主动”对话为主的系统,强调“场景”,以及“定制”的对话,对话内容为根据对话对象(幼儿,或者病人,老人)进行了控制的对话。
9)与对话机器人技术/平台(Chatbot)的比较
当前市面上已经存在多种对话机器人平台,这些平台可能使用不同的对话技术,通常可以进行任务型,问答型,闲聊型或者混合上述三种类型的聊天。
任务型对话机器人是为了协助对话者解决某个问题的,比如订机票,餐馆,酒店,查天气,放音乐。任务通常是在某一个领域内,而且通常任务本身以及完成任务所需要的信息均能够被明确定义。机器人获取任务之后,通过单论或者多轮问答(通常是机器人问,而对话者回答),获取到完成任务所需要的主要信息(参数)。机器人获取信息的方法通常是规则以及匹配。但是,本发明试图应用的领域(认知及语言辅助)中,大部分的情况下幼儿的话无法与任何的任务关联,因此难以利用已有的任务型对话机器人平台来定义回答。
问答型机器人平台通常基于大型数据库,当前主要用于政务查询(比如查询与某个话题相关的政策规定),医疗咨询(比如根据某种模糊的疾病特征而匹配到最可能的疾病名称以及治疗方法),百科知识查询,客服等。问答型将很多封闭域或者开放域的知识以结构化的方式储存并用于检索,并把匹配到的“知识”作为回答提供给用户。与任务型机器人相似的是,问答型机器人所要解决的问题可以看作一种特殊的任务。对话者提出问题时通常是有一个明确的任务的,只不过这个任务的表达本身在对话一开始时并不精确。随着问答的展开,对话者获得领域知识(通过机器人的回答)增加之后,这个任务更加清楚,从而机器人可以基于这个更加精准描述的任务,提供一个更加准确的答案。所以问答型系统的核心特征依然是“应对”用户的提问。当前的很多针对儿童的产品,包括各种名称的机器人,也包括各种智能音箱,均使用了问答型机器人技术。在作为一个学习或者娱乐工具提供给大孩子使用的时候,这些机器人是有一定的作用的。主要是因为与小孩子相比,大孩子更知道他们想要什么。但是正是因为这个技术的核心是“应对”,是被动的,所以它不能很好地“应对”一个并没有特别明确“任务”的超低龄幼儿。
另一种对话机器人平台为闲聊平台,主要应用于陪伴,目的是逗笑,也有一些平台侧重于协助对话者探索自己的内心。闲聊平台又分为基于深度学习的“生成式对话技术”的特征的闲聊平台(比如Blenderbot等)以及基于规则和检索的闲聊平台(例如AliceBot以及Kuki,均是基于规则)。前者(生成式)不需要预先设定回复的规则,也并不支持规则。对话的内容完全是对话系统根据预先学习的巨量的人与人之间的对话所模拟的需要在某种场合下进行回答的内容所生成的。对于回复内容的控制更多地依赖在训练阶段所使用的语料。当然,也可以在机器人生成回复内容之后进行筛选以屏蔽某一领域的回答内容(比如黄色或者暴力),但是整体上回复内容的随意性比较高。最常见的现象是机器人的回答无厘头。这样一种对话,无法与孩子所处的场景进行很有效结合,无法提供给孩子场景(所见)与声音(所听)的关联,不能帮助孩子形成物品及人物的基本概念,也无法持续地吸引孩子的注意力。另外,基于生成式对话的聊天平台更多地是基于对于谈话对象的语言进行反应,很少利用非语言因素,更没有利用“场景信息”。
相比较而言,基于规则和检索的闲聊平台与本发明所要达到的目的比较接近。从对话管理的角度,本系统是基于规则和检索的系统,本系统也使用人工的方法一句一句地撰写答复。
但是与现有的基于规则和检索的聊天系统相比较而言,本系统的重大不同是在对话中引入了“场景”(或者子场景、微场景、话题)这个中间概念。通过标签读取以及对照护者/幼儿声音甚至环境声音分析和识别,系统识别出“场景”并进而确定最最相关的场景(话题),然后根据场景播放预先配置的对话(主动发起的语音,或者回复)。本系统需要计算机做多个层次的检索,第一个层次为检索“场景(话题)”,第二个层次为检索应对(可能是主动发起谈话,也可能是回答说话者)。而从场景(话题)到具体的一句一句的话是由人工撰写的。场景提供了传统的聊天模型中所需要的前后文信息,也部分解决了传统的聊天模型中需要通过多轮问答才能获得的一些参数信息。基于场景发起的主动对话也比传统模型上的随机发起的对话更加有针对性和吸引力。
本系统与现有的大部分的对话机器人(Chatbot)系统相比的另外一个不同点是:现有的对话系统主要侧重于对话/聊天内容本身的管理,而不侧重于输入与输出接口的管理。而本系统是一体的系统,其可以接受的输入的内容综合考虑了各种环境因素(场景,非语言的声音,以及幼儿特定的语言)。尤其是,本系统提供了专门用于理解幼儿语言的方法,这是其他系统所不具备的。现有的对话系统大部分以文字聊天为主,有的系统有语音输入接口,但是大部分的输入对接的是通用的语音识别系统(针对成年人或者语言能力已经发展良好的儿童,青少年);即使有多模态的人机对话系统,其可以接受的输入也通常仅仅是在键盘文字以及声音语言(成年人的声音,通过传统的通用语音识别系统识别为文字)的基础上添加了表情符号,图片,或者网络链接等等,而这些输入方法无法应对与超低龄幼儿的交互,因此不能达成本系统所试图解决的问题(针对低龄幼儿的语言及认知辅助)。
需要说明的是,本系统使用了多项开源的技术作为基础,并在这些开源技术的基础上进一步提高,定制使它们适用于幼儿(不是儿童)外语语言和认知辅助这个特定的场景。
市面上的任何单项的技术,如果不加改进而直接用于幼儿的语言和认知教育,均无法完成任务。本系统在现有基础技术的基础上,根据系统适用对象的特点,对相关的现有技术进行了筛选,并在局部提高,生成了一种新的综合的技术,这项综合的技术可以帮助孩子建立基础的所见与所听到的声音的关联(语言),并在此基础上建立复杂的关联,从而达到辅助孩子提高语言及认知能力的目的。本系统与其他底层技术的关系如下:
1)RFID技术
RFID技术是一项常用的物联网技术,通常用在零售和库存管理等领域。但是当前市面上并没有任何一家企业将RFID应用在场景感知。这是因为单独的RFID本身并不能提供场景的信息,而只有在把通过RFID读取到的标签的信息综合之后,才可以得到“场景”信息,而且这个场景信息还需要其他的非物联网技术进行校验/细化之后,才可以作为本系统中使用的“场景”。
2)降噪以及VAD技术。
本系统将之用在现场录音,从而对于录音进行预处理,使得录音的内容上传服务器变得更加可行(如果不进行预处理,也可以上传服务器,只不过需要传输更多内容,包括大量的无效内容,这将增加传输的数据量,增加服务器的运算量,造成更多的延迟,使得整个系统的可用性降低)。
3)自然语言处理NLP技术。
市面上有非常多的关于自然语言处理的开放资料以及开源代码。但是使用这项技术的时候,需要结合业务情况,设置不同的规则。更重要的是,需要找到合适的应用场景。当前,大量的NLP的研究停留在技术层面,找不到合适的应用场景。
本系统根据幼儿生活环境,针对性地使用了相应的NLP技术,配置了相应的“场景”,把对于照护者以及幼儿语言的理解置于“场景”之下,专注于理解特定场景之下的语言,而非大千世界的复杂语言,使得NLP的应用可以真正地落地。
4)搜索以及推荐技术。
在搜索引擎与购物网站中,经常使用到各种推荐技术。这些技术通常是基于用户的历史浏览记录,结合用户画像(用户的特征聚类)。
本系统中也使用数种推荐技术,根据用户的信息,根据前后文,根据当前场景(活动,以及时间,当前出现的人物等)进行推荐。只不过,本系统所推荐的是下一个谈话的话题。
在任何时候,本系统都在监控着当前谈话的话题并实时地准备下一个话题。下一个话题只有当本话题结束之后才开始,而且通常是与当前话题紧密相关的,是当前话题的细化,延伸,或者从时间,人物,地点等与当前话题相关。
本系统使用独特的算法,将不同的角度所得到的话题推荐进行最后的排序,从而确定最终要交付的下一个话题。并使用规则来选择选定话题所对应的播放内容。(这是上一段所讲的内容,即从场景(话题)到一句一句的话)。
在话题推荐中,本系统使用到的其中一种技术是图数据库技术。本系统通过图数据库组织各种话题之间的关系,测算各个话题间的相关性(距离),筛选距离最近(最相关)的话题。
在话题推荐以及选择中,本系统也使用了话题聚类技术。同时也创新地对于任何谈话内容从多个维度进行分析并建模存储,生成“记忆”。在后续的谈话中,如果某一次谈话的某一个维度与之前存储的另一次谈话的同一个维度相关度超过设定的阈值,那么之前的“事件”可能被重新调取,这类似于“记忆”的唤醒。唤醒的记忆一定是与幼儿生活相关的。被唤醒的记忆所对应的事件,以及事件的细节,都可能被作为新的话题的备选项。
与搜索以及购物网站的推荐系统类似的是,本系统也试图做到“个性化”。本系统通过各种算法试图达到推荐与幼儿当前的生活场景最相关的话题,从而吸引幼儿继续参与对话,或者聆听。可以这么理解:这些话题推荐技术使得针对幼儿的播放(或者对话)是个性化的。
5)本系统识别场景所用的信息抽取以及事件抽取技术。
信息抽取以及事件抽取是基本的自然语言理解(人工智能)技术,本系统也使用到了这些技术,从而可以根据幼儿的具体情况来推荐下一个话题。
6)本系统与计算机视觉技术。
本系统使用了市场上或者科研中已经存在的计算机视觉算法(CV)并利用自有数据对于关注的特定场景进行训练,并辅助用于后续的场景识别。
7)本系统与ASR底层技术。
本系统的幼儿语音识别部分以市场上或者科研中已经存在的ASR技术原理为基础(包括孤立词识别技术,特定人语音识别技术,非特定人通用语音识别技术),并加入获取幼儿认知以及语言发展阶段(包括可能的词库)的内容(不同阶段选择使用不同识别模型)、系统模型自训练(向照护者收取反馈,增删词库,切换模型),以及为缩小备选词语范围而进行的限制程序。
本系统所包含的幼儿专用ASR识别方法创造性地综合使用了孤立词识别与通用的连续词语音识别,综合了特定人语音识别与非特定人语音识别。这种综合既符合幼儿语言的特点(发音不准,发音变化,词库小),又使得为特定的幼儿建立专用的语言模型(小模型,实时调整)从而满足交互需求变为可能。在本系统中,对于现有技术的综合使用,形成了一种能够满足特定用途的新的技术。
综合起来看,本系统使用了多项基础的人工智能技术以及物联网技术,但是正是因为对这些基础技术的创造性地综合使用,对这些技术的筛选和针对性组合,使得原本通过任何一项单项技术无法达到的对于幼儿生长活动环境,尤其是幼儿本人的活动以及幼儿周边当前正在发生的活动(场景)的理解变为可能,使得对于幼儿的声音的理解变为可能,使得根据当前环境和活动向幼儿播放有意义的可控的音频内容(与幼儿“对话”)变为可能。本系统可用于向4岁以下幼儿提供语言及认知辅助服务,以及向其他年龄段的儿童提供语言学习辅助服务,也可用于向早期老年痴呆症患者,脑创伤后康复期病人提供康复辅助,同时也可以用于向没有亲属陪伴的普通老年人提供聊天服务。
本发明的各部分可以用硬件、软件、固件或他们的组合来实现,在上述实施方式中,多个步骤或方法也可以用存储在存储器中的软件模块或固件来实现。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.语言及认知辅助系统,其特征在于,包括处理器(1)、音箱(3)、麦克风(4)、点读笔(6)、存储器(12)和读卡器(8),所述处理器(1)与音箱(3)、点读笔(6)、存储器(12)和读卡器(8)连接,所述处理器(1)与麦克风(4)无线连接。
2.根据权利要求1所述的语言及认知辅助系统,其特征在于,还包括RFID标签(9)、蓝牙信标(10)和传感器(11),所述RFID标签(9)与读卡器(8)连接,所述蓝牙信标(10)和传感器(11)与处理器(1)连接。
3.根据权利要求2所述的语言及认知辅助系统,其特征在于,所述传感器(11)包括温湿度传感器、声音传感器、光电传感器以及人体传感器。
4.根据权利要求2所述的语言及认知辅助系统,其特征在于,所述读卡器(8)为RFID读卡器;所述辅助系统还包括蓝牙扩展器(5),所述蓝牙扩展器(5)和处理器(1)和读卡器(8)连接。
5.根据权利要求1-4任一权利要求所述的语言及认知辅助系统,其特征在于,所述语言及认知辅助系统还包括摄像头(7),所述摄像头(7)和处理器(1)连接。
6.根据权利要求4所述的语言及认知辅助系统,其特征在于,所述语言及认知辅助系统还包括服务器(2),所述处理器(1)与服务器(2)通过互联网连接。
7.语言及认知辅助方法,其特征在于,使用了根据权利要求6所述的语言及认知辅助系统,包括以下步骤:
(1)麦克风(4)获取所处“场景”内照护者、幼儿以及周围环境的声音信息,将声音信息传输给处理器(1);RFID标签(9)、蓝牙信标(10)和传感器(11)将采集的信息上传至处理器(1);
(2)处理器(1)将获取的信息传输给服务器(2),服务器(2)根据接收的信息与预设的信息匹配,匹配确认对应的“场景”;
(3)在“场景”确定后,处理器(1)调用存储器(12)中存储的历史信息或服务器中的信息,以及运用算法选定最终话题;
(4)根据选定的话题,由算法进一步确定该话题对应的语句;
(5)由音箱(3)播放预录制或者TTS即时生成的语句。
8.根据权利要求7所述的语言及认知辅助方法,其特征在于,在步骤(1)前还包括步骤(11)训练阶段,通过麦克风(4)在训练阶段获取幼儿的声音信息,将声音信息上传至处理器(1),再由处理器(1)上传至服务器(2),与预训练过的模型进行合并训练,形成训练后的幼儿专用ASR模型。
9.根据权利要求7所述的语言及认知辅助方法,其特征在于,在步骤(1)中,还可以通过摄像头(7)辅助“场景”识别,摄像头(7)以图片或者视频的方式捕获与“场景”相关的信息,将相关的信息上传至处理器(1)。
10.根据权利要求7所述的语言及认知辅助方法,其特征在于,在步骤(1)中,还可以通过点读笔(6)配合专用的印刷品,来读取笔头所在位置的OID编码,并且将OID编码关联得到对应的音频,发送至处理器(1)播放。
CN202210181144.6A 2022-02-25 2022-02-25 语言及认知辅助系统及方法 Pending CN116704828A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210181144.6A CN116704828A (zh) 2022-02-25 2022-02-25 语言及认知辅助系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210181144.6A CN116704828A (zh) 2022-02-25 2022-02-25 语言及认知辅助系统及方法

Publications (1)

Publication Number Publication Date
CN116704828A true CN116704828A (zh) 2023-09-05

Family

ID=87842033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210181144.6A Pending CN116704828A (zh) 2022-02-25 2022-02-25 语言及认知辅助系统及方法

Country Status (1)

Country Link
CN (1) CN116704828A (zh)

Similar Documents

Publication Publication Date Title
US20240168933A1 (en) Ai story platform with customizable personality for education, entertainment, and therapy
US11100384B2 (en) Intelligent device user interactions
CN107030691B (zh) 一种看护机器人的数据处理方法及装置
JP6888096B2 (ja) ロボット、サーバおよびヒューマン・マシン・インタラクション方法
US8538750B2 (en) Speech communication system and method, and robot apparatus
CN110291760A (zh) 用于导出用户意图的解析器
CN107000210A (zh) 用于提供持久伙伴装置的设备和方法
JP2019521449A (ja) 永続的コンパニオンデバイス構成及び配備プラットフォーム
CN105409197A (zh) 用于提供持久伙伴装置的设备和方法
CN112262024B (zh) 用于增强数字体验的动态机器人配置的系统和方法
IL229370A (en) Interface system and method for providing user interaction with network entities
KR20180123037A (ko) 정보 처리 시스템, 정보 처리 장치, 정보 처리 방법, 및 기록 매체
JP6900058B2 (ja) パーソナルアシスタント制御システム
Tan et al. iSocioBot: a multimodal interactive social robot
KR102255520B1 (ko) 빅데이터 분석 기반의 인공지능 자연어 메시지 전달을 통한 반려동물 의사전달 장치 및 시스템
EP3776173A1 (en) Intelligent device user interactions
Khosla et al. Enhancing emotional well being of elderly using assistive social robots in Australia
CN111949773A (zh) 一种阅读设备、服务器以及数据处理的方法
WO2001070361A2 (en) Interactive toy applications
CN116704828A (zh) 语言及认知辅助系统及方法
WO2021085175A1 (ja) 自律移動体、情報処理方法、プログラム、及び、情報処理装置
Lin et al. Design guidelines of social-assisted robots for the elderly: a mixed method systematic literature review
Strandbech Humanoid robots for health and welfare: on humanoid robots as a welfare technology used in interaction with persons with dementia
Moro Learning Socially Assistive Robot Behaviors for Personalized Human-Robot Interaction
US20220126439A1 (en) Information processing apparatus and information processing method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination