CN110188364A - 基于智能眼镜的翻译方法、设备及计算机可读存储介质 - Google Patents

基于智能眼镜的翻译方法、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110188364A
CN110188364A CN201910443386.6A CN201910443386A CN110188364A CN 110188364 A CN110188364 A CN 110188364A CN 201910443386 A CN201910443386 A CN 201910443386A CN 110188364 A CN110188364 A CN 110188364A
Authority
CN
China
Prior art keywords
information
face
intelligent glasses
acoustic
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910443386.6A
Other languages
English (en)
Other versions
CN110188364B (zh
Inventor
高飞
杜杰
史田田
赵凯旋
廛超越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yi Shi Intelligent Technology (suzhou) Co Ltd
Original Assignee
Yi Shi Intelligent Technology (suzhou) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yi Shi Intelligent Technology (suzhou) Co Ltd filed Critical Yi Shi Intelligent Technology (suzhou) Co Ltd
Priority to CN201910443386.6A priority Critical patent/CN110188364B/zh
Publication of CN110188364A publication Critical patent/CN110188364A/zh
Application granted granted Critical
Publication of CN110188364B publication Critical patent/CN110188364B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Abstract

本发明公开了一种基于智能眼镜的翻译方法、设备及计算机可读存储介质,该方法包括以下步骤:基于智能眼镜采集声音信息和人脸信息,并根据所述声音信息和所述人脸信息,确定与所述声音信息对应的目标人脸;对所述声音信息进行翻译,生成文字信息;将所述文字信息和所述目标人脸对应显示在所述智能眼镜,以及与所述智能眼镜通信连接的终端上。本发明通过文字信息和目标人脸的对应显示可清楚体现各说话者的说话内容,有利于使用者对不同说话者说话内容的区分;同时使用者一方面通过智能眼镜所显示的内容即可知道说话者的说话内容,另一方面还可以通过智能终端进行查看,方便了使用者的使用。

Description

基于智能眼镜的翻译方法、设备及计算机可读存储介质
技术领域
本发明涉及智能终端技术领域,尤其涉及一种基于智能眼镜的翻译方法、设备及计算机可读存储介质。
背景技术
目前,智能终端的发展,给社会上的聋哑人士带来了很大的便利,聋哑人士在日常生活或者工作会议中,通过智能终端上的翻译功能即可实现与他人的交流沟通,避免了对手译人员人员翻译的依赖;此外,智能终端的翻译功能在国际会议上的应用也越来越广泛,将一国语言翻译为其他各国语言,或者将躲过语言翻译为某一国语言,实现多个语言之间的即时翻译。
智能终端在翻译时,先采集外部的声音进行识别,再将识别得到的文字显示在终端的显示装置上,使用者通过查看显示的文字即可了解他人表达的观点。但是该翻译方式仅将外部声音所表达的观点展示,而不能区分来源于不同人员的观点,导致在多人同时说话时,使用者不能区分不同人的说话内容;同时使用者需要时刻关注终端所显示的内容,使用不方便。
发明内容
本发明的主要目的在于提供一种基于智能眼镜的翻译方法、设备及计算机可读存储介质,旨在解决现有技术中不能区分不同的人进行翻译,且需要时刻关注终端,使用不方便的技术问题。
为实现上述目的,本发明提供一种基于智能眼镜的翻译方法,所述基于智能眼镜的翻译方法包括以下步骤:
基于智能眼镜采集声音信息和人脸信息,并根据所述声音信息和所述人脸信息,确定与所述声音信息对应的目标人脸;
对所述声音信息进行翻译,生成文字信息;
将所述文字信息和所述目标人脸对应显示在所述智能眼镜,以及与所述智能眼镜通信连接的终端上。
可选地,所述根据所述声音信息和所述人脸信息,确定与所述声音信息对应的目标人脸的步骤包括:
读取所述声音信息中的声纹数据,并将所述声纹数据和预设声纹库对比,确定目标声纹数据;
根据预设的声纹与人脸之间的对应关系,确定与所述目标声纹数据对应的待识别人脸;
将所述待识别人脸和各所述人脸信息对比,确定各所述人脸信息中与所述待识别人脸匹配的目标人脸。
可选地,所述根据所述声音信息和所述人脸信息,确定与所述声音信息对应的目标人脸的步骤包括:
读取各所述人脸信息在连续时段内的人脸特征,形成与各所述人脸特征关联的人脸特征组,并针对各所述人脸特征组执行以下步骤:
将所述人脸特征组中的人脸特征进行对比,确定各所述人脸特征中的预设位置是否存在变化特征;
若所述预设位置存在变化特征,则将与所述人脸特征组对应的人脸信息确定为与所述声音信息对应的目标人脸。
可选地,所述将所述文字信息和所述目标人脸对应显示在所述智能眼镜,以及与所述智能眼镜通信连接的终端上的步骤包括:
根据所述目标人脸在所述智能眼镜中的显示位置,将所述文字信息添加到与所述显示位置对应的预设位置显示,以对所示目标人脸进行追踪;
将所述目标人脸生成为人脸头像,并将所述人脸头像和所述文字信息输出到与所述智能眼镜通信连接的终端上显示。
可选地,所述将所述人脸头像和所述文字信息输出到与所述智能眼镜通信连接的终端上显示的步骤包括:
获取与所述人脸头像对应的身份信息,并将所述身份信息和所述人脸头像形成信息组;
将所述信息组、文字信息和声音信息添加到与所述智能眼镜通信连接的终端上,在所述终端的显示界面中的预设区域显示。
可选地,所述将所述文字信息和所述目标人脸对应显示在所述智能眼镜,以及与所述智能眼镜通信连接的终端上的步骤之后包括:
检测所述终端内是否存在与所述身份信息对应的存储标识,若存在与所述身份信息对应的存储标识,则读取所述存储标识;
若不存在与所述身份信息对应的存储标识,则根据所述身份信息,为所述文字信息分配初始存储标识;
将所述存储标识或所述初始存储标识添加到所述文字信息中,并将所述文字信息和所述声音信息关联存储为历史翻译信息。
可选地,所述将所述文字信息和所述声音信息关联存储为历史翻译信息的步骤之后包括:
当接收到查看指令时,判断所述查看指令中是否存在搜索关键词;
若存在所述搜索关键词,则调用各所述历史翻译信息中与所述搜索关键词对应的目标历史翻译信息显示;
若不存在所述搜索关键词,则调用距离当前时间最近的时间内所存储的所述历史翻译信息显示。
可选地,所述将所述文字信息和所述声音信息关联存储为历史翻译信息的步骤之后包括:
当检测到达预设周期时,抓取各所述历史翻译信息中存储时长达到预设时长的待清理历史翻译信息;
判断各所述待清理历史翻译信息中是否存在待保留历史翻译信息,若存在所述待保留历史翻译信息,则将各所述待清理历史翻译信息中除所述待保留历史翻译信息之外的其他历史翻译信息删除;
若不存在所述待保留历史翻译信息,则对各所述待清理历史翻译信息进行清理操作。
进一步地,为实现上述目的,本发明还提供一种基于智能眼镜的翻译设备,所述基于智能眼镜的翻译设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于智能眼镜的翻译程序,所述基于智能眼镜的翻译程序被所述处理器执行时实现如上述所述的基于智能眼镜的翻译方法的步骤。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于智能眼镜的翻译程序,所述基于智能眼镜的翻译程序被处理器执行时实现如上所述的基于智能眼镜的翻译方法的步骤。
本发明先依据智能眼镜所采集的声音信息和人脸信息,确定与声音信息对应的目标人脸,该目标人脸即为声音信息所来源的说话者;此后对采集的声音信息进行翻译,得到文字信息;进而将文字信息和目标人脸对应显示在智能眼镜,以及与智能眼镜通信连接的终端上。通过文字信息和目标人脸的对应显示可清楚体现各说话者的说话内容,有利于使用者对不同说话者说话内容的区分;同时使用者一方面通过智能眼镜所显示的内容即可知道说话者的说话内容,另一方面还可以通过智能终端进行查看,方便了使用者的使用。
附图说明
图1为本发明基于智能眼镜的翻译设备实施例方案涉及的设备硬件运行环境的结构示意图;
图2为本发明基于智能眼镜的翻译方法第一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于智能眼镜的翻译设备,参照图1,图1为本发明基于智能眼镜的翻译设备实施例方案涉及的设备硬件运行环境的结构示意图。
如图1所示,该基于智能眼镜的翻译设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
本领域技术人员可以理解,图1中示出的基于智能眼镜的翻译设备的硬件结构并不构成对基于智能眼镜的翻译设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于智能眼镜的翻译程序。其中,操作系统是管理和控制基于智能眼镜的翻译设备与软件资源的程序,支持网络通信模块、用户接口模块、基于智能眼镜的翻译程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1004;用户接口模块用于管理和控制用户接口1003。
在图1所示的基于智能眼镜的翻译设备硬件结构中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;处理器1001可以调用存储器1005中存储的基于智能眼镜的翻译程序,并执行以下操作:
基于智能眼镜采集声音信息和人脸信息,并根据所述声音信息和所述人脸信息,确定与所述声音信息对应的目标人脸;
对所述声音信息进行翻译,生成文字信息;
将所述文字信息和所述目标人脸对应显示在所述智能眼镜,以及与所述智能眼镜通信连接的终端上。
进一步地,所述根据所述声音信息和所述人脸信息,确定与所述声音信息对应的目标人脸的步骤包括:
读取所述声音信息中的声纹数据,并将所述声纹数据和预设声纹库对比,确定目标声纹数据;
根据预设的声纹与人脸之间的对应关系,确定与所述目标声纹数据对应的待识别人脸;
将所述待识别人脸和各所述人脸信息对比,确定各所述人脸信息中与所述待识别人脸匹配的目标人脸。
进一步地,所述根据所述声音信息和所述人脸信息,确定与所述声音信息对应的目标人脸的步骤包括:
读取各所述人脸信息在连续时段内的人脸特征,形成与各所述人脸特征关联的人脸特征组,并针对各所述人脸特征组执行以下步骤:
将所述人脸特征组中的人脸特征进行对比,确定各所述人脸特征中的预设位置是否存在变化特征;
若所述预设位置存在变化特征,则将与所述人脸特征组对应的人脸信息确定为与所述声音信息对应的目标人脸。
进一步地,所述将所述文字信息和所述目标人脸对应显示在所述智能眼镜,以及与所述智能眼镜通信连接的终端上的步骤包括:
根据所述目标人脸在所述智能眼镜中的显示位置,将所述文字信息添加到与所述显示位置对应的预设位置显示,以对所示目标人脸进行追踪;
将所述目标人脸生成为人脸头像,并将所述人脸头像和所述文字信息输出到与所述智能眼镜通信连接的终端上显示。
进一步地,所述将所述人脸头像和所述文字信息输出到与所述智能眼镜通信连接的终端上显示的步骤包括:
获取与所述人脸头像对应的身份信息,并将所述身份信息和所述人脸头像形成信息组;
将所述信息组、文字信息和声音信息添加到与所述智能眼镜通信连接的终端上,在所述终端的显示界面中的预设区域显示。
进一步地,所述将所述文字信息和所述目标人脸对应显示在所述智能眼镜,以及与所述智能眼镜通信连接的终端上的步骤之后,处理器1001还用于调用存储器1005中存储的基于智能眼镜的翻译程序,并执行以下操作:
检测所述终端内是否存在与所述身份信息对应的存储标识,若存在与所述身份信息对应的存储标识,则读取所述存储标识;
若不存在与所述身份信息对应的存储标识,则根据所述身份信息,为所述文字信息分配初始存储标识;
将所述存储标识或所述初始存储标识添加到所述文字信息中,并将所述文字信息和所述声音信息关联存储为历史翻译信息。
进一步地,所述将所述文字信息和所述声音信息关联存储为历史翻译信息的步骤之后,处理器1001还用于调用存储器1005中存储的基于智能眼镜的翻译程序,并执行以下操作:
当接收到查看指令时,判断所述查看指令中是否存在搜索关键词;
若存在所述搜索关键词,则调用各所述历史翻译信息中与所述搜索关键词对应的目标历史翻译信息显示;
若不存在所述搜索关键词,则调用距离当前时间最近的时间内所存储的所述历史翻译信息显示。
进一步地,所述将所述文字信息和所述声音信息关联存储为历史翻译信息的步骤之后,处理器1001还用于调用存储器1005中存储的基于智能眼镜的翻译程序,并执行以下操作:
当检测到达预设周期时,抓取各所述历史翻译信息中存储时长达到预设时长的待清理历史翻译信息;
判断各所述待清理历史翻译信息中是否存在待保留历史翻译信息,若存在所述待保留历史翻译信息,则将各所述待清理历史翻译信息中除所述待保留历史翻译信息之外的其他历史翻译信息删除;
若不存在所述待保留历史翻译信息,则对各所述待清理历史翻译信息进行清理操作。
本发明基于智能眼镜的翻译设备的具体实施方式与下述基于智能眼镜的翻译方法各实施例基本相同,在此不再赘述。
本发明还提供一种基于智能眼镜的翻译方法。
参照图2,图2为本发明基于智能眼镜的翻译方法第一实施例的流程示意图。
本发明实施例提供了基于智能眼镜的翻译方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。具体地,本实施例中的基于智能眼镜的翻译方法包括:
步骤S10,基于智能眼镜采集声音信息和人脸信息,并根据所述声音信息和所述人脸信息,确定与所述声音信息对应的目标人脸。
本实施例中的基于智能眼镜的翻译方法应用于服务器,适用于通过服务器将说话者的说话声音翻译为文字,以便于使用者了解各说话者的说话内容。其中服务器与终端,终端与智能眼镜之间通信连接;终端为使用者所使用的手机、平板电脑等智能设备;该翻译方法所适合的使用者可以是聋哑人士,也可以为听力障碍者,或者国际会议上语言不通的参会人员等具有将说话声音实时翻译为文字需求的人士,实施例中将该类人士统称为使用者。
进一步地,使用者先在其终端安装该用于翻译的APP(Application、应用软件),并注册用户账号。在翻译过程中,使用者将智能眼镜佩戴在眼睛位置,并开启终端上安装的APP进行登录操作。此后使用者在APP上点击翻译虚拟按键,则启动智能眼镜对声音信息和人脸信息进行采集;该采集的声音信息为当前外界说话者的说话声音,人脸信息则为使用者当前所处环境中所具有的人脸图像。智能眼镜上设置有收音装置,通过收音装置对外界的说话声音进行收集,得到声音信息;此外智能眼镜上还设置有摄像装置,使用者转动头部即可移动摄像装置对其所在环境中的人脸图像进行采集。为了确保所采集的人脸图像足够多和足够清晰,可设定停留时长,要求使用者对现场中的人脸观看时长不得少于停留时长,智能眼镜在该观看时长内摄像拍照。
更进一步地,智能眼镜将采集得到的声音信息和人脸信息发送到终端,由终端对发送到服务器,服务器依据该声音信息和人脸信息,确定与声音信息对应的目标人脸,该目标人脸即为发出声音信息的说话者的脸。具体地,根据声音信息和人脸信息,确定与声音信息对应的目标人脸的步骤包括:
步骤S11,读取所述声音信息中的声纹数据,并将所述声纹数据和预设声纹库对比,确定目标声纹数据;
步骤S12,根据预设的声纹与人脸之间的对应关系,确定与所述目标声纹数据对应的待识别人脸;
步骤S13,将所述待识别人脸和各所述人脸信息对比,确定各所述人脸信息中与所述待识别人脸匹配的目标人脸。
进一步地,使用者在使用智能眼镜进行声音翻译之前,先采集与其可能进行沟通交流人员的声纹特征数据,形成该使用者的专用预设声纹库。如由使用者工作中的同事、生活中朋友、亲人等针对智能眼镜进行说话,智能眼镜对该说话的声音进行采集,提取其中的声纹特征数据,形成表征各人员唯一性的预设声纹库。同时为了对各人员进行区分,在采集声纹特征数据的同时,还采集各人员的人脸特征数据;在各声纹特征数据和各人脸特征数据之间建立对应关系,表征各人员所具有的声纹特征数据和人脸特征数据。此外,使用者还可对各人员的声纹特征数据和人脸特征数据进行身份信息的编号或者命名,以通过编号或命名来区分各人员。
更进一步地,在使用智能眼镜进行声音翻译的过程中,服务器对采集的声音信息中的声纹数据进行读取,并调用预设声纹库,将读取的声纹数据和该预设声纹库中的各项声纹特征数据对比,确定各项声纹特征数据与声纹数据之间的相似度值,将相似度值最大的声纹特征数据确定为与声纹数据匹配的目标声纹数据。此后将针对各声纹特征数据和各人脸特征数据之间所建立的对应关系,作为预设的声纹与人脸之间的对应关系;对该预设的对应关系进行调用,并查找对应关系中目标声纹数据所对应的人脸特征数据,该所对应的人脸特征数据即为与目标声纹数据对应的待识别人脸,表征声音信息来自于该待识别人脸。
进一步地,将通过智能眼镜采集的各项人脸信息和待识别人脸对比,确定各项人脸信息中与待识别人脸相似程度最高的人脸信息,该相似程度最高的人脸信息即为与待识别人脸匹配的目标人脸,表征当前环境中待识别人脸所对应的目标人脸,采集的声音信息即来自于具有该目标人脸的说话者的声音。其中,相似程度的高低,可通过相似或相同特征数据的数量多少表征,当相似或相同特征数据的数量越多,则相似程度越高,反之则越低。
需要说明的是,当同一时间的说话者众多,所采集得到的声音信息来源于多个说话者时,则依据各个声音信息中的声纹数据,确定各个目标声纹数据;进而确定各个声音信息所来源的待识别人脸,再确定现场环境中与各个待识别人脸对应的目标人脸,即可确定采集的各个声音信息所来源的说话者。
此外,针对同一时间仅存在一名说话者发言的情况,可设置有通过人员嘴部图形的变化来识别目标人脸;此时,根据声音信息和人脸信息,确定与声音信息对应的目标人脸的步骤包括:
步骤S14,读取各所述人脸信息在连续时段内的人脸特征,形成与各所述人脸特征关联的人脸特征组,并针对各所述人脸特征组执行以下步骤:
步骤S15,将所述人脸特征组中的人脸特征进行对比,确定各所述人脸特征中的预设位置是否存在变化特征;
步骤S16,若所述预设位置存在变化特征,则将与所述人脸特征组对应的人脸信息确定为与所述声音信息对应的目标人脸。
本实施例中先通过声音信息中音色、音调等声音特征判断该声音信息是否来自于多个人员,若来自于多个人员,则通过声音信息中的声纹数据来确定目标人脸;若来自于单个人员,则读取各人脸信息在连续时段内的人脸特征,该人脸特征为各人员的面部表情,包括嘴部和眼部的表情等,通过连续时段内面部表情的变化来确定人员是否发言。将同一人员在连续时段内的人脸特征形成为与该人员的人脸信息相关联的人脸特征组,并针对各个人脸特征组,在各组中的人脸特征之间进行对比,确定人脸特征的预设位置是否存在变化,其中预设位置为用于表征说话与否的嘴部。若人脸特征的预设位置存在变化特征,则说明该人脸特征组所来源的人员为发言者,进而将与该人脸特征组对应的人脸信息确定为与声音信息对应的目标人脸。而若人脸特征组中的各人脸特征的预设位置不存在变化特征,则说明该人脸特征组所来源的人员不是发言者;以此从各人员中查找出发言者,确定与声音信息对应的目标人脸。
步骤S20,对所述声音信息进行翻译,生成文字信息;
进一步地,服务器对接有用于将声音转换为文字的翻译库,或者本身训练有翻译库;预先将各种声音及对应的文字作为训练样本进行训练,使得翻译库中针对各声音均具有对应的文字。在对声音信息进行翻译时,先将该声音信息和翻译库中的各项声音对比,确定与声音信息对应的目标声音;该目标声音在翻译库中所对应的文字,即为声音信息所表征的文字内容,从而将其生成为文字信息。
步骤S30,将所述文字信息和所述目标人脸对应显示在所述智能眼镜,以及与所述智能眼镜通信连接的终端上。
更进一步地,在确定声音信息所来源的目标人脸,以及将声音信息翻译为文字信息之后,该文字信息为目标人脸所对应说话者的说话内容,从而将该文字信息和目标人脸对应显示在智能眼镜中,以直观显示说话者的说话内容,使用者通过智能眼镜即可观看到说话者说话的文字内容。同时还将两者对应显示在与智能眼镜铜线连接的终端上,以便于使用者通过终端对说话者的文字内容进行查看。具体地,将文字信息和目标人脸对应显示在智能眼镜,以及与智能眼镜通信连接的终端上的步骤包括:
步骤S31,根据所述目标人脸在所述智能眼镜中的显示位置,将所述文字信息添加到与所述显示位置对应的预设位置显示,以对所示目标人脸进行追踪;
步骤S32,将所述目标人脸生成为人脸头像,并将所述人脸头像和所述文字信息输出到与所述智能眼镜通信连接的终端上显示。
可理解地,在与使用者沟通交流的当前环境中存在多个人员时,各人员在使用者智能眼镜中的显示位置随着使用者观看位置的不同而不同。为了将文字信息和目标人脸对应显示在智能眼镜中,先确定目标人脸在智能眼镜中的显示位置,进而将文字信息添加到与该显示位置对应的预设位置显示。该预设位置为预先根据需求所设定的位置,如设定在成像位置的上方、成像位置的左方等。其中显示时以AR(Augmented Reality,增强现实)的方式将翻译的文字信息悬浮于预设位置显示,且随着显示位置的移动而移动,即随着说话者的移动而移动,以便使用者对说话者追踪,且具有更好的观看效果。
进一步地,在将文字信息和目标人脸对应显示在终端时,先将将目标人脸生成为可在APP作为头像显示的人脸头像;从确定为目标人脸的人脸信息中选取清晰度达到一定值且为人脸正面的人脸图像,并将该人脸图像的尺寸调整为符合APP头像要求的尺寸,该经尺寸调整后的人脸图像即为所生成的人脸头像。此后,将人脸头像和文字信息形成关联关系输出到智能终端上显示,表征具有该人脸头像的说话者所说的文字内容。此外,为了体现说话者的身份信息,设置有将身份信息、人脸头像文字和身份信息一并同时显示在智能终端的机制;具体地,将人脸头像和文字信息输出到与智能眼镜通信连接的终端上显示的步骤包括:
步骤S321,获取与所述人脸头像对应的身份信息,并将所述身份信息和所述人脸头像形成信息组;
步骤S322,将所述信息组、文字信息和声音信息添加到与所述智能眼镜通信连接的终端上,在所述终端的显示界面中的预设区域显示。
可理解地,人脸头像由目标人脸生成,而目标人脸所对应的待识别人脸在预设声纹库中设置有身份信息;从预设声纹库中对该与人脸头像对应的身份信息进行获取,并将身份信息和人脸头像形成具有关联关系的信息组。此外,与智能眼镜通信连接终端的显示界面中预先设置有预设区域,在生成信息组之后,将信息组、文字信息和声音信息添加到该预设区域显示;其中对于多个说话者的情形,将各说话者所生成的信息组、文字信息和声音信息均添加到预设区域显示。将各说话者形成说话组群,组群中相同的说话者用相同的人脸头像进行表征,其中预设区域具有动态特性,每个说话者所形成的信息组位于预设区域的上方,再将声音信息排列在信息组的下方,而将文字信息排列在声音信息的下方。
考虑到随着文字信息数量的不同,所占据显示区域的大小不同,使得用于显示信息组、文字信息和声音信息的预设区域变化,在文字信息较少时预设区域相应较小,而在文字信息较多时预设区域则变化为较大。同时,不同说话者之间或者同一说话者的不同话语之间的预设区域的间隔区域具有一致性,即在预设区域将某一说话者的说话内容或者将同一说话者的某一说话内容显示之后,间隔一定区域后,对另一说话者的说话内容或者同一说话者的另一说话内容进行显示。通过将各说话者形成说话组群,将各说话者的说话内容同时显示在终端的显示界面中,方便了使用者对各项说话内容的查看。
本发明实施例先依据智能眼镜所采集的声音信息和人脸信息,确定与声音信息对应的目标人脸,该目标人脸即为声音信息所来源的说话者;此后对采集的声音信息进行翻译,得到文字信息;进而将文字信息和目标人脸对应显示在智能眼镜,以及与智能眼镜通信连接的终端上。通过文字信息和目标人脸的对应显示可清楚体现各说话者的说话内容,有利于使用者对不同说话者说话内容的区分;同时使用者一方面通过智能眼镜所显示的内容即可知道说话者的说话内容,另一方面还可以通过智能终端进行查看,方便了使用者的使用。
进一步地,提出本发明基于智能眼镜的翻译方法第二实施例。
所述基于智能眼镜的翻译方法第二实施例与所述基于智能眼镜的翻译方法第一实施例的区别在于,所述将所述文字信息和所述目标人脸对应显示在所述智能眼镜,以及与所述智能眼镜通信连接的终端上的步骤之后包括:
步骤S40,检测所述终端内是否存在与所述身份信息对应的存储标识,若存在与所述身份信息对应的存储标识,则读取所述存储标识;
步骤S50,若不存在与所述身份信息对应的存储标识,则根据所述身份信息,为所述文字信息分配初始存储标识;
步骤S60,将所述存储标识或所述初始存储标识添加到所述文字信息中,并将所述文字信息和所述声音信息关联存储为历史翻译信息。
可理解地,对于对于对声音信息的翻译内容,使用者可能后续具有查看需求;从而为了便于使用者的查看,本实施例设置有将文字信息和目标人脸对应存储的机制。具体地,针对各个说话者,依据各自的身份信息进行存储;存储时先检测终端内是否存在与身份信息对应的存储标识,若存在则说明此前对具有该身份信息的说话者的说话内容进行过存储,当前存储时依然依据该存储标识进行存储。对该所存在的存储标识进行读取,并添加到文字信息和声音信息中,将文字信息、声音信息和存储标识一并存储。
进一步地,当终端内部存在与身份信息对应的存储标识时,则说明具有该身份信息的说话者为首次生成文字信息和声音信息,从而依据该身份信息,对文字信息分配初始存储标识。将身份信息中表征唯一性的身份证号码或者电话号码形成为初始存储标识,以使得在将初始存储标识添加到文字信息和声音信息中,对文字信息和声音信息存储时,该初始存储标识具有唯一性,和其他说话者形成区别。
需要说明的是,对文字信息和声音信息的存储操作可以在当前环境的对话场景完全结束之后进行,也可以对单句的对话进行逐一存储。如对于会议的场景,在整个会议结束,使用者退出会议之后,将整个会议中的声音信息以及针对声音信息翻译得到的文字信息一并存储;或者将会议中各说话者每次说话的声音信息及对应翻译的文字信息存储。存储方式可依据使用者的需求自主设置,对此不做限定。通过将文字信息和声音信息关联存储为历史翻译信息,方便了使用者后续的查看。
更进一步地,为了实现使用者的查看,将文字信息和声音信息关联存储为历史翻译信息的步骤之后包括:
步骤a1,当接收到查看指令时,判断所述查看指令中是否存在搜索关键词;
步骤a2,若存在所述搜索关键词,则调用各所述历史翻译信息中与所述搜索关键词对应的目标历史翻译信息显示;
步骤a3,若不存在所述搜索关键词,则调用距离当前时间最近的时间内所存储的所述历史翻译信息显示。
进一步地,终端安装的用于翻译的APP中设置有触发查看历史翻译信息的虚拟按键,当使用者具有查看历史翻译信息的需求时,触发该虚拟按键。服务器在检测到使用者该对虚拟按键的触发操作时,将该触发操作作为查看指令进行接收,并判断该查看指令中是否存在搜索关键词;如存在搜索关键词,则说明使用者需要依据搜索关键词对历史翻译信息中,符合该搜索关键词的信息进行搜索。此时,依据搜索关键词对历史翻译信息筛选,确定其中与搜索关键词对应的目标历史翻译信息显示,并将该目标历史翻译信息显示在终端的显示界面中,以便使用者的查看。其中搜索关键词可以是某个人的姓名、也可以是某个专用名词、还可以是时间信息;当搜索关键词是姓名时,则调用历史翻译信息中与该姓名相关的文字信息和声音信息显示;当搜索关键词是专用名词时,则调用历史翻译信息中与该专用名词相关的文字信息和声音信息显示;当搜索关键词是时间信息时,则调用历史翻译信息中在该时间信息内所生成的文字信息和声音信息显示。
进一步地,若经确定查看指令中不存在搜索关键词,则将使用者的查看需求默认为最近存储的历史翻译信息;从而调用距离当前时间最近的时间内所存储的历史翻译信息进行显示,即将最近一次存储的历史翻译信息显示,以实现使用者的查看需求。
可理解地,随着使用者对智能眼镜的使用,所生成的声音信息和文字信息越来越多;一方面终端的存储空间有限,另一方面存储时间越长的历史翻译信息的价值越小;从而为了确保有足够的空间对后续生成的声音信息和文字信息进行存储,设置有定时清理机制。具体地,将文字信息和声音信息关联存储为历史翻译信息的步骤之后包括:
步骤b1,当检测到达预设周期时,抓取各所述历史翻译信息中存储时长达到预设时长的待清理历史翻译信息;
步骤b2,判断各所述待清理历史翻译信息中是否存在待保留历史翻译信息,若存在所述待保留历史翻译信息,则将各所述待清理历史翻译信息中除所述待保留历史翻译信息之外的其他历史翻译信息删除;
步骤b3,若不存在所述待保留历史翻译信息,则对各所述待清理历史翻译信息进行清理操作。
服务器中预先设定有用于清理的预设周期,以及表征存储时间过长的预设时长;当检测到达该预设周期时,对各项历史翻译信息的存储时长进行检测,确定其中存储时长达到预设时长的待清理历史翻译信息。如预设周期为一个月,预设时长为三个月;当到达一个月的预设周期时,检测到历史翻译信息的信息A、B、C的存储时长分别为2个月、3个月10天和3个半月,此时则将B和C确定为待清理历史翻译信息。此后抓取待清理历史翻译信息,并判断其中是否具有待保留历史翻译信息,该待保留历史翻译信息表征为需要长期保存的重要历史翻译信息。在将文字信息和声音信息关联为历史翻译信息存储时,使用者选择其中需要长期保存的重要历史翻译信息,服务器对该选择的重要历史翻译信息添加重点标记。通过判断待清理历史翻译信息中是否存在添加重点标记的待清理历史翻译信息,来确定待清理历史翻译信息中是否存在待保留历史翻译信息;即将待清理历史翻译信息中携带有重点标记的待清理历史翻译信息确定为待保留历史翻译信息。对于存在待保留历史翻译信息的待清理历史翻译信息,在对待清理历史翻译信息清理时,将其中的待保留历史翻译信息保留,而将其中除待保留历史翻译信息之外的其他历史翻译信息删除。对于不存在待保留历史翻译信息的待清理历史翻译信息,则直接将各项待清理历史翻译信息清理,以释放终端的存储空间。
本实施例通过依据身份信息对文字信息和声音信息存储,将具有相同身份信息的文字信息和声音信息设置相同的存储标识,便于文字信息和声音信息的分类管理;同时依据查询指令中是否携带搜索关键词对存储的文字信息和声音信息进行分类查询,实现了依据不同的查询方式进行查看;此外还设置清理机制,实现在对重要历史翻译信息长期存储的同时,释放终端的存储空间,以便于对后续生成的文字信息和声音信息的存储。
进一步地,提出本发明基于智能眼镜的翻译方法第三实施例。
所述基于智能眼镜的翻译方法第三实施例与所述基于智能眼镜的翻译方法第一或第二实施例的区别在于,所述基于智能眼镜采集声音信息和人脸信息的步骤之前包括:
步骤S70,当检测到所述终端中翻译应用的启动指令时,检测所述智能眼镜与所述终端之间的通信连接是否有效;
步骤S80,若所述通信连接有效,则执行基于智能眼镜采集声音信息和人脸信息的步骤;
步骤S90,若所述通信连接无效,则输出预设提示信息。
可理解地,使用者在使用智能眼镜进行翻译之前,需要和终端进行通信连接。使用者通过终端上安装的翻译应用触发启动指令,服务器在接收到该启动指令时,调用翻译应用的首页面显示,并检测智能眼镜与终端之间的通信连接是否有效。其中智能眼镜与终端之间可通过typec接口连接,也可通过蓝牙、WIFI等方式连接,对此不做限制。
进一步地,若检测到智能眼镜与终端之间的通信连接有效,两者之间的数据可正常传输,则启动智能眼镜中对声音信息和人脸信息进行采集的功能。其中该采集功能可通过智能眼镜自动启动,也可由使用者启动;对于自动启动,可向终端输出“智能眼镜将在XX秒之后采集声音信息和人脸信息,经确保智能眼镜正确佩戴在眼睛上”的提示信息;对于使用者启动,则可向终端输出“智能眼镜和终端已正常连接,请启动智能眼镜采集声音信息和人脸信息的功能”的提示信息,使用者对该采集功能后,智能眼镜则可采集声音信息和人脸信息。
更进一步地,若智能眼镜与终端两者之间的通信连接无效,数据不能在两者之间正常传输,则输出预设提示信息;提示使用者对两者之间的通信进行检测或重新连接,以建立智能眼镜和终端之间有效的通信连接,进而在两者之间传输数据。本实施例通过对智能眼镜和终端两者之间通信连接有效性的检测,可确保智能眼镜和终端之间的正常通信,有利于声音信息和人脸信息的采集,进而确保了对声音信息的翻译,便于使用者对翻译内容的查看。
此外,本发明实施例还提出一种计算机可读存储介质。
计算机可读存储介质上存储有基于智能眼镜的翻译程序,基于智能眼镜的翻译程序被处理器执行时实现如上所述的基于智能眼镜的翻译方法的步骤。
本发明计算机可读存储介质具体实施方式与上述基于智能眼镜的翻译方法各实施例基本相同,在此不再赘述。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本发明的保护之内。

Claims (10)

1.一种基于智能眼镜的翻译方法,其特征在于,所述基于智能眼镜的翻译方法包括以下步骤:
基于智能眼镜采集声音信息和人脸信息,并根据所述声音信息和所述人脸信息,确定与所述声音信息对应的目标人脸;
对所述声音信息进行翻译,生成文字信息;
将所述文字信息和所述目标人脸对应显示在所述智能眼镜,以及与所述智能眼镜通信连接的终端上。
2.如权利要求1所述的基于智能眼镜的翻译方法,其特征在于,所述根据所述声音信息和所述人脸信息,确定与所述声音信息对应的目标人脸的步骤包括:
读取所述声音信息中的声纹数据,并将所述声纹数据和预设声纹库对比,确定目标声纹数据;
根据预设的声纹与人脸之间的对应关系,确定与所述目标声纹数据对应的待识别人脸;
将所述待识别人脸和各所述人脸信息对比,确定各所述人脸信息中与所述待识别人脸匹配的目标人脸。
3.如权利要求1所述的基于智能眼镜的翻译方法,其特征在于,所述根据所述声音信息和所述人脸信息,确定与所述声音信息对应的目标人脸的步骤包括:
读取各所述人脸信息在连续时段内的人脸特征,形成与各所述人脸特征关联的人脸特征组,并针对各所述人脸特征组执行以下步骤:
将所述人脸特征组中的人脸特征进行对比,确定各所述人脸特征中的预设位置是否存在变化特征;
若所述预设位置存在变化特征,则将与所述人脸特征组对应的人脸信息确定为与所述声音信息对应的目标人脸。
4.如权利要求1所述的基于智能眼镜的翻译方法,其特征在于,所述将所述文字信息和所述目标人脸对应显示在所述智能眼镜,以及与所述智能眼镜通信连接的终端上的步骤包括:
根据所述目标人脸在所述智能眼镜中的显示位置,将所述文字信息添加到与所述显示位置对应的预设位置显示,以对所示目标人脸进行追踪;
将所述目标人脸生成为人脸头像,并将所述人脸头像和所述文字信息输出到与所述智能眼镜通信连接的终端上显示。
5.如权利要求4所述的基于智能眼镜的翻译方法,其特征在于,所述将所述人脸头像和所述文字信息输出到与所述智能眼镜通信连接的终端上显示的步骤包括:
获取与所述人脸头像对应的身份信息,并将所述身份信息和所述人脸头像形成信息组;
将所述信息组、文字信息和声音信息添加到与所述智能眼镜通信连接的终端上,在所述终端的显示界面中的预设区域显示。
6.如权利要求5所述的基于智能眼镜的翻译方法,其特征在于,所述将所述文字信息和所述目标人脸对应显示在所述智能眼镜,以及与所述智能眼镜通信连接的终端上的步骤之后包括:
检测所述终端内是否存在与所述身份信息对应的存储标识,若存在与所述身份信息对应的存储标识,则读取所述存储标识;
若不存在与所述身份信息对应的存储标识,则根据所述身份信息,为所述文字信息分配初始存储标识;
将所述存储标识或所述初始存储标识添加到所述文字信息中,并将所述文字信息和所述声音信息关联存储为历史翻译信息。
7.如权利要求6所述的基于智能眼镜的翻译方法,其特征在于,所述将所述文字信息和所述声音信息关联存储为历史翻译信息的步骤之后包括:
当接收到查看指令时,判断所述查看指令中是否存在搜索关键词;
若存在所述搜索关键词,则调用各所述历史翻译信息中与所述搜索关键词对应的目标历史翻译信息显示;
若不存在所述搜索关键词,则调用距离当前时间最近的时间内所存储的所述历史翻译信息显示。
8.如权利要求6所述的基于智能眼镜的翻译方法,其特征在于,所述将所述文字信息和所述声音信息关联存储为历史翻译信息的步骤之后包括:
当检测到达预设周期时,抓取各所述历史翻译信息中存储时长达到预设时长的待清理历史翻译信息;
判断各所述待清理历史翻译信息中是否存在待保留历史翻译信息,若存在所述待保留历史翻译信息,则将各所述待清理历史翻译信息中除所述待保留历史翻译信息之外的其他历史翻译信息删除;
若不存在所述待保留历史翻译信息,则对各所述待清理历史翻译信息进行清理操作。
9.一种基于智能眼镜的翻译设备,其特征在于,所述基于智能眼镜的翻译设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于智能眼镜的翻译程序,所述基于智能眼镜的翻译程序被所述处理器执行时实现如权利要求1-8中任一项所述的基于智能眼镜的翻译方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于智能眼镜的翻译程序,所述基于智能眼镜的翻译程序被处理器执行时实现如权利要求1-8中任一项所述的基于智能眼镜的翻译方法的步骤。
CN201910443386.6A 2019-05-24 2019-05-24 基于智能眼镜的翻译方法、设备及计算机可读存储介质 Active CN110188364B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910443386.6A CN110188364B (zh) 2019-05-24 2019-05-24 基于智能眼镜的翻译方法、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910443386.6A CN110188364B (zh) 2019-05-24 2019-05-24 基于智能眼镜的翻译方法、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110188364A true CN110188364A (zh) 2019-08-30
CN110188364B CN110188364B (zh) 2023-11-24

Family

ID=67717845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910443386.6A Active CN110188364B (zh) 2019-05-24 2019-05-24 基于智能眼镜的翻译方法、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110188364B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112397070A (zh) * 2021-01-19 2021-02-23 北京佳珥医学科技有限公司 一种滑动翻译ar眼镜
CN113609890A (zh) * 2021-05-25 2021-11-05 深圳市国基视讯技术有限公司 一种基于独立识别终端的协同人脸识别系统及识别方法
CN115797815A (zh) * 2021-09-08 2023-03-14 荣耀终端有限公司 Ar翻译的处理方法及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368577A (zh) * 2017-07-19 2017-11-21 维沃移动通信有限公司 一种音频处理方法及移动终端
CN107479691A (zh) * 2017-07-06 2017-12-15 捷开通讯(深圳)有限公司 一种交互方法及其智能眼镜和存储装置
CN108509430A (zh) * 2018-04-10 2018-09-07 京东方科技集团股份有限公司 智能眼镜及其翻译方法
CN109389036A (zh) * 2018-08-29 2019-02-26 中国建设银行股份有限公司 一种基于ar的信息推送方法、装置、终端及可读介质
CN109446876A (zh) * 2018-08-31 2019-03-08 百度在线网络技术(北京)有限公司 手语信息处理方法、装置、电子设备和可读存储介质
CN109754811A (zh) * 2018-12-10 2019-05-14 平安科技(深圳)有限公司 基于生物特征的声源追踪方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107479691A (zh) * 2017-07-06 2017-12-15 捷开通讯(深圳)有限公司 一种交互方法及其智能眼镜和存储装置
CN107368577A (zh) * 2017-07-19 2017-11-21 维沃移动通信有限公司 一种音频处理方法及移动终端
CN108509430A (zh) * 2018-04-10 2018-09-07 京东方科技集团股份有限公司 智能眼镜及其翻译方法
CN109389036A (zh) * 2018-08-29 2019-02-26 中国建设银行股份有限公司 一种基于ar的信息推送方法、装置、终端及可读介质
CN109446876A (zh) * 2018-08-31 2019-03-08 百度在线网络技术(北京)有限公司 手语信息处理方法、装置、电子设备和可读存储介质
CN109754811A (zh) * 2018-12-10 2019-05-14 平安科技(深圳)有限公司 基于生物特征的声源追踪方法、装置、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112397070A (zh) * 2021-01-19 2021-02-23 北京佳珥医学科技有限公司 一种滑动翻译ar眼镜
CN112397070B (zh) * 2021-01-19 2021-04-30 北京佳珥医学科技有限公司 一种滑动翻译ar眼镜
CN113609890A (zh) * 2021-05-25 2021-11-05 深圳市国基视讯技术有限公司 一种基于独立识别终端的协同人脸识别系统及识别方法
CN115797815A (zh) * 2021-09-08 2023-03-14 荣耀终端有限公司 Ar翻译的处理方法及电子设备
CN115797815B (zh) * 2021-09-08 2023-12-15 荣耀终端有限公司 Ar翻译的处理方法及电子设备

Also Published As

Publication number Publication date
CN110188364B (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN111488433B (zh) 一种适用于银行的提升现场体验感的人工智能交互系统
US11948556B2 (en) Detection and/or enrollment of hot commands to trigger responsive action by automated assistant
WO2021051506A1 (zh) 语音交互方法、装置、计算机设备及存储介质
EP2210214B1 (en) Automatic identifying
US11849256B2 (en) Systems and methods for dynamically concealing sensitive information
WO2020168468A1 (zh) 基于表情识别的呼救方法、装置、电子设备及存储介质
CN112075075A (zh) 用于会议的计算机化智能助理
US9530067B2 (en) Method and apparatus for storing and retrieving personal contact information
CN110188364A (zh) 基于智能眼镜的翻译方法、设备及计算机可读存储介质
US20120081506A1 (en) Method and system for presenting metadata during a videoconference
BRPI0904540B1 (pt) método para animar rostos/cabeças/personagens virtuais via processamento de voz
CN112184497B (zh) 一种客户到访轨迹追踪及客流分析系统及方法
WO2011090411A1 (en) Meeting room participant recogniser
CN109671438A (zh) 一种利用语音提供辅助服务的装置及方法
CN110853646A (zh) 会议发言角色的区分方法、装置、设备及可读存储介质
CN110070395A (zh) 一种辅助车辆销售的系统、方法及装置
CN108920640A (zh) 基于语音交互的上下文获取方法及设备
CN109920436A (zh) 一种提供辅助服务的装置及方法
US9110888B2 (en) Service server apparatus, service providing method, and service providing program for providing a service other than a telephone call during the telephone call on a telephone
CN111626061A (zh) 会议记录生成方法、装置、设备及可读存储介质
CN111063346A (zh) 基于机器学习的跨媒体明星情感陪伴交互系统
JP2020136921A (ja) ビデオ通話システム、およびコンピュータプログラム
CN112333258A (zh) 一种智能客服方法、存储介质及终端设备
CN110072003A (zh) 一种社交信息管理方法、装置及存储介质
US20230061210A1 (en) Method and system of automated question generation for speech assistance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant