CN115438212B - 一种影像投射系统、方法及设备 - Google Patents

一种影像投射系统、方法及设备 Download PDF

Info

Publication number
CN115438212B
CN115438212B CN202211008794.7A CN202211008794A CN115438212B CN 115438212 B CN115438212 B CN 115438212B CN 202211008794 A CN202211008794 A CN 202211008794A CN 115438212 B CN115438212 B CN 115438212B
Authority
CN
China
Prior art keywords
image
characters
image data
module
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211008794.7A
Other languages
English (en)
Other versions
CN115438212A (zh
Inventor
季工
蒋耘晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202211008794.7A priority Critical patent/CN115438212B/zh
Publication of CN115438212A publication Critical patent/CN115438212A/zh
Application granted granted Critical
Publication of CN115438212B publication Critical patent/CN115438212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开涉及一种影像投射系统、方法及设备,所述系统包括:语音模块,用于采集用户的语音数据,解析语音数据中的字词对应的词编码;影像模块,用于接收语音模块传输的词编码,获取词编码对应的文字,生成嵌有文字的影像数据;投影模块,用于对嵌有文字的影像数据进行投影。本公开通过系统对语音数据的编码、传输、智能解析,提取语音数据中的关键字、词等语义信息进行匹配度量、影像生成处理,将其转换为具象化的影像进行投射显示。可与手机内置或外配进行连接应用。通过网络智能学习建库。如此通过用户的语音数据与投射显示内容的交互、语音的智能解析、转化,实现用户语音输入的影像化显示、更新,达到声光图内容同步转换的效果。

Description

一种影像投射系统、方法及设备
技术领域
本公开涉及终端技术领域,更为具体来说,本公开涉及一种影像投射系统、方法及设备。
背景技术
影像投射显示系统是可将图像或视频投射到指定区域的设备,与目前广泛应用于家庭、办公以及娱乐等多种场所的投影仪有相似处。一般地,投影仪是通过光路系统将图像或视频投影至幕布,通过这种方式实现内容的展示。
现有技术的影像投射系统具有投射显示装置工作程式固定,仅能投射显示预先设定的内容,如PPT文档、PDF文档、图片、视频等,投影内容无法依据使用者的需要进行智能生成、更新的问题。
发明内容
本公开提出一种影像投射系统、方法及设备,能够依据语音数据,自动生成语音数据的语义对应的影像数据,并进行投影,实现依据语音智能生成影像数据并投影,提高影像投射的智能化。
第一方面,本公开提供了一种影像投射系统,包括:
语音模块,用于采集用户的语音数据,解析所述语音数据中的字词对应的词编码;
影像模块,用于接收所述语音模块传输的所述词编码,获取所述词编码对应的文字,生成嵌有所述文字的影像数据;
纠错模块,用于将嵌有所述文字的影像数据发送给用户智能终端进行选择,当用户选择是时将嵌有所述文字的第一影像数据发送给投影模块,当用户选择否时,提供可能的备选影像数据供用户选择,在收到用户选择的备选影像数据后,将嵌有所述文字的备选影像数据发送给投影模块;其中,所述备选影像数据是由预测模型根据与第一影像数据的相似度推荐得到的或者经影像模块重新计算生成的;
投影模块,用于对嵌有所述文字的影像数据进行投影。
所述影像模块具体用于:
根据所述文字中包括的至少一个关键词,从本地图库和/或网络中获取分别与每个关键词匹配的至少一个图像;
根据所述至少一个关键词和所述至少一个图像,生成嵌有所述文字的影像数据。
进一步地,所述备选影像数据是由预测模型根据与第一影像数据的相似度推荐得到具体包括:
利用预先存储于所述纠错模块中的预测模型在本地图库和/或网络中获取分别与每个关键词匹配的至少一个图像;
分别计算所述与每个关键词匹配的至少一个图像与所述第一影像数据的余弦相似度;
将计算后余弦相似度最高的多张影像作为所述备选影像数据。
进一步地,所述影像模块具体用于:
根据所述至少一个关键词,识别所述至少一个图像中每个图像包含的与关键词匹配的物体图像的数目;
将包含与关键词匹配的物体图像的数目最多的图像确定为目标图像;
将所述文字嵌入所述目标图像中,得到嵌有所述文字的影像数据。
进一步地,所述影像模块具体用于:
从与每个关键词匹配的至少一个图像中,分别选取每个关键词对应的素材图像;
根据所述文字的语义信息,将每个关键词对应的素材图像融合为至少一个目标图像;
将所述文字嵌入所述至少一个目标图像中,得到嵌有所述文字的影像数据。
进一步地,所述影像模块,还用于为嵌有所述文字的影像数据分配对应的影像编号;
所述投影模块,还用于检测到当前接收到的影像数据的影像编号与当前正在投影的影像数据的影像编号不同,将当前正在投影的影像数据更新为当前接收到的影像数据。
进一步地,所述影像模块具体用于:
将所述词编码与预设词库中的词编码进行匹配,得到匹配编码;
根据所述匹配编码,从预设的词编码与字词的映射关系中,查找所述匹配编码对应的字词,得到所述语音数据对应的文字。
进一步地,所述语音模块具体用于:
将所述语音数据转换为数字编码信号;
采用预设语义解析算法从所述数字编码信号中提取所述语音数据中的字词对应的词编码。
第二方面,本公开提供了一种影像投射方法,应用于第一方面所述的影像投射系统,所述方法包括:
采集用户的语音数据,解析所述语音数据中的字词对应的词编码;
接收所述语音模块传输的所述词编码,获取所述词编码对应的文字,生成嵌有所述文字的影像数据;
将嵌有所述文字的影像数据发送给用户智能终端进行选择并接受用户的选择结果,当用户选择是时将嵌有所述文字的第一影像数据发送给投影模块,当用户选择否时,提供可能的备选影像数据供用户选择,在收到用户选择的备选影像数据后,将嵌有所述文字的备选影像数据发送给投影模块;其中,所述备选影像数据是由预测模型根据与第一影像数据的相似度推荐得到的或者经影像模块重新计算生成的;
投影模块,用于对嵌有所述文字的影像数据进行投影。
第三方面,本公开提供了一种投影设备,包括微处理器、风扇、电源及第一方面所述的影像投射系统;
所述微处理器,用于控制所述风扇及所述影像投射系统运行;
所述风扇,用于为所述投影设备散热;
所述电源,用于为所述投影设备供电。
第四方面,本公开提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现第二方面所述的方法。
本公开的有益效果为:
在本公开实施例中,采集用户的语音数据,识别语音数据对应的文字,生成嵌有该文字的影像数据并投影。实现对语音数据进行语义还原,并对包含该语义的影像数据进行投影,使得投影的影像与用户的语音数据相匹配,实现用户语音输入的影像化显示,提高投影显示的智能化程度。且需要切换投影显示的内容时无需手动切换,可以直接通过语音来切换投影内容,而且投影的影像内容无需预先内置到系统中,而是依据用户的语音数据智能生成影像数据,该系统无需外接电脑等设备即可完成投影,智能化程度很高。
附图说明
图1示出了本公开的实施例提供的一种影像投射系统的结构示意图;
图2示出了本公开的实施例提供的语音模块的信号处理的流程示意图;
图3示出了本公开的实施例提供的影像模块的信号处理的流程示意图;
图4示出了本公开的实施例提供的影像投射系统的信号处理的流程示意图;
图5示出了本公开的实施例提供的一种投影设备的结构示意图;
图6示出了图5所示的投影设备的背面结构示意图;
图7示出了本公开的实施例提供的投影设备中各元件之间的通信连接关系的示意图;
图8示出了本公开的实施例提供的影像投射系统在教学场景中进行应用的示意图;
图9示出了本公开的实施例提供的一种影像投射方法的流程图;
图10示出了本公开的实施例提供的一种电子设备的结构示意图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在附图中示出了根据本公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
下面结合附图来描述根据本公开实施例提出的一种影像投射系统、方法及设备。
本公开实施例提供了一种影像投射系统,如图1所示,该系统包括:
语音模块10,用于采集用户的语音数据,解析语音数据中的字词对应的词编码;
影像模块20,用于接收语音模块10传输的词编码,获取词编码对应的文字,生成嵌有文字的影像数据;
纠错模块30,用于将嵌有所述文字的影像数据发送给用户智能终端进行选择,当用户选择是时将嵌有所述文字的第一影像数据发送给投影模块,当用户选择否时,提供可能的备选影像数据供用户选择,在收到用户选择的备选影像数据后,将嵌有所述文字的备选影像数据发送给投影模块;其中,所述备选影像数据是由预测模型根据与第一影像数据的相似度推荐得到的或者经影像模块重新计算生成的;
投影模块40,用于对嵌有文字的影像数据进行投影。
采集用户的语音数据,识别语音数据对应的文字,生成嵌有该文字的影像数据并投影。如此对语音数据进行语义还原,并对包含该语义的影像数据进行投影,使得投影的影像与用户的语音数据相匹配,实现用户语音输入的影像化显示,提高投影显示的智能化程度。
同时,本公开的影像投射系统还具有纠错功能,将根据采集的语音数据生成的推荐影像发送给用户供用户进行选择判断是否进行投影,也可以实现用户自己选择多张备选影像中最符合用户预期的一张进行投影。通过这种纠错模块实现的纠错功能,使得本公开的影像投射系统能够更准确的投影出符合用户语音语义的影像。
语音模块用于对用户的语音数据进行采集、编码、传输及智能解析。语音模块中包括MIC语音采集设备、A/D转换器、语义解析单元等。语音模块中设置有语音采集装置,该语音采集装置可以采用高灵敏、低噪音的MIC语音采集设备。如图2所示,通过语音采集装置收集用户的语音数据,该语音数据为语音模拟信号。通过A/D转换器语音模拟信号量化为16位的数字编码信号。在语音模块内部A/D转换器的输出端通过内部高速交互链路与语义解析单元连接,将转换得到的数字编码信号传输至语义解析单元。语义解析单元采用内置的预设语义解析算法从数字编码信号中提取语音数据中的字词对应的词编码,词编码即为语音数据对应的语义编码。
其中,预设语义解析算法可以为Listen-Attend-Spell(LAS)深度学习语义解析算法。
语音模块与影像模块间采用GPIO(General-purpose input/output,通用型输入输出)接口进行数据交互,语音模块将语义解析单元解析出的词编码经由GPIO接口发送给影像模块。
影像模块用于对接收的词编码进行度量、匹配查找及二维具象化处理。
具体地,影像模块通过GPIO接口接收语音模块输入的词编码,使用一维信号匹配度量模型对接收到的词编码与预设词库中的词编码进行匹配,得到匹配编号。
本公开实施例在影像投射系统中预先配置了预设词库,预设词库中包括大量词对应的词编码。
上述一维信号匹配度量模型包括余弦度量模型、欧式距离度量模型等。以余弦度量模型为例,假设语音模块输入的词编码以a表示,预设词库中的词编码以b表示,则两者的余弦度量可表示为:
Figure BDA0003810102380000081
通过一维信号匹配度量模型得到语音模块输入的词编码与预设词库中的每个词编码之间的匹配度量值,获取属于预设词库且匹配度量值最大的词编码,将该词编码确定为匹配编码。对于语音数据对应的每个词编码都按照上述方式分别获取匹配编码。
影像模块中还预先配置有预设的词编码与字词的映射关系,根据匹配编码从该映射关系中查找该匹配编码所对应的字词。对语音数据对应的字词都按照上述方式最终查找到对应的字词,即获得了语音数据对应的文字。
通过上述过程对用户的语音数据进行语义还原,得到语义数据对应的文字之后,生成嵌有该文字的影像数据。
具体地,根据该文字中包括的至少一个关键词,从本地图库和/或网络中获取分别与每个关键词匹配的至少一个图像。根据该至少一个关键词和至少一个图像,生成嵌有该文字的影像数据。
依据语音数据对应的文字中的关键词,获取与该关键词匹配的图像,然后依据文字中的关键词和获取的图像来生成嵌有该文字的影像数据。如此生成的影像数据中的图像内容与语音数据的语义相符,且影像数据中嵌有该文字,投影该影像数据能够更加准确地展示用户语音所要表达的含义,实现对用户语音输入的影像化显示,且显示的影像表达语音含义的准确性很高。
在一些实施例中,所述备选影像数据是由预测模型根据与第一影像数据的相似度推荐得到具体包括:
利用预先存储于所述纠错模块中的预测模型在本地图库和/或网络中获取分别与每个关键词匹配的至少一个图像;
分别计算所述与每个关键词匹配的至少一个图像与所述第一影像数据的余弦相似度;
将计算后余弦相似度最高的多张影像作为所述备选影像数据。
两个向量间的余弦值可以通过使用欧几里得点积公式求出:
a.b=||a|| ||b||cosθ.
给定两个属性向量,A和B,其余弦相似性θ由点积和向量长度给出,如下公式所示:
Figure BDA0003810102380000101
这里的Ai和Bi别代表向量A和B的各分量。
给出的相似性范围从-1到1:-1意味着两个向量指向的方向正好截然相反,1表示它们的指向是完全相同的,0通常表示它们之间是独立的,而在这之间的值则表示中间的相似性或相异性。
需要说明的是,本公开的纠错模块可以采用多种相似度匹配算法实现,在此处仅作说明性举例使用计算余弦相似度的方式选择备选影像数据,对于采用本领域技术人员公知的其他相似度匹配算法以获得备选影像数据的方案也应属于本公开的保护范围之内。
在一些实施例中,根据至少一个关键词,识别至少一个图像中每个图像包含的与关键词匹配的物体图像的数目;将包含与关键词匹配的物体图像的数目最多的图像确定为目标图像;将文字嵌入目标图像中,得到嵌有文字的影像数据。
首先依据文字包含的关键词,获取一个或多个与关键词匹配的图像,获取的每个图像可能与一个或多个关键词匹配。图像的画面中可能包含多种物体的图像,如苹果的图像、太阳的图像、树的图像等。一个图像中包括的多个物体图像中可能存在与关键词匹配的图像,如图像中包括苹果的图像,而用户的语音数据中包括苹果这一关键词,则该图像中苹果的图像即为与关键词匹配的物体图像。
识别出获取的每个图像中与关键词匹配的物体图像的数目,将与关键词匹配的物体图像的数目最多的图像确定为目标图像,将语音数据对应的文字嵌入到该目标图像中得到最终的影像数据。
在本公开实施例中,影像模块可以使用python语言编写的脚本程序,将语音数据对应的文字嵌入该目标图像中,得到嵌有该文字的影像数据。
例如,假设用户的语音数据为“今天天气晴朗,我从苹果树上摘了一个苹果”,则该语音数据对应的关键词包括晴朗、我、苹果树、苹果等。依据这些关键词可能匹配到很多图像,如仅包含一个人物的图像,仅包含苹果的图像,仅包含太阳的图像,仅包含一颗树的图像,或者包含人物、苹果、太阳、苹果树这些事物中的多个的图像等。从获取的图像中选取与关键词匹配的物体图像最多的作为目标图像,就可能获取到一张同时包含人物、苹果、太阳和苹果树的图像。
用户的语音数据中可能包含多个关键词,包含与关键词匹配的物体图像最多的目标图像,目标图像的画面所展示的内容是与语音数据的语义最接近的,将语音数据对应的文字嵌入该目标图像得到待投影的影像数据。如此能够使最终展示的影像数据准确地表达用户语音所要表达的语义,提高基于语音进行影像展示的准确性及智能性。
在本公开的另一些实施例中,影像模块可以从与每个关键词匹配的至少一个图像中,分别选取每个关键词对应的素材图像。根据该文字的语义信息,将每个关键词对应的素材图像融合为至少一个目标图像。将该文字嵌入至少一个目标图像中,得到嵌有文字的影像数据。
由于在语音数据包括多个关键词的情况下,很难从网络或本地图库中直接获取到能够准确表达语音数据的语义的图像。因此获取到每个关键词匹配的至少一个图像后,可以从中选取每个关键词对应的素材图像,将每个关键词对应的素材图像融合为能够表达语音数据的语义的目标图像。
例如,假设用户的语音数据为“今天天气晴朗,我从苹果树上摘了一个苹果”,则该语音数据对应的关键词包括晴朗、我、苹果树、苹果等。依据这些关键词可能匹配到很多图像,如仅包含一个人物的图像,仅包含苹果的图像,仅包含太阳的图像,仅包含一颗树的图像,或者包含人物、苹果、太阳、苹果树这些事物中的多个的图像等。从获取的图像中选每个关键词对应的素材图像,如关键词苹果对应的仅包含苹果的图像、关键词晴朗对应的仅包含太阳的图像、关键词我对应的仅包含人物的图像、关键词苹果树对应的仅包含树的图像,然后依据“今天天气晴朗,我从苹果树上摘了一个苹果”这句话的语义,将仅包含苹果的图像、仅包含太阳的图像、仅包含人物的图像和仅包含树的图像,通过图像融合技术融合成目标图像,该目标图像中同时包含人物、苹果、太阳和苹果树。
用户的语音数据中可能包含多个关键词,将每个关键词对应的素材图像融合为目标图像,目标图像的画面所展示的内容是与语音数据的语义最接近的,将语音数据对应的文字嵌入该目标图像得到待投影的影像数据。如此能够使最终展示的影像数据准确地表达用户语音所要表达的语义,提高基于语音进行影像展示的准确性及智能性。
在本公开的另一些实施例中,也可以先确定基于关键词获取的至少一个图像中与关键词匹配的物体图像最多的图像中,与不同关键词匹配的物体图像的数目,若该数目与语音数据对应的文字包括的关键词的数目之比大于等于预设阈值,则将与关键词匹配的物体图像最多的图像作为目标图像,将文字嵌入该目标图像得到最终的影像数据。
若与关键词匹配的物体图像最多的图像中,与不同关键词匹配的物体图像的数目与语音数据对应的文字包括的关键词的数目之比小于预设阈值,则表明当前获取的图像中不存在仅通过一个图像就能表达语音数据的语义的情况。因此可以从获取的图像中选取每个关键词对应的素材图像,将获取的素材图像融合为目标图像,将文字嵌入该目标图像得到最终的影像数据。
如此在获取的图像中存在能够准确表达语音数据的语义的图像时,利用该图像来生成最终的影像数据,提高了基于语音进行影像化展示的效率。而在不存在能够准确表达语音数据的语义的图像时,利用每个关键词对应的素材图像融合成目标图像来生成最终的影像数据,提高了基于语音进行影像化展示的准确性。
在本公开的另一些实施例中,影像模块还可以预先配置有预设背景的图像,影像模块直接将语音数据对应的文字嵌入该预设背景的图像中得到最终的影像数据。投影模块对该影像数据投影。如此实现将用户的语音数据转换为二维的图像并进行展示。
图3示出了投影模块生成嵌有文字的影像数据的过程,投影模块获得语音模块输入的语义编码,该语义编码即为上述词编码。根据该语义编码与预设的字、词库(即上述预设词库),通过一维信号匹配,如通过余弦度量模型,计算出匹配编码,并识别出匹配编码对应的语义文字。然后通过python脚本将文字嵌入影像中得到二维影像。在影像模块的整个处理过程中的各个环节均通过板间通信链路与影像投射系统的处理器进行通信。
影像模块通过上述方式生成嵌有该语音数据对应的文字的影像数据后,将二维的影像数据转换为数字信号。影像模块与投影模块之间采用HDMI或VGA接口进行数据交互,影像模块将二维的影像数据的数字信号发送给投影模块。
投影模块用于接收影像的数字信号,并进行投射显示。具体地,投影模块通过HDMI或VGA接收影像模块传输的二维影像的数字信号。通过内置的处理器将数字信号传输至投影模块中的液晶显示单元。采用LED强光源等方式照射液晶显示单元,并利用投射镜、折射镜等将影像内容投射出投射装置,在指定区域投射显示内容。
在本公开的一些实施例中,为了实现投影的内容跟随语音数据的变化而动态更新,影像模块还用于为嵌有文字的影像数据分配对应的影像编号,影像模块将影像数据的数字信号发送给投影模块的同时还将对应的影像编号发送给投影模块。投影模块,还用于检测到当前接收到的影像数据的影像编号与当前正在投影的影像数据的影像编号不同时,将当前正在投影的影像数据更新为当前接收到的影像数据,使得当输入的影像内容改变后可自动切换投射内容。
为了便于理解本公开实施例的影像投射系统的处理过程,下面结合附图进行说明。如图4所示,语音模块中的MIC采集用户的语音信号,语音模块对该语音信号进行量化编码,语义解析单元基于语义解析网络模型以及关键字、词库,对量化编码进行语义解析,得到语义编码(即词编码)。语音模块通过GPIO接口将语音编码传输给影像模块。影像模块对语义编码与预设的字、词库进行匹配度量,最终得到语音信号对应的文字,通过python脚本将文字嵌入影像中得到二维影像。
在本公开实施例中,采集用户的语音数据,识别语音数据对应的文字,生成嵌有该文字的影像数据并投影。实现对语音数据进行语义还原,并对包含该语义的影像数据进行投影,使得投影的影像与用户的语音数据相匹配,实现用户语音输入的影像化显示,提高投影显示的智能化程度。且需要切换投影显示的内容时无需手动切换,可以直接通过语音来切换投影内容,而且投影的影像内容无需预先内置到系统中,而是依据用户的语音数据智能生成影像数据,该系统无需外接电脑等设备即可完成投影,智能化程度很高。
在本公开的一些实施方式中,通过将所本公开的投射系统通过网络模块进行联网以实现网络智能学习建库。通过网络智能学习建库,可以对用户的语音数据与投射系统投射的显示内容之间的交互、对用户语音数据的智能解析、转化,实现用户语音输入的影像化显示、更新,达到声光图内容同步转换的效果。对于具体采用何种技术手段进行网络智能学习建库,属于本领域技术人员根据公知常识可以进行相应的合理技术选择,在此不做赘述。
本公开实施例还提供了一种投影设备,该投影设备包括微处理器、风扇、电源及上述任一实施例提供的影像投射系统。
微处理器,用于控制风扇及影像投射系统运行;风扇,用于为投影设备散热;电源,用于为投影设备供电。
其中,微处理器集成了语音、影像、投射显示功能,微处理器内嵌微操作系统,具有快速语音解析、影像生成、投射显示、数据调度管理等功能,可脱离外界电脑控制,系统自成一体具有可操作、可编程、可重构的特点。使得投影设备具备智能处理能力,无需外接电脑进行控制,依靠内部语音、影像模块智能解析语音信号语义信息、并将其转换为包含语义信息的二维影像信号,处理过程具备智能化特点,根据用户需要内容进行可定制的专属智能化特点。
电源可以为内置于投影设备内的电池,也可以为从投影设备中连接出来用于接外部电源(如市电)的插头。
该投影设备还可以包括风扇进风口、USB接口、内存卡插口、装置电源开关、音频喇叭、投影显示镜头、语音采集装置及指纹锁中的一个或多个。图5示出了投影设备的一结构示意图。
图6示出了图5所示的投影设备的背面示意图,在投影设备的背面设置有风扇的出风口、音频接口、麦克风接口、电源接口等。
该投影设备中还可以内置存储装置,图7示出了投影设备中各模块之间的通信连接关系,如图7所示,语音模块与影像模块通过GPIO接口通信连接,影像模块与投影模块通过HDMI或VGA接口通信连接。微处理器分别与语音模块、影像模块、投影模块、内置存储、内置电池/外接电源连接。
本公开实施例的投影设备启动后,可以先显示预设的投射显示内容,并激活语音模块的语音信号采集功能,等待捕获用户的语音数据。当采集到用户的语音数据后,对其进行A/D转换及16位量化的数字信号编码,并将编码得到的数字信号编码经由语音模板内部通信链路传输至语义解析单元。语义解析单元获取该数字信号编码,利用深度学习算法分析语音内容,提取关键字、词等内容的词编码,并将解析结果经由GPIO接口传输至影像模块。串行流水架构中语音模块各功能的实现具有实时性。
影像模块获取语音解析结果,将语音信号对应的词编码利用一维信号度量与预设词库行匹配,获取语音信号对应的匹配编码,并将结果传输至影像生成单元。影像生成单元获取匹配编码,采用查表方式将匹配编码还原为对应的文字,获取文字对应的影像,利用python编写的脚本文件将文字内嵌至影像中,将内嵌文字的影像传输至投影模块。串行流水架构中的影像模块具有语义理解内容编码、编码匹配度量、编码传输、语义内容还原、影像生成功能,影像部分各功能的实现具有实时性。
投影模块获取输入的影像信号,采用强LED光源等方式将其投射至指定区域,指定区域包括但不限于投射于幕布、墙面、地面等区域。投影模块的信号处理具有实时性。
投射显示过程中,语音模块持续采集、解析用户语音信号,并将解析结果实时转换为二维影像信号进行投射显示内容的更新。
在上述过程中,将一维的语音信号转换为二维的影像信号的处理过程,具体可以包括:
MIC采集语音信号,经过声-电转换后将语音信号转换为电信号,其中,采用16位量化对语音信号进行编码。编码后的语音信号经过语音模块内部高速数据交换链路到达语音模块内嵌的语音解析芯片,芯片内置基于深度学习的语音解析算法,语音解析算法使用CTC损失算法来界定语音中的每个字符,语音解析算法使用CNN(卷积神经网络)和RNN(循环神经网络)相结合的架构提取字符语音信号特征。语音信号特征经过与内置字符特征库的比对度量,提取对应的关键字、词编号,即词编码。词编码经过GPIO接口传输至影像模块,影像模块接收词编码将其与内置字符特征库再次进行比对度量,将其还原为文字,并获取该文字对应的影像。python语音脚本接收该文字,将其映射到获取的影像的对应位置,生成包含语义信息的新影像。新影像通过影像模块数据高速交互链路,加载至存储单元,等待投影模块调用。投影模块从存储单元调用该新影像并进行投影。
本公开实施例的投影设备涉及自然科学,社会科学及技术科学等交叉科学领域。可应用于会议、展览、演讲、宗教、广告宣传、课堂教学等场景。以课堂教学为例,如图8所示,若用户在教学中说“苹果”,则该投影设备可以在幕布上投射出包含苹果图像和文字“苹果”的影像,如此使得影像投射更加智能、便利,使得投影设备与用户之间的交互性更强,使得课堂教学更加生动有趣。
本公开实施例的投影设备具备将一维语音信号智能解析、转换为二维影像信号并将其进行投射显示的功能,具有智能化的特点;系统采用串行流水架构进行数据的快速处理,具有实时性的特点。
该投影设备采用串行流水语音-影像-投射显示架构构成轻小型、智能化的投影设备。在用户使用该设备过程中,投影设备的语音模块会采集用户的语音数据,通过对语音数据的编码、传输、智能解析,提取语音数据中的关键字、词等语义信息,之后影像模块将一维的语义信息进行匹配度量、影像生成处理,将其转换为二维具象化的影像数据,之后投射模块将影像数据进行投射显示。如此通过用户的语音数据与投射显示内容的交互、语音的智能解析、转化,实现用户语音输入的影像化显示、更新,达到声光内容同步转换的效果。
本公开的设备可以作为单一的设备,设备之间通过网络可以成为远程交互的系统。
本公开实施例提供了一种影像投射方法,该方法应用于上述任一实施例提供的影像投射系统或任一实施例提供的投影设备,如图9所示,该方法包括:
步骤101:采集用户的语音数据,解析语音数据中的字词对应的词编码。
步骤102:接收语音模块传输的词编码,获取词编码对应的文字,生成嵌有文字的影像数据。
步骤103:将嵌有所述文字的影像数据发送给用户智能终端进行选择并接受用户的选择结果,当用户选择是时将嵌有所述文字的第一影像数据发送给投影模块,当用户选择否时,提供可能的备选影像数据供用户选择,在收到用户选择的备选影像数据后,将嵌有所述文字的备选影像数据发送给投影模块;其中,所述备选影像数据是由预测模型根据与第一影像数据的相似度推荐得到的或者经影像模块重新计算生成的。
步骤104:对嵌有文字的影像数据进行投影。
上述各步骤的具体处理过程均可以参考上述影像投射系统或投影设备的实施例中的相关处理过程。
本公开实施例采集用户的语音模拟信号,并将语音模拟信号处理为一维的数字语音信号,并实时声光转化为内容相关联的二维图像,且二维图像中嵌有语音模拟信号对应的文字,运用AI技术将语音辨识后转换生成的影像,通过光学系统自动投射显示出来。并且可根据用户语言内容的变化进行实时语义解析,信号转换及相关内容的光学文字影像投射。
本公开实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的影像投射方法的步骤。
图10为一个实施例中电子设备的内部结构示意图。如图10所示,该电子设备包括通过系统总线连接的处理器、存储介质、存储器和网络接口。其中,该计算机设备的存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种影像投射方法。该电设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种影像投射方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图10中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
该电子设备可以包括投影仪、具有投影功能的手机、电脑、电视等。
所述处理器在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器内的程序或者模块(例如执行远端数据读写程序等),以及调用存储在所述存储器内的数据,以执行电子设备的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器以及至少一个处理器等之间的连接通信。
图10仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图10示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
可选地,该电子设备还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
进一步地,所述计算机可用存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。本公开的范围由所附权利要求及其等价物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (10)

1.一种影像投射系统,其特征在于,包括:
语音模块,用于采集用户的语音数据,解析所述语音数据中的字词对应的词编码;
影像模块,用于接收所述语音模块传输的所述词编码,获取所述词编码对应的文字,生成嵌有所述文字的影像数据;
纠错模块,用于将嵌有所述文字的影像数据发送给用户智能终端进行选择,当用户选择是时将嵌有所述文字的第一影像数据发送给投影模块,当用户选择否时,提供可能的备选影像数据供用户选择,在收到用户选择的备选影像数据后,将嵌有所述文字的备选影像数据发送给投影模块;其中,所述备选影像数据是由预测模型根据与第一影像数据的相似度推荐得到的或者经影像模块重新计算生成的;
投影模块,用于对嵌有所述文字的影像数据进行投影。
2.根据权利要求1所述的系统,其特征在于,所述影像模块具体用于:
根据所述文字中包括的至少一个关键词,从本地图库和/或网络中获取分别与每个关键词匹配的至少一个图像;
根据所述至少一个关键词和所述至少一个图像,生成嵌有所述文字的影像数据。
3.根据权利要求2所述的系统,其特征在于,所述影像模块具体用于:
根据所述至少一个关键词,识别所述至少一个图像中每个图像包含的与关键词匹配的物体图像的数目;
将包含与关键词匹配的物体图像的数目最多的图像确定为目标图像;
将所述文字嵌入所述目标图像中,得到嵌有所述文字的影像数据。
4.根据权利要求2所述的系统,其特征在于,所述影像模块具体用于:
从与每个关键词匹配的至少一个图像中,分别选取每个关键词对应的素材图像;
根据所述文字的语义信息,将每个关键词对应的素材图像融合为至少一个目标图像;
将所述文字嵌入所述至少一个目标图像中,得到嵌有所述文字的影像数据。
5.根据权利要求2所述的系统,其特征在于,
所述备选影像数据是由预测模型根据与第一影像数据的相似度推荐得到具体包括:
利用预先存储于所述纠错模块中的预测模型在本地图库和/或网络中获取分别与每个关键词匹配的至少一个图像;
分别计算所述与每个关键词匹配的至少一个图像与所述第一影像数据的余弦相似度;
将计算后余弦相似度最高的多张影像作为所述备选影像数据。
6.根据权利要求1所述的系统,其特征在于,所述影像模块具体用于:
将所述词编码与预设词库中的词编码进行匹配,得到匹配编码;
根据所述匹配编码,从预设的词编码与字词的映射关系中,查找所述匹配编码对应的字词,得到所述语音数据对应的文字。
7.根据权利要求1所述的系统,其特征在于,所述语音模块具体用于:
将所述语音数据转换为数字编码信号;
采用预设语义解析算法从所述数字编码信号中提取所述语音数据中的字词对应的词编码。
8.一种影像投射方法,其特征在于,应用于权利要求1-7任一项所述的影像投射系统,所述方法包括:
采集用户的语音数据,解析所述语音数据中的字词对应的词编码;
接收所述语音模块传输的所述词编码,获取所述词编码对应的文字,生成嵌有所述文字的影像数据;
将嵌有所述文字的影像数据发送给用户智能终端进行选择并接受用户的选择结果,当用户选择是时将嵌有所述文字的第一影像数据发送给投影模块,当用户选择否时,提供可能的备选影像数据供用户选择,在收到用户选择的备选影像数据后,将嵌有所述文字的备选影像数据发送给投影模块;其中,所述备选影像数据是由预测模型根据与第一影像数据的相似度推荐得到的或者经影像模块重新计算生成的;
对嵌有所述文字的影像数据进行投影。
9.一种投影设备,其特征在于,包括微处理器、风扇、电源及权利要求1-7任一项所述的影像投射系统;
所述微处理器,用于控制所述风扇及所述影像投射系统运行;
所述风扇,用于为所述投影设备散热;
所述电源,用于为所述投影设备供电。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现权利要求8所述的方法。
CN202211008794.7A 2022-08-22 2022-08-22 一种影像投射系统、方法及设备 Active CN115438212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211008794.7A CN115438212B (zh) 2022-08-22 2022-08-22 一种影像投射系统、方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211008794.7A CN115438212B (zh) 2022-08-22 2022-08-22 一种影像投射系统、方法及设备

Publications (2)

Publication Number Publication Date
CN115438212A CN115438212A (zh) 2022-12-06
CN115438212B true CN115438212B (zh) 2023-03-31

Family

ID=84244110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211008794.7A Active CN115438212B (zh) 2022-08-22 2022-08-22 一种影像投射系统、方法及设备

Country Status (1)

Country Link
CN (1) CN115438212B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001154781A (ja) * 1999-11-29 2001-06-08 Nec Corp デスクトップ情報装置
CN103839062A (zh) * 2014-03-11 2014-06-04 东方网力科技股份有限公司 一种图像文字定位方法及装置
CN105764185A (zh) * 2016-03-18 2016-07-13 深圳Tcl数字技术有限公司 交流驱动混合调光电路和电视机
CN106959839A (zh) * 2017-03-22 2017-07-18 北京光年无限科技有限公司 一种人机交互装置及方法
CN108701127A (zh) * 2016-02-25 2018-10-23 三星电子株式会社 电子设备及其操作方法
JP2019012920A (ja) * 2017-06-30 2019-01-24 パナソニックIpマネジメント株式会社 プロジェクタ付き拡声装置
CN109783675A (zh) * 2018-12-13 2019-05-21 深圳壹账通智能科技有限公司 一种基于数据处理的全息投影方法及相关设备
CN109844854A (zh) * 2016-08-12 2019-06-04 奇跃公司 单词流注释
CN110414352A (zh) * 2019-06-26 2019-11-05 深圳市容会科技有限公司 从视频文件中提取ppt文件信息的方法及相关设备
CN110808041A (zh) * 2019-09-24 2020-02-18 深圳市火乐科技发展有限公司 语音识别方法、智能投影仪及相关产品
CN112235180A (zh) * 2020-08-29 2021-01-15 上海量明科技发展有限公司 语音消息处理方法、设备及即时通信客户端
CN112382295A (zh) * 2020-11-13 2021-02-19 安徽听见科技有限公司 语音识别方法、装置、设备及可读存储介质
CN113436602A (zh) * 2021-06-18 2021-09-24 深圳市火乐科技发展有限公司 虚拟形象语音交互方法、装置、投影设备和计算机介质
CN113450804A (zh) * 2021-06-23 2021-09-28 深圳市火乐科技发展有限公司 语音可视化方法、装置、投影设备及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9760123B2 (en) * 2010-08-06 2017-09-12 Dynavox Systems Llc Speech generation device with a projected display and optical inputs
US20210398539A1 (en) * 2020-06-22 2021-12-23 Orcam Technologies Ltd. Systems and methods for processing audio and video

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001154781A (ja) * 1999-11-29 2001-06-08 Nec Corp デスクトップ情報装置
CN103839062A (zh) * 2014-03-11 2014-06-04 东方网力科技股份有限公司 一种图像文字定位方法及装置
CN108701127A (zh) * 2016-02-25 2018-10-23 三星电子株式会社 电子设备及其操作方法
CN105764185A (zh) * 2016-03-18 2016-07-13 深圳Tcl数字技术有限公司 交流驱动混合调光电路和电视机
CN109844854A (zh) * 2016-08-12 2019-06-04 奇跃公司 单词流注释
CN106959839A (zh) * 2017-03-22 2017-07-18 北京光年无限科技有限公司 一种人机交互装置及方法
JP2019012920A (ja) * 2017-06-30 2019-01-24 パナソニックIpマネジメント株式会社 プロジェクタ付き拡声装置
CN109783675A (zh) * 2018-12-13 2019-05-21 深圳壹账通智能科技有限公司 一种基于数据处理的全息投影方法及相关设备
CN110414352A (zh) * 2019-06-26 2019-11-05 深圳市容会科技有限公司 从视频文件中提取ppt文件信息的方法及相关设备
CN110808041A (zh) * 2019-09-24 2020-02-18 深圳市火乐科技发展有限公司 语音识别方法、智能投影仪及相关产品
CN112235180A (zh) * 2020-08-29 2021-01-15 上海量明科技发展有限公司 语音消息处理方法、设备及即时通信客户端
WO2022041192A1 (zh) * 2020-08-29 2022-03-03 深圳市永兴元科技股份有限公司 语音消息处理方法、设备及即时通信客户端
CN112382295A (zh) * 2020-11-13 2021-02-19 安徽听见科技有限公司 语音识别方法、装置、设备及可读存储介质
CN113436602A (zh) * 2021-06-18 2021-09-24 深圳市火乐科技发展有限公司 虚拟形象语音交互方法、装置、投影设备和计算机介质
CN113450804A (zh) * 2021-06-23 2021-09-28 深圳市火乐科技发展有限公司 语音可视化方法、装置、投影设备及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙鹏飞 ; 柴海峰 ; 李娟 ; 孟志国 ; 张丽珠 ; 熊绍珍 ; .新型投影融合拼接控制器的设计与实现.光电子技术.2008,(第02期),第35-38页. *
张鑫姝 ; 郭戈 ; 程娟 ; .一种新闻视频文本语义信息提取与分析的新方法.电子技术.2010,(第04期),第28-30页. *

Also Published As

Publication number Publication date
CN115438212A (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN111339246B (zh) 查询语句模板的生成方法、装置、设备及介质
CN110599557B (zh) 图像描述生成方法、模型训练方法、设备和存储介质
CN110110145B (zh) 描述文本生成方法及装置
JP2022515620A (ja) 人工知能による画像領域の認識方法、モデルのトレーニング方法、画像処理機器、端末機器、サーバー、コンピュータ機器及びコンピュータプログラム
CN111476783B (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
WO2023125335A1 (zh) 问答对生成的方法和电子设备
CN113010740B (zh) 词权重的生成方法、装置、设备及介质
CN110162604B (zh) 语句生成方法、装置、设备及存储介质
CN111368101B (zh) 多媒体资源信息的展示方法、装置、设备以及存储介质
CN113378556A (zh) 提取文本关键字的方法及装置
CN113254684B (zh) 一种内容时效的确定方法、相关装置、设备以及存储介质
WO2022253061A1 (zh) 一种语音处理方法及相关设备
CN110659639B (zh) 汉字识别方法、装置、计算机可读介质及电子设备
CN113392687A (zh) 视频标题生成方法、装置、计算机设备及存储介质
CN109034148A (zh) 一种基于文字图像识别音频阅读方法及其装置
CN111507094B (zh) 基于深度学习的文本处理模型训练方法、装置及设备
WO2022193911A1 (zh) 指令信息获取方法及装置、可读存储介质、电子设备
CN111950255B (zh) 诗词生成方法、装置、设备及存储介质
CN115438212B (zh) 一种影像投射系统、方法及设备
CN111310461B (zh) 事件元素提取方法、装置、设备及存储介质
CN117273019A (zh) 对话模型的训练方法、对话生成方法、装置和设备
CN112749550A (zh) 数据存储方法、装置、计算机设备及存储介质
CN115116437B (zh) 语音识别方法、装置、计算机设备、存储介质及产品
CN115130456A (zh) 语句解析、匹配模型的训练方法、装置、设备及存储介质
CN111310701B (zh) 手势识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant