CN108446641A - 一种基于机器学习的口形图像识别系统及通过面纹识别发声的方法 - Google Patents
一种基于机器学习的口形图像识别系统及通过面纹识别发声的方法 Download PDFInfo
- Publication number
- CN108446641A CN108446641A CN201810239905.2A CN201810239905A CN108446641A CN 108446641 A CN108446641 A CN 108446641A CN 201810239905 A CN201810239905 A CN 201810239905A CN 108446641 A CN108446641 A CN 108446641A
- Authority
- CN
- China
- Prior art keywords
- lip
- module
- degree
- rounding
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
- G09B21/009—Teaching or communicating with deaf persons
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Educational Technology (AREA)
- Educational Administration (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于机器学习的口形图像识别系统,包括口形视频图形采集模块、视频分析模块、主控模块、口形模型匹配模块及语音输出模块;所述口形视频图形采集模块、视频分析模块、主控模块、口形模型匹配模块及语音输出模块依次电性连接,还包括口形模型库模块,所述口形模型库模块与主控模块电性连接;所述口形视频图形采集模块,通过设于其内的前置摄像头来采集目标人员的唇部视频图像;本发明还提供了一种通过面纹识别发声的方法。本发明通过摄像头将唇语转换成图像信息,其能够快速的进行信息处理转换,并具有深度学习功能,能够逐渐适应使用者的表达习惯,具有一定的实时性和实用性。
Description
技术领域
本发明涉及一种通过唇语来识别所发出声音的系统,尤其适用于聋哑人,属于电子技术领域,具体涉及一种基于机器学习的口形图像识别系统,本发明还提供了一种通过面纹识别发声的方法。
背景技术
目前的聋哑人交互设备,大多是通过手语图像的信息采集、比对来实现的,例如国内的申请公开号CN 106686223 A,名称为“聋哑人与正常人的辅助对话系统、方法及智能手机”的专利。其只能通过文字输入的方式,不能通过唇语来读取发出的声音,其极大的限制了实用性。实时性较差,使用不够方便。
发明内容
本发明为了解决现有技术中存在的问题,提供了一种可以通过对唇语信息的采集、处理,直接发出他人想要发出的声音,正常人能够直接听到的口形图像识别系统。
为了实现上述目的,本发明采用以下技术方案:
一种基于机器学习的口形图像识别系统,包括口形视频图形采集模块、视频分析模块、主控模块、口形模型匹配模块及语音输出模块;所述口形视频图形采集模块、视频分析模块、主控模块、口形模型匹配模块及语音输出模块依次电性连接,还包括口形模型库模块,所述口形模型库模块与主控模块电性连接。
所述口形视频图形采集模块,通过设于其内的前置摄像头来采集目标人员的唇部视频图像;
所述视频分析模块,采用图像分析技术,对所述唇部视频图像进行分析,获取唇部口形的特征值;
所述主控模块,用于整个系统的控制及管理;
所述口形模型匹配模块,用于将所述唇部口形的特征值与口形模型库模块中口形模型的特征值进行比对、匹配;
所述语音输出模块,用于接收口形模型匹配模块4的信号,输出匹配出的音频信号,并通过喇叭发出匹配的声音;
所述口形模型库模块,利用机器学习技术,根据唇部口形图像及输入的对应文字进行自学习,建立相应的口形模型。
进一步的,所述唇部口形的特征值,包括上唇的特征值、下唇的特征值及上下唇组合在一起时的特征值。
进一步的,还包括显示模块,所述显示模块设有显示屏,用于显示文字内容,还设有键盘,用于文字内容的输入,所述显示模块与口形模型匹配模块电性连接。
进一步的,还包括按键模块,所述按键模块用于开关控制,所述按键模块与主控模块电性连接。
进一步的,所述显示模块设有APP,通过所述APP可以进行功能模式切换及进行自学习。
进一步的,所述口形模型库模块内还设有机器学习算法模块。
本发明还提供了一种通过面纹识别发声的方法,包括如下步骤:
a.通过显示模块上的APP,打开口形视频图形采集模块中的摄影头;
b.在摄影头的视野中识别软件自动搜寻目标人物的面部局部图像信息;
c.在搜寻过程中通过软件测量的节点来比对面部局部特征;
d.检测到面部局部图像信息后,确定头部的位置、大小和姿态,只有在面部与摄像头至少成一定角度的情况下,才会记录该面部局部图像信息;
e.在视频分析模块中对面部局部图像信息进行缩放、旋转和分析,执行标准化过程,以便能记录和映射到相应头部的位置、大小和姿态,无论口型和喉部的位置如何,以及相距摄像机的距离有多远,都可以执行标准化过程,光线不会对标准化过程产生影响;
f.在主控模块中采用局部特征分析(LFA)算法,对唇部和喉部部分的局部特征图像信息进行分析、运算,获取相应的特征值,并生成一个面纹,并将该面纹设为该图像信息的唯一数字编码;
g.在口形模型匹配模块中将该面纹与口形模型库模块中已经存储的面纹图像模型进行数据对比、匹配,并将该面纹链接到至少一个已存储的面纹图像模型;
h.通过语音输出模块发出该面纹相应要发出的声音。
其中,所述面部局部图像信息,包括唇部和喉部部分的局部特征图像信息。
其中,所述节点包括嘴角间距,唇启距离,喉部波动频率。
本发明的有益效果:能够将唇语或输入的文本转换为语音,将正常人的语音转换为文本,是读取唇语的有效工具,是一款聋哑人可随身携带的用于和正常人面对面现场交流的有效工具,能够快速的进行信息处理转换,并具有深度学习功能,能够逐渐适应使用者的表达习惯,具有一定的实时性和实用性。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1为本发明的方框原理示意图。
附图明细如下:口形视频图形采集模块1,视频分析模块2,按键模块3,口形模型匹配模块4,语音输出模块5,显示模块6,口形模型库模块7,主控模块8。
具体实施方式
为了使本发明解决的技术问题、采用的技术方案、取得的技术效果易于理解,下面结合具体的附图,对本发明的具体实施方式做进一步说明。
如图1所示,一种基于机器学习的口形图像识别系统,包括口形视频图形采集模块1、视频分析模块2、主控模块8、口形模型匹配模块4及语音输出模块5;所述口形视频图形采集模块1、视频分析模块2、主控模块8、口形模型匹配模块4及语音输出模块5依次电性连接,还包括口形模型库模块7,所述口形模型库模块7与主控模块8电性连接。
所述口形视频图形采集模块1,通过设于其内的前置摄像头来采集目标人员的唇部视频图像。
所述视频分析模块2,采用图像分析技术,对所述唇部视频图像进行分析,获取唇部口形的特征值;
所述主控模块8,用于整个系统的控制及管理。
所述口形模型匹配模块4,将所述唇部口形的特征值与口形模型库模块7中口形模型的特征值进行比对、匹配。
所述语音输出模块5,用于接收口形模型匹配模块4的信号,输出匹配出的音频信号,并通过喇叭发出匹配的声音。
所述口形模型库模块7,利用机器学习技术,根据唇部口形图像及输入的对应文字进行自学习,建立相应的口形模型。
进一步的,为了增加发声时,唇语读取的准确性及可靠性,所述唇部口形的特征值,包括上唇的特征值、下唇的特征值及上下唇组合在一起时的特征值。
进一步的,还包括显示模块6,所述显示模块6设有显示屏,用于显示文字内容,还设有键盘,用于文字内容的输入;所述显示模块6与口形模型匹配模块4电性连接。
进一步的,还包括按键模块3,所述按键模块3用于开关控制,所述按键模块3与主控模块8电性连接。
进一步的,所述显示模块设有APP,通过所述APP可以进行功能模式切换及进行自学习。
进一步的,所述口形模型库模块7内还设有机器学习算法模块。
所述口形模型库模块7具有深化机器学习的功能。
所述深化机器学习的方法采用如下步骤:
a.在显示屏上设置APP,由APP提供口型表;
b.APP提供单个文字,用户根据该单个文字和唇部动作来深化机器学习;
c.APP提供短语句,用户根据该短语句和唇部动作来深化机器学习;
d.APP提供短文,用户根据短文和唇部动作来深化机器学习。
本发明还提供了一种通过面纹识别发声的方法,包括如下步骤:
a.通过显示模块上的APP,打开口形视频图形采集模块中的摄影头;
b.在摄影头的视野中识别软件自动搜寻目标人物的面部局部图像信息;
c.在搜寻过程中通过软件测量的节点来比对面部局部特征;
d.检测到面部局部图像信息后,确定头部的位置、大小和姿态,只有在面部与摄像头至少成一定角度的情况下,才会记录该面部局部图像信息;
e.在视频分析模块中对面部局部图像信息进行缩放、旋转和分析,执行标准化过程,以便能记录和映射到相应头部的位置、大小和姿态,无论口型和喉部的位置如何,以及相距摄像机的距离有多远,都可以执行标准化过程,光线不会对标准化过程产生影响;
f.在主控模块中采用局部特征分析(LFA)算法,对唇部和喉部部分的局部特征图像信息进行分析、运算,获取相应的特征值,并生成一个面纹,并将该面纹设为该图像信息的唯一数字编码;
g.在口形模型匹配模块中将该面纹与口形模型库模块中已经存储的面纹图像模型进行数据对比、匹配,并将该面纹链接到至少一个已存储的面纹图像模型;
h.通过语音输出模块发出该面纹相应要发出的声音。
其中,所述面部局部图像信息,包括唇部和喉部部分的局部特征图像信息。
其中,所述节点包括嘴角间距,唇启距离,喉部波动频率。
其中,所述APP上设有口型表。
本发明的一种基于机器学习的口形图像识别系统,具有学习和交流两种功能模式,由APP来进行功能切换。
当在学习模式时,唇语的视频图像信息由口形视频图形采集模块1中的前置摄像头采集使用者的唇部视频图像信息,经视频分析模块2分析、处理,获取唇部和喉部部分的特征值,在模型库模块4上建立相应的面纹;文字信息由显示模块6的键盘上同步输入并存储在口形模型库模块4上。
学习时,可以先从最基础的字母A、B、C及单个文字开始学习,再逐步增加难度,学习是一个不断进步的过程。该系统采用了机器学习技术,根据唇部口形图像、喉部部分的图像及输入的对应文字进行自学习,具有人工智能的记忆和深度学习功能,经过一段时间的学习,系统会掌握唇语的变化规律,并不断完善。
当在交流模式时,聋哑人唇部作出说话动作,由口形视频图形采集模块1将唇部及喉部部分的局部特征图像信息采集,经视频分析模块2采用图像分析技术,对该信息进行分析,在主控模块中采用局部特征分析(LFA)算法,对唇部和喉部部分的局部特征图像信息进行分析、运算,获取相应的特征值,并生成一个面纹,并将该面纹设为该图像的唯一数字编码。
该面纹在口形模型库模块4中与模型库模块7中存储的面纹图像模型进行比对、匹配,由语音输出模块5输出聋哑人想要发出的声音与正常人直接进行声音交流,同时由显示模块6显示出相应的文字信息。
正常人或聋哑人都可以由显示模块6上的键盘输入文字,由显示模块6上的显示屏显示出相应的文字信息正常人或聋哑人观看。
上述键盘可以采用硬键盘或软键盘。
值得注意的是,该基于机器学习的口形图像识别系统,当正常人由于距离或其它原因,听不到他人说话的声音时,可以远程监听他人的说话,只要摄像头捕捉的视频图像信息足够清晰即可实现。可以作为远程唇语读取装置来使用。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本实实施例所记载的技术方案进行修改,或者对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于机器学习的口形图像识别系统,其特征在于:包括口形视频图形采集模块、视频分析模块、主控模块、口形模型匹配模块及语音输出模块;所述口形视频图形采集模块、视频分析模块、主控模块、口形模型匹配模块及语音输出模块依次电性连接,还包括口形模型库模块,所述口形模型库模块与主控模块电性连接;
所述口形视频图形采集模块,通过设于其内的前置摄像头来采集目标人员的唇部视频图像;
所述视频分析模块,采用图像分析技术,对所述唇部视频图像进行分析,获取唇部口形的特征值;
所述主控模块,用于整个系统的控制及管理;
所述口形模型匹配模块,用于将所述唇部口形的特征值与口形模型库模块中口形模型的特征值进行比对、匹配;
所述语音输出模块,用于接收口形模型匹配模块的信号,输出匹配出的音频信号,并通过喇叭发出匹配的声音;
所述口形模型库模块,利用机器学习技术,根据唇部口形图像及输入的对应文字进行自学习,建立相应的口形模型。
2.如权利要求1所述的口形图像识别系统,其特征在于:所述唇部口形的特征值,包括上唇的特征值、下唇的特征值及上下唇组合在一起时的特征值。
3.如权利要求1所述的口形图像识别系统,其特征在于:还包括显示模块,所述显示模块设有显示屏,用于显示文字内容,还设有键盘,用于文字内容的输入,所述显示模块与口形模型匹配模块电性连接。
4.如权利要求1或3所述的口形图像识别系统,其特征在于:还包括按键模块,所述按键模块用于开关控制,所述按键模块与主控模块电性连接。
5.如权利要求1所述的口形图像识别系统,其特征在于:所述显示模块设有APP,通过所述APP可以进行功能模式切换及进行自学习。
6.如权利要求1所述的口形图像识别系统,其特征在于:所述口形模型库模块内还设有机器学习算法模块。
7.一种通过面纹识别发声的方法,其特征在于:包括如下步骤:
a.通过显示模块上的APP,打开口形视频图形采集模块中的摄影头;
b.在摄影头的视野中识别软件自动搜寻目标人物的面部局部图像信息;
c.在搜寻过程中通过软件测量的节点来比对面部局部特征;
d.检测到面部局部图像信息后,确定头部的位置、大小和姿态,只有在面部与摄像头至少成一定角度的情况下,才会记录该面部局部图像信息;
e.在视频分析模块中对面部局部图像信息进行缩放、旋转和分析,执行标准化过程,以便能记录和映射到相应头部的位置、大小和姿态,无论口型和喉部的位置如何,以及相距摄像机的距离有多远,都可以执行标准化过程,光线不会对标准化过程产生影响;
f.在主控模块中采用局部特征分析(LFA)算法,对唇部和喉部部分的局部特征图像信息进行分析、运算,获取相应的特征值,并生成一个面纹,并将该面纹设为该图像信息的唯一数字编码;
g.在口形模型匹配模块中将该面纹与口形模型库模块中已经存储的面纹图像模型进行数据对比、匹配,并将该面纹链接到至少一个已存储的面纹图像模型;
h.通过语音输出模块发出该面纹相应要发出的声音。
8.如权利要求7所述的方法,其特征在于:所述面部局部图像信息,包括唇部和喉部部分的局部特征图像信息。
9.如权利要求7所述的方法,其特征在于:所述节点包括嘴角间距,唇启距离,喉部波动频率。
10.如权利要求7所述的方法,其特征在于:所述APP上设有口型表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810239905.2A CN108446641A (zh) | 2018-03-22 | 2018-03-22 | 一种基于机器学习的口形图像识别系统及通过面纹识别发声的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810239905.2A CN108446641A (zh) | 2018-03-22 | 2018-03-22 | 一种基于机器学习的口形图像识别系统及通过面纹识别发声的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108446641A true CN108446641A (zh) | 2018-08-24 |
Family
ID=63196628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810239905.2A Pending CN108446641A (zh) | 2018-03-22 | 2018-03-22 | 一种基于机器学习的口形图像识别系统及通过面纹识别发声的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108446641A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109697976A (zh) * | 2018-12-14 | 2019-04-30 | 北京葡萄智学科技有限公司 | 一种发音识别方法及装置 |
CN110148406A (zh) * | 2019-04-12 | 2019-08-20 | 北京搜狗科技发展有限公司 | 一种数据处理方法和装置、一种用于数据处理的装置 |
EP3882894A1 (en) * | 2020-03-19 | 2021-09-22 | Hassan Ali Alshehri | Seeing aid for a visually impaired individual |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1556496A (zh) * | 2003-12-31 | 2004-12-22 | 天津大学 | 唇形识别发声器 |
KR20050019599A (ko) * | 2003-08-20 | 2005-03-03 | 한국과학기술원 | 음성 인식을 위한 입술영역 검출 및 이를 이용한입술모양정보 획득방법 |
CN104484042A (zh) * | 2014-12-26 | 2015-04-01 | 安徽寰智信息科技股份有限公司 | 一种基于机器学习的唇形图像识别文字输入方法 |
CN104573456A (zh) * | 2014-12-29 | 2015-04-29 | 深圳市金立通信设备有限公司 | 一种终端界面控制方法 |
CN105139503A (zh) * | 2015-10-12 | 2015-12-09 | 北京航空航天大学 | 一种唇动口型识别门禁系统及识别方法 |
CN105807925A (zh) * | 2016-03-07 | 2016-07-27 | 浙江理工大学 | 一种基于柔性电子皮肤的唇语识别系统及方法 |
CN105825167A (zh) * | 2016-01-29 | 2016-08-03 | 维沃移动通信有限公司 | 一种提高唇语识别率的方法和移动终端 |
CN106157956A (zh) * | 2015-03-24 | 2016-11-23 | 中兴通讯股份有限公司 | 语音识别的方法及装置 |
CN107734416A (zh) * | 2017-10-11 | 2018-02-23 | 深圳市三诺数字科技有限公司 | 一种激光面纹识别降噪装置、耳机及方法 |
-
2018
- 2018-03-22 CN CN201810239905.2A patent/CN108446641A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050019599A (ko) * | 2003-08-20 | 2005-03-03 | 한국과학기술원 | 음성 인식을 위한 입술영역 검출 및 이를 이용한입술모양정보 획득방법 |
CN1556496A (zh) * | 2003-12-31 | 2004-12-22 | 天津大学 | 唇形识别发声器 |
CN104484042A (zh) * | 2014-12-26 | 2015-04-01 | 安徽寰智信息科技股份有限公司 | 一种基于机器学习的唇形图像识别文字输入方法 |
CN104573456A (zh) * | 2014-12-29 | 2015-04-29 | 深圳市金立通信设备有限公司 | 一种终端界面控制方法 |
CN106157956A (zh) * | 2015-03-24 | 2016-11-23 | 中兴通讯股份有限公司 | 语音识别的方法及装置 |
CN105139503A (zh) * | 2015-10-12 | 2015-12-09 | 北京航空航天大学 | 一种唇动口型识别门禁系统及识别方法 |
CN105825167A (zh) * | 2016-01-29 | 2016-08-03 | 维沃移动通信有限公司 | 一种提高唇语识别率的方法和移动终端 |
CN105807925A (zh) * | 2016-03-07 | 2016-07-27 | 浙江理工大学 | 一种基于柔性电子皮肤的唇语识别系统及方法 |
CN107734416A (zh) * | 2017-10-11 | 2018-02-23 | 深圳市三诺数字科技有限公司 | 一种激光面纹识别降噪装置、耳机及方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109697976A (zh) * | 2018-12-14 | 2019-04-30 | 北京葡萄智学科技有限公司 | 一种发音识别方法及装置 |
CN110148406A (zh) * | 2019-04-12 | 2019-08-20 | 北京搜狗科技发展有限公司 | 一种数据处理方法和装置、一种用于数据处理的装置 |
EP3882894A1 (en) * | 2020-03-19 | 2021-09-22 | Hassan Ali Alshehri | Seeing aid for a visually impaired individual |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103218842B (zh) | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 | |
CN105512348B (zh) | 用于处理视频和相关音频的方法和装置及检索方法和装置 | |
JP5323770B2 (ja) | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 | |
US5787414A (en) | Data retrieval system using secondary information of primary data to be retrieved as retrieval key | |
Petridis et al. | Audiovisual discrimination between laughter and speech | |
Zhang et al. | A vision-based sign language recognition system using tied-mixture density HMM | |
CN108269133A (zh) | 一种结合人体识别和语音识别的智能广告推送方法及终端 | |
CN108510988A (zh) | 一种用于聋哑人的语言识别系统及方法 | |
CN108446641A (zh) | 一种基于机器学习的口形图像识别系统及通过面纹识别发声的方法 | |
CN102110399A (zh) | 一种辅助解说的方法、装置及其系统 | |
CN110096966A (zh) | 一种融合深度信息汉语多模态语料库的语音识别方法 | |
WO2023035969A1 (zh) | 语音与图像同步性的衡量方法、模型的训练方法及装置 | |
CN112768070A (zh) | 一种基于对话交流的精神健康评测方法和系统 | |
CN116206496B (zh) | 一种基于人工智能的英语口语练习分析比对系统 | |
CN110148418B (zh) | 一种场景记录分析系统、方法及其装置 | |
CN108470476A (zh) | 一种英语发音匹配纠正系统 | |
CN111797265A (zh) | 一种基于多模态技术的拍照命名方法与系统 | |
JP2015104078A (ja) | 撮像装置、撮像システム、サーバ、撮像方法、及び撮像プログラム | |
Petridis et al. | Audiovisual laughter detection based on temporal features | |
CN113822187A (zh) | 手语翻译、客服、通信方法、设备和可读介质 | |
CN108831472B (zh) | 一种基于唇语识别的人工智能发声系统及发声方法 | |
Petridis et al. | Fusion of audio and visual cues for laughter detection | |
CN116088675A (zh) | 虚拟形象交互方法及相关装置、设备、系统和介质 | |
CN113241065B (zh) | 基于视觉面部轮廓运动的构音障碍语音识别方法及系统 | |
Yu | Computer-aided english pronunciation accuracy detection based on lip action recognition algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180824 |
|
WD01 | Invention patent application deemed withdrawn after publication |