CN111144125B - 文本信息处理方法、装置、终端设备及存储介质 - Google Patents

文本信息处理方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN111144125B
CN111144125B CN201911231038.9A CN201911231038A CN111144125B CN 111144125 B CN111144125 B CN 111144125B CN 201911231038 A CN201911231038 A CN 201911231038A CN 111144125 B CN111144125 B CN 111144125B
Authority
CN
China
Prior art keywords
text information
user
feature data
facial feature
mathematical formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911231038.9A
Other languages
English (en)
Other versions
CN111144125A (zh
Inventor
袁丁
刘云峰
吴悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhuiyi Technology Co Ltd
Original Assignee
Shenzhen Zhuiyi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhuiyi Technology Co Ltd filed Critical Shenzhen Zhuiyi Technology Co Ltd
Priority to CN201911231038.9A priority Critical patent/CN111144125B/zh
Publication of CN111144125A publication Critical patent/CN111144125A/zh
Application granted granted Critical
Publication of CN111144125B publication Critical patent/CN111144125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例提供了一种文本信息处理方法、装置、终端设备及存储介质。本方法通过获取用户的面部特征数据,继而判断面部特征数据是否满足预设条件,其中,满足预设条件的面部特征数据对应的用户为语言障碍用户,若满足预设条件,则显示文本信息输入界面,再获取输入于文本信息输入界面的文本信息,再对文本信息进行语义解析,得到目标数学公式,然后输出目标数学公式。通过上述方式实现了在判定获取的面部特征数据为满足预设条件的情况下,显示文本信息输入界面,然后对从文本信息输入界面获取的文本信息进行语义解析,得到目标数学公式,进而输出目标数学公式,实现了语言障碍用户也可借助文本信息输入功能顺利的表达数学符号,提升了用户体验。

Description

文本信息处理方法、装置、终端设备及存储介质
技术领域
本申请涉及计算机系统技术领域,更具体地,涉及一种文本信息处理方法、装置、终端设备及存储介质。
背景技术
数学公式是人们在研究自然界物与物之间时发现的一些联系,并通过一定的方式表达出来的一种表达方法。是表征自然界不同事物之数量之间的或等或不等的联系,它确切的反映了事物内部和外部的关系,是我们从一种事物到达另一种事物的依据,使我们更好的理解事物的本质和内涵。数学是科学的基本语言,因而对于教育和科研领域来说,数学公式的输入与编辑是除普通文字的输入与编辑之外最为重要的输入和编辑工具。随着信息时代的发展,人们不再局限于仅仅利用办公软件来进行公式编辑。作为一种方式,可以通过语音识别进行公式编辑,通过语音识别可以减少编辑公式时繁琐的操作,带来更多的操作便利。然而,对于聋哑人而言,却无法使用语音输入来进行公式编辑,带来了不良的用户体验。
发明内容
鉴于上述问题,本申请提出了一种文本信息处理方法、装置、终端设备及存储介质,以解决上述问题。
第一方面,本申请实施例提供了一种文本信息处理方法,该方法包括:获取用户的面部特征数据;判断所述面部特征数据是否满足预设条件,其中,满足预设条件的面部特征数据对应的用户为语言障碍用户;若满足预设条件,显示文本信息输入界面;获取输入于所述文本信息输入界面的文本信息;对所述文本信息进行语义解析,得到目标数学公式;输出所述目标数学公式。
进一步的,所述获取用户的面部特征数据之前,包括:判断在预设时间段内是否获取到用户在录入文本信息过程中的语音信息;若未获取到用户在录入文本信息过程中的语音信息,开启图像识别功能;通过所述图像识别功能执行所述获取用户的面部特征数据。
进一步的,所述方法还包括:若获取到用户在录入文本信息过程中的语音信息,获取所述语音信息的清晰度,所述清晰度越高的所述语音信息的语义内容的识别度越高;判断所述清晰度是否满足预设阈值;若不满足预设阈值,执行所述开启图像识别功能;若满足预设阈值,对所述语音信息进行语义解析,得到目标数学公式。
进一步的,所述判断所述面部特征数据是否满足预设条件,包括:通过预先训练的面部特征识别模型判断所述面部特征数据是否满足预设条件。
进一步的,所述面部特征数据包括用户的唇部特征数据以及姿态特征数据。
进一步的,所述输出所述目标数学公式之前,包括:生成包括所述目标数学公式的确认指令并向用户展示所述确认指令;判断是否接收到用户的确认消息;若是,执行所述输出所述目标数学公式;若否,更新所述目标数学公式。
进一步的,所述获取输入于所述文本信息输入界面的文本信息,包括:获取输入于所述文本信息输入界面的数学符号;对所述数学符号进行内容纠正处理,得到文本信息。
第二方面,本申请实施例提供了一种文本信息处理装置,该装置包括:第一获取模块,用于获取用户的面部特征数据;判断模块,用于判断所述面部特征数据是否满足预设条件,其中,满足预设条件的面部特征数据对应的用户为语言障碍用户;显示模块,用于若满足预设条件,显示文本信息输入界面;第二获取模块,用于获取输入于所述文本信息输入界面的文本信息;处理模块,用于对所述文本信息进行语义解析,得到目标数学公式;结果输出模块,用于输出所述目标数学公式。
进一步的,所述装置还包括:第一判断单元,用于在获取用户的面部特征数据之前,判断在预设时间段内是否获取到用户在录入文本信息过程中的语音信息;若未获取到用户在录入文本信息过程中的语音信息,开启图像识别功能;通过所述图像识别功能执行所述获取用户的面部特征数据。
进一步的,所述装置还可以包括:第一获取单元以及第二判断单元,第一获取单元用于若获取到用户在录入文本信息过程中的语音信息,获取所述语音信息的清晰度,所述清晰度越高的所述语音信息的语义内容的识别度越高;第二判断单元用于判断所述清晰度是否满足预设阈值;若不满足预设阈值,执行所述开启图像识别功能;若满足预设阈值,对所述语音信息进行语义解析,得到目标数学公式。
进一步的,所述判断模块具体可以用于通过预先训练的面部特征识别模型判断所述面部特征数据是否满足预设条件。
进一步的,所述面部特征数据可以包括用户的唇部特征数据以及姿态特征数据。
进一步的,所述装置还可以包括:指令生成单元以及第三判断单元,其中,指令生成单元可以用于在输出目标数学公式之前,生成包括所述目标数学公式的确认指令并向用户展示所述确认指令;第三判断单元可以用于判断是否接收到用户的确认消息;若是,执行所述输出所述目标数学公式;若否,更新所述目标数学公式。
进一步的,所述第二获取模块具体可以用于获取输入于所述文本信息输入界面的数学符号;对所述数学符号进行内容纠正处理,得到文本信息。
第三方面,本申请实施例提供了一种终端设备,其包括:存储器;一个或多个处理器,与存储器耦接;一个或多个程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于执行如上述第一方面所述的方法。
第四方面,本申请实施例提供了一种计算机可读取存储介质,该计算机可读取存储介质中存储有程序代码,该程序代码可被处理器调用执行如上述第一方面所述的方法。
本申请实施例提供了一种文本信息处理方法、装置、终端设备及存储介质。本方法通过获取用户的面部特征数据,继而判断面部特征数据是否满足预设条件,其中,满足预设条件的面部特征数据对应的用户为语言障碍用户,若满足预设条件,则显示文本信息输入界面,再获取输入于文本信息输入界面的文本信息,再对文本信息进行语义解析,得到目标数学公式,然后输出目标数学公式。通过上述方式实现了在判定获取的面部特征数据为满足预设条件的情况下,显示文本信息输入界面,然后对从文本信息输入界面获取的文本信息进行语义解析,得到目标数学公式,进而输出目标数学公式,实现了语言障碍用户也可借助文本信息输入功能顺利的表达数学符号,提升了用户体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了一种适用于本申请实施例的应用环境示意图。
图2示出了本申请一实施例提供的文本信息处理方法的方法流程图。
图3示出了图2中的步骤S140的方法流程图。
图4示出了本申请另一实施例提供的文本信息处理方法的方法流程图。
图5示出了本申请又一实施例提供的文本信息处理方法的方法流程图。
图6示出了本申请实施例提供的文本信息处理装置的结构框图。
图7示出了本申请实施例的用于执行根据本申请实施例的文本信息处理方法的终端设备的结构框图。
图8示出了本申请实施例的用于保存或者携带实现根据本申请实施例的文本信息处理方法的程序代码的存储单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
近年来,随着移动互联网、大数据、云计算、传感器等技术的加速突破和广泛应用,人工智能的发展也进入了一个崭新的阶段。而智能语音搜索技术作为人工智能产业链上的关键一环,AI(Artificial Intelligence,人工智能)应用最成熟的技术之一,在营销客服、智能家居、智能车载、智能穿戴、智能搜索等领域都有着迅猛发展。例如,手机智能助手。
作为一种方式,可以通过手机智能助手对用户输入的语音进行识别,进而将识别出的与用户的语音数据匹配的文本信息(例如,该文本信息可以是数学公式)进行输入,实现智能输入,进而实现智能搜索。然而,在文本信息输入过程中,对于聋哑人而言,却无法使用语音顺利的输入文本信息,而对于结构较为复杂、一些特殊的字符或者是有多层嵌套等的数学公式,聋哑人则更无法准确的通过语音进行输入。
发明人在研究中发现,可在用户进行文本信息输入过程中,获取用户的面部特征数据,判断面部特征数据是否满足预设条件,其中,满足预设条件的面部特征数据对应的用户为语言障碍用户,在面部特征数据满足预设条件的情况下,可以显示文本信息输入界面,以便于语言障碍用户可以通过文本信息输入界面输入文本信息,实现了语言障碍用户也可借助文本信息输入功能顺利的表达数学符号,提升了用户体验。因此提出了本申请实施例中的文本信息处理方法、装置、终端设备及存储介质。
为了便于更好的理解本申请实施例提供的文本信息处理方法、装置、终端设备及存储介质,下面先对适用于本申请实施例的应用环境进行描述。
请参阅图1,图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的文本信息处理方法可以应用于如图1所示的多态交互系统100。多态交互系统100包括终端设备101以及服务器102,服务器102与终端设备101通信连接。其中,服务器102可以是传统服务器,也可以是云端服务器,在此不作具体限定。
其中,终端设备101可以是具有显示屏且支持数据输入的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的,数据输入可以是基于终端设备101上具有的语音模块输入语音、字符输入模块输入字符等。终端设备101设置有摄像头,摄像头可设置于终端设备101配有显示屏的一面,可选的,终端设备101的摄像头也可设置于终端设备101背离显示屏的一面。需要说明的是,通过摄像头可采集用户的图像数据,图像数据中包括用户的姿态信息,以辅助用于准确识别用户的搜索意图。
其中,终端设备101上可以安装有客户端应用程序,用户可以基于客户端应用程序(例如APP、微信小程序等)与服务器102进行通信。具体的,服务器102上安装有对应的服务端应用程序,用户可以基于客户端应用程序在服务器102注册一个用户帐号,并基于该用户帐号与服务器102进行通信,例如用户在客户端应用程序登录用户帐号,并基于该用户帐号通过客户端应用程序进行输入,可以输入文字信息、语音数据或图像数据等等,客户端应用程序接收到用户输入的信息后,可以将该信息发送至服务器102,使得服务器102可以接收该信息并进行处理及存储,服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。
在一些实施方式中,对用户输入的信息进行处理的装置也可以设置于终端设备101上,使得终端设备101无需依赖与服务器102建立通信即可实现与用户的交互,此时多态交互系统100可以只包括终端设备101。
上述的应用环境仅为方便理解所作的示例,可以理解的是,本申请实施例不仅局限于上述应用环境。
下面将通过具体实施例对本申请实施例提供的文本信息处理方法、装置、终端设备及存储介质进行详细说明。
如图2所示,示出了本申请一实施例提供的文本信息处理方法的方法流程图。本实施例提供的文本信息处理方法可以应用于具有显示屏或其他图像输出装置的终端设备,终端设备可以是智能手机、平板电脑、穿戴式智能终端等电子设备。
在具体的实施例中,文本信息处理方法可应用于如图6所示的搜索装置400以及图7所示的终端设备101。下面将针对图2所示的流程进行详细的阐述。上述的文本信息处理方法具体地可以包括以下步骤:
步骤S110:获取用户的面部特征数据。
其中,本实施例中的面部特征数据可以包括用户的唇部特征数据以及姿态特征数据(例如,手语等)。
在一种方式中,当用户通过人机交互界面进行文本信息录入时,为了提升录入的灵活性与智能性,可以获取用户的面部特征数据,以用于通过面部特征数据辅助识别用户想要输入的文本信息。例如,若用户输入的文本信息为数学公式,那么可以通过识别获取到的用户的面部特征数据中用户的嘴型或者是用户的手势等确定用户需要输入的数学公式的符号和轮廓等,再结合用户的语音信息可以识别出准确的文本信息,进而提升文本信息识别的准确性。
然而,对于一些语言障碍用户,却无法用语音信息辅助面部特征数据进行准确录入文本信息,例如,有听力障碍的用户或者有说话障碍的用户(聋哑人、听力残疾人、声音残疾人等)。在这种情况下,可以获取用户的面部特征数据,以便于可以通过对获取到的面部特征数据进行分析,判断当前用户是否是语言障碍用户。
步骤S120:判断所述面部特征数据是否满足预设条件。
可以理解的是,语言障碍用户(例如聋哑用户)在表达文本信息的时候,其嘴型的形状以及动作与非语言障碍用户可能存在差异,例如,语言障碍用户的嘴型的张开程度可能小于非语言障碍用户的嘴型的张开程度,语言障碍用户在说话时嘴型的形状可能一直保持一个状态,而非语言障碍用户的嘴型可以随着所表达的文本信息的不同而变化;再者,语言障碍用户在用动作辅助表达文本信息时可能动作较为迟缓,或者是会采用特定的动作(例如手语)进行表达,而非语言障碍用户可能不会用手语进行表达等。因而,作为一种方式,可以预先搜集并存储不同语言障碍用户(包括不同年龄、不同性别、不同残障等级的语言障碍用户)的嘴型以及动作(包括各类手语)。其中,预设条件可以设定为:与获取的面部特征数据对应的嘴型或者是动作,属于预先搜集并存储的不同语言障碍用户对应的嘴型或者是动作。
作为一种方式,可以将与获取的面部特征数据对应的嘴型或者是动作与预先存储的语言障碍用户的嘴型或者是动作进行比较的方式判断面部特征数据是否满足预设条件。
可选的,对于一些与面部特征数据对应的嘴型或者是动作,若预先存储的语言障碍用户对应的嘴型或者是动作没有与之相同的,那么可以获取与面部特征数据对应的嘴型或者是动作与预先存储的语言障碍用户的嘴型或者是动作的匹配度,可选的,若匹配度达到指定阈值,那么可以判定与面部特征数据对应的嘴型或者是动作与预先存储的语言障碍用户的嘴型或者是动作匹配,即面部特征数据满足预设条件。其中,指定阈值可以根据实际情况进行设定且可以调整,例如,匹配度可以设定为65%、70%、80%等,具体数值可以不作限定。
作为一种方式,也可以将大量前述的不同语言障碍用户的嘴型以及动作作为训练样本,输入机器学习模型,可以学习得到用于识别语言障碍用户的面部特征数据的面部特征识别模型。在该种方式下,可以通过预先训练的面部特征识别模型判断获取到的面部特征数据是否满足预设条件。其中,满足预设条件的面部特征数据对应的用户可以判定为语言障碍用户。
作为另一种方式,也可以通过判断用户的面部特征数据在指定时间段内是否存在变化的方式来判断面部特征数据是否满足预设条件。可以理解的是,语言障碍用户可能会简单的说一些词语(例如,各种(叠字的)拟声词等)或者短句,例如,“嗯嗯”、“好”、“下雨了”、“你好”等,然而语言障碍用户在说话的时候,嘴型的变化是比较单一的,有的嘴型是一致保持不变的,而有的嘴型虽然能张开,但是不能发出任何声音。语言障碍用户的动作通常情况下是特定的手语,例如,在用手比划“$”等字符时,语言障碍用户一般不会像非语言障碍用户一样,可以根据字符的轮廓或者结构顺序进行比划,甚至一些语言障碍用户可能不会比划。那么,作为一种实现方式,可以判断与面部特征数据对应的嘴型或者是动作在指定时间段内是否存在变化的方式判断面部特征数据是否满足预设条件,可选的,若不存在变化,那么可以判定面部特征数据满足预设条件;若存在变化,那么可以判定面部特征数据不满足预设条件。其中,指定时间段可以设定为10秒、20秒、30秒、60秒等,具体数值可以不作限定。
步骤S130:显示文本信息输入界面。
作为一种方式,若获取到的用户的面部特征数据满足预设条件,那么可以判定当前用户为语言障碍用户,为了可以帮助语言障碍用户可以顺利的进行文本输入,可以在该种情况下显示文本信息输入界面,以便于语言障碍用户可以通过手写、打字,或者是其他输入方式输入文本信息。
可选的,文本信息输入界面可以是触摸屏(配置有文本识别功能与文本输入功能)、手写板等各种具备文本输入功能的界面。
例如,在一个具体的应用场景中,假设通过用户的面部特征数据判定当前用户为聋哑用户,为了提升录入文本信息的准确性与用户友好体验,可以显示具备文本识别功能的虚拟机器人,该虚拟机器人可以具备文本输入界面供语言障碍用户输入对应的文本信息。可选的,该虚拟机器人可以自动识别语言障碍用户的输入文本信息,并对输入文本信息进行纠错处理(例如,语音纠错,内容逻辑纠错等),以使得语言障碍用户可以顺利的输入文本信息,提升用户友好体验。
需要说明的是,若获取到的用户的面部特征数据不满足预设条件,那么可以直接结束判断。在该种方式下,可以判定用户为非语言障碍用户,可选的,非语言障碍用户可以通过语音信息准确的输入文本信息。
步骤S140:获取输入于所述文本信息输入界面的文本信息。
其中,文本信息可以包括文字、各类公式数据(本实施例以数学公式为例进行说明)、特定字符等,具体内容可以不作限定。其中,各类公式数据可以包括数学公式,物理公式、化学结构式、化学反应式、函数(例如微积分表达式)、五线谱、棋谱等。
作为一种方式,如图3所示,步骤S140可以包括:
步骤S141:获取输入于所述文本信息输入界面的数学符号。
作为一种方式,若文本信息为数学符号,可以获取输入于文本信息输入界面的数学符号。可选的,对于数学符号的输入方式可以不作限定,例如,可以是通过手写的方式输入、也可以是通过拼写的方式输入,或者说可以通过打字的方式进行输入。
步骤S142:对所述数学符号进行内容纠正处理,得到文本信息。
可以理解的是,不同用户的输入习惯不同,且不同用户的输入速度也存在差异,作为一种方式,为了减小输入误差,可以对输入于文本信息输入界面的数学符号进行纠正处理,以便于可以得到准确的文本信息。例如,若用户因输入速度较快,将“α”误输入成了“a”,那么可以对数学符号的语境以及语义内容进行分析后,将“a”纠正为“α”。
步骤S150:对所述文本信息进行语义解析,得到目标数学公式。
作为一种方式,若用户输入于文本信息输入界面的是数学公式,可以通过对数学公式进行内容纠错处理之后,对数学公式的整体逻辑进行检测,例如,可以检测是否处在明显的输入错误等,然后可以得到目标数学公式。其中,本实施例中的目标数学公式可以理解为语义完整、准确性高的数学公式。可选的,可以通过文本识别算法对文本信息进行语义解析,其中,具体的文本识别算法可以参考现有技术,在此不再赘述。
步骤S160:输出所述目标数学公式。
可选的,对于目标数学公式的输出形式可以不作限定,例如,可以是在电子设备的显示屏幕上进行显示,也可以是在虚拟机器人的文本信息输入界面显示,或者是虚拟机器人以语音播报的方式输出目标数学公式(假设在该种况下语言障碍用户能听懂语音但无法表达)等,可选的,用户可以选择在不同的输出方式之间切换,具体形式在此不作限定。
本实施例提供的文本信息处理方法,通过获取用户的面部特征数据,继而判断面部特征数据是否满足预设条件,其中,满足预设条件的面部特征数据对应的用户为语言障碍用户,若满足预设条件,则显示文本信息输入界面,再获取输入于文本信息输入界面的文本信息,再对文本信息进行语义解析,得到目标数学公式,然后输出目标数学公式。通过上述方式实现了在判定获取的面部特征数据为满足预设条件的情况下,显示文本信息输入界面,然后对从文本信息输入界面获取的文本信息进行语义解析,得到目标数学公式,进而输出目标数学公式,实现了语言障碍用户也可借助文本信息输入功能顺利的表达数学符号,提升了用户体验。
如图4所示,示出了本申请另一实施例提供的文本信息处理方法的方法流程图,所述方法包括:
步骤S210:判断在预设时间段内是否获取到用户在录入文本信息过程中的语音信息。
可选的,在检测到电子设备的文本识别功能和/或语音输入功能处于开启状态时,可以判定处于文本信息录入状态。
可以理解的是,语言障碍用户通常情况下无法用语音进行表达,而一些语言障碍用户尽管表达一些简单的语音信息,例如,拟声词、模拟词等,却无法准确地表达对应的语音信息。若上述用户需要通过人机交互界面录入文本,而因存在言语障碍而无法准确表达时,将带来不好的用户体验。
作为一种改善上述问题的方式,本实施例可以判断在预设时间段内是否获取到用户在录入文本信息过程中的语音信息。其中,录入文本信息过程可以理解为文本识别功能和/或语音输入功能从开启至关闭的时间间隔。预设时间段可以根据实际需求进行设定,例如,预设时间段可以设定为30秒内、50秒内、60秒内、2分钟内等等,具体数值可以不作限定。可选的,可以监测在预设时间段内是否存在有通过语音输入功能输入的语音信息,若存在,那么可以判定在预设时间段内获取到用户在录入文本信息过程中的语音信息。其中,通过语音输入功能输入的语音信息包括用户实时录入的语音信息或者是预先存储的语音信息。
步骤S221:获取所述语音信息的清晰度。
作为一种方式,若获取到用户在录入文本信息过程中的语音信息,为了减少误判(例如,假设语音信息是提前存储好的,那么当前用户可能是语言障碍用户(例如,提前存储的语音不是语言障碍用户本人的),也可能不是语言障碍用户(例如,语音信息是该用户实时录入的),或者是语言障碍用户录入的(可以理解的是,语言障碍用户录入的语音信息的识别度低于非语言障碍用户的语音信息的识别度)),则可以继续获取语音信息的清晰度,其中,清晰度越高的语音信息的语义内容的识别度越高。
可选的,可以通过对语音信息对应的文本信息进行识别,根据得到的文本信息的数量以及连贯程度获取语音信息的清晰度。作为一种实施方式,可以设定清晰度的等级,例如,若得到的文本信息数量较多,且该数量下的文本信息之间较为连贯(包括语音连贯和逻辑连贯等),那么可以将该清晰度的等级设定为“等级1”,可选的,可以设定与“等级1”对应的清晰度为0.8;若得到的文本信息的数量较少,且该数量下的文本信息之间不连贯,那么可以将该清晰度的等级设定为“等级2”,可选的,可以设定与“等级2”对应的清晰度为0.2。需要说明的是,上述示出的获取语音信息的清晰度的方式仅作为示例,并不构成对本方案的限定。
步骤S222:判断所述清晰度是否满足预设阈值。
其中,预设阈值可以根据实际情况进行设定,例如,预设阈值可以是0.6、0.7、0.8等。作为一种方式,可以将清晰度与预设阈值进行比较的方式判断清晰度是否满足预设阈值。
需要说明的是,若清晰度不满足预设阈值,那么可以判定当前用户为语言障碍用户,在该种情况下,为了使语言障碍用户可以顺利输入文本信息,可以开启图像识别功能,即执行下述步骤S231中的内容,具体可以参见后续详细描述。
步骤S223:对所述语音信息进行语义解析,得到目标数学公式。
作为一种方式,若语音信息的清晰度满足预设阈值,则可以直接对语音信息进行语义解析,得到目标数学公式。可选的,可以通过语音识别处理算法识别语音信息对应的文本信息,再通过NLP(自然语言处理算法)对识别出的与语音信息对应的文本信息进行语义分析,得到目标数学公式,具体的语音识别算法以及自然语言处理算法可以参照现有技术,在此不再赘述。
可选的,在对语音信息进行语义解析,得到目标数学公式后,可以输出目标数学公式,具体内容可以参照前述实施例中的描述,在此不再赘述。
步骤S231:开启图像识别功能。
作为一种方式,若未获取到用户在录入文本信息过程中的语音信息,那么可以判定当前用户可能为语言障碍用户,为了保证判断的准确性及可靠性,可以开启电子设备的图像识别功能,以便于可以通过图像识别功能采集的用户的面部特征数据进一步判断当前用户是否为语言障碍用户。
步骤S232:通过所述图像识别功能执行所述获取用户的面部特征数据。
作为一种方式,可以通过图像识别功能获取用户的面部特征数据,可以提升判断的准确性与可靠性。
步骤S233:判断所述面部特征数据是否满足预设条件。
步骤S234:显示文本信息输入界面。
步骤S235:获取输入于所述文本信息输入界面的文本信息。
步骤S236:对所述文本信息进行语义解析,得到目标数学公式。
步骤S237:输出所述目标数学公式。
本实施例提供的文本信息处理方法,实现了在判定预设时间段内获取到用户在录入文本信息过程中的语音信息的情况下,再获取语音信息的清晰度,然后在清新度不满足预设阈值的情况下,判定当前用户为语言障碍用户,然后开启图像识别功能获取用户的面部特征数据,增强了判断的准确性与可靠性;在进一步判定获取的面部特征数据为满足预设条件的情况下,显示文本信息输入界面,然后对从文本信息输入界面获取的文本信息进行语义解析,得到目标数学公式,进而输出目标数学公式,实现了语言障碍用户也可借助文本信息输入功能准确的表达数学符号,提升用户友好体验。
如图5所示,示出了本申请又一实施例提供的文本信息处理方法的方法流程图,所述方法包括:
步骤S310:获取用户的面部特征数据。
步骤S320:判断所述面部特征数据是否满足预设条件。
步骤S330:显示文本信息输入界面。
步骤S340:获取输入于所述文本信息输入界面的文本信息。
步骤S350:对所述文本信息进行语义解析,得到目标数学公式。
步骤S360:生成包括所述目标数学公式的确认指令并向用户展示所述确认指令。
作为一种方式,为了提升用户的主动参与积极性与文本信息解析结果的准确性,可以在得到目标数学公式之后,生成包括目标数学公式的确认指令并向用户展示该确认指令,可以实现提升输入文本信息解析的准确性。
步骤S370:判断是否接收到用户的确认消息。
可选的,确认消息可以理解为用户对确认指令的处理信息。例如,若某条确认指令为“请确认当前解析得到的数学公式是否准确表达您的输入”,可选的,若用户选择了“是”,那么可以判定用户对确认指令的处理信息为“确认”;若用户选择了“否”,那么可以判定用户对确认指令的处理信息为“未确认”。可选的,可以通过识别用户对确认指令的选择情况判断是否接收到用户的确认消息。
步骤S380:输出所述目标数学公式。
可选的,若接收到用户的确认消息,则可以输出目标数学公式。
步骤S390:更新所述目标数学公式。
可选的,若没有接收到用户的确认消息,那么当前得到的目标数学公式可能存在错误,为了提升用户体验以及提升文本信息输入的准确性,可以更新目标数学公式。
本实施例提供的文本信息处理方法,通过实现了在判定获取的面部特征数据为满足预设条件的情况下,显示文本信息输入界面,然后对从文本信息输入界面获取的文本信息进行语义解析,得到目标数学公式,再生成包括目标数学公式的确认指令并向用户展示确认指令,以使在接收到用户的确认消息的情况下输出目标数学公式,实现了语言障碍用户也可借助文本信息输入功能准确规范的表达数学符号,提升了输入方式的灵活性。
如图6所示,示出了本申请实施例提供的文本信息处理装置400的结构框图,所述装置400运行于具有显示屏或其他音频或图像输出装置的终端设备,终端设备可以是智能手机、平板电脑、穿戴式智能终端等电子设备,所述装置400包括:
第一获取模块410,用于获取用户的面部特征数据。
可选的,所述面部特征数据可以包括用户的唇部特征数据以及姿态特征数据。
可选的,所述装置还包括:第一判断单元,用于在获取用户的面部特征数据之前,判断在预设时间段内是否获取到用户在录入文本信息过程中的语音信息;若未获取到用户在录入文本信息过程中的语音信息,开启图像识别功能;通过所述图像识别功能执行所述获取用户的面部特征数据。
可选的,所述装置还可以包括:第一获取单元以及第二判断单元,第一获取单元用于若获取到用户在录入文本信息过程中的语音信息,获取所述语音信息的清晰度,所述清晰度越高的所述语音信息的语义内容的识别度越高;第二判断单元用于判断所述清晰度是否满足预设阈值;若不满足预设阈值,执行所述开启图像识别功能;若满足预设阈值,对所述语音信息进行语义解析,得到目标数学公式。
判断模块420,用于判断所述面部特征数据是否满足预设条件,其中,满足预设条件的面部特征数据对应的用户为语言障碍用户。
作为一种方式,所述判断模块420具体可以用于通过预先训练的面部特征识别模型判断所述面部特征数据是否满足预设条件。
显示模块430,用于若满足预设条件,显示文本信息输入界面。
第二获取模块440,用于获取输入于所述文本信息输入界面的文本信息。
作为一种方式,所述第二获取模块440具体可以用于获取输入于所述文本信息输入界面的数学符号;对所述数学符号进行内容纠正处理,得到文本信息。
处理模块450,用于对所述文本信息进行语义解析,得到目标数学公式。
结果输出模块460,用于输出所述目标数学公式。
可选的,所述装置还可以包括:指令生成单元以及第三判断单元,其中,指令生成单元可以用于在输出目标数学公式之前,生成包括所述目标数学公式的确认指令并向用户展示所述确认指令;第三判断单元可以用于判断是否接收到用户的确认消息;若是,执行所述输出所述目标数学公式;若否,更新所述目标数学公式。
本实施例提供的文本信息处理装置,通过获取用户的面部特征数据,继而判断面部特征数据是否满足预设条件,其中,满足预设条件的面部特征数据对应的用户为语言障碍用户,若满足预设条件,则显示文本信息输入界面,再获取输入于文本信息输入界面的文本信息,再对文本信息进行语义解析,得到目标数学公式,然后输出目标数学公式。通过上述方式实现了在判定获取的面部特征数据为满足预设条件的情况下,显示文本信息输入界面,然后对从文本信息输入界面获取的文本信息进行语义解析,得到目标数学公式,进而输出目标数学公式,实现了语言障碍用户也可借助文本信息输入功能顺利的表达数学符号,提升了用户体验。
本申请实施例提供的搜索装置用于实现前述方法实施例中相应的文本信息处理方法,并具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的技术人员可以清楚地了解到,本申请实施例提供的文本信息处理装置能够实现前述方法实施例中的各个过程,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参阅前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
请参阅图7,其示出了本申请实施例提供的一种终端设备101的结构框图。该终端设备101可以是智能手机、平板电脑、电子书等能够运行应用程序的终端设备。本申请中的终端设备101可以包括一个或多个如下部件:处理器1012、存储器1014以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器1014中并被配置为由一个或多个处理器1012执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
处理器1012可以包括一个或者多个处理核。处理器1012利用各种接口和线路连接整个终端设备101内的各个部分,通过运行或执行存储在存储器1014内的指令、程序、代码集或指令集,以及调用存储在存储器1014内的数据,执行终端设备101的各种功能和处理数据。可选地,处理器1012可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器1012可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1012中,单独通过一块通信芯片进行实现。
存储器1014可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器1014可用于存储指令、程序、代码、代码集或指令集。存储器1014可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备101在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
请参阅图8,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质500中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质500可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质500包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质500具有执行上述方法中的任何方法步骤的程序代码510的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码510可以例如以适当形式进行压缩。
综上所述,本申请实施例提供的文本信息处理方法、装置、终端设备及存储介质,通过获取用户的面部特征数据,继而判断面部特征数据是否满足预设条件,其中,满足预设条件的面部特征数据对应的用户为语言障碍用户,若满足预设条件,则显示文本信息输入界面,再获取输入于文本信息输入界面的文本信息,再对文本信息进行语义解析,得到目标数学公式,然后输出目标数学公式。通过上述方式实现了在判定获取的面部特征数据为满足预设条件的情况下,显示文本信息输入界面,然后对从文本信息输入界面获取的文本信息进行语义解析,得到目标数学公式,进而输出目标数学公式,实现了语言障碍用户也可借助文本信息输入功能顺利的表达数学符号,提升了用户体验。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (6)

1.一种文本信息处理方法,其特征在于,所述方法包括:
判断在预设时间段内是否获取到用户在录入文本信息过程中的语音信息;
若未获取到用户在录入文本信息过程中的语音信息,开启图像识别功能;
通过所述图像识别功能获取用户的面部特征数据,所述面部特征数据包括用户的唇部特征数据以及姿态特征数据;
通过预先训练的面部特征识别模型判断所述面部特征数据是否满足预设条件,其中,满足预设条件的面部特征数据对应的用户为语言障碍用户,所述预设条件表征与所述面部特征数据对应的嘴型或者是动作,与预先存储的语言障碍用户的嘴型或者是动作的匹配度达到指定阈值;
若满足预设条件,显示文本信息输入界面;
获取输入于所述文本信息输入界面的数学符号;
对所述数学符号进行内容纠正处理,得到文本信息,所述对所述数学符号进行内容纠正处理的步骤包括:对所述数学符号的语境以及语义内容进行分析后进行内容纠正处理;
对所述文本信息进行语义解析,得到目标数学公式;
输出所述目标数学公式。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若获取到用户在录入文本信息过程中的语音信息,获取所述语音信息的清晰度,所述清晰度越高的所述语音信息的语义内容的识别度越高;
判断所述清晰度是否满足预设阈值;
若不满足预设阈值,执行所述开启图像识别功能;
若满足预设阈值,对所述语音信息进行语义解析,得到目标数学公式。
3.根据权利要求1所述的方法,其特征在于,所述输出所述目标数学公式的步骤之前,还包括:
生成包括所述目标数学公式的确认指令并向用户展示所述确认指令;
判断是否接收到用户的确认消息;
若是,执行所述输出所述目标数学公式;
若否,更新所述目标数学公式。
4.一种文本信息处理装置,其特征在于,所述装置包括:
第一判断单元,用于判断在预设时间段内是否获取到用户在录入文本信息过程中的语音信息;若未获取到用户在录入文本信息过程中的语音信息,开启图像识别功能;通过所述图像识别功能获取用户的面部特征数据,所述面部特征数据包括用户的唇部特征数据以及姿态特征数据;
判断模块,用于通过预先训练的面部特征识别模型判断所述面部特征数据是否满足预设条件,其中,满足预设条件的面部特征数据对应的用户为语言障碍用户,所述预设条件表征与所述面部特征数据对应的嘴型或者是动作,与预先存储的语言障碍用户的嘴型或者是动作的匹配度达到指定阈值;
显示模块,用于若满足预设条件,显示文本信息输入界面;
第二获取模块,用于获取输入于所述文本信息输入界面的数学符号;对所述数学符号进行内容纠正处理,得到文本信息,所述对所述数学符号进行内容纠正处理的步骤包括:对所述数学符号的语境以及语义内容进行分析后进行内容纠正处理;
处理模块,用于对所述文本信息进行语义解析,得到目标数学公式;
结果输出模块,用于输出所述目标数学公式。
5.一种终端设备,其特征在于,包括:
存储器;
一个或多个处理器,与所述存储器耦接;
一个或多个程序,其中,所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1-3任一项所述的方法。
6.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-3任一项所述的方法。
CN201911231038.9A 2019-12-04 2019-12-04 文本信息处理方法、装置、终端设备及存储介质 Active CN111144125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911231038.9A CN111144125B (zh) 2019-12-04 2019-12-04 文本信息处理方法、装置、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911231038.9A CN111144125B (zh) 2019-12-04 2019-12-04 文本信息处理方法、装置、终端设备及存储介质

Publications (2)

Publication Number Publication Date
CN111144125A CN111144125A (zh) 2020-05-12
CN111144125B true CN111144125B (zh) 2021-08-10

Family

ID=70517537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911231038.9A Active CN111144125B (zh) 2019-12-04 2019-12-04 文本信息处理方法、装置、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN111144125B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539383B (zh) * 2020-05-22 2023-05-05 浙江蓝鸽科技有限公司 公式知识点识别方法及装置
CN116805272A (zh) * 2022-10-29 2023-09-26 武汉行已学教育咨询有限公司 一种可视化教育教学分析方法、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468673A (zh) * 2015-11-10 2016-04-06 河南师范大学 一种数学公式搜索方法及系统
CN106940637A (zh) * 2017-03-13 2017-07-11 刘新星 声控计算方法、装置及用户终端
CN108427962A (zh) * 2018-03-01 2018-08-21 阿里巴巴集团控股有限公司 一种识别的方法、装置及设备
CN109543026A (zh) * 2018-12-12 2019-03-29 广东小天才科技有限公司 一种数学公式的解析内容获取方法及家教设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160307561A1 (en) * 2015-04-17 2016-10-20 Lakdas Nanayakkara System for Providing Assistance to the Visually Impaired

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468673A (zh) * 2015-11-10 2016-04-06 河南师范大学 一种数学公式搜索方法及系统
CN106940637A (zh) * 2017-03-13 2017-07-11 刘新星 声控计算方法、装置及用户终端
CN108427962A (zh) * 2018-03-01 2018-08-21 阿里巴巴集团控股有限公司 一种识别的方法、装置及设备
CN109543026A (zh) * 2018-12-12 2019-03-29 广东小天才科技有限公司 一种数学公式的解析内容获取方法及家教设备

Also Published As

Publication number Publication date
CN111144125A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN110807388B (zh) 交互方法、装置、终端设备及存储介质
US11848008B2 (en) Artificial intelligence-based wakeup word detection method and apparatus, device, and medium
JP7312853B2 (ja) 人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム
CN110826441B (zh) 交互方法、装置、终端设备及存储介质
US9805718B2 (en) Clarifying natural language input using targeted questions
CN107609092B (zh) 智能应答方法和装置
JP2019102063A (ja) ページ制御方法および装置
CN112262430A (zh) 自动确定经由自动助理界面接收到的口头话语的语音识别的语言
US9093072B2 (en) Speech and gesture recognition enhancement
CN110808034A (zh) 语音转换方法、装置、存储介质及电子设备
CN110599359B (zh) 社交方法、装置、系统、终端设备及存储介质
CN111045639A (zh) 语音输入方法、装置、电子设备及存储介质
CN111428010A (zh) 人机智能问答的方法和装置
EP3792785A1 (en) Man-machine dialog method, client, electronic device and storage medium
CN111144125B (zh) 文本信息处理方法、装置、终端设备及存储介质
CN113674746B (zh) 人机交互方法、装置、设备以及存储介质
CN113674742B (zh) 人机交互方法、装置、设备以及存储介质
CN112513984A (zh) 电子设备及其控制方法
CN112466302A (zh) 语音交互的方法、装置、电子设备和存储介质
CN110955818A (zh) 搜索方法、装置、终端设备及存储介质
CN115309877A (zh) 对话生成方法、对话模型训练方法及装置
CN112735418A (zh) 一种语音交互的处理方法、装置、终端及存储介质
CN110956958A (zh) 搜索方法、装置、终端设备及存储介质
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
CN110781329A (zh) 图像搜索方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Yuan Ding

Inventor after: Liu Yunfeng

Inventor after: Wu Yue

Inventor before: Yuan Ding

GR01 Patent grant
GR01 Patent grant