CN111079593A - 文本信息处理方法、装置、终端设备及存储介质 - Google Patents
文本信息处理方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN111079593A CN111079593A CN201911228527.9A CN201911228527A CN111079593A CN 111079593 A CN111079593 A CN 111079593A CN 201911228527 A CN201911228527 A CN 201911228527A CN 111079593 A CN111079593 A CN 111079593A
- Authority
- CN
- China
- Prior art keywords
- mathematical formula
- image data
- mathematical
- target image
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 37
- 238000003672 processing method Methods 0.000 title abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 95
- 230000008569 process Effects 0.000 claims abstract description 46
- 230000001502 supplementing effect Effects 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 description 9
- 239000013589 supplement Substances 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请实施例提供了一种文本信息处理方法、装置、终端设备及存储介质。本方法通过获取用户在录入文本信息过程中的语音数据,并识别与语音数据对应的数学公式,继而判断语音数据是否满足预设条件,若满足,则获取目标图像数据,目标图像数据用于对数学公式的内容进行补充,再识别与目标图像数据关联的数学符号轮廓,然后基于数学公式与数学符号轮廓获取目标数学公式。通过上述方式实现了在判断语音数据满足预设条件的情况下,获取目标图像数据,进而识别与目标图像数据关联的数学符号轮廓,从而可以基于数学公式以及数学符号轮廓共同确定目标数学公式,使数学公式的录入更加准确,提升用户体验。
Description
技术领域
本申请涉及计算机系统技术领域,更具体地,涉及一种文本信息处理方法、装置、终端设备及存储介质。
背景技术
数学公式是人们在研究自然界物与物之间时发现的一些联系,并通过一定的方式表达出来的一种表达方法。是表征自然界不同事物之数量之间的或等或不等的联系,它确切的反映了事物内部和外部的关系,是我们从一种事物到达另一种事物的依据,使我们更好的理解事物的本质和内涵。数学是科学的基本语言,因而对于教育和科研领域来说,数学公式的输入与编辑是除普通文字的输入与编辑之外最为重要的输入和编辑工具。作为一种方式,对于一些简单的数学公式,用户可以通过键盘直接输入;而对于一些特殊的文字符号输入不方便时,也可以采用相关软件的辅助进行输入。然而,一旦遇到生僻字、特殊符号或结构更为复杂的公式(例如微积分表达式)时,就容易出现无法正确输入的情况,从而导致数学公式编辑过程繁琐。
发明内容
鉴于上述问题,本申请提出了一种文本信息处理方法、装置、终端设备及存储介质,以解决上述问题。
第一方面,本申请实施例提供了一种文本信息处理方法,该方法包括:获取录入文本信息过程中的语音数据,并识别与所述语音数据对应的数学公式;判断所述语音数据是否满足预设条件;若满足,则获取目标图像数据,所述目标图像数据用于对所述数学公式的内容进行补充;识别与所述目标图像数据关联的数学符号轮廓;基于所述数学公式与所述数学符号轮廓获取目标数学公式。
进一步的,所述若满足,则获取目标图像数据,包括:若满足,则开启图像识别功能,获取包括用户的姿态信息的图像数据;将包括用户的姿态信息的图像数据作为所述目标图像数据。
进一步的,所述识别与所述目标图像数据关联的数学符号轮廓,包括:获取与所述用户的姿态信息对应的数学公式的结构描述信息,所述结构描述信息包括操作符信息以及操作数信息;获取与所述操作符信息以及操作数信息关联的数学符号轮廓。
进一步的,所述若满足,则获取目标图像数据,包括:若满足,检测终端设备的屏幕上是否存在录入的数学公式;若有,将包括有录入的数学公式的图像作为目标图像数据。
进一步的,若满足,则获取目标图像数据,包括:若满足,获取用户在指定设备端绘制的包括数学符号形状的图像数据作为目标图像数据。
进一步的,所述预设条件,包括:所述语音数据从录入开始至录入结束的时间段内存在大于预设阈值的时间间隔。
进一步的,所述判断所述语音数据是否满足预设条件之前,还包括:判断与所述语音数据对应的数学公式的难易等级是否不大于预设等级;若是,将所述数学公式作为目标数学公式;若否,执行所述判断所述语音数据是否满足预设条件。
第二方面,本申请实施例提供了一种文本信息处理装置,该装置包括:第一获取模块,用于获取用户在录入文本信息过程中的语音数据,并识别与所述语音数据对应的数学公式;判断模块,用于判断所述语音数据是否满足预设条件;第二获取模块,用于若满足,则获取目标图像数据,所述目标图像数据用于对所述数学公式的内容进行补充;识别模块,用于识别与所述目标图像数据关联的数学符号轮廓;第三获取模块,用于基于所述数学公式与所述数学符号轮廓获取目标数学公式。
进一步的,所述第二获取模块具体可以用于若满足,则开启图像识别功能,获取包括用户的姿态信息的图像数据;将包括用户的姿态信息的图像数据作为所述目标图像数据。其中,所述识别与所述目标图像数据关联的数学符号轮廓具体可以包括:获取与所述用户的姿态信息对应的数学公式的结构描述信息,所述结构描述信息包括操作符信息以及操作数信息;获取与所述操作符信息以及操作数信息关联的数学符号轮廓。
进一步的,所述第二获取模块具体可以用于若满足,检测终端设备的屏幕上是否存在录入的数学公式;若有,将包括有录入的数学公式的图像作为目标图像数据。
进一步的,所述第二获取模块具体可以用于若满足,获取用户在指定设备端绘制的包括数学符号形状的图像数据作为目标图像数据。
进一步的,所述预设条件,包括:所述语音数据从录入开始至录入结束的时间段内存在大于预设阈值的时间间隔。
进一步的,所述装置还包括:难易等级判断单元,用于在判断所述语音数据是否满足预设条件之前,判断与所述语音数据对应的数学公式的难易等级是否不大于预设等级。作为一种方式,若是,可以将所述数学公式作为目标数学公式;作为另一种方式,若否,可以执行所述判断所述语音数据是否满足预设条件。
第三方面,本申请实施例提供了一种终端设备,其包括:存储器;一个或多个处理器,与存储器耦接;一个或多个程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于执行如上述第一方面所述的方法。
第四方面,本申请实施例提供了一种计算机可读取存储介质,该计算机可读取存储介质中存储有程序代码,该程序代码可被处理器调用执行如上述第一方面所述的方法。
本申请实施例提供了一种文本信息处理方法、装置、终端设备及存储介质。本方法通过获取用户在录入文本信息过程中的语音数据,并识别与语音数据对应的数学公式,继而判断语音数据是否满足预设条件,若满足,则获取目标图像数据,目标图像数据用于对数学公式的内容进行补充,再识别与目标图像数据关联的数学符号轮廓,然后基于数学公式与数学符号轮廓获取目标数学公式。通过上述方式实现了在判断语音数据满足预设条件的情况下,获取目标图像数据,进而识别与目标图像数据关联的数学符号轮廓,从而可以基于数学公式以及数学符号轮廓共同确定目标数学公式,使数学公式的录入更加准确,提升用户体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了一种适用于本申请实施例的应用环境示意图。
图2示出了本申请一实施例提供的文本信息处理方法的方法流程图。
图3示出了本申请另一实施例提供的文本信息处理方法的方法流程图。
图4示出了本申请又一实施例提供的文本信息处理方法的方法流程图。
图5示出了本申请再一实施例提供的文本信息处理方法的方法流程图。
图6示出了本申请再一实施例提供的文本信息处理方法的方法流程图。
图7示出了本申请实施例提供的文本信息处理装置的结构框图。
图8示出了本申请实施例的用于执行根据本申请实施例的文本信息处理方法的终端设备的结构框图。
图9示出了本申请实施例的用于保存或者携带实现根据本申请实施例的文本信息处理方法的程序代码的存储单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
近年来,随着移动互联网、大数据、云计算、传感器等技术的加速突破和广泛应用,人工智能的发展也进入了一个崭新的阶段。而智能语音搜索技术作为人工智能产业链上的关键一环,AI(Artificial Intelligence,人工智能)应用最成熟的技术之一,在营销客服、智能穿戴、智能搜索等领域都有着迅猛发展。例如,手机智能助手。
作为一种方式,可以通过手机智能助手对用户输入的语音进行识别,进而将识别出的与用户的语音数据匹配的文本信息(例如,该文本信息可以是数学公式)进行输入,实现智能输入,进而实现智能搜索。然而,在通过语音进行输入文本信息的过程中,例如,在通过语音输入数学公式的过程中,对于结构较为复杂、一些特殊的字符或者是有多层嵌套等的数学公式,通常不能通过语音信息进行完整的输入,给用户带来了输入障碍,导致效率低下,降低用户体验。
发明人在研究中发现,可在用户通过语音进行输入的过程中,同时获取与输入过程相关的图像数据,以便于在输入一些复杂文本信息时,可以结合语音输入与图像数据(图像数据中包括用户对复杂文本信息进行补充的内容)提升文本信息输入的准确性,同时提升输入效率,进而提升用户体验。因此提出了本申请实施例中的文本信息处理方法、装置、终端设备及存储介质。
为了便于更好的理解本申请实施例提供的文本信息处理方法、装置、终端设备及存储介质,下面先对适用于本申请实施例的应用环境进行描述。
请参阅图1,图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的文本信息处理方法可以应用于如图1所示的多态交互系统100。多态交互系统100包括终端设备101以及服务器102,服务器102与终端设备101通信连接。其中,服务器102可以是传统服务器,也可以是云端服务器,在此不作具体限定。
其中,终端设备101可以是具有显示屏且支持数据输入的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的,数据输入可以是基于终端设备101上具有的语音模块输入语音、字符输入模块输入字符等。终端设备101设置有摄像头,摄像头可设置于终端设备101配有显示屏的一面,可选的,终端设备101的摄像头也可设置于终端设备101背离显示屏的一面。需要说明的是,通过摄像头可采集用户的图像数据,图像数据中包括用户的姿态信息,以辅助用于准确识别与用户输入的语音数据对应的文本信息。
其中,终端设备101上可以安装有客户端应用程序,用户可以基于客户端应用程序(例如APP、微信小程序等)与服务器102进行通信。具体的,服务器102上安装有对应的服务端应用程序,用户可以基于客户端应用程序在服务器102注册一个用户帐号,并基于该用户帐号与服务器102进行通信,例如用户在客户端应用程序登录用户帐号,并基于该用户帐号通过客户端应用程序进行输入,可以输入文字信息、语音数据或图像数据等等,客户端应用程序接收到用户输入的信息后,可以将该信息发送至服务器102,使得服务器102可以接收该信息并进行处理及存储,服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。
在一些实施方式中,对用户输入的信息进行处理的装置也可以设置于终端设备101上,使得终端设备101无需依赖与服务器102建立通信即可实现与用户的交互,此时多态交互系统100可以只包括终端设备101。
上述的应用环境仅为方便理解所作的示例,可以理解的是,本申请实施例不仅局限于上述应用环境。
下面将通过具体实施例对本申请实施例提供的文本信息处理方法、装置、终端设备及存储介质进行详细说明。
如图2所示,示出了本申请一实施例提供的文本信息处理方法的方法流程图。本实施例提供的文本信息处理方法可以应用于具有显示屏或其他图像输出装置的终端设备,终端设备可以是智能手机、平板电脑、穿戴式智能终端等电子设备。
在具体的实施例中,文本信息处理方法可应用于如图7所示的文本信息处理装置600以及图8所示的终端设备101。下面将针对图2所示的流程进行详细的阐述。上述的文本信息处理方法具体地可以包括以下步骤:
步骤S110:获取录入文本信息过程中的语音数据,并识别与所述语音数据对应的数学公式。
其中,本申请实施例中的文本信息可以包括文字、各类公式数据(本实施例以数学公式为例进行说明)、特定字符等,具体内容可以不作限定。其中,各类公式数据可以包括数学公式,物理公式、化学结构式、化学反应式、函数(例如微积分表达式)、五线谱、棋谱等。
可选的,在对数学公式进行搜索时,一些特殊的文字符号输入不方便,常常需要采用相关软件的辅助进行输入搜索,而在借助于其他相关软件进行输入查询时往往会导致搜索效率低下,不能满足人们的需要。
作为一种改善上述问题的方式,当电子设备的语音输入功能处于开启状态时,可以通过获取用户在录入文本信息过程中的语音数据,并识别与语音数据对应的数学公式,从而实现通过语音输入数学公式。
然而,可以理解的是,对于一些简单的数学公式,用户可以通过语音直接输入;而对于一些特殊的文字符号、生僻字(符)或结构更为复杂的公式(例如微积分表达式)等,可能会出现无法正确输入的情况,例如,用户不会读所以无法准确输入,从而影响录入文本信息的准确性。那么,作为一种方式,为了提升录入文本信息的准确性,可以对用户在录入文本信息过程中的语音数据进行判断,具体描述如下。
步骤S120:判断所述语音数据是否满足预设条件。
其中,预设条件可以包括:语音数据从录入开始至录入结束的时间段内存在大于预设阈值的时间间隔。可选的,预设阈值可以根据实际情况进行设定,例如,预设阈值可以设置为10秒、20秒、30秒或60秒等,具体数值不作限定。
作为一种方式,可以判断用户在录入文本信息过程中的语音数据从录入开始至录入结束的时间段内是否存在大于预设阈值的时间间隔。可选的,若存在大于预设阈值的时间间隔,那么可以判定语音数据满足预设条件。若不存在大于预设阈值的时间间隔,那么可以判定语音数据不满足预设条件。
例如,在一个具体的应用场景中,假设某用户在做数学题时,遇到某一数学公式不认识的情况下,可以通过对该数学公式进行拼读,以实现用语音输入的方式,将该数学公式进行输入。可选的,若该用户在拼读该数学公式的过程中,从拼读开始至拼读结束的过程中的暂停时间、或者是在拼读某一字符时的停留时间大于指定阈值(例如30秒),那么可以判定该用户在录入数学公式过程中的语音数据满足预设条件;可选的,若该用户可以流畅的拼读出所要搜索的数学公式,或者说在录入数学公式的过程中,从录入开始至录入结束的时间段内的暂停时间(或者停留时间)小于30秒,那么可以判定该用户在录入数学公式过程中的语音数据不满足预设条件。
需要说明的是,对于不同的用户,设置的在录入文本信息的过程中的停留时间(或暂停时间)可以不同。例如,对于说话语速较快的用户可以设定较短的停留时间,而对于说话语速相对较慢答复用户,其对应的停留时间可以相对较长。可以根据用户的说话语速,以及用户的身份特征(包括用户的年龄、性别、职业)等对用户在录入数学公式的过程中,从录入开始至录入结束的时间段的预设阈值进行调整。
通过判断用户在录入文本信息过程中的语音数据是否满足预设条件,以便于在该语音数据满足预设条件的情况下,可以进一步获取目标图像数据,通过借助图像数据实现更为准确的输入,从而提升文本信息录入的准确性。
步骤S130:获取目标图像数据,所述目标图像数据用于对所述数学公式的内容进行补充。
作为一种方式,若用户在录入文本信息的过程中的语音数据满足预设条件,那么可以获取目标图像数据,其中,目标图像数据用于对数学公式的内容进行补充。
作为一种实现方式,可以通过电子设备的摄像头拍摄用户在录入文本信息过程中的图像数据,将该图像数据作为目标图像数据,可选的,该图像数据包括用户在录入文本信息过程中的的姿态信息,该姿态信息用于辅助输入文本信息。
步骤S140:识别与所述目标图像数据关联的数学符号轮廓。
作为一种方式,若用户录入的文本信息为数学公式,那么可以采用图像识别模型对目标图像数据进行识别,进而识别出与目标图像数据关联的数学符号轮廓。可选的,可以预先对大量目标图像数据样本进行训练,采用图像识别算法识别出图像中用于表达数学公式的姿态信息,进而训练得到用于识别与目标图像数据关联的数学符号轮廓。
其中,数学符号轮廓可以理解为图像数据中包括的与数学符号类似的用户的姿态所表示的形状或结构,那么可以将该结构或者形状作为与目标图像数据关联的数学符号轮廓。
例如,在一个具体的应用场景中,假设用户在录入数学公式的过程中,对字符因该字符较为生僻,不知道它的发音,那么若用户想要搜索与该字符相关的信息时,可以通过用手比划的方式输入该字符其中,对于输入该字符的方式可以不作限定,例如,可以是用户用手比划,电子设备的摄像头采集用户比划的图像数据,进而对该图像数据中用户的手势或姿态信息进行识别,得到用户想要输入的文本信息。可选的,用户也可以通过专用的绘图板进行绘制等,具体方式可以不作限定。
步骤S150:基于所述数学公式与所述数学符号轮廓获取目标数学公式。
其中,目标数学公式可以理解为输入准确性高的数学公式。作为一种方式,在基于用户的语音数据大致的获取了数学公式,并基于目标图像数据获取了数学符号轮廓之后,可以通过数学符号轮廓对数学公式的内容进行补充,得到语义较为完整的数学公式,即准确性更高的数学公式。
需要说明的是,在实际应用场景中,可以由用户对录入的数学公式的难以程度进行辨别,即由用户选择最终的候选结果作为最终的目标数学公式。其中,候选结果指的是识别出的与语音数据对应的数学公式以及与目标图像数据关联的数学符号轮廓。
示例性的,可以将用户在录入文本信息过程中的语音数据所对应的数学公式作为第一候选公式,可选的,用户的语音数据可以包括多个不同的第一候选公式。可以将与获取到的目标图像数据关联的数学符号轮廓作为第二候选公式,其中,第二数学符号轮廓可以包括多种第二候选公式(也可以理解为多个第二候选轮廓)。
作为一种方式,在用户录入的过程中,可以将待录入的数学公式的难易程度进行分级,例如,可以分为“A级数学公式、B级数学公式以及C级数学公式(其中,假设难易程度设置为A级数学公式>B级数学公式>C级数学公式)”。可选的,若判定待录入的数学公式为“C级数学公式”,那么可以直接将识别出的与语音数据对应的数学公式作为最终的目标数学公式。若判定待录入的数学公式为“B级数学公式”,那么可以将与获取到的目标图像数据关联的数学符号轮廓作为最终的目标数学公式。若判定待录入的数学公式为“A级数学公式”,那么可以通过将与获取到的目标图像数据关联的数学符号轮廓,对识别出的与语音数据对应的数学公式的内容进行补充,进而将得到的数学公式作为最终的目标数学公式。
通过用户选择候选公式得到最终的目标数学公式的方式,可以提升用户使用的便捷性与自主选择体验。其中,对数学公式的难易程度的判断方式有很多,例如,可以是用户自主判断,也可以是由电子设备的预先配置的数学公式编辑模块根据录入数学公式的内容以及复杂度等判断,具体判断方法可以参考现有技术,在此不再赘述。
需要说明的是,本实施例中对数学公式的难易程度的设定方式以及不同等级数学公式之间的难易排列顺序可以不做限制。
本实施例提供的文本信息处理方法,通过获取用户在录入文本信息过程中的语音数据,并识别与语音数据对应的数学公式,继而判断语音数据是否满足预设条件,若满足,则获取目标图像数据,目标图像数据用于对数学公式的内容进行补充,再识别与目标图像数据关联的数学符号轮廓,然后基于数学公式与数学符号轮廓获取目标数学公式。通过上述方式实现了在判断语音数据满足预设条件的情况下,获取目标图像数据,进而识别与目标图像数据关联的数学符号轮廓,从而可以基于数学公式以及数学符号轮廓共同确定目标数学公式,使数学公式的录入更加准确,提升用户体验。
如图3所示,示出了本申请另一实施例提供的文本信息处理方法的方法流程图,所述方法包括:
步骤S210:获取录入文本信息过程中的语音数据,并识别与所述语音数据对应的数学公式。
步骤S220:判断所述语音数据是否满足预设条件。
步骤S230:开启图像识别功能,获取包括用户的姿态信息的图像数据。
作为一种方式,若获取的录入文本信息过程中的语音数据满足预设条件,则可以开启电子设备的图像识别功能,以便于采集包括用户的姿态信息的图像数据。其中,为了提升采集包括用户的姿态信息的图像数据的采集效率,可以在开启图像识别功能之前,弹出提示消息以提醒用户是否准备开启图像识别功能辅助采集录入文本信息的图像数据,若用户触控“是”的选择指令后,可以进一步弹出提示信息提醒用户在准备好后即可点击拍摄按钮控件等,其中,提示信息的提示方式可以不限于弹窗、响铃或是语音播报等提示方式。通过设置(一次或多次提醒)可以提高图像数据的采集效率,避免在用户没有准备好的情况下采集图像数据或者是误采集图像数据带来的功耗问题。
可选的,在用户拍摄完相应的图像数据之后,可以立即触控停止拍摄空间以结束图像采集,可以防止电子设备在误触的情况下继续采集图像数据。可选的,可以对所采集的图像数据进行粗略的识别,将不包括用户的姿态信息的图像数据进行删除,以减小后续识别误差。
步骤S240:将包括用户的姿态信息的图像数据作为所述目标图像数据,所述目标图像数据用于对所述数学公式的内容进行补充。
作为一种方式,可以将包括用户的姿态信息的图像数据作为目标图像数据,以便于可以根据用户的姿态信息较为准确的识别出待录入的数学公式,其中,目标图像数据用于对数学公式的内容进行补充。
步骤S250:获取与所述用户的姿态信息对应的数学公式的结构描述信息,所述结构描述信息包括操作符信息以及操作数信息。
作为一种方式,可以采用图像识别算法对包括了用户的姿态信息的图像数据进行识别,以获得训练样本,将大量训练样本输入机器学习模型进行学习,以得到不同的姿态信息与数学公式的结构描述信息之间的对应关系。
其中,结构描述信息可以包括数学公式对应的操作符信息以及操作数信息,可选的,操作符可以是各种运算符,例如“+、-、×、÷、^、‰”等;操作数,可以包括具体的数字、英文字母、希腊字母等。
步骤S260:获取与所述操作符信息以及操作数信息关联的数学符号轮廓。
可选的,可以通过对数学公式的结构描述信息进行形状和/或轮廓进行识别,从而获取与操作符信息以及操作数信息关联的数学符号轮廓。
步骤S270:基于所述数学公式与所述数学符号轮廓获取目标数学公式。
本实施例提供的文本信息处理方法,实现了在判断语音数据满足预设条件的情况下,开启图像识别功能,获取包括用户的姿态信息的图像数据并将其作为目标图像数据,再获取与用户的姿态信息对应的数学公式的结构描述信息,结构描述信息包括操作符信息以及操作数信息,进而获取与操作符信息以及操作数信息关联的数学符号轮廓,从而可以基于数学公式以及数学符号轮廓共同确定目标数学公式,提升了录入数学公式的准确性与可靠性,提升用户体验。
如图4所示,示出了本申请又一实施例提供的文本信息处理方法的方法流程图,所述方法包括:
步骤S310:获取录入文本信息过程中的语音数据,并识别与所述语音数据对应的数学公式。
步骤S320:判断所述语音数据是否满足预设条件。
步骤S330:检测终端设备的屏幕上是否存在录入的数学公式。
作为一种方式,若获取的录入文本信息过程中的语音数据满足预设条件,可以检测终端设备的屏幕上是否存在录入的数学公式。可选的,用户可以在终端设备的显示屏幕上写入数学公式,那么在这种情况下,可以将用户所写入的数学公式作为检测到的终端设备的屏幕上录入的数学公式。可选的,用户所写入的数学公式可以是用户实时写入的,也可以是历史写入的数学公式,那么在这种情况下,可以调取历史写有数学公式的文档或图像(例如,可以是对历史写的数学公式进行拍摄的图片或者是从网络上获取的包括数学公式的图像),在终端设备的屏幕上进行全屏显示,那么终端设备可以将对应的数学公式识别为录入的数学公式。
步骤S340:将包括有录入的数学公式的图像作为目标图像数据,所述目标图像数据用于对所述数学公式的内容进行补充。
可以理解的是,若检测到终端设备的屏幕上存在录入的数学公式,那么可以将包括有录入的数学公式的图像作为目标图像数据。其中,目标图像数据用于对数学公式的内容进行补充。
步骤S350:识别与所述目标图像数据关联的数学符号轮廓。
步骤S360:基于所述数学公式与所述数学符号轮廓获取目标数学公式。
本实施例提供的文本信息处理方法,实现了在判断语音数据满足预设条件的情况下,将检测到的终端设备的屏幕上包括有录入的数学公式的图像作为目标图像数据,进而识别与目标图像数据关联的数学符号轮廓,从而可以基于数学公式以及数学符号轮廓共同确定目标数学公式,使数学公式的录入更加准确,提升用户体验。
如图5所示,示出了本申请再一实施例提供的文本信息处理方法的方法流程图,所述方法包括:
步骤S410:获取录入文本信息过程中的语音数据,并识别与所述语音数据对应的数学公式。
步骤S420:判断所述语音数据是否满足预设条件。
步骤S430:获取用户在指定设备端绘制的包括数学符号形状的图像数据作为目标图像数据,所述目标图像数据用于对所述数学公式的内容进行补充。
作为一种方式,若获取的录入文本信息过程中的语音数据满足预设条件,可以获取用户在指定设备端绘制的包括数学符号形状的图像数据,并将该图像数据作为目标图像数据。其中,指定设备端可以包括专门的绘图板等。
可选的,若用户上传的某一图片包括数学符号形状,那么可以将该图片作为目标图像数据。目标图像数据用于对数学公式的内容进行补充。
步骤S440:识别与所述目标图像数据关联的数学符号轮廓。
步骤S450:基于所述数学公式与所述数学符号轮廓获取目标数学公式。
本实施例提供的文本信息处理方法,实现了在判断语音数据满足预设条件的情况下,将获取到的用户在指定设备端绘制的包括数学符号形状的图像数据作为目标图像数据,进而识别与目标图像数据关联的数学符号轮廓,从而可以基于数学公式以及数学符号轮廓共同确定目标数学公式,使数学公式的录入更加准确,提升用户体验。
如图6所示,示出了本申请再一实施例提供的文本信息处理方法的方法流程图,所述方法包括:
步骤S510:获取录入文本信息过程中的语音数据,并识别与所述语音数据对应的数学公式。
步骤S520:判断与所述语音数据对应的数学公式的难易等级是否不大于预设等级。
可选的,对于预设等级的设定方式、与语音数据对应的数学公式的难易等级的设定方式以及判断方式可以参考前述实施例中的描述,在此不再赘述。通过判断与语音数据对应的数学公式的难易等级是否不大于(即小于等于)预设等级,可以避免对一些简单的数学公式在进行输入的过程中,对其进行图像数据采集,从而可以降低功耗。
步骤S530:将所述数学公式作为目标数学公式。
作为一种实施方式,若与语音数据对应的数学公式的难易等级小于等于预设等级,可以认为该数学公式的难度较小,那么可以直接将与语音数据对应的数学公式作为目标数学公式。
作为另一种实施方式,若与语音数据对应的数学公式的难易等级大于预设等级,认为该数学公式的难度可能相对较大,那么可以执行下述判断语音数据是否满足预设条件的步骤。
步骤S540:判断所述语音数据是否满足预设条件。
步骤S550:获取目标图像数据,所述目标图像数据用于对所述数学公式的内容进行补充。
步骤S560:识别与所述目标图像数据关联的数学符号轮廓。
步骤S570:基于所述数学公式与所述数学符号轮廓获取目标数学公式。
本实施例提供的文本信息处理方法,实现了在判断与语音数据对应的数学公式的难易等级大于预设等级的情况下,获取目标图像数据,进而识别与目标图像数据关联的数学符号轮廓,从而可以基于数学公式以及数学符号轮廓共同确定目标数学公式,使数学公式的录入更加准确,提升用户体验。
如图7所示,示出了本申请实施例提供的文本信息处理装置600的结构框图,所述装置600运行于具有显示屏或其他音频或图像输出装置的终端设备,终端设备可以是智能手机、平板电脑、穿戴式智能终端等电子设备,所述装置600包括:
第一获取模块610,用于获取用户在录入文本信息过程中的语音数据,并识别与所述语音数据对应的数学公式。
判断模块620,用于判断所述语音数据是否满足预设条件。
其中,本申请实施例中的预设条件可以包括所述语音数据从录入开始至录入结束的时间段内存在大于预设阈值的时间间隔。
可选的,所述装置600还可以包括:难易等级判断单元,用于在判断所述语音数据是否满足预设条件之前,判断与所述语音数据对应的数学公式的难易等级是否不大于预设等级。作为一种方式,若是,可以将所述数学公式作为目标数学公式;作为另一种方式,若否,可以执行所述判断所述语音数据是否满足预设条件。
第二获取模块630,用于若满足,则获取目标图像数据,所述目标图像数据用于对所述数学公式的内容进行补充。
作为一种方式,第二获取模块630,具体可以用于若满足,则开启图像识别功能,获取包括用户的姿态信息的图像数据;将包括用户的姿态信息的图像数据作为所述目标图像数据。其中,所述识别与所述目标图像数据关联的数学符号轮廓具体可以包括:获取与所述用户的姿态信息对应的数学公式的结构描述信息,所述结构描述信息包括操作符信息以及操作数信息;获取与所述操作符信息以及操作数信息关联的数学符号轮廓。
作为另一种方式,第二获取模块630,具体可以用于若满足,检测终端设备的屏幕上是否存在录入的数学公式;若有,将包括有录入的数学公式的图像作为目标图像数据。
作为又一种方式,第二获取模块630,具体可以用于若满足,获取用户在指定设备端绘制的包括数学符号形状的图像数据作为目标图像数据。
识别模块640,用于识别与所述目标图像数据关联的数学符号轮廓。
第三获取模块650,用于基于所述数学公式与所述数学符号轮廓获取目标数学公式。
本实施例提供的文本信息处理装置,通过获取用户在录入文本信息过程中的语音数据,并识别与语音数据对应的数学公式,继而判断语音数据是否满足预设条件,若满足,则获取目标图像数据,目标图像数据用于对数学公式的内容进行补充,再识别与目标图像数据关联的数学符号轮廓,然后基于数学公式与数学符号轮廓获取目标数学公式。通过上述方式实现了在判断语音数据满足预设条件的情况下,获取目标图像数据,进而识别与目标图像数据关联的数学符号轮廓,从而可以基于数学公式以及数学符号轮廓共同确定目标数学公式,使数学公式的录入更加准确,提升用户体验。
本申请实施例提供的文本信息处理装置用于实现前述方法实施例中相应的文本信息处理方法,并具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的技术人员可以清楚地了解到,本申请实施例提供的文本信息处理装置能够实现前述方法实施例中的各个过程,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参阅前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
请参阅图8,其示出了本申请实施例提供的一种终端设备101的结构框图。该终端设备101可以是智能手机、平板电脑、电子书等能够运行应用程序的终端设备。本申请中的终端设备101可以包括一个或多个如下部件:处理器1012、存储器1014以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器1014中并被配置为由一个或多个处理器1012执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
处理器1012可以包括一个或者多个处理核。处理器1012利用各种接口和线路连接整个终端设备101内的各个部分,通过运行或执行存储在存储器1014内的指令、程序、代码集或指令集,以及调用存储在存储器1014内的数据,执行终端设备101的各种功能和处理数据。可选地,处理器1012可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器1012可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1012中,单独通过一块通信芯片进行实现。
存储器1014可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器1014可用于存储指令、程序、代码、代码集或指令集。存储器1014可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备101在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
请参阅图9,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质700中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质700可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质700包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质700具有执行上述方法中的任何方法步骤的程序代码710的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码710可以例如以适当形式进行压缩。
综上所述,本申请实施例提供的文本信息处理方法、装置、终端设备及存储介质,通过获取用户在录入文本信息过程中的语音数据,并识别与语音数据对应的数学公式,继而判断语音数据是否满足预设条件,若满足,则获取目标图像数据,目标图像数据用于对数学公式的内容进行补充,再识别与目标图像数据关联的数学符号轮廓,然后基于数学公式与数学符号轮廓获取目标数学公式。通过上述方式实现了在判断语音数据满足预设条件的情况下,获取目标图像数据,进而识别与目标图像数据关联的数学符号轮廓,从而可以基于数学公式以及数学符号轮廓共同确定目标数学公式,使数学公式的录入更加准确,提升用户体验。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种文本信息处理方法,其特征在于,所述方法包括:
获取录入文本信息过程中的语音数据,并识别与所述语音数据对应的数学公式;
判断所述语音数据是否满足预设条件;
若满足,则获取目标图像数据,所述目标图像数据用于对所述数学公式的内容进行补充;
识别与所述目标图像数据关联的数学符号轮廓;
基于所述数学公式与所述数学符号轮廓获取目标数学公式。
2.根据权利要求1所述的方法,其特征在于,所述若满足,则获取目标图像数据的步骤包括:
若满足,则开启图像识别功能,获取包括用户的姿态信息的图像数据;
将包括用户的姿态信息的图像数据作为所述目标图像数据。
3.根据权利要求2所述的方法,其特征在于,所述识别与所述目标图像数据关联的数学符号轮廓的步骤包括:
获取与所述用户的姿态信息对应的数学公式的结构描述信息,所述结构描述信息包括操作符信息以及操作数信息;
获取与所述操作符信息以及操作数信息关联的数学符号轮廓。
4.根据权利要求1所述的方法,其特征在于,所述若满足,则获取目标图像数据的步骤包括:
若满足,检测终端设备的屏幕上是否存在录入的数学公式;
若有,将包括有录入的数学公式的图像作为目标图像数据。
5.根据权利要求1所述的方法,其特征在于,所述若满足,则获取目标图像数据的步骤包括:
若满足,获取用户在指定设备端绘制的包括数学符号形状的图像数据作为目标图像数据。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述预设条件包括:所述语音数据从录入开始至录入结束的时间段内存在大于预设阈值的时间间隔。
7.根据权利要求1所述的方法,其特征在于,所述判断所述语音数据是否满足预设条件的步骤之前,还包括:
判断与所述语音数据对应的数学公式的难易等级是否不大于预设等级;
若是,将所述数学公式作为目标数学公式;
若否,执行所述判断所述语音数据是否满足预设条件。
8.一种文本信息处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取用户在录入文本信息过程中的语音数据,并识别与所述语音数据对应的数学公式;
判断模块,用于判断所述语音数据是否满足预设条件;
第二获取模块,用于若满足,则获取目标图像数据,所述目标图像数据用于对所述数学公式的内容进行补充;
识别模块,用于识别与所述目标图像数据关联的数学符号轮廓;
第三获取模块,用于基于所述数学公式与所述数学符号轮廓获取目标数学公式。
9.一种终端设备,其特征在于,包括:
存储器;
一个或多个处理器,与所述存储器耦接;
一个或多个程序,其中,所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1-7任一项所述的方法。
10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911228527.9A CN111079593A (zh) | 2019-12-04 | 2019-12-04 | 文本信息处理方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911228527.9A CN111079593A (zh) | 2019-12-04 | 2019-12-04 | 文本信息处理方法、装置、终端设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111079593A true CN111079593A (zh) | 2020-04-28 |
Family
ID=70312765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911228527.9A Pending CN111079593A (zh) | 2019-12-04 | 2019-12-04 | 文本信息处理方法、装置、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079593A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810493A (zh) * | 2012-11-06 | 2014-05-21 | 夏普株式会社 | 识别数学公式的方法和设备 |
WO2017031716A1 (zh) * | 2015-08-26 | 2017-03-02 | 北京云江科技有限公司 | 自然场景图像中手写体数学公式结构分析与识别方法 |
CN107169485A (zh) * | 2017-03-28 | 2017-09-15 | 北京捷通华声科技股份有限公司 | 一种数学公式识别方法和装置 |
CN109543026A (zh) * | 2018-12-12 | 2019-03-29 | 广东小天才科技有限公司 | 一种数学公式的解析内容获取方法及家教设备 |
-
2019
- 2019-12-04 CN CN201911228527.9A patent/CN111079593A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810493A (zh) * | 2012-11-06 | 2014-05-21 | 夏普株式会社 | 识别数学公式的方法和设备 |
WO2017031716A1 (zh) * | 2015-08-26 | 2017-03-02 | 北京云江科技有限公司 | 自然场景图像中手写体数学公式结构分析与识别方法 |
CN107169485A (zh) * | 2017-03-28 | 2017-09-15 | 北京捷通华声科技股份有限公司 | 一种数学公式识别方法和装置 |
CN109543026A (zh) * | 2018-12-12 | 2019-03-29 | 广东小天才科技有限公司 | 一种数学公式的解析内容获取方法及家教设备 |
Non-Patent Citations (2)
Title |
---|
冯梅: "《电脑入门操作指南》", 31 January 2008 * |
李绍明等: "《作物品种选育、测试与推广信息技术》", 30 November 2015 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108491433B (zh) | 聊天应答方法、电子装置及存储介质 | |
US20180336889A1 (en) | Method and Apparatus of Building Acoustic Feature Extracting Model, and Acoustic Feature Extracting Method and Apparatus | |
CN110517685B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN110534109B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN109634436B (zh) | 输入法的联想方法、装置、设备及可读存储介质 | |
CN112699686B (zh) | 基于任务型对话系统的语义理解方法、装置、设备及介质 | |
CN110765294B (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
WO2021254251A1 (zh) | 输入显示方法、装置及电子设备 | |
CN111312233A (zh) | 一种语音数据的识别方法、装置及系统 | |
CN110955818A (zh) | 搜索方法、装置、终端设备及存储介质 | |
CN115357704A (zh) | 语音互动小说中异构剧情节点的处理方法及相关装置 | |
JP2013206141A (ja) | 文字入力装置、文字入力方法、及び文字入力プログラム | |
CN110956958A (zh) | 搜索方法、装置、终端设备及存储介质 | |
CN114330359A (zh) | 语义识别方法、装置及电子设备 | |
CN111144125B (zh) | 文本信息处理方法、装置、终端设备及存储介质 | |
CN113869063A (zh) | 数据推荐方法、装置、电子设备及存储介质 | |
CN113220854A (zh) | 机器阅读理解的智能对话方法及装置 | |
CN111079593A (zh) | 文本信息处理方法、装置、终端设备及存储介质 | |
CN111625636B (zh) | 一种人机对话的拒绝识别方法、装置、设备、介质 | |
CN112346578A (zh) | 输入方法及装置 | |
CN112417095A (zh) | 语音消息处理方法和装置 | |
CN110956034B (zh) | 词语的获取方法及装置、商品搜索方法 | |
CN109426359B (zh) | 一种输入方法、装置以及机器可读介质 | |
CN111966267A (zh) | 应用评论方法、装置和电子设备 | |
CN111222334A (zh) | 命名实体识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200428 |
|
RJ01 | Rejection of invention patent application after publication |