CN112309180A - 文本处理方法、装置、设备及介质 - Google Patents

文本处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN112309180A
CN112309180A CN201910816906.3A CN201910816906A CN112309180A CN 112309180 A CN112309180 A CN 112309180A CN 201910816906 A CN201910816906 A CN 201910816906A CN 112309180 A CN112309180 A CN 112309180A
Authority
CN
China
Prior art keywords
text
processed
image
dictation
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910816906.3A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN201910816906.3A priority Critical patent/CN112309180A/zh
Priority to US17/639,308 priority patent/US20220319347A1/en
Priority to PCT/CN2020/109213 priority patent/WO2021036823A1/zh
Publication of CN112309180A publication Critical patent/CN112309180A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1456Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on user interactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/018Input/output arrangements for oriental characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/065Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • G09B7/02Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Entrepreneurship & Innovation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开实施例公开了一种文本处理方法、装置、设备及介质。所述方法包括:采集待处理文本图像,并对所述待处理文本图像进行手势识别,以得到待处理文本;所述待处理文本为所述待处理文本图像中通过手势选定的文本;通过语音播报方式,对所述待处理文本进行播报,以提示对所述待处理文本进行听写处理;采集听写文本图像,对所述听写文本图像进行识别,并根据识别结果和所述待处理文本确定听写检查结果。采用本实施例的方案,既可以保证播报的待处理文本是标准普通话,不会错误引导用户的听写操作,又不会占用家长的时间。同时,在听写完成后还可以依据采集的用户听写文本图像对学生的听写操作进行自动听写检查,这样可以及时向学生反馈听写结果。

Description

文本处理方法、装置、设备及介质
技术领域
本公开实施例涉及计算机技术领域,尤其涉及一种文本处理方法、装置、设备及介质。
背景技术
为了提高学生的认字能力,通常采用听写方式来帮助学生来巩固学习到的生字词语,例如,学生可以根据老师或家长报读的生字词语进行书写。
然而,家长的普通话不标准等因素,会导致报读时出现报读错误,从而错误引导学生。同时,听写这一操作需要家长配合才能顺利完成,而大部分家长没有这么多时间来配合。此外,传统的听写方式无法对学生的听写结果进行检查,导致学生无法及时的纠正问题。
发明内容
本公开实施例中提供一种文本处理方法、装置、设备及介质,以实现帮助学生进行听写操作,以及对学生的听写结果进行及时检查。
第一方面,本公开实施例中提供了一种文本处理方法,包括:
采集待处理文本图像,并对所述待处理文本图像进行手势识别,以得到待处理文本;所述待处理文本为所述待处理文本图像中通过手势选定的文本;
通过语音播报方式,对所述待处理文本进行播报,以提示对所述待处理文本进行听写处理;
采集听写文本图像,对所述听写文本图像进行识别,并根据识别结果和所述待处理文本确定听写检查结果。
第二方面,本公开实施例中还提供了一种文本处理装置,包括:
文本确定模块,用于采集待处理文本图像,并对所述待处理文本图像进行手势识别,以得到待处理文本;所述待处理文本为所述待处理文本图像中通过手势选定的文本;
文本播报模块,用于通过语音播报方式,对所述待处理文本进行播报,以提示对所述待处理文本进行听写处理;
文本检查模块,用于采集听写文本图像,对所述听写文本图像进行识别,并根据识别结果和所述待处理文本确定听写检查结果。
第三方面,本公开实施例中还提供了一种电子设备,包括:
一个或多个处理装置;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理装置执行,使得所述一个或多个处理装置实现如本公开任意实施例中所提供的文本处理方法。
第四方面,本公开实施例中还提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现如本公开任意实施例中所提供的文本处理方法。
本公开实施例中提供了一种文本处理方案,当需要听写生字词时,电子设备则可以采集用户通过手势选定待处理文本时的待处理文本图像,并自动从待处理文本图像中识别到学生自主选定的需要听写的文本,同时可以通过语音播报方式播报用户选定的待处理文本,来供用户进行听写操作,这样的方式既可以保证听写时能够按照标准普通话对需要听写的待处理文本进行听写,不会错误引导用户的听写操作,而且又不会占用家长的时间。此外,在听写完成后还可以依据采集的用户听写文本图像对学生的听写操作进行自动听写检查,这样可以及时向学生反馈听写结果。
上述公开内容仅是本公开技术方案的概述,为了能够更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂,以下特举本公开的具体实施方式。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:
图1示出了本公开实施例中提供的一种文本处理方法的流程图;
图2示出了本公开实施例中提供的另一种文本处理方法的流程图;
图3示出了本公开实施例中提供的一种文本处理装置的结构框图;
图4示出了本公开实施例中提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本公开使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
图1示出了本公开实施例中提供的一种文本处理方法的流程图,本公开实施例可适用于辅助学生对生字词进行自动听写与自动检查的情况。该方法可以由文本处理装置来执行,该装置可以采用软件和/或硬件的方式实现,该装置可以配置于具有网络通信功能的电子设备中。其中,电子设备可以为手机、平板以及各种学习机设备。如图1所示,本公开实施例中提供的文本处理方法包括以下步骤:
S110、采集待处理文本图像,并通过对待处理文本图像进行手势识别,以确定待处理文本;待处理文本为待处理文本图像中通过手势选定的文本。
在本实施例中,不同用户对同一生字词的掌握度有所差异,不同的用户需要采用不同的或有所差异的生字词进行听写。在一个可选示例中,当用户需要进行生字词听写时,根据自身需求通过手势自主选择需要听写的生字词或者根据历史记录选择历史上错误听写的生字词,即通过手势选定待处理文本。在另外一个可选示例中,由老师或者家长根据学生以往的听写情况,通过手势选定一系列的待处理文本。
在本实施例中,待处理文本图像是指学生、老师或者家长通过手势选定待处理文本过程中的文本选择图像。在通过手势选择待处理文本时,采集选择待处理文本时的实时图像,即可得到待处理文本图像。此时,待处理文本图像中包含有通过手势选定的待处理文本。在一个可选示例中,电子设备可以内置或者外接图像采集器,当通过手势选择待处理文本时,能够采用预先设置的图像采集器,来采集用户通过手势选择待处理文本时的实时图像,并将采集的实时图像作为待处理文本图像。可选地,当通过手势选择待处理文本时,电子设备中内置或者外接图像采集器的采集方向覆盖用户的手指所在的预设区域。进一步可选地,电子设备中内置或者外接图像采集器会自动跟踪用户的手指来自动转动,用以调整图像采集方向。
在本实施例中,从上述的图像采集过程,不难看出,待处理文本图像中包含有自主选择待处理文本时的文本选择信息。例如,文本选择信息可以是指通过手势选定需要听写的待处理文本或者手势圈定需要听写的待处理文本时的选择信息。因此,当采集到待处理文本图像后,电子设备对采集到的待处理文本图像进行手势识别,识别得到选择待处理文本时的手势。进而,能够根据识别得到的选择待处理文本时的手势,来得到需要听写的待处理文本,即确定通过手势选择了哪些生字词作为待处理文本来进行后续的听写操作。
S120、通过语音播报方式,对待处理文本进行播报,以提示用户对待处理文本进行听写处理。
在本实施例中,当从待处理文本图像中识别得到待处理文本后,电子设备能够将得到待处理文本向用户进行语音播报。这样,用户能够根据语音播报的待处理文本进行听写操作。在一个可选示例中,在识别得到待处理文本后,电子设备能够按照随机或预设的排序方式对得到的一个或多个待处理文本进行排序处理,并通过语音播报方式,向用户顺序播报排序处理后的待处理文本。
在本实施例中,在一个可选示例中,通过语音播报方式对待处理文本进行播报的具体过程为:电子设备能够将识别得到的待处理文本导入到预先设置的文本转语音TTS引擎,并通过文本转语音TTS引擎将待处理文本转换为待处理文本对应的音频文件。进而,电子设备能够播放该转换得到的待处理文本对应的音频文件,实现通过语音播报方式向用户报读待处理文本。
S130、采集听写文本图像,对采集的听写文本图像进行识别,并根据识别结果和待处理文本确定听写检查结果。
在本实施例中,在向用户语音报读待处理文本的过程中,用户能够根据报读的待处理文本进行听写操作。示例性地,用户根据电子设备语音报读的待处理文本在笔记本或者其他书写介质上进行书写文本字符。当用户完成针对语音报读的待处理文本的听写操作后,能够向播报待处理文本的电子设备发送听写检查指令,电子设备可以响应该听写检查指令采集用户包含有用户书写的待处理文本的实时图像,即采集到听写文本图像。示例性地,用户能够向电子设备发送“我要检查”的语音指令,且将手写的听写内容放在图像采集器的采集范围之内,此时,电子设备响应于用户发送的语音指令进行图像采集,以采集到听写文本图像。
在本实施例中,听写文本图像中包含有用户根据语音播报的待处理文本进行默写的手写内容。在一个可选示例中,当电子设备采集到用户的听写文本图像后,能够对听写文本图像进行文字识别处理,识别得到用户的手写的文本内容。进而,电子设备能够根据识别到的手写的文本内容与语音播报的待处理文本进行文本比对,自动对用户听写内容进行检查,以确定用户的听写检查结果。
本公开实施例中提供了一种文本处理方案,当需要听写生字词时,电子设备则可以采集用户通过手势选定待处理文本时的待处理文本图像,并自动从待处理文本图像中识别到学生自主选定的需要听写的文本,同时可以通过语音播报方式播报用户选定的待处理文本,来供用户进行听写操作,这样的方式既可以保证听写时能够按照标准普通话对需要听写的待处理文本进行听写,不会错误引导用户的听写操作,而且又不会占用家长的时间。此外,在听写完成后还可以依据采集的用户听写文本图像对学生的听写操作进行自动听写检查,这样可以及时向学生反馈听写结果。
图2示出了本公开实施例中提供的另一种文本处理方法的流程图,本公开实施例在上述实施例的基础上进行进一步优化,本公开实施例可以与上述一个或者多个实施例中各个可选方案结合。如图2所示,本公开实施例中提供的文本处理方法包括以下步骤:
S210、根据待处理文本的录入类型,采集待处理文本图像,并通过对待处理文本图像进行手势识别处理,确定通过手势选定的待处理文本。
在本实施例中,在一个可选示例中,当用户在自主选择录入的待处理文本时,用户能够采用逐字逐词录入的方式来选择确定待处理文本;在另一可选示例中,用户也能采用整段录入的方式来选择确定待处理文本。示例性地,若用户只需要选择录入一张卷子中的多个字词作为待处理文本进行听写,则能采用逐字逐词录入的方式选择这几个字词;若用户需要选择录入比较多的多个段落中的大量字词作为待处理文本进行听写,则能采用整段录入的方式选择这几个段落的字词进行录入。为此,需要先确定待处理文本的录入类型,以便根据待处理文本的录入类型所匹配的方式来选择对待处理文本进行录入。
在本实施例中,可选地,待处理文本的录入类型由用户触碰电子设备上的类型选择控件来选择;比如,用户触摸电子设备上的“字词”录入控件和“段落”录入控件来触发实现对待处理文本的录入类型的选择。另一可选地,用户还能通过语音控制的方式来选择待处理文本的录入类型;比如,用户向电子设备发送“我要录入字词”等类似的语音指令或发送“我要录入段落”等类似的语音指令来触发实现对待处理文本的录入类型的选择。可选地,待处理文本的录入类型的确定操作仅在第一次录入时确定,在中间录入过程中一直持续使用,最后在录入完成时撤销恢复。
在本实施例的一种可选方式中,根据待处理文本的录入类型,采集待处理文本图像,并通过对待处理文本图像进行手势识别,确定过手势选定的待处理文本,具体包括以下步骤A1~步骤A2:
步骤A1、若待处理文本的录入类型是逐字录入,则采集用户指尖点处的文本图像,作为待处理文本图像。
在本实施方式中,如果确定待处理文本的录入类型为逐字录入,则表明用户想要采用逐字录入的方式选定需要听写的待处理文本,此时提示用户通过指尖来指定需要将哪些字词作为待处理文本进行录入。相应地,电子设备可以采集用户手指尖位置处的实时图像作为待处理文本图像,可见,待处理文本图像中的用户手指尖位置处的字词即可作为待处理文本来进行录入。
在一个可选示例中,当确定处理文本的录入类型是逐字录入后,电子设备可以启动预设的图像采集器,采集用户手指尖点处的实时图像,作为待处理文本图像。示例性地,当用户向电子设备发送“我要录入字词”的指令后,电子设备可以启动图像采集功能,如果在图像采集范围内出现手指且手指尖指向了文本,则通过图像采集器对指尖点附近区域进行拍照,以便后续能够录入手指尖位置处的文本。
步骤A2、将待处理文本图像中用户指尖点上方的文本作为待处理文本。
在本实施方式中,待处理文本图像中既包含有用户的手指尖,同时又包含有用户选择的需要听写的生字词。此时,电子设备能够对待处理文本图像进行手势识别,识别待处理文本图像中用户指尖,并将用户指尖的预设位置处的文本作为待处理文本。在一个可选示例中,将手指尖上方的文字或文本作为需要录入的待处理文本,即用户指尖指向需要听写的生字词下方,电子设备在识别到待处理文本图像中用户指尖后,并将识别到的用户指尖上方的文本作为待处理文本来进行录入。
在本实施方式中,在确定待处理文本图像中用户指尖点上方的文本后,可以判断用户指尖点上方的文本是否为预设语言文本。若是预设语言文本,则将用户指尖点上方的文本进行OCR识别,得到对应的文本字符,进而将进行OCR识别后的用户指尖上方的文本作为待处理文本进行录入。此外,用户能够继续采用上述同样的操作继续选择需要听写的其他生字词,而电子设备也会采用与上述相同的录入方式继续识别用户选择的待处理文本来进行录入。
采用上述可选方式,能够实现用户根据自己的需求选择合适字词进行作为待处理文字进行录入,这样能够保证录入的待处理文本均是用户自身需要听写巩固的文本内容,而不是任意的文本内容,保证用户有目的的进行听写巩固。
在本实施例的另一种可选方式中,根据待处理文本的录入类型,采集待处理文本图像,并通过对待处理文本图像进行手势识别,确定通过手势选定的待处理文本,具体包括以下步骤B1~步骤B2:
步骤B1、若待处理文本的录入类型是整体录入,则启动图像采集器以采集通过手势选定文本时图像。
在本实施方式中,如果确定待处理文本的录入类型为整体录入,则表明用户想要采用整段录入的方式选定需要听写的待处理文本,此时提示用户通过手指画圈来选择需要将哪些段落里的字词作为待处理文本进行录入。电子设备启动图像采集器,采集多帧手指划定整个段落或者段落区域中文字的整体范围的实时图像。示例性地,当用户向电子设备发送“我要录入整体段落”的语音指令后,电子设备响应语音指令启动图像采集器来采集用户通过手势划定整个段落或者段落区域中文字的整体范围时的多帧图像或者视频。
步骤B2、若检测到图像采集器采集的图像中包括用户画圈手势,则确定用户手指的画圈轨迹,并将画圈轨迹所圈选的文本作为待处理文本。
在本实施方式中,用户通过手势划定整个段落或者段落区域中文字的整体范围时采用画圈的方式进行圈定。此时,通过分析图像采集器采集的多帧图像或视频即可识别用户的画圈手势,进而确定用户手指的画圈轨迹。电子设备可以将用户手指的画圈轨迹所圈选的文本作为待处理文本。
在一个可选示例中,电子设备能够对图像采集器采集的多帧图像进行手势识别,识别到多帧图像中包含的用户手指尖,并确定各帧图像中识别到的用户手指尖的位置,进而计算出用户手指尖的画圈轨迹。示例性地,电子设备调用图像采集器,以每秒5帧的采集频率,连续采集用户通过手势画圈时的多帧实时图像,并确定每帧图像中用户指尖所点的位置,最后计算出用户手指尖的画圈轨迹,那么在画圈轨迹范围内的文本,被认为是待处理文本。
在本实施方式中,可选地,在确定画圈轨迹所圈选的文本后,电子设备会判断画圈轨迹所圈选的文本是否为预设语言文本。若是预设语言文本,则将画圈轨迹所圈选的文本进行OCR识别,得到对应的文本字符,进而将进行OCR识别后的画圈轨迹所圈选的文本作为待处理文本进行录入。
在一个可选示例中,在对画圈轨迹所圈选的文本进行OCR识别后,还需要根据画圈轨迹所圈选的文本中的空格、标点等进行分词处理,并将分词处理后的文本字符作为待处理文本进行录入。可选地,在分词处理后,根据预设的常见字词库将分词处理后的文本字符中常见字词进项筛选剔除;比如,将类似“的”、“和”、“他”等常见的预设的常见字词进行剔除。此外,用户能够继续采用上述同样的操作继续选择需要听写的其他生字词,而电子设备也会采用与上述相同的录入方式继续识别用户选择的待处理文本来进行录入。
采用上述可选方式,可以实现用户能够根据自身需求选择整体段落的文本作为待处理文本,尤其是对于存在大部分生字词的整体段落,这样可以简化用户的录入繁杂度,保证用户可以快速的录入待处理文本。同时,能够保证录入的待处理文本均是用户自身需要听写巩固的文本内容,而不是任意的文本内容,保证用户有目的的进行听写巩固。
S220、通过语音播报方式,对待处理文本进行播报,以提示用户对待处理文本进行听写处理。
S230、采集听写文本图像,对采集的用户听写文本图像进行识别。
在本实施例中,可选地,在采集到用户的听写文本图像后,将听写文本图像输入到预设的光学字符识别OCR模型,并通过OCR模型输出听写文本图像中包含的用户听写时手写的书写字符。可选地,能够提前采用大量的包含有书写字符的听写文本图像作为训练样本数据,并基于神经网络CNN模型进行模型训练,以得到预设的光学字符识别OCR模型。
S240、若识别到用户听写文本图像中书写字符属于预设语言文本,则确定书写字符是否包含在待处理文本中。
在本实施例中,在对听写文本图像识别得到用户听写时的书写字符后,可以判断识别得到的书写字符是否为预设的语言文本。可选地,若识别到书写字符属于预设语言文本,则按照书写次序与播报次序将每一个书写字符在待处理文本中查询匹配。可选地,若在待处理文本中能查询匹配到,则确定书写字符是包含在待处理文本中;若在待处理文本中未能查询匹配到,则确定用户的书写字符未包含在待处理文本中。
S250、若包含在待处理文本中,则确定书写字符听写正确。
在本实施方式中,若确定识别到的书写字符包含在待处理文本中,则标记用户针对该书写字符书写正确;若确定识别到的书写字符未包含在待处理文本中,则标记用户针对该书写字符书写错误。
在本实施例的基础上,可选地,在根据识别结果和待处理文本确定听写检查结果之后,还包括:将听写文本图像中听写错误的书写字符的截图展示在屏幕上,以提示用户进行强化练习。示例性地,电子设备能够将标记为错的书写字符的截图显示在屏幕上。此外,电子设备还能根据书写字符书写正确的个数来计算用户的听写正确率。其中,正确率计算方法为:标记为正确的书写字符的个数与待处理文本中包含的总录入的字词个数之间的比值。
本公开实施例中提供了一种文本处理方案,当需要听写生字词时,电子设备则可以根据待听写待处理文本的录入类型,采集学生选定待处理文本时的待处理文本图像,并自动从待处理文本图像中识别到学生自主选定的待处理文本,同时可以通过语音播报方式播报学生选定的待处理文本,这样既可以保证播报的待处理文本是标准的普通话,又不会占用家长的时间。此外,在听写完成后还可以依据采集的用户听写文本图像对学生的听写操作进行自动听写检查,这样可以及时向学生反馈听写结果。
图3示出了本公开实施例中提供的一种文本处理装置的结构框图,本公开实施例可适用于辅助学生对生字词进行自动听写与自动检查的情况。该装置可以采用软件和/或硬件的方式实现,该装置可以配置于具有网络通信功能的电子设备中。如图3所示,本公开实施例中提供的文本处理装置包括:文本确定模块310、文本播报模块320和文本检查模块330。其中:
文本确定模块310,用于采集待处理文本图像,并对所述待处理文本图像进行手势识别,以得到待处理文本;所述待处理文本为所述待处理文本图像中通过手势选定的文本;
文本播报模块320,用于通过语音播报方式,对所述待处理文本进行播报,以提示对所述待处理文本进行听写处理;
文本检查模块330,用于采集听写文本图像,对所述听写文本图像进行识别,并根据识别结果和所述待处理文本确定听写检查结果。
在上述实施例的基础上,可选地,文本确定模块310用于:
根据待处理文本的录入类型,采集待处理文本图像,并通过对所述待处理文本图像进行手势识别处理,确定通过手势选定的待处理文本。
在上述实施例的基础上,可选地,文本确定模块310包括:
第一文本图像采集单元,用于若所述待处理文本的录入类型是逐字录入,则采集用户指尖点处的文本图像,作为所述待处理文本图像;
第一文本内容确定单元,用于将所述待处理文本图像中用户指尖点上方的文本作为所述待处理文本。
在上述实施例的基础上,可选地,文本确定模块310包括:
第二文本图像采集单元,用于若所述待处理文本的录入类型是整体录入,则启动图像采集器以采集图像;
第二文本内容确定单元,用于若检测到图像采集器采集的图像中包括用户画圈手势,则确定用户手指的画圈轨迹,并将画圈轨迹所圈选的文本作为所述待处理文本。
在上述实施例的基础上,可选地,文本检查模块330包括:
若识别到用户听写文本图像中书写字符属于预设语言文本,则确定所述书写字符是否包含在所述待处理文本中;
若包含在所述待处理文本中,则确定所述书写字符听写正确。
在上述实施例的基础上,可选地,所述装置还包括:
检查结果反馈模块340,用于检查结果反馈模块,用于将所述听写文本图像中听写错误的书写字符的截图展示在屏幕上,以提示用户进行强化练习。
本公开实施例中所提供的文本处理装置可执行上述本公开任意实施例中所提供的文本处理方法,具备执行该文本处理方法相应的功能和有益效果,未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例中所提供的文本处理方法。
图4示出了本公开实施例中提供的一种电子设备的结构示意图。下面具体参考图4,其示出了适于用来实现本公开实施例中的电子设备400的结构示意图。本公开实施例中的电子设备400可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图4所示,电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置406加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
通常,以下装置可以连接至I/O接口405:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘等的存储装置406;以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置406被安装,或者从ROM 402被安装。在该计算机程序被处理装置401执行时,执行本公开实施例的文本处理方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:采集待处理文本图像,并对所述待处理文本图像进行手势识别,以得到待处理文本;所述待处理文本为所述待处理文本图像中通过手势选定的文本;通过语音播报方式,对所述待处理文本进行播报,以提示对所述待处理文本进行听写处理;采集听写文本图像,对所述听写文本图像进行识别,并根据识别结果和所述待处理文本确定听写检查结果。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,文本播报模块还可以被描述为“通过语音播报方式,对所述待处理文本进行播报,以提示对所述待处理文本进行听写处理的模块”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,示例1提供了一种文本处理方法,所述方法包括:
采集待处理文本图像,并对所述待处理文本图像进行手势识别,以得到待处理文本;所述待处理文本为所述待处理文本图像中通过手势选定的文本;
通过语音播报方式,对所述待处理文本进行播报,以提示对所述待处理文本进行听写处理;
采集听写文本图像,对所述听写文本图像进行识别,并根据识别结果和所述待处理文本确定听写检查结果。
根据本公开的一个或多个实施例,示例2提供了一种文本处理方法,采集待处理文本图像,并对所述待处理文本图像进行手势识别,以得到待处理文本,包括:
根据待处理文本的录入类型,采集待处理文本图像,并通过对所述待处理文本图像进行手势识别处理,确定通过手势选定的待处理文本。
根据本公开的一个或多个实施例,示例3提供了一种文本处理方法,所述根据待处理文本的录入类型,采集待处理文本图像,并通过对所述待处理文本图像进行手势识别,确定通过手势选定的待处理文本,包括:
若所述待处理文本的录入类型是逐字录入,则采集用户指尖点处的文本图像,作为所述待处理文本图像;
将所述待处理文本图像中用户指尖点上方的文本作为所述待处理文本。
根据本公开的一个或多个实施例,示例4提供了一种文本处理方法,所述根据待处理文本的录入类型,采集待处理文本图像,并通过对所述待处理文本图像进行手势识别,确定通过手势选定的待处理文本,包括:
若所述待处理文本的录入类型是整体录入,则启动图像采集器以采集图像;
若检测到图像采集器采集的图像中包括用户画圈手势,则确定用户手指的画圈轨迹,并将画圈轨迹所圈选的文本作为所述待处理文本。
根据本公开的一个或多个实施例,示例5提供了一种文本处理方法,根据识别结果和所述待处理文本确定听写检查结果,包括:
若识别到用户听写文本图像中书写字符属于预设语言文本,则确定所述书写字符是否包含在所述待处理文本中;
若包含在所述待处理文本中,则确定所述书写字符听写正确。
根据本公开的一个或多个实施例,示例6提供了一种文本处理方法,在根据识别结果和所述待处理文本确定听写检查结果之后,还包括:
将所述听写文本图像中听写错误的书写字符的截图展示在屏幕上,以提示用户进行强化练习。
根据本公开的一个或多个实施例,示例7提供了一种文本处理装置,所述装置包括:
文本确定模块,用于采集待处理文本图像,并对所述待处理文本图像进行手势识别,以得到待处理文本;所述待处理文本为所述待处理文本图像中通过手势选定的文本;
文本播报模块,用于通过语音播报方式,对所述待处理文本进行播报,以提示对所述待处理文本进行听写处理;
文本检查模块,用于采集听写文本图像,对所述听写文本图像进行识别,并根据识别结果和所述待处理文本确定听写检查结果。
根据本公开的一个或多个实施例,示例8提供了一种文本处理装置,文本确定模块用于:
根据待处理文本的录入类型,采集待处理文本图像,并通过对所述待处理文本图像进行手势识别处理,确定通过手势选定的待处理文本。
根据本公开的一个或多个实施例,示例9提供了一种文本处理装置,文本确定模块包括:
第一文本图像采集单元,用于若所述待处理文本的录入类型是逐字录入,则采集用户指尖点处的文本图像,作为所述待处理文本图像;
第一文本内容确定单元,用于将所述待处理文本图像中用户指尖点上方的文本作为所述待处理文本。
根据本公开的一个或多个实施例,示例10提供了一种文本处理装置,文本确定模块包括:
第二文本图像采集单元,用于若所述待处理文本的录入类型是整体录入,则启动图像采集器以采集图像;
第二文本内容确定单元,用于若检测到图像采集器采集的图像中包括用户画圈手势,则确定用户手指的画圈轨迹,并将画圈轨迹所圈选的文本作为所述待处理文本。
根据本公开的一个或多个实施例,示例11提供了一种文本处理装置,文本检查模块包括:
若识别到用户听写文本图像中书写字符属于预设语言文本,则确定所述书写字符是否包含在所述待处理文本中;
若包含在所述待处理文本中,则确定所述书写字符听写正确。
根据本公开的一个或多个实施例,示例12提供了一种文本处理装置,所述装置还包括:
检查结果反馈模块,用于将所述听写文本图像中听写错误的书写字符的截图展示在屏幕上,以提示用户进行强化练习。
根据本公开的一个或多个实施例,示例13提供了一种电子设备,包括:
一个或多个处理装置;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理装置执行,使得所述一个或多个处理装置实现示例1-示例6中任一所述的文本处理方法。
根据本公开的一个或多个实施例,示例14提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现示例1-示例6中任一所述的文本处理方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (14)

1.一种文本处理方法,其特征在于,包括:
采集待处理文本图像,并对所述待处理文本图像进行手势识别,以得到待处理文本;所述待处理文本为所述待处理文本图像中通过手势选定的文本;
通过语音播报方式,对所述待处理文本进行播报,以提示对所述待处理文本进行听写处理;
采集听写文本图像,对所述听写文本图像进行识别,并根据识别结果和所述待处理文本确定听写检查结果。
2.根据权利要求1所述的方法,其特征在于,采集待处理文本图像,并对所述待处理文本图像进行手势识别,以得到待处理文本,包括:
根据待处理文本的录入类型,采集待处理文本图像,并通过对所述待处理文本图像进行手势识别处理,确定通过手势选定的待处理文本。
3.根据权利要求2所述的方法,其特征在于,所述根据待处理文本的录入类型,采集待处理文本图像,并通过对所述待处理文本图像进行手势识别,确定通过手势选定的待处理文本,包括:
若所述待处理文本的录入类型是逐字录入,则采集用户指尖点处的文本图像,作为所述待处理文本图像;
将所述待处理文本图像中用户指尖点上方的文本作为所述待处理文本。
4.根据权利要求2所述的方法,其特征在于,所述根据待处理文本的录入类型,采集待处理文本图像,并通过对所述待处理文本图像进行手势识别,确定通过手势选定的待处理文本,包括:
若所述待处理文本的录入类型是整体录入,则启动图像采集器以采集图像;
若检测到图像采集器采集的图像中包括用户画圈手势,则确定用户手指的画圈轨迹,并将画圈轨迹所圈选的文本作为所述待处理文本。
5.根据权利要求1所述的方法,其特征在于,根据识别结果和所述待处理文本确定听写检查结果,包括:
若识别到用户听写文本图像中书写字符属于预设语言文本,则确定所述书写字符是否包含在所述待处理文本中;
若包含在所述待处理文本中,则确定所述书写字符听写正确。
6.根据权利要求1所述的方法,其特征在于,在根据识别结果和所述待处理文本确定听写检查结果之后,还包括:
将所述听写文本图像中听写错误的书写字符的截图展示在屏幕上,以提示用户进行强化练习。
7.一种文本处理装置,其特征在于,包括:
文本确定模块,用于采集待处理文本图像,并对所述待处理文本图像进行手势识别,以得到待处理文本;所述待处理文本为所述待处理文本图像中通过手势选定的文本;
文本播报模块,用于通过语音播报方式,对所述待处理文本进行播报,以提示对所述待处理文本进行听写处理;
文本检查模块,用于采集听写文本图像,对所述听写文本图像进行识别,并根据识别结果和所述待处理文本确定听写检查结果。
8.根据权利要求7所述的装置,其特征在于,文本确定模块用于:
根据待处理文本的录入类型,采集待处理文本图像,并通过对所述待处理文本图像进行手势识别处理,确定通过手势选定的待处理文本。
9.根据权利要求8所述的装置,其特征在于,文本确定模块包括:
第一文本图像采集单元,用于若所述待处理文本的录入类型是逐字录入,则采集用户指尖点处的文本图像,作为所述待处理文本图像;
第一文本内容确定单元,用于将所述待处理文本图像中用户指尖点上方的文本作为所述待处理文本。
10.根据权利要求8所述的装置,其特征在于,文本确定模块包括:
第二文本图像采集单元,用于若所述待处理文本的录入类型是整体录入,则启动图像采集器以采集图像;
第二文本内容确定单元,用于若检测到图像采集器采集的图像中包括用户画圈手势,则确定用户手指的画圈轨迹,并将画圈轨迹所圈选的文本作为所述待处理文本。
11.根据权利要求7所述的装置,其特征在于,文本检查模块包括:
若识别到用户听写文本图像中书写字符属于预设语言文本,则确定所述书写字符是否包含在所述待处理文本中;
若包含在所述待处理文本中,则确定所述书写字符听写正确。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
检查结果反馈模块,用于将所述听写文本图像中听写错误的书写字符的截图展示在屏幕上,以提示用户进行强化练习。
13.一种电子设备,其特征在于,包括:
一个或多个处理装置;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理装置执行,使得所述一个或多个处理装置实现权利要求1-6中任一所述的文本处理方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-6中任一所述的文本处理方法。
CN201910816906.3A 2019-08-30 2019-08-30 文本处理方法、装置、设备及介质 Pending CN112309180A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910816906.3A CN112309180A (zh) 2019-08-30 2019-08-30 文本处理方法、装置、设备及介质
US17/639,308 US20220319347A1 (en) 2019-08-30 2020-08-14 Text processing method and apparatus, and electronic device and non-transitory computer-readable medium
PCT/CN2020/109213 WO2021036823A1 (zh) 2019-08-30 2020-08-14 文本处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910816906.3A CN112309180A (zh) 2019-08-30 2019-08-30 文本处理方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN112309180A true CN112309180A (zh) 2021-02-02

Family

ID=74486722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910816906.3A Pending CN112309180A (zh) 2019-08-30 2019-08-30 文本处理方法、装置、设备及介质

Country Status (3)

Country Link
US (1) US20220319347A1 (zh)
CN (1) CN112309180A (zh)
WO (1) WO2021036823A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116107441B (zh) * 2023-04-13 2023-06-27 南京听说科技有限公司 教学及考试用智能笔及其控制系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090253107A1 (en) * 2008-04-03 2009-10-08 Livescribe, Inc. Multi-Modal Learning System
CN202093528U (zh) * 2011-04-01 2011-12-28 洛阳磊石软件科技有限公司 基于手势动作的字符识别系统及翻译系统
CN105074817A (zh) * 2013-03-15 2015-11-18 高通股份有限公司 用于使用手势来切换处理模式的系统和方法
CN105679119A (zh) * 2016-01-20 2016-06-15 潘爱松 一种扫描听写法
CN106687908A (zh) * 2014-09-15 2017-05-17 微软技术许可有限责任公司 用于调用话音输入的手势快捷方式
CN109887349A (zh) * 2019-04-12 2019-06-14 广东小天才科技有限公司 一种听写辅助方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6215901B1 (en) * 1997-03-07 2001-04-10 Mark H. Schwartz Pen based computer handwriting instruction
TW514840B (en) * 2001-12-28 2002-12-21 Inventec Besta Co Ltd Automatic grading system and method providing listening comprehension and written test
CN1424665A (zh) * 2003-01-08 2003-06-18 无敌科技(西安)有限公司 具有听写测验及自动评分功能的装置及其操作方法
CN102999296B (zh) * 2012-12-03 2015-09-09 北京百度网讯科技有限公司 用于移动终端的文本快捷输入方法、装置和移动终端
CN105308535A (zh) * 2013-07-15 2016-02-03 英特尔公司 无需用手的协助
JP6532346B2 (ja) * 2015-08-07 2019-06-19 伸彦 井戸 ストロークの構成に差異がある手書き入力文字に対し、標準パターンと入力パターンとに変換を加えて照合と判定とを行う自動採点システム
CN106695826A (zh) * 2016-12-26 2017-05-24 深圳前海勇艺达机器人有限公司 具有扫描以及朗读功能的机器人装置
CN108700957B (zh) * 2017-06-30 2021-11-05 广东虚拟现实科技有限公司 用于虚拟环境中文本输入的电子系统和方法
CN109300347B (zh) * 2018-12-12 2021-01-26 广东小天才科技有限公司 一种基于图像识别的听写辅助方法及家教设备
CN111415537A (zh) * 2020-04-03 2020-07-14 南京晓庄学院 一种基于符号标注的中小学生听词系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090253107A1 (en) * 2008-04-03 2009-10-08 Livescribe, Inc. Multi-Modal Learning System
CN202093528U (zh) * 2011-04-01 2011-12-28 洛阳磊石软件科技有限公司 基于手势动作的字符识别系统及翻译系统
CN105074817A (zh) * 2013-03-15 2015-11-18 高通股份有限公司 用于使用手势来切换处理模式的系统和方法
CN106687908A (zh) * 2014-09-15 2017-05-17 微软技术许可有限责任公司 用于调用话音输入的手势快捷方式
CN105679119A (zh) * 2016-01-20 2016-06-15 潘爱松 一种扫描听写法
CN109887349A (zh) * 2019-04-12 2019-06-14 广东小天才科技有限公司 一种听写辅助方法及装置

Also Published As

Publication number Publication date
US20220319347A1 (en) 2022-10-06
WO2021036823A1 (zh) 2021-03-04

Similar Documents

Publication Publication Date Title
US11062090B2 (en) Method and apparatus for mining general text content, server, and storage medium
CN112115706B (zh) 文本处理方法、装置、电子设备及介质
US10522136B2 (en) Method and device for training acoustic model, computer device and storage medium
KR20180025121A (ko) 메시지 입력 방법 및 장치
CN108305618B (zh) 语音获取及搜索方法、智能笔、搜索终端及存储介质
CN111445902A (zh) 数据收集方法、装置、存储介质及电子设备
CN112364829B (zh) 一种人脸识别方法、装置、设备及存储介质
CN112883968B (zh) 图像字符识别方法、装置、介质及电子设备
CN112507806A (zh) 智慧课堂信息交互方法、装置及电子设备
CN111524507A (zh) 语音信息的反馈方法、装置、设备、服务器及存储介质
CN111680761B (zh) 信息反馈方法、装置和电子设备
US20240079002A1 (en) Minutes of meeting processing method and apparatus, device, and medium
CN110826619A (zh) 电子卷宗的文件分类方法、装置及电子设备
CN112633420B (zh) 图像相似度确定及模型训练方法、装置、设备和介质
CN112309180A (zh) 文本处理方法、装置、设备及介质
CN112309389A (zh) 信息交互方法和装置
CN112242143B (zh) 一种语音交互方法、装置、终端设备及存储介质
CN112069786A (zh) 文本信息处理方法、装置、电子设备及介质
CN111462548A (zh) 一种段落点读方法、装置、设备和可读介质
CN111459443A (zh) 一种文字点读方法、装置、设备和可读介质
EP4276827A1 (en) Speech similarity determination method, device and program product
CN115273103A (zh) 文本识别方法、装置、电子设备及存储介质
CN112509581B (zh) 语音识别后文本的纠错方法、装置、可读介质和电子设备
CN113191251A (zh) 一种笔顺检测方法、装置、电子设备和存储介质
CN112308511A (zh) 一种任务规划的生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210202

RJ01 Rejection of invention patent application after publication