CN112712806A - 一种视障人群辅助阅读方法、装置、移动终端及存储介质 - Google Patents

一种视障人群辅助阅读方法、装置、移动终端及存储介质 Download PDF

Info

Publication number
CN112712806A
CN112712806A CN202011633483.0A CN202011633483A CN112712806A CN 112712806 A CN112712806 A CN 112712806A CN 202011633483 A CN202011633483 A CN 202011633483A CN 112712806 A CN112712806 A CN 112712806A
Authority
CN
China
Prior art keywords
text
user
information
visually impaired
mobile terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011633483.0A
Other languages
English (en)
Inventor
赵宇
董皓智
刘佳琳
姚新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University of Science and Technology
Southern University of Science and Technology
Original Assignee
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology filed Critical Southwest University of Science and Technology
Priority to CN202011633483.0A priority Critical patent/CN112712806A/zh
Publication of CN112712806A publication Critical patent/CN112712806A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • G09B21/006Teaching or communicating with blind persons using audible presentation of the information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例公开了一种视障人群辅助阅读方法、装置、移动终端及存储介质。该方法包括:通过语音播放移动终端的屏幕显示的文本内容;获取用户针对播放的文本内容输入的语音信息;将语音信息转换为文本信息;确定文本内容中与文本信息对应的目标文本;向用户播放目标文本。本发明实施例所提供的技术方案,实现了在视障人群的辅助阅读过程中,尤其是针对长文本,若用户对某些内容产生疑问或未听清,可以根据用户输入的语音信息确定文本内容中对应的部分内容进行重新播放,避免了需要对整个长文本进行重新阅读的问题,从而提高了移动终端针对视障人群的辅助阅读过程的效率及便利性。

Description

一种视障人群辅助阅读方法、装置、移动终端及存储介质
技术领域
本发明实施例涉及无障碍交互技术领域,尤其涉及一种视障人群辅助阅读方法、装置、移动终端及存储介质。
背景技术
信息无障碍是指任何人在任何情况下都能平等、方便且无障碍的获取信息并利用信息,在现有技术中,通常信息无障碍所指的是能够实现对于有视觉或听觉等身体功能障碍的人提供无障碍信息的方法。例如,很多显示在智能移动终端上的信息都依赖于借助视觉获取或者借助视觉和其他操作获取,为了提升智能移动终端的无障碍性能,现有技术中开发了多种无障碍服务,如屏幕阅读器等。屏幕阅读器可以用来阅读智能移动终端屏幕上的内容,从而帮助视觉功能有障碍的人士操作智能移动终端从而获取信息。
但是,现有技术中在使用屏幕阅读器阅读长文本时,若用户对长文本中的某处产生疑问或者尚未听清,只能命令屏幕阅读器重新阅读该长文本,而用户可能只是为了获取屏幕上的某项信息而非听取全文,因此,在这种情况下,屏幕阅读器的阅读效率十分低下,大大降低了用户使用的便利性。
发明内容
本发明实施例提供一种视障人群辅助阅读方法、装置、移动终端及存储介质,以提高移动终端针对视障人群的辅助阅读过程的效率及便利性。
第一方面,本发明实施例提供了一种视障人群辅助阅读方法,该方法包括:
通过语音播放移动终端的屏幕显示的文本内容;
获取用户针对播放的所述文本内容输入的语音信息;
将所述语音信息转换为文本信息;
确定所述文本内容中与所述文本信息对应的目标文本;
向用户播放所述目标文本。
第二方面,本发明实施例还提供了一种视障人群辅助阅读装置,该装置包括:
文本内容播放模块,用于通过语音播放移动终端的屏幕显示的文本内容;
语音信息获取模块,用于获取用户针对播放的所述文本内容输入的语音信息;
文本信息转换模块,用于将所述语音信息转换为文本信息;
目标文本确定模块,用于确定所述文本内容中与所述文本信息对应的目标文本;
目标文本播放模块,用于向用户播放所述目标文本。
第三方面,本发明实施例还提供了一种移动终端,该移动终端包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的视障人群辅助阅读方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所提供的视障人群辅助阅读方法。
本发明实施例提供了一种视障人群辅助阅读方法,可以实现根据用户的需要对移动终端的屏幕显示的文本内容进行语音播放,然后在播放的过程中,可以获取用户针对播放的文本内容输入的语音信息,并将该语音信息转换为便于处理的文本信息,从而确定该文本内容中与该文本信息对应的目标文本,再将该目标文本向用户播放,实现了在视障人群的辅助阅读过程中,尤其是针对长文本,若用户对某些内容产生疑问或未听清,可以根据用户输入的语音信息确定文本内容中对应的部分内容进行重新播放,避免了需要对整个长文本进行重新阅读的问题,从而提高了移动终端针对视障人群的辅助阅读过程的效率及便利性。
附图说明
图1为本发明实施例一提供的视障人群辅助阅读方法的流程图;
图2为本发明实施例二提供的视障人群辅助阅读方法的流程图;
图3为本发明实施例三提供的视障人群辅助阅读装置的结构示意图;
图4为本发明实施例四提供的移动终端的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的视障人群辅助阅读方法的流程图。本实施例可适用于移动终端在为视障人群提供辅助阅读过程中需要对某些内容进行重复播放的情况,该方法可以由本发明实施例提供的视障人群辅助阅读装置来执行,该装置可以由硬件和/或软件的方式来实现,一般可集成于移动终端中,该移动终端可以但不限于是各种笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。如图1所示,具体包括如下步骤:
S11、通过语音播放移动终端的屏幕显示的文本内容。
在视障人群使用移动终端时,可以借助移动终端提供的无障碍服务得到语音反馈从而获取移动终端的屏幕中当前显示的内容或者实现对移动终端的各种操作,在本实施例中,以安卓提供的无障碍服务(Android AccessibilityService)为例进行说明。具体的,在视障人群使用移动终端之前,首先可以设置开启相关的无障碍服务,具体可以是屏幕阅读器功能中的屏幕阅读服务(TalkBack)。在开启服务之后,移动终端即可以聚焦到用户在屏幕上触摸的元素,并通过语音将对应的文本内容播放给用户,同时还可以根据用户的不同手势实现其他不同的阅读方式,示例性的,当用户单指左右滑动时,可以聚焦到当前焦点元素的前一个或后一个元素并通过语音播放对应的文本内容,当用户单指上下滑动时,可以从上到下或从下到上持续朗读当前屏幕中显示的文本内容等等。
S12、获取用户针对播放的文本内容输入的语音信息。
在播放移动终端的屏幕中显示的文本内容的过程中,可能存在用户没有听清楚所播放的文本内容,或者对所播放的文本内容产生疑问等情况,此时,便可以通过获取用户输入的语音信息来确定用户想要重新听取的内容。具体的,当用户存在语音输入时,可以暂停对屏幕当前显示的文本内容的播放过程,并接收用户输入的语音信息,其中,语音信息可以是对所播放的文本内容中的部分内容进行的重复,也可以是对所播放的文本内容进行的提问,并且在重复的过程中可以使用同义词等。针对语音信息的输入,可以通过音频录制应用程序编程接口(AudioRecord API)进行录制。
S13、将语音信息转换为文本信息。
具体的,可以将获取的语音信息打包为JS对象简谱(JavaScript ObjectNotation,JSON)格式并上传至语音识别服务器进行语音转文本的过程,然后再接收服务器返回的对应的文本信息,对文本信息的转换结果可以允许一定范围的误差,只需要整体语义不改变即可。其中,可选的,文本信息包括文本内容的子文本和/或文本内容以外的新文本,即对应上述语音信息可以是对所播放的文本内容中的部分内容进行的重复,也可以是对所播放的文本内容进行的提问。
可选的,在将语音信息转换为文本信息之后,还包括:若文本信息转换失败,则提示用户重新输入,并重新获取语音信息。具体的,由于环境噪音或用户使用方言等情况的影响,可能会导致文本信息转换失败,一般的语音识别服务器在返回转换的文本信息的同时,还可以返回转换状态,以确定文本信息是否转换成功。若文本信息转换失败,则可以通过语音等方式提示用户重新输入语音信息,并再次获取用户输入的语音信息,直到获得转换成功的文本信息。
S14、确定文本内容中与文本信息对应的目标文本。
具体的,如上,文本内容可以是根据用户手势确定的屏幕中的某个元素中包含的文本,也可以是当前屏幕中显示的所有文本,其中,文本内容可以通过AccessibilityNodeInfo.getText()方法来获取,在Android AccessibilityService工作时,移动终端的屏幕上所有的元素以树结构存储,可以首先获取当前屏幕上的根节点元素并向下依次遍历,即可获得当前屏幕上所有的文本内容,或者根据用户手势的坐标以及每个元素的位置属性等信息即可确定某个元素对应的文本内容。在确定了文本内容以及文本信息之后,即可通过文本匹配以及语义分析等方式确定文本内容中与文本信息对应的目标文本,其中,目标文本即可以是文本内容中包含文本信息或对文本信息的解答的某一个或多个句子。
S15、向用户播放目标文本。
具体的,可以通过android.speech.tts.TextToSpeech来实现文字转语音的过程,并将目标文本播放给用户。
在上述技术方案的基础上,可选的,在获取用户针对播放的文本内容输入的语音信息之前,还包括:接收用户输入的启动手势,若启动手势与预设启动手势匹配成功,则获取用户针对播放的文本内容输入的语音信息;相应的,在向用户播放目标文本之后,还包括:接收用户输入的关闭手势,若关闭手势与预设关闭手势匹配成功,则退出获取语音信息的状态。
具体的,可以在用户想要重新听取某部分内容之前,首先触发移动终端进入获取语音信息的状态,具体便可以通过接收某种特定的启动手势进行触发。由于一般在移动终端的使用过程中,屏幕始终需要处于获取用户手势的状态,而不经常处于获取用户语音的状态,通过以某种手势触发移动终端进入获取语音信息的状态,可以减少因需要获取语音信息所造成的资源占用。相应的,在完成向用户播放目标文本后,还可以通过接收用户输入的关闭手势来退出获取语音信息的状态以进一步减少资源占用,具体可以是在用户暂时不再需要重新听取某些文本内容时退出,并且在退出之前,可以完成一次或多次根据用户输入的语音信息播放目标文本的过程。其中,接收用户输入的启动手势以及接收用户输入的关闭手势可以通过Android AccessibilityService的onGesture()方法来实现。
相应的,在通过语音播放移动终端的屏幕显示的文本内容之前,可以首先根据用户的设置确定预设启动手势和预设关闭手势并进行存储,以便在需要的时候与对应的手势进行匹配,并在匹配成功时进入或退出获取语音信息的状态。其中,预设启动手势与预设关闭手势可以相同也可以不同,并且应避免与移动终端上使用的具有其他功能的手势相互冲突,若预设启动手势与预设关闭手势相同则可以简化手势的预设过程,减少所需的存储空间,若不同则可以明确手势对应的状态,从而避免状态判定混乱,也更便于用户的操作。可选的,预设启动手势包括先向右再向上的滑动手势,预设关闭手势包括先向左再向下的滑动手势,以减少用户误触发的情况。
本发明实施例所提供的技术方案,可以实现根据用户的需要对移动终端的屏幕显示的文本内容进行语音播放,然后在播放的过程中,可以获取用户针对播放的文本内容输入的语音信息,并将该语音信息转换为便于处理的文本信息,从而确定该文本内容中与该文本信息对应的目标文本,再将该目标文本向用户播放,实现了在视障人群的辅助阅读过程中,尤其是针对长文本,若用户对某些内容产生疑问或未听清,可以根据用户输入的语音信息确定文本内容中对应的部分内容进行重新播放,避免了需要对整个长文本进行重新阅读的问题,从而提高了移动终端针对视障人群的辅助阅读过程的效率及便利性。
实施例二
图2为本发明实施例二提供的视障人群辅助阅读方法的流程图。本实施例的技术方案在上述技术方案的基础上进一步细化,可选的,可以根据文本内容的当前播放位置确定待匹配文本,以缩小用于匹配的文本范围,同时可选的,通过服务器来实现目标文本的确定过程,以提高目标文本确定的准确性。具体的,本实施例中,在获取用户针对播放的文本内容输入的语音信息之后,还包括:确定文本内容的当前播放位置,并根据当前播放位置确定文本内容中的待匹配文本;相应的,确定文本内容中与文本信息对应的目标文本,包括:确定待匹配文本中与文本信息对应的目标文本。和/或确定待匹配文本中与文本信息对应的目标文本,包括:将待匹配文本以及文本信息上传至服务器;通过服务器中的机器阅读理解模型确定待匹配文本中与文本信息对应的目标文本;相应的,在向用户播放目标文本之前,还包括:接收服务器返回的目标文本。相应的,如图2所示,具体可以包括如下步骤:
S21、通过语音播放移动终端的屏幕显示的文本内容。
S22、获取用户针对播放的文本内容输入的语音信息。
S23、确定文本内容的当前播放位置,并根据当前播放位置确定文本内容中的待匹配文本。
具体的,如上述实施例,当用户存在语音输入时,可以暂停对屏幕当前显示的文本内容的播放过程,同时可以确定文本内容的当前播放位置,然后可以将从开始播放的位置到该当前播放位置之间的文本作为待匹配文本,即当前已播放的文本,从而将用于匹配的文本从全部的文本内容缩小到所确定的待匹配文本,以从该待匹配文本中确定文本信息对应的目标文本。
S24、将语音信息转换为文本信息。
S25、将待匹配文本以及文本信息上传至服务器。
具体的,该服务器可以使用Java语言处理移动终端发送的超文本传输协议(http)请求,具体可以使用HttpURLConnection实例类来完成待匹配文本以及文本信息的接收过程。
S26、通过服务器中的机器阅读理解模型确定待匹配文本中与文本信息对应的目标文本。
具体的,在服务器接收到待匹配文本以及文本信息之后,可以将待匹配文本以及文本信息作为机器阅读理解模型的输入,然后即可由机器阅读理解模型自动的在待匹配文本中确定问题(即文本信息)对应的答案(目标文本)并输出。其中,机器阅读理解模型可以是BiDAF机器阅读理解模型(Bi-Directional Attention Flow for MachineComprehension)。
S27、接收服务器返回的目标文本。
具体的,该服务器同样可以使用HttpURLConnection实例类来完成目标文本向移动终端的传送过程。
S28、向用户播放目标文本。
本发明实施例所提供的技术方案,通过在文本内容中确定待匹配文本,缩小了用于匹配的文本范围,从而提高了目标文本的确定效率,节约了用户等待结果的时间,同时相比于移动终端,服务器通常具备更强大的存储能力与运算能力,通过将目标文本的确定过程交由服务器来完成,节约了移动终端上的资源占用,并进一步的提高了确定目标文本过程的效率和准确性。
实施例三
图3为本发明实施例三提供的视障人群辅助阅读装置的结构示意图。该装置可以由硬件和/或软件的方式来实现,一般可集成于移动终端中,该移动终端可以但不限于是各种笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。如图3所示,该装置包括:
文本内容播放模块31,用于通过语音播放移动终端的屏幕显示的文本内容;
语音信息获取模块32,用于获取用户针对播放的文本内容输入的语音信息;
文本信息转换模块33,用于将语音信息转换为文本信息;
目标文本确定模块34,用于确定文本内容中与文本信息对应的目标文本;
目标文本播放模块35,用于向用户播放目标文本。
本发明实施例所提供的技术方案,可以实现根据用户的需要对移动终端的屏幕显示的文本内容进行语音播放,然后在播放的过程中,可以获取用户针对播放的文本内容输入的语音信息,并将该语音信息转换为便于处理的文本信息,从而确定该文本内容中与该文本信息对应的目标文本,再将该目标文本向用户播放,实现了在视障人群的辅助阅读过程中,尤其是针对长文本,若用户对某些内容产生疑问或未听清,可以根据用户输入的语音信息确定文本内容中对应的部分内容进行重新播放,避免了需要对整个长文本进行重新阅读的问题,从而提高了移动终端针对视障人群的辅助阅读过程的效率及便利性。
在上述技术方案的基础上,可选的,该视障人群辅助阅读装置,还包括:
待匹配文本确定模块,用于在获取用户针对播放的文本内容输入的语音信息之后,确定文本内容的当前播放位置,并根据当前播放位置确定文本内容中的待匹配文本;
相应的,目标文本确定模块34,包括:
目标文本确定单元,用于确定待匹配文本中与文本信息对应的目标文本。
在上述技术方案的基础上,可选的,目标文本确定单元,包括:
数据上传子单元,用于将待匹配文本以及文本信息上传至服务器;
目标文本确定子单元,用于通过服务器中的机器阅读理解模型确定待匹配文本中与文本信息对应的目标文本;
相应的,该视障人群辅助阅读装置,还包括:
数据接收模块,用于在向用户播放目标文本之前,接收服务器返回的目标文本。
在上述技术方案的基础上,可选的,该视障人群辅助阅读装置,还包括:
启动手势接收模块,用于在获取用户针对播放的文本内容输入的语音信息之前,接收用户输入的启动手势,若启动手势与预设启动手势匹配成功,则获取用户针对播放的文本内容输入的语音信息;
相应的,该视障人群辅助阅读装置,还包括:
关闭手势接收模块,用于在向用户播放目标文本之后,接收用户输入的关闭手势,若关闭手势与预设关闭手势匹配成功,则退出获取语音信息的状态。
在上述技术方案的基础上,可选的,预设启动手势包括先向右再向上的滑动手势,预设关闭手势包括先向左再向下的滑动手势。
在上述技术方案的基础上,可选的,该视障人群辅助阅读装置,还包括:
语音信息重新获取模块,用于在将语音信息转换为文本信息之后,若文本信息转换失败,则提示用户重新输入,并重新获取语音信息。
在上述技术方案的基础上,可选的,文本信息包括文本内容的子文本和/或文本内容以外的新文本。
本发明实施例所提供的视障人群辅助阅读装置可执行本发明任意实施例所提供的视障人群辅助阅读方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,在上述视障人群辅助阅读装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例四
图4为本发明实施例四提供的移动终端的结构示意图,示出了适于用来实现本发明实施方式的示例性移动终端的框图。图4显示的移动终端仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图4所示,该移动终端包括处理器41、存储器42、输入装置43及输出装置44;移动终端中处理器41的数量可以是一个或多个,图4中以一个处理器41为例,移动终端中的处理器41、存储器42、输入装置43及输出装置44可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器42作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的视障人群辅助阅读方法对应的程序指令/模块(例如,视障人群辅助阅读装置中的文本内容播放模块31、语音信息获取模块32、文本信息转换模块33、目标文本确定模块34及目标文本播放模块35)。处理器41通过运行存储在存储器42中的软件程序、指令以及模块,从而执行移动终端的各种功能应用以及数据处理,即实现上述的视障人群辅助阅读方法。
存储器42可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据移动终端的使用所创建的数据等。此外,存储器42可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器42可进一步包括相对于处理器41远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置43可用于获取用户针对播放的文本内容输入的语音信息,以及产生与移动终端的用户设置和功能控制有关的键信号输入等。输出装置44可包括喇叭等设备,可用于向用户播放移动终端的屏幕显示的文本内容以及目标文本等。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,该计算机可执行指令在由计算机处理器执行时用于执行一种视障人群辅助阅读方法,该方法包括:
通过语音播放移动终端的屏幕显示的文本内容;
获取用户针对播放的文本内容输入的语音信息;
将语音信息转换为文本信息;
确定文本内容中与文本信息对应的目标文本;
向用户播放目标文本。
存储介质可以是任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的视障人群辅助阅读方法中的相关操作。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种视障人群辅助阅读方法,其特征在于,包括:
通过语音播放移动终端的屏幕显示的文本内容;
获取用户针对播放的所述文本内容输入的语音信息;
将所述语音信息转换为文本信息;
确定所述文本内容中与所述文本信息对应的目标文本;
向用户播放所述目标文本。
2.根据权利要求1所述的视障人群辅助阅读方法,其特征在于,在所述获取用户针对播放的所述文本内容输入的语音信息之后,还包括:
确定所述文本内容的当前播放位置,并根据所述当前播放位置确定所述文本内容中的待匹配文本;
相应的,所述确定所述文本内容中与所述文本信息对应的目标文本,包括:
确定所述待匹配文本中与所述文本信息对应的所述目标文本。
3.根据权利要求2所述的视障人群辅助阅读方法,其特征在于,所述确定所述待匹配文本中与所述文本信息对应的所述目标文本,包括:
将所述待匹配文本以及所述文本信息上传至服务器;
通过所述服务器中的机器阅读理解模型确定所述待匹配文本中与所述文本信息对应的所述目标文本;
相应的,在所述向用户播放所述目标文本之前,还包括:
接收所述服务器返回的所述目标文本。
4.根据权利要求1所述的视障人群辅助阅读方法,其特征在于,在所述获取用户针对播放的所述文本内容输入的语音信息之前,还包括:
接收用户输入的启动手势,若所述启动手势与预设启动手势匹配成功,则获取用户针对播放的所述文本内容输入的语音信息;
相应的,在所述向用户播放所述目标文本之后,还包括:
接收用户输入的关闭手势,若所述关闭手势与预设关闭手势匹配成功,则退出获取所述语音信息的状态。
5.根据权利要求4所述的视障人群辅助阅读方法,其特征在于,所述预设启动手势包括先向右再向上的滑动手势,所述预设关闭手势包括先向左再向下的滑动手势。
6.根据权利要求1所述的视障人群辅助阅读方法,其特征在于,在所述将所述语音信息转换为文本信息之后,还包括:
若所述文本信息转换失败,则提示用户重新输入,并重新获取所述语音信息。
7.根据权利要求1所述的视障人群辅助阅读方法,其特征在于,所述文本信息包括所述文本内容的子文本和/或所述文本内容以外的新文本。
8.一种视障人群辅助阅读装置,其特征在于,包括:
文本内容播放模块,用于通过语音播放移动终端的屏幕显示的文本内容;
语音信息获取模块,用于获取用户针对播放的所述文本内容输入的语音信息;
文本信息转换模块,用于将所述语音信息转换为文本信息;
目标文本确定模块,用于确定所述文本内容中与所述文本信息对应的目标文本;
目标文本播放模块,用于向用户播放所述目标文本。
9.一种移动终端,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的视障人群辅助阅读方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的视障人群辅助阅读方法。
CN202011633483.0A 2020-12-31 2020-12-31 一种视障人群辅助阅读方法、装置、移动终端及存储介质 Pending CN112712806A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011633483.0A CN112712806A (zh) 2020-12-31 2020-12-31 一种视障人群辅助阅读方法、装置、移动终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011633483.0A CN112712806A (zh) 2020-12-31 2020-12-31 一种视障人群辅助阅读方法、装置、移动终端及存储介质

Publications (1)

Publication Number Publication Date
CN112712806A true CN112712806A (zh) 2021-04-27

Family

ID=75547784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011633483.0A Pending CN112712806A (zh) 2020-12-31 2020-12-31 一种视障人群辅助阅读方法、装置、移动终端及存储介质

Country Status (1)

Country Link
CN (1) CN112712806A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113986018A (zh) * 2021-12-30 2022-01-28 江西影创信息产业有限公司 基于智能眼镜的视障辅助阅读学习方法、系统及存储介质
CN115394282A (zh) * 2022-06-01 2022-11-25 北京网梯科技发展有限公司 信息交互方法及装置、教学平台、电子设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104205791A (zh) * 2011-12-20 2014-12-10 奥德伯公司 管理补充信息的回放
US20150248887A1 (en) * 2014-02-28 2015-09-03 Comcast Cable Communications, Llc Voice Enabled Screen reader
CN106406867A (zh) * 2016-09-05 2017-02-15 深圳市联谛信息无障碍有限责任公司 一种基于android系统的读屏方法及装置
CN108845786A (zh) * 2018-05-31 2018-11-20 北京智能管家科技有限公司 智能伴读方法、装置、设备和存储介质
CN109460209A (zh) * 2018-12-20 2019-03-12 广东小天才科技有限公司 一种听写报读进度的控制方法及电子设备
CN109828711A (zh) * 2019-01-25 2019-05-31 努比亚技术有限公司 一种移动终端的阅读管理方法、移动终端及存储介质
CN110691160A (zh) * 2018-07-04 2020-01-14 青岛海信移动通信技术股份有限公司 一种语音控制方法、装置及手机
US10601980B1 (en) * 2014-09-16 2020-03-24 Ultratec, Inc. Captioning system and method for the vision impaired
CN110955327A (zh) * 2018-09-27 2020-04-03 奇酷互联网络科技(深圳)有限公司 启动和关闭智能设备方法、存储装置和终端

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104205791A (zh) * 2011-12-20 2014-12-10 奥德伯公司 管理补充信息的回放
US20150248887A1 (en) * 2014-02-28 2015-09-03 Comcast Cable Communications, Llc Voice Enabled Screen reader
US10601980B1 (en) * 2014-09-16 2020-03-24 Ultratec, Inc. Captioning system and method for the vision impaired
CN106406867A (zh) * 2016-09-05 2017-02-15 深圳市联谛信息无障碍有限责任公司 一种基于android系统的读屏方法及装置
CN108845786A (zh) * 2018-05-31 2018-11-20 北京智能管家科技有限公司 智能伴读方法、装置、设备和存储介质
CN110691160A (zh) * 2018-07-04 2020-01-14 青岛海信移动通信技术股份有限公司 一种语音控制方法、装置及手机
CN110955327A (zh) * 2018-09-27 2020-04-03 奇酷互联网络科技(深圳)有限公司 启动和关闭智能设备方法、存储装置和终端
CN109460209A (zh) * 2018-12-20 2019-03-12 广东小天才科技有限公司 一种听写报读进度的控制方法及电子设备
CN109828711A (zh) * 2019-01-25 2019-05-31 努比亚技术有限公司 一种移动终端的阅读管理方法、移动终端及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113986018A (zh) * 2021-12-30 2022-01-28 江西影创信息产业有限公司 基于智能眼镜的视障辅助阅读学习方法、系统及存储介质
CN113986018B (zh) * 2021-12-30 2022-08-09 江西影创信息产业有限公司 基于智能眼镜的视障辅助阅读学习方法、系统及存储介质
CN115394282A (zh) * 2022-06-01 2022-11-25 北京网梯科技发展有限公司 信息交互方法及装置、教学平台、电子设备和存储介质

Similar Documents

Publication Publication Date Title
US10489112B1 (en) Method for user training of information dialogue system
KR102490776B1 (ko) 디지털 개인 비서 내에서 헤드리스로 작업을 완료하기 위한 기법
CN100578614C (zh) 用语音应用语言标记执行的语义对象同步理解
RU2491617C2 (ru) Способ и устройство для реализации распределенных мультимодальных приложений
JP6767046B2 (ja) 音声対話システム、音声対話装置、ユーザー端末、および音声対話方法
CN110047481B (zh) 用于语音识别的方法和装置
KR20200129182A (ko) 적절한 에이전트의 자동화된 어시스턴트 호출
CN110970021B (zh) 一种问答控制方法、装置及系统
WO2017016104A1 (zh) 问答信息的处理方法、装置、存储介质及设备
JP2015011170A (ja) ローカルな音声認識を行なう音声認識クライアント装置
JP2009520224A (ja) 音声アプリケーションを処理する方法、サーバー、クライアント装置、コンピュータ読み取り可能な記録媒体(マークアップを介する音声アプリケーションの処理の共有)
CN113362828B (zh) 用于识别语音的方法和装置
KR102170088B1 (ko) 인공지능 기반 자동 응답 방법 및 시스템
JP6619488B2 (ja) 人工知能機器における連続会話機能
CN112712806A (zh) 一种视障人群辅助阅读方法、装置、移动终端及存储介质
KR20200011198A (ko) 대화형 메시지 구현 방법, 장치 및 프로그램
KR102102287B1 (ko) 챗봇을 위한 대화 모델의 데이터 크라우드소싱 방법
WO2019035371A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP6689953B2 (ja) 通訳サービスシステム、通訳サービス方法及び通訳サービスプログラム
CN112242143B (zh) 一种语音交互方法、装置、终端设备及存储介质
KR20220140304A (ko) 학습자의 음성 명령을 인식하는 화상 학습 시스템 및 그 방법
Wang et al. Cross Cultural Comparison of Users’ Barge-in with the In-Vehicle Speech System
KR102269834B1 (ko) 언어 학습 서비스 제공 방법 및 그를 수행하는 단말 장치
JP2013238986A (ja) 処理装置、処理システム、出力方法及びプログラム
US20210264910A1 (en) User-driven content generation for virtual assistant

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination