CN109660446B - 聊天信息的语音播报方法、装置、计算机设备及存储介质 - Google Patents
聊天信息的语音播报方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN109660446B CN109660446B CN201811286723.7A CN201811286723A CN109660446B CN 109660446 B CN109660446 B CN 109660446B CN 201811286723 A CN201811286723 A CN 201811286723A CN 109660446 B CN109660446 B CN 109660446B
- Authority
- CN
- China
- Prior art keywords
- message
- chat
- information
- voice
- chat message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012545 processing Methods 0.000 claims abstract description 67
- 230000006870 function Effects 0.000 claims description 29
- 238000005516 engineering process Methods 0.000 claims description 20
- 230000015572 biosynthetic process Effects 0.000 claims description 18
- 238000003786 synthesis reaction Methods 0.000 claims description 18
- 230000002194 synthesizing effect Effects 0.000 claims description 10
- 238000010801 machine learning Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000005096 rolling process Methods 0.000 claims description 3
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 239000000725 suspension Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000010411 cooking Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/04—Real-time or near real-time messaging, e.g. instant messaging [IM]
- H04L51/046—Interoperability with other network applications or services
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/06—Message adaptation to terminal or network requirements
- H04L51/066—Format adaptation, e.g. format conversion or compression
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72442—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for playing music files
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种聊天信息的语音播报方法、装置、计算机设备以及存储介质,涉及通信技术领域,其中方法包括:当检测到开启语音播报功能时,获得与在即时通信软件的聊天界面中显示的聊天消息相对应的聊天消息信息、聊天消息ID并添加在播报消息队列中;从播报队列中获取聊天消息信息进行语音播报处理;当检测到启动返回聊天功能或停止语音播报功能时,获得与当前进行语音播报处理的聊天消息信息相对应的聊天消息ID,将此聊天消息ID传回即时通信软件。本发明的方法、装置、计算机设备以及存储介质,使用户做其它事情期间,也可以获得即时通信工具的聊天信息,避免了用户在做其它事情的期间中因查看聊天消息而带来的安全隐患,提高使用感受度。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种聊天信息的语音播报方法、装置、计算机设备以及存储介质。
背景技术
目前,即时通信软件(例如微信、QQ等)的应用非常广泛,通过即时通信软件可以进行群聊等功能,用户可以浏览群聊中的文字信息,或查看群聊中的图片或播放群聊中的视频、音频等文件。但是,如果在群聊的过程中,用户在做一些其它事情(例如开车,做饭,工作等),则此用户无法正常阅读群聊中其它用户发送的信息,但此用户又必须持续关注聊天信息,因此,需要提供一种能够使用户在进行其它活动时获取群聊中的其它用户发送的信息的技术方案。
发明内容
有鉴于此,本发明提供一种聊天信息的语音播报方法、装置、计算机设备以及存储介质,用于解决用户在进行其它活动时无法获取其他用户在即时通信软件中发送的聊天信息。
根据本发明的一个方面,提供一种聊天信息的语音播报方法,包括:设置播报队列;当检测到开启语音播报功能时,获得与在即时通信软件的聊天界面中显示的聊天消息相对应的聊天消息信息、聊天消息ID,将所述聊天消息信息和所述聊天消息ID添加在所述播报消息队列中;依次从所述播报队列中获取所述聊天消息信息和所述聊天消息ID,对所述聊天消息信息进行语音播报处理;当检测到启动返回聊天功能或停止语音播报功能时,获得与当前进行语音播报处理的聊天消息信息相对应的所述聊天消息ID,在所述即时通信软件的聊天界面中定位所述聊天消息ID对应的聊天消息,并在所述聊天界面中滚动至定位到的位置。
可选地,所述聊天消息信息包括:消息类型、消息内容信息、消息发送者和消息接收时间;其中,所述消息类型包括:文本类型、音频类型、文件类型、图片类型;所述对所述聊天消息信息进行语音播报处理包括:根据所述消息类型对应的语音播报模式并使用所述消息内容信息、所述消息发送者和所述消息接收时间中的至少一个进行语音播报处理。
可选地,所述消息类型为文本类型,所述消息内容信息为在聊天界面中显示的文本信息;所述对所述聊天消息信息进行语音播报处理包括:如果所述消息类型为文本类型,生成播报文本信息,其中,所述播报文本信息包括:所述文本信息和消息发送者信息;基于TTS语音合成技术将所述播报文本信息合成为语音文件并进行语音播报。
可选地,如果确定在即时通信软件的聊天界面中显示的聊天消息为音频文件,则下载所述音频文件并缓存到本地,其中,将所述消息类型设置为音频类型,将所述消息内容信息设置为所述音频文件的存储地址;所述对所述聊天消息信息进行语音播报处理包括:如果所述消息类型为音频类型,则根据所述音频文件的存储地址判断此音频文件是否已完成下载,如果是,则利用音频播放器播放此音频文件,如果否,则重新下载此音频文件,在下载完成后利用音频播放器播放此音频文件。
可选地,所述消息类型为图片类型,所述消息内容信息为在聊天界面中的显示图片;所述对所述聊天消息信息进行语音播报处理包括:对所述显示图片进行ocr识别;如果能够从所述显示图片中识别出文字信息,则基于此文字信息生成播报文本信息,基于TTS语音合成技术将此播报文本信息合成为语音文件并进行语音播报;如果不能从所述显示图片中识别出文字信息,则基于机器学习识别方式对所述显示图片进行识别,得到目标对象,其中,所述目标对象包括以下至少一项:物体对象、场景对象、颜色对象;基于所述目标对象生成播报文本信息,基于TTS语音合成技术将此播报文本信息合成为语音文件并进行语音播报。
可选地,如果确定在即时通信软件的聊天界面中显示的聊天消息为文件类型信息,则将所述消息类型设置为文件类型,将所述消息内容信息设置为此文件类型信息的文件名信息;所述对所述聊天消息信息进行语音播报处理包括:如果所述消息类型为文件类型,则基于文件名信息、消息发送者和消息接收时间生成播报文本信息,基于TTS语音合成技术将此播报文本信息合成为语音文件并进行语音播报。
可选地,当检测到暂停语音播报功能时,如果当前有正在进行语音播报处理的所述聊天消息信息,则暂停处理;当检测到恢复语音播报功能时,如果检测到播报队列还有未处理的所述聊天消息信息,则优先对此未处理的所述聊天消息信息进行语音播报处理。
根据本发明的另一方面,提供一种聊天信息的语音播报装置,包括:队列设置模块,用于设置播报队列;消息添加模块,用于当检测到开启语音播报功能时,获得与在即时通信软件的聊天界面中显示的聊天消息相对应的聊天消息信息、聊天消息ID,将所述聊天消息信息和所述聊天消息ID添加在所述播报消息队列中;播报处理模块,用于依次从所述播报队列中获取所述聊天消息信息和所述聊天消息ID,对所述聊天消息信息进行语音播报处理;停止处理模块,用于当检测到启动返回聊天功能或停止语音播报功能时,获得与当前进行语音播报处理的聊天消息信息相对应的所述聊天消息ID,在所述即时通信软件的聊天界面中定位所述聊天消息ID对应的聊天消息,并在所述聊天界面中滚动至定位到的位置。
根据本发明的又一方面,提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
根据本发明的再一方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行如上所述的方法。
本发明的聊天信息的语音播报方法、装置、计算机设备以及存储介质,能够对在即时通信软件的聊天界面中显示的聊天消息进行语音播报,可以根据聊天消息类型进行相应地处理,并提供返回聊天、暂停播报等功能;使用户做其它的事情期间,也可以获得即时通信工具的聊天信息,避免了用户在做其它的事情期间中因查看聊天消息而带来的安全隐患,提高用户的使用感受度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明的聊天信息的语音播报方法的一个实施例的流程示意图;
图2为根据本发明的聊天信息的语音播报方法的一个实施例中的对于文本类型的消息进行语音播报的流程示意图;
图3为根据本发明的聊天信息的语音播报方法的一个实施例中的对于音频类型的消息进行语音播报的流程示意图;
图4为根据本发明的聊天信息的语音播报方法的一个实施例中的对于图片类型的消息进行语音播报的流程示意图;
图5为根据本发明的聊天信息的语音播报方法的一个实施例中的对于文件类型的消息进行语音播报的流程示意图;
图6为根据本发明的聊天信息的语音播报方法的一个实施例中的返回聊天界面的处理流程示意图;
图7为根据本发明的聊天信息的语音播报方法的一个实施例中的暂停语音播报的处理流程示意图;
图8为根据本发明的聊天信息的语音播报装置的一个实施例的模块示意图;
图9为根据本发明的计算机设备的一个实施例的模块示意图。
具体实施方式
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。下面结合各个图和实施例对本发明的技术方案进行多方面的描述。
图1为根据本发明的聊天信息的语音播报方法的一个实施例的流程示意图,如图1所示:
步骤101,设置播报队列。
可以预先设置一个空的播报队列,播报队列用于承载语音播报功能中的语音信息。播报队列可以采用多种实现方式,例如为一个可变数组(NSMutableArray)等。
步骤102,当检测到开启语音播报功能时,获得与在即时通信软件的聊天界面中显示的聊天消息相对应的聊天消息信息、聊天消息ID,将聊天消息信息和聊天消息ID添加在播报消息队列中。
即时通信软件可以为QQ、微信等的APP等,即时通信软件可以将群聊用户的聊天消息信息、聊天消息ID按接收聊天消息的时间先后顺序添加到播报队列中,等待处理。聊天消息信息包括:消息类型、消息内容信息、消息发送者和消息接收时间等,消息类型包括:文本类型、音频类型、文件类型、图片类型等。可以根据需求设计播报队列中的元素的数据结构,用于缓存聊天消息信息和聊天消息ID。
例如,即时通信软件可以提供一个按钮或者一个开关,用户点击后开启播报,即时通信软件在每收到一条群聊中的新消息时,调用添加任务方法,将新消息加入到播报队列中。如果消息类型是音频类型,可以后台静默下载该音频文件信息到本地,以供于播报到该条信息时使用该条音频信息。
步骤103,从播报队列中获取聊天消息信息和聊天消息ID,对聊天消息信息进行语音播报处理。对播报队列进行遍历,按照先进先出的规则从播报队列中获取聊天消息信息和聊天消息ID,基于聊天消息信息的获取顺序对聊天消息信息进行语音播报处理,例如播放发送者、消息内容等信息;将进行了语音播报处理后的聊天消息信息以及聊天消息ID删除或备份在其他的存储单元中,例如,备份在存储卡上的存储单元等。
在播报队列中新增聊天消息信息和聊天消息ID前,先检测播报队列中是否还有其它未处理的聊天消息信息,如果是,则表明语音播报任务正在进行中,如果否,则表示语音播报任务已经全部完成,在播报队列中新加入聊天消息信息和聊天消息ID,则需要重新开始语音播报处理。开启播报或者重新开始语音播报时,对播报队列中的元素进行遍历并进行语音播报。
步骤104,当检测到启动返回聊天功能时,获得与当前进行语音播报处理的聊天消息信息相对应的聊天消息ID,将此聊天消息ID传回即时通信软件,以使即时通信软件基于此聊天消息ID在聊天界面中定位当前显示的聊天消息。
记录现在正在播报的聊天消息信息对应的聊天消息ID,用户如果需要返回聊天界面,将此聊天消息ID回传给即时通信软件,即时通信软件则根据聊天消息ID在聊天界面中定位到当前正在播放的聊天消息,可以重新定位到当前正在阅读的聊天消息的位置。
在一个实施例中,根据消息类型对应的语音播报模式并使用消息内容信息、消息发送者和消息接收时间中的至少一个进行语音播报处理。图2为根据本发明的聊天信息的语音播报方法的一个实施例中的对于文本类型的消息进行语音播报的流程示意图,消息类型为文本类型,消息内容信息为在聊天界面中显示的文本信息;如图2所示:
步骤201,如果消息类型为文本类型,从播报队列中获取聊天消息信息,从聊天消息信息中提取文本信息和消息发送者信息,生成播报文本信息,播报文本信息包括:文本信息和消息发送者信息。
步骤202,基于TTS语音合成技术将播报文本信息合成为语音文件并进行语音播报。TTS(Text to Speech)语音合成技术,是将任意文字信息实时转化为标准流畅的自然语音并朗读出来。
例如,如果在即时通信软件的聊天界面中显示的聊天消息是一个文本消息,则生成播报文本信息为文本信息+消息发送者信息,利用ios系统的TTS技术,将其转化成为语音直接播放,可以采用导入ios系统的的AVFoundation方法将播报文本信息合成为语音文件并进行语音播报。
图3为根据本发明的聊天信息的语音播报方法的一个实施例中的对于音频类型的消息进行语音播报的流程示意图,如图3所示:
步骤301,如果确定在即时通信软件的聊天界面中显示的聊天消息为音频文件,则下载音频文件并缓存到本地,其中,将聊天消息信息的消息类型设置为音频类型,将聊天消息信息的消息内容信息设置为音频文件的存储地址。
步骤302,从播报队列中获取聊天消息信息,从聊天消息信息中提取消息类型,如果消息类型为音频类型,则从聊天消息信息中提取音频文件的存储地址,根据音频文件的存储地址判断此音频文件是否已完成下载。
步骤303,如果是,则利用音频播放器播放此音频文件,如果否,则重新下载此音频文件,在下载完成后利用音频播放器播放此音频文件。例如,如果音频文件已经下载好了,则直接利用ios系统提供的AVAudioPlayer类库来播放音频文件;如果音频文件没有下载好,则直接重新开始下载音频文件,下载完成后继续播报这条音频文件。
图4为根据本发明的聊天信息的语音播报方法的一个实施例中的对于图片类型的消息进行语音播报的流程示意图,聊天消息信息的消息类型为图片类型,聊天消息信息的消息内容信息为在聊天界面中的显示图片;从播报队列中获取聊天消息信息,从聊天消息信息中提取消息类型,如果消息类型为图片类型,则从聊天消息信息中提取显示图片,如图4所示:
步骤401,对显示图片进行ocr识别。可以通过光学字符识别(Optical CharacterRecognition,OCR)将显示图片中的文字识别出来。
光学字符识别(Optical Character Recognition,OCR)是指通过图像处理和模式识别技术对图片中的光学字符进行识别,并将光学字符翻译成计算机文字。在获取显示图片之后,通过OCR识别算法对显示图片进行识别,并直接返回显示图片的OCR识别结果。
步骤402,如果能够从显示图片中识别出文字信息,则基于此文字信息生成播报文本信息,基于TTS语音合成技术将此播报文本信息合成为语音文件并进行语音播报。
步骤403,如果不能从显示图片中识别出文字信息,则基于机器学习识别方式对显示图片进行识别,得到目标对象,其中,目标对象包括以下至少一项:物体对象、场景对象、颜色对象。
步骤404,基于目标对象生成播报文本信息,基于TTS语音合成技术将此播报文本信息合成为语音文件并进行语音播报。
例如,如果在即时通信软件的聊天界面中显示的聊天消息为图片类型,对图片进行ocr识别,如果未识别到文字,则基于机器学习识别方式对图片进行识别检测,识别出图片中的通用物体及场景标签,并将生成的文字内容进行播放。
机器学习识别方式可以有多种。例如,采用卷积神经网络模型对待识别图像进行识别。
建立与识别待识别图像使用的卷积神经网络,获取训练图像,将训练图像的物体对象、场景对象、颜色对象进行标注,采用训练图像对对卷积神经网络模型进行训练,利用训练好的卷积神经网络模型对待识别图像进行识别,识别出图片中的物体及场景信息,根据物体及场景信息生成播报文本,基于TTS语音合成技术将此播报文本信息合成为语音文件并进行语音播报。
图5为根据本发明的聊天信息的语音播报方法的一个实施例中的对于文件类型的消息进行语音播报的流程示意图,如图5所示,
步骤501,如果确定在即时通信软件的聊天界面中显示的聊天消息为文件类型信息,则将消息类型设置为文件类型,将消息内容信息设置为此文件类型信息的文件名信息。
步骤502,从播报队列中获取聊天消息信息,从聊天消息信息中提取消息类型,如果消息类型为文件类型,则从聊天消息信息中提取文件名信息,基于文件名信息、消息发送者和消息接收时间生成播报文本信息,基于TTS语音合成技术将此播报文本信息合成为语音文件并进行语音播报。
例如,在即时通信软件的聊天界面中显示的聊天消息为李四发送的一个pdf类型的文件,则生成播报文本信息为“李四发送了一个pdf类型的文件”,然后将此播报文本信息合成为语音文件并进行语音播报。
图6为根据本发明的聊天信息的语音播报方法的一个实施例中的返回聊天界面的处理流程示意图,如图6所示:
步骤601,如果正在进行语音播报的过程中检测到停止语音播报功能时,将与当前进行语音播报处理的聊天消息信息相对应的聊天消息ID传回即时通信软件。
步骤602,即时通信软件根据此聊天消息ID映射到在即时通信软件的聊天界面中显示的聊天消息,对此聊天消息在聊天界面中的位置进行定位并在聊天界面中滚动至此位置。
例如,如果正在播报的过程中,用户点击了回到聊天按钮,则调用系统提供的回到聊天的方法,将与当前进行语音播报处理的聊天消息信息相对应的聊天消息ID回传给即时通信软件,即时通信软件可以根据聊天消息ID映射到原消息,可以遍历出这条消息在聊天界面中显示的数据中的位置,对原消息在整个聊天信息列表中的位置进行定位并滚动到此位置。可以直接调用系统的api实现滚动到聊天界面中的任意地方,回传参数可以使用NSNotification或者Delegate等接口方法。
图7为根据本发明的聊天信息的语音播报方法的一个实施例中的暂停语音播报的处理流程示意图,如图7所示:
步骤701,当检测到暂停语音播报功能时,如果当前有正在进行语音播报处理的聊天消息信息,则暂停处理。
步骤702,当检测到恢复语音播报功能时,如果检测到播报队列还有未处理的聊天消息信息,则优先对此未处理的聊天消息信息进行语音播报处理。播报队列里排队的聊天消息信息都是待处理的,已处理过聊天消息信息的会被删除或者转存至其他位置。
例如,如果用户点击了暂停播报,检测当前是否有正在播报的任务,没有则不处理,有则暂停正在播报的任务。如果用户点击了恢复播报,则会检测当前正在播报的任务是否有暂停,如果有则继续播报。
在一个实施例中,如图8所示,本发明提供一种聊天信息的语音播报装置80,包括:队列设置模块81、消息添加模块82、播报处理模块83和停止处理模块84。
队列设置模块81设置播报队列。当检测到开启语音播报功能时,消息添加模块82获得与在即时通信软件的聊天界面中显示的聊天消息相对应的聊天消息信息、聊天消息ID,将聊天消息信息和聊天消息ID添加在播报消息队列中。播报处理模块83从播报队列中获取聊天消息信息和聊天消息ID,对聊天消息信息进行语音播报处理。停止处理模块84当检测到启动返回聊天功能时,获得与当前进行语音播报处理的聊天消息信息相对应的聊天消息ID,在所述即时通信软件的聊天界面中定位所述聊天消息ID对应的聊天消息,并在所述聊天界面中滚动至定位到的位置。
在一个实施例中,聊天消息信息包括:消息类型、消息内容信息、消息发送者和消息接收时间;其中,消息类型包括:文本类型、音频类型、文件类型、图片类型。播报处理模块83根据消息类型对应的语音播报模式并使用消息内容信息、消息发送者和消息接收时间中的至少一个进行语音播报处理。
如果消息类型为文本类型,播报处理模块83生成播报文本信息,其中,播报文本信息包括:文本信息和消息发送者信息。播报处理模块83基于TTS语音合成技术将播报文本信息合成为语音文件并进行语音播报。
如果确定在即时通信软件的聊天界面中显示的聊天消息为音频文件,则消息添加模块82下载音频文件并缓存到本地,其中,将消息类型设置为音频类型,将消息内容信息设置为音频文件的存储地址。播报处理模块83根据音频文件的存储地址判断此音频文件是否已完成下载,如果是,则利用音频播放器播放此音频文件,如果否,则重新下载此音频文件,在下载完成后利用音频播放器播放此音频文件。
如果消息类型为图片类型,消息内容信息为在聊天界面中的显示图片。播报处理模块83对显示图片进行ocr识别。如果能够从显示图片中识别出文字信息,则播报处理模块83基于此文字信息生成播报文本信息,基于TTS语音合成技术将此播报文本信息合成为语音文件并进行语音播报。如果不能从显示图片中识别出文字信息,则播报处理模块83基于机器学习识别方式对显示图片进行识别,得到目标对象,其中,目标对象包括以下至少一项:物体对象、场景对象、颜色对象。播报处理模块83基于目标对象生成播报文本信息,基于TTS语音合成技术将此播报文本信息合成为语音文件并进行语音播报。
如果确定在即时通信软件的聊天界面中显示的聊天消息为文件类型信息,则消息添加模块82将消息类型设置为文件类型,将消息内容信息设置为此文件类型信息的文件名信息。播报处理模块83基于文件名信息、消息发送者和消息接收时间生成播报文本信息,基于TTS语音合成技术将此播报文本信息合成为语音文件并进行语音播报。
如果正在进行语音播报的过程中检测到启动返回聊天功能时,停止处理模块84将与当前进行语音播报处理的聊天消息信息相对应的聊天消息ID传回即时通信软件,即时通信软件根据此聊天消息ID映射到在即时通信软件的聊天界面中显示的聊天消息,对此聊天消息在聊天界面中的位置进行定位并在聊天界面中滚动至此位置。
当停止处理模块84检测到启动暂停语音播报功能时,如果当前有正在进行语音播报处理的聊天消息信息,则暂停处理。当停止处理模块84检测到恢复语音播报功能时,如果检测到播报队列还有未处理的聊天消息信息,则优先对此未处理的聊天消息信息进行语音播报处理。
在一个实施例中,如图9所示,本发明提供一种计算机设备,计算机设备可以为智能终端等,包括存储器91和处理器92,存储器91用于存储指令,处理器92耦合到存储器91,处理器92被配置为基于存储器91存储的指令执行实现上述的聊天信息的语音播报方法。
存储器91可以为高速RAM存储器、非易失性存储器(non-volatile memory)等,存储器91也可以是存储器阵列。存储器91还可能被分块,并且块可按一定的规则组合成虚拟卷。处理器92可以为中央处理器CPU,或专用集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明的聊天信息的语音播报方法的一个或多个集成电路。
根据本发明的再一方面,提供一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,指令被处理器执行如上任一实施例的聊天信息的语音播报方法。
上述实施例中的聊天信息的语音播报方法、装置、计算机设备以及存储介质,能够对在即时通信软件的聊天界面中显示的聊天消息进行语音播报,可以根据聊天消息类型进行相应地处理,并提供返回聊天、暂停播报等功能;使用户做其它的事情期间,也可以获得即时通信工具的聊天信息,避免了用户在做其它的事情期间中因查看聊天消息而带来的安全隐患,并可以方便快捷的获知即时聊天信息,提高用户的使用感受度。
可能以许多方式来实现本发明的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所发明的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
Claims (9)
1.一种聊天信息的语音播报方法,其特征在于,包括:
设置播报队列;
当检测到开启语音播报功能时,获得与在即时通信软件的聊天界面中显示的聊天消息相对应的聊天消息信息、聊天消息ID,将所述聊天消息信息和所述聊天消息ID按接收聊天消息的时间先后顺序依次添加在所述播报队列中;
依次从所述播报队列中获取所述聊天消息信息和所述聊天消息ID,对所述聊天消息信息进行语音播报处理,对播报队列进行遍历,按照先进先出的规则从播报队列中获取聊天消息信息和聊天消息ID,基于聊天消息信息的获取顺序对聊天消息信息进行语音播报处理,将进行了语音播报处理后的聊天消息信息以及聊天消息ID删除或备份在其他的存储单元中;
当检测到启动返回聊天功能或停止语音播报功能时,获得与当前进行语音播报处理的聊天消息信息相对应的所述聊天消息ID,在所述即时通信软件的聊天界面中定位所述聊天消息ID对应的聊天消息,并在所述聊天界面中滚动至定位到的位置;
其中,所述聊天消息信息包括:消息类型、消息内容信息、消息发送者和消息接收时间;其中,所述消息类型包括:文本类型、音频类型、文件类型、图片类型;所述对所述聊天消息信息进行语音播报处理包括:根据所述消息类型对应的语音播报模式,使用所述消息内容信息、所述消息发送者和所述消息接收时间中的至少一个进行语音播报处理。
2.如权利要求1所述的方法,其特征在于,所述消息类型为文本类型,所述消息内容信息为在聊天界面中显示的文本信息;
所述对所述聊天消息信息进行语音播报处理包括:
如果所述消息类型为文本类型,生成播报文本信息,其中,所述播报文本信息包括:所述文本信息和消息发送者信息;
基于TTS语音合成技术将所述播报文本信息合成为语音文件并进行语音播报。
3.如权利要求1所述的方法,其特征在于,所述获得与在即时通信软件的聊天界面中显示的聊天消息相对应的聊天消息信息包括:
如果确定在即时通信软件的聊天界面中显示的聊天消息为音频文件,则下载所述音频文件并缓存到本地,其中,将所述消息类型设置为音频类型,将所述消息内容信息设置为所述音频文件的存储地址;
所述对所述聊天消息信息进行语音播报处理包括:
如果所述消息类型为音频类型,则根据所述音频文件的存储地址判断此音频文件是否已完成下载,如果是,则利用音频播放器播放此音频文件,如果否,则重新下载此音频文件,在下载完成后利用音频播放器播放此音频文件。
4.如权利要求1所述的方法,其特征在于,所述消息类型为图片类型,所述消息内容信息为在聊天界面中的显示图片;
所述对所述聊天消息信息进行语音播报处理包括:
对所述显示图片进行ocr识别;
如果能够从所述显示图片中识别出文字信息,则基于此文字信息生成播报文本信息,基于TTS语音合成技术将此播报文本信息合成为语音文件并进行语音播报;
如果不能从所述显示图片中识别出文字信息,则基于机器学习识别方式对所述显示图片进行识别,得到目标对象,其中,所述目标对象包括以下至少一项:物体对象、场景对象、颜色对象;基于所述目标对象生成播报文本信息,基于TTS语音合成技术将此播报文本信息合成为语音文件并进行语音播报。
5.如权利要求1所述的方法,其特征在于,所述获得与在即时通信软件的聊天界面中显示的聊天消息相对应的聊天消息信息包括:
如果确定在即时通信软件的聊天界面中显示的聊天消息为文件类型信息,则将所述消息类型设置为文件类型,将所述消息内容信息设置为此文件类型信息的文件名信息;
所述对所述聊天消息信息进行语音播报处理包括:
如果所述消息类型为文件类型,则基于文件名信息、消息发送者和消息接收时间生成播报文本信息,基于TTS语音合成技术将此播报文本信息合成为语音文件并进行语音播报。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
当检测到启动暂停语音播报功能时,如果当前有正在进行语音播报处理的所述聊天消息信息,则暂停处理;当检测到恢复语音播报功能时,如果检测到播报队列还有未处理的所述聊天消息信息,则优先对此未处理的所述聊天消息信息进行语音播报处理。
7.一种聊天信息的语音播报装置,其特征在于,包括:
队列设置模块,用于设置播报队列;
消息添加模块,用于当检测到开启语音播报功能时,获得与在即时通信软件的聊天界面中显示的聊天消息相对应的聊天消息信息、聊天消息ID,将所述聊天消息信息和所述聊天消息ID按接收聊天消息的时间先后顺序依次添加在所述播报队列中;
播报处理模块,用于依次从所述播报队列中获取所述聊天消息信息和所述聊天消息ID,对所述聊天消息信息进行语音播报处理,对播报队列进行遍历,按照先进先出的规则从播报队列中获取聊天消息信息和聊天消息ID,基于聊天消息信息的获取顺序对聊天消息信息进行语音播报处理,将进行了语音播报处理后的聊天消息信息以及聊天消息ID删除或备份在其他的存储单元中;
停止处理模块,用于当检测到启动返回聊天功能或停止语音播报功能时,获得与当前进行语音播报处理的聊天消息信息相对应的所述聊天消息ID,在所述即时通信软件的聊天界面中定位所述聊天消息ID对应的聊天消息,并在所述聊天界面中滚动至定位到的位置;
其中,所述聊天消息信息包括:消息类型、消息内容信息、消息发送者和消息接收时间;其中,所述消息类型包括:文本类型、音频类型、文件类型、图片类型;所述对所述聊天消息信息进行语音播报处理包括:根据所述消息类型对应的语音播报模式,使用所述消息内容信息、所述消息发送者和所述消息接收时间中的至少一个进行语音播报处理。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行如权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811286723.7A CN109660446B (zh) | 2018-10-31 | 2018-10-31 | 聊天信息的语音播报方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811286723.7A CN109660446B (zh) | 2018-10-31 | 2018-10-31 | 聊天信息的语音播报方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109660446A CN109660446A (zh) | 2019-04-19 |
CN109660446B true CN109660446B (zh) | 2022-11-04 |
Family
ID=66110614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811286723.7A Active CN109660446B (zh) | 2018-10-31 | 2018-10-31 | 聊天信息的语音播报方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109660446B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047214A (zh) * | 2019-04-23 | 2019-07-23 | 深圳市丰巢科技有限公司 | 一种快递柜语音播报的配置方法、装置、设备及存储介质 |
CN112333337B (zh) * | 2019-07-17 | 2021-11-23 | 腾讯科技(深圳)有限公司 | 一种消息查看方法、装置、设备及存储介质 |
CN110502300A (zh) * | 2019-08-14 | 2019-11-26 | 上海掌门科技有限公司 | 语音播放方法、设备以及计算机可读介质 |
WO2021238353A1 (zh) * | 2020-05-29 | 2021-12-02 | 海信视像科技股份有限公司 | 一种显示方法及显示设备 |
CN111970185B (zh) * | 2020-07-06 | 2022-08-30 | 惠州市德赛西威汽车电子股份有限公司 | 一种主动式车载语音交互方法和系统 |
CN113012679A (zh) * | 2021-02-20 | 2021-06-22 | 北京百度网讯科技有限公司 | 通过语音播报消息的方法、设备和介质 |
CN113285868B (zh) * | 2021-04-29 | 2022-10-04 | 上海掌门科技有限公司 | 任务生成方法、设备以及计算机可读介质 |
CN113489833B (zh) * | 2021-06-29 | 2022-11-04 | 维沃移动通信有限公司 | 信息播报方法、装置、设备及存储介质 |
CN115499397B (zh) * | 2022-09-08 | 2023-11-17 | 亿咖通(湖北)技术有限公司 | 一种信息回复方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104991894A (zh) * | 2015-05-14 | 2015-10-21 | 深圳市万普拉斯科技有限公司 | 即时聊天信息浏览方法和系统 |
CN105141496A (zh) * | 2014-05-29 | 2015-12-09 | 腾讯科技(深圳)有限公司 | 一种即时通信消息播放方法及装置 |
CN106155458A (zh) * | 2015-04-01 | 2016-11-23 | 腾讯科技(深圳)有限公司 | 一种多媒体消息播放方法及装置 |
CN106648291A (zh) * | 2016-09-28 | 2017-05-10 | 珠海市魅族科技有限公司 | 一种信息显示、信息播报的方法及装置 |
-
2018
- 2018-10-31 CN CN201811286723.7A patent/CN109660446B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105141496A (zh) * | 2014-05-29 | 2015-12-09 | 腾讯科技(深圳)有限公司 | 一种即时通信消息播放方法及装置 |
CN106155458A (zh) * | 2015-04-01 | 2016-11-23 | 腾讯科技(深圳)有限公司 | 一种多媒体消息播放方法及装置 |
CN104991894A (zh) * | 2015-05-14 | 2015-10-21 | 深圳市万普拉斯科技有限公司 | 即时聊天信息浏览方法和系统 |
CN106648291A (zh) * | 2016-09-28 | 2017-05-10 | 珠海市魅族科技有限公司 | 一种信息显示、信息播报的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109660446A (zh) | 2019-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109660446B (zh) | 聊天信息的语音播报方法、装置、计算机设备及存储介质 | |
US10425679B2 (en) | Method and device for displaying information on video image | |
CN110139121B (zh) | 基于直播的物品发布方法、装置、电子设备及存储介质 | |
US10417514B2 (en) | Apparatus and method for reproducing handwritten message by using handwriting data | |
CN107801096B (zh) | 视频播放的控制方法、装置、终端设备及存储介质 | |
CN106998494B (zh) | 一种视频录制方法及相关装置 | |
CN110795056B (zh) | 调节显示参数的方法、装置、终端及存储介质 | |
CN108304762B (zh) | 一种人体姿态匹配方法及其设备、存储介质、终端 | |
CN113850746A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN106921883B (zh) | 一种视频播放处理的方法及装置 | |
CN111526411A (zh) | 视频的处理方法、装置、设备及介质 | |
CN111629253A (zh) | 视频处理方法及装置、计算机可读存储介质、电子设备 | |
CN104508689A (zh) | 一种二维码处理方法和终端 | |
EP3461136A1 (en) | Video playing method and device | |
CN113038185B (zh) | 弹幕处理方法及装置 | |
CN112351093A (zh) | 截屏图像共享方法、装置、设备及计算机可读存储介质 | |
CN105808231B (zh) | 录制与播放脚本的系统及方法 | |
CN104010223A (zh) | 接管终端系统进行视频播放的方法和系统 | |
CN112163993A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN112866577B (zh) | 图像的处理方法、装置、计算机可读介质及电子设备 | |
CN106254953B (zh) | 一种图片显示方法及装置、图片接收终端 | |
CN112887781A (zh) | 字幕处理方法及装置 | |
CN112926546A (zh) | 一种弹幕的发送方法、装置、设备及可读存储介质 | |
EP3876543A1 (en) | Video playback method and apparatus | |
CN114765692B (zh) | 一种直播数据处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |