CN108874904A - 语音消息搜索方法、装置、计算机设备及存储介质 - Google Patents

语音消息搜索方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN108874904A
CN108874904A CN201810508827.1A CN201810508827A CN108874904A CN 108874904 A CN108874904 A CN 108874904A CN 201810508827 A CN201810508827 A CN 201810508827A CN 108874904 A CN108874904 A CN 108874904A
Authority
CN
China
Prior art keywords
message
speech message
segment
speech
complete
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810508827.1A
Other languages
English (en)
Other versions
CN108874904B (zh
Inventor
张雨嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810508827.1A priority Critical patent/CN108874904B/zh
Priority to PCT/CN2018/101062 priority patent/WO2019223134A1/zh
Publication of CN108874904A publication Critical patent/CN108874904A/zh
Application granted granted Critical
Publication of CN108874904B publication Critical patent/CN108874904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/18Commands or executable codes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/10Multimedia information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/216Handling conversation history, e.g. grouping of messages in sessions or threads

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例提供一种语音消息搜索方法、装置、计算机设备及可读存储介质。所述方法包括:将获取的完整语音消息进行分段形成多段片段语音消息,并将所述多段片段语音消息和所述完整语音消息对应的文本消息发送到目标终端;保存所述完整语音消息和所述完整语音消息对应的文本消息;若接收到第一消息搜索指令,从保存的所述文本消息中搜索与所述第一消息搜索指令匹配的文本消息作为第一文本消息;将所述第一文本消息对应的语音消息搜索结果作为第一搜索结果进行显示,所述第一搜索结果包括所述第一文本消息所对应的完整语音消息。本发明实施通过在发送方将语音消息进行分段,并将分段后的多段片段语音消息发送到目标终端,提升了用户的体验。

Description

语音消息搜索方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种语音消息搜索方法、装置、计算机设备及存储介质。
背景技术
即时通信工具如微信、QQ等,已经成为人们工作生活中必不可少的交流工具。我们在使用此类工具时,通过视觉和听觉感知的聊天内容在脑海里会留下印象,然而随着时间的流逝,内容不是很清晰。为了了解之前的聊天内容,我们经常会用搜索功能,从而定位到当时的聊天记录。为了方便用户查找、定位历史消息记录,大多数现有的通信工具都为用户提供了历史消息记录的查询功能,然而拥有这一功能的通讯工具均只能查询、定位到用户的文字消息记录,忽略了用户对查询、定位语音消息记录的需求,导致用户查找语音消息的过程极其繁琐,严重影响用户体验。另一方面,用户在使用此类通信工具进行语音聊天时会遇到以下情况:若使用聊天工具的是老人、或者小孩等,由于他们不太会使用聊天工具,因此存在发送的语音消息很长,如超过1分钟等;或者用户在说一件事情时,不想发多条语音,而希望通过一条语音就把该事情相关的问题说清楚,那么可能会导致该条语音消息很长,如超过60s等。现有技术中,若语音消息达到60s就会自动发送,不能再接着进行录制了,这会导致一些想录制更长语音消息(超过60s)的用户体验不高。另外,当接收端接收到长语音消息后,却又不想读这么长的语音消息,从而影响用户体验。
发明内容
本发明实施例提供一种语音消息搜索方法、装置、计算机设备及存储介质,可对语音消息进行搜索并将语音消息搜索结果进行显示。
第一方面,本发明实施例提供了一种语音消息搜索方法,应用于一终端,该方法包括:
将获取的完整语音消息进行分段形成多段片段语音消息,并将所述多段片段语音消息和所述完整语音消息对应的文本消息发送到目标终端;
保存所述完整语音消息和所述完整语音消息对应的文本消息;
若接收到第一消息搜索指令,从保存的所述文本消息中搜索与所述第一消息搜索指令匹配的文本消息作为第一文本消息;
将所述第一文本消息对应的语音消息搜索结果作为第一搜索结果进行显示,其中,所述第一搜索结果包括所述第一文本消息所对应的完整语音消息。
第二方面,本发明实施例提供了一种语音消息搜索装置,该装置包括用于执行上述第一方面所述的一种语音消息搜索方法的单元。
第三方面,本发明实施例提供了一种计算机设备,所述计算机设备包括存储器,以及与所述存储器相连的处理器;
所述存储器用于存储计算机程序,所述处理器用于运行所述存储器中存储的计算机程序,以执行上述第一方面所述的语音消息搜索方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现上述第一方面所述的语音消息搜索方法。
本发明实施例通过对语音消息进行搜索,得到与消息搜索指令匹配的语音消息并显示语音消息搜索结果,可方便用户查看与消息搜索指令匹配的语音消息,提高了查询语音消息的效率,提升了用户的体验;通过在发送时将语音消息进行分段,并将分段后的片段语音消息发送到目标终端,以避免目标终端对应的用户不想阅读太长的语音消息,进一步提升了用户的体验。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音消息搜索方法的流程示意图;
图2是本发明实施例提供的一种语音消息搜索方法的子流程示意图;
图3是本发明另一实施例提供的一种语音消息搜索方法的子流程示意图;
图4是本发明实施例提供的一种语音消息搜索方法的另一子流程示意图;
图5是本发明实施例提供的第二语音消息搜索结果显示的示例图;
图6是本发明施例提供的一种语音消息搜索装置的示意性框图;
图7是本发明实施例提供的分段发送单元的示意性框图;
图8是本发明另一实施例提供的分段发送单元的示意性框图;
图9是本发明另一实施例提供的语音消息搜索装置的示意性框图;
图10是本发明实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。也应当理解,尽管术语第一、第二等可以在此用来描述各种元素,但这些元素不应该受限于这些术语。这些术语仅用来将这些元素彼此区分开。例如,在不脱离本发明范围的前提下,第一获取单元可以被称为第二获取单元,并且类似地,第二获取单元可以被称为第一获取单元。第一获取单元和第二获取单元均为获取单元,但它们并非同一获取单元。
以下描述的终端包括但不限于具有显示器和/或触摸板的移动电话、膝上型计算机或平板计算机之类的便携式设备。还应当理解的是,在某些实施例中,所述终端还包括非便携式设备,如台式计算机等。需要注意的是,终端中安装有可以发送语音消息的即时通信工具如微信、QQ等。终端可以发送语音消息,也可以接收语音消息。
图1为本发明实施例提供的一种语音消息搜索方法的流程示意图。该方法应用于一终端中,在该实施例中,该终端发送语音消息到目标终端。该方法包括以下步骤S101-S104。
S101,将获取的完整语音消息进行分段形成多段片段语音消息,并将所述多段片段语音消息和所述完整语音消息对应的文本消息发送到目标终端。
其中,将获取的完整语音消息进行分段,可以理解为在录音的过程中,边录音边将所获取的语音消息进行分段,在录音完成时,将获取的语音消息作为完整语音消息;也可以理解为在完成录音后,将所获取的完整语音消息进行分段。把分段后形成的语音消息称为片段语音消息。完整语音消息包括多段片段语音消息,即所有片段语音消息。将所有片段语音消息发送到目标终端,可以理解为将分段后所有片段语音消息一起发送到目标终端,也可以理解为形成一个片段语音消息后,就将该片段语音消息发送到目标终端,直至所有片段语音消息都发送至目标终端。还需要发送到目标终端的信息包括完整语音消息对应的文本消息。可以理解地,在该实施例中,目标终端可以理解为接收所有片段语音消息的一端。其中,完整语音消息对应的文本消息可以是在录音的过程中,边录音边将所获取的语音消息转换为文字,在录音完成且转化完成后,将所得到的所有文字作为完整语音消息对应的文本消息;也可以是在完成录音后,将所录制的完整语音消息转换为对应的文本消息。其中,通过语音识别算法将完整语音消息转换为对应的文本消息。
S102,保存所述完整语音消息和所述完整语音消息对应的文本消息。在终端中,仍保存本次录音的完整语音消息和该完整语音消息对应的文本消息。
S103,若接收到第一消息搜索指令,从保存的文本消息中搜索与第一消息搜索指令匹配的文本消息作为第一文本消息。
其中,第一消息搜索指令中包括第一关键词。根据第一消息搜索指令,从保存的文本消息中搜索与第一消息搜索指令匹配的文本消息,包括:根据第一消息搜索指令中的第一关键词,从保存的文本消息中搜索与第一关键词匹配的文本消息。将搜索出的文本消息作为第一文本消息。具体地,可在即时通信工具如微信主页上的搜索查询项中输入第一关键词,点击搜索按钮或者检测到输入完成,生成第一消息搜索指令;也可打开具体的通信对象如聊天对象,在具体的通信对象相应的界面中找到“查找聊天记录”等相关按钮,点击该按钮后,输入第一关键词,点击搜索按钮或者检测到输入完成,即生成第一消息搜索指令,其中,通信对象可以是单个的联系人,也可以是群组。其中,第一关键词输入的方式,包括文本形式和语音形式。语音形式输入的第一关键词,需要根据语音识别算法将语音转换为对应的文本形式的第一关键词。根据第一消息搜索指令中的第一关键词,搜索与第一关键词匹配的文本消息,如关键词为“动物园”,在保存的文本消息中搜索,若搜索到包括与“动物园”相关的文本消息,那么就认为该文本消息是与第一关键词匹配的文本消息,将该文本消息作为第一文本消息。其中,搜索包括各种方式的搜索,如模糊搜索、精确搜索等。
在一些实施例中,第一消息搜索指令中还可以包括在两个时间段中选择的目标时间段信息,即第一消息搜索指令中还可以包括时间信息;在一些实施例中,第一消息搜索指令中还可以包括在有关至少两个联系人的界面中选择的目标联系人信息,即第一消息搜索指令中还可以包括目标联系人信息。
S104,将所述第一文本消息对应的语音消息搜索结果作为第一搜索结果进行显示,其中,所述第一搜索结果包括所述第一文本消息所对应的完整语音消息。
具体地,按照第一预设格式进行显示。其中,第一预设格式包括:完整语音消息、完整语音消息中第一关键词前后对应的预设字数的文本内容。第一预设格式还可以包括:完整语音消息对应的发送人信息、完整语音消息发送完成的时间。其中,第一关键词可以高亮显示,如区分颜色或者加粗等,发送人信息包括发送人昵称和/或发送人头像等,完整语音信息包括完整语音和/或完整语音消息时长等;预设字数包括关键词的字数,预设次数可以设置为具体字数,如16个字等,也可以根据其他的规则设置为其他的字数。若语音消息对应的文本消息的总字数超过预设字数,预设字数以外的其他文本可以用省略号代替。如关键词为:吃饭,预设字数为16,那么文本消息可以显示为:...你在哪个地方吃饭,发个定位给...。
本发明实施例通过对语音消息进行搜索,得到与第一消息搜索指令匹配的语音消息并显示语音消息搜索结果,可方便用户查看与第一消息搜索指令匹配的语音消息,提高了查询语音消息的效率,提升了用户的体验;通过在发送方将语音消息进行分段,并将分段后的多段片段语音消息发送到目标终端,以避免目标终端的用户不想阅读太长的语音消息,进一步提升了用户的体验。
在一实施例中,如图2所示,步骤S101包括步骤S201-S203。
S201,若检测到开始录音,根据预设分段条件定位所获取到的语音消息的分段点。
在即时通信工具中,若检测到点击或者按住录音按钮,即检测到开始录音;也可在即时通信工具中,添加“长语音功能”相关的按钮,若检测到点击或者按住该“长语音功能”相关的按钮,即检测到开始录音。边录音边定位分段点,对应地,所获取到的语音消息是边录音边形成的语音消息。根据预设分段条件定位所获取到的语音消息的分段点,包括:根据语音消息的时间定位所获取到的语音消息的分段点,或者根据语音消息的时间和说话停顿位置来定位所获取到的语音消息的分段点。
根据语音消息的时间定位所获取到的语音消息的分段点,包括:根据第一预设时间定位所获取到的语音消息的分段点。如第一预设时间为60s,检测到语音消息的时间到达第一预设时间60s时,将60s作为一个分段点;检测到语音消息的时间到达120s时,将120s作为一个分段点。可以理解地,每隔第一预设时间的间隔将语音消息进行分段,如每隔60s的间隔将语音消息进行分段。该种定位分段点的方式简单,可以提高分段的效率。
根据语音消息的时间和说话停顿位置来定位所获取到的语音消息的分段点,包括:判断语音消息的时间是否达到预设最小分段时间;若达到预设最小分段时间且未达到预设最大分段时间,检测语音消息中的说话停顿位置;若检测到说话停顿位置,根据说话停顿位置定位所获取到的语音消息的分段点;若未检测到说话停顿位置且语音消息的时间达到预设最大分段时间,根据该最大分段时间定位所获取到的语音消息的分段点。可以理解地,若语音消息的时间达到预设最小分段时间且未达到预设最大分段时间,将检测到的说话停顿位置作为分段点,若未检测到说话停顿位置且语音消息的时间达到预设最大分段时间,将该最大分段时间作为分段点。其中,预设最小分段时间可以为30s等,预设最大分段时间可以为60s等。可以根据语音消息对应的声波变化来检测说话停顿位置,如若检测到语音消息中的一段声波平均振幅比较高,而接下来检测到声波平均振幅比较低,若声波平均振幅比较低对应的时长达到预设时长,将该达到预设时长的点对应的语音消息的时间作为说话停顿位置。定位分段点,可以理解为找到并保存分段点所在的位置,如找到并保存分段点对应的语音消息的时间。该种定位分段点的方式考虑到说话停顿点和语音消息的时间,以用户的体验为出发点,提升用户的体验。
该实施例中,第一预设时间、预设最小分段时间、预设最大分段时间可以是系统预先设置的;也可以根据用户的习惯进行设置,即接收用户的设置。第一预设时间、预设最小分段时间、预设最大分段时间等设置好后,可以进行修改,如可以接收用户修改的对应时长,也可以根据用户的反馈,接收服务器设置的另一些合适的对应时长作为新的对应时长。
S202,若检测到录音结束,将所获取到的语音消息作为完整语音消息,将所述完整语音消息通过语音识别算法转换为文本消息。
在即时通信工具中,若检测到点击或者松开录音按钮,即检测到录音结束;若检测到点击或者松开“长语音功能”相关的按钮,即检测到录音结束。若检测到录音结束,将录制的完整语音消息通过语音识别算法转换为文本消息。
S203,根据所述分段点将所述完整语音消息分成多段以形成多段片段语音消息,将所述多段片段语音消息和所述文本消息发送到目标终端。
为了接收的方便,在片段语音消息发送时,将片段语音消息按照发送的顺序标记序号标识。如若分成3段,那么第一个发送的片段语音消息标记为01,第二个发送的片段语音消息标记为02,第三个发送的片段语音消息标记为03。也可以用其他标记来标识。
该实施例在录音的过程中定位分段点,在录音结束后,将完整语音消息转换为对应的文本消息,再根据分段点将完整语音消息分成多段,并将分段后形成的片段语音消息和文本消息发送到目标终端。通过该实施例以将长语音消息进行分段,并发送到目标终端。
在一实施例中,如图3所示,步骤S101包括步骤S301-S306。
S301,若检测到开始录音,检测当前已生成的语音消息是否满足预设分段条件。
在即时通信工具中,若检测到点击或者按住录音按钮,即检测到开始录音;也可在即时通信工具中,添加“长语音功能”相关的按钮,若检测到点击或者按住该“长语音功能”相关的按钮,即检测到开始录音。
其中,检测当前已生成的语音消息是否满足预设分段条件,包括:检测当前已生成的语音消息的时间,根据该语音消息的时间来确定该语音消息是否满足预设分段条件;或者检测该语音消息的时间和该语音消息中的说话停顿位置,根据该语音消息的时间和说话停顿位置来确定该语音消息是否满足预设分段条件。
在一实施例中,检测当前已生成的语音消息的时间,根据该语音消息的时间来确定该语音消息是否满足预设分段条件,包括:检测当前已生成的语音消息的时间是否达到第二预设时间,若达到第二预设时间,确定该语音消息满足预设分段条件。如第二预设时间为60s,从录音开始到语音消息达到60s,确定该语音消息满足预设分段条件。将该语音消息作为片段语音消息发送到目标终端。可以理解地,将达到第二预设时间且未发送的语音消息作为一个片段语音消息发送。如将前60s的语音消息作为一个片段语音消息发送,再判断是否满足预设分段条件时不考虑前60s对应的语音消息了,将从61s开始,若再达到第二预设时间,即将61s到120s的语音消息作为一个片段语音消息。可以理解地,每隔第二预设时间的间隔将所录制的语音消息进行分段,如每隔60s的间隔将语音消息进行分段。该种确定语音消息满足预设分段条件的方法简单,可以提高语音消息分段的效率。
在一实施例中,检测当前已生成的语音消息的时间和该语音消息中的说话停顿位置,根据该语音消息的时间和说话停顿位置来确定该语音消息是否满足预设分段条件,包括:判断当前已生成的语音消息的时间是否达到预设最小分段时间;若该语音消息的时间达到预设最小分段时间且未达到预设最大分段时间,检测该语音消息中的说话停顿位置;若检测到说话停顿位置,确定该语音消息满足预设分段条件;若未检测到说话停顿位置且该语音消息的时间达到预设最大分段时间,确定该语音消息满足预设分段条件。可以理解地,若该语音消息的时间达到预设最小分段时间且未达到预设最大分段时间,根据检测到的说话停顿位置将该语音消息进行分段,若未检测到说话停顿位置且该语音消息的时间达到预设最大分段时间,根据预设最大分段时间将该语音消息进行分段。将分段后形成的语音消息作为片段语音消息发送出去,再判断是否满足预设分段条件时不考虑已经发送出去的片段语音消息了。其中,可以根据该语音消息对应的声波变化来检测说话停顿位置。该实施例中,第二预设时间、预设最小分段时间、预设最大分段时间可以进行修改,修改的方式请参看上述对应部分的描述。
S302,若当前已生成的语音消息满足预设分段条件,将当前已生成的语音消息作为片段语音消息发送到目标终端。若当前已生成的语音消息不满足预设分段条件,执行步骤S303。
其中,片段语音消息在发送时会加上标识以进行标记。可以理解地,一段长语音分段后,可能会形成多个片段语音消息。为了接收的方便,将语音消息进行分段发送时,将发送的多个片段语音消息按照发送的顺序标记序号标识。如若分成3段,那么第一个发送的片段语音消息标记为01,第二个发送的片段语音消息标记为02,第三个发送的片段语音消息标记为03。也可以用其他标识来标记。
S303,检测录音是否结束。
S304,若录音未结束,将下一段已生成的语音消息作为当前已生成的语音消息,接着触发执行步骤S301。
可以理解地,将语音消息进行分段后,若录音未结束,检测语音消息是否满足预设分段条件,是针对上一个分段点之后的语音消息的。可以理解地,将上一个分段点之后的当前已生成的语音消息作为将要分段的对象,即下一段已生成的语音消息作为当前已生成的语音消息,来检测是否满足预设分段条件。
S305,若检测到录音结束,将当前已生成且未发送的语音消息作为片段语音消息,将完整语音消息对应的文本消息和最后一段的片段语音消息发送到目标终端,其中,所述完整语音消息对应的文本消息是通过对录音开始后所获取到的语音消息进行实时转换所得到的。
在即时通信工具中,若检测到点击或者松开录音按钮,即检测到录音结束;若检测到点击或者松开“长语音功能”相关的按钮,即检测到录音结束。若检测到录音结束,将当前已生成且未发送的语音消息作为片段语音消息,将该片段语音消息和完整语音消息对应的文本消息发送到目标终端。可以理解地,若检测到录音结束,将本次录音中当前已生成且还未发送的语音消息作为一个片段语音消息发送到目标终端,同时将本次录音对应的完整语音消息对应的文本消息发送到目标终端。
该完整语音消息对应的文本消息是通过对录音开始后所获取到的语音消息进行实时转换所得到的。可以理解地,若检测到开始录音,将所获取到的语音消息转换为文本消息。具体地,若检测到开始录音,启动语音转文字的接口,该接口用于调用语音识别算法,以边录音边将录制的语音消息转换为文字。可以理解地,在录音的过程中,边录音边转文字。对应地,所获取到的语音消息是边录音边形成的语音消息。
该实施例在边录音的过程中,边转文字,并同时进行分段,将分段后的多段片段语音消息发送到目标终端,同时在录音结束后,将语音消息对应的文本消息发送到目标终端。该实施例在边录音的过程中,边转文字,并同时进行分段并发送,可以提高发送语音消息的效率。
在一些实施例中,将片段语音消息发送到目标终端之前,对应的方法还包括:将片段语音消息进行压缩;所述将片段语音消息发送到目标终端,包括:将压缩后的片段语音消息发送到目标终端。具体地,可以使用压缩工具进行压缩,如音频压缩工具speex,具体压缩比例可以设置为1:15。选择压缩比例1:15 是因为在该比例下,解压后的片段语音消息不影响用户的体验,同时不影响将解压后的语音消息转换为文字的效果。终端将片段语音消息进行压缩后再发送,提高传输速率,节省网络带宽。
在一些实施例中,在所述将所述第一文本消息对应的语音消息搜索结果作为第一搜索结果进行显示之前,所述方法还包括:检测所述第一文本消息是否有多条;若第一文本消息有多条,将多条文本消息对应的语音消息搜索结果按照预设规则排序。所述将所述第一文本消息对应的语音消息搜索结果作为第一搜索结果进行显示,包括:将排序后的所述第一文本消息对应的语音消息搜索结果作为第一搜索结果进行显示。其中,预设规则包括按照语音消息发送的时间前后顺序,和/或按照语音消息对应的文本消息与关键词的匹配度进行排序,或者根据人的遗忘曲线来根据不同语音消息发送时间所对应的遗忘可能性的高低进行排序等。
在一些实施例中,若第一文本消息包括完整语音消息对应的文本消息和纯文本消息,那么将所述第一文本消息对应的语音消息搜索结果作为第一搜索结果进行显示,包括:将完整语音消息对应的文本消息所对应的语音消息搜索结果按照第一预设格式进行显示,将对应的纯文本消息按照另一预设格式进行显示。其中,另一预设格式包括:纯文本信息对应的发送人信息、纯文本信息、纯文本消息发送的时间等。
图4是本发明实施例提供的一种语音消息搜索方法的流程示意图。该方法应用于终端中,在该实施例中,该终端接收目标终端发送的语音消息。该实施例中的目标终端与图1~图3实施例所示的目标终端可以是同一个目标终端,也可以是不同的目标终端。该方法包括以下步骤S401-S404。
S401,接收目标终端发送的多段片段语音消息和完整语音消息对应的文本消息。
可以理解地,终端接收的是分段后的多段片段语音消息以及完整语音消息对应的文本消息。由于一个完整语音消息分段后的片段语音消息有多个,在网络不稳定的情况下,有可能分段后的片段语音消息并不是按序到达。其中,可通过片段语音消息的标识如序号标识来判断接收到的片段语音消息是否是按序到达。当接收到片段语音消息后判断所述片段语音消息是否是按序到达;若不是按序到达,将接收到的片段语音消息放在缓存中;若按序到达,则将按序到达的片段语音消息显示在终端中以供用户浏览和阅读;若未按序到达的片段语音消息到达后,将未按序到达的片段语音消息和缓存中的片段语音消息按照序号标识显示在终端中以供用户浏览和阅读。可以理解地,接收时可以随意接收,但是在终端显示时,是按照序号标识对应的顺序来显示接收到的片段语音消息。以避免后面的片段语音消息先收到就显示,而前面的片段语音消息后显示,给用户带来的不便。如若用户先阅读后面的语音部分,会觉得不知所以然。另外,终端接收的是多段片段语音消息,可以解决用户不太愿意阅读长语音的问题。如用户阅读了一段语音消息后,对语音消息中某一段不是很清楚,用户只想再重复听该段对应的语音片段,而不希望每次听语音时,都从头开始。在该种情况下,若每次都从头开始,会影响用户的体验。显然,终端接收多段片段语音消息,可以提升用户的体验。
S402,保存多段片段语音消息与该完整语音消息对应的文本消息之间的对应关系。
可以理解地,完整语音消息对应的文本消息会对应多段片段语音消息。
S403,若接收到第二消息搜索指令,从保存的文本消息中搜索与第二消息搜索指令匹配的文本消息作为第二文本消息。
其中,第二消息搜索指令中包括第二关键词。根据第二消息搜索指令,从保存的文本消息中搜索与第二消息搜索指令匹配的文本消息,包括:根据第二消息搜索指令中的第二关键词,从保存的文本消息中搜索与第二关键词匹配的文本消息。将搜索出的文本消息作为第二文本消息。
S404,将第二文本消息对应的语音消息搜索结果作为第二搜索结果进行显示,其中,第二搜索结果包括与第二文本消息有对应关系的所有片段语音消息。
具体地,按照第二预设格式进行显示。其中,第二预设格式包括:与第二文本消息有对应关系的所有片段语音消息、完整语音消息对应的文本消息。其中,显示完整语音消息对应的文本消息,以方便定位第二关键词所在的片段语音消息。第二预设格式还可以包括:片段语音消息对应的发送人信息、片段语音消息接收显示的时间。其中,完整语音消息对应的文本消息中有第二关键词,第二关键词可以高亮显示,如区分颜色或者加粗等,发送人信息包括发送人昵称和/或发送人头像等,片段语音信息包括对应的片段语音和/或片段语音消息时长等。
图5为第二搜索结果显示的示例图。如图5所示,在终端10的屏幕11上显示有与第二关键词匹配的语音消息搜索结果。其中,第二关键词110为“动物园”,发送人信息包括发送人图像120和发送人昵称130。其中,发送人昵称为“xyzxyz”的发送人发送了两段片段语音消息,完整语音消息包括该两段片段语音消息。两段片段语音消息包括片段语音160和片段语音消息时长150。完整语音消息对应的文本内容140,其中,可以看出关键词“动物园”为加粗显示。可将与第二关键词匹配的文本消息显示在所有片段语音消息之后。语音消息接收显示的时间170显示为:2018-01-01,在其他实施例中,语音消息发送的时间还可以具体到秒等。
在该方法实施例中,在接收到片段语音消息后,对应的方法还包括:检测接收到的片段语音消息是否为压缩后的片段语音消息;若是压缩后的片段语音消息,将压缩后的片段语音消息进行解压,以使终端可以阅读到质量较好的片段语音消息,提升用户体验。
在一些实施例中,在所述将第二文本消息对应的语音消息搜索结果作为第二搜索结果进行显示之前,所述方法还包括:检测第二文本消息是否有多条;若有多条,将多条文本消息对应的语音消息搜索结果按照预设规则排序。所述将第二文本消息对应的语音消息搜索结果作为第二搜索结果进行显示,包括:将排序后的第二文本消息对应的语音消息搜索结果作为第二搜索结果进行显示。其中,将接收到的多段片段语音消息看做一个语音消息来进行排序,将第一个片段语音消息接收的时间作为该多段片段语音消息对应的时间。其中,预设规则包括按照语音消息接收的时间前后顺序,和/或按照语音消息对应的文本消息与关键词的匹配度进行排序,或者根据人的遗忘曲线来根据不同语音消息发送时间所对应的遗忘可能性的高低进行排序等。
在一些实施例中,若第二文本消息包括完整语音消息对应的文本消息和纯文本消息,那么将第二文本消息对应的语音消息搜索结果作为第二搜索结果进行显示,包括:将完整语音消息对应的文本消息所对应的语音消息搜索结果按照第二预设格式进行显示,将对应的纯文本消息按照另一预设格式进行显示。其中,另一预设格式包括:纯文本信息对应的发送人信息、纯文本信息、纯文本消息发送的时间等。
图6是本发明实施例提供的一种语音消息搜索装置的示意性框图。该装置应用于一终端中,在该实施例中,该终端发送语音消息到目标终端。如图6所示,该装置60包括分段发送单元601、第一保存单元602、第一搜索单元603、第一显示单元604。
分段发送单元601,用于将获取的完整语音消息进行分段形成多段片段语音消息,并将所述多段片段语音消息和所述完整语音消息对应的文本消息发送到目标终端。
其中,将获取的完整语音消息进行分段,可以理解为在录音的过程中,边录音边将所获取的语音消息进行分段,在录音完成时,将获取的语音消息作为完整语音消息;也可以理解为在完成录音后,将所获取的完整语音消息进行分段。把分段后形成的语音消息称为片段语音消息。完整语音消息包括多段片段语音消息,即所有片段语音消息。将所有片段语音消息发送到目标终端,可以理解为将分段后所有片段语音消息一起发送到目标终端,也可以理解为形成一个片段语音消息后,就将该语音消息发送到目标终端,直至所有片段语音消息都发送至目标终端。还需要发送到目标终端的信息包括完整语音消息对应的文本消息。其中,完整语音消息对应的文本消息可以是在录音的过程中,边录音边将所获取的语音消息转换为文字,在录音完成且转化完成后,将所得到的所有文字作为完整语音消息对应的文本消息;也可以是在完成录音后,将所录制的完整语音消息转换为对应的文本消息。其中,通过语音识别算法将完整语音消息转换为对应的文本消息。
第一保存单元602,用于保存所述完整语音消息和所述完整语音消息对应的文本消息。在终端中,仍保存本次录音的完整语音消息和该完整语音消息对应的文本消息。
第一搜索单元603,用于若接收到第一消息搜索指令,从保存的文本消息中搜索与第一消息搜索指令匹配的文本消息作为第一文本消息。
其中,第一消息搜索指令中包括第一关键词。根据第一消息搜索指令,从保存的文本消息中搜索与第一消息搜索指令匹配的文本消息,包括:根据第一消息搜索指令中的第一关键词,从保存的文本消息中搜索与第一关键词匹配的文本消息。将搜索出的文本消息作为第一文本消息。
第一显示单元604,用于将所述第一文本消息对应的语音消息搜索结果作为第一搜索结果进行显示,其中,所述第一搜索结果包括所述第一文本消息所对应的完整语音消息。
具体地,按照第一预设格式进行显示。其中,第一预设格式包括:完整语音消息、完整语音消息中第一关键词前后对应的预设字数的文本内容。第一预设格式还可以包括:完整语音消息对应的发送人信息、完整语音消息发送完成的时间。
在一实施例中,如图7所示,分段发送单元601包括定位单元701、第一转换单元702、消息分段发送单元703。
定位单元701,用于若检测到开始录音,根据预设分段条件定位所获取到的语音消息的分段点。
可以理解地,边录音边定位分段点,对应地,所获取到的语音消息是边录音边形成的语音消息。定位单元,用于根据语音消息的时间定位所获取到的语音消息的分段点,或者用于根据语音消息的时间和说话停顿位置来定位所获取到的语音消息的分段点。
其中,若定位单元用于根据语音消息的时间和说话停顿位置来定位所获取到的语音消息的分段点,对应地,定位单元包括时间判断单元、停顿检测单元、定位确定单元。其中,时间判断单元,用于判断语音消息的时间是否达到预设最小分段时间。停顿检测单元,用于若达到预设最小分段时间且未达到预设最大分段时间,检测语音消息中的说话停顿位置。定位确定单元,用于若检测到说话停顿位置,根据说话停顿位置定位所获取到的语音消息的分段点。定位确定单元,还用于若未检测到说话停顿位置且语音消息的时间达到预设最大分段时间,根据该最大分段时间定位所获取到的语音消息的分段点。可以理解地,若语音消息的时间达到预设最小分段时间且未达到预设最大分段时间,将检测到的说话停顿位置作为分段点,若未检测到说话停顿位置且语音消息的时间达到预设最大分段时间,将该最大分段时间作为分段点。其中,第一预设时间、预设最小分段时间、预设最大分段时间等可以进行修改。
第一转换单元702,用于若检测到录音结束,将所获取到的语音消息作为完整语音消息,将完整语音消息通过语音识别算法转换为文本消息。
消息分段发送单元703,用于根据所述分段点将所述完整语音消息分成多段以形成多段片段语音消息,将所述多段片段语音消息和所述文本消息发送到目标终端。
为了接收的方便,将片段语音消息发送时,将片段语音消息按照发送的顺序标记序号标识。如若分成3段,那么第一个发送的片段语音消息标记为01,第二个发送的片段语音消息标记为02,第三个发送的片段语音消息标记为03。也可以用其他标记来标识。
在一实施例中,如图8所示,分段发送单元601包括分段检测单元801、消息发送单元802、结束检测单元803、当前语音确定单元804。
分段检测单元801,用于若检测到开始录音,检测当前已生成的语音消息是否满足预设分段条件。
其中,分段检测单元801,用于检测当前已生成的语音消息的时间,根据该语音消息的时间来确定该语音消息是否满足预设分段条件;或者用于检测该语音消息的时间和该语音消息中的说话停顿位置,根据该语音消息的时间和说话停顿位置来确定该语音消息是否满足预设分段条件。
在一实施例中,若分段检测单元801用于检测当前已生成的语音消息的时间,根据该语音消息的时间来确定语音消息是否满足预设分段条件,对应地,分段检测单元包括时间检测单元、条件确定单元。其中,时间检测单元,用于检测当前已生成的语音消息的时间是否达到第二预设时间。条件确定单元,用于若当前已生成的语音消息的时间达到第二预设时间,确定该语音消息满足预设分段条件。可以理解地,每隔第二预设时间的间隔将所录制的语音消息进行分段,如每隔60s的间隔将语音消息进行分段。该种确定语音消息满足预设分段条件的方法简单,可以提高语音消息分段的效率。
在一实施例中,若分段检测单元801用于检测当前已生成的语音消息的时间和该语音消息中的说话停顿位置,根据该语音消息的时间和说话停顿位置来确定该语音消息是否满足预设分段条件,对应地,分段检测单元包括时间判断单元、停顿检测单元、条件确定单元。其中,时间判断单元,用于判断当前已生成的语音消息的时间是否达到预设最小分段时间。停顿检测单元,用于若该语音消息的时间达到预设最小分段时间且未达到预设最大分段时间,检测该语音消息中的说话停顿位置。条件确定单元,用于若检测到说话停顿位置,确定该语音消息满足预设分段条件;还用于若未检测到说话停顿位置且该语音消息的时间达到预设最大分段时间,确定该语音消息满足预设分段条件。可以理解地,若该语音消息的时间达到预设最小分段时间且未达到预设最大分段时间,根据检测到的说话停顿位置将该语音消息进行分段,若未检测到说话停顿位置且该语音消息的时间达到预设最大分段时间,根据预设最大分段时间将该语音消息进行分段。其中,可以根该据语音消息对应的声波变化来检测说话停顿位置。该实施例中,第二预设时间、预设最小分段时间、预设最大分段时间可以进行修改。
消息发送单元802,用于若当前已生成的语音消息满足预设分段条件,将当前已生成的语音消息作为片段语音消息发送到目标终端。若当前已生成的语音消息不满足预设分段条件,触发结束检测单元803。其中,片段语音消息在发送时会加上标识以进行标记。可以理解地,一段长语音分段后,可能会形成多个片段语音消息。为了接收的方便,将语音消息进行分段发送时,将发送的多个片段语音消息按照发送的顺序标记序号标识。
结束检测单元803,用于检测录音是否结束。可以理解地,将语音消息进行分段后,若录音未结束,检测语音消息是否满足预设分段条件,是针对上一个分段点之后的语音消息的,即将上一个分段点之后的当前已生成且未发送的语音消息作为将要分段的对象,来检测是否满足预设分段条件。
当前语音确定单元804,用于若录音未结束,将下一段已生成的语音消息作为当前已生成的语音消息,接着触发分段检测单元。
消息发送单元802,还用于若检测到录音结束,将当前已生成且未发送的语音消息作为片段语音消息,将完整语音消息对应的文本消息和最后一段的片段语音消息发送到目标终端,其中,其中,所述完整语音消息对应的文本消息是通过对录音开始后所获取到的语音消息进行实时转换所得到的。
在一些实施例中,将片段语音消息发送到目标终端之前,对应的分段发送单元还包括压缩单元。其中,压缩单元,用于将片段语音消息进行压缩;消息发送单元,用于将压缩后的片段语音消息发送到目标终端。终端将片段语音消息进行压缩后再发送,提高传输速率,节省网络带宽。
在一些实施例中,对应的装置还包括:第一消息检测单元、第一排序单元。第一消息检测单元,用于检测第一文本消息是否有多条。第一排序单元,用于若第一文本消息有多条,将多条文本消息对应的语音消息搜索结果按照预设规则排序。第一显示单元,还用于将排序后的所述第一文本消息对应的语音消息搜索结果作为第一搜索结果进行显示。
在一些实施例中,若第一文本消息包括完整语音消息对应的文本消息和纯文本消息,那么第一显示单元,还用于将完整语音消息对应的文本消息所对应的语音消息搜索结果按照第一预设格式进行显示,将对应的纯文本消息按照另一预设格式进行显示。
图9是本发明实施例提供的一种语音消息搜索装置的示意性框图。该装置应用于终端中,在该实施例中,该终端接收目标终端发送的语音消息。如图9 所示,该装置90还包括接收单元901、第二保存单元902、第二搜索单元903、第二显示单元904。
接收单元901,用于接收目标终端发送的多段片段语音消息和完整语音消息对应的文本消息。
可以理解地,终端接收的是分段后的多段片段语音消息以及完整语音消息对应的文本消息。由于一个完整语音消息分段后的片段语音消息有多个,在网络不稳定的情况下,有可能分段后的片段语音消息并不是按序到达。其中,可通过片段语音消息的标识如序号标识来判断接收到的片段语音消息是否是按序到达。当接收到片段语音消息后判断所述片段语音消息是否是按序到达;若不是按序到达,将接收到的片段语音消息放在缓存中;若按序到达,则将按序到达的片段语音消息显示在终端中以供用户浏览和阅读;若未按序到达的片段语音消息到达后,将未按序到达的片段语音消息和缓存中的片段语音消息按照序号标识显示在终端中以供用户浏览和阅读。可以理解地,终端接收时可以随意接收,但是在终端显示时,是按照序号标识对应的顺序来显示接收到的片段语音消息。
第二保存单元902,用于保存多段片段语音消息与该完整语音消息对应的文本消息之间的对应关系。
第二搜索单元903,用于若接收到第二消息搜索指令,从保存的文本消息中搜索与第二消息搜索指令匹配的文本消息作为第二文本消息。
其中,第二消息搜索指令中包括第二关键词。根据第二消息搜索指令,从保存的文本消息中搜索与第二消息搜索指令匹配的文本消息,包括:根据第二消息搜索指令中的第二关键词,从保存的文本消息中搜索与第二关键词匹配的文本消息。将搜索出的文本消息作为第二文本消息。
第二显示单元904,用于将第二文本消息对应的语音消息搜索结果作为第二搜索结果进行显示,其中,第二搜索结果包括与第二文本消息有对应关系的所有片段语音消息。
具体地,按照第二预设格式进行显示。其中,第二预设格式包括:与第二文本消息有对应关系的所有片段语音消息、完整语音消息对应的文本消息。其中,显示完整语音消息对应的文本消息,以方便定位第二关键词所在的片段语音消息。第二预设格式还可以包括:片段语音消息对应的发送人信息、片段语音消息接收显示的时间等。具体地,可参看图5所示的第二搜索结果显示的示例图。
在一些实施例中,对应的装置还包括压缩检测单元、解压单元。其中,压缩检测单元,用于检测接收到的片段语音消息是否为压缩后的片段语音消息。解压单元,用于若是压缩后的片段语音消息,将压缩后的片段语音消息进行解压,以使终端可以阅读到质量较好的片段语音消息,提升用户体验。
在一些实施例中,对应的装置还包括:第二消息检测单元、第二排序单元。其中,第二消息检测单元,用于检测第二文本消息是否有多条。第二排序单元,用于若第二文本消息有多条,将多条文本消息对应的语音消息搜索结果按照预设规则排序。第二显示单元,还用于将排序后的第二文本消息对应的语音消息搜索结果作为第一搜索结果进行显示。
在一些实施例中,若第二文本消息包括完整语音消息对应的文本消息和纯文本消息,那么第二显示单元,还用于将完整语音消息对应的文本消息所对应的语音消息搜索结果按照第二预设格式进行显示,将对应的纯文本消息按照另一预设格式进行显示。
上述装置实施例的实现过程和达到的有益效果可参看对应的方法实施例的描述。
上述装置可以实现为一种计算机程序的形式,计算机程序可以在如图10 所示的计算机设备上运行。
图10为本发明实施例提供的一种计算机设备的示意性框图。该设备100 包括通过系统总线101连接的处理器102、存储器和网络接口103,其中,存储器可以包括非易失性存储介质104和内存储器105。
该非易失性存储介质104可存储操作系统1041和计算机程序1042。该计算机程序1042被执行时,可使得处理器102执行语音消息搜索方法。该处理器 102用于提供计算和控制能力,支撑整个设备100的运行。该内存储器105为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器 102执行时,可使得处理器102执行语音消息搜索方法。该网络接口103用于进行网络通信,如接收消息搜索指令等。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的设备100的限定,具体的设备100可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器102用于运行存储在存储器中的计算机程序,以实现如下步骤:
将获取的完整语音消息进行分段形成多段片段语音消息,并将所述多段片段语音消息和所述完整语音消息对应的文本消息发送到目标终端;保存所述完整语音消息和所述完整语音消息对应的文本消息;若接收到第一消息搜索指令,从保存的所述文本消息中搜索与所述第一消息搜索指令匹配的文本消息作为第一文本消息;将所述第一文本消息对应的语音消息搜索结果作为第一搜索结果进行显示,其中,所述第一搜索结果包括所述第一文本消息所对应的完整语音消息。
在一实施例中,所述处理器102还具体执行:
接收目标终端发送的多段片段语音消息和完整语音消息对应的文本消息;保存所述多段片段语音消息与所述完整语音消息对应的文本消息之间的对应关系;若接收到第二消息搜索指令,从保存的所述文本消息中搜索与所述第二消息搜索指令匹配的文本消息作为第二文本消息;将所述第二文本消息对应的语音消息搜索结果作为第二搜索结果进行显示,其中,第二搜索结果包括与所述第二文本消息有对应关系的多段片段语音消息。
在一实施例中,所述处理器102在执行所述将获取的完整语音消息进行分段形成多段片段语音消息,并将所述多段片段语音消息和所述完整语音消息对应的文本消息发送到目标终端时,具体执行:
若检测到开始录音,根据预设分段条件定位所获取到的语音消息的分段点;若检测到录音结束,将所获取到的语音消息作为完整语音消息,将所述完整语音消息通过语音识别算法转换为文本消息;根据所述分段点将完整语音消息分成多段以形成多段片段语音消息,将所述多段片段语音消息和所述文本消息发送到目标终端。
在一实施例中,所述处理器102在执行所述将获取的完整语音消息进行分段形成多段片段语音消息,并将所述多段片段语音消息和所述完整语音消息对应的文本消息发送到目标终端时,具体执行:
若检测到开始录音,检测当前已生成的语音消息是否满足预设分段条件;若满足预设分段条件,将当前已生成的语音消息作为片段语音消息发送到目标终端;检测所述录音是否结束;若检测到所述录音未结束,将下一段已生成的语音消息作为当前已生成的语音消息,触发所述检测当前已生成的语音消息是否满足预设分段条件的步骤;若检测到所述录音结束,将当前已生成且未发送的语音消息作为片段语音消息,将所述完整语音消息对应的文本消息和最后一段片段语音消息发送到目标终端,其中,所述完整语音消息对应的文本消息是通过对录音开始后所获取到的语音消息进行实时转换所得到的。
在一实施例中,所述处理器102在执行所述检测当前已生成的语音消息是否满足预设分段条件时,具体执行:
判断当前已生成的语音消息的时间是否达到预设最小分段时间;若达到预设最小分段时间且未达到预设最大分段时间,检测所述语音消息中的说话停顿位置;若检测到说话停顿位置,确定所述语音消息满足预设分段条件;若未检测到说话停顿位置且所述语音消息的时间达到预设最大分段时间,确定所述语音消息满足预设分段条件。
在一实施例中,所述处理器102在执行所述将片段语音消息发送到目标终端之前,具体执行:
将片段语音消息进行压缩;所述将片段语音消息发送到目标终端,包括:将压缩后的片段语音消息发送到目标终端。
在一实施例中,所述处理器102在执行所述接收目标终端发送的片段语音消息之后,具体执行:
检测接收到的片段语音消息是否为压缩后的片段语音消息;若是压缩后的片段语音消息,将压缩后的片段语音消息进行解压。
应当理解,在本发明实施例中,所称处理器102可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时实现以下步骤:
将获取的完整语音消息进行分段形成多段片段语音消息,并将所述多段片段语音消息和所述完整语音消息对应的文本消息发送到目标终端;保存所述完整语音消息和所述完整语音消息对应的文本消息;若接收到第一消息搜索指令,从保存的所述文本消息中搜索与所述第一消息搜索指令匹配的文本消息作为第一文本消息;将所述第一文本消息对应的语音消息搜索结果作为第一搜索结果进行显示,其中,所述第一搜索结果包括所述第一文本消息所对应的完整语音消息。
在一实施例中,所述处理器还具体实现:
接收目标终端发送的多段片段语音消息和完整语音消息对应的文本消息;保存所述多段片段语音消息与所述完整语音消息对应的文本消息之间的对应关系;若接收到第二消息搜索指令,从保存的所述文本消息中搜索与所述第二消息搜索指令匹配的文本消息作为第二文本消息;将所述第二文本消息对应的语音消息搜索结果作为第二搜索结果进行显示,其中,所述第二搜索结果包括与所述第二文本消息有对应关系的多段片段语音消息。
在一实施例中,所述处理器在执行所述将获取的完整语音消息进行分段形成多段片段语音消息,并将所述多段片段语音消息和所述完整语音消息对应的文本消息发送到目标终端时,具体实现:
若检测到开始录音,根据预设分段条件定位所获取到的语音消息的分段点;若检测到录音结束,将所获取到的语音消息作为完整语音消息,将所述完整语音消息通过语音识别算法转换为文本消息;根据所述分段点将所述完整语音消息分成多段以形成多段片段语音消息,将所述多段片段语音消息和所述文本消息发送到目标终端。
在一实施例中,所述处理器在执行所述将获取的完整语音消息进行分段形成多段片段语音消息,并将所述多段片段语音消息和所述完整语音消息对应的文本消息发送到目标终端时,具体实现:
若检测到开始录音,检测当前已生成的语音消息是否满足预设分段条件;若满足预设分段条件,将当前已生成的语音消息作为片段语音消息发送到目标终端;检测所述录音是否结束;若检测到所述录音未结束,将下一段已生成的语音消息作为当前已生成的语音消息,触发所述检测当前已生成的语音消息是否满足预设分段条件的步骤;若检测到所述录音结束,将当前已生成且未发送的语音消息作为片段语音消息,将所述完整语音消息对应的文本消息和最后一段片段语音消息发送到目标终端,其中,所述完整语音消息对应的文本消息是通过对录音开始后所获取到的语音消息进行实时转换所得到的。
在一实施例中,所述处理器在执行所述检测当前已生成的语音消息是否满足预设分段条件时,具体实现:
判断当前已生成的语音消息的时间是否达到预设最小分段时间;若达到预设最小分段时间且未达到预设最大分段时间,检测所述语音消息中的说话停顿位置;若检测到说话停顿位置,确定所述语音消息满足预设分段条件;若未检测到说话停顿位置且所述语音消息的时间达到预设最大分段时间,确定所述语音消息满足预设分段条件。
在一实施例中,所述处理器在执行将片段语音消息发送到目标终端之前,具体实现:
将片段语音消息进行压缩;所述将片段语音消息发送到目标终端,包括:将压缩后的片段语音消息发送到目标终端。
在一实施例中,所述处理器在执行所述接收目标终端发送的片段语音消息之后,具体实现:
检测接收到的片段语音消息是否为压缩后的片段语音消息;若是压缩后的片段语音消息,将压缩后的片段语音消息进行解压。
所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元,例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(SmartMedia Card, SMC),安全数字(SecureDigital,SD)卡等。进一步地,所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置、设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置、设备和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种语音消息搜索方法,其特征在于,所述方法包括:
将获取的完整语音消息进行分段形成多段片段语音消息,并将所述多段片段语音消息和所述完整语音消息对应的文本消息发送到目标终端;
保存所述完整语音消息和所述完整语音消息对应的文本消息;
若接收到第一消息搜索指令,从保存的所述文本消息中搜索与所述第一消息搜索指令匹配的文本消息作为第一文本消息;
将所述第一文本消息对应的语音消息搜索结果作为第一搜索结果进行显示,其中,所述第一搜索结果包括所述第一文本消息所对应的完整语音消息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收目标终端发送的多段片段语音消息和完整语音消息对应的文本消息;
保存所述多段片段语音消息与所述完整语音消息对应的文本消息之间的对应关系;
若接收到第二消息搜索指令,从保存的所述文本消息中搜索与所述第二消息搜索指令匹配的文本消息作为第二文本消息;
将所述第二文本消息对应的语音消息搜索结果作为第二搜索结果进行显示,其中,所述第二搜索结果包括与所述第二文本消息有对应关系的多段片段语音消息。
3.根据权利要求1所述的方法,其特征在于,所述将获取的完整语音消息进行分段形成多段片段语音消息,并将所述多段片段语音消息和所述完整语音消息对应的文本消息发送到目标终端,包括:
若检测到开始录音,根据预设分段条件定位所获取到的语音消息的分段点;
若检测到录音结束,将所获取到的语音消息作为完整语音消息,将所述完整语音消息通过语音识别算法转换为文本消息;
根据所述分段点将所述完整语音消息分成多段以形成多段片段语音消息,将所述多段片段语音消息和所述文本消息发送到目标终端。
4.根据权利要求1所述的方法,其特征在于,所述将获取的完整语音消息进行分段形成多段片段语音消息,并将所述多段片段语音消息和所述完整语音消息对应的文本消息发送到目标终端,包括:
若检测到开始录音,检测当前已生成的语音消息是否满足预设分段条件;
若满足预设分段条件,将当前已生成的语音消息作为片段语音消息发送到目标终端;
检测所述录音是否结束;
若检测到所述录音未结束,将下一段已生成的语音消息作为当前已生成的语音消息,触发所述检测当前已生成的语音消息是否满足预设分段条件的步骤;
若检测到所述录音结束,将当前已生成且未发送的语音消息作为片段语音消息,将所述完整语音消息对应的文本消息和最后一段片段语音消息发送到目标终端,其中,所述完整语音消息对应的文本消息是通过对录音开始后所获取到的语音消息进行实时转换所得到的。
5.根据权利要求4所述的方法,其特征在于,所述检测当前已生成的语音消息是否满足预设分段条件,包括:
判断当前已生成的语音消息的时间是否达到预设最小分段时间;
若达到预设最小分段时间且未达到预设最大分段时间,检测所述语音消息中的说话停顿位置;
若检测到说话停顿位置,确定所述语音消息满足预设分段条件;
若未检测到说话停顿位置且所述语音消息的时间达到预设最大分段时间,确定所述语音消息满足预设分段条件。
6.根据权利要求1、3、4任一项所述的方法,其特征在于,将片段语音消息发送到目标终端之前,所述方法还包括:
将片段语音消息进行压缩;
所述将片段语音消息发送到目标终端,包括:将压缩后的片段语音消息发送到目标终端。
7.根据权利要求2所述的方法,其特征在于,所述接收目标终端发送的片段语音消息之后,所述方法还包括:
检测接收到的片段语音消息是否为压缩后的片段语音消息;
若是压缩后的片段语音消息,将压缩后的片段语音消息进行解压。
8.一种语音消息搜索装置,其特征在于,所述装置包括用于执行如权利要求1-7任一项所述方法的单元。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器,以及与所述存储器相连的处理器;
所述存储器用于存储计算机程序;所述处理器用于运行所述存储器中存储的计算机程序,以执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现如权利要求1-7任一项所述的方法。
CN201810508827.1A 2018-05-24 2018-05-24 语音消息搜索方法、装置、计算机设备及存储介质 Active CN108874904B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810508827.1A CN108874904B (zh) 2018-05-24 2018-05-24 语音消息搜索方法、装置、计算机设备及存储介质
PCT/CN2018/101062 WO2019223134A1 (zh) 2018-05-24 2018-08-17 语音消息搜索方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810508827.1A CN108874904B (zh) 2018-05-24 2018-05-24 语音消息搜索方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN108874904A true CN108874904A (zh) 2018-11-23
CN108874904B CN108874904B (zh) 2022-04-29

Family

ID=64333808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810508827.1A Active CN108874904B (zh) 2018-05-24 2018-05-24 语音消息搜索方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN108874904B (zh)
WO (1) WO2019223134A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109819116A (zh) * 2019-03-20 2019-05-28 初心娃科技有限公司 社交聊天的方法及装置
CN110287364A (zh) * 2019-06-28 2019-09-27 合肥讯飞读写科技有限公司 语音搜索方法、系统、设备及计算机可读存储介质
CN110379413A (zh) * 2019-06-28 2019-10-25 联想(北京)有限公司 一种语音处理方法、装置、设备及存储介质
CN112069796A (zh) * 2020-09-03 2020-12-11 阳光保险集团股份有限公司 一种语音质检方法、装置,电子设备及存储介质
CN112287162A (zh) * 2020-10-27 2021-01-29 维沃移动通信有限公司 消息搜索方法、装置和电子设备
CN112397102A (zh) * 2019-08-14 2021-02-23 腾讯科技(深圳)有限公司 音频处理方法、装置及终端
CN112769678A (zh) * 2021-01-07 2021-05-07 维沃移动通信有限公司 语音消息处理方法、装置和电子设备
CN117253485A (zh) * 2023-11-20 2023-12-19 翌东寰球(深圳)数字科技有限公司 一种数据处理方法、装置、设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113299279A (zh) * 2021-05-18 2021-08-24 上海明略人工智能(集团)有限公司 用于关联语音数据和检索语音数据的方法、装置、电子设备和可读存储介质
CN114124875B (zh) * 2021-11-04 2023-12-19 维沃移动通信有限公司 语音消息处理方法、装置、电子设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1741132A (zh) * 2004-08-23 2006-03-01 美国电报电话公司 口头发音检索所用的基于格点搜索的系统和方法
CN101382937A (zh) * 2008-07-01 2009-03-11 深圳先进技术研究院 基于语音识别的多媒体资源处理方法及其在线教学系统
CN104078044A (zh) * 2014-07-02 2014-10-01 深圳市中兴移动通信有限公司 移动终端及其录音搜索的方法和装置
CN105302925A (zh) * 2015-12-10 2016-02-03 百度在线网络技术(北京)有限公司 推送语音搜索数据的方法和装置
CN107391741A (zh) * 2017-08-09 2017-11-24 广东小天才科技有限公司 语音片段的搜索方法、搜索装置及终端设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103379460A (zh) * 2012-04-20 2013-10-30 华为终端有限公司 一种语音消息处理方法及终端
CN103581395B (zh) * 2012-08-01 2017-03-29 联想(北京)有限公司 一种显示方法及电子设备
CN104714981B (zh) * 2013-12-17 2020-01-10 腾讯科技(深圳)有限公司 语音消息搜索方法、装置及系统
CN106559540A (zh) * 2015-09-30 2017-04-05 北京奇虎科技有限公司 语音数据处理方法及装置
CN107346318B (zh) * 2016-05-06 2021-01-12 腾讯科技(深圳)有限公司 提取语音内容的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1741132A (zh) * 2004-08-23 2006-03-01 美国电报电话公司 口头发音检索所用的基于格点搜索的系统和方法
CN101382937A (zh) * 2008-07-01 2009-03-11 深圳先进技术研究院 基于语音识别的多媒体资源处理方法及其在线教学系统
CN104078044A (zh) * 2014-07-02 2014-10-01 深圳市中兴移动通信有限公司 移动终端及其录音搜索的方法和装置
CN105302925A (zh) * 2015-12-10 2016-02-03 百度在线网络技术(北京)有限公司 推送语音搜索数据的方法和装置
CN107391741A (zh) * 2017-08-09 2017-11-24 广东小天才科技有限公司 语音片段的搜索方法、搜索装置及终端设备

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109819116A (zh) * 2019-03-20 2019-05-28 初心娃科技有限公司 社交聊天的方法及装置
CN110287364A (zh) * 2019-06-28 2019-09-27 合肥讯飞读写科技有限公司 语音搜索方法、系统、设备及计算机可读存储介质
CN110379413A (zh) * 2019-06-28 2019-10-25 联想(北京)有限公司 一种语音处理方法、装置、设备及存储介质
CN110287364B (zh) * 2019-06-28 2021-10-08 合肥讯飞读写科技有限公司 语音搜索方法、系统、设备及计算机可读存储介质
CN112397102A (zh) * 2019-08-14 2021-02-23 腾讯科技(深圳)有限公司 音频处理方法、装置及终端
CN112069796A (zh) * 2020-09-03 2020-12-11 阳光保险集团股份有限公司 一种语音质检方法、装置,电子设备及存储介质
CN112069796B (zh) * 2020-09-03 2023-08-04 阳光保险集团股份有限公司 一种语音质检方法、装置,电子设备及存储介质
CN112287162A (zh) * 2020-10-27 2021-01-29 维沃移动通信有限公司 消息搜索方法、装置和电子设备
CN112769678A (zh) * 2021-01-07 2021-05-07 维沃移动通信有限公司 语音消息处理方法、装置和电子设备
CN117253485A (zh) * 2023-11-20 2023-12-19 翌东寰球(深圳)数字科技有限公司 一种数据处理方法、装置、设备及存储介质
CN117253485B (zh) * 2023-11-20 2024-03-08 翌东寰球(深圳)数字科技有限公司 一种数据处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2019223134A1 (zh) 2019-11-28
CN108874904B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN108874904A (zh) 语音消息搜索方法、装置、计算机设备及存储介质
CN104113471B (zh) 通讯连接异常时的信息处理方法和装置
US11580501B2 (en) Automatic detection and analytics using sensors
US9099090B2 (en) Timely speech recognition
JP2019049985A (ja) インタラクティブ・ホワイトボード機器の音声制御
EP2770445A2 (en) Method and system for supporting a translation-based communication service and terminal supporting the service
CN106302933B (zh) 通话语音信息处理方法及终端
CN105099855B (zh) 电子装置以及语音信息的播放控制方法
MX2008016354A (es) Deteccion de una maquina contestadora utilizando reconocimiento de dialogo.
CN107481721A (zh) 用于可穿戴电子设备的语音交互方法和可穿戴电子设备
CN102640084B (zh) 用于多用户和系统的通信接口设备和方法
CN103973542B (zh) 一种语音信息处理方法及装置
US10535337B2 (en) Method for correcting false recognition contained in recognition result of speech of user
CN109151148B (zh) 通话内容的记录方法、装置、终端及计算机可读存储介质
JP2014191029A (ja) 音声認識システムおよび音声認識システムの制御方法
CN112313930B (zh) 管理保持的方法和装置
CN108446389A (zh) 语音消息搜索显示方法、装置、计算机设备及存储介质
CN110992955A (zh) 一种智能设备的语音操作方法、装置、设备及存储介质
US8868419B2 (en) Generalizing text content summary from speech content
CN106653013A (zh) 语音识别方法及装置
CN106205622A (zh) 信息处理方法及电子设备
CN106356056B (zh) 语音识别方法和装置
CN112672099B (zh) 字幕数据生成和呈现方法、装置、计算设备、存储介质
KR101643808B1 (ko) 어플리케이션과 서버 간의 연동을 이용한 음성 서비스 제공 방법 및 그 시스템
EP2913822A1 (en) Speaker recognition method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant