CN107346318B - 提取语音内容的方法及装置 - Google Patents

提取语音内容的方法及装置 Download PDF

Info

Publication number
CN107346318B
CN107346318B CN201610299123.9A CN201610299123A CN107346318B CN 107346318 B CN107346318 B CN 107346318B CN 201610299123 A CN201610299123 A CN 201610299123A CN 107346318 B CN107346318 B CN 107346318B
Authority
CN
China
Prior art keywords
voice
voice chat
extracting
chat
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610299123.9A
Other languages
English (en)
Other versions
CN107346318A (zh
Inventor
赵娜
张雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610299123.9A priority Critical patent/CN107346318B/zh
Publication of CN107346318A publication Critical patent/CN107346318A/zh
Application granted granted Critical
Publication of CN107346318B publication Critical patent/CN107346318B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及提取语音内容的方法及装置。所述方法包括:获取用于提取语音内容的关键字,所述关键字为文字或者语音片段;根据所述关键字搜索已接收的语音聊天记录,提取其中语音内容与所述关键字匹配的语音聊天记录;将提取到的语音聊天记录的语音内容以文字信息的形式进行展示。本发明能够基于聊天记录的语音内容提取出与关键字相关的语音聊天记录,方便用户及时、全面的了解聊天信息。

Description

提取语音内容的方法及装置
技术领域
本发明涉及信息技术领域,特别是涉及提取语音内容的方法及装置。
背景技术
目前人们通过聊天应用软件聊天时,既可采用发送文字信息的方式,还可采用发送语音信息的方式。因此在聊天窗口中常常会出现语音信息和文字信息夹杂的情况。尤其是有多人参与的群聊中,有的成员发送语音信息,有的成员发送文字信息。针对这种情况,如果用户在会议、公众场合等不方便收听语音信息的环境下,难以及时了解朋友们发送的聊天内容。
例如,领导在公司群聊中用语音通知大家:今天上午10点会议。用户可能因在车上无法收听该语音,没能及时获知聊天内容,导致错过会议时间。又例如,姐妹们在群聊中商量周末去逛街的事宜,有人发出语音信息提醒用户甲:“***,你记得带伞,我就不带了”,可用户甲可能在不方便收听语音信息的情况下,无法及时获知语音内容,并且由于群聊的信息较多,也无法确定哪些语音信息是与自己有关,导致用户甲没能注意到该条语音信息,逛街时没带伞。
发明内容
基于此,本发明实施例提供的提取语音内容的方法及装置,能够基于内容从聊天记录中提取出与关键字相关的语音聊天记录,方便用户及时了解聊天内容。
本发明一方面提供提取语音内容的方法,包括:
获取用于提取语音内容的关键字;
根据所述关键字搜索已接收的语音聊天记录,提取其中语音内容与所述关键字匹配的语音聊天记录;
将提取到的语音聊天记录的语音内容以文字信息的形式进行展示。
本发明另一方面提供提取语音内容的装置,包括:
关键字获取模块,用于获取用于提取语音内容的关键字,所述关键字为文字或者语音片段;
匹配模块,用于根据所述关键字搜索已接收的语音聊天记录,提取其中语音内容与所述关键字匹配的语音聊天记录;
展示模块,用于将提取到的语音聊天记录的语音内容以文字信息的形式进行展示。
上述技术方案,通过获取用于提取语音内容的关键字;根据所述关键字搜索已接收的语音聊天记录,提取其中语音内容与所述关键字匹配的语音聊天记录;将提取到的语音聊天记录的语音内容以文字信息的形式进行展示。本发明上述实施例的方案,能够基于聊天内容从收到的聊天记录中提取出与关键字相关的语音聊天记录,方便用户及时、全面的了解聊天内容。
附图说明
图1为一实施例的本发明方案的工作环境示意图;
图2是一实施例的客户终端的组成结构示意图;
图3是一实施例的服务器的组成结构示意图;
图4为一实施例的提取语音内容的方法的示意性流程图;
图5为另一实施例的提取语音内容的方法的示意性流程图;
图6为另一实施例的提取语音内容的方法的示意性流程图;
图7为一实施例的提取语音内容的装置的示意性结构图;
图8为另一实施例的提取语音内容的装置的示意性结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了本发明一实施例的工作环境示意图,包括:安装有聊天应用软件的客户终端100,以图1中所示的手机、平板、便携式电脑为例。客户终端100可通过网络与服务器200连接,若干客户终端100通过服务器200实现信息收发,实现聊天的功能。这里的网络可以是无线网络,也可以是有线网络。服务器200可以为与所述聊天应用软件对应的云端服务器。
所述客户终端100在一个实施例中的结构示意图如图2所示。该客户终端包括:通过系统总线连接的处理器、存储介质、显示设备、通信接口、电源接口和内存。其中,所述存储介质存储有聊天应用软件程序,该聊天应用软件支持以文字方式和语音方式的聊天。所述显示设备显示聊天窗口和聊天信息。所述通信接口用于与服务器连接和通信,电源接口用于与外部电源连接,外部电源通过该电源接口向客户终端充电。客户终端可以是图1中所列举的任何一种设备,也可以是其他具有上述结构的设备。
服务器200在一个实施例中的结构示意图如图3所示。服务器包括通过系统总线连接的处理器、供电模块、存储介质、内存和通信接口。其中,服务器的存储介质存储有操作系统和数据库,所述数据库中存储有所述聊天应用软件相关的数据。服务器通过通信接口与客户终端100进行连接和通信。
结合图1、图2、图3所示的示意图,以下对本发明提取语音内容的方法及提取语音内容的装置的各实施例进行说明。
图4为一实施例的提取语音内容的方法的示意性流程图;在该实施例中,以该方法应用于图1中客户终端100为例进行说明。
如图4所示,本实施例中的提取语音内容的方法包括步骤:
S11,获取用于提取语音内容的关键字;
本实施例中所述关键字既可为文字,例如:“开会”、“@selina”等;也可为语音关键字,即包括“开会”、“selina”等信息的语音片段。对应的,用户可预先将自己关注的重要信息设置为用于提取语音内容的关键字,客户终端存储所述关键字,基于此,客户终端可按照设定的机制自动获取预设的关键字。也可以根据用户操作指令实时启动聊天应用软件预设的查询功能,接收用户输出的用于提取语音内容的关键字。
S12,根据所述关键字搜索已接收的语音聊天记录,提取其中语音内容与所述关键字匹配的语音聊天记录;
本实施例中,可设定搜索的位置范围。例如,可将当前打开的聊天窗口作为本次搜索的范围,根据所述关键字在当前打开的聊天窗口内搜索已接收的全部语音聊天记录;也可以指定若干聊天窗口作为本次搜索的范围,根据所述关键字在所述若干聊天窗口范围内搜索已接收的语音聊天记录。此外,还可以对已接收的语音聊天记录进行全局搜索。
作为另一优选实施方式,还可设定搜索的时间范围。例如,设定搜索时间范围为24小时,即搜索距离当前时间24小时内的已接收的语音聊天记录。由此既可缩短搜索时间,又避免返回太多内容,减小用户筛选信息的难度。
此外,本实施例中关键字支持文字格式或语音片段格式,对应的,提取匹配的语音聊天记录的方式包括文字匹配方式和语音匹配方式,具体包括:
a)关键字格式为文字的场合,先将已接收的各语音条(即语音聊天记录)转换为对应的文字信息(转换后的文字可现实在语音条的下方),用所述关键字进行搜索,匹配的语音条被提取出来;
b)关键字格式为语音片段的场合,可先将语音片段转换为文字,然后再按照上述a)的匹配方式进行搜索;
c)关键字格式为语音片段的场合,直接将语音片段与已接收的各条语音对比匹配,提取包括所述语音片段的全部语音条,再将提取到的语音条转换为对应的文字。
S13,将提取到的语音聊天记录的语音内容以文字信息的形式进行展示。
本实施例中,提取到提取其中语音内容与所述关键字匹配的语音聊天记录时,可生成对应的消息列表,并用所述关键字对所述消息列表命名。例如:当前用于提取语音内容的关键字为“开会”,则可生成一个名称为“开会”的消息抽屉(一种消息列表),用于存储本次搜索得到的全部语音条。
进一步的,将提取到的各语音聊天记录及其对应的文字信息存储到上述消息列表中之后,便可通过所述消息列表将提取到的语音聊天记录的语音内容以文字信息的形式进行展示。
可以理解的是,也可只将提取到的各条语音聊天记录存储到对应的消息列表中,用户选中某一记录时,再获取该条语音聊天记录对应的文字信息,对该条语音聊天记录的内容以文字形式进行展示。还可只将提取到的各条语音聊天记录对应的文字信息存储到上述消息列表中,用户选中某一条记录时,可查看对应的语音聊天记录。
通过上述实施例的提取语音内容的方法,能够基于语音内容从接收到的聊天记录中提取出与关键字相关的语音聊天记录,方便用户及时、全面的了解自己关注的聊天信息。
图5为另一实施例的提取语音内容的方法的示意性流程图;本实施例与前一实施例的主要区别在于:以文字关键字为例,对提取语音聊天记录的过程以及其信息展示的具体方式进行说明。
如图5所示,本实施例中的提取语音内容的方法包括步骤:
S21,获取的用于提取语音内容的文字关键字;例如“开会”或者“@selina”等。
可预先设置为用于提取语音内容的关键字并存储,客户终端按照一定的机制自动获取预设的关键字。也可以根据用户操作实时启动预设的查询功能,接收输入的用于提取语音内容的关键字。
S22,获取已接收的语音聊天记录,将各条语音聊天记录的语音内容转换为对应的文字信息;
通常已接收的语音聊天记录是mp3、wmv等压缩格式的文件,本实施例中,语音聊天转换为对应的文字信息的过程可包括:先将语音文件转成非压缩的纯波形文件,根据需要对首尾端进行静音切除(VAD),降低干扰;然后对波形文件进行分帧处理,将语音信息切开成一小段一小段,每小段称为一帧,帧与帧之间一般是有交叠的;提取每帧语音信息的声学特征,例如MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)特征,根据人耳的生理特性,把每一帧波形用一个对应的多维向量表示,这个向量包含了这帧语音的特征信息。通过多维向量把语音帧识别为状态,由状态组合成音素,由音素组合成单词,完成语音到文字的转换。
S23,将文字关键字与各条语音聊天记录对应的文字信息进行比较,是否匹配?若是,执行下一步,否则,输出无相关记录的提示信息,结束;
本实施例中,基于上一步骤的转换,通过文字与文字的匹配,可找出包含所述关键字的全部语音聊天记录。
S24,提取对应的语音聊天记录,将该语音聊天记录及其对应的文字信息存储到对应的消息列表;
本实施例中还包括生成与所述关键字对应的消息列表的步骤。优选的,用所述关键字对所述消息列表命名。例如:当前用于提取语音内容的关键字为“开会啦”,则生成名称为“开会啦”的消息抽屉(一种消息列表),用于收纳包含开会啦信息的全部语音条;或者关键字为“@selina”,则生成名称为“@selina”的消息抽屉,用于收纳提到用户selina的全部语音条。
S25,对消息列表中所述语音聊天记录的语音内容以文字信息的形式进行展示。
作为一优选实施方式,具体展示方式可为:接收所述消息列表中任一条语音聊天记录的选中指令,获取该条语音聊天记录的原始位置信息(即接收该条语音聊天记录的位置信息),根据所述原始位置信息跳转到接收该条语音聊天记录的原始聊天窗口,在所述原始聊天窗口中对该条语音聊天记录进行标记显示,例如对该条语音聊天记录进行高亮显示。此外,还可在所述原始聊天窗口中该条语音聊天记录的相邻区域显示对应的文字信息。例如,在该条语音聊天记录的下方显示对应的文字信息,方便用户查看。
本发明实施例中,每个关键字对应生成一个消息列表,存储所有跟该关键字有关的语音条(如@selina),选中其中一条(如lily:selina,咱们去吃饭啊),展示该语音条的原始聊天窗口以及该语音条的位置,在该语音条旁边显示一个提示标记,并将“lily:selina,咱们去吃饭啊”的信息展示在该语音条的下方。
作为另一优选实施方式,展示方式还可为:接收对所述消息列表中任一条语音聊天记录的选中指令,生成对应的显示窗口;获取该条语音聊天记录的语音内容对应的文字信息,将所述文字信息显示到所述显示窗口中。展示完成后(收到结束展示的操作指示,或者设定的时间到时),收起所述显示窗口,返回消息列表的界面。即以一种强提示框的方式进行对选中的语音聊天记录进行展示,展示完成后,收起提示框。
作为一优选实施方式,在对各条语音聊天记录的内容以文字形式进行展示的过程中,还可获取语音聊天记录对应的文字信息中所述关键字的位置,对所述关键字进行标记显示。例如对关键字selina进行加粗、描红等方式的UI显示效果。
图6为另一实施例的提取语音内容的方法的示意性流程图;本实施例与前一实施例的主要区别在于:以语音片段格式的关键字为例,对提取语音聊天记录的过程进行说明;此外,本实施例还包括根据上下文信息对语音转换得到的文字进行微调的步骤,以提高信息准确度。
如图6所示,本实施例中的提取语音内容的方法包括步骤:
S31,获取到用于提取语音内容的语音片段;
例如用户通过麦克风录入的一个语音片段,该语音片段中包括“开会”的信息。
S32,获取已接收的语音聊天记录;
本实施例中,可在设定的位置范围和时间范围内搜索,获取所述范围内的已接收的全部语音条。
S33,将关键字语音片段与各条语音聊天记录进行比较,是否匹配?若是,执行下一步,否则,提示没有相关聊天记录的提示信息,结束;
本发明实施了中,实现两个语音文件的匹配过程可包括:先用帧去分割语音波形,再提取可以每帧语音的特征,用特征向量来表示;通过比较两个语音文件对应的特征向量实现两个语音文件的匹配。通过语音匹配可得到包含关键字语音片段的全部语音聊天记录。
S34,提取匹配的语音聊天记录,将各条匹配的语音聊天记录的语音内容转换为对应的文字信息;
将语音聊天记录的语音内容转换为对应的文字信息,转换方式可参考上一实施例所述,不作赘述。
S35,获取语音聊天记录在原始聊天窗口中的上下文信息,根据所述上下文信息对所述语音聊天记录对应的文字信息进行修正;
本实施例中,考虑不同国家的语音(汉语、英语等)或者不同人的发音差异(四川话、湖北话等)等因素,将语音聊天记录的语音内容转换得到的文字信息可能存在一定的转换误差。本发明实施例通过所述语音聊天记录对应的上下文信息(语音聊天信息或者文字信息),可对转换得到的文字信息进行修正,由此可得到更准确的文字信息。
S36,展示修正后的文字信息。
可将匹配的语音聊天记录及其对应的文字信息(修正后)存储到预设的消息列表中,通过消息列表对所述语音聊天记录进行展示。展示方式可参考上一实施例,不做赘述。
可以理解的是,在上述步骤S33中,也可以将关键字语音片段和各条语音聊天记录均转换为对应的文字信息,通过上一实施例的文字匹配的方式提取相应的语音聊天记录。这种情况下,无需再执行步骤S34。
本实施例的提取语音内容的方法,能够通过语音片段提取相关的语音聊天记录,并通过语音聊天记录对应的上下文信息对得到的信息进行修正,由此便于用户得到更准确的信息。
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。
基于与上述实施例中的提取语音内容的方法相同的思想,本发明还提供提取语音内容的装置,该装置可用于执行上述提取语音内容的方法。为了便于说明,提取语音内容的装置实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
图7为本发明一实施例的提取语音内容的装置的示意性结构图;如图7所示,本实施例的提取语音内容的装置包括:关键字获取模块710、匹配模块720以及展示模块730,各模块详述如下:
所述关键字获取模块710,用于获取用于提取语音内容的关键字,所述关键字为文字或者语音片段;
本实施例中所述关键字既可为文字,例如:“开会”、“@selina”等;也可为语音形式的关键字,即包括“开会”、“selina”等信息的语音片段。关键字获取模块710可按照设定的机制自动获取预设的关键字,也可以根据用户操作指令实时启动聊天应用软件预设的查询功能,接收用户输出的用于提取语音内容的关键字。
所述匹配模块720,用于根据所述关键字搜索已接收的语音聊天记录,提取其中语音内容与所述关键字匹配的语音聊天记录;
本发明实施例中,所述匹配模块720还可用于确定当前打开的聊天窗口、或者指定的若干聊天窗口为本次搜索的范围,以根据所述关键字在所述范围内搜索已接收的语音聊天记录。此外,所述匹配模块720还可以对已接收的语音聊天记录进行全局搜索。
作为另一优选实施方式,所述匹配模块720还可对设定的搜索时间范围内已接收的语音聊天记录进行搜索。例如,设定搜索时间范围为24小时,即搜索距离当前时间24小时内的已接收的语音聊天记录。由此既可缩短搜索时间,又避免返回太多内容,减小用户筛选信息的难度。
本实施例中关键字支持文字格式或语音片段格式,对应的,所述匹配模块720提取匹配的语音聊天记录的方式包括文字匹配方式和语音匹配方式,具体包括:
a)关键字格式为文字的场合,先将已接收的各语音条转换为对应的文字信息(转换后的文字可现实在语音条的下方),用所述关键字进行搜索,匹配的语音条被提取出来;
b)关键字格式为语音片段的场合,可先将语音片段转换为文字,然后再按照上述a)的匹配方式进行搜索;
c)关键字格式为语音片段的场合,直接将语音片段与已接收的各条语音对比匹配,提取包括所述语音片段的全部语音条,再将提取到的语音条转换为对应的文字。
所述展示模块730,用于将提取到的语音聊天记录的语音内容以文字信息的形式进行展示。
优选的,所述展示模块730包括:存储子模块31,用于将各条匹配的语音聊天记录、及与其语音内容对应的文字信息存储到预设的消息列表;例如预先生成对应的消息列表,并用所述关键字对所述消息列表命名。例如:当前用于提取语音内容的关键字为“开会”,则可生成一个名称为“开会”的消息抽屉,用于存储本次搜索得到的全部语音条。展示子模块32,用于通过所述消息列表将提取到的语音聊天记录的语音内容以文字信息的形式进行展示。即用户选中所述消息列表中某一条记录时,可查看对应的语音聊天记录。
优选的,所述展示子模块32可具体用于接收所述消息列表中任一条语音聊天记录的选中指令,获取该条语音聊天记录的接收位置信息;根据所述接收位置信息跳转到接收该条语音聊天记录的原始聊天窗口,在所述原始聊天窗口中对该条语音聊天记录进行标记显示。进一步的,所述第一展示单元,还可用于获取该条语音聊天记录对应的文字信息,在所述原始聊天窗口中该条语音聊天记录的相邻区域显示所述文字信息。
作为另一优选实施方式,所述展示子模块32可具体用于,接收对所述消息列表中任一条语音聊天记录的选中指令,生成对应的显示窗口;获取该条语音聊天记录的语音内容对应的文字信息,将所述文字信息显示到所述显示窗口中。
进一步的,所述展示模块730还可包括:标记子模块33,用于获取当前展示的语音聊天记录对应的文字信息中所述关键字的位置,对所述关键字进行标记显示。
图8为另一实施例的提取语音内容的装置的示意性结构图;在前一实施例的基础上,本实施例的提取语音内容的装置的还可根据语音聊天记录的上下文信息,对语音转换得到的文字信息进行修正,保证聊天内容的连贯及内容流畅。
如图8所示,在本实施例的提取语音内容的装置包括:关键字获取模块710、匹配模块720以及展示模块730,各模块的功能参考上一实施例所述。并且,本实施例的匹配模块720还包括:修正子模块,用于获取语音聊天记录在原始聊天窗口中的上下文信息,根据所述上下文信息对所述语音聊天记录对应的文字信息进行修正。
具体的,如图8所示,所述匹配模块720可包括:第一转换子模块,用于若所述关键字为文字,则获取已接收的语音聊天记录,将获取到的各条语音聊天记录的语音内容转换为对应的文字信息;修正子模块,用于获取所述语音聊天记录在原始聊天窗口中的上下文信息,根据所述上下文信息对所述语音聊天记录对应的文字信息进行修正;第一匹配子模块,用于将文字关键字与修正后的文字信息进行匹配,提取与文字关键字匹配的语音聊天记录。
作为另一优选实施方式,所述匹配模块720还可包括:第二转换子模块,用于若所述关键字为语音片段,则将所述语音片段转换为对应的文字关键字;以及获取已接收的语音聊天记录,将获取到的各条语音聊天记录的语音内容转换为对应的文字信息;修正子模块,用于获取各条语音聊天记录在原始聊天窗口中的上下文信息,根据所述上下文信息对所述语音聊天记录对应的文字信息进行修正;第二匹配子模块,用于将转换得到的文字关键字与修正后的各条语音聊天记录对应的文字信息进行匹配,提取与文字关键字匹配的语音聊天记录。
作为另一优选实施方式,所述匹配模块720还可包括:第三匹配子模块,用于若所述关键字为语音片段,则获取已接收的语音聊天记录,将所述语音片段与获取到的各条语音聊天记录进行匹配,提取包含所述语音片段的语音聊天记录;第三转换子模块,用于将提取到的各条语音聊天记录的语音内容转换为对应的文字信息;以及,修正子模块,用于获取提取到的各条语音聊天记录在原始聊天窗口中的上下文信息,根据所述上下文信息对所述语音聊天记录对应的文字信息进行修正。
需要说明的是,上述示例的提取语音内容的装置的实施方式中,各模块/单元之间的信息交互、执行过程等内容,由于与本发明前述方法实施例基于同一构思,其带来的技术效果与本发明前述方法实施例相同,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
此外,上述示例的提取语音内容的装置的实施方式中,各功能模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的功能模块完成,即将所述提取语音内容的装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。其中各功能模既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,作为独立的产品销售或使用。所述程序在执行时,可执行如上述各方法的实施例的全部或部分步骤。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。可以理解,其中所使用的术语“第一”、“第二”等在本文中用于区分对象,但这些对象不受这些术语限制。
以上所述实施例仅表达了本发明的几种实施方式,不能理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (23)

1.一种提取语音内容的方法,其特征在于,包括:
获取用于提取语音内容的关键字,所述关键字为文字或者语音片段;
根据所述关键字搜索已接收的语音聊天记录,提取其中语音内容与所述关键字匹配的语音聊天记录;
将提取到的语音聊天记录、所述语音聊天记录对应的文字信息中的至少一项存储到消息列表,通过所述消息列表对各条语音聊天记录的语音内容以文字信息的形式进行展示;
所述方法还包括:
接收所述消息列表中任一条语音聊天记录或者任一条语音聊天记录对应的文字信息的选中指令,跳转到该条语音聊天记录的原始聊天窗口,在所述原始聊天窗口中对该条语音聊天记录进行标记显示。
2.根据权利要求1所述的提取语音内容的方法,其特征在于,所述根据所述关键字搜索已接收的语音聊天记录,提取其中语音内容与所述关键字匹配的语音聊天记录,包括:
若为文字关键字,则获取已接收的语音聊天记录,将各条语音聊天记录的语音内容转换为对应的文字信息;将文字关键字与各条语音聊天记录对应的文字信息进行匹配,提取与文字关键字匹配的语音聊天记录。
3.根据权利要求1所述的提取语音内容的方法,其特征在于,所述根据所述关键字搜索已接收的语音聊天记录,提取其中语音内容与所述关键字匹配的语音聊天记录,包括:
若所述关键字为语音片段,则将所述语音片段转换为对应的文字关键字;
获取已接收的语音聊天记录,将各条语音聊天记录的语音内容转换为对应的文字信息;将文字关键字与各条语音聊天记录对应的文字信息进行匹配,提取与文字关键字匹配的语音聊天记录。
4.根据权利要求1所述的提取语音内容的方法,其特征在于,所述根据所述关键字搜索已接收的语音聊天记录,提取其中语音内容与所述关键字匹配的语音聊天记录,包括:
若所述关键字为语音片段,则获取已接收的语音聊天记录,将所述语音片段与各条语音聊天记录进行匹配,提取包含所述语音片段的语音聊天记录。
5.根据权利要求2或3所述的提取语音内容的方法,其特征在于,将各条语音聊天记录的语音内容转换为对应的文字信息之后,还包括:
获取所述语音聊天记录在原始聊天窗口中的上下文信息,根据所述上下文信息对所述语音聊天记录对应的文字信息进行修正。
6.根据权利要求4所述的提取语音内容的方法,其特征在于,提取包含所述语音片段的语音聊天记录之后还包括:
将提取到的各条语音聊天记录的语音内容转换为对应的文字信息;
获取提取到的各条语音聊天记录在原始聊天窗口中的上下文信息,根据所述上下文信息对所述语音聊天记录对应的文字信息进行修正。
7.根据权利要求1所述的提取语音内容的方法,其特征在于,所述接收对所述消息列表中任一条语音聊天记录的选中指令之后,还包括:
获取该条语音聊天记录对应的文字信息,在所述原始聊天窗口中该条语音聊天记录的相邻区域显示所述文字信息。
8.根据权利要求1所述的提取语音内容的方法,其特征在于,通过所述消息列表对各条语音聊天记录的语音内容以文字信息的形式进行展示,包括:
接收对所述消息列表中任一条语音聊天记录的选中指令,生成对应的显示窗口;获取该条语音聊天记录的语音内容对应的文字信息,将所述文字信息显示到所述显示窗口中。
9.根据权利要求1所述的提取语音内容的方法,其特征在于,通过所述消息列表对各条语音聊天记录的语音内容以文字信息的形式进行展示的过程中,还包括:
获取当前展示的文字信息中所述关键字的位置,对所述关键字进行标记显示。
10.根据权利要求1所述的提取语音内容的方法,其特征在于,将各条匹配的语音聊天记录及其语音内容对应的文字信息存储到预设的消息列表,之前还包括:
生成对应的消息列表,用所述关键字对所述消息列表命名。
11.根据权利要求1所述的提取语音内容的方法,其特征在于,根据所述关键字搜索已接收的语音聊天记录,包括:
确定当前打开的聊天窗口、或者指定的若干聊天窗口为本次搜索的范围,根据所述关键字在所述范围内搜索已接收的语音聊天记录。
12.一种提取语音内容的装置,其特征在于,包括:
关键字获取模块,用于获取用于提取语音内容的关键字,所述关键字为文字或者语音片段;
匹配模块,用于根据所述关键字搜索已接收的语音聊天记录,提取其中语音内容与所述关键字匹配的语音聊天记录;
展示模块,用于将提取到的语音聊天记录的语音内容以文字信息的形式进行展示;
所述展示模块包括:
存储子模块,用于将各条匹配的语音聊天记录、所述语音聊天记录对应的文字信息中至少一项存储到预设的消息列表;
以及,展示子模块,用于通过所述消息列表对各条语音聊天记录的语音内容以文字信息的形式进行展示;还用于接收所述消息列表中任一条语音聊天记录或者任一条语音聊天记录对应的文字信息的选中指令,跳转到该条语音聊天记录的原始聊天窗口,在所述原始聊天窗口中对该条语音聊天记录进行标记显示。
13.根据权利要求12所述的提取语音内容的装置,其特征在于,所述匹配模块包括:
第一转换子模块,用于若所述关键字为文字,则获取已接收的语音聊天记录,将获取到的各条语音聊天记录的语音内容转换为对应的文字信息;
第一匹配子模块,用于将文字关键字与各条语音聊天记录对应的文字信息进行匹配,提取与文字关键字匹配的语音聊天记录。
14.根据权利要求12所述的提取语音内容的装置,其特征在于,所述匹配模块包括:
第二转换子模块,用于若所述关键字为语音片段,则将所述语音片段转换为对应的文字关键字;以及获取已接收的语音聊天记录,将获取到的各条语音聊天记录的语音内容转换为对应的文字信息;
第二匹配子模块,用于将转换得到的文字关键字与各条语音聊天记录对应的文字信息进行匹配,提取与文字关键字匹配的语音聊天记录。
15.根据权利要求12所述的提取语音内容的装置,其特征在于,所述匹配模块包括:
第三匹配子模块,用于若所述关键字为语音片段,则获取已接收的语音聊天记录,将所述语音片段与获取到的各条语音聊天记录进行匹配,提取包含所述语音片段的语音聊天记录。
16.根据权利要求13或14所述的提取语音内容的装置,其特征在于,所述匹配模块还包括:
修正子模块,用于获取所述语音聊天记录在原始聊天窗口中的上下文信息,根据所述上下文信息对所述语音聊天记录对应的文字信息进行修正。
17.根据权利要求15所述的提取语音内容的装置,其特征在于,所述匹配模块还包括:
第三转换子模块,用于将提取到的各条语音聊天记录的语音内容转换为对应的文字信息;
以及,修正子模块,用于获取提取到的各条语音聊天记录在原始聊天窗口中的上下文信息,根据所述上下文信息对所述语音聊天记录对应的文字信息进行修正。
18.根据权利要求12所述的提取语音内容的装置,其特征在于,所述展示子模块包括:
第一展示单元,用于获取该条语音聊天记录对应的文字信息,在所述原始聊天窗口中该条语音聊天记录的相邻区域显示所述文字信息。
19.根据权利要求12所述的提取语音内容的装置,其特征在于,所述展示子模块包括:
第二展示单元,用于接收对所述消息列表中任一条语音聊天记录的选中指令,生成对应的显示窗口;获取该条语音聊天记录的语音内容对应的文字信息,将所述文字信息显示到所述显示窗口中。
20.根据权利要求12所述的提取语音内容的装置,其特征在于,所述展示模块还包括:
标记子模块,用于获取当前展示的文字信息中所述关键字的位置,对所述关键字进行标记显示。
21.根据权利要求12所述的提取语音内容的装置,其特征在于,所述匹配模块,还用于确定当前打开的聊天窗口、或者指定的若干聊天窗口为本次搜索的范围,以根据所述关键字在所述范围内搜索已接收的语音聊天记录。
22.一种计算机设备,包括存储器以及处理器,所述存储器用于存储计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11任一所述方法的步骤。
23.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至11任一所述方法的步骤。
CN201610299123.9A 2016-05-06 2016-05-06 提取语音内容的方法及装置 Active CN107346318B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610299123.9A CN107346318B (zh) 2016-05-06 2016-05-06 提取语音内容的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610299123.9A CN107346318B (zh) 2016-05-06 2016-05-06 提取语音内容的方法及装置

Publications (2)

Publication Number Publication Date
CN107346318A CN107346318A (zh) 2017-11-14
CN107346318B true CN107346318B (zh) 2021-01-12

Family

ID=60254454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610299123.9A Active CN107346318B (zh) 2016-05-06 2016-05-06 提取语音内容的方法及装置

Country Status (1)

Country Link
CN (1) CN107346318B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107995101B (zh) * 2017-11-30 2021-03-23 上海掌门科技有限公司 一种用于将语音消息转为文本信息的方法与设备
CN108494573A (zh) * 2018-03-29 2018-09-04 丁超 群聊天方法、装置及信息终端
CN108874904B (zh) * 2018-05-24 2022-04-29 平安科技(深圳)有限公司 语音消息搜索方法、装置、计算机设备及存储介质
CN109104355A (zh) * 2018-06-28 2018-12-28 佛山长意云信息技术有限公司 一种信息提醒方法、装置、计算机设备及存储介质
CN108959606A (zh) * 2018-07-16 2018-12-07 商洛学院 一种英语单词查询系统
CN110798393B (zh) * 2018-08-02 2021-10-26 腾讯科技(深圳)有限公司 声纹气泡的展示方法及使用声纹气泡的终端
CN109274586A (zh) * 2018-11-14 2019-01-25 深圳市云歌人工智能技术有限公司 聊天信息的存储方法、装置及存储介质
CN109600299B (zh) * 2018-11-19 2021-06-25 维沃移动通信有限公司 一种消息发送方法及终端
CN110535749B (zh) * 2019-07-09 2023-04-25 中国平安财产保险股份有限公司 对话推送方法、装置、电子设备及存储介质
CN112151072B (zh) * 2020-08-21 2024-07-02 北京搜狗科技发展有限公司 语音处理方法、装置和介质
CN113157966B (zh) * 2021-03-15 2023-10-31 维沃移动通信有限公司 显示方法、装置及电子设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6934684B2 (en) * 2000-03-24 2005-08-23 Dialsurf, Inc. Voice-interactive marketplace providing promotion and promotion tracking, loyalty reward and redemption, and other features
JP5042799B2 (ja) * 2007-04-16 2012-10-03 ソニー株式会社 音声チャットシステム、情報処理装置およびプログラム
CN103870491B (zh) * 2012-12-13 2017-03-01 联想(北京)有限公司 一种信息匹配方法及电子设备
CN103327181B (zh) * 2013-06-08 2014-12-10 广东欧珀移动通信有限公司 可提高用户获知语音信息效率的语音聊天方法
CN103744930B (zh) * 2013-12-30 2018-02-13 宇龙计算机通信科技(深圳)有限公司 社交记录查看的方法及其移动终端
CN105187597B (zh) * 2015-06-30 2019-02-22 上海什马出行信息科技有限公司 一种语音记录的管理方法、装置及其移动终端
CN105407037A (zh) * 2015-10-30 2016-03-16 努比亚技术有限公司 一种群聊装置及方法

Also Published As

Publication number Publication date
CN107346318A (zh) 2017-11-14

Similar Documents

Publication Publication Date Title
CN107346318B (zh) 提取语音内容的方法及装置
JP5671557B2 (ja) クライアント・コンピューティング・デバイスを含むシステム、メディア・オブジェクトにタグ付けする方法、および音声タグ付きメディア・オブジェクトを含むデジタル・データベースをサーチする方法
US20180090132A1 (en) Voice dialogue system and voice dialogue method
CN107864410B (zh) 一种多媒体数据处理方法、装置、电子设备以及存储介质
CN103187053A (zh) 输入方法和电子设备
CN104468959A (zh) 移动终端通话过程中显示图像的方法、装置及移动终端
US20130253932A1 (en) Conversation supporting device, conversation supporting method and conversation supporting program
CN102984050A (zh) 即时通信中语音搜索的方法、客户端及系统
CN107992523B (zh) 移动应用的功能选项查找方法及终端设备
CN104240703A (zh) 语音信息处理方法和装置
US9720982B2 (en) Method and apparatus for natural language search for variables
EP2747464A1 (en) Sent message playing method, system and related device
KR20200045852A (ko) 음성 합성 또는 영상 편집을 통한 멀티미디어 컨텐츠 내 광고 서비스 플랫폼 및 음성 합성 서비스와 영상 편집 서비스를 제공하는 방법
CN106558311B (zh) 语音内容提示方法和装置
JP5606951B2 (ja) 音声認識システムおよびこれを用いた検索システム
WO2022206198A1 (zh) 一种音频和文本的同步方法、装置、设备以及介质
CN108447473A (zh) 语音翻译方法和装置
CN106356056B (zh) 语音识别方法和装置
JP6690442B2 (ja) プレゼンテーション支援装置、プレゼンテーション支援システム、プレゼンテーション支援方法及びプレゼンテーション支援プログラム
US20140129228A1 (en) Method, System, and Relevant Devices for Playing Sent Message
CN110600045A (zh) 声音转换方法及相关产品
CN113055529B (zh) 录音控制方法和录音控制装置
CN108337357B (zh) 音频播放方法及装置
CN105869631B (zh) 语音预测的方法和装置
CN104239462A (zh) 搜索结果的展现方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant