CN112235183B

CN112235183B - 通信消息处理方法、设备及即时通信客户端

Info

Publication number: CN112235183B
Application number: CN202010891954.1A
Authority: CN
Inventors: 马宇尘
Original assignee: Shanghai Liangming Technology Development Co Ltd
Current assignee: Shanghai Liangming Technology Development Co Ltd
Priority date: 2020-08-29
Filing date: 2020-08-29
Publication date: 2021-11-12
Anticipated expiration: 2040-08-29
Also published as: CN112235183A; WO2022041177A1

Abstract

本发明提供了通信消息处理方法、设备及即时通信客户端，涉及通信交互技术领域。一种通信消息处理方法，包括如下步骤：获取音频采集设备采集的语音消息；提取所述语音消息中的关键词特征；确定与所述关键词匹配的图像数据，与前述语音消息一起发送，或者用图像数据替换所述语音消息中的关键词后发送。利用本发明，能够在用户语音交互的过程中智能地加载相关的图像数据，提高消息交互的便捷度、智能度和趣味性，提升用户体验。

Description

通信消息处理方法、设备及即时通信客户端

技术领域

本发明涉及通信交互技术领域。

背景技术

即时通信(Instant Messaging，IM)是移动互联网时代最为流行的通信方式，各种各样的即时通信软件不仅支持文字消息的即时传输，还能够实现用户间的语音消息、视频消息传输。

在通过IM工具进行语音消息交互时，用户可以启动终端的麦克风等语音采集设置录入语音消息，然后通过互联网将该语音消息传输给目标接收端用户，接收端用户在输入播放指令后，能够播放该语音消息，接收端用户也可以通过语音对该消息进行回复。

目前，为便于用户根据场合选择是否接听语音消息，还增加了语音消息的文字转换功能，并能够将转换的文本内容与录制的音频文件一起作为即时通信消息发送至接收端用户。有些通信工具，还设置了将文本转换成语音功的语音合成能——文本转换语音(TextTo Speech，简称TTS)。语音合成解决方案主要有两类，一类是拼接系统，另外一类是参数生成系统。两类系统均需要进行文本分析，前者是利用大量录制的片段语音，结合文本分析结果，将录音片段进行拼接得到合成语音；而后者是利用文本分析的结果，通过模型产生语音的参数，如基频等，进而转化成波形。

现有的语音消息功能，只结合了文本转换的特征，并没有考虑用户语音录制时的表情、情感状态、语气语调等进一层次的信息，难以满足用户需求，尤其对于喜欢用动态图像功能进行斗图的年轻人来说，语音消息缺少了趣味性。

随着人工智能技术的不断发展以及人们对于交互体验要求的不断提高，智能交互方式已逐渐开始替代一些传统的人机交互方式，并且已成为一个研究热点。目前，基于用户交互内容分析用户情绪，根据用户的情绪状态分析出用户消息所实际想要表达的深层次的情绪需求已成为可能。如何结合上述现有技术向用户提供一种更智能便捷的通信方式是亟待解决的问题。

发明内容

本发明的目的在于：克服现有技术的不足，提供了一种通信消息处理方法、设备及即时通信客户端。利用本发明，能够在用户语音交互的过程中智能地加载相关的图像数据，提高消息交互的便捷度、智能度和趣味性，提升用户体验。

为实现上述目标，本发明提供了如下技术方案：

一种通信消息处理方法，包括如下步骤：获取音频采集设备采集的语音消息；提取所述语音消息中的关键词特征；确定与所述关键词匹配的图像数据，与前述语音消息一起发送，或者用图像数据替换所述语音消息中的关键词后发送。

进一步，采集用户录制语音时的自身图像数据或者采集预设关联路径上的图像数据，识别采集的图像数据后作为匹配的图像数据；或者，对前述采集的图像数据增减元素生成合成图像作为匹配的图像数据；或者，基于前述采集的图像数据映射出虚拟图像作为匹配的图像数据。

进一步，获取语音消息的音量信息，根据所述音量的大小调整匹配图像数据输出时的尺寸。

进一步，对所述语音消息进行语义分析，当分析获得的语义内容包括两个以上的匹配图像数据时，获取匹配的多个图像数据制作成动态图像输出，或者将多个图像形成合成图像输出。

进一步，还包括步骤：

分析前述语音消息，

从语音消息中提取与前述图像数据对应的声音片段；

将提取的声音片段对应着图像数据进行播放，或者在采集到用户对图像数据的触发操作后播放前述声音片段。

进一步，与前述语音消息一起发送的方式为，

将语音消息与所述图像数据作为两条独立的消息一起发送；

或者，将所述图像数据插入所述关键词位置或相邻位置后一起发送；

或者，对应所述语音消息设置悬浮窗，通过悬浮窗显示所述图像数据。

进一步，所述图像数据为图片、视频、动画和/或其它多媒体信息。

进一步，获取所述语音消息的文字内容，将所述文字内容与语音消息的音频文件整合成多媒体消息输出显示。

优选的，所述多媒体消息的消息框中显示所述文字内容，对应该消息框设置有音频文件播放按钮，触发所述播放按钮能够触发音频文件播放。

进一步，提取所述语音消息中的关键词特征的方式为，

对语音消息进行语义分析，基于语义分析获取关键词特征；

或者，对语音消息进行音频分析获取语调特征、语速特征和/或音量特征，基于语调特征、语速特征和/或音量特征获取语音消息中的关键词特征；

或者，对语音消息进行音频分析获取用户的情绪状态特征，将所述情绪状态特征作为语音消息的关键词特征。

进一步，确定与所述关键词匹配的图像数据的方式为，

基于所述关键词在本地资源文件中搜索图像数据，获取与关键词匹配的图像数据；

和/或，基于所述关键词在网络资源文件中搜索图像数据，获取与关键词匹配的图像数据；

和/或，基于所述关键词在用户收发的历史图像数据中搜索，获取与关键词匹配的图像数据。

进一步，所述通信消息为即时通信消息。

本发明还提供了一种通信消息处理设备，包括如下结构：

音频采集模块，用以获取用户输入的语音消息；

信息提取模块，用以提取所述语音消息中的关键词特征；

信息处理模块，用以确定与所述关键词匹配的图像数据，与前述语音消息一起发送，或者用图像数据替换所述语音消息中的关键词后发送。

本发明还提供了一种即时通信客户端，用以进行即时通信交互，包括如下结构：

语音消息触发模块，用以采集用户的语音触发操作；

信息提取模块，用以根据用户输入的语音，提取所述语音中的关键词特征；

信息处理模块，用以确定与所述关键词匹配的图像数据，与前述语音一起发送，或者用图像数据替换所述语音中的关键词后作为即时通信消息发送。

本发明由于采用以上技术方案，与现有技术相比，作为举例，具有以下的优点和积极效果：利用本发明，能够在用户语音交互的过程中智能地加载相关的图像数据，提高消息交互的便捷度、智能度和趣味性，尤其适用于喜欢进行斗图交互的用户，提升了用户体验。

附图说明

图1为本发明实施例提供的通信消息处理方法的流程图。

图2为本发明实施例提供的即时通信客户端的模块结构图。

图3至图7为本发明实施例提供的即时通信交互的操作示例图。

图8至图10为本发明实施例提供的包含图像数据的语音消息接收时的示例图。

附图标记说明：

即时通信客户端100，语音消息触发模块110，信息提取模块120，信息处理模块130；

用户终端200，桌面210，即时通信工具图标211，联系人220，话筒230；

通信交互界面300。

具体实施方式

以下结合附图和具体实施例对本发明提供的通信消息处理方法、设备及即时通信客户端作进一步详细说明。应当注意的是，下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的，它们可以被相互组合从而达到更好的技术效果。在下述实施例的附图中，各附图所出现的相同标号代表相同的特征或者部件，可应用于不同实施例中。因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

需说明的是，本说明书所附图中所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定发明可实施的限定条件，任何结构的修饰、比例关系的改变或大小的调整，在不影响发明所能产生的功效及所能达成的目的下，均应落在发明所揭示的技术内容所能涵盖的范围内。本发明的优选实施方式的范围包括另外的实现，其中可以不按所述的或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

实施例

参见图1所示，公开了一种通信消息处理方法，包括如下步骤：

S100，获取音频采集设备采集的语音消息。

用户需要发送语音消息时，启动音频采集设备录制语音。以即时通信工具(IM工具)微信为例进行说明，此时所述消息为即时通信消息。用户进入微信后，可以触发语音录制按钮来启动所在终端的音频采集设备，拾音器被启动后即可以采集用户的声音信息。

所述终端，作为举例而非限制，可以为手机、掌上电脑、平板电脑等各种常用的移动终端，以及各种智能穿戴式电子设备，比如智能眼镜、智能手表等。在本实施例中，采用手机作为移动终端，所述手机具有音频采集结构、图像采集结构和显示结构。

S200，提取所述语音消息中的关键词特征。

基于语音识别技术识别前述语音消息，提前所述语音消息中的关键词特征。

语音识别技术主要是基于对语音的物理属性、生理属性和社会属性三个个基本属性的分析。语音的物理属性，主要包括音高、音长、音强和音色4个要素。音高是指声音的高低，主要决定于发音体振动速度的快慢；音长是指声音的长短，主要决定于发音体振动时间的久暂；音强是指声音的强弱，主要决定于发音体振动幅度的大小；音色是指声音的特色，主要决定于发音物体振动所形成的音波波纹曲折形式不同。语音的生理属性，主要指发音器官对语音的影响，包括肺和气管、候头和声带以及口腔、鼻腔和咽腔等发音气官。语音的社会属性，主要表现在3个方面，一是语音与意义之间并无必然联系，它们的对应关系是社会成员约定俗成的；二是各种语言或方言都有自己的语音系统；三是语音具有区别意义的作用。

通常而言，语音识别的基本过程可以包括：语音信号的预处理、特征提取、模式匹配三个步骤。

预处理通常可以包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等，并涉及到语音识别基元的选取和端点检测问题。

特征提取，用于提取语音中反映本质特征的声学参数，如平均能量、平均跨零率、共振峰等。提取的特征参数必须满足以下的要求：提取的特征参数能有效地代表语音特征，具有很好的区分性；各阶参数之间有良好的独立性；特征参数要计算方便，最好有高效的算法，以保证语音识别的实时实现。在训练阶段，将特征参数进行一定的处理后，为每个词条建立一个模型，保存为模板库。在识别阶段，语音信号经过相同的通道得到语音特征参数，生成测试模板，与参考模板进行匹配，将匹配分数最高的参考模板作为识别结果。同时，还可以在很多先验知识的帮助下，提高识别的准确率。

模式匹配，是整个语音识别系统的核心，它是根据一定规则(如某种距离测度)以及专家知识(如构词规则、语法规则、语义规则等)，计算输入特征与库存模式之间的相似度(如匹配距离、似然概率)，判断出输入语音的语意信息。

提前语音消息中的关键词特征，是指基于语音识别的内容获取其中的关键内容。所述关键词特征，作为举例而非限制，可以是其中的表达情绪的词、表达心情的词、表达喜好的词、表达意图的词，或者表达计划的词等。

本实施例中，提取所述语音消息中的关键词特征的方式可以为如下方式：

方式一，对语音消息进行语义分析，基于语义分析获取关键词特征。

方式二，对语音消息进行音频分析获取语调特征、语速特征和/或音量特征，基于语调特征、语速特征和/或音量特征获取语音消息中的关键词特征。

声音在表达时会出现语调、语速和音量的变化，比如说到关键信息时用户通常会提高音量，加重语调，并放慢语速。根据上述变化，可以分析用户表达的重点内容作为关键词特征。

方式三，对语音消息进行音频分析获取用户的情绪状态特征，将所述情绪状态特征作为语音消息的关键词特征。

声音能在一定程度上反应人的情绪，比如通常而言，急躁而大声的语音往往代表说话者比较愤怒，而欢快而柔和的语音往往代表说话者比较开心。据此，可以通过分析用户语音信息中的情绪信息来获知用户需要表达的重要内容。

优选的，识别所述语音信息中的情绪信息的方式为如下方式一种或多种：

方式一，分析语音信息中用户的音量变化，根据音量变化分析情绪状态特征。

方式二，分析语音信息中的音调变化，根据音调变化分析情绪状态特征。

方式三，分析语音信息中的语速信息，根据语音信息分析情绪状态特征。

方式四，分析语音信息中的节奏变化，根据节奏变化分析情绪状态特征。

作为举例而限制，比如采集到的用户的语音消息为“这个商品比我之前买的优惠了很多呀，真是太开心了”，对该语音消息进行识别后，获取的关键词特征可以是“太开心了”。

或者，虽然用户没有明确地表达情绪，但是语音消息中包含有情绪倾向性，则可以基于情景分析将暗含的情绪作为关键词特征。

作为举例而限制，比如采集到用户的语音消息为：“这个包子比以前小了太多了呀”，上述文字信息中包含的情绪倾向性为“不满意不开心”。于是，基于情绪倾向性“不满意不开心”作为关键词特征。

S300，确定与所述关键词匹配的图像数据，与前述语音消息一起发送，或者用图像数据替换所述语音消息中的关键词后发送。

具体的，确定与所述关键词匹配的图像数据的方式可以为如下方式：

本实施例的另一实施方式中，可以采集用户录制语音时的自身图像数据或者采集预设关联路径上的图像数据，识别采集的图像数据后作为匹配的图像数据。

或者，采集用户录制语音时的自身图像数据或者采集预设关联路径上的图像数据，识别采集的图像数据，然后对前述采集的图像数据增减元素生成合成图像作为匹配的图像数据。以此，可以形成包含现实元素和虚拟元素的合成图像，提高趣味性。

或者，采集用户录制语音时的自身图像数据或者采集预设关联路径上的图像数据，基于前述采集的图像数据映射出虚拟图像作为匹配的图像数据。以此，在保护用户隐私的基础上生成包含用户自身情绪或表情的虚拟图像——比如卡通造型，提高了趣味性。

本实施例的另一实施方式中，还可以获取语音消息的音量信息，根据所述音量的大小调整匹配图像数据输出时的尺寸。

本方式中，可以预先建立音量与图像尺寸之间的对应关系。作为举例而非限制，比如将声音基于音量分为5个等级，从低往高依次为：低音、中低音、中音、中高音和高音。而低音、中低音、中音、中高音和高音对应的图像尺寸依次增大。

识别所述语音信息中用户的音量属于前述哪个音量等级后，即可基于音量等级与图像尺寸之间的对应关系，获取该音量等级对应的图像尺寸。

本实施例的另一实施方式中，还可以对所述语音消息进行语义分析，当分析获得的语义内容包括两个以上的匹配图像数据时，获取匹配的多个图像数据制作成动态图像输出，或者将多个图像形成合成图像输出。

作为举例而非限制，比如语义内容中的“阳澄湖”和“大闸蟹”均对应有匹配图像，则可以将多个匹配的图像制作成动态图像“在阳澄湖湖面上爬行的大闸蟹”，或者，合成图像“多个大闸蟹位于阳澄湖中”。

本实施例的另一实施方式中，还包括如下步骤：

分析前述语音消息，

从语音消息中提取与前述图像数据对应的声音片段；

即对输出的图像数据设置声音信息，该声音信息能够在接收端用户接收信息时自动播放，或者，在接收端用户触发了图像数据——比如用户点击了图像数据所在区域——后播放。

本实施例中，与前述语音消息一起发送的方式可以为如下方式：

将语音消息与所述图像数据作为两条独立的消息一起发送。或者，将所述图像数据插入所述关键词位置或相邻位置后一起发送。或者，对应所述语音消息设置悬浮窗，通过悬浮窗显示所述图像数据。

所述图像数据，可以为图片、视频、动画和/或其它多媒体信息。

本实施例的另一实施方式中，进一步，还可以获取所述语音消息的文字内容，将所述文字内容与语音消息的音频文件整合成多媒体消息输出显示。

参见图2所示，本发明还提供了一种即时通信客户端，用以进行即时通信交互。所述即时通信客户端100包括如下结构：

语音消息触发模块110，用以采集用户的语音触发操作。

信息提取模块120，用以根据用户输入的语音，提取所述语音中的关键词特征。

信息处理模块130，用以确定与所述关键词匹配的图像数据，与前述语音一起发送，或者用图像数据替换所述语音中的关键词后作为即时通信消息发送。

用户进入即时通信工具，需要发送语音消息时，启动音频采集设备录制语音。具体的，可以触发语音录制按钮来启动所在终端的音频采集设备，拾音器被启动后即可以采集用户的声音信息。所述终端，作为举例而非限制，可以为手机、掌上电脑、平板电脑等各种常用的移动终端，以及各种智能穿戴式电子设备，比如智能眼镜、智能手表等。在本实施例中，采用手机作为移动终端，所述手机具有音频采集结构、图像采集结构和显示结构。

然后，基于语音识别技术识别前述语音消息，提前所述语音消息中的关键词特征。

作为举例，提取所述语音消息中的关键词特征的方式可以为如下方式：

优选的，所述信息处理模块130，可以包括消息合成单元，其用以识别所述语音的文字内容，并将所述文字内容与语音的音频文件整合成多媒体消息。

进一步，所述多媒体消息的消息框中显示所述文字内容，对应该消息框设置有音频文件播放按钮，触发所述播放按钮能够触发音频文件播放。

优选的，所述信息提取模块120，可以包括情绪识别单元。所述情绪识别单元，用以识别所述语音消息中的情绪信息。优选的，所述情绪识别单元包括声音音量分析分电路、声音音调分析分电路、声音语速分析分电路和/或声音节奏分析分电路。

结合图3至图7对本实施例的实施方式进行详细描述。

参见图3所示，用户通过携带的用户终端200进入即时通讯工具“快信”。所述用户终端200，在本实施例中优选为手机。

参见图4所示，用户终端200的桌面210向用户输出用户界面，用户界面上显示有所有通信消息，通信消息显示了联系人220、最新的交互消息、以及虚拟话筒230(语音触发控件)。

作为举例，参见图4所示，比如用户与联系人leo聊天，可以在触发leo对应的虚拟话筒230，便可直接启动语音消息采集功能。

参见图5所示，用户界面中显示了语音消息输入框，输入框中显示了用户的正在录入的语音，语音对应的文字内容以及相关的操作按键。

所述语音消息输入框可以直接在当前用户界面显示，也可以针对联系人leo生成单独的语音消息界面后进行显示，参见图6所示，所述语音消息界面显示有联系人信息、语音消息输入框，以及虚拟话筒和当前录音品质信息。

参见图7所示，用户录制语音时，可以通过操作虚拟话筒230来进行发送、暂停操作。作为优选方式的举例，比如按住话筒向上滑动即为发送操作，按住话筒向右方滑动即为暂停操作。

本实施例中，图像数据与前述语音消息一起发送的方式可以为如下方式：

参见图8所示，将语音消息与所述图像数据作为两条独立的消息一起发送。

或者，参见图9所示，将所述图像数据插入所述关键词位置或相邻位置后一起发送。插入后的图像数据可以直接播放或者在用户触发了关键词位置后进行播放。

或者，参见图10所述，用图像数据替换所述语音中的关键词后作为即时通信消息发送。此时，发送至接收端的消息包括了文字内容、音频文件和图像数据。

本实施例中，参见图8至图10，还获取了所述语音消息的文字内容，将所述文字内容与语音消息的音频文件整合成多媒体消息输出显示。

所述多媒体消息的消息框中显示所述文字内容，对应该消息框还可以设置有音频文件播放按钮，触发所述播放按钮能够触发音频文件播放。

所述即时通信客户端还可以根据需要设置其它功能模块，具体功能可参见在前实施例，在此不再赘述。

本发明的另一实施例，还提供了一种通信消息处理设备。

所述消息处理设置包括如下结构：

音频采集模块，用以获取用户输入的语音消息；

信息提取模块，用以提取所述语音消息中的关键词特征；

所述消息处理设备还可以根据需要设置其它功能模块，具体参见前述实施例，在此不再赘述。

在上面的描述中，虽然本公开内容的各方面的所有组件可以被解释为被装配或被操作地连接为一个电路，但是本公开内容并不旨在将其自身限于这些方面。而是，在本公开内容的目标保护范围内，各组件可以以任意数目选择性地且操作性地进行合并。这些组件中的每个组件自身还可以实现成硬件，同时各个组件可以部分地合并或选择性地总体合并且实现成具有用于执行硬件等同体的功能的程序模块的计算机程序。用以构建这种程序的代码或代码段可以由本领域技术人员容易地导出。这种计算机程序可以储存在计算机可读介质中，其可以被运行以实现本公开内容的各方面。计算机可读介质可以包括磁记录介质、光学记录介质以及载波介质。

另外，像“包括”、“囊括”以及“具有”的术语应当默认被解释为包括性的或开放性的，而不是排他性的或封闭性，除非其被明确限定为相反的含义。所有技术、科技或其他方面的术语都符合本领域技术人员所理解的含义，除非其被限定为相反的含义。在词典里找到的公共术语应当在相关技术文档的背景下不被太理想化或太不实际地解释，除非本公开内容明确将其限定成那样。

虽然已出于说明的目的描述了本公开内容的示例方面，但是本领域技术人员应当意识到，上述描述仅是对本发明较佳实施例的描述，并非对本发明范围的任何限定，本发明的优选实施方式的范围包括另外的实现，其中可以不按所述出或讨论的顺序来执行功能。本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰，均属于权利要求书的保护范围。

Claims

1.一种通信消息处理方法，其特征在于包括如下步骤：

获取音频采集设备采集的语音消息；

提取所述语音消息中的关键词特征；其中，对语音消息进行音频分析获取语调特征、语速特征和/或音量特征，基于语调特征、语速特征和/或音量特征获取语音消息中的关键词特征；或者，对语音消息进行音频分析获取用户的情绪状态特征，将所述情绪状态特征作为语音消息的关键词特征；

确定与所述关键词匹配的图像数据，与前述语音消息一起发送，或者用图像数据替换所述语音消息中的关键词后发送；其中，采集用户录制语音时的自身图像数据或者采集预设关联路径上的图像数据，基于前述采集的图像数据映射出包含用户自身情绪或表情的虚拟图像作为匹配的图像数据；

其中还包括步骤：分析前述语音消息，从语音消息中提取与前述图像数据对应的声音片段；将提取的声音片段对应着图像数据进行播放，或者在采集到用户对图像数据的触发操作后播放前述声音片段。

2.根据权利要求1所述的方法，其特征在于：获取语音消息的音量信息，根据所述音量的大小调整匹配图像数据输出时的尺寸。

3.根据权利要求1所述的方法，其特征在于：对所述语音消息进行语义分析，当分析获得的语义内容包括两个以上的匹配图像数据时，获取匹配的多个图像数据制作成动态图像输出，或者将多个图像形成合成图像输出。

4.根据权利要求1所述的方法，其特征在于：与前述语音消息一起发送的方式为，

将语音消息与所述图像数据作为两条独立的消息一起发送；

5.根据权利要求1所述的方法，其特征在于：所述图像数据为图片、视频、动画和/或其它多媒体图像信息。

6.根据权利要求1所述的方法，其特征在于：获取所述语音消息的文字内容，将所述文字内容与语音消息的音频文件整合成多媒体消息输出显示。

7.根据权利要求6所述的方法，其特征在于：所述多媒体消息的消息框中显示所述文字内容，对应该消息框设置有音频文件播放按钮，触发所述播放按钮能够触发音频文件播放。

8.根据权利要求1所述的方法，其特征在于：所述通信消息为即时通信消息。

9.一种根据权利要求1所述方法的通信消息处理设备，其特征在于包括：

音频采集模块，用以获取用户输入的语音消息；

信息提取模块，用以提取所述语音消息中的关键词特征；

10.一种根据权利要求1所述方法的即时通信客户端，用以进行即时通信交互，其特征在于包括：

语音消息触发模块，用以采集用户的语音触发操作；