CN103001858B

CN103001858B - 即时通信中回复消息的方法、客户端及系统

Info

Publication number: CN103001858B
Application number: CN201210545658.1A
Authority: CN
Inventors: 马宇尘
Original assignee: Shanghai Liangming Technology Development Co Ltd
Current assignee: Shanghai Liangming Technology Development Co Ltd
Priority date: 2012-12-14
Filing date: 2012-12-14
Publication date: 2015-09-09
Anticipated expiration: 2032-12-14
Also published as: CN103001858A

Abstract

本发明提供了一种即时通信中回复消息的方法、客户端及系统，属于通信、网络技术领域。其中所提供的方法包括如下步骤：在采集获得具有文本内容和/或图标和/或图片的即时通信消息时，触发所在的即时通信客户端进行用户的语音信息和/或视频信息的采集操作；将采集获得的语音信息和/或视频信息，识别为字符内容和/或图标和/或图片数据后，载入到即时通信交互界面的交互界面输入栏，或者直接向交互对方推送。利用本发明，能够针对包括有字符形式的即时通信消息，便利地进行回复操作。

Description

即时通信中回复消息的方法、客户端及系统

技术领域

本发明属于通信、网络技术领域。

技术背景

在使用即时通信工具的过程中，会有这样的问题：接收到来自对方的即时通信消息，其即时通信消息中包括有字符内容，用户需要对其回复同样是字符形式的消息，但用户打字的速度比较慢，或者，在进行即时通信消息回复时，又不乐意进行打字操作。

如何解决这种情况下的即时通信消息的回复操作，是目前需要解决的一个问题。

发明内容

本发明的目的是提供一种即时通信中回复消息的方法，以及对应的客户端及系统，利用本发明，能够针对包括有字符形式的即时通信消息，便利地进行回复操作。

本发明所提供的一种即时通信中回复消息的方法，包括如下步骤：

步骤1，在采集获得具有文本内容和/或图标和/或图片的即时通信消息时，触发所在的即时通信客户端进行用户的语音信息和/或视频信息的采集操作；

步骤2，将采集获得的语音信息和/或视频信息，识别为字符内容和/或图标和/或图片数据后，载入到即时通信交互界面的交互界面输入栏，或者直接向交互对方推送。

进一步，所述进行语音信息和/或视频信息的采集操作，限定在接收到对方即时通信消息后的预设时间阈值内，才能够进行语音信息和/或视频信息采集的触发操作。

进一步，所述的时间阈值，是通过如下方式进行实施的：

采集获得来自于交互对方的即时通信消息，判定其中是否包括有文本内容和/或图标和/或图片，在包括的情况下转入下一步骤；

启动所在的终端设备，进行语音数据和/或视频数据的采集操作，并开始计时；

在前述的时间阈值内未采集获得语音数据的情况下，或者未采集获得包括有唇语或者手语类视频信息的情况下，则停止进行语音数据和/或视频数据的采集操作；如果启动了语音数据和/或视频数据的采集操作，且该视频数据中包括有唇语或者手语类图象数据，则等到采集操作间断的情况下，结束语音数据和/或视频数据的采集进程。

进一步，所述的时间阈值，在2-10秒钟之间。

进一步，所述的语音信息，对应着能够识别获得文字的语音内容；

或者，所述的视频信息，对应着能够识别获得字符的唇语视频数据，或者识别获得字符的手语图象的视频数据。

进一步，在交互对方所发送的即时通信消息仅仅包括有图标数据的情况下，采集所录制的语音信息和/或视频信息；

将语音信息和/或视频信息识别后具有图标数据选项的情况下，将该图标选项作为默认识别结果，载入到交互界面输入栏，或者直接向交互对方推送。

进一步，进行语音识别的方式，是通过如下其一进行的：

（1）由即时通信客户端所在的终端设置语音识别模块，将采集获得的语音信息经该语音识别模块识别处理后，获取识别结果；

（2）由即时通信客户端预设进行通信连接的语音识别服务器，将所采集的语音信息推送至该语音识别服务器，经由该语音识别服务器识别后反馈识别结果至前述的即时通信客户端；

（3）由即时通信系统服务器预设语音识别模块，通过即时通信客户端所采集的语音信息推送至即时通信系统服务器后，由前述的语音识别模块进行识别处理后，将识别结果反馈至前述的即时通信客户端；

（4）由即时通信系统服务器预设进行通信连接的语音识别服务器，通过即时通信客户端将采集获得的语音信息推送至即时通信系统服务器后，由即时通信系统服务器将该语音信息继续向前述的语音识别服务器进行推送，获得语音识别结果后先反馈至即时通信系统服务器，再由即时通信系统服务器推送至前述的即时通信客户端。

进一步，进行视频识别的方式，是通过如下其一进行的：

（1）由即时通信客户端所在的终端设置视频识别模块，将采集获得的视频信息经该视频识别模块识别处理后，获取识别结果；

（2）由即时通信客户端预设进行通信连接的视频识别服务器，将所采集的视频信息推送至该视频识别服务器，经由该视频识别服务器识别后反馈识别结果至前述的即时通信客户端；

（3）由即时通信系统服务器预设视频识别模块，通过即时通信客户端所采集的视频信息推送至即时通信系统服务器后，由前述的视频识别模块进行识别处理后，将识别结果反馈至前述的即时通信客户端；

（4）由即时通信系统服务器预设进行通信连接的视频识别服务器，通过即时通信客户端将采集获得的视频信息推送至即时通信系统服务器后，由即时通信系统服务器将该视频信息继续向前述的视频识别服务器进行推送，获得视频识别结果后先反馈至即时通信系统服务器，再由即时通信系统服务器推送至前述的即时通信客户端。

进一步，所述对用户语音信息和/或视频信息的采集操作，是通过如下的步骤进行触发的：

预设触发进行语音信息和/或视频信息采集操作时的时间阈值，以及预设需要具有正对视窗的人脸数据作为触发数据采集操作的必要条件，其中“正对视窗”允许在预设阈值内的偏角；

采集获得来自于交互对方的即时通信消息的情况下，开始进行计时；

启动所在终端上的摄像结构，拍摄图象数据；

对图象数据进行识别，判定是否有正面对于所在视窗的人脸数据；

在具有的情况下，且检测后获得的时间量处在前述时间阈值的情况下，启动所在终端进行用户语音信息和/或视频信息的采集操作。

进一步，对应着所述的人脸数据，预设有用户的标准人脸数据；

在判定该人脸数据与标准人脸数据属于同一用户的情况下，才进行前述的语音信息和/或视频信息的采集操作，否则不触发。

进一步，所述的用户语音信息录制的触发，是通过如下方式实施的：

预设所录制声音信息的音量最小阈值；

在采集获得由交互对方所发送的即时通信消息后，启动对声音的录制操作；

采集所录制的声音，判定是否达到预设的音量最小阈值，在达到的情况下，将对应的声音数据采集之后进行识别操作；在达不到的情况下，将录制的声音数据放弃，继续尝试对声音的录制操作。

进一步，通过采集用户语音信息和/或视频信息进行识别的方式所获得的字符和/或图标和/或图片，载入到交互界面输入栏后，通过如下方式进行操作：

预设识别获得的字符和/或图标和/或图片进行自动发送的时间阈值；

从识别获得的字符和/或图标和/或图片载入到交互界面输入栏后进行计时，判定是否达到前述的时间阈值；

在该时间阈值之内采集获得对该交互界面输入栏的编辑消息或者光标触发消息的情况下，停止自动发送数据的进程；在该时间阈值内没有采集获得前述编辑消息或光标触发消息的情况下，继续进行下一步骤；

判断在达到时间阈值的情况下，将采集的数据自动进行发送操作。

进一步，所述的时间阈值，在3-15秒钟之间。

本发明还提供一种即时通信中回复消息的客户端，该客户端包括：

数据采集触发单元，在采集获得具有文本内容和/或图标和/或图片的即时通信消息时，触发所在的即时通信客户端进行用户的语音信息和/或视频信息的采集操作；

识别信息回复单元，用以将采集获得的语音信息和/或视频信息，识别为字符内容和/或图标和/或图片数据后，载入到即时通信交互界面的交互界面输入栏，或者直接向交互对方推送。

本发明还提供一种即时通信中回复消息的系统，它包括客户端和识别服务器，该系统还包括：

客户端，它包括，

采集信息上传单元，用以将采集获得的语音信息和/或视频信息发送至对应设置的用以识别前述数据信息的识别服务器；

识别结果发送单元，用以接收识别服务器所获得的字符内容和/或图标和/或图片内容形式的识别结果，将其载入到即时通信交互界面的交互界面输入栏，或者直接向交互对方推送；

识别服务器，它包括，

数据接收单元，用以接收客户端所上传的语音信息和/或视频信息；

识别处理单元，用以将数据接收单元所接收到的来自于对应客户端的语音信息和/或视频信息，识别为文本和/或图标和/或图片数据；

识别结果推送单元，用以将前述识别处理单元的识别结果，推送至前述的客户端。

附图说明

图1是本发明所述的一种即时通信中回复消息的方法流程图，对应着实施例1。

图2是本发明所述的一种即时通信中回复消息的客户端的结构框图，对应着实施例3。

图3是本发明所述的一种即时通信中回复消息的系统的结构框图，对应着实施例4。

具体实施方式

实施例1

参图1所示，在本实施例中，所提供的方法能够在回复即时通信消息时，触发对用户语音信息和/或视频信息的采集操作，然后将其信息采集后识别为字符和/或图标和/或图片，作为向交互对方进行发送的数据。其步骤如下：

步骤S110，在采集获得具有文本内容和/或图标和/或图片的即时通信消息时，触发所在的即时通信客户端进行用户的语音信息和/或视频信息的采集操作；

步骤S120，将采集获得的语音信息和/或视频信息，识别为字符内容和/或图标和/或图片数据后，载入到即时通信交互界面的交互界面输入栏，或者直接向交互对方推送。

前述的语音信息，尤其指的是能够识别获得字符内容的、由人类特别是用户自己发出的声音数据。如果是环境的音乐，或者动物的声音，或者模糊不清、无法识别获得字符内容的声音，则不适合作为该语音信息。而所述的视频信息，并不是说所有的视频信息都适合进行采集与识别，而是特定的视频信息，比如，在用户通过嘴唇做出说话的具体动作而不发声的时候，相当于通过唇语的方式表达信息，如果所获得的视频信息中包括唇语信息的话，则可以对唇语信息进行识别，获得字符内容的识别结果；或者，该视频信息也可以是手语视频信息，特别是对于聋哑人来说，经常会通过手语来表达语言内容，并且，熟练的手语操作者，能够用手语表达各种各样的数据信息，就如同说话一样，因此，所采集视频信息为手语信息时，也可以通过本发明进行识别为字符，然后进行数据的载入及发送操作。对于无法识别获得具体字符内容的视频数据，在本发明中，一般不适合进行数据处理。

在具体实施时，还有与其相关的多种技术细节，下面分别进行说明：

一，所述进行语音信息和/或视频信息的采集操作，限定在接收到对方即时通信消息后的预设时间阈值内，才能够进行语音信息和/或视频信息采集的触发操作。

本发明在具体实施时，并不适合将用户所有的语音信息或者视频信息都进行采集操作，这样会采集很多不必要的数据。其中，在进行数据采集时，就可以通过时间阈值的方式进行限定。作为优选的实施例，该时间阈值适合选在2-10秒钟之间。从用户接收到即时通信消息开始计时，超过了该时间阈值之后，就不再触发对用户语音信息和/或视频信息的采集操作了。

具体说来，可以通过如下的步骤进行：

前面所述的终端设备，是用户使用即时通信客户端登录的终端设备。该终端设备的具体类型并不限定，但为了实现本发明，至少需要具有语音录制功能，或者视频采集功能。当前的终端设备，比如智能手机、平板电脑、笔记本电脑、台式机电脑等用户常用的终端形式，一般都可以满足该需求。

在前述的实施步骤中，如果采集语音信息的情况下，适合对语音信息进行识别，判定该语音信息是否能够识别获得字符内容。而对于视频信息来说，则需要对视频数据进行识别，判定是否能够获得和字符相关的数据信息，且该视频内容优选为唇语数据或者手语数据，其它的视频内容在本发明中均不是优选的方式。

二，对于交互对方发送的内容仅为图标的即时通信消息，将识别获得的数据优先转换为图标数据形式，来作为回复的数据内容。

图标在即时通信中是一种非常常见的信息传输形式。在对方发送图标数据的时候，常常自身也能够发送图标数据作为回复内容。这种情况下，就可以通过如下的步骤进行操作：

在交互对方所发送的即时通信消息仅仅包括有图标数据的情况下，采集所录制的语音信息和/或视频信息；

在具体实施时，如果识别获得的数据信息包括有字符，或者图标等不同选项时，就优选以图标形式的选项作为默认的选项。如果没有图标选项的情况下，则就无须优选以图标的形式进行回复了。

三，进行语音识别时，可以不拘泥于进行语音识别的位置，通过合适的方式进行语音识别即可。

在本发明中，进行语音识别的方式，作为举例而非限定，有如下四种类型：

（1）由即时通信客户端所在的终端设置语音识别模块，将采集获得的语音信息经该语音识别模块识别处理后，获取识别结果。

所述的语音识别模块，是预先建立的包括有语音识别数据库、语音识别搜索引擎的模块结构，所述的语音识别数据库，包括有不同的音频数据对应着不同字符内容的规则，而所述的语音识别搜索引擎，则可以采集语音信息，通过和该语音识别数据库进行比对，来获得对应语音识别结果。

在本方式中，所述的语音识别模块设置在即时通信客户端所登录的终端中，于是，直接通过所在的终端进行识别即可。另外，所述的语音识别模块，还可以设置在该即时通信客户端中。

（2）由即时通信客户端预设进行通信连接的语音识别服务器，将所采集的语音信息推送至该语音识别服务器，经由该语音识别服务器识别后反馈识别结果至前述的即时通信客户端。

在本方式中，将语音数据经由语音识别服务器进行识别，在远程的服务器中进行语音识别是便利的，这样能够利用远程服务器的强大运算功能，提高识别准确率，同时能够减少终端设备安装的程序量以及运算量，这种方式是良好的实施方式。

（3）由即时通信系统服务器预设语音识别模块，通过即时通信客户端所采集的语音信息推送至即时通信系统服务器后，由前述的语音识别模块进行识别处理后，将识别结果反馈至前述的即时通信客户端。

这种方式下，相当于将即时通信系统服务器作为语音识别服务器，设置语音识别模块，对采集的语音信息进行字符的识别操作。

这种方式，是将即时通信系统服务器作为从即时通信客户端获取语音数据的中转站，将获取的语音数据交由语音识别服务器进行识别，以及将识别结果再推送至发起识别操作的即时通信客户端。

四，进行视频识别时，可以不拘泥于进行视频识别的位置，通过合适的方式进行视频识别即可。

类似于前述的语音识别，在进行视频识别时，其位置同样是灵活的。类似地，进行视频识别的方式，可以通过如下其中之一的形式进行：

其中的视频识别模块，是预设视频识别的规则，以及预设进行视频识别时的数据库，以及预设进行视频识别时的视频识别引擎。针对于所采集的视频数据，将其解析为独立帧的图象，利用预设的视频识别规则对其中的图象数据进行解析，然后通过视频识别引擎将解析后的结果比对前述预设的视频识别数据库，然后判定吻合度最高的视频识别数据库中的对象，采集及汇总后作为对视频数据的识别结果。在本发明中，利用该视频识别模块，主要用以识别用户的唇语数据，以及用以识别用户的手语数据，进而将用户的唇语和/或手语数据经识别后转换为字符内容，或者转换为图标和/或图片等数据形式。

五，在进行用户的语音信息和/或视频信息采集时，还可以通过人脸数据的判定进行触发。

如果没有用户在使用即时通信客户端与交互对方进行交互操作，那么，触发语音信息和/或视频信息的采集是没有意义的。因此，就可以利用具有摄像结构的终端，来拍摄用户的图象，进而判定是否有正面对着所在终端当前视窗的人脸数据，在判定有该人脸数据时，就触发进行用户的语音信息和/或视频信息的采集操作；否则，就不触发语音信息和/或视频信息的采集操作。

具体说来，可以通过如下的步骤实现前述的功能：

启动所在终端上的摄像结构，拍摄图象数据；

在判定是否具有正对着当前视窗的人脸数据时，通过人脸识别即可判定。这是因为人脸具有特定的图象特征，比如，两个眼睛、位于眼睛上方的眉毛、位于眼睛中部的鼻梁、位于鼻梁下部的嘴巴、位于嘴巴下方的下巴等图象特征。并且，我们假设安装在用户所在终端上的摄像结构，在用户正对着所在终端视窗时，所拍摄的正对着视窗的人脸数据是左右对称的。于是，就可以根据所拍摄的用户人脸数据的不对称性，来判定脸部是否具有倾斜角度。

需要指出的是，前述的“正对”尤其指的是和正对状况具有一定偏差阈值的角度。比如，和正对的角度偏差30度之内，均可以判定为正对。

进一步，还可以对前述的人脸数据进行身份识别。比如，可以仅仅局限于合法用户，即该即时通信客户端对应帐号的主人，才能够触发前述的语音信息和/或视频信息的采集操作。为实现该目的，可以通过如下的步骤实施：

对应着所述的人脸数据，预设有用户的标准人脸数据；

这儿所述的标准人脸数据，适合由前述的合法用户预先进行设定，比如预先进行上传，然后与该上传的人脸数据进行比对。

六，在采集用户的语音信息时，还可以预设特定的音量大小来触发语音信息的采集操作，这样就可以避免一些环境中的噪音所带来的不良影响。

具体说来，用户正对着所在的终端进行语音输入时，特别是使用麦克风进行语音输入时，或者使用耳麦进行语音输入时，来自于用户的音量应当是声音强度比较大的音量。因此，可以预设音量的最小阈值，将该最小阈值作为触发声音数据采集的必要条件。为实现该功能，可以通过如下的步骤进行：

预设所录制声音信息的音量最小阈值；

其中，前述的音量最小阈值可以由系统提供商进行设定，也可以由用户进行设定。利用这种方式，就可以将环境中很多的噪杂音给屏蔽掉，从而减少声音识别的数据量，提高识别效率和准确率。

七，在采集用户的语音信息和/或视频信息进行识别，转换为字符和/或图标和/或图片之后，可以直接触发向交互对方进行发送操作，也可以将其载入到交互界面输入栏，并通过时间阈值检测的方式进行触发。

所述的交互界面输入栏，是隶属于交互界面的一部分。而即时通信交互界面，是使用即时通信工具中，和联系人进行交互操作的主要界面形式。即时通信交互界面可以通过在开启了即时通信客户端之后，对应着其中联系人列表中与特定联系人对象相对应的ITEM项进行触发，生成即时通信交互界面，在该即时通信交互界面中，除了用以载入待发送的即时通信消息的交互界面输入栏外，通常还包括交互界面输出栏，用以输出交互各方载入的数据信息，以及设置有交互界面工具栏，用以提供在交互通信中使用的各种工具控件等。

当识别获得的字符和/或图标和/或图片载入到交互界面输入栏后，可以通过如下的方式进行触发：

前述的时间阈值，优选在3-15秒钟之间。经历了该时间之后，如果采集不到用户对交互界面输入栏的触发操作，比如对已载入信息的编辑操作，或者利用鼠标光标或者触摸屏等光标对交互界面输入栏的点击操作等，就可以触发所载入的数据信息直接向所在即时通信交互界面对应的交互对方进行发送操作。利用这种方式，既可以向用户提供修改已识别字符和/或图标和/或图片的时间，又可以在识别获得的数据没有错误的情况下，直接触发对应数据的发送操作。

另外，如果自动发送数据的进程因用户对载入到交互界面输入栏中的识别数据进行编辑或者光标触发而暂停的情况下，还可以在用户完成了编辑或光标触发的操作之后，再次通过预设的时间阈值触发数据的自动发送操作；但优选为由用户主动进行触发，比如点击发送控件，来发送载入到交互界面输入栏中的数据内容。

实施例2

在该实施例中，预设用户A和用户B进行即时通信的交互操作，其中用户A使用笔记本电脑登录即时通信客户端和用户B进行交互操作。作为举例，本实施例的实施步骤包括：

步骤S210，通过用户A所在的即时通信客户端上对应着用户B的即时通信交互界面，接收到来自于用户B的文本内容的即时通信消息。

步骤S220，基于前述的即时通信消息，启动所在笔记本电脑上的音频录制结构。

步骤S230，判定在5秒钟的时间阈值内，是否能够采集获得达到音量最小阈值的声音数据，如果能够采集的话则转入到下一步骤，否则，结束操作。

步骤S240，录制用户A的声音数据，直到用户A停止发出声音，中断用户A对声音数据的录制进程，将所录制的音频数据打包发送至系统服务器。

步骤S250，由系统服务器通过预设的音频识别模块，将获得的音频数据进行字符的识别操作，在获得识别字符结果的情况下，将识别结果推送至前述用户A所在的即时通信客户端。

步骤S260，通过前述用户A所在的即时通信客户端接收到来自于系统服务器的识别结果后，获取前述用户A和用户B进行交互的即时通信交互界面中交互界面输入栏的句柄信息，将识别结果载入到该交互界面输入栏中。

步骤S270，若在5秒钟的时间阈值内，通过前述的交互界面输入栏没有采集获得用户对载入的识别结果进行光标点击的消息，或者增加/删除载入内容的消息，则触发所载入的识别结果向前述的用户B进行数据发送操作；

若在5秒钟的时间阈值内，通过前述的交互界面输入栏采集获得了对其中载入内容的编辑消息或者光标点击消息，则取消通过计量时间阈值自动发送识别结果的操作，转入下一步骤。

步骤S280，采集获得用户A对前述已载入内容的编辑消息之后，以及采集获得用户A对即时通信消息发送控件的触发消息后，将已编辑的载入内容向前述的用户B进行发送操作；或者，采集获得用户A对取消控件的触发消息后，取消本次识别获得的载入内容的发送操作。

实施例3

参图2所示，在本实施例中，提供了一种即时通信中回复消息的客户端100，它是一种即时通信客户端，能够完成各种预设的即时通信功能，比如能够在开启之后生成即时通信主面板，输出联系人列表，以及针对于用户对特定联系人对象的触发消息，生成与其对应的即时通信交互界面，以及和联系人对象之间通过即时通信交互界面进行的交互操作等。当然，即时通信客户端的展示形式具体并不限定。

进一步，所述的客户端100，还能够在获得了来自于交互对方的文本和/或图标和/或图片的即时通信消息后，触发对用户语音数据和/或视频数据的录制操作，并将所录制的语音数据和/或视频数据转变为字符内容，和/或图标和/或图片，再将识别获得的结果载入到即时通信交互界面中的交互界面输入栏，或者，直接发送给交互对方。

为实现前述的功能，所述的客户端100包括：

数据采集触发单元110，在采集获得具有文本内容和/或图标和/或图片的即时通信消息时，触发所在的即时通信客户端进行用户的语音信息和/或视频信息的采集操作；

识别信息回复单元120，用以将采集获得的语音信息和/或视频信息，识别为字符内容和/或图标和/或图片数据后，载入到即时通信交互界面的交互界面输入栏，或者直接向交互对方推送。

通过前述的数据采集触发单元110，判定所接收到的即时通信消息，是否包括有文本内容和/或图标和/或图片等数据内容，在具有该类型的数据内容时，直接触发对用户的语音信息和/或视频信息的采集操作。其中的语音信息，尤其指的是能够识别获得文字内容的语音数据；其中的视频信息，尤其指的是和语言内容相对应的唇语或手语的视频数据。具体采集的数据信息为语音信息还是视频信息，可以由用户预先设定，也可以都进行数据采集。进一步，还可以设置进行数据采集的限定条件，比如，在采集语音数据时，可以限定语音数据的最低音量，只有超过音量最小阈值的声音才能够被采集。另外，也可以识别是否有对应的人脸数据，在具有对应人脸数据的情况下才进行数据采集。另外，还可以设置触发数据采集的时间阈值，超过该时间阈值就不再进行对应语音信息和/或视频信息的采集操作了。

所采集获得的语音信息和/或视频信息，可以通过所在的终端进行识别，也可以通过远程的识别服务器进行识别，或者通过所在的系统服务器进行识别。优选的方式，是通过所在的系统服务器或者远程的识别服务器进行识别，这样便于进行操作，且不增加所在终端进行运算时的负担。

进而，将识别获得的结果反馈至前述的客户端100，通过该客户端100将识别结果载入到发起前述即时通信交互操作的即时通信交互界面的交互界面输入栏，供用户进行编辑及发送操作，或者直接触发所识别的数据内容向交互对方进行发送操作。

实施例4

参图3所示，在本实施例中，还提供了一种即时通信中回复消息的系统200，其中包括有客户端210和识别服务器220。

所述的客户端210，包括：

数据采集触发单元211，在采集获得具有文本内容和/或图标和/或图片的即时通信消息时，触发所在的即时通信客户端进行用户的语音信息和/或视频信息的采集操作；

采集信息上传单元212，用以将采集获得的语音信息和/或视频信息发送至对应设置的用以识别前述数据信息的识别服务器220；

识别结果发送单元213，用以接收识别服务器220所获得的字符内容和/或图标和/或图片内容形式的识别结果，将其载入到即时通信交互界面的交互界面输入栏，或者直接向交互对方推送。

所述的识别服务器220，包括：

数据接收单元221，用以接收客户端210所上传的语音信息和/或视频信息；

识别处理单元222，用以将数据接收单元221所接收到的来自于对应客户端210的语音信息和/或视频信息，识别为文本和/或图标和/或图片数据；

识别结果推送单元223，用以将前述识别处理单元222的识别结果，推送至前述的客户端210。

在本实施例中，进行识别操作的功能结构，为前述的识别服务器220。该识别服务器220可以独立于即时通信系统单独设置，另外，也可以将其设置在即时通信系统服务器中，具体并不限定。前述的识别处理单元222，根据所接收到的待识别数据预设相应的识别模块，比如，用以识别声音数据的功能模块，以及用以识别唇语类视频数据的识别模块，以及用以识别手语类数据内容的识别模块等。通过识别服务器220完成识别操作之后，推送至客户端210，由客户端210中的识别结果发送单元213进行发送操作。

以上是对本发明的描述而非限定，基于本发明思想的其它任何实施例，亦均在本发明的保护范围之中。

Claims

1.一种即时通信中回复消息的方法，其特征在于该方法包括有如下步骤：

步骤2，将采集获得的语音信息和/或视频信息，识别为字符内容和/或图标和/或图片数据后，载入到即时通信交互界面的交互界面输入栏，或者直接向交互对方推送，

其中，在交互对方所发送的即时通信消息仅仅包括有图标数据的情况下，采集所录制的语音信息和/或视频信息；将语音信息和/或视频信息识别后具有图标数据选项的情况下，将该图标选项作为默认识别结果，载入到交互界面输入栏，或者直接向交互对方推送。

2.根据权利要求1所述的一种即时通信中回复消息的方法，其特征在于：所述进行语音信息和/或视频信息的采集操作，限定在接收到对方即时通信消息后的预设时间阈值内，才能够进行语音信息和/或视频信息采集的触发操作。

3.根据权利要求2所述的一种即时通信中回复消息的方法，其特征在于：所述的时间阈值，是通过如下方式进行实施的，

4.根据权利要求2所述的一种即时通信中回复消息的方法，其特征在于：所述的时间阈值，在2-10秒钟之间。

5.根据权利要求1所述的一种即时通信中回复消息的方法，其特征在于：所述的语音信息，对应着能够识别获得文字的语音内容；

6.根据权利要求1所述的一种即时通信中回复消息的方法，其特征在于：进行语音识别的方式，是通过如下其一进行的，

7.根据权利要求1所述的一种即时通信中回复消息的方法，其特征在于：进行视频识别的方式，是通过如下其一进行的，

8.根据权利要求1所述的一种即时通信中回复消息的方法，其特征在于：所述对用户语音信息和/或视频信息的采集操作，是通过如下的步骤进行触发的，

启动所在终端上的摄像结构，拍摄图象数据；

9.根据权利要求8所述的一种即时通信中回复消息的方法，其特征在于：对应着所述的人脸数据，预设有用户的标准人脸数据；

10.根据权利要求1所述的一种即时通信中回复消息的方法，其特征在于：所述的用户语音信息录制的触发，是通过如下方式实施的，

预设所录制声音信息的音量最小阈值；

11.根据权利要求1所述的一种即时通信中回复消息的方法，其特征在于：通过采集用户语音信息和/或视频信息进行识别的方式所获得的字符和/或图标和/或图片，载入到交互界面输入栏后，通过如下方式进行操作，

12.根据权利要求11所述的一种即时通信中回复消息的方法，其特征在于：所述的时间阈值，在3-15秒钟之间。

13.一种用以实施前面权利要求1所述方法的即时通信中回复消息的客户端，其特征在于该客户端包括：

14.一种用以实施前面权利要求1所述方法的即时通信中回复消息的系统，它包括客户端和识别服务器，其特征在于该系统还包括：

客户端，它包括，

识别服务器，它包括，