CN103152244B - 一种控制即时通信平台通信的方法、装置和通信系统 - Google Patents

一种控制即时通信平台通信的方法、装置和通信系统 Download PDF

Info

Publication number
CN103152244B
CN103152244B CN201310035121.5A CN201310035121A CN103152244B CN 103152244 B CN103152244 B CN 103152244B CN 201310035121 A CN201310035121 A CN 201310035121A CN 103152244 B CN103152244 B CN 103152244B
Authority
CN
China
Prior art keywords
voice command
interface
user
communication platform
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310035121.5A
Other languages
English (en)
Other versions
CN103152244A (zh
Inventor
姜斌斌
高强
王重乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Goertek Inc
Original Assignee
Goertek Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Goertek Inc filed Critical Goertek Inc
Priority to CN201310035121.5A priority Critical patent/CN103152244B/zh
Publication of CN103152244A publication Critical patent/CN103152244A/zh
Application granted granted Critical
Publication of CN103152244B publication Critical patent/CN103152244B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种控制即时通信平台通信的方法、装置和通信系统。本发明实施例提供的控制即时通信平台通信的方法包括:根据即时通信平台中需要用户操作的接口生成语音控制列表,该语音控制列表中记录接口和语音命令之间的对应关系,以及记录指示接口在即时通信平台中地址的信息;当采集到用户的语音数据流时,从语音数据流中识别出用户语音命令;利用语音控制列表查找用户语音命令对应的接口,并在即时通信平台中调用查找出的接口,以实现用户语音命令相应的操作。

Description

一种控制即时通信平台通信的方法、装置和通信系统
技术领域
本发明涉及通信技术领域,特别涉及一种控制即时通信平台通信的方法、装置和通信系统。
背景技术
即时通信(InstantMessage,IM)平台主要是指能够即时发送和接收互联网消息等的通讯平台。例如,Skype即时通信平台是当前主流的即时通信平台之一,其可以实现高音质、高画质的语音、视频通话服务,是一种比较流行的即时通讯工具,有着庞大的用户群。
此外,随着智能电视以及安卓(android)系统的普及,各种即时通信平台逐渐进入普通家庭应用,功能日益强大。
然而,现有的即时通信平台的实现方案还存在一些不足之处,例如,现有对即时通信平台的控制都需要借助于鼠标或者键盘实现,无法进行语音控制,控制方式过于单一,用户需要通过点击鼠标或敲击键盘发送指令才能控制即时通信平台执行相应操作,这种局限性在家庭应用场景中,特别是对于部分残障人群,会带来极大的不便,操作难度较大,甚至出现无法操作的情况。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的控制即时通信平台通信的方法、装置和通信系统。
为达到上述目的,本发明实施例采用了如下技术方案:
本发明一个实施例提供了一种控制即时通信平台通信的方法,该方法包括:
根据即时通信平台中需要用户操作的接口生成语音控制列表,所述语音控制列表中记录所述接口和语音命令之间的对应关系,以及记录指示所述接口在即时通信平台中地址的信息;
当采集到用户的语音数据流时,从所述语音数据流中识别出用户语音命令;
利用所述语音控制列表查找所述用户语音命令对应的接口,并在即时通信平台中调用所述查找出的接口,以实现用户语音命令相应的操作。
其中,上述方法还包括:根据接口在即时通信平台中有效作用的范围设置接口的作用域代码,该作用域代码采用掩码方式实现,并且每个作用域对应于作用域代码中的一个比特位;
上述根据即时通信平台中需要用户操作的接口生成语音控制列表包括:
为所述需要用户操作的接口配置该接口对应的作用域代码;
将接口和该接口对应的作用域代码记录在语音控制列表中。
其中,上述利用语音控制列表查找用户语音命令对应的接口包括:
对即时通信平台的运行场景进行监测,获知当前运行场景;
根据所述语音控制列表中接口的作用域代码获知支持当前运行场景的接口,并根据接口和语音命令之间的对应关系获取支持当前运行场景的语音命令,根据获取到的语音命令在语音控制列表中的位置信息生成当前运行场景的语音控制索引表;
从所述语音控制索引表中查找所述用户语音命令在语音控制列表中的位置信息,并根据所述位置信息在语音控制列表中查找出所述用户语音命令对应的接口。
其中,上述从语音数据流中识别出用户语音命令包括:
对每段连续的语音数据流,按照采集该语音数据流的时间顺序,对语音数据流中的语音进行识别,对首个识别成功的用户语音命令,确认该用户语音命令的类型;
当确认所述用户语音命令的类型为单目指令时,结束对所述语音数据流的识别,并将所述识别成功的用户语音命令作为识别出的用户语音命令;
当确认所述用户语音命令的类型为双目指令时,将所述匹配成功的用户语音命令发音时占用的时间均值对应的时间点作为分割点,将分割点之前的数据从所述语音数据流中分割出来,对分割后的语音数据流按照所述双目指令所指示的识别对象进行识别,得到语音命令对象,根据所述识别成功的用户语音命令和语音命令对象得到识别出的用户语音命令。
本发明又一个实施例提供了一种通信系统,该系统包括即时通信平台和控制即时通信平台通信的装置,
控制即时通信平台通信的装置包括主机综合管理模块、语音控制引擎、语音采集模块和用户界面UI展示模块,
主机综合管理模块,用于根据即时通信平台中需要用户操作的接口生成语音控制列表,该语音控制列表中记录接口和语音命令之间的对应关系,以及记录指示接口在即时通信平台中地址的信息;利用语音控制列表查找语音控制引擎识别出的用户语音命令对应的接口,并向UI展示模块发送调用查找出的接口的调用指令;
语音采集模块,用于采集用户的语音数据流,并将语音数据流传递至主机综合管理模块;
语音控制引擎,用于根据主机综合管理模块的指令,从主机综合管理模块下发的语音数据流中识别出用户语音命令;
UI展示模块,用于根据调用指令,在即时通信平台中调用相应的接口,以实现相应的操作;以及提供交互界面,利用该交互界面与用户进行信息交互。
本发明又一个实施例还提供了一种控制即时通信平台通信的装置。该装置包括主机综合管理模块、语音控制引擎、语音采集模块和用户界面UI展示模块,其中,
主机综合管理模块,用于根据即时通信平台中需要用户操作的接口生成语音控制列表,并且根据接口在即时通信平台中有效作用的范围设置接口的作用域代码,所述作用域代码采用掩码方式实现,并且每个作用域对应于作用域代码中的一个比特位,以及为所述需要用户操作的接口配置该接口对应的作用域代码;所述语音控制列表中记录所述接口和语音命令之间的对应关系,记录指示所述接口在即时通信平台中地址的信息,以及记录所述接口和该接口对应的作用域代码;利用所述语音控制列表查找所述语音控制引擎识别出的用户语音命令对应的接口,并向所述UI展示模块发送调用所述查找出的接口的调用指令;
语音采集模块,用于采集用户的语音数据流,并将语音数据流传递至所述主机综合管理模块;
语音控制引擎,用于根据所述主机综合管理模块的指令,从所述主机综合管理模块下发的语音数据流中识别出用户语音命令;
UI展示模块,用于根据所述调用指令,在即时通信平台中调用相应的接口,以实现相应的操作;以及提供交互界面,利用该交互界面与用户进行信息交互。
由上所述,本发明实施例采用语音控制列表建立即时通信平台中用户可操作的接口与语音命令的关联,通过语音识别从用户的语音数据流中提取出语音命令,并调用即时通信平台中该语音命令对应的接口,以实现用户语音命令相应操作的技术手段,提供了一种利用语音命令控制即时通信平台实现通讯的新型控制方案,能够简化对即时通信平台的控制操作,提高控制方式的灵活性,满足各种应用场景和特定用户的需求,从而提升了即时通信平台的整体性能。
附图说明
图1为本发明一个实施例提供的一种通信系统的结构示意图;
图2为本发明一个实施例提供的通信系统的初始化流程示意图;
图3为本发明一个实施例提供的语音控制列表的示意图;
图4为本发明一个实施例提供的登录场景下语音控制索引表的示意图;
图5为本发明又一个实施例提供的控制即时通信平台通信的方法流程图;
图6为本发明又一个实施例提供的识别语音命令的方法示意图;
图7为本发明又一个实施例提供的控制即时通信平台通信的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明一个实施例提供了一种通信系统,该系统包括即时通信平台和控制即时通信平台通信的装置,参见图1,即时通信平台包括即时通信平台运行包(runtime)101和即时通信平台接口106,控制即时通信平台通信的装置包括主机(Host)综合管理模块102、语音控制引擎103、语音采集模块104和UI(UserInterface,用户界面)展示模块105。
以Skype即时通信平台为例,Skype面向开发者提供有开发工具包SkypeKit,则上述即时通信平台运行包101可以由SkypeKitruntime实现,即时通信平台接口106可以由SkypeKit中的Java接口SkypeKitJavaInterface实现。本实施例从用户应用的实际需求出发,合理利用声学中的语音识别技术以及即时通信技术,巧妙的利用Skype提供的SkypeKit工具包,结合语音识别处理引擎,实现一种可以通过语音命令控制的即时通讯系统,该系统可以无缝的兼容台式机、手机中的Skype聊天工具。并且,本通信系统的操作较原有的Skype系统更加方便易用。
下面分别对上述器件进行说明。
即时通信平台运行包101提供了即时通信平台通讯、编码所需要的基本的功能和方法,其核心作用是与主机综合管理模块102配合完成硬件(麦克风、扬声器等)的匹配配置。即时通信平台接口106支持用户注册、注销、通讯过程等功能。
即时通信平台运行包101还能够与互联网(Internet)建立连接,从互联网下载到所需的信息,例如,当主机综合管理模块102需要使用用户的联系人列表时,可以控制UI展示模块105向即时通信平台接口106发送请求联系人的调用请求,然后即时通信平台接口106调用即时通信平台运行包101的内部方法,即时通信平台运行包101执行与网络服务器的通讯,并从网络服务器中下载得到的用户联系人列表等,然后即时通信平台运行包101可以将下载到的信息直接传递至主机综合管理模块102,或者,即时通信平台运行包101也可以将下载到的信息通过即时通信平台接口106传递至UI展示模块105中以向用户展示该信息。
主机综合管理模块102能够对控制即时通信平台通信的装置中的各模块进行管理,如控制各模块的初始化过程、触发各模块执行相应的操作等,并能够对整个通信系统的运行进行相应控制。参见图2,示出了本通信系统的初始化流程示意图,包括如下操作:
S200:通信系统启动后,首先运行主机综合管理模块102。
S202:主机综合管理模块102先对语音采集模块104、语音控制引擎103进行初始化,加载硬件设备(如麦克风和扬声器)的驱动。
S204:主机综合管理模块102执行对即时通信平台运行包101初始化、加载的操作。
主机综合管理模块102加载即时通信平台运行包101时,会对其中的各种通讯接口进行整体导入,同时根据运行包101的标准要求,对本地的硬件设备进行初始化操作,从而将硬件设备标准化为即时通信平台可识别的设备,同时将硬件设备映射到运行包101提供的接口中,即相当于将本地硬件设备直接与运行包101提供的接口相连通。
S206:主机综合管理模块102对即时通信平台接口106进行初始化,几乎所有的需要用户操作的接口都会在这个即时通信平台接口106中。主机综合管理模块102会对其中的主要的框架类进行提取,同时建立一张语音控制列表(VoiceControlList),将语音命令与具体的调用接口一一对应。即主机综合管理模块102获取即时通信平台中需要用户操作的接口;以及,根据获取到的接口生成语音控制列表,该语音控制列表中记录接口和语音命令之间的对应关系,以及记录指示接口在即时通信平台中地址的信息。
本实施例所建立的语音控制列表的一个示例可以如图3中所示,该语音控制列表中包括接口调用项、语音命令项和作用域(WorkRange)项。接口调用项中的接口信息和语音命令项中的语音命令一一对应。
接口调用项中记录从即时通信平台中提取出的接口的信息,本实施例中接口调用项中记录接口在即时通信平台中地址的信息,例如,账户注册接口在SkypeKitJavaInterface中地址的信息,账户登录接口在SkypeKitJavaInterface中地址的信息,账户注销接口在SkypeKitJavaInterface中地址的信息,视频启动接口在SkypeKitJavaInterface中地址的信息,视频结束接口在SkypeKitJavaInterface中地址的信息。通过在语音控制列表中记录各接口在即时通信平台中地址的信息,将语音控制列表中的接口指向SkypeKitJavaInterface中的相应接口,从而能够利用该地址信息调用即时通信平台中的相应接口。
语音命令项中包括与账户注册接口对应的账户注册语音命令,与账户登录接口对应的账户登录语音命令,与账户注销接口对应的账户注销语音命令,与视频启动接口对应的视频启动语音命令,与视频结束接口对应的视频结束语音命令等。
作用域中记录各接口的作用域代码,例如,账户注册接口、账户登录接口、账户注销接口的作用域代码分别指示该接口的有效作用范围为登录区域,视频启动接口、视频结束接口的作用域代码分别指示该接口的有效作用范围为会议区域。
S208:主机综合管理模块102对UI展示模块105进行初始化加载。UI展示模块105显示即时通信平台的当前运行场景中的相关信息。本实施例提供的UI展示模块一旦监测到运行场景的切换,就会向主机综合管理模块102发送消息通知,并由主机综合管理模块102生成当前运行场景下的语音控制索引表。参见图4,示出了本实施例提供的一个登录场景下语音控制索引表的示例。该语音控制索引表中记录了登录场景下可以调用的接口对应的语音命令的信息,如账户注册语音命令及该账户注册语音命令在语音控制列表中的位置信息,账户登录语音命令及该账户登录语音命令在语音控制列表中的位置信息,账户注销语音命令及该账户注销语音命令在语音控制列表中的位置信息。通过这些位置信息使语音控制索引表中的语音命令指向语音控制列表中的语音命令,从而能够在语音控制列表中定位语音命令并查找到语音命令对应的接口。
通过上述S200至S208中的处理,通信系统初始化完毕,后续接收到用户语音命令时,能够利用该用户语音命令对即时通信平台进行控制。
本实施例利用主机综合管理模块102提供了一种对即时通信平台中需要用户操作的接口进行语音控制封装的方式,如对于Skype,执行的语音控制封装操作主要是通过提取SkypeKit工具包中需要用户操作的特定接口,然后对其工作运行环境和调用关系进行分析,为接口配置适合的语音命令和作用域,生成语音控制列表,利用语音控制列表管理接口的调用,避免由于工作场景的限制导致接口调用错误。Skype中所有需要用户操作的接口都记录在语音控制列表中,语音控制列表的结构可以参见图3和图4中的示例。
由于即时通信平台运行包101在不同的运行场景中,其存在的类和可以调用的接口有所不同,如果不对运行场景进行区分直接进行接口调用,可能无法得到正确的调用结果。为此,本实施例在接口的语音控制封装过程中,增加了作用域的选项,对于特定的接口进行作用域的标记。则主机综合管理模块102从即时通信平台中获取到接口之后,还会为获取到的接口配置该接口对应的作用域代码,将接口和该接口对应的作用域代码记录在语音控制列表中。
示例性的,作用域代码采用掩码的方式实现,不同的作用域对应作用域代码中的一比特(bit)位,有些调用接口允许同时在多个应用场景中进行调用,此时该接口的多个作用域对应作用域代码中的多个位。采用掩码的方式可以便于标识作用域以及检查各运行场景中的可调用的接口。
进一步的,当主机综合管理模块102接收到UI展示模块105发送的指示运行场景切换的通知消息后,获取支持当前运行场景的接口对应的语音命令,根据获取到的语音命令在语音控制列表中的位置信息生成当前运行场景的语音控制索引表;从语音控制索引表中查找语音命令在语音控制列表中的位置信息,并根据该位置信息在语音控制列表中查找出语音命令对应的接口。在生成语音控制索引表时,主机综合管理模块102可以根据语音控制列表中接口的作用域代码获知支持当前运行场景的接口,并根据接口和语音命令之间的对应关系获取支持当前运行场景的语音命令。
由上述描述可知,本实施例中利用作用域信息对语音控制采用了两级优化的方式,第一级优化采用具有掩码式作用域标记的语音控制列表进行管理,如通过一个64比特位的整形数据可以设置64种不同的作用域,当接口在某一作用域有效时,则将作用域代码中该作用域对应的比特位设置为1。类似退出应用“AppExit”这类适用于所有运行场景的接口被设置成全局有效,将其作用域代码设置为0xFFFFFFFF,而类似账户注册之类的接口,仅设置成在两个作用域(用户登录、用户注销)中有效,则该接口的作用域代码中相应的两个比特位被设置为1。
第二级优化采用语音控制索引表进行管理。第二级优化操作发生在工作场景切换时,一旦UI展示模块105监测到场景切换,将发送信息给主机综合管理模块,由主机综合管理模块102对语音控制列表中的所有项目进行判定比较,并生成针对当前工作场景的语音控制索引表,这个表中仅仅包括当前场景可用的语音命令,即语音控制索引表中仅包含了语音控制列表中的部分信息,语音控制列表中存储所有具体的控制信息,如语音控制索引表仅包含当前运行场景下语音命令及该语音命令在语音控制列表中的位置信息,由该位置信息将语音控制索引表中的语音命令指向语音控制列表中相应的语音命令,建立两者之间的关联。这种方式,当语音控制引擎103进行语音命令识别时,只需在语音控制索引表中查找语音命令即可,而无需遍历语音控制列表中所有的语音命令,且由于语音控制索引表中仅存储了当前运行场景下语音命令及该语音命令的位置信息,存储的数据量较少,节省了系统的内存空间。通过两级优化的处理方式,能够提高系统对语音命令处理的速度和效率,且能够大大减少语音控制引擎的数据处理量,提高了语音识别的准确度。
由于本通信系统对即时通信平台(例如Skype)中需要用户操作的接口的语音控制封装位于开发工具包(例如SkypeKit)之外,因此,控制即时通信平台通信的装置并不影响即时通信平台原有工作流程的执行过程,所以本通信系统可以兼容PC、手机、pad上的各种即时通信平台应用。
进一步的,在利用语音命令对即时通信平台进行控制的操作中,主机综合管理模块102还利用语音控制列表查找语音控制引擎103识别出的用户语音命令对应的接口,并向UI展示模块105发送查找出的接口的调用指令。
语音采集模块104用于采集用户的语音数据流,并将语音数据流传递至主机综合管理模块102。语音采集模块104可以根据主机综合管理模块102下发的采集指令,启动对用户语音数据流的采集,而主机综合管理模块102可以从UI展示模块105上报的通知消息中获知当前运行场景需要接收用户语音命令,从而向语音采集模块104下发采集指令。
语音控制引擎103用于根据主机综合管理模块102的指令,从主机综合管理模块102下发的语音数据流中识别出用户语音命令。即语音控制引擎103根据主机综合管理模块102的指令启动语音识别的操作,并从主机综合管理模块102中获取需要识别的语音数据流。
具体的,由于一个完整的语音命令通常包含在一段连续的语音数据流中,语音控制引擎103对每段连续的语音数据流,按照采集该语音数据流的时间顺序,对语音数据流中的语音进行识别,将首个识别成功的用户语音命令发送至主机综合管理模块102。
主机综合管理模块102还用于确认识别成功的用户语音命令的类型。主机综合管理模块102在语音控制列表中记录语音命令和语音命令对应的类型(如单目指令或双目指令),主机综合管理模块102查询语音控制列表得到用户语音命令的类型。
为了提高语音控制引擎的分析精度,降低系统的运算时间,本实施例利用语音控制引擎对语音识别过程进行了优化,采用了有限语音指令集和无限字符集间识别的优化方法,即通信系统对语音采集模块采集的语音数据流是不进行限定的,然而语音控制引擎从语音数据流中所能识别出的语音命令,其结果是在有限样本空间中进行最优选择的。
例如,对于Skype即时通信平台,接收到的用户语音命令属于一个固定空间(语音命令为有限条目),但是对于用户要求通信的联系人,很难固定出一个特定的数量,而且不同的用户的联系人数量是不同的。为此,本系统中对于语音命令采用了两级分离的方式进行处理。
当用户语音命令的类型为单目指令时,语音控制引擎103结束对语音数据流的识别,并将识别成功的用户语音命令作为识别出的语音命令。单目指令(UnaryOperater)通常都是定长的指令,如用户语音命令“打开联系人”,该用户语音命令对应的操作为打开联系人界面,显示所有的联系人列表,其属于单目指令。
而用户语音命令“发信息给‘张三’”对应的操作为打开一个信息发送接口,并将目标对象设定成“张三”,这种命令属于双目指令(BimodalOperater),双目指令通常都为变长的指令。由于所有的双目运算命令都是变长的,识别难度增加。而本系统中采用语音分割的方式进行处理,分割的方法采用时间分割法,以提高语音分割速度,且这种分割方式能够达到较好的有限域字符识别的效果。
当用户语音命令的类型为双目指令时,语音控制引擎103将匹配成功的用户语音命令对应的数据从语音数据流中分割出来,对分割后的语音数据流按照双目指令所指示的识别对象进行识别,得到语音命令对象,根据识别成功的用户语音命令和语音命令对象得到识别出的语音命令。例如,对“发信息给‘张三’”这一用户语音命令,首先语音控制引擎103识别这个用户语音命令内包括“发信息给”这个指令,即语音控制引擎103首个识别成功的用户语音命令为“发信息给”,并将该用户语音命令发送至主机综合管理模块102,主机综合管理模块102通过查找语音控制列表,发现“发信息给”是一个双目指令,并且发现这个指令对应的识别对象为联系人列表(ContractList),且该语音指令将会要求识别出新的结果(语音命令对象),并作为调用接口的参数“target”。
在进行语音分割时,语音控制引擎103需要获知匹配成功的用户语音命令发音时占用的时间均值;将语音数据流中时间均值对应的时间点作为分割点,将分割点之前的数据从语音数据流中分割出来,分割后的语音数据流中仅包括该分割点之后的数据。例如,语音控制引擎103将根据正常语速计算,“发信息给”四字发音的时间均值(TimeofCommand)是900ms,将整个有效的连续语音流在900ms处进行分割,将后边的部分作为第二次语音识别判定的输入,同时将语音控制引擎103的识别对象设置成联系人列表。一旦语音控制引擎103命中了联系人列表中的一个联系人,那么这个联系人的名称将作为整个识别过程调用接口的输入参数“target”的内容。即最后识别出的用户语音命令由首个识别出的用户语音命令“发信息给”和第二次识别过程中得到的语音命令对象“target”组成。
UI展示模块105提供了交互界面,能够将系统运行时各种信息在交互界面上展示出来,并能够通过该交互界面接收用户发送的指令,用户也可以通过该交互界面发送的指令对即时通信平台进行控制。不同于传统的UI模块,本实施例中的UI展示模块105除了执行信息的输入输出之外,还能够对即时通信平台的运行场景进行监控,获知当前运行场景,并向主机综合管理模块发送指示当前运行场景的通知消息,以使主机综合管理模块根据当前运行场景调整相应的管理操作。并且,UI展示模块105还能够与即时通信平台接口106建立连接,当接收到主机综合管理模块发送的调用指令时,根据该调用指令,在即时通信平台运行包101中调用相应的接口,以实现相应的操作。
本发明又一实施例还提供了一种控制即时通信平台通信的方法,参见图5,该方法包括:
S502:根据即时通信平台中需要用户操作的接口生成语音控制列表,这些接口为即时通信平台(如Skype)中能够通过用户指令调用的接口。该语音控制列表中记录接口和语音命令之间的对应关系,以及记录指示接口在即时通信平台中地址的信息。
在步骤S502之前,上述方法还包括:根据接口在即时通信平台中有效作用的范围设置接口的作用域代码,该作用域代码采用掩码方式实现,并且每个作用域对应于作用域代码中的一个比特位;
则步骤S502还包括:为需要用户操作的接口配置该接口对应的作用域代码,将接口和该接口对应的作用域代码记录在语音控制列表中。
S504:当采集到用户的语音数据流时,从语音数据流中识别出用户语音命令。
本步骤中从语音数据流中识别出用户语音命令包括:对每段连续的语音数据流,按照采集该语音数据流的时间顺序,对语音数据流中的语音进行识别,对首个识别成功的用户语音命令,确认该用户语音命令的类型;
当确认用户语音命令的类型为单目指令时,结束对语音数据流的识别,并将识别成功的用户语音命令作为识别出的语音命令;
当确认用户语音命令的类型为双目指令时,将匹配成功的用户语音命令发音时占用的时间均值对应的时间点作为分割点,将分割点之前的数据从语音数据流中分割出来,对分割后的语音数据流按照双目指令所指示的识别对象进行识别,得到语音命令对象,根据识别成功的用户语音命令和语音命令对象得到最终识别出的用户语音命令。
S506:利用语音控制列表查找用户语音命令对应的接口,并在即时通信平台中调用查找出的接口,以实现用户语音命令相应的操作。
步骤S506中利用语音控制列表查找语音命令对应的接口包括:对即时通信平台的运行场景进行监测,获知当前运行场景;获取支持当前运行场景的接口对应的语音命令,根据获取到的语音命令在语音控制列表中的位置信息生成当前运行场景的语音控制索引表;从语音控制索引表中查找语音命令在语音控制列表中的位置信息,并根据该位置信息在语音控制列表中查找出语音命令对应的接口。
其中,上述获取支持当前运行场景的接口对应的语音命令包括:根据语音控制列表中接口的作用域代码获知支持当前运行场景的接口,并根据接口和语音命令之间的对应关系获取支持当前运行场景的语音命令。
下面结合图6示出的场景对本实施例的语音命令识别方法进行说明,包括如下处理:
S600:当即时通信平台切换至当前运行场景后,生成并打开当前运行场景的语音控制索引表。
S602:当接收到包含用户语音命令的语音数据流后,对语音数据流中的语音进行识别和判定。
对包含语音命令“打开联系人”的语音数据流,在本步骤中根据当前运行场景的语音控制索引表会识别出用户语音命令“打开联系人”;
对包含语音命令“发信息给‘张三’”的语音数据流,在本步骤中根据当前运行场景的语音控制索引表会先识别出用户语音命令“发信息给”;
然后,判定上述识别出的用户语音命令的类型,利用语音控制列表可以判断出用户语音命令“打开联系人”为单目指令,对单目指令的操作流程可以参见图6中箭头2所示的轨迹,而用户语音命令“发信息给”为双目指令,对双目指令的操作流程可以参见图6中箭头1所示的轨迹。对于单目指令,执行步骤S604,对于双目指令,执行步骤S606至S610。
S604:执行单目指令所对应的操作。例如,在即时通信平台中调用用户语音命令“打开联系人”对应的接口,获取联系人列表信息,并在交互界面上向用户显示联系人列表。至此,利用单目指令控制即时通信平台的操作结束。
S606:执行语音切割。
根据获知的匹配成功的语音命令发音时占用的时间均值,将语音数据流中该时间均值对应的时间点作为分割点,将分割点之前的数据从语音数据流中分割出来,分割后的语音数据流中仅包括该分割点之后的数据,该切割方式可以表示为下式:
NewCMD=T(all)-T(CMD)
其中,NewCMD表示分割后的语音数据流,T(all)表示分割前的语音数据流,T(CMD)表示分割前的语音数据流中分割点CMD之前的数据。
S608:对分割后的语音数据流进行第二次的语音识别与判定。
双目指令“发信息给”指示的识别对象为联系人列表,则根据联系人列表对分割后的语音数据流进行识别,得到语音命令对象“张三”,则由首个识别成功的用户语音命令“发信息给”和语音命令对象“张三”得到最终识别出的完整的用户语音命令。
S610:执行双目指令。
例如,对双目指令“发信息给‘张三’”,在即时通信平台中调用语音命令“发信息给”对应的接口,并将识别出的语音命令对象“张三”设置为该接口的输入参数,从而实现将信息发送至张三的操作。至此,利用双目指令控制即时通信平台的操作结束。
本实施例利用语音识别和即时通信技术,可以辅助特定的用户实现即时通讯,如弱视或盲人群体完全可以借助本方案在即时通信平台上进行语音通话。此外对于普通用户,本方案提供的语音识别控制的方式,也大大简化系统的操作流程,比如,传统方案中在通话过程中想要查看“联系人”列表,用户需要至少两步操作才行:在标准的Skype界面上首先用鼠标返回到主操作界面,然后点击其中的“联系人”选项才能完成,现在直接通过语音命令,只要发出语音命令:“打开联系人”,即可直接获取到联系人列表。
本发明又一实施例还提供了一种控制即时通信平台通信的装置700,参见图7,包括主机综合管理模块710、语音控制引擎711、语音采集模块712和UI展示模块713。下面分别对这些模块进行说明。
主机综合管理模块710,用于根据即时通信平台中需要用户操作的接口生成语音控制列表,并且根据接口在即时通信平台中有效作用的范围设置接口的作用域代码,所述作用域代码采用掩码方式实现,并且每个作用域对应于作用域代码中的一个比特位,以及为所述需要用户操作的接口配置该接口对应的作用域代码;所述语音控制列表中记录所述接口和语音命令之间的对应关系,记录指示所述接口在即时通信平台中地址的信息,以及记录所述接口和该接口对应的作用域代码;利用所述语音控制列表查找所述语音控制引擎识别出的用户语音命令对应的接口,并向所述UI展示模块发送调用所述查找出的接口的调用指令;
语音采集模块712,用于采集用户的语音数据流,并将语音数据流传递至所述主机综合管理模块;
语音控制引擎711,用于根据所述主机综合管理模块的指令,从所述主机综合管理模块下发的语音数据流中识别出用户语音命令;
UI展示模块713,用于根据所述调用指令,在即时通信平台中调用相应的接口,以实现相应的操作;以及提供交互界面,利用该交互界面与用户进行信息交互。
进一步的,UI展示模块713,用于对即时通信平台的运行场景进行监测,获知当前运行场景,并向所述主机综合管理模块710发送指示当前运行场景的通知消息;
主机综合管理模块710,用于根据所述语音控制列表中接口的作用域代码获知支持当前运行场景的接口,并根据接口和语音命令之间的对应关系获取支持当前运行场景的语音命令,根据获取到的语音命令在语音控制列表中的位置信息生成当前运行场景的语音控制索引表;从所述语音控制索引表中查找所述用户语音命令在语音控制列表中的位置信息,并根据所述位置信息在语音控制列表中查找出所述用户语音命令对应的接口。
进一步的,语音控制引擎711,用于对每段连续的语音数据流,按照采集该语音数据流的时间顺序,对所述语音数据流中的语音进行识别,将首个识别成功的用户语音命令发送至主机综合管理模块710;
主机综合管理模块710,用于确认所述识别成功的用户语音命令的类型;
语音控制引擎711,还用于当所述用户语音命令的类型为单目指令时,结束对所述语音数据流的识别,并将所述识别成功的用户语音命令作为识别出的用户语音命令;当所述用户语音命令的类型为双目指令时,将所述匹配成功的用户语音命令发音时占用的时间均值对应的时间点作为分割点,将分
割点之前的数据从所述语音数据流中分割出来,对分割后的语音数据流按照所述双目指令所指示的识别对象进行识别,得到语音命令对象,根据所述识别成功的用户语音命令和语音命令对象得到识别出的用户语音命令。
控制即时通信平台通信的装置700能够控制的即时通信平台包括但不局限于Skype即时通信平台,本发明装置实施例中各模块的具体工作方式可以参见本发明的方法和系统实施例,在此不再赘述。
由上所述,本发明实施例采用语音控制列表建立即时通信平台中用户可操作的接口与语音命令的关联,通过语音识别从用户的语音数据流中提取出语音命令,并调用即时通信平台中该语音命令对应的接口,以实现用户语音命令相应操作的技术手段,提供了一种利用语音命令控制即时通信平台实现通讯的新型控制方案,能够简化对即时通信平台的控制操作,提高控制方式的灵活性,满足各种应用场景和特定用户的需求,从而提升了即时通信平台的整体性能。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种控制即时通信平台通信的方法,其特征在于,所述方法包括:
根据即时通信平台中需要用户操作的接口生成语音控制列表,所述语音控制列表中记录所述接口和语音命令之间的对应关系,以及记录指示所述接口在即时通信平台中地址的信息;
当采集到用户的语音数据流时,从所述语音数据流中识别出用户语音命令;
利用所述语音控制列表查找所述用户语音命令对应的接口,并在即时通信平台中调用所述查找出的接口,以实现用户语音命令相应的操作;
所述方法还包括:根据接口在即时通信平台中有效作用的范围设置接口的作用域代码;
所述根据即时通信平台中需要用户操作的接口生成语音控制列表包括:
为所述需要用户操作的接口配置该接口对应的作用域代码;
将所述接口和该接口对应的作用域代码记录在所述语音控制列表中。
2.根据权利要求1所述的方法,其特征在于,所述作用域代码采用掩码方式实现,并且每个作用域对应于作用域代码中的一个比特位。
3.根据权利要求2所述的方法,其特征在于,所述利用所述语音控制列表查找所述用户语音命令对应的接口包括:
对即时通信平台的运行场景进行监测,获知当前运行场景;
根据所述语音控制列表中接口的作用域代码获知支持当前运行场景的接口,并根据接口和语音命令之间的对应关系获取支持当前运行场景的语音命令,根据获取到的语音命令在语音控制列表中的位置信息生成当前运行场景的语音控制索引表;
从所述语音控制索引表中查找所述用户语音命令在语音控制列表中的位置信息,并根据所述位置信息在语音控制列表中查找出所述用户语音命令对应的接口。
4.根据权利要求1所述的方法,其特征在于,所述从所述语音数据流中识别出用户语音命令包括:
对每段连续的语音数据流,按照采集该语音数据流的时间顺序,对所述语音数据流中的语音进行识别,对首个识别成功的用户语音命令,确认该用户语音命令的类型;
当确认所述用户语音命令的类型为单目指令时,结束对所述语音数据流的识别,并将所述识别成功的用户语音命令作为识别出的用户语音命令;
当确认所述用户语音命令的类型为双目指令时,将匹配成功的用户语音命令发音时占用的时间均值对应的时间点作为分割点,将分割点之前的数据从所述语音数据流中分割出来,对分割后的语音数据流按照所述双目指令所指示的识别对象进行识别,得到语音命令对象,根据所述识别成功的用户语音命令和语音命令对象得到识别出的用户语音命令。
5.一种通信系统,其特征在于,所述系统包括即时通信平台和控制即时通信平台通信的装置,
所述控制即时通信平台通信的装置包括主机综合管理模块、语音控制引擎、语音采集模块和用户界面UI展示模块,
所述主机综合管理模块,用于根据即时通信平台中需要用户操作的接口生成语音控制列表,所述语音控制列表中记录所述接口和语音命令之间的对应关系,以及记录指示所述接口在即时通信平台中地址的信息;利用所述语音控制列表查找所述语音控制引擎识别出的用户语音命令对应的接口,并向所述UI展示模块发送调用所述查找出的接口的调用指令;
所述语音采集模块,用于采集用户的语音数据流,并将语音数据流传递至所述主机综合管理模块;
所述语音控制引擎,用于根据所述主机综合管理模块的指令,从所述主机综合管理模块下发的语音数据流中识别出用户语音命令;
所述UI展示模块,用于根据所述调用指令,在即时通信平台中调用相应的接口,以实现相应的操作;以及提供交互界面,利用该交互界面与用户进行信息交互;
其中,所述主机综合管理模块,还用于根据接口在即时通信平台中有效作用的范围设置接口的作用域代码;以及,为所述需要用户操作的接口配置该接口对应的作用域代码;将所述接口和该接口对应的作用域代码记录在所述语音控制列表中。
6.根据权利要求5所述的通信系统,其特征在于,
所述作用域代码采用掩码方式实现,并且每个作用域对应于作用域代码中的一个比特位。
7.根据权利要求6所述的通信系统,其特征在于,
所述UI展示模块,用于对即时通信平台的运行场景进行监测,获知当前运行场景,并向所述主机综合管理模块发送指示当前运行场景的通知消息;
所述主机综合管理模块,用于根据所述语音控制列表中接口的作用域代码获知支持当前运行场景的接口,并根据接口和语音命令之间的对应关系获取支持当前运行场景的语音命令,根据获取到的语音命令在语音控制列表中的位置信息生成当前运行场景的语音控制索引表;从所述语音控制索引表中查找所述用户语音命令在语音控制列表中的位置信息,并根据所述位置信息在语音控制列表中查找出所述用户语音命令对应的接口。
8.根据权利要求5所述的通信系统,其特征在于,
所述语音控制引擎,用于对每段连续的语音数据流,按照采集该语音数据流的时间顺序,对所述语音数据流中的语音进行识别,将首个识别成功的用户语音命令发送至所述主机综合管理模块;
所述主机综合管理模块,用于确认所述识别成功的用户语音命令的类型;
所述语音控制引擎,还用于当所述用户语音命令的类型为单目指令时,结束对所述语音数据流的识别,并将所述识别成功的用户语音命令作为识别出的用户语音命令;当所述用户语音命令的类型为双目指令时,将匹配成功的用户语音命令发音时占用的时间均值对应的时间点作为分割点,将分割点之前的数据从所述语音数据流中分割出来,对分割后的语音数据流按照所述双目指令所指示的识别对象进行识别,得到语音命令对象,根据所述识别成功的用户语音命令和语音命令对象得到识别出的用户语音命令。
9.一种控制即时通信平台通信的装置,其特征在于,包括主机综合管理模块、语音控制引擎、语音采集模块和用户界面UI展示模块,
所述主机综合管理模块,用于根据即时通信平台中需要用户操作的接口生成语音控制列表,并且根据接口在即时通信平台中有效作用的范围设置接口的作用域代码,所述作用域代码采用掩码方式实现,并且每个作用域对应于作用域代码中的一个比特位,以及为所述需要用户操作的接口配置该接口对应的作用域代码;所述语音控制列表中记录所述接口和语音命令之间的对应关系,记录指示所述接口在即时通信平台中地址的信息,以及记录所述接口和该接口对应的作用域代码;利用所述语音控制列表查找所述语音控制引擎识别出的用户语音命令对应的接口,并向所述UI展示模块发送调用所述查找出的接口的调用指令;
所述语音采集模块,用于采集用户的语音数据流,并将语音数据流传递至所述主机综合管理模块;
所述语音控制引擎,用于根据所述主机综合管理模块的指令,从所述主机综合管理模块下发的语音数据流中识别出用户语音命令;
所述UI展示模块,用于根据所述调用指令,在即时通信平台中调用相应的接口,以实现相应的操作;以及提供交互界面,利用该交互界面与用户进行信息交互。
10.根据权利要求9所述的控制即时通信平台通信的装置,其特征在于,
所述UI展示模块,用于对即时通信平台的运行场景进行监测,获知当前运行场景,并向所述主机综合管理模块发送指示当前运行场景的通知消息;所述主机综合管理模块,用于根据所述语音控制列表中接口的作用域代码获知支持当前运行场景的接口,并根据接口和语音命令之间的对应关系获取支持当前运行场景的语音命令,根据获取到的语音命令在语音控制列表中的位置信息生成当前运行场景的语音控制索引表;从所述语音控制索引表中查找所述用户语音命令在语音控制列表中的位置信息,并根据所述位置信息在语音控制列表中查找出所述用户语音命令对应的接口。
CN201310035121.5A 2013-01-30 2013-01-30 一种控制即时通信平台通信的方法、装置和通信系统 Active CN103152244B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310035121.5A CN103152244B (zh) 2013-01-30 2013-01-30 一种控制即时通信平台通信的方法、装置和通信系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310035121.5A CN103152244B (zh) 2013-01-30 2013-01-30 一种控制即时通信平台通信的方法、装置和通信系统

Publications (2)

Publication Number Publication Date
CN103152244A CN103152244A (zh) 2013-06-12
CN103152244B true CN103152244B (zh) 2015-12-02

Family

ID=48550116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310035121.5A Active CN103152244B (zh) 2013-01-30 2013-01-30 一种控制即时通信平台通信的方法、装置和通信系统

Country Status (1)

Country Link
CN (1) CN103152244B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473073A (zh) * 2013-09-25 2013-12-25 张新杰 一种快速调出指令调用接口的方法和系统
CN104464729A (zh) * 2014-12-16 2015-03-25 佛山市顺德区美的电热电器制造有限公司 语音控制电器及其语音控制方法
CN106034063A (zh) * 2015-03-13 2016-10-19 阿里巴巴集团控股有限公司 一种在通信软件中通过语音启动业务的方法及相应装置
CN106470263A (zh) * 2015-08-17 2017-03-01 腾讯科技(深圳)有限公司 即时通信应用中使用通讯录的方法和装置
CN105204743A (zh) * 2015-09-28 2015-12-30 百度在线网络技术(北京)有限公司 用于语音和视频通讯的交互控制方法及装置
CN105471585A (zh) * 2015-12-09 2016-04-06 广州华多网络科技有限公司 一种用户信息的注销方法及装置
CN106604151A (zh) * 2016-12-28 2017-04-26 深圳Tcl数字技术有限公司 视频聊天方法及装置
CN106782543A (zh) * 2017-03-24 2017-05-31 联想(北京)有限公司 一种信息处理方法和电子设备
CN110020219A (zh) * 2017-11-09 2019-07-16 北京京东尚科信息技术有限公司 用于服务器的信息处理方法和装置
CN110364144B (zh) * 2018-10-25 2022-09-02 腾讯科技(深圳)有限公司 一种语音识别模型训练方法及装置
CN110570854B (zh) * 2019-08-23 2021-10-15 珠海格力电器股份有限公司 一种智能语音输出方法及装置
CN110493123B (zh) * 2019-09-16 2022-06-28 腾讯科技(深圳)有限公司 即时通讯方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1553683A (zh) * 2003-05-28 2004-12-08 国际商业机器公司 语音应用托管环境中的端口管理方法和装置
CN102662704A (zh) * 2012-03-31 2012-09-12 上海量明科技发展有限公司 一种启动即时通信交互界面的方法、终端和系统
CN102799603A (zh) * 2011-04-28 2012-11-28 三星电子株式会社 提供链接列表的方法和应用所述方法的显示设备
CN102867276A (zh) * 2012-08-14 2013-01-09 俞琳 基于电力业务系统的交互式控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8886545B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1553683A (zh) * 2003-05-28 2004-12-08 国际商业机器公司 语音应用托管环境中的端口管理方法和装置
CN102799603A (zh) * 2011-04-28 2012-11-28 三星电子株式会社 提供链接列表的方法和应用所述方法的显示设备
CN102662704A (zh) * 2012-03-31 2012-09-12 上海量明科技发展有限公司 一种启动即时通信交互界面的方法、终端和系统
CN102867276A (zh) * 2012-08-14 2013-01-09 俞琳 基于电力业务系统的交互式控制方法

Also Published As

Publication number Publication date
CN103152244A (zh) 2013-06-12

Similar Documents

Publication Publication Date Title
CN103152244B (zh) 一种控制即时通信平台通信的方法、装置和通信系统
KR100297907B1 (ko) 원격조작방법,서버및기억매체
CN202035047U (zh) 一种提取地址信息进行导航的移动终端
CN105493621B (zh) 终端、服务器及终端控制方法
KR101771071B1 (ko) 통신 방법, 클라이언트, 및 단말
CN112492442A (zh) 一种蓝牙耳机的连接切换方法、装置、设备及存储介质
JP2017112609A (ja) 視覚的または聴覚的効果の双方向伝達を利用した映像通話方法およびシステム
CN104010267A (zh) 支持基于翻译的通信服务方法和系统和支持该服务的终端
CN104412258A (zh) 应用文本信息进行通信的方法及装置
JP2006352290A (ja) シナリオ作成装置、試験システム、シナリオ作成方法及びプログラム
CN103365840A (zh) 一种基于web的截图方法和装置
CN109274831A (zh) 一种语音通话方法、装置、设备及可读存储介质
CN109782997B (zh) 一种数据处理方法、装置及存储介质
CN108039173B (zh) 语音信息输入方法、移动终端、系统以及可读存储介质
CN112596848A (zh) 一种录屏方法、装置、电子设备、存储介质及程序产品
US9332406B2 (en) Method, apparatus, and system for updating contact information
CN103973542B (zh) 一种语音信息处理方法及装置
CN105072246A (zh) 信息同步方法、装置及终端
CN109684025A (zh) 一种远程通信方法及相关装置
CN109637534A (zh) 语音遥控方法、系统、受控装置及计算机可读存储介质
CN115550597A (zh) 一种拍摄方法、系统及电子设备
CN102215289B (zh) 一种移动终端及提取地址信息进行导航的方法
CN113617020B (zh) 游戏控制方法、装置、存储介质、服务器以及终端
CN115022304A (zh) 基于rpa和ai实现ia的跨平台文件处理方法、装置和系统
CN106856449B (zh) 一种在融合通讯调度系统中实现专用地图调度的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: 261031 Dongfang Road, Weifang high tech Industrial Development Zone, Shandong, China, No. 268

Patentee after: Goertek Inc.

Address before: 261031 Dongfang Road, Weifang high tech Industrial Development Zone, Shandong, China, No. 268

Patentee before: Goertek Inc.