CN104318923B - 一种语音处理方法、装置及终端 - Google Patents

一种语音处理方法、装置及终端 Download PDF

Info

Publication number
CN104318923B
CN104318923B CN201410623689.3A CN201410623689A CN104318923B CN 104318923 B CN104318923 B CN 104318923B CN 201410623689 A CN201410623689 A CN 201410623689A CN 104318923 B CN104318923 B CN 104318923B
Authority
CN
China
Prior art keywords
segment
text
action
voice data
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410623689.3A
Other languages
English (en)
Other versions
CN104318923A (zh
Inventor
韩香梅
朴在善
冯穗豫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Guangzhou Mobile R&D Center
Samsung Electronics Co Ltd
Original Assignee
Samsung Guangzhou Mobile R&D Center
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Guangzhou Mobile R&D Center, Samsung Electronics Co Ltd filed Critical Samsung Guangzhou Mobile R&D Center
Priority to CN201410623689.3A priority Critical patent/CN104318923B/zh
Publication of CN104318923A publication Critical patent/CN104318923A/zh
Application granted granted Critical
Publication of CN104318923B publication Critical patent/CN104318923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本申请公开了一种语音处理方法、装置及终端。该方法包括:将语音数据转换成文字以进行显示;接收对文字片段的选择,其中所述选中文字片段与至少一个动作链接相关联;接收对选中文字片段所关联的动作链接的选择;执行所选择的动作链接对应的动作。通过本发明的方法、装置及终端,转换后的文字片段与至少一个动作链接相关联,在选择该动作链接时能够执行该动作链接对应的动作,从而提供了对转换后的文字中用户感兴趣或重要的文字所对应的内容进一步处理的机制。在优选实施例中,当该至少一个动作链接包括播放链接,并且当所选中的动作链接为播放链接时,能够播放该选中文字片段对应的语音数据片段,从而用户能够确定转换后的文字内容是否正确。

Description

一种语音处理方法、装置及终端
技术领域
本申请涉及语音技术领域,尤其涉及一种语音处理方法、装置及终端。
背景技术
随着科技的进步,语音转文字(STT:Speech to Text)功能越来越多的应用到电子产品领域,用户也从中体会到了语音转换文本功能带来的便利。通常使用的语音转换文字技术,利用语音识别系统合成文字。但是现有技术中缺少对转换后的文字中用户感兴趣或重要的文字所对应的内容进一步处理的机制。特别地,语音转文字由于各种原因存在一定的错误率,例如语音不易识别(例如方言或者背景比较嘈杂)。为此,用户希望一种能够确定某些转换后的文字内容是否正确,进一步,如果不正确的话进行改正,正确的话进行另外的操作的方法和/或装置。
发明内容
有鉴于此,本申请提供一种语音处理方法、装置及终端。
第一方面,本申请提供了一种语音处理方法,该方法包括:将语音数据转换成文字以进行显示;接收对文字片段的选择,其中该选中文字片段与至少一个动作链接相关联;接收对选中文字片段所关联的动作链接的选择;以及执行所选择的动作链接对应的动作。
在一些可选实施例中,该至少一个动作链接包括播放链接,并且当所选中的动作链接为播放链接时,播放该选中文字片段对应的语音数据片段。
在一些可选实施例中,检测出满足预定标准的文字片段;关联该至少一个动作链接到该检测出的满足预定标准的文字片段上;当接收到对该满足预定标准的文字片段的选择和关联的动作链接的选择时,执行所选择的动作链接对应的动作。
在一些可选实施例中,区别显示该检测出的满足预定标准的文字片段。
在一些可选实施例中,基于语音数据或转换后的文字检测满足预定标准的文字片段。
在一些可选实施例中,该满足预定标准的文字片段为如下至少之一:包含预定信息内容的语音数据对应的文字片段;该语音数据中背景噪音高于预定阈值的语音数据片段所对应的文字片段;包含预定信息内容的文字片段。
在一些可选实施例中,该预定信息内容包括如下至少一种:联系方式、地理位置、姓名、时间、以及数字。
在一些可选实施例中,当接收到的对文字片段的选择为手选操作时,关联该至少一个动作链接到该手选的文字片段上。
在一些可选实施例中,播放该选中文字片段对应的语音数据片段的步骤包括:响应于播放请求,基于该选中文字片段与对应的语音数据片段之间的映射关系,播放该选中文字片段对应的语音数据片段。
在一些可选实施例中,播放该选中文字片段对应的语音数据片段的步骤包括:自该选中文字片段对应的语音数据片段之前第一预定时间开始播放至该选中文字片段对应的语音数据片段之后第二预定时间结束播放。
在一些可选实施例中,播放该选中文字片段对应的语音数据片段的步骤包括:根据选中文字片段的语义得到其完整语义片段,播放该完整语义片段对应的语音数据片段。
在一些可选实施例中,该动作链接还包括编辑链接;当编辑链接被选中,执行对该选中文字片段的编辑操作。
在一些可选实施例中,该方法还包括:对该检测到的满足预定标准的文字片段对应的语音数据片段进行保存。
在一些可选实施例中,该方法还包括:对手选操作选中的文字片段对应的语音数据片段进行保存。
在一些可选实施例中,该方法还包括如下步骤之一:将其它语音数据片段修改为静音数据;不保存其它语音数据片段;以及以原始比特率保存该满足预定标准的文字片段对应的语音数据片段,以相对低比特率保存其它语音数据片段。
第二方面,本申请提供了一种语音处理装置,该装置包括转换显示模块,用于将语音数据转换成文字以进行显示;文字选择模块,用于接收对文字片段的选择,其中该选中文字片段与至少一个动作链接相关联;动作选择模块,用于接收对选中文字片段所关联的动作链接的选择;以及动作执行模块,用于执行所选择的动作链接对应的动作。
在一些可选实施例中,该至少一个动作链接包括播放链接,并且,该动作执行模块被配置为,当所选中的动作链接为播放链接时,播放该选中文字片段对应的语音数据片段。
在一些可选实施例中,该装置还包括检测模块,用于检测出满足预定标准的文字片段;关联模块,用于关联该至少一个动作链接到该检测出的满足预定标准的文字片段上;当该文字选择模块和该动作选择模块分别接收到对该满足预定标准的文字片段的选择和关联的动作链接的选择时,该动作执行模块执行所选择的动作链接对应的动作。
在一些可选实施例中,该转换显示模块被进一步配置为区别显示该检测出的满足预定标准的文字片段。
在一些可选实施例中,该检测模块基于语音数据或转换后的文字检测满足预定标准的文字片段。
在一些可选实施例中,该满足预定标准的文字片段为如下至少之一:包含预定信息内容的语音数据对应的文字片段;该语音数据中背景噪音高于预定阈值的语音数据片段所对应的文字片段;包含预定信息内容的文字片段。
在一些可选实施例中,该预定信息内容包括如下至少一种:联系方式、地理位置、姓名、时间、以及数字。
在一些可选实施例中,当该文字选择模块接收到的对文字片段的选择为手选操作时,该关联模块被配置为关联该至少一个动作链接到该手选的文字片段上。
在一些可选实施例中,该动作执行模块被进一步配置为,响应于播放请求,基于该选中文字片段与对应的语音数据片段之间的映射关系,播放该选中文字片段对应的语音数据片段。
在一些可选实施例中,该动作执行模块被进一步配置为,自该选中文字片段对应的语音数据片段之前第一预定时间开始播放至该选中文字片段对应的语音数据片段之后第二预定时间结束播放。
在一些可选实施例中,该动作执行模块被进一步配置为,根据选中文字片段的语义得到的其完整语义片段,播放该完整语义片段对应的语音数据片段。
在一些可选实施例中,该动作链接还包括编辑链接;并且该动作执行模块被配置为,当编辑链接被选中,执行对该选中文字片段的编辑操作。
在一些可选实施例中,该装置还包括数据保存模块,被配置为对该检测到的满足预定标准的文字片段对应的语音数据片段进行保存。
在一些可选实施例中,该装置还包括数据保存模块,被配置为对手选操作选中的文字片段对应的语音数据片段进行保存。
在一些可选实施例中,该数据保存模块被配置为实施如下步骤之一:将其它语音数据片段修改为静音数据;不保存其它语音数据片段;以及以原始比特率保存该满足预定标准的文字片段对应的语音数据片段,以相对低比特率保存其它语音数据片段。
第三方面,本申请提供了该终端,包括本申请的第二方面的语音处理装置。
通过本发明的方法、装置及终端,转换后的文字片段与至少一个动作链接相关联,在选择该动作链接时能够执行该动作链接对应的动作,从而提供了对转换后的文字中用户感兴趣或重要的文字所对应的内容进一步处理的机制。
特别地,在一些优选实施例中,当至少一个动作链接包括播放链接,并且当所选中的动作链接为播放链接时,能够播放该选中文字片段对应的语音数据片段,从而用户能够确定转换后的文字内容是否正确。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是根据本申请一个实施例的语音处理方法的流程图;
图2是根据本申请一个实施例的语音处理方法的显示效果图;
图3是根据本申请另一个实施例的语音处理方法的显示效果图;
图4是根据本申请一个实施例的语音-文字映射关系示意图;
图5是图2对应的实施例的方法流程图;
图6是图3对应的实施例的方法流程图;以及
图7是根据本申请一个实施例的语音处理装置的框图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本申请实施例主要以该方法应用于包含有显示屏的终端中来举例说明,该终端可以包括智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts GroupAudio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture ExpertsGroup Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
如图1所示,本申请提供了一种语音信息处理的方法,该方法包括如下步骤:
步骤101、将语音数据转换成文字以进行显示。
例如智能手机的终端将语音数据调入缓存中进行语音文字转换。其中语音数据的来源包括但不限于通话记录、即时语音信息或者本地录制语音信息。在将语音转换成文字后,在屏幕上将文字显示给用户。
在一个可选实施例中,本申请的方法可以检测出满足预定标准的文字片段,并且自动区别显示所述检测出的满足预定标准的文字片段。
其中,本申请的方法可以通过检测转换前的语音数据中包含预定信息内容(例如联系方式信息、地理位置信息、姓名、时间、以及数字等这些往往被认为重要的信息。这些信息可以通过匹配相应的语音数据库来筛选出来,例如通过语音地名库将地理位置信息筛选出来)的语音数据而将其对应的文字片段区别显示出来。
同样地,本申请的方法也可以通过检测转换后的文字中包含预定信息内容(例如联系方式信息、地理位置信息、姓名、时间、以及数字等这些往往被认为重要的信息。这些信息可以通过匹配相应的文本数据库来筛选出来,例如通过文本地名库将地理位置信息筛选出来)而将其区别显示出来。
再者,本申请的方法还可以通过检测语音数据中背景噪音高于预定阈值的语音数据片段(这些往往意味着转换后可能存在错误的那些不确定的情况),从而将其所对应的文字区别显示出来。
如图2所示,201表示语音信息,202表示语音转换后的文字信息,其中文字片段“18012345678”、“12楼”,由终端自动检测出并且以下划线的形式区别显示出来。本领域技术人员均明了,区别显示的方式并不局限于下划线,例如还可以包括以不同的颜色高亮显示等。
在另外的可选实施例中,如图3所示,对于转换后的文字并不进行区别显示。
步骤102、接收对文字片段的选择,其中所述选中文字片段与至少一个动作链接相关联。
其中,终端为转换后的各个文字片段分配至少一个动作链接,而当用户选择了某个文字片段时将该至少一个动作链接关联到该文字片段。
所述至少一个动作链接包括但不限于播放链接、编辑链接、复制链接、拨号链接以及定位链接。优选地,本申请的方法可以通过检测用户选择的文字片段的内容来动态的关联动作链接。例如,当检测到所选的文字片段是如电话号码的数字时,可以将播放链接、编辑链接、复制链接、拨号链接关联到该选中的文字片段,如图2所示。又例如,当检测到所选的文字片段是如图3所示的“岗顶总统大酒店”这样的地理位置信息时,可以将播放链接、编辑链接、复制链接、定位链接关联到该选中的文字片段。
由于确定重要的或不确定的文字信息是否正确是本申请最希望实现的功能,优选地,无论是哪种情况,播放链接总是被关联到所选的文字片段。
在图2所示的实施例中,对于区别显示的文字片段用户可以通过点选或悬停的方式选择。终端能够检测用户在某个区别显示的文字片段上的点选或悬停操作。对于悬停操作,当检测到例如鼠标的选择装置在某个区别显示的文字片段悬停超过预定时间(例如3秒)后,终端确认是对该文字片段进行了选择。
在图3所示的不区别显示文字片段的实施例中,用户可以通过划选方式选择文字片段。终端能够检测用户在某个文字片段上的划选操作。
步骤103、接收对选中文字片段所关联的动作链接的选择。
在图3所示的实施例中,当终端检测到用户对文字片段的选择时,所述动作链接以菜单的形式显示给用户以供用户选择。然而,本领域技术人员能够明了,所述动作链接可以不显示给用户,而是在选择文字片段时也就直接选择了相应的动作链接,同时也就触发了该动作链接对应的动作,如图2所示。
步骤104、执行所选择的动作链接对应的动作。
其中,当用户选择播放链接时,播放所选择的文字片段对应的语音片段。
其中,当用户选择编辑链接时,所选择的文字片段进入可编辑状态,例如弹出编辑对话框。此功能用于修改转换错误的文本内容。
其中,当用户选择复制链接时,所选择的文字片段被复制到剪切板。
其中,当用户选择拨号链接时,拨打所选择的文字片段对应的号码。更优选地,在检测到终端是例如手机等的通信设备并且所选的文字片段是电话号码时,拨号链接才被启用,否则将被禁用。
优选地,当用户选择播放链接时,播放所选择的文字片段对应的语音片段的步骤包括:响应于播放请求,基于所述选中文字片段与对应的语音数据片段之间的映射关系,播放所述选中文字片段对应的语音数据片段。
其中所述映射关系例如可以通过图4所示的实施例获得。在语音转文字时,可以根据转换前语音数据的电平变化或转换后空白文字进行断句,并且进一步将每个断句进行语义分离,从而得到各个文字片段。将各个文字片段以及与其对应的语音片段进行对应编号,例如将“王总电话号码是多少来着?”这一文字片段和与其相对应的语音片段分配编号“1”,将“12楼”这一文字片段和与其相对应的语音片段分配编号“6”,等等,从而使得文字片段与相对应的语音片段形成映射关系。当用户选择播放链接时,终端可以根据这些编号去匹配对应的文字和语音片段。
本领域技术人员均明了,本申请的映射关系的建立并不限于如上所示的方法。
在播放选中文字片段对应的语音数据片段时,若是仅仅播放对应的语音数据片段,用户可能没有准备好而又漏了部分内容,为此,优选地,播放所述选中文字片段对应的语音数据片段的步骤包括:自所述选中文字片段对应的语音数据片段之前第一预定时间(例如3秒)开始播放和/或至所述选中文字片段对应的语音数据片段之后第二预定时间(例如2秒)结束播放。可替换地,根据在语音转文字时的语义分析可以得到选中文字片段所在的完整语义片段,然后播放所述选中文字片段所在的完整语义片段对应的语音数据片段。例如,如图2所示,当用户点击“12楼”希望播放语音时,终端将自动分析其前后整个文字片段“岗顶总统大酒店12楼”,根据语义分析技术,假设判断出“岗顶”为地区名,“总统大酒店”为距离“12楼”文字最近的名词,应为具体地点名,于是语音分析技术认为“总统大酒店”与“12楼”有语义联系,于是调整为播放“总统大酒店12楼”对应的较长的语音片段,而不是“12楼”的单独语音片段。
为了使得在终端掉电重启之后还能重听语音数据片段,优选地,可以将全部语音数据片段保存在存储器中。进一步地,在终端能够区别显示满足预定标准的文字片段,并且用户仅仅重听这些文字片段的实施例(如图2所示的实施例)中,为了节省存储空间,可以仅仅对检测到的满足预定标准的文字片段对应的语音数据片段进行保存或者对这样的语音数据片段以原有的比特率进行保存。另外,在终端并不区别显示满足预定标准的文字片段,并且用户随机选择重听文字片段的实施例(如图3的实施例)中,为了节省存储空间,可以仅仅对用户手选操作选中的文字片段对应的语音数据片段进行保存或者对这样的语音数据片段以原有的比特率进行保存。
而对于其它语音数据片段,可以修改为静音数据、或者不保存、或者以相对低比特率保存。
以下结合图2和图5来对本发明的一个应用场景进行描述。
图2中的终端200例如为手机,其执行图5中所示的步骤500。步骤500包括:
步骤501、将语音转换成文字。
步骤502、确定重要内容和/或不确定内容。其中,可以通过之前所述的检测满足预定标准的文字片段的方法来确定重要内容/不确定内容。
步骤503、以下划线或高亮区别显示所述重要内容和/或不确定内容,如图2中所示,以下划线区别显示“18012345678”。
步骤504、用户点击区别显示的文字中的一个以选择该区别显示的文字。例如点击图2中的电话号码“18012345678”。在图2所示的实施例中,在对区别显示的文字进行选择时,并不显示相关动作链接的菜单,而是同时也就选择了动作链接,在本实施例中是播放链接。本领域技术人员均明了,在本实施例中,也可以以菜单的方式显示播放链接以及其它动作链接,如图3所示那样。
步骤505、播放对应的语音片段,使得用户能够再次重听该语音片段,以达到能够确定重要内容和/或不确定内容是否正确的目的。
以下结合图3和图6来对本发明的另一应用场景进行描述。
图3中的终端300例如为手机,其执行图6中所示的步骤600。步骤600包括:
步骤601、语音转换文字。其中,这一步骤将语音数据转换成文字信息。
步骤602、用户选择文字内容。用户可以在所显示的文字中随意选择,如图3所示,用户划选了“岗顶总统大酒店”。
步骤603、以下划线或高亮标记“岗顶总统大酒店”。
步骤604、显示动作选择菜单。其中,当用户手动选择文字完成时,终端自动显示动作选择菜单。例如,如图3所示,当用户手选“岗顶总统大酒店”文字片段的动作完成时,动作选择菜单自动浮现。
步骤605、显示关联动作链接。其中,动作选择菜单浮现后,显示各种动作链接的选项,例如“播放”、“编辑”、“复制”“定位”等等。
步骤606、用户选择动作链接从而执行对应的动作。例如选择播放链接,则播放文字片段“岗顶总统大酒店”对应的语音片段。
当然,本领域技术人员均明了,动作链接也可以不以菜单的形式呈现,而是在用户点击文字时就执行对应的动作(在本实施例中是播放语音),如步骤607、608所示(与虚线框表示,其与图5中的步骤504、505类似,此处不再赘述)。
通过本申请的方法,转换后的文字片段与至少一个动作链接相关联,在选择该动作链接时能够执行该动作链接对应的动作,从而提供了对转换后的文字中用户感兴趣或重要的文字所对应的内容进一步处理的机制。
特别地,在一些优选实施例中,当该至少一个动作链接包括播放链接,并且当所选中的动作链接为播放链接时,能够播放该选中文字片段对应的语音数据片段,从而用户能够确定转换后的文字内容是否正确。
另一方面,本申请还提供了一种语音处理装置,如图7所示,该装置包括:
转换显示模块701,用于将语音数据转换成文字以进行显示;
文字选择模块702,用于接收对文字片段的选择,其中所述选中文字片段与至少一个动作链接相关联;
动作选择模块703,用于接收对选中文字片段所关联的动作链接的选择;以及
动作执行模块704,用于执行所选择的动作链接对应的动作。
另外,本申请的语音处理装置还可以包括检测模块(未示出),用于检测出满足预定标准的文字片段;关联模块(未示出),用于关联所述至少一个动作链接到所述检测出的满足预定标准的文字片段上;数据保存模块(未示出),被配置为对所述检测到的满足预定标准的文字片段对应的语音数据片段进行保存;或者被配置为对手选操作选中的文字片段对应的语音数据片段进行保存。
上述模块还可以进一步配置为执行本申请的方法实施例中的各种对应的步骤。
通过本申请的装置,转换后的文字片段与至少一个动作链接相关联,在选择该动作链接时能够执行该动作链接对应的动作,从而提供了对转换后的文字中用户感兴趣或重要的文字所对应的内容进一步处理的机制。
特别地,在一些优选实施例中,当该至少一个动作链接包括播放链接,并且当所选中的动作链接为播放链接时,能够播放该选中文字片段对应的语音数据片段,从而用户能够确定转换后的文字内容是否正确。
再一方面,本申请还提供了一种终端,该终端包括图7所示的语音处理装置。可选地,该终端还可以包括如上所述的检测模块、关联模块、数据保存模块中的至少一个。
通过本申请的终端,转换后的文字片段与至少一个动作链接相关联,在选择该动作链接时能够执行该动作链接对应的动作,从而提供了对转换后的文字中用户感兴趣或重要的文字所对应的内容进一步处理的机制。
特别地,在一些优选实施例中,当该至少一个动作链接包括播放链接,并且当所选中的动作链接为播放链接时,能够播放该选中文字片段对应的语音数据片段,从而用户能够确定转换后的文字内容是否正确。
本领域普通技术人员可以理解,本申请的多个方面可以采用一种方法、完全的硬件实施例、完全的软件实施例,或者将软件和硬件方面相接合的实施例的形式。
此外,本申请可以采取计算机可读存储介质的形式,所述存储介质可以采用许多形式,包括非易失性介质和易失性介质,但是并不局限于此。例如,非易失性介质包括ROM/RAM,磁盘,光盘等。易失性介质包括动态存储器等。本申请实施例中涉及的方法中的全部或部分步骤是可以通过承载在该计算机可读存储介质中的程序来指令相关的硬件来完成的。
还要理解的是,该程序可以用任何期望的语言实施,并可以实施为机器代码、汇编代码、二进制代码、可解释源代码等(例如C、C++、Java等)。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (16)

1.一种语音处理方法,其特征在于,所述方法包括:
将语音数据转换成文字以进行显示;
接收对所述显示的文字片段的选择;
提供与选中文字片段相关联的至少一个动作链接;
接收对选中文字片段所关联的动作链接至少之一的选择;以及
执行所选择的动作链接对应的动作;
所述至少一个动作链接包括播放链接,并且
当所选中的动作链接为播放链接时,播放所述选中文字片段对应的语音数据片段。
2.根据权利要求1的方法,其特征在于包括,
检测出满足预定标准的文字片段;
关联所述至少一个动作链接到检测出的满足预定标准的文字片段上;
当接收到对所述满足预定标准的文字片段的选择和关联的动作链接的选择时,执行所选择的动作链接对应的动作。
3.根据权利要求2的方法,其中区别显示所述检测出的满足预定标准的文字片段。
4.根据权利要求2的方法,其中基于语音数据或转换后的文字检测满足预定标准的文字片段。
5.根据权利要求4的方法,其特征在于,所述满足预定标准的文字片段为如下至少之一:
包含预定信息内容的语音数据对应的文字片段;
所述语音数据中背景噪音高于预定阈值的语音数据片段所对应的文字片段;
包含预定信息内容的文字片段。
6.根据权利要求5的方法,其特征在于,所述预定信息内容包括如下至少一种:联系方式、地理位置、姓名、时间、以及数字。
7.根据权利要求1的方法,其特征在于,
当接收到的对文字片段的选择为手选操作时,
关联所述至少一个动作链接到所述手选的文字片段上。
8.根据权利要求1的方法,其特征在于,播放所述选中文字片段对应的语音数据片段的步骤包括:
响应于播放请求,基于所述选中文字片段与对应的语音数据片段之间的映射关系,播放所述选中文字片段对应的语音数据片段。
9.根据权利要求1的方法,其特征在于,播放所述选中文字片段对应的语音数据片段的步骤包括:
自所述选中文字片段对应的语音数据片段之前第一预定时间开始播放至所述选中文字片段对应的语音数据片段之后第二预定时间结束播放。
10.根据权利要求1的方法,其特征在于,播放所述选中文字片段对应的语音数据片段的步骤包括:
根据选中文字片段的语义得到其完整语义片段,播放所述完整语义片段对应的语音数据片段。
11.根据权利要求1方法,其特征在于,
所述动作链接还包括编辑链接;
其中,当编辑链接被选中,执行对所述选中文字片段的编辑操作。
12.根据权利要求2的方法,其特征在于,所述方法还包括:
对检测到的满足预定标准的文字片段对应的语音数据片段进行保存。
13.根据权利要求7的方法,其特征在于,所述方法还包括:对手选操作选中的文字片段对应的语音数据片段进行保存。
14.根据权利要求12的方法,其特征在于,所述方法还包括如下步骤之一:
将其它语音数据片段修改为静音数据;
不保存其它语音数据片段;以及
以原始比特率保存所述满足预定标准的文字片段对应的语音数据片段,以相对低比特率保存其它语音数据片段。
15.一种语音处理装置,其特征在于,所述装置包括:
转换显示模块,用于将语音数据转换成文字以进行显示;
文字选择模块,用于接收对所述显示的文字片段的选择;
动作关联模块,用于提供与选中文字片段相关联的至少一个动作链接;
动作选择模块,用于接收对选中文字片段所关联的动作链接至少之一的选择;以及
动作执行模块,用于执行所选择的动作链接对应的动作;
所述至少一个动作链接包括播放链接,并且
当所选中的动作链接为播放链接时,播放所述选中文字片段对应的语音数据片段。
16.一种终端,其特征在于,所述终端包括权利要求15的语音处理装置。
CN201410623689.3A 2014-11-06 2014-11-06 一种语音处理方法、装置及终端 Active CN104318923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410623689.3A CN104318923B (zh) 2014-11-06 2014-11-06 一种语音处理方法、装置及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410623689.3A CN104318923B (zh) 2014-11-06 2014-11-06 一种语音处理方法、装置及终端

Publications (2)

Publication Number Publication Date
CN104318923A CN104318923A (zh) 2015-01-28
CN104318923B true CN104318923B (zh) 2020-08-11

Family

ID=52374146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410623689.3A Active CN104318923B (zh) 2014-11-06 2014-11-06 一种语音处理方法、装置及终端

Country Status (1)

Country Link
CN (1) CN104318923B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106155550A (zh) * 2016-06-28 2016-11-23 乐视控股(北京)有限公司 一种界面的显示方法和装置
CN110312040B (zh) * 2019-07-02 2021-02-19 网易(杭州)网络有限公司 信息处理的方法、装置和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0877378A2 (en) * 1997-05-08 1998-11-11 British Broadcasting Corporation Method of and apparatus for editing audio or audio-visual recordings
CN102799603A (zh) * 2011-04-28 2012-11-28 三星电子株式会社 提供链接列表的方法和应用所述方法的显示设备
CN102866824A (zh) * 2011-06-07 2013-01-09 三星电子株式会社 执行链接的显示设备和方法及其识别语音的方法
CN103516582A (zh) * 2012-06-28 2014-01-15 北京神州泰岳软件股份有限公司 一种即时通讯中进行信息提示的方法和系统
CN103869948A (zh) * 2012-12-14 2014-06-18 联想(北京)有限公司 语音命令处理方法和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0877378A2 (en) * 1997-05-08 1998-11-11 British Broadcasting Corporation Method of and apparatus for editing audio or audio-visual recordings
CN102799603A (zh) * 2011-04-28 2012-11-28 三星电子株式会社 提供链接列表的方法和应用所述方法的显示设备
CN102866824A (zh) * 2011-06-07 2013-01-09 三星电子株式会社 执行链接的显示设备和方法及其识别语音的方法
CN103516582A (zh) * 2012-06-28 2014-01-15 北京神州泰岳软件股份有限公司 一种即时通讯中进行信息提示的方法和系统
CN103869948A (zh) * 2012-12-14 2014-06-18 联想(北京)有限公司 语音命令处理方法和电子设备

Also Published As

Publication number Publication date
CN104318923A (zh) 2015-01-28

Similar Documents

Publication Publication Date Title
US10489112B1 (en) Method for user training of information dialogue system
JP6588637B2 (ja) 個別化されたエンティティ発音の学習
KR101143034B1 (ko) 음성 명령을 명확하게 해주는 중앙집중식 방법 및 시스템
EP3504704B1 (en) Facilitating creation and playback of user-recorded audio
US8738375B2 (en) System and method for optimizing speech recognition and natural language parameters with user feedback
KR101418163B1 (ko) 컨텍스트 정보를 이용한 음성 인식 복구
US11176141B2 (en) Preserving emotion of user input
KR101213835B1 (ko) 음성 인식에 있어서 동사 에러 복원
US9454964B2 (en) Interfacing device and method for supporting speech dialogue service
EP2682931B1 (en) Method and apparatus for recording and playing user voice in mobile terminal
CN106971723A (zh) 语音处理方法和装置、用于语音处理的装置
US10699706B1 (en) Systems and methods for device communications
US20060247925A1 (en) Virtual push-to-talk
KR20230108346A (ko) 부분 가설들에 기초한 스트리밍 액션 이행
US20130253932A1 (en) Conversation supporting device, conversation supporting method and conversation supporting program
CN111949240A (zh) 交互方法、存储介质、服务程序和设备
JP2007171809A (ja) 情報処理装置及び情報処理方法
CN107624177B (zh) 用于提高用户效率和交互性能的可听呈现的选项的自动视觉显示
US20190066669A1 (en) Graphical data selection and presentation of digital content
JP2016102920A (ja) 文書記録システム及び文書記録プログラム
CN111326154A (zh) 语音交互的方法、装置、存储介质及电子设备
WO2015188454A1 (zh) 一种快速进入ivr菜单的方法及装置
CN104318923B (zh) 一种语音处理方法、装置及终端
KR101968669B1 (ko) 통화 서비스 제공 방법 및 컴퓨터 프로그램
US6658386B2 (en) Dynamically adjusting speech menu presentation style

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant