CN108281145A - 语音处理方法、语音处理装置和电子设备 - Google Patents
语音处理方法、语音处理装置和电子设备 Download PDFInfo
- Publication number
- CN108281145A CN108281145A CN201810085367.6A CN201810085367A CN108281145A CN 108281145 A CN108281145 A CN 108281145A CN 201810085367 A CN201810085367 A CN 201810085367A CN 108281145 A CN108281145 A CN 108281145A
- Authority
- CN
- China
- Prior art keywords
- voice
- application
- speech recognition
- recognition mode
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000004044 response Effects 0.000 claims abstract description 34
- 238000004590 computer program Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 206010048865 Hypoacusis Diseases 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002620 method output Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
公开了一种语音处理方法、语音处理装置和电子设备。所述方法包括:获取来自应用的语音数据;确定是否处于语音识别模式;响应于处于语音识别模式,将所述语音数据转换为文字数据;以及,基于所述文字数据输出文字。这样,在适当的情况下自动实现所有应用的语音识别功能。
Description
技术领域
本申请涉及音频技术领域,且更具体地,涉及一种语音处理方法、语音 处理装置和电子设备。
背景技术
随着各种电子设备的普及,为了提高电子设备上运行的应用的功能 性,越来越多的应用涉及语音方面的功能。在这方面最典型的是社交软 件,例如用户可以通过语音进行聊天。但是,并非在所有情况下用户都方 便接听语音(比如,开会、公共场合、或者嘈杂的时候)。
因此,需要改进的语音处理方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种语 音处理方法、语音处理装置和电子设备,其可以在适当的情况下自动实现所 有应用的语音识别功能。
根据本申请的一个方面,提供了一种语音处理方法,包括:获取来自应 用的语音数据;确定是否处于语音识别模式;响应于处于语音识别模式,将 所述语音数据转换为文字数据;以及,基于所述文字数据输出文字。
根据本申请的另一方面,提供了一种语音处理装置,包括:语音获取单 元,用于获取来自应用的语音数据;模式判定单元,用于确定是否处于语音 识别模式;语音转换单元,用于响应于处于语音识别模式,将所述语音数据 转换为文字数据;以及,文字输出单元,用于基于所述文字数据输出文字。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及, 存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被 所述处理器运行时使得所述处理器执行如上所述的语音处理方法。
根据本申请的又一方面,提供了一种计算机可读存储介质,其上存储有 计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执 行如上所述的语音处理方法。
与现有技术相比,采用根据本申请实施例的语音处理方法、语音处理装 置和电子设备,可以获取来自应用的语音数据;确定是否处于语音识别模式; 响应于处于语音识别模式,将所述语音数据转换为文字数据;以及,基于所 述文字数据输出文字。因此,可以基于是否处于语音识别模式,在适当的情 况下自动实现所有应用的语音识别功能。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其 他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一 步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请, 并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或 步骤。
图1图示了根据本申请实施例的语音处理方法的流程图。
图2图示了根据本申请实施例的语音处理方法的系统实现的示意图。
图3图示了根据本申请实施例的语音处理方法的第一应用示例的流程 图。
图4图示了根据本申请实施例的语音处理方法的第二应用示例的流程 图。
图5图示了根据本申请实施例的语音处理装置的框图。
图6图示了根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述 的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理 解,本申请不受这里描述的示例实施例的限制。
申请概述
如上所述,在用户使用涉及语音的应用时,存在接听语音不方便的情况。
针对上述情况,例如,一些应用提供了长按语音上传到云端识别,并且 返回文字信息的方式。但是,上述语音识别方案需要对每一条希望进行识别 的语音进行单独操作,增加了用户操作的复杂度。
此外,并非所有应用都具有这种语音识别的功能。如果希望使得其它应 用也具有语音识别的功能,则需要针对每个应用独立开发语音识别功能并相 应地设置。
而且,有些应用之前可能根本不涉及语音识别类的操作,但又确实存在 语音识别的需求。例如,多媒体播放类型的应用在播放音视频而且节目本身 没有字幕时,可能也需要具有语音识别功能,以产生字幕,从而为听觉障碍 用户提供更好的体验。
针对上述技术问题,本申请的基本构思是提出一种语音识别方法、语音 识别装置和电子设备,其可以在确定处于语音识别模式的情况下,自动地将 来自应用的语音数据转换为文字数据,从而适于所有需要语音识别功能的应 用,且便于用户操作。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的 各种非限制性实施例。
示例性方法
图1图示了根据本申请实施例的语音处理方法的流程图。
如图1所示,根据本申请实施例的语音处理方法包括:S110,获取来自 应用的语音数据;S120,确定是否处于语音识别模式;S130,响应于处于语 音识别模式,将所述语音数据转换为文字数据;以及S140,基于所述文字数 据输出文字。
下面,将详细地描述各个步骤。
在步骤S110,首先获取来自应用的语音数据。这里,根据本申请实施例 的语音处理方法不仅限于获取来自社交类应用的语音数据,而是可以获取来 自各种类型的应用的语音数据。例如,所述应用可以是社交类型的具有语音 聊天功能的应用,比如微信、钉钉,也可以是其它类型的可能产生语音数据 的应用,例如视频播放器、音频播放器、广播应用等。此外,所述应用也可 能是电子设备自带的电话应用。也就是说,根据本申请实施例的语音处理方 法适于处理所有类型的应用的语音数据。
在步骤S120,确定是否处于语音识别模式。具体来说,可以通过各种方 式来确定是否处于语音识别模式,根据本申请实施例的语音处理方法将其分 为主动类型和被动类型。
关于主动类型的确定方式,可以在相应的电子设备(或者电子设备所安 装的操作系统)中,提供语音识别模式开关(例如,类似于移动电话中针对 飞行模式的开关)。这样,通过检测语音识别模式开关的开启或关闭状态,可 以确定用户对于语音识别功能的需求。一旦检测到所述语音识别模式开关处 于开启状态,则可以确定电子设备处于语音识别模式。
关于被动类型的确定模式,可以通过其它关联情况的判定来确定是否处 于语音识别模式。如上所述,在用户不方便收听语音的场合,例如用户正在 开会的情况下,用户一般会将手机设置为静音或者振动模式。因此,通过检 测用户是否处于这种静音或者振动模式,就可以确定处于语音识别模式。
当然,确定处于所述语音识别模式的特定情境模式不仅限于上述电子设 备的静音情景模式或者振动情景模式,也可以包括其它类型的特定情境模式, 例如,用户正在进行语音通话的情境模式,以及用户处于嘈杂环境下的情境 模式。
相应地,针对不同类型的特定情境模式,也可以通过不同的方式来检测 是否处于所述特定情境模式。例如,可以直接从电子设备的设置参数来检测 电子设备是否处于静音情景模式或者振动情景模式;可以从电子设备的音频 交互设备,比如麦克风和扬声器的工作状态来检测用户是否正在进行语音通 话;可以通过电子设备的麦克风收集周围环境的声音,以确定用户是否处于 嘈杂环境下。
因此,根据本申请实施例的语音处理方法并不限制特定情境模式的具体 类型、以及特定情境模式的具体检测方式,只要检测到处于不适于收听语音 的特定情境模式,都相应地确定电子设备处于所述语音识别模式,从而进行 语音识别操作。这样,用户不需要针对各个场景单独进行设置,便于用户操 作。此外,由于根据本申请实施例的语音处理方法可以自动确定电子设备是 否处于语音识别模式,避免了用户在实际上不适于收听语音的情况下收听语 音所造成的不便(例如,多次重听、漏听、错听等)。
因此,在根据本申请实施例的语音处理方法中,确定是否处于语音识别 模式可以包括:检测语音识别模式开关的状态;以及,响应于检测到所述语 音识别模式开关被设置为开启状态,确定处于所述语音识别模式。
因此,在根据本申请实施例的语音处理方法中,确定是否处于语音识别 模式可以包括:检测是否处于特定情景模式;以及,响应于检测到处于所述 特定情景模式,确定处于所述语音识别模式。
进一步地,在根据本申请实施例的语音处理方法中,检测是否处于特定 情景模式可以包括:检测是否处于静音情景模式和振动情景模式中的至少一 个。
在步骤S130,响应于处于语音识别模式,将所述语音数据转换为文字数 据。
例如,在检测到电子设备当前处于语音识别模式时,即在用户不方便收 听语音聊天信息时,可以自动地将语音数据转换成文字数据,使得用户能够 方便快捷地浏览。
例如,可以在电子设备本地端进行上述转换操作,以获得最快的处理速 度。替换地,为了减少本地的处理负荷,电子设备也可以将语音数据上传到 云端。在云端由专用或共用服务器将接收到的语音数据进行语音识别生成文 字数据并回传给电子设备。
并且,在步骤S140,基于所述文字数据输出文字。这样,根据本申请实 施例的语音处理方法自动地将各种应用的语音数据识别为文字,然后,例如, 通过电子设备的显示单元显示出来。
此外,如果响应于未处于语音识别模式,则说明用户方便收听语音,那 么可以直接播放语音。即,在根据本申请实施例的语音处理方法中,进一步 包括:响应于不处于语音识别模式,基于所述语音数据输出直接输出语音。
另外,如上所述,根据本申请实施例的语音处理方法不仅限于应用于社 交类应用,而是也可以应用于多媒体播放类的应用。并且,基于不同应用类 型,根据本申请实施例的语音输出方法输出文字数据和语音数据的形式也会 不同。
具体来说,在根据本申请实施例的语音处理方法中,基于所述文字数据 输出文字可以包括:确定所述应用的类型;以及,响应于所述应用属于即时 消息类型,基于所述文字数据输出文字。
并且,在上述语音处理方法中,进一步包括:响应于所述应用属于多媒 体播放类型,根据所述应用的播放参数来确定所述应用是否处于字幕显示模 式;以及,响应于所述应用处于所述字幕显示模式,在基于所述文字数据输 出文字的同时,基于多媒体数据输出多媒体,所述多媒体数据包括所述语音 数据。
也就是说,当应用属于即时消息类型时,如果当前不适于播放语音,则 仅基于所述文字数据输出文字;而当应用属于多媒体播放类型时,则可能需 要将文字数据和多媒体数据一起输出。
另外,在应用于多媒体播放类的应用的情况下,根据本申请实施例的语 音处理方法可以用作为正在播放的多媒体的字幕添加工具,也可用作实时翻 译工具。
也就是说,根据本申请实施例的语音处理方法在将语音数据转换为文字 数据时,并不仅限于输出与语音数据同种语言的文字数据,而是还可以输出 跨语种的文字数据。并且,这种实时翻译工具的功能同样可以应用于多媒体 播放类型的应用以外的其它应用,例如,上述即时消息类型的应用、甚至是 电话应用。这样,根据用户的设置,如果用户预先设置输出中文文字,那么 当用户接收到语音信息或者看视频、听演讲时,甚至用户在接听电话时,都 可以看到显示的中文文字。
当然,本领域技术人员可以理解,用户也可以预先设置其它语种的文字 输出。或者,在用户未设置的情况下,系统也可以自动判定语种转换。例如, 在语音数据为两种不同语言的语音数据的情况下,系统可将其翻译为其中一 种的文字并输出。
因此,在根据本申请实施例的语音处理方法中,基于所述文字数据输出 文字可以包括:确定所述文字数据是否是预定语种的文字数据;响应于所述 文字数据不是所述预定语种的文字数据,将所述文字数据转换为所述预定语 种的文字数据;以及,基于所述文字数据输出文字。
图2图示了根据本申请实施例的语音处理方法的系统实现的示意图。如 图2所示,根据本申请实施例的语音处理方法可以在系统层实现,用于处理 来自应用层的各种语音数据。在S210,在系统范围内从各个应用接收传播过 来的语音数据。然后,在S220,判定是否处于语音识别模式(进一步还可以 包括上述的翻译模式)。如果处于语音识别模式,则在S230,将语音转换为 文字,并在S240,在屏幕上显示文字。如果未处于语音识别模式,则在S250, 播放声音。
因此,根据本申请实施例的语音处理方法解决了某些场景下语音交流不 方便的问题,并且基于场景自动工作,不需要手动触发,提升了用户体验。
并且,根据本申请实施例的语音处理方法为系统内所有应用赋予了语音 识别、翻译的能力,提升了系统性能。即,不需要为各个应用做单独开发, 即可使其拥有语音识别、翻译的能力。
第一应用示例
图3图示了根据本申请实施例的语音处理方法的第一应用示例的流程 图。
如图3所示,在S310,获取来自应用的语音数据;在S320,检测语音 识别模式开关是否设置为开启状态;在S330,响应于语音识别模式开关设置 为开启状态,将语音数据转换为文字数据;在S340,输出文字;在S350, 响应于语音识别模式开关未设置为开启状态,进一步检测是否处于特定情境 模式;如果处于特定情境模式,则转到S330,将语音数据转换为文字数据; 如果未处于特定情境模式,则在S360,进一步检测环境噪声是否大于预定阈 值;如果环境噪声大于预定阈值,则转到S330,将语音数据转换为文字数据; 如果环境噪声不大于预定阈值,在S370,播放语音数据。
通过上述第一应用示例,可以避免在用户未将语音识别模式开关设置为 开启状态的情况下,在不适于收听语音的情况下收听语音。此外,通过检测 是否处于特定情境模式和环境噪声的程度,可以避免用户在不便于收听语音 的场合(例如会议中)或者过于嘈杂而听不清语音的场合下收听语音,同时 又可以获得相关信息。
需要说明的是,尽管在上述示例中以一定的顺序执行了一系列的判断步 骤,但是在实践中,本申请的实施例不限于此,可以以任何的串行的或并行 的顺序执行上述判断步骤。
第二应用示例
图4图示了根据本申请实施例的语音处理方法的第二应用示例的流程 图。
如图4所示,在S410,获取来自应用的语音数据;在S420,检测是否 处于语音识别模式;在S430,响应于处于语音识别模式,将语音数据转换为 文字数据;在S440,确定应用的类型;S450,在确定应用是属于多媒体播放 类型的应用的情况,根据该多媒体播放应用的播放参数确定所述应用是否处 于字幕显示模式;在S460,在所述多媒体播放应用处于所述字幕显示模式的 情况下,确定所述文字数据的语种是否为中文;在S470,在所述文字数据的 语种是中文的情况,基于所述文字数据输出文字;而在S480,在所述文字数 据的语种不是中文的情况,将所述文字数据翻译为中文文字,然后,返回S470, 输出文字;另外,在S490,与S470中输出字幕同步地,基于多媒体数据输 出音视频流。
通过上述第二应用示例,可以实现多媒体播放类型的应用的中文字幕添 加功能。无论所播放的多媒体是否是基于中文的,用户都可以看到中文字幕。 因此,这便于用户从各种不同语种的多媒体内容获得信息,也可以应用于用 户通过观看多媒体来学习语言的场合。
示例性装置
图5图示了根据本申请实施例的语音处理装置的框图。
如图5所示,根据本申请实施例的语音处理装置500包括:语音获取单 元510,用于获取来自应用的语音数据;模式判定单元520,用于确定是否 处于语音识别模式;语音转换单元530,用于响应于所述模式判定单元520 判定处于语音识别模式,将所述语音获取单元510获取的语音数据转换为文 字数据;以及文字输出单元540,用于基于所述语音转换单元530转换的文 字数据输出文字。
在一个示例中,在上述语音处理装置500中,进一步包括:语音输出单 元,用于响应于不处于语音识别模式,基于所述语音输出直接输出声音。
在一个示例中,在上述语音处理装置500中,所述模式判定单元520用 于:检测语音识别模式开关的状态;以及,响应于检测到所述语音识别模式 开关被设置为开启状态,确定处于所述语音识别模式。
在一个示例中,在上述语音处理装置500中,所述模式判定单元520用 于:检测是否处于特定情景模式;以及,响应于检测到处于所述特定情景模 式,确定处于所述语音识别模式。
在一个示例中,在上述语音处理装置500中,所述模式判定单元520检 测是否处于特定情景模式包括:检测是否处于静音情景模式和振动情景模式 中的至少一个。
在一个示例中,在上述语音处理装置500中,所述文字输出单元540用 于:确定所述应用的类型;以及,响应于所述应用属于即时消息类型,基于 所述文字数据输出文字。
在一个示例中,在上述语音处理装置500中,所述文字输出单元540进 一步用于:响应于所述应用属于多媒体播放类型,根据所述应用的播放参数 来确定所述应用是否处于字幕显示模式;以及,响应于所述应用处于所述字 幕显示模式,在基于所述文字数据输出文字的同时,基于多媒体数据输出多 媒体,所述多媒体数据包括所述语音数据。
在一个示例中,在上述语音处理装置500中,所述文字输出单元540用 于:确定所述文字数据是否是预定语种的文字数据;响应于所述文字数据不 是所述预定语种的文字数据,将所述文字数据转换为所述预定语种的文字数 据;以及,基于所述文字数据输出文字。
这里,本领域技术人员可以理解,根据本申请实施例的语音处理装置的 其它细节与之前说明的根据本申请实施例的语音处理方法的相应细节完全 相同,为了避免冗余便不再赘述。
示例性电子设备
下面,参考图6来描述根据本申请实施例的电子设备。该电子设备可以 是用于运行应用的终端设备,例如智能手机、平板电脑等。
图6图示了根据本申请实施例的电子设备的框图。
如图6所示,电子设备10包括一个或多个处理器11和存储器12。
处理器6可以是中央处理单元(CPU)或者具有数据处理能力和/或指令 执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件 以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品 可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性 存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速 缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器 (ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多 个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的语音处理方法以及/或者其他期望的功能。在所述计算 机可读存储介质中还可以存储诸如语音识别模式的设置参数,所转换的文字 数据等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14, 这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,该输入装置13可以是用于获取声音数据的麦克风,用于获取图 像数据的摄像头等。此外,该输入设备13还可以包括例如网卡、键盘、鼠标 等等。
该输出装置14可以向外部输出各种信息,包括转换成的文字。该输出 设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接 的远程输出设备等等。
当然,为了简化,图6中仅示出了该电子设备10中与本申请有关的组 件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据 具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品, 其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处 理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例 的语音处理方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编 写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象 的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言, 诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备 上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用 户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务 器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算 机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本 说明书上述“示例性方法”部分中描述的根据本申请各种实施例的语音处理 方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可 读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括 但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者 任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具 有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、 只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、 便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述 的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是, 在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优 点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具 体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限 制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子 并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。 如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、 装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇, 指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词 汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用 的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是 可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方 案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或 者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而 易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范 围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的 原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本 申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和 实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子 组合。
Claims (12)
1.一种语音处理方法,包括:
获取来自应用的语音数据;
确定是否处于语音识别模式;
响应于处于语音识别模式,将所述语音数据转换为文字数据;以及
基于所述文字数据输出文字。
2.如权利要求1所述的语音处理方法,进一步包括:
响应于不处于语音识别模式,基于所述语音数据输出直接输出语音。
3.如权利要求1所述的语音处理方法,其中,确定是否处于语音识别模式包括:
检测语音识别模式开关的状态;以及
响应于检测到所述语音识别模式开关被设置为开启状态,确定处于所述语音识别模式。
4.如权利要求1所述的语音处理方法,其中,确定是否处于语音识别模式包括:
检测是否处于特定情景模式;以及
响应于检测到处于所述特定情景模式,确定处于所述语音识别模式。
5.如权利要求4所述的语音处理方法,其中,检测是否处于特定情景模式包括:
检测是否处于静音情景模式和振动情景模式中的至少一个。
6.如权利要求1所述的语音处理方法,其中,基于所述文字数据输出文字包括:
确定所述应用的类型;以及
响应于所述应用属于即时消息类型,基于所述文字数据输出文字。
7.如权利要求6所述的语音处理方法,进一步包括:
响应于所述应用属于多媒体播放类型,根据所述应用的播放参数来确定所述应用是否处于字幕显示模式;以及
响应于所述应用处于所述字幕显示模式,在基于所述文字数据输出文字的同时,基于多媒体数据输出多媒体,所述多媒体数据包括所述语音数据。
8.如权利要求1所述的语音处理方法,其中,基于所述文字数据输出文字包括:
确定所述文字数据是否是预定语种的文字数据;
响应于所述文字数据不是所述预定语种的文字数据,将所述文字数据转换为所述预定语种的文字数据;以及
基于所述文字数据输出文字。
9.一种语音处理装置,包括:
语音获取单元,用于获取来自应用的语音数据;
模式判定单元,用于确定是否处于语音识别模式;
语音转换单元,用于响应于处于语音识别模式,将所述语音数据转换为文字数据;以及
文字输出单元,用于基于所述文字数据输出文字。
10.如权利要求9所述的语音处理装置,进一步包括:
语音输出单元,用于响应于不处于语音识别模式,基于所述语音数据输出直接输出语音。
11.一种电子设备,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-8中任一项所述的语音处理方法。
12.一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1-8中任一项所述的语音处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810085367.6A CN108281145B (zh) | 2018-01-29 | 2018-01-29 | 语音处理方法、语音处理装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810085367.6A CN108281145B (zh) | 2018-01-29 | 2018-01-29 | 语音处理方法、语音处理装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108281145A true CN108281145A (zh) | 2018-07-13 |
CN108281145B CN108281145B (zh) | 2021-07-02 |
Family
ID=62805449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810085367.6A Active CN108281145B (zh) | 2018-01-29 | 2018-01-29 | 语音处理方法、语音处理装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108281145B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109801627A (zh) * | 2019-01-31 | 2019-05-24 | 冯泽 | 语音类信息处理方法、装置、计算机设备和存储介质 |
Citations (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102045661A (zh) * | 2010-09-29 | 2011-05-04 | 深圳市五巨科技有限公司 | 一种移动终端在线聊天的方法、装置和系统 |
US20120035924A1 (en) * | 2010-08-06 | 2012-02-09 | Google Inc. | Disambiguating input based on context |
CN102903361A (zh) * | 2012-10-15 | 2013-01-30 | Itp创新科技有限公司 | 一种通话即时翻译系统和方法 |
CN103327156A (zh) * | 2013-06-25 | 2013-09-25 | 腾讯科技(深圳)有限公司 | 一种语音文件输出方法及装置 |
CN103888581A (zh) * | 2014-03-28 | 2014-06-25 | 深圳市中兴移动通信有限公司 | 一种通信终端及其记录通话信息的方法 |
CN104023150A (zh) * | 2013-02-28 | 2014-09-03 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN104102629A (zh) * | 2013-04-02 | 2014-10-15 | 三星电子株式会社 | 文本数据处理方法及其电子装置 |
CN104320533A (zh) * | 2014-09-19 | 2015-01-28 | 上海闻泰电子科技有限公司 | 移动设备的通话方法及系统 |
CN104917904A (zh) * | 2014-03-14 | 2015-09-16 | 联想(北京)有限公司 | 一种语音信息处理方法、装置和电子设备 |
US20160050305A1 (en) * | 2014-08-12 | 2016-02-18 | Samsung Electronics Co., Ltd. | Method and user terminal for performing call using voice recognition |
CN105913845A (zh) * | 2016-04-26 | 2016-08-31 | 惠州Tcl移动通信有限公司 | 一种移动终端识别语音生成字幕的方法、系统及移动终端 |
CN106131349A (zh) * | 2016-09-08 | 2016-11-16 | 刘云 | 一种具有自动翻译功能的手机、蓝牙耳机组件 |
CN106156009A (zh) * | 2015-04-13 | 2016-11-23 | 中兴通讯股份有限公司 | 语音翻译方法及装置 |
US9537988B1 (en) * | 2001-10-18 | 2017-01-03 | Iwao Fujisaki | Communication device |
CN106331893A (zh) * | 2016-08-31 | 2017-01-11 | 科大讯飞股份有限公司 | 实时字幕显示方法及系统 |
CN106340294A (zh) * | 2016-09-29 | 2017-01-18 | 安徽声讯信息技术有限公司 | 基于同步翻译的新闻直播字幕在线制作系统 |
US20170084278A1 (en) * | 2015-09-23 | 2017-03-23 | Samsung Electronics Co., Ltd. | Voice recognition apparatus, voice recognition method of user device, and non-transitory computer readable recording medium |
CN106682967A (zh) * | 2017-01-05 | 2017-05-17 | 胡开标 | 在线翻译聊天系统 |
CN106792097A (zh) * | 2016-12-27 | 2017-05-31 | 深圳Tcl数字技术有限公司 | 音频信号字幕匹配方法及装置 |
CN106888392A (zh) * | 2017-02-14 | 2017-06-23 | 广东九联科技股份有限公司 | 一种机顶盒自动翻译系统及方法 |
CN106911836A (zh) * | 2015-12-23 | 2017-06-30 | 北京奇虎科技有限公司 | 音频控制方法及装置 |
CN107071328A (zh) * | 2016-12-16 | 2017-08-18 | 维沃移动通信有限公司 | 一种视频通话处理方法及移动终端 |
CN107112017A (zh) * | 2015-02-16 | 2017-08-29 | 三星电子株式会社 | 操作语音识别功能的电子设备和方法 |
CN107123418A (zh) * | 2017-05-09 | 2017-09-01 | 广东小天才科技有限公司 | 一种语音消息的处理方法及移动终端 |
CN107222792A (zh) * | 2017-07-11 | 2017-09-29 | 成都德芯数字科技股份有限公司 | 一种字幕叠加方法及装置 |
-
2018
- 2018-01-29 CN CN201810085367.6A patent/CN108281145B/zh active Active
Patent Citations (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9537988B1 (en) * | 2001-10-18 | 2017-01-03 | Iwao Fujisaki | Communication device |
US20120035924A1 (en) * | 2010-08-06 | 2012-02-09 | Google Inc. | Disambiguating input based on context |
CN102045661A (zh) * | 2010-09-29 | 2011-05-04 | 深圳市五巨科技有限公司 | 一种移动终端在线聊天的方法、装置和系统 |
CN102903361A (zh) * | 2012-10-15 | 2013-01-30 | Itp创新科技有限公司 | 一种通话即时翻译系统和方法 |
CN104023150A (zh) * | 2013-02-28 | 2014-09-03 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN104102629A (zh) * | 2013-04-02 | 2014-10-15 | 三星电子株式会社 | 文本数据处理方法及其电子装置 |
CN103327156A (zh) * | 2013-06-25 | 2013-09-25 | 腾讯科技(深圳)有限公司 | 一种语音文件输出方法及装置 |
CN104917904A (zh) * | 2014-03-14 | 2015-09-16 | 联想(北京)有限公司 | 一种语音信息处理方法、装置和电子设备 |
CN103888581A (zh) * | 2014-03-28 | 2014-06-25 | 深圳市中兴移动通信有限公司 | 一种通信终端及其记录通话信息的方法 |
US20160050305A1 (en) * | 2014-08-12 | 2016-02-18 | Samsung Electronics Co., Ltd. | Method and user terminal for performing call using voice recognition |
CN104320533A (zh) * | 2014-09-19 | 2015-01-28 | 上海闻泰电子科技有限公司 | 移动设备的通话方法及系统 |
CN107112017A (zh) * | 2015-02-16 | 2017-08-29 | 三星电子株式会社 | 操作语音识别功能的电子设备和方法 |
CN106156009A (zh) * | 2015-04-13 | 2016-11-23 | 中兴通讯股份有限公司 | 语音翻译方法及装置 |
US20170084278A1 (en) * | 2015-09-23 | 2017-03-23 | Samsung Electronics Co., Ltd. | Voice recognition apparatus, voice recognition method of user device, and non-transitory computer readable recording medium |
CN106911836A (zh) * | 2015-12-23 | 2017-06-30 | 北京奇虎科技有限公司 | 音频控制方法及装置 |
CN105913845A (zh) * | 2016-04-26 | 2016-08-31 | 惠州Tcl移动通信有限公司 | 一种移动终端识别语音生成字幕的方法、系统及移动终端 |
CN106331893A (zh) * | 2016-08-31 | 2017-01-11 | 科大讯飞股份有限公司 | 实时字幕显示方法及系统 |
CN106131349A (zh) * | 2016-09-08 | 2016-11-16 | 刘云 | 一种具有自动翻译功能的手机、蓝牙耳机组件 |
CN106340294A (zh) * | 2016-09-29 | 2017-01-18 | 安徽声讯信息技术有限公司 | 基于同步翻译的新闻直播字幕在线制作系统 |
CN107071328A (zh) * | 2016-12-16 | 2017-08-18 | 维沃移动通信有限公司 | 一种视频通话处理方法及移动终端 |
CN106792097A (zh) * | 2016-12-27 | 2017-05-31 | 深圳Tcl数字技术有限公司 | 音频信号字幕匹配方法及装置 |
CN106682967A (zh) * | 2017-01-05 | 2017-05-17 | 胡开标 | 在线翻译聊天系统 |
CN106888392A (zh) * | 2017-02-14 | 2017-06-23 | 广东九联科技股份有限公司 | 一种机顶盒自动翻译系统及方法 |
CN107123418A (zh) * | 2017-05-09 | 2017-09-01 | 广东小天才科技有限公司 | 一种语音消息的处理方法及移动终端 |
CN107222792A (zh) * | 2017-07-11 | 2017-09-29 | 成都德芯数字科技股份有限公司 | 一种字幕叠加方法及装置 |
Non-Patent Citations (1)
Title |
---|
王宏芳: "智能语音客服系统在呼叫中心领域的应用及展望", 《通信企业管理》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109801627A (zh) * | 2019-01-31 | 2019-05-24 | 冯泽 | 语音类信息处理方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108281145B (zh) | 2021-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11997423B1 (en) | Altering undesirable communication data for communication sessions | |
US11227598B2 (en) | Method for controlling terminal by voice, terminal, server and storage medium | |
CN109036405A (zh) | 语音交互方法、装置、设备及存储介质 | |
CN106297801A (zh) | 语音处理方法及装置 | |
CN107589828A (zh) | 基于知识图谱的人机交互方法及系统 | |
CN105264485A (zh) | 在多个设备上提供内容 | |
JP6783339B2 (ja) | 音声を処理する方法及び装置 | |
US11587560B2 (en) | Voice interaction method, device, apparatus and server | |
US11328711B2 (en) | User adaptive conversation apparatus and method based on monitoring of emotional and ethical states | |
WO2017084185A1 (zh) | 基于语义分析的智能终端控制方法、系统及智能终端 | |
CN105827516A (zh) | 消息处理方法和装置 | |
CN107516526A (zh) | 一种声源跟踪定位方法、装置、设备和计算机可读存储介质 | |
CN106847284A (zh) | 电子设备、计算机可读存储介质及语音交互方法 | |
CN108174236A (zh) | 一种媒体文件处理方法、服务器及移动终端 | |
CN109670109A (zh) | 信息获取方法、装置、服务器、终端和介质 | |
CN106792048A (zh) | 一种识别智能电视用户语音命令的方法和装置 | |
CN117253478A (zh) | 一种语音交互方法和相关装置 | |
CN111539217B (zh) | 一种用于自然语言内容标题消歧的方法、设备和系统 | |
CN108281145A (zh) | 语音处理方法、语音处理装置和电子设备 | |
CN109584877B (zh) | 语音交互控制方法和装置 | |
WO2019228140A1 (zh) | 指令执行方法、装置、存储介质及电子设备 | |
CN110058695A (zh) | 绘本互动内容生成方法、编辑器、电子设备及存储介质 | |
US11580974B2 (en) | Method for exiting a voice skill, apparatus, device and storage medium | |
CN111045641B (zh) | 一种电子终端及语音识别方法 | |
CN115019822A (zh) | 攻击音频的检测方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |