CN106297794A

CN106297794A - 一种语音文字的转换方法及设备

Info

Publication number: CN106297794A
Application number: CN201510266912.8A
Authority: CN
Inventors: 吴建明
Original assignee: Xian Zhongxing New Software Co Ltd
Current assignee: Xian Zhongxing New Software Co Ltd
Priority date: 2015-05-22
Filing date: 2015-05-22
Publication date: 2017-01-04
Also published as: WO2016187910A1

Abstract

本发明公开了一种语音文字的转换方法及设备，所述方法包括：利用两个以上麦克风采集一个以上用户的语音信息；对所述各麦克风采集到的语音信息进行分析处理，得到各用户的声源特征参量；根据所述各用户的声源特征参量，对采集到的语音信息进行分类，得到各用户分别对应的语音信息；将所述各用户分别对应的语音信息转化为对应的文字信息。

Description

一种语音文字的转换方法及设备

技术领域

本发明涉及信息转换技术，尤其涉及一种语音文字的转换方法及设备。

背景技术

手机作为智能终端，智能化水平越来越高，人机交互性的需求也越来越强。语音作为人机交互的一种基本媒介，具有无可替代的作用。新一代的语音手机，持有人完全可以通过语音命令控制手机的各种操作，如拨打电话，读写短信，打开应用等，如何深挖语音的潜能必将成为语音产品的一种趋势。

随着手机的录音芯片模数转换器(ADC，Analog-to-Digital Converter)性能的提升，麦克风信噪比的提高，通过合理的设计布局，在手机上也能实现专业录音笔达到的高清录音水平，录音质量得到了保障，配合语音转文字引擎识别率较高，录音转文字完全达到了商业化的程度。

目前手机语音转文字的功能主要简单，只能粗略的将一段语音转化为文字，由于硬件或软件的性能限制，识别率不是很高。无法完成对说话人进行识别，多人同时说话转文字，无法完成分类标识。对一段长录音，如会议录音，课堂演讲，小组讨论等场景的录音，只能转化为一段文字，无条例性，更无法分离语音，完全不符合高质量，高效的设计理念，降低了人机交互性。

并且，目前的手机安装了语音转文字的应用(APP，APPlication)，主要是通过麦克风采集语音后，通过网络上传到云端，通过云端的引擎进行转文字。实际转文字识别率，采集距离短及转化效果一般，用户体验较差。

综上所述，目前手机中语音转文字功能只能解决单一人声的语音文字转化，同时需要连接云端服务器，且识别率不高，无法进行多人同时说话的识别与剔除，且无法进行分类转化。

发明内容

为解决上述技术问题，本发明实施例提供了一种语音文字的转换方法及设备。

本发明实施例提供的语音文字的转换方法包括：

利用两个以上麦克风采集一个以上用户的语音信息；

对所述各麦克风采集到的语音信息进行分析处理，得到各用户的声源特征参量；

根据所述各用户的声源特征参量，对采集到的语音信息进行分类，得到各用户分别对应的语音信息；

将所述各用户分别对应的语音信息转化为对应的文字信息。

在本发明一实施例中，所述对所述各麦克风采集到的语音信息进行分析处理之前，所述方法还包括：

滤除所述各麦克风采集到的语音信息中的背景噪声。

在本发明一实施例中，所述对所述各麦克风采集到的语音信息进行分析处理，得到各用户的声源特征参量，包括：

对所述各麦克风采集到的语音信息进行分析，得到各麦克风接收到并发语音的时间差；

根据所述各麦克风接收到并发语音的时间差，计算得到各用户的声源特征参量。

在本发明一实施例中，所述将所述各用户分别对应的语音信息转化为对应的文字信息之后，所述方法还包括：

分类显示所述各用户分别对应的文字信息。

按照选择的用户标识，分类显示一个或多个用户分别对应的文字信息。

本发明实施例提供的语音文字的转换设备包括：

信息采集单元，用于利用两个以上麦克风采集一个以上用户的语音信息；

语音分析单元，用于对所述各麦克风采集到的语音信息进行分析处理，得到各用户的声源特征参量；根据所述各用户的声源特征参量，对采集到的语音信息进行分类，得到各用户分别对应的语音信息；

语音文字转换单元，用于将所述各用户分别对应的语音信息转化为对应的文字信息。

在本发明一实施例中，，所述设备还包括：

滤噪单元，用于滤除所述各麦克风采集到的语音信息中的背景噪声。

在本发明一实施例中，，所述语音分析单元包括：

分析子单元，用于对所述各麦克风采集到的语音信息进行分析，得到各麦克风接收到并发语音的时间差；

计算子单元，用于根据所述各麦克风接收到并发语音的时间差，计算得到各用户的声源特征参量。

在本发明一实施例中，所述设备还包括：

显示单元，用于分类显示所述各用户分别对应的文字信息。

在本发明一实施例中，所述设备还包括：

显示单元，用于按照选择的用户标识，分类显示一个或多个用户分别对应的文字信息。

本发明实施例的技术方案中，语音文字的转换设备中具有高性能的硬件，包括：N个(N≥2)合理布局的高信噪比的麦克风，形成麦克风阵列；高性能的ADC，高性能的数字信号处理器(DSP，Digital Signal Processing)。设备能够采集到高清的语音信息，在采集语音信息时，通过计算用户的角度、距离等声源特征参量，区分用户说话的内容，当另一人同时说话时，计算另一声源特征参量，以示区别，如此，根据不同的声源特征参量将各用户的语音信息进行分离。在语音转文字时，通过本地的语音引擎，无需连接云端，即可实现将各用户的语音信息分类转换为对应的文字，从而解决了多人同时讲话的场景下根据用户分类将语音转化为对应的文字的问题。

附图说明

图1为本发明实施例的语音文字的转换方法的流程示意图；

图2为本发明实施例的语音采集场景示意图；

图3为本发明实施例的分类的文字转换界面示意图一；

图4为本发明实施例的分类的文字转换界面示意图二；

图5为本发明实施例的分类的文字转换界面示意图三；

图6为本发明实施例的语音文字的转换设备的结构组成示意图。

具体实施方式

为了能够更加详尽地了解本发明实施例的特点与技术内容，下面结合附图对本发明实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本发明实施例。

图1为本发明实施例的语音文字的转换方法的流程示意图，本示例中的语音文字的转换方法应用于语音文字的转换设备，如图1所示，所述语音文字的转换方法包括以下步骤：

步骤101：利用两个以上麦克风采集一个以上用户的语音信息。

本发明实施例中，所述语音文字的转换设备可以是手机、平板电脑、笔记本电脑等电子设备。

本发明实施例中，语音文字的转换设备中具有高性能的硬件，包括：N个(N≥2)合理布局的高信噪比的麦克风，形成麦克风阵列；高性能的ADC，高性能的DSP。

本发明实施例中，当一个以上用户同时向语音文字的转换设备输入语音信息时，语音文字的转换设备中的两个以上麦克风采都启动并采集一个以上用户的语音信息。可见，对于每个麦克风，采集到的语音信息为多个用户混杂在一起的语音信息，本发明示例旨在分离不同用户的语音信息，以分别对各用户的语音信息进行语音文字转化处理。

步骤102：对所述各麦克风采集到的语音信息进行分析处理，得到各用户的声源特征参量。

本发明实施例中，对所述各麦克风采集到的语音信息进行分析处理之前，滤除所述各麦克风采集到的语音信息中的背景噪声。这里，为了消除非人声噪音，对语音信息中的背景噪声进行滤除。

本发明实施例中，对所述各麦克风采集到的语音信息进行分析，得到各麦克风接收到并发语音的时间差；根据所述各麦克风接收到并发语音的时间差，计算得到各用户的声源特征参量。

具体地，并发语音是指相同的语音，例如，用户A说出“你好”的语音，语音文字的转换设备中具有两个麦克风，由于麦克风1和麦克风2的位置不同，因此，麦克风1接收到“你好”语音和麦克风2接收到“你好”语音的时刻不同，具有时间差。这里，麦克风1和麦克风2中的两个“你好”语音为并发语音。假设用户A的位置坐标为(x1，y1)，已知麦克风1和麦克风2的位置以及分析出来的并发语音的时间差，可计算得到用户A的位置，进而确定出声源特征参量。这里，声源特征参量可以是用户相对于麦克风的角度、距离等参数，可用用户的位置坐标表征这些参数。同理，用户B说出“漂亮”的语音，语音文字的转换设备中具有两个麦克风，由于麦克风1和麦克风2的位置不同，因此，麦克风1接收到“漂亮”语音和麦克风2接收到“漂亮”语音的时刻不同，具有时间差。这里，麦克风1和麦克风2中的两个“漂亮”语音为并发语音。假设用户B的位置坐标为(x2，y2)，已知麦克风1和麦克风2的位置以及分析出来的并发语音的时间差，可计算得到用户B的位置，进而确定出声源特征参量。

步骤103：根据所述各用户的声源特征参量，对采集到的语音信息进行分类，得到各用户分别对应的语音信息。

本发明实施例中，不同的用户的地理位置不同，因此不同用户的声源特征参量不同，因此，可以根据声源特征参量对混杂的多个用户的语音信息进行分类，从而得到不同用户所对应的语音信息。

步骤104：将所述各用户分别对应的语音信息转化为对应的文字信息。

本发明实施例中，可通过本地的语音引擎将各用户分别对应的语音信息转化为对应的文字信息。

本发明实施例中，将所述各用户分别对应的语音信息转化为对应的文字信息之后，分类显示所述各用户分别对应的文字信息。这里，可以按不同用户的发言时间，分别识别出各用户语音对应的文字信息，为当前显示的文字信息设置用户标识，实现分别显示的目的。

或者，按照选择的用户标识，分类显示一个或多个用户分别对应的文字信息。这里，直接按用户标识对语音识别的文字分别进行显示。即每个用户标识之后对应着对其语音识别的所有文字信息。

本发明实施例的技术方案在语音转文字时，通过语音引擎，无需连接云端，即可实现将各用户的语音信息分类转换为对应的文字，从而解决了多人同时讲话的场景下根据用户分类将语音转化为对应的文字的问题。

下面结合具体应用场景对本发明实施例的语音文字的转换方法做进一步阐述。

参照图2，多人会议场景，三人或三人以上，以A、B、C三人为例说明，采用本发明实施例提供的语音文字的转换方法的语音文字转换设备设备(如手机)包含麦克风1与麦克风2，当A、B两人交替讨论，或A、B、C三人交替发言。利用本发明实施例的语音文字的转换设备，将采集到的语音信息依次分析处理，得到各用户的声源特征参量；根据各用户的声源特征参量，对采集到的语音信息进行分类，得到各用户分别对应的语音信息；再将各用户分别对应的语音信息转化为对应的文字信息。该设备可以分别将A、B、C三人的语音及文字进行分离及文字分类进行显示，用户可以选择生成A、或B、或C的语音及文字。形成图3所示的分类处理文字结果。

参照图2，会议演讲场景或者主题发言场景，如A作为主讲人，当转文字需要将A作为主讲人，B、C的声音进行抑制时，利用本发明实施例的技术方案可以只保留主讲人A的声音，只将A的声音转化为文字，剔出B、C的声音。形成图4所示的分类处理文字结果。

参照图2，会议提问互动环节，如A作为主讲人，发言时可能需要与其他成员进行一个互动，此时可以将主讲人A和提问人B的互动情况，按照时间先后顺序进行语音采集和文字转换。形成图5所示的分类处理文字结果。

图6为本发明实施例的语音文字的转换设备的结构组成示意图，如图6所示，所述设备包括：

信息采集单元61，用于利用两个以上麦克风采集一个以上用户的语音信息；

语音分析单元62，用于对所述各麦克风采集到的语音信息进行分析处理，得到各用户的声源特征参量；根据所述各用户的声源特征参量，对采集到的语音信息进行分类，得到各用户分别对应的语音信息；

语音文字转换单元63，用于将所述各用户分别对应的语音信息转化为对应的文字信息。

在本发明实施例中，所述设备还包括：

滤噪单元64，用于滤除所述各麦克风采集到的语音信息中的背景噪声。

在本发明实施例中，所述语音分析单元62包括：

分析子单元621，用于对所述各麦克风采集到的语音信息进行分析，得到各麦克风接收到并发语音的时间差；

计算子单元622，用于根据所述各麦克风接收到并发语音的时间差，计算得到各用户的声源特征参量；

分类子单元623，用于根据所述各用户的声源特征参量，对采集到的语音信息进行分类，得到各用户分别对应的语音信息。

在本发明实施例中，所述设备还包括：

显示单元65，用于分类显示所述各用户分别对应的文字信息。

所述显示单元65，还用于按照选择的用户标识，分类显示一个或多个用户分别对应的文字信息。

本领域技术人员应当理解，图6所示的语音文字的转换设备中的各单元及其子单元的实现功能可参照前述语音文字的转换方法的相关描述而理解。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音文字的转换方法，其特征在于，所述方法包括：

利用两个以上麦克风采集一个以上用户的语音信息；

将所述各用户分别对应的语音信息转化为对应的文字信息。

2.根据权利要求1所述的语音文字的转换方法，其特征在于，所述对所述各麦克风采集到的语音信息进行分析处理之前，所述方法还包括：

滤除所述各麦克风采集到的语音信息中的背景噪声。

3.根据权利要求1所述的语音文字的转换方法，其特征在于，所述对所述各麦克风采集到的语音信息进行分析处理，得到各用户的声源特征参量，包括：

4.根据权利要求1至3任一项所述的语音文字的转换方法，其特征在于，所述将所述各用户分别对应的语音信息转化为对应的文字信息之后，所述方法还包括：

分类显示所述各用户分别对应的文字信息。

5.根据权利要求1至3任一项所述的语音文字的转换方法，其特征在于，所述将所述各用户分别对应的语音信息转化为对应的文字信息之后，所述方法还包括：

6.一种语音文字的转换设备，其特征在于，所述设备包括：

7.根据权利要求6所述的语音文字的转换设备，其特征在于，所述设备还包括：

8.根据权利要求6所述的语音文字的转换设备，其特征在于，所述语音分析单元包括：

9.根据权利要求6至8任一项所述的语音文字的转换设备，其特征在于，所述设备还包括：

显示单元，用于分类显示所述各用户分别对应的文字信息。

10.根据权利要求6至8任一项所述的语音文字的转换设备，其特征在于，所述设备还包括：