CN106297794A - 一种语音文字的转换方法及设备 - Google Patents

一种语音文字的转换方法及设备 Download PDF

Info

Publication number
CN106297794A
CN106297794A CN201510266912.8A CN201510266912A CN106297794A CN 106297794 A CN106297794 A CN 106297794A CN 201510266912 A CN201510266912 A CN 201510266912A CN 106297794 A CN106297794 A CN 106297794A
Authority
CN
China
Prior art keywords
user
voice messaging
mike
language
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510266912.8A
Other languages
English (en)
Inventor
吴建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Zhongxing New Software Co Ltd
Original Assignee
Xian Zhongxing New Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Zhongxing New Software Co Ltd filed Critical Xian Zhongxing New Software Co Ltd
Priority to CN201510266912.8A priority Critical patent/CN106297794A/zh
Priority to PCT/CN2015/081688 priority patent/WO2016187910A1/zh
Publication of CN106297794A publication Critical patent/CN106297794A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种语音文字的转换方法及设备,所述方法包括:利用两个以上麦克风采集一个以上用户的语音信息;对所述各麦克风采集到的语音信息进行分析处理,得到各用户的声源特征参量;根据所述各用户的声源特征参量,对采集到的语音信息进行分类,得到各用户分别对应的语音信息;将所述各用户分别对应的语音信息转化为对应的文字信息。

Description

一种语音文字的转换方法及设备
技术领域
本发明涉及信息转换技术,尤其涉及一种语音文字的转换方法及设备。
背景技术
手机作为智能终端,智能化水平越来越高,人机交互性的需求也越来越强。语音作为人机交互的一种基本媒介,具有无可替代的作用。新一代的语音手机,持有人完全可以通过语音命令控制手机的各种操作,如拨打电话,读写短信,打开应用等,如何深挖语音的潜能必将成为语音产品的一种趋势。
随着手机的录音芯片模数转换器(ADC,Analog-to-Digital Converter)性能的提升,麦克风信噪比的提高,通过合理的设计布局,在手机上也能实现专业录音笔达到的高清录音水平,录音质量得到了保障,配合语音转文字引擎识别率较高,录音转文字完全达到了商业化的程度。
目前手机语音转文字的功能主要简单,只能粗略的将一段语音转化为文字,由于硬件或软件的性能限制,识别率不是很高。无法完成对说话人进行识别,多人同时说话转文字,无法完成分类标识。对一段长录音,如会议录音,课堂演讲,小组讨论等场景的录音,只能转化为一段文字,无条例性,更无法分离语音,完全不符合高质量,高效的设计理念,降低了人机交互性。
并且,目前的手机安装了语音转文字的应用(APP,APPlication),主要是通过麦克风采集语音后,通过网络上传到云端,通过云端的引擎进行转文字。实际转文字识别率,采集距离短及转化效果一般,用户体验较差。
综上所述,目前手机中语音转文字功能只能解决单一人声的语音文字转化,同时需要连接云端服务器,且识别率不高,无法进行多人同时说话的识别与剔除,且无法进行分类转化。
发明内容
为解决上述技术问题,本发明实施例提供了一种语音文字的转换方法及设备。
本发明实施例提供的语音文字的转换方法包括:
利用两个以上麦克风采集一个以上用户的语音信息;
对所述各麦克风采集到的语音信息进行分析处理,得到各用户的声源特征参量;
根据所述各用户的声源特征参量,对采集到的语音信息进行分类,得到各用户分别对应的语音信息;
将所述各用户分别对应的语音信息转化为对应的文字信息。
在本发明一实施例中,所述对所述各麦克风采集到的语音信息进行分析处理之前,所述方法还包括:
滤除所述各麦克风采集到的语音信息中的背景噪声。
在本发明一实施例中,所述对所述各麦克风采集到的语音信息进行分析处理,得到各用户的声源特征参量,包括:
对所述各麦克风采集到的语音信息进行分析,得到各麦克风接收到并发语音的时间差;
根据所述各麦克风接收到并发语音的时间差,计算得到各用户的声源特征参量。
在本发明一实施例中,所述将所述各用户分别对应的语音信息转化为对应的文字信息之后,所述方法还包括:
分类显示所述各用户分别对应的文字信息。
在本发明一实施例中,所述将所述各用户分别对应的语音信息转化为对应的文字信息之后,所述方法还包括:
按照选择的用户标识,分类显示一个或多个用户分别对应的文字信息。
本发明实施例提供的语音文字的转换设备包括:
信息采集单元,用于利用两个以上麦克风采集一个以上用户的语音信息;
语音分析单元,用于对所述各麦克风采集到的语音信息进行分析处理,得到各用户的声源特征参量;根据所述各用户的声源特征参量,对采集到的语音信息进行分类,得到各用户分别对应的语音信息;
语音文字转换单元,用于将所述各用户分别对应的语音信息转化为对应的文字信息。
在本发明一实施例中,,所述设备还包括:
滤噪单元,用于滤除所述各麦克风采集到的语音信息中的背景噪声。
在本发明一实施例中,,所述语音分析单元包括:
分析子单元,用于对所述各麦克风采集到的语音信息进行分析,得到各麦克风接收到并发语音的时间差;
计算子单元,用于根据所述各麦克风接收到并发语音的时间差,计算得到各用户的声源特征参量。
在本发明一实施例中,所述设备还包括:
显示单元,用于分类显示所述各用户分别对应的文字信息。
在本发明一实施例中,所述设备还包括:
显示单元,用于按照选择的用户标识,分类显示一个或多个用户分别对应的文字信息。
本发明实施例的技术方案中,语音文字的转换设备中具有高性能的硬件,包括:N个(N≥2)合理布局的高信噪比的麦克风,形成麦克风阵列;高性能的ADC,高性能的数字信号处理器(DSP,Digital Signal Processing)。设备能够采集到高清的语音信息,在采集语音信息时,通过计算用户的角度、距离等声源特征参量,区分用户说话的内容,当另一人同时说话时,计算另一声源特征参量,以示区别,如此,根据不同的声源特征参量将各用户的语音信息进行分离。在语音转文字时,通过本地的语音引擎,无需连接云端,即可实现将各用户的语音信息分类转换为对应的文字,从而解决了多人同时讲话的场景下根据用户分类将语音转化为对应的文字的问题。
附图说明
图1为本发明实施例的语音文字的转换方法的流程示意图;
图2为本发明实施例的语音采集场景示意图;
图3为本发明实施例的分类的文字转换界面示意图一;
图4为本发明实施例的分类的文字转换界面示意图二;
图5为本发明实施例的分类的文字转换界面示意图三;
图6为本发明实施例的语音文字的转换设备的结构组成示意图。
具体实施方式
为了能够更加详尽地了解本发明实施例的特点与技术内容,下面结合附图对本发明实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明实施例。
图1为本发明实施例的语音文字的转换方法的流程示意图,本示例中的语音文字的转换方法应用于语音文字的转换设备,如图1所示,所述语音文字的转换方法包括以下步骤:
步骤101:利用两个以上麦克风采集一个以上用户的语音信息。
本发明实施例中,所述语音文字的转换设备可以是手机、平板电脑、笔记本电脑等电子设备。
本发明实施例中,语音文字的转换设备中具有高性能的硬件,包括:N个(N≥2)合理布局的高信噪比的麦克风,形成麦克风阵列;高性能的ADC,高性能的DSP。
本发明实施例中,当一个以上用户同时向语音文字的转换设备输入语音信息时,语音文字的转换设备中的两个以上麦克风采都启动并采集一个以上用户的语音信息。可见,对于每个麦克风,采集到的语音信息为多个用户混杂在一起的语音信息,本发明示例旨在分离不同用户的语音信息,以分别对各用户的语音信息进行语音文字转化处理。
步骤102:对所述各麦克风采集到的语音信息进行分析处理,得到各用户的声源特征参量。
本发明实施例中,对所述各麦克风采集到的语音信息进行分析处理之前,滤除所述各麦克风采集到的语音信息中的背景噪声。这里,为了消除非人声噪音,对语音信息中的背景噪声进行滤除。
本发明实施例中,对所述各麦克风采集到的语音信息进行分析,得到各麦克风接收到并发语音的时间差;根据所述各麦克风接收到并发语音的时间差,计算得到各用户的声源特征参量。
具体地,并发语音是指相同的语音,例如,用户A说出“你好”的语音,语音文字的转换设备中具有两个麦克风,由于麦克风1和麦克风2的位置不同,因此,麦克风1接收到“你好”语音和麦克风2接收到“你好”语音的时刻不同,具有时间差。这里,麦克风1和麦克风2中的两个“你好”语音为并发语音。假设用户A的位置坐标为(x1,y1),已知麦克风1和麦克风2的位置以及分析出来的并发语音的时间差,可计算得到用户A的位置,进而确定出声源特征参量。这里,声源特征参量可以是用户相对于麦克风的角度、距离等参数,可用用户的位置坐标表征这些参数。同理,用户B说出“漂亮”的语音,语音文字的转换设备中具有两个麦克风,由于麦克风1和麦克风2的位置不同,因此,麦克风1接收到“漂亮”语音和麦克风2接收到“漂亮”语音的时刻不同,具有时间差。这里,麦克风1和麦克风2中的两个“漂亮”语音为并发语音。假设用户B的位置坐标为(x2,y2),已知麦克风1和麦克风2的位置以及分析出来的并发语音的时间差,可计算得到用户B的位置,进而确定出声源特征参量。
步骤103:根据所述各用户的声源特征参量,对采集到的语音信息进行分类,得到各用户分别对应的语音信息。
本发明实施例中,不同的用户的地理位置不同,因此不同用户的声源特征参量不同,因此,可以根据声源特征参量对混杂的多个用户的语音信息进行分类,从而得到不同用户所对应的语音信息。
步骤104:将所述各用户分别对应的语音信息转化为对应的文字信息。
本发明实施例中,可通过本地的语音引擎将各用户分别对应的语音信息转化为对应的文字信息。
本发明实施例中,将所述各用户分别对应的语音信息转化为对应的文字信息之后,分类显示所述各用户分别对应的文字信息。这里,可以按不同用户的发言时间,分别识别出各用户语音对应的文字信息,为当前显示的文字信息设置用户标识,实现分别显示的目的。
或者,按照选择的用户标识,分类显示一个或多个用户分别对应的文字信息。这里,直接按用户标识对语音识别的文字分别进行显示。即每个用户标识之后对应着对其语音识别的所有文字信息。
本发明实施例的技术方案在语音转文字时,通过语音引擎,无需连接云端,即可实现将各用户的语音信息分类转换为对应的文字,从而解决了多人同时讲话的场景下根据用户分类将语音转化为对应的文字的问题。
下面结合具体应用场景对本发明实施例的语音文字的转换方法做进一步阐述。
参照图2,多人会议场景,三人或三人以上,以A、B、C三人为例说明,采用本发明实施例提供的语音文字的转换方法的语音文字转换设备设备(如手机)包含麦克风1与麦克风2,当A、B两人交替讨论,或A、B、C三人交替发言。利用本发明实施例的语音文字的转换设备,将采集到的语音信息依次分析处理,得到各用户的声源特征参量;根据各用户的声源特征参量,对采集到的语音信息进行分类,得到各用户分别对应的语音信息;再将各用户分别对应的语音信息转化为对应的文字信息。该设备可以分别将A、B、C三人的语音及文字进行分离及文字分类进行显示,用户可以选择生成A、或B、或C的语音及文字。形成图3所示的分类处理文字结果。
参照图2,会议演讲场景或者主题发言场景,如A作为主讲人,当转文字需要将A作为主讲人,B、C的声音进行抑制时,利用本发明实施例的技术方案可以只保留主讲人A的声音,只将A的声音转化为文字,剔出B、C的声音。形成图4所示的分类处理文字结果。
参照图2,会议提问互动环节,如A作为主讲人,发言时可能需要与其他成员进行一个互动,此时可以将主讲人A和提问人B的互动情况,按照时间先后顺序进行语音采集和文字转换。形成图5所示的分类处理文字结果。
图6为本发明实施例的语音文字的转换设备的结构组成示意图,如图6所示,所述设备包括:
信息采集单元61,用于利用两个以上麦克风采集一个以上用户的语音信息;
语音分析单元62,用于对所述各麦克风采集到的语音信息进行分析处理,得到各用户的声源特征参量;根据所述各用户的声源特征参量,对采集到的语音信息进行分类,得到各用户分别对应的语音信息;
语音文字转换单元63,用于将所述各用户分别对应的语音信息转化为对应的文字信息。
在本发明实施例中,所述设备还包括:
滤噪单元64,用于滤除所述各麦克风采集到的语音信息中的背景噪声。
在本发明实施例中,所述语音分析单元62包括:
分析子单元621,用于对所述各麦克风采集到的语音信息进行分析,得到各麦克风接收到并发语音的时间差;
计算子单元622,用于根据所述各麦克风接收到并发语音的时间差,计算得到各用户的声源特征参量;
分类子单元623,用于根据所述各用户的声源特征参量,对采集到的语音信息进行分类,得到各用户分别对应的语音信息。
在本发明实施例中,所述设备还包括:
显示单元65,用于分类显示所述各用户分别对应的文字信息。
所述显示单元65,还用于按照选择的用户标识,分类显示一个或多个用户分别对应的文字信息。
本领域技术人员应当理解,图6所示的语音文字的转换设备中的各单元及其子单元的实现功能可参照前述语音文字的转换方法的相关描述而理解。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种语音文字的转换方法,其特征在于,所述方法包括:
利用两个以上麦克风采集一个以上用户的语音信息;
对所述各麦克风采集到的语音信息进行分析处理,得到各用户的声源特征参量;
根据所述各用户的声源特征参量,对采集到的语音信息进行分类,得到各用户分别对应的语音信息;
将所述各用户分别对应的语音信息转化为对应的文字信息。
2.根据权利要求1所述的语音文字的转换方法,其特征在于,所述对所述各麦克风采集到的语音信息进行分析处理之前,所述方法还包括:
滤除所述各麦克风采集到的语音信息中的背景噪声。
3.根据权利要求1所述的语音文字的转换方法,其特征在于,所述对所述各麦克风采集到的语音信息进行分析处理,得到各用户的声源特征参量,包括:
对所述各麦克风采集到的语音信息进行分析,得到各麦克风接收到并发语音的时间差;
根据所述各麦克风接收到并发语音的时间差,计算得到各用户的声源特征参量。
4.根据权利要求1至3任一项所述的语音文字的转换方法,其特征在于,所述将所述各用户分别对应的语音信息转化为对应的文字信息之后,所述方法还包括:
分类显示所述各用户分别对应的文字信息。
5.根据权利要求1至3任一项所述的语音文字的转换方法,其特征在于,所述将所述各用户分别对应的语音信息转化为对应的文字信息之后,所述方法还包括:
按照选择的用户标识,分类显示一个或多个用户分别对应的文字信息。
6.一种语音文字的转换设备,其特征在于,所述设备包括:
信息采集单元,用于利用两个以上麦克风采集一个以上用户的语音信息;
语音分析单元,用于对所述各麦克风采集到的语音信息进行分析处理,得到各用户的声源特征参量;根据所述各用户的声源特征参量,对采集到的语音信息进行分类,得到各用户分别对应的语音信息;
语音文字转换单元,用于将所述各用户分别对应的语音信息转化为对应的文字信息。
7.根据权利要求6所述的语音文字的转换设备,其特征在于,所述设备还包括:
滤噪单元,用于滤除所述各麦克风采集到的语音信息中的背景噪声。
8.根据权利要求6所述的语音文字的转换设备,其特征在于,所述语音分析单元包括:
分析子单元,用于对所述各麦克风采集到的语音信息进行分析,得到各麦克风接收到并发语音的时间差;
计算子单元,用于根据所述各麦克风接收到并发语音的时间差,计算得到各用户的声源特征参量。
9.根据权利要求6至8任一项所述的语音文字的转换设备,其特征在于,所述设备还包括:
显示单元,用于分类显示所述各用户分别对应的文字信息。
10.根据权利要求6至8任一项所述的语音文字的转换设备,其特征在于,所述设备还包括:
显示单元,用于按照选择的用户标识,分类显示一个或多个用户分别对应的文字信息。
CN201510266912.8A 2015-05-22 2015-05-22 一种语音文字的转换方法及设备 Pending CN106297794A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510266912.8A CN106297794A (zh) 2015-05-22 2015-05-22 一种语音文字的转换方法及设备
PCT/CN2015/081688 WO2016187910A1 (zh) 2015-05-22 2015-06-17 一种语音文字的转换方法及设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510266912.8A CN106297794A (zh) 2015-05-22 2015-05-22 一种语音文字的转换方法及设备

Publications (1)

Publication Number Publication Date
CN106297794A true CN106297794A (zh) 2017-01-04

Family

ID=57392481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510266912.8A Pending CN106297794A (zh) 2015-05-22 2015-05-22 一种语音文字的转换方法及设备

Country Status (2)

Country Link
CN (1) CN106297794A (zh)
WO (1) WO2016187910A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107527623A (zh) * 2017-08-07 2017-12-29 广州视源电子科技股份有限公司 传屏方法、装置、电子设备及计算机可读存储介质
CN107910006A (zh) * 2017-12-06 2018-04-13 广州宝镜智能科技有限公司 语音识别方法、装置和多信源语音区分识别系统
CN108053828A (zh) * 2017-12-25 2018-05-18 无锡小天鹅股份有限公司 确定控制指令的方法、装置和家用电器
CN108847225A (zh) * 2018-06-04 2018-11-20 上海木木机器人技术有限公司 一种机场多人语音服务的机器人及其方法
CN110648665A (zh) * 2019-09-09 2020-01-03 北京左医科技有限公司 一种会话过程记录系统及方法
CN110875056A (zh) * 2018-08-30 2020-03-10 阿里巴巴集团控股有限公司 语音转录设备、系统、方法、及电子设备
CN110941737A (zh) * 2019-12-06 2020-03-31 广州国音智能科技有限公司 单机语音存储方法、装置、设备及可读存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106653042A (zh) * 2016-12-13 2017-05-10 安徽声讯信息技术有限公司 一种具有语音速记转写功能的智能手机

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009104332A1 (ja) * 2008-02-19 2009-08-27 日本電気株式会社 発話分割システム、発話分割方法および発話分割プログラム
JP2011165056A (ja) * 2010-02-12 2011-08-25 Nec Casio Mobile Communications Ltd 情報処理装置及びプログラム
CN102509548A (zh) * 2011-10-09 2012-06-20 清华大学 一种基于多距离声传感器的音频索引方法
CN102592596A (zh) * 2011-01-12 2012-07-18 鸿富锦精密工业(深圳)有限公司 语音文字转换装置及方法
JP2014021315A (ja) * 2012-07-19 2014-02-03 Nippon Telegr & Teleph Corp <Ntt> 音源分離定位装置、方法、及びプログラム
CN104103274A (zh) * 2013-04-11 2014-10-15 纬创资通股份有限公司 语音处理装置和语音处理方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6879952B2 (en) * 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
CN1815556A (zh) * 2005-02-01 2006-08-09 松下电器产业株式会社 可利用语音命令操控车辆的方法及系统
US8249867B2 (en) * 2007-12-11 2012-08-21 Electronics And Telecommunications Research Institute Microphone array based speech recognition system and target speech extracting method of the system
KR101178801B1 (ko) * 2008-12-09 2012-08-31 한국전자통신연구원 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법
JP2011107603A (ja) * 2009-11-20 2011-06-02 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
CN101882370A (zh) * 2010-06-30 2010-11-10 中山大学 一种语音识别遥控器
CN104464750B (zh) * 2014-10-24 2017-07-07 东南大学 一种基于双耳声源定位的语音分离方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009104332A1 (ja) * 2008-02-19 2009-08-27 日本電気株式会社 発話分割システム、発話分割方法および発話分割プログラム
JP2011165056A (ja) * 2010-02-12 2011-08-25 Nec Casio Mobile Communications Ltd 情報処理装置及びプログラム
CN102592596A (zh) * 2011-01-12 2012-07-18 鸿富锦精密工业(深圳)有限公司 语音文字转换装置及方法
CN102509548A (zh) * 2011-10-09 2012-06-20 清华大学 一种基于多距离声传感器的音频索引方法
JP2014021315A (ja) * 2012-07-19 2014-02-03 Nippon Telegr & Teleph Corp <Ntt> 音源分離定位装置、方法、及びプログラム
CN104103274A (zh) * 2013-04-11 2014-10-15 纬创资通股份有限公司 语音处理装置和语音处理方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107527623A (zh) * 2017-08-07 2017-12-29 广州视源电子科技股份有限公司 传屏方法、装置、电子设备及计算机可读存储介质
CN107910006A (zh) * 2017-12-06 2018-04-13 广州宝镜智能科技有限公司 语音识别方法、装置和多信源语音区分识别系统
CN108053828A (zh) * 2017-12-25 2018-05-18 无锡小天鹅股份有限公司 确定控制指令的方法、装置和家用电器
CN108847225A (zh) * 2018-06-04 2018-11-20 上海木木机器人技术有限公司 一种机场多人语音服务的机器人及其方法
CN108847225B (zh) * 2018-06-04 2021-01-12 上海智蕙林医疗科技有限公司 一种机场多人语音服务的机器人及其方法
CN110875056A (zh) * 2018-08-30 2020-03-10 阿里巴巴集团控股有限公司 语音转录设备、系统、方法、及电子设备
CN110875056B (zh) * 2018-08-30 2024-04-02 阿里巴巴集团控股有限公司 语音转录设备、系统、方法、及电子设备
CN110648665A (zh) * 2019-09-09 2020-01-03 北京左医科技有限公司 一种会话过程记录系统及方法
CN110941737A (zh) * 2019-12-06 2020-03-31 广州国音智能科技有限公司 单机语音存储方法、装置、设备及可读存储介质
CN110941737B (zh) * 2019-12-06 2023-01-20 广州国音智能科技有限公司 单机语音存储方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
WO2016187910A1 (zh) 2016-12-01

Similar Documents

Publication Publication Date Title
CN106297794A (zh) 一种语音文字的转换方法及设备
TWI711967B (zh) 播報語音的確定方法、裝置和設備
CN103456314B (zh) 一种情感识别方法以及装置
CN109637548A (zh) 基于声纹识别的语音交互方法及装置
CN105391730B (zh) 一种信息反馈方法、装置及系统
WO2020238209A1 (zh) 音频处理的方法、系统及相关设备
CN110491383A (zh) 一种语音交互方法、装置、系统、存储介质及处理器
US20110270601A1 (en) Universal translator
CN109256133A (zh) 一种语音交互方法、装置、设备及存储介质
Ogunfunmi et al. Speech and audio processing for coding, enhancement and recognition
CN109710949A (zh) 一种翻译方法及翻译机
CN105118522A (zh) 噪声检测方法及装置
CN106155640A (zh) 一种音量显示方法及装置
CN108460120A (zh) 数据保存方法、装置、终端设备及存储介质
CN101867742A (zh) 一种基于声控控制下的电视系统
CN103886860A (zh) 一种信息处理方法和电子设备
CN106023990A (zh) 一种基于投影设备的语音控制方法及装置
CN110069605A (zh) 一种带流程的电话机器人主动问询系统
CN109215659A (zh) 语音数据的处理方法、装置和系统
CN106953962A (zh) 一种通话录音方法及装置
CN109478405A (zh) 信息处理设备、信息处理方法以及程序
CN104064184A (zh) 异构解码网络的构建方法及系统、语音识别方法及系统
CN107506407B (zh) 一种文件分类、调用的方法及装置
CN107180629B (zh) 一种语音采集识别方法与系统
CN110232919A (zh) 实时语音流提取与语音识别系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170104

WD01 Invention patent application deemed withdrawn after publication