CN108630193A - 语音识别方法及装置 - Google Patents

语音识别方法及装置 Download PDF

Info

Publication number
CN108630193A
CN108630193A CN201710170345.5A CN201710170345A CN108630193A CN 108630193 A CN108630193 A CN 108630193A CN 201710170345 A CN201710170345 A CN 201710170345A CN 108630193 A CN108630193 A CN 108630193A
Authority
CN
China
Prior art keywords
voice
subfile
information
independent
conversant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710170345.5A
Other languages
English (en)
Other versions
CN108630193B (zh
Inventor
贺利强
李晓辉
万广鲁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201710170345.5A priority Critical patent/CN108630193B/zh
Priority to PCT/CN2017/114415 priority patent/WO2018171257A1/en
Priority to CN201780029259.0A priority patent/CN109074803B/zh
Priority to EP17901703.3A priority patent/EP3568850A4/en
Publication of CN108630193A publication Critical patent/CN108630193A/zh
Priority to US16/542,325 priority patent/US20190371295A1/en
Application granted granted Critical
Publication of CN108630193B publication Critical patent/CN108630193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

本申请实施例提供一种语音识别方法及装置,涉及信息处理技术领域,该方法包括:获取多通道语音文件;将多通道语音文件分离为每个对话人的独立语音子文件;获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息;将每个独立语音子文件识别为文本;生成多通道语音文件的特征信息,该特征信息包括多通道语音文件对应的每个独立语音子文件的文本信息、每个独立语音子文件的起始时间信息和终止时间信息、每个独立语音子文件的排序信息及每个独立语音子文件的对话人标识信息。因此可以从多通道语音文件中分离出每个对话人的文本信息、各文本信息对应的时序信息和角色信息,将这些信息作为机器学习的训练数据,从而提高机器学习的性能。

Description

语音识别方法及装置
技术领域
本申请实施例涉及信息处理技术领域,特别涉及一种语音识别方法及装置。
背景技术
随着信息技术的不断发展,语音识别技术也得到了快速地发展,目前,语音识别技术被广泛地应用于人们的日常生活中,用户可以通过在电子设备中输入语音的方式,实现一些需求,例如在智能手机中输入语音,来发布打车需求。
考虑到用户在电子设备中输入的语音通常包含丰富的内容,因此可以作为机器学习的样本数据进行训练,生成语音模型。但是,现有技术中,仅利用语音的文本信息进行训练,导致机器学习的性能较低。
发明内容
为了解决上述问题,本申请实施例提供了一种语音识别方法及装置。
具体地,本申请实施例是通过如下技术方案实现的:
根据本申请实施例的第一方面,提供一种语音识别方法,所述方法包括:
获取多通道语音文件,其中,所述多通道语音文件包含多个对话人进行对话的语音数据;
将所述多通道语音文件分离为每个对话人的独立语音子文件;
获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息;
将所述每个独立语音子文件识别为文本;
生成所述多通道语音文件的特征信息,其中,所述特征信息包括:所述多通道语音文件对应的所述每个独立语音子文件的文本信息、所述每个独立语音子文件的起始时间信息、所述每个独立语音子文件的终止时间信息、所述每个独立语音子文件的排序信息及所述每个独立语音子文件的对话人标识信息。
本申请实施例中,所述排序信息通过以下方式得到:
根据所述每个独立语音子文件的起始时间信息对所述每个独立语音子文件的文本进行排序后得到所述文本排序信息。
本申请实施例中,所述多通道语音文件的特征信息用于机器学习。
本申请实施例中,所述将所述多通道语音文件分离为每个对话人的独立语音子文件,包括:
使用语音端点检测算法,除去所述多通道语音文件中的静音和噪声部分,得到语音除噪结果{S1,S2,…Sn},其中,Si包括第i个有效语音文件及所述第i个有效语音文件的起始时间信息及终止时间信息,i≤n;
使用语音通道分离算法,对所述语音除噪结果{S1,S2,…Sn}进行处理,得到语音通道分离结果{A1,A2,…,Am},其中,Aj包括所述多个对话人中的第j个对话人的独立语音子文件及所述第j个对话人的独立语音子文件的起始时间信息和终止时间信息,j≤m。
本申请实施例中,所述将所述多通道语音文件分离为每个对话人的独立语音子文件,包括:
使用语音通道分离算法,对所述多通道语音文件进行处理,得到语音通道分离结果{T1,T2,…Tq},其中,Ti包括所述多个对话人中的第i个对话人的独立语音子文件及所述第i个对话人的独立语音子文件的起始时间信息和终止时间信息,i≤q;
使用语音端点检测算法,对所述语音通道分离结果{T1,T2,…Tp}进行处理,得到语音除噪结果{B1,B2,…,Bq},其中,Bq包括所述多个对话人中的第j个对话人的经过除噪处理后的独立语音子文件及所述第j个对话人的经过除噪处理后的独立语音子文件的起始时间信息和终止时间信息,j≤q。
根据本申请实施例的第二方面,提供一种语音识别装置,所述装置包括:
语音文件获取模块,用于获取多通道语音文件,其中,所述多通道语音文件包含多个对话人进行对话的语音数据;
语音文件分离模块,用于将所述语音文件获取模块获取到的多通道语音文件分离为每个对话人的独立语音子文件;
信息获得模块,用于获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息;
语音识别模块,用于将所述语音文件分离模块分离出的每个独立语音子文件识别为文本;
特征信息生成模块,用于生成所述多通道语音文件的特征信息,其中,所述特征信息包括:所述多通道语音文件对应的所述每个独立语音子文件的文本信息、所述每个独立语音子文件的起始时间信息、所述每个独立语音子文件的终止时间信息、所述每个独立语音子文件的排序信息及所述每个独立语音子文件的对话人标识信息。
本申请实施例中,所述排序信息通过以下方式得到:
根据所述每个独立语音子文件的起始时间信息对所述每个独立语音子文件的文本进行排序后得到所述文本排序信息。
本申请实施例中,所述多通道语音文件的特征信息用于机器学习。
本申请实施例中,所述语音文件分离模块,包括:
第一除噪子模块,用于使用语音端点检测算法,除去所述多通道语音文件中的静音和噪声部分,得到语音除噪结果{S1,S2,…Sn},其中,Si包括第i个有效语音文件及所述第i个有效语音文件的起始时间信息和终止时间信息,i≤n;
第一语音文件分离子模块,用于使用语音通道分离算法,对所述第一除噪子模块得到的语音除噪结果{S1,S2,…Sn}进行处理,得到语音通道分离结果{A1,A2,…,Am},其中,Aj包括所述多个对话人中的第j个对话人的独立语音子文件及所述第j个对话人的独立语音子文件的起始时间信息和终止时间信息,j≤m。
本申请实施例中,所述语音文件分离模块,包括:
第二语音文件分离子模块,用于使用语音通道分离算法,对所述多通道语音文件进行处理,得到语音通道分离结果{T1,T2,…Tq},其中,Ti包括所述多个对话人中的第i个对话人的独立语音子文件及所述第i个对话人的独立语音子文件的起始时间信息和终止时间信息,i≤q;
第二除噪子模块,用于使用语音端点检测算法,对所述第二语音文件分离子模块分离得到的语音通道分离结果{T1,T2,…Tp}进行处理,得到语音除噪结果{B1,B2,…,Bq},其中,Bq包括所述多个对话人中的第j个对话人的经过除噪处理后的独立语音子文件及所述第j个对话人的经过除噪处理后的独立语音子文件的起始时间信息和终止时间信息,j≤q。
根据本申请实施例的第三方面,提供一种计算机存储介质,所述存储介质中存储有程序指令,所述程序指令包括:
获取多通道语音文件,其中,所述多通道语音文件包含多个对话人进行对话的语音数据;
将所述多通道语音文件分离为每个对话人的独立语音子文件;
获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息;
将所述每个独立语音子文件识别为文本;
生成所述多通道语音文件的特征信息,其中,所述特征信息包括:所述多通道语音文件对应的所述每个独立语音子文件的文本信息、所述每个独立语音子文件的起始时间信息、所述每个独立语音子文件的终止时间信息、所述每个独立语音子文件的排序信息及所述每个独立语音子文件的对话人标识信息。
本申请实施例中,可以从多通道语音文件中分离出每个对话人的文本信息、各文本信息对应的时序信息和角色信息,将这些信息作为机器学习的训练数据,从而提高机器学习的性能。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请实施例。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请实施例,并与说明书一起用于解释本发明的原理。
图1A是本申请实施例根据一示例性实施例示出的一种语音识别方法的流程图;
图1B是本申请实施例根据一示例性实施例示出的图1A所示方法的应用场景图;
图2是本申请实施例根据一示例性实施例示出的另一种语音识别方法的流程图;
图3是本申请实施例根据一示例性实施例示出的另一种语音识别方法的流程图;
图4是本申请实施例根据一示例性实施例示出的一种语音识别装置的框图;
图5是本申请实施例根据一示例性实施例示出的另一种语音识别装置的框图;
图6是本申请实施例根据一示例性实施例示出的另一种语音识别装置的框图;
图7是本申请实施例根据一示例性实施例示出的一种用于语音识别装置的一结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请实施例的一些方面相一致的装置和方法的例子。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
随着信息技术的不断发展,语音识别技术也得到了快速地发展,目前,语音识别技术被广泛地应用于人们的日常生活中,用户可以通过在电子设备中输入语音的方式,实现一些需求,例如在智能手机中输入语音,来发布打车需求。
考虑到用户在电子设备中输入的语音通常包含丰富的内容,因此可以作为机器学习的样本数据进行训练,生成语音模型。但是,现有技术中,仅利用语音的文本信息进行训练,导致机器学习的性能较低。为了解决上述问题,本申请实施例提供了一种语音识别方法及装置,以提高机器学习的性能。
如图1A所示,图1A是本申请实施例根据一示例性实施例示出的一种语音识别方法的流程图,该方法可以包括以下步骤:
在步骤101中,获取多通道语音文件,其中,该多通道语音文件包含多个对话人进行对话的语音数据。
本申请实施例中,多通道语音文件的来源可以包括:即时通信应用,例如,打车应用的多人对话语音,或语音采集设备,例如助听器等等。
在步骤102中,将多通道语音文件分离为每个对话人的独立语音子文件。
本申请实施例中,一个独立语音子文件对应一个对话人。
例如,多通道语音文件中包含3个人的对话,分别为用户A、用户B和用户C,本步骤中从包含用户A、用户B和用户C对话的语音中,分离出只包含用户A的声音的独立语音子文件、只包含用户B的声音的独立语音子文件和只包含用户C的声音的独立语音子文件。
在步骤103中,获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息。
本申请实施例中,独立语音子文件的起始时间指的是该独立语音子文件相对于多通道语音文件的起始时间,独立语音子文件的终止时间指的是该独立语音子文件相对于多通道语音文件的终止时间,对话人标识信息指的是用于区别不同对话人的标识信息,具体的,可以为对话人的名字,或者也可以为其他能够区分不同对话人的参数,本申请实施例对此不作限定。
在步骤104中,将每个独立语音子文件识别为文本。
本申请实施例中,可以采用现有技术中任意一种将语音识别为文本的方法,实现将每个独立语音子文件识别为文本。
在步骤105中,生成多通道语音文件的特征信息,其中,该特征信息包括:多通道语音文件对应的每个独立语音子文件的文本信息、每个独立语音子文件的起始时间信息、每个独立语音子文件的终止时间信息、每个独立语音子文件的排序信息及每个独立语音子文件的对话人标识信息。
本申请实施例中,进一步的,可以将步骤104中识别出的各文本进行分词处理,去除象声词等,获得具有实际含义的各个词语。
本申请实施例中,排序信息可以通过以下方式得到:
根据每个独立语音子文件的起始时间信息对每个独立语音子文件的文本进行排序后得到文本排序信息。
或者也可以通过以下方式得到:
根据每个独立语音子文件的对话人对每个独立语音子文件的文本进行排序后得到文本排序信息。本申请实施例对上述排序信息的获得方式不作限定。
本申请实施例中,可以有效利用多通道语音文件中的时序信息和角色信息,具体的,多通道语音文件的特征信息可以用于机器学习,训练模型,实现机器学习性能的明显提升,例如,包含司机和乘客对话的语音,获得该语音的特征信息,利用该特征信息进行机器学习训练模型,例如这些特征用于训练神经网络,进行司乘行为分析。
为了便于理解,以双通道双人对话语音的特征信息的提取过程为例进行说明,如图1B所示,多通道语音文件M为双通道双人对话语音,多通道语音文件M经过语音分离、语音转文本处理后,得到对话人A的两个独立语音子文件对应的识别文本和对话人B的两个独立语音子文件对应的识别文本,其中,T11和T12代表对话人A的第一个独立语音子文件的起始时间和终止时间,T13和T14代表对话人A的第二个独立语音子文件的起始时间和终止时间,T21和T22代表对话人B的第一个独立语音子文件的起始时间和终止时间,T23和T24代表对话人B的第二个独立语音子文件的起始时间和终止时间,Wi为语音转换为文本后的词信息。之后依据每个对话人的发言时间信息的先后顺序,将独立语音子文件的识别文本串行拼接起来,保留了对话过程中的时序先后信息,同时为了区分不同对话人的文本信息,为每个对话人对应的文本信息添加独有的对话人标识信息,如图1B中的对话人标识Ci,C1代表对话人A,C2代表对话人B。
例如,表1为对话人A的文本信息及时间信息,表2为对话人B的文本信息及时间信息,
表1
表2
根据起始时间信息将每个对话人的独立语音子文件的文本信息进行排序,进行串行拼接,同时附带用于区分对话人的对话人标识信息,如标识Ci,此时,特征信息为:[今天_C1天气_C1很好_C1是的_C2今天_C2天气_C2很好_C2出去_C1游玩_C1吧_C1好的_C2]。
需要说明的是,本申请实施例仅以双通道双人对话语音为例进行说明,但不限于双通道双人对话语音,本申请实施例方法同样适用于三人以上的对话语音,其实现过程与双通道双人对话语音类似,本申请实施例对此不再赘述。
此外,还需要说明的是,本申请实施例中仅以独立语音子文件的识别结果以词为单位进行说明,在实际应用中,也可以以字或者短语为单位,本申请实施例对此不再赘述。
由上述实施例可见,该实施例可以从多通道语音文件中分离出每个对话人的文本信息、各文本信息对应的时序信息和角色信息,将这些信息作为机器学习的训练数据,从而提高机器学习的性能。
考虑到环境中存在着各种各样的背景噪声,这些噪声会严重降低语音的质量从而影响语音识别的效果,例如会降低识别率;此外,包含噪声的语音在存储或网络传输时,会占用一定的系统资源或网络带宽资源,造成资源的浪费,为了解决上述问题,本申请实施例提供了另一种语音识别方法。
如图2所示,图2是本申请实施例根据一示例性实施例示出的另一种语音识别方法的流程图,本申请实施例中,可以对多通道语音文件进行相应的降噪和去除静音处理,此时,该方法可以包括以下步骤:
在步骤200中,获取多通道语音文件,其中,该多通道语音文件包含多个对话人进行对话的语音数据。
在步骤201中,使用语音通道分离算法,对多通道语音文件进行处理,得到语音通道分离结果{T1,T2,…Tq},其中,Ti包括多个对话人中的第i个对话人的独立语音子文件及第i个对话人的独立语音子文件的起始时间信息和终止时间信息,i≤q。
本申请实施例中,可以采用现有技术中的任意一种语音分离方法,将多通道语音文件分离为每个对话人的独立语音子文件。
在步骤202中,使用语音端点检测算法,对语音通道分离结果{T1,T2,…Tp}进行处理,得到语音除噪结果{B1,B2,…,Bq},其中,Bq包括多个对话人中的第j个对话人的经过除噪处理后的独立语音子文件及第j个对话人的经过除噪处理后的独立语音子文件的起始时间信息和终止时间信息,j≤q。
本申请实施例,可以采用语音端点检测技术,除去各独立语音子文件中的静音和噪声部分,得到每个对话人的经过除噪处理后的独立语音子文件。
语音端点检测技术(Voice Activity Detection,VAD),可以从连续的语音流中检测出有效的语音,具体的,可以检测出有效语音的起始时间点和终止时间点。
在步骤203中,获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息。
在步骤204中,将每个独立语音子文件识别为文本。
在步骤205中,生成多通道语音文件的特征信息,其中,该特征信息包括:多通道语音文件对应的每个独立语音子文件的文本信息、每个独立语音子文件的起始时间信息、每个独立语音子文件的终止时间信息、每个独立语音子文件的排序信息及每个独立语音子文件的对话人标识信息。
本申请实施例中的步骤203~步骤205,与图1A所示实施例的中的步骤103~步骤105类似,本申请实施例对此不再赘述,详情请见图1A所示实施例中的内容。
由上述实施例可见,该实施例可以从多通道语音文件中分离出各对话人的有效语音,因此可以提高语音识别为文本的准确率,此外,也可以降低存储或传输的数据量,提高资源的利用率。
如图3所示,图3是本申请实施例根据一示例性实施例示出的另一种语音识别方法的流程图,本申请实施例中,可以对多通道语音文件进行相应的降噪和去除静音处理,此时,该方法可以包括以下步骤:
在步骤300中,获取多通道语音文件,其中,该多通道语音文件包含多个对话人进行对话的语音数据。
在步骤301中,使用语音端点检测算法,除去多通道语音文件中的静音和噪声部分,得到语音除噪结果{S1,S2,…Sn},其中,Si包括第i个有效语音文件及第i个有效语音文件的起始时间信息及终止时间信息,i≤n。
本申请实施例,可以采用语音端点检测技术,除去多通道语音文件中的静音和噪声部分,得到有效语音文件。
语音端点检测技术(Voice Activity Detection,VAD),可以从连续的语音流中检测出有效的语音,具体的,可以检测出有效语音的起始时间点和终止时间点。
在步骤302中,使用语音通道分离算法,对语音除噪结果{S1,S2,…Sn}进行处理,得到语音通道分离结果{A1,A2,…,Am},其中,Aj包括多个对话人中的第j个对话人的独立语音子文件及第j个对话人的独立语音子文件的起始时间信息和终止时间信息,j≤m。
本申请实施例中,可以采用现有技术中的任意一种语音分离方法,将多通道语音文件的有效语音文件分离为每个对话人的独立语音子文件。
在步骤303中,获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息。
在步骤304中,将每个独立语音子文件识别为文本。
在步骤305中,生成多通道语音文件的特征信息,其中,该特征信息包括:多通道语音文件对应的每个独立语音子文件的文本信息、每个独立语音子文件的起始时间信息、每个独立语音子文件的终止时间信息、每个独立语音子文件的排序信息及每个独立语音子文件的对话人标识信息。
本申请实施例中的步骤303~步骤305,与图1A所示实施例的中的步骤103~步骤105类似,本申请实施例对此不再赘述,详情请见图1A所示实施例中的内容。
由上述实施例可见,该实施例可以从多通道语音文件中分离出各对话人的有效语音,因此可以提高语音识别为文本的准确率,此外,也可以降低存储或传输的数据量,提高资源的利用率。
应当注意,尽管在附图中以特定顺序描述了本申请实施例方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
与前述语音识别方法的实施例对应,本申请实施例还提供了语音识别装置的实施例。
如图4所示,图4是本申请实施例根据一示例性实施例示出的一种语音识别装置的框图,所述装置可以包括:
语音文件获取模块410,用于获取多通道语音文件,其中,所述多通道语音文件包含多个对话人进行对话的语音数据;
本申请实施例中,多通道语音文件的来源可以包括:即时通信应用,例如,打车应用的多人对话语音,或语音采集设备,例如助听器等等。
语音文件分离模块420,用于将所述语音文件获取模块410获取到的多通道语音文件分离为每个对话人的独立语音子文件;
本申请实施例中,一个独立语音子文件对应一个对话人。
例如,多通道语音文件中包含3个人的对话,分别为用户A、用户B和用户C,本步骤中从包含用户A、用户B和用户C对话的语音中,分离出只包含用户A的声音的独立语音子文件、只包含用户B的声音的独立语音子文件和只包含用户C的声音的独立语音子文件。
信息获得模块430,用于获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息;
本申请实施例中,独立语音子文件的起始时间指的是该独立语音子文件相对于多通道语音文件的起始时间,独立语音子文件的终止时间指的是该独立语音子文件相对于多通道语音文件的终止时间,对话人标识信息指的是用于区别不同对话人的标识信息,具体的,可以为对话人的名字,或者也可以为其他能够区分不同对话人的参数,本申请实施例对此不作限定。
语音识别模块440,用于将所述语音文件分离模块420分离出的每个独立语音子文件识别为文本;
本申请实施例中,可以采用现有技术中任意一种将语音识别为文本的方法,实现将每个独立语音子文件识别为文本。
特征信息生成模块450,用于生成所述多通道语音文件的特征信息,其中,所述特征信息包括:所述多通道语音文件对应的所述每个独立语音子文件的文本信息、所述每个独立语音子文件的起始时间信息、所述每个独立语音子文件的终止时间信息、所述每个独立语音子文件的排序信息及所述每个独立语音子文件的对话人标识信息。
本申请实施例中,排序信息可以通过以下方式得到:
根据每个独立语音子文件的起始时间信息对每个独立语音子文件的文本进行排序后得到文本排序信息。
或者也可以通过以下方式得到:
根据每个独立语音子文件的对话人对每个独立语音子文件的文本进行排序后得到文本排序信息。本申请实施例对上述排序信息的获得方式不作限定。
本申请实施例中,可以有效利用多通道语音文件中的时序信息和角色信息,具体的,多通道语音文件的特征信息可以用于机器学习,训练模型,实现机器学习性能的明显提升,例如,包含司机和乘客对话的语音,获得该语音的特征信息,利用该特征信息进行机器学习训练模型,例如这些特征用于训练神经网络,进行司乘行为分析。
由上述实施例可见,该实施例可以从多通道语音文件中分离出每个对话人的文本信息、各文本信息对应的时序信息和角色信息,将这些信息作为机器学习的训练数据,从而提高机器学习的性能。
考虑到环境中存在着各种各样的背景噪声,这些噪声会严重降低语音的质量从而影响语音识别的效果,例如会降低识别率;此外,包含噪声的语音在存储或网络传输时,会占用一定的系统资源或网络带宽资源,造成资源的浪费,为了解决上述问题,本申请实施例提供了另一种语音识别装置。
如图5所示,图5是本申请实施例根据一示例性实施例示出的另一种语音识别装置的框图,该实施例可以在图4所示实施例的基础上,所述语音文件分离模块420,可以包括:
第一除噪子模块421,用于使用语音端点检测算法,除去所述多通道语音文件中的静音和噪声部分,得到语音除噪结果{S1,S2,…Sn},其中,Si包括第i个有效语音文件及所述第i个有效语音文件的起始时间信息和终止时间信息,i≤n;
本申请实施例中,可以采用现有技术中的任意一种语音分离方法,将多通道语音文件分离为每个对话人的独立语音子文件。
第一语音文件分离子模块422,用于使用语音通道分离算法,对所述第一除噪子模块421得到的语音除噪结果{S1,S2,…Sn}进行处理,得到语音通道分离结果{A1,A2,…,Am},其中,Aj包括所述多个对话人中的第j个对话人的独立语音子文件及所述第j个对话人的独立语音子文件的起始时间信息和终止时间信息,j≤m。
本申请实施例,可以采用语音端点检测技术,除去各独立语音子文件中的静音和噪声部分,得到每个对话人的经过除噪处理后的独立语音子文件。
语音端点检测技术(Voice Activity Detection,VAD),可以从连续的语音流中检测出有效的语音,具体的,可以检测出有效语音的起始时间点和终止时间点。
由上述实施例可见,该实施例可以从多通道语音文件中分离出各对话人的有效语音,因此可以提高语音识别为文本的准确率,此外,也可以降低存储或传输的数据量,提高资源的利用率。
如图6所示,图6是本申请实施例根据一示例性实施例示出的另一种语音识别装置的框图,该实施例可以在图4所示实施例的基础上,所述语音文件分离模块420,可以包括:
第二语音文件分离子模块423,用于使用语音通道分离算法,对所述多通道语音文件进行处理,得到语音通道分离结果{T1,T2,…Tq},其中,Ti包括所述多个对话人中的第i个对话人的独立语音子文件及所述第i个对话人的独立语音子文件的起始时间信息和终止时间信息,i≤q;
本申请实施例,可以采用语音端点检测技术,除去多通道语音文件中的静音和噪声部分,得到有效语音文件。
语音端点检测技术(Voice Activity Detection,VAD),可以从连续的语音流中检测出有效的语音,具体的,可以检测出有效语音的起始时间点和终止时间点。
第二除噪子模块424,用于使用语音端点检测算法,对所述第二语音文件分离子模块423分离得到的语音通道分离结果{T1,T2,…Tp}进行处理,得到语音除噪结果{B1,B2,…,Bq},其中,Bq包括所述多个对话人中的第j个对话人的经过除噪处理后的独立语音子文件及所述第j个对话人的经过除噪处理后的独立语音子文件的起始时间信息和终止时间信息,j≤q。
本申请实施例中,可以采用现有技术中的任意一种语音分离方法,将多通道语音文件的有效语音文件分离为每个对话人的独立语音子文件。
由上述实施例可见,该实施例可以从多通道语音文件中分离出各对话人的有效语音,因此可以提高语音识别为文本的准确率,此外,也可以降低存储或传输的数据量,提高资源的利用率。
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请实施例还提供了一种计算机存储介质,所述存储介质中存储有程序指令,所述程序指令包括:获取多通道语音文件,其中,所述多通道语音文件包含多个对话人进行对话的语音数据;将所述多通道语音文件分离为每个对话人的独立语音子文件;获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息;将所述每个独立语音子文件识别为文本;生成所述多通道语音文件的特征信息,其中,所述特征信息包括:所述多通道语音文件对应的所述每个独立语音子文件的文本信息、所述每个独立语音子文件的起始时间信息、所述每个独立语音子文件的终止时间信息、所述每个独立语音子文件的排序信息及所述每个独立语音子文件的对话人标识信息。
本申请实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
如图7所示,图7是本申请实施例根据一示例性实施例示出的一种用于语音识别装置700的一结构示意图。例如,装置700可以被提供为一服务器。参照图7,装置700包括处理组件722,其进一步包括一个或多个处理器,以及由存储器732所代表的存储器资源,用于存储可由处理部件722的执行的指令,例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件722被配置为执行指令,以执行本申请实施例提供的语音识别方法,该方法包括:获取多通道语音文件,其中,所述多通道语音文件包含多个对话人进行对话的语音数据;将所述多通道语音文件分离为每个对话人的独立语音子文件;获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息;将所述每个独立语音子文件识别为文本;生成所述多通道语音文件的特征信息,其中,所述特征信息包括:所述多通道语音文件对应的所述每个独立语音子文件的文本信息、所述每个独立语音子文件的起始时间信息、所述每个独立语音子文件的终止时间信息、所述每个独立语音子文件的排序信息及所述每个独立语音子文件的对话人标识信息。
装置700还可以包括一个电源组件726被配置为执行装置700的电源管理,一个有线或无线网络接口750被配置为将装置700连接到网络,和一个输入输出(I/O)接口758。装置700可以操作基于存储在存储器732的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器732,上述指令可由装置700的处理组件722执行以完成本申请实施例提供的上述语音识别方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本申请实施例的其它实施方案。本申请实施例旨在涵盖本申请实施例的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请实施例未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请实施例的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请实施例并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请实施例的范围仅由所附的权利要求来限制。

Claims (11)

1.一种语音识别方法,其特征在于,所述方法包括:
获取多通道语音文件,其中,所述多通道语音文件包含多个对话人进行对话的语音数据;
将所述多通道语音文件分离为每个对话人的独立语音子文件;
获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息;
将所述每个独立语音子文件识别为文本;
生成所述多通道语音文件的特征信息,其中,所述特征信息包括:所述多通道语音文件对应的所述每个独立语音子文件的文本信息、所述每个独立语音子文件的起始时间信息、所述每个独立语音子文件的终止时间信息、所述每个独立语音子文件的排序信息及所述每个独立语音子文件的对话人标识信息。
2.根据权利要求1所述的方法,其特征在于,所述排序信息通过以下方式得到:
根据所述每个独立语音子文件的起始时间信息对所述每个独立语音子文件的文本进行排序后得到所述文本排序信息。
3.根据权利要求1所述的方法,其特征在于,所述多通道语音文件的特征信息用于机器学习。
4.根据权利要求1所述的方法,其特征在于,所述将所述多通道语音文件分离为每个对话人的独立语音子文件,包括:
使用语音端点检测算法,除去所述多通道语音文件中的静音和噪声部分,得到语音除噪结果{S1,S2,…Sn},其中,Si包括第i个有效语音文件及所述第i个有效语音文件的起始时间信息及终止时间信息,i≤n;
使用语音通道分离算法,对所述语音除噪结果{S1,S2,…Sn}进行处理,得到语音通道分离结果{A1,A2,…,Am},其中,Aj包括所述多个对话人中的第j个对话人的独立语音子文件及所述第j个对话人的独立语音子文件的起始时间信息和终止时间信息,j≤m。
5.根据权利要求1所述的方法,其特征在于,所述将所述多通道语音文件分离为每个对话人的独立语音子文件,包括:
使用语音通道分离算法,对所述多通道语音文件进行处理,得到语音通道分离结果{T1,T2,…Tq},其中,Ti包括所述多个对话人中的第i个对话人的独立语音子文件及所述第i个对话人的独立语音子文件的起始时间信息和终止时间信息,i≤q;
使用语音端点检测算法,对所述语音通道分离结果{T1,T2,…Tp}进行处理,得到语音除噪结果{B1,B2,…,Bq},其中,Bq包括所述多个对话人中的第j个对话人的经过除噪处理后的独立语音子文件及所述第j个对话人的经过除噪处理后的独立语音子文件的起始时间信息和终止时间信息,j≤q。
6.一种语音识别装置,其特征在于,所述装置包括:
语音文件获取模块,用于获取多通道语音文件,其中,所述多通道语音文件包含多个对话人进行对话的语音数据;
语音文件分离模块,用于将所述语音文件获取模块获取到的多通道语音文件分离为每个对话人的独立语音子文件;
信息获得模块,用于获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息;
语音识别模块,用于将所述语音文件分离模块分离出的每个独立语音子文件识别为文本;
特征信息生成模块,用于生成所述多通道语音文件的特征信息,其中,所述特征信息包括:所述多通道语音文件对应的所述每个独立语音子文件的文本信息、所述每个独立语音子文件的起始时间信息、所述每个独立语音子文件的终止时间信息、所述每个独立语音子文件的排序信息及所述每个独立语音子文件的对话人标识信息。
7.根据权利要求6所述的装置,其特征在于,所述排序信息通过以下方式得到:
根据所述每个独立语音子文件的起始时间信息对所述每个独立语音子文件的文本进行排序后得到所述文本排序信息。
8.根据权利要求6所述的装置,其特征在于,所述多通道语音文件的特征信息用于机器学习。
9.根据权利要求6所述的装置,其特征在于,所述语音文件分离模块,包括:
第一除噪子模块,用于使用语音端点检测算法,除去所述多通道语音文件中的静音和噪声部分,得到语音除噪结果{S1,S2,…Sn},其中,Si包括第i个有效语音文件及所述第i个有效语音文件的起始时间信息和终止时间信息,i≤n;
第一语音文件分离子模块,用于使用语音通道分离算法,对所述第一除噪子模块得到的语音除噪结果{S1,S2,…Sn}进行处理,得到语音通道分离结果{A1,A2,…,Am},其中,Aj包括所述多个对话人中的第j个对话人的独立语音子文件及所述第j个对话人的独立语音子文件的起始时间信息和终止时间信息,j≤m。
10.根据权利要求6所述的装置,其特征在于,所述语音文件分离模块,包括:
第二语音文件分离子模块,用于使用语音通道分离算法,对所述多通道语音文件进行处理,得到语音通道分离结果{T1,T2,…Tq},其中,Ti包括所述多个对话人中的第i个对话人的独立语音子文件及所述第i个对话人的独立语音子文件的起始时间信息和终止时间信息,i≤q;
第二除噪子模块,用于使用语音端点检测算法,对所述第二语音文件分离子模块分离得到的语音通道分离结果{T1,T2,…Tp}进行处理,得到语音除噪结果{B1,B2,…,Bq},其中,Bq包括所述多个对话人中的第j个对话人的经过除噪处理后的独立语音子文件及所述第j个对话人的经过除噪处理后的独立语音子文件的起始时间信息和终止时间信息,j≤q。
11.一种计算机存储介质,其特征在于,所述存储介质中存储有程序指令,所述程序指令包括:
获取多通道语音文件,其中,所述多通道语音文件包含多个对话人进行对话的语音数据;
将所述多通道语音文件分离为每个对话人的独立语音子文件;
获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息;
将所述每个独立语音子文件识别为文本;
生成所述多通道语音文件的特征信息,其中,所述特征信息包括:所述多通道语音文件对应的所述每个独立语音子文件的文本信息、所述每个独立语音子文件的起始时间信息、所述每个独立语音子文件的终止时间信息、所述每个独立语音子文件的排序信息及所述每个独立语音子文件的对话人标识信息。
CN201710170345.5A 2017-03-21 2017-03-21 语音识别方法及装置 Active CN108630193B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201710170345.5A CN108630193B (zh) 2017-03-21 2017-03-21 语音识别方法及装置
PCT/CN2017/114415 WO2018171257A1 (en) 2017-03-21 2017-12-04 Systems and methods for speech information processing
CN201780029259.0A CN109074803B (zh) 2017-03-21 2017-12-04 语音信息处理系统和方法
EP17901703.3A EP3568850A4 (en) 2017-03-21 2017-12-04 SPEECH INFORMATION PROCESSING SYSTEMS AND METHODS
US16/542,325 US20190371295A1 (en) 2017-03-21 2019-08-16 Systems and methods for speech information processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710170345.5A CN108630193B (zh) 2017-03-21 2017-03-21 语音识别方法及装置

Publications (2)

Publication Number Publication Date
CN108630193A true CN108630193A (zh) 2018-10-09
CN108630193B CN108630193B (zh) 2020-10-02

Family

ID=63584776

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201710170345.5A Active CN108630193B (zh) 2017-03-21 2017-03-21 语音识别方法及装置
CN201780029259.0A Active CN109074803B (zh) 2017-03-21 2017-12-04 语音信息处理系统和方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201780029259.0A Active CN109074803B (zh) 2017-03-21 2017-12-04 语音信息处理系统和方法

Country Status (4)

Country Link
US (1) US20190371295A1 (zh)
EP (1) EP3568850A4 (zh)
CN (2) CN108630193B (zh)
WO (1) WO2018171257A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110767223A (zh) * 2019-09-30 2020-02-07 大象声科(深圳)科技有限公司 一种单声道鲁棒性的语音关键词实时检测方法
CN110995943A (zh) * 2019-12-25 2020-04-10 携程计算机技术(上海)有限公司 多用户流式语音识别方法、系统、设备及介质
CN111489522A (zh) * 2020-05-29 2020-08-04 北京百度网讯科技有限公司 用于输出信息的方法、装置和系统
CN111508498A (zh) * 2020-04-09 2020-08-07 携程计算机技术(上海)有限公司 对话式语音识别方法、系统、电子设备和存储介质
CN111883132A (zh) * 2019-11-11 2020-11-03 马上消费金融股份有限公司 一种语音识别方法、设备、系统及存储介质
CN111883135A (zh) * 2020-07-28 2020-11-03 北京声智科技有限公司 语音转写方法、装置和电子设备
CN112364149A (zh) * 2021-01-12 2021-02-12 广州云趣信息科技有限公司 用户问题获得方法、装置及电子设备
CN112466286A (zh) * 2019-08-19 2021-03-09 阿里巴巴集团控股有限公司 数据处理方法及装置、终端设备
CN112511698A (zh) * 2020-12-03 2021-03-16 普强时代(珠海横琴)信息技术有限公司 一种基于通用边界检测的实时通话分析方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785855B (zh) * 2019-01-31 2022-01-28 秒针信息技术有限公司 语音处理方法及装置、存储介质、处理器
CN109875515B (zh) * 2019-03-25 2020-05-26 中国科学院深圳先进技术研究院 一种基于阵列式表面肌电的发音功能评估系统
US11188720B2 (en) * 2019-07-18 2021-11-30 International Business Machines Corporation Computing system including virtual agent bot providing semantic topic model-based response
US11094328B2 (en) * 2019-09-27 2021-08-17 Ncr Corporation Conferencing audio manipulation for inclusion and accessibility
CN112967719A (zh) * 2019-12-12 2021-06-15 上海棋语智能科技有限公司 一种标准电台手咪的电脑端接入设备
CN111312219B (zh) * 2020-01-16 2023-11-28 上海携程国际旅行社有限公司 电话录音标注方法、系统、存储介质和电子设备
CN111274434A (zh) * 2020-01-16 2020-06-12 上海携程国际旅行社有限公司 音频语料自动标注方法、系统、介质和电子设备
CN111381901A (zh) * 2020-03-05 2020-07-07 支付宝实验室(新加坡)有限公司 一种语音播报方法和系统
CN111768755A (zh) * 2020-06-24 2020-10-13 华人运通(上海)云计算科技有限公司 信息处理方法、装置、车辆和计算机存储介质
CN112242137A (zh) * 2020-10-15 2021-01-19 上海依图网络科技有限公司 一种人声分离模型的训练以及人声分离方法和装置
CN112509574B (zh) * 2020-11-26 2022-07-22 上海济邦投资咨询有限公司 一种基于大数据的投资咨询服务系统
CN113436632A (zh) * 2021-06-24 2021-09-24 天九共享网络科技集团有限公司 语音识别方法、装置、电子设备和存储介质
US20230053148A1 (en) * 2021-08-11 2023-02-16 Tencent America LLC Extractive method for speaker identification in texts with self-training
CN114400006B (zh) * 2022-01-24 2024-03-15 腾讯科技(深圳)有限公司 语音识别方法和装置
EP4221169A1 (en) * 2022-01-31 2023-08-02 Koa Health B.V. Sucursal en España System and method for monitoring communication quality

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377651A (zh) * 2012-04-28 2013-10-30 北京三星通信技术研究有限公司 语音自动合成装置及方法
CN103500579A (zh) * 2013-10-10 2014-01-08 中国联合网络通信集团有限公司 语音识别方法、装置及系统
CN103811020A (zh) * 2014-03-05 2014-05-21 东北大学 一种智能语音处理方法
CN104252864A (zh) * 2013-06-28 2014-12-31 国际商业机器公司 实时语音分析方法和系统
CN104795066A (zh) * 2014-01-17 2015-07-22 株式会社Ntt都科摩 语音识别方法和装置
CN105280183A (zh) * 2015-09-10 2016-01-27 百度在线网络技术(北京)有限公司 语音交互方法和系统
CN105529026A (zh) * 2014-10-17 2016-04-27 现代自动车株式会社 语音识别装置和语音识别方法
US20160217808A1 (en) * 2015-01-26 2016-07-28 Acer Incorporated Speech recognition apparatus and speech recognition method
CN106023994A (zh) * 2016-04-29 2016-10-12 杭州华橙网络科技有限公司 一种语音处理的方法、装置以及系统
CN106128472A (zh) * 2016-07-12 2016-11-16 乐视控股(北京)有限公司 演唱者声音的处理方法及装置
CN106128469A (zh) * 2015-12-30 2016-11-16 广东工业大学 一种多分辨率音频信号处理方法及装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167117A (en) * 1996-10-07 2000-12-26 Nortel Networks Limited Voice-dialing system using model of calling behavior
US20050149462A1 (en) * 1999-10-14 2005-07-07 The Salk Institute For Biological Studies System and method of separating signals
KR101022457B1 (ko) * 2009-06-03 2011-03-15 충북대학교 산학협력단 Casa 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법
US9564120B2 (en) * 2010-05-14 2017-02-07 General Motors Llc Speech adaptation in speech synthesis
US20120016674A1 (en) * 2010-07-16 2012-01-19 International Business Machines Corporation Modification of Speech Quality in Conversations Over Voice Channels
US9202465B2 (en) * 2011-03-25 2015-12-01 General Motors Llc Speech recognition dependent on text message content
US9082414B2 (en) * 2011-09-27 2015-07-14 General Motors Llc Correcting unintelligible synthesized speech
US10319363B2 (en) * 2012-02-17 2019-06-11 Microsoft Technology Licensing, Llc Audio human interactive proof based on text-to-speech and semantics
WO2013181633A1 (en) * 2012-05-31 2013-12-05 Volio, Inc. Providing a converstional video experience
US10134401B2 (en) * 2012-11-21 2018-11-20 Verint Systems Ltd. Diarization using linguistic labeling
US9460722B2 (en) * 2013-07-17 2016-10-04 Verint Systems Ltd. Blind diarization of recorded calls with arbitrary number of speakers
CN104700831B (zh) * 2013-12-05 2018-03-06 国际商业机器公司 分析音频文件的语音特征的方法和装置
US9472182B2 (en) * 2014-02-26 2016-10-18 Microsoft Technology Licensing, Llc Voice font speaker and prosody interpolation
CN104217718B (zh) * 2014-09-03 2017-05-17 陈飞 依据环境参数及群体趋向数据的语音识别方法和系统
US20160156773A1 (en) * 2014-11-28 2016-06-02 Blackberry Limited Dynamically updating route in navigation application in response to calendar update
US9875743B2 (en) * 2015-01-26 2018-01-23 Verint Systems Ltd. Acoustic signature building for a speaker from multiple sessions
WO2016149468A1 (en) * 2015-03-18 2016-09-22 Proscia Inc. Computing technologies for image operations
US9900685B2 (en) * 2016-03-24 2018-02-20 Intel Corporation Creating an audio envelope based on angular information
CN105957517A (zh) * 2016-04-29 2016-09-21 中国南方电网有限责任公司电网技术研究中心 基于开源api的语音数据结构化转换方法及其系统
CN106504744B (zh) * 2016-10-26 2020-05-01 科大讯飞股份有限公司 一种语音处理方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377651A (zh) * 2012-04-28 2013-10-30 北京三星通信技术研究有限公司 语音自动合成装置及方法
CN104252864A (zh) * 2013-06-28 2014-12-31 国际商业机器公司 实时语音分析方法和系统
CN103500579A (zh) * 2013-10-10 2014-01-08 中国联合网络通信集团有限公司 语音识别方法、装置及系统
CN104795066A (zh) * 2014-01-17 2015-07-22 株式会社Ntt都科摩 语音识别方法和装置
CN103811020A (zh) * 2014-03-05 2014-05-21 东北大学 一种智能语音处理方法
CN105529026A (zh) * 2014-10-17 2016-04-27 现代自动车株式会社 语音识别装置和语音识别方法
US20160217808A1 (en) * 2015-01-26 2016-07-28 Acer Incorporated Speech recognition apparatus and speech recognition method
CN105280183A (zh) * 2015-09-10 2016-01-27 百度在线网络技术(北京)有限公司 语音交互方法和系统
CN106128469A (zh) * 2015-12-30 2016-11-16 广东工业大学 一种多分辨率音频信号处理方法及装置
CN106023994A (zh) * 2016-04-29 2016-10-12 杭州华橙网络科技有限公司 一种语音处理的方法、装置以及系统
CN106128472A (zh) * 2016-07-12 2016-11-16 乐视控股(北京)有限公司 演唱者声音的处理方法及装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466286A (zh) * 2019-08-19 2021-03-09 阿里巴巴集团控股有限公司 数据处理方法及装置、终端设备
CN110767223B (zh) * 2019-09-30 2022-04-12 大象声科(深圳)科技有限公司 一种单声道鲁棒性的语音关键词实时检测方法
CN110767223A (zh) * 2019-09-30 2020-02-07 大象声科(深圳)科技有限公司 一种单声道鲁棒性的语音关键词实时检测方法
CN111883132A (zh) * 2019-11-11 2020-11-03 马上消费金融股份有限公司 一种语音识别方法、设备、系统及存储介质
CN110995943A (zh) * 2019-12-25 2020-04-10 携程计算机技术(上海)有限公司 多用户流式语音识别方法、系统、设备及介质
CN110995943B (zh) * 2019-12-25 2021-05-07 携程计算机技术(上海)有限公司 多用户流式语音识别方法、系统、设备及介质
CN111508498A (zh) * 2020-04-09 2020-08-07 携程计算机技术(上海)有限公司 对话式语音识别方法、系统、电子设备和存储介质
CN111508498B (zh) * 2020-04-09 2024-01-30 携程计算机技术(上海)有限公司 对话式语音识别方法、系统、电子设备和存储介质
CN111489522A (zh) * 2020-05-29 2020-08-04 北京百度网讯科技有限公司 用于输出信息的方法、装置和系统
CN111883135A (zh) * 2020-07-28 2020-11-03 北京声智科技有限公司 语音转写方法、装置和电子设备
CN112511698A (zh) * 2020-12-03 2021-03-16 普强时代(珠海横琴)信息技术有限公司 一种基于通用边界检测的实时通话分析方法
CN112364149A (zh) * 2021-01-12 2021-02-12 广州云趣信息科技有限公司 用户问题获得方法、装置及电子设备
CN112364149B (zh) * 2021-01-12 2021-04-23 广州云趣信息科技有限公司 用户问题获得方法、装置及电子设备

Also Published As

Publication number Publication date
US20190371295A1 (en) 2019-12-05
CN109074803A (zh) 2018-12-21
CN109074803B (zh) 2022-10-18
CN108630193B (zh) 2020-10-02
EP3568850A4 (en) 2020-05-27
WO2018171257A1 (en) 2018-09-27
EP3568850A1 (en) 2019-11-20

Similar Documents

Publication Publication Date Title
CN108630193A (zh) 语音识别方法及装置
CN108288468B (zh) 语音识别方法及装置
CN105719649B (zh) 语音识别方法及装置
WO2019191556A1 (en) Knowledge transfer in permutation invariant training for single-channel multi-talker speech recognition
CN110782872A (zh) 基于深度卷积循环神经网络的语种识别方法及装置
CN105975569A (zh) 一种语音处理的方法及终端
WO2020253128A1 (zh) 基于语音识别的通信服务方法、装置、计算机设备及存储介质
CN108257592A (zh) 一种基于长短期记忆模型的人声分割方法及系统
CN107591150A (zh) 语音识别方法及装置、计算机装置及计算机可读存储介质
WO2012075640A1 (en) Modeling device and method for speaker recognition, and speaker recognition system
CN108847222B (zh) 语音识别模型生成方法、装置、存储介质及电子设备
CN111583906A (zh) 一种语音会话的角色识别方法、装置及终端
CN112949708A (zh) 情绪识别方法、装置、计算机设备和存储介质
CN110517668A (zh) 一种中英文混合语音识别系统及方法
CN112818680B (zh) 语料的处理方法、装置、电子设备及计算机可读存储介质
CN117337467A (zh) 经由迭代说话者嵌入的端到端说话者分离
CN111144097A (zh) 一种对话文本的情感倾向分类模型的建模方法和装置
CN111508530A (zh) 语音情感识别方法、装置及存储介质
CN111414748A (zh) 话务数据处理方法及装置
KR102389995B1 (ko) 자연발화 음성 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
CN113889086A (zh) 语音识别模型的训练方法、语音识别方法及相关装置
KR102415519B1 (ko) 인공지능 음성의 컴퓨팅 탐지 장치
CN114495911A (zh) 说话人聚类方法、装置及设备
CN108281144A (zh) 一种语音识别方法和系统
CN115440198B (zh) 混合音频信号的转换方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant