CN111613208B - 一种语种识别方法和设备 - Google Patents
一种语种识别方法和设备 Download PDFInfo
- Publication number
- CN111613208B CN111613208B CN202010443438.2A CN202010443438A CN111613208B CN 111613208 B CN111613208 B CN 111613208B CN 202010443438 A CN202010443438 A CN 202010443438A CN 111613208 B CN111613208 B CN 111613208B
- Authority
- CN
- China
- Prior art keywords
- voice
- language
- audio
- identified
- languages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000012634 fragment Substances 0.000 claims abstract description 67
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 8
- 238000012546 transfer Methods 0.000 abstract description 6
- 238000009499 grossing Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 101100421134 Schizosaccharomyces pombe (strain 972 / ATCC 24843) sle1 gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提出了一种语种识别方法和设备,该方法包括:将待识别音频分为语音部分与非语音部分;将所述语音部分切分为多个语音片段;对各所述语音片段进行语种识别,以确定各所述语音片段对应的语种;汇总各所述语音片段对应的语种确定所述待识别音频中的语种以及各语种对应的时间段。本方案实现了语音的自动化语种识别,可以实时在线的进行语种识别,相较于目前的人工识别方式,提升了效率,降低了成本,便于后续的语音处理,例如会议记录转写,智能电话机器人或酒店多国语言版本等智能设备等,使用方便,且语音转写可以实现更高的准确率。
Description
技术领域
本发明涉及语种识别领域,特别涉及一种语种识别方法和设备。
背景技术
目前在很多领域,例如会议或人工智能或者语音识别等方面,涉及到大量的语音数据需要识别,具体的需要确定语音是什么语种,在确定了语种之后,可以方便进行后续的处理,例如可以方便进行精确的语义识别,且在实际应用的某些场景,例如在翻译场景下,其具体的语音数据很可能会涉及到大量的语种夹杂的情况。
现有的语种识别,很大程度是依赖人工的方式来进行的,但是这种方式效率低下,且目前需要识别的数据量是海量的,人工的方式无法及时有效的进行识别。
由此,目前需要一种更好的方法以解决该缺陷。
发明内容
针对现有技术中的缺陷,本发明提出了一种语种识别方法和设备,本方案实现了语音的自动化语种识别,可以实时在线的进行语种识别,相较于目前的人工识别方式,提升了效率,降低了成本,便于后续的语音处理,例如会议记录转写,智能电话机器人或酒店多国语言版本等智能设备等,使用方便,且语音转写可以实现更高的准确率。
具体的,本发明提出了以下具体的实施例:
本发明实施例提出了一种语种识别方法,包括:
将待识别音频分为语音部分与非语音部分;
将所述语音部分切分为多个语音片段;
对各所述语音片段进行语种识别,以确定各所述语音片段对应的语种;
汇总各所述语音片段对应的语种确定所述待识别音频中的语种以及各语种对应的时间段。
在一个具体的实施例中,还包括:
接收实时在线的语音数据,并将所述语音数据设置为待识别音频;或
获取离线的待识别音频。
在一个具体的实施例中,所述将所述语音部分切分为多个语音片段,包括:
将所述语音部分按照预设时间长度切分为多个互不重叠的语音片段;
若时间最后的一个语音片段的时间长度小于预设值,则将时间最后的一个语音片段与相邻的语音片段进行合并。
在一个具体的实施例中,所述将待识别音频分为语音部分与非语音部分,包括:
通过VAD对待识别音频进行切分,以将所述待识别音频分为语音部分与非语音部分。
在一个具体的实施例中,切分后得到的各所述语音片段包括前后扩帧和/或overlap。
在一个具体的实施例中,所述对各所述语音片段进行语种识别,以确定各所述语音片段对应的语种,包括:
通过预设的训练好的语种模型对各所述语音片段进行语种识别,以确定各所述语音片段对应的语种;其中,所述语种模型是基于标识有语种的音频进行训练生成的。
在一个具体的实施例中,所述汇总的操作包括以下一个或多个的任意组合:将相邻的相同语种的语音片段进行合并、将预设语音片段对应的语种设置为与相邻语音片段相同的语种,其中,所述预设语音片段处于前后相邻语音片段之间,且前后相邻语音片段对应的语种相同,所述预设语音片段的时间长度小于预设时长。
本发明实施例还提出了一种语种识别设备,包括:
第一切分模块、用于将待识别音频分为语音部分与非语音部分;
第二切分模块,用于将所述语音部分切分为多个语音片段;
识别模块,用于对各所述语音片段进行语种识别,以确定各所述语音片段对应的语种;
汇总模块,用于汇总各所述语音片段对应的语种确定所述待识别音频中的语种以及各语种对应的时间段。
在一个具体的实施例中,还包括:
获取模块,用于接收实时在线的语音数据,并将所述语音数据设置为待识别音频;或
获取离线的待识别音频。
在一个具体的实施例中,所述第一切分模块,用于:
通过VAD对待识别音频进行切分,以将所述待识别音频分为语音部分与非语音部分。
以此,本发明实施例提出了一种语种识别方法和设备,该方法包括:将待识别音频分为语音部分与非语音部分;将所述语音部分切分为多个语音片段;对各所述语音片段进行语种识别,以确定各所述语音片段对应的语种;汇总各所述语音片段对应的语种确定所述待识别音频中的语种以及各语种对应的时间段。本方案实现了语音的自动化语种识别,可以实时在线的进行语种识别,相较于目前的人工识别方式,提升了效率,降低了成本,便于后续的语音处理,例如会议记录转写,智能电话机器人或酒店多国语言版本等智能设备等,使用方便,且语音转写可以实现更高的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提出的一种语种识别方法的流程示意图;
图2为本发明实施例提出的一种语种识别方法的流程示意图;
图3为本发明实施例提出的一种语种识别设备的结构示意图;
图4为本发明实施例提出的一种语种识别设备的结构示意图。
具体实施方式
在下文中,将更全面地描述本公开的各种实施例。本公开可具有各种实施例,并且可在其中做出调整和改变。然而,应理解:不存在将本公开的各种实施例限于在此公开的特定实施例的意图,而是应将本公开理解为涵盖落入本公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。
在本公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本公开的各种实施例。如在此所使用,单数形式意在也包括复数形式,除非上下文清楚地另有指示。除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本公开的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本公开的各种实施例中被清楚地限定。
实施例1
本发明实施例1公开了一种语种识别方法,如图1所示,包括以下步骤:
步骤101、将待识别音频分为语音部分与非语音部分;
具体的,在步骤101之前,本方案还可以包括:
接收实时在线的语音数据,并将所述语音数据设置为待识别音频;或
获取离线的待识别音频。
具体的,本方案可以针对实时在线的语音数据,也可以针对离线的语音数据来进行的处理,具体的,在针对在线的语音数据时,本方案可以采用流式处理的方式来进行。
此外,具体的,步骤101中的所述将待识别音频分为语音部分与非语音部分,包括:
通过VAD对待识别音频进行切分,以将所述待识别音频分为语音部分与非语音部分。
具体的,可以基于VAD(Voice Activity Detection,语音活动检测)的方式来对待识别音频进行切分,并剔除出非语音部分,以此提高语音效率,具体的可以如图2所示语音部分为speech1或speech2。
步骤102、将所述语音部分切分为多个语音片段;
具体的如图2所示,语音片段可以为seg1、seg2、seg3、···seg7。
在一个具体的实施例中,步骤102中的所述将所述语音部分切分为多个语音片段,包括:
将所述语音部分按照预设时间长度切分为多个互不重叠的语音片段;
若时间最后的一个语音片段的时间长度小于预设值,则将时间最后的一个语音片段与相邻的语音片段进行合并。
具体的,预设时间长度可以设置为例如500ms,预设值例如可以设置为300ms,以此为例来进行说明,将语音部分切分为互不重叠的一个个语音片段,具体每个语音片段长度为500ms。其中,若最后一个语音片段长度如果不足300ms则与前一个语音片段拼接为一个较长语音片段;最后一个语音片段如果大于等于300ms,但是小于500ms,则可以单独作为一个语音片段。
本方案中的切分原则中认为在切分出的一个个语音片段里面,仅有一个语种,因此每个语音片段长度设置不能太长也不能太短,一般为几百毫秒,经过试验,500ms是一个较优的实施例,此外,根据具体应用场景的不同,预设时间长度还可以设置为例如400-600ms之间的某个值,预设值例如可以设置为250-350ms之间的某个值。
具体的,为了利于后续更好的识别过程,切分后得到的各所述语音片段包括前后扩帧和/或overlap。
将语音部分切为一个个小的语音片段(speech segment),并提取各个片段的特征。其中,语音片段有前后扩帧和/或overlap(重叠部分)效果会更好,具体的,本方案中对所述语音片段进行处理时,采用了前后扩帧和/或overlap的技术,能极大提高该片段的信息提取准确性以及系统整体的性能。其中,“前后扩帧”是指在提取语音片段的信息时,虽然是逐帧处理的,但是在处理时不会仅处理当前帧的信息,而且会将其前后几帧一起包括进来做处理,即总的获取到的信息是包括“上下文信息”的当前帧的信息,在此情况下,前后扩帧也即是当前帧的前后几帧。
至于Overlap则是指,在逐帧提取信息的过程中,“当前帧”的移动方式是重叠式的(overlap)的。重叠式是指,例如每帧的窗长为25ms,窗移为10ms,即当前帧和下一帧会有一个15ms的重叠;以此提取到的信息更准确。
步骤103、对各所述语音片段进行语种识别,以确定各所述语音片段对应的语种;
具体的,步骤103中的所述对各所述语音片段进行语种识别,以确定各所述语音片段对应的语种,包括:
通过预设的训练好的语种模型对各所述语音片段进行语种识别,以确定各所述语音片段对应的语种;其中,所述语种模型是基于标识有语种的音频进行训练生成的。
具体的,语种模型可以为神经网络模型,或者深度学习模型等,具体的语种模型是基于样本数据来进行训练得到的,样本数据中各音频对应有语种。
具体的,进行语种识别后,对应的语种为lang1、lang2等等。
步骤104、汇总各所述语音片段对应的语种确定所述待识别音频中的语种以及各语种对应的时间段。
在一个具体的实施例中,如图2所示,为smoothing过程,步骤104中所述汇总的操作包括以下一个或多个的任意组合:将相邻的相同语种的语音片段进行合并、将预设语音片段对应的语种设置为与相邻语音片段相同的语种,其中,所述预设语音片段处于前后相邻语音片段之间,且前后相邻语音片段对应的语种相同,所述预设语音片段的时间长度小于预时长。
具体的,步骤104中可以通过平滑处理,将相邻的通语音合并,以及将一些过短的和相邻不同语种的片段“抹平”(例如可能是一个语种中夹杂了其他语种),最终得到各个语种的时间段。
平滑处理包括两种情况:合并和抹平。其中,合并是指将同属同一个语种的相邻语音片段合并。至于抹平则是指,如果在同属同一个语种A的两段语音片段中夹杂着其他语种B的语音片段,而这个语种B的语音片段的长度又很小(小于预设阈值),那么可以将其语种从B修改为A(抹平的含义是过短的且和相邻语音片段判决不同的语音片段,将其判决修改为和相邻判决一样的语种)。
实施例2
本发明实施例2还公开了一种语种识别设备,如图3所示,包括:
第一切分模块201、用于将待识别音频分为语音部分与非语音部分;
第二切分模块202,用于将所述语音部分切分为多个语音片段;
识别模块203,用于对各所述语音片段进行语种识别,以确定各所述语音片段对应的语种;
汇总模块204,用于汇总各所述语音片段对应的语种确定所述待识别音频中的语种以及各语种对应的时间段。
在一个具体的实施例中,如图4所示,该设备还包括:
获取模块205,用于接收实时在线的语音数据,并将所述语音数据设置为待识别音频;或
获取离线的待识别音频。
在一个具体的实施例中,所述第一切分模块201,用于:
通过VAD对待识别音频进行切分,以将所述待识别音频分为语音部分与非语音部分。
在一个具体的实施例中,第二切分模块202,用于:
将所述语音部分按照预设时间长度切分为多个互不重叠的语音片段;
若时间最后的一个语音片段的时间长度小于预设值,则将时间最后的一个语音片段与相邻的语音片段进行合并。
在一个具体的实施例中,切分后得到的各所述语音片段包括前后扩帧和/或overlap。
在一个具体的实施例中,所述识别模块203,用于:
通过预设的训练好的语种模型对各所述语音片段进行语种识别,以确定各所述语音片段对应的语种;其中,所述语种模型是基于标识有语种的音频进行训练生成的。
在一个具体的实施例中,所述汇总的操作包括以下一个或多个的任意组合:将相邻的相同语种的语音片段进行合并、将预设语音片段对应的语种设置为与相邻语音片段相同的语种,其中,所述预设语音片段处于前后相邻语音片段之间,且前后相邻语音片段对应的语种相同,所述预设语音片段的时间长度小于预设时长。
以此,本发明实施例提出了一种语种识别方法和设备,该方法包括:将待识别音频分为语音部分与非语音部分;将所述语音部分切分为多个语音片段;对各所述语音片段进行语种识别,以确定各所述语音片段对应的语种;汇总各所述语音片段对应的语种确定所述待识别音频中的语种以及各语种对应的时间段。本方案实现了语音的自动化语种识别,可以实时在线的进行语种识别,相较于目前的人工识别方式,提升了效率,降低了成本,便于后续的语音处理,例如会议记录转写,智能电话机器人或酒店多国语言版本等智能设备等,使用方便,且语音转写可以实现更高的准确率。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
Claims (8)
1.一种语种识别方法,其特征在于,包括:
将待识别音频分为语音部分与非语音部分;
将所述语音部分切分为多个语音片段;
其中,所述将所述语音部分切分为多个语音片段,包括:
将所述语音部分按照预设时间长度切分为多个互不重叠的语音片段,其中,切分出的一个个语音片段里面仅有一个语种;
若时间最后的一个语音片段的时间长度小于预设值,则将时间最后的一个语音片段与相邻的语音片段进行合并;
对各所述语音片段进行语种识别,以确定各所述语音片段对应的语种;
汇总各所述语音片段对应的语种确定所述待识别音频中的语种以及各语种对应的时间段;
其中,所述汇总的操作包括以下一个或多个的任意组合:将相邻的相同语种的语音片段进行合并、将预设语音片段对应的语种设置为与相邻语音片段相同的语种,其中,所述预设语音片段处于前后相邻语音片段之间,且前后相邻语音片段对应的语种相同,所述预设语音片段的时间长度小于预设时长。
2.如权利要求1所述的一种语种识别方法,其特征在于,还包括:
接收实时在线的语音数据,并将所述语音数据设置为待识别音频;或
获取离线的待识别音频。
3.如权利要求1所述的一种语种识别方法,其特征在于,所述将待识别音频分为语音部分与非语音部分,包括:
通过VAD对待识别音频进行切分,以将所述待识别音频分为语音部分与非语音部分。
4.如权利要求1所述的一种语种识别方法,其特征在于,切分后得到的各所述语音片段包括前后扩帧和/或overlap。
5.如权利要求1所述的一种语种识别方法,其特征在于,所述对各所述语音片段进行语种识别,以确定各所述语音片段对应的语种,包括:
通过预设的训练好的语种模型对各所述语音片段进行语种识别,以确定各所述语音片段对应的语种;其中,所述语种模型是基于标识有语种的音频进行训练生成的。
6.一种语种识别设备,其特征在于,包括:
第一切分模块、用于将待识别音频分为语音部分与非语音部分;
第二切分模块,用于将所述语音部分按照预设时间长度切分为多个互不重叠的语音片段,其中,切分出的一个个语音片段里面仅有一个语种;若时间最后的一个语音片段的时间长度小于预设值,则将时间最后的一个语音片段与相邻的语音片段进行合并;
识别模块,用于对各所述语音片段进行语种识别,以确定各所述语音片段对应的语种;
汇总模块,用于汇总各所述语音片段对应的语种确定所述待识别音频中的语种以及各语种对应的时间段;
所述汇总模块还用执行的操作包括以下一个或多个的任意组合:将相邻的相同语种的语音片段进行合并、将预设语音片段对应的语种设置为与相邻语音片段相同的语种,其中,所述预设语音片段处于前后相邻语音片段之间,且前后相邻语音片段对应的语种相同,所述预设语音片段的时间长度小于预设时长。
7.如权利要求6所述的一种语种识别设备,其特征在于,还包括:
获取模块,用于接收实时在线的语音数据,并将所述语音数据设置为待识别音频;或
获取离线的待识别音频。
8.如权利要求6所述的一种语种识别设备,其特征在于,所述第一切分模块,用于:
通过VAD对待识别音频进行切分,以将所述待识别音频分为语音部分与非语音部分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010443438.2A CN111613208B (zh) | 2020-05-22 | 2020-05-22 | 一种语种识别方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010443438.2A CN111613208B (zh) | 2020-05-22 | 2020-05-22 | 一种语种识别方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111613208A CN111613208A (zh) | 2020-09-01 |
CN111613208B true CN111613208B (zh) | 2023-08-25 |
Family
ID=72202250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010443438.2A Active CN111613208B (zh) | 2020-05-22 | 2020-05-22 | 一种语种识别方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111613208B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115376490B (zh) * | 2022-08-19 | 2024-07-30 | 北京字跳网络技术有限公司 | 一种语音识别方法、装置及电子设备 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091477A (ja) * | 2000-09-14 | 2002-03-27 | Mitsubishi Electric Corp | 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
FR2852438A1 (fr) * | 2003-03-13 | 2004-09-17 | France Telecom | Systeme de traduction pour audioconference multilingue |
CN101645269A (zh) * | 2008-12-30 | 2010-02-10 | 中国科学院声学研究所 | 一种语种识别系统及方法 |
CN102682760A (zh) * | 2011-03-07 | 2012-09-19 | 株式会社理光 | 重叠语音检测方法和系统 |
CN103400577A (zh) * | 2013-08-01 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 多语种语音识别的声学模型建立方法和装置 |
JP2015018238A (ja) * | 2013-07-08 | 2015-01-29 | インタラクションズ コーポレイション | 自然言語理解のための自動音声認識プロキシシステム |
CN105336324A (zh) * | 2015-11-17 | 2016-02-17 | 百度在线网络技术(北京)有限公司 | 一种语种识别方法及装置 |
KR20170007107A (ko) * | 2015-07-10 | 2017-01-18 | 한국전자통신연구원 | 음성인식 시스템 및 방법 |
CN107195296A (zh) * | 2016-03-15 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、装置、终端及系统 |
CN108172212A (zh) * | 2017-12-25 | 2018-06-15 | 横琴国际知识产权交易中心有限公司 | 一种基于置信度的语音语种识别方法及系统 |
TWI659411B (zh) * | 2018-03-01 | 2019-05-11 | 大陸商芋頭科技(杭州)有限公司 | 一種多語言混合語音識別方法 |
CN110033756A (zh) * | 2019-04-15 | 2019-07-19 | 北京达佳互联信息技术有限公司 | 语种识别方法、装置、电子设备及存储介质 |
CN110349564A (zh) * | 2019-07-22 | 2019-10-18 | 苏州思必驰信息科技有限公司 | 一种跨语言语音识别方法和装置 |
CN110491375A (zh) * | 2019-08-22 | 2019-11-22 | 新疆科大讯飞信息科技有限责任公司 | 一种目标语种检测的方法和装置 |
CN110782872A (zh) * | 2019-11-11 | 2020-02-11 | 复旦大学 | 基于深度卷积循环神经网络的语种识别方法及装置 |
CN110827793A (zh) * | 2019-10-21 | 2020-02-21 | 成都大公博创信息技术有限公司 | 一种语种识别方法 |
CN110838286A (zh) * | 2019-11-19 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语种识别的方法、装置及设备 |
CN110853618A (zh) * | 2019-11-19 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 一种语种识别的方法、模型训练的方法、装置及设备 |
CN111050201A (zh) * | 2019-12-10 | 2020-04-21 | Oppo广东移动通信有限公司 | 数据处理方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9697821B2 (en) * | 2013-01-29 | 2017-07-04 | Tencent Technology (Shenzhen) Company Limited | Method and system for building a topic specific language model for use in automatic speech recognition |
-
2020
- 2020-05-22 CN CN202010443438.2A patent/CN111613208B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091477A (ja) * | 2000-09-14 | 2002-03-27 | Mitsubishi Electric Corp | 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
FR2852438A1 (fr) * | 2003-03-13 | 2004-09-17 | France Telecom | Systeme de traduction pour audioconference multilingue |
CN101645269A (zh) * | 2008-12-30 | 2010-02-10 | 中国科学院声学研究所 | 一种语种识别系统及方法 |
CN102682760A (zh) * | 2011-03-07 | 2012-09-19 | 株式会社理光 | 重叠语音检测方法和系统 |
JP2015018238A (ja) * | 2013-07-08 | 2015-01-29 | インタラクションズ コーポレイション | 自然言語理解のための自動音声認識プロキシシステム |
CN103400577A (zh) * | 2013-08-01 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 多语种语音识别的声学模型建立方法和装置 |
KR20170007107A (ko) * | 2015-07-10 | 2017-01-18 | 한국전자통신연구원 | 음성인식 시스템 및 방법 |
CN105336324A (zh) * | 2015-11-17 | 2016-02-17 | 百度在线网络技术(北京)有限公司 | 一种语种识别方法及装置 |
WO2017084334A1 (zh) * | 2015-11-17 | 2017-05-26 | 百度在线网络技术(北京)有限公司 | 一种语种识别方法、装置、设备及计算机存储介质 |
CN107195296A (zh) * | 2016-03-15 | 2017-09-22 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、装置、终端及系统 |
CN108172212A (zh) * | 2017-12-25 | 2018-06-15 | 横琴国际知识产权交易中心有限公司 | 一种基于置信度的语音语种识别方法及系统 |
TWI659411B (zh) * | 2018-03-01 | 2019-05-11 | 大陸商芋頭科技(杭州)有限公司 | 一種多語言混合語音識別方法 |
CN110033756A (zh) * | 2019-04-15 | 2019-07-19 | 北京达佳互联信息技术有限公司 | 语种识别方法、装置、电子设备及存储介质 |
CN110349564A (zh) * | 2019-07-22 | 2019-10-18 | 苏州思必驰信息科技有限公司 | 一种跨语言语音识别方法和装置 |
CN110491375A (zh) * | 2019-08-22 | 2019-11-22 | 新疆科大讯飞信息科技有限责任公司 | 一种目标语种检测的方法和装置 |
CN110827793A (zh) * | 2019-10-21 | 2020-02-21 | 成都大公博创信息技术有限公司 | 一种语种识别方法 |
CN110782872A (zh) * | 2019-11-11 | 2020-02-11 | 复旦大学 | 基于深度卷积循环神经网络的语种识别方法及装置 |
CN110838286A (zh) * | 2019-11-19 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语种识别的方法、装置及设备 |
CN110853618A (zh) * | 2019-11-19 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 一种语种识别的方法、模型训练的方法、装置及设备 |
CN111050201A (zh) * | 2019-12-10 | 2020-04-21 | Oppo广东移动通信有限公司 | 数据处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111613208A (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781916A (zh) | 视频数据的欺诈检测方法、装置、计算机设备和存储介质 | |
CN106331893A (zh) | 实时字幕显示方法及系统 | |
CN111797632B (zh) | 信息处理方法、装置及电子设备 | |
CN107564528B (zh) | 一种语音识别文本与命令词文本匹配的方法及设备 | |
CN109256137A (zh) | 语音采集方法、装置、计算机设备和存储介质 | |
CN112818680B (zh) | 语料的处理方法、装置、电子设备及计算机可读存储介质 | |
CN114639386A (zh) | 文本纠错及文本纠错词库构建方法 | |
CN111402865A (zh) | 语音识别训练数据的生成方法、语音识别模型的训练方法 | |
CN110503943B (zh) | 一种语音交互方法以及语音交互系统 | |
CN112802498B (zh) | 语音检测方法、装置、计算机设备和存储介质 | |
CN111613208B (zh) | 一种语种识别方法和设备 | |
CN112002328A (zh) | 一种字幕生成方法、装置及计算机存储介质、电子设备 | |
JP2017076127A (ja) | 音響モデル入力データの正規化装置及び方法と、音声認識装置 | |
EP1565906A1 (en) | Speech recognition device and method | |
CN114398952B (zh) | 训练文本生成方法、装置、电子设备及存储介质 | |
CN112863485A (zh) | 口音语音识别方法、装置、设备及存储介质 | |
CN111933187A (zh) | 情感识别模型的训练方法、装置、计算机设备和存储介质 | |
CN115985315A (zh) | 说话人标注方法、装置、电子设备和存储介质 | |
CN112241467A (zh) | 一种音频查重的方法和装置 | |
CN114387589A (zh) | 语音监督数据获取方法、装置、电子设备及存储介质 | |
CN111061815A (zh) | 会话数据分类方法 | |
CN111914777B (zh) | 一种跨模态识别机器人指令的方法及系统 | |
CN116229943B (zh) | 一种对话式数据集的生成方法和装置 | |
CN113035247B (zh) | 一种音频文本对齐方法、装置、电子设备及存储介质 | |
CN111210830B (zh) | 基于拼音的语音唤醒方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |