CN111357049A - 自动语音识别装置及方法 - Google Patents
自动语音识别装置及方法 Download PDFInfo
- Publication number
- CN111357049A CN111357049A CN201880073991.2A CN201880073991A CN111357049A CN 111357049 A CN111357049 A CN 111357049A CN 201880073991 A CN201880073991 A CN 201880073991A CN 111357049 A CN111357049 A CN 111357049A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- speech
- pronunciation code
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000006243 chemical reaction Methods 0.000 claims description 45
- 238000004891 communication Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000012549 training Methods 0.000 description 8
- 238000003860 storage Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241001112258 Moca Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供一种自动语音识别装置及方法,包括用于存储将通过接口模块接收的语音数据转换并输出为记录数据的程序的存储器以及用于执行存储在所述存储器中的程序的处理器,当所述处理器执行所述程序时,基于预训练的第一模型将接收到的所述语音数据转换为发音代码数据,且基于预训练的第二模型将转换后的所述发音代码数据转换为记录数据。
Description
技术领域
本发明涉及一种自动语音识别装置及方法,尤其涉及一种用于提取不失真语音特征的自动语音识别装置及方法。
背景技术
自动语音识别(Speech To Text,STT)是一种自动将原始语音数据转换为适合的字母串的计算技术。在广播、电话咨询、记录、翻译和大数据分析等各个领域都的语音数据分析需要正在逐渐增长。
这些自动语音识别中的大多数可以包括使用声学模型从语音中提取和符号化特征,以及根据上下文在使用语言模型编码的多个候选中选择合适的候选。
另一方面,若原始数据是语音,则不可能直接提取必要的信息,因此将其转换为字母串的过程是必不可少的,但是若手动执行这样的过程,则存在需要花费大量时间和金钱来解决的问题。对高速和准确的自动语音识别的需求不断增长。
为了制造可以使用的高质量语音识别器,有必要构造大量的语音数据和与其对应的字母串数据,即由语音字母串组成的并行数据。
另外,由于实际的发音和符号通常是不同的,因此必须构造能够添加相关信息或发音-符号转换规则数据的程序。
因此,对于国内外的主要语言,几家公司已经确保了语音字母串并行数据和发音符号转换规则数据,并且已经确保了语音识别质量超过一定水平。
然而,语音字母串并行数据或语音-注释转换规则的不完整问题以及由语音-注释转换规则引起的各种中立性导致的数据失真的问题使语音识别的质量恶化。
另外,在开发一种新语言的识别器的情况下,在构造语音字母串并行数据和发音符号转换规则的过程中会产生很多财务和时间上的成本,并且获得质量数据也不容易。
发明内容
要解决的技术问题
本发明是鉴于所述诸多问题而提出的,其目的在于,提供一种防止由用于语音识别的学习数据而导致的信息失真,以低成本的数据确保了高质量的性能,并且利用已经开发的语音识别器来最小化第三种语言的语音成本的自动语音识别装置和方法。
然而,本实施例要实现的技术效果不限于如上所述的技术效果,可能还存在其他技术效果。
技术方案
为了实现所述目的,本发明的自动语音识别装置,包括用于存储将通过接口模块接收的语音数据转换并输出为记录数据的程序的存储器以及用于执行存储在所述存储器中的程序的处理器,当所述处理器执行所述程序时,基于预训练的第一模型将接收到的所述语音数据转换为发音代码数据,且基于预训练的第二模型将转换后的所述发音代码数据转换为记录数据。
预训练的所述第一模型是语音发音代码转换模型,且基于由所述语音数据和发音代码数据组成的并行数据来学习所述语音发音代码转换模型。
转换后的所述发音代码数据由以一维结构表示的长度为1以上的音素或特征值字母串组成。
转换后的所述发音代码数据由与语言无关的值组成。
预先训练的所述第二模型是发音代码记录转换模型,基于由所述发音代码数据和记录数据组成的并行数据来学习所述发音代码记录转换模型。
预先训练的所述第二模型是发音代码记录转换模型,所述第二模型一次将序列型发音代码转换为序列型记录。
预先训练的所述第一模型是语音发音代码转换模型,并且通过基于预先准备的语音数据学习无监督来生成所述语音发音代码转换模型。
预先准备的所述语音数据由并行数据和记录数据组成。
预训练的所述第二模型是发音代码记录转换模型,并且所述处理器基于预训练的所述语音发音代码转换模型转换发音代码数据以对应于所述并行数据中包括的语音数据,基于由所述处理器将被转换为与所述语音数据相对应的发音代码数据和所述记录数据组成的并行数据来训练预训练的所述发音代码记录转换模型。
所述处理器使用预先准备的音节发音数据从转换后的所述发音代码数据中生成字母候选序列,基于语料数据学习的语言模型的所述第二模型将生成的所述字母候选序列转换为所述记录数据。
根据本发明的自动语音识别方法,包括:接收语音数据的步骤;根据预先学习的第一模型将接收到的所述语音数据转换为发音代码序列的步骤;以及基于预训练的第二模型将转换后的所述发音代码字母串转换为记录数据的步骤。
有益效果
根据本发明的上述装置中的任何一个,可以防止由用于语音识别的学习数据而导致的信息失真。
另外,可以在构造自动语音识别机器时减少财务和时间成本,且可以在准确性方面确保高质量的自动语音识别产品。
附图说明
图1是根据本发明的自动语音识别装置的框图。
图2是根据本发明的自动语音识别装置中的自动语音识别方法的流程图。
图3是根据本发明的第一实施例的自动语音识别方法的流程图。
图4是根据本发明第二实施例的自动语音识别方法的流程图。
图5是根据本发明第三实施例的自动语音识别方法的流程图。
图6是根据本发明第四实施例的自动语音识别方法的流程图。
附图标记:
100:自动语音识别装置;
110:存储器;
120:处理器;
130:接口模块;
131:麦克风;
133:显示单元;
140:通信模块。
具体实施方式
在下文中,将参考附图详细地描述本发明的实施例,使得本发明所属领域的技术人员可以容易地实践。然而,本发明可以以许多不同的形式来实现,并且不限于在此描述的实施例。另外,为了清楚地描述本发明,省略了与描述无关的部分。
当说明书的一部分“包括”某个组件时,意味着除非另外指明,否则可以进一步包括其他组件而不是排除其他组件。
图1是根据本发明的自动语音识别装置100的框图。
根据本发明的自动语音识别装置100包括存储器110和处理器120。
存储器110存储用于自动识别语音的程序,即,用于将语音数据转换并输出为记录数据的程序。此时,存储器110是指即使不供电也保持所存储的信息的非易失性存储装置和易失性存储装置。
例如,存储器110可以是紧凑型闪存(CF)卡、安全数字(SD)卡、记忆棒、固态驱动器(SSD)和微型SD等的NAND闪存,硬盘驱动器(HDD)等的磁性计算机存储装置以及如CD-ROM,DVD-ROM等的光盘驱动器。
处理器120执行存储在存储器110中的程序。随着处理器120执行程序,从输入语音数据生成记录数据。
同时,自动语音识别装置还可包括接口模块130和通信模块140。
接口模块130包括用于接收用户的语音数据的麦克风131和用于输出从语音数据转换的记录数据的显示单元133。
通信模块140是用于与如智能电话、平板PC和膝上型计算机的用户终端发送和接收诸如语音数据之类的数据并记录数据的组件。这样的通信模块可以包括有线通信模块和无线通信模块两者。有线通信模块可以被实现为电力线通信装置、电话线通信装置、电缆家庭(MoCA)、以太网、IEEE1294、集成有线家庭网络和RS-485控制装置。另外,无线通信模块可以利用无线LAN(WLAN)、蓝牙、HDR WPAN、UWB、ZigBee、脉冲无线电、60GHz WPAN、二进制CDMA、无线USB技术和无线HDMI技术来实现。
同时,根据本发明的自动语音识别装置可以与上述用户终端分开形成,但是不限于此。即,存储在自动语音识别装置100的存储器110中的程序可以被包括在用户终端的存储器中,并且可以以应用的形式实现。
在下文中,将参照图2至图6更详细地描述由根据本发明的自动语音识别装置100的处理器120执行的每个步骤。
作为参考,根据本发明的实施例的图1中所示的组件可以以软件或以诸如现场可编程门阵列(FPGA)或专用集成电路(ASIC)的硬件形式来实现,并执行预定的角色。
然而,“组件”并不意味着限于软件或硬件,并且每个组件可以被配置为位于可寻址存储介质中或者可以被配置为再现一个或多个处理器。
因此,作为示例,组件是例如软件组件、面向对象的软件组件、类组件以及任务组件、过程、功能、属性、过程、子程序。包括例程、程序代码段、驱动程序、固件、微码、电路、数据、数据库、数据结构、表、数组和变量。
在那些组件内提供的组件和功能可以组合成更少数量的组件,或者进一步分离成附加组件。
图2是根据本发明的自动语音识别装置100中的自动语音识别方法的流程图。
在根据本发明的自动语音识别方法中,首先,当通过麦克风131接收到语音数据时S210,处理器120基于预先学习的第一模型将接收到的语音数据转换成发音代码数据S220。
接下来,处理器120基于预先学习的第二模型将转换后的发音代码数据转换为记录数据S230。
转换后的记录数据可以通过通信模块140发送到用户终端,或者通过自动语音识别装置100本身的显示单元133输出并提供。
自动语音识别方法使用预先准备的预先准备的数据在模型训练步骤中训练第一和第二模型,并使用训练有素的第一和第二模型通过解码步骤接收的语音数据转换为记录数据。
在下文中,将基于第一模型和第二模型的初步数据和各自的具体情况,更详细地描述根据本发明的自动语音识别方法的第一至第四实施例。
图3是根据本发明的第一实施例的自动语音识别方法的流程图。
根据本发明的第一实施例的自动语音识别方法可以使用由语音数据,发音代码数据和记录数据组成的并行数据作为预先数据。
在这些并行数据中,可以基于由语音数据和发音代码数据组成的并行数据来训练作为第一模型的语音发音代码转换模型S301。
此时,在本发明的第一实施例中,所述第一模型的学习方法可以在正常语音识别中使用语音音素学习部分。
此时,应该将由语音数据和发音代码数据组成的并行数据的发音代码表示为可以尽可能代表语音的值,而不必根据符号等表达语音的异质性。这可以减少符号化语音的中立性,以最大程度地减少学习和解码期间的失真。此外,不需要相关的发音更改和逆变换算法(例如,umulan>woomuran,umuran->umulan),并且消除了词与词之间的谐音引起的词边界(例如,yeben anmu->yebnanmu_yeb_nanmu?)不必考虑如何处理。
另外,此时,转换后的发音代码数据可以由长度为1或更大的音素或声音的特征值组成,该特征值可以以一维结构表达而无需以单词为单位学习。这不需要将单词转换为语音到发音代码转换(解码)的观点所需的复杂数据结构(图形),也不需要通过在上下文不足(通常在单词内)中推断单词而发生的误识别(例如失真:Ran->ran?nan?an?)。
另一方面,发音代码数据除了发音之外还可以包括表示音调、语调和休止符的值。
此外,发音代码的形式可以是字母形式的语音符号,由一个或多个数字组成的一束值或其中数字和字母混合的一个或多个值的组合。
在本发明的第一实施例中,可以基于由所述发音代码数据和记录数据构成的并行数据来学习作为所述第二模型的发音代码记录转换模型S302。
此时,作为学习所述第二模型的方法,可以通过应用诸如HMM的常规学习方法来训练能够以序列到序列的形式学习的CNN和RNN等的DNN。
如上所述,一旦学习了作为第一模型和第二模型的语音发音代码转换模型和发音代码记录转换模型,根据本发明的第一实施例的自动语音识别方法包括接口模块130的麦克风131或从用户终端接收语音数据S310,并使用语音-发音代码转换模型将接收到的语音数据转换为发音代码数据S320。
在语音数据被转换成发音代码数据之后,使用发音代码记录转换模型将下一个转换后的发音代码数据转换成记录数据,并且转换后的成记录数据可以通过显示单元133输出或提供给用户终端S330。
在根据第一实施例的自动语音识别方法中,学习语音-发音代码转换模型的声学模型训练步骤和学习发音代码-记录转换模型的记录生成模型训练步骤的两个学习过程分别是序列到序列的,由于是一种能够(从序列到序列)转换的结构,因此可以分两个阶段将其配置为端到端DNN结构。
常规语音识别系统与第一实施例之间的主要区别在于,语音模型(即,语音到发音代码转换模型)的结果是与语言无关的音素。
人类可以说的音素是有限的。因此,可以在不依赖特定语言的情况下通用地设计发音代码。这意味着,即使是那些不懂该语言的人也可以使用发音代码进行转录。这也意味着在学习特定语言的语音模型时,可以使用其他语言数据。因此,与现有技术不同,本发明的第一实施例可以使用已经确保的一些语言数据来学习与语言无关的(通用)声学模型。
另外,由于第一实施例的声学模型的输出是中性且高精度(不失真)的音素信息序列,因此可以将无污染的输入提供给后续处理,即序列到序列模型。序列到序列的问题可以通过基于DNN的高质量技术的最新发展来解决,特别是将发音代码转换为转录本的问题(例如自动翻译)会将上下文信息带入几个单词而不是整个句子中。因此,准确性和速度不是问题。
另外,在第一实施例的转录本的转换过程中,通过应用序列到序列类型的深度学习,可以在学习过程中容易地调整上下文信息的使用。此外,还有一个优点是,与现有语言模型相比,模型的大小不会呈指数增长。因此,通过适当地应用上下文信息的使用范围,可以通过最小化在语音识别处理中与上下文和上下文完全不匹配的单词的出现来生成自然句子。
图4是根据本发明第二实施例的自动语音识别方法的流程图。
根据本发明第二实施例的自动语音识别方法与第一实施例的不同之处在于,使用仅由语音数据和记录数据组成的并行数据作为字典数据。
具体地,第二实施例可以仅使用并行数据中的语音数据来无监督地训练作为第一模型的语音发音代码转换模型S401。
此时,仅使用语音数据来使用无监督学习之所以有效,是因为学习目标是有限数量的发音代码(仅限于人类可发音的发音),并且以相同的语音相同代码形式进行学习。
作为这种无监督学习方法,可以应用诸如聚类技术和强化学习的常规方法。例如,在聚类技术中,将从特定语音部分提取的特征值与从另一部分提取的特征值或其他聚类的中值进行比较,重复数学确定最接近相同簇的过程,直到簇的数量在一定数量之内。可以通过将输出(分类代码)设置为任意数字来学习强化学习,然后沿中性程度较小(清晰度更高)的方向讲授对从特定语音部分提取的特征值进行分类的结果。
另一方面,可以使用由发音代码数据和记录数据组成的并行数据以与第一实施例相同的方式来学习作为本发明的第二实施例中的第二模型的发音代码记录转换模型S402。
此时,通过自动将语音记录并行数据转换为语音发音代码记录并行数据来获得由发音代码数据和记录数据组成的并行数据。在这种情况下,可以通过使用语音发音代码转换模型从语音自动生成发音代码来实现自动转换。
如上所述,一旦学习了作为第一模型和第二模型的语音发音代码转换模型和发音代码记录转换模型,根据本发明第二实施例的自动语音识别方法接收语音数据S410,使用语音发音代码转换模型将接收到的语音数据转换为发音代码数据S420。
接下来,使用发音代码记录转换模型将转换后的发音代码数据转换为记录数据S430。
在根据第二实施例的自动语音识别方法中,由于无监督声学模型训练步骤和记录生成模型训练步骤的两个学习过程均能够进行序列到序列的转换,因此可以在两个步骤中使用端到端DNN结构对其进行配置。
如上所述,本发明的第二实施例的特征在于,引入了无监督的声学模型训练,从而不必预先准备语音发音代码并行数据。
图5是根据本发明第三实施例的自动语音识别方法的流程图。
根据本发明的第三实施例的自动语音识别方法需要语音数据、音节发音数据和语料库数据作为预先数据,每一个都可以独立配置而无需并行数据。
在第三实施例中,与第二实施例一样,可以仅通过使用语音数据来对作为第一模型的语音发音代码转换模型进行监督S501。
接下来,基于预先准备的语料数据学习并生成作为第二模型的语言模型S502。此时,语料库数据不必是平行语料库,语言模型是指能够通过以字母为单位进行跟踪来生成句子的模型。
如上所述,一旦学习到作为第一模型和第二模型的语音到发音代码转换模型和语言模型,根据本发明第三实施例的自动语音识别方法接收语音数据S510并接收语音数据,使用语音发音代码转换模型将其转换为发音代码数据S520。
接下来,可以使用预先准备的音节发音预先数据将转换的发音代码数据生成为能够写入的字母(音节)候选序列S540。
接下来,通过基于语料数据而学习的语言模型,将生成的所述字母候选序列转换为记录数据S540。
此时,在根据本发明第三实施例的自动语音识别方法中,可以在发音代码字母生成步骤S530和候选字母记录生成步骤S540之间添加单词生成步骤。
另一方面,在根据本发明第三实施例的自动语音识别方法中,用于将发音代码数据转换为语音的知识可以是手动,半自动或自动的。
例如,在自动构造知识以将发音代码转换为语音的情况下,通过预先建立的语音发音代码转换模型来生成大容量的语音记录并行数据,并且随机地生成发音代码串。通过重复比较对应于片断和平行语料库的记录的特定音节来查找数学上相似的分布统计量的过程,可以找到音节发音对。
可替代地,可以通过将字节对编码相同地应用于发音代码串和语料库来找到音节-发音对。
不管哪种方式,都可能有错误,但是增加目标语料库会减少错误,即使隐含了错误,也有较低的概率,因此对结果的影响会降低。
在根据本发明第三实施例的自动语音识别方法的情况下,通过无监督声学模型训练步骤,语音到发音代码转换步骤,语言模型训练步骤,发音代码字母生成步骤和候选字母记录生成步骤的5个步骤完成完全无监督的学习。
但是,在这种情况下,音节发音预先应该单独组成。要自动构建音节发音预先,需要并行语料库,但是也可以在没有并行语料库的情况下手动构建。另外,由于是一个音节字典,大小不如单词字典大,但受到限制。
图6是根据本发明第四实施例的自动语音识别方法的流程图。
根据本发明第四实施例的自动语音识别方法与第三实施例的不同之处在于,需要音节发音数据和语料库数据作为预先数据,并且需要由语音数据和发音代码数据组成的并行数据。
具体地,在第四实施例中,可以基于由语音数据和发音代码数据组成的并行数据来训练作为第一模型的语音发音代码转换模型S601。
接下来,基于如第三实施例中预先准备的语料数据,学习并生成第二模型的语言模型S602。
如上所述,一旦学习了作为第一和第二模型的语音和发音代码转换模型以及语言模型,根据本发明第四实施例的自动语音识别方法接收语音数据S610,使用语音发音代码转换模型将接收到的语音数据转换为发音代码数据S620。
接下来,预先使用准备的音节发音数据生成可以写的候选字母串S630。
接下来,通过基于语料数据而学习的语言模型,将生成的字母候选序列转换为记录数据S640。
在以上描述中,根据本发明的实施例,步骤S210至S640可以进一步划分为附加步骤或组合为较少的步骤。另外,必要时可以省略一些步骤,并且可以改变步骤之间的顺序。另外,即使省略,已经关于图1中的自动语音识别装置100描述的内容也被应用于图2至图6的中的自动语音识别方法。
另一方面,根据第一至第四实施例的自动语音识别方法具有一对一的关系,而语音和发音代码之间没有中立性。因此,其不必限于特定语言,并且具有不存在随着语言的改变而改变发音规律并且发音与符号之间的替换关系改变的现象。
因此,可以相同地使用本发明的语音到发音代码转换模型,而无需以所有语言重新学习。
另外,由于上述特征,根据本发明的自动语音识别方法具有不必将语音到发音代码转换学习过程中所需的语音数据限制为特定语言的优点。
另外,本发明通过如第二和第三实施例中的无监督学习声学模型或通过如第一和第四实施例中那样以半自动低成本构建,通过低成本和大容量学习来改善声学模型识别性能。
根据本发明实施例的自动语音识别装置100中的自动语音识别方法也可以以存储在由计算机执行的介质或包括可由计算机执行的指令的记录介质中的计算机程序的形式来实现。计算机可读介质可以是可由计算机访问的任何可用介质,并且包括易失性和非易失性介质,可移动和不可移动介质。另外,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令,数据结构,程序模块或其他数据之类的信息的任何方法或技术实现的易失性和非易失性,可移动和不可移动介质。通信介质通常包括计算机可读指令,数据结构,程序模块或诸如载波之类的调制数据信号中的其他数据,或其他传输机制,并且包括任何信息传递介质。
尽管已经结合特定实施例描述了本发明的方法和系统,但是一些或全部组件或操作可以使用具有通用硬件架构的计算机系统来实现。
*本发明的前述描述仅用于说明,并且本发明所属领域的普通技术人员可以理解,在不改变本发明的技术精神或基本特征的情况下,可以容易地将其修改为其他特定形式。因此,应该理解,上述实施例在所有方面都是说明性的,而不是限制性的。例如,描述为单一类型的每个组件可以以分布式方式实现,并且类似地,描述为分布式的组件可以以组合形式实现。
本发明的范围由所附权利要求而不是上述详细描述来指示,并且应该解释为,从权利要求的含义和范围及其等同概念得出的所有改变或修改形式都包括在本发明的范围内。
产业上的利用可能性
本发明可以应用于各种语音识别技术领域,并且可以提供一种自动语音识别装置和方法。由于该特征,可以防止由用于语音识别的学习数据引起的信息失真。
Claims (11)
1.一种自动语音识别装置,其中,包括用于存储将通过接口模块接收的语音数据转换并输出为记录数据的程序的存储器以及用于执行存储在所述存储器中的程序的处理器,当所述处理器执行所述程序时,基于预训练的第一模型将接收到的所述语音数据转换为发音代码数据,且基于预训练的第二模型将转换后的所述发音代码数据转换为记录数据。
2.根据权利要求1所述的自动语音识别装置,其中,预训练的所述第一模型是语音发音代码转换模型,且基于由所述语音数据和发音代码数据组成的并行数据来学习所述语音发音代码转换模型。
3.根据权利要求2所述的自动语音识别装置,其中,转换后的所述发音代码数据由以一维结构表示的长度为1以上的音素或特征值字母串组成。
4.根据权利要求2所述的自动语音识别装置,其中,转换后的所述发音代码数据由与语言无关的值组成。
5.根据权利要求1所述的自动语音识别装置,其中,预先训练的所述第二模型是发音代码记录转换模型,基于由所述发音代码数据和记录数据组成的并行数据来学习所述发音代码记录转换模型。
6.根据权利要求1所述的自动语音识别装置,其中,预先训练的所述第二模型是发音代码记录转换模型,所述第二模型一次将序列型发音代码转换为序列型记录。
7.根据权利要求1所述的自动语音识别装置,其中,预先训练的所述第一模型是语音发音代码转换模型,并且通过基于预先准备的语音数据无监督学习来生成所述语音发音代码转换模型。
8.根据权利要求7所述的自动语音识别装置,其中,预先准备的所述语音数据由并行数据和记录数据组成。
9.根据权利要求8所述的自动语音识别装置,其中,预训练的所述第二模型是发音代码记录转换模型,并且所述处理器基于预训练的所述语音发音代码转换模型转换发音代码数据以对应于所述并行数据中包括的语音数据,基于由所述处理器将被转换为与所述语音数据相对应的发音代码数据和所述记录数据组成的并行数据来训练预训练的所述发音代码记录转换模型。
10.根据权利要求2或7所述的自动语音识别装置,其中,所述处理器使用预先准备的音节发音数据从转换后的所述发音代码数据中生成字母候选序列,基于语料数据学习的语言模型的所述第二模型将生成的所述字母候选序列转换为所述记录数据。
11.一种自动语音识别方法,其中,包括:
接收语音数据的步骤;
根据预先学习的第一模型将接收到的所述语音数据转换为发音代码序列的步骤;以及
基于预训练的第二模型将转换后的所述发音代码字母串转换为记录数据的步骤。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170151871A KR102075796B1 (ko) | 2017-11-14 | 2017-11-14 | 자동 음성인식 장치 및 방법 |
KR10-2017-0151871 | 2017-11-14 | ||
PCT/KR2018/013412 WO2019098589A1 (ko) | 2017-11-14 | 2018-11-06 | 자동 음성인식 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111357049A true CN111357049A (zh) | 2020-06-30 |
Family
ID=66539179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880073991.2A Pending CN111357049A (zh) | 2017-11-14 | 2018-11-06 | 自动语音识别装置及方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20210174789A1 (zh) |
EP (1) | EP3712886A4 (zh) |
JP (1) | JP2021503104A (zh) |
KR (1) | KR102075796B1 (zh) |
CN (1) | CN111357049A (zh) |
WO (1) | WO2019098589A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11805189B1 (en) * | 2020-09-17 | 2023-10-31 | Intrado Life & Safety, Inc. | Publish and subscribe call center architecture |
US11637923B1 (en) | 2020-09-17 | 2023-04-25 | Intrado Corporation | Insight determination from aggregated call content |
KR102515914B1 (ko) * | 2022-12-21 | 2023-03-30 | 주식회사 액션파워 | Stt 모델을 활용하는 발음 전사 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1667700A (zh) * | 2004-03-10 | 2005-09-14 | 微软公司 | 使用发音图表来改进新字的发音学习 |
CN104380284A (zh) * | 2012-03-06 | 2015-02-25 | 苹果公司 | 针对多种语言处理内容的语音合成 |
CN105679317A (zh) * | 2014-12-08 | 2016-06-15 | 三星电子株式会社 | 用于训练语言模型并识别语音的方法和设备 |
CN106373561A (zh) * | 2015-07-24 | 2017-02-01 | 三星电子株式会社 | 声学得分计算和语音识别的设备和方法 |
CN106407176A (zh) * | 2015-07-31 | 2017-02-15 | 联想(新加坡)私人有限公司 | 在语音识别中插入字符的方法和设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2088080C (en) * | 1992-04-02 | 1997-10-07 | Enrico Luigi Bocchieri | Automatic speech recognizer |
KR20060067107A (ko) * | 2004-12-14 | 2006-06-19 | 한국전자통신연구원 | 조음모델을 이용한 연속음성인식 장치 및 그 방법 |
JP4393494B2 (ja) * | 2006-09-22 | 2010-01-06 | 株式会社東芝 | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム |
KR101424193B1 (ko) * | 2007-12-10 | 2014-07-28 | 광주과학기술원 | 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법 |
JP5068225B2 (ja) * | 2008-06-30 | 2012-11-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声ファイルの検索システム、方法及びプログラム |
JP5161183B2 (ja) * | 2009-09-29 | 2013-03-13 | 日本電信電話株式会社 | 音響モデル適応装置、その方法、プログラム、及び記録媒体 |
JP6284462B2 (ja) * | 2014-09-22 | 2018-02-28 | 株式会社日立製作所 | 音声認識方法、及び音声認識装置 |
KR102117082B1 (ko) * | 2014-12-29 | 2020-05-29 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
KR102313028B1 (ko) * | 2015-10-29 | 2021-10-13 | 삼성에스디에스 주식회사 | 음성 인식 시스템 및 방법 |
KR20170086233A (ko) * | 2016-01-18 | 2017-07-26 | 한국전자통신연구원 | 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법 |
-
2017
- 2017-11-14 KR KR1020170151871A patent/KR102075796B1/ko active IP Right Grant
-
2018
- 2018-11-06 WO PCT/KR2018/013412 patent/WO2019098589A1/ko unknown
- 2018-11-06 CN CN201880073991.2A patent/CN111357049A/zh active Pending
- 2018-11-06 EP EP18879730.2A patent/EP3712886A4/en not_active Withdrawn
- 2018-11-06 US US16/763,901 patent/US20210174789A1/en not_active Abandoned
- 2018-11-06 JP JP2020545027A patent/JP2021503104A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1667700A (zh) * | 2004-03-10 | 2005-09-14 | 微软公司 | 使用发音图表来改进新字的发音学习 |
CN104380284A (zh) * | 2012-03-06 | 2015-02-25 | 苹果公司 | 针对多种语言处理内容的语音合成 |
CN105679317A (zh) * | 2014-12-08 | 2016-06-15 | 三星电子株式会社 | 用于训练语言模型并识别语音的方法和设备 |
CN106373561A (zh) * | 2015-07-24 | 2017-02-01 | 三星电子株式会社 | 声学得分计算和语音识别的设备和方法 |
CN106407176A (zh) * | 2015-07-31 | 2017-02-15 | 联想(新加坡)私人有限公司 | 在语音识别中插入字符的方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
EP3712886A4 (en) | 2021-08-18 |
US20210174789A1 (en) | 2021-06-10 |
WO2019098589A1 (ko) | 2019-05-23 |
KR20190054850A (ko) | 2019-05-22 |
JP2021503104A (ja) | 2021-02-04 |
EP3712886A1 (en) | 2020-09-23 |
KR102075796B1 (ko) | 2020-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113470662B (zh) | 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配 | |
CN113439301B (zh) | 用于机器学习的方法和系统 | |
US9697201B2 (en) | Adapting machine translation data using damaging channel model | |
Zhu et al. | Phone-to-audio alignment without text: A semi-supervised approach | |
CN108899009B (zh) | 一种基于音素的中文语音合成系统 | |
CN115516552A (zh) | 使用未说出的文本和语音合成的语音识别 | |
CN116364055B (zh) | 基于预训练语言模型的语音生成方法、装置、设备及介质 | |
US11727922B2 (en) | Systems and methods for deriving expression of intent from recorded speech | |
CN113053357B (zh) | 语音合成方法、装置、设备和计算机可读存储介质 | |
CN112786018B (zh) | 语音转换及相关模型的训练方法、电子设备和存储装置 | |
CN112580335B (zh) | 多音字消歧方法及装置 | |
CN111357049A (zh) | 自动语音识别装置及方法 | |
Le et al. | G2G: TTS-driven pronunciation learning for graphemic hybrid ASR | |
CN117859173A (zh) | 利用基于语音合成的模型适配改进语音识别 | |
KR20160061071A (ko) | 발음 변이를 적용시킨 음성 인식 방법 | |
CN117877460A (zh) | 语音合成方法、装置、语音合成模型训练方法、装置 | |
Coto‐Solano | Computational sociophonetics using automatic speech recognition | |
EP4275203B1 (en) | Self-learning end-to-end automatic speech recognition | |
US20230317059A1 (en) | Alignment Prediction to Inject Text into Automatic Speech Recognition Training | |
CN115424604B (zh) | 一种基于对抗生成网络的语音合成模型的训练方法 | |
EP4068279B1 (en) | Method and system for performing domain adaptation of end-to-end automatic speech recognition model | |
Ai et al. | A new approach to accent recognition and conversion for mandarin chinese | |
KR20200121260A (ko) | 발음 변이를 적용시킨 음성 인식 방법 | |
US20240290321A1 (en) | Chunk-wise attention for longform asr | |
Kabir et al. | Real time bengali speech to text conversion using CMU sphinx |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200630 |