CN111768765A - 语言模型生成方法和电子设备 - Google Patents
语言模型生成方法和电子设备 Download PDFInfo
- Publication number
- CN111768765A CN111768765A CN202010752811.2A CN202010752811A CN111768765A CN 111768765 A CN111768765 A CN 111768765A CN 202010752811 A CN202010752811 A CN 202010752811A CN 111768765 A CN111768765 A CN 111768765A
- Authority
- CN
- China
- Prior art keywords
- pinyin
- sequence
- sound
- wrong
- correct
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 54
- 230000006870 function Effects 0.000 claims description 41
- 238000004590 computer program Methods 0.000 claims description 18
- 238000012216 screening Methods 0.000 claims description 9
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 41
- 230000006854 communication Effects 0.000 description 34
- 238000004891 communication Methods 0.000 description 33
- 239000010410 layer Substances 0.000 description 26
- 238000007726 management method Methods 0.000 description 20
- 238000012545 processing Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 19
- 238000010295 mobile communication Methods 0.000 description 11
- 230000005236 sound signal Effects 0.000 description 11
- 101100033674 Mus musculus Ren2 gene Proteins 0.000 description 10
- 210000000988 bone and bone Anatomy 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000012937 correction Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 3
- 230000036772 blood pressure Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000010349 pulsation Effects 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephone Function (AREA)
Abstract
本申请实施例提供一种语言模型生成方法和电子设备,方法中,获得每个拼音的常用错误音、以及所述常用错误音的分布概率,获取正确拼音序列,根据所述每个拼音的常用错误音、以及所述常用错误音的分布概率,为所述正确拼音序列生成对应的错误拼音序列;使用所述正确拼音序列以及对应的错误拼音序列对预设语言模型进行训练。本申请实施例可以应用于终端人工智能领域,提高电子设备中语音识别的准确率,提升用户体验。
Description
技术领域
本申请涉及终端人工智能技术领域,特别涉及语言模型生成方法和电子设备。
背景技术
语音识别(ASR,automatic speech recognition)是一种将语音信号转换为文本信息的技术。在电子设备应用的很多场景中,需要使用语音识别技术,例如不同语言的语音之间的翻译、智能电子设备与用户的语音交互、即时通信软件中即时语音信号到文本信息的转换等等。但是,由于周围噪声干扰和用户个体口音的差异等的影响,电子设备在识别用户输入的语音信号时可能会出现用户的语音信号的识别结果与用户实际语音内容有较大偏差的问题,导致用户体验变差,因此需要提高电子设备中语音识别的准确率、提升用户体验。
发明内容
本申请提供了一种语言模型生成方法和电子设备,能够提高电子设备中语音识别的准确率,提升用户体验。
第一方面,本申请实施例提供了一种语言模型生成方法,包括:
获得每个拼音的常用错误音、以及常用错误音的分布概率;
获取正确拼音序列;
根据每个拼音的常用错误音、以及常用错误音的分布概率,为正确拼音序列生成对应的错误拼音序列;
使用正确拼音序列以及对应的错误拼音序列对预设语言模型进行训练。
该方法获得每个拼音的常用错误音、以及常用错误音的分布概率,据此为正确拼音序列生成对应的错误拼音序列,将正确拼音序列和其对应的错误拼音序列作为一组拼音序列对语言模型进行训练,从而训练得到的语言模型能够实现对于拼音序列的纠错,将语言模型用于语音识别流程中时,能够对声学模型输出的拼音序列进行纠错,从而能够提高电子设备中语音识别的准确率,提升用户体验。
在一种可能的实现方式中,获得每个拼音的常用错误音、以及常用错误音的分布概率,包括:
将预设训练集中的每个语音信号分别输入预设声学模型,得到每个语音信号的拼音识别结果,每个语音信号的拼音识别结果包括:声学模型识别出的语音信号的第一拼音序列、以及第一拼音序列中每个拼音的概率值;训练集中包括:语音信号、以及语音信号的实际拼音序列;
将每个语音信号的拼音识别结果与对应的实际拼音序列进行比对,统计实际拼音序列中每个拼音被声学模型识别出的错误音;
根据实际拼音序列中的每个拼音的错误音确定每个拼音的常用错误音;
对于实际拼音序列中的每个拼音,根据该拼音的每个常用错误音的概率值计算该拼音的每个常用错误音的分布概率。
在一种可能的实现方式中,根据实际拼音序列中的每个拼音的错误音确定每个拼音的常用错误音,包括:
对于每个拼音的每个错误音,基于拼音识别结果中该错误音的概率值计算该错误音的概率值总和;对于每个拼音,选择概率值总和超过预设第一阈值的错误音作为该拼音的常用错误音。
在一种可能的实现方式中,根据实际拼音序列中的每个拼音的错误音确定每个拼音的常用错误音,包括:
根据预先设置的每个拼音的模糊音对每个拼音的错误音进行筛选,将每个拼音的模糊音中包括的错误音确定为每个拼音的常用错误音。
在一种可能的实现方式中,根据每个拼音的常用错误音、以及常用错误音的分布概率,为正确拼音序列生成对应的错误拼音序列,包括:
随机生成m个1至M之间的数值,m的数值取值范围为[1,M],随机生成的m个数值互不相同;M是正确拼音序列包括的拼音个数;
对于生成的m个数值,分别随机生成每个数值对应的概率;
对于m个数值中的第l个数值,l为1,2,3…,m,将正确拼音序列中顺序为第l个数值的拼音,根据该拼音的常用错误音以及常用错误音的分布概率,按照第l个数值对应的概率确定该拼音的替代错误音,将正确拼音序列中顺序为第l个数值的拼音替换为该拼音的替代错误音,得到正确拼音序列对应的错误拼音序列。
在一种可能的实现方式中,使用正确拼音序列以及对应的错误拼音序列对预设语言模型进行训练,包括:
将每一组拼音序列中的正确拼音序列和错误拼音序列分别按照拼音对应的标签进行转化,得到一组标签序列,一组标签序列中包括:正确拼音序列对应的正确标签序列,错误拼音序列对应的错误标签序列;
将第一数量组标签序列进行拼接处理,得到拼接标签序列;
将拼接标签序列输入预设语言模型,得到输出结果;
根据输出结果对预设语言模型的权重进行更新。
在一种可能的实现方式中,根据输出结果对预设语言模型的权重进行更新,包括:
将拼接标签序列的输出结果切分为第一数量组标签序列中每个标签序列对应的输出结果;
根据每个标签序列对应的输出结果计算第一数量组标签序列的损失函数;
根据第一数量组标签序列的损失函数对语言模型的权重进行更新。
第二方面,本申请实施例提供一种电子设备,包括:
一个或多个处理器;存储器;以及一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中,一个或多个计算机程序包括指令,当指令被设备执行时,使得设备执行以下步骤:
获得每个拼音的常用错误音、以及常用错误音的分布概率;
获取正确拼音序列;
根据每个拼音的常用错误音、以及常用错误音的分布概率,为正确拼音序列生成对应的错误拼音序列;
使用正确拼音序列以及对应的错误拼音序列对预设语言模型进行训练。
在一种可能的实现方式中,指令被设备执行时,使得获得每个拼音的常用错误音、以及常用错误音的分布概率的步骤,包括:
将预设训练集中的每个语音信号分别输入预设声学模型,得到每个语音信号的拼音识别结果,每个语音信号的拼音识别结果包括:声学模型识别出的语音信号的第一拼音序列、以及第一拼音序列中每个拼音的概率值;训练集中包括:语音信号、以及语音信号的实际拼音序列;
将每个语音信号的拼音识别结果与对应的实际拼音序列进行比对,统计实际拼音序列中每个拼音被声学模型识别出的错误音;
根据实际拼音序列中的每个拼音的错误音确定每个拼音的常用错误音;
对于实际拼音序列中的每个拼音,根据该拼音的每个常用错误音的概率值计算该拼音的每个常用错误音的分布概率。
在一种可能的实现方式中,指令被设备执行时,使得根据实际拼音序列中的每个拼音的错误音确定每个拼音的常用错误音的步骤,包括:
对于每个拼音的每个错误音,基于拼音识别结果中该错误音的概率值计算该错误音的概率值总和;对于每个拼音,选择概率值总和超过预设第一阈值的错误音作为该拼音的常用错误音。
在一种可能的实现方式中,指令被设备执行时,使得根据实际拼音序列中的每个拼音的错误音确定每个拼音的常用错误音的步骤,包括:
根据预先设置的每个拼音的模糊音对每个拼音的错误音进行筛选,将每个拼音的模糊音中包括的错误音确定为每个拼音的常用错误音。
在一种可能的实现方式中,指令被设备执行时,使得根据每个拼音的常用错误音、以及常用错误音的分布概率,为正确拼音序列生成对应的错误拼音序列的步骤,包括:
随机生成m个1至M之间的数值,m的数值取值范围为[1,M],随机生成的m个数值互不相同;M是正确拼音序列包括的拼音个数;
对于生成的m个数值,分别随机生成每个数值对应的概率;
对于m个数值中的第l个数值,l为1,2,3…,m,将正确拼音序列中顺序为第l个数值的拼音,根据该拼音的常用错误音以及常用错误音的分布概率,按照第l个数值对应的概率确定该拼音的替代错误音,将正确拼音序列中顺序为第l个数值的拼音替换为该拼音的替代错误音,得到正确拼音序列对应的错误拼音序列。
在一种可能的实现方式中,指令被设备执行时,使得使用正确拼音序列以及对应的错误拼音序列对预设语言模型进行训练的步骤,包括:
将每一组拼音序列中的正确拼音序列和错误拼音序列分别按照拼音对应的标签进行转化,得到一组标签序列,一组标签序列中包括:正确拼音序列对应的正确标签序列,错误拼音序列对应的错误标签序列;
将第一数量组标签序列进行拼接处理,得到拼接标签序列;
将拼接标签序列输入预设语言模型,得到输出结果;
根据输出结果对预设语言模型的权重进行更新。
在一种可能的实现方式中,指令被设备执行时,使得根据输出结果对预设语言模型的权重进行更新的步骤,包括:
将拼接标签序列的输出结果切分为第一数量组标签序列中每个标签序列对应的输出结果;
根据每个标签序列对应的输出结果计算第一数量组标签序列的损失函数;
根据第一数量组标签序列的损失函数对语言模型的权重进行更新。。
第三方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行第一方面的方法。
第四方面,本申请提供一种计算机程序,当计算机程序被计算机执行时,用于执行第一方面的方法。
在一种可能的设计中,第四方面中的程序可以全部或者部分存储在与处理器封装在一起的存储介质上,也可以部分或者全部存储在不与处理器封装在一起的存储器上。
附图说明
图1为本申请实施例电子设备的结构示意图;
图2为本申请实施例电子设备的软件结构框图;
图3为本申请实施例语音识别流程示意图;
图4为本申请语言模型生成方法一个实施例的流程图;
图5为本申请一个拼音的错误音直方图;
图6为本申请语言模型生成方法另一个实施例的流程图;
图7为本申请语言模型生成装置一种实施例的结构图。
具体实施方式
本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
本申请实施例提供的方法可以应用于电子设备,例如:手机,平板电脑(Pad,portable android device),个人电脑(PC,person computer),可穿戴设备例如智能眼镜、智能手表,IoT设备,智慧屏,智能网联车(Intelligent Connected Vehicle;以下简称:ICV),智能(汽)车(smart/intelligent car)或车载设备等。
示例性的,图1示出了电子设备100的结构示意图。电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K,充电器,闪光灯,摄像头193等。例如:处理器110可以通过I2C接口耦合触摸传感器180K,使处理器110与触摸传感器180K通过I2C总线接口通信,实现电子设备100的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在一些实施例中,音频模块170可以通过I2S接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中,音频模块170也可以通过PCM接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过UART接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块170可以通过UART接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器110与显示屏194,摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器110和摄像头193通过CSI接口通信,实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信,实现电子设备100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器110与摄像头193,显示屏194,无线通信模块160,音频模块170,传感器模块180等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电,也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备,例如AR设备等。
可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(codedivision multiple access,CDMA),宽带码分多址(wideband code division multipleaccess,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidounavigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellitesystem,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。
电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备100可以包括1个或N个摄像头193,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器121的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备100的各种功能应用以及数据处理。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中,电子设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180B检测电子设备100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。
气压传感器180C用于测量气压。在一些实施例中,电子设备100通过气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中,当电子设备100是翻盖机时,电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,电子设备100可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定电子设备100附近有物体。当检测到不充分的反射光时,电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测电子设备100是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,电子设备100利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,电子设备100执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备100对电池142加热,以避免低温导致电子设备100异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备100对电池142的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器180K,也称“触控器件”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于电子设备100的表面,与显示屏194所处的位置不同。
骨传导传感器180M可以获取振动信号。在一些实施例中,骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器180M也可以设置于耳机中,结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息,实现心率检测功能。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入,产生与电子设备100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在电子设备100中,不能和电子设备100分离。
电子设备100的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本发明实施例以分层架构的Android系统为例,示例性说明电子设备100的软件结构。
图2是本发明实施例的电子设备100的软件结构框图。
分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和系统库,以及内核层。
应用程序层可以包括一系列应用程序包。
如图2所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图2所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
下面结合捕获拍照场景,示例性说明电子设备100软件以及硬件的工作流程。
当触摸传感器180K接收到触摸操作,相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标,触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件,识别该输入事件所对应的控件。以该触摸操作是触摸单击操作,该单击操作所对应的控件为相机应用图标的控件为例,相机应用调用应用框架层的接口,启动相机应用,进而通过调用内核层启动摄像头驱动,通过摄像头193捕获静态图像或视频。
为了便于理解,本申请以下实施例将以具有图1和图2所示结构的电子设备为例,结合附图和应用场景,对本申请实施例提供的方法进行具体说明。
首先对语音识别的流程进行说明。如图3所示,可以包括以下两个过程:将拾音得到的语音信号输入声学模型,得到语音信号的拼音序列;将得到的拼音序列输入语言模型,得到拼音序列对应的汉字。
其中的语言模型可以由电子设备执行本申请实施例语言模型生成方法生成,进而将生成的语言模型应用于图3所示的语音识别流程中,对声学模型输出的拼音序列进行纠错,进而将纠错后的拼音序列转换为汉字,以提高语音识别的准确率。需要说明的是,本申请实施例的拼音纠错是语言模型的一部分,通过本申请实施例语言模型生成方法生成的语言模型既可以对声学模型输出的拼音序列进行纠错还可以将纠错后的拼音序列转换为汉字。
以下,对本申请实施例语言模型生成方法进行示例性说明。如图4所示,可以包括:
步骤401:预设训练集,训练集中包括:语音信号、语音信号的实际拼音序列、以及语音信号的实际汉字序列。
例如,训练集包括:
“我们是中国人”的语音信号1,语音信号1的实际拼音序列:wo3、men2、shi4、zhong1、guo2、ren2,以及语音信号1的实际汉字序列:我们是中国人;
“我是发明人”的语音信号2,语音信号2的实际语音序列:wo3、shi4、fa1、ming2、ren2,以及语音信号2的实际汉字序列:我是发明人;
等等。
优选地,训练集中所有实际拼音序列包括的拼音覆盖所有可能拼音,以便步骤406中能够得到每个拼音的错误音概率矩阵,提高训练得到的语言模型的纠错性能,进而提高语音识别的准确率。目前发明人统计的汉字的可能拼音的总数量一般为1598个,训练集中所有实际拼音序列包括的拼音优选覆盖上述1598个拼音。需要说明的是,并不是每一个实际语音序列都需要包括所有可能拼音,只要训练集中所有实际拼音序列包括的拼音覆盖所有可能拼音。举例来说,上述语音信号1的实际语音序列中只包括6个拼音,语音信号2的实际语音序列中只包括5个拼音,但是上述2个语音信号的2个实际语音序列覆盖了8个可能拼音。上述可能拼音的总数量为1598个仅为示例,并不用以限制汉字可能拼音的总数量。
需要说明的是,训练集中所有实际音频序列中包括一个拼音的数量越多,步骤406中建立的该拼音的错误音概率矩阵越准确,进而训练得到的语言莫模型的纠错性能越强。举例来说,假设训练集包括3000条语音信号,每条语音信号对应一个实际拼音序列,从而训练集中包括3000个实际拼音序列,这3000个拼音序列中包括拼音wo3的数量为5000个,包括拼音ji1的数量为6000个,则步骤406中建立的拼音ji1的错误音概率矩阵相对于拼音wo3的错误音概率矩阵更为准确。
步骤402:将训练集中的语音信号分别输入预设声学模型,得到训练集中每个语音信号的拼音识别结果。
每个语音信号的拼音识别结果可以包括:声学模型识别出的语音信号的第一拼音序列、以及第一拼音序列中每一个拼音的概率值。第一拼音序列可能会因为语音信号中的噪声、用户口音、发音等问题而出现拼音识别错误,从而与语音信号的实际拼音序列存在偏差。延续步骤401的举例,语音信号1的拼音识别结果可以包括:语音信号1的第一拼音序列:wo1、men2、si3、zhong1、guo2、ren2,以及拼音wo1的概率值0.7、men2的概率值0.9、si3的概率值0.7、zhong1的概率值0.6、guo2的概率值0.5、以及ren2的概率值0.8;语音信号2的拼音识别结果可以包括:语音信号2的第一拼音序列:wo2、si4、fa2、ming2、ren4,以及拼音wo2的概率值0.6、si4的概率值0.7、fa2的概率值0.8、ming2的概率值0.6、以及ren4的概率值0.8。
需要说明的是,这里的声学模型是已经训练好的声学模型,而不是要进行训练的声学模型,本申请实施例中训练得到的语言模型可以与该声学模型配合,实现如图5所示的语音识别的流程,为该声学模型输出的拼音序列进行纠错,提高语音识别的准确率。
步骤403:将每个语音信号的拼音识别结果与对应的实际拼音序列进行比对,统计实际拼音序列中的每个拼音被声学模型识别出的错误音。
可选地,还可以统计每个拼音的每个错误音的个数。
延续步骤402中的举例,将语音信号1的第一拼音序列与实际拼音序列进行对比,得到wo3的错误音wo1,shi4的错误音si3;将语音信号2的第一拼音序列与实际拼音序列进行对比,得到wo3的错误音wo2,shi4的错误音si4,fa1的错误音fa2,ren2的错误音ren4;以此类推,可以得到针对于每个语音信号的拼音识别结果的比对结果,进而基于比对结果,可以统计得到例如wo3的错误音wo1的个数,wo3的错误音wo2的个数等等。
如图5为基于拼音ji1的错误音以及每个错误音个数建立的直方图。
步骤404:对每个拼音的错误音进行筛选,得到每个拼音的常用错误音。
第一种可能的实现方式中:对于每个拼音的每个错误音,基于拼音识别结果中该错误音的概率值计算该错误音的概率值总和,选择概率值总和超过预设第一阈值的错误音作为该拼音的常用错误音。
举例来说,一个拼音ji1,假设其错误音ji4的个数为3700个,由于拼音识别结果中每个错误音ji4都具有一个概率值,因此,在拼音识别结果中,3700个错误音ji4具有3700个该错误音ji4的概率值,计算3700个概率值的总和,得到错误音ji4的概率值总和,如果错误音ji4的概率值总和超过第一阈值,则将ji4作为拼音ji1的常用错误音,否则,不将ji4作为拼音ji1的常用错误音。其中,第一阈值的具体取值本申请实施例不作限定。
第二种可能的实现方式中:预先建立模糊音矩阵,基于模糊音矩阵对每个拼音的错误音进行筛选,得到常用错误音。
模糊音矩阵的行代表拼音,列代表模糊音。模糊音矩阵可以具有H行,H列,每一行对应一个拼音,每一列对应一个拼音,不同行对应的拼音不同,不同列对应的拼音不同,H是汉字可能拼音的总数,例如前述举例中拼音总数可以为1598。
对于模糊音矩阵中第j行第k列的元素Qjk:如果第k列对应的拼音k是第j行对应的拼音j的模糊音,模糊音矩阵中第j行第k列的元素Qjk是1;如果第k列对应的拼音k不是第j行对应的拼音j的模糊音,模糊音矩阵中第j行第k列的元素Qjk是0。模糊音矩阵例如以下矩阵所示,举例来说,拼音chang的模糊音有chan、cang,拼音kan不是拼音chang的模糊音,则如果拼音chang对应第3行,拼音chan对应第4列,拼音cang对应第8列,拼音kan对应第10列,则第3行第4列的元素为1,第3行第8列的元素为1,第3行第10列的元素为0。j的
举例来说,模糊音可以分为原音的模糊音和辅音的模糊音,例如:辅音的模糊音可以包括但不限于:ch:c,sh:s,zh:z,k:g,f:h,n:l,r:l,c:ch,s:sh,z:zh,g:k,h:f,l:n,l:r;元音的模糊音包括但不限于:ang:an,eng:en,ing:in,iang:ian,uang:uan,an:ai,an:ang,un:ong,en:eng,in:ing,ian:iang,uan:uang,ai:an,ong:un。则,基于辅音的模糊音和元音的模糊音,可以确定拼音的模糊音,进而建立模糊音矩阵。基于模糊音矩阵对每个拼音的错误音进行筛选时,如果错误音是拼音的模糊音,则确定为常用错误音,如果错误音不是拼音的模糊音,则不确定为常用错误音。
需要说明的是,模糊音矩阵仅是记录拼音的模糊音的一种方式,在实际应用中,电子设备中也可以通过其他方式记录每个拼音对应的模糊音,本申请实施例不作限定。
步骤405:对于每个拼音,计算该拼音的每个常用错误音的分布概率。
假设一个拼音有s个常用错误音,则第i个常用错误音的分布概率Pi的计算公式可以为:
其中,i的取值为1,2,…,s,则得到s个常用错误音中每个常用错误音的分布概率;N1是第1个常用错误音的概率值总和,N2是第2个常用错误音的概率值总和,…,Ns是第s个常用错误音的概率值总和,Ni是第i个常用错误音的概率值总和。
步骤406:根据每个拼音的常用错误音的分布概率建立错误音概率矩阵。
其中,错误音概率矩阵的行代表拼音,列代表错误音。错误音概率矩阵具有H行,H列,每一行对应一个拼音,每一列对应一个拼音,不同行对应的拼音不同,不同列对应的拼音不同,H是汉字可能拼音的总数,例如前述举例中拼音总数H可以为1598。
对于矩阵中第j行第k列的元素pjk:如果第k列对应的拼音k是第j行对应的拼音j的常用错误音,矩阵中第j行第k列的元素pjk是拼音k作为拼音j的常用错误音的分布概率;如果第k列对应的拼音k不是第j行对应的拼音j的常用错误音,矩阵中第j行第k列的元素pjk是0。错误音概率矩阵例如以下矩阵所示。
举例来说,假设拼音j为ji1,拼音k为ji4,拼音k是拼音j的常用错误音,且分布概率为P1,则pjk为P1,假设拼音H为qi1,拼音H是拼音j的常用错误音,且分布概率为P2,则pjH为P2。
其中,步骤406为可选步骤,错误音概率矩阵是存储每个拼音的常用错误音、以及常用错误音的分布概率的一种方式。
以上的步骤401~步骤406是错误音概率矩阵的建立过程。以下步骤407~步骤410是错误音句子样本生成过程。
步骤407:获取一包括M个拼音的正确拼音序列。
假设为(a1,a2,…,aM)。
其中,步骤407中获取的正确拼音序列可以是步骤401中样本集中语音信号的实际拼音序列,也可以是另外建立的正确拼音序列集合,本申请实施例不做限定。
可以在电子设备中预设正确拼音序列集合,集合中包括若干个正确拼音序列,集合中所有正确拼音序列覆盖所有可能拼音,以便后续训练得到的语言模型能够对所有可能拼音进行纠错。
步骤408:随机生成m个1~M之间的数值,m的数值取值范围[1,M],m个数值互不相同。
其中,随机生成的数值是[1,M]中的自然数,m个数值假设为(d1,d2,…,dm),则d1、d2、…、dm均是[1,M]中的自然数。
步骤409:对于m个数值,分别随机生成每个数值对应的概率,概率的取值范围是[0,1]。
假设步骤408中的m个数值对应的概率为(d1:p1,d2:p2,…,dm:pm),p1、p2、…、pm表示每个数值对应的概率。
步骤410:对于m个数值中的第l个数值,l为1,2,3…,m,将正确拼音序列中顺序为第l个数值的拼音,根据该拼音的错误音概率矩阵查找到该拼音的错误音以及错误音的分布概率,按照第l个数值的概率确定该拼音的替代错误音,将正确拼音序列中顺序为第l个数值的拼音替换为该拼音的替代错误音,得到正确拼音序列对应的错误拼音序列。
其中,可以将该拼音的错误音中分布概率与第l个数值的概率最接近的错误音确定为该拼音的替代错误音。
举例来说,第l个数值为dl,其概率为pl,正确拼音序列中第dl个拼音为adl,则从adl的错误音概率矩阵中得到拼音adl的错误音以及错误音分布概率,将分布概率与概率pl最接近的错误音确定为拼音adl的替代错误音,将该替代错误音替换正确拼音序列中的拼音adl。
对上述的步骤407~410举实例说明:
假设M为5,步骤407中获取的正确拼音序列为(wo3,shi4,zhong1,guo2,ren2);假设步骤408中随机生成3(也即m)个1~5(也即M)之间的数值(1,3,5);假设步骤409中:随机生成1,3,5对应的概率分别为)(1:0.8,3:0.7,5:0.6);则步骤410中,对于3(也即m)个数值中的第1(也即l)个数值“1”,将正确拼音序列中第1个拼音wo3,根据wo3的错误音概率矩阵查找到wo3的错误音中wo1的分布概率最接近第1(也即l)个数值“1”对应的概率0.8,则将wo1确定为拼音wo3的替代错误音,使用wo1替换正确拼音序列中的wo3,同理,对于3(也即m)个数值中的第2(也即l)个数值“3”,假设得到zhong1的替代错误音为zhong3,对于3(也即m)个数值中的第3(也即l)个数值“5”,假设得到ren2的替代错误音为ren4,则可以得到正确拼音序列(wo3,shi4,zhong1,guo2,ren2)对应的错误拼音序列(wo1,shi4,zhong3,guo2,ren4)。
通过上述步骤407~步骤410可以随机产生一个正确拼音序列的错误拼音序列,重复执行上述步骤407~步骤410,可以得到正确拼音序列集合中每个正确拼音序列对应的至少一个错误拼音序列。以下,将正确拼音序列和其对应的一个错误拼音序列称为一组拼音序列。
在步骤411~步骤414中,可以基于产生的正确拼音序列和错误拼音序列训练得到本申请实施例的语言模型。
步骤411:对于每一组拼音序列,将每一组拼音序列中的正确拼音序列和错误拼音序列分别按照拼音对应的标签进行转化,得到一组标签序列,一组标签序列中包括:正确拼音序列对应的正确标签序列,错误拼音序列对应的错误标签序列。
其中,可以为每个拼音设置对应的标签,不同拼音对应的标签不同。在本步骤中,根据为每个拼音预设的标签,将正确拼音序列中包括的拼音映射为拼音对应的标签,可以得到正确标签序列,将错误拼音序列中包括的拼音映射为拼音对应的标签,可以得到错误标签序列。
举例来说,假设正确拼音序列X1=[wo3,men2,shi4,zhong1,guo2,ren2],对应的错误拼音序列为X2=[wo3,men2,si4,zong1,guo2,ren2];通过将拼音映射为标签,可以得到正确标签序列X1_L=[1,2,4,10,140,11],错误标签序列X2_L=[1,2,30,20,140,11]。其中,正确拼音序列中错误拼音序列的第一个、第二个、第五个、第六个拼音对应相同,分别映射为标签1、2、140、11;正确拼音序列中第三个拼音为shi4,映射为标签4,第四个拼音为zhong1,映射为标签10;错误拼音序列中第三个拼音为si4,映射为标签30,第四个拼音为zong1,映射为标签20。
通过本步骤的处理,可以将每一组拼音序列映射为一组标签序列。
步骤412:将第一数量组标签序列进行拼接处理,得到拼接标签序列。
第一数量为自然数,具体取值本申请实施例不作限定。
上述第一数量组标签序列中每个标签序列中包括的标签数相同,假设第一数量为J,J是自然数,标签数量为K,则拼接标签序列的维度为:(2J)*K。
延续步骤411中的举例,假设第一数量为1,将步骤411中的一组标签序列X1_L和X2_L进行拼接处理,将得到拼接标签序列X_L=[[1,2,4,10,140,11],[1,2,30,20,140,11]],X_L的维度为2*6;假设第一数量为2,则有2组标签序列假设为X1_L、X2_L、X3_L和X4_L,X1_L、X2_L同上,正确标签序列X3_L=[1,5,4,10,36,11],错误标签序列X2_L=[1,5,4,20,140,11],则得到的拼接标签序列X_L=[[1,2,4,10,140,11],[1,2,30,20,140,11],[1,5,4,10,36,11],[1,5,4,20,140,11]],X_L的维度为(2*2)*6。
步骤413:将拼接标签序列输入预设语言模型,得到输出结果,输出结果中包括:拼接标签序列中每个标签生成每个汉字的概率。
其中,预设语言模型的结构本申请实施例不作限定,例如可以为卷积神经网络(CNN,Convolutional Neural Networks),循环神经网络(RNN,Recurrent NeuralNetworks),transformer等。
其中,拼接标签序列的维度为:(2J)*K,假设词表中所有汉字的数量为N,则输出结果的维度为(2J)*K*N。
延续步骤411中举例,假设拼接标签序列X_L=[[1,2,4,10,140,11],[1,2,30,20,140,11]]输出语言模型,得到的输出结果为:X_P=[[[P111,P112,P113,…,P11N],[P121,P122,P123,…,P12N],…,[P161,P162,P163,…,P16N]],[[P211,P212,P213,…,P21N],[P221,P222,P223,…,P22N],…,[P261,P262,P263,…,P26N]]]。其中,每个元素Pxyz,x表示拼接标签序列中标签序列的位置,y表示标签序列中标签的位置,z表示词表中汉字的位置,Pxyz表示第x个标签序列中第y个标签生成为第z个汉字的概率。其中,Pxy1+Pxy2+Pxy3+…+PxyN=1。
需要说明的是,发明人在本申请实施例实现时整理的词表中汉字个数为8473个,也即N为8473。
以第1个标签序列X1_L中的第1个标签“1”(也即wo3对应的标签)为例,其识别为‘我’的概率为0.9,识别为‘窝’的概率为0.01,识别为‘喔’的概率为0.02,对应的生成每个汉字的概率序列为[0,0,…,0.9,…,0.01,…,0.02,…,0.03,…,0.04,…,0],其中,假设0.9对应着汉字“我”,则标签“1”识别为“我”的概率为0.9,假设0.01对应着汉字“窝”,则标签“1”识别为“窝”的概率为0.01,假设0.02对应着汉字“喔”,则标签“1”识别为“喔”的概率为0.02,假设0.03对应着汉字“握”,则标签“1”识别为“握”的概率为0.03,假设0.04对应着汉字“沃”,则标签“1”识别为“沃”的概率为0.04,其他汉字对应的概率分别为0。
步骤414:根据该输出结果对预设语言模型的权重进行更新。
根据输出结果对语言模型的权重进行更新可以包括:将拼接标签序列的输出结果切分为第一数量组标签序列中每个标签序列对应的输出结果,根据每个标签序列对应的输出结果计算第一数量组标签序列的损失函数,根据第一数量组标签序列的损失函数对语言模型的权重进行更新。
对于输出结果,可以将其切分为2J个子输出结果,每个子输出结果是拼接标签序列中包括的每个标签序列的输出结果,每个子输出结果的维度为:1*K*N。
延续步骤412中的举例,假设X_P=[[[P111,P112,P113,…,P11N],[P121,P122,P123,…,P12N],…,[P161,P162,P163,…,P16N]],[[P211,P212,P213,…,P21N],[P221,P222,P223,…,P22N],…,[P261,P262,P263,…,P26N]]],则可以切成X1_P=[[P111,P112,P113,…,P11N],[P121,P122,P123,…,P12N],…,[P161,P162,P163,…,P16N]]和X2_P=[[P211,P212,P213,…,P21N],[P221,P222,P223,…,P22N],…,[P261,P262,P263,…,P26N]],X1_P和X2_P的维度均为1*6*N。
其中,损失函数可以通过交叉熵实现,此时,根据第一数量组标签序列以及每个标签序列对应的输出结果计算第一数量组标签序列的损失函数,可以包括:
分别计算正确拼音序列的交叉熵L1和错误拼音序列的交叉熵L2,进而计算第一数量组标签序列(也即拼接标签序列)的交叉熵loss=λ1*L1+λ2*L2,λ1是正确拼音序列的交叉熵L1对应的权重,λ2是错误拼音序列的交叉熵L2对应的权重,λ1和λ2的具体取值本申请实施例不作限定。
可选地,根据第一数量组标签序列的损失函数对语言模型的权重进行更新时,可以使用相关权重更新方法实现,例如随机梯度下降法(SGD,stochastic gradientdescent)等,这里不再赘述。
步骤414执行之后,可以再返回重复执行步骤411~步骤414,步骤413中使用的预设语言模型变为更新权重后的语言模型,以此类推,通过若干次重复执行步骤411~步骤414,不断基于正确拼音序列和对应的错误拼音序列对语言模型进行权重更新,从而得到本申请实施例的能够对拼音序列进行纠错的语言模型。
需要说明的是,在使用训练好的语言模型将声学模型输出的拼音序列转换为文字时,其输入为一个拼音序列,通过语言模型得到的输出结果的维度为:1*K*N,根据拼音序列中每个拼音对应的概率序列,从中选择概率值最大的值对应的文字作为该拼音的汉字识别结果,例如,声学模型输出的拼音序列为:[wo3,men2],将其输入语言模型,得到的输出结果可能为:[0,0,…,0.9,…,0.01,…,0.02,…,0.03,…,0.04,…,0][0,0,…,0.8,…,0.1,…,0.05,…,0.05,…,…,0],那么0.9对应的汉字为“我”,0.8对应的汉字为“们”,那么根据语言模型的输出结果,拼音序列[wo3,men2]转换为汉字为:我们。
图4所示的语言模型生成方法,基于声学模型的输出结果得到每个拼音的常用错误音以及每个常用错误音的分布概率,据此为正确拼音序列生成错误拼音序列,将正确拼音序列和其对应的错误拼音序列作为一组拼音序列对语言模型进行训练,从而训练得到的语言模型能够实现对于拼音序列的纠错,将语言模型用于语音识别流程中时,能够对声学模型输出的拼音序列进行纠错,从而能够提高电子设备中语音识别的准确率,提升用户体验。
而且,上述的语言模型生成方法根据声学模型的输出结果建立错误音概率矩阵、根据错误音概率矩阵为正确拼音序列生成错误拼音序列、使用正确拼音序列和错误拼音序列对语言模型进行训练,整个过程不需要人工干预,即可自动实现;进行语音模型训练时,根据错误音概率矩阵对正确拼音序列中的拼音随机替换,产生正确拼音序列对应的错误拼音序列,正确拼音序列对应的错误拼音序列不固定,因此训练得到的语言模型泛化性能好,鲁棒性较强;正确拼音序列和错误拼音序列构成一组拼音序列对语言模型进行联合训练,可以加快训练过程中语言模型的收敛速度。
图6为本申请语言模型生成方法另一个实施例的流程图,如图6所示,该方法可以包括:
步骤601:获得每个拼音的常用错误音、以及常用错误音的分布概率;
步骤602:获取正确拼音序列;
步骤603:根据每个拼音的常用错误音、以及常用错误音的分布概率,为正确拼音序列生成对应的错误拼音序列;
步骤604:使用正确拼音序列以及对应的错误拼音序列对预设语言模型进行训练。
可选地,获得每个拼音的常用错误音、以及常用错误音的分布概率,可以包括:
将预设训练集中的每个语音信号分别输入预设声学模型,得到每个语音信号的拼音识别结果,每个语音信号的拼音识别结果包括:声学模型识别出的语音信号的第一拼音序列、以及第一拼音序列中每个拼音的概率值;训练集中包括:语音信号、以及语音信号的实际拼音序列;
将每个语音信号的拼音识别结果与对应的实际拼音序列进行比对,统计实际拼音序列中每个拼音被声学模型识别出的错误音;
根据实际拼音序列中的每个拼音的错误音确定每个拼音的常用错误音;
对于实际拼音序列中的每个拼音,根据该拼音的每个常用错误音的概率值计算该拼音的每个常用错误音的分布概率。
可选地,根据实际拼音序列中的每个拼音的错误音确定每个拼音的常用错误音,可以包括:
对于每个拼音的每个错误音,基于拼音识别结果中该错误音的概率值计算该错误音的概率值总和;对于每个拼音,选择概率值总和超过预设第一阈值的错误音作为该拼音的常用错误音。
可选地,根据实际拼音序列中的每个拼音的错误音确定每个拼音的常用错误音,包括:
根据预先设置的每个拼音的模糊音对每个拼音的错误音进行筛选,将每个拼音的模糊音中包括的错误音确定为每个拼音的常用错误音。
可选地,预先设置的每个拼音的模糊音集合可以通过模糊音矩阵的方式设置,模糊音矩阵的实现可以参考图4中的相关描述,这里不赘述。
可选地,根据每个拼音的常用错误音、以及常用错误音的分布概率,为正确拼音序列生成对应的错误拼音序列,可以包括:
随机生成m个1至M之间的数值,m的数值取值范围为[1,M],随机生成的m个数值互不相同;M是正确拼音序列包括的拼音个数;
对于生成的m个数值,分别随机生成每个数值对应的概率;
对于m个数值中的第l个数值,l为1,2,3…,m,将正确拼音序列中顺序为第l个数值的拼音,根据该拼音的常用错误音以及常用错误音的分布概率,按照第l个数值对应的概率确定该拼音的替代错误音,将正确拼音序列中顺序为第l个数值的拼音替换为该拼音的替代错误音,得到正确拼音序列对应的错误拼音序列。
可选地,使用正确拼音序列以及对应的错误拼音序列对预设语言模型进行训练,可以包括:
将每一组拼音序列中的正确拼音序列和错误拼音序列分别按照拼音对应的标签进行转化,得到一组标签序列,一组标签序列中包括:正确拼音序列对应的正确标签序列,错误拼音序列对应的错误标签序列;
将第一数量组标签序列进行拼接处理,得到拼接标签序列;
将拼接标签序列输入预设语言模型,得到输出结果;
根据输出结果对预设语言模型的权重进行更新。
可选地,根据输出结果对预设语言模型的权重进行更新,可以包括:
将拼接标签序列的输出结果切分为第一数量组标签序列中每个标签序列对应的输出结果;
根据每个标签序列对应的输出结果计算第一数量组标签序列的损失函数;
根据第一数量组标签序列的损失函数对语言模型的权重进行更新。
本申请实施例的语言模型生成方法,基于声学模型的输出结果获得每个拼音的常用错误音、以及常用错误音的分布概率,据此为正确拼音序列生成对应的错误拼音序列,将正确拼音序列和其对应的错误拼音序列作为一组拼音序列对语言模型进行训练,从而训练得到的语言模型能够实现对于拼音序列的纠错,将语言模型用于语音识别流程中时,能够对声学模型输出的拼音序列进行纠错,从而能够提高电子设备中语音识别的准确率,提升用户体验。
本申请实施例的语言模型生成方法可以由电子设备自动执行,不需要人工干预,即可实现语言模型的生成;进行语音模型训练时,根据错误音概率矩阵对正确拼音序列中的拼音随机替换,产生正确拼音序列对应的错误拼音序列,正确拼音序列对应的错误拼音序列不固定,因此训练得到的语言模型泛化性能好,鲁棒性较强;正确拼音序列和错误拼音序列构成一组拼音序列对语言模型进行联合训练,加快训练过程中语言模型的收敛速度。
可以理解的是,上述实施例中的部分或全部步骤骤或操作仅是示例,本申请实施例还可以执行其它操作或者各种操作的变形。此外,各个步骤可以按照上述实施例呈现的不同的顺序来执行,并且有可能并非要执行上述实施例中的全部操作。
图7为本申请语言模型生成装置一个实施例的结构示意图,如图7所示,该装置70可以包括:
获得单元71,用于获得每个拼音的常用错误音、以及常用错误音的分布概率;
获取单元72,用于获取正确拼音序列;
生成单元73,用于根据每个拼音的常用错误音、以及常用错误音的分布概率,为正确拼音序列生成对应的错误拼音序列;
训练单元74,用于使用正确拼音序列以及对应的错误拼音序列对预设语言模型进行训练。
可选地,获得单元71具体可以用于:
将预设训练集中的每个语音信号分别输入预设声学模型,得到每个语音信号的拼音识别结果,每个语音信号的拼音识别结果包括:声学模型识别出的语音信号的第一拼音序列、以及第一拼音序列中每个拼音的概率值;训练集中包括:语音信号、以及语音信号的实际拼音序列;
将每个语音信号的拼音识别结果与对应的实际拼音序列进行比对,统计实际拼音序列中每个拼音被声学模型识别出的错误音;
根据实际拼音序列中的每个拼音的错误音确定每个拼音的常用错误音;
对于实际拼音序列中的每个拼音,根据该拼音的每个常用错误音的概率值计算该拼音的每个常用错误音的分布概率。
可选地,获得单元71具体可以用于:对于每个拼音的每个错误音,基于拼音识别结果中该错误音的概率值计算该错误音的概率值总和;对于每个拼音,选择概率值总和超过预设第一阈值的错误音作为该拼音的常用错误音。
可选地,获得单元71具体可以用于:根据预先设置的每个拼音的模糊音对每个拼音的错误音进行筛选,将每个拼音的模糊音中包括的错误音确定为每个拼音的常用错误音。
可选地,预先设置的每个拼音的模糊音集合可以通过模糊音矩阵的方式设置,模糊音矩阵的实现可以参考图4中的相关描述,这里不赘述。
可选地,生成单元73具体可以用于:随机生成m个1至M之间的数值,m的数值取值范围为[1,M],随机生成的m个数值互不相同;M是正确拼音序列包括的拼音个数;
对于生成的m个数值,分别随机生成每个数值对应的概率;
对于m个数值中的第l个数值,l为1,2,3…,m,将正确拼音序列中顺序为第l个数值的拼音,根据该拼音的常用错误音以及常用错误音的分布概率,按照第l个数值对应的概率确定该拼音的替代错误音,将正确拼音序列中顺序为第l个数值的拼音替换为该拼音的替代错误音,得到正确拼音序列对应的错误拼音序列。
可选地,训练单元74具体可以用于:将每一组拼音序列中的正确拼音序列和错误拼音序列分别按照拼音对应的标签进行转化,得到一组标签序列,一组标签序列中包括:正确拼音序列对应的正确标签序列,错误拼音序列对应的错误标签序列;将第一数量组标签序列进行拼接处理,得到拼接标签序列;将拼接标签序列输入预设语言模型,得到输出结果;根据输出结果对预设语言模型的权重进行更新。
可选地,训练单元74具体可以用于:将拼接标签序列的输出结果切分为第一数量组标签序列中每个标签序列对应的输出结果;根据每个标签序列对应的输出结果计算第一数量组标签序列的损失函数;根据第一数量组标签序列的损失函数对语言模型的权重进行更新。
图7所示实施例提供的装置可用于执行本申请图4~图6所示方法实施例的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述。
应理解以上图7所示装置的各个单元的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分单元以软件通过处理元件调用的形式实现,部分单元通过硬件的形式实现。例如,获取单元可以为单独设立的处理元件,也可以集成在电子设备的某一个芯片中实现。其它单元的实现与之类似。此外这些单元全部或部分可以集成在一起,也可以独立实现。在实现过程中,上述方法的各步骤或以上各个单元可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
本申请实施例还提供一种电子设备,包括:一个或多个处理器;存储器;以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行以下步骤:
获得每个拼音的常用错误音、以及常用错误音的分布概率;
获取正确拼音序列;
根据每个拼音的常用错误音、以及常用错误音的分布概率,为正确拼音序列生成对应的错误拼音序列;
使用正确拼音序列以及对应的错误拼音序列对预设语言模型进行训练。
可选地,获得每个拼音的常用错误音、以及常用错误音的分布概率,可以包括:
将预设训练集中的每个语音信号分别输入预设声学模型,得到每个语音信号的拼音识别结果,每个语音信号的拼音识别结果包括:声学模型识别出的语音信号的第一拼音序列、以及第一拼音序列中每个拼音的概率值;训练集中包括:语音信号、以及语音信号的实际拼音序列;
将每个语音信号的拼音识别结果与对应的实际拼音序列进行比对,统计实际拼音序列中每个拼音被声学模型识别出的错误音;
根据实际拼音序列中的每个拼音的错误音确定每个拼音的常用错误音;
对于实际拼音序列中的每个拼音,根据该拼音的每个常用错误音的概率值计算该拼音的每个常用错误音的分布概率。
可选地,根据实际拼音序列中的每个拼音的错误音确定每个拼音的常用错误音,可以包括:
对于每个拼音的每个错误音,基于拼音识别结果中该错误音的概率值计算该错误音的概率值总和;对于每个拼音,选择概率值总和超过预设第一阈值的错误音作为该拼音的常用错误音。
可选地,根据实际拼音序列中的每个拼音的错误音确定每个拼音的常用错误音,包括:
根据预先设置的每个拼音的模糊音对每个拼音的错误音进行筛选,将每个拼音的模糊音中包括的错误音确定为每个拼音的常用错误音。
可选地,预先设置的每个拼音的模糊音集合可以通过模糊音矩阵的方式设置,模糊音矩阵的实现可以参考图4中的相关描述,这里不赘述。
可选地,根据每个拼音的常用错误音、以及常用错误音的分布概率,为正确拼音序列生成对应的错误拼音序列,可以包括:
随机生成m个1~M之间的数值,m的数值取值范围为[1,M],随机生成的m个数值互不相同;M是正确拼音序列包括的拼音个数;
对于生成的m个数值,分别随机生成每个数值对应的概率;
对于m个数值中的第l个数值,l为1,2,3…,m,将正确拼音序列中顺序为第l个数值的拼音,根据该拼音的常用错误音以及常用错误音的分布概率,按照第l个数值对应的概率确定该拼音的替代错误音,将正确拼音序列中顺序为第l个数值的拼音替换为该拼音的替代错误音,得到正确拼音序列对应的错误拼音序列。
可选地,使用正确拼音序列以及对应的错误拼音序列对预设语言模型进行训练,可以包括:
将每一组拼音序列中的正确拼音序列和错误拼音序列分别按照拼音对应的标签进行转化,得到一组标签序列,一组标签序列中包括:正确拼音序列对应的正确标签序列,错误拼音序列对应的错误标签序列;
将第一数量组标签序列进行拼接处理,得到拼接标签序列;
将拼接标签序列输入预设语言模型,得到输出结果;
根据输出结果对预设语言模型的权重进行更新。
可选地,根据输出结果对预设语言模型的权重进行更新,可以包括:
将拼接标签序列的输出结果切分为第一数量组标签序列中每个标签序列对应的输出结果;
根据每个标签序列对应的输出结果计算第一数量组标签序列的损失函数;
根据第一数量组标签序列的损失函数对语言模型的权重进行更新。
本申请实施例的语言模型生成方法中,根据声学模型的输出结果建立错误音概率矩阵,不需要人工干预,即可自动实现;进行语音模型训练时,根据错误音概率矩阵对正确拼音序列中的拼音随机替换,产生正确拼音序列的错误拼音序列,正确拼音序列对应的错误拼音序列不固定,因此训练得到的语言模型泛化性能好,鲁棒性较强;正确拼音序列和错误拼音序列构成一组拼音序列对语言模型进行联合训练,加快训练过程中语言模型的收敛速度。。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行本申请图4~图6所示实施例提供的方法。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,当其在计算机上运行时,使得计算机执行本申请图4~图6所示实施例提供的方法。
本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
本领域普通技术人员可以意识到,本文中公开的实施例中描述的各单元及算法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。
Claims (15)
1.一种语言模型生成方法,其特征在于,包括:
获得每个拼音的常用错误音、以及所述常用错误音的分布概率;
获取正确拼音序列;
根据所述每个拼音的常用错误音、以及所述常用错误音的分布概率,为所述正确拼音序列生成对应的错误拼音序列;
使用所述正确拼音序列以及对应的错误拼音序列对预设语言模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述获得每个拼音的常用错误音、以及所述常用错误音的分布概率,包括:
将预设训练集中的每个语音信号分别输入预设声学模型,得到每个所述语音信号的拼音识别结果,每个所述语音信号的拼音识别结果包括:所述声学模型识别出的所述语音信号的第一拼音序列、以及所述第一拼音序列中每个拼音的概率值;所述训练集中包括:语音信号、以及所述语音信号的实际拼音序列;
将每个所述语音信号的拼音识别结果与对应的实际拼音序列进行比对,统计所述实际拼音序列中每个拼音被所述声学模型识别出的错误音;
根据所述实际拼音序列中的每个拼音的错误音确定每个所述拼音的常用错误音;
对于所述实际拼音序列中的每个拼音,根据该拼音的每个所述常用错误音的概率值计算该拼音的每个所述常用错误音的分布概率。
3.根据权利要求2所述的方法,其特征在于,所述根据所述实际拼音序列中的每个拼音的错误音确定每个所述拼音的常用错误音,包括:
对于每个所述拼音的每个错误音,基于拼音识别结果中该错误音的概率值计算该错误音的概率值总和;对于每个所述拼音,选择概率值总和超过预设第一阈值的错误音作为该拼音的常用错误音。
4.根据权利要求2所述的方法,其特征在于,所述根据所述实际拼音序列中的每个拼音的错误音确定每个所述拼音的常用错误音,包括:
根据预先设置的每个拼音的模糊音对每个所述拼音的错误音进行筛选,将每个所述拼音的模糊音中包括的所述错误音确定为每个所述拼音的常用错误音。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述每个拼音的常用错误音、以及所述常用错误音的分布概率,为所述正确拼音序列生成对应的错误拼音序列,包括:
随机生成m个1至M之间的数值,m的数值取值范围为[1,M],随机生成的m个数值互不相同;M是所述正确拼音序列包括的拼音个数;
对于生成的m个数值,分别随机生成每个数值对应的概率;
对于所述m个数值中的第l个数值,l为1,2,3…,m,将所述正确拼音序列中顺序为第l个数值的拼音,根据该拼音的常用错误音以及常用错误音的分布概率,按照第l个数值对应的概率确定该拼音的替代错误音,将所述正确拼音序列中顺序为第l个数值的拼音替换为该拼音的替代错误音,得到所述正确拼音序列对应的错误拼音序列。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述使用所述正确拼音序列以及对应的错误拼音序列对预设语言模型进行训练,包括:
将每一组拼音序列中的正确拼音序列和错误拼音序列分别按照拼音对应的标签进行转化,得到一组标签序列,一组标签序列中包括:正确拼音序列对应的正确标签序列,错误拼音序列对应的错误标签序列;
将第一数量组标签序列进行拼接处理,得到拼接标签序列;
将所述拼接标签序列输入预设语言模型,得到输出结果;
根据所述输出结果对所述预设语言模型的权重进行更新。
7.根据权利要求6所述的方法,其特征在于,所述根据所述输出结果对所述预设语言模型的权重进行更新,包括:
将拼接标签序列的输出结果切分为所述第一数量组标签序列中每个标签序列对应的输出结果;
根据每个标签序列对应的输出结果计算所述第一数量组标签序列的损失函数;
根据所述第一数量组标签序列的损失函数对语言模型的权重进行更新。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;存储器;以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行以下步骤:
获得每个拼音的常用错误音、以及所述常用错误音的分布概率;
获取正确拼音序列;
根据所述每个拼音的常用错误音、以及所述常用错误音的分布概率,为所述正确拼音序列生成对应的错误拼音序列;
使用所述正确拼音序列以及对应的错误拼音序列对预设语言模型进行训练。
9.根据权利要求8所述的电子设备,其特征在于,所述指令被所述设备执行时,使得所述获得每个拼音的常用错误音、以及所述常用错误音的分布概率的步骤,包括:
将预设训练集中的每个语音信号分别输入预设声学模型,得到每个所述语音信号的拼音识别结果,每个所述语音信号的拼音识别结果包括:所述声学模型识别出的所述语音信号的第一拼音序列、以及所述第一拼音序列中每个拼音的概率值;所述训练集中包括:语音信号、以及所述语音信号的实际拼音序列;
将每个所述语音信号的拼音识别结果与对应的实际拼音序列进行比对,统计所述实际拼音序列中每个拼音被所述声学模型识别出的错误音;
根据所述实际拼音序列中的每个拼音的错误音确定每个所述拼音的常用错误音;
对于所述实际拼音序列中的每个拼音,根据该拼音的每个所述常用错误音的概率值计算该拼音的每个所述常用错误音的分布概率。
10.根据权利要求9所述的电子设备,其特征在于,所述指令被所述设备执行时,使得所述根据所述实际拼音序列中的每个拼音的错误音确定每个所述拼音的常用错误音的步骤,包括:
对于每个所述拼音的每个错误音,基于拼音识别结果中该错误音的概率值计算该错误音的概率值总和;对于每个所述拼音,选择概率值总和超过预设第一阈值的错误音作为该拼音的常用错误音。
11.根据权利要求9所述的电子设备,其特征在于,所述指令被所述设备执行时,使得所述根据所述实际拼音序列中的每个拼音的错误音确定每个所述拼音的常用错误音的步骤,包括:
根据预先设置的每个拼音的模糊音对每个所述拼音的错误音进行筛选,将每个所述拼音的模糊音中包括的所述错误音确定为每个所述拼音的常用错误音。
12.根据权利要求8至11任一项所述的电子设备,其特征在于,所述指令被所述设备执行时,使得所述根据所述每个拼音的常用错误音、以及所述常用错误音的分布概率,为所述正确拼音序列生成对应的错误拼音序列的步骤,包括:
随机生成m个1至M之间的数值,m的数值取值范围为[1,M],随机生成的m个数值互不相同;M是所述正确拼音序列包括的拼音个数;
对于生成的m个数值,分别随机生成每个数值对应的概率;
对于所述m个数值中的第l个数值,l为1,2,3…,m,将所述正确拼音序列中顺序为第l个数值的拼音,根据该拼音的常用错误音以及常用错误音的分布概率,按照第l个数值对应的概率确定该拼音的替代错误音,将所述正确拼音序列中顺序为第l个数值的拼音替换为该拼音的替代错误音,得到所述正确拼音序列对应的错误拼音序列。
13.根据权利要求8至11任一项所述的电子设备,其特征在于,所述指令被所述设备执行时,使得所述使用所述正确拼音序列以及对应的错误拼音序列对预设语言模型进行训练的步骤,包括:
将每一组拼音序列中的正确拼音序列和错误拼音序列分别按照拼音对应的标签进行转化,得到一组标签序列,一组标签序列中包括:正确拼音序列对应的正确标签序列,错误拼音序列对应的错误标签序列;
将第一数量组标签序列进行拼接处理,得到拼接标签序列;
将所述拼接标签序列输入预设语言模型,得到输出结果;
根据所述输出结果对所述预设语言模型的权重进行更新。
14.根据权利要求13所述的方法,其特征在于,所述指令被所述设备执行时,使得所述根据所述输出结果对所述预设语言模型的权重进行更新的步骤,包括:
将拼接标签序列的输出结果切分为所述第一数量组标签序列中每个标签序列对应的输出结果;
根据每个标签序列对应的输出结果计算所述第一数量组标签序列的损失函数;
根据所述第一数量组标签序列的损失函数对语言模型的权重进行更新。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010752811.2A CN111768765B (zh) | 2020-07-30 | 2020-07-30 | 语言模型生成方法和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010752811.2A CN111768765B (zh) | 2020-07-30 | 2020-07-30 | 语言模型生成方法和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111768765A true CN111768765A (zh) | 2020-10-13 |
CN111768765B CN111768765B (zh) | 2022-08-19 |
Family
ID=72728087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010752811.2A Active CN111768765B (zh) | 2020-07-30 | 2020-07-30 | 语言模型生成方法和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111768765B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378553A (zh) * | 2021-04-21 | 2021-09-10 | 广州博冠信息科技有限公司 | 文本处理方法、装置、电子设备和存储介质 |
CN115437511A (zh) * | 2022-11-07 | 2022-12-06 | 北京澜舟科技有限公司 | 一种拼音汉字转换方法、转换模型训练方法及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103578464A (zh) * | 2013-10-18 | 2014-02-12 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
WO2018120889A1 (zh) * | 2016-12-28 | 2018-07-05 | 平安科技(深圳)有限公司 | 输入语句的纠错方法、装置、电子设备及介质 |
CN110147554A (zh) * | 2018-08-24 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 同声翻译方法、装置和计算机设备 |
CN110728137A (zh) * | 2019-10-10 | 2020-01-24 | 京东数字科技控股有限公司 | 用于分词的方法和装置 |
CN111142681A (zh) * | 2018-11-06 | 2020-05-12 | 北京嘀嘀无限科技发展有限公司 | 一种确定汉字拼音的方法、系统、装置及存储介质 |
CN111414772A (zh) * | 2020-03-12 | 2020-07-14 | 北京小米松果电子有限公司 | 一种机器翻译方法、装置及介质 |
-
2020
- 2020-07-30 CN CN202010752811.2A patent/CN111768765B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103578464A (zh) * | 2013-10-18 | 2014-02-12 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
WO2018120889A1 (zh) * | 2016-12-28 | 2018-07-05 | 平安科技(深圳)有限公司 | 输入语句的纠错方法、装置、电子设备及介质 |
CN110147554A (zh) * | 2018-08-24 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 同声翻译方法、装置和计算机设备 |
CN111142681A (zh) * | 2018-11-06 | 2020-05-12 | 北京嘀嘀无限科技发展有限公司 | 一种确定汉字拼音的方法、系统、装置及存储介质 |
CN110728137A (zh) * | 2019-10-10 | 2020-01-24 | 京东数字科技控股有限公司 | 用于分词的方法和装置 |
CN111414772A (zh) * | 2020-03-12 | 2020-07-14 | 北京小米松果电子有限公司 | 一种机器翻译方法、装置及介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378553A (zh) * | 2021-04-21 | 2021-09-10 | 广州博冠信息科技有限公司 | 文本处理方法、装置、电子设备和存储介质 |
CN115437511A (zh) * | 2022-11-07 | 2022-12-06 | 北京澜舟科技有限公司 | 一种拼音汉字转换方法、转换模型训练方法及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111768765B (zh) | 2022-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134316B (zh) | 模型训练方法、情绪识别方法及相关装置和设备 | |
CN110597512B (zh) | 显示用户界面的方法及电子设备 | |
WO2021104485A1 (zh) | 一种拍摄方法及电子设备 | |
CN113596242B (zh) | 传感器调整方法、装置、电子设备和存储介质 | |
CN113364971A (zh) | 图像处理方法和装置 | |
CN113542580B (zh) | 去除眼镜光斑的方法、装置及电子设备 | |
CN113806473A (zh) | 意图识别方法和电子设备 | |
CN113837984A (zh) | 播放异常检测方法、电子设备和计算机可读存储介质 | |
CN114242037A (zh) | 一种虚拟人物生成方法及其装置 | |
CN111768765B (zh) | 语言模型生成方法和电子设备 | |
CN114444000A (zh) | 页面布局文件的生成方法、装置、电子设备以及可读存储介质 | |
CN114995715A (zh) | 悬浮球的控制方法和相关装置 | |
CN115115679A (zh) | 一种图像配准方法及相关设备 | |
CN110286975A (zh) | 一种前景元素的显示方法和电子设备 | |
CN111431968B (zh) | 服务元素的跨设备分配方法、终端设备及存储介质 | |
CN115437601B (zh) | 图像排序方法、电子设备、程序产品及介质 | |
CN115032640B (zh) | 手势识别方法和终端设备 | |
CN112416984A (zh) | 一种数据处理方法及其装置 | |
CN113407300B (zh) | 应用误杀评估方法及相关设备 | |
CN113380240B (zh) | 语音交互方法和电子设备 | |
CN115589051A (zh) | 充电方法和终端设备 | |
CN117726929A (zh) | 图像处理方法及装置 | |
CN114003241A (zh) | 应用程序的界面适配显示方法、系统、电子设备和介质 | |
CN114006976B (zh) | 一种界面显示方法及终端设备 | |
CN113470638B (zh) | 槽位填充的方法、芯片、电子设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |