CN111402895A - 语音处理、语音评测方法、装置、计算机设备和存储介质 - Google Patents
语音处理、语音评测方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111402895A CN111402895A CN202010509720.6A CN202010509720A CN111402895A CN 111402895 A CN111402895 A CN 111402895A CN 202010509720 A CN202010509720 A CN 202010509720A CN 111402895 A CN111402895 A CN 111402895A
- Authority
- CN
- China
- Prior art keywords
- target
- voice
- decoding
- decoding path
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012545 processing Methods 0.000 title claims abstract description 37
- 238000003672 processing method Methods 0.000 title abstract description 19
- 238000011156 evaluation Methods 0.000 claims abstract description 164
- 230000007704 transition Effects 0.000 claims description 128
- 230000005284 excitation Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 20
- 238000013473 artificial intelligence Methods 0.000 abstract description 9
- 230000000694 effects Effects 0.000 abstract description 6
- 238000010801 machine learning Methods 0.000 abstract description 5
- 238000012549 training Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 13
- 239000013598 vector Substances 0.000 description 13
- 230000008569 process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 6
- 239000002131 composite material Substances 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000004936 stimulating effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种语音处理、语音评测方法、装置、计算机设备和存储介质。该方法可以是在云服务器中执行的,语音处理方法包括:对目标语音进行语音识别,得到语音解码网络中的状态节点对应的声学分数;确定目标语音对应的标准识别文本的标准解码路径;根据候选解码路径在语音解码网络中经过的目标状态节点对应的声学分数,得到候选解码路径集合中各个候选解码路径分别对应的目标解码分数,从候选解码路径集合中选取得到目标解码路径;根据目标解码路径得到目标语音对应的文本识别结果。本申请的方法涉及基于人工智能的语音识别技术,例如声学模型可以是基于机器学习方法进行模型训练得到的。采用本方法能够提高语音识别效果及语音评测效果。
Description
技术领域
本申请涉及语音处理技术领域,特别是涉及一种语音处理、语音评测方法、装置、计算机设备和存储介质。
背景技术
随着多媒体技术和网络技术的飞速发展和广泛应用,在很多场景下都需要进行语音识别。例如对于英语教学场景,终端可以录制用户朗读英文语句的语音,并发送到云服务器中,利用云服务器的计算能力对该语音进行识别并评测,得到英语口语评测得分。
目前,可以基于人工智能的语音识别模型对语音进行识别,得到语音识别结果。然而,经常存在利用语音识别模型识别得到的结果准确度差的情况,导致语音识别效果差。
发明内容
基于此,有必要针对上述技术问题,提供一种语音处理、语音评测方法、装置、计算机设备和存储介质。
一种语音处理方法,所述方法包括:获取待识别的目标语音;对所述目标语音进行语音识别,得到语音解码网络中的状态节点对应的声学分数,所述语音解码网络包括语音识别单元对应的状态节点以及连接所述状态节点之间的边;确定所述目标语音对应的标准识别文本的标准解码路径;根据候选解码路径在所述语音解码网络中经过的目标状态节点对应的声学分数,得到候选解码路径集合中各个候选解码路径分别对应的目标解码分数,其中,在计算所述候选解码路径对应的目标解码分数时,当所述候选解码路径包括所述标准解码路径对应的边,则对所述候选解码路径的解码分数进行正向激励;根据所述候选解码路径对应的目标解码分数从所述候选解码路径集合中选取得到目标解码路径;根据所述目标解码路径经过的状态节点所对应的语音识别单元,得到所述目标语音对应的文本识别结果。
在一些实施例中,所述获取所述目标词语集合中各个目标词语对应的目标声学识别信息,根据所述目标声学识别信息对所述目标语音进行语音评测,得到语音评测结果包括:获取所述目标词语集合中各个目标词语对应的音素集合;获取所述音素集合中各个目标音素在所述目标语音中的发音时长,作为目标发音时长;根据所述目标发音时长得到所述目标音素对应的发音时长概率;对所述发音时长概率进行统计处理,得到所述目标语音的发音流利度。
一种语音处理装置,所述装置包括:目标语音获取模块,用于获取待识别的目标语音;声学分数得到模块,用于对所述目标语音进行语音识别,得到语音解码网络中的状态节点对应的声学分数,所述语音解码网络包括语音识别单元对应的状态节点以及连接所述状态节点之间的边;标准解码路径确定模块,用于确定所述目标语音对应的标准识别文本的标准解码路径;目标解码分数得到模块,用于根据候选解码路径在所述语音解码网络中经过的目标状态节点对应的声学分数,得到候选解码路径集合中各个候选解码路径分别对应的目标解码分数,其中,在计算所述候选解码路径对应的目标解码分数时,当所述候选解码路径包括所述标准解码路径对应的边,则对所述候选解码路径的解码分数进行正向激励;目标解码路径得到模块,用于根据所述候选解码路径对应的目标解码分数从所述候选解码路径集合中选取得到目标解码路径;文本识别结果得到模块,用于根据所述目标解码路径经过的状态节点所对应的语音识别单元,得到所述目标语音对应的文本识别结果。
在一些实施例中,所述目标解码分数得到模块包括:激励单元,用于对所述候选解码路径中,与所述标准解码路径对应的边的状态转移分数进行正向激励,得到所述候选解码路径的边对应的目标状态转移分数;目标解码分数得到单元,用于根据所述候选解码路径在所述语音解码网络中经过的目标状态节点对应的声学分数,以及所述候选解码路径的边对应的目标状态转移分数,得到所述候选解码路径对应的目标解码分数。
在一些实施例中,所述目标解码分数得到单元用于:确定所述候选解码路径中的当前目标状态节点;获取由当前目标状态节点的前一目标状态节点转移到当前目标状态节点的边对应的当前目标状态转移分数;对当前目标状态节点对应的声学分数、当前目标状态转移分数以及到达前一目标状态节点时,所述候选解码路径对应的解码分数进行累计,得到所述候选解码路径对应的当前解码分数;将所述候选解码路径中当前目标状态节点的下一目标状态节点作为更新后的当前目标状态节点,返回所述获取由当前目标状态节点的前一目标状态节点转移到当前目标状态节点的边对应的当前目标状态转移分数的步骤,直至到达所述候选解码路径的尾部状态节点;将到达所述尾部状态节点时,所述候选解码路径对应的当前解码分数作为所述候选解码路径对应的目标解码分数。
在一些实施例中,所述装置还包括:当前解码分数得到模块,用于获取到达当前目标状态节点时,各个所述候选解码路径分别对应的当前解码分数;停止延伸模块,用于确定当前解码分数小于最大当前解码分数的候选解码路径,作为第一候选解码路径,停止对所述第一候选解码路径进行路径延伸。
在一些实施例中,所述激励单元用于:获取所述语音解码网络中,与所述标准解码路径对应的边的初始状态转移概率,对所述初始状态转移概率进行概率增加处理,得到目标状态转移概率;根据所述目标状态转移概率,计算得到与所述标准解码路径对应的边对应的目标状态转移分数,其中,所述目标状态转移分数与所述目标状态转移概率成正相关关系。
在一些实施例中,所述装置还包括:语音评测模块,用于将所述文本识别结果与所述标准识别文本进行对比,得到对比结果,根据所述对比结果对所述目标语音进行语音评测,得到语音评测结果。
在一些实施例中,所述语音评测模块包括:目标词语集合得到单元,用于将所述文本识别结果与所述标准识别文本进行对比,从所述文本识别结果中过滤与所述标准识别文本的词语对比不一致的无效词语,得到目标词语集合;语音评测单元,用于获取所述目标词语集合中各个目标词语对应的目标声学识别信息,根据所述目标声学识别信息对所述目标语音进行语音评测,得到语音评测结果,所述目标词语对应的目标声学识别信息是对所述目标语音进行声学识别得到的。
在一些实施例中,所述语音评测单元用于:获取所述目标词语集合中各个目标词语对应的音素集合;确定所述目标语音中,识别得到所述音素集合中的目标音素的音频帧,作为目标音频帧;获取目标音频帧对应的音素识别概率,作为目标音素识别概率;对所述目标音素识别概率进行统计处理,得到所述目标语音的发音准确度。
在一些实施例中,所述语音评测单元用于:获取所述目标词语集合中各个目标词语对应的音素集合;获取所述音素集合中各个目标音素在所述目标语音中的发音时长,作为目标发音时长;根据所述目标发音时长得到所述目标音素对应的发音时长概率;对所述发音时长概率进行统计处理,得到所述目标语音的发音流利度。
在一些实施例中,所述语音评测模块用于:确定所述目标语音对应的目标评测场景,当所述目标评测场景为儿童语音评测场景时,将所述文本识别结果与所述标准识别文本进行对比,得到对比结果,根据所述对比结果对所述目标语音进行语音评测,得到语音评测结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述语音处理方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现语音处理方法的步骤。
上述语音处理方法、装置、计算机设备和存储介质,通过对目标语音进行语音识别,得到语音解码网络中的状态节点对应的声学分数,确定目标语音对应的标准识别文本的标准解码路径,根据候选解码路径在语音解码网络中经过的目标状态节点对应的声学分数,得到候选解码路径集合中各个候选解码路径分别对应的目标解码分数。由于在计算候选解码路径对应的解码分数时,当候选解码路径包括标准解码路径对应的边,则对候选解码路径的解码分数进行正向激励,因此能够使得在进行语音解码时,激励候选解码路径朝着标准解码路径对应的边的方向进行延伸,故能够提高识别得到的文本识别结果的准确度,提高了语音识别效果。
一种语音评测方法,所述方法包括:获取待评测的目标语音;获取所述目标语音对应的文本识别结果,其中,所述文本识别结果是根据所述目标语音对应的标准识别文本的标准解码路径,对所述目标语音进行语音解码得到的,在语音解码时,对所述目标语音对应的候选解码路径中,与所述标准解码路径对应的边的状态转移分数进行正向激励;将所述文本识别结果与所述标准识别文本进行对比,得到对比结果;根据所述对比结果对所述目标语音进行语音评测,得到语音评测结果。
一种语音评测装置,所述装置包括:评测语音获取模块,用于获取待评测的目标语音;识别结果获取模块,用于获取所述目标语音对应的文本识别结果,其中,所述文本识别结果是根据所述目标语音对应的标准识别文本的标准解码路径,对所述目标语音进行语音解码得到的,在语音解码时,对所述目标语音对应的候选解码路径中,与所述标准解码路径对应的边的状态转移分数进行正向激励;对比模块,用于将所述文本识别结果与所述标准识别文本进行对比,得到对比结果;语音评测结果得到模块,用于根据所述对比结果对所述目标语音进行语音评测,得到语音评测结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述语音评测方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现语音评测方法的步骤。
上述语音评测方法、装置、计算机设备和存储介质,由于目标语音对应的文本识别结果是根据目标语音对应的标准识别文本的标准解码路径,对目标语音进行语音解码得到的,因此能够使得在进行语音解码时,激励语音解码朝着标准解码路径对应的边的方向进行延伸,故能够提高识别得到的文本识别结果的准确度高。而通过准确的文本识别结果与标准识别文本进行对比得到的对比结果进行评测,能够体现用户朗读标准识别文本时的错漏点,故得到的评测结果准确度高。
附图说明
图1为一些实施例中语音处理方法的应用环境图;
图2为一些实施例中语音处理方法的流程示意图;
图3为一些实施例中语音解码网络的示意图;
图4为另一些实施例中得到候选解码路径对应的目标解码分数的流程示意图;
图5为一些实施例中语音解码网络中的候选解码路径的示意图;
图6为一些实施例中显示语音评测结果的界面示意图;
图7为一些实施例中显示语音评测结果的界面示意图;
图8为一些实施例中进入语音评测界面的界面示意图;
图9为一些实施例中语音评测方法的流程示意图;
图10为一些实施例中语音评测模型的处理原理示意图;
图11为一些实施例中语音处理装置的结构框图;
图12为一些实施例中语音评测装置的结构框图;
图13为一些实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的语音识别以及机器学习等技术,例如,本申请实施例中的声学模型可以是人工智能的模型,可以是基于机器学习算法进行训练得到的。
本申请实施例提供的语音处理方法,可以应用于如图1所示的应用环境中。其中,终端102可以录制用户的语音,并发送到服务器104中,服务器104获取待识别的目标语音,执行本申请实施例提供的语音处理方法,得到目标语音对应的文本识别结果。其中,服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
例如,本申请实施例提供的方法可以应用于对儿童语音进行口语评测的场景中,服务器104可以是提供云计算服务的云服务器。该云服务器可以提供Paas(Platform as aService,平台即服务)能力,语言学习应用对应的服务器或者终端可以通过API(Application Programming Interface,应用程序接口)向云服务器传入语音数据以及标准识别文本,云服务器可以基于目标语音以及标准识别文本进行口语评测,得到评测分数。该目标语音可以是终端102上的语言学习软件对儿童根据展示的语句进行朗读的语音录制得到的。其中,可以采用不同的功能接口来实现不同需求的评测功能。例如,程序接口可以包括发音评估初始化功能接口、关键词评测功能接口、发音数据传输接口以及发音数据传输附带发音初始化接口。
其中,云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS层,PaaS层之上再部署SaaS (Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。
在一些实施例中,如图2所示,提供了一种语音处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,获取待识别的目标语音。
其中,待识别的语音是指待进行语音识别的语音。例如,可以将需要进行口语评测的语音作为待识别的语音。待识别的语音对应的语言根据实际应用场景可以不同,例如可以是中文或者英文。待识别的目标语音可以是实时获取的,也可以是预先存储的,比如,可以通过交互应用例如语言学习应用实时获取用户输入的语音数据,作为待识别的目标语音。也可以预先将待识别的语音数据存储到数据库中,当需要语音评测时,再从数据库中获取待识别的目标语音。
在一些实施例中,待识别的目标语音可以是对初始的语音数据进行预处理得到的语音。例如,可以对初始语音数据进行去噪处理,还可以检测初始语音数据中的静音的片段,并去除静音的片段,从而得到正确的语音,进行后续的语音特征的提取,提高语音识别的稳定性,减少因为静音长度不等而出现的语音识别差异以及语音评测差异。
在一些实施例中,可以接收对语音进行评测的评测请求,该请求中可以携带语音数据,服务器将评测请求携带的语音作为待识别的目标语音。
步骤S204,对目标语音进行语音识别,得到语音解码网络中的状态节点对应的声学分数,语音解码网络包括语音识别单元对应的状态节点以及连接状态节点之间的边。
其中,声学分数可以是利用声学模型对目标语音进行识别得到的。声学模型是用于进行声学识别的人工智能模型,可以预先进行机器学习训练得到。声学模型可以输出语音识别单元对应的分数。声学模型可以是基于HMM(Hidden Markov Model,隐马尔可夫模型)的模型,例如,LSTM-HMM(Long Short-Term Memory-Hidden Markov Model,长短期记忆网络—隐马尔可夫模型)、GMM-HMM(Gaussian Mixture Model-Hidden Markov Model,高斯混合模型—隐马尔可夫模型)或者DNN-HMM(Deep Neural Network-Hidden Markov Model,深度神经网络-隐马尔可夫模型)等。
语音识别单元可以是指语音识别的单位,例如可以是将音素或者词语作为语音识别单元,具体可以根据需要设置。音素(phone)是指根据语音的自然属性划分出来的最小语音单位,依据发音动作分析,一个词(word)的发音可以由一个或者多个音素组成。例如,对于英文,音素可以与国际音标中的发音单元具有对应关系。声学模型可以是以音素为单元进行建模的。例如,一个音素的发音,会因其前后音素的不同而有所变化,即具有上下文相关性,所以声学模型建模中可以以triphone(三音素)为建模单位,三音素是由三个音素组合合成的。例如a-b+c,表示音素b的发音,其前面的音素是a,后面的音素是c。语音解码网络可以是WFST(Weighted-Finaite-State Transducer,权重有限状态机)网络。语音解码网络可以称为搜索图,代表所有可能的语言空间,语音解码过程可以看成是在WFST图上寻找最优路径的过程。对于一段语音,在搜索语音解码网络(隐马尔可夫网络)时,从隐马尔可夫网络的起始状态节点到终止状态节点的每一条路径都有可能是文本识别结果对应的路径。语音解码就是从所有路径找到最有可能产生该段语音的路径。语音解码网络可以是融合语言模型、声学模型、音素上下文相关模型或者发音词典等知识源的至少一种得到的。例如可以对语言模型、声学模型、音素上下文相关模型、以及发音词典对应的WFST进行合并,整合成一个单一的加权有限状态机,构成语音解码网络,该语音解码网络可以称为HCLG网络,其中G表示语言模型,L表示发音词典,发音词典的输入是音素,输出是词。C表示上下文相关,其输入的是triphone(三音素),输出的是monophone(一个音素)。H表示声学模型。其中,语言模型是指语言结构的搭配表示,其概率用于表示语音识别单元的序列在一段语音信号中出现的概率,语言模型例如可以为N-gram模型。N-gram语言模型也可以称为N连语言模型,是基于第N个词的出现与前面N-1个词相关的假设得到的,是一种统计式语言模型。语言模型可以通过概率描述词与词之间的连接可能性。例如对于2连语言模型,通过词与词之间的连接概率表示由前一个词转移到下一个词的可能性,N连语言模型中词之间的连接可能性可以是对语料中的词进行统计得到,例如对于2连语言模型,前一个词转移到下一个词的概率,等于语料中这两个词一起出现的次数与前一个词单独出现的次数的比值。发音词典给出每个词的发音对应的音素序列。可以理解,本申请实施例中的“词”可以是一个单词(word),例如英文中的“is”为一个单词。
语音解码网络包括状态节点和连接状态节点之间的边。语音解码网络对应的状态节点例如可以是一个音素对应一个状态节点,也可以是一个词语对应一个状态节点。例如,语音解码网络中状态节点之间的连接关系可以是根据语言模型得到的,语言模型可以表示词与词之间的连接关系,即词之间的连接的概率,该语音解码网络称为词全连接(WordFull Connection,WFC)WFST网络,一个状态节点可以表示一个词语。对于词全连接WFST网络,当声学模型以音素为建模单元进行建模时,由于一个词语可以由多个音素构成,则一个状态节点可以对应多个语音识别单元,一个词语的状态节点对应的声学分数可以是根据该词语对应的多个音素的声学分数得到的,如对应的音素的声学分数的和。
语音识别单元的声学分数表示目标语音的输出为语言识别单元的可能程度(似然程度)。分数越大,则表示可能性越大。声学分数可以用概率表示,也可以是根据概率进一步计算得到。例如可以是以概率为真数进行对数计算,得到声学分数,即声学分数为logap,p表示声学模型输出的概率,a表示底数,例如可以是自然对数的底数e。例如,假设声学模型以词为建模单位,则声学模型可以输出某个词语a对应的概率假设为0.8,可以将该概率作为声学分数,也可以求以0.8为真数的自然对数的值,作为该词语a对应的状态节点的声学分数。又例如,假设声学模型以音素状态为建模单位,则声学模型可以输出音素状态对应的概率假设为0.8,可以将该概率作为声学分数,也可以求以0.8为真数的自然对数的值,作为该音素状态对应的状态节点的声学分数。
以语音解码网络的状态节点为词语为例,如图3所示,为一些实施例中,语音解码网络的示意图。其中,一个节点表示一个词,t代表时刻,一个时刻可以对应有多个候选的词。词与词之间的连线代表边,边具有状态转移概率,表示由前一个状态节点转移到下一个状态节点的概率,可以由语言模型给出,代表连线的起点所连接的词,所对应的下一个词是连线的终点连接的词的概率。例如,B1与C1之间的边表示词B1的下一个词为C1的概率。
具体地,可以利用声学模型对目标语音进行语音识别,得到各个语音识别单元对应的概率,根据语音识别单元对应的概率得到语音解码网络中,语音识别单元对应的状态节点对应的声学分数。
在一些实施例中,服务器可以对目标语音进行分帧处理,可以预先设置帧的长度,例如设置每帧长度为20毫秒,将目标语音分为多个音频帧,提取每个音频帧对应的特征,得到表示音频帧的特征的特征向量。特征例如可以是MFCC(Mel Frequency CepstrumCoefficient, 梅尔频率倒谱系数)特征、FBank(FilterBank,滤波器组)特征或者能量特征中的至少一个。目标语音的音频帧的特征向量按照音频帧的排序组成特征向量序列。声学模型可以根据特征向量序列进行语音识别,输出每个音频帧对应的概率分布,该概率分布表示该音频帧对应的发音动作为各个音素的概率。该概率分布可以称为后验概率分布,后验概率可以用(P(p|O))表示,表示在音素p的条件下,音频帧的特征向量为O的概率P。
步骤S206,确定目标语音对应的标准识别文本的标准解码路径。
其中,标准识别文本是指目标语音对应的标准的文本内容,即为正确的文本内容。相当于用户是在看到、听到或者想到标准识别文本的条件下进行语音输出,发出目标语音的。如果用户按照标准的发音进行朗读,且不多读以及少读,则对目标语音进行语音识别,得到的文本识别结果与标准识别文本一致。标准识别文本可以是服务器预先存储的,也可以是终端或者其他服务器发送的,例如其他服务器可以在传入目标语音时,同时传入对应的标准识别文本。
举个例子,在语言学习应用中,通常会以文字形式展示一个或者多个语句,例如“今天是周五”,用户看到展示的语句后,对该语句进行朗读,终端进行语音录制,得到目标语音,则终端可以将目标语音以及以文字形式表示的语句发送到服务器中,该以文字形式表示的语句“今天是周五”为标准识别文本。标准解码路径是指标准识别文本在语音解码网络中的解码路径。例如,假设标准识别文本由词语A1、B2、C3组成,表示为“A1B2C3”。则标准解码路径可以表示为A1-B2-C3。当然,标准解码路径也可以是更细粒度的解码路径,例如假设语音解码网络的一个状态节点表示一个音素,A1对应音素A11、A12,B2对应音素B11、B12以及B13,C3对应音素C11以及C12,则标准解码路径为A11-A12-B11-B12-B13-C11-C12。
步骤S208,根据候选解码路径在语音解码网络中经过的目标状态节点对应的声学分数,得到候选解码路径集合中各个候选解码路径分别对应的目标解码分数,其中,在计算候选解码路径对应的目标解码分数时,当候选解码路径包括标准解码路径对应的边,则对候选解码路径的解码分数进行正向激励。
其中,解码分数表示解码路径为最优路径的可能度,分数越高,则说明该路径越有可能是该目标语音对应的最佳的解码路径。候选解码路径的目标解码分数是根据其所经过的状态节点的声学分数进行累计得到的,例如可以是累加。候选解码路径可以有多个,可以是将语音解码网络上的所有路径作为候选解码路径,也可以是筛选部分路径作为候选解码路径。例如在解码时,可以用维特比算法进解码。维特比算法可以在指定的WFST图上寻找与输入的语音特征序列最匹配的最佳路径,并可以输出路径上所经过的状态节点。在利用维特比算法计算候选解码路径的解码分数时,对于每一个状态节点,当到达该状态节点的解码路径有多个时,则可以将保留到达该状态节点时,解码分数最大的解码路径作为候选解码路径,将其他解码路径删除,以减少候选解码路径的数量,降低解码的复杂度。
候选解码路径包括标准解码路径对应的边是指:候选解码路径中的至少一个边,与标准解码路径的边是相同的。例如,假设标准解码路径表示为A1-B2-C3,若候选解码路径表示为A2-B2-C3-D2,则候选解码路径A2-B2-C3-D2包括标准解码路径中B2至C3的边。若候选解码路径表示为A1-B3-C2-D2,则候选解码路径A1-B3-C2-D2不包括标准解码路径中的边。
对分数进行正向激励是指增加分数。候选解码路径的目标解码分数是根据其所经过的目标状态节点的声学分数计算得到的。在计算候选解码路径的解码分数时,可以是在根据维特比算法计算得到候选解码路径的分数后,再对该分数进行激励,得到候选解码路径最终的解码分数。也可以是在根据维特比算法计算候选解码路径的解码分数的过程中,如果从前一个状态节点转移到下一个状态节点的边为标准解码路径对应的边,则对该边对应的状态转移分数进行分数激励。
在一些实施例中,可以根据候选解码路径在语音解码网络中经过的目标状态节点对应的声学分数,以及候选解码路径在语音解码网络中经过的路径对应的分数得到候选解码路径对应的目标解码分数。例如可以将候选解码路径在语音解码网络中经过的目标状态节点对应的声学分数,以及候选解码路径在语音解码网络中经过的路径对应的状态转移分数相加,得到候选解码路径集合中各个候选解码路径分别对应的目标解码分数。
步骤S210,根据候选解码路径对应的目标解码分数从候选解码路径集合中选取得到目标解码路径。
具体地,可以是将解码分数最大的候选解码路径作为目标解码路径。也可以是将目标解码分数大于预设分数阈值的候选解码路径作为目标解码路径。
步骤S212,根据目标解码路径经过的状态节点所对应的语音识别单元,得到目标语音对应的文本识别结果。
具体地,得到目标解码路径后,可以进行路径回溯,将该路径经过的词语按照状态节点依次进行排序,得到文本识别结果。例如,假设目标解码路径为A1-B2-C3-D3。A1对应的词语为“today”,B2对应的词语为“is”,C3对应的词语为“are”,D3对应的词语为“Friday”,则文本识别结果为“today is are Friday”。
上述语音处理方法、装置、计算机设备和存储介质,通过对目标语音进行识别,得到语音解码网络中的状态节点对应的声学分数,确定目标语音对应的标准识别文本的标准解码路径,根据候选解码路径在语音解码网络中经过的目标状态节点对应的声学分数,得到候选解码路径集合中各个候选解码路径分别对应的目标解码分数。由于在计算候选解码路径对应的解码分数时,当候选解码路径包括标准解码路径对应的边,则对候选解码路径的解码分数进行正向激励,因此能够使得在进行语音解码时,激励候选解码路径朝着标准解码路径对应的边的方向进行延伸,故能够提高识别得到的文本识别结果的准确度,提高了语音识别的准确度。
在一些实施例中,步骤S208即根据候选解码路径在语音解码网络中经过的目标状态节点对应的声学分数,得到候选解码路径集合中各个候选解码路径分别对应的解码分数包括:对候选解码路径中,与标准解码路径对应的边的初始状态转移分数进行正向激励,得到候选解码路径的边对应的目标状态转移分数;根据候选解码路径在语音解码网络中经过的目标状态节点对应的声学分数,以及候选解码路径的边对应的目标状态转移分数,得到候选解码路径对应的目标解码分数。
其中,状态转移分数表示从前一个状态节点转移到下一个状态节点的分数,该分数表示从前一个状态节点转移到下一个状态节点的可能度,分数越大,则可能性越大。状态转移分数是根据语言模型得到的,例如,当一个状态节点对应一个词语,则可以获取前一个状态节点对应的词语的下一个词语,为后一个状态对应的词语的概率,根据该概率得到由前一个状态节点转移到下一个状态节点的分数。例如可以是将概率作为状态转移分数,也可以根据概率进行进一步计算,得到状态转移分数。例如,假设候选解码路径中,状态节点A1的下一个状态节点为B1,状态节点A1对应的词为“今”,状态节点B1对应的词为“天”,则可以根据语言模型得到“今”的下一个词为“天”的概率,假设为0.5,将该概0.5作为自然对数中的真数,计算得到loge0.5对应的值,作为状态节点A1到状态节点B1之间的边对应的状态转移分数。
对状态转移分数进行正向激励包括直接激励或者间接激励的至少一种。例如,状态转移分数是语言模型给出的词语之间连接的概率得到的,则可以是直接对状态转移分数进行激励,例如在状态转移分数的基础上加上预设分数。也可以是对词语之间连接的概率进行正向激励,从而间接的对状态转移分数进行正向激励。
在解码时,对于候选解码路径中的各个边,如果该边是标准解码路径对应的边,则对该边对应的状态转移分数进行正向激励,将激励得到的状态转移分数作为该边对应的目标状态转移分数,使得该边对应的状态转移分数变大。如果该边不是标准解码路径对应的边,则不进行正向激励,将该边对应的初始状态转移分数作为该边对应的目标状态转移分数,从而得到候选解码路径的边对应的目标状态转移分数。
例如,假设标准解码路径为A1-B2-C3,候选解码路径为A2-B2-C3-D2,候选解码路径A2-B2-C3-D2包括标准解码路径中B2至C3的边,则对B2至C3之间的边的状态转移分数进行正向激励,使得该边对应的状态转移分数变大。正向激励的方式可以根据需要设置,例如正向激励的方式可以包括将该状态节点对应的初始状态转移分数乘以预设系数或者加上预设分数的至少一个。
具体地,候选解码路径对应的目标解码分数是根据候选解码路径在语音解码网络中经过的目标状态节点对应的声学分数,以及候选解码路径的边对应的目标状态转移分数得到的。例如可以将候选解码路径在语音解码网络中经过的目标状态节点对应的声学分数,以及候选解码路径的边对应的目标状态转移分数相加,得到候选解码路径对应的目标解码分数。
在一些实施例中,对候选解码路径中,与标准解码路径对应的边的状态转移分数进行正向激励,得到候选解码路径的边对应的目标状态转移分数包括:获取候选解码路径中,与标准解码路径对应的边的初始状态转移概率,对初始状态转移概率进行概率增加处理,得到目标状态转移概率;根据目标状态转移概率,计算得到与标准解码路径对应的边对应的目标状态转移分数,其中,目标状态转移分数与目标状态转移概率成正相关关系。
具体地,概率增加处理是指使状态转移概率增加,可以是加上预设值或者乘以预设系数的至少一个。例如假设状态转移概率是0.8,则可以乘以预设系数1.1,得到状态转移概率为0.88。正相关关系是指:两个变量变动方向相同,一个变量由大到小变化时,另一个变量也由大到小变化。由于状态转移分数是根据状态转移概率得到的,因此通过增加状态转移概率,能够间接对与标准解码路径对应的边的状态转移分数进行正向激励。
本申请实施例中,通过对候选解码路径中,标准解码路径对应的边的状态转移分数进行正向激励,因此可以使得该边对应的目标状态转移分数变大,在确定候选解码路径时,能够使得候选解码路径朝着标准解码路径的边的方向延伸的可能性变大,从而能够最大限度的解码得到目标语音中,与标准识别文本的词语对应的词语,同时由于解码中参考标准解码路径中的边的信息的同时,也不排斥其他的边,即可以同时兼顾其他可能的路径中的边,因此能够最大限度的检测用户在标准识别文本中的已读词汇的同时,发现多读、错读以及少读的词汇。
在一些实施例中,如图4所示,根据候选解码路径在语音解码网络中经过的目标状态节点对应的声学分数,以及候选解码路径的边对应的目标状态转移分数,得到候选解码路径对应的目标解码分数包括以下步骤:
步骤S402,确定候选解码路径中的当前目标状态节点。
其中,候选解码路径的解码分数,是由候选解码路径的起始状态节点开始,逐步获取各个状态节点的声学分数以及各个边的状态转移分数进行累计得到的。因此可以按照状态节点在语音解码网络中的排序,依次将候选解码路径中的状态节点作为当前目标状态节点,当前目标状态节点是指在计算候选解码路径的解码分数的过程中,当前的目标状态节点。起始状态节点是指候选解码路径中的第一个状态节点。例如,可以是图3中的A1。
步骤S404,获取由当前目标状态节点的前一目标状态节点转移到当前目标状态节点的边对应的当前目标状态转移分数。
其中,前一目标状态节点是指候选解码路径中,当前目标状态节点的前一个目标状态节点。当前目标状态转移分数是指由前一目标状态节点转移到当前目标状态节点的边的状态转移分数。
在一些实施例中,当当前目标状态节点为起始状态节点时,由于起始状态节点不存在前一目标状态节点,因此可以采用其他方式获取得候选解码路径在起始状态节点时所对应的初始解码分数,例如可以根据起始状态节点对应的词语作为句子的第一个词语的概率得到候选解码路径在起始状态节点的初始解码分数。例如,当语音解码网络为词全连接WFST网络时,可以将该起始状态节点对应的词语,作为句子的第一个词语的概率作为对数中的真数,进行对数计算,得到候选解码路径在起始状态节点时,所对应的初始解码分数。
步骤S406,对当前目标状态节点对应的声学分数、当前目标状态转移分数以及到达前一目标状态节点时,候选解码路径对应的解码分数进行累计,得到候选解码路径对应的当前解码分数。
其中,到达前一目标状态节点时,候选解码路径对应的解码分数是指当候选解码路径的解码分数由起始状态节点开始,计算到前一目标状态节点时,该候选解码路径的解码分数。
累计可以是累加计算也可以是累乘计算。当声学分数用声学模型输出的识别概率表示,以及状态转移分数是用语言模型输出的词语之间的连接概率表示时,则进行累乘计算,即将各个状态转移分数与声学分数进行相乘。当声学分数是根据声学模型输出的概率进行对数计算得到的,以及状态转移分数是根据语言模型输出的词语之间的连接概率进行对数计算得到的时,则进行累加计算。例如,假设候选解码路径中,前一状态节点表示为i,当前目标状态节点表示为j,则候选解码路径到达当前目标状态节点j时,所对应的解码分数可以用以下公式表示:其中,P(j)表示候选解码路径到达目标状态节点j时所对应的当前解码分数,P(i)表示候选解码路径到达目标状态节点i时所对应的当前解码分数,aij表示由状态节点i转移到状态节点j的状态转移概率,由语言模型给出。bj表示将目标语音输入到声学模型中,声学模型输出的状态节点j对应的语音识别单元所对应的后验概率。
P(j)=P(i)+loge(aij)+loge(bj)(1)
步骤S408,判断当前目标状态节点是否为候选解码路径的尾部状态节点。
其中,尾部状态节点是指候选解码路径中最后的状态节点。如果当前目标状态节点是候选解码路径的尾部状态节点,则进入步骤S412。如果当前目标状态节点不是候选解码路径的尾部状态节点,则进入步骤S410。
步骤S410,将候选解码路径中当前目标状态节点的下一目标状态节点作为更新后的当前目标状态节点。
具体地,将当前目标状态节点的下一目标状态节点作为更新后的当前目标状态节点,继续返回步骤S404,即返回获取由当前目标状态节点的前一目标状态节点转移到当前目标状态节点的边的当前目标状态转移分数的步骤。例如,参考图3,假设当前目标状态节点为B2,则可以将C1、C2以及C3分别作为更新后的当前目标状态节点,因此候选解码路径存在三个候选延伸方向,可以将根据这三个候选延伸方向进行延伸所得到的三个解码路径,分别作为候选解码路径,分别计算这三个候选解码路径对应的解码分数。
步骤S412,将到达尾部状态节点时,候选解码路径对应的当前解码分数作为候选解码路径对应的目标解码分数。
具体地,当到达尾部状态节点,获取候选解码路径在到达尾部状态节点时,所对应的当前解码分数,作为该候选解码路径对应的目标解码分数。
本申请实施例中,通过逐步将候选解码路径所经过的状态节点作为当前目标状态节点,对当前目标状态节点对应的声学分数、当前目标状态转移分数以及到达前一目标状态节点时,候选解码路径对应的解码分数进行累计,将到达尾部状态节点时,候选解码路径对应的当前解码分数作为候选解码路径对应的目标解码分数,因此候选解码路径对应的分数,随着所经过的状态节点以及边不断的进行变化,故得到的目标解码分数能够反映该候选解码路径所经过的状态节点以及边的分数,准确度高。
在一些实施例中,语音处理方法还可以包括以下步骤:获取到达当前目标状态节点时,各个候选解码路径分别对应的当前解码分数;确定当前解码分数小于最大当前解码分数的候选解码路径,作为第一候选解码路径,停止对第一候选解码路径进行路径延伸。
具体地,由起始状态节点到达当前目标状态节点的路径可以有很多,例如,如图3所示,当当前目标状态节点为C2时,则候选解码路径可以是从B1、B2或者B3延伸到C2的至少一个。最大当前解码分数是指到达当前目标状态节点时,各个候选解码路径对应的当前解码分数中最大的一个。路径延伸是指将路径继续延伸,从当前目标状态节点延伸到下一个目标状态节点。因此通过停止对第一候选解码路径进行路径延伸,使得候选解码路径不继续延伸,故无需继续计算该候选解码路径的分数,故能够减少候选解码路径的数量,提高了解码的效率。同时,由于停止延伸的是当前解码分数小于最大当前解码分数的候选解码路径,即并不是由起始状态节点到达当前目标状态节点的最优路径,故停止对当前解码分数不是最大的候选解码路径进行路径延伸,也不会导致目标语音对应的最优解码路径被排除。
例如,如图5所示,为一些实施例中,目标语音对应的候选解码路径的示意图。根据本申请实施例提供的方法,对于每一个目标状态节点,将到达该目标状态节点的候选解码路径中,解码分数不是最大的候选解码路径都停止进行延伸,相当于这些候选解码路径被丢弃(删除)了,故对于一个t时刻的目标状态节点,即使t-1时刻的状态节点有多个,但是只有其中的一个状态节点能够延伸到该t时刻的目标状态节点。故图5中的候选解码路径,相对于图3中的候选解码路径的数量,将大大减少。
在一些实施例中,得到文本识别结果后,可以基于文本识别结果对目标语音的发音质量进行评测。因此,语音处理方法还包括:将文本识别结果与标准识别文本进行对比,得到对比结果,根据对比结果对目标语音进行语音评测,得到语音评测结果。
具体地,对比结果包括文本识别结果中,与标准识别文本的词语对比一致的词语,或者与标准识别文本的词语对比不一致的词语的至少一个。对比一致的词语说明该词语是用户对标准识别文本进行朗读时,已朗读的词语。对比不一致的词语说明该词语是用户对标准识别文本进行朗读时,错读、重读或者多读的词语。
语音评测是指对语音的质量进行评测。语音评测结果可以用具体的分值表示,也可以是用等级表示。例如,评测的结果可以为80分。语音评测结果可以是根据流利度、准确度以及完整度的至少一个得到的。流利度表示用户在朗读标准识别文本时的流利程度。准确度表示用户在朗读标准识别文本时发音的准确程度。完整度表示用户朗读标准识别文本的完整程度。
具体地,可以将文本识别结果与标准识别文本进行强制对齐(Forced Align),以得到对比结果,可以基于对比结果进行语音评测,例如根据匹配的词语(word)得到流利度(Fluency of Pronunciation,FOP)、准确度(Goodness of Pronunciation,GOP)或者完整度(Completion of Pronunciation,COP)的至少一个。也可以基于流利度、准确度以及完整度得到语音评测的综合分数。
本申请实施例中,通过将文本识别结果与标准识别文本进行对比,得到对比结果,根据对比结果对目标语音进行语音评测,得到语音评测结果。由于通过当候选解码路径包括标准解码路径对应的边,则对候选解码路径的解码分数进行正向激励。因此能够最大限度的检测标准识别文本中,用户的已读词汇。而进一步根据文本识别结果与标准识别文本进行对比的对比结果,能够得到文本识别结果中,与标准识别文本的词语对比一致的词语,基于该对比结果进行评测,能够基于用户朗读时的有效语音进行评测,提高了评测准确度。
在一些实施例中,将文本识别结果与标准识别文本进行对比,得到对比结果,根据对比结果对目标语音进行语音评测,得到语音评测结果包括:将文本识别结果与标准识别文本进行对比,从文本识别结果中过滤与标准识别文本的词语对比不一致的无效词语,得到目标词语集合;获取目标词语集合中各个目标词语对应的目标声学识别信息,根据目标声学识别信息对目标语音进行语音评测,得到语音评测结果,目标词语对应的目标声学识别信息是对目标语音进行声学识别得到的。
其中,无效词语可以包括多读的其他词语或者重读的词语中的至少一个。当词语有重读时,则去除其中的一个词语。例如,假设文本识别结果为“今天今天吧周五”,而标准识别文本为“今天是周五”,则需要过滤“今天今天”中的其中一个“今天”,并过滤多读的词语“吧”,故得到的目标词语集合包括“今”、“天”、“周”以及“五”。其中,在过滤重读的词语中的其中一个时,可以是过滤任意一个,也可以是过滤发音准确度低的。
声学识别信息可以包括声学模型输出的后验概率或者发音时间长度的至少一个。通过将目标语音输入到声学模型中,声学模型可以输出各个音素对应的后验概率,还可以输出该音素对应的音频帧,一个音素可以对应多个音频帧,对多个音频帧的时间长度进行统计,能够得到该音素对应的发音时长。
具体地,可以根据目标词语对应的目标声学识别信息对目标语音进行评测,例如根据后验概率得到发音准确度,根据有效的目标词语的发音时长得到流利度等。当然也可以基于发音准确度、完整度以及流利度得到综合评分。
在一些实施例中,综合评分的计算方式可以根据需要设置,例如可以设置评测系数,评测系数越小,则打分标准越严格。例如,可以基于流利度、准确度以及完整度得到语音评测的综合分数。可以确定流利度对应的分数、准确度对应的分数以及完整度对应的分数。将这三个分数与对应的预先设置的权重进行加权求和,得到加权后的分数,再将加权后的分数乘以评测系数,得到综合评分。
在一些实施例中,可以确定目标语音对应的目标评测场景,当目标评测场景为儿童语音评测场景时,再执行将文本识别结果与标准识别文本进行对比,得到对比结果,根据对比结果对目标语音进行语音评测,得到语音评测结果。否则,则可以基于其他语音评测方法进行评测。
具体地,儿童语音评测场景是指对儿童的语音进行评测的场景。例如对小于预设年龄的用户的语音进行评测的场景,预设年龄可以根据需要设置,例如可以为8岁。场景相关的信息可以是在评测请求中携带的,例如可以携带儿童评测场景对应的场景标识,也可以携带目标语音对应的用户的年龄,服务器根据年龄得到评测场景。由于儿童发音的随意性比较大,面对学习文本中的大量单词,经常会出现多读、漏读或者重读的现象,这一点广泛的存在于在线教育中,因此如果按照文本识别结果对应的所有词语的发音识别信息为标准进行语音评测,会将无效的发音也包含在学习文本的发音中,很容易出现大量的错误评测结果。因此,通过当目标评测场景为儿童语音评测场景时,基于用户朗读的有效的词语对应的声学识别信息进行语音评测,可以智能化地进行评估,从而得到理想的评测结果,提高对儿童语音评测的精准程度。重读是指重复朗读。
举个例子,在儿童学习英文时,通常有父母陪伴,而儿童对英文学习的应用程序的操作不熟,通常需要父母的指示才能进行学习。例如,在绘本跟读中,需要父母点击“跟读”按钮,并告知儿童“开始读”,儿童才会开始读。而在跟读的过程中,儿童可能会在觉得自己没有读准某个词语的情况下,再重复读该词语,因此录制得到的语音中,通常包括很多无效的语音。故本申请实施例的方法,通过在当目标评测场景为儿童语音评测场景时,从文本识别结果中过滤与标准识别文本的词语对比不一致的无效词语,得到目标词语集合,基于目标词语对应的目标声学识别信息,根据目标声学识别信息对目标语音进行语音评测,得到语音评测结果。由于是基于与标准识别文本的词语对应一致的目标词语进行语音评测的,因此相当于将儿童重读、少读、错读以及其他无效内容的语音部分均忽略,将有效的文本内容与有效的语音识别信息进行对齐并进行打分计算,因此能够得到有效的评测结果,能够提高对儿童语音进行评测的准确性以及灵活性。
在一些实施例中,获取目标词语集合中各个目标词语对应的目标声学识别信息,根据目标声学识别信息对目标语音进行语音评测,得到语音评测结果包括:获取目标词语集合中各个目标词语对应的音素集合;确定目标语音中,识别得到音素集合中的目标音素的音频帧,作为目标音频帧;获取目标音频帧对应的音素识别概率,作为目标音素识别概率;对目标音素识别概率进行统计处理,得到目标语音的发音准确度。
具体地,一个目标词语可以对应多个音素,因此可以获取词语对应的多个音素,组成音素集合。一个音素可以是声学模型结合连续的多个音频帧所对应的概率得到的,即一个音素可以跨越多个音频帧,故可以获取识别得到目标音素的音频帧,作为目标音频帧,其中,对于以三音素为建模单元的声学模型,可以是获取音频帧对应的三音素中的中间音素,作为该音频帧对应的识别得到的音素。目标音频帧对应的音素识别概率,是指该音频帧输入到声学模型中,得到的该音素对应的后验概率。
在一些实施例中,在对目标音素识别概率进行统计处理时,可以是对得到的目标音素识别概率求平均值,作为目标语音对应的发音准确度。
在一些实施例中,还可以是先分别对每个目标音素对应的音素识别概率进行统计,例如求平均值,得到音素对应的发音准确度。再对每个目标词语对应的音素对应的发音准确度进行统计,例如求平均值,得到词语对应的发音准确度。再对所有目标词语对应的发音准确度进行统计,例如求平均值,得到目标语音对应的发音准确度。可以用公式(2)至(4)表示。其中,Ot是第t个音频帧对应的特征向量,pt是第t个音频帧对应的音素。P(pt|Ot)是指在给定音素pt的情况下,第t个音频帧对应的特征向量为pt的概率,称为后验概率。te表示该音素对应的最后一个音频帧的序号,ts表示该音素对应的第一个音频帧的序号。GOPP代表音素对应的发音准确度。GOPW代表词语对应的发音准确度。GOP代表目标语音对应的发音准确度。M表示该目标词语所包含的音素数量,W表示文本识别结果中与标准识别文本中相匹配的目标词语,N表示目标词语集合中目标词语的数量。
在一些实施例中,获取目标词语集合中各个目标词语对应的目标声学识别信息,根据目标声学识别信息对目标语音进行语音评测,得到语音评测结果包括:获取目标词语集合中各个目标词语对应的音素集合;获取音素集合中各个目标音素在目标语音中的发音时长,作为目标发音时长;根据目标发音时长得到目标音素对应的发音时长概率;对发音时长概率进行统计处理,得到目标语音的发音流利度。
具体地,目标音素的发音时长可以根据目标音素对应的音频帧的时间长度以及音频帧的数量得到。例如,假设一个目标音素是根据10个音频帧的特征向量识别得到的,一个音频帧的时间长度为20毫秒,则目标音素对应的发音时长为20毫秒乘以10,即200毫秒。目标音素对应的发音时长概率是该目标音素的发音时长为目标发音时长的概率。目标发音时长对应的概率可以是根据发音时长模型得到的,发音时长模型可以是正态分布概率模型。例如可以获取多个用户的语音,对用户发出该目标音素的发音时长进行统计,得到该目标音素对应的发音时长的均值和方差,目标音素的发音时长的概率分布可以认为是满足正态分布(Normal distribution)的,因此可以根据均值和方差得到目标音素对应的发音时长的正态分布概率图。故得到目标音素对应的目标发音时长后,可以获取该目标音素的目标发音时长在正态分布概率图中所对应的概率,作为目标音素对应的发音时长概率。
在一些实施例中,在对发音时长概率进行统计处理时,可以是对目标词语对应的目标音素的发音时长概率求平均值,作为目标词语对应的发音流利度FOPW,如公式(5)所示,M表示该目标词语所包含的音素数量,P(tp)表示该目标词语所对应的音素p的发音时长概率。例如,假设词语A对应三个目标音素:A11、A12以及A13,则可以计算目标音素A11、A12以及A13分别对应的发音时长概率的和,再除以3,得到词语A对应的发音流利度。再根据目标词语对应的发音流利度得到目标语音对应的发音流利度。例如,将目标词语集合中目标词语对应的发音流利度的平均值作为目标语音对的发音流利度,当然还可以结合其他信息得到目标语音对应的发音流利度。例如可以根据两个相邻的目标词语对应的语音之间的停顿时长降低发音流利度或者提高发音流利度的值。如果停顿时长高于预设时长,则可以对发音流利度进惩罚,即降低流利度。
在一些实施例中,可以根据目标词语集合中词的个数,与标准识别文本中词的个数的比值,得到目标语音对应的完整度。例如,假设文本识别结果为“今天今天吧周五”,而标准识别文本为“今天是周五”。则得到的目标词语集合包括“今”、“天”、“周”以及“五”共4个词。而标准识别文本有5个词,因此完整度为4/5=0.8。
在一些实施例中,还可以将目标语音对应的语音评测结果发送到终端中,终端显示评测结果。例如如图6所示,可以显示流利度、准确度以及完整度分别对应的得分。使得用户可以更好的了解评测效果。如图7所示,还可以显示根据流利度、准确度以及完整度分别对应的得分得到的综合得分。还可以在界面上显示用户漏读、重读或者多读的词语的至少一个,以使得用户可以根据该信息对口语进行改进,提高用户的评测体验。
在一些实施例中,终端可以显示对语音进行评测的界面的入口,例如如图8左边的图所示的“绘本跟读”入口。当用户点击“绘本跟读”入口后,进入如图8右边的图所示的绘本跟读的界面。界面上显示“today is Friday”的文字以及“按住录音”的按钮,当终端接收到“按住录音”的点击操作时,可以对用户的语音进行录制,并发送到服务器中,服务器可以执行本申请实施例提供的语音处理方法,得到语音评测结果。并将该语音评测结果返回到终端。终端可以显示如图6或者图7所示的评测结果界面。
在一些实施例中,如图9所示,提供了一种语音评测方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S902,获取待评测的目标语音。
具体地,可以将需要进行口语评测的语音作为待评测的目标语音。例如,将在英文学习软件上录制的用户朗读英文语句的语音作为待评测的目标语音。
步骤S904,获取目标语音对应的文本识别结果,其中,文本识别结果是根据目标语音对应的标准识别文本的标准解码路径,对目标语音进行语音解码得到的。
具体地,该文本识别结果可以是采用本申请实施例的语音处理方法进行解码得到的,在此再赘述。
步骤S906,将文本识别结果与标准识别文本进行对比,得到对比结果。
具体地,对比结果可以包括文本识别结果中,与标准识别文本的词语对比一致的词语、与标准识别文本的词语对比不一致的词语、或者标准识别文本中,与文本识别结果中的词语对比不一致的词语的至少一个。标准识别文本中,与文本识别结果中的词语对比不一致的词语为用户漏读的词语。例如假设标准识别文本为“today is friday”,文本识别结果为“today friday”,则标准识别文本中,与文本识别结果中的词语对比不一致的词语,即用户漏读的词语为:“is”。
步骤S908,根据对比结果对目标语音进行语音评测,得到语音评测结果。
具体地,语音评测结果可以包括综合评测分数、词语准确度信息、发音流利度信息、词语漏读信息或者词语重读信息中的至少一个。例如可以输出用户漏读的词语或者重读的词语,并显示在终端的显示界面上。也可以输出发音准确度低于预设阈值的的词语,并展示在终端的显示界面上,预设阈值可以根据需要设置,例如0.8。
上述语音评测方法,由于目标语音对应的文本识别结果是根据目标语音对应的标准识别文本的标准解码路径,对目标语音进行语音解码得到的,因此能够使得在进行语音解码时,激励语音解码朝着标准解码路径对应的边的方向进行延伸,故能够提高识别得到的文本识别结果的准确度高。而通过准确的文本识别结果与标准识别文本进行对比得到的对比结果进行评测,能够体现用户朗读标准识别文本时的错漏点,故得到的评测结果准确度高。
本申请实施例提供的方法,可以应用于对儿童语音进行评测中。以下以对儿童语音进行评测为例,结合图10中语音评测模型的处理原理图,对本申请实施例提供的语音处理方法进行说明,包括以下步骤:
1、接收对目标语音进行评测的评测请求,根据评测请求中携带的语音数据得到待识别的目标语音。
具体地,终端上可以安装有用于语言学习的应用程序,该应用程序的界面可以显示用户需朗读的文本例如“今天是周五”以及“开始录音”的按钮,用户可以点击 “开始录音”按钮,并开始朗读“今天是周五”。终端进行录制,得到用户的语音数据以及标准识别文本,并发送到服务器中,以进行语音评测。其中,对目标语音进行评测的请求还携带场景相关信息,用于表示该目标语音为儿童语音。例如场景相关信息可以是儿童场景的场景标识或者该发出该语音的用户的年龄。例如,参见图10,服务器可以获取评测请求中的语音数据,进行前端处理例如采用VAD算法(Voice Activity Detection,语音活动检测)检测静音数据,并去除语音数据中多余的静音数据,保留正确的语音数据作为目标语音。将目标语音分为多个音频帧,对每个音频帧进行特征提取,得到音频帧对应的特征向量,多个音频帧的特征向量组成特征向量序列。
2、利用声学模型对目标语音进行语音识别,得到语音解码网络中的状态节点对应的声学分数,语音解码网络包括语音识别单元对应的状态节点以及连接状态节点之间的边。
具体地,将特征向量序列输入到声学模型中,得到音素对应的后验概率,语音解码网络可以是对语言模型、声学模型以及发音词典分别对应的WFST网络进行组合得到的,可以根据音素的状态对应的后验概率确定用于解码的WFST网络中,每个时刻对应的状态的声学分数。边的分数可以是语言模型给出的,表示由前一个状态转移到后一个状态的分数。
3、确定目标语音对应的标准识别文本的标准解码路径。
具体地,标准解码路径代表用户应该发音的目标序列,用户真实的发音可能并不完全和这条路径匹配,例如目标语音可以存在多读或者少读等。假设标准识别文本由A1、B2以及C3组成,则标准解码路径可以为A1-B2-C3。当然,标准解码路径也可以是更细粒度的解码路径,例如假设语音解码网络的一个状态节点表示一个音素,A1对应音素A11、A12、B2对应音素B11、B12以及B13、C3对应音素C11以及C12,则标准解码路径也可以是A11-A12-B11-B12-B13-C11-C12。以下以标准解码路径为A1-B2-C3进行说明。
参见图10,评测请求中还携带文本数据即标准识别文本,服务器可以根据标准识别文本以及发音词典生成激励路径(Incentive Path),即标准解码路径,例如音素组成的标准解码路径。可以理解,步骤2以及步骤3可以是同时进行的。
4、对候选解码路径中,与标准解码路径对应的边的状态转移分数进行正向激励,得到候选解码路径的边对应的目标状态转移分数。
5、根据候选解码路径在语音解码网络中经过的目标状态节点对应的声学分数,以及候选解码路径的边对应的目标状态转移分数,得到候选解码路径对应的目标解码分数。
参考图3。假设其中一个候选解码路径的起始状态节点为A2,下一个节点为B2,可以获取以A2为起始状态节点时,候选解码路径所对应的初始解码分数,例如获取起始状态节点对应的词语作为句子的第一个词语的概率,得到候选解码路径的初始解码分数。将初始解码分数加上从A2到B2的边的状态转移分数,以及B2对应的声学分数,得到该候选解码路径到达当前目标状态节点B2时,所对应的当前解码分数。由于A2到B2之间的边,与标准解码路径A1-B2之间的边不同,因此不对该边的状态转移分数进行激励。
其中,为了减少候选解码路径的数量,可以获取到达当前目标状态节点B2时,各个候选解码路径分别对应的当前解码分数;确定当前解码分数小于最大当前解码分数的候选解码路径,作为第一候选解码路径,停止对第一候选解码路径进行路径延伸。参考图3,到达当前目标状态节点B2的候选解码路径有三个:A1-B2、A2-B2以及A3-B2。假设这三个候选解码路径中,候选解码路径A2-B2对应的当前解码分数最高,则A1到B2以及A3到B2不会继续进行路径延伸,因此可以减少候选解码路径的数量。
由于候选解码路径A2-B2对应的当前解码分数最大,因此对该候选解码路径继续进行延伸,可以将C1、C2以及C3分别作为更新后的当前目标状态节点。这样,候选解码路径存在三个延伸方向,可以获取根据这三个延伸方向进行延伸所得到的三个候选解码路径即:A2-B2-C1、A2-B2-C2以及A2-B2-C3,将这三个路径分别作为候选解码路径,分别计算这三个候选解码路径对应的解码分数。例如,计算A2-B2-C3对应的当前解码分数时,将候选解码路径达到当前目标状态节点B2时,所对应的当前解码分数,加上B2到C3的目标状态转移分数以及B3对应的声学分数进行相加,更新得到候选解码路径达到当前目标状态节点C3时,所对应的当前解码分数。其中,由于B2到C3的边,与标准解码路径A1-B2-C3的边B2-C3相同,因此在计算候选解码路径达到当前目标状态节点C3时,所对应的当前解码分数之前,需要对B2到C3的边的状态转移分数进行激励,例如假设B2到C3的边对应的转移概率是0.8,则加上0.1的概率,得到0.9,再以0.9为真数进行对数计算,得到B2到C3的边对应的目标状态转移分数,这样使得B2到C3的边对应的状态转移分数增大。假设A2-B2-C3可以继续进行路径延伸,则可以计算得到A2-B2-C3-D1、A2-B2-C3-D2、A2-B2-C3-D3对应的分数。
由以上计算候选解码路径的过程可以看出,通过对候选解码路径中,与标准解码路径对应的边的状态转移分数进行正向激励,从而使得候选解码路径A2-B2-C3对应的当前解码分数会增大。故可以使候选解码路径沿着与标准解码路径的边的方向延伸的可能性变大,而且由于其他解码路径的状态节点也对应有声学分数以及对应有状态转移分数,如果其他路径的声学分数以及状态转移分数也比较大,则候选解码路径也会沿着不是标准解码路径对应的边进行延伸。例如,A1-B2、A2-B2以及A3到B2这三个候选解码路径中,A1-B2为标准解码路径的边,但是在目标语音中,用户说的是B2对应的词语,因此B2对应的词语的声学分数比较高,故路径是沿着A2-B2进行移动的。
6、根据各个候选解码路径对应的目标解码分数从候选解码路径集合中选取得到目标解码路径。
假设得到三个候选解码路径的目标解码分数,如A1-B1-C3-D1、A2-B2-C3-D2、A2-B2-C3-D3对应的目标解码分数,其中A2-B2-C3-D2对应的目标解码分数最高,则可以将A2-B2-C3-D2作为目标解码路径。
7、根据目标解码路径经过的状态节点所对应的语音识别单元,得到目标语音对应的文本识别结果。
具体地,文本识别结果可以是“A2B2C3D2”。
步骤2~7的解码原理可以参考图10的构图和解码模块,解码算法可以联合声学模型、激励路径以及WFST网络进行联合解码,得到文本识别结果,构图是指构造语音解码网络。
8、将文本识别结果与标准识别文本进行对比,从文本识别结果中过滤与标准识别文本的词语对比不一致的无效词语,得到目标词语集合。
具体地,如果是儿童语音评测场景,假设文本识别结果为“今天今天吧周五”,而标准识别文本为“今天是周五”,则需要过滤“今天今天”中的其中一个“今天”,并过滤“吧”。得到的目标词语集合包括“今”、“天”、“周”以及“五”。
9、获取目标词语集合中各个目标词语对应的目标声学识别信息,根据目标声学识别信息对目标语音进行语音评测,得到语音评测结果,目标词语对应的目标声学识别信息是根据声学模型对目标语音进行声学识别得到的。
具体地,可以获取“今”、“天”、“周”以及“五”分别对应的音素,获取这些音素所对应的音频帧的特征向量输入到在声学模型中时,声学模型所输出的识别概率,根据识别概率计算得到目标语音对应的发音准确度。获取这些音素所对应的音频帧的时间长度,得到发音时长概率,根据发音时长概率得到目标语音对应的流利度。
在一些实施例中,还可以获取标词语集合的词语的数量与标准识别文本中词语的数量的比例,得到目标语音对应的完整度。步骤8、9的解码原理可以参考图10的输出模块,可以在服务器中设置进行语音评测的算法,称为基础统计模型,例如如何计算流利度、准确度以及完整度的算法,因此可以基于文本识别结果进行指标计算,得到语音评测指标中各个指标对应的评测分数。
本申请实施例提供的语音处理方法,可以应用于对儿童语音进行评测的场景中,例如应用于对绘本进行语音跟读的语音评测场景中。由于儿童发音能力有限,看到绘本上的句子进行跟读时,很难判断自己读的好不好或者有没有遗漏,而通过使用智能的解码算法,即带有激励路径信息(标准解码路径)的解码算法,解码算法会在解码过程中参考指定的路径信息,同时又兼顾其他可能的路径,因此可以最大限度的检测用户已读词汇,并将文本识别结果与标准是被文本对比,可以发现多读以及少读的词汇。而句子模式下文本由若干单词组成,现实中初学者如儿童在读句子的时候往往会出现多读或者少读的现象,故评测时,对于多读、少读以及其他无效内容可以进行忽略,因此可以精准找到与标准识别文本相关度较高的语音部分对应的声学识别信息进行评测,从而给出较为合理的评分成绩,提高评测分数准确度。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一些实施例中,如图11所示,提供了一种语音处理装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:目标语音获取模块1102、声学分数得到模块1104、标准解码路径确定模块1106、目标解码分数得到模块1108、目标解码路径得到模块1110和文本识别结果得到模块1112,其中:
目标语音获取模块1102,用于获取待识别的目标语音。
声学分数得到模块1104,用于对目标语音进行语音识别,得到语音解码网络中的状态节点对应的声学分数,语音解码网络包括语音识别单元对应的状态节点以及连接状态节点之间的边。
标准解码路径确定模块1106,用于确定目标语音对应的标准识别文本的标准解码路径。
目标解码分数得到模块1108,用于根据候选解码路径在语音解码网络中经过的目标状态节点对应的声学分数,得到候选解码路径集合中各个候选解码路径分别对应的目标解码分数,其中,在计算候选解码路径对应的目标解码分数时,当候选解码路径包括标准解码路径对应的边,则对候选解码路径的解码分数进行正向激励。
目标解码路径得到模块1110,用于根据候选解码路径对应的目标解码分数从候选解码路径集合中选取得到目标解码路径。
文本识别结果得到模块1112,用于根据目标解码路径经过的状态节点所对应的语音识别单元,得到目标语音对应的文本识别结果。
在一些实施例中,目标解码分数得到模块包括:激励单元,用于对候选解码路径中,与标准解码路径对应的边的状态转移分数进行正向激励,得到候选解码路径的边对应的目标状态转移分数;目标解码分数得到单元,用于根据候选解码路径在语音解码网络中经过的目标状态节点对应的声学分数,以及候选解码路径的边对应的目标状态转移分数,得到候选解码路径对应的目标解码分数。
在一些实施例中,目标解码分数得到单元用于:确定候选解码路径中的当前目标状态节点;获取由当前目标状态节点的前一目标状态节点转移到当前目标状态节点的边对应的当前目标状态转移分数;对当前目标状态节点对应的声学分数、当前目标状态转移分数以及到达前一目标状态节点时,候选解码路径对应的解码分数进行累计,得到候选解码路径对应的当前解码分数;将候选解码路径中当前目标状态节点的下一目标状态节点作为更新后的当前目标状态节点,返回获取由当前目标状态节点的前一目标状态节点转移到当前目标状态节点的边对应的当前目标状态转移分数的步骤,直至到达候选解码路径的尾部状态节点;将到达尾部状态节点时,候选解码路径对应的当前解码分数作为候选解码路径对应的目标解码分数。
在一些实施例中,装置还包括:当前解码分数得到模块,用于获取到达当前目标状态节点时,各个候选解码路径分别对应的当前解码分数;停止延伸模块,用于确定当前解码分数小于最大当前解码分数的候选解码路径,作为第一候选解码路径,停止对第一候选解码路径进行路径延伸。
在一些实施例中,激励单元用于:获取语音解码网络中,与标准解码路径对应的边的初始状态转移概率,对初始状态转移概率进行概率增加处理,得到目标状态转移概率;根据目标状态转移概率,计算得到与标准解码路径对应的边对应的目标状态转移分数,其中,目标状态转移分数与目标状态转移概率成正相关关系。
在一些实施例中,装置还包括:语音评测模块,用于将文本识别结果与标准识别文本进行对比,得到对比结果,根据对比结果对目标语音进行语音评测,得到语音评测结果。
在一些实施例中,语音评测模块包括:目标词语集合得到单元,用于将文本识别结果与标准识别文本进行对比,从文本识别结果中过滤与标准识别文本的词语对比不一致的无效词语,得到目标词语集合;语音评测单元,用于获取目标词语集合中各个目标词语对应的目标声学识别信息,根据目标声学识别信息对目标语音进行语音评测,得到语音评测结果,目标词语对应的目标声学识别信息是根据声学模型对目标语音进行声学识别得到的。
在一些实施例中,语音评测单元用于:获取目标词语集合中各个目标词语对应的音素集合;确定目标语音中,识别得到音素集合中的目标音素的音频帧,作为目标音频帧;获取目标音频帧对应的音素识别概率,作为目标音素识别概率;对目标音素识别概率进行统计处理,得到目标语音的发音准确度。
在一些实施例中,语音评测单元用于:获取目标词语集合中各个目标词语对应的音素集合;获取音素集合中各个目标音素在目标语音中的发音时长,作为目标发音时长;根据目标发音时长得到目标音素对应的发音时长概率;对发音时长概率进行统计处理,得到目标语音的发音流利度。
在一些实施例中,语音评测模块用于:确定目标语音对应的目标评测场景,当目标评测场景为儿童语音评测场景时,将文本识别结果与标准识别文本进行对比,得到对比结果,根据对比结果对目标语音进行语音评测,得到语音评测结果。
关于语音处理装置的具体限定可以参见上文中对于语音处理方法的限定,在此不再赘述。上述语音处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一些实施例中,如图12所示,提供了一种语音评测装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:评测语音获取模块1202、识别结果获取模块1204、对比模块1206以及语音评测结果得到模块1208,其中:
评测语音获取模块1202,用于获取待评测的目标语音。
识别结果获取模块1204,用于获取所述目标语音对应的文本识别结果,其中,所述文本识别结果是根据所述目标语音对应的标准识别文本的标准解码路径,对所述目标语音进行语音解码得到的。
对比模块1206,用于将所述文本识别结果与所述标准识别文本进行对比,得到对比结果。
语音评测结果得到模块1208,用于根据所述对比结果对所述目标语音进行语音评测,得到语音评测结果。
在一些实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于目标语音。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音处理或者语音评测方法。
本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一些实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。在一些实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种语音处理方法,其特征在于,所述方法包括:
获取待识别的目标语音;
对所述目标语音进行语音识别,得到语音解码网络中的状态节点对应的声学分数,所述语音解码网络包括语音识别单元对应的状态节点以及连接所述状态节点之间的边;
确定所述目标语音对应的标准识别文本的标准解码路径;
对候选解码路径中,与所述标准解码路径对应的边的状态转移分数进行正向激励,得到所述候选解码路径的边对应的目标状态转移分数;
根据所述候选解码路径在所述语音解码网络中经过的目标状态节点对应的声学分数,以及所述候选解码路径的边对应的目标状态转移分数,得到所述候选解码路径对应的目标解码分数;
根据所述候选解码路径对应的目标解码分数从候选解码路径集合中选取得到目标解码路径;
根据所述目标解码路径经过的状态节点所对应的语音识别单元,得到所述目标语音对应的文本识别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述候选解码路径在所述语音解码网络中经过的目标状态节点对应的声学分数,以及所述候选解码路径的边对应的目标状态转移分数,得到所述候选解码路径对应的目标解码分数包括:
确定所述候选解码路径中的当前目标状态节点;
获取由当前目标状态节点的前一目标状态节点转移到当前目标状态节点的边对应的当前目标状态转移分数;
对当前目标状态节点对应的声学分数、当前目标状态转移分数以及到达前一目标状态节点时,所述候选解码路径对应的解码分数进行累计,得到所述候选解码路径对应的当前解码分数;
将所述候选解码路径中当前目标状态节点的下一目标状态节点作为更新后的当前目标状态节点,返回所述获取由当前目标状态节点的前一目标状态节点转移到当前目标状态节点的边对应的当前目标状态转移分数的步骤,直至到达所述候选解码路径的尾部状态节点;
将到达所述尾部状态节点时,所述候选解码路径对应的当前解码分数作为所述候选解码路径对应的目标解码分数。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取到达当前目标状态节点时,各个所述候选解码路径分别对应的当前解码分数;
确定当前解码分数小于最大当前解码分数的候选解码路径,作为第一候选解码路径,停止对所述第一候选解码路径进行路径延伸。
4.根据权利要求1所述的方法,其特征在于,所述对候选解码路径中,与所述标准解码路径对应的边的状态转移分数进行正向激励,得到所述候选解码路径的边对应的目标状态转移分数包括:
获取所述候选解码路径中,与所述标准解码路径对应的边的初始状态转移概率,对所述初始状态转移概率进行概率增加处理,得到目标状态转移概率;
根据所述目标状态转移概率,计算得到与所述标准解码路径对应的边对应的目标状态转移分数,其中,所述目标状态转移分数与所述目标状态转移概率成正相关关系。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述文本识别结果与所述标准识别文本进行对比,得到对比结果,根据所述对比结果对所述目标语音进行语音评测,得到语音评测结果。
6.根据权利要求5所述的方法,其特征在于,所述将所述文本识别结果与所述标准识别文本进行对比,得到对比结果,根据所述对比结果对所述目标语音进行语音评测,得到语音评测结果包括:
将所述文本识别结果与所述标准识别文本进行对比,从所述文本识别结果中过滤与所述标准识别文本的词语对比不一致的无效词语,得到目标词语集合;
获取所述目标词语集合中各个目标词语对应的目标声学识别信息,根据所述目标声学识别信息对所述目标语音进行语音评测,得到语音评测结果,所述目标词语对应的目标声学识别信息是对所述目标语音进行声学识别得到的。
7.根据权利要求6所述的方法,其特征在于,所述获取所述目标词语集合中各个目标词语对应的目标声学识别信息,根据所述目标声学识别信息对所述目标语音进行语音评测,得到语音评测结果包括:
获取所述目标词语集合中各个目标词语对应的音素集合;
确定所述目标语音中,识别得到所述音素集合中的目标音素的音频帧,作为目标音频帧;
获取所述目标音频帧对应的音素识别概率,作为目标音素识别概率;
对所述目标音素识别概率进行统计处理,得到所述目标语音的发音准确度。
8.根据权利要求5所述的方法,其特征在于,所述将所述文本识别结果与所述标准识别文本进行对比,得到对比结果,根据所述对比结果对所述目标语音进行语音评测,得到语音评测结果包括:
确定所述目标语音对应的目标评测场景,当所述目标评测场景为儿童语音评测场景时,将所述文本识别结果与所述标准识别文本进行对比,得到对比结果,根据所述对比结果对所述目标语音进行语音评测,得到语音评测结果。
9.一种语音评测方法,其特征在于,所述方法包括:
获取待评测的目标语音;
获取所述目标语音对应的文本识别结果,其中,所述文本识别结果是根据所述目标语音对应的标准识别文本的标准解码路径,对所述目标语音进行语音解码得到的,在语音解码时,对所述目标语音对应的候选解码路径中,与所述标准解码路径对应的边的状态转移分数进行正向激励;
将所述文本识别结果与所述标准识别文本进行对比,得到对比结果;
根据所述对比结果对所述目标语音进行语音评测,得到语音评测结果。
10.根据权利要求9所述的方法,其特征在于,所述根据所述对比结果对所述目标语音进行语音评测,得到语音评测结果包括:
从所述文本识别结果中过滤与所述标准识别文本的词语对比不一致的无效词语,得到目标词语集合;
获取所述目标词语集合中各个目标词语对应的目标声学识别信息,所述目标词语对应的目标声学识别信息是对所述目标语音进行声学识别得到的;
根据所述目标声学识别信息对所述目标语音进行语音评测,得到语音评测结果。
11.根据权利要求9所述的方法,其特征在于,所述获取所述目标语音对应的文本识别结果的步骤包括:
对所述目标语音进行语音识别,得到语音解码网络中的状态节点对应的声学分数,所述语音解码网络包括语音识别单元对应的状态节点以及连接所述状态节点之间的边;
确定所述目标语音对应的标准识别文本的标准解码路径;
对候选解码路径中,与所述标准解码路径对应的边的状态转移分数进行正向激励,得到所述候选解码路径的边对应的目标状态转移分数;
根据所述候选解码路径在所述语音解码网络中经过的目标状态节点对应的声学分数,以及所述候选解码路径的边对应的目标状态转移分数,得到所述候选解码路径对应的目标解码分数;
根据所述候选解码路径对应的目标解码分数从候选解码路径集合中选取得到目标解码路径;
根据所述目标解码路径经过的状态节点所对应的语音识别单元,得到所述目标语音对应的文本识别结果。
12.一种语音处理装置,其特征在于,所述装置包括:
目标语音获取模块,用于获取待识别的目标语音;
声学分数得到模块,用于对所述目标语音进行语音识别,得到语音解码网络中的状态节点对应的声学分数,所述语音解码网络包括语音识别单元对应的状态节点以及连接所述状态节点之间的边;
标准解码路径确定模块,用于确定所述目标语音对应的标准识别文本的标准解码路径;
目标解码分数得到模块,用于对候选解码路径中,与所述标准解码路径对应的边的状态转移分数进行正向激励,得到所述候选解码路径的边对应的目标状态转移分数;根据所述候选解码路径在所述语音解码网络中经过的目标状态节点对应的声学分数,以及所述候选解码路径的边对应的目标状态转移分数,得到所述候选解码路径对应的目标解码分数;
目标解码路径得到模块,用于根据所述候选解码路径对应的目标解码分数从候选解码路径集合中选取得到目标解码路径;
文本识别结果得到模块,用于根据所述目标解码路径经过的状态节点所对应的语音识别单元,得到所述目标语音对应的文本识别结果。
13.一种语音评测装置,其特征在于,所述装置包括:
评测语音获取模块,用于获取待评测的目标语音;
识别结果获取模块,用于获取所述目标语音对应的文本识别结果,其中,所述文本识别结果是根据所述目标语音对应的标准识别文本的标准解码路径,对所述目标语音进行语音解码得到的,在语音解码时,对所述目标语音对应的候选解码路径中,与所述标准解码路径对应的边的状态转移分数进行正向激励;
对比模块,用于将所述文本识别结果与所述标准识别文本进行对比,得到对比结果;
语音评测结果得到模块,用于根据所述对比结果对所述目标语音进行语音评测,得到语音评测结果。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010509720.6A CN111402895B (zh) | 2020-06-08 | 2020-06-08 | 语音处理、语音评测方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010509720.6A CN111402895B (zh) | 2020-06-08 | 2020-06-08 | 语音处理、语音评测方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111402895A true CN111402895A (zh) | 2020-07-10 |
CN111402895B CN111402895B (zh) | 2020-10-02 |
Family
ID=71437636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010509720.6A Active CN111402895B (zh) | 2020-06-08 | 2020-06-08 | 语音处理、语音评测方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111402895B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933119A (zh) * | 2020-08-18 | 2020-11-13 | 北京字节跳动网络技术有限公司 | 用于生成语音识别网络的方法、装置、电子设备和介质 |
CN112133285A (zh) * | 2020-08-31 | 2020-12-25 | 北京三快在线科技有限公司 | 语音识别方法、装置、存储介质和电子设备 |
CN112349289A (zh) * | 2020-09-28 | 2021-02-09 | 北京捷通华声科技股份有限公司 | 一种语音识别方法、装置、设备以及存储介质 |
CN112437333A (zh) * | 2020-11-10 | 2021-03-02 | 深圳Tcl新技术有限公司 | 节目播放方法、装置、终端设备以及存储介质 |
CN112466279A (zh) * | 2021-02-02 | 2021-03-09 | 深圳市阿卡索资讯股份有限公司 | 一种英语口语发音自动纠正方法和装置 |
CN112634904A (zh) * | 2020-12-22 | 2021-04-09 | 北京有竹居网络技术有限公司 | 热词识别方法、装置、介质和电子设备 |
CN112652306A (zh) * | 2020-12-29 | 2021-04-13 | 珠海市杰理科技股份有限公司 | 语音唤醒方法、装置、计算机设备和存储介质 |
CN112882680A (zh) * | 2021-01-22 | 2021-06-01 | 维沃移动通信有限公司 | 语音识别方法及装置 |
CN112908361A (zh) * | 2021-02-02 | 2021-06-04 | 早道(大连)教育科技有限公司 | 一种基于小粒度口语发音评价系统 |
CN114267339A (zh) * | 2021-12-14 | 2022-04-01 | 上海流利说信息技术有限公司 | 语音识别处理方法及系统、设备以及存储介质 |
CN115171695A (zh) * | 2022-06-29 | 2022-10-11 | 东莞爱源创科技有限公司 | 语音识别方法、装置、电子设备和计算机可读介质 |
WO2023087767A1 (zh) * | 2021-11-18 | 2023-05-25 | 北京优幕科技有限责任公司 | 适用于语音识别模型的训练数据生成方法及设备 |
CN116385230A (zh) * | 2023-06-07 | 2023-07-04 | 北京奇趣万物科技有限公司 | 一种儿童阅读能力评测方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102592595A (zh) * | 2012-03-19 | 2012-07-18 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
WO2016209493A1 (en) * | 2015-06-25 | 2016-12-29 | Intel Corporation | Method and system of automatic speech recognition with dynamic vocabularies |
CN108735201A (zh) * | 2018-06-29 | 2018-11-02 | 广州视源电子科技股份有限公司 | 连续语音识别方法、装置、设备和存储介质 |
CN109545243A (zh) * | 2019-01-23 | 2019-03-29 | 北京猎户星空科技有限公司 | 发音质量评价方法、装置、电子设备及存储介质 |
CN109872726A (zh) * | 2019-03-26 | 2019-06-11 | 北京儒博科技有限公司 | 发音评估方法、装置、电子设备和介质 |
CN110473527A (zh) * | 2019-09-17 | 2019-11-19 | 浙江核新同花顺网络信息股份有限公司 | 一种语音识别的方法和系统 |
-
2020
- 2020-06-08 CN CN202010509720.6A patent/CN111402895B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102592595A (zh) * | 2012-03-19 | 2012-07-18 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
WO2016209493A1 (en) * | 2015-06-25 | 2016-12-29 | Intel Corporation | Method and system of automatic speech recognition with dynamic vocabularies |
CN108735201A (zh) * | 2018-06-29 | 2018-11-02 | 广州视源电子科技股份有限公司 | 连续语音识别方法、装置、设备和存储介质 |
CN109545243A (zh) * | 2019-01-23 | 2019-03-29 | 北京猎户星空科技有限公司 | 发音质量评价方法、装置、电子设备及存储介质 |
CN109872726A (zh) * | 2019-03-26 | 2019-06-11 | 北京儒博科技有限公司 | 发音评估方法、装置、电子设备和介质 |
CN110473527A (zh) * | 2019-09-17 | 2019-11-19 | 浙江核新同花顺网络信息股份有限公司 | 一种语音识别的方法和系统 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933119A (zh) * | 2020-08-18 | 2020-11-13 | 北京字节跳动网络技术有限公司 | 用于生成语音识别网络的方法、装置、电子设备和介质 |
CN111933119B (zh) * | 2020-08-18 | 2022-04-05 | 北京字节跳动网络技术有限公司 | 用于生成语音识别网络的方法、装置、电子设备和介质 |
CN112133285A (zh) * | 2020-08-31 | 2020-12-25 | 北京三快在线科技有限公司 | 语音识别方法、装置、存储介质和电子设备 |
CN112133285B (zh) * | 2020-08-31 | 2024-03-01 | 北京三快在线科技有限公司 | 语音识别方法、装置、存储介质和电子设备 |
CN112349289A (zh) * | 2020-09-28 | 2021-02-09 | 北京捷通华声科技股份有限公司 | 一种语音识别方法、装置、设备以及存储介质 |
CN112349289B (zh) * | 2020-09-28 | 2023-12-29 | 北京捷通华声科技股份有限公司 | 一种语音识别方法、装置、设备以及存储介质 |
CN112437333A (zh) * | 2020-11-10 | 2021-03-02 | 深圳Tcl新技术有限公司 | 节目播放方法、装置、终端设备以及存储介质 |
CN112437333B (zh) * | 2020-11-10 | 2024-02-06 | 深圳Tcl新技术有限公司 | 节目播放方法、装置、终端设备以及存储介质 |
CN112634904A (zh) * | 2020-12-22 | 2021-04-09 | 北京有竹居网络技术有限公司 | 热词识别方法、装置、介质和电子设备 |
CN112652306B (zh) * | 2020-12-29 | 2023-10-03 | 珠海市杰理科技股份有限公司 | 语音唤醒方法、装置、计算机设备和存储介质 |
CN112652306A (zh) * | 2020-12-29 | 2021-04-13 | 珠海市杰理科技股份有限公司 | 语音唤醒方法、装置、计算机设备和存储介质 |
CN112882680A (zh) * | 2021-01-22 | 2021-06-01 | 维沃移动通信有限公司 | 语音识别方法及装置 |
CN112908361A (zh) * | 2021-02-02 | 2021-06-04 | 早道(大连)教育科技有限公司 | 一种基于小粒度口语发音评价系统 |
CN112466279A (zh) * | 2021-02-02 | 2021-03-09 | 深圳市阿卡索资讯股份有限公司 | 一种英语口语发音自动纠正方法和装置 |
WO2023087767A1 (zh) * | 2021-11-18 | 2023-05-25 | 北京优幕科技有限责任公司 | 适用于语音识别模型的训练数据生成方法及设备 |
CN114267339A (zh) * | 2021-12-14 | 2022-04-01 | 上海流利说信息技术有限公司 | 语音识别处理方法及系统、设备以及存储介质 |
CN115171695A (zh) * | 2022-06-29 | 2022-10-11 | 东莞爱源创科技有限公司 | 语音识别方法、装置、电子设备和计算机可读介质 |
CN116385230A (zh) * | 2023-06-07 | 2023-07-04 | 北京奇趣万物科技有限公司 | 一种儿童阅读能力评测方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111402895B (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111402895B (zh) | 语音处理、语音评测方法、装置、计算机设备和存储介质 | |
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
US11127416B2 (en) | Method and apparatus for voice activity detection | |
CN105845134B (zh) | 自由朗读题型的口语评测方法及系统 | |
CN110706692B (zh) | 儿童语音识别模型的训练方法及系统 | |
CN108766415B (zh) | 一种语音测评方法 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN109036471B (zh) | 语音端点检测方法及设备 | |
CN106875936B (zh) | 语音识别方法及装置 | |
CN111862942B (zh) | 普通话和四川话的混合语音识别模型的训练方法及系统 | |
CN111640456B (zh) | 叠音检测方法、装置和设备 | |
CN111145733B (zh) | 语音识别方法、装置、计算机设备和计算机可读存储介质 | |
CN109119069B (zh) | 特定人群识别方法、电子装置及计算机可读存储介质 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
CN112017694B (zh) | 语音数据的评测方法和装置、存储介质和电子装置 | |
CN112863489B (zh) | 语音识别方法、装置、设备及介质 | |
CN115881104A (zh) | 基于热词编码的语音识别方法、装置和存储介质 | |
CN113793599B (zh) | 语音识别模型的训练方法和语音识别方法及装置 | |
CN111640423B (zh) | 一种词边界估计方法、装置及电子设备 | |
CN113160855A (zh) | 在线语音活性检测系统改进方法和装置 | |
CN114528812A (zh) | 一种语音识别方法、系统、计算设备及存储介质 | |
CN111862960A (zh) | 发音错误检测方法、装置、电子设备及存储介质 | |
CN111522937A (zh) | 话术推荐方法、装置和电子设备 | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
CN112397053B (zh) | 语音识别方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40026275 Country of ref document: HK |