CN115273851A - 音频处理方法、装置、设备及存储介质 - Google Patents

音频处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115273851A
CN115273851A CN202210693388.2A CN202210693388A CN115273851A CN 115273851 A CN115273851 A CN 115273851A CN 202210693388 A CN202210693388 A CN 202210693388A CN 115273851 A CN115273851 A CN 115273851A
Authority
CN
China
Prior art keywords
recognition result
voice recognition
real time
number content
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210693388.2A
Other languages
English (en)
Inventor
袁斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Damo Institute Hangzhou Technology Co Ltd
Original Assignee
Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Damo Institute Hangzhou Technology Co Ltd filed Critical Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority to CN202210693388.2A priority Critical patent/CN115273851A/zh
Publication of CN115273851A publication Critical patent/CN115273851A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及一种音频处理方法、装置、设备及存储介质。本公开通过获取当前时刻的语音识别结果,将所述语音识别结果中文本形式的数目内容实时的转换为数字符号,并将包含有所述数字符号的语音识别结果进行实时的显示。由于一些现有技术在遇到语音识别结果中的标点符号时,才将该标点符号所能断成的一整句话中的数目内容转换为数字符号。而本实施例可以实时的将语音识别结果中的文本形式的数目内容转换为数字符号,并实时的显示包含有数字符号的语音识别结果,因此,本实施例可以有效避免转换延迟,并避免屏幕出现文本信息的突变,从而可以提高用户的阅读体验。

Description

音频处理方法、装置、设备及存储介质
技术领域
本公开涉及信息技术领域,尤其涉及一种音频处理方法、装置、设备及存储介质。
背景技术
随着科技的不断发展,通过语音识别(AutomaticSpeechRecognition,ASR)可以将音频转换为文本,该文本可以作为字幕进行显示。
但是,本申请的发明人发现,将音频转换成文本后,如果该文本中包括较长的数字内容的文本,例如,“一亿五千六百八十五万元”,则可以通过文本转换成数字(InverseTexttoNumber,ITN)技术,将数字内容的文本转换为包括阿拉伯数字的文本,例如,“1亿5685万元”。但是,从“一亿五千六百八十五万元”变化到“1亿5685万元”的过程中会导致屏幕出现文本信息的突变,从而导致较差的阅读体验。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种音频处理方法、装置、设备及存储介质,以避免屏幕出现文本信息的突变,从而可以提高用户的阅读体验。
第一方面,本公开实施例提供一种音频处理方法,包括:
获取当前时刻的语音识别结果;
将所述语音识别结果中文本形式的数目内容实时的转换为数字符号;
将包含有所述数字符号的语音识别结果进行实时的显示。
第二方面,本公开实施例提供一种音频处理装置,包括:
获取模块,用于获取当前时刻的语音识别结果;
转换模块,用于将所述语音识别结果中文本形式的数目内容实时的转换为数字符号;
显示模块,用于将包含有所述数字符号的语音识别结果进行实时的显示。
第三方面,本公开实施例提供一种电子设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的方法。
第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面所述的方法。
本公开实施例提供的音频处理方法、装置、设备及存储介质,通过获取当前时刻的语音识别结果,将所述语音识别结果中文本形式的数目内容实时的转换为数字符号,并将包含有所述数字符号的语音识别结果进行实时的显示。由于一些现有技术在遇到语音识别结果中的标点符号时,才将该标点符号所能断成的一整句话中的数目内容转换为数字符号,导致现有技术在显示完或即将显示完一整句话的语音识别结果后紧接着显示该一整句话被转换后的、包括数字符号的语音识别结果,从而导致数目内容到数字符号的转换过程被延迟,并导致屏幕出现文本信息的突变。而本实施例可以实时的将语音识别结果中的文本形式的数目内容转换为数字符号,并实时的显示包含有数字符号的语音识别结果,因此,本实施例可以有效避免转换延迟,并避免屏幕出现文本信息的突变,从而可以提高用户的阅读体验。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的音频处理方法流程图;
图2为本公开实施例提供的应用场景的示意图;
图3为本公开另一实施例提供的应用场景的示意图;
图4为本公开另一实施例提供的音频处理方法流程图;
图5为本公开另一实施例提供的音频处理方法流程图;
图6为本公开另一实施例提供的音频处理方法流程图;
图7为本公开另一实施例提供的音频处理方法流程图;
图8为本公开实施例提供的音频处理装置的结构示意图;
图9为本公开实施例提供的电子设备实施例的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
通常情况下,将音频转换成文本后,如果该文本中包括较长的数字内容的文本,例如,“一亿五千六百八十五万元”,则可以通过文本转换成数字(InverseTexttoNumber,ITN)技术,将数字内容的文本转换为包括阿拉伯数字的文本,例如,“1亿5685万元”。但是,从“一亿五千六百八十五万元”变化到“1亿5685万元”的过程中会导致屏幕出现文本信息的突变,从而导致较差的阅读体验。针对该问题,本公开实施例提供了一种音频处理方法,下面结合具体的实施例对该方法进行介绍。
图1为本公开实施例提供的音频处理方法流程图。该方法可以由音频处理装置执行,该装置可以采用软件和/或硬件的方式实现,该装置可配置于电子设备中,例如服务器或终端,其中,终端具体包括手机、电脑、电视机或平板电脑等。另外,该方法可以适用于图2所示的应用场景,在该应用场景中包括终端21和服务器22。其中,服务器22可以执行该音频处理方法,将包含有数字符号的语音识别结果实时的发送给终端21,从而使得终端21可以将包含有数字符号的语音识别结果进行实时的显示。或者,终端21可以执行该音频处理方法,并将包含有数字符号的语音识别结果进行实时的显示。下面以服务器22执行该音频处理方法为例进行示意性说明。如图1所示,该方法具体步骤如下:
S101、获取当前时刻的语音识别结果。
例如,在本实施例中,终端21可以实时的采集或接收音频信号,并将音频信号实时的发送给服务器22。服务器22可以对终端21发送过来的音频信号进行实时的语音识别(AutomaticSpeechRecognition,ASR),从而得到实时的语音识别结果。例如,t1时刻、t2时刻、t3时刻的语音识别结果分别如下表1所示:
表1
Figure BDA0003701251810000031
其中,t2时刻可以是t1时刻的下一时刻,t3时刻是t2时刻的下一时刻。每个时刻都有可能是当前时刻,例如,若当前时刻为t1时刻,则当前时刻的语音识别结果是“生产总值一亿”。若当前时刻为t2时刻,则当前时刻的语音识别结果是“生产总值一亿五”。若当前时刻为t3时刻,则当前时刻的语音识别结果是“生产总值一亿五千万”。可以理解的是,本实施例以t1时刻、t2时刻、t3时刻来示意性的表示语音识别结果的实时变化,但是并不限于t1时刻、t2时刻、t3时刻才会有语音识别结果,例如,在其他时刻也会对应有语音识别结果,并且不同时刻的语音识别结果可能是不同的,即语音识别结果可能是实时变化的。
S102、将所述语音识别结果中文本形式的数目内容实时的转换为数字符号。
例如,若当前时刻为t1时刻,则可以将“生产总值一亿”中文本形式的数目内容例如“一”转换为数字符号“1”。若当前时刻为t2时刻,则可以将“生产总值一亿五”中的“一”转换为“1”,并将“生产总值一亿五”中的“五”转换为“5”。若当前时刻为t3时刻,则可以将“生产总值一亿五千万”中的“一”转换为“1”,并将“五”转换为“5”。也就是说,每个时刻的语音识别结果中的文本形式的数目内容可以实时的转换为数字符号。
S103、将包含有所述数字符号的语音识别结果进行实时的显示。
例如,在t1时刻,服务器22可以将“生产总值1亿”发送给终端21,使得终端21可以在t1时刻显示“生产总值1亿”。同理,在t2时刻,服务器22可以将“生产总值1亿5”发送给终端21,使得终端21可以在t2时刻显示“生产总值1亿5”。在t3时刻,服务器22可以将“生产总值1亿5千万”发送给终端21,使得终端21可以在t3时刻显示“生产总值1亿5千万”。终端21在不同时刻显示的内容如下表2所示:
表2
Figure BDA0003701251810000041
本公开实施例通过获取当前时刻的语音识别结果,将所述语音识别结果中文本形式的数目内容实时的转换为数字符号,并将包含有所述数字符号的语音识别结果进行实时的显示。由于一些现有技术在遇到语音识别结果中的标点符号时,才将该标点符号所能断成的一整句话中的数目内容转换为数字符号,导致现有技术在显示完或即将显示完一整句话的语音识别结果后紧接着显示该一整句话被转换后的、包括数字符号的语音识别结果,从而导致数目内容到数字符号的转换过程被延迟,并导致屏幕出现文本信息的突变。而本实施例可以实时的将语音识别结果中的文本形式的数目内容转换为数字符号,并实时的显示包含有数字符号的语音识别结果,因此,本实施例可以有效避免转换延迟,并避免屏幕出现文本信息的突变,从而可以提高用户的阅读体验。
可以理解的是,本实施例所述的音频处理方法并不仅适用于图2所示的应用场景,还可以适用于图3所示的应用场景。例如,在图3中,终端23通过服务器22向终端21发送音频信号。当服务器22接收到终端23发送过来的音频信号时,可以采用本实施例提供的音频处理方法对该音频信号进行实时处理,从而得到包含有所述数字符号的语音识别结果,并将包含有所述数字符号的语音识别结果实时的发送给终端21,从而使得终端21可以将包含有所述数字符号的语音识别结果实时的显示在屏幕中。例如,终端23的用户可以是正常人,终端21的用户可以是听障人士。通过本实施例提供的音频处理方法可以是实现正常人和听障人士的正常交流。
或者,在图2所示的应用场景中,服务器22可以是多媒体服务器,终端21的用户是听障人士。通过本实施例提供的音频处理方法可以使得听障人士可以正常的观看各种类型的多媒体信息。
再或者,在图2所示的应用场景中,服务器22可以不执行本实施例提供的音频处理方法,而是将带有音频信号的多媒体信息发送给终端21,由终端21来执行该音频处理方法,使得终端21的用户例如听障人士通过屏幕中显示的包含有所述数字符号的语音识别结果,正常的观看该多媒体信息。此外,在一些实施例中,当终端21是电视机时,该电视机还可以与机顶盒连接,该机顶盒接收服务器22下发的带有音频信号的多媒体信息,由该机顶盒执行该音频处理方法,并将包含有所述数字符号的语音识别结果作为字幕显示在该电视机上,从而方便了听障人士观看有声电视节目。
可以理解的是,本实施例所述的音频处理方法不仅可以适用于如上所述的几种应用场景,还可以应用于其他类似的应用场景中,此处不再赘述。
图4为本公开另一实施例提供的音频处理方法流程图。在本实施例中,该方法具体步骤如下:
S401、获取当前时刻的语音识别结果。
具体的,S401和S101的实现方式和具体原理一致,此处不再赘述。
S402、将所述语音识别结果中文本形式的数目内容实时的转换为数字符号,将所述语音识别结果中与所述数目内容相关的预设名词实时的转换为数学符号,并调整所述数学符号和所述数字符号之间的相对位置。
在一些实施例中,语音识别结果中还会出现与数目内容相关的预设名词,例如,t1时刻、t2时刻、t3时刻的语音识别结果分别如下表3所示:
表3
Figure BDA0003701251810000051
其中,如表3所示的“百分之”是与数目内容相关的预设名词。可以理解的是,与数目内容相关的预设名词并不限于“百分之”,例如,还可以有“千分之”、“万分之”等名词。例如,在t1时刻,由于“百分之”后面还未出现具体的数目内容,因此,在t1时刻,可以显示“生产总值提高了百分之”。在t2时刻,由于在“百分之”后面出现了具体的数目内容“八”,因此,在t2时刻,可以将“百分之”转换为数学符号“%”,并将“八”转换为数字符号“8”,同时,可以调整一下数学符号“%”和数字符号“8”之间的相对位置,例如,可以将数学符号“%”放置在数字符号“8”的后面。同理,在t3时刻,可以将“百分之”转换为数学符号“%”,并将“八”转换为数字符号“8”,将“点”转换为数学符号“.”,将“五”转换为数字符号“5”。
可选的,将所述语音识别结果中文本形式的数目内容实时的转换为数字符号,包括:预测所述语音识别结果中文本形式的数目内容的第一位置标识;根据所述第一位置标识,将所述语音识别结果中文本形式的数目内容实时的转换为数字符号。
假设t3时刻的语音识别结果是“生产总值一亿五千万元”,在本实施例中,可以通过深度机器学习中的序列预测模型,例如,长短期记忆网络(Long Short-Term Memory,LSTM)来预测该语音识别结果中文本形式的数目内容的第一位置标识。例如,“生产总值一亿五千万元”经过LSTM预测后产生的标签是“0000101110”,“0000101110”中的每个标识和“生产总值一亿五千万元”中的每个字符一一对应,也就是说,“生产总值一亿五千万元”中的每个字符对应有一个“0”或“1”标识。其中,“0”对应的字符是非数目内容的字符,“1”对应的字符是数目内容的字符。因此,“0000101110”中的多个“1”可以记为第一位置标识。进一步,确定出“0000101110”中第一次出现的“1”和最后一次出现的“1”,并根据这两个“1”,从“生产总值一亿五千万元”中提取出这两个“1”之间的字符串,例如,“一亿五千万”。进一步,将“一亿五千万”送入有限状态转换机(FiniteStateTransducers,FST),FST可以进行字符串转换,例如,FST可以将“一亿五千万”中的数目内容实时的转换为数字符号,例如,FST的输出是“1亿5千万”。进一步,将“生产总值一亿五千万元”中“0”对应的字符和FST的输出即“1亿5千万”进行合并,从而得到合并结果“生产总值1亿5千万元”。也就是说,在t3时刻,可以将“生产总值一亿五千万元”转换为“生产总值1亿5千万元”。可以理解的是,此处只是以t3时刻的语音识别结果为例进行示意性说明,对于其他时刻的语音识别结果也可以参照“0”、“1”标识的方式进行转换。
可选的,将所述语音识别结果中与所述数目内容相关的预设名词实时的转换为数学符号,包括:预测所述语音识别结果中与所述数目内容相关的预设名词的第二位置标识;根据所述第二位置标识,将所述语音识别结果中与所述数目内容相关的预设名词实时的转换为数学符号。
在一些实施例中,语音识别结果中还会出现与数目内容相关的预设名词,例如,“百分之”、“千分之”等。在这种情况下,不仅需要通过如上所述的LSTM和FST将数目内容实时的转换为数字符号,同时,还需要将预设名词实时的转换为数学符号。
例如,t3时刻的语音识别结果是“生产总值提高了百分之八点五”,“生产总值提高了百分之八点五”经过LSTM预测后产生的标签是“0000000100101”,根据“0000000100101”中第一次出现的“1”和最后一次出现的“1”,从“生产总值提高了百分之八点五”中提取出字符串“百分之八点五”。进一步,将“百分之八点五”送入FST,FST的输出是“8.5%”。在一些实施例中,还可以将预设名词对应的位置标识和数目内容对应的位置标识进行区分,例如,“生产总值提高了百分之八点五”经过LSTM预测后产生的标签是“0000000222101”,其中,位置标识“2”对应于预设名词,位置标识“1”对应于数目内容,位置标识“1”记为第一位置标识,位置标识“2”记为第二位置标识。根据第二位置标识,可以从“生产总值提高了百分之八点五”中提取出“百分之”,根据“0000000222101”中的两个“1”可以提取出“八点五”。进一步,将“百分之”和“八点五”输入到FST,FST可以将“百分之”转换为“%”,将“八点五”转换为“8.5”,并将“%”置于“8.5”的后面,即FST可以输出“8.5%”。进一步,将“生产总值提高了百分之八点五”中“0”对应的字符和FST的输出即“8.5%”进行合并,从而得到合并结果“生产总值提高了8.5%”。
可选的,调整所述数学符号和所述数字符号之间的相对位置,包括:在所述语音识别结果中,若所述预设名词在所述数目内容的前面,则将所述数学符号调整到所述数字符号的后面。
例如,在“生产总值提高了百分之八点五”中,“百分之”在“八点五”的前面,因此,可以将“百分之”转换后的数学符号“%”调整到数字符号“8.5”的后面。
S403、将包含有所述数字符号和所述数学符号的语音识别结果进行实时的显示。
以表3所示的语音识别结果为例,在t1时刻,终端21的屏幕中可以显示“生产总值提高了百分之”。在t2时刻,终端21的屏幕中可以显示“生产总值提高了8%”。在t3时刻,终端21的屏幕中可以显示“生产总值提高了8.5%”。也就是说,在没有出现数目内容的情况下,“百分之”可以不被转换为“%”,但是,在出现了数目内容的情况下,“百分之”需要被转换为“%”,并且“%”需要被置于数字符号的后面。
可以理解的是,当语音识别结果中的数目内容较多时,文本形式的数目内容会占用较大或较长的屏幕区域,例如,语音识别结果是“国民生产总值一亿五千六百八十五万元”,将“国民生产总值一亿五千六百八十五万元”转换为“国民生产总值1亿5685万元”后,“国民生产总值1亿5685万元”相比于“国民生产总值一亿五千六百八十五万元”所占用的屏幕区域会较小或较短。如果现有技术在显示完或即将显示完一整句话的语音识别结果后紧接着显示该一整句话被转换后的、包括数字符号的语音识别结果,则会导致“国民生产总值一亿五千六百八十五万元”上屏时占用较大或较长的屏幕区域,而“国民生产总值1亿5685万元”上屏时占用较小或较短的屏幕区域,从而产生较大的屏幕位移,导致用户失去屏幕上关注的焦点,并且需要重新寻找上次焦点所在的位置,影响用户阅读体验。但是,由于本实施例可以实时的将语音识别结果中的文本形式的数目内容转换为数字符号,并实时的显示包含有数字符号的语音识别结果,因此,本实施例可以有效避免较大的屏幕位移的产生,使得用户可以很好的聚焦在屏幕显示的数字上或数字的实时变化上,从而提高了用户的阅读体验。
图5为本公开另一实施例提供的音频处理方法流程图。在本实施例中,该方法具体步骤如下:
S501、获取当前时刻的语音识别结果。
如图6所示,服务器22在获取到音频信号的时候,可以对该音频信号进行语音识别,也就是说,将音频信号或语音转换为文本,从而得到语音识别结果。
S502、在所述语音识别结果中添加标点符号。
如图6所示,在进行语音识别后,还可以对语音识别结果进行口语顺滑,口语顺滑主要是将文本中的语气词进行过滤,从而更加符合用户的阅读习惯。进一步,对过滤后的文本进行标点断句,标点断句主要是对文本进行标点预测,从而在文本中添加逗号、句号、问号等标点符号。
S503、将添加有标点符号的所述语音识别结果中文本形式的数目内容实时的转换为数字符号。
如图6所示,将添加有标点符号的文本即添加有标点符号的语音识别结果进行文本规整,该文本规整具体可以是将文本转换成数字(InverseTexttoNumber,ITN),例如上述实施例所述的将数目内容实时的转换为数字符号,或者将与所述数目内容相关的预设名词实时的转换为数学符号。例如,将“百分之八十五”转换为“85%”。
可选的,将添加有标点符号的所述语音识别结果中文本形式的数目内容实时的转换为数字符号,包括:根据所述标点符号,将添加有标点符号的所述语音识别结果切分为多个片段;分别预测每个片段中文本形式的数目内容的第一位置标识;根据所述第一位置标识,将所述每个片段中文本形式的数目内容实时的转换为数字符号。
在本实施例中,如图6所示的ITN算法运行的流程图如图7所示。具体的,图7所示的文本输入具体可以是如上所述的添加有标点符号的文本。例如,t3时刻的语音识别结果是“流量消耗一兆二十元”,添加标点符号之后变为“流量消耗一兆,二十元”。对“流量消耗一兆,二十元”进行文本规整时,首先进行标点切分,即根据“流量消耗一兆,二十元”中的标点符号将“流量消耗一兆,二十元”切分为多个片段,例如,第一个片段是“流量消耗一兆”,第二个片段是“二十元”。然后,将“流量消耗一兆”输入到LSTM进行预测,得到第一预测结果例如“000010”,进一步,根据“000010”中的“1”将“流量消耗一兆”中的“一”输入到FST,使得FST将“一”转换为“1”,从而得到第一部分输出“流量消耗1兆”。同理,将“二十元”输入到LSTM进行预测,得到第二预测结果例如“110”,进一步,根据“110”中的两个“1”将“二十”输入到FST,使得FST将“二十”转换为“20”,从而得到第二部分输出“20元”。进一步,将第一部分输出“流量消耗1兆”和第二部分输出“20元”进行合并,得到“流量消耗1兆,20元”,“流量消耗1兆,20元”可以是图7所示的输出。
S504、将包含有所述数字符号的语音识别结果进行实时的显示。
例如,在t3时刻,可以将“流量消耗1兆,20元”显示在终端21的屏幕中。也就是说,图7所示的输出是图6所示的结果上屏中的结果。
可以理解的是,在本实施例中,若输入到ITN的文本包括标点符号,那么根据该标点符号可以将该文本划分为多个片段,然后通过LSTM和FST对多个片段分别进行处理,并将分别处理后的结果进行合并。若输入到ITN的文本不包括标点符号,那么可以通过LSTM和FST对该文本进行处理即可,例如,t3时刻的语音识别结果是“流量消耗一兆二十元”,若不需要添加标点符号,那么对应于图7所示的输出是“流量消耗1M20元”。
本实施例采用与语音识别相同的流式处理方式将各个时刻的语音识别结果中的文本形式的数目内容转换为数字符号,并实时的显示包含有数字符号的语音识别结果。也就是说,不论是否在语音识别结果中添加标点符号,抑或输入到ITN的文本中是否包含有标点符号,本实施例都可以按照语音识别的实时性对ITN进行实时调用,即本实施例并不需要等到文本中出现了标点符号时才去调用ITN。因此,本实施例可以有效避免转换延迟,并避免屏幕出现文本信息的突变,从而可以提高用户的阅读体验。
另外,本实施例还可以通过如下表4和表5来对比本公开实施例的上屏效果和现有技术的上屏效果。
表4
时间 t t+1 t+2
语音识别结果 三万 三万一千 三万一千五百
ITN转换结果 30000 31000 31500
上屏效果 30000 31000 31500
具体的,表4体现的是本公开实施例的上屏效果。
表5
时间 t t+1 t+2
语音识别结果 三万 三万一千 三万一千五百
ITN转换结果 N/A N/A N/A
上屏效果 三万 三万一千 三万一千五百
具体的,表5所体现的是现有技术的上屏效果。若在“三万一千五百”之后遇到了标点符号,则t+2时刻的下一时刻可以在屏幕上显示“31500”,并且“31500”显示的时长很短。因此,通过表4和表5可知,本公开实施例所述的方法相比于现有技术具有较小的屏幕位移,可以给用户带来较好的阅读体验。
另外,可以理解的是,在表4的基础上,若在t+2时刻之后,音频信号发生了停顿,并且停顿的时长大于或等于预设时长。例如,在t+6时刻,音频信号再次出现,则从t+6时刻开始,语音识别结果是再次出现的音频信号的语音识别结果。如表6所示。
表6
时间 t+6 t+7 t+8
语音识别结果 五千六 五千六百八 五千六百八十五
ITN转换结果 5600 5680 5685
上屏效果 5600 5680 5685
图8为本公开实施例提供的音频处理装置的结构示意图。本公开实施例提供的音频处理装置可以执行音频处理方法实施例提供的处理流程,如图8所示,音频处理装置80包括:
获取模块81,用于获取当前时刻的语音识别结果;
转换模块82,用于将所述语音识别结果中文本形式的数目内容实时的转换为数字符号;
显示模块83,用于将包含有所述数字符号的语音识别结果进行实时的显示。
可选的,所述转换模块82还用于:将所述语音识别结果中与所述数目内容相关的预设名词实时的转换为数学符号;所述音频处理装置80还包括调整模块84,调整模块84用于调整所述数学符号和所述数字符号之间的相对位置。显示模块83具体用于:将包含有所述数字符号和所述数学符号的语音识别结果进行实时的显示。
可选的,调整模块84在调整所述数学符号和所述数字符号之间的相对位置时,具体用于:在所述语音识别结果中,若所述预设名词在所述数目内容的前面,则将所述数学符号调整到所述数字符号的后面。
可选的,转换模块82将所述语音识别结果中文本形式的数目内容实时的转换为数字符号时,具体用于:
预测所述语音识别结果中文本形式的数目内容的第一位置标识;
根据所述第一位置标识,将所述语音识别结果中文本形式的数目内容实时的转换为数字符号。
可选的,转换模块82将所述语音识别结果中与所述数目内容相关的预设名词实时的转换为数学符号时,具体用于:
预测所述语音识别结果中与所述数目内容相关的预设名词的第二位置标识;
根据所述第二位置标识,将所述语音识别结果中与所述数目内容相关的预设名词实时的转换为数学符号。
可选的,音频处理装置80还包括:添加模块85,添加模块85用于在获取模块81获取当前时刻的语音识别结果之后,在所述语音识别结果中添加标点符号。转换模块82将所述语音识别结果中文本形式的数目内容实时的转换为数字符号时,具体用于:将添加有标点符号的所述语音识别结果中文本形式的数目内容实时的转换为数字符号。
可选的,转换模块82将添加有标点符号的所述语音识别结果中文本形式的数目内容实时的转换为数字符号时,具体用于:
根据所述标点符号,将添加有标点符号的所述语音识别结果切分为多个片段;
分别预测每个片段中文本形式的数目内容的第一位置标识;
根据所述第一位置标识,将所述每个片段中文本形式的数目内容实时的转换为数字符号。
图8所示实施例的音频处理装置可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
以上描述了音频处理装置的内部功能和结构,该装置可实现为一种电子设备。图9为本公开实施例提供的电子设备实施例的结构示意图。如图9所示,该电子设备包括存储器91和处理器92。
存储器91用于存储程序。除上述程序之外,存储器91还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器91可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器92与存储器91耦合,执行存储器91所存储的程序,以用于:
获取当前时刻的语音识别结果;
将所述语音识别结果中文本形式的数目内容实时的转换为数字符号;
将包含有所述数字符号的语音识别结果进行实时的显示。
进一步,如图9所示,电子设备还可以包括:通信组件93、电源组件94、音频组件95、显示器96等其它组件。图9中仅示意性给出部分组件,并不意味着电子设备只包括图9所示组件。
通信组件93被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件93经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件93还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
电源组件94,为电子设备的各种组件提供电力。电源组件94可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
音频组件95被配置为输出和/或输入音频信号。例如,音频组件95包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器91或经由通信组件93发送。在一些实施例中,音频组件95还包括一个扬声器,用于输出音频信号。
显示器96包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
另外,本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的音频处理方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种音频处理方法,其中,所述方法包括:
获取当前时刻的语音识别结果;
将所述语音识别结果中文本形式的数目内容实时的转换为数字符号;
将包含有所述数字符号的语音识别结果进行实时的显示。
2.根据权利要求1所述的方法,其中,所述方法还包括:
将所述语音识别结果中与所述数目内容相关的预设名词实时的转换为数学符号,并调整所述数学符号和所述数字符号之间的相对位置;
将包含有所述数字符号的语音识别结果进行实时的显示,包括:
将包含有所述数字符号和所述数学符号的语音识别结果进行实时的显示。
3.根据权利要求2所述的方法,其中,调整所述数学符号和所述数字符号之间的相对位置,包括:
在所述语音识别结果中,若所述预设名词在所述数目内容的前面,则将所述数学符号调整到所述数字符号的后面。
4.根据权利要求1所述的方法,其中,将所述语音识别结果中文本形式的数目内容实时的转换为数字符号,包括:
预测所述语音识别结果中文本形式的数目内容的第一位置标识;
根据所述第一位置标识,将所述语音识别结果中文本形式的数目内容实时的转换为数字符号。
5.根据权利要求2所述的方法,其中,将所述语音识别结果中与所述数目内容相关的预设名词实时的转换为数学符号,包括:
预测所述语音识别结果中与所述数目内容相关的预设名词的第二位置标识;
根据所述第二位置标识,将所述语音识别结果中与所述数目内容相关的预设名词实时的转换为数学符号。
6.根据权利要求1所述的方法,其中,获取当前时刻的语音识别结果之后,所述方法还包括:
在所述语音识别结果中添加标点符号;
将所述语音识别结果中文本形式的数目内容实时的转换为数字符号,包括:
将添加有标点符号的所述语音识别结果中文本形式的数目内容实时的转换为数字符号。
7.根据权利要求6所述的方法,其中,将添加有标点符号的所述语音识别结果中文本形式的数目内容实时的转换为数字符号,包括:
根据所述标点符号,将添加有标点符号的所述语音识别结果切分为多个片段;
分别预测每个片段中文本形式的数目内容的第一位置标识;
根据所述第一位置标识,将所述每个片段中文本形式的数目内容实时的转换为数字符号。
8.一种音频处理装置,其中,包括:
获取模块,用于获取当前时刻的语音识别结果;
转换模块,用于将所述语音识别结果中文本形式的数目内容实时的转换为数字符号;
显示模块,用于将包含有所述数字符号的语音识别结果进行实时的显示。
9.一种电子设备,其中,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN202210693388.2A 2022-06-17 2022-06-17 音频处理方法、装置、设备及存储介质 Pending CN115273851A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210693388.2A CN115273851A (zh) 2022-06-17 2022-06-17 音频处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210693388.2A CN115273851A (zh) 2022-06-17 2022-06-17 音频处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115273851A true CN115273851A (zh) 2022-11-01

Family

ID=83761213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210693388.2A Pending CN115273851A (zh) 2022-06-17 2022-06-17 音频处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115273851A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117392985A (zh) * 2023-12-11 2024-01-12 飞狐信息技术(天津)有限公司 语音处理方法、装置、终端和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117392985A (zh) * 2023-12-11 2024-01-12 飞狐信息技术(天津)有限公司 语音处理方法、装置、终端和存储介质

Similar Documents

Publication Publication Date Title
US11854570B2 (en) Electronic device providing response to voice input, and method and computer readable medium thereof
US20060173859A1 (en) Apparatus and method for extracting context and providing information based on context in multimedia communication system
US20150177959A1 (en) Method for creating short message and portable terminal using the same
CN106251869B (zh) 语音处理方法及装置
EP3031213B1 (en) Apparatus and method for providing conversation topic
EP1486949A1 (en) Audio video conversion apparatus and method, and audio video conversion program
EP3896596A1 (en) Information processing device, information processing method and program
CN105808058A (zh) 一种智能显示粘贴提示的方法及装置
CN110147467A (zh) 一种文本描述的生成方法、装置、移动终端及存储介质
CN105306815A (zh) 一种拍摄模式切换装置、方法及移动终端
CN107564526B (zh) 处理方法、装置和机器可读介质
CN101661330A (zh) 一种转换手语的方法及终端
CN111919249A (zh) 词语的连续检测和相关的用户体验
CN105139848B (zh) 数据转换方法和装置
CN109545221B (zh) 参数调整方法、移动终端及计算机可读存储介质
CN113055529B (zh) 录音控制方法和录音控制装置
JP5881647B2 (ja) 判定装置、判定方法及び判定プログラム
CN112291614A (zh) 一种视频生成方法及装置
CN110837734A (zh) 文本信息处理方法、移动终端
CN115273851A (zh) 音频处理方法、装置、设备及存储介质
CN111461649A (zh) 事件提醒方法及电子设备
JP2006129122A (ja) 放送受信装置、放送受信方法、放送受信プログラム及びプログラム記録媒体
US20080189592A1 (en) Method for displaying text in portable terminal
CN110781689A (zh) 信息处理方法、装置及存储介质
CN109285545A (zh) 信息处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination