CN110503960A - 语音识别结果的实时上载方法、装置、设备及存储介质 - Google Patents

语音识别结果的实时上载方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110503960A
CN110503960A CN201910918254.4A CN201910918254A CN110503960A CN 110503960 A CN110503960 A CN 110503960A CN 201910918254 A CN201910918254 A CN 201910918254A CN 110503960 A CN110503960 A CN 110503960A
Authority
CN
China
Prior art keywords
information
audio data
speech recognition
original audio
valid statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910918254.4A
Other languages
English (en)
Other versions
CN110503960B (zh
Inventor
赵洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volkswagen Mobvoi Beijing Information Technology Co Ltd
Original Assignee
Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Volkswagen Mobvoi Beijing Information Technology Co Ltd filed Critical Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority to CN201910918254.4A priority Critical patent/CN110503960B/zh
Publication of CN110503960A publication Critical patent/CN110503960A/zh
Application granted granted Critical
Publication of CN110503960B publication Critical patent/CN110503960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例公开了一种语音识别结果的实时上载方法、装置、设备及存储介质。该方法包括:实时获取车载设备输出的当前日志信息;根据预先定义的音频采集关键字、语音识别关键字以及当前日志信息,获取原始音频信息以及有效语句的语音识别信息;根据原始音频信息以及有效语句的语音识别信息,获取有效语句对应的目标原始音频数据;将有效语句的语音识别信息以及目标原始音频数据上传至服务器,以获取服务器生成的语音识别结果展示界面。本发明实施例的技术方案,通过实时上载测试过程中的语音识别结果,向工作人员提供语音识别结果展示界面,避免人工重复性导出的操作,提高车载语音测试中的工作效率。

Description

语音识别结果的实时上载方法、装置、设备及存储介质
技术领域
本发明实施例涉及语音识别技术领域,尤其涉及一种语音识别结果的实时上载方法、装置、设备及存储介质。
背景技术
目前,在日常进行车载设备语音测试时,常采用最基本的对话方法,当遇到语音识别问题,例如识别截断、大量语音内容无法识别、语音识别错误等情况时,需要人工手动从车载设备中导出原始音频数据,并抓取日志信息以及经过数字信号处理(Digital SignalProcessing,DSP)的audio dump音频数据,才能判断出语音识别错误的原因。
现有技术中,随着测试力度加大,发现的问题会越来越多,测试人员手动从车载设备中导出原始音频数据和日志信息的次数以及数量也越来越多,需要做很多次重复性的操作,同时,开发人员从测试人员提供的大量信息中提取当前语音识别对应的内容,并分析引起语音识别错误的原因所花费的时间也越来越长,测试效率比较低。
发明内容
本发明实施例提供一种语音识别结果的实时上载方法、装置、设备及存储介质,通过实时上载测试过程中的语音识别结果,向工作人员提供语音识别结果展示界面,避免人工重复性导出的操作,提高车载语音测试中的工作效率。
第一方面,本发明实施例提供了一种语音识别结果的实时上载方法,包括:
实时获取车载设备输出的当前日志信息;
根据预先定义的音频采集关键字、语音识别关键字以及当前日志信息,获取原始音频信息以及有效语句的语音识别信息;
根据原始音频信息以及有效语句的语音识别信息,获取有效语句对应的目标原始音频数据;
将有效语句的语音识别信息以及目标原始音频数据上传至服务器,以获取服务器生成的语音识别结果展示界面。
可选的,原始音频信息包括原始音频数据、原始音频数据的名称、原始音频数据的存储路径以及原始音频数据开始采集的时间;原始音频数据包括原始录音音频、文本合成语音(Text To Speech,TTS)播报的两路音频以及经过数字信号处理的音频;
根据预先定义的音频采集关键字以及当前日志信息,获取原始音频信息,包括:
在当前日志信息中搜索预先定义的音频采集关键字;
若当前日志信息中存在音频采集关键字,则从当前日志中获取与音频采集关键字匹配的各原始音频数据的名称、存储路径以及开始采集的时间;
从存储路径对应的存储空间中分别获取各原始音频数据。
可选的,有效语句的语音识别信息包括:有效语句的语音识别文字内容、语音识别开始时间以及对应的音频数据;
根据预先定义的语音识别关键字以及当前日志信息,获取有效语句的语音识别信息,包括:
在当前日志信息中搜索预先定义的语音识别关键字;
若当前日志信息中存在语音识别关键字,则从当前日志中,获取与语音识别关键字匹配的有效语句的语音识别文字内容、语音识别的开始时间以及对应的音频数据的存储路径;
从存储路径对应的存储空间中获取与所述有效语句对应的音频数据。
可选的,根据原始音频信息以及有效语句的语音识别信息,获取有效语句对应的目标原始音频数据,包括:
根据原始音频信息中的原始音频数据开始采集的时间,以及有效语句的语音识别信息中的语音识别开始时间,确定有效语句在原始音频数据中的参考起始点;
将与参考起始点距离有效语句对应的音频数据的时间长度的位置点作为参考结束点;
获取包括参考起始点与参考结束点的原始音频数据作为目标原始音频数据。
可选的,在实时获取车载设备输出的当前日志信息之后,还包括:
读取车载设备中存储的携带有设备信息的配置文件,根据配置文件获取车载设备的标识;
在获取有效语句的语音识别信息之后,还包括:
获取语音识别文字内容所在日志信息行的前后预设数量行日志信息,作为目标日志信息。
可选的,将有效语句的语音识别信息以及目标原始音频数据上传至服务器,以获取服务器生成的语音识别结果展示界面,包括:
将车载设备的标识、目标日志信息、有效语句的语音识别信息以及目标原始音频数据上传至服务器;
接收服务器返回的语音识别结果展示界面。
第二方面,本发明实施例还提供了一种语音识别结果的实时上载装置,包括:
日志信息获取模块,用于实时获取车载设备输出的当前日志信息;
语音识别信息获取模块,用于根据预先定义的音频采集关键字、语音识别关键字以及当前日志信息,获取原始音频信息以及有效语句的语音识别信息;
目标音频数据获取模块,用于根据原始音频信息以及有效语句的语音识别信息,获取有效语句对应的目标原始音频数据;
信息上载模块,用于将有效语句的语音识别信息以及目标原始音频数据上传至服务器,以获取服务器生成的语音识别结果展示界面。
可选的,原始音频信息包括原始音频数据、原始音频数据的名称、原始音频数据的存储路径以及原始音频数据开始采集的时间;原始音频数据包括原始录音音频、TTS播报的两路音频以及经过数字信号处理的音频;
语音识别信息获取模块,具体用于:在当前日志信息中搜索预先定义的音频采集关键字;
若当前日志信息中存在音频采集关键字,则从当前日志中获取与音频采集关键字匹配的各原始音频数据的名称、存储路径以及开始采集的时间;
从存储路径对应的存储空间中分别获取各原始音频数据。
可选的,有效语句的语音识别信息包括:有效语句的语音识别文字内容、语音识别开始时间以及对应的音频数据;
语音识别信息获取模块,具体用于:在当前日志信息中搜索预先定义的语音识别关键字;
若当前日志信息中存在语音识别关键字,则从当前日志中,获取与语音识别关键字匹配的有效语句的语音识别文字内容、语音识别的开始时间以及对应的音频数据的存储路径;
从存储路径对应的存储空间中获取与有效语句对应的音频数据。
可选的,目标音频数据获取模块,具体用于:
根据原始音频信息中的原始音频数据开始采集的时间以及有效语句的语音识别信息中的语音识别开始时间,确定有效语句在原始音频数据中的参考起始点;
将与参考起始点距离有效语句对应的音频数据的时间长度的位置点作为参考结束点;
获取包括参考起始点与参考结束点的原始音频数据作为目标原始音频数据。
第三方面,本发明实施例还提供了一种终端设备,终端设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如本发明任意实施例提供的语音识别结果的实时上载方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例提供的语音识别结果的实时上载方法。
本发明实施例的技术方案,通过实时获取车载设备输出的当前日志信息;然后根据预先定义的音频采集关键字、语音识别关键字以及当前日志信息,获取原始音频信息以及有效语句的语音识别信息;然后根据原始音频信息以及有效语句的语音识别信息,获取有效语句对应的目标原始音频数据;将有效语句的语音识别信息以及目标原始音频数据上传至服务器,以获取服务器生成的语音识别结果展示界面。解决了现有技术中需要手动从车载设备中重复导出数据,并提取当前语音识别对应的内容,花费的测试时间较长的问题,通过实时上载测试过程中的语音识别结果,向工作人员提供语音识别结果展示界面,避免人工重复性导出的操作,提高车载语音测试中的工作效率。
附图说明
图1是本发明实施例一中的一种语音识别结果的实时上载方法的流程图;
图2a是本发明实施例二中的一种语音识别结果的实时上载方法的流程图;
图2b是本发明实施例二中的一种语音识别结果的实时上载方法的流程图;
图2c是本发明实施例二中的一种语音识别结果展示界面的示意图;
图3是本发明实施例三中的一种语音识别结果的实时上载装置的结构示意图;
图4是本发明实施例四中的一种终端设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一中的一种语音识别结果的实时上载方法的流程图,本实施例可适用于对车载设备进行语音测试的情况,该方法可以由语音识别结果的实时上载装置来执行,该装置可以由软件和/或硬件的方式实现,并一般可以集成在各种提供语音测试服务的终端设备中。具体的,参考图1,该方法可以包括如下步骤:
步骤110、实时获取车载设备输出的当前日志信息。
本实施例中,可以通过终端设备实时获取车载设备输出的当前日志信息,其中,终端设备既可以是电脑、笔记本和ipad等非车载设备,也可以是车载设备。当终端设备不是车载设备时,需要先与车载设备相连,才可以从车载设备中实时获取记录有车载语音测试结果的日志信息,以根据该日志信息获取当前语音测试结果,进一步的还可以根据该日志信息分析语音测试错误的原因。
可选的,当终端设备不是车载设备时,实时获取车载设备输出的当前日志信息,可以包括:通过NC命令连接车载设备指定的输出端口,通过输出端口实时获取车载设备输出的当前日志信息。其中,NC命令是Linux中的一个网络工具,可以建立几乎所有类型的网络连接,也可以使用传输控制协议(Transmission Control Protocol,TCP)或用户数据报协议(User Datagram Protocol,UDP)的网络连接去读写数据。
步骤120、根据预先定义的音频采集关键字、语音识别关键字以及当前日志信息,获取原始音频信息以及有效语句的语音识别信息。
本实施例中,原始音频信息包括原始音频数据、原始音频数据的名称、原始音频数据的存储路径以及原始音频数据开始采集的时间;原始音频数据包括原始录音音频、TTS播报的两路音频以及经过数字信号处理的音频。
本实施例中的四路原始音频数据可用于分析语音识别错误的产生原因,其中,原始录音音频是指具有录音功能的麦克风等设备所采集的数据,其实际上是指在测试过程中,处于持续监听状态的录音设备,例如麦克风,所采集的所有外界环境的音频信息,TTS播报的两路音频包括与车载设备的语音识别结果匹配的对话文本所对应的音频数据,以及播放音乐的音频数据和收音机的音频数据,经过DSP处理的音频为被车载设备内置的DSP算法模块处理过的原始录音音频,本实施例中的四路原始音频数据都是脉冲编码调制(PulseCode Modulation,PCM)音频数据,脉冲编码调制就是把一个时间连续、取值连续的模拟信号变换成时间离散、取值离散的数字信号的过程,具体的,先对模拟信号抽样,再对样值幅度进行量化和编码。
可选的,根据预先定义的音频采集关键字以及当前日志信息,获取原始音频信息,可以包括:在当前日志信息中搜索预先定义的音频采集关键字;若当前日志信息中存在音频采集关键字,则从当前日志中获取与音频采集关键字匹配的各原始音频数据的名称、存储路径以及开始采集的时间;从存储路径对应的存储空间中分别获取各原始音频数据。
本实施例预先定义了音频采集关键字,以使车载设备在DSP算法模块采集原始音频数据时,可以在日志中添加该关键字以及与采集的原始音频数据对应的原始音频信息,因此,通过在当前日志信息中搜索该音频采集关键字,即可得到各原始音频数据的信息,还可以根据获取到的信息进一步获取到各原始音频数据。
本实施例中,有效语句的语音识别信息包括:有效语句的语音识别文字内容、语音识别开始时间以及对应的音频数据;其中,有效语句可以包括完整的通顺的语句,或者是含有指令,即需要车载设备做出指定操作的语句,本实施例对此不做限制,可根据需求进行对应限定。与有效语句对应的音频数据是由车载设备的语音识别模块采集的有效语句的音频。
可选的,根据预先定义的语音识别关键字以及当前日志信息,获取有效语句的语音识别信息,可以包括:在当前日志信息中搜索预先定义的语音识别关键字;若当前日志信息中存在语音识别关键字,则从当前日志中,获取与语音识别关键字匹配的有效语句的语音识别文字内容、语音识别的开始时间以及对应的音频数据的存储路径;从存储路径对应的存储空间中获取与有效语句对应的音频数据。
本实施例还预先定义了语音识别关键字,以使车载设备在识别出有效的语句时,可以在日志中添加该关键字以及与识别出的有效语句对应的语音识别信息,因此,通过在当前日志信息中搜索该语音识别关键字,即可得到语音识别文字内容、语音识别的开始时间等有效语句的语音识别信息,还可以根据获取到的语音识别信息进一步获取到与有效语句对应的音频数据。
步骤130、根据原始音频信息以及有效语句的语音识别信息,获取有效语句对应的目标原始音频数据。
本实施例中,为了便于工作人员分析车载设备的语音测试结果,需要直接向工作人员提供各有效语句对应的语音识别文字内容以及四路目标原始音频,以避免工作人员手动从大量的原始音频数据中选择出与当前有效语句对应的目标原始音频数据。
可选的,根据原始音频信息以及有效语句的语音识别信息,获取有效语句对应的目标原始音频数据,可以包括:根据原始音频信息中的原始音频数据开始采集的时间以及有效语句的语音识别信息中的语音识别开始时间,确定有效语句在原始音频数据中的参考起始点;将与参考起始点距离有效语句对应的音频数据的时间长度的位置点作为参考结束点;获取包括参考起始点与参考结束点的原始音频数据作为目标原始音频数据。
示例性的,原始音频信息中的原始音频数据开始采集的时间为当地时间14点,有效语句的语音识别信息中的语音识别开始时间为当地时间15点,则可以认为有效语句在原始音频数据开始采集一个小时之后出现。也就是说,在语音识别开始时间的基础上,加上语音识别开始时间与原始音频数据开始采集的时间之间的时间差,即可得到有效语句在原始音频中的起始时间。通过将有效语句对应的音频数据的时长作为该有效语句在原始音频数据中的时长,得到该有效语句在原始音频数据中的结束时间。为了保证能获取到完整的有效语句,可以获取起始时间之前预设时长到结束时间之后预设时长之间的原始音频数据作为目标音频数据,预设时长可以是1秒、2秒或者其他的时间长度。
步骤140、将有效语句的语音识别信息以及目标原始音频数据上传至服务器,以获取服务器生成的语音识别结果展示界面。
本实施例中,为了便于工作人员查看语音测试结果,将获取到的有效语句的语音识别信息以及目标原始音频数据上传至服务器,以使服务器根据该信息生成对应的语音结果展示界面,并加载至终端设备中,从而使工作人员可以通过语音结果展示界面查看语音测试结果,获取语音测试的相关信息。
可选的,在将目标原始音频数据上传至服务器之前,还可以包括:将目标原始音频数据由PCM存储格式转换为WAV格式。本实施例中所获取的音频数据的存储格式皆为PCM,采样率为16kHz,编码方式为16-bit,小尾端存储的字节序方式,即存储的音频数据是有损的,因此需要对PCM存储格式的目标原始音频数据进行处理,转化为无损的WAV格式的音频文件,以方便工作人员查看和分析测试结果。
本发明实施例的技术方案,通过实时获取车载设备输出的当前日志信息;然后根据预先定义的音频采集关键字、语音识别关键字以及当前日志信息,获取原始音频信息以及有效语句的语音识别信息;然后根据原始音频信息以及有效语句的语音识别信息,获取有效语句对应的目标原始音频数据;将有效语句的语音识别信息以及目标原始音频数据上传至服务器,以获取服务器生成的语音识别结果展示界面。解决了现有技术中需要手动从车载设备中重复导出数据,并提取当前语音识别对应的内容,花费的测试时间较长的问题,通过实时上载测试过程中的语音识别结果,向工作人员提供语音识别结果展示界面,避免人工重复性导出的操作,提高车载语音测试中的工作效率。
实施例二
图2是本发明实施例二中的一种语音识别结果的实时上载方法的流程图,本实施例可以与上述实施例中各个可选方案结合。具体的,参考图2,该方法可以包括如下步骤:
步骤210、实时获取车载设备输出的当前日志信息。
可选的,如图2b所示,终端设备需要先与待测试的车载设备进行连接,以便于获取车载设备输出的当前日志信息等必要的数据信息,以满足问题分析的需求。
步骤220、获取车载设备的标识。
本实施例中,如图2b所示,终端设备还需要获取车载设备的标识,以区分不同的待测试车载设备和语音测试内容。
可选的,在实时获取车载设备输出的当前日志信息之后,还可以包括:读取车载设备中存储的携带有设备信息的配置文件,根据配置文件获取车载设备的标识。
步骤230、根据当前日志信息,获取原始音频信息以及有效语句的语音识别信息。
步骤240、获取与有效语句对应的目标日志信息。
可选的,在获取有效语句的语音识别信息之后,还可以包括:获取语音识别文字内容所在日志信息行的前后预设数量行日志信息,作为目标日志信息。
示例性的,当获取到有效语句的语音识别结果后,需要截取该语音识别结果前后相关联的50行的日志信息,以足够工作人员进行问题分析。
步骤250、根据原始音频信息以及有效语句的语音识别信息,获取有效语句对应的目标原始音频数据。
本实施例中,由于车载设备中的DSP算法模块是持续采集原始音频数据的,所以完整的原始音频数据过大,不便于工作人员从中获取指定的测试语句,而终端设备已经获取了原始音频数据的开始采集时间和语音识别结果的开始时间,因此可以根据两者的时间差,在原始音频数据中截取当前语音识别结果对应的目标原始音频数据,实现原始音频数据由大到小的量化过程。
步骤260、对目标原始音频数据进行格式转换。
步骤270、将有效语句的语音识别信息以及目标原始音频数据上传至服务器,以获取服务器生成的语音识别结果展示界面。
可选的,将有效语句的语音识别信息以及目标原始音频数据上传至服务器,以获取服务器生成的语音识别结果展示界面,可以包括:将车载设备的标识、目标日志信息、有效语句的语音识别信息以及目标原始音频数据上传至服务器;接收服务器返回的语音识别结果展示界面。
本实施例中,可以使用curl方法来将数据上传至服务器,其中,curl是利用统一资源定位符(Uniform Resource Locator,URL)语法在命令行方式下工作的开源文件传输工具,其主要作用是通过超文本传输协议(HyperText Transfer Protocol,HTTP)、文件传输协议(File Transfer Protocol,FTP)等方式下载文件,或者上传文件。终端设备获取到服务器生成的语音识别结果展示界面后,通过向工作人员展示该界面,使得工作人员可以通过网页端清晰明了的查看测试内容,并直接将测试结果与界面中的实际识别结果进行对比,在对比结果不一致,即车载设备的测试结果错误时,直接从该界面中获取对应的目标原始音频数据进行问题分析,避免了人工导出的过程,提高了车载语音测试中的工作效率。
示例性的,如图2c所示,语音识别结果展示界面中可以显示车载设备的标识、目标日志信息、有效语句的语音识别信息以及目标原始音频数据等数据。具体的,参数log表示日志信息存储在序号1的日志文件中,点击即可查看相应的目标日志信息;参数carId表示车载设备的唯一标识为LFV2A2152E3220587;参数startTime表示有效语句的语音识别开始时间为0715 19:51:43,其中,0715表示7月15日;参数content表示有效语句的语音识别文字内容为今天天气怎么样;参数raw表示原始录音音频;参数dsp表示2路TTS播报音频数据以及1路DSP处理后的音频数据;参数voice表示语音识别模块采集的与有效语句对应的audio dump音频数据。其中,参数raw、dsp和voice中的音频数据,可以通过点击界面右侧的黑色圆点按钮进行下载存储,通过点击三角形按钮进行音频在线播放。该语音识别结果展示界面还可以根据车载设备标识和有效语句的语音识别文字内容进行快速搜索。
本发明实施例的技术方案,通过实时获取车载设备输出的当前日志信息;然后根据预先定义的音频采集关键字、语音识别关键字以及当前日志信息,获取原始音频信息以及有效语句的语音识别信息;然后根据原始音频信息以及有效语句的语音识别信息,获取有效语句对应的目标原始音频数据;将有效语句的语音识别信息以及目标原始音频数据上传至服务器,以获取服务器生成的语音识别结果展示界面。解决了现有技术中需要手动从车载设备中重复导出数据,并提取当前语音识别对应的内容,花费的测试时间较长的问题,通过实时上载测试过程中的语音识别结果,向工作人员提供语音识别结果展示界面,避免人工重复性导出的操作,提高车载语音测试中的工作效率。
实施例三
图3是本发明实施例三中的一种语音识别结果的实时上载装置的结构示意图。本实施例可适用于对车载设备进行语音测试的情况,如图3所示,该语音识别结果的实时上载装置一般可以集成在各种提供语音测试服务的中,由终端设备执行,包括:日志信息获取模块310、语音识别信息获取模块320、目标音频数据获取模块330以及信息上载模块340;
日志信息获取模块310,用于实时获取车载设备输出的当前日志信息;
语音识别信息获取模块320,用于根据预先定义的音频采集关键字、语音识别关键字以及当前日志信息,获取原始音频信息以及有效语句的语音识别信息;
目标音频数据获取模块330,用于根据原始音频信息以及有效语句的语音识别信息,获取有效语句对应的目标原始音频数据;
信息上载模块340,用于将有效语句的语音识别信息以及目标原始音频数据上传至服务器,以获取服务器生成的语音识别结果展示界面。
本发明实施例的技术方案,通过实时获取车载设备输出的当前日志信息;然后根据预先定义的音频采集关键字、语音识别关键字以及当前日志信息,获取原始音频信息以及有效语句的语音识别信息;然后根据原始音频信息以及有效语句的语音识别信息,获取有效语句对应的目标原始音频数据;将有效语句的语音识别信息以及目标原始音频数据上传至服务器,以获取服务器生成的语音识别结果展示界面。解决了现有技术中需要手动从车载设备中重复导出数据,并提取当前语音识别对应的内容,花费的测试时间较长的问题,通过实时上载测试过程中的语音识别结果,向工作人员提供语音识别结果展示界面,避免人工重复性导出的操作,提高车载语音测试中的工作效率。
可选的,原始音频信息包括原始音频数据、原始音频数据的名称、原始音频数据的存储路径以及原始音频数据开始采集的时间;原始音频数据包括原始录音音频、TTS播报的两路音频以及经过数字信号处理的音频;
语音识别信息获取模块320,具体用于:在当前日志信息中搜索预先定义的音频采集关键字;若当前日志信息中存在音频采集关键字,则从当前日志中获取与音频采集关键字匹配的各原始音频数据的名称、存储路径以及开始采集的时间;从存储路径对应的存储空间中分别获取各原始音频数据。
可选的,有效语句的语音识别信息包括:有效语句的语音识别文字内容、语音识别开始时间以及对应的音频数据;
语音识别信息获取模块320,具体用于:在当前日志信息中搜索预先定义的语音识别关键字;若当前日志信息中存在语音识别关键字,则从当前日志中,获取与语音识别关键字匹配的有效语句的语音识别文字内容、语音识别的开始时间以及对应的音频数据的存储路径;从存储路径对应的存储空间中获取与有效语句对应的音频数据。
可选的,目标音频数据获取模块330,具体用于:根据原始音频信息中的原始音频数据开始采集的时间以及有效语句的语音识别信息中的语音识别开始时间,确定有效语句在原始音频数据中的参考起始点;将与参考起始点距离有效语句对应的音频数据的时间长度的位置点作为参考结束点;获取包括参考起始点与参考结束点的原始音频数据作为目标原始音频数据。
可选的,该装置还包括:标识获取模块,用于在实时获取车载设备输出的当前日志信息之后,读取车载设备中存储的携带有设备信息的配置文件,根据配置文件获取车载设备的标识;目标日志信息获取模块,用于在获取有效语句的语音识别信息之后,获取语音识别文字内容所在日志信息行的前后预设数量行日志信息,作为目标日志信息。
可选的,信息上载模块340,具体用于:将车载设备的标识、目标日志信息、有效语句的语音识别信息以及目标原始音频数据上传至服务器;接收服务器返回的语音识别结果展示界面。
本发明实施例所提供的语音识别结果的实时上载装置可执行本发明任意实施例所提供的应用于终端设备的语音识别结果的实时上载方法,具备执行方法相应的功能模块和有益效果。
实施例四
参照图4,图4是本发明实施例四中的一种终端设备的结构示意图,如图4所示,该设备包括处理器410、存储器420、输入装置430和输出装置440;设备中处理器410的数量可以是一个或多个,图4中以一个处理器410为例;设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器420作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的语音识别结果的实时上载方法对应的程序指令/模块(例如,语音识别结果的实时上载装置中的日志信息获取模块310、语音识别信息获取模块320、目标音频数据获取模块330以及信息上载模块340)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的语音识别结果的实时上载方法。
处理器410实现一种语音识别结果的实时上载方法,方法包括:
实时获取车载设备输出的当前日志信息;
根据预先定义的音频采集关键字、语音识别关键字以及当前日志信息,获取原始音频信息以及有效语句的语音识别信息;
根据原始音频信息以及有效语句的语音识别信息,获取有效语句对应的目标原始音频数据;
将有效语句的语音识别信息以及目标原始音频数据上传至服务器,以获取服务器生成的语音识别结果展示界面。
存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。
实施例五
本发明实施例五提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现一种语音识别结果的实时上载方法,方法包括:
实时获取车载设备输出的当前日志信息;
根据预先定义的音频采集关键字、语音识别关键字以及当前日志信息,获取原始音频信息以及有效语句的语音识别信息;
根据原始音频信息以及有效语句的语音识别信息,获取有效语句对应的目标原始音频数据;
将有效语句的语音识别信息以及目标原始音频数据上传至服务器,以获取服务器生成的语音识别结果展示界面。
当然,本发明实施例所提供的一种计算机可读存储介质,其计算机指令可执行不限于如上的方法操作,还可以执行本发明任意实施例所提供的语音识别结果的实时上载方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
值得注意的是,上述语音识别结果的实时上载装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种语音识别结果的实时上载方法,其特征在于,包括:
实时获取车载设备输出的当前日志信息;
根据预先定义的音频采集关键字、语音识别关键字以及所述当前日志信息,获取原始音频信息以及有效语句的语音识别信息;
根据所述原始音频信息以及有效语句的语音识别信息,获取所述有效语句对应的目标原始音频数据;
将所述有效语句的语音识别信息以及与所述目标原始音频数据上传至服务器,以获取所述服务器生成的语音识别结果展示界面。
2.根据权利要求1所述的方法,其特征在于,所述原始音频信息包括原始音频数据、原始音频数据的名称、原始音频数据的存储路径以及原始音频数据开始采集的时间;所述原始音频数据包括原始录音音频、文本合成语音TTS播报的两路音频以及经过数字信号处理的音频;
根据预先定义的音频采集关键字以及所述当前日志信息,获取原始音频信息,包括:
在所述当前日志信息中搜索所述预先定义的音频采集关键字;
若所述当前日志信息中存在所述音频采集关键字,则从所述当前日志中获取与所述音频采集关键字匹配的各原始音频数据的名称、存储路径以及开始采集的时间;
从所述存储路径对应的存储空间中分别获取各所述原始音频数据。
3.根据权利要求2所述的方法,其特征在于,所述有效语句的语音识别信息包括:所述有效语句的语音识别文字内容、语音识别开始时间以及对应的音频数据;
根据预先定义的语音识别关键字以及所述当前日志信息,获取有效语句的语音识别信息,包括:
在所述当前日志信息中搜索所述预先定义的语音识别关键字;
若所述当前日志信息中存在所述语音识别关键字,则从所述当前日志中,获取与所述语音识别关键字匹配的所述有效语句的语音识别文字内容、语音识别的开始时间以及对应的音频数据的存储路径;
从所述存储路径对应的存储空间中获取与所述有效语句对应的音频数据。
4.根据权利要求3所述的方法,其特征在于,根据所述原始音频信息以及有效语句的语音识别信息,获取所述有效语句对应的目标原始音频数据,包括:
根据所述原始音频信息中的原始音频数据开始采集的时间以及所述有效语句的语音识别信息中的语音识别开始时间,确定所述有效语句在所述原始音频数据中的参考起始点;
将与所述参考起始点距离所述有效语句对应的音频数据的时间长度的位置点作为参考结束点;
获取包括所述参考起始点与所述参考结束点的原始音频数据作为目标原始音频数据。
5.根据权利要求1所述的方法,其特征在于,在实时获取车载设备输出的当前日志信息之后,还包括:
读取所述车载设备中存储的携带有设备信息的配置文件,根据所述配置文件获取所述车载设备的标识;
获取有效语句的语音识别信息之后,还包括:
获取所述语音识别文字内容所在日志信息行的前后预设数量行日志信息,作为目标日志信息。
6.根据权利要求5所述的方法,其特征在于,将所述有效语句的语音识别信息以及与所述目标原始音频数据上传至服务器,以获取所述服务器生成的语音识别结果展示界面,包括:
将所述车载设备的标识、所述目标日志信息、所述有效语句的语音识别信息以及与所述目标原始音频数据上传至服务器;
接收所述服务器返回的语音识别结果展示界面。
7.一种语音识别结果的实时上载装置,其特征在于,包括:
日志信息获取模块,用于实时获取车载设备输出的当前日志信息;
语音识别信息获取模块,用于根据预先定义的音频采集关键字、语音识别关键字以及所述当前日志信息,获取原始音频信息以及有效语句的语音识别信息;
目标音频数据获取模块,用于根据所述原始音频信息以及有效语句的语音识别信息,获取所述有效语句对应的目标原始音频数据;
信息上载模块,用于将所述有效语句的语音识别信息以及与所述目标原始音频数据上传至服务器,以获取所述服务器生成的语音识别结果展示界面。
8.根据权利要求7所述的装置,其特征在于,所述原始音频信息包括原始音频数据、原始音频数据的名称、原始音频数据的存储路径以及原始音频数据开始采集的时间;所述原始音频数据包括原始录音音频、TTS播报的两路音频以及经过数字信号处理的音频;
所述语音识别信息获取模块,具体用于:在所述当前日志信息中搜索所述预先定义的音频采集关键字;
若所述当前日志信息中存在所述音频采集关键字,则从所述当前日志中获取与所述音频采集关键字匹配的各原始音频数据的名称、存储路径以及开始采集的时间;
从所述存储路径对应的存储空间中分别获取各所述原始音频数据。
9.根据权利要求8所述的装置,其特征在于,所述有效语句的语音识别信息包括:所述有效语句的语音识别文字内容、语音识别开始时间以及对应的音频数据;
所述语音识别信息获取模块,具体用于:在所述当前日志信息中搜索所述预先定义的语音识别关键字;
若所述当前日志信息中存在所述语音识别关键字,则从所述当前日志中,获取与所述语音识别关键字匹配的所述有效语句的语音识别文字内容、语音识别的开始时间以及对应的音频数据的存储路径;
从所述存储路径对应的存储空间中获取与所述有效语句对应的音频数据。
10.根据权利要求9所述的装置,其特征在于,所述目标音频数据获取模块,具体用于:
根据所述原始音频信息中的原始音频数据开始采集的时间以及所述有效语句的语音识别信息中的语音识别开始时间,确定所述有效语句在所述原始音频数据中的参考起始点;
将与所述参考起始点距离所述有效语句对应的音频数据的时间长度的位置点作为参考结束点;
获取包括所述参考起始点与所述参考结束点的原始音频数据作为目标原始音频数据。
11.一种终端设备,其特征在于,所述终端设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的语音识别结果的实时上载方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的语音识别结果的实时上载方法。
CN201910918254.4A 2019-09-26 2019-09-26 语音识别结果的实时上载方法、装置、设备及存储介质 Active CN110503960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910918254.4A CN110503960B (zh) 2019-09-26 2019-09-26 语音识别结果的实时上载方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910918254.4A CN110503960B (zh) 2019-09-26 2019-09-26 语音识别结果的实时上载方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110503960A true CN110503960A (zh) 2019-11-26
CN110503960B CN110503960B (zh) 2022-02-11

Family

ID=68592801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910918254.4A Active CN110503960B (zh) 2019-09-26 2019-09-26 语音识别结果的实时上载方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110503960B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112039991A (zh) * 2020-09-01 2020-12-04 平安付科技服务有限公司 通知信息处理方法、装置、计算机系统及可读存储介质
CN112511877A (zh) * 2020-12-07 2021-03-16 四川长虹电器股份有限公司 一种智能电视语音连续对话及交互的方法
CN113391975A (zh) * 2021-06-10 2021-09-14 Oppo广东移动通信有限公司 终端设备的测试方法和装置、存储介质、电子设备
CN114664286A (zh) * 2021-01-28 2022-06-24 北京新能源汽车股份有限公司 一种车载语音交互功能的检测系统、方法及装置
WO2023002070A1 (es) * 2021-07-22 2023-01-26 Fly-Fut, S.L. Método para la generación automática de vídeos de eventos deportivos basado en transmisión y retransmision de imágenes grabadas por dron

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578463A (zh) * 2012-07-27 2014-02-12 腾讯科技(深圳)有限公司 自动化测试方法及测试装置
CN105895132A (zh) * 2016-03-18 2016-08-24 北京智驾互联信息服务有限公司 车载语音记录方法、装置及系统
CN106571142A (zh) * 2016-10-11 2017-04-19 惠州市德赛西威汽车电子股份有限公司 一种汽车导航语音识别率自动测试系统
US20180102143A1 (en) * 2016-10-12 2018-04-12 Lr Acquisition, Llc Modification of media creation techniques and camera behavior based on sensor-driven events
CN108446370A (zh) * 2018-03-15 2018-08-24 苏州思必驰信息科技有限公司 语音数据统计方法和系统
CN108538296A (zh) * 2017-03-01 2018-09-14 广东神马搜索科技有限公司 语音识别测试方法及测试终端
CN109147821A (zh) * 2018-08-20 2019-01-04 Oppo广东移动通信有限公司 智能终端音频检测方法、电子装置及计算机可读存储介质
CN109597739A (zh) * 2018-12-10 2019-04-09 苏州思必驰信息科技有限公司 人机对话中的语音日志服务方法及系统
CN109712612A (zh) * 2018-12-28 2019-05-03 广东亿迅科技有限公司 一种语音关键词检测方法及装置
US10297250B1 (en) * 2013-03-11 2019-05-21 Amazon Technologies, Inc. Asynchronous transfer of audio data

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578463A (zh) * 2012-07-27 2014-02-12 腾讯科技(深圳)有限公司 自动化测试方法及测试装置
US10297250B1 (en) * 2013-03-11 2019-05-21 Amazon Technologies, Inc. Asynchronous transfer of audio data
CN105895132A (zh) * 2016-03-18 2016-08-24 北京智驾互联信息服务有限公司 车载语音记录方法、装置及系统
CN106571142A (zh) * 2016-10-11 2017-04-19 惠州市德赛西威汽车电子股份有限公司 一种汽车导航语音识别率自动测试系统
US20180102143A1 (en) * 2016-10-12 2018-04-12 Lr Acquisition, Llc Modification of media creation techniques and camera behavior based on sensor-driven events
CN108538296A (zh) * 2017-03-01 2018-09-14 广东神马搜索科技有限公司 语音识别测试方法及测试终端
CN108446370A (zh) * 2018-03-15 2018-08-24 苏州思必驰信息科技有限公司 语音数据统计方法和系统
CN109147821A (zh) * 2018-08-20 2019-01-04 Oppo广东移动通信有限公司 智能终端音频检测方法、电子装置及计算机可读存储介质
CN109597739A (zh) * 2018-12-10 2019-04-09 苏州思必驰信息科技有限公司 人机对话中的语音日志服务方法及系统
CN109712612A (zh) * 2018-12-28 2019-05-03 广东亿迅科技有限公司 一种语音关键词检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARUN NARAYANAN等: ""Investigation of Speech Separation as a Front-End for Noise Robust Speech Recognition"", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
张雪源: ""面向音频检索的音频特征分析方法研究"", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112039991A (zh) * 2020-09-01 2020-12-04 平安付科技服务有限公司 通知信息处理方法、装置、计算机系统及可读存储介质
CN112511877A (zh) * 2020-12-07 2021-03-16 四川长虹电器股份有限公司 一种智能电视语音连续对话及交互的方法
CN112511877B (zh) * 2020-12-07 2021-08-27 四川长虹电器股份有限公司 一种智能电视语音连续对话及交互的方法
CN114664286A (zh) * 2021-01-28 2022-06-24 北京新能源汽车股份有限公司 一种车载语音交互功能的检测系统、方法及装置
CN113391975A (zh) * 2021-06-10 2021-09-14 Oppo广东移动通信有限公司 终端设备的测试方法和装置、存储介质、电子设备
WO2023002070A1 (es) * 2021-07-22 2023-01-26 Fly-Fut, S.L. Método para la generación automática de vídeos de eventos deportivos basado en transmisión y retransmision de imágenes grabadas por dron

Also Published As

Publication number Publication date
CN110503960B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN110503960A (zh) 语音识别结果的实时上载方法、装置、设备及存储介质
CN110223673B (zh) 语音的处理方法及装置、存储介质、电子设备
CN110019931B (zh) 音频分类方法、装置、智能设备和存储介质
CN111182347B (zh) 视频片段剪切方法、装置、计算机设备和存储介质
CN108847215B (zh) 基于用户音色进行语音合成的方法及装置
CN110047514B (zh) 一种伴奏纯净度评估方法以及相关设备
CN109637525B (zh) 用于生成车载声学模型的方法和装置
CN110970014A (zh) 语音转换、文件生成、播音、语音处理方法、设备及介质
CN110880329A (zh) 一种音频识别方法及设备、存储介质
US20110144990A1 (en) Rating speech naturalness of speech utterances based on a plurality of human testers
CN109102796A (zh) 一种语音合成方法及装置
WO2017059694A1 (zh) 一种语音模仿方法和装置
CN112053692B (zh) 语音识别处理方法、装置及存储介质
CN106098081A (zh) 声音文件的音质识别方法及装置
CN111402888B (zh) 语音处理方法、装置、设备及存储介质
CN110889008B (zh) 一种音乐推荐方法、装置、计算装置和存储介质
KR20200069264A (ko) 사용자 맞춤형 음성 선택이 가능한 음성 출력 시스템 및 그 구동방법
CN110503941A (zh) 语言能力评测方法、装置、系统、计算机设备及存储介质
CN116825123B (zh) 一种基于音频推送的音质优化方法及系统
CN110096612A (zh) 语音日志的在线音频分析数据的获取方法及系统
CN114783408A (zh) 一种音频数据处理方法、装置、计算机设备以及介质
CN115188363A (zh) 语音处理方法、系统、设备及存储介质
CN114999457A (zh) 语音系统的测试方法、装置、存储介质及电子设备
CN112837688B (zh) 语音转写方法、装置、相关系统及设备
CN113053352A (zh) 基于大数据平台的语音合成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant