CN107910021A - 一种符号插入方法及装置 - Google Patents

一种符号插入方法及装置 Download PDF

Info

Publication number
CN107910021A
CN107910021A CN201711091958.6A CN201711091958A CN107910021A CN 107910021 A CN107910021 A CN 107910021A CN 201711091958 A CN201711091958 A CN 201711091958A CN 107910021 A CN107910021 A CN 107910021A
Authority
CN
China
Prior art keywords
mute
voice
duration
determining
aiming symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711091958.6A
Other languages
English (en)
Inventor
郭建辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TVMining Beijing Media Technology Co Ltd
Original Assignee
TVMining Beijing Media Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TVMining Beijing Media Technology Co Ltd filed Critical TVMining Beijing Media Technology Co Ltd
Priority to CN201711091958.6A priority Critical patent/CN107910021A/zh
Publication of CN107910021A publication Critical patent/CN107910021A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

本发明公开了一种符号插入方法及装置。所述方法包括:按照预设时间间隔检测当前输入的语音中是否出现静音;当出现所述静音时,确定静音的持续时间;根据所述静音的持续时间确定需输入的目标符号;在所述语音中插入所述目标符号。通过本发明的技术方案,可在出现静音时,确定静音的持续时间,进而根据静音的持续时间确定需输入的目标符号,从而在语音中插入该目标符号,这样,之后在通过第三方进行语音识别时,可上传标注有标点符号的语音,以使第三方更有效地进行语音识别,如此,有利于提高语音识别率。

Description

一种符号插入方法及装置
技术领域
本发明涉及语音技术领域,特别涉及一种符号插入方法及装置。
背景技术
目前,在进行语音识别时,语音识别率依然很有限,这与上传的语音是纯语音并没有标点符号有关系,因而,如何进一步提高语音识别率成为亟待解决的问题。
发明内容
本发明提供一种符号插入方法及装置,用以通过按照预设时间间隔检测当前输入的语音中是否出现静音,可在出现静音时,确定静音的持续时间,进而根据静音的持续时间确定需输入的目标符号,从而在语音中插入该目标符号,这样,之后在通过第三方进行语音识别时,可上传标注有标点符号的语音,以使第三方更有效地进行语音识别,如此,有利于提高语音识别率。
本发明提供一种符号插入方法,包括:
按照预设时间间隔检测当前输入的语音中是否出现静音;
当出现所述静音时,确定静音的持续时间;
根据所述静音的持续时间确定需输入的目标符号;
在所述语音中插入所述目标符号。
在一个实施例中,所述当出现所述静音时,确定静音的持续时间,包括:
当出现静音时,确定所述静音的静音单位个数,其中,每个静音单位的持续时间等于所述预设时间间隔;
所述根据所述静音的持续时间确定目标符号,包括:
根据所述静音单位个数确定所述目标符号。
在一个实施例中,所述方法还包括:
根据所述静音单位个数确定所述语音是否结束。
在一个实施例中,所述预设时间间隔对应的音频采样频率为预设频率。
本发明还提供一种符号插入装置,包括:
检测模块,用于按照预设时间间隔检测当前输入的语音中是否出现静音;
第一确定模块,用于当出现所述静音时,确定静音的持续时间;
第二确定模块,用于根据所述静音的持续时间确定需输入的目标符号;
插入模块,用于在所述语音中插入所述目标符号。
在一个实施例中,所述第一确定模块包括:
第一确定子模块,用于当出现静音时,确定所述静音的静音单位个数,其中,每个静音单位的持续时间等于所述预设时间间隔;
所述第二确定模块包括:
第二确定子模块,用于根据所述静音单位个数确定所述目标符号。
在一个实施例中,所述装置还包括:
第三确定模块,用于根据所述静音单位个数确定所述语音是否结束。
在一个实施例中,所述预设时间间隔对应的音频采样频率为预设频率。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过按照预设时间间隔检测当前输入的语音中是否出现静音,可在出现静音时,确定静音的持续时间,进而根据所述静音的持续时间确定需输入的目标符号,从而在所述语音中插入该目标符号,这样,之后在通过第三方进行语音识别时,可上传标注有标点符号的语音,以使第三方更有效地进行语音识别,如此,有利于提高语音识别率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是根据一示例性实施例示出的一种符号插入方法的流程图。
图2是根据一示例性实施例示出的另一种符号插入方法的流程图。
图3是根据一示例性实施例示出的一种符号插入装置的框图。
图4是根据一示例性实施例示出的另一种符号插入装置的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
相关技术中,在进行语音识别时,语音识别率依然很有限,这与上传的语音是纯语音并没有标点符号有关系,因而,如何进一步提高语音识别率成为亟待解决的问题。
为了解决上述技术问题,本公开实施例提供了一种符号插入方法,该方法适用于符号插入程序、系统或装置中,其执行主体可以是手机、服务器等,如图1所示,该方法包括:步骤S101至步骤S104,其中:
在步骤S101中,按照预设时间间隔检测当前输入的语音中是否出现静音;
在步骤S102中,当出现静音时,确定静音的持续时间;
出现静音指的是语音内容为空,没有声音。
在步骤S103中,根据静音的持续时间确定需输入的目标符号;
在步骤S104中,在语音中插入目标符号。
通过按照预设时间间隔检测当前输入的语音中是否出现静音,可在出现静音时,确定静音的持续时间,进而根据静音的持续时间确定需输入的目标符号,从而在语音中插入该目标符号,这样,之后在通过第三方进行语音识别时,可上传标注有标点符号的语音,以使第三方更有效地进行语音识别,如此,有利于提高语音识别率。
如图2所示,在一个实施例中,上述图1所示的步骤S102,即当出现静音时,确定静音的持续时间,可以包括:
在步骤A1中,当出现静音时,确定静音的静音单位个数,其中,每个静音单位的持续时间等于预设时间间隔;如该预设时间间隔可以是150毫秒。
上述图1所示的步骤S103,即根据静音的持续时间确定目标符号,可以包括:
在步骤A2中,根据静音单位个数确定目标符号。
在确定静音的持续时间时,可在出现静音时,确定静音的静音单位个数,而由于在检测静音时是按照预设时间间隔检测的,因而,每个静音单位的持续时间等于该预设时间间隔,另外,由于静音单位可表示用户语音输入停顿时长,而根据人类的语言习惯,不同的标点符号停顿时长是不同的,因而,可根据静音单位个数准确确定应插入的目标符号。
举例而言,当静音单位个数为1个时,可确定目标符号为顿号,当静音单位个数为2个时,可确定目标符号为逗号,当静音单位个数为3个时,可确定目标符号为分号,当静音单位个数为4个时,可确定目标符号为句号等。
在一个实施例中,方法还包括:
根据静音单位个数确定语音是否结束。
根据静音单位个数还可以确定本次语音输入是否结束,具体地,当静音单位个数太多时,说明用户很久没有输入语音了,因而,可确定本次语音输入结束。举例而言,当静音单位个数为5个时,可确定本次语音输入结束。
在一个实施例中,预设时间间隔对应的音频采样频率为预设频率。
该预设时间间隔对应的音频采样频率可自由设定,如可以使16k。
当然,由于第三方进行语音识别时,每次可接收的语音长度可能有限,如可能是60秒且不超过10M,因而,在确定目标符号时,还可以结合该语音长度进行确定。
如图3所示,本发明还提供一种符号插入装置,包括:
检测模块301,被配置为按照预设时间间隔检测当前输入的语音中是否出现静音;
第一确定模块302,被配置为当出现静音时,确定静音的持续时间;
第二确定模块303,被配置为根据静音的持续时间确定需输入的目标符号;
插入模块304,被配置为在语音中插入目标符号。
如图4所示,在一个实施例中,第一确定模块302可以包括:
第一确定子模块3021,被配置为当出现静音时,确定静音的静音单位个数,其中,每个静音单位的持续时间等于预设时间间隔;
第二确定模块303可以包括:
第二确定子模块3031,被配置为根据静音单位个数确定目标符号。
在一个实施例中,装置还包括:
第三确定模块,被配置为根据静音单位个数确定语音是否结束。
在一个实施例中,预设时间间隔对应的音频采样频率为预设频率。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
最后,本发明中的符号插入装置适用于终端设备。例如,可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种符号插入方法,其特征在于,包括:
按照预设时间间隔检测当前输入的语音中是否出现静音;
当出现所述静音时,确定静音的持续时间;
根据所述静音的持续时间确定需输入的目标符号;
在所述语音中插入所述目标符号。
2.根据权利要求1所述的方法,其特征在于,所述当出现所述静音时,确定静音的持续时间,包括:
当出现静音时,确定所述静音的静音单位个数,其中,每个静音单位的持续时间等于所述预设时间间隔;
所述根据所述静音的持续时间确定目标符号,包括:
根据所述静音单位个数确定所述目标符号。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据所述静音单位个数确定所述语音是否结束。
4.根据权利要求1至3中任一项所述的方法,其特征在于,
所述预设时间间隔对应的音频采样频率为预设频率。
5.一种符号插入装置,其特征在于,包括:
检测模块,用于按照预设时间间隔检测当前输入的语音中是否出现静音;
第一确定模块,用于当出现所述静音时,确定静音的持续时间;
第二确定模块,用于根据所述静音的持续时间确定需输入的目标符号;
插入模块,用于在所述语音中插入所述目标符号。
6.根据权利要求5所述的装置,其特征在于,
所述第一确定模块包括:
第一确定子模块,用于当出现静音时,确定所述静音的静音单位个数,其中,每个静音单位的持续时间等于所述预设时间间隔;
所述第二确定模块包括:
第二确定子模块,用于根据所述静音单位个数确定所述目标符号。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:第三确定模块,用于根据所述静音单位个数确定所述语音是否结束。
8.根据权利要求5至7中任一项所述的装置,其特征在于,
所述预设时间间隔对应的音频采样频率为预设频率。
CN201711091958.6A 2017-11-08 2017-11-08 一种符号插入方法及装置 Pending CN107910021A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711091958.6A CN107910021A (zh) 2017-11-08 2017-11-08 一种符号插入方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711091958.6A CN107910021A (zh) 2017-11-08 2017-11-08 一种符号插入方法及装置

Publications (1)

Publication Number Publication Date
CN107910021A true CN107910021A (zh) 2018-04-13

Family

ID=61843718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711091958.6A Pending CN107910021A (zh) 2017-11-08 2017-11-08 一种符号插入方法及装置

Country Status (1)

Country Link
CN (1) CN107910021A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831481A (zh) * 2018-08-01 2018-11-16 平安科技(深圳)有限公司 语音识别中符号添加方法、装置、计算机设备及存储介质
CN109448704A (zh) * 2018-11-20 2019-03-08 北京智能管家科技有限公司 语音解码图的构建方法、装置、服务器和存储介质
CN111986654A (zh) * 2020-08-04 2020-11-24 云知声智能科技股份有限公司 降低语音识别系统延时的方法及系统
US11062693B1 (en) * 2019-06-20 2021-07-13 West Corporation Silence calculator

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831481A (zh) * 2018-08-01 2018-11-16 平安科技(深圳)有限公司 语音识别中符号添加方法、装置、计算机设备及存储介质
WO2020024352A1 (zh) * 2018-08-01 2020-02-06 平安科技(深圳)有限公司 语音识别中符号添加方法、装置、计算机设备及存储介质
CN109448704A (zh) * 2018-11-20 2019-03-08 北京智能管家科技有限公司 语音解码图的构建方法、装置、服务器和存储介质
US11062693B1 (en) * 2019-06-20 2021-07-13 West Corporation Silence calculator
CN111986654A (zh) * 2020-08-04 2020-11-24 云知声智能科技股份有限公司 降低语音识别系统延时的方法及系统
CN111986654B (zh) * 2020-08-04 2024-01-19 云知声智能科技股份有限公司 降低语音识别系统延时的方法及系统

Similar Documents

Publication Publication Date Title
CN106782536B (zh) 一种语音唤醒方法及装置
CN105719649B (zh) 语音识别方法及装置
US8909534B1 (en) Speech recognition training
CN107910021A (zh) 一种符号插入方法及装置
CN107871506A (zh) 语音识别功能的唤醒方法及装置
CN106653030A (zh) 标点添加方法及装置
CN106297801A (zh) 语音处理方法及装置
CN112653902B (zh) 说话人识别方法、装置及电子设备
CN109981787B (zh) 用于展示信息的方法和装置
US8682678B2 (en) Automatic realtime speech impairment correction
CN108073572B (zh) 信息处理方法及其装置、同声翻译系统
US11587547B2 (en) Electronic apparatus and method for controlling thereof
CN103391347A (zh) 一种自动录音的方法及装置
CN108039181B (zh) 一种声音信号的情感信息分析方法和装置
CN105279259A (zh) 一种搜索结果的确定方法及装置
CN107945806B (zh) 基于声音特征的用户识别方法及装置
CN108364635B (zh) 一种语音识别的方法和装置
CN107591156B (zh) 语音识别方法及装置
CN106782529A (zh) 语音识别的唤醒词选择方法及装置
CN107863113A (zh) 一种语音上传方法及装置
EP3244408A1 (en) Method and electronic unit for adjusting playback speed of media files
CN110931028B (zh) 一种语音处理方法、装置和电子设备
KR20170093491A (ko) 음성 인식 방법 및 이를 사용하는 전자 장치
CN106653003A (zh) 语音识别方法及装置
CN107863112A (zh) 一种音频获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180413