CN108831481A - 语音识别中符号添加方法、装置、计算机设备及存储介质 - Google Patents
语音识别中符号添加方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN108831481A CN108831481A CN201810865807.XA CN201810865807A CN108831481A CN 108831481 A CN108831481 A CN 108831481A CN 201810865807 A CN201810865807 A CN 201810865807A CN 108831481 A CN108831481 A CN 108831481A
- Authority
- CN
- China
- Prior art keywords
- duration
- mute section
- fullstop
- comma
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 238000003780 insertion Methods 0.000 claims abstract description 21
- 230000037431 insertion Effects 0.000 claims abstract description 21
- 230000001360 synchronised effect Effects 0.000 claims abstract description 15
- 238000001514 detection method Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 14
- 238000012937 correction Methods 0.000 claims description 7
- 230000004069 differentiation Effects 0.000 claims description 2
- 230000008451 emotion Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种语音识别中符号添加方法、装置、计算机设备及存储介质,所述方法包括:对获取到的待识别语音进行语音识别,同步检测待识别语音中的静音段,判断静音段的时长是否超过第一时长;在静音段的时长超过第一时长时,输出静音段之前的文本序列,并根据静音段的时长在文本序列中对应位置插入逗号或句号;对获取到的静音段之后的待识别语音进行语音识别,同时根据预设的判别模型修正已插入至文本序列中的逗号或句号。本发明用于提升语音识别中符号的输出效率与准确度,以达到提升语音识别效率、准确断句以及准确表达情感的目的。
Description
技术领域
本发明涉及语音识别领域,具体涉及一种语音识别中符号添加方法、装置、计算机设备及存储介质。
背景技术
目前,在语音识别过程中,对自动添加标点符号的研究并不多,大都是对语音进行识别时,中间有停顿的地方识别为逗号,结束时自动添加句号,整个句子被视为陈述语气,这种识别方式会造成句子的停顿错误,一个单句被误拆分为多个不连通的词语组合,而在某些情形下不能表达出讲话者的语气和情感。因此,当前缺少一种能够解决语音识别自动补全符号的方法,以达到正常的断句以及情感的正常表达。
发明内容
本发明实施例提供一种语音识别中符号添加方法、装置、计算机设备及存储介质,用于提升语音识别中符号的输出效率与准确度,以达到提升语音识别效率、准确断句以及准确表达情感的目的。
第一方面,本发明案例提供一种语音识别中符号添加方法,包括:
获取待识别语音,对所述待识别语音进行语音识别,并同步检测所述待识别语音中的静音段,判断所述静音段的时长是否超过第一时长;
在所述静音段的时长超过所述第一时长时,输出所述静音段之前的文本序列,并根据所述静音段的时长,在所述文本序列中对应于所述静音段的位置插入逗号或句号;
获取所述静音段之后的待识别语音并对其进行语音识别,同时根据预设的判别模型修正已插入至所述文本序列中的逗号或句号。
第二方面,本发明实例提供一种语音识别中符号添加装置,包括:
检测模块,用于获取待识别语音,对所述待识别语音进行语音识别,并同步检测所述待识别语音中的静音段,判断所述静音段的时长是否超过第一时长;
输出模块,用于在所述静音段的时长超过所述第一时长时,输出所述静音段之前的文本序列,并根据所述静音段的时长,在所述文本序列中对应于所述静音段的位置插入逗号或句号;
修正模块,用于获取所述静音段之后的待识别语音并对其进行语音识别,同时根据预设的判别模型修正已插入至所述文本序列中的逗号或句号。
第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音识别中符号添加方法的步骤。
第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音识别中符号添加方法的步骤。
本发明提供的语音识别中符号添加方法、装置、计算机设备及存储介质,在同步检测到静音段的时长超过第一时长时,在文本序列中对应于静音段的位置,根据所述静音段的时长插入逗号或句号,可以实时输出标点符号,达到准确断句的目的,以及提升语音识别的效率。而根据预设的判别模型修正已插入至所述文本序列中的句号或逗号,在达到准确断句基础上,准确判断语句的语气类型以及表达出语句的情感。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中语音识别中符号添加方法的应用环境示意图;
图2是本发明一实施例中语音识别中符号添加方法的流程图;
图3是本发明一实施例中语音识别中符号添加方法的步骤S20的流程图;
图4是本发明另一实施例中语音识别中符号添加方法的步骤S20的流程图;
图5是本发明一实施例中语音识别中符号添加方法的步骤S30的流程图;
图6是本发明一实施例中语音识别中符号添加方法的步骤S303流程图;
图7是本发明一实施例中语音识别中符号添加装置的原理框图;
图8是本发明一实施例中语音识别中符号添加装置的输出模块的原理框图;
图9是本发明一实施例中语音识别中符号添加装置的修正模块的原理框图;
图10是本发明一实施例中计算机设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的语音识别中符号添加方法,可应用在如图1的应用环境中,其中,客户端(计算机设备)通过网络与服务器进行通信。其中,客户端(计算机设备)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种语音识别中符号添加方法,以该方法应用在图1中的服务器为例进行说明,包括以下步骤:
S10、获取待识别语音,对所述待识别语音进行语音识别,并同步检测所述待识别语音中的静音段,判断所述静音段的时长是否超过第一时长。
其中,所述待识别语音可以从一段录音,一段无字幕的视频语音,一段音乐或者一段语音对话等不同的语音型式中获取;所述静音段可以位于所述待识别语音中的一个语句的前端、末尾或中间位置。
具体的,对所述待识别语音进行语音识别过程中,同步检测所述待识别语音中的静音段,判断所述静音段的时长是否超过第一时长。所述第一时长可以根据需求进行设置,在所述静音段的时长超过(大于)所述第一时长时,默认所述静音段位于所述待识别语音中的一个语句的末尾位置,此时语句需要进行停顿,而在所述静音段对应的位置可以插入标点符号;在所述静音段的时长不超过(小于或等于)所述第一时长时,默认所述静音段位于所述待识别语音中的一个语句的中间位置,此时该语音段不影响待识别语音对应的文本序列的输出,而在所述静音段对应的位置,可以通过语音识别连续输出对应于所述待识别语音的文本序列,无需插入标点符号进行间隔或者停顿。可理解的,对所述待识别语音进行语音识别,同步对所述待识别语音中的静音段进行检测,也即,对所述待识别语音进行语音识别生成对应的文本序列,以及在符合要求的静音段的位置插入标点符号,均可实时输出。
S20、在所述静音段的时长超过所述第一时长时,输出所述静音段之前的文本序列,并根据所述静音段的时长,在所述文本序列中对应于所述静音段的位置插入逗号或句号。
具体的,将待识别语音转化为文本序列的过程中,同步对所述待识别语音中的静音段进行检测,在所述静音段的时长超过(大于)所述第一时长时,默认所述静音段位于所述待识别语音中的一个语句的末尾位置,此时语音段需要进行停顿,而在所述静音段对应的位置可以插入标点符号,进一步地,可以判断所述静音段的时长是否超过第二时长,根据所述第二时长判断所述插入的标点符号是逗号还是句号。可理解地,在所述静音段的时长未超过所述第一时长时(对应于步骤S40),默认所述静音段仅为一个语句中字词之间的正常间隔,而不是两个语句之间的停顿,此时无需插入标点符号,仅需连续输出文本序列即可。
S30、获取所述静音段之后的待识别语音并对其进行语音识别,同时根据预设的判别模型修正已插入至所述文本序列中的逗号或句号。
可理解的,获取所述静音段之后的待识别语言并对其进行语音识别,此时已经输出所述静音段之前的文本序列以及文本序列中插入的逗号或句号。为了更好的达到语句的情感表达,在已经完成正常断句的基础上,可以将已经插入的逗号或句号进行修正。
综上所述,本发明提供的语音识别中符号添加方法对所述待识别语音进行语音识别,并同步检测所述待识别语音中的静音段,判断静音段的时长是否超过第一时长,可以避免出现单句中间出现误断句的现象,同时实时输出待识别语音对应的文本序列并对文本序列进行断句;根据静音段的位置和静音段的时长插入逗号或句号,无需在用户语音被全部识别为文字序列之后,才将标点符号添加到文字序列中语句间的停顿位置,可以实时输出标点符号,达到准确断句;通过预设的判别模型修正已插入至所述文本序列中的句号或逗号,在准确断句的基础上,准确判断语句的语气类型以及达到准确表达语句情感的目的。本发明提供的语音识别中符号添加方法可以同步实时进行添加标点符号与语音识别文本序列,明显提高了语音识别效率,提升了用户体验。
在另一实施例中,在所述步骤S10之后还包括以下步骤:
在所述静音段的时长未超过所述第一时长时,连续输出对应于所述待识别语音的文本序列。
具体的,在对所述待识别语音进行语音识别,并同步对所述待识别语音中的静音段进行检测,在所述静音段的时长未超过所述第一时长时,可以判断所述静音段位于所述待识别语音中的一个语句的中间位置,无需进行断句,此时所述语音段不影响待识别语音对应的文本序列的输出,可以继续输出静音段之后的文本序列,从而连续输出对应于所述待识别语音的文本序列。
优选的,在连续输出文本序列的过程中,若出现一静音段,且尚未判断所述静音段是否应插入标点符号或插入的标点符号尚未明确,此时可以在输出的文本序列中对应于各静音段的位置暂时输出一个跳动的符号,比如“|”、“-”或“_”等,当识别出下一语音对应的文本序列或者下一静音段对应的标点符号时,将所述跳动的符号替换为识别出的下一语音对应的文本序列或者下一静音段对应的标点符号。
在一实施例中,如图3所示,所述步骤S20中,即所述在所述静音段的时长超过所述第一时长时,输出所述静音段之前的文本序列,并根据所述静音段的时长,在所述文本序列中对应于所述静音段的位置插入逗号或句号,具体包括以下步骤:
S201、在所述静音段的时长超过所述第一时长时,输出所述静音段之前的文本序列,并判断所述静音段的时长是否超过第二时长,其中,所述第二时长大于所述第一时长。
具体的,在所述静音段的时长超过所述第一时长时,输出静音段之前的文本序列,此时可以在输出的文本序列中插入标点符号,可以进一步判断所述静音段的时长是否超过第二时长,也即判断所述静音段对应的位置为逗号还是句号。
其中,所述第二时长可以根据需求进行设置,且所述第二时长必大于第一时长。在本实施例中,若所述静音段的时长超过所述第一时长但不超过所述第二时长时,则在静音段对应的位置应插入逗号;若所述静音段时长超过所述第二时长时,则在静音段对应的位置应插入句号。比如,令待识别语音的每一帧的帧长为20ms,若连续为3~6帧为逗号的停顿时长,则可设置第一时长为3帧,第二时长为6帧,此时,在同步检测到所述静音段的时长超过第一时长时,即可继续判断所述静音段的时长是否超过第二时长。
在另一实施例中,所述第一时长和所述第二时长均可根据需求进行增加或者减小。具体的,根据已获取到的待识别语音的时长和已获取到的时长对应的输出文本序列的字符数,可以得出输出待识别语音的对象的实际语速,此时,将所述实际语速与预设的理想语速(所述理想语速与第一时长与第二时长的预设初值相关联)进行比较,若所述实际语速大于所述理想语速,则可以减小第一时长,以使得在所述静音段对应的位置插入逗号的最小临界值降低;若所述实际语速小于所述理想语速,则增大第一时长,以使得在所述静音段对应的位置插入逗号的最小临界值增大。同理,当所述实际语速大于所述理想语速时,可以减小第二时长,以使得在所述静音段对应的位置插入句号的最低临界值降低;当所述实际语速小于所述理想语速时,可增大第二时长,以使得在所述静音段对应的位置插入句号的最低临界值增大。可理解的,第一时长与第二时长形成一个时长范围,所述时长范围可进行调整,可理解的,所述时长范围存在两种调整方式,当所述实际语速大于所述理想语速时,第一时长减小且第二时长减小;当所述实际语速大于所述理想语速时,第一时长增大且第二时长增大。比如,令待识别语音的每一帧的帧长为20ms,若第一时长为2帧,理想语速为0.32个字符每帧,获取到的待识别语音的时长为100帧,100帧内输出的字符数为16个,根据获取到的时长和该时长对应的输出文本序列的字数,可以得到实际语速为0.16个字符每帧,可知实际语速小于理想语速,可以增大第一时长。
S202、在所述静音段的时长不超过所述第二时长时,将逗号插入至所述静音段对应的位置。
令待识别语音的每一帧的帧长为20ms,若连续为3~6帧为逗号的停顿时长,则可设置第一时长为3帧,第二时长为6帧,此时,在同步检测到所述静音段的时长大于3帧,且所述静音段的时长小于或等于6帧时,将逗号插入至所述静音段对应的位置。
S203、在所述静音段的时长超过所述第二时长时,将句号插入至所述静音段对应的位置。
令待识别语音的每一帧的帧长为20ms,若连续为3~6帧为逗号的停顿时长,则可设置第一时长为3帧,第二时长为6帧,此时,在同步检测到所述静音段的时长大于3帧,且所述静音段的时长大于6帧时,将句号插入至所述静音段对应的位置。可理解在,在完成静音段之前所有的文本序列输出时,并在识别到所述静音段为逗号或句号时,实时将逗号或句号插入至输出的文本序列之后,并继续对静音段之后的待识别语音进行识别并实时输出对应的文本序列。
综上所述,本发明提供的语音识别中符号添加方法在同步检测到静音段的时长超过第一时长时,在文本序列中对应于静音段的位置,根据所述静音段的时长插入逗号或句号,无需在用户语音被全部识别为文字序列之后,才将标点符号添加到文字序列中语句间的停顿位置,可以实时输出标点符号,提升语音识别中符号的输出效率,以达到准确断句的目的,以及提升了语音识别的效率。
在另一实施例中,如图4所示,所述步骤S20中,即所述在所述静音段的时长超过所述第一时长时,输出所述静音段之前的文本序列,并根据所述静音段的时长,在所述文本序列中对应于所述静音段的位置插入逗号或句号,具体包括以下步骤:
S204、在所述静音段的时长超过所述第一时长时,输出所述静音段之前的文本序列,并在所述文本序列之后自动生成一个断句标识。
具体地,在所述静音段的时长超过所述第一时长时,输出所述静音段之前的文本序列,并在输出的所述文本序列之后自动生成一个断句标识,将所述断句标识在输出的所述文本序列之后实时输出,也即,在所述静音段的时长超过所述第一时长时,默认所述静音段位于所述待识别语音中的一个语句的末尾位置,此时语音段需要进行停顿,可以在语音段的末尾位置自动生成一个断句标识。
在本实施例中,所述断句标识可以为空格或者下划线,也即,在所述静音段的时长超过所述第一时长时,直接在已输出的文本序列之后输出空格、下划线或竖线号等等,比如,“今天天气很晴朗_”,“如果明天是雨天|”。
S205、获取所述静音段之后的待识别语音并对其进行语音识别,同时判断静音段的时长是否超过第二时长,其中,所述第二时长大于所述第一时长。
具体的,在生成所述断句标识之后,语音识别并未中断,而是继续获取所述静音段之后的待识别语音进行语音识别并实时输出文本序列;同时,判断所述静音段的时长是否超过第二时长并用句号或逗号替换所述断句标识;也即,替换所述断句标识的操作与语音识别所述断句标识之后的待识别语音的操作是同步进行的,并不会因为需要识别所述断句标识而延误语音识别的过程。
S206、在所述静音段的时长不超过所述第二时长时,将所述断句标识替换为逗号。此时,在同步检测到所述静音段的时长超过第一时长,且所述静音段的时长不超过第二时长时,将已输出在文本序列之后的所述断句标识替换为逗号。
S207、在所述静音段的时长超过所述第二时长时,将所述断句标识替换为句号。此时,在同步检测到所述静音段的时长超过第一时长,且所述静音段的时长超过第二时长时,将已输出在文本序列之后的所述断句标识替换为句号。
在一实施例中,如图5所示,所述步骤S30中,即所述获取所述静音段之后的待识别语音并对其进行语音识别,同时根据预设的判别模型修正已插入至所述文本序列中的逗号或句号,具体包括以下步骤:
S301、获取包含不同语气类型语句的训练文本,根据所述训练文本生成判别模型;所述判别模型用于获取所述语句末端插入的语气符号的输出概率。
所述训练文本可以从网络或书籍上收集各类包含文本内容以及文本内容对应的标点符号,并将所述训练文本以逗号或其它符号(如:句号、问号或惊叹号)为标识划分成单句,也即所述单句可以为不同长度和不同语气的语句,所述训练文本可以包含不同的语气类型语句(所述语气类型包括但不限定于为陈述句、疑问句、祈使句和感叹句等)。在根据所述训练文本生成一个判别模型之后,根据所述判别模型可以得到语句使用逗号或者其它符号的规律(比如,根据所述判别模型可以得出静音段之后将句号替换为问号或感叹号的概率)。
S302、获取所述静音段之后的待识别语音并对其进行语音识别,同时按文本序列的输出顺序,检测已输出的所述文本序列中是否存在逗号或句号。
获取所述静音段之后的待识别语音并对其进行语音识别,同时,按文本序列的输出顺序,实时检测已前输出的所述文本序列中是否存在逗号或句号,在检测到已输出的所述文本序列中存在逗号或句号时,可以通过所述判别模型判断输出概率最高的语气符号与检测到的逗号或句号是否一致,从而根据判断结果顺次对检测到的逗号或句号进行修正。
S303、在检测到已输出的所述文本序列中存在逗号或句号时,通过所述判别模型顺次对检测到的逗号或句号进行修正。
可理解的,为了语音的同步输出,先将逗号或者句号插入至静音段之前所识别的文本序列之后,再进一步通过判别模型对已插入的逗号或句号进行修正,在检测到静音段之前输出的文本序列中存在逗号或句号时,通过所述判别模型顺次对检测到的逗号或句号进行修正。
综上所述,本发明提供的语音识别中符号添加方法获取所述静音段之后的待识别语音并对其进行语音识别,同时根据所述预设的判别模型修正已插入至所述文本序列中的逗号或句号,用于提升语音识别中符号的准确度,以达到准确判断语句的语气类型和表达语句情感的目的。
在一实施例中,如图6所示,所述步骤S303中,即所述在检测到已输出的所述文本序列中存在逗号或句号时,通过所述判别模型顺次对检测到的逗号或句号进行修正,具体包括以下步骤:
S3031、在检测到已输出的所述文本序列中存在逗号或句号时,通过所述判别模型确定所述逗号或句号之前的语句的语气类型。
其中,所述通过所述判别模型确定所述逗号或句号之前的语句的语气类型,包括:
在判断所述语句的语气类型为陈述句时,对应输出的语气符号为逗号或句号;比如:“明天要下雨。”,“他说了今天不回家的。”等。
在判断所述语句的语气类型为疑问句时,对应输出的语气符号为问号;比如:“你怎么不去呢?”,“你今天回来吗?”,“昨天玩的高兴不高兴?”等。
在判断所述语句的语气类型的语句为感叹句或祈使句时,对应输出的语气符号为惊叹号。比如:“禁止吸烟!”,“哇!这衣服真漂亮!”等。
S3032、获取所述语气类型对应的语句末端插入的语气符号的输出概率。此时,通过所述判别模型可以得出所述逗号或句号之前的语句所对应的各语气符号对应的输出概率,进而得到输出概率最高的语气符号。S3033、判断输出概率最高的语气符号与所述逗号或句号是否一致。此时,通过判断输出概率最高的语气符号与所述逗号或句号是否一致,以对插入至静音段之前输出的文本序列中存在逗号或句号进行修正。
S3034、在输出概率最高的语气符号与所述逗号或句号一致时,保持当前逗号或句号不变。此时,若输出概率最高的语气符号为逗号或句号时,无需改变当前的逗号或句号,将其保留在已输出的所述文本序列中。
S3035、在输出概率最高的语气符号与所述逗号或句号不一致时,将当前逗号或句号修正为输出概率最高的语气符号。此时,若输出概率最高的语气符号为问号时,则将当前逗号或句号修正为问号;若输出概率最高的语气符号为惊叹号时,则将当前逗号或句号修正为惊叹号。
例如,若输出的文本序列为“你会谈吉他吗。”,此时,若检测到文本序列中的句号,则通过判别模型对已插入至文本序列中的逗号或句号进行修正,此时,通过所述判别模型可以得到输出问号的概率最高,也即输出问号的概率大于输出逗号或句号的概率,可以将文本序列中的句号修正为问号,在修正的过程中,同时在对静音段之后的待识别语音进行语音识别,可以得到的输出文本为“你会谈吉他吗?不会,”。
在一实施例中,如图7所示,提供一种语音识别中符号添加装置,该语音识别中符号添加装置与上述实施例中语音识别中符号添加方法一一对应。该语音识别中符号添加装置包括检测模块110、输出模块120和修正模块130。各功能模块详细说明如下:
检测模块110,用于获取待识别语音,对所述待识别语音进行语音识别,并同步检测所述待识别语音中的静音段,判断所述静音段的时长是否超过第一时长。
输出模块120,用于在所述静音段的时长超过所述第一时长时,输出所述静音段之前的文本序列,并根据所述静音段的时长,在所述文本序列中对应于所述静音段的位置插入逗号或句号。
修正模块130,用于获取所述静音段之后的待识别语音并对其进行语音识别,同时根据预设的判别模型修正已插入至所述文本序列中的逗号或句号。
优选地,如图8所示,所述输出模块120具体包括判断子模块121、输出逗号子模块122和输出句号子模块123。各功能子模块详细说明如下:
判断子模块121,用于在所述静音段的时长超过所述第一时长时,输出所述静音段之前的文本序列,并判断所述静音段的时长是否超过第二时长,其中,所述第二时长大于所述第一时长。
输出逗号子模块122,用于在所述静音段的时长不超过所述第二时长时,将逗号插入至所述静音段对应的位置。
输出句号子模块123,用于在所述静音段的时长超过所述第二时长时,将句号插入至所述静音段对应的位置。
优选地,如图9所示,所述修正模块130具体包括训练子模块131、输检测子模块132和修正子模块133。各功能子模块详细说明如下:
训练子模块131,用于获取包含不同语气类型语句的训练文本,根据所述训练文本生成判别模型;所述判别模型用于获取所述语句末端插入的语气符号的输出概率。
检测子模块132,用于获取所述静音段之后的待识别语音并对其进行语音识别,同时按文本序列的输出顺序,检测已输出的所述文本序列中是否存在逗号或问号。
修正子模块133,用于在检测到已输出的所述文本序列中存在逗号或句号时,通过所述判别模型顺次对检测到的逗号或句号进行修正。
关于语音识别中符号添加装置的具体限定可以参见上文中对于语音识别中符号添加方法的限定,在此不再赘述。上述语音识别中符号添加装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机程序被处理器执行时以实现一种语音识别中符号添加方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取待识别语音,对所述待识别语音进行语音识别,并同步检测所述待识别语音中的静音段,判断所述静音段的时长是否超过第一时长。
在所述静音段的时长超过第一时长时,输出所述静音段之前的文本序列,并根据所述静音段的时长,在所述文本序列中对应于所述静音段的位置插入逗号或句号。
获取所述静音段之后的待识别语音并对其进行语音识别,同时根据所述预设的判别模型修正已插入至所述文本序列中的逗号或句号。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待识别语音,对所述待识别语音进行语音识别,并同步检测所述待识别语音中的静音段,判断所述静音段的时长是否超过第一时长。
在所述静音段的时长超过第一时长时,输出所述静音段之前的文本序列,并根据所述静音段的时长,在所述文本序列中对应于所述静音段的位置插入逗号或句号。
获取所述静音段之后的待识别语音并对其进行语音识别,同时根据所述预设的判别模型修正已插入至所述文本序列中的逗号或句号。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音识别中符号添加方法,其特征在于,包括:
获取待识别语音,对所述待识别语音进行语音识别,并同步检测所述待识别语音中的静音段,判断所述静音段的时长是否超过第一时长;
在所述静音段的时长超过所述第一时长时,输出所述静音段之前的文本序列,并根据所述静音段的时长,在所述文本序列中对应于所述静音段的位置插入逗号或句号;
获取所述静音段之后的待识别语音并对其进行语音识别,同时根据预设的判别模型修正已插入至所述文本序列中的逗号或句号。
2.如权利要求1所述的语音识别中符号添加方法,所述在所述静音段的时长超过所述第一时长时,输出所述静音段之前的文本序列,并根据所述静音段的时长,在所述文本序列中对应于所述静音段的位置插入逗号或句号,其特征在于,包括:
在所述静音段的时长超过所述第一时长时,输出所述静音段之前的文本序列,并判断所述静音段的时长是否超过第二时长,其中,所述第二时长大于所述第一时长;
在所述静音段的时长不超过所述第二时长时,将逗号插入至所述静音段对应的位置;
在所述静音段的时长超过所述第二时长时,将句号插入至所述静音段对应的位置。
3.如权利要求1所述的语音识别中符号添加方法,所述在所述静音段的时长超过所述第一时长时,输出所述静音段之前的文本序列,并根据所述静音段的时长,在所述文本序列中对应于所述静音段的位置插入逗号或句号,其特征在于,包括:
在所述静音段的时长超过所述第一时长时,输出所述静音段之前的文本序列,并在所述文本序列之后自动生成一个断句标识;
获取所述静音段之后的待识别语音并对其进行语音识别,同时判断静音段的时长是否超过第二时长,其中,所述第二时长大于所述第一时长;
在所述静音段的时长不超过所述第二时长时,将所述断句标识替换为逗号;
在所述静音段的时长超过所述第二时长时,将所述断句标识替换为句号。
4.如权利要求1所述语音识别中符号添加的方法,所述获取所述静音段之后的待识别语音并对其进行语音识别,同时根据预设的判别模型修正已插入至所述文本序列中的逗号或句号,其特征在于,包括:
获取包含不同语气类型语句的训练文本,根据所述训练文本生成判别模型;所述判别模型用于获取语句末端插入的语气符号的输出概率;
获取所述静音段之后的待识别语音并对其进行语音识别,同时按文本序列的输出顺序,检测已输出的所述文本序列中是否存在逗号或句号;
在检测到已输出的所述文本序列中存在逗号或句号时,通过所述判别模型顺次对检测到的逗号或句号进行修正。
5.如权利要求4所述的语音识别中符号添加方法,所述在检测到已输出的所述文本序列中存在逗号或句号时,通过所述判别模型顺次对检测到的逗号或句号进行修正,其特征在于,包括:
在检测到已输出的所述文本序列中存在逗号或句号时,通过所述判别模型确定所述逗号或句号之前的语句的语气类型;
获取所述语气类型对应的语句末端插入的语气符号的输出概率;
判断输出概率最高的语气符号与所述逗号或句号是否一致;
在输出概率最高的语气符号与所述逗号或句号一致时,保持当前逗号或句号不变;
在输出概率最高的语气符号与所述逗号或句号不一致时,将当前逗号或句号修正为输出概率最高的语气符号。
6.一种语音识别中符号添加装置,其特征在于,包括:
检测模块,用于获取待识别语音,对所述待识别语音进行语音识别,并同步检测所述待识别语音中的静音段,判断所述静音段的时长是否超过第一时长;
输出模块,用于在所述静音段的时长超过所述第一时长时,输出所述静音段之前的文本序列,并根据所述静音段的时长,在所述文本序列中对应于所述静音段的位置插入逗号或句号;
修正模块,用于获取所述静音段之后的待识别语音并对其进行语音识别,同时根据预设的判别模型修正已插入至所述文本序列中的逗号或句号。
7.如权利要求6所述的语音识别中符号添加装置,其特征在于,所述输出模块包括:
判断子模块,用于在所述静音段的时长超过所述第一时长时,输出所述静音段之前的文本序列,并判断所述静音段的时长是否超过第二时长,其中,所述第二时长大于所述第一时长;
输出逗号子模块,用于在所述静音段的时长不超过所述第二时长时,将逗号插入至所述静音段对应的位置;
输出句号子模块,用于在所述静音段的时长超过所述第二时长时,将句号插入至所述静音段对应的位置。
8.如权利要求6所述的语音识别中符号添加装置,其特征在于,所述修正模块包括:
训练子模块,用于获取包含不同语气类型语句的训练文本,根据所述训练文本生成判别模型;所述判别模型用于获取所述语句末端插入的语气符号的输出概率;
检测子模块,用于获取所述静音段之后的待识别语音并对其进行语音识别,同时按文本序列的输出顺序,检测所述已输出的所述文本序列中是否存在逗号或句号;
修正子模块,用于在检测到已输出的所述文本序列中存在逗号或句号时,通过所述判别模型顺次对检测到的逗号或句号进行修正。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述语音识别中符号添加方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述语音识别中符号添加方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810865807.XA CN108831481A (zh) | 2018-08-01 | 2018-08-01 | 语音识别中符号添加方法、装置、计算机设备及存储介质 |
PCT/CN2018/104046 WO2020024352A1 (zh) | 2018-08-01 | 2018-09-05 | 语音识别中符号添加方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810865807.XA CN108831481A (zh) | 2018-08-01 | 2018-08-01 | 语音识别中符号添加方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108831481A true CN108831481A (zh) | 2018-11-16 |
Family
ID=64153440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810865807.XA Pending CN108831481A (zh) | 2018-08-01 | 2018-08-01 | 语音识别中符号添加方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108831481A (zh) |
WO (1) | WO2020024352A1 (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109754808A (zh) * | 2018-12-13 | 2019-05-14 | 平安科技(深圳)有限公司 | 语音转换文字的方法、装置、计算机设备及存储介质 |
CN110502631A (zh) * | 2019-07-17 | 2019-11-26 | 招联消费金融有限公司 | 一种输入信息响应方法、装置、计算机设备和存储介质 |
CN110675861A (zh) * | 2019-09-26 | 2020-01-10 | 深圳追一科技有限公司 | 语音断句方法、装置、设备及存储介质 |
CN111261162A (zh) * | 2020-03-09 | 2020-06-09 | 北京达佳互联信息技术有限公司 | 语音识别方法、语音识别装置及存储介质 |
CN111986654A (zh) * | 2020-08-04 | 2020-11-24 | 云知声智能科技股份有限公司 | 降低语音识别系统延时的方法及系统 |
CN112101003A (zh) * | 2020-09-14 | 2020-12-18 | 深圳前海微众银行股份有限公司 | 语句文本的切分方法、装置、设备和计算机可读存储介质 |
CN112151073A (zh) * | 2019-06-28 | 2020-12-29 | 北京声智科技有限公司 | 一种语音处理方法、系统、设备及介质 |
CN112634876A (zh) * | 2021-01-04 | 2021-04-09 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN112712802A (zh) * | 2020-12-23 | 2021-04-27 | 江西远洋保险设备实业集团有限公司 | 密集架智能信息处理语音识别操作控制系统 |
CN114613357A (zh) * | 2020-12-04 | 2022-06-10 | 广东博智林机器人有限公司 | 语音处理方法、系统、电子设备和存储介质 |
WO2022166218A1 (zh) * | 2021-02-07 | 2022-08-11 | 虫洞创新平台(深圳)有限公司 | 一种语音识别中添加标点符号的方法及语音识别装置 |
WO2022178996A1 (zh) * | 2021-02-26 | 2022-09-01 | 平安科技(深圳)有限公司 | 多语言语音模型生成方法、装置、计算机设备及存储介质 |
CN115512687A (zh) * | 2022-11-08 | 2022-12-23 | 之江实验室 | 一种语音断句方法、装置、存储介质及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102227767A (zh) * | 2008-11-12 | 2011-10-26 | Scti控股公司 | 自动语音-文本转换系统和方法 |
CN102231278A (zh) * | 2011-06-10 | 2011-11-02 | 安徽科大讯飞信息科技股份有限公司 | 实现语音识别中自动添加标点符号的方法及系统 |
CN105759983A (zh) * | 2009-03-30 | 2016-07-13 | 触摸式有限公司 | 电子设备的文本输入系统及文本输入方法 |
CN107247706A (zh) * | 2017-06-16 | 2017-10-13 | 中国电子技术标准化研究院 | 文本断句模型建立方法、断句方法、装置及计算机设备 |
CN107632980A (zh) * | 2017-08-03 | 2018-01-26 | 北京搜狗科技发展有限公司 | 语音翻译方法和装置、用于语音翻译的装置 |
CN107767870A (zh) * | 2017-09-29 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | 标点符号的添加方法、装置和计算机设备 |
CN107910021A (zh) * | 2017-11-08 | 2018-04-13 | 天脉聚源(北京)传媒科技有限公司 | 一种符号插入方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120042381A (ko) * | 2010-10-25 | 2012-05-03 | 한국전자통신연구원 | 음성인식 문장의 문형식별 장치 및 방법 |
-
2018
- 2018-08-01 CN CN201810865807.XA patent/CN108831481A/zh active Pending
- 2018-09-05 WO PCT/CN2018/104046 patent/WO2020024352A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102227767A (zh) * | 2008-11-12 | 2011-10-26 | Scti控股公司 | 自动语音-文本转换系统和方法 |
CN105759983A (zh) * | 2009-03-30 | 2016-07-13 | 触摸式有限公司 | 电子设备的文本输入系统及文本输入方法 |
CN102231278A (zh) * | 2011-06-10 | 2011-11-02 | 安徽科大讯飞信息科技股份有限公司 | 实现语音识别中自动添加标点符号的方法及系统 |
CN107247706A (zh) * | 2017-06-16 | 2017-10-13 | 中国电子技术标准化研究院 | 文本断句模型建立方法、断句方法、装置及计算机设备 |
CN107632980A (zh) * | 2017-08-03 | 2018-01-26 | 北京搜狗科技发展有限公司 | 语音翻译方法和装置、用于语音翻译的装置 |
CN107767870A (zh) * | 2017-09-29 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | 标点符号的添加方法、装置和计算机设备 |
CN107910021A (zh) * | 2017-11-08 | 2018-04-13 | 天脉聚源(北京)传媒科技有限公司 | 一种符号插入方法及装置 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109754808B (zh) * | 2018-12-13 | 2024-02-13 | 平安科技(深圳)有限公司 | 语音转换文字的方法、装置、计算机设备及存储介质 |
CN109754808A (zh) * | 2018-12-13 | 2019-05-14 | 平安科技(深圳)有限公司 | 语音转换文字的方法、装置、计算机设备及存储介质 |
CN112151073A (zh) * | 2019-06-28 | 2020-12-29 | 北京声智科技有限公司 | 一种语音处理方法、系统、设备及介质 |
CN110502631A (zh) * | 2019-07-17 | 2019-11-26 | 招联消费金融有限公司 | 一种输入信息响应方法、装置、计算机设备和存储介质 |
CN110675861A (zh) * | 2019-09-26 | 2020-01-10 | 深圳追一科技有限公司 | 语音断句方法、装置、设备及存储介质 |
CN111261162A (zh) * | 2020-03-09 | 2020-06-09 | 北京达佳互联信息技术有限公司 | 语音识别方法、语音识别装置及存储介质 |
CN111261162B (zh) * | 2020-03-09 | 2023-04-18 | 北京达佳互联信息技术有限公司 | 语音识别方法、语音识别装置及存储介质 |
CN111986654A (zh) * | 2020-08-04 | 2020-11-24 | 云知声智能科技股份有限公司 | 降低语音识别系统延时的方法及系统 |
CN111986654B (zh) * | 2020-08-04 | 2024-01-19 | 云知声智能科技股份有限公司 | 降低语音识别系统延时的方法及系统 |
CN112101003B (zh) * | 2020-09-14 | 2023-03-14 | 深圳前海微众银行股份有限公司 | 语句文本的切分方法、装置、设备和计算机可读存储介质 |
CN112101003A (zh) * | 2020-09-14 | 2020-12-18 | 深圳前海微众银行股份有限公司 | 语句文本的切分方法、装置、设备和计算机可读存储介质 |
CN114613357A (zh) * | 2020-12-04 | 2022-06-10 | 广东博智林机器人有限公司 | 语音处理方法、系统、电子设备和存储介质 |
CN112712802A (zh) * | 2020-12-23 | 2021-04-27 | 江西远洋保险设备实业集团有限公司 | 密集架智能信息处理语音识别操作控制系统 |
CN112634876B (zh) * | 2021-01-04 | 2023-11-10 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、存储介质及电子设备 |
WO2022143058A1 (zh) * | 2021-01-04 | 2022-07-07 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN112634876A (zh) * | 2021-01-04 | 2021-04-09 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、存储介质及电子设备 |
WO2022166218A1 (zh) * | 2021-02-07 | 2022-08-11 | 虫洞创新平台(深圳)有限公司 | 一种语音识别中添加标点符号的方法及语音识别装置 |
WO2022178996A1 (zh) * | 2021-02-26 | 2022-09-01 | 平安科技(深圳)有限公司 | 多语言语音模型生成方法、装置、计算机设备及存储介质 |
CN115512687A (zh) * | 2022-11-08 | 2022-12-23 | 之江实验室 | 一种语音断句方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2020024352A1 (zh) | 2020-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108831481A (zh) | 语音识别中符号添加方法、装置、计算机设备及存储介质 | |
US8738375B2 (en) | System and method for optimizing speech recognition and natural language parameters with user feedback | |
CN110162627A (zh) | 数据增量方法、装置、计算机设备及存储介质 | |
CN107239547B (zh) | 用于语音点歌的语音纠错方法、终端及存储介质 | |
CN109637521A (zh) | 一种基于深度学习的唇语识别方法及装置 | |
CN111091811B (zh) | 语音训练数据的处理方法、装置及存储介质 | |
CN109087632A (zh) | 语音处理方法、装置、计算机设备及存储介质 | |
CN109815489A (zh) | 催收信息生成方法、装置、计算机设备和存储介质 | |
CN111128116B (zh) | 一种语音处理方法、装置、计算设备及存储介质 | |
CN111226275A (zh) | 基于韵律特征预测的语音合成方法、装置、终端及介质 | |
CN110532522A (zh) | 音频标注的检错方法、装置、计算机设备和存储介质 | |
CN109522550A (zh) | 文本信息纠错方法、装置、计算机设备和存储介质 | |
CN110459200A (zh) | 语音合成方法、装置、计算机设备及存储介质 | |
CN107181986A (zh) | 视频与字幕的匹配方法和装置 | |
CN110853627B (zh) | 用于语音标注的方法及系统 | |
CN110503941B (zh) | 语言能力评测方法、装置、系统、计算机设备及存储介质 | |
CN113571096A (zh) | 语音情绪分类模型训练方法、装置、计算机设备及介质 | |
CN108831503B (zh) | 一种口语评测方法及装置 | |
US11600279B2 (en) | Transcription of communications | |
CN114783405B (zh) | 一种语音合成方法、装置、电子设备及存储介质 | |
CN110460903A (zh) | 基于语音分析对节目评论的方法、装置和计算机设备 | |
WO2021057908A1 (zh) | 即时译文显示方法、装置、移动终端和计算机存储介质 | |
CN112133309B (zh) | 音频和文本的同步方法、计算设备及存储介质 | |
Ortiz Boix | Machine translation and post-editing in widlife documentaries: challenges and posiible solutions | |
CN113921012A (zh) | 一种合成语音的识别方法、系统、智能设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |