CN114639380A - 标点预测、标注、语音处理方法、装置、设备及程序产品 - Google Patents
标点预测、标注、语音处理方法、装置、设备及程序产品 Download PDFInfo
- Publication number
- CN114639380A CN114639380A CN202011494189.6A CN202011494189A CN114639380A CN 114639380 A CN114639380 A CN 114639380A CN 202011494189 A CN202011494189 A CN 202011494189A CN 114639380 A CN114639380 A CN 114639380A
- Authority
- CN
- China
- Prior art keywords
- punctuation
- text
- punctuations
- positions
- characteristic data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 63
- 238000000034 method Methods 0.000 claims abstract description 57
- 239000013598 vector Substances 0.000 claims description 44
- 238000004590 computer program Methods 0.000 claims description 20
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 238000012986 modification Methods 0.000 claims description 5
- 238000012790 confirmation Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000002372 labelling Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种标点预测、标注、语音处理方法、装置、设备及程序产品,该方法包括:获取对待处理文本进行语义编码后的文本特征数据;根据文本特征数据或者根据所述文本特征数据和已识别出的标点以及标点位置,对待处理文本中的标点以及标点位置进行预测;输出待处理文本的标点以及标点位置。本发明实施例根据文本特征数据和已识别出的标点以及标点位置,对待处理文本中的标点以及标点位置进行预测,其针对标点的预测处理不再受到输入的文本长度的影响,大大降低了标点预测结构的长度,有效标点预测速率。
Description
技术领域
本申请涉及一种标点预测、标注、语音处理方法、装置、设备及程序产品,属于计算机技术领域。
背景技术
标点预测系统用于给文本进行标点标注,可以应用在ASR系统中。原始的ASR(Automatic Speech Recognition,自动语音识别技术)系统的输出文本并不包含标点符号,这会大大影响ASR输出文本的可读性以及下游自然语言理解任务的准确率,加入标点预测系统则可以解决这个问题。
现有技术中的标点预测系统一般基于两大框架,一种是序列标注框架,一种是序列到序列框架。序列标注框架的优点是结构简单,缺点是无法显式地建模输出标点的结构关系,导致标点预测准确率较低。序列到序列框架的优点是显式建模输出标点的结构关系,准确率较高,缺点是解码器采用自回归形式,解码器解码速度会受输入文本序列长度影响,导致解码速度较慢。
发明内容
本发明实施例提供一种标点预测、标注、语音处理方法、装置、设备及程序产品,以提升标点预测速率。
为了实现上述目的,本发明实施例提供了一种标点预测处理方法,包括:
获取对待处理文本进行语义编码后的文本特征数据;
根据所述文本特征数据或者根据所述文本特征数据和已识别出的标点以及标点位置,对所述待处理文本中标点以及标点位置进行预测;
输出待处理文本的标点以及标点位置。
本发明实施例还提供了一种标点预测处理装置,包括:
文本特征数据获取模块,用于获取对待处理文本进行语义编码后的文本特征数据;
标点预测模块,用于根据所述文本特征数据或者根据所述文本特征数据和已识别出的标点以及标点位置,对所述待处理文本中的标点以及标点位置进行预测;
标点输出模块,用于输出待处理文本的标点以及标点位置。
本发明实施例还提供了一种电子设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行前述的标点预测处理方法。
本发明实施例还提供了一种计算机程序产品,包括计算机程序或指令,当所述计算机程序或指令被处理器执行时,致使所述处理器实现前述的标点预测处理方法的程序指令。
本发明实施例还提供了一种语音识别方法,包括:
识别输入语音,生成语音识别文本;
对语音识别文本进行语义编码,生成文本特征数据;
根据所述文本特征数据或者根据所述文本特征数据和已识别出的标点以及标点位置,对所述语音识别文本中标点以及标点位置进行预测;
根据预测结果,对所述语音识别文本进行标点标注,输出标点标注后的语音识别文本。
本发明实施例还提供了一种标点标注处理方法,包括:
获取来自客户端的无标点文本;
对所述无标点文本进行语义编码,生成文本特征数据;
根据所述文本特征数据或者根据所述文本特征数据和已识别出的标点以及标点位置,对所述语音识别文本中标点以及标点位置进行预测;
根据预测结果,对所述无标点文本进行标点标注,生成标点标注后的文本并返回给所述客户端。
本发明实施例还提供了一种电子设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行前述的语音识别方法。
本发明实施例还提供了一种计算机程序产品,包括计算机程序或指令,当所述计算机程序或指令被处理器执行时,致使所述处理器实现前述的语音识别方法。
本发明实施例还提供了一种电子设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行前述的标点标注处理方法。
本发明实施例还提供了一种计算机程序产品,包括计算机程序或指令,当所述计算机程序或指令被处理器执行时,致使所述处理器实现前述的标点标注处理方法。本发明实施例提供的标点预测、标注、语音处理方法、装置、设备及程序产品,根据文本特征数据和已识别出的标点以及标点位置,对所述待处理文本中的标点以及标点位置进行预测,其针对标点的预测处理不再受到输入的文本长度的影响,由于标点以及标点位置的输出长度远远小于输入的输入文本的长度,从而将有效提高标点预测速率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
图1为本发明实施例的标点预测处理系统的示例性工作原理示意图;
图2为本发明实施例的应用场景示意图;
图3为本发明实施例的标点预测处理方法的流程示意图;
图4为本发明实施例的标点预测处理装置的结构示意图;
图5为本发明实施例的语音识别方法的应用场景示意图之一;
图6为本发明实施例的语音识别方法的应用场景示意图之二;
图7为本发明实施例的标点标注处理方法的应用场景示意图;
图8为本发明实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种标点预测处理方法,用于对文本进行标点预测。在本发明实施例提供的方法中,基于序列到序列的模型进行标点预测,不过,与传统的基于序列到序列的标点预测模型不同之处在于,在标点预测处理,解码器解码处理不再受编码器输入的文本序列的长度影响,而是依赖标点序列长度,解码器解码输出为识别出的标点以及标点位置,而不是对整个文本序列的标注,即采用跳跃式的解码输出处理。由于标点序列的长度远远小于输入的文本序列长度,跳跃式的序列到序列模型的标点预测速度会大幅提升。
如图1所示,其为本发明实施例的标点预测处理系统的示例性工作原理示意图,本发明实施例的标点预测处理整体上采用了编码器和解码器的结构。在图中示例中,以待进行标点标注处理的文本(以下简称待处理文本)为“hello how are you”作为示例。其中,待处理文本经过词嵌入处理后,转换为词向量,输入到编码节点中进行语义编码处理,编码节点的数量根据待处理文本的词向量的个数相同。其中,多个编码节点可以采用RNN(Recurrent neural network,循环神经网络)结构或者采用自我注意力(Self-Attention)结构。待处理文本的词向量经过编码节点处理后的生成表示上下文语义特征的文本特征数据,该文本特征数据可以为矩阵形式,矩阵的列数与词向量的个数相同,矩阵中的每列对应于各个词向量经过编码节点处理后的输出的特征向量。在采用自我注意力(Self-Attention)结构的情况下,矩阵中的每列对应于各个词向量经过自我注意力计算后的自我注意力向量。
编码器输出的文本特征数据会被输入到解码器中执行针对标点预测的解码处理。解码器部分包括可以包括多个解码节点,解码节点用于根据输入的内容进行标点预测处理,输出标点以及标点位置。解码节点的数量由最终识别出的标点的数量而确定,如图中所示,由于包含了对文本结束位置的识别,解码节点的数量为标点数量加一。多个解码节点可以采用RNN结构或者采用注意力(Attention)结构。各个解码节点的输入可以包括两部分,其中一部分为前次识别出的标点以及标点位置,另一部分为表示整个待识别文本语义的文本特征数据,其中,第一个解码节点较为特殊,由于在此之前尚未识别出任何的标点,因此,其输入为编码器输出的文本特征数据和表示文本开始的开始符号“<bos>”。解码节点的输出包括识别出的标点和标点位置,标点和标点位置都可以使用对应的向量表示。如图中所示,第一个解码节点输出为“,”和“0”,其表示待处理文本的第一个标点为“,”,位于位置“0”,即第一个词“hello”后面为“,”,第二个解码节点的输出为“?”和“3”,表示待处理文本的第二个标点为“?”,位于位置“3”。第一个解码节点输出的标点和标点位置作为第二个解码节点的输入,如图中所示,“,”和“0”被输入到第二个解码节点中。同理,第三个解码节点的输入为第二个解码节点的输出“?”和“3”也会作为第三个解码节点的输入。此外,除了第一个解码节点以外,其他各个解码节点的另一个输入为前一个解码节点输出的文本特征数据。作为一种可选实施方式,也可以将之前解码节点预测出的全部标点以及标点位置作为下一个解码节点的输入数据,对于第三个解码节点,可以将“,”和“0”以及“?”和“3”作为输入,用于预测下一个标点以及标点位置。图中解码器部分的下方的输入以及上方的输出均采用词向量的标识形式,即将标点以及标点位置都基于词嵌入机制,转化为词向量的形式。
在本发明实施例中,各个解码节点可以根据之前的解码节点识别出的标点以及标点位置对文本特征数据进行调整,将已经识别出的标点以及标点位置的特征加入到文本特征数据中。具体地,在采用编码器采用自我注意力结构的情况下,文本特征数据包括文本中的各个词对应的注意力特征向量,上述的各个解码节点可以根据已识别出的标点以及标点位置,更新各个词对应的注意力特征向量,具体可以为调整自我注意力权重,从而生成新的各个词对应的注意力特征向量,以用于下一个解码节点的处理。
在解码器中,解码节点是伴随着这标点识别的过程而不断地创建,直至某个解码节点输出表示文本结束的结束符号“<eos>”,因此,解码节点的数量由识别出的标点的数量而确定。最后,在识别出了全部标点以及对应的标点位置后,可以待处理文本进行标点标注,从而输出最终的标注了标点后的文本“hello,how are you?”。
本发明实施例的标点预测处理方法以及上述的编码器和解码器的处理模型,可以作为标点标注工具来使用,用于对给定的待处理文本进行标注标点。此外,也可以嵌入到语音识别模型中,对语音识别出的文本进行标点标注,从而输出带有标点的语音识别文本。如图2所示,其为本发明实施例的应用场景示意图,如图中所示,语音识别模型对语音信号进行识别处理,输出语音识别文本,然后作为上述的待处理文本,输入到图1所示的标点预测处理系统中,通过编码器和解码器的处理,进行标点识别,并最终输出带有标点的识别文本。
在本发明实施例的标点预测处理方法,采用序列到序列的模型进行标点预测,解码器解码处理不再受编码器输入的文本序列的长度影响,而是依赖标点序列长度,解码器解码输出为识别出的标点以及标点位置。由于标点序列的长度远远小于输入的文本序列长度,跳跃式的序列到序列模型的标点预测速度会大幅提升。
下面通过一些具体实施例来进一步说明本发明的技术方案。
实施例一
如图3所示,其为本发明实施例的标点预测处理方法的流程示意图,该方法可以应用在用于对文本进行标点标注处理的工具中,也可以应用到语音识别模型中,用于对识别出的语音进行标点标注。具体可以应用在服务器一侧,也可以应用在终端一侧,该方法可以包括:
S101:获取对待处理文本进行语义编码后的文本特征数据。待处理文本可以是任意的未经过标点标注的文本,当然也可以是进行了部分标点标注的文本,待处理文本的长度不限。本发明实施例的标点预测处理方法可以采用编码器和解码器的结构来实现,具体可以采用RNN结构来分别实现编码器和解码器,也可以采用基于注意力机制的Transformer(转换器)的编码器和解码器结构。
其中,文本特征数据的生成处理由编码器部分来实现,具体地,待处理文本经过词嵌入处理后,转换为词向量,输入到编码器中进行语义编码处理,生成表示上下文语义特征的文本特征数据,该文本特征数据可以为矩阵形式,矩阵的列数与词向量的个数相同,矩阵中的每列对应于各个词向量经过编码处理后的输出的特征向量。在编码器采用自我注意力(Self-Attention)结构的情况下,矩阵中的每列对应于各个词向量经过自我注意力计算后的自我注意力向量。具体地,该步骤S101可以包括:将待处理文本进行基于自我注意力机制的语义编码,生成与各个词对应的注意力特征向量,作为文本特征数据。
S102:根据文本特征数据或者根据文本特征数据和已识别出的标点以及标点位置,对待处理文本中标点以及标点位置进行预测。其中,已识别出的标点以及标点位置可以包括最近一次识别出的标点以及标点位置,也可以包括预测出的全部标点以及标点位置。这里所说的标点位置是指标点在待处理文本中的位置,具体可以以词位置作为定位,例如在第几个词之前或者之后。
在对文本特征数据开始识别时,不存在以识别出的标点以及标点位置,因此,根据文本特征数据预测第一个标点以及标点位置。在实际应用中,可以引入表示文本开始的开始符号,该开始符号也可以视为一种特殊的已识别出的标点以及标点位置,表示目前还不存在标点,从而可以根据文本特征数据和开始符号来识别出第一个标点以及标点位置,之后,不断地进行标点以及标点位置的识别,新识别出的标点以及标点位置作为识别下一个标点以及标点位置的输入数据,直到识别到文本结束为止,如前面图1中所示例的处理方式。作为一种可选实施方式,也可以将之前预测出的全部标点以及标点位置作为预测下一个标点的输入数据。
此外,在图1的示例以及前面的描述中,均以从前向后的预测顺序来进行描述,作为其他可选实施方式,在步骤S102中,可以从前向后或者从后向前或者从前后双向,对待处理文本中标点以及标点位置进行预测。
对标点以及标点位置的预测处理,可以通过解码器部分来实现。其中,如前面介绍的,编码器和解码器可以采用Transformer的编码器和解码器结构,则文本特征数据可以包括文本中的各个词对应的注意力特征向量,则该步骤S102中,根据文本特征数据和已识别出的标点以及标点位置,对待处理文本中标点以及标点位置进行预测可以包括:
S1021:根据已识别出的标点以及标点位置,更新各个词对应的注意力特征向量。通过这种更新处理,可以将已经识别出的标点以及标点位置的特征加入到文本特征数据中。具体地,在采用编码器采用自我注意力结构的情况下,文本特征数据包括文本中的各个词对应的注意力特征向量,根据已识别出的标点以及标点位置,更新各个词对应的注意力特征向量,具体可以为调整自我注意力权重,从而生成新的各个词对应的注意力特征向量,以用于对下一个标点以及标点位置的预测处理。
S1022:根据更新后的各个词对应的注意力特征向量和已识别出的标点以及标点位置,预测下一个标点以及标点位置。重复执行S1021和S1022的处理,直至预测输出结果为文本结束标识。
S103:输出待处理文本的标点以及标点位置。在预测数据结果为文本结束标识时,则对待处理文本的全部标点已经识别完成,可以进行最终的结果输出。
在识别出了全部标点以及对应的标点位置后,还可以包括:
S104:使用待处理文本的标点以及标点位置,对待处理文本进行标点标注,生成标点标注后的文本。
如前面介绍的,本发明实施例的标点预测处理方法可以应用于标点标注工具中,用于对给定的待处理文本进行标注标点。此外,也可以嵌入到语音识别模型中,由于语音识别模型主要是完成语音到文字的转换,其中并不包括标点,因此,可以使用本发明实施例提供的方法对语音识别模型输出的文本标记标点,具体地,将语音识别模型输出的文本作为上述待处理文本,经过本发明实施例的方法处理后,输出带有标点的语音识别文本。
本发明实施例提供的标点预测处理方法,根据文本特征数据和已识别出的标点以及标点位置,对待处理文本中标点以及标点位置进行预测,其针对标点的预测处理不再受到输入的文本长度的影响,由于标点以及标点位置的输出长度远远小于输入的输入文本的长度,从而将有效提高标点预测速率。
实施例二
如图4所示,其为本发明实施例的标点预测处理装置的结构示意图,该装置可以应用在用于对文本进行标点标注处理的工具中,也可以应用到语音识别模型中,用于对识别出的语音进行标点标注。具体可以应用在服务器一侧,也可以应用在终端一侧,该装置可以包括:
文本特征数据获取模块11,用于获取对待处理文本进行语义编码后的文本特征数据。待处理文本可以是任意的未经过标点标注的文本,当然也可以是进行了部分标点标注的文本,待处理文本的长度不限。本发明实施例的标点预测处理装置中可以采用编码器和解码器的结构来实现,具体地,采用RNN结构来分别实现编码器和解码器,也可以采用基于注意力机制的Transformer(转换器)的编码器和解码器结构。
其中,文本特征数据获取模块11可以使用编码器部分来实现文本特征数据的生成,具体地,待处理文本经过词嵌入处理后,转换为词向量,输入到编码器中进行语义编码处理,生成表示上下文语义特征的文本特征数据,该文本特征数据可以为矩阵形式,矩阵的列数与词向量的个数相同,矩阵中的每列对应于各个词向量经过编码处理后的输出的特征向量。在编码器采用自我注意力(Self-Attention)结构的情况下,矩阵中的每列对应于各个词向量经过自我注意力计算后的自我注意力向量。具体地,文本特征数据获取模块11的处理可以包括:将待处理文本进行基于自我注意力机制的语义编码,生成与各个词对应的注意力特征向量,作为文本特征数据。
标点预测模块12,用于根据文本特征数据或者根据所述文本特征数据和已识别出的标点以及标点位置,对待处理文本中的标点以及标点位置进行预测。其中,已识别出的标点以及标点位置可以包括最近一次识别出的标点以及标点位置,也可以包括之前预测出的全部标点以及标点位置。这里所说的标点位置是指标点在待处理文本中的位置,具体可以以词位置作为定位,例如在第几个词之前或者之后。
在对文本特征数据开始识别时,不存在以识别出的标点以及标点位置,因此,该方法还可以包括根据文本特征数据预测第一个标点以及标点位置。在实际应用中,可以引入表示文本开始的开始符号,该开始符号也可以视为一种特殊的已识别出的标点以及标点位置,表示目前还不存在标点,从而可以根据文本特征数据和开始符号来识别出第一个标点以及标点位置,之后,不断地进行标点以及标点位置的识别,新识别出的标点以及标点位置作为识别下一个标点以及标点位置的输入数据,直到识别到文本结束为止,如前面图1中所示例的处理方式。作为一种可选实施方式,也可以将之前预测出的全部标点以及标点位置作为预测下一个标点的输入数据。
上述的标点预测处理,可以从前向后或者从后向前或者从前后双向,对待处理文本中标点以及标点位置进行预测。
对标点以及标点位置的预测处理,可以通过解码器部分来实现。其中,如前面介绍的,编码器和解码器可以采用Transformer的编码器和解码器结构,则文本特征数据可以包括文本中的各个词对应的注意力特征向量,则上述的根据所述文本特征数据和已识别出的标点以及标点位置,对待处理文本中的标点以及标点位置进行预测的处理可以包括:
根据已识别出的标点以及标点位置,更新各个词对应的注意力特征向量。通过这种更新处理,可以将已经识别出的标点以及标点位置的特征加入到文本特征数据中。具体地,在采用编码器采用自我注意力结构的情况下,文本特征数据包括文本中的各个词对应的注意力特征向量,根据已识别出的标点以及标点位置,更新各个词对应的注意力特征向量,具体可以为调整自我注意力权重,从而生成新的各个词对应的注意力特征向量,以用于对下一个标点以及标点位置的预测处理;根据更新后的各个词对应的注意力特征向量和已识别出的标点以及标点位置,预测下一个标点以及标点位置。重复执行前面的处理,直至预测输出结果为文本结束标识。
标点输出模块13,用于输出待处理文本的标点以及标点位置。在预测数据结果为文本结束标识时,则对待处理文本的全部标点已经识别完成,可以进行最终的结果输出。
此外,在识别出了全部标点以及对应的标点位置后,还可以进一步对待处理文本进行标点标注,因此,该装置还可以包括:
标点标注模块14,用于使用待处理文本的标点以及标点位置,对待处理文本进行标点标注,生成标点标注后的文本。
本发明实施例的标点预测处理装置可以应用于标点标注工具中,用于对给定的待处理文本进行标注标点。此外,也可以嵌入到语音识别模型中,由于语音识别模型主要是完成语音到文字的转换,其中并不包括标点,因此,可以使用本发明实施例提供的装置对语音识别模型输出的文本标记标点,具体地,将语音识别模型输出的文本作为上述待处理文本,经过本发明实施例的装置处理后,输出带有标点的语音识别文本。
本发明实施例提供的标点预测处理装置,根据文本特征数据和已识别出的标点以及标点位置,对待处理文本中的后续的标点以及标点位置进行预测,其针对标点的预测处理不再受到输入的文本长度的影响,由于标点以及标点位置的输出长度远远小于输入的输入文本的长度,从而将有效提高标点预测速率。
实施例三
本发明实施例还提供了一种语音识别方法,该方法可以应用于语音识别的场景中,如图5和图6所示,其为本发明实施例的语音识别方法的应用场景示意图,下面结合图5和图6的示意图来说明上述的语音识别方法的处理过程,该处理过程包括:
S201:识别输入语音,生成语音识别文本。如图5和图6中所示,输入语音可以是来自于一些具有语音识别功能的APP进行的语音信号的采集,然后,通过语音识别模型对采集到的输入语音进行识别,生成语音识别文本。其中,语音识别可以在客户端一侧完成,如图5所示,在客户端上部署语音识别模型,客户端将识别出的语音识别文本发送给云端服务器,另外,作为另一种实现方式,语音识别可以在云端服务器一侧完成,如图6所示,客户端APP采集到输入语音后,通过网络传给云端服务器,由部署在云端服务器上的语音识别模型来执行语音识别。
识别出的语音识别文本会被送入到标点预测处理系统中进行标点预测处理,标点预测处理可以通过编码器和解码器的结构来完成,标点预测过程包括如下S202和S203处理:
S202:对语音识别文本进行语义编码,生成文本特征数据。
S203:根据所述文本特征数据或者根据所述文本特征数据和已识别出的标点以及标点位置,对所述语音识别文本中标点以及标点位置进行预测;
在完成标点预测后,可以执行步骤S204:
S204:根据预测结果,对所述语音识别文本进行标点标注,输出标点标注后的语音识别文本。该步骤的处理过程也由单独的标点标注模块来完成,也可以将标点标注处理嵌入到解码器上来完成,在完成标点预测后,直接输出带有标点的文本。
本发明实施例提供的语音识别方法,在语音识别处理中,嵌入前述实施例的标点预测处理方法,针对标点的预测处理不再受到输入的文本长度的影响,从而可以对任意长度的输入语音输出带有标点标注的识别文本,提高了语音识别文本的可读性和实用性。
实施例四
本发明实施例还提供了一种标点标注处理方法,该方法可以应用于客户端的文本标注需求场景中,如图7所示,其为本发明实施例的标点标注处理方法的应用场景示意图,在该处理场景中,对无标点文本的标注处理由云端服务器来完成,该处理过程包括:
S301:获取来自客户端的无标点文本。该无标点文本可以来自于客户端通过网络发送给云端服务器的大篇幅的文本或者文本片段,这些无标点文本的来源可以是客户端进行语音识别而生成的,例如,客户端上安装有用于进行会议记录的APP,将开会过程中的语音转换成文本,客户端进行语音识别后,将生成的无标点文本发送给云端进行处理,然后由云端返回,带有标点的文本记录。另外,上述无标点文本也可以来自于实时字幕生成的应用,例如对于直播场景中,对实时产生的语音进行识别,生成文本后,通过云端服务器进行标点标注,并反馈给客户端进行实时记载字幕。
在客户端向云端服务器提供无标点文本的同时,还可以提供针对该无标点文本指定使用的标点符号,即客户端向云端服务器提供了具体的标点使用要求,例如,要求对文本仅使用逗号和句号来进行标点标注,在一些情况下,例如实时字幕生成等,希望用简单的标点符号来完成标注即可,不希望引入复杂的标点符号。
此外,作为另一种实施方式,客户端也可以像云端服务器提供语音片段,然后由云端服务器进行语音识别,生成无标点文本,即如前面实施例中的图6所示的方式。
S302:对所述无标点文本进行语义编码,生成文本特征数据。
S303:根据所述文本特征数据或者根据所述文本特征数据和已识别出的标点以及标点位置,对所述语音识别文本中标点以及标点位置进行预测。
上述步骤S302和S303的处理和前面实施例的内容是相同的,均可以采用编码器和解码器的结构来实现,其中,对于客户端提供了指定使用的标点符号的情况,在步骤S303的处理中,将在所述指定使用的标点符号的范围内,对所述语音识别文本中标点以及标点位置进行预测。
S304:根据预测结果,对所述无标点文本进行标点标注,生成标点标注后的文本并返回给所述客户端。
在反馈给客户端后,用户可以在客户端上对标点标注后的文本进行查看,如果认为符合用户的需求,则可以向云端服务器返回确认信息,如果用户认为标点标注后的文本未满足其需求或者存在错误,则可以向云端服务器返回反馈修改信息,云端服务器可以根据所述反馈修改信息再次进行标点以及标点位置进行预测,并向客户端返回标点标注后的文本,直至用户最终确认为止。本发明实施例提供的标点标注处理方法,可以基于前述实施例的标点预测处理方法,为客户端提供标点标注服务,通过云端服务器与客户端的交互来完成满足用户需求的标点标注需求,并且针对标点的预测处理不受到输入的文本长度的影响,可以对任意长度的文本进行标点标注,方便客户端的文本加工处理。
实施例五
前面实施例描述了标点预测处理方法、语音识别方法以及标点标注处理方法的流程处理及装置结构,上述的方法和装置的功能可借助一种电子设备实现完成,如图8所示,其为本发明实施例的电子设备的结构示意图,具体包括:存储器110和处理器120。
存储器110,用于存储程序。
除上述程序之外,存储器110还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器110可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器120,耦合至存储器110,用于执行存储器110中的程序,以执行前述实施例中所描述的标点预测处理方法、语音识别方法以及标点标注处理方法的操作步骤。
此外,处理器120也可以包括前述实施例所描述的各种模块以执行标点预测处理、语音识别处理以及标点标注处理,并且存储器110可以例如用于存储这些模块执行操作所需要的数据和/或所输出的数据。
对于上述处理过程具体说明、技术原理详细说明以及技术效果详细分析在前面实施例中进行了详细描述,在此不再赘述。
进一步,如图所示,电子设备还可以包括:通信组件130、电源组件140、音频组件150、显示器160等其它组件。图中仅示意性给出部分组件,并不意味着电子设备只包括图中所示组件。
通信组件130被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G/LTE、5G等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件130经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件130还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
电源组件140,为电子设备的各种组件提供电力。电源组件140可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
音频组件150被配置为输出和/或输入音频信号。例如,音频组件150包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器110或经由通信组件130发送。在一些实施例中,音频组件150还包括一个扬声器,用于输出音频信号。
显示器160包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
此外,本发明实施例还提供了一种计算机程序产品,包括计算机程序或指令,当所述计算机程序或指令被处理器执行时,致使所述处理器实现前述的标点预测处理方法、语音识别方法以及标点标注处理方法的程序指令。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (18)
1.一种标点预测处理方法,包括:
获取对待处理文本进行语义编码后的文本特征数据;
根据所述文本特征数据或者根据所述文本特征数据和已识别出的标点以及标点位置,对所述待处理文本中标点以及标点位置进行预测;
输出待处理文本的标点以及标点位置。
2.根据权利要求1所述的方法,其中,所述获取对待处理文本进行语义编码后的文本特征数据包括:
将待处理文本进行基于自我注意力机制的语义编码,生成与各个词对应的注意力特征向量,作为所述文本特征数据。
3.根据权利要求1所述的方法,其中,根据所述文本特征数据或者根据所述文本特征数据和已识别出的标点以及标点位置,对所述待处理文本中标点以及标点位置进行预测包括:
根据所述文本特征数据或者根据所述文本特征数据和已识别出的标点以及标点位置,从前向后或者从后向前或者从前后双向,对所述待处理文本中标点以及标点位置进行预测。
4.根据权利要求1所述的方法,其中,所述文本特征数据包括文本中的各个词对应的注意力特征向量,根据所述文本特征数据和已识别出的标点以及标点位置,对所述待处理文本中的标点以及标点位置进行预测包括:
根据所述已识别出的标点以及标点位置,更新所述各个词对应的注意力特征向量;
根据更新后的各个词对应的注意力特征向量和所述已识别出的标点以及标点位置,预测下一个标点以及标点位置,直至预测输出结果为文本结束标识。
5.根据权利要求1所述的方法,其中,所述已识别出的标点以及标点位置包括:
最近一次识别出的标点以及标点位置;
或者,
之前识别出的全部标点以及标点位置。
6.根据权利要求1所述的方法,其中,还包括:
使用所述待处理文本的标点以及标点位置,对所述待处理文本进行标点标注,生成标点标注后的文本。
7.一种标点预测处理装置,包括:
文本特征数据获取模块,用于获取对待处理文本进行语义编码后的文本特征数据;
标点预测模块,用于根据所述文本特征数据或者根据所述文本特征数据和已识别出的标点以及标点位置,对所述待处理文本中的标点以及标点位置进行预测;
标点输出模块,用于输出待处理文本的标点以及标点位置。
8.一种电子设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行权利要求1至6任一所述的标点预测处理方法。
9.一种计算机程序产品,包括计算机程序或指令,其特征在于,当所述计算机程序或指令被处理器执行时,致使所述处理器实现权利要求1至6任一所述的标点预测处理方法。
10.一种语音识别方法,包括:
识别输入语音,生成语音识别文本;
对语音识别文本进行语义编码,生成文本特征数据;
根据所述文本特征数据或者根据所述文本特征数据和已识别出的标点以及标点位置,对所述语音识别文本中标点以及标点位置进行预测;
根据预测结果,对所述语音识别文本进行标点标注,输出标点标注后的语音识别文本。
11.一种标点标注处理方法,包括:
获取来自客户端的无标点文本;
对所述无标点文本进行语义编码,生成文本特征数据;
根据所述文本特征数据或者根据所述文本特征数据和已识别出的标点以及标点位置,对所述语音识别文本中标点以及标点位置进行预测;
根据预测结果,对所述无标点文本进行标点标注,生成标点标注后的文本并返回给所述客户端。
12.根据权利要求11所述的方法,其中,还包括:
接收所述客户端对所述标点标注后的文本的确认信息或者反馈修改信息;
根据所述反馈修改信息再次进行标点以及标点位置进行预测,并向客户端返回标点标注后的文本。
13.根据权利要求11所述的方法,其中,所述获取来自客户端的无标点文本包括:
获取来自客户端的语音片段,对所述语音片段进行识别,生成所述无标点文本。
14.根据权利要求11所述的方法,其中,获取来自客户端的无标点文本包括:获取来客户端的无标点文本以及与该无标点文本对应的指定使用的标点符号,
根据所述文本特征数据或者根据所述文本特征数据和已识别出的标点以及标点位置,对所述语音识别文本中标点以及标点位置进行预测包括:
根据所述文本特征数据或者根据所述文本特征数据和已识别出的标点以及标点位置,在所述指定使用的标点符号的范围内,对所述语音识别文本中标点以及标点位置进行预测。
15.一种电子设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行权利要求10所述的语音识别方法。
16.一种计算机程序产品,包括计算机程序或指令,其特征在于,当所述计算机程序或指令被处理器执行时,致使所述处理器实现权利要求10所述的语音识别方法。
17.一种电子设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行权利要求11至14任一所述的标点标注处理方法。
18.一种计算机程序产品,包括计算机程序或指令,其特征在于,当所述计算机程序或指令被处理器执行时,致使所述处理器实现权利要求11至14任一所述的标点标注处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011494189.6A CN114639380A (zh) | 2020-12-16 | 2020-12-16 | 标点预测、标注、语音处理方法、装置、设备及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011494189.6A CN114639380A (zh) | 2020-12-16 | 2020-12-16 | 标点预测、标注、语音处理方法、装置、设备及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114639380A true CN114639380A (zh) | 2022-06-17 |
Family
ID=81945452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011494189.6A Pending CN114639380A (zh) | 2020-12-16 | 2020-12-16 | 标点预测、标注、语音处理方法、装置、设备及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114639380A (zh) |
-
2020
- 2020-12-16 CN CN202011494189.6A patent/CN114639380A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543030B (zh) | 客服机器人会话文本分类方法及装置、设备、存储介质 | |
CN111261144B (zh) | 一种语音识别的方法、装置、终端以及存储介质 | |
US20210272342A1 (en) | Method for translating words in a picture, electronic device, and storage medium | |
CN109429522A (zh) | 语音交互方法、装置及系统 | |
CN113035205B (zh) | 音频丢包补偿处理方法、装置及电子设备 | |
CN103399766B (zh) | 更新输入法系统的方法和设备 | |
CN107564526B (zh) | 处理方法、装置和机器可读介质 | |
CN110543849B (zh) | 检测器的配置方法及装置、电子设备和存储介质 | |
EP4435776A1 (en) | Training method and apparatus for speech translation model, speech translation method and apparatus, and device | |
CN113434642B (zh) | 文本摘要生成方法、装置及电子设备 | |
CN111026400A (zh) | 业务数据流的解析方法及其装置 | |
CN110781658A (zh) | 简历解析方法、装置、电子设备和存储介质 | |
CN114489670A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN113515586A (zh) | 数据处理方法及装置 | |
CN113177419B (zh) | 文本改写方法、装置、存储介质及电子设备 | |
CN114639380A (zh) | 标点预测、标注、语音处理方法、装置、设备及程序产品 | |
CN112069790A (zh) | 文本相似度识别方法、装置及电子设备 | |
CN112652329B (zh) | 文本重对齐方法、装置、电子设备和存储介质 | |
CN111124721A (zh) | 网页处理方法、装置及电子设备 | |
CN110728137B (zh) | 用于分词的方法和装置 | |
CN110554894A (zh) | 界面描述文件、应用程序的处理方法、装置及电子设备 | |
CN113515931A (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
CN111443905B (zh) | 业务数据的处理方法、装置、系统及电子设备 | |
CN113781994A (zh) | 训练集生成方法、装置、电子设备和计算机可读介质 | |
CN111444687A (zh) | 一种标签生成方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |