CN113609819A - 标点符号确定模型及确定方法 - Google Patents

标点符号确定模型及确定方法 Download PDF

Info

Publication number
CN113609819A
CN113609819A CN202110902436.XA CN202110902436A CN113609819A CN 113609819 A CN113609819 A CN 113609819A CN 202110902436 A CN202110902436 A CN 202110902436A CN 113609819 A CN113609819 A CN 113609819A
Authority
CN
China
Prior art keywords
target
character
time sequence
current time
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110902436.XA
Other languages
English (en)
Other versions
CN113609819B (zh
Inventor
司马华鹏
蒋达
汤毅平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suqian Silicon Based Intelligent Technology Co ltd
Original Assignee
Suqian Silicon Based Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suqian Silicon Based Intelligent Technology Co ltd filed Critical Suqian Silicon Based Intelligent Technology Co ltd
Priority to CN202210719923.7A priority Critical patent/CN115099189A/zh
Priority to CN202110902436.XA priority patent/CN113609819B/zh
Publication of CN113609819A publication Critical patent/CN113609819A/zh
Application granted granted Critical
Publication of CN113609819B publication Critical patent/CN113609819B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种标点符号确定模型及确定方法,所述模型包括:嵌入查找层,配置为将输入文本中的每个字符转换为字符嵌入向量;深度学习层,包括线性变化单元与遗忘门单元,遗忘门单元配置为,根据当前时序对应的字符嵌入向量得到遗忘门结果;深度学习层配置为,对不同时序对应的多个字符嵌入向量进行并行处理以得到不同时序对应的多个输出结果,并根据多个输出结果输出与输入文本对应的第一特征向量;条件随机场层,配置为根据第一特征向量确定输入文本的每个字符对应的符号标签,其中,符号标签用于指示对应字符后面的标点符号。解决了相关技术中无法快速有效地实现语音识别后的文本中的标点符号预测的问题。

Description

标点符号确定模型及确定方法
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种标点符号确定模型及确定方法。
背景技术
自动语音识别技术(Automatic Speech Recognition,简称为ASR)识别过程中,用户输入目标音频后ASR网络模型可将其识别为相应的文本,但上述文本中通常不包括标点符号,故用户在阅读上述文本时存在一定的阅读障碍。
目前,相关技术中的标点预测大部分基于传统循环神经网络实现,如采用循环神经网络(Recurrent Neural Network,,简称为RNN),长短期记忆网络(LSTM,Long Short-Term Memory,简称为LSTM),双向长短期记忆网络(BI-LSTM),门控循环单元(GatedRecurrent Unit,简称为GRU)等网络。虽然基于上述相关网络结构可构建标点预测的网络模型,但是,由于上述网络结构中当前的层输入为前一层的输出,即采用串行结构,该类型的网络构架一方面不能进行并行化处理,致使在标点预测过程中的效率低下,影响用户体验;另一方面,上述网络结构的标点预测的准确性也并不理想。
针对相关技术中,无法快速有效地实现语音识别后的文本中的标点符号预测的问题,相关技术中尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种标点符号确定模型及确定方法,以至少解决相关技术中无法快速有效地实现语音识别后的文本中的标点符号预测的问题。
在本申请的一个实施例中,提出了一种标点符号确定模型,包括:嵌入查找层,配置为通过预设的嵌入矩阵,将输入文本中的每个字符转换为字符嵌入向量;其中,所述输入文本中的每个字符分别对应不同的时序;深度学习层,包括线性变化单元与遗忘门单元,其中,所述线性变化单元配置为根据当前时序对应的所述字符嵌入向量得到线性变化结果,所述遗忘门单元配置为,根据当前时序对应的所述字符嵌入向量得到遗忘门结果;所述深度学习层配置为,至少根据所述线性变化结果与所述遗忘门结果得到当前时序对应的输出结果;所述深度学习层还配置为,对不同时序对应的多个所述字符嵌入向量进行并行处理以得到不同时序对应的多个所述输出结果,并根据多个所述输出结果输出与所述输入文本对应的第一特征向量;条件随机场层,配置为根据所述第一特征向量确定所述输入文本的每个字符对应的符号标签,其中,所述符号标签用于指示对应字符后面的标点符号。
在本申请的一个实施例中,还提出了一种标点符号确定方法,包括将目标文本输入上述标点符号确定模型;通过所述标点符号确定模型输出所述目标文本的每个字符对应的目标符号标签,其中,所述目标符号标签用于指示对应字符后面的标点符号。
在本申请的一个实施例中,还提出了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在本申请的一个实施例中,还提出了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本申请实施例,将目标文本输入上述标点符号确定模型;通过标点符号确定模型输出目标文本的每个字符对应的目标符号标签,其中,目标符号标签用于指示对应字符后面的标点符号。标点符号确定模型中的深度学习层可以根据线性变化结果与遗忘门结果得到当前时序对应的输出结果;还可以对不同时序对应的多个字符嵌入向量进行并行处理以得到不同时序对应的多个输出结果,并根据多个输出结果输出与输入文本对应的第一特征向量。解决了相关技术中无法快速有效地实现语音识别后的文本中的标点符号预测的问题,在标点符号确定模型的预测过程中,将大部分计算进行并行计算,仅对于小部分运算进行串行计算,进而使得其计算效率得以显著改善。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种可选的标点符号确定模型结构框图;
图2是根据本申请实施例的另一种可选的标点符号确定模型结构框图;
图3是根据本申请实施例的一种可选的简单循环单元层模型计算示意图;
图4是根据本申请实施例的一种可选的深度学习层模型计算示意图;
图5是根据本申请实施例的一种可选的标点符号确定方法流程图;
图6是根据本申请实施例的一种可选的电子装置结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
如图1所示,本申请实施例提供了一种标点符号确定模型,包括:
嵌入查找层,配置为通过预设的嵌入矩阵,将输入文本中的每个字符转换为字符嵌入向量;其中,输入文本中的每个字符分别对应不同的时序;
深度学习层,包括线性变化单元与遗忘门单元,其中,线性变化单元配置为根据当前时序对应的字符嵌入向量得到线性变化结果,遗忘门单元配置为,根据当前时序对应的字符嵌入向量得到遗忘门结果;
深度学习层配置为,至少根据线性变化结果与遗忘门结果得到当前时序对应的输出结果;深度学习层还配置为,对不同时序对应的多个字符嵌入向量进行并行处理以得到不同时序对应的多个输出结果,并根据多个输出结果输出与输入文本对应的第一特征向量;
条件随机场层(Conditional Random Fields,简称CRF),配置为根据第一特征向量确定输入文本的每个字符对应的符号标签,其中,符号标签用于指示对应字符后面的标点符号。
需要说明的是,嵌入查找层基于预设的嵌入矩阵实现上述字符嵌入的转换。嵌入矩阵可以通过随机初始化的方式生成,即随机生成嵌入矩阵;也可以结合实际应用场景中的词库进行预训练以生成嵌入矩阵,例如,将金融领域的热词词库作为预训练的对象,以训练生成嵌入矩阵,进而令嵌入矩阵在相应领域的任务时可更准确的识别词与词之间的关联。本申请实施例中采用随机初始化得到嵌入矩阵,同时可将预训练的方式作为一种可选方案。输入文本中的每个字符分别对应不同的时序可以理解为,输入文本中的每个字符对应不同的阅读顺序,例如“你好吗”,“你”在“好”之前,“好”在“吗”之前。
需要说明的是,如图2所示,嵌入查找层后面可以接Dropout层,旨在防止训练中出现过拟合现象。深度学习层中的线性变化单元与遗忘门单元在得到线性变化结果与遗忘门结果时,是根据当前时序对应的字符嵌入向量计算得到的,以此,深度学习层在根据线性变化结果与遗忘门结果计算当前时序对应的输出结果的过程中,主要是根据当前时序对应的字符嵌入向量即可完成计算,并不依赖于上一时刻的输出结果。故此,深度学习层在对于不同时序对应的多个字符嵌入向量进行计算的过程中,对每一时序对应的多个字符嵌入向量而言,其输出结果的计算与产出并不依赖于上一时序的输出结果,故对不同时序的多个字符嵌入向量可实现并行计算。较于此,相关技术中,某一时序的输出结果的计算往往需要依赖于上一时序的输出结果,故其无法实现并行计算,因而,本实施例中的深度学习层的并行计算方式显著改善了计算效率。在深度学习层后面可以接归一化层,旨在对深度学习层的输出结果进行归一化处理。
需要说明的是,条件随机场层旨在为文本中的一个句子中每个字符标记标签。对于一个中文句子,这个句子中的每个字都有/将有一个标签,它属于{O,P,Q,C,E}的集合,其对应关系如下:O-无标点(即一个词),P-句号,Q-问号,C-逗号,E-感叹号。通过上述标签对句子中的每一个字进行标记,即可实现句子中标点的预测。
需要说明的是,上述标签所指示的是一个词后所加的标点,而并不表示标点本身,例如,O即表示一个词后无标点,P表示一个词后是句号。
CRF层在实现过程中,可基于某个词的前一个词,进而预测该词对应的标签。由于一个句子中的标点往往取决于该标点之前的词,故CRF层可很好的实现标点预测处理,也就是标点符号的确定。
需要说明的是,相关技术中通常采用Softmax层用于标记,但是,Softmax作为分类器在时间维度上具有一定的缺陷,在对标签进行标记时无法学习到上下文的信息,故而会导致Softmax层会独立地标记句子中的每个位置而得到不合语法的标签序列。较于此,本申请实施例中的CRF层能够很好的学习到时间顺序这一信息,更好的掌握上下文的关系,根据句子级标签信息从而更好地预测当前标签。
在一实施例中,深度学习层包括:
简单循环单元层,包括线性变化单元、遗忘门单元以及输出状态确定单元;其中,输出状态确定单元配置为,根据当前时序对应的线性变化结果与遗忘门结果确定当前时序对应的内部状态,并根据当前时序对应的内部状态以及上一时序对应的内部状态确定当前时序对应的输出状态;上一时序对应的内部状态由上一时序对应的线性变化结果与遗忘门结果确定;简单循环单元层还配置为,对不同时序对应的多个字符嵌入向量进行并行处理以得到不同时序对应的多个输出状态;
注意力机制层,配置为根据当前时序对应的输出状态与其它时序对应的输出状态之间的依赖关系,确定当前时序对应的字符在输入文本中的结构权重;其中,结构权重用于指示输入文本中的各个字符与当前时序对应的字符的关联性大小;
深度学习层还配置为,根据不同时序对应的多个输出状态以及每个输出状态对应的结构权重确定不同时序对应的多个输出结果,并根据多个输出结果输出第一特征向量。
在一实施例中,线性变化单元中还包括:
投影子单元,配置为根据预设的第一投影矩阵与第二投影矩阵对当前时序对应的字符嵌入向量进行线性变化以得到线性变化结果;其中,第二投影矩阵的维度小于第一投影矩阵的维度。
需要说明的是,本实施例中的深度学习层是基于注意力机制实现,其具有高度并行递归的特性。本实施例中的深度学习层中所采用的简单循环单元层,其运行速度较于相关技术中的cuDNN LSTM等单元快10倍左右,并且在任务中并不会造成精度损失。因此,本申请实施例中的标点符号确定模型可以显著改善标点预测的效率,同时保障良好的识别准确性。
简单循环单元层的网络结构如图3所示,简单循环单元层网络构架包含了一个单一的遗忘门(forget gate),设定时间t对应的输入为xt,首先需要计算xt的线性转换
Figure BDA0003200465520000071
和遗忘门结果ft,计算方式如下:
Figure BDA0003200465520000072
ft=σ(Wfxt+bt)
由上述计算过程可得,
Figure BDA0003200465520000073
和ft的计算仅仅依靠xt,因此,对于时间t对应的输出,并不依赖于时间t-1的输出,故对于时序不同的层,上述计算可以进行并行化处理。正如前所述,对不同时序对应的多个字符嵌入向量进行并行处理以得到不同时序对应的多个输出结果,并根据多个输出结果输出与输入文本对应的第一特征向量。
进一步,需要计算简单循环单元层在当前层的内部状态(internal state)ct与输出状态(output state)ht,计算方式如下:
Figure BDA0003200465520000074
ht=g(ct)
其中,g表示激活函数。
基于此,整个简单循环单元层网络结构的计算过程如下:
Figure BDA0003200465520000081
ft=σ(Wfxt+bf)
rt=σ(Wrxt+br)
Figure BDA0003200465520000082
ht=rt⊙g(ct)+(1-rt)⊙xt
上述rt表示reset gate。
根据上述计算过程,简单循环单元层对于时间t对应的输入xt可计算得到线性转换的结果
Figure BDA0003200465520000083
和遗忘门结果ft,在此基础上根据上一层(上一时刻)的内部状态ct-1计算得到当前层(当前时刻)的内部状态ct,并进一步通过激活函数得到当前层的输出状态ht
基于上述计算过程可得,简单循环单元层的计算过程中,当前层的输出状态ht的计算分为两部分,其中,
Figure BDA0003200465520000084
和ft的计算仅依靠xt,并不需要前一层的输出ht-1,故该部分中不同层对于上述部分可进行并行计算;同时,在
Figure BDA0003200465520000085
和ft的结果上可进一步根据上一层的ct-1计算当前层的ct的计算,进而得到输出状态ht。该部分中会参照上一层的内部状态,故可一定程度的参考上一层对应词的信息,以基于词与词之间的关联性提高识别的准确性。
实际计算过程中,上述
Figure BDA0003200465520000086
和ft的计算占据实际计算量的绝大部分,在此基础上,输出状态ht的计算占据实际计算量的小部分,由于
Figure BDA0003200465520000087
和ft可进行并行计算,故简单循环单元层整体的计算过程中可通过并行计算的方式对绝大部分计算任务进行处理以显著改善计算速率。
为进一步清楚的说明,以下以标点预测模型的输入为“你好小明”为例进行说明,嵌入查找层将该输入中的“你”“好”“小”“明”分别转换为对应的词向量,简单循环单元层可分别对于上述四个词向量进行计算,且在计算过程中,对于某一层的词向量的计算基本并不依赖于前一层的输出,具体而言,在对于“小”进行计算过程中,其基本不依赖于其上一层“好”的计算结果,仅在一定程度上以“好”的计算过程中输出的内部状态作为参照。因此,在对于上述“你”“好”“小”“明”进行计算过程中可进行并行计算,进而显著改善计算效率。
本申请实施例中的深度学习层,也就是深度学习层,在上述简单循环单元层的基础上加入更有表现力的非线性运算,具体而言,深度学习层加入了以下特征:1)在线性变换阶段使用了投影技巧(或称瓶颈技巧)以显著减少模型的参数量,使得模型变得更加轻巧;2)是在线性变换之前加入了注意力机制来增强建模能力,以提升模型的学习能力和精度;3)是在注意力操作之后和在矩阵乘法线性变换之前进行归一化操作。
如图4所示,深度学习层中的核心在于Self-Attention层的运用,其可对于一个句子中每一个词与其它词之间的依赖关系进行计算,以捕捉句子的内部结构,上述过程即为对每个词进行Attention计算。上述计算过程如下:
设定深度学习层的输入为一矩阵:X∈RL×d(注意区别前述xt,此处X指整个文本的输入)可通过深度学习层对该输入进行Query,Key,Value的线性变化处理,其计算方式如下:
Q=WqXT
K=WkQ
V=WvQ
上述Wq∈Rd′×d,Wk∈Rd′×d,Wv∈Rd′×d,其均为模型参数,d’是attention维数(通常小于d),以此即可得到Query,Key,Value对应的矩阵。在此基础上,进一步通过加权平均的方式计算输出AT∈Rd′×L,计算方式如下:
Figure BDA0003200465520000101
该A即为一个句子中各个词关于某个特定词的依赖关系的权重,用于表征一个句子中各个词关于某个特定词的依赖关系或关联性的大小。
在简单循环单元层的基础上,深度学习层通过采用上述Attention机制,相当于前述注意力机制层,可有效关注一个句子中词与词之间的关联性,对于本方案的标点预测而言,可在训练过程中学习到不同位置的词与标点的对应关系,进而显著提升标点预测的精度。
上述输出的A可作为前述简单循环单元层计算过程中线性转换的处理,即在对输入xt进行线性转换的过程中,先进行A的计算,在得到A的基础上,进一步进行线性转换,以得到
Figure BDA0003200465520000102
另一方面,上述线性转换的过程中可采用线性投影,即前述投影机制,输出的对象为:
UT=Wo(Q+α·A)
其中α∈R是一个学习标量,Wo∈R3d×d′是一投影矩阵,其用于残差连接(Q+α·A),残差连接可改善梯度传播和稳定训练,α初始化为0时结果为:
UT=WoQ=(WoWq)XT
上述UT为X进行线性变化的结果,等同于前述,即深度学习层中的上述变换过程,是对简单循环单元层中
Figure BDA0003200465520000103
的计算过程所进行的改进,其余后续计算同上,不再赘述。
需要进一步说明的是,由于上述WoWq的内部维度很小(d′<d),故可在线性变化的过程中,显著减少网络内参与训练的参数总数。
另一方面,在深度学习层的计算过程中,在attention操作之后和与Wo的矩阵乘法之前进行归一化处理。
如图5所示,根据本申请的另一实施例,还提供了一种标点符号确定方法,应用于前述标点符号确定模型,包括:
步骤S502,将目标文本输入标点符号确定模型;
步骤S504,通过标点符号确定模型输出目标文本的每个字符对应的目标符号标签,其中,目标符号标签用于指示对应字符后面的标点符号。
在一实施例中,上述步骤S504可以通过以下步骤实现:
通过预设的嵌入矩阵,目标文本中的每个目标字符转换为目标字符嵌入向量;其中,目标文本中的每个目标字符分别对应不同的时序;
根据当前时序对应的目标字符嵌入向量得到目标线性变化结果和目标遗忘门结果;
根据目标线性变化结果和目标遗忘门结果得到当前时序对应的目标输出结果;
对不同时序对应的多个目标字符嵌入向量进行并行处理以得到不同时序对应的多个目标输出结果,并根据多个目标输出结果输出与目标文本对应的第二特征向量;
根据第二特征向量确定目标文本的每个目标字符对应的目标符号标签,其中,目标符号标签用于指示对应目标字符后面的标点符号。
在一实施例中,通过预设的嵌入矩阵,将目标文本中的每个目标字符转换为目标字符嵌入向量,包括:
通过预设的嵌入矩阵,将目标文本转化为n*m维的目标字符嵌入向量,其中,n表示目标文本中的目标字符数,m表示目标文本中每个目标字符对应的目标字符嵌入向量的维度。
在一实施例中,对不同时序对应的多个目标字符嵌入向量进行并行处理以得到不同时序对应的多个目标输出结果,并根据多个目标输出结果输出与目标文本对应的第二特征向量,包括:
根据当前时序对应的目标线性变化结果与目标遗忘门结果确定当前时序对应的目标内部状态,并根据当前时序对应的目标内部状态以及上一时序对应的目标内部状态确定当前时序对应的目标输出状态;其中,上一时序对应的内部状态由上一时序对应的线性变化结果与遗忘门结果确定;
对不同时序对应的多个目标字符嵌入向量进行并行处理以得到不同时序对应的多个目标输出状态;
根据当前时序对应的目标输出状态与其它时序对应的目标输出状态之间的依赖关系,确定当前时序对应的目标字符在目标文本中的目标结构权重;其中,目标结构权重用于指示目标文本中的各个目标字符与当前时序对应的目标字符的关联性大小;
根据不同时序对应的多个目标输出状态以及每个目标输出状态对应的目标结构权重确定不同时序对应的多个目标输出结果,并根据多个目标输出结果输出第二特征向量。
在一实施例中,根据当前时序对应的目标字符嵌入向量得到目标线性变化结果,包括:
根据预设的第一投影矩阵与第二投影矩阵对当前时序对应的目标字符嵌入向量进行线性变化以得到目标线性变化结果;其中,第二投影矩阵的维度小于第一投影矩阵的维度。
通过本申请实施例,可在标点预测过程,中通过深度学习层的运用,将大部分计算进行并行计算,仅对于小部分运算进行串行计算,进而使得其计算效率得以显著改善。对于ASR识别,本申请实施例中的标点预测可通过提升标点预测的计算效果,以在呈现的文本中实时添加标点,以显著改善用户体验。
另一方面,较于NLP中的其它领域,如机器翻译等,其在自然语言处理时,需考量整个句子词与词之间的关联性,故无法很好的适用深度学习层。本申请在将深度学习层适用于标点预测领域时,结合标点的前一个或几个词,结合遗忘门和注意力机制的作用,可在显著改善计算效率的前提下,保证精准的识别效率。
在一实施例中,上述标点符号确定模型的训练方法可以通过以下示例进行说明,包括如下步骤:
S1,设定训练集中的某个数据为X,其实际标签为Y,将X输入到嵌入查找层,通过预先训练好的字向量字典,本示例性实施例中,X将会转化为一个7*300维的嵌入,其中,7代表字数,300代表字向量维度;
S2,将S1查找得到的字符嵌入输入至Dropout层,防止训练中出现过拟合现象;
S3,将S2中的输出结果输入深度学习层网络做深度学习,并对输出结果进行归一化处理;
S4,通过CRF层对S3中的输出结果进行预测,以得到预测标签Y1;
S5,用预设的Loss函数计算实际标签Y和预测标签Y1之间的偏差,并用Adam算法进行优化,不断更新模型参数;
S6,通过验证集对S5中训练得到的标点预测模型进行验证,并不断优化模型参数,通过60个epochs不断迭代,使得Loss值下降到阈值接近收敛,得到最终的模型参数。
在一实施例中,上述标点符号确定模型的应用过程可以通过以下示例进行说明:
输入对象为“你好是张小明吗”,经上述完成训练的标点预测模型进行识别,可获得结果“OCOOOQ”,对应“你好,是张小明吗?”。
根据本申请实施例的又一个方面,还提供了一种用于实施上述标点符号确定方法的电子装置,上述电子装置可以但不限于应用于服务器中。如图6所示,该电子装置包括存储器602和处理器604,该存储器602中存储有计算机程序,该处理器604被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,将目标文本输入标点符号确定模型;
S2,通过标点符号确定模型输出目标文本的每个字符对应的目标符号标签,其中,目标符号标签用于指示对应字符后面的标点符号。
可选地,本领域普通技术人员可以理解,图6所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图6中所示更多或者更少的组件(如网络接口等),或者具有与图6所示不同的配置。
其中,存储器602可用于存储软件程序以及模块,如本申请实施例中的标点符号确定方法与其应用的标点符号确定模型的训练方法和装置对应的程序指令/模块,处理器604通过运行存储在存储器602内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的标点符号确定方法。存储器602可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器602可进一步包括相对于处理器604远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器602具体可以但不限于用于标点符号确定方法与其应用的标点符号确定模型的训练方法的程序步骤。
可选地,上述的传输装置606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置606包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置606为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器608,用于显示训练过程;和连接总线610,用于连接上述电子装置中的各个模块部件。
本申请的实施例还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,将目标文本输入标点符号确定模型;
S2,通过标点符号确定模型输出目标文本的每个字符对应的目标符号标签,其中,目标符号标签用于指示对应字符后面的标点符号。
可选地,存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序,本实施例中对此不再赘述。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种标点符号确定模型,其特征在于,包括:
嵌入查找层,配置为通过预设的嵌入矩阵,将输入文本中的每个字符转换为字符嵌入向量;其中,所述输入文本中的每个字符分别对应不同的时序;
深度学习层,包括线性变化单元与遗忘门单元,其中,所述线性变化单元配置为根据当前时序对应的所述字符嵌入向量得到线性变化结果,所述遗忘门单元配置为,根据当前时序对应的所述字符嵌入向量得到遗忘门结果;
所述深度学习层配置为,至少根据所述线性变化结果与所述遗忘门结果得到当前时序对应的输出结果;所述深度学习层还配置为,对不同时序对应的多个所述字符嵌入向量进行并行处理以得到不同时序对应的多个所述输出结果,并根据多个所述输出结果输出与所述输入文本对应的第一特征向量;
条件随机场层,配置为根据所述第一特征向量确定所述输入文本的每个字符对应的符号标签,其中,所述符号标签用于指示对应字符后面的标点符号。
2.根据权利要求1所述的模型,其特征在于,所述深度学习层包括:
简单循环单元层,包括所述线性变化单元、所述遗忘门单元以及输出状态确定单元;其中,所述输出状态确定单元配置为,根据当前时序对应的所述线性变化结果与所述遗忘门结果确定当前时序对应的内部状态,并根据当前时序对应的内部状态以及上一时序对应的内部状态确定当前时序对应的输出状态;所述上一时序对应的内部状态由上一时序对应的线性变化结果与遗忘门结果确定;所述简单循环单元层还配置为,对不同时序对应的多个所述字符嵌入向量进行并行处理以得到不同时序对应的多个所述输出状态;
注意力机制层,配置为根据当前时序对应的所述输出状态与其它时序对应的所述输出状态之间的依赖关系,确定当前时序对应的所述字符在所述输入文本中的结构权重;其中,所述结构权重用于指示所述输入文本中的各个字符与当前时序对应的所述字符的关联性大小;
所述深度学习层还配置为,根据不同时序对应的多个所述输出状态以及每个输出状态对应的所述结构权重确定不同时序对应的多个所述输出结果,并根据多个所述输出结果输出所述第一特征向量。
3.根据权利要求1或2所述的模型,其特征在于,所述线性变化单元中还包括:
投影子单元,配置为根据预设的第一投影矩阵与第二投影矩阵对当前时序对应的所述字符嵌入向量进行线性变化以得到线性变化结果;其中,所述第二投影矩阵的维度小于所述第一投影矩阵的维度。
4.一种标点符号确定方法,其特征在于,包括:
将目标文本输入权利要求1至3任一项所述的标点符号确定模型;
通过所述标点符号确定模型输出所述目标文本的每个字符对应的目标符号标签,其中,所述目标符号标签用于指示对应字符后面的标点符号。
5.根据权利要求4所述的方法,其特征在于,所述通过所述标点符号确定模型输出所述目标文本的每个字符对应的目标符号标签,包括:
通过预设的嵌入矩阵,将所述目标文本中的每个目标字符转换为目标字符嵌入向量;其中,所述目标文本中的每个目标字符分别对应不同的时序;
根据当前时序对应的所述目标字符嵌入向量得到目标线性变化结果和目标遗忘门结果;
根据所述目标线性变化结果和所述目标遗忘门结果得到当前时序对应的目标输出结果;
对不同时序对应的多个所述目标字符嵌入向量进行并行处理以得到不同时序对应的多个所述目标输出结果,并根据多个所述目标输出结果输出与所述目标文本对应的第二特征向量;
根据所述第二特征向量确定所述目标文本的每个目标字符对应的目标符号标签,其中,所述目标符号标签用于指示对应目标字符后面的标点符号。
6.根据权利要求5所述的方法,其特征在于,所述通过预设的嵌入矩阵,将所述目标文本中的每个目标字符转换为目标字符嵌入向量,包括:
通过预设的嵌入矩阵,将所述目标文本转化为n*m维的目标字符嵌入向量,其中,n表示所述目标文本中的目标字符数,m表示所述目标文本中每个目标字符对应的目标字符嵌入向量的维度。
7.根据权利要求5所述的方法,其特征在于,所述对不同时序对应的多个所述目标字符嵌入向量进行并行处理以得到不同时序对应的多个所述目标输出结果,并根据多个所述目标输出结果输出与所述目标文本对应的第二特征向量,包括:
根据当前时序对应的目标线性变化结果与所述目标遗忘门结果确定当前时序对应的目标内部状态,并根据当前时序对应的目标内部状态以及上一时序对应的目标内部状态确定当前时序对应的目标输出状态;其中,所述上一时序对应的内部状态由上一时序对应的线性变化结果与遗忘门结果确定;
对不同时序对应的多个所述目标字符嵌入向量进行并行处理以得到不同时序对应的多个所述目标输出状态;
根据当前时序对应的所述目标输出状态与其它时序对应的所述目标输出状态之间的依赖关系,确定当前时序对应的所述目标字符在所述目标文本中的目标结构权重;其中,所述目标结构权重用于指示所述目标文本中的各个目标字符与当前时序对应的所述目标字符的关联性大小;
根据不同时序对应的多个所述目标输出状态以及每个目标输出状态对应的所述目标结构权重确定不同时序对应的多个所述目标输出结果,并根据多个所述目标输出结果输出所述第二特征向量。
8.根据权利要求5所述的方法,其特征在于,所述根据当前时序对应的所述目标字符嵌入向量得到目标线性变化结果,包括:
根据预设的第一投影矩阵与第二投影矩阵对当前时序对应的所述目标字符嵌入向量进行线性变化以得到目标线性变化结果;其中,所述第二投影矩阵的维度小于所述第一投影矩阵的维度。
9.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求4至8任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求4至8任一项中所述的方法。
CN202110902436.XA 2021-08-06 2021-08-06 标点符号确定模型及确定方法 Active CN113609819B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210719923.7A CN115099189A (zh) 2021-08-06 2021-08-06 基于并行计算的语音识别模型及确定方法
CN202110902436.XA CN113609819B (zh) 2021-08-06 2021-08-06 标点符号确定模型及确定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110902436.XA CN113609819B (zh) 2021-08-06 2021-08-06 标点符号确定模型及确定方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202210719923.7A Division CN115099189A (zh) 2021-08-06 2021-08-06 基于并行计算的语音识别模型及确定方法

Publications (2)

Publication Number Publication Date
CN113609819A true CN113609819A (zh) 2021-11-05
CN113609819B CN113609819B (zh) 2022-06-17

Family

ID=78339697

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210719923.7A Withdrawn CN115099189A (zh) 2021-08-06 2021-08-06 基于并行计算的语音识别模型及确定方法
CN202110902436.XA Active CN113609819B (zh) 2021-08-06 2021-08-06 标点符号确定模型及确定方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202210719923.7A Withdrawn CN115099189A (zh) 2021-08-06 2021-08-06 基于并行计算的语音识别模型及确定方法

Country Status (1)

Country Link
CN (2) CN115099189A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115617955A (zh) * 2022-12-14 2023-01-17 数据堂(北京)科技股份有限公司 分级预测模型训练方法、标点符号恢复方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115758267A (zh) * 2022-11-09 2023-03-07 南通大学 一种基于sru和双重注意力的脑电信号情绪识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767870A (zh) * 2017-09-29 2018-03-06 百度在线网络技术(北京)有限公司 标点符号的添加方法、装置和计算机设备
US20180342248A1 (en) * 2017-05-23 2018-11-29 Ronen Rabinovici Integrated speech recognition text input with manual punctuation
CN109558576A (zh) * 2018-11-05 2019-04-02 中山大学 一种基于自注意力机制的标点符号预测方法
CN109918647A (zh) * 2019-01-30 2019-06-21 中国科学院信息工程研究所 一种安全领域命名实体识别方法及神经网络模型

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180342248A1 (en) * 2017-05-23 2018-11-29 Ronen Rabinovici Integrated speech recognition text input with manual punctuation
CN107767870A (zh) * 2017-09-29 2018-03-06 百度在线网络技术(北京)有限公司 标点符号的添加方法、装置和计算机设备
CN109558576A (zh) * 2018-11-05 2019-04-02 中山大学 一种基于自注意力机制的标点符号预测方法
CN109918647A (zh) * 2019-01-30 2019-06-21 中国科学院信息工程研究所 一种安全领域命名实体识别方法及神经网络模型

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张慧等: "CRF模型的自动标点预测方法研究", 《网络新媒体技术》 *
苏晓宝等: "基于线性链条件随机场的用户生成文本标点标注", 《软件》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115617955A (zh) * 2022-12-14 2023-01-17 数据堂(北京)科技股份有限公司 分级预测模型训练方法、标点符号恢复方法及装置

Also Published As

Publication number Publication date
CN113609819B (zh) 2022-06-17
CN115099189A (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN110162749B (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN108846077B (zh) 问答文本的语义匹配方法、装置、介质及电子设备
CN110826338B (zh) 一种单选择门与类间度量的细粒度语义相似识别的方法
CN112487820B (zh) 一种中文医疗命名实体识别方法
CN108959482A (zh) 基于深度学习的单轮对话数据分类方法、装置和电子设备
CN113609819B (zh) 标点符号确定模型及确定方法
CN115115913A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN110222329B (zh) 一种基于深度学习的中文分词方法和装置
CN111985229A (zh) 一种序列标注方法、装置及计算机设备
CN114676234A (zh) 一种模型训练方法及相关设备
CN108304376B (zh) 文本向量的确定方法、装置、存储介质及电子装置
CN113705313A (zh) 文本识别方法、装置、设备及介质
CN109933792A (zh) 基于多层双向lstm和验证模型的观点型问题阅读理解方法
CN110597956B (zh) 一种搜索方法、装置及存储介质
CN112183083A (zh) 文摘自动生成方法、装置、电子设备及存储介质
CN111611395B (zh) 一种实体关系的识别方法及装置
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN113723077B (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114417891B (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质
CN116341646A (zh) Bert模型的预训练方法、装置、电子设备及存储介质
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN112132269B (zh) 模型处理方法、装置、设备及存储介质
CN113722477B (zh) 基于多任务学习的网民情绪识别方法、系统及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant