CN112036122A - 文本识别方法、电子设备及计算机可读介质 - Google Patents

文本识别方法、电子设备及计算机可读介质 Download PDF

Info

Publication number
CN112036122A
CN112036122A CN202011230268.6A CN202011230268A CN112036122A CN 112036122 A CN112036122 A CN 112036122A CN 202011230268 A CN202011230268 A CN 202011230268A CN 112036122 A CN112036122 A CN 112036122A
Authority
CN
China
Prior art keywords
text
private
encoder
shared
dsn model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011230268.6A
Other languages
English (en)
Other versions
CN112036122B (zh
Inventor
赵佳福
刘琼琼
刘子韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202011230268.6A priority Critical patent/CN112036122B/zh
Publication of CN112036122A publication Critical patent/CN112036122A/zh
Application granted granted Critical
Publication of CN112036122B publication Critical patent/CN112036122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明实施例公开了一种文本识别方法、电子设备及计算机可读介质:将待识别文本输入域分离网络DSN模型,获取所述DSN模型中目标域的私有编码器和共享编码器分别进行编码后生成的编码数据,其中,所述私有编码器和所述共享编码器均为基于自注意力机制的编码器;然后根据所述编码数据,对所述待识别文本进行文本分类。本方案由于获取的编码数据中包含所述待识别文本经过编码器编码后的私有编码以及共享编码,且所述私有编码能够表示所述待识别文本的私有特征,所述共享编码能够表示所述待识别文本的共有特征,因此,根据所述编码数据,对所述待识别文本进行文本分类后,可以获得准确的分类结果,即可以得到准确的文本类别标签。

Description

文本识别方法、电子设备及计算机可读介质
技术领域
本发明实施例涉及自然语言处理技术领域,尤其涉及一种文本识别方法、电子设备及计算机可读介质。
背景技术
随着人工智能的快速发展,NLP(Natural Language Processing,自然语言处理)也进入了一个全新时代。基于NLP的ASR文本识别和处理,也被广泛应用于各种领域。
传统的ASR文本识别和处理方法,需要大量的带标签的ASR假设文本进行模型训练,但是对于ASR假设文本的标注,是一项劳动强度大且耗时的任务。而且,当ASR模型更改时,ASR假设文本的标注也可能会随之改变,导致不能够获取到ASR文本的正确标签。因此,如何更准确地获取到ASR文本的正确标签仍然是亟待解决的问题。
发明内容
本发明提供了一种文本识别方案,以至少部分解决上述问题。
根据本发明实施例的第一方面,提供了一种文本识别方法,所述方法包括:将待识别文本输入域分离网络DSN模型,获取所述DSN模型中目标域的私有编码器和共享编码器分别进行编码后生成的、包含所述私有编码器编码后的私有编码和所述共享编码器编码后的共享编码的编码数据,其中,所述私有编码器和所述共享编码器均为基于自注意力机制的编码器;然后根据所述编码数据,对所述待识别文本进行文本分类。
根据本发明实施例的第二方面,提供了一种电子设备,所述设备包括:一个或多个处理器;计算机可读介质,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的文本识别方法。
根据本发明实施例的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的文本识别方法。
根据本发明实施例提供的文本识别方法、电子设备及计算机可读介质:将待识别文本输入域分离网络DSN模型,获取所述DSN模型中目标域的私有编码器和共享编码器分别进行编码后生成的、包含所述私有编码器编码后的私有编码和所述共享编码器编码后的共享编码的编码数据,其中,所述私有编码器和所述共享编码器均为基于自注意力机制的编码器;然后根据所述编码数据,对所述待识别文本进行文本分类。本方案由于获取的编码数据中包含所述待识别文本经过编码器编码后的私有编码以及共享编码,且所述私有编码能够表示所述待识别文本的私有特征,所述共享编码能够表示所述待识别文本的共有特征,因此,根据所述编码数据,对所述待识别文本进行文本分类后,可以获得准确的分类结果,即可以得到准确的文本类别标签。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为根据本发明实施例一的一种文本识别方法的步骤流程图;
图2为根据本发明实施例一的一种DSN模型结构示意图;
图3为根据本发明实施例二的一种文本识别方法流程图;
图4为根据本发明实施例三的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅配置为解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
实施例一
参照图1,示出了根据本发明实施例一的一种文本识别方法的步骤流程图。
本实施例的文本识别方法包括以下步骤:
步骤101、将待识别文本输入域分离网络DSN模型,获取所述DSN模型中目标域的私有编码器和共享编码器分别进行编码后生成的、包含所述私有编码器编码后的私有编码和所述共享编码器编码后的共享编码的编码数据,其中,所述私有编码器和所述共享编码器均为基于自注意力机制的编码器。
在本实施例中,待识别文本可以是试卷、教科书、语音识别文本或者其他类别的文本,本实施例不做限制。DSN模型(Domain Separation Networks;领域迁移网络)中包含有特征提取部分,与传统的使用多个卷积层进行特征提取不同,在本实施例中,特征提取部分可以是基于自注意力机制的编码器,例如可以是由采用Encoder-Decoder结构的Transformer编码器。参考图2,示例性地,DSN模型中可以包括源域的私有编码器和共享编码器,目标域的私有编码器和共享编码器,以及共享解码器。
可选地,在将待识别文本输入域分离网络DSN模型之前,可以先获取语音数据,并将所述语音数据转换为所述待识别文本。
在本实施例中,获取的语音数据例如可以是老师讲课的语音数据,则可以将老师讲课的语音数据通过ASR技术,转换为ASR文本,作为待识别文本。
然后可以将上述ASR文本输入DSN模型,通过DSN模型中目标域的私有编码器进行编码处理后得到ASR文本的私有编码,即可以理解为ASR文本的私有特征;通过DSN模型中目标域的共享编码器进行编码处理后得到ASR文本的共享编码,可以理解为ASR文本的共有特征。其中,公有特征表示各个数据域的公有的特征,不会随着域的不同而发生变化,私有特征表示各个数据域的私有的特征,不同的数据域的私有特征不同。由此,可以有效实现本发明实施例的DSN模型在自然语言处理中的应用。
上述由于将采用Encoder-Decoder结构组成的Transformer编码器作为DSN模型的特征提取器,其通过计算ASR文本序列的self-Attention来更为效的得到文本特征,使得对ASR文本处理效率得到提高,并且增强了ASR文本识别的鲁棒性。
步骤102、根据所述编码数据,对所述待识别文本进行文本分类。
在本实施例中,可以根据待识别文本如ASR文本的私有编码以及共享编码,确定ASR文本的文本类别,示例性地,若有ASR文本中有以下文本,A:“小明是三好学生”,B:“小花学习进步了”,C:“小红回答问题正确,很好”,则可以通过目标域的私有编码器进行编码处理后分别得到ABC的私有特征,例如:A的私有特征为“小明”“三好学生”,B的私有特征为“小花”“学习进步”,C的私有特征为“小红”“回答问题”“很好”;通过DSN模型中目标域的共享编码器进行编码处理后得到ABC的共有特征,例如:“正向语言”或者“认可语言”。然后根据私有特征以及共有特征,将ABC分类为“鼓励类”,即ABC对应的类别标签为鼓励类。
可以理解,上述分类方式仅仅是一种示例,实际情况下,还可以根据待识别文本的内容,将待识别文本分类为语文类、数学类、物理类等等,本实施例不做限制。
根据本发明实施例提供的文本识别方法:将待识别文本输入域分离网络DSN模型,获取所述DSN模型中目标域的私有编码器和共享编码器分别进行编码后生成的、包含所述私有编码器编码后的私有编码和所述共享编码器编码后的共享编码的编码数据,其中,所述私有编码器和所述共享编码器均为基于自注意力机制的编码器;然后根据所述编码数据,对所述待识别文本进行文本分类。本方案由于获取的编码数据中包含所述待识别文本经过编码器编码后的私有编码以及共享编码,且所述私有编码能够表示所述待识别文本的私有特征,所述共享编码能够表示所述待识别文本的共有特征,因此,根据所述编码数据,对所述待识别文本进行文本分类后,可以获得准确的分类结果,即可以得到准确的文本类别标签。
本实施例的文本识别方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
实施例二
本实施例在前述实施例一的方案的基础上,在将待识别文本输入域分离网络DSN模型之前,还包括DSN模型的训练,下面以实例对DSN模型的训练过程进行详细说明。
参见图3,在所述将待识别文本输入域分离网络DSN模型之前,所述方法还包括:
步骤201、获取训练样本,所述训练样本包括转录文本样本、有标注转录文本样本和语音识别文本样本;所述有标注转录文本为标注了文本类别的转录文本。
在本实施例中,语音识别文本样本可以为ASR文本样本;转录文本样本可以认为是,将ASR文本样本通过人工转录后得到的正确的转录文本,其通常没有被标注标签;有标注转录文本样本可以认为是,通过人工转录后得到的转录文本再进行人工标注文本的类别标签后的文本。可以理解,转录文本样本是人工转录的,是正确的文本,而ASR文本样本中则可能会存在错误文字。
步骤202、使用所述训练样本,对所述DSN模型进行训练。
在本实施例中,通过转录文本样本、有标注转录文本样本和语音识别文本样本对DSN模型进行训练,可以使得训练后的DSN模型能够更准确的对待识别文本进行分类。
在第一种可选的实施方式中,在使用所述训练样本,对所述DSN模型进行训练时,可以将所述有标注转录文本样本输入所述DSN模型中,通过所述DSN模型中源域的私有编码器以及共享编码器编码获得第一源域编码,通过所述DSN模型中目标域的私有编码器以及共享编码器编码获得第一目标域编码;然后将所述第一源域编码和所述第一目标域编码输入所述DSN模型的共享解码器,获得第一解码数据;最后根据所述第一解码数据和所述有标注转录文本样本的标注,以及预设的第一损失函数,获得第一损失值;根据所述第一损失值对所述DSN模型进行针对转录文本分类的训练。
在本实施例中,示例性地,将所述有标注转录文本样本记为
Figure 153927DEST_PATH_IMAGE001
,表示源域数据,将
Figure 539909DEST_PATH_IMAGE002
输入DSN模型后,通过DSN模型中源域的私有编码器编码后,获得源域数据
Figure 522909DEST_PATH_IMAGE001
的第一私有特征,通过DSN模型中源域的共享编码器编码后,获得源域数据
Figure 386959DEST_PATH_IMAGE001
的第一共有特征;通过DSN模型中目标域的私有编码器编码后,获得源域数据
Figure 466911DEST_PATH_IMAGE001
的第二私有特征,通过DSN模型中目标域的共享编码器编码后,获得源域数据
Figure 492636DEST_PATH_IMAGE001
的第二共有特征。然后将源域数据
Figure 228510DEST_PATH_IMAGE001
的第一私有特征、第一共有特征、第二私有特征和第二共有特征输入所述DSN模型的共享解码器,获得第一解码数据记为Xs’,其中Xs’中包含转录文本及其对应的类别,然后通过Xs’与
Figure 692990DEST_PATH_IMAGE003
,以及预设的第一损失函数,获得第一损失值,最后根据第一损失值,对DSN模型进行针对转录文本分类的训练。其中,第一损失函数,也就是交叉熵的表达式如下:
Figure 565131DEST_PATH_IMAGE004
其中,M为有标注转录文本样本
Figure 543450DEST_PATH_IMAGE001
的类别的个数;
Figure 563358DEST_PATH_IMAGE005
为指示变量,如果第一解码数据Xs’的当前类别与
Figure 769212DEST_PATH_IMAGE001
中样本i的类别相同,则为1,反之为0;
Figure 495859DEST_PATH_IMAGE006
Figure 191283DEST_PATH_IMAGE001
中样本i属于类别c的概率;N为有标注转录文本样本数量。
上述通过有标注转录文本样本对DSN模型进行训练,使得能够获得各个编码器的更优质的编码器参数,使得后续利用训练后的DSN模型进行文本分类时更加准确。
在第二种可选的实施方式中,在使用所述训练样本,对所述DSN模型进行训练时,可以将所述转录文本样本输入所述DSN模型中,通过所述DSN模型中源域的私有编码器以及共享编码器编码获得第二源域编码,通过所述DSN模型中目标域的私有编码器以及共享编码器编码获得第二目标域编码;然后将所述第二源域编码和所述第二目标域编码输入所述DSN模型的共享解码器,获得第二解码数据;最后根据所述第二解码数据和所述转录文本样本,以及预设的第二损失函数,获得第二损失值;根据所述第二损失值对所述DSN模型进行针对转录文本重建的训练。
在本实施例中,将转录文本样本输入DSN模型后,通过DSN模型中源域的私有编码器编码后,获得转录文本样本的第一私有特征,通过DSN模型中源域的共享编码器编码后,获得转录文本样本的第一共有特征;通过DSN模型中目标域的私有编码器编码后,获得转录文本样本的第二私有特征,通过DSN模型中目标域的共享编码器编码后,获得转录文本样本的第二共有特征。然后将转录文本样本的第一私有特征、第一共有特征、第二私有特征和第二共有特征输入所述DSN模型的共享解码器,获得第二解码数据,其中第二解码数据为重构的转录文本,然后通过重构的转录文本与转录文本样本,以及预设的第二损失函数,获得第二损失值,最后根据第二损失值,对DSN模型进行针对转录文本重建的训练。转录文本重建任务的损失函数与分类任务的损失函数可以为相同的函数,均为交叉熵函数:
Figure 636170DEST_PATH_IMAGE004
其中,M为转录文本样本中的词的个数;
Figure 176873DEST_PATH_IMAGE005
为指示变量,如果第二解码数据即重构的转录文本中位置i的词与转录文本样中位置i的词相同,则为1,反之为0;
Figure 289186DEST_PATH_IMAGE006
为转录文本样与重构的转录文本中对应位置i的词相同的概率;N为转录文本样本的个数。
上述通过转录文本样本对DSN模型进行训练,同样能够获得各个编码器的优质的编码器参数,使得后续利用训练后的DSN模型进行文本重建时更加准确。
在第三种可选的实施方式中,在使用所述训练样本,对所述DSN模型进行训练时,可以将所述语音识别文本样本输入所述DSN模型中,通过所述DSN模型中源域的私有编码器以及共享编码器编码获得第三源域编码,通过所述DSN模型中目标域的私有编码器以及共享编码器编码获得第三目标域编码;然后将所述第三源域编码和所述第三目标域编码输入所述DSN模型的共享解码器,获得第三解码数据;最后根据所述第三解码数据和所述语音识别文本样本,以及预设的第三损失函数,获得第三损失值;根据所述第三损失值对所述DSN模型进行针对语音识别文本重建的训练。
在本实施例中,示例性地,将所述语音识别文本样本,可以是ASR文本样本本记为
Figure 827614DEST_PATH_IMAGE007
,表示目标域数据,将
Figure 822115DEST_PATH_IMAGE007
输入DSN模型后,通过DSN模型中源域的私有编码器编码后,获得目标域数据
Figure 104192DEST_PATH_IMAGE007
的第一私有特征,通过DSN模型中源域的共享编码器编码后,获得目标域数据
Figure 71011DEST_PATH_IMAGE007
的第一共有特征;通过DSN模型中目标域的私有编码器编码后,获得目标域数据
Figure 108237DEST_PATH_IMAGE007
的第二私有特征,通过DSN模型中目标域的共享编码器编码后,获得目标域数据
Figure 760673DEST_PATH_IMAGE007
的第二共有特征。然后将目标域数据
Figure 908758DEST_PATH_IMAGE007
的第一私有特征、第一共有特征、第二私有特征和第二共有特征输入所述DSN模型的共享解码器,获得第三解码数据记为Xt’,Xt’为重建的语音识别文本,然后通过Xt’与
Figure 464504DEST_PATH_IMAGE007
,以及预设的第三损失函数,获得第三损失值,最后根据所述第三损失值对所述DSN模型进行针对语音识别文本重建的训练。其中,第三损失函数的表达式如下:
Figure 875894DEST_PATH_IMAGE004
即语音识别文本重建任务的损失函数也可以与文本分类任务的损失函数相同。其中,M为语音识别文本样本中词的个数;
Figure 579408DEST_PATH_IMAGE005
为指示变量,如果第三解码数据即重建的语音识别文本中位置i的词与语音识别文本中位置i的词相同,则为1,反之为0;
Figure 203287DEST_PATH_IMAGE006
为语音识别文本样本与重构的语音识别文本中对应位置i的词相同的概率;N为语音识别文本样本的个数。
上述通过语音识别文本样本对DSN模型进行训练,同样能够获得各个编码器的优质的编码器参数,使得后续利用训练后的DSN模型进行语音识别文本(ASR文本)重建时更加准确。并且,由于输入的ASR文本样本的内容可能存在带噪音或混乱(例如出现许多语气词“嗯”“是”等),通过训练后,输出的ASR重建文本能够去噪并接近正确或标准文本。
需要说明的是,优选地,上述三种可选的实施方式并行对DSN模型进行训练,使得获得的各个编码器参数非常准确。并且,在后续无论利用训练后的DSN模型进行文本分类或者文本重建,都可以得到更加准确的结果。
进一步地,在每次训练过程中,根据所述DSN模型中源域的私有编码器的参数以及共享编码器的参数,对目标域的私有编码器的参数以及共享编码器的参数进行调整。
在本实施例中,可以将DSN模型中源域的私有编码器的参数以及共享编码器的参数作为参考,调整目标域的私有编码器的参数以及共享编码器的参数,使得目标域的私有编码器的参数与源域的私有编码器的参数之间遵循一定的规则,目标域的共享编码器的参数与源域的共享编码器的参数之间也遵循一定的规则,然后可以基于该一定的规则,能够获取想要得到的预测结果。
具体地,可以分别获得所述源域的私有编码器的第一参数和所述目标域的私有编码器的第二参数,并对所述第一参数和所述第二参数进行增大差异处理;以及,分别获得所述源域的共享编码器的第三参数和所述目标域的共享编码器的第四参数,并对所述第三参数和所述第四参数进行减小差异处理。
在本实施例中,获得了源域的私有编码器的第一参数以及源域的共享编码器的第三参数,可以参考所述第一参数,调整目标域的私有编码器的第二参数,使得第一参数和第二参数差异增大,即使得目标域的私有编码器与源域的私有编码器偏离,示例性地,可以通过欧氏距离的计算方法使得两个私有编码器尽可能的接远。可以参考所述第三参数,调整目标域的共享编码器的第四参数,使得第三参数和第四参数差异减小,即使得目标域的共享编码器与源域的共享编码器接近,示例性地,可以通过对抗训练使得两个共享编码器尽可能的相似。
上述实施例中通过将源域的私有编码器与目标域的私有编码器进行增大差异处理,对源域的共享编码器与目标域的共享编码器进行减小差异处理,使得训练后的DSN模型中目标域的共享编码器与源域的共享编码器更相似,源域的私有编码器与目标域的私有编码器更偏离,从而使得训练后的DSN模型提取的待识别文本的私有特征以及共有特征更加准确,进而使得最终得到的文本分类结果更加准确。
实施例三
图4为本发明实施例三中电子设备的硬件结构;如图4所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303、以及通信总线304。
其中:
处理器301、通信接口302、以及存储器303通过通信总线304完成相互间的通信。
通信接口302,用于与其它电子设备或服务器进行通信。
处理器301,用于执行程序305,具体可以执行上述文本识别方法实施例中的相关步骤。
具体地,程序305可以包括程序代码,该程序代码包括计算机操作指令。
处理器301可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器303,用于存放程序305。存储器303可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序305具体可以用于使得处理器301执行以下操作:将待识别文本输入域分离网络DSN模型,获取所述DSN模型中目标域的私有编码器和共享编码器分别进行编码后生成的、包含所述私有编码器编码后的私有编码和所述共享编码器编码后的共享编码的编码数据,其中,所述私有编码器和所述共享编码器均为基于自注意力机制的编码器;根据所述编码数据,对所述待识别文本进行文本分类。
在一种可选的实施方式中,所述基于自注意力机制的编码器为Transformer编码器。
在一种可选的实施方式中,程序305还用于使得处理器301在所述将待识别文本输入域分离网络DSN模型之前:获取训练样本,所述训练样本包括转录文本样本、有标注转录文本样本和语音识别文本样本;所述有标注转录文本为标注了文本类别的转录文本;使用所述训练样本,对所述DSN模型进行训练。
在一种可选的实施方式中,程序305还用于使得处理器301在使用所述训练样本,对所述DSN模型进行训练时:将所述有标注转录文本样本输入所述DSN模型中,通过所述DSN模型中源域的私有编码器以及共享编码器编码获得第一源域编码,通过所述DSN模型中目标域的私有编码器以及共享编码器编码获得第一目标域编码;将所述第一源域编码和所述第一目标域编码输入所述DSN模型的共享解码器,获得第一解码数据;根据所述第一解码数据和所述有标注转录文本样本的标注,以及预设的第一损失函数,获得第一损失值;根据所述第一损失值对所述DSN模型进行针对转录文本分类的训练。
在一种可选的实施方式中,程序305还用于使得处理器301在使用所述训练样本,对所述DSN模型进行训练时:将所述转录文本样本输入所述DSN模型中,通过所述DSN模型中源域的私有编码器以及共享编码器编码获得第二源域编码,通过所述DSN模型中目标域的私有编码器以及共享编码器编码获得第二目标域编码;将所述第二源域编码和所述第二目标域编码输入所述DSN模型的共享解码器,获得第二解码数据;根据所述第二解码数据和所述转录文本样本,以及预设的第二损失函数,获得第二损失值;根据所述第二损失值对所述DSN模型进行针对转录文本重建的训练。
在一种可选的实施方式中,程序305还用于使得处理器301在使用所述训练样本,对所述DSN模型进行训练时:将所述语音识别文本样本输入所述DSN模型中,通过所述DSN模型中源域的私有编码器以及共享编码器编码获得第三源域编码,通过所述DSN模型中目标域的私有编码器以及共享编码器编码获得第三目标域编码;将所述第三源域编码和所述第三目标域编码输入所述DSN模型的共享解码器,获得第三解码数据;根据所述第三解码数据和所述语音识别文本样本,以及预设的第三损失函数,获得第三损失值;根据所述第三损失值对所述DSN模型进行针对语音识别文本重建的训练。
在一种可选的实施方式中,程序305还用于使得处理器301在每次训练过程中,根据所述DSN模型中源域的私有编码器的参数以及共享编码器的参数,对目标域的私有编码器的参数以及共享编码器的参数进行调整。
在一种可选的实施方式中,程序305还用于使得处理器301在根据所述DSN模型中源域的私有编码器的参数以及共享编码器的参数,对目标域的私有编码器的参数以及共享编码器的参数进行调整时:分别获得所述源域的私有编码器的第一参数和所述目标域的私有编码器的第二参数,并对所述第一参数和所述第二参数进行增大差异处理;以及,分别获得所述源域的共享编码器的第三参数和所述目标域的共享编码器的第四参数,并对所述第三参数和所述第四参数进行减小差异处理。
在一种可选的实施方式中,程序305还用于使得处理器301获取语音数据,并将所述语音数据转换为所述待识别文本。
程序305中各步骤的具体实现可以参见上述文本识别方法实施例中的相应步骤中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的电子设备,将待识别文本输入域分离网络DSN模型,获取所述DSN模型中目标域的私有编码器和共享编码器分别进行编码后生成的、包含所述私有编码器编码后的私有编码和所述共享编码器编码后的共享编码的编码数据,其中,所述私有编码器和所述共享编码器均为基于自注意力机制的编码器;然后根据所述编码数据,对所述待识别文本进行文本分类。本方案由于获取的编码数据中包含所述待识别文本经过编码器编码后的私有编码以及共享编码,且所述私有编码能够表示所述待识别文本的私有特征,所述共享编码能够表示所述待识别文本的共有特征,因此,根据所述编码数据,对所述待识别文本进行文本分类后,可以获得准确的分类结果,即可以得到准确的文本类别标签。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本发明实施例中的方法中限定的上述功能。需要说明的是,本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本发明实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明实施例中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写配置为执行本发明实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络:包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系,但这些先后关系只是示例性的,在具体实现的时候,这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括接入模块和发送模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明实施例还提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例中所描述的文本识别方法。
作为另一方面,本发明实施例还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:将待识别文本输入域分离网络DSN模型,获取所述DSN模型中目标域的私有编码器和共享编码器分别进行编码后生成的、包含所述私有编码器编码后的私有编码和所述共享编码器编码后的共享编码的编码数据,其中,所述私有编码器和所述共享编码器均为基于自注意力机制的编码器;根据所述编码数据,对所述待识别文本进行文本分类。
在本发明的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关,但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (11)

1.一种文本识别方法,其特征在于,所述方法包括:
将待识别文本输入域分离网络DSN模型,获取所述DSN模型中目标域的私有编码器和共享编码器分别进行编码后生成的、包含所述私有编码器编码后的私有编码和所述共享编码器编码后的共享编码的编码数据,其中,所述私有编码器和所述共享编码器均为基于自注意力机制的编码器;
根据所述编码数据,对所述待识别文本进行文本分类。
2.根据权利要求1所述的方法,其特征在于,所述基于自注意力机制的编码器为Transformer编码器。
3.根据权利要求1所述的方法,其特征在于,在所述将待识别文本输入域分离网络DSN模型之前,所述方法还包括:
获取训练样本,所述训练样本包括转录文本样本、有标注转录文本样本和语音识别文本样本;所述有标注转录文本为标注了文本类别的转录文本;
使用所述训练样本,对所述DSN模型进行训练。
4.根据权利要求3所述的方法,其特征在于,所述使用所述训练样本,对所述DSN模型进行训练,包括:
将所述有标注转录文本样本输入所述DSN模型中,通过所述DSN模型中源域的私有编码器以及共享编码器编码获得第一源域编码,通过所述DSN模型中目标域的私有编码器以及共享编码器编码获得第一目标域编码;
将所述第一源域编码和所述第一目标域编码输入所述DSN模型的共享解码器,获得第一解码数据;
根据所述第一解码数据和所述有标注转录文本样本的标注,以及预设的第一损失函数,获得第一损失值;根据所述第一损失值对所述DSN模型进行针对转录文本分类的训练。
5.根据权利要求3所述的方法,其特征在于,所述使用所述训练样本,对所述DSN模型进行训练,包括:
将所述转录文本样本输入所述DSN模型中,通过所述DSN模型中源域的私有编码器以及共享编码器编码获得第二源域编码,通过所述DSN模型中目标域的私有编码器以及共享编码器编码获得第二目标域编码;
将所述第二源域编码和所述第二目标域编码输入所述DSN模型的共享解码器,获得第二解码数据;
根据所述第二解码数据和所述转录文本样本,以及预设的第二损失函数,获得第二损失值;根据所述第二损失值对所述DSN模型进行针对转录文本重建的训练。
6.根据权利要求3所述的方法,其特征在于,所述使用所述训练样本,对所述DSN模型进行训练,包括:
将所述语音识别文本样本输入所述DSN模型中,通过所述DSN模型中源域的私有编码器以及共享编码器编码获得第三源域编码,通过所述DSN模型中目标域的私有编码器以及共享编码器编码获得第三目标域编码;
将所述第三源域编码和所述第三目标域编码输入所述DSN模型的共享解码器,获得第三解码数据;
根据所述第三解码数据和所述语音识别文本样本,以及预设的第三损失函数,获得第三损失值;根据所述第三损失值对所述DSN模型进行针对语音识别文本重建的训练。
7.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在每次训练过程中,根据所述DSN模型中源域的私有编码器的参数以及共享编码器的参数,对目标域的私有编码器的参数以及共享编码器的参数进行调整。
8.根据权利要求7所述的方法,其特征在于,所述根据所述DSN模型中源域的私有编码器的参数以及共享编码器的参数,对目标域的私有编码器的参数以及共享编码器的参数进行调整,包括:
分别获得所述源域的私有编码器的第一参数和所述目标域的私有编码器的第二参数,并对所述第一参数和所述第二参数进行增大差异处理;
以及,分别获得所述源域的共享编码器的第三参数和所述目标域的共享编码器的第四参数,并对所述第三参数和所述第四参数进行减小差异处理。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取语音数据,并将所述语音数据转换为所述待识别文本。
10.一种电子设备,其特征在于,所述设备包括:
一个或多个处理器;
计算机可读介质,配置为存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一项所述的文本识别方法。
11.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一项所述的文本识别方法。
CN202011230268.6A 2020-11-06 2020-11-06 文本识别方法、电子设备及计算机可读介质 Active CN112036122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011230268.6A CN112036122B (zh) 2020-11-06 2020-11-06 文本识别方法、电子设备及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011230268.6A CN112036122B (zh) 2020-11-06 2020-11-06 文本识别方法、电子设备及计算机可读介质

Publications (2)

Publication Number Publication Date
CN112036122A true CN112036122A (zh) 2020-12-04
CN112036122B CN112036122B (zh) 2021-02-23

Family

ID=73572854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011230268.6A Active CN112036122B (zh) 2020-11-06 2020-11-06 文本识别方法、电子设备及计算机可读介质

Country Status (1)

Country Link
CN (1) CN112036122B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469146A (zh) * 2021-09-02 2021-10-01 深圳市海清视讯科技有限公司 目标检测方法及设备
CN115357710A (zh) * 2022-08-18 2022-11-18 百度在线网络技术(北京)有限公司 表格描述文本生成模型的训练方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543667A (zh) * 2018-11-14 2019-03-29 北京工业大学 一种基于注意力机制的文本识别方法
CN111326157A (zh) * 2020-01-20 2020-06-23 北京字节跳动网络技术有限公司 文本生成方法、装置、电子设备和计算机可读介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543667A (zh) * 2018-11-14 2019-03-29 北京工业大学 一种基于注意力机制的文本识别方法
CN111326157A (zh) * 2020-01-20 2020-06-23 北京字节跳动网络技术有限公司 文本生成方法、装置、电子设备和计算机可读介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KONSTANTINOS BOUSMALIS等: "Domain Separation Networks", 《30TH CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS(NIPS 2016)》 *
林强: "基于域对抗网络的跨领域文本情感分析", 《中国优秀硕士学位论文全文数据库(电子期刊) 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469146A (zh) * 2021-09-02 2021-10-01 深圳市海清视讯科技有限公司 目标检测方法及设备
CN115357710A (zh) * 2022-08-18 2022-11-18 百度在线网络技术(北京)有限公司 表格描述文本生成模型的训练方法、装置及电子设备

Also Published As

Publication number Publication date
CN112036122B (zh) 2021-02-23

Similar Documents

Publication Publication Date Title
CN111883115B (zh) 语音流程质检的方法及装置
CN111930914B (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN112509555B (zh) 方言语音识别方法、装置、介质及电子设备
CN113590761B (zh) 文本处理模型的训练方法、文本处理方法及相关设备
CN110472255B (zh) 神经网络机器翻译方法、模型、电子终端以及存储介质
CN112036122B (zh) 文本识别方法、电子设备及计算机可读介质
CN110457713A (zh) 基于机器翻译模型的翻译方法、装置、设备和存储介质
CN113192497B (zh) 基于自然语言处理的语音识别方法、装置、设备及介质
CN111027291A (zh) 文本中标点符号添加、模型训练方法、装置及电子设备
CN114360557B (zh) 语音音色转换方法、模型训练方法、装置、设备和介质
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN114328817A (zh) 一种文本处理方法和装置
WO2021169825A1 (zh) 语音合成方法、装置、设备和存储介质
CN117238321A (zh) 语音综合评估方法、装置、设备及存储介质
CN115132182B (zh) 一种数据识别方法、装置、设备及可读存储介质
CN115273856A (zh) 语音识别方法、装置、电子设备及存储介质
CN115691510A (zh) 一种基于随机屏蔽训练的声纹识别方法及计算机设备
CN111048065B (zh) 文本纠错数据生成方法及相关装置
CN116074574A (zh) 一种视频处理方法、装置、设备及存储介质
CN113220853B (zh) 一种法律提问自动生成方法及系统
CN110598224B (zh) 翻译模型的训练方法、文本处理方法、装置及存储介质
CN115081459A (zh) 口语文本生成方法、装置、设备及存储介质
Nzeyimana KinSPEAK: Improving speech recognition for Kinyarwanda via semi-supervised learning methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant