CN118098207B - 多模态标点符号添加方法、设备及计算机可读介质 - Google Patents

多模态标点符号添加方法、设备及计算机可读介质 Download PDF

Info

Publication number
CN118098207B
CN118098207B CN202410508900.0A CN202410508900A CN118098207B CN 118098207 B CN118098207 B CN 118098207B CN 202410508900 A CN202410508900 A CN 202410508900A CN 118098207 B CN118098207 B CN 118098207B
Authority
CN
China
Prior art keywords
matrix
feature matrix
text
punctuation
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410508900.0A
Other languages
English (en)
Other versions
CN118098207A (zh
Inventor
刘玉龙
孔欧
刘益东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Mido Technology Co ltd
Original Assignee
Shanghai Mido Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Mido Technology Co ltd filed Critical Shanghai Mido Technology Co ltd
Priority to CN202410508900.0A priority Critical patent/CN118098207B/zh
Publication of CN118098207A publication Critical patent/CN118098207A/zh
Application granted granted Critical
Publication of CN118098207B publication Critical patent/CN118098207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种多模态标点符号添加方法、设备及计算机可读介质,该方案在处理过程中,除了利用识别文本本身包含的文本语义特征之外,还通过合适的方式结合了语音中包含的音频特征,由此实现了多模态的特征信息融合,可以在预测标点符号时进一步利用到实际输入语音中的语气变换、停顿等内在信息,从而有效提升标点符号预测的准确性,从而为识别到的文本语句准确地添加标点符号。

Description

多模态标点符号添加方法、设备及计算机可读介质
技术领域
本申请涉及信息技术领域,尤其涉及一种多模态标点符号添加方法、设备及计算机可读介质。
背景技术
语音识别(Speech Recognition,SR)是指让计算机系统能够识别并理解人类语音中的内容,将语音信号转换为文本信息的技术。但是目前的语音识别技术仅能够识别语音中包含的文本,无法为文本组成的语句准确添加标点符号,往往需要对识别到文本再进行标点符号的预测。目前的标点符号预测方案一般都是基于文本信息来实现,由于仅包含文本这一模态的输入信息,因此预测结果无法利用到实际输入语音中的语气变换、停顿等内在信息,导致标点符号预测的准确性不足,无法在语音识别时为识别到的文本语句准确地添加标点符号。
发明内容
本申请的一个目的是提供一种多模态标点符号添加方法、设备及计算机可读介质,用以解决现有方案中准确性不足的问题。
为实现上述目的,本申请实施例提供了一种多模态标点符号添加方法,所述方法包括:
根据输入语音获取对应的语音特征矩阵,并根据识别文本获取对应的文本特征矩阵,所述识别文本为对所述输入语音进行语音识别所得到的文本;
基于语音特征矩阵和文本特征矩阵,计算获得权重特征矩阵;
利用所述权重特征矩阵,对所述文本特征矩阵的特征信息进行增强表示,获取增强特征矩阵;
对所述增强特征矩阵和语音特征矩阵进行特征融合,获取模态融合特征矩阵;
对所述模态融合特征矩阵进行空间映射,获取标点概率矩阵,所述标点概率矩阵的形状为(N,X),N为所述识别文本中的字符数量,X为备选标点符号的数量,所述标点概率矩阵中的元素(n,x)表示识别文本中的第n个字符位置处需要添加第x种标点符号的概率;
根据所述标点概率矩阵,在所述识别文本的对应字符位置处添加对应的标点符号。
进一步地,根据输入语音获取对应的语音特征矩阵,包括:
将输入语音输入至Conformer模型,利用所述Conformer模型获取对应的语音特征矩阵。
进一步地,根据识别文本获取对应的文本特征矩阵,包括:
将识别文本输入至BERT模型,利用所述BERT模型获取对应的文本特征矩阵。
进一步地,所述语音特征矩阵的形状为(M,Y),所述文本特征矩阵的形状为(N,Y),其中,M与输入语音的长度正相关,N为所述识别文本中的字符数量,Y为特征的嵌入维度;
基于语音特征矩阵和文本特征矩阵,计算获得权重特征矩阵,包括:
将所述文本特征矩阵与转置处理后的所述语音特征矩阵进行矩阵乘法运算,获得形状为(N,M)的中间结果矩阵;
对所述中间结果矩阵中的每个元素采用预设的第一激活函数进行计算,获得形状为(N,M)的权重系数矩阵;
将所述权重系数矩阵与所述语音特征矩阵进行矩阵乘法运算,获得形状为(N,Y)的权重特征矩阵。
进一步地,利用所述权重特征矩阵,对所述文本特征矩阵的特征信息进行增强表示,获取增强特征矩阵,包括:
将所述文本特征矩阵与所述权重特征矩阵进行矩阵加法运算,获取增强特征矩阵。
进一步地,对所述增强特征矩阵和语音特征矩阵进行特征融合,获取模态融合特征矩阵,包括:
将所述增强特征矩阵作为变换器模型的解码器的Q向量特征,将所述语音特征矩阵作为变换器模型的解码器的K向量特征和 V向量特征,输入至变换器模型的解码器,获取模态融合特征矩阵。
进一步地,对所述模态融合特征矩阵进行空间映射,获取标点概率矩阵,包括:
利用多层感知机模型和预设的第二激活函数,对所述模态融合特征矩阵进行空间映射,获取标点概率矩阵。
进一步地,所述备选标点符号包括一个非标点标记和多种标点符号。
本申请的一些实施例还提供了一种多模态标点符号添加设备,其中,该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行前述的多模态标点符号添加方法。
本申请的另一些实施例还提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现所述多模态标点符号添加方法。
相较于现有技术,本申请实施例提供的一种多模态标点符号添加方案中,首先根据输入语音和识别文本分别得到对应的语音特征矩阵和文本特征矩阵,然后基于语音特征矩阵和文本特征矩阵,计算获得权重特征矩阵,利用所述权重特征矩阵,对所述文本特征矩阵的特征信息进行增强表示,获取增强特征矩阵后,并对所述增强特征矩阵和语音特征矩阵进行特征融合,获取模态融合特征矩阵,而后可以利用所述模态融合特征矩阵进行空间映射,获取标点概率矩阵,标点概率矩阵能够预测识别文本中的各个字符位置处对应特定标点符号的概率,因此可以根据所述标点概率矩阵,在所述识别文本的对应字符位置处添加对应的标点符号。由于在处理过程中,除了利用识别文本本身包含的文本语义特征之外,还通过合适的方式结合了语音中包含的音频特征,由此实现了多模态的特征信息融合,可以在预测标点符号时进一步利用到实际输入语音中的语气变换、停顿等内在信息,从而有效提升标点符号预测的准确性,从而为识别到的文本语句准确地添加标点符号。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例提供的一种多模态标点符号添加方法的处理流程图;
图2为采用本申请实施例中的方案为一段语音的识别文本添加标点符号时的流程图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机程序指令、数据结构、程序的装置或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、 磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本申请实施例提供了一种多模态标点符号添加方法,该方法首先根据输入语音和识别文本分别得到对应的语音特征矩阵和文本特征矩阵,然后基于语音特征矩阵和文本特征矩阵,计算获得权重特征矩阵,利用所述权重特征矩阵,对所述文本特征矩阵的特征信息进行增强表示,获取增强特征矩阵后,并对所述增强特征矩阵和语音特征矩阵进行特征融合,获取模态融合特征矩阵,而后可以利用所述模态融合特征矩阵进行空间映射,获取标点概率矩阵,标点概率矩阵能够预测识别文本中的各个字符位置处对应特定标点符号的概率,因此可以根据所述标点概率矩阵,在所述识别文本的对应字符位置处添加对应的标点符号。由于在处理过程中,除了利用识别文本本身包含的文本语义特征之外,还通过合适的方式结合了语音中包含的音频特征,由此实现了多模态的特征信息融合,可以在预测标点符号时进一步利用到实际输入语音中的语气变换、停顿等内在信息,从而有效提升标点符号预测的准确性,从而为识别到的文本语句准确地添加标点符号。
在实际场景中,该方法的执行主体可以是用户设备、网络设备或用户设备与网络设备通过网络相集成所构成的设备,或者也可以是运行于上述设备的应用程序。所述用户设备包括但不限于计算机、手机、平板电脑等各类终端设备;所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟计算机。
图1示出了本申请实施例提供的一种多模态标点符号添加方法的处理流程,该方法至少包括以下的处理步骤:
步骤S101,根据输入语音获取对应的语音特征矩阵,并根据识别文本获取对应的文本特征矩阵。
其中,所述输入语音即为本方案中待识别的语音数据,在实际场景中可以利用所述Conformer模型提取语音特征矩阵。Conformer模型是一种基于Transformer(变换器)模型改进而来的深度学习模型。相较于Transformer模型,Conformer模型提升了在处理长序列数据时的性能,同时利用卷积神经网络的优势来提取局部特征。本申请实施例的方案中,在根据输入语音获取对应的语音特征矩阵时,可以将输入语音输入至Conformer模型,利用所述Conformer模型获取对应的语音特征矩阵。
其中,所述语音特征矩阵的形状可以是(M,Y),M与输入语音的长度正相关,即输入语音的长度越长,M的数值越大,Y为特征的嵌入维度,可以根据实际场景的需要设定,例如可以设定为256、512等。本实施例中以256为例,则所述语音特征矩阵的形状为(M,256)。
所述识别文本为对所述输入语音进行语音识别所得到的文本,在本申请的实施例中,可以利用BERT(Bidirectional Enoceder Representations from Transformers,基于变换器的双向编码器表征)模型提取文本特征矩阵。BERT模型是一种基于Transformer模型的深度学习模型,其特点主要在于双向性和预训练这两方面,其中,双向性使BERT模型能够捕捉句子内任意位置的相互作用,而预训练采用了无监督的方式,使其能基于大规模未标注的训练样本进行学习,从而获得强大的语言理解能力。本申请实施例的方案中,在根据识别文本获取对应的文本特征矩阵时,可以将识别文本输入至BERT模型,利用所述BERT模型获取对应的文本特征矩阵。
其中,所述文本特征矩阵的形状可以是(N,Y),N为所述识别文本中的字符数量,例如当识别文本为“你说什么呢我还行吧”时,其字符数量为9个,则所述N为9。Y为特征的嵌入维度,与语音特征矩阵中设定的嵌入维度相同,本实施例中以256为例,则所述文本特征矩阵的形状为(N,256)。
步骤S102,基于语音特征矩阵和文本特征矩阵,计算获得权重特征矩阵。其中,所述权重特征矩阵用于对文本特征矩阵中的特征信息进行增强表示,提升文本特征矩阵中重要信息的比重,使得其中重要信息比重能够更加显著的大于非重要信息,从而进一步提升后续标点符号预测时的准确性。
具体地,本申请实施例的方案中,在基于语音特征矩阵和文本特征矩阵,计算获得权重特征矩阵时,可以首先将所述文本特征矩阵与转置处理后的所述语音特征矩阵进行矩阵乘法运算。以形状为(N,256)的文本特征矩阵以及形状为(M,256)的语音特征矩阵为例,转置处理后的所述语音特征矩阵的形状为(256,M),将文本特征矩阵与其进行矩阵乘法运算后,可以得到形状为(N,M)的中间结果矩阵。
然后,可以对中间结果矩阵对其元素进行归一化处理,来获得对应的权重系数矩阵。具体地,本实施例中,可以对所述中间结果矩阵中的每个元素采用预设的第一激活函数进行计算,由此获得形状为(N,M)的权重系数矩阵。其中,所述第一激活函数可以采用sigmoid函数,由此可以将中间结果矩阵中的每个元素映射至(0,1)的区间内,由此获得每个元素的取值范围均在(0,1)之间的权重系数矩阵,其形状为(N,M)。
在获得权重系数矩阵后,可以将所述权重系数矩阵与所述语音特征矩阵进行矩阵乘法运算,获得形状为(N,Y)的权重特征矩阵。当Y取256时,权重特征矩阵的形状为(N,256),能够用于对文本特征矩阵中的特征信息进行增强表示,提升文本特征矩阵中重要信息的比重,使得其中重要信息比重能够更加显著的大于非重要信息,从而进一步提升后续标点符号预测时的准确性。
步骤S103,利用所述权重特征矩阵,对所述文本特征矩阵的特征信息进行增强表示,获取增强特征矩阵。
基于上述方式所计算得到的权重特征矩阵的形状与文本特征矩阵的形状形同,在利用所述权重特征矩阵,对所述文本特征矩阵的特征信息进行增强表示时,可以将所述文本特征矩阵与所述权重特征矩阵进行矩阵加法运算,获取增强特征矩阵。其中,矩阵加法运算是指将矩阵中对应位置的元素分别求和,由此可以提升文本特征矩阵中重要信息的比重,提升后续标点符号预测时的准确性。
步骤S104,对所述增强特征矩阵和语音特征矩阵进行特征融合,获取模态融合特征矩阵。
本申请实施例的方案在进行特征融合时,可以利用注意力机制。基于所述注意力机制对所述增强特征矩阵和语音特征矩阵进行特征融合,获取模态融合特征矩阵。其中,本实施例中可以采用变换器(Transformer)模型的解码器(decoder)来实现注意力机制的特征融合处理。具体地,可以将所述增强特征矩阵作为变换器模型的解码器的Q向量特征,将所述语音特征矩阵作为变换器模型的解码器的K向量特征和 V向量特征,输入至变换器模型的解码器,获取模态融合特征矩阵。由此,可以进一步地将强化后的文本特征与语音中的音频特征进行更加深度的融合,使得模态融合特征矩阵能够更好的反映出语音以及识别文本中的内在信息,提升后续预测处理时的准确性。
步骤S105,对所述模态融合特征矩阵进行空间映射,获取标点概率矩阵。该标点概率模型能够用于表示识别文本中的各个字符位置处所需要的标点符号的概率分布。
其中,所述标点概率矩阵的形状可以是(N,X),N为所述识别文本中的字符数量,X为备选标点符号的数量。例如,备选标点符号包括一个非标点标记和多种标点符号,所述非标点标记用于表示某一字符位置处不需要使用标点符号,本实施例中可以表示为<unknown>。其它的多种标点符号可以是实际场景中的各种常用标点,表示某一字符位置处需要使用的标点符号的种类。例如,本实施例中的备选标点符号除了非标点标记之外,还可以包括句号“。”,逗号“,”,逗号“”,问号“?”,感叹号“!”,冒号“:”,顿号“、”以及分号“;”。由此,组成的备选标点符号的集合为:[。?!,:、;<unknown>]。当备选标点符号的数量为8个时,则所述X的值为8。
对于上述的标点概率矩阵,以所述标点概率矩阵中的第n行第x列的元素f(n,x)为例,该元素表示的含义即为识别文本中的第n个字符位置处需要添加第x种标点符号的概率。
在本申请的一些实施例种,可以利用多层感知机(MLP,Multi-Layer Perceptron)模型和预设的第二激活函数,对所述模态融合特征矩阵进行空间映射,获取标点概率矩阵。其中,所述多层感知机模型可以利用预先标记的训练样本进行训练,所述第二激活函数可以使用softmax函数。例如,以前述的识别文本“你说什么呢我还行吧”为例,经过MLP以及softmax函数计算处理之后,可以得到形状为(9,8)的标点概率矩阵,该矩阵表示了识别文本中的9个字符位置处所需要的标点符号的概率分布,例如标点概率矩阵的第1行第2列的元素f(1,2)表示识别文本中“你”字位置处添加标点符号“?”的概率,第4行第8列的元素f(4,8)表示识别文本中“么”字位置处添加非标点标记(即不需要添加标点符号)的概率。
步骤S106,根据所述标点概率矩阵,在所述识别文本的对应字符位置处添加对应的标点符号。由于所述标点概率矩阵表示了识别文本中的各个字符位置处所需要的标点符号的概率分布,因此可以根据所述标点概率矩阵对各个字符位置处的标点符号的概率分别进行排序,并根据排序结果选取概率最大的作为每个字符位置处的标点符号的预测结果,即可在所述识别文本的对应字符位置处准确地添加合适的标点符号。
以前述场景为例,形状为(9,8)的标点概率矩阵中每一行的元素的排序结果中,概率最大的元素分别为:f(1,8)、f(2,8)、f(3,8)、f(4,8)、f(5,2)、f(8,8)、f(7,8)、f(8,8)、f(9,3),由此即可确定识别文本“你说什么呢我还行吧”对应的标点符号的预测结果为“<unknown><unknown><unknown><unknown>?<unknown><unknown><unknown>!”。在所述识别文本的对应字符位置处添加对应的标点符号之后,即可得到最终的结果:“你说什么呢?我还行吧!”。
本申请实施例的方案在处理过程中,除了利用识别文本本身包含的文本语义特征之外,还通过合适的方式结合了语音中包含的音频特征,由此实现了多模态的特征信息融合,可以在预测标点符号时进一步利用到实际输入语音中的语气变换、停顿等内在信息,从而有效提升标点符号预测的准确性,从而为识别到的文本语句准确地添加标点符号。
图2示出了采用本申请实施例提供的方案为语音识别结果添加标点符号的处理流程,包括以下的处理步骤:
步骤S201,对于输入语音,利用conformer模型提取语音特征矩阵,形状为(M,256)。
步骤S202,对于输入语音所识别到的识别文本,利用BERT模型提取文本特征矩阵,形状为(N,256)。
步骤S203,将所述文本特征矩阵与转置处理后的所述语音特征矩阵进行矩阵乘法运算后,再利用sigmoid进行归一化处理,得到一个权重系数矩阵,形状为(N,M)。
步骤S204,将权重系数矩阵与语音特征矩阵进行矩阵乘法运算,得到权重特征矩阵,形状为(N,256)。
步骤S205,将文本特征矩阵和权重特征矩阵进行矩阵加法运算,对文本特征矩阵中的特征信息进行增强表示,获得增强特征矩阵。由此提升文本特征矩阵中重要信息的比重,使得其中重要信息比重能够更加显著的大于非重要信息,从而进一步提升后续标点符号预测时的准确性。
步骤S206,将上一步得到的增强特征矩阵作为Transformer模型的decoder的输入中的Q向量特征,将语音特征矩阵作为K向量特征和V向量特征,利用Transformer模型的decoder进行注意力机制的计算,得到模态融合特征矩阵。
步骤S207,将模态融合特征矩阵输入至预先训练完成的MLP模型后,并经过softmax函数处理后,得到标点概率矩阵,其形状为(N,X)。X表示备选标点符号的数量,具体可以包括一个非标点标记和多种标点符号。例如,本实施例中备选标点符号的集合为[。?!,:、;<unknown>],前7个是可供选择的标点符号,<unknown>是非标点标记,表示不需要使用标点符号。
步骤S208,根据标点概率矩阵中所表示的概率分布,选取每个字符位置处概率最大的标点符号,添加至识别文本中的对应字符位置处。具体地,如果是<unknown>则,则不做任何操作,如果是其余情况,就把相应的比标点符号添加到对应字符位置的后面即可,如识别文本为“你说什么呢我还行吧”,对应标点符号为“<unknown><unknown><unknown><unknown>?<unknown><unknown><unknown>!”,添加标点符号后的结果为:“你说什么呢?我还行吧!”
基于本申请的另一方面,本申请实施例还提供了一种多模态标点符号添加设备,该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行前述的多模态标点符号添加方法。
特别地,本申请实施例中的方法和/或实施例可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在该计算机程序被处理单元执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图或框图示出了按照本申请各种实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的针对硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个计算机程序指令,所述计算机程序指令可被处理器执行以实现前述本申请的多个实施例的方法和/或技术方案。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一些实施例中,本申请的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。步骤所对应的数字用于标注并区分不同步骤,其数字的大小并不限定任何特定的执行顺序。

Claims (10)

1.一种多模态标点符号添加方法,其特征在于,所述方法包括:
根据输入语音获取对应的语音特征矩阵,并根据识别文本获取对应的文本特征矩阵,所述识别文本为对所述输入语音进行语音识别所得到的文本;
基于语音特征矩阵和文本特征矩阵,计算获得权重特征矩阵;
利用所述权重特征矩阵,对所述文本特征矩阵的特征信息进行增强表示,获取增强特征矩阵;
对所述增强特征矩阵和语音特征矩阵进行特征融合,获取模态融合特征矩阵;
对所述模态融合特征矩阵进行空间映射,获取标点概率矩阵,所述标点概率矩阵的形状为(N,X),N为所述识别文本中的字符数量,X为备选标点符号的数量,所述标点概率矩阵中的元素(n,x)表示识别文本中的第n个字符位置处需要添加第x种标点符号的概率;
根据所述标点概率矩阵,在所述识别文本的对应字符位置处添加对应的标点符号。
2.根据权利要求1所述的方法,其特征在于,根据输入语音获取对应的语音特征矩阵,包括:
将输入语音输入至Conformer模型,利用所述Conformer模型获取对应的语音特征矩阵。
3.根据权利要求1所述的方法,其特征在于,根据识别文本获取对应的文本特征矩阵,包括:
将识别文本输入至BERT模型,利用所述BERT模型获取对应的文本特征矩阵。
4.根据权利要求1所述的方法,其特征在于,所述语音特征矩阵的形状为(M,Y),所述文本特征矩阵的形状为(N,Y),其中,M与输入语音的长度正相关,N为所述识别文本中的字符数量,Y为特征的嵌入维度;
基于语音特征矩阵和文本特征矩阵,计算获得权重特征矩阵,包括:
将所述文本特征矩阵与转置处理后的所述语音特征矩阵进行矩阵乘法运算,获得形状为(N,M)的中间结果矩阵;
对所述中间结果矩阵中的每个元素采用预设的第一激活函数进行计算,获得形状为(N,M)的权重系数矩阵;
将所述权重系数矩阵与所述语音特征矩阵进行矩阵乘法运算,获得形状为(N,Y)的权重特征矩阵。
5.根据权利要求4所述的方法,其特征在于,利用所述权重特征矩阵,对所述文本特征矩阵的特征信息进行增强表示,获取增强特征矩阵,包括:
将所述文本特征矩阵与所述权重特征矩阵进行矩阵加法运算,获取增强特征矩阵。
6.根据权利要求1所述的方法,其特征在于,对所述增强特征矩阵和语音特征矩阵进行特征融合,获取模态融合特征矩阵,包括:
将所述增强特征矩阵作为变换器模型的解码器的Q向量特征,将所述语音特征矩阵作为变换器模型的解码器的K向量特征和 V向量特征,输入至变换器模型的解码器,获取模态融合特征矩阵。
7.根据权利要求1所述的方法,其特征在于,对所述模态融合特征矩阵进行空间映射,获取标点概率矩阵,包括:
利用多层感知机模型和预设的第二激活函数,对所述模态融合特征矩阵进行空间映射,获取标点概率矩阵。
8.根据权利要求1所述的方法,其特征在于,所述备选标点符号包括一个非标点标记和多种标点符号。
9.一种多模态标点符号添加设备,其中,该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行权利要求1至8中任一项所述的方法。
10.一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现如权利要求1至8中任一项所述的方法。
CN202410508900.0A 2024-04-26 2024-04-26 多模态标点符号添加方法、设备及计算机可读介质 Active CN118098207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410508900.0A CN118098207B (zh) 2024-04-26 2024-04-26 多模态标点符号添加方法、设备及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410508900.0A CN118098207B (zh) 2024-04-26 2024-04-26 多模态标点符号添加方法、设备及计算机可读介质

Publications (2)

Publication Number Publication Date
CN118098207A CN118098207A (zh) 2024-05-28
CN118098207B true CN118098207B (zh) 2024-07-23

Family

ID=91161948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410508900.0A Active CN118098207B (zh) 2024-04-26 2024-04-26 多模态标点符号添加方法、设备及计算机可读介质

Country Status (1)

Country Link
CN (1) CN118098207B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115617955A (zh) * 2022-12-14 2023-01-17 数据堂(北京)科技股份有限公司 分级预测模型训练方法、标点符号恢复方法及装置
CN116013307A (zh) * 2022-12-30 2023-04-25 联想(北京)有限公司 一种标点预测方法、装置、设备以及计算机存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927679B (zh) * 2021-02-07 2023-08-15 虫洞创新平台(深圳)有限公司 一种语音识别中添加标点符号的方法及语音识别装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115617955A (zh) * 2022-12-14 2023-01-17 数据堂(北京)科技股份有限公司 分级预测模型训练方法、标点符号恢复方法及装置
CN116013307A (zh) * 2022-12-30 2023-04-25 联想(北京)有限公司 一种标点预测方法、装置、设备以及计算机存储介质

Also Published As

Publication number Publication date
CN118098207A (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
KR20180001889A (ko) 언어 처리 방법 및 장치
CN112509555B (zh) 方言语音识别方法、装置、介质及电子设备
CN114254660A (zh) 多模态翻译方法、装置、电子设备及计算机可读存储介质
CN111428470B (zh) 文本连贯性判定及其模型训练方法、电子设备及可读介质
CN112446211A (zh) 文本处理装置、方法、设备和计算机可读存储介质
CN110457713A (zh) 基于机器翻译模型的翻译方法、装置、设备和存储介质
CN110263218B (zh) 视频描述文本生成方法、装置、设备和介质
CN113643694A (zh) 语音识别方法、装置、电子设备和存储介质
CN117034942B (zh) 一种命名实体识别方法、装置、设备及可读存储介质
CN118098207B (zh) 多模态标点符号添加方法、设备及计算机可读介质
CN111353295A (zh) 序列标注方法、装置、存储介质及计算机设备
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN113836308B (zh) 网络大数据长文本多标签分类方法、系统、设备及介质
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
CN114490935A (zh) 异常文本的检测方法、装置、计算机可读介质及电子设备
CN114398489A (zh) 一种基于Transformer的实体关系联合抽取方法、介质及系统
CN115563933B (zh) 词编码方法、装置、存储介质与电子设备
CN118446271B (zh) 围标检测模型的训练方法、预测方法、装置、设备及介质
CN113761940B (zh) 新闻主体判断方法、设备及计算机可读介质
CN112989821B (zh) 多音字的注音方法及计算机存储介质
CN113299318B (zh) 一种音频节拍的检测方法、装置、计算机设备和存储介质
CN114138934B (zh) 文本通顺度的检测方法、装置、设备及存储介质
CN116052720A (zh) 语音检错方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant