CN113362809A - 语音识别方法、装置和电子设备 - Google Patents

语音识别方法、装置和电子设备 Download PDF

Info

Publication number
CN113362809A
CN113362809A CN202110748090.2A CN202110748090A CN113362809A CN 113362809 A CN113362809 A CN 113362809A CN 202110748090 A CN202110748090 A CN 202110748090A CN 113362809 A CN113362809 A CN 113362809A
Authority
CN
China
Prior art keywords
words
word
text sequence
head attention
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110748090.2A
Other languages
English (en)
Other versions
CN113362809B (zh
Inventor
郑渊中
燕鹏举
张家兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Qiyue Information Technology Co Ltd
Original Assignee
Shanghai Qiyue Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Qiyue Information Technology Co Ltd filed Critical Shanghai Qiyue Information Technology Co Ltd
Priority to CN202110748090.2A priority Critical patent/CN113362809B/zh
Publication of CN113362809A publication Critical patent/CN113362809A/zh
Application granted granted Critical
Publication of CN113362809B publication Critical patent/CN113362809B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语音识别方法、装置和电子设备,该方法包括:接收用户语音并生成语音信号;对语音信号中的音素进行分析,得到第一文本序列;识别对第一文本序列中的多个词语,并生成多个词语的特征向量;根据多个词语的特征向量,计算多头注意力值,多头注意力值反映了多个词语中每个词语与其上下文词语之间的相关性;根据多头注意力值,生成第二文本序列,作为对用户语音的识别结果。根据本发明,实现了对第一文本序列中每个词的特征的并行提取,提升了文本识别效率,更容易判断每个词的动态表征,确保文本识别的准确性。

Description

语音识别方法、装置和电子设备
技术领域
本发明涉及计算机信息处理领域,具体而言,涉及一种语音识别方法、装置、电子设备及计算机可读介质。
背景技术
语音识别技术是指让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。
在传统语音识别框架中,如果在解码阶段对全部序列模式都进行匹配,则搜索路径过多,会导致搜索效率太低和系统实时性不高,因此语音识别框架利用语言模型来进行约束,去排除不符合语言习惯、语法的词序列。
因此,需要一种新的用于语音识别的技术方案,快速、准确地完成语音识别。
发明内容
本发明旨在实现一种新的用于语音识别的技术方案,快速、准确地完成语音识别。
为了解决上述技术问题,本发明第一方面提出一种语音识别方法,所述方法包括:接收用户语音并生成语音信号;对所述语音信号中的音素进行分析,得到第一文本序列;识别所述第一文本序列中的多个词语,并生成所述多个词语的特征向量;根据所述多个词语的特征向量,计算多头注意力值,所述多头注意力值反映了所述多个词语中每个词语与其上下文词语之间的相关性;根据所述多头注意力值,生成第二文本序列,作为对所述用户语音的识别结果。
根据本发明的一种优选实施方式,所述多个词语的特征向量包括语义特征向量、片段特征向量和位置特征向量,所述语义特征向量用于反映所述多个词语本身的语义,所述片段特征向量用于指示所述多个词语所在的句子,所述位置特征向量用于表示所述多个词语在所述句子中的位置。
根据本发明的一种优选实施方式,所述根据所述多头注意力值,生成第二文本序列,包括:从所述第一文本序列中选择目标词,根据所述目标词的上下文词语在预测所述目标词的位置的词语,根据预测结果生成所述第二文本序列。
根据本发明的一种优选实施方式,所述根据所述多头注意力值,生成第二文本序列,包括:判断所述第一文本序列中的第一句子是否为第二句子的下一句,根据判断结果生成所述第二文本序列。
根据本发明的一种优选实施方式,所述识别所述第一文本序列中的多个词语,包括:获取用户的身份特征,根据所述身份特征识别所述多个词语,所述多个词语中包括至少一个与所述身份特征匹配的词语。
根据本发明的一种优选实施方式,所述识别所述第一文本序列中的多个词语,包括:获取用户所在的业务场景,根据所述业务场景识别所述多个词语,所述多个词语中包括至少一个与所述业务场景匹配的词语。
为了解决上述技术问题,本发明第二方面提出一种语音识别装置,包括:语音信号生成模块,接收用户语音并生成语音信号;第一文本分析模块,对所述语音信号中的音素进行分析,得到第一文本序列;特征向量生成模块,识别所述第一文本序列中的多个词语,并生成所述多个词语的特征向量;多头注意力计算模块,根据所述多个词语的特征向量,计算多头注意力值,所述多头注意力值反映了所述多个词语中每个词语与其上下文词语之间的相关性;第二文本分析模块,根据所述多头注意力值,生成第二文本序列,作为对所述用户语音的识别结果。
根据本发明的一种优选实施方式,所述多个词语的特征向量包括语义特征向量、片段特征向量和位置特征向量,所述语义特征向量用于反映所述多个词语本身的语义,所述片段特征向量用于指示所述多个词语所在的句子,所述位置特征向量用于表示所述多个词语在所述句子中的位置。
根据本发明的一种优选实施方式,所述第二文本分析模块从所述第一文本序列中选择目标词,根据所述目标词的上下文词语在预测所述目标词的位置的词语,根据预测结果生成所述第二文本序列。
根据本发明的一种优选实施方式,所述第二文本分析模块判断所述第一文本序列中的第一句子是否为第二句子的下一句,根据判断结果生成所述第二文本序列。
根据本发明的一种优选实施方式,所述特征向量生成模块获取用户的身份特征,根据所述身份特征识别所述多个词语,所述多个词语中包括至少一个与所述身份特征匹配的词语。
根据本发明的一种优选实施方式,特征向量生成模块获取用户所在的业务场景,根据所述业务场景识别所述多个词语,所述多个词语中包括至少一个与所述业务场景匹配的词语。
为了解决上述技术问题,本发明第三方面提出一种电子设备,其包括处理器以及存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行上述的方法。
为了解决上述技术问题,本发明第四方面提出一种计算机可读存储介质,该所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现上述的方法。
本发明的技术方案,基于对语音信号识别得到的第一文本序列,将其中包含的词语转换为特征向量,进而计算多头注意力值,由于多头注意力值能够反映第一文本序列中每个词语与其上下文之间的相关性,则根据多头注意力值计算第二文本序列,实际上是根据每个词语与上下文之间的相关性计算第二文本序列,实现了对第一文本序列中每个词的特征的并行提取,提升了文本识别效率,而且基于上下文词语更容易判断每个词的动态表征,确保文本识别的准确性。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明的示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1是根据本发明的一个实施例的语音识别方法的流程图;
图2是根据本发明的一个实施例的语音识别方法的流程图;
图3是根据本发明的一个实施例的语音识别装置的框图;
图4是根据本发明的一个实施例的电子设备的框图;
图5是根据本发明的一个实施例的计算机可读存储介质的示意图。
具体实施方式
现在将参考附图来更加全面地描述本发明的示例性实施例,虽然各示例性实施例能够以多种具体的方式实施,但不应理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例是为了使本发明的内容更加完整,更加便于将发明构思全面地传达给本领域的技术人员。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。
在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
本发明的技术方案适用于语音识别系统。语音识别系统目的是输入一段语音信号,输出一个与该语音的匹配程度最高的文字序列。令输入语音为X,文字序列为W,
Figure BDA0003145065620000051
为识别解码输出的字词序列,则语音识别的求解问题为:
Figure BDA0003145065620000052
通过贝叶斯公式,可以将上面公式转换为:
Figure BDA0003145065620000053
因此语音识别问题可以等价于求解一个W,使得P(W)和P(X|W)都大,其中语言模型的作用就是计算P(W)。语言模型用于预测一个句子在语言中出现的概率,主要是描述人类语言习惯,语言中的词语间排列关系。语言模型一般采用链式法则,一句话的概率被分解成每个词语的概率的乘积,即句子Y由词语y1,y2,y3,……yn组成,则:
P(Y)=P(y1)P(y2|y1)P(y3|y1,y2)…P(yn|y1,y2,…,yn-1)
语言模型性能可以用困惑度来衡量。困惑度表示由上文某几个词预测出下一个词时的候选词个数,困惑度越小,语言模型的性能越好。语言模型分为规则语言模型和统计语言模型两种。规则语言模型是语言学家对生活语言现象的归纳,统计语言模型通过大量文本数据训练而成,通过数学工具对词语序列进行描述,统计各种词语出现的概率以及词语组合间的条件概率。目前统计语言模型是语言识别领域的主要语言模型。
统计语言模型有N-pos和N-gram两种训练方法。N-pos根据词性来分类训练文本中的词语,然后根据前面词语连接成的词组来推断后面词语的概率;N-gram按照词本身进行划分,基于马尔科夫假设,当前词出现的概率只与其前N-1个词有关。N就是词序列记忆长度的约束数量,目前最常见的有2-gram,3-gram和4-gram。以3-gram为例:
Figure BDA0003145065620000061
传统的N-gram虽然是主流方案,但是它有三个缺点:(1)训练文本预料中未出现的词的概率为0,这会导致数据稀疏;(2)N-gram基于离散词构建,单元之间没有遗传属性,且语言模型没有词语属性和语义上的信息;(3)N设置太大时,模型的参数空间更大,导致解码速度严重下降;N设置太小时,所利用的上文信息有限,导致长序列的解码能力不佳。
近几年人们尝试用深度学习神经网络去生成相应的语言模型,主要有三种方式,一种是NNLM,第二种是RNNLM,第三种是词向量。NNLM通过构造非线性函数f(yt,yt-1,…,yt-n+1;θ)利用最大似然求得未知参变量,最后得到该词出现的后验概率。虽然网络架构简单,只有3层,但是参数量依然巨多,导致计算量巨大。此外,NNLM的另一个缺点是需要输入固定长度,这也限制了NNLM的应用范围;RNNLM则在时间序列上进行建模,由于RNN是共享参数的模型,使得参数量大大减少,极大地提升了训练速度;同时RNNLM可以接受任意长度的输入且n不受限制,可以利用完整的上文信息。但是RNNLM继承了RNN的缺点,比如并行化差,每一个时间步需要依赖上一个时间步,导致了计算速度慢;词向量的核心思想是通过借助中心词的上下文窗口信息,来预测后验概率,谷歌2013年开源的word2vec工具可以在百万数量级的词典和上亿数据集上进行高效地训练,让词向量的生成不再低效。由于词向量可以将一个高维稀疏的离散向量映射到低维稠密的连续向量,这样可以很好地度量词与词之间的相似性。然而词向量只能对词做静态表征,不能解决同义词问题,如水果中的苹果和苹果公司中的苹果,虽然词向量表征一样,但实际上这两词意思完全不一样。
由此可见,上述语言模型的缺点主要有:RNNLM是串行计算,每一个时间步都需要依赖上一个时间步;词向量不能解决同义词,只能做静态表征;训练标注数据需求量巨大。为此,本发明提出了一种语音识别方法,该方法包括:接收用户语音并生成语音信号;对语音信号中的音素进行分析,得到第一文本序列;识别对第一文本序列中的多个词语,并生成多个词语的特征向量;根据多个词语的特征向量,计算多头注意力值,多头注意力值反映了多个词语中每个词语与其上下文词语之间的相关性;根据多头注意力值,生成第二文本序列,作为对用户语音的识别结果。
通过以上技术方案,可以解决上述三个问题:由于多头注意力值反映了第一文本序列中每个词语与其上下文词语之间的相关性,所以可以利用当前词的上下文信息做特征提取,这样词的上下文会影响到词向量的具体表征,从而达到动态表征词的目的,且有利于同时并行提取输入序列中的每个词的特征,使长序列的计算能力不再成为限制,基于对语言模型的预训练,不需大量标注数据就可以完成模型微调。
如图1所示,本发明的一个实施例中提出一种语音识别方法,方法包括:
步骤S110,接收用户语音并生成语音信号。
步骤S120,对语音信号中的音素进行分析,得到第一文本序列。
在本实施例中,音素是根据语音的自然属性划分出来的最小语音单位。在本实施例中,通常通过声学模型对音素进行分析,声学模型可实现语音特征到音素的映射,从而识别得到第一文本序列。
步骤S130,识别对第一文本序列中的多个词语,并生成多个词语的特征向量。
在本实施例中,通过分词技术可以分析得到文本序列中包含的词语,并生成对应的特征向量。
步骤S140,根据多个词语的特征向量,计算多头注意力值,多头注意力值反映了多个词语中每个词语与其上下文词语之间的相关性。
目前,注意力机制主要用于计算机视觉方面。本实施例中,可以基于运用注意力机制训练语言模型,则语音模型对前述词语的特征向量进行运算得到多头注意力值,该值反映了第一文本序列中每个词语与其上下文词语之间的相关性,基于该值能够实现对第一文本序列中每个词的特征的并行提取,且根据上下文词语更容易判断每个词的动态表征,即可以有效提升文本识别效率和文本识别的准确性。
步骤S150,根据多头注意力值,生成第二文本序列,作为对用户语音的识别结果。
根据本实施例的技术方案,基于对语音信号识别得到的第一文本序列,将其中包含的词语转换为特征向量,进而计算多头注意力值,由于多头注意力值能够反映第一文本序列中每个词语与其上下文之间的相关性,则根据多头注意力值计算第二文本序列,实际上是根据每个词语与上下文之间的相关性计算第二文本序列,实现了对第一文本序列中每个词的特征的并行提取,提升了文本识别效率,而且基于上下文词语更容易判断每个词的动态表征,确保文本识别的准确性。
如图2所示,本发明的一个实施例中提出一种语音识别方法,方法包括:
步骤S210,接收用户语音并生成语音信号。
步骤S220,对语音信号中的音素进行分析,得到第一文本序列。
步骤S230,识别对第一文本序列中的多个词语,具体可以采用以下两种方式:
(1)获取用户的身份特征,根据身份特征识别多个词语,多个词语中包括至少一个与身份特征匹配的词语。
在本实施例中,对用户的身份特征不进行限制,其可以包括性别、年龄、职业、工作单位等等。例如,当获取了用户的职业之后,则识别第一文本序列中的词语时可以更容易发现与用户职业匹配的专业性词语;当获取了用户的工作单位时,可以更容易发现与用户工作匹配的有关词语。
(2)获取用户所在的业务场景,根据业务场景识别多个词语,多个词语中包括至少一个与业务场景匹配的词语。在本实施例中,对用户所在的业务场景不进行限制,其可以包括用户所在的地点、当前办理的业务等等。例如,当发现用户所在的地点为某旅游景点时,则识别第一文本序列中的词语时可以更容易发现与旅游出行有关的词语;当获取了用户当前办理的业务时,可以更容易发现与当前业务匹配的词语。
步骤S240,生成多个词语的特征向量,其中,多个词语的特征向量包括语义特征向量、片段特征向量和位置特征向量,语义特征向量用于反映多个词语本身的语义,片段特征向量用于指示多个词语所在的句子,位置特征向量用于表示多个词语在句子中的位置。
在本实施例中,最终的向量可以由语义特征向量、片段特征向量和位置特征向量求和而成。其中,由于位置特征向量表示了词语间的相对位置,所以基于位置特征向量能够直接定位目标词的上下文词语的位置,从而实现对目标词的上下文词语特征的并行提取,有利于加快语音识别效率。
步骤S240,根据多个词语的特征向量,计算多头注意力值,多头注意力值反映了多个词语中每个词语与其上下文词语之间的相关性。
步骤S250,根据多头注意力值,生成第二文本序列,作为对用户语音的识别结果,其中包括:
(1)从第一文本序列中选择目标词,根据目标词的上下文词语在预测目标词的位置的词语,根据预测结果生成第二文本序列。
在本实施例中,基于目标词的上下文词语进行预测,实际上是考虑到上下文词语对目标词的影响,有利于准确识别出目标词。
(2)包括:判断第一文本序列中的第一句子是否为第二句子的下一句,根据判断结果生成第二文本序列。
在本实施例中,通过判断句子间的前后关系,有利于保证识别出的第二文本序列在逻辑上正确性。
在本实施例中,可以基于循环神经网络训练语言模型,其中循环神经网络是一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。本实施例中,利用多头注意力值使得神经网络具备专注于其输入(或特征)子集的能力:选择特定的输入。语言模型的训练主要分成三个阶段:预训练、数据准备和模型训练。在预训练阶段,其中语义特征向量用来表征每个词在模型空间中的具体位置,片段特征向量用来区别两种句子,位置特征向量则是词语间相对的位置信息。在预训练阶段,一是要会随机掩盖每一个句子中15%的词,让模型通过上下文去预测被掩盖的词,掩盖的方法主要有三种,一种是采用[MASK]去掩盖,一种是随机用一个词去替代目标词,最后一种就是保持不变;二是要学习句子间的关系,训练过程中会选取一些句子对A和B,其中50%的数据B是A的下一条句子,剩余50%的数据B是语料库中随机选择的。数据准备与其他深度学习训练语言模型时是一致的,唯一的不同是由于预模型的存在,微调阶段不需要太多的标注数据来做,这极大减轻了数据准备工作。模型训练主要是应用第二个步骤的标注数据来对预模型进行微调,使得语言模型更符合语音识别应用场景。
本实施例中训练的语言模型并行化强,且可以区分多义词,从而使传统语音识别架构框架中的语言模型更具备可用性,也让识别准确率更上一个台阶。在预训练阶段,通过对词向量叠加位置信息和句间信息,实现了对多义词在模型空间中的动态表征;多头注意力值的使用,决定了并行化计算的便利性,使得在实际场景使用时的高效率;对标注数据的量级需求不大,减轻了数据准备的负担。
本领域技术人员可以理解,实现上述实施例的全部或部分步骤被实现为由数据处理设备(包括计算机)执行的程序,即计算机程序。在该计算机程序被执行时,可以实现本发明提供的上述方法。而且,所述的计算机程序可以存储于计算机可读存储介质中,该存储介质可以是磁盘、光盘、ROM、RAM等可读存储介质,也可以是多个存储介质组成的存储阵列,例如磁盘或磁带存储阵列。所述的存储介质不限于集中式存储,其也可以是分布式存储,例如基于云计算的云存储。
下面描述本发明的装置实施例,该装置可以用于执行本发明的方法实施例。对于本发明装置实施例中描述的细节,应视为对于上述方法实施例的补充;对于在本发明装置实施例中未披露的细节,可以参照上述方法实施例来实现。
如图3所示,本发明的一个实施例中提出一种语音识别装置,装置包括:
语音信号生成模块310,接收用户语音并生成语音信号。
第一文本分析模块320,对语音信号中的音素进行分析,得到第一文本序列。
在本实施例中,音素是根据语音的自然属性划分出来的最小语音单位。在本实施例中,通常通过声学模型对音素进行分析,声学模型可实现语音特征到音素的映射,从而识别得到第一文本序列。
特征向量生成模块330,识别对第一文本序列中的多个词语,并生成多个词语的特征向量。
在本实施例中,通过分词技术可以分析得到文本序列中包含的词语,并生成对应的特征向量。
多头注意力计算模块340,根据多个词语的特征向量,计算多头注意力值,多头注意力值反映了多个词语中每个词语与其上下文词语之间的相关性。
目前,注意力机制主要用于计算机视觉方面。本实施例中,可以基于运用注意力机制训练语言模型,则语音模型对前述词语的特征向量进行运算得到多头注意力值,该值反映了第一文本序列中每个词语与其上下文词语之间的相关性,基于该值能够实现对第一文本序列中每个词的特征的并行提取,且根据上下文词语更容易判断每个词的动态表征,即可以有效提升文本识别效率和文本识别的准确性。
第二文本分析模块350,根据多头注意力值,生成第二文本序列,作为对用户语音的识别结果。
根据本实施例的技术方案,基于对语音信号识别得到的第一文本序列,将其中包含的词语转换为特征向量,进而计算多头注意力值,由于多头注意力值能够反映第一文本序列中每个词语与其上下文之间的相关性,则根据多头注意力值计算第二文本序列,实际上是根据每个词语与上下文之间的相关性计算第二文本序列,实现了对第一文本序列中每个词的特征的并行提取,提升了文本识别效率,而且基于上下文词语更容易判断每个词的动态表征,确保文本识别的准确性。
本发明的一个实施例中提出一种语音识别装置,装置包括:
语音信号生成模块310,接收用户语音并生成语音信号。
第一文本分析模块320,对语音信号中的音素进行分析,得到第一文本序列。
特征向量生成模块330,识别对第一文本序列中的多个词语,具体可以采用以下两种方式:
(1)获取用户的身份特征,根据身份特征识别多个词语,多个词语中包括至少一个与身份特征匹配的词语。
在本实施例中,对用户的身份特征不进行限制,其可以包括性别、年龄、职业、工作单位等等。例如,当获取了用户的职业之后,则识别第一文本序列中的词语时可以更容易发现与用户职业匹配的专业性词语;当获取了用户的工作单位时,可以更容易发现与用户工作匹配的有关词语。
(2)获取用户所在的业务场景,根据业务场景识别多个词语,多个词语中包括至少一个与业务场景匹配的词语。在本实施例中,对用户所在的业务场景不进行限制,其可以包括用户所在的地点、当前办理的业务等等。例如,当发现用户所在的地点为某旅游景点时,则识别第一文本序列中的词语时可以更容易发现与旅游出行有关的词语;当获取了用户当前办理的业务时,可以更容易发现与当前业务匹配的词语。
特征向量生成模块330生成多个词语的特征向量,其中,多个词语的特征向量包括语义特征向量、片段特征向量和位置特征向量,语义特征向量用于反映多个词语本身的语义,片段特征向量用于指示多个词语所在的句子,位置特征向量用于表示多个词语在句子中的位置。
在本实施例中,最终的向量可以由语义特征向量、片段特征向量和位置特征向量求和而成。其中,由于位置特征向量表示了词语间的相对位置,所以基于位置特征向量能够直接定位目标词的上下文词语的位置,从而实现对目标词的上下文词语特征的并行提取,有利于加快语音识别效率。
多头注意力计算模块340,根据多个词语的特征向量,计算多头注意力值,多头注意力值反映了多个词语中每个词语与其上下文词语之间的相关性。
第二文本分析模块350,根据多头注意力值,生成第二文本序列,作为对用户语音的识别结果,其中包括:
(1)从第一文本序列中选择目标词,根据目标词的上下文词语在预测目标词的位置的词语,根据预测结果生成第二文本序列。
在本实施例中,基于目标词的上下文词语进行预测,实际上是考虑到上下文词语对目标词的影响,有利于准确识别出目标词。
(2)包括:判断第一文本序列中的第一句子是否为第二句子的下一句,根据判断结果生成第二文本序列。
在本实施例中,通过判断句子间的前后关系,有利于保证识别出的第二文本序列在逻辑上正确性。
在本实施例中,可以基于循环神经网络训练语言模型,其中循环神经网络是一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。本实施例中,利用多头注意力值使得神经网络具备专注于其输入(或特征)子集的能力:选择特定的输入。语言模型的训练主要分成三个阶段:预训练、数据准备和模型训练。在预训练阶段,其中语义特征向量用来表征每个词在模型空间中的具体位置,片段特征向量用来区别两种句子,位置特征向量则是词语间相对的位置信息。在预训练阶段,一是要会随机掩盖每一个句子中15%的词,让模型通过上下文去预测被掩盖的词,掩盖的方法主要有三种,一种是采用[MASK]去掩盖,一种是随机用一个词去替代目标词,最后一种就是保持不变;二是要学习句子间的关系,训练过程中会选取一些句子对A和B,其中50%的数据B是A的下一条句子,剩余50%的数据B是语料库中随机选择的。数据准备与其他深度学习训练语言模型时是一致的,唯一的不同是由于预模型的存在,微调阶段不需要太多的标注数据来做,这极大减轻了数据准备工作。模型训练主要是应用第二个步骤的标注数据来对预模型进行微调,使得语言模型更符合语音识别应用场景。
本实施例中训练的语言模型并行化强,且可以区分多义词,从而使传统语音识别架构框架中的语言模型更具备可用性,也让识别准确率更上一个台阶。在预训练阶段,通过对词向量叠加位置信息和句间信息,实现了对多义词在模型空间中的动态表征;多头注意力值的使用,决定了并行化计算的便利性,使得在实际场景使用时的高效率;对标注数据的量级需求不大,减轻了数据准备的负担。
本领域技术人员可以理解,上述装置实施例中的各模块可以按照描述分布于装置中,也可以进行相应变化,分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
下面描述本发明的电子设备实施例,该电子设备可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明电子设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
图4是根据本发明的一种电子设备的示例性实施例的结构框图。图4显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,该示例性实施例的电子设备200以通用数据处理设备的形式表现。电子设备200的组件可以包括但不限于:至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。
其中,所述存储单元220存储有计算机可读程序,其可以是源程序或都只读程序的代码。所述程序可以被处理单元210执行,使得所述处理单元210执行本发明各种实施方式的步骤。例如,所述处理单元210可以执行如图1或图2所示的步骤。
所述存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(ROM)2203。所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备200也可以与一个或多个外部设备300(例如键盘、显示器、网络设备、蓝牙设备等)通信,使得用户能经由这些外部设备300与该电子设备200交互,和/或使得该电子设备200能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这种通信可以通过输入/输出(I/O)接口250进行,还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)进行。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,电子设备200中可使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
图5是本发明的一个计算机可读介质实施例的示意图。如图5所示,所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法,即:接收用户语音并生成语音信号;对语音信号中的音素进行分析,得到第一文本序列;识别对第一文本序列中的多个词语,并生成多个词语的特征向量;根据多个词语的特征向量,计算多头注意力值,多头注意力值反映了多个词语中每个词语与其上下文词语之间的相关性;根据多头注意力值,生成第二文本序列,作为对用户语音的识别结果。
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本发明可以执行计算机程序的方法、装置、电子设备或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现本发明的一些或者全部功能。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
接收用户语音并生成语音信号;
对所述语音信号中的音素进行分析,得到第一文本序列;
识别所述第一文本序列中的多个词语,并生成所述多个词语的特征向量;
根据所述多个词语的特征向量,计算多头注意力值,所述多头注意力值反映了所述多个词语中每个词语与其上下文词语之间的相关性;
根据所述多头注意力值,生成第二文本序列,作为对所述用户语音的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述多个词语的特征向量包括语义特征向量、片段特征向量和位置特征向量,所述语义特征向量用于反映所述多个词语本身的语义,所述片段特征向量用于指示所述多个词语所在的句子,所述位置特征向量用于表示所述多个词语在所述句子中的位置。
3.根据权利要求1所述的方法,其特征在于,所述根据所述多头注意力值,生成第二文本序列,包括:
从所述第一文本序列中选择目标词,根据所述目标词的上下文词语在预测所述目标词的位置的词语,根据预测结果生成所述第二文本序列。
4.根据权利要求1所述的方法,其特征在于,所述根据所述多头注意力值,生成第二文本序列,包括:
判断所述第一文本序列中的第一句子是否为第二句子的下一句,根据判断结果生成所述第二文本序列。
5.根据权利要求1所述的方法,其特征在于,所述识别所述第一文本序列中的多个词语,包括:
获取用户的身份特征,根据所述身份特征识别所述多个词语,所述多个词语中包括至少一个与所述身份特征匹配的词语。
6.根据权利要求1所述的方法,其特征在于,所述识别所述第一文本序列中的多个词语,包括:
获取用户所在的业务场景,根据所述业务场景识别所述多个词语,所述多个词语中包括至少一个与所述业务场景匹配的词语。
7.一种语音识别装置,其特征在于,包括:
语音信号生成模块,接收用户语音并生成语音信号;
第一文本分析模块,对所述语音信号中的音素进行分析,得到第一文本序列;
特征向量生成模块,识别所述第一文本序列中的多个词语,并生成所述多个词语的特征向量;
多头注意力计算模块,根据所述多个词语的特征向量,计算多头注意力值,所述多头注意力值反映了所述多个词语中每个词语与其上下文词语之间的相关性;
第二文本分析模块,根据所述多头注意力值,生成第二文本序列,作为对所述用户语音的识别结果。
8.根据权利要求7所述的装置,其特征在于,所述多个词语的特征向量包括语义特征向量、片段特征向量和位置特征向量,所述语义特征向量用于反映所述多个词语本身的语义,所述片段特征向量用于指示所述多个词语所在的句子,所述位置特征向量用于表示所述多个词语在所述句子中的位置。
9.一种电子设备,包括:
处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。
10.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现权利要求1-6中任一项所述的方法。
CN202110748090.2A 2021-07-02 2021-07-02 语音识别方法、装置和电子设备 Active CN113362809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110748090.2A CN113362809B (zh) 2021-07-02 2021-07-02 语音识别方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110748090.2A CN113362809B (zh) 2021-07-02 2021-07-02 语音识别方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN113362809A true CN113362809A (zh) 2021-09-07
CN113362809B CN113362809B (zh) 2023-02-21

Family

ID=77537853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110748090.2A Active CN113362809B (zh) 2021-07-02 2021-07-02 语音识别方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN113362809B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115116437A (zh) * 2022-04-07 2022-09-27 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备、存储介质及产品

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160155436A1 (en) * 2014-12-02 2016-06-02 Samsung Electronics Co., Ltd. Method and apparatus for speech recognition
CN107818781A (zh) * 2017-09-11 2018-03-20 远光软件股份有限公司 智能交互方法、设备及存储介质
CN111680168A (zh) * 2020-05-29 2020-09-18 平安银行股份有限公司 文本特征语义提取方法、装置、电子设备及存储介质
CN111695355A (zh) * 2020-05-26 2020-09-22 平安银行股份有限公司 地址文本识别方法、装置、介质、电子设备
CN111950256A (zh) * 2020-06-23 2020-11-17 北京百度网讯科技有限公司 断句处理方法、装置、电子设备和计算机存储介质
CN112183084A (zh) * 2020-09-07 2021-01-05 北京达佳互联信息技术有限公司 一种音视频数据处理方法和装置及设备
CN112183094A (zh) * 2020-11-03 2021-01-05 北京信息科技大学 一种基于多元文本特征的中文语法查错方法及系统
CN113053362A (zh) * 2021-03-30 2021-06-29 建信金融科技有限责任公司 语音识别的方法、装置、设备和计算机可读介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160155436A1 (en) * 2014-12-02 2016-06-02 Samsung Electronics Co., Ltd. Method and apparatus for speech recognition
CN107818781A (zh) * 2017-09-11 2018-03-20 远光软件股份有限公司 智能交互方法、设备及存储介质
CN111695355A (zh) * 2020-05-26 2020-09-22 平安银行股份有限公司 地址文本识别方法、装置、介质、电子设备
CN111680168A (zh) * 2020-05-29 2020-09-18 平安银行股份有限公司 文本特征语义提取方法、装置、电子设备及存储介质
CN111950256A (zh) * 2020-06-23 2020-11-17 北京百度网讯科技有限公司 断句处理方法、装置、电子设备和计算机存储介质
CN112183084A (zh) * 2020-09-07 2021-01-05 北京达佳互联信息技术有限公司 一种音视频数据处理方法和装置及设备
CN112183094A (zh) * 2020-11-03 2021-01-05 北京信息科技大学 一种基于多元文本特征的中文语法查错方法及系统
CN113053362A (zh) * 2021-03-30 2021-06-29 建信金融科技有限责任公司 语音识别的方法、装置、设备和计算机可读介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115116437A (zh) * 2022-04-07 2022-09-27 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备、存储介质及产品
CN115116437B (zh) * 2022-04-07 2024-02-09 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备、存储介质及产品

Also Published As

Publication number Publication date
CN113362809B (zh) 2023-02-21

Similar Documents

Publication Publication Date Title
CN108170749B (zh) 基于人工智能的对话方法、装置及计算机可读介质
US20230075113A1 (en) System and method for unsupervised text normalization using distributed representation of words
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
US10606946B2 (en) Learning word embedding using morphological knowledge
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
KR102329127B1 (ko) 방언을 표준어로 변환하는 방법 및 장치
CN109887484B (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN110377916B (zh) 词预测方法、装置、计算机设备及存储介质
WO2020244065A1 (zh) 基于人工智能的字向量定义方法、装置、设备及存储介质
CN117935785A (zh) 用于在端到端模型中跨语言语音识别的基于音素的场境化
CN113553412B (zh) 问答处理方法、装置、电子设备和存储介质
CN103854643B (zh) 用于合成语音的方法和装置
CN111191030A (zh) 基于分类的单句意图识别方法、装置和系统
CN111401084A (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN111177351B (zh) 基于规则的自然语言表达意图获取方法、装置和系统
CN114416943A (zh) 对话模型的训练方法、装置、电子设备及存储介质
CN113362809B (zh) 语音识别方法、装置和电子设备
CN112036186A (zh) 语料标注方法、装置、计算机存储介质及电子设备
CN112100360B (zh) 一种基于向量检索的对话应答方法、装置和系统
CN112307183B (zh) 搜索数据识别方法、装置、电子设备以及计算机存储介质
JP2015001695A (ja) 音声認識装置、音声認識方法及びプログラム
WO2023116572A1 (zh) 一种词句生成方法及相关设备
CN114758649B (zh) 一种语音识别方法、装置、设备和介质
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN114613515A (zh) 医学实体的关系提取方法及装置、存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant