CN111241814A - 语音识别文本的纠错方法、装置、电子设备及存储介质 - Google Patents

语音识别文本的纠错方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111241814A
CN111241814A CN201911410367.XA CN201911410367A CN111241814A CN 111241814 A CN111241814 A CN 111241814A CN 201911410367 A CN201911410367 A CN 201911410367A CN 111241814 A CN111241814 A CN 111241814A
Authority
CN
China
Prior art keywords
user
text
voice information
intention
user intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911410367.XA
Other languages
English (en)
Other versions
CN111241814B (zh
Inventor
章翔
孟越涛
张俊杰
罗红
荣玉军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201911410367.XA priority Critical patent/CN111241814B/zh
Publication of CN111241814A publication Critical patent/CN111241814A/zh
Application granted granted Critical
Publication of CN111241814B publication Critical patent/CN111241814B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例涉及自然语言处理领域,公开了一种语音识别文本的纠错方法、装置、电子设备及存储介质。本发明中接收语音信息;识别语音信息对应的至少一个用户意图;根据识别的至少一个用户意图,在云端数据集中选取用户意图的所有数据作为个性化模糊数据集;结合个性化模糊数据集与预先设置的基础模糊数据集对根据语音信息所识别的文本进行纠错,通过用户的个性化用户意图在保证纠错准确性的同时减少纠错所需数据量,提高纠错效率。

Description

语音识别文本的纠错方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及自然语言处理领域,特别涉及一种语音识别文本的纠错方法、装置、电子设备及存储介质。
背景技术
随着人工智能技术的发展,用户可以通过语音控制智能设备的工作。在通过语音控制智能设备时,为了使音箱等智能设备可以更加准确的识别用户的语音,从而更加准确的执行相应的动作,需要对识别到的用户的语音信息转换为文字,并对文字进行纠错。当前的文本纠错通常是利用云端数据集中的数据,通过语言模型检测错别字的位置,通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。在云端数据集中通常需要添加大量的数据,以保证语言模型可以准确的识别出文本中的错别字。
发明人发现相关技术中至少存在如下问题:云端数据集中的数据的数量过大,会导致通过语言模型纠错时的纠错候选数据过多,从而降低纠错的效率。
发明内容
本发明实施例的目的在于提供一种语音识别文本的纠错方法、装置、电子设备及存储介质,通过用户的个性化用户意图在保证纠错准确性的同时减少纠错所需数据量,提高纠错效率。
为解决上述技术问题,本发明的实施例提供了一种语音识别文本的纠错方法,包括:接收语音信息;识别语音信息对应的至少一个用户意图;根据识别的至少一个用户意图,在云端数据集中选取用户意图的所有数据作为个性化模糊数据集;结合个性化模糊数据集与预先设置的基础模糊数据集对根据语音信息所识别的文本进行纠错。
本发明的实施例还提供了一种语音识别文本的纠错装置,包括:接收模块,识别模块,选取模块,纠错模块;接收模块用于接收语音信息;识别模块用于识别语音信息对应的至少一个用户意图;选取模块用于根据识别的至少一个用户意图,在云端数据集中选取用户意图的所有数据作为个性化模糊数据集;纠错模块用于结合个性化模糊数据集与预先设置的基础模糊数据集对根据语音信息所识别的文本进行纠错。
本发明的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行语音识别文本的纠错方法。
本发明的实施方式还提供了一种存储介质,存储有计算机程序,计算机程序被处理器执行时上述的语音识别文本的纠错方法。
本发明实施例相对于现有技术而言,接收语音信息,通过对语音信息的识别确定语音信息中表达的用户意图,比如接收到的语音信息所表达的是听歌的意图或是播报天气的意图,并利用用户意图对云端数据集中的数据进行筛选,筛选出本次纠错过程可能会用到的数据,即将云端数据集中与识别的用户意图具有相同意图的数据提取作为个性化模糊数据集,结合个性化模糊数据集与预先设置的基础模糊数据集对根据语音信息所识别的文本进行纠错,从而利用语音信息中包含的用户的个性化用户意图减少了纠错过程中所用到的数据的数量,提高了纠错的效率。另由于设置的基础模糊数据集中包含有同音词,谐音词等基本混淆词语,结合预设的基础模糊数据集可以保证纠错的准确性。
另外,识别语音信息对应的至少一个用户意图,包括:识别语音信息的声纹特征;根据声纹特征确定语音信息对应的用户信息;获取用户信息对应的历史语音信息;根据历史语音信息确定用户惯用的至少一个用户意图,并将用户惯用的至少一个用户意图作为语音信息对应的至少一个用户意图。这样做可以通过用户的历史语音信息推测出该用户的惯用的用户意图,从而可以更加准确的确定用户的个性化行为。
另外,根据历史语音信息确定用户惯用的至少一个用户意图,包括:将历史语音信息对应的特征输入预先训练的神经网络模型;其中,神经网络模型利用各个用户意图的语音信息的特征进行训练,用于识别用户对各个用户意图的使用率;特征值至少包括以下任一特征或其组合:历史语音信息中的各个用户意图对应的语音交互的总时间,历史语音信息中最近一次的语音信息对应的用户意图,用户的年龄或用户的性别;根据神经网络模型的输出结果确定用户惯用的至少一个用户意图。
另外,在将用户惯用的至少一个用户意图作为语音信息对应的至少一个用户意图之前,还包括:将语音信息转换为文本信息,并对文本信息进行意图的识别得到文本意图;将用户惯用的至少一个用户意图作为语音信息对应的至少一个用户意图,包括:若文本意图与用户惯用的至少一个用户意图中的任一用户意图相同,将用户惯用的至少一个用户意图作为语音信息对应的至少一个用户意图;若文本意图与用户惯用的至少一个用户意图中的任一用户意图均不相同,将用户惯用的至少一个用户意图与文本意图共同作为语音信息对应的用户意图。
另外,对文本信息进行意图的识别得到文本意图,包括:通过词嵌入方法将文本信息转换为向量矩阵;将向量矩阵输入预先训练的文本分类模型;根据文本分类模型输出的结果得到文本意图。通过当前接收的语音信息识别的文本信息确定文本意图,从而可以使确定的个性化模糊数据集中包含满足当前语音信息的个性化数据,从而使语音识别文本的纠错更加精确。
另外,结合个性化模糊数据集与预先设置的基础模糊数据集对根据语音信息所识别的文本进行纠错,包括:根据个性化模糊数据集和预先设置的基础模糊数据集对语音信息所识别的文本中出现错误词语的位置进行定位;在个性化模糊数据集和预先设置的基础模糊数据集中选择错误词语的至少一个替换词;通过语言模型分别对至少一个替换词的混淆度得分进行计算;利用混淆度得分小于第一预设阈值的替换词对语音信息所识别的文本进行纠错。
另外,对语音信息所识别的文本中出现错误词语的位置进行定位,包括:对语音信息所识别的文本进行划分,划分为不同的词段;根据文本中各个词段之间的相关性,分别计算各个词段为错误词段的概率;将概率大于第二预设阈值的错误词段作为错误词语,并将错误词段处于文本中的位置作为文本中出现错误词语的位置。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定。
图1是根据本发明第一实施例中的语音识别文本的纠错方法的流程图;
图2是根据本发明第二实施例中的语音识别文本的纠错方法的流程图;
图3是根据本发明第三实施例中的语音识别文本的纠错装置的结构示意图;
图4是根据本发明第四实施例中的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施例进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施例中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施例的种种变化和修改,也可以实现本申请所要求保护的技术方案。
以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
本发明的第一实施例涉及一种语音识别文本的纠错方法,包括:接收语音信息;识别语音信息对应的至少一个用户意图;根据识别的至少一个用户意图,在云端数据集中选取用户意图的所有数据作为个性化模糊数据集;结合个性化模糊数据集与预先设置的基础模糊数据集对根据语音信息所识别的文本进行纠错,通过用户的个性化用户意图在保证纠错准确性的同时减少纠错所需数据量,提高纠错效率。下面对本实施例的语音识别文本的纠错方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。
具体流程如图1所示,第一实施例涉及一种语音识别文本的纠错方法,包括:
步骤101,接收语音信息。具体地说,用户通过语音控制智能设备时,需要与音箱等设备进行语音交互。智能设备通过音箱接收用户的语音信息,比如,接收用户输入的“播放音乐”,“播放小说”等语音信息。
步骤102,识别语音信息对应的至少一个用户意图。
具体地说,语音信息均有其对应的用户意图,例如,语音信息“播放音乐”对应播放音乐的用户意图,语音信息“播放小说”对应播放小说的用户意图,等等。
识别语音信息对应的用户意图的方式可以如下:通过用户的历史语音信息确定用户惯用的用户意图,将用户惯用的用户意图作为识别语音信息对应的用户意图;还可以通过语音信息识别的文本信息确定文本意图,并将文本意图作为识别语音信息对应的用户意图;还可以综合上述用户惯用的用户意图和文本意图,共同作为语音信息对应的用户意图。
步骤103,根据识别的至少一个用户意图,在云端数据集中选取用户意图的所有数据作为个性化模糊数据集。
具体地说,云端数据集中包含有大量的数据,可以将云端数据集中的数据按照用户意图对数据进行分类,例如,将播放音乐的用户意图的数据放入一个数据列表,将播放小说的用户意图的数据放入另一个数据列表,从而实现按照用户意图对云端数据集中的数据进行分类。在识别出至少一个用户意图之后,将对应该用户意图的数据列表选出作为个性化模糊数据集。
步骤104,结合个性化模糊数据集与预先设置的基础模糊数据集对根据语音信息所识别的文本进行纠错。
具体地说,将个性化模糊数据集和基础模糊数据集进行汇总。在利用个性化模糊数据集和基础模糊数据集对语音信息识别的文本信息进行纠错时,首先可以通过结巴(jieba)等中文分词工具进行分词。例如,对于自动语音识别技术(ASR)识别后的用户交互文本“来一首周杰伦的爽截棍”,通过结巴分词之后的结果为“来”|“一首”|“周杰伦”|“的”|“爽”|“截棍”。在对文本分词之后,对分词进行可能的错误进行定位,通常可以采取基于字粒度的语言模型进行可能的错误位置的定位。语言模型主要通过N-Gram算法进行处理,取大于平均得分的位置作为可能的错误位置。
上述说明中的N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列;每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度;该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的算法是二元的Bi-Gram算法和三元的Tri-Gram算法。
在定位可能出现的错误位置之后,在个性化模糊数据集与预先设置的基础模糊数据集中选择作为错误词语的替换词作为错误候选,例如上述说明中“爽”可能的错误候选为“双”,“霜”等,对于所有的可能情况,我们需要对所有的情况进行处理评价,然后对结果混淆度得分进行排序,选择最可能候选。混淆度还是通过基于n-gram语言模型的混淆度得分进行计算。最后将混淆度得分最低的句子和设定的混淆度得分阈值进行比较,如果计算的结果小于阈值,则选择纠错后的句子进行输出;否则选择原始输入文本进行输出。
本发明实施例相对于现有技术而言,接收语音信息,通过对语音信息的识别确定语音信息中表达的用户意图,比如接收到的语音信息所表达的是听歌的意图或是播报天气的意图,并利用用户意图对云端数据集中的数据进行筛选,筛选出本次纠错过程可能会用到的数据,即将云端数据集中与识别的用户意图具有相同意图的数据提取作为个性化模糊数据集,结合个性化模糊数据集与预先设置的基础模糊数据集对根据语音信息所识别的文本进行纠错,从而利用语音信息中包含的用户的个性化用户意图减少了纠错过程中所用到的数据的数量,提高了纠错的效率。另由于设置的基础模糊数据集中包含有同音词,谐音词等基本混淆词语,结合预设的基础模糊数据集可以保证纠错的准确性。
本发明的第二实施例涉及一种语音识别文本的纠错方法。在本发明第二实施例中,通过用户的历史语音信息获取用户惯用的用户意图,并通过当前接收的语音信息识别的文本确定文本意图,利用用户惯用的用户意图和文本意图在云端数据集中选取数据作为个性化模糊数据集。具体流程如图2所示,包括:
步骤201,接收语音信息。
步骤202,识别语音信息的声纹特征。
步骤203,根据声纹特征确定语音信息对应的用户信息。
步骤204,获取用户信息对应的历史语音信息。
步骤205,根据历史语音信息确定用户惯用的至少一个用户意图。
具体地说,对用户输入的语音信息进行识别,识别出语音信息的声纹特征。由于每个用户均有其独特的声纹特征,所以根据语音信息的声纹特征即可确定该语音信息输入的用户,从而可以得到该用户的历史语音信息。
通过文本信息识别用户意图时,可以利用文本分类(textCNN)技术对文本信息进行分类,文本分类实现如下:首先,通过词嵌入(embedding)方法将每个字转换为相同长度的向量,对于一个句子就可以形成一个向量矩阵。其次,通过卷积对向量矩阵进行卷积处理,并在卷积层之后接上池化层和全连接层,并在最后通过逻辑回归(softmax)层进行分类。
在通过历史语音信息确定用户惯用的至少一个用户意图时,利用上述文本分类(textCNN)技术建立神经网络模型,神经网络模型利用各个用户意图的语音信息的特征进行训练,用于识别用户对各个用户意图的使用率。特征值至少包括以下任一特征或其组合:历史语音信息中的各个用户意图对应的语音交互的总时间,历史语音信息中最近一次的语音信息对应的用户意图,用户的年龄或用户的性别等。将历史语音信息的特征值输入神经网络模型,通过神经网络模型的输出结果可以确定用户惯用的至少一个用户意图,输出结果可以是:各个用户意图和各个用户意图对应的使用率,使用率越大的用户意图用户使用概率越大。
下面对神经网络模型的原理进行说明:神经网络模型主要通过BP神经网络进行实现,其主要的计算公式如下:由于BP神经网络是有监督学习算法,我们指定模型的训练数据集为D={(x1,y1),(x2,y2),…,(xq,yq)},同时已知激活函数的导数
Figure BDA0002349812000000061
训练集中包括各个语音信息对应的特征值。由以上结果可知隐藏层第h个神经元的输入值为:
Figure BDA0002349812000000062
其中,Ihh为隐藏层第h个神经元的输入值;Wih为预先设置隐藏层的第h个神经元的权重;xi为训练数据集中的特征值。
隐藏层第h个神经元的输出为:Ohh=S(Ihh-Hh);Ohh为隐藏层第h个神经元的输出值;Hh为隐藏层第h个神经元对应的预设阈值;S为上述说明中的激活函数。
输出层第j个神经元的输入值为:
Figure BDA0002349812000000063
Ioj为输出层第j个神经元的输入值;Whj为预先设置的输出层第j个神经元的权重。
输出层第j个神经元的输出值为:Ooj=S(Iojj);Ooj为输出层第j个神经元的输出值;θj为输出层第j个神经元对应的预设阈值。
于是可得神经网络模型在(xk,yk)上的均方误差为:
Figure BDA0002349812000000064
yj为训练集中的特征值对应的用户意图。
为了使结果的总误差E最小,模型需要通过不断的迭代对所有参数进行更新。BP神经网络算法通过梯度下降算法实现这一过程。梯度下降算法以目标结果的负梯度方向作为参数调整的方向进行更新。对于给定的学习率α可得:
Figure BDA0002349812000000071
化简之后可得:
△Whj=α*Ooj*(1-Ooj)*(yj-Ooj)*Ohh,从而可以减少各个神经元的权重的误差。同理可以对神经网络模型中的其他参数的误差进行校正,如通过△θj=-α*gj减少输出层神经元对应的预设阈值;通过
Figure BDA0002349812000000072
减少预先设置隐藏层的神经元的权重;通过
Figure BDA0002349812000000073
减少隐藏层神经元对应的预设阈值。
步骤206,将语音信息转换为文本信息,并对文本信息进行意图的识别得到文本意图。具体地说,在通过上述神经网络模型得到用户惯用的用户意图和文本意图之后,若文本意图与用户惯用的至少一个用户意图中的任一用户意图相同,将用户惯用的至少一个用户意图作为语音信息对应的至少一个用户意图;若文本意图与用户惯用的至少一个用户意图中的任一用户意图均不相同,将用户惯用的至少一个用户意图与文本意图共同作为语音信息对应的用户意图。
步骤207,根据用户惯用的用户意图和文本意图,在云端数据集中选取用户意图的所有数据作为个性化模糊数据集。具体地说,在获取用户惯用的用户意图和文本意图之后,判断现有的个性化模糊数据集中的意图集合与获取用户惯用的用户意图和文本意图是否相同,若现有的个性化模糊数据集中的意图集合与获取用户惯用的用户意图和文本意图相同,则无需对现有的个性化模糊数据集中的数据进行更新;若现有的个性化模糊数据集中的意图集合与获取用户惯用的用户意图和文本意图不相同,则将现有的个性化模糊数据集中多余的意图进行删除,将现有的个性化模糊数据集中缺少的意图进行添加,从而实现现有的个性化模糊数据集的更新。在更新之后保存当前个性化模糊数据集的状态,以便下一次对语音信息识别的文本进行纠错时,对个性化模糊数据集进行再一次比较。
步骤208,结合个性化模糊数据集与预先设置的基础模糊数据集对根据语音信息所识别的文本进行纠错。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施例涉及一种语音识别文本的纠错装置,如图3所示,包括:接收模块31,识别模块32,选取模块33,纠错模块34;接收模块31用于接收语音信息;识别模块32用于识别语音信息对应的至少一个用户意图;选取模块33用于根据识别的至少一个用户意图,在云端数据集中选取用户意图的所有数据作为个性化模糊数据集;纠错模块34用于结合个性化模糊数据集与预先设置的基础模糊数据集对根据语音信息所识别的文本进行纠错。
不难发现,本实施例为与第一实施例相对应的系统实施例,本实施例可与第一实施例互相配合实施。第一实施例中提到的相关技术细节在本实施例中依然有效,为了减少重复,这里不再赘述。相应地,本实施例中提到的相关技术细节也可应用在第一实施例中。
另外,识别模块32用于识别语音信息的声纹特征;根据声纹特征确定语音信息对应的用户信息;获取用户信息对应的历史语音信息;根据历史语音信息确定用户惯用的至少一个用户意图,并将用户惯用的至少一个用户意图作为语音信息对应的至少一个用户意图。
另外,识别模块32用于将历史语音信息对应的特征输入预先训练的神经网络模型;其中,神经网络模型利用各个用户意图的语音信息的特征进行训练,用于识别用户对各个用户意图的使用率;特征值至少包括以下任一特征或其组合:历史语音信息中的各个用户意图对应的语音交互的总时间,历史语音信息中最近一次的语音信息对应的用户意图,用户的年龄或用户的性别;根据神经网络模型的输出结果确定用户惯用的至少一个用户意图。
另外,识别模块32用于将语音信息转换为文本信息,并对文本信息进行意图的识别得到文本意图。
另外,识别模块32用于通过词嵌入方法将文本信息转换为向量矩阵;将向量矩阵输入预先训练的文本分类模型;根据文本分类模型输出的结果得到文本意图。
另外,纠错模块34用于根据个性化模糊数据集和预先设置的基础模糊数据集对语音信息所识别的文本中出现错误词语的位置进行定位;在个性化模糊数据集和预先设置的基础模糊数据集中选择错误词语的至少一个替换词;通过语言模型分别对至少一个替换词的混淆度得分进行计算;利用混淆度得分小于第一预设阈值的替换词对语音信息所识别的文本进行纠错。
值得一提的是,本实施例中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施例中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施例中不存在其它的单元。
本发明第四实施例涉及一种电子设备,如图4所示,包括至少一个处理器401;以及,与至少一个处理器401通信连接的存储器402;其中,存储器402存储有可被至少一个处理器401执行的指令,指令被至少一个处理器401执行,以使至少一个处理器401能够执行上述语音识别文本的纠错方法。
其中,存储器402和处理器401采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器401和存储器402的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器401。
处理器401负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器402可以被用于存储处理器401在执行操作时所使用的数据。
本发明第五实施例涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施例是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (10)

1.一种语音识别文本的纠错方法,其特征在于,包括:
接收语音信息;
识别所述语音信息对应的至少一个用户意图;
根据所述识别的至少一个用户意图,在云端数据集中选取所述用户意图的所有数据作为个性化模糊数据集;
结合所述个性化模糊数据集与预先设置的基础模糊数据集对根据所述语音信息所识别的文本进行纠错。
2.根据权利要求1所述的语音识别文本的纠错方法,其特征在于,所述识别所述语音信息对应的至少一个用户意图,包括:
识别所述语音信息的声纹特征;
根据所述声纹特征确定所述语音信息对应的用户信息;
获取所述用户信息对应的历史语音信息;
根据所述历史语音信息确定用户惯用的至少一个用户意图,并将所述用户惯用的至少一个用户意图作为所述语音信息对应的至少一个用户意图。
3.根据权利要求2所述的语音识别文本的纠错方法,其特征在于,所述根据所述历史语音信息确定用户惯用的至少一个用户意图,包括:
将所述历史语音信息对应的特征输入预先训练的神经网络模型;其中,所述神经网络模型利用各个用户意图的语音信息的特征进行训练,用于识别所述用户对所述各个用户意图的使用率;
所述特征值至少包括以下任一特征或其组合:历史语音信息中的各个用户意图对应的语音交互的总时间,历史语音信息中最近一次的语音信息对应的用户意图,用户的年龄或用户的性别;
根据所述神经网络模型的输出结果确定所述用户惯用的至少一个用户意图。
4.根据权利要求2或3所述的语音识别文本的纠错方法,其特征在于,在所述将所述用户惯用的至少一个用户意图作为所述语音信息对应的至少一个用户意图之前,还包括:
将所述语音信息转换为文本信息,并对所述文本信息进行意图的识别得到文本意图;
所述将所述用户惯用的至少一个用户意图作为所述语音信息对应的至少一个用户意图,包括:
若所述文本意图与所述用户惯用的至少一个用户意图中的任一用户意图相同,将所述用户惯用的至少一个用户意图作为所述语音信息对应的至少一个用户意图;
若所述文本意图与所述用户惯用的至少一个用户意图中的任一用户意图均不相同,将所述用户惯用的至少一个用户意图与所述文本意图共同作为所述语音信息对应的用户意图。
5.根据权利要求4所述的语音识别文本的纠错方法,其特征在于,所述对所述文本信息进行意图的识别得到文本意图,包括:
通过词嵌入方法将所述文本信息转换为向量矩阵;
将所述向量矩阵输入预先训练的文本分类模型;
根据所述文本分类模型输出的结果得到所述文本意图。
6.根据权利要求1所述的语音识别文本的纠错方法,其特征在于,所述结合所述个性化模糊数据集与预先设置的基础模糊数据集对根据所述语音信息所识别的文本进行纠错,包括:
根据所述个性化模糊数据集和预先设置的基础模糊数据集对所述语音信息所识别的文本中出现错误词语的位置进行定位;
在所述个性化模糊数据集和预先设置的基础模糊数据集中选择所述错误词语的至少一个替换词;
通过语言模型分别对所述至少一个替换词的混淆度得分进行计算;
利用所述混淆度得分小于第一预设阈值的替换词对所述语音信息所识别的文本进行纠错。
7.根据权利要求6所述的语音识别文本的纠错方法,其特征在于,所述对所述语音信息所识别的文本中出现错误词语的位置进行定位,包括:
对所述语音信息所识别的文本进行划分,划分为不同的词段;
根据所述文本中各个词段之间的相关性,分别计算各个词段为错误词段的概率;
将所述概率大于第二预设阈值的错误词段作为所述错误词语,并将所述错误词段处于所述文本中的位置作为所述文本中出现错误词语的位置。
8.一种语音识别文本的纠错装置,其特征在于,包括:接收模块,识别模块,选取模块,纠错模块;
所述接收模块用于接收语音信息;
所述识别模块用于识别所述语音信息对应的至少一个用户意图;
所述选取模块用于根据所述识别的至少一个用户意图,在云端数据集中选取所述用户意图的所有数据作为个性化模糊数据集;
所述纠错模块用于结合所述个性化模糊数据集与预先设置的基础模糊数据集对根据所述语音信息所识别的文本进行纠错。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的语音识别文本的纠错方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的语音识别文本的纠错方法。
CN201911410367.XA 2019-12-31 2019-12-31 语音识别文本的纠错方法、装置、电子设备及存储介质 Active CN111241814B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911410367.XA CN111241814B (zh) 2019-12-31 2019-12-31 语音识别文本的纠错方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911410367.XA CN111241814B (zh) 2019-12-31 2019-12-31 语音识别文本的纠错方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111241814A true CN111241814A (zh) 2020-06-05
CN111241814B CN111241814B (zh) 2023-04-28

Family

ID=70874168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911410367.XA Active CN111241814B (zh) 2019-12-31 2019-12-31 语音识别文本的纠错方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111241814B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737962A (zh) * 2020-06-24 2020-10-02 平安科技(深圳)有限公司 一种实体修订方法、装置、计算机设备和可读存储介质
CN111985213A (zh) * 2020-09-07 2020-11-24 科大讯飞华南人工智能研究院(广州)有限公司 一种语音客服文本纠错的方法和装置
CN112016303A (zh) * 2020-09-07 2020-12-01 平安科技(深圳)有限公司 基于图神经网络的文本纠错方法、装置、设备及存储介质
CN112115706A (zh) * 2020-08-31 2020-12-22 北京字节跳动网络技术有限公司 文本处理方法、装置、电子设备及介质
CN112257437A (zh) * 2020-10-20 2021-01-22 科大讯飞股份有限公司 语音识别纠错方法、装置、电子设备和存储介质
CN112559719A (zh) * 2020-12-23 2021-03-26 中移(杭州)信息技术有限公司 意图识别方法、装置、电子设备和存储介质
CN112911316A (zh) * 2020-12-08 2021-06-04 泰州市朗嘉馨网络科技有限公司 利用信息录制的远程辨识平台
WO2022135414A1 (zh) * 2020-12-24 2022-06-30 深圳Tcl新技术有限公司 语音识别结果的纠错方法、装置、终端设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107045496A (zh) * 2017-04-19 2017-08-15 畅捷通信息技术股份有限公司 语音识别后文本的纠错方法及纠错装置
CN107220235A (zh) * 2017-05-23 2017-09-29 北京百度网讯科技有限公司 基于人工智能的语音识别纠错方法、装置及存储介质
CN107977356A (zh) * 2017-11-21 2018-05-01 新疆科大讯飞信息科技有限责任公司 识别文本纠错方法及装置
CN109508376A (zh) * 2018-11-23 2019-03-22 四川长虹电器股份有限公司 可在线纠错更新的意图识别方法及装置
WO2019153996A1 (zh) * 2018-02-09 2019-08-15 叶伟 一种语音识别文本纠错方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107045496A (zh) * 2017-04-19 2017-08-15 畅捷通信息技术股份有限公司 语音识别后文本的纠错方法及纠错装置
CN107220235A (zh) * 2017-05-23 2017-09-29 北京百度网讯科技有限公司 基于人工智能的语音识别纠错方法、装置及存储介质
CN107977356A (zh) * 2017-11-21 2018-05-01 新疆科大讯飞信息科技有限责任公司 识别文本纠错方法及装置
WO2019153996A1 (zh) * 2018-02-09 2019-08-15 叶伟 一种语音识别文本纠错方法及装置
CN109508376A (zh) * 2018-11-23 2019-03-22 四川长虹电器股份有限公司 可在线纠错更新的意图识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陶永芹: "专业领域智能问答系统设计与实现", 《计算机应用与软件》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737962A (zh) * 2020-06-24 2020-10-02 平安科技(深圳)有限公司 一种实体修订方法、装置、计算机设备和可读存储介质
CN112115706A (zh) * 2020-08-31 2020-12-22 北京字节跳动网络技术有限公司 文本处理方法、装置、电子设备及介质
CN112115706B (zh) * 2020-08-31 2022-05-03 北京字节跳动网络技术有限公司 文本处理方法、装置、电子设备及介质
CN111985213A (zh) * 2020-09-07 2020-11-24 科大讯飞华南人工智能研究院(广州)有限公司 一种语音客服文本纠错的方法和装置
CN112016303A (zh) * 2020-09-07 2020-12-01 平安科技(深圳)有限公司 基于图神经网络的文本纠错方法、装置、设备及存储介质
CN112016303B (zh) * 2020-09-07 2024-01-19 平安科技(深圳)有限公司 基于图神经网络的文本纠错方法、装置、设备及存储介质
CN111985213B (zh) * 2020-09-07 2024-05-28 科大讯飞华南人工智能研究院(广州)有限公司 一种语音客服文本纠错的方法和装置
CN112257437A (zh) * 2020-10-20 2021-01-22 科大讯飞股份有限公司 语音识别纠错方法、装置、电子设备和存储介质
CN112257437B (zh) * 2020-10-20 2024-02-13 中国科学技术大学 语音识别纠错方法、装置、电子设备和存储介质
CN112911316A (zh) * 2020-12-08 2021-06-04 泰州市朗嘉馨网络科技有限公司 利用信息录制的远程辨识平台
CN112559719A (zh) * 2020-12-23 2021-03-26 中移(杭州)信息技术有限公司 意图识别方法、装置、电子设备和存储介质
WO2022135414A1 (zh) * 2020-12-24 2022-06-30 深圳Tcl新技术有限公司 语音识别结果的纠错方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
CN111241814B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN111241814B (zh) 语音识别文本的纠错方法、装置、电子设备及存储介质
CN112270379B (zh) 分类模型的训练方法、样本分类方法、装置和设备
US20230186912A1 (en) Speech recognition method, apparatus and device, and storage medium
CN112148877B (zh) 语料文本的处理方法、装置及电子设备
CN109948149B (zh) 一种文本分类方法及装置
CN111656366A (zh) 用于口语对话系统中的意图检测和槽位填充的方法和系统
CN111984766B (zh) 缺失语义补全方法及装置
CN112529153B (zh) 基于卷积神经网络的bert模型的微调方法及装置
CN108052499B (zh) 基于人工智能的文本纠错方法、装置及计算机可读介质
CN111694924A (zh) 一种事件抽取方法和系统
EP3029607A1 (en) Method for text recognition and computer program product
CN110019795B (zh) 敏感词检测模型的训练方法和系统
CN111563144A (zh) 基于语句前后关系预测的用户意图识别方法及装置
US10878201B1 (en) Apparatus and method for an adaptive neural machine translation system
CN113177412A (zh) 基于bert的命名实体识别方法、系统、电子设备及存储介质
CN113326702B (zh) 语义识别方法、装置、电子设备及存储介质
CN113948066B (zh) 一种实时转译文本的纠错方法、系统、存储介质和装置
WO2023130951A1 (zh) 语音断句方法、装置、电子设备及存储介质
CN111144093A (zh) 一种智能文本处理方法、装置、电子设备及存储介质
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN112687266A (zh) 语音识别方法、装置、计算机设备和存储介质
CN113673228A (zh) 文本纠错方法、装置、计算机存储介质及计算机程序产品
CN115700515A (zh) 文本多标签分类方法及装置
CN112487813B (zh) 命名实体识别方法及系统、电子设备及存储介质
US20220138425A1 (en) Acronym definition network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant