CN111985213A - 一种语音客服文本纠错的方法和装置 - Google Patents
一种语音客服文本纠错的方法和装置 Download PDFInfo
- Publication number
- CN111985213A CN111985213A CN202010929561.5A CN202010929561A CN111985213A CN 111985213 A CN111985213 A CN 111985213A CN 202010929561 A CN202010929561 A CN 202010929561A CN 111985213 A CN111985213 A CN 111985213A
- Authority
- CN
- China
- Prior art keywords
- text
- error
- training
- voice recognition
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 230
- 238000012937 correction Methods 0.000 claims description 94
- 239000013598 vector Substances 0.000 claims description 94
- 239000011159 matrix material Substances 0.000 claims description 41
- 238000012545 processing Methods 0.000 claims description 9
- 230000015654 memory Effects 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 33
- 238000006243 chemical reaction Methods 0.000 abstract description 20
- 230000000694 effects Effects 0.000 abstract description 12
- 239000000463 material Substances 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语音客服文本纠错的方法和相关装置,该方法包括:利用通用语音识别技术将用户输入语音转换为第一语音识别文本;通过文本错误识别模型获得第一语音识别文本中错误位置,文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本,以及第一训练文本中每个位置的训练标签训练第一语言模型获得的,训练标签为正确标签或错误标签;基于第一语音识别文本中错误位置纠错获得第二语音识别文本。在语音客服领域场景下,不需要单独训练具有针对性的语音识别模型,利用文本错误识别模型确定第一语音识别文本中错误位置并纠错,解决通用语音识别技术得到的语音识别文本准确率较低、语音转换文本的转换效果不佳的问题。
Description
技术领域
本申请涉及语音客服技术领域,尤其涉及一种语音客服文本纠错的方法和相关装置。
背景技术
随着科技的快速发展,语音识别技术广泛应用于客服领域。具体地,客服系统利用通用语音识别技术将用户输入语音转换为语音识别文本,对该语音识别文本进行语义理解以便实现用户意图识别。
但是,发明人经过研究发现,在语音客服领域场景下,通用语音识别技术缺乏针对性,导致用户输入语音转换为语音识别文本的转换效果不佳。而在语音客服领域场景下,单独训练具有针对性的语音识别模型,需要付出非常高的成本,且该针对性的语音识别模型不具有通用性;因此,在语音客服领域场景下,通用语音识别技术得到的语音识别文本准确率较低的问题急需解决。
发明内容
有鉴于此,本申请实施例提供一种语音客服文本纠错的方法和相关装置,以解决在语音客服领域场景下,通用语音识别技术得到的语音识别文本准确率较低、用户输入语音转换为语音识别文本的转换效果不佳的问题。
第一方面,本申请实施例提供了一种语音客服文本纠错的方法,所述方法包括:
对用户输入语音进行通用语音识别,获得第一语音识别文本;
将所述第一语音识别文本输入文本错误识别模型,获得所述第一语音识别文本中错误位置;
基于所述第一语音识别文本中错误位置进行纠错,获得第二语音识别文本;
其中,所述文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本,以及所述第一训练文本中每个位置的训练标签训练第一语言模型获得的;所述训练标签为正确标签或错误标签。
可选的,所述第一语言模型包括第一输入层、第一语义表示层和第一输出层;对应地,所述文本错误识别模型的获得步骤包括:
将所述第一训练文本中各个字、各个词输入所述第一输入层,获得所述第一训练文本的向量矩阵;
将所述第一训练文本的向量矩阵输入所述第一语义表示层,获得所述第一训练文本的语义特征向量;
将所述第一训练文本的语义特征向量输入所述第一输出层,获得所述第一训练文本中每个位置的标签预测数据;
基于所述第一训练文本中每个位置的标签预测数据和所述第一训练文本中每个位置的训练标签,调整所述第一语言模型的网络参数,获得所述文本错误识别模型。
可选的,所述第一训练文本的获得步骤包括:
对所述通用领域语料中各个字进行随机替换,获得替换通用领域语料;
比较所述通用领域语料和所述替换通用领域语料,确定所述替换通用领域语料中替换位置和未替换位置;
将所述替换通用领域语料确定为所述第一训练文本;所述替换通用领域语料中替换位置的训练标签为错误标签,所述替换通用领域语料中未替换位置的训练标签为正确标签;
对所述语音客服领域语料进行纠错,获得纠错语音客服领域语料;
比较所述语音客服领域语料和所述纠错语音客服领域语料,确定所述语音客服领域语料中正确位置和错误位置;
将所述语音客服领域语料确定为所述第一训练文本;所述语音客服领域语料中正确位置的训练标签为正确标签,所述语音客服领域语料中错误位置的训练标签为错误标签。
可选的,所述将所述第一语音识别文本输入文本错误识别模型,获得所述第一语音识别文本中错误位置,包括:
将所述第一语音识别文本中各个字、各个词输入所述第一输入层,获得所述第一语音识别文本的向量矩阵;
将所述第一语音识别文本的向量矩阵输入所述第一语义表示层,获得所述第一语音识别文本的语义特征向量;
将所述第一语音识别文本的语义特征向量输入所述第一输出层,获得所述第一语音识别文本中每个位置的标签预测数据;
基于第一语音识别文本中每个位置的标签预测数据,确定所述第一语音识别文本中错误位置。
可选的,所述基于所述第一语音识别文本中错误位置进行纠错,获得第二语音识别文本,包括:
拼接所述第一语音识别文本和所述第一语音识别文本的上文,获得语音识别输入文本;所述语音识别输入文本中错误位置为所述第一语音识别文本中错误位置;
获得所述语音识别输入文本的拼音;从所述第一语音识别文本对应的候选纠错字词典中,获得所述语音识别输入文本中错误位置对应的各个候选纠错字;
将所述语音识别输入文本、所述语音识别输入文本的拼音,以及所述语音识别输入文本中错误位置对应的各个候选纠错字输入文本纠错模型,获得所述第一语音识别文本对应的第二语音识别文本;
其中,所述文本纠错模型是基于第二训练文本、所述第二训练文本的拼音和所述第二训练文本中错误位置对应的纠错字训练第二语言模型获得的;所述第二训练文本是拼接所述语音客服领域语料和所述语音客服领域语料的上文获得的。
可选的,所述第二语言模型包括第二输入层、第二语义表示层和第二输出层;对应地,所述文本纠错模型的训练步骤包括:
将所述第二训练文本中各个字、各个词以及所述第二训练文本的拼音中各个字拼音输入所述第二输入层,获得所述第二训练文本的向量矩阵;
将所述第二训练文本的向量矩阵输入所述第二语义表示层,获得所述第二训练文本的语义特征向量;
将所述第二训练文本的语义特征向量输入所述第二输出层,获得所述第二训练文本中错误位置对应的预测纠错字;
基于所述第二训练文本中错误位置对应的预测纠错字和所述第二训练文本中错误位置对应的纠错字,调整所述第二语言模型的网络参数,获得所述文本纠错模型。
可选的,所述将所述语音识别输入文本、所述语音识别输入文本的拼音,以及所述语音识别输入文本中错误位置对应的各个候选纠错字输入文本纠错模型,获得所述第二语音识别文本,包括:
将所述语音识别输入文本中各个字、各个词以及所述语音识别输入文本的拼音中各个字拼音输入所述第二输入层,获得所述语音识别输入文本的向量矩阵;
将所述语音识别输入文本的向量矩阵输入所述第二语义表示层,获得所述语音识别输入文本的语义特征向量;
将所述语音识别输入文本的语义特征向量和所述语音识别输入文本中错误位置对应的各个候选纠错字输入所述第二输出层,获得所述语音识别输入文本中错误位置对应的目前纠错字;
基于所述第一语音识别文本和所述语音识别输入文本中错误位置对应的目前纠错字,获得所述第一语音识别文本对应的第二语音识别文本。
可选的,所述第一语音识别文本对应的候选纠错字词典包括以下一种或多种:
所述第一语音识别文本中各个字的相同读音和模糊读音对应的字、所述第一语音识别文本的上文中各个字、与所述第一语音识别文本中第一实体相似度大于预设相似度的第一相似实体中各个字、与所述第一语音识别文本的上文中第二实体相似度大于所述预设相似度的第二相似实体中各个字。
可选的,在所述获得第二语音识别文本之后,还包括:
基于实体关系知识图谱对所述第二语音识别文本中实体进行纠错,获得第三语音识别文本。
可选的,所述基于实体关系知识图谱对所述第二语音识别文本中实体进行纠错处理,获得第三语音识别文本,包括:
获得所述第二语音识别文本中第三实体的相同读音和模糊读音对应的第三相似实体;
基于所述第二语音识别文本中第三实体、所述第三相似实体和所述实体关系知识图谱,获得相关实体关系对;
基于所述相关实体关系对纠错所述第二语音识别文本,获得所述第三语音识别文本。
第二方面,本申请实施例提供了一种语音客服文本纠错的装置,所述装置包括:
第一获得单元,用于对用户输入语音进行通用语音识别,获得第一语音识别文本;
第二获得单元,用于将所述第一语音识别文本输入文本错误识别模型,获得所述第一语音识别文本中错误位置;
第三获得单元,用于基于所述第一语音识别文本中错误位置进行纠错,获得第二语音识别文本;
其中,所述文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本,以及所述第一训练文本中每个位置的训练标签训练第一语言模型获得的;所述训练标签为正确标签或错误标签。
第三方面,本申请实施例提供了一种终端设备,所述终端设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述第一方面任一项所述的语音客服文本纠错的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面,本申请实施例提供了任一项所述的语音客服文本纠错的方法。
与现有技术相比,本申请至少具有以下优点:
采用本申请实施例的技术方案,利用通用语音识别技术将用户输入语音转换为第一语音识别文本;通过文本错误识别模型获得第一语音识别文本中错误位置,文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本,以及第一训练文本中每个位置的训练标签训练第一语言模型获得的,训练标签为正确标签或错误标签;基于第一语音识别文本中错误位置纠错获得第二语音识别文本。由此可见,在语音客服领域场景下,不需要单独训练具有针对性的语音识别模型,利用通用领域语料结合语音客服领域语料预先训练的文本错误识别模型,确定通用语音识别技术获得的第一语音识别文本中错误位置,对该错误位置进行纠错即可得到更准确的第二语音识别文本,以解决在语音客服领域场景下,通用语音识别技术得到的语音识别文本准确率较低、语音转换文本的转换效果不佳的问题。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例中一种应用场景所涉及的系统框架示意图;
图2为本申请实施例提供的一种语音客服文本纠错的方法的流程示意图;
图3为本申请实施例提供的另一种语音客服文本纠错的方法的流程示意图;
图4为本申请实施例提供的一种语音客服文本纠错的装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现阶段,在语音客服领域场景下,一般是利用通用语音识别技术将用户输入语音转换为语音识别文本,但是,通用语音识别技术缺乏针对性,导致用户输入语音转换为语音识别文本的转换效果不佳。针对语音客服领域场景,单独训练语音识别模型需要付出非常高的成本且不具有通用性,因此,在语音客服领域场景下,通用语音识别技术得到的语音识别文本准确率较低的问题急需解决。
为了解决这一问题,在本申请实施例中,利用通用语音识别技术将用户输入语音转换为第一语音识别文本;通过文本错误识别模型获得第一语音识别文本中错误位置,文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本,以及第一训练文本中每个位置的训练标签训练第一语言模型获得的,训练标签为正确标签或错误标签;基于第一语音识别文本中错误位置纠错获得第二语音识别文本。由此可见,在语音客服领域场景下,不需要单独训练具有针对性的语音识别模型,利用通用领域语料结合语音客服领域语料预先训练的文本错误识别模型,确定通用语音识别技术获得的第一语音识别文本中错误位置,对该错误位置进行纠错即可得到更准确的第二语音识别文本,以解决在语音客服领域场景下,通用语音识别技术得到的语音识别文本准确率较低、语音转换文本的转换效果不佳的问题。
举例来说,本申请实施例的场景之一,可以是应用到如图1所示的场景中。该场景包括终端设备101和客服系统102,用户通过终端设备101输入语音,终端设备101获得用户输入语音并发送至客服系统102;客服系统102执行本申请实施例所提供的实施方式,实现对通用语音识别技术获得的第一语音识别文本的纠错,获得更准确的第二语音识别文本,以解决在语音客服领域场景下,通用语音识别技术得到的语音识别文本准确率较低、语音转换文本的转换效果不佳的问题。
首先,在上述应用场景中,虽然将本申请实施例提供的实施方式的动作描述由客服系统102执行;但是,本申请实施例在执行主体方面不受限制,只要执行了本申请实施例提供的实施方式所公开的动作即可。
其次,上述场景仅是本申请实施例提供的一个场景示例,本申请实施例并不限于此场景。
下面结合附图,通过实施例来详细说明本申请实施例中语音客服文本纠错的方法和相关装置的具体实现方式。
示例性方法
参见图2,示出了本申请实施例中一种语音客服文本纠错的方法的流程示意图。在本实施例中,所述方法例如可以包括以下步骤:
步骤201:对用户输入语音进行通用语音识别,获得第一语音识别文本。
在语音客服领域场景下,一般是利用通用语音识别技术将用户输入语音转换为语音识别文本,而通用语音识别技术缺乏针对性,导致用户输入语音转换为语音识别文本的转换效果不佳,即,通用语音识别技术得到的语音识别文本准确率较低。为了解决上述问题,若是针对语音客服领域场景单独训练语音识别模型,需要付出非常高的成本且不具有通用性,则该方式并不合适。因此,本申请实施例中,在语音客服领域场景下,仍然利用通用语音识别技术将用户输入语音转换为语音识别文本,该语音识别文本作为第一语音识别文本,后续需要考虑语音客服领域场景,对第一语音识别文本进行针对性的纠错,以解决通用语音识别技术得到的语音识别文本准确率较低、语音转换文本的转换效果不佳的问题。
步骤202:将所述第一语音识别文本输入文本错误识别模型,获得所述第一语音识别文本中错误位置;所述文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本,以及所述第一训练文本中每个位置的训练标签训练第一语言模型获得的;所述训练标签为正确标签或错误标签。
在本申请实施例中,在步骤201获得第一语音识别文本后,考虑语音客服领域场景,对第一语音识别文本进行针对性的纠错过程中,首先需要考虑语音客服领域场景,获得第一语音识别文本中错误位置,后续才能对第一语音识别文本中错误位置进行纠错。
实际应用中,获得第一语音识别文本中错误位置的方式例如可以是:考虑语音客服领域场景,既采集通用领域语料,又采集客服领域语料,得到第一训练文本,该第一训练文本中每个位置标注正确标签或错误标签的训练标签;基于上述数据训练第一语言模型,得到用于识别语音客服领域场景下语音识别文本中错误位置的文本错误识别模型;将第一语音识别文本输入该文本错误识别模型,即可获得第一语音识别文本中错误位置。
在本申请实施例一种可选的实施方式中,由于通用领域语料和语音客服领域语料的特性不同,通用领域语料和语音客服领域语料获得第一训练文本的方式不同。具体地,针对通用领域语料,需要将通用领域语料所包括的各个字随机替换成其他字,得到替换通用领域语料;比较替换通用领域语料与通用领域语料,替换通用领域语料中替换字所处的位置作为替换通用领域语料中替换位置,替换通用领域语料中未被替换字所处的位置作为替换通用领域语料中未替换位置;将替换通用领域语料作为第一训练文本,替换通用领域语料中替换位置需要标注错误标签,替换通用领域语料中未替换位置需要标注正确标签。
针对语音客服领域语料,需要人工纠错语音客服领域语料中各个字,得到纠错语音客服领域语料;比较语音客服领域语料与纠错语音客服领域语料,语音客服领域语料中未被纠错字所处的位置作为语音客服领域语料中正确位置,语音客服领域语料中被纠错字所处的位置作为语音客服领域语料中错误位置;将语音客服领域语料作为第一训练文本,语音客服领域语料中正确位置需要标注正确标签,语音客服领域语料中错误位置需要标注错误标签。
基于上述说明,在本申请实施例一种可选的实施方式中,所述第一训练文本的获得步骤例如可以包括以下步骤:
步骤A:对所述通用领域语料中各个字进行随机替换,获得替换通用领域语料;
步骤B:比较所述通用领域语料和所述替换通用领域语料,确定所述替换通用领域语料中替换位置和未替换位置;
步骤C:将所述替换通用领域语料确定为所述第一训练文本;所述替换通用领域语料中替换位置的训练标签为错误标签,所述替换通用领域语料中未替换位置的训练标签为正确标签;
步骤D:对所述语音客服领域语料进行纠错,获得纠错语音客服领域语料;
步骤E:比较所述语音客服领域语料和所述纠错语音客服领域语料,确定所述语音客服领域语料中正确位置和错误位置;
步骤F:将所述语音客服领域语料确定为所述第一训练文本;所述语音客服领域语料中正确位置的训练标签为正确标签,所述语音客服领域语料中错误位置的训练标签为错误标签。
其中,本申请实施例并不限定步骤A-步骤C与步骤D-步骤F之间的执行顺序,既可以先执行步骤A-步骤C再执行步骤D-步骤F,也可以先执行步骤D-步骤F再执行步骤A-步骤C,还可以同时执行步骤A-步骤C和步骤D-步骤F。
在本申请实施例一种可选的实施方式中,第一语言模型的具体结构例如可以为第一输入层、第一语义表示层和第一输出层,则在训练第一语言模型获得文本错误识别模型的过程中:首先,向第一输入层输入第一训练文本中各个字、各个词,第一输入层以各个字的字向量和各个词的第一词向量为基础,将各个字的字向量经过卷积处理和加权处理得到对应各个词的第二词向量,将各个词的第一词向量和对应的第二词向量经过相加处理得到各个词的第三词向量,将各个词的第三词向量组成第一训练文本的向量矩阵并输出。第一语言模型的第一输入层不仅挖掘第一训练文本中字的信息,而且挖掘第一训练文本的中字对词的相对影响。
其次,第一输入层输出的第一训练文本的向量矩阵输入第一语义表示层,第一语义表示层对第一训练文本的向量矩阵进行语义特征提取,得到第一训练文本的语义特征向量并输出,该第一语义表示层例如可以为双向长短期记忆网络(英文:Long Short-TermMemory,缩写:LSTM)。
然后,第一语义表示层输出的第一训练文本的语义特征向量输入第一输出层,该第一输出层基于第一训练文本的语义特征向量对第一训练文本中每个位置进行二分类处理,用于判断第一训练文本中每个位置是正确位置还是错误位置,得到第一训练文本中每个位置的标签预测数据并输出。
最后,对于第一输出层输出的标签预测数据,结合第一训练文本中每个位置的训练标签,利用第一语言模型的网络损失函数,调整第一语言模型的网络参数以训练第一语言模型,直至第一语言模型收敛或者达到预设训练次数,将训练好的第一语言模型作为文本错误识别模型。
即,在本申请实施例一种可选的实施方式中,所述第一语言模型包括第一输入层、第一语义表示层和第一输出层;对应地,所述文本错误识别模型的获得步骤例如可以包括以下步骤:
步骤G:将所述第一训练文本中各个字、各个词输入所述第一输入层,获得所述第一训练文本的向量矩阵。
作为一种示例,假设第一训练文本中各个字的字向量的维度均为100、各个词的第一词向量的维度均为100;各个字的字向量先经过不同尺度的卷积核进行卷积,再经过加权处理得到对应各个词的第二词向量,第二词向量的维度为100;各个词的第一词向量和对应的第二词向量经过相加处理得到各个词的第三词向量,第三词向量的维度为100,若第一训练文本中各个词的数量为30,则组成一个(30,100)的二维矩阵作为第一训练文本的向量矩阵。
步骤H:将所述第一训练文本的向量矩阵输入所述第一语义表示层,获得所述第一训练文本的语义特征向量。
作为一种示例,在上述示例的基础上,假设第一语义表示层为双向LSTM,其步长为第一训练文本中各个词的数量30,其隐层的神经元节点数量为第三词向量的维度100;对于前向LSTM和后向LSTM每个隐层分别输出(1,100)维的特征,将前向LSTM和后向LSTM每个隐层输出的特征进行拼接,获得(30,200)维的第一训练文本的隐层特征;对于(30,200)维的第一训练文本的隐层特征进行加权处理,计算前向LSTM和后向LSTM每个隐层对于第一训练文本的影响权重,并进行全连接变换获得200维的第一训练文本的语义特征向量。
步骤I:将所述第一训练文本的语义特征向量输入所述第一输出层,获得所述第一训练文本中每个位置的标签预测数据。
步骤J:基于所述第一训练文本中每个位置的标签预测数据和所述第一训练文本中每个位置的训练标签,调整所述第一语言模型的网络参数,获得所述文本错误识别模型。
基于上述步骤G-步骤I可得,将第一语音识别文本输入文本错误识别模型,第一输入层可以输出第一语音识别文本的向量矩阵,第一语义表示层可以输出第一语音识别文本的语义特征向量,第一输出层可以输出第一语音识别文本中每个位置的标签预测数据,在此基础上即可确定第一语音识别文本中错误位置。因此,在本申请实施例一种可选的实施方式中,所述步骤202例如可以包括以下步骤:
步骤2021:将所述第一语音识别文本中各个字、各个词输入所述第一输入层,获得所述第一语音识别文本的向量矩阵。
步骤2022:将所述第一语音识别文本的向量矩阵输入所述第一语义表示层,获得所述第一语音识别文本的语义特征向量。
步骤2023:将所述第一语音识别文本的语义特征向量输入所述第一输出层,获得所述第一语音识别文本中每个位置的标签预测数据。
步骤2024:基于第一语音识别文本中每个位置的标签预测数据,确定所述第一语音识别文本中错误位置。
步骤203:基于所述第一语音识别文本中错误位置进行纠错,获得第二语音识别文本。
在本申请实施例中,在步骤202获得第一语音识别文本中错误位置之后,由于第一语音识别文本中错误位置的字被认为是错误字,即,第一语音识别文本中错误位置的字是需要被纠错的;因此,基于第一语音识别文本中错误位置,对第一语音识别文本进行纠错,可以获得相较于第一语音识别文本更为准确的语音识别文本,作为第二语音识别文本。
通过本实施例提供的各种实施方式,利用通用语音识别技术将用户输入语音转换为第一语音识别文本;通过文本错误识别模型获得第一语音识别文本中错误位置,文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本,以及第一训练文本中每个位置的训练标签训练第一语言模型获得的,训练标签为正确标签或错误标签;基于第一语音识别文本中错误位置纠错获得第二语音识别文本。可见,在语音客服领域场景下,不需要单独训练具有针对性的语音识别模型,利用通用领域语料结合语音客服领域语料预先训练的文本错误识别模型,确定通用语音识别技术获得第一语音识别文本中错误位置,对该错误位置进行纠错即可得到更准确的第二语音识别文本,以解决通用语音识别技术得到的语音识别文本准确率较低、语音转换文本的转换效果不佳的问题。
实际应用中,在语音客服领域场景下,语音识别文本的纠错与语音识别文本的上文、语音识别文本的拼音均有较大的关联性;因此,步骤203基于第一语音识别文本中错误位置进行纠错,获得第二语音识别文本的方式例如可以是:考虑语音客服领域场景,在上述步骤D-步骤F的基础上,拼接语音客服领域语料和其上文得到第二训练文本;获得第二训练文本的拼音以及第二训练文本中错误位置对应的纠错字。基于上述数据训练第二语言模型,得到用于对第一语音识别文本中错误位置进行纠错的文本纠错模型;利用该文本纠错模型对第一语音识别文本进行纠错,即可获得相较于第一语音识别文本更为准确的语音识别文本,作为第二语音识别文本。
其中,由于该第二训练文本中错误位置为语音客服领域语料中错误位置,则第二训练文本中错误位置对应的纠错字为语音客服领域语料中错误位置对应的纠错字,语音客服领域语料中错误位置对应的纠错字是基于语音客服领域语料和纠错语音客服领域语料获得的。
具体地,在步骤201-步骤202之后,拼接第一语音识别文本和其上文得到语音识别输入文本,该语音识别输入文本中错误位置为第一语音识别文本中错误位置;获得语音识别输入文本的拼音以及语音识别输入文本中错误位置对应的各个候选纠错字,该语音识别输入文本中错误位置对应的各个候选纠错字是从第一语音识别文本对应的候选纠错字词典中筛选得到的;将上述数据输入文本纠错模型即可获得第一语音识别文本对应的第二语音识别文本。
基于上述说明,参见图3,示出了本申请实施例中另一种语音客服文本纠错的方法的流程示意图。在本实施例中,所述方法例如可以包括以下步骤:
步骤301:对用户输入语音进行通用语音识别,获得第一语音识别文本。
步骤302:将所述第一语音识别文本输入文本错误识别模型,获得所述第一语音识别文本中错误位置;所述文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本,以及所述第一训练文本中每个位置的训练标签训练第一语言模型获得的;所述训练标签为正确标签或错误标签。
其中,步骤301-步骤302和上述实施例中步骤201-步骤202相同,具体说明参见上述说明,在此不再赘述。
步骤303:拼接所述第一语音识别文本和所述第一语音识别文本的上文,获得语音识别输入文本;所述语音识别输入文本中错误位置为所述第一语音识别文本中错误位置。
步骤304:获得所述语音识别输入文本的拼音;从所述第一语音识别文本对应的候选纠错字词典中,获得所述语音识别输入文本中错误位置对应的各个候选纠错字。
在本申请实施例中,第一语音识别文本对应的候选纠错字词典是由第一语音识别文本中各个字对应的一些关联性较大的候选纠错字所组成的。因此,在本申请实施例一种可选的实施方式中,所述第一语音识别文本对应的候选纠错字词典包括以下一种或多种:所述第一语音识别文本中各个字的相同读音和模糊读音对应的字、所述第一语音识别文本的上文中各个字、与所述第一语音识别文本中第一实体相似度大于预设相似度的第一相似实体中各个字、与所述第一语音识别文本的上文中第二实体相似度大于所述预设相似度的第二相似实体中各个字。其中,相似度例如可以通过计算编辑距离等等表示。
步骤305:将所述语音识别输入文本、所述语音识别输入文本的拼音,以及所述语音识别输入文本中错误位置对应的各个候选纠错字输入文本纠错模型,获得所述第一语音识别文本对应的第二语音识别文本;所述文本纠错模型是基于第二训练文本、所述第二训练文本的拼音和所述第二训练文本中错误位置对应的纠错字训练第二语言模型获得的;所述第二训练文本是拼接所述语音客服领域语料和所述语音客服领域语料的上文获得的。
在本申请实施例一种可选的实施方式中,第二语言模型的具体结构与第一语言模型的具体结构类似;即,第二语言模型的具体结构例如可以为第二输入层、第二语义表示层和第二输出层。训练第二语言模型获得文本纠错模型的过程与训练第一语言模型获得文本错误识别模型的过程类似。
对于第二输入层而言,其与第一输入层的原理相同,将第二训练文本代替第一训练文本,并增加第二训练文本的拼音中各个字拼音,直接在第二训练文本中各个字的字向量上增加各个字拼音的拼音向量即可,第二输入层输出第二训练文本的向量矩阵。
对于第二语义表示层而言,其与第一语义表示层的原理相同,将第二训练文本的向量矩阵代替第一训练文本的向量矩阵,第二语义表示层输出第二训练文本的语义特征向量。
但是,对于第二输出层而言,其与第一输出层的原理不同,第二输出层基于第二训练文本的语义特征向量对第二训练文本中错误位置进行多分类处理,用于预测第二训练文本中错误位置对应的纠错字,得到第二训练文本中错误位置对应的预测纠错字并输出。
同理可得,对于第二输出层输出的第二训练文本中错误位置对应的预测纠错字,结合第二训练文本中错误位置对应的纠错字,利用第二语言模型的网络损失函数,调整第二语言模型的网络参数以训练第二语言模型,直至第二语言模型收敛或者达到预设训练次数,将训练好的第二语言模型作为文本纠错模型。
即,在本申请实施例一种可选的实施方式中,所述第二语言模型包括第二输入层、第二语义表示层和第二输出层;对应地,所述文本纠错模型的训练步骤例如可以包括以下步骤:
步骤K:将所述第二训练文本中各个字、各个词以及所述第二训练文本的拼音中各个字拼音输入所述第二输入层,获得所述第二训练文本的向量矩阵;
步骤L:将所述第二训练文本的向量矩阵输入所述第二语义表示层,获得所述第二训练文本的语义特征向量;
步骤M:将所述第二训练文本的语义特征向量输入所述第二输出层,获得所述第二训练文本中错误位置对应的预测纠错字;
步骤N:基于所述第二训练文本中错误位置对应的预测纠错字和所述第二训练文本中错误位置对应的纠错字,调整所述第二语言模型的网络参数,获得所述文本纠错模型。
基于上述步骤K-步骤M可得,将语音识别输入文本和语音识别输入文本中错误位置对应的各个候选纠错字输入文本纠错模型,第二输入层可以输出语音识别输入文本的向量矩阵,第二语义表示层可以输出语音识别输入文本的语义特征向量,第二输出层可以计算语音识别输入文本中错误位置对应的各个候选纠错字的候选概率,以确定语音识别输入文本中错误位置对应的目前纠错字;在此基础上,即可通过语音识别输入文本中错误位置对应的目前纠错字,对第一语音识别文本中错误位置进行纠错,获得第一语音识别文本对应的第二语音识别文本。因此,在本申请实施例一种可选的实施方式中,所述步骤305例如可以包括以下步骤:
步骤3051:将所述语音识别输入文本中各个字、各个词以及所述语音识别输入文本的拼音中各个字拼音输入所述第二输入层,获得所述语音识别输入文本的向量矩阵;
步骤3052:将所述语音识别输入文本的向量矩阵输入所述第二语义表示层,获得所述语音识别输入文本的语义特征向量;
步骤3053:将所述语音识别输入文本的语义特征向量和所述语音识别输入文本中错误位置对应的各个候选纠错字输入所述第二输出层,获得所述语音识别输入文本中错误位置对应的目前纠错字;
步骤3054:基于所述第一语音识别文本和所述语音识别输入文本中错误位置对应的目前纠错字,获得所述第一语音识别文本对应的第二语音识别文本。
在本申请实施例中,在步骤203或者步骤305完成对第一语音识别文本的纠错后,得到的第二语音识别文本仍可能存在一部分实体错误,该错误不容易被文本错误识别模型识别,进而不容易被文本纠错模型纠错。此情况下,可以利用实体关系知识图谱对第二语音识别文本进行进一步纠错,以得到相较于第二语音识别文本更为准确的语音识别文本,作为第三语音识别文本。因此,在本申请实施例一种可选的实施方式中,在步骤203或者步骤305之后,例如还可以包括步骤O:基于实体关系知识图谱对所述第二语音识别文本中实体进行纠错,获得第三语音识别文本。
具体地,首先,将第二语音识别文本中实体作为第三实体,利用第三实体的相同读音和模糊读音,在实体关系知识图谱中找到与第三实体读音相似的实体作为第三相似实体;然后,在第三实体和第三相似实体的基础上,利用实体关系知识图谱进行排列组合找到相关实体关系对;最后,利用相关实体关系对,对第二语音识别文本进行进一步纠错,得到第三语音识别文本。因此,在本申请实施例一种可选的实施方式中,所述步骤O例如可以包括以下步骤:
步骤O1:在所述实体关系知识图谱中,获得所述第二语音识别文本中第三实体的相同读音和模糊读音对应的第三相似实体;
步骤O2:基于所述第二语音识别文本中第三实体、所述第三相似实体和所述实体关系知识图谱,获得相关实体关系对;
步骤O3:基于所述相关实体关系对纠错所述第二语音识别文本,获得所述第三语音识别文本。
作为一种示例,假设第二语音识别文本为“张三创建了a公司”,执行步骤O1-步骤O2,获得的相关实体关系对为(张山,创建,a公司),基于相关实体关系对(张山,创建,a公司)纠错第二语音识别文本“张三创建了a公司”,获得第三语音识别文本为“张山创建了a公司”。
通过本实施例提供的各种实施方式,利用通用语音识别技术将用户输入语音转换为第一语音识别文本;通过文本错误识别模型获得第一语音识别文本中错误位置,文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本,以及第一训练文本中每个位置的训练标签训练第一语言模型获得的,训练标签为正确标签或错误标签;先拼接第一语音识别文本和其上文获得语音识别输入文本,再获得语音识别输入文本的拼音和语音识别输入文本中错误位置对应的各个候选纠错字;利用文本纠错模型纠错第一语音识别文本获得第二语音识别文本,文本纠错模型是基于拼接语音客服领域语料其上文获得的第二训练文本、第二训练文本的拼音以及第二训练文本中错误位置对应的纠错字训练第二语言模型获得的。可见,在语音客服领域场景下,不需要单独训练具有针对性的语音识别模型,先利用通用领域语料结合语音客服领域语料预先训练的文本错误识别模型,确定通用语音识别技术获得第一语音识别文本中错误位置;再利用语音客服领域语料结合其上文和拼音预先训练的文本纠错模型,对第一语音识别文本中错误位置进行纠错,即可得到更准确的第二语音识别文本,以解决在语音客服领域场景下,通用语音识别技术得到的语音识别文本准确率较低、语音转换文本的转换效果不佳的问题。
示例性装置
参见图4,示出了本申请实施例中一种语音客服文本纠错的装置的结构示意图。在本实施例中,所述装置例如具体可以包括:
第一获得单元401,用于对用户输入语音进行通用语音识别,获得第一语音识别文本;
第二获得单元402,用于将所述第一语音识别文本输入文本错误识别模型,获得所述第一语音识别文本中错误位置;
第三获得单元403,用于基于所述第一语音识别文本中错误位置进行纠错,获得第二语音识别文本;
其中,所述文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本,以及所述第一训练文本中每个位置的训练标签训练第一语言模型获得的;所述训练标签为正确标签或错误标签。
在本申请实施例一种可选的实施方式中,所述第一语言模型包括第一输入层、第一语义表示层和第一输出层;对应地,所述装置还包括文本错误识别模型获得单元,所述文本错误识别模型获得单元包括:
第一获得子单元,用于将所述第一训练文本中各个字、各个词输入所述第一输入层,获得所述第一训练文本的向量矩阵;
第二获得子单元,用于将所述第一训练文本的向量矩阵输入所述第一语义表示层,获得所述第一训练文本的语义特征向量;
第三获得子单元,用于将所述第一训练文本的语义特征向量输入所述第一输出层,获得所述第一训练文本中每个位置的标签预测数据;
第四获得子单元,用于基于所述第一训练文本中每个位置的标签预测数据和所述第一训练文本中每个位置的训练标签,调整所述第一语言模型的网络参数,获得所述文本错误识别模型。
在本申请实施例一种可选的实施方式中,所述装置还包括第一训练文本获得单元,所述第一训练文本获得单元包括:
第五获得子单元,用于对所述通用领域语料中各个字进行随机替换,获得替换通用领域语料;
第一确定子单元,用于比较所述通用领域语料和所述替换通用领域语料,确定所述替换通用领域语料中替换位置和未替换位置;
第二确定子单元,用于将所述替换通用领域语料确定为所述第一训练文本;所述替换通用领域语料中替换位置的训练标签为错误标签,所述替换通用领域语料中未替换位置的训练标签为正确标签;
第六获得子单元,用于对所述语音客服领域语料进行纠错,获得纠错语音客服领域语料;
第三确定子单元,用于比较所述语音客服领域语料和所述纠错语音客服领域语料,确定所述语音客服领域语料中正确位置和错误位置;
第四确定子单元,用于将所述语音客服领域语料确定为所述第一训练文本;所述语音客服领域语料中正确位置的训练标签为正确标签,所述语音客服领域语料中错误位置的训练标签为错误标签。
在本申请实施例一种可选的实施方式中,所述第二获得单元402包括:
第七获得子单元,用于将所述第一语音识别文本中各个字、各个词输入所述第一输入层,获得所述第一语音识别文本的向量矩阵;
第八获得子单元,用于将所述第一语音识别文本的向量矩阵输入所述第一语义表示层,获得所述第一语音识别文本的语义特征向量;
第九获得子单元,用于将所述第一语音识别文本的语义特征向量输入所述第一输出层,获得所述第一语音识别文本中每个位置的标签预测数据;
第五确定子单元,用于基于第一语音识别文本中每个位置的标签预测数据,确定所述第一语音识别文本中错误位置。
在本申请实施例一种可选的实施方式中,所述第三获得单元403包括:
第十获得子单元,用于拼接所述第一语音识别文本和所述第一语音识别文本的上文,获得语音识别输入文本;所述语音识别输入文本中错误位置为所述第一语音识别文本中错误位置;
第十一获得子单元,用于获得所述语音识别输入文本的拼音;从所述第一语音识别文本对应的候选纠错字词典中,获得所述语音识别输入文本中错误位置对应的各个候选纠错字;
第十二获得子单元,用于将所述语音识别输入文本、所述语音识别输入文本的拼音,以及所述语音识别输入文本中错误位置对应的各个候选纠错字输入文本纠错模型,获得所述第一语音识别文本对应的第二语音识别文本;
其中,所述文本纠错模型是基于第二训练文本、所述第二训练文本的拼音和所述第二训练文本中错误位置对应的纠错字训练第二语言模型获得的;所述第二训练文本是拼接所述语音客服领域语料和所述语音客服领域语料的上文获得的。
在本申请实施例一种可选的实施方式中,所述第二语言模型包括第二输入层、第二语义表示层和第二输出层;对应地,所述装置还包括文本纠错模型获得单元,所述文本纠错模型获得单元包括:
第十三获得子单元,用于将所述第二训练文本中各个字、各个词以及所述第二训练文本的拼音中各个字拼音输入所述第二输入层,获得所述第二训练文本的向量矩阵;
第十四获得子单元,用于将所述第二训练文本的向量矩阵输入所述第二语义表示层,获得所述第二训练文本的语义特征向量;
第十五获得子单元,用于将所述第二训练文本的语义特征向量输入所述第二输出层,获得所述第二训练文本中错误位置对应的预测纠错字;
第十六获得子单元,用于基于所述第二训练文本中错误位置对应的预测纠错字和所述第二训练文本中错误位置对应的纠错字,调整所述第二语言模型的网络参数,获得所述文本纠错模型。
在本申请实施例一种可选的实施方式中,所述第十二获得子单元包括:
第一获得模块,用于将所述语音识别输入文本中各个字、各个词以及所述语音识别输入文本的拼音中各个字拼音输入所述第二输入层,获得所述语音识别输入文本的向量矩阵;
第二获得模块,用于将所述语音识别输入文本的向量矩阵输入所述第二语义表示层,获得所述语音识别输入文本的语义特征向量;
第三获得模块,用于将所述语音识别输入文本的语义特征向量和所述语音识别输入文本中错误位置对应的各个候选纠错字输入所述第二输出层,获得所述语音识别输入文本中错误位置对应的目前纠错字;
第四获得模块,用于基于所述第一语音识别文本和所述语音识别输入文本中错误位置对应的目前纠错字,获得所述第一语音识别文本对应的第二语音识别文本。
在本申请实施例一种可选的实施方式中,所述第一语音识别文本对应的候选纠错字词典包括以下一种或多种:
所述第一语音识别文本中各个字的相同读音和模糊读音对应的字、所述第一语音识别文本的上文中各个字、与所述第一语音识别文本中第一实体相似度大于预设相似度的第一相似实体中各个字、与所述第一语音识别文本的上文中第二实体相似度大于所述预设相似度的第二相似实体中各个字。
在本申请实施例一种可选的实施方式中,所述装置还包括第四获得单元,所述第四获得单元用于:
基于实体关系知识图谱对所述第二语音识别文本中实体进行纠错,获得第三语音识别文本。
在本申请实施例一种可选的实施方式中,所述第四获得单元包括:
第十七获得子单元,用于获得所述第二语音识别文本中第三实体的相同读音和模糊读音对应的第三相似实体;
第十八获得子单元,用于基于所述第二语音识别文本中第三实体、所述第三相似实体和所述实体关系知识图谱,获得相关实体关系对;
第十九获得子单元,用于基于所述相关实体关系对纠错所述第二语音识别文本,获得所述第三语音识别文本。
通过本实施例提供的各种实施方式,利用通用语音识别技术将用户输入语音转换为第一语音识别文本;通过文本错误识别模型获得第一语音识别文本中错误位置,文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本,以及第一训练文本中每个位置的训练标签训练第一语言模型获得的,训练标签为正确标签或错误标签;基于第一语音识别文本中错误位置纠错获得第二语音识别文本。由此可见,在语音客服领域场景下,不需要单独训练具有针对性的语音识别模型,利用通用领域语料结合语音客服领域语料预先训练的文本错误识别模型,确定通用语音识别技术获得的第一语音识别文本中错误位置,对该错误位置进行纠错即可得到更准确的第二语音识别文本,以解决在语音客服领域场景下,通用语音识别技术得到的语音识别文本准确率较低、语音转换文本的转换效果不佳的问题。
此外,本申请实施例还提供了一种终端设备,所述终端设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述方法实施例所述的语音客服文本纠错的方法。
本申请实施例一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述方法实施例所述的语音客服文本纠错的方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上,然而并非用以限定本申请。任何熟悉本领域的技术人员,在不脱离本申请技术方案范围情况下,都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本申请技术方案的内容,依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本申请技术方案保护的范围内。
Claims (13)
1.一种语音客服文本纠错的方法,其特征在于,包括:
对用户输入语音进行通用语音识别,获得第一语音识别文本;
将所述第一语音识别文本输入文本错误识别模型,获得所述第一语音识别文本中错误位置;
基于所述第一语音识别文本中错误位置进行纠错,获得第二语音识别文本;
其中,所述文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本,以及所述第一训练文本中每个位置的训练标签训练第一语言模型获得的;所述训练标签为正确标签或错误标签。
2.根据权利要求1所述的方法,其特征在于,所述第一语言模型包括第一输入层、第一语义表示层和第一输出层;对应地,所述文本错误识别模型的获得步骤包括:
将所述第一训练文本中各个字、各个词输入所述第一输入层,获得所述第一训练文本的向量矩阵;
将所述第一训练文本的向量矩阵输入所述第一语义表示层,获得所述第一训练文本的语义特征向量;
将所述第一训练文本的语义特征向量输入所述第一输出层,获得所述第一训练文本中每个位置的标签预测数据;
基于所述第一训练文本中每个位置的标签预测数据和所述第一训练文本中每个位置的训练标签,调整所述第一语言模型的网络参数,获得所述文本错误识别模型。
3.根据权利要求1所述的方法,其特征在于,所述第一训练文本的获得步骤包括:
对所述通用领域语料中各个字进行随机替换,获得替换通用领域语料;
比较所述通用领域语料和所述替换通用领域语料,确定所述替换通用领域语料中替换位置和未替换位置;
将所述替换通用领域语料确定为所述第一训练文本;所述替换通用领域语料中替换位置的训练标签为错误标签,所述替换通用领域语料中未替换位置的训练标签为正确标签;
对所述语音客服领域语料进行纠错,获得纠错语音客服领域语料;
比较所述语音客服领域语料和所述纠错语音客服领域语料,确定所述语音客服领域语料中正确位置和错误位置;
将所述语音客服领域语料确定为所述第一训练文本;所述语音客服领域语料中正确位置的训练标签为正确标签,所述语音客服领域语料中错误位置的训练标签为错误标签。
4.根据权利要求2所述的方法,其特征在于,所述将所述第一语音识别文本输入文本错误识别模型,获得所述第一语音识别文本中错误位置,包括:
将所述第一语音识别文本中各个字、各个词输入所述第一输入层,获得所述第一语音识别文本的向量矩阵;
将所述第一语音识别文本的向量矩阵输入所述第一语义表示层,获得所述第一语音识别文本的语义特征向量;
将所述第一语音识别文本的语义特征向量输入所述第一输出层,获得所述第一语音识别文本中每个位置的标签预测数据;
基于第一语音识别文本中每个位置的标签预测数据,确定所述第一语音识别文本中错误位置。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一语音识别文本中错误位置进行纠错,获得第二语音识别文本,包括:
拼接所述第一语音识别文本和所述第一语音识别文本的上文,获得语音识别输入文本;所述语音识别输入文本中错误位置为所述第一语音识别文本中错误位置;
获得所述语音识别输入文本的拼音;从所述第一语音识别文本对应的候选纠错字词典中,获得所述语音识别输入文本中错误位置对应的各个候选纠错字;
将所述语音识别输入文本、所述语音识别输入文本的拼音,以及所述语音识别输入文本中错误位置对应的各个候选纠错字输入文本纠错模型,获得所述第一语音识别文本对应的第二语音识别文本;
其中,所述文本纠错模型是基于第二训练文本、所述第二训练文本的拼音和所述第二训练文本中错误位置对应的纠错字训练第二语言模型获得的;所述第二训练文本是拼接所述语音客服领域语料和所述语音客服领域语料的上文获得的。
6.根据权利要求5所述的方法,其特征在于,所述第二语言模型包括第二输入层、第二语义表示层和第二输出层;对应地,所述文本纠错模型的训练步骤包括:
将所述第二训练文本中各个字、各个词以及所述第二训练文本的拼音中各个字拼音输入所述第二输入层,获得所述第二训练文本的向量矩阵;
将所述第二训练文本的向量矩阵输入所述第二语义表示层,获得所述第二训练文本的语义特征向量;
将所述第二训练文本的语义特征向量输入所述第二输出层,获得所述第二训练文本中错误位置对应的预测纠错字;
基于所述第二训练文本中错误位置对应的预测纠错字和所述第二训练文本中错误位置对应的纠错字,调整所述第二语言模型的网络参数,获得所述文本纠错模型。
7.根据权利要求5所述的方法,其特征在于,所述将所述语音识别输入文本、所述语音识别输入文本的拼音,以及所述语音识别输入文本中错误位置对应的各个候选纠错字输入文本纠错模型,获得所述第二语音识别文本,包括:
将所述语音识别输入文本中各个字、各个词以及所述语音识别输入文本的拼音中各个字拼音输入所述第二输入层,获得所述语音识别输入文本的向量矩阵;
将所述语音识别输入文本的向量矩阵输入所述第二语义表示层,获得所述语音识别输入文本的语义特征向量;
将所述语音识别输入文本的语义特征向量和所述语音识别输入文本中错误位置对应的各个候选纠错字输入所述第二输出层,获得所述语音识别输入文本中错误位置对应的目前纠错字;
基于所述第一语音识别文本和所述语音识别输入文本中错误位置对应的目前纠错字,获得所述第一语音识别文本对应的第二语音识别文本。
8.根据权利要求5-7任意一项所述的方法,其特征在于,所述第一语音识别文本对应的候选纠错字词典包括以下一种或多种:
所述第一语音识别文本中各个字的相同读音和模糊读音对应的字、所述第一语音识别文本的上文中各个字、与所述第一语音识别文本中第一实体相似度大于预设相似度的第一相似实体中各个字、与所述第一语音识别文本的上文中第二实体相似度大于所述预设相似度的第二相似实体中各个字。
9.根据权利要求1所述的方法,其特征在于,在所述获得第二语音识别文本之后,还包括:
基于实体关系知识图谱对所述第二语音识别文本中实体进行纠错,获得第三语音识别文本。
10.根据权利要求9所述的方法,其特征在于,所述基于实体关系知识图谱对所述第二语音识别文本中实体进行纠错处理,获得第三语音识别文本,包括:
获得所述第二语音识别文本中第三实体的相同读音和模糊读音对应的第三相似实体;
基于所述第二语音识别文本中第三实体、所述第三相似实体和所述实体关系知识图谱,获得相关实体关系对;
基于所述相关实体关系对纠错所述第二语音识别文本,获得所述第三语音识别文本。
11.一种语音客服文本纠错的装置,其特征在于,包括:
第一获得单元,用于对用户输入语音进行通用语音识别,获得第一语音识别文本;
第二获得单元,用于将所述第一语音识别文本输入文本错误识别模型,获得所述第一语音识别文本中错误位置;
第三获得单元,用于基于所述第一语音识别文本中错误位置进行纠错,获得第二语音识别文本;
其中,所述文本错误识别模型是基于由通用领域语料、语音客服领域语料获得的第一训练文本,以及所述第一训练文本中每个位置的训练标签训练第一语言模型获得的;所述训练标签为正确标签或错误标签。
12.一种终端设备,其特征在于,所述终端设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-10任一项所述的语音客服文本纠错的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-10任一项所述的语音客服文本纠错的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010929561.5A CN111985213B (zh) | 2020-09-07 | 2020-09-07 | 一种语音客服文本纠错的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010929561.5A CN111985213B (zh) | 2020-09-07 | 2020-09-07 | 一种语音客服文本纠错的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111985213A true CN111985213A (zh) | 2020-11-24 |
CN111985213B CN111985213B (zh) | 2024-05-28 |
Family
ID=73447907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010929561.5A Active CN111985213B (zh) | 2020-09-07 | 2020-09-07 | 一种语音客服文本纠错的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111985213B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232062A (zh) * | 2020-12-11 | 2021-01-15 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、电子设备和存储介质 |
CN112562659A (zh) * | 2020-12-11 | 2021-03-26 | 上海科大讯飞信息科技有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN112597753A (zh) * | 2020-12-22 | 2021-04-02 | 北京百度网讯科技有限公司 | 文本纠错处理方法、装置、电子设备和存储介质 |
CN112883221A (zh) * | 2020-12-11 | 2021-06-01 | 广州橙行智动汽车科技有限公司 | 一种语义信息纠正方法、装置和智能座舱 |
CN112905737A (zh) * | 2021-01-28 | 2021-06-04 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN112951238A (zh) * | 2021-03-19 | 2021-06-11 | 河南蜂云科技发展有限公司 | 一种基于语音处理的科技法庭智能管理方法、系统及存储介质 |
CN113035175A (zh) * | 2021-03-02 | 2021-06-25 | 科大讯飞股份有限公司 | 一种语音文本重写模型构建方法、语音识别方法 |
CN113223509A (zh) * | 2021-04-28 | 2021-08-06 | 华南理工大学 | 一种应用于多人混杂场景下的模糊语句识别方法及系统 |
CN113781998A (zh) * | 2021-09-10 | 2021-12-10 | 未鲲(上海)科技服务有限公司 | 基于方言纠正模型的语音识别方法、装置、设备及介质 |
CN116187304A (zh) * | 2023-04-26 | 2023-05-30 | 中国传媒大学 | 一种基于改进bert的自动文本纠错算法及系统 |
CN117789706A (zh) * | 2024-02-27 | 2024-03-29 | 富迪科技(南京)有限公司 | 一种音频信息内容识别方法 |
CN113781998B (zh) * | 2021-09-10 | 2024-06-07 | 河南松音科技有限公司 | 基于方言纠正模型的语音识别方法、装置、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858023A (zh) * | 2019-01-04 | 2019-06-07 | 北京车慧科技有限公司 | 一种语句纠错装置 |
CN110428822A (zh) * | 2019-08-05 | 2019-11-08 | 重庆电子工程职业学院 | 一种语音识别纠错方法及人机对话系统 |
CN110765763A (zh) * | 2019-09-24 | 2020-02-07 | 金蝶软件(中国)有限公司 | 语音识别文本的纠错方法、装置、计算机设备和存储介质 |
CN111241814A (zh) * | 2019-12-31 | 2020-06-05 | 中移(杭州)信息技术有限公司 | 语音识别文本的纠错方法、装置、电子设备及存储介质 |
CN111310447A (zh) * | 2020-03-18 | 2020-06-19 | 科大讯飞股份有限公司 | 语法纠错方法、装置、电子设备和存储介质 |
CN111339758A (zh) * | 2020-02-21 | 2020-06-26 | 苏宁云计算有限公司 | 基于深度学习模型的文本纠错方法及系统 |
CN111339757A (zh) * | 2020-02-13 | 2020-06-26 | 上海凯岸信息科技有限公司 | 一种催收场景下语音识别结果的纠错方法 |
-
2020
- 2020-09-07 CN CN202010929561.5A patent/CN111985213B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858023A (zh) * | 2019-01-04 | 2019-06-07 | 北京车慧科技有限公司 | 一种语句纠错装置 |
CN110428822A (zh) * | 2019-08-05 | 2019-11-08 | 重庆电子工程职业学院 | 一种语音识别纠错方法及人机对话系统 |
CN110765763A (zh) * | 2019-09-24 | 2020-02-07 | 金蝶软件(中国)有限公司 | 语音识别文本的纠错方法、装置、计算机设备和存储介质 |
CN111241814A (zh) * | 2019-12-31 | 2020-06-05 | 中移(杭州)信息技术有限公司 | 语音识别文本的纠错方法、装置、电子设备及存储介质 |
CN111339757A (zh) * | 2020-02-13 | 2020-06-26 | 上海凯岸信息科技有限公司 | 一种催收场景下语音识别结果的纠错方法 |
CN111339758A (zh) * | 2020-02-21 | 2020-06-26 | 苏宁云计算有限公司 | 基于深度学习模型的文本纠错方法及系统 |
CN111310447A (zh) * | 2020-03-18 | 2020-06-19 | 科大讯飞股份有限公司 | 语法纠错方法、装置、电子设备和存储介质 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022003539A (ja) * | 2020-12-11 | 2022-01-11 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | テキスト誤り訂正方法、装置、電子機器及び記憶媒体 |
CN112562659A (zh) * | 2020-12-11 | 2021-03-26 | 上海科大讯飞信息科技有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN112883221A (zh) * | 2020-12-11 | 2021-06-01 | 广州橙行智动汽车科技有限公司 | 一种语义信息纠正方法、装置和智能座舱 |
CN112232062A (zh) * | 2020-12-11 | 2021-01-15 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、电子设备和存储介质 |
CN112562659B (zh) * | 2020-12-11 | 2024-04-09 | 科大讯飞(上海)科技有限公司 | 语音识别方法、装置、电子设备和存储介质 |
JP7267365B2 (ja) | 2020-12-11 | 2023-05-01 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | テキスト誤り訂正方法、装置、電子機器及び記憶媒体 |
CN112883221B (zh) * | 2020-12-11 | 2024-03-08 | 广州橙行智动汽车科技有限公司 | 一种语义信息纠正方法、装置和智能座舱 |
US11423222B2 (en) * | 2020-12-11 | 2022-08-23 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus for text error correction, electronic device and storage medium |
CN112597753A (zh) * | 2020-12-22 | 2021-04-02 | 北京百度网讯科技有限公司 | 文本纠错处理方法、装置、电子设备和存储介质 |
CN112905737A (zh) * | 2021-01-28 | 2021-06-04 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
WO2022160447A1 (zh) * | 2021-01-28 | 2022-08-04 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN113035175A (zh) * | 2021-03-02 | 2021-06-25 | 科大讯飞股份有限公司 | 一种语音文本重写模型构建方法、语音识别方法 |
CN113035175B (zh) * | 2021-03-02 | 2024-04-12 | 科大讯飞股份有限公司 | 一种语音文本重写模型构建方法、语音识别方法 |
CN112951238A (zh) * | 2021-03-19 | 2021-06-11 | 河南蜂云科技发展有限公司 | 一种基于语音处理的科技法庭智能管理方法、系统及存储介质 |
CN113223509B (zh) * | 2021-04-28 | 2022-06-10 | 华南理工大学 | 一种应用于多人混杂场景下的模糊语句识别方法及系统 |
CN113223509A (zh) * | 2021-04-28 | 2021-08-06 | 华南理工大学 | 一种应用于多人混杂场景下的模糊语句识别方法及系统 |
CN113781998A (zh) * | 2021-09-10 | 2021-12-10 | 未鲲(上海)科技服务有限公司 | 基于方言纠正模型的语音识别方法、装置、设备及介质 |
CN113781998B (zh) * | 2021-09-10 | 2024-06-07 | 河南松音科技有限公司 | 基于方言纠正模型的语音识别方法、装置、设备及介质 |
CN116187304A (zh) * | 2023-04-26 | 2023-05-30 | 中国传媒大学 | 一种基于改进bert的自动文本纠错算法及系统 |
CN117789706A (zh) * | 2024-02-27 | 2024-03-29 | 富迪科技(南京)有限公司 | 一种音频信息内容识别方法 |
CN117789706B (zh) * | 2024-02-27 | 2024-05-03 | 富迪科技(南京)有限公司 | 一种音频信息内容识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111985213B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111985213A (zh) | 一种语音客服文本纠错的方法和装置 | |
US11100921B2 (en) | Pinyin-based method and apparatus for semantic recognition, and system for human-machine dialog | |
CN111523306A (zh) | 文本的纠错方法、装置和系统 | |
CN109960728B (zh) | 一种开放域会议信息命名实体识别方法及系统 | |
CN110517693B (zh) | 语音识别方法、装置、电子设备和计算机可读存储介质 | |
CN111651992A (zh) | 命名实体标注方法、装置、计算机设备和存储介质 | |
CN111931490B (zh) | 文本纠错方法、装置及存储介质 | |
CN111401064B (zh) | 一种命名实体识别方法、装置及终端设备 | |
CN109977203B (zh) | 语句相似度确定方法、装置、电子设备及可读存储介质 | |
CN112036168B (zh) | 事件主体识别模型优化方法、装置、设备及可读存储介质 | |
TWI567569B (zh) | Natural language processing systems, natural language processing methods, and natural language processing programs | |
CN112364658A (zh) | 翻译以及语音识别方法、装置、设备 | |
CN112329476A (zh) | 一种文本纠错方法及装置、设备、存储介质 | |
CN110021293A (zh) | 语音识别方法及装置、可读存储介质 | |
CN112818086A (zh) | 一种机器人催收获取客户意向标签的多标签分类方法 | |
CN111554276A (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
CN110489727B (zh) | 人名识别方法及相关装置 | |
CN112084301A (zh) | 文本修正模型的训练方法及装置、文本修正方法及装置 | |
CN111611791A (zh) | 一种文本处理的方法及相关装置 | |
CN115017890A (zh) | 基于字音字形相似的文本纠错方法和装置 | |
CN114707518B (zh) | 面向语义片段的目标情感分析方法、装置、设备及介质 | |
CN116595023A (zh) | 地址信息的更新方法和装置、电子设备及存储介质 | |
CN112966476B (zh) | 文本处理方法、装置、电子设备及存储介质 | |
JP6712973B2 (ja) | 文生成装置、文生成学習装置、文生成方法、及びプログラム | |
CN113420121B (zh) | 文本处理模型训练方法、语音文本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |