CN115331675A - 一种处理用户语音的方法及装置 - Google Patents
一种处理用户语音的方法及装置 Download PDFInfo
- Publication number
- CN115331675A CN115331675A CN202211016558.XA CN202211016558A CN115331675A CN 115331675 A CN115331675 A CN 115331675A CN 202211016558 A CN202211016558 A CN 202211016558A CN 115331675 A CN115331675 A CN 115331675A
- Authority
- CN
- China
- Prior art keywords
- voice
- text
- speech
- recognition model
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000012937 correction Methods 0.000 claims description 39
- 238000011156 evaluation Methods 0.000 claims description 15
- 230000000694 effects Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请提供一种处理用户语音的方法及装置,该方法包括,将目标用户的待识别语音输入预先训练好的语音识别模型中,得到待识别语音的文本信息,其中,语音识别模型是通过检测初始语音识别模型的语音识别准确率小于准确阈值时时,通过对初始语音识别模型进行更新得到的,初始语音识别模型是通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对现有模型进行训练得到的;对文本信息进行处理,得到处理结果。通过该方法可以达到提高处理用户语音的效率的效果。
Description
技术领域
本申请涉及语音处理的领域,具体而言,涉及一种处理用户语音的方法及装置。
背景技术
目前,在处理用户语音中用到的方法主要是通过人工审核的方式,对用户的语音话术进行抽取,通过语音识别模型将语音转化成文本之后,实现一对一的文本审核,进而对用户的话术表达进行评价。
上述基于方法需要抽取大量的信息,并且人工审核的方式效率会很低,语音识别模型识别语音也会出现识别错误的现象。
因此,如何提高处理用户语音的效率,是一个需要解决的技术问题。
发明内容
本申请实施例的目的在于提供一种处理用户语音的方法,通过本申请的实施例的技术方案可以达到提高处理用户语音的效率的效果。
第一方面,本申请实施例提供了一种处理用户语音的方法,包括,将目标用户的待识别语音输入预先训练好的语音识别模型中,得到待识别语音的文本信息,其中,语音识别模型是通过检测初始语音识别模型的语音识别准确率小于准确阈值时时,通过对初始语音识别模型进行更新得到的,初始语音识别模型是通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对现有模型进行训练得到的;对文本信息进行处理,得到处理结果。
本申请在上述实施例中,本申请通过将目标用户的待识别语音直接输入更新后的通过不同领域的语音样本训练的语音识别模型,可以准确的得到识别后的文本信息,进而对文本信息进行处理时也可以达到提高处理用户语音的效率的效果。
在一些实施例中,在将目标用户的待识别语音输入预先训练好的语音识别模型中,得到待识别语音的文本信息之前,还包括:
通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对现有模型进行训练,得到初始语音识别模型;
检测初始语音识别模型的语音识别准确率是否大于等于准确阈值;
在初始语音识别模型的语音识别准确率小于准确阈值时,通过预设比例的目标领域的语音样本和通用领域的语音样本以及预设周期内预设数量的语音样本混合得到的第二混合语音样本对初始语音识别模型进行训练,得到语音识别模型。
本申请在上述实施例中,通过不同领域的语音样本训练语音识别模型,并且通过混合预设时间内的语音样本对语音识别模型进行更新,可以使语音识别模型识别目标领域中的语音更准确。
在一些实施例中,对文本信息进行处理,得到处理结果,包括:
对文本信息进行纠错,得到纠错后的纠错文本;
或
通过文本信息,对目标用户进行评价。
本申请在上述实施例中,对文本进行纠错处理,可以使文本信息中的内容更准确,通过文本信息可以对目标用户进行准确评价。
在一些实施例中,文本信息进行纠错,得到纠错后的纠错文本,包括:
将文本信息中的关键字词和困惑集合中不标准字词进行匹配,其中,困惑集合包括标准字词和标准字词对应的至少一个不标准字词;
将文本信息中不标准字词替换成对应的标准字词,得到纠错文本。
本申请在上述实施例中,通过困惑集合将文本信息中不标准字词替换成标准的字词,可以整体的提高文本信息的准确度。
在一些实施例中,对文本信息进行纠错,得到纠错后的纠错文本,包括:
通过模糊匹配算法,计算句子中关键词的字数占比和字串长度大于等于2的字数的长度占比;
通过字数占比和长度占比,计算句子中关键词的命中率;
若命中率大于等于命中阈值,利用模糊匹配库中标准的词替换句子中的关键词,得到纠错文本。
本申请在上述实施例中,通过模糊匹配算法将文本信息中不标准的句子中具体不标准的关键词替换成标准的关键词,可以提高文本信息整体的准确度。
在一些实施例中,通过文本信息,对目标用户进行评价,包括:
对文本信息进行纠错,得到纠错后的第二纠错文本;
通过第二纠错文本,对目标用户进行评价。
本申请在上述实施例中,纠错得到的文本,文本中的信息更准确,进而对用户进行评价也会更准确。
在一些实施例中,通过文本信息,对目标用户进行评价,包括:
基于文本信息中关键词和违禁词的占比以及严重违禁词的数量对文本信息进行文本评分,得到关键词得分、违禁词得分和严重违禁词得分;
若严重违禁词得分小于等于0,则对目标用户评价的文本得分为0;
若严重违禁词得分大于0,则将关键词得分、违禁词得分和严重违禁词得分加权求和,得到对目标用户评价的文本得分。
本申请在上述实施例中,根据各项评分加权求和得到文本得分,可以考虑多个方面的因素,全方面的对用户进行评价。
在一些实施例中,还包括:
在得到对目标用户文本评价的文本得分之后,对待识别语音的音调、语速和音量进行语音评分;
将文本得分和语音评分求和,得到对目标用户进行评价的评价得分。
本申请在上述实施例中,对用户说话的能力进行评价,得到语音方面的评分,最终根据文本得分和语音评分综合的对目标用户实现准确的综合评分。
在一些实施例中,待识别语音为保险领域代理人的语音、餐厅服务领域服务员的语音、天气预测领域播报员的语音或者外交领域外交官的语音。
本申请在上述实施例中,待识别语音可以是不同的领域中不同的人员的语音,可以实现不同领域中对不同人员的语音处理,范围更广。
第二方面,本申请实施例提供了一种处理用户语音的装置,包括:
识别模块,用于将目标用户的待识别语音输入预先训练好的语音识别模型中,得到待识别语音的文本信息,其中,语音识别模型是通过检测初始语音识别模型的语音识别准确率小于准确阈值时时,通过对初始语音识别模型进行更新得到的,初始语音识别模型是通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对现有模型进行训练得到的;
处理模块,用于对文本信息进行处理,得到处理结果。
可选的,所述装置还包括:
训练模块,用于所述识别模块在将目标用户的待识别语音输入预先训练好的语音识别模型中,得到待识别语音的文本信息之前,通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对现有模型进行训练,得到初始语音识别模型;
检测初始语音识别模型的语音识别准确率是否大于等于准确阈值;
在初始语音识别模型的语音识别准确率小于准确阈值时,通过预设比例的目标领域的语音样本和通用领域的语音样本以及预设周期内预设数量的语音样本混合得到的第二混合语音样本对初始语音识别模型进行训练,得到语音识别模型。
可选的,处理模块具体用于:
对文本信息进行纠错,得到纠错后的纠错文本;
或
通过文本信息,对目标用户进行评价。
可选的,处理模块具体用于:
将文本信息中的关键字词和困惑集合中不标准字词进行匹配,其中,困惑集合包括标准字词和标准字词对应的至少一个不标准字词;
将文本信息中不标准字词替换成对应的标准字词,得到纠错文本。
可选的,处理模块具体用于:
通过模糊匹配算法,计算句子中关键词的字数占比和字串长度大于等于2的字数的长度占比;
通过字数占比和长度占比,计算句子中关键词的命中率;
若命中率大于等于命中阈值,利用模糊匹配库中标准的词替换句子中的关键词,得到纠错文本。
可选的,处理模块具体用于:
对文本信息进行纠错,得到纠错后的第二纠错文本;
通过第二纠错文本,对目标用户进行评价。
可选的,处理模块具体用于:
基于文本信息中关键词和违禁词的占比以及严重违禁词的数量对文本信息进行文本评分,得到关键词得分、违禁词得分和严重违禁词得分;
若严重违禁词得分小于等于0,则对目标用户评价的文本得分为0;
若严重违禁词得分大于0,则将关键词得分、违禁词得分和严重违禁词得分加权求和,得到对目标用户评价的文本得分。
可选的,所述装置还包括:
评价模块,用于所述处理模块在得到对目标用户文本评价的文本得分之后,对待识别语音的音调、语速和音量进行语音评分;
将文本得分和语音评分求和,得到对目标用户进行评价的评价得分。
可选的,待识别语音为保险领域代理人的语音、餐厅服务领域服务员的语音、天气预测领域播报员的语音或者外交领域外交官的语音。
第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种处理用户语音的方法的流程图;
图2为本申请实施例提供的一种处理用户语音的方法的结构示意图;
图3为本申请实施例提供的一种处理用户语音的装置的示意框图;
图4为本申请实施例提供的一种处理用户语音的装置的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和显示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
首先对本申请实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
Fastspeech框架:一种语音合成模型框架。
困惑集合:一些词语或短语常出现的错误形式集合,为一个字典形式,字典的key值为正确的词语,value值为一个集合。
模糊匹配:指无论词的位置怎样,只要出现该词即可。精确匹配是指只有整个字段与检索词相同才匹配。精确匹配是指将输入的检索词当固定词组进行检索,而模糊匹配则会自动拆分检索词为单元概念,并进行逻辑与运算。
本申请应用于语音处理的场景,具体场景为在用户和不同领域的服务人员进行对话时,通过对服务人员的话术进行处理,对服务人员进行评价。
但是目前在处理用户语音中用到的方法主要是通过人工审核的方式,对用户的语音话术进行抽取,通过语音识别模型将语音转化成文本之后,实现一对一的文本审核,进而对用户的话术表达进行评价。上述基于方法需要抽取大量的信息,并且人工审核的方式效率会很低,语音识别模型识别语音也会出现识别错误的现象。
例如:金融保险领域。保险领域是一个人员非常密集型行业。保险的销售无论是线下销售还是线上销售尤其是电话销售都依赖大量的代理人,这给保险公司的管理以及对代理人业务的考核造成了很大的压力。因此需要通过更好的方法实现对代理人话术评价。
为此本申请通过将目标用户的待识别语音输入预先训练好的语音识别模型中,得到待识别语音的文本信息,其中,语音识别模型是通过检测初始语音识别模型的语音识别准确率小于准确阈值时时,通过对初始语音识别模型进行更新得到的,初始语音识别模型是通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对现有模型进行训练得到的;对文本信息进行处理,得到处理结果。通过该方法可以达到提高处理用户语音的效率的效果。
本申请实施例中,执行主体可以为处理用户语音系统中的处理用户语音设备,实际应用中,处理用户语音设备可以为语音处理机器人、终端设备和服务器等电子设备,在此不做限制。
下面结合图1对本申请实施例的处理用户语音的方法进行详细描述。
请参看图1,图1为本申请实施例提供的一种处理用户语音的方法的流程图,如图1所示的处理用户语音的方法包括:
步骤110:将目标用户的待识别语音输入预先训练好的语音识别模型中,得到待识别语音的文本信息。
其中,语音识别模型是通过检测初始语音识别模型的语音识别准确率小于准确阈值时时,通过对初始语音识别模型进行更新得到的,初始语音识别模型是通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对现有模型进行训练得到的。目标用户可以为保险领域代理人、餐厅服务领域服务员、天气预测领域播报员或者外交领域外交官等目标用户。文本信息可以是待识别语音的翻译文本,也可以是待识别语音的识别代码或者编号等。目标领域可以是保险领域、餐厅服务领域、天气预测领域或者外交领域等。通用领域可以是包含目标领域和常用话术领域。通用领域的语音可以是包含目标领域的语音,也可以包含常用话术的语音。预设比例可以是相等比例,例如1:1,也可以是不相等比例,例如2:1,具体的可以参照模型识别准确率的结果确定所述预设比例。现有模型可以是Fastspeech2框架作为基础训练的模型。在使用基础训练的模型时,可以直接通过系统获取基础模型,该基础模型可以是具有二次开放能力的基础模型,也可以通过目标领域中的语音进一步训练得到基础模型,例如,目标领域中200小时的语音数据。
此外,通过对初始语音识别模型进行更新可以是定期的检测语音识别模型的准确率,例如,通过100条语音的输入,根据输出的结果判断是否达到准确阈值,其中准确阈值可以根据需求设置,例如80%,当输出结果的准确率低于准确阈值5个基点,则判断语音识别模型需要进行更新,则可以利用目标领域的语音样本和通用领域的语音样本以及预设周期内预设数量的语音样本混合得到的样本进一步对语音识别模型进行更新,例如,10小时的目标领域的语音和通用领域的语音以及最近三天内5万条语音的混合数据,对语音识别模型进行再次训练,完成更新。
在一些实施例中,待识别语音为保险领域代理人的语音、餐厅服务领域服务员的语音、天气预测领域播报员的语音或者外交领域外交官的语音。
本申请在上述过程中,待识别语音可以是不同的领域中不同的人员的语音,可以实现不同领域中对不同人员的语音处理,范围更广。
例如:保险领域代理人的语音,可以是代理人与客户进行交流时,代理人的语音。餐厅服务领域服务员的语音,可以是服务员与客户进行交流时,服务员的语音。外交领域外交官的语音,可以是外交官与其它国家人员进行交流时的语音。
在一些实施例中,在将目标用户的待识别语音输入预先训练好的语音识别模型中,得到待识别语音的文本信息之前,图1所示的方法还包括:通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对现有模型进行训练,得到初始语音识别模型;检测初始语音识别模型的语音识别准确率是否大于等于准确阈值;在初始语音识别模型的语音识别准确率小于准确阈值时,通过预设比例的目标领域的语音样本和通用领域的语音样本以及预设周期内预设数量的语音样本混合得到的第二混合语音样本对初始语音识别模型进行训练,得到语音识别模型。
本申请在上述过程中,本申请通过不同领域的语音样本训练语音识别模型,并且通过混合预设时间内的语音样本对语音识别模型进行更新,可以使语音识别模型识别目标领域中的语音更准确。
其中,预设周期内预设数量的语音样本可以是预设的时间内的语音,例如当前时间前两个周期内的语音,周期时间可以根据用户需求设定。目标领域的语音样本可以是不低于10小时的目标领域中的语音数据。
步骤120:对文本信息进行处理,得到处理结果。
在本申请的一些实施例中,对文本信息进行处理,得到处理结果,包括:对文本信息进行纠错,得到纠错后的纠错文本;或通过文本信息,对目标用户进行评价。
本申请在上述过程中,本申请对文本进行纠错处理,可以使文本信息中的内容更准确,通过文本信息可以对目标用户进行准确评价。
其中,纠错的方式包括错别字纠错、不规范词的纠错和不标准句子的纠错等纠错方式。评价的方式包括对用户的语音进行评价、根据文本信息内容对用户进行评价和将文本信息进行纠错后,根据纠错后的文本内容对用户进行评价等方式。例如,文本信息中的“阳光保险”写成了“眼光保险”、“眼观保险”、“阳关保险”和“眼光保鲜”中的词时,可以及时进行纠错。
在本申请的一些实施例中,文本信息进行纠错,得到纠错后的纠错文本,包括:将文本信息中的关键字词和困惑集合中不标准字词进行匹配,其中,困惑集合包括标准字词和标准字词对应的至少一个不标准字词;将文本信息中不标准字词替换成对应的标准字词,得到纠错文本。
本申请在上述过程中,本申请通过困惑集合将文本信息中不标准字词替换成标准的字词,可以整体的提高文本信息的准确度。
其中,关键字词可以是将文本信息切割成字和词,所有的字和词都可以是关键字词,可以是挑选其中有关目标领域信息的字和词作为上述关键字词。不标准字词可以表示为出现错误的字词,导致句子不通顺的字词。标准字词表示不标准字词对应的准确的字词。此外,输入法错误、字形错误、多字、漏字和方言导致的错识别等,也可以通过上述方法进行纠错。
在本申请的一些实施例中,对文本信息进行纠错,得到纠错后的纠错文本,包括:通过模糊匹配算法,计算句子中关键词的字数占比和字串长度大于等于2的字数的长度占比;通过字数占比和长度占比,计算句子中关键词的命中率;若命中率大于等于命中阈值,利用模糊匹配库中标准的词替换句子中的关键词,得到纠错文本。
本申请在上述过程中,本申请通过模糊匹配算法将文本信息中不标准的句子中具体不标准的关键词替换成标准的关键词,可以提高文本信息整体的准确度。
其中,“I保C甄选恶性肿瘤疾病保险”,“阳光升财产升值险”,“终身豁免免责条款”等都是保险领域中经常出现的句子错误。命中率可以通过如下公式计算:
例如:“我买的阳光生财产升值险的最大保额是多少呢?”正确的句子本应该是“我买的阳光升财产升值险的最大保额是多少呢?”,去只不过关键词为“阳光升财产升值险”,则关键词在句子中命中的字数为7,关键词字数为8,长度不小于2的命中字串长度为7,怎命中率为0.875。若规定命中阈值为0.7,则可以直接将“阳光生财产升值险”替换成“阳光升财产升值险”。
在本申请的一些实施例中,通过文本信息,对目标用户进行评价,包括:对文本信息进行纠错,得到纠错后的第二纠错文本;通过第二纠错文本,对目标用户进行评价。
本申请在上述过程中,通过纠错得到的文本,文本中的信息更准确,进而对用户进行评价也会更准确。
其中,对文本信息进行纠错,得到纠错后的第二纠错文本包括:将文本信息中的关键字词和困惑集合中不标准字词进行匹配,其中,困惑集合包括标准字词和标准字词对应的至少一个不标准字词;将文本信息中不标准字词替换成对应的标准字词,得到第二纠错文本。或者通过模糊匹配算法,计算句子中关键词的字数占比和字串长度大于等于2的字数的长度占比;通过字数占比和长度占比,计算句子中关键词的命中率;若命中率大于等于命中阈值,利用模糊匹配库中标准的词替换句子中的关键词,得到第二纠错文本。
在本申请的一些实施例中,通过文本信息,对目标用户进行评价,包括:基于文本信息中关键词和违禁词的占比以及严重违禁词的数量对文本信息进行文本评分,得到关键词得分、违禁词得分和严重违禁词得分;若严重违禁词得分小于等于0,则对目标用户评价的文本得分为0;若严重违禁词得分大于0,则将关键词得分、违禁词得分和严重违禁词得分加权求和,得到对目标用户评价的文本得分。关键词得分可以通过如下公式得到:
违禁词得分可以通过如下公式得到:
此外,严重违禁词得分可以通过如下公式得到:
关键词得分=100-严重违禁词数量*预设扣分
其中,预设扣分可以根据需求设定,例如,50分,当文本信息中存在两个及以上严重违禁词时文本得分为0,当存在两个以下严重违禁词时,将关键词得分、违禁词得分和严重违禁词得分加权求和,得到对目标用户评价的文本得分,例如,通过如下公式获得对目标用户评价的文本得分:
本申请在上述过程中,本申请根据各项评分加权求和得到文本得分,可以考虑多个方面的因素,全方面的对用户进行评价。
其中,关键词可以是规定的目标领域中的关键信息,例如,在保险领域,代理人针对每款或者每类产品的销售,都会有关键的信息需要代理人对客户详细告知,比如产品周期、犹豫期和豁免权等。违禁词表示目标领域中禁止说的词,例如,保险领域对于每款产品,都有一些词是禁止说的,比如费用和套保等。严重违禁词例如,脏话和不健康的词等。
在本申请的一些实施例中,还包括:
在得到对目标用户文本评价的文本得分之后,对待识别语音的音调、语速和音量进行语音评分;将文本得分和语音评分求和,得到对目标用户进行评价的评价得分。
本申请在上述过程中,本申请对用户说话的能力进行评价,得到语音方面的评分,最终根据文本得分和语音评分综合的对目标用户实现准确的综合评分。
例如,音量得分:以秒为最小周期,最小周期内的平均音量为该周期音量信息,音量得分为业务员语音部分音量方差的倒数*100。语速得分,用户设定标准语速(字/秒),则语速打分为业务员的语速与标准语速中较小的值比上较大的值*100。音调得分为:100-高音频波峰数*20。语音评分可以是音量得分、语速得分和音调得分之和。
在上述图1所示的过程中,本申请通过将目标用户的待识别语音输入预先训练好的语音识别模型中,得到待识别语音的文本信息,其中,语音识别模型是通过检测初始语音识别模型的语音识别准确率小于准确阈值时时,通过对初始语音识别模型进行更新得到的,初始语音识别模型是通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对现有模型进行训练得到的;对文本信息进行处理,得到处理结果。本申请在上述实施例中,本申请通过将目标用户的待识别语音直接输入更新后的通过不同领域的语音样本训练的语音识别模型,可以准确的得到识别后的文本信息,进而对文本信息进行处理时也可以达到提高处理用户语音的效率的效果。
下面结合图2对本申请实施例的处理用户语音的方法的模块进行详细描述。
请参看图2,图2为本申请实施例提供的一种处理用户语音的方法的结构示意图,如图2所示的处理用户语音的模块包括:
语音识别模块,纠错模块和评价模块。
语音识别模块包括:语音识别模型或者现有语音识别模型。
纠错模块包括:基于困惑集合纠错模块和基于模糊匹配算法纠错模块。
评价模块包括:语音评价模块和文本信息评价模块。
具体的,上述模块的作用可参照图1所示的方法和步骤,此处不在过多赘述。
前文通过图1-图2描述了处理用户语音的方法,下面结合图3-图4描述处理用户语音的装置。
请参照图3,为本申请实施例中提供的一种处理用户语音的装置300的示意框图,该装置300可以是电子设备上的模块、程序段或代码。该装置300与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置300具体的功能可以参见下文中的描述,为避免重复,此处适当省略详细描述。
可选的,所述装置300包括:
识别模块310,用于将目标用户的待识别语音输入预先训练好的语音识别模型中,得到待识别语音的文本信息,其中,语音识别模型是通过检测初始语音识别模型的语音识别准确率小于准确阈值时时,通过对初始语音识别模型进行更新得到的,初始语音识别模型是通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对现有模型进行训练得到的;
处理模块320,用于对文本信息进行处理,得到处理结果。
可选的,所述装置还包括:
训练模块,用于所述识别模块在将目标用户的待识别语音输入预先训练好的语音识别模型中,得到待识别语音的文本信息之前,通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对现有模型进行训练,得到初始语音识别模型;检测初始语音识别模型的语音识别准确率是否大于等于准确阈值;在初始语音识别模型的语音识别准确率小于准确阈值时,通过预设比例的目标领域的语音样本和通用领域的语音样本以及预设周期内预设数量的语音样本混合得到的第二混合语音样本对初始语音识别模型进行训练,得到语音识别模型。
可选的,处理模块具体用于:
对文本信息进行纠错,得到纠错后的纠错文本;或通过文本信息,对目标用户进行评价。
可选的,处理模块具体用于:
将文本信息中的关键字词和困惑集合中不标准字词进行匹配,其中,困惑集合包括标准字词和标准字词对应的至少一个不标准字词;将文本信息中不标准字词替换成对应的标准字词,得到纠错文本。
可选的,处理模块具体用于:
通过模糊匹配算法,计算句子中关键词的字数占比和字串长度大于等于2的字数的长度占比;通过字数占比和长度占比,计算句子中关键词的命中率;若命中率大于等于命中阈值,利用模糊匹配库中标准的词替换句子中的关键词,得到纠错文本。
可选的,处理模块具体用于:
对文本信息进行纠错,得到纠错后的第二纠错文本;通过第二纠错文本,对目标用户进行评价。
可选的,处理模块具体用于:
基于文本信息中关键词和违禁词的占比以及严重违禁词的数量对文本信息进行文本评分,得到关键词得分、违禁词得分和严重违禁词得分;若严重违禁词得分小于等于0,则对目标用户评价的文本得分为0;若严重违禁词得分大于0,则将关键词得分、违禁词得分和严重违禁词得分加权求和,得到对目标用户评价的文本得分。
可选的,所述装置还包括:
评价模块,用于所述处理模块在得到对目标用户文本评价的文本得分之后,对待识别语音的音调、语速和音量进行语音评分;将文本得分和语音评分求和,得到对目标用户进行评价的评价得分。
可选的,待识别语音为保险领域代理人的语音、餐厅服务领域服务员的语音、天气预测领域播报员的语音或者外交领域外交官的语音。
请参照图4为本申请实施例中提供的一种处理用户语音的装置400的结构示意框图,该装置可以包括存储器410和处理器420。可选的,该装置还可以包括:通信接口430和通信总线440。该装置与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置具体的功能可以参见下文中的描述。
具体的,存储器410,用于存储计算机可读指令。
处理器420,用于处理存储器存储的可读指令,能够执行图1方法中的各个步骤。
通信接口430,用于与其他节点设备进行信令或数据的通信。例如:用于与服务器或者终端的通信,或者与其它设备节点进行通信,本申请实施例并不限于此。
通信总线440,用于实现上述组件直接的连接通信。
其中,本申请实施例中设备的通信接口430用于与其他节点设备进行信令或数据的通信。存储器410可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器410可选的还可以是至少一个位于远离前述处理器的存储装置。存储器410中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器420执行时,电子设备执行上述图1所示方法过程。处理器420可以用于装置300上,并且用于执行本申请中的功能。示例性地,上述的处理器420可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,本申请实施例并不局限于此。
本申请实施例还提供一种可读存储介质,所述计算机程序被处理器执行时,执行如图1所示方法实施例中电子设备所执行的方法过程。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
综上所述,本申请实施例提供一种处理用户语音的方法及装置,该方法包括,将目标用户的待识别语音输入预先训练好的语音识别模型中,得到待识别语音的文本信息,其中,语音识别模型是通过检测初始语音识别模型的语音识别准确率小于准确阈值时时,通过对初始语音识别模型进行更新得到的,初始语音识别模型是通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对现有模型进行训练得到的;对文本信息进行处理,得到处理结果。通过该方法可以达到提高处理用户语音的效率的效果。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种处理用户语音的方法,其特征在于,包括:
将目标用户的待识别语音输入预先训练好的语音识别模型中,得到所述待识别语音的文本信息,其中,所述语音识别模型是通过检测初始语音识别模型的语音识别准确率小于准确阈值时时,通过对初始语音识别模型进行更新得到的,所述初始语音识别模型是通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对现有模型进行训练得到的;
对所述文本信息进行处理,得到处理结果。
2.根据权利要求1所述的方法,其特征在于,在将目标用户的待识别语音输入预先训练好的语音识别模型中,得到所述待识别语音的文本信息之前,所述方法还包括:
通过所述目标领域的语音样本和所述通用领域的语音样本按照预设的比例混合得到的所述混合语音样本对现有模型进行训练,得到所述初始语音识别模型;
检测所述初始语音识别模型的语音识别准确率是否大于等于所述准确阈值;
在所述初始语音识别模型的语音识别准确率小于所述准确阈值时,通过预设比例的所述目标领域的语音样本和所述通用领域的语音样本以及预设周期内预设数量的语音样本混合得到的第二混合语音样本对所述初始语音识别模型进行训练,得到所述语音识别模型。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述文本信息进行处理,得到处理结果,包括:
对所述文本信息进行纠错,得到纠错后的纠错文本;
或
通过所述文本信息,对所述目标用户进行评价。
4.根据权利要求3所述的方法,其特征在于,所述对所述文本信息进行纠错,得到纠错后的纠错文本,包括:
将所述文本信息中的关键字词和困惑集合中不标准字词进行匹配,其中,所述困惑集合包括标准字词和所述标准字词对应的至少一个不标准字词;
将所述文本信息中不标准字词替换成对应的标准字词,得到所述纠错文本。
5.根据权利要求3所述的方法,其特征在于,所述对所述文本信息进行纠错,得到纠错后的纠错文本,包括:
通过模糊匹配算法,计算句子中关键词的字数占比和字串长度大于等于2的字数的长度占比;
通过所述字数占比和所述长度占比,计算所述句子中关键词的命中率;
若所述命中率大于等于命中阈值,利用模糊匹配库中标准的词替换所述句子中的关键词,得到所述纠错文本。
6.根据权利要求3所述的方法,其特征在于,所述通过所述文本信息,对所述目标用户进行评价,包括:
对所述文本信息进行纠错,得到纠错后的第二纠错文本;
通过所述第二纠错文本,对所述目标用户进行评价。
7.根据权利要求3所述的方法,其特征在于,所述通过所述文本信息,对所述目标用户进行评价,包括:
基于所述文本信息中关键词和违禁词的占比以及严重违禁词的数量对所述文本信息进行文本评分,得到关键词得分、违禁词得分和严重违禁词得分;
若所述严重违禁词得分小于等于0,则对所述目标用户评价的文本得分为0;
若所述严重违禁词得分大于0,则将所述关键词得分、所述违禁词得分和所述严重违禁词得分加权求和,得到对所述目标用户评价的文本得分。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
在得到对所述目标用户文本评价的文本得分之后,对所述待识别语音的音调、语速和音量进行语音评分;
将所述文本得分和所述语音评分求和,得到对所述目标用户进行评价的评价得分。
9.根据权利要求1或2所述的方法,其特征在于,所述待识别语音为保险领域代理人的语音、餐厅服务领域服务员的语音、天气预测领域播报员的语音或者外交领域外交官的语音。
10.一种处理用户语音的装置,其特征在于,包括:
识别模块,用于将目标用户的待识别语音输入预先训练好的语音识别模型中,得到所述待识别语音的文本信息,其中,所述语音识别模型是通过检测初始语音识别模型的语音识别准确率小于准确阈值时时,通过对初始语音识别模型进行更新得到的,所述初始语音识别模型是通过目标领域的语音样本和通用领域的语音样本按照预设的比例混合得到的混合语音样本对现有模型进行训练得到的;
处理模块,用于对所述文本信息进行处理,得到处理结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211016558.XA CN115331675A (zh) | 2022-08-24 | 2022-08-24 | 一种处理用户语音的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211016558.XA CN115331675A (zh) | 2022-08-24 | 2022-08-24 | 一种处理用户语音的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115331675A true CN115331675A (zh) | 2022-11-11 |
Family
ID=83925230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211016558.XA Pending CN115331675A (zh) | 2022-08-24 | 2022-08-24 | 一种处理用户语音的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115331675A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117334188A (zh) * | 2023-09-21 | 2024-01-02 | 元保科创(北京)科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN117763194A (zh) * | 2023-12-19 | 2024-03-26 | 知迪汽车技术(北京)有限公司 | 一种基于大语言模型的车载数据语音标签系统 |
-
2022
- 2022-08-24 CN CN202211016558.XA patent/CN115331675A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117334188A (zh) * | 2023-09-21 | 2024-01-02 | 元保科创(北京)科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN117763194A (zh) * | 2023-12-19 | 2024-03-26 | 知迪汽车技术(北京)有限公司 | 一种基于大语言模型的车载数据语音标签系统 |
CN117763194B (zh) * | 2023-12-19 | 2024-08-16 | 知迪科技(安徽)有限公司 | 一种基于大语言模型的车载数据语音标签系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427623B (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
CN109800310B (zh) | 一种基于结构化表达的电力运维文本分析方法 | |
US5835888A (en) | Statistical language model for inflected languages | |
CN108140019B (zh) | 语言模型生成装置、语言模型生成方法以及记录介质 | |
CN115331675A (zh) | 一种处理用户语音的方法及装置 | |
Mairesse et al. | Can prosody inform sentiment analysis? experiments on short spoken reviews | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN107229627B (zh) | 一种文本处理方法、装置及计算设备 | |
JPH11143491A (ja) | 音声に基づくタスク自動分類の方法、呼自動分類の方法及びタスク自動分類システム | |
CN102246169A (zh) | 为搜索词分配指标权重 | |
CN103678271B (zh) | 一种文本校正方法及用户设备 | |
WO2022126969A1 (zh) | 业务语音的质检方法、装置、设备及存储介质 | |
CN113051923B (zh) | 数据验证方法、装置、计算机设备和存储介质 | |
CN113297365B (zh) | 一种用户意向判定方法、装置、设备及存储介质 | |
CN111737424A (zh) | 一种问题的匹配方法、装置、设备及存储介质 | |
CN111708870A (zh) | 基于深度神经网络的问答方法、装置及存储介质 | |
CN117113947B (zh) | 一种表单填充系统、方法、电子设备及存储介质 | |
CN112528003B (zh) | 一种基于语义排序和知识修正的多项选择问答方法 | |
CN114330366A (zh) | 事件抽取方法及相关装置、电子设备和存储介质 | |
CN110287487B (zh) | 主谓语识别方法、装置、设备及计算机可读存储介质 | |
CN116070620A (zh) | 一种基于大数据的信息处理方法及系统 | |
CN113158669B (zh) | 一种用工平台正负面评论识别的方法及系统 | |
CN109344388A (zh) | 一种垃圾评论识别方法、装置及计算机可读存储介质 | |
CN111368028B (zh) | 问题回答者的推荐方法及装置 | |
AT&T |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |