CN112668664B - 一种基于智能语音的话术训练方法 - Google Patents

一种基于智能语音的话术训练方法 Download PDF

Info

Publication number
CN112668664B
CN112668664B CN202110013643.XA CN202110013643A CN112668664B CN 112668664 B CN112668664 B CN 112668664B CN 202110013643 A CN202110013643 A CN 202110013643A CN 112668664 B CN112668664 B CN 112668664B
Authority
CN
China
Prior art keywords
data
matching
screening
words
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110013643.XA
Other languages
English (en)
Other versions
CN112668664A (zh
Inventor
刘静文
杨训武
李欢
吴福全
王淋淋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Dike Digital Gold Technology Co ltd
Original Assignee
Anhui Dike Digital Gold Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Dike Digital Gold Technology Co ltd filed Critical Anhui Dike Digital Gold Technology Co ltd
Priority to CN202110013643.XA priority Critical patent/CN112668664B/zh
Publication of CN112668664A publication Critical patent/CN112668664A/zh
Application granted granted Critical
Publication of CN112668664B publication Critical patent/CN112668664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于智能语音的话术训练方法,获取用户信息,将用户信息与预设的数据库进行匹配筛选,得到样本筛选数据;获取语音文本数据,将语音文本数据进行预处理,得到文本向量数据;将文本向量数据与样本筛选数据进行匹配,得到第一匹配数据;将文本向量数据与数据库进行匹配,得到第二匹配数据;获取第一匹配数据和第二匹配数据的初匹相似度,将初匹相似度与预设的相似阈值进行对比,得到相似结果;本发明用于解决只对匹配的数据进行匹配训练导致训练的准确性不佳,对不匹配的数据不能进行有效筛选导致数据训练的完整性不佳的问题。

Description

一种基于智能语音的话术训练方法
技术领域
本发明涉及数据训练技术领域,尤其涉及一种基于智能语音的话术训练方法。
背景技术
数据挖掘是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。训练数据是指数据挖掘过程中用于训练数据挖掘模型的数据,一般要求数据样本尽可能大、数据多样化,数据样本质量较高;
训练数据即数据挖掘过程中用于数据挖掘模型构建的数据,在数据挖掘过程中,除了训练数据还有测试数据,即用于检测模型构建,此数据只在模型检验时使用,用于评估模型的准确率,绝对不允许用于模型构建过程,否则会导致过渡拟合。验证数据:可选,用于辅助模型构建,可以重复使用。当数据集较小,会采用一些方法来来弥补这个缺点。
现有的话术训练方法在的缺陷是:只对匹配的数据进行匹配训练导致训练的准确性不佳,对不匹配的数据不能进行有效筛选导致数据训练的完整性不佳的问题。
发明内容
本发明的目的在于提供一种基于智能语音的话术训练方法,本发明所要解决的技术问题为:
如何解决现有方案中只对匹配的数据进行匹配训练导致训练的准确性不佳,对不匹配的数据不能进行有效筛选导致数据训练的完整性不佳的问题。
本发明的目的可以通过以下技术方案实现:一种基于智能语音的话术训练方法,该话术训练方法的步骤包括:
S1:获取用户信息,将用户信息与预设的数据库进行匹配筛选,得到样本筛选数据;
S2:获取语音文本数据,将语音文本数据进行预处理,得到文本向量数据;
S3:将文本向量数据与样本筛选数据进行匹配,得到第一匹配数据;将文本向量数据与数据库进行匹配,得到第二匹配数据;
S4:获取第一匹配数据和第二匹配数据的初匹相似度,将初匹相似度与预设的相似阈值进行对比,得到相似结果,利用相似结果将样本筛选数据根据第二匹配数据进行迭代筛选,得到样本迭代筛选数据;
S5:将文本向量数据与样本迭代筛选数据进行匹配,得到迭代匹配数据,获取迭代匹配数据与第二匹配数据的迭代相似度,将迭代相似度与预设的相似阈值进行对比,直至根据最大的迭代相似度将其对应的样本迭代筛选数据进行删除或存储。
优选的,将用户信息与预设的数据库进行匹配筛选,得到样本筛选数据,具体的步骤包括:
S21:获取用户信息中的职业数据、公司类型数据、专业数据和咨询类型数据;
S22:设定不同的职业对应一个不同的职业预设值,设定不同的公司类型对应一个不同的公司预设值,设定不同的专业对应一个不同的专业预设值,设定不同的咨询类型对应一个不同的咨询预设值;
S23:将职业数据、公司类型数据、专业数据和咨询类型数据分别与所有的职业、公司类型、专业和咨询类型进行匹配,获取职业数据对应的职业匹配值、公司类型数据对应的公司匹配值、专业数据对应的专业匹配值和咨询类型数据对应的咨询匹配值;
S24:将职业匹配值标记为ZPi,i=1,2...n;将公司匹配值标记为GPi,i=1,2...n;将专业匹配值标记为ZYi,i=1,2...n;将咨询匹配值标记为ZXi,i=1,2...n;将职业匹配值、公司匹配值、专业匹配值和咨询匹配值进行归一化处理并取值;
S25:利用公式获取用户信息的集合值,该公式为:
Figure BDA0002886105630000031
其中,Qjh表示为集合值,η表示为预设的集合修正因子,g1、g2、g3、g4表示为预设的不同比例系数;
S26:将集合值标记为筛选类别,根据筛选类别在预设的数据库中获取筛选类别对应的筛选词组集和筛选问题集并进行处理,得到筛选集;
S27:将职业匹配值、公司匹配值、专业匹配值和咨询匹配值与筛选集分别进行关联和组合,得到样本筛选数据。
优选的,根据筛选类别在预设的数据库中获取筛选类别对应的筛选词组集和筛选问题集并进行处理,得到筛选集,具体的步骤包括:
S31:将筛选类别在预设的数据库中进行匹配,获取数据库中筛选类别关联的筛选词组集和筛选问题集;
S32:利用职业数据、公司类型数据、专业数据和咨询类型数据中的职业关键字、公司类型关键字、专业关键字和咨询类型关键字与筛选词组进行匹配,得到筛选职业词组集、筛选公司类型词组集、筛选专业词组集和筛选咨询类型词组集;
S33:在筛选职业词组集中获取职业关键字前后的N个词组以及词组对应的问题并组合,得到待测职业词组集;在筛选公司类型词组集中获取公司类型关键字前后的N个词组以及词组对应的问题并组合,得到待测公司类型词组集;在筛选专业词组集中获取专业关键字前后的N个词组以及词组对应的问题并组合,得到待测专业词组集;在筛选咨询类型词组集中获取咨询类型关键字前后的N个词组以及词组对应的问题并组合,得到咨询类型职业词组集;
S34:将待测职业词组集、待测公司类型词组集、待测专业词组集和咨询类型职业词组集分类组合,得到筛选集。
优选的,获取语音文本数据,将语音文本数据进行预处理,得到文本向量数据,具体的步骤包括:
S41:获取语音文本数据中的纯文本数据,利用分词器将纯文本数据进行分词,得到拆分数据;
S42:将拆分数据根据预设的停词表进行匹配,将拆分数据中与停词表中相同的词语进行删除,将拆分数据中与停词表中不相同的若干个词语进行保存,得到文本向量数据。
优选的,将文本向量数据与样本筛选数据进行匹配,得到第一匹配数据,具体的步骤包括:
S51:获取文本向量数据中的若干个词语并与样本筛选数据进行匹配;
S52:将文本向量数据中与样本筛选数据相同的词语进行标注,得到匹样中词语,统计匹样中词语的总个数;将文本向量数据中与样本筛选数据不相同的词语进行标注,得到匹样漏词语,统计匹样漏词语的总个数;
S53:利用公式获取匹配的分散值,该公式为:
Figure BDA0002886105630000041
其中,Qfs表示为分散值,μ表示为预设的分散修正因子,a1、a2表示为预设的不同比例系数,PZ表示为匹样中词语的总个数,PL表示为匹样漏中词语的总个数;
S54:将分散值与预设的分散阈值进行匹配,若分散值不小于分散阈值,则判定该分散值对应的匹样漏词语需要进行保存并生成第一匹配信号;若分散值小于分散阈值,则判定该分散值对应的匹样漏词语不需要进行保存并生成第二匹配信号;
S55:将若干个匹样中词语排序组合得到匹样中集,将若干个匹样漏词语排序组合得到匹样漏集;将匹样中集、匹样漏集以及第一匹配信号和第二匹配信号分类组合,得到第一匹配数据。
优选的,将文本向量数据与数据库进行匹配,得到第二匹配数据,具体的步骤包括:
S61:获取文本向量数据中的若干个词语与数据库进行匹配,将与数据库中匹配相同的词语标注为匹数中词语;将与数据库中匹配不到的词语标注为匹数漏词语;
S62:将若干个匹数中词语排序组合得到匹数中集,将若干个匹数漏词语排序组合得到匹数漏集;
S63:将匹数中集与匹数漏集组合,得到第二匹配数据。
优选的,获取第一匹配数据和第二匹配数据的初匹相似度,将初匹相似度与预设的相似阈值进行对比,得到相似结果,具体的步骤包括:
S71:获取第一匹配数据中的匹样中集和匹样漏集以及第二匹配数据中的匹数中集和匹数漏集;
S72:将匹样中集中与匹数中集中相同的词语标记为选中词语,将匹样中集中与匹数中集中不相同的词语标记为第一待选词语;
S73:将匹样漏集中与匹数漏集中相同的词语标记为第二待选词语,将匹样漏集中与匹数漏集中不相同的词语标记为选弃词语;
S74:利用相识度公式获取匹配的初匹相似度,该公式为:
Figure BDA0002886105630000061
其中,Qxs表示为初匹相似度,DYD表示为第一待选词语的个数,DED表示为第二待选词语的个数,PYZ0表示为匹样中集中词语的总个数,PYL0表示为匹样漏集中词语的总个数;
S75:将初匹相似度与预设的相似阈值进行对比,若初匹相似度不小于相似阈值,则判定初匹相似度对应的第一待选词语和第二待选词语有效并生成第一相似信号;若初匹相似度小于相似阈值,则判定初匹相似度对应的第一待选词语和第二待选词语无效并生成第二相似信号;
S76:根据第一相似信号将选中词语与第一待选词语和第二待选词语分类组合,得到匹配结果并存储至数据库中;
S77:根据第二相似信号将选弃词语与第一待选词语和第二待选词语分类组合,得到相似结果。
本发明的有益效果:
本发明公开的各个方面,获取用户信息,将用户信息与预设的数据库进行匹配筛选,得到样本筛选数据;通过获取采集用户信息并进行预匹配分析,得到关于用户的预测词组和主题,为数据的匹配和筛选提供支撑;
获取语音文本数据,将语音文本数据进行预处理,得到文本向量数据;通过对语音文本数据进行预处理提高数据匹配的效率和准确性;
将文本向量数据与样本筛选数据进行匹配,得到第一匹配数据;将文本向量数据与数据库进行匹配,得到第二匹配数据;通过将文本向量数据从预测的样本筛选数据和现有的数据库分别进行匹配,可以提高数据匹配的维度,预测的样本筛选数据可以提高数据训练的准确性和完整性;
获取第一匹配数据和第二匹配数据的初匹相似度,将初匹相似度与预设的相似阈值进行对比,得到相似结果,利用相似结果将样本筛选数据根据第二匹配数据进行迭代筛选,得到样本迭代筛选数据;通过获取第一匹配数据和第二匹配数据之间的初匹相似度并进行分析,可以将有效数据和待测数据进行分析并进行迭代训练,提高待测数据验证的准确性;
将文本向量数据与样本迭代筛选数据进行匹配,得到迭代匹配数据,获取迭代匹配数据与第二匹配数据的迭代相似度,将迭代相似度与预设的相似阈值进行对比,直至根据最大的迭代相似度将其对应的样本迭代筛选数据进行删除或存储,可以提高数据匹配验证时的效率并且可以将不匹配数据的有效性进行迭代验证从而提高数据的真实性,进而达到提高数据匹配和训练的效率与准确性的目的。
附图说明
下面结合附图对本发明作进一步的说明。
图1是本发明一种基于智能语音的话术训练方法的流程框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种基于智能语音的话术训练方法,该话术训练方法的步骤包括:
S1:获取用户信息,将用户信息与预设的数据库进行匹配筛选,得到样本筛选数据;具体的步骤包括:
获取用户信息中的职业数据、公司类型数据、专业数据和咨询类型数据;
设定不同的职业对应一个不同的职业预设值,设定不同的公司类型对应一个不同的公司预设值,设定不同的专业对应一个不同的专业预设值,设定不同的咨询类型对应一个不同的咨询预设值;
将职业数据、公司类型数据、专业数据和咨询类型数据分别与所有的职业、公司类型、专业和咨询类型进行匹配,获取职业数据对应的职业匹配值、公司类型数据对应的公司匹配值、专业数据对应的专业匹配值和咨询类型数据对应的咨询匹配值;
将职业匹配值标记为ZPi,i=1,2...n;将公司匹配值标记为GPi,i=1,2...n;将专业匹配值标记为ZYi,i=1,2...n;将咨询匹配值标记为ZXi,i=1,2...n;将职业匹配值、公司匹配值、专业匹配值和咨询匹配值进行归一化处理并取值;
利用公式获取用户信息的集合值,该公式为:
Figure BDA0002886105630000081
其中,Qjh表示为集合值,η表示为预设的集合修正因子,g1、g2、g3、g4表示为预设的不同比例系数;
将集合值标记为筛选类别,根据筛选类别在预设的数据库中获取筛选类别对应的筛选词组集和筛选问题集并进行处理,得到筛选集;具体的步骤包括:
将筛选类别在预设的数据库中进行匹配,获取数据库中筛选类别关联的筛选词组集和筛选问题集;
利用职业数据、公司类型数据、专业数据和咨询类型数据中的职业关键字、公司类型关键字、专业关键字和咨询类型关键字与筛选词组进行匹配,得到筛选职业词组集、筛选公司类型词组集、筛选专业词组集和筛选咨询类型词组集;
在筛选职业词组集中获取职业关键字前后的N个词组以及词组对应的问题并组合,得到待测职业词组集;在筛选公司类型词组集中获取公司类型关键字前后的N个词组以及词组对应的问题并组合,得到待测公司类型词组集;在筛选专业词组集中获取专业关键字前后的N个词组以及词组对应的问题并组合,得到待测专业词组集;在筛选咨询类型词组集中获取咨询类型关键字前后的N个词组以及词组对应的问题并组合,得到咨询类型职业词组集;
将待测职业词组集、待测公司类型词组集、待测专业词组集和咨询类型职业词组集分类组合,得到筛选集;
将职业匹配值、公司匹配值、专业匹配值和咨询匹配值与筛选集分别进行关联和组合,得到样本筛选数据;
本发明实施例中,在前期通过采集大量的用户样本信息和样本词组训练构建一个数据库,通过从职业关键字、公司类型关键字、专业关键字和咨询类型关键字四个维度与样本词组和样本主题建立联系,通过获取采集用户信息并进行预匹配分析,得到关于用户的预测词组和主题,为数据的匹配和筛选提供支撑,样本词组和样本主题为话术词组和话术主题。
S2:获取语音文本数据,将语音文本数据进行预处理,得到文本向量数据;具体的步骤包括:
获取语音文本数据中的纯文本数据,利用分词器将纯文本数据进行分词,得到拆分数据;
将拆分数据根据预设的停词表进行匹配,将拆分数据中与停词表中相同的词语进行删除,将拆分数据中与停词表中不相同的若干个词语进行保存,得到文本向量数据;
本发明实施例中,基于语音转换算法将语音进行转换得到语音文本数据,如ANN/HMM法,分词器可以为结巴分词器,停词表根据预设的删除词语预设的删除表,通过将文本向量数据从预测的样本筛选数据和现有的数据库分别进行匹配,可以提高数据匹配的维度,预测的样本筛选数据可以提高数据训练的准确性和完整性。
S3:将文本向量数据与样本筛选数据进行匹配,得到第一匹配数据;具体的步骤包括:
获取文本向量数据中的若干个词语并与样本筛选数据进行匹配;
将文本向量数据中与样本筛选数据相同的词语进行标注,得到匹样中词语,统计匹样中词语的总个数;将文本向量数据中与样本筛选数据不相同的词语进行标注,得到匹样漏词语,统计匹样漏词语的总个数;
利用公式获取匹配的分散值,该公式为:
Figure BDA0002886105630000101
其中,Qfs表示为分散值,μ表示为预设的分散修正因子,a1、a2表示为预设的不同比例系数,PZ表示为匹样中词语的总个数,PL表示为匹样漏中词语的总个数;
将分散值与预设的分散阈值进行匹配,若分散值不小于分散阈值,则判定该分散值对应的匹样漏词语需要进行保存并生成第一匹配信号;若分散值小于分散阈值,则判定该分散值对应的匹样漏词语不需要进行保存并生成第二匹配信号;
将若干个匹样中词语排序组合得到匹样中集,将若干个匹样漏词语排序组合得到匹样漏集;将匹样中集、匹样漏集以及第一匹配信号和第二匹配信号分类组合,得到第一匹配数据;
将文本向量数据与数据库进行匹配,得到第二匹配数据;具体的步骤包括:
获取文本向量数据中的若干个词语与数据库进行匹配,将与数据库中匹配相同的词语标注为匹数中词语;将与数据库中匹配不到的词语标注为匹数漏词语;
将若干个匹数中词语排序组合得到匹数中集,将若干个匹数漏词语排序组合得到匹数漏集;
将匹数中集与匹数漏集组合,得到第二匹配数据;
本发明实施例中,通过获取第一匹配数据和第二匹配数据之间的初匹相似度并进行分析,可以将有效数据和待测数据进行分析并进行迭代训练,提高待测数据验证的准确性,第一匹配数据起到对第二匹配数据中验证不通过数据进行有效性验证的目的。
S4:获取第一匹配数据和第二匹配数据的初匹相似度,将初匹相似度与预设的相似阈值进行对比,得到相似结果,具体的步骤包括:
获取第一匹配数据中的匹样中集和匹样漏集以及第二匹配数据中的匹数中集和匹数漏集;
将匹样中集中与匹数中集中相同的词语标记为选中词语,将匹样中集中与匹数中集中不相同的词语标记为第一待选词语;
将匹样漏集中与匹数漏集中相同的词语标记为第二待选词语,将匹样漏集中与匹数漏集中不相同的词语标记为选弃词语;
利用相识度公式获取匹配的初匹相似度,该公式为:
Figure BDA0002886105630000111
其中,Qxs表示为初匹相似度,DYD表示为第一待选词语的个数,DED表示为第二待选词语的个数,PYZ0表示为匹样中集中词语的总个数,PYL0表示为匹样漏集中词语的总个数;
将初匹相似度与预设的相似阈值进行对比,若初匹相似度不小于相似阈值,则判定初匹相似度对应的第一待选词语和第二待选词语有效并生成第一相似信号;若初匹相似度小于相似阈值,则判定初匹相似度对应的第一待选词语和第二待选词语无效并生成第二相似信号;
根据第一相似信号将选中词语与第一待选词语和第二待选词语分类组合,得到匹配结果并存储至数据库中;
根据第二相似信号将选弃词语与第一待选词语和第二待选词语分类组合,得到相似结果;
利用相似结果将样本筛选数据根据第二匹配数据进行迭代筛选,得到样本迭代筛选数据;
S5:将文本向量数据与样本迭代筛选数据进行匹配,得到迭代匹配数据,获取迭代匹配数据与第二匹配数据的迭代相似度,将迭代相似度与预设的相似阈值进行对比,直至根据最大的迭代相似度将其对应的样本迭代筛选数据进行删除或存储;
其中,将最大的迭代相似度标记为最终相似度,将最终相似度与相似阈值进行对比,若最终相似度不小于相似阈值,则判定最终相似度对应的样本迭代筛选数据有效并存储;若最终相似度小于相似阈值,则判定最终相似度对应的样本迭代筛选数据无效并删除。
本发明的工作原理:本发明实施例中,获取用户信息,将用户信息与预设的数据库进行匹配筛选,得到样本筛选数据;其中,基于用户信息的大数据与数据库中词语与主体的关联进行一个初步预测得到样本筛选数据,样本筛选数据用于将用户的语音文本数据与数据库匹配后进行相似度验证,从而提高预测数据的准确性,通过获取采集用户信息并进行预匹配分析,得到关于用户的预测词组和主题,为数据的匹配和筛选提供支撑;
获取语音文本数据,将语音文本数据进行预处理,得到文本向量数据;通过对语音文本数据进行预处理提高数据匹配的效率和准确性;
将文本向量数据与样本筛选数据进行匹配,得到第一匹配数据;将文本向量数据与数据库进行匹配,得到第二匹配数据;通过将文本向量数据从预测的样本筛选数据和现有的数据库分别进行匹配,可以提高数据匹配的维度,预测的样本筛选数据可以提高数据训练的准确性和完整性;
获取第一匹配数据和第二匹配数据的初匹相似度,将初匹相似度与预设的相似阈值进行对比,得到相似结果,利用相似结果将样本筛选数据根据第二匹配数据进行迭代筛选,得到样本迭代筛选数据;通过获取第一匹配数据和第二匹配数据之间的初匹相似度并进行分析,可以将有效数据和待测数据进行分析并进行迭代训练,提高待测数据验证的准确性;
将文本向量数据与样本迭代筛选数据进行匹配,得到迭代匹配数据,获取迭代匹配数据与第二匹配数据的迭代相似度,将迭代相似度与预设的相似阈值进行对比,直至根据最大的迭代相似度将其对应的样本迭代筛选数据进行删除或存储,可以提高数据匹配验证时的效率并且可以将不匹配数据的有效性进行迭代验证从而提高数据的真实性,进而达到提高数据匹配和训练的效率与准确性的目的。
在本发明所提供的实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个控制模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他模块或步骤,单数不排除复数。系统权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。

Claims (5)

1.一种基于智能语音的话术训练方法,其特征在于,该话术训练方法的步骤包括:
S1:获取用户信息,将用户信息与预设的数据库进行匹配筛选,得到样本筛选数据;
S2:获取语音文本数据,将语音文本数据进行预处理,得到文本向量数据;
S3:将文本向量数据与样本筛选数据进行匹配,得到第一匹配数据;将文本向量数据与数据库进行匹配,得到第二匹配数据;
S4:获取第一匹配数据和第二匹配数据的初匹相似度,将初匹相似度与预设的相似阈值进行对比,得到相似结果,利用相似结果将样本筛选数据根据第二匹配数据进行迭代筛选,得到样本迭代筛选数据;
S5:将文本向量数据与样本迭代筛选数据进行匹配,得到迭代匹配数据,获取迭代匹配数据与第二匹配数据的迭代相似度,将迭代相似度与预设的相似阈值进行对比,直至根据最大的迭代相似度将其对应的样本迭代筛选数据进行删除或存储;
将用户信息与预设的数据库进行匹配筛选,得到样本筛选数据,具体的步骤包括:
S21:获取用户信息中的职业数据、公司类型数据、专业数据和咨询类型数据;
S22:设定不同的职业对应一个不同的职业预设值,设定不同的公司类型对应一个不同的公司预设值,设定不同的专业对应一个不同的专业预设值,设定不同的咨询类型对应一个不同的咨询预设值;
S23:将职业数据、公司类型数据、专业数据和咨询类型数据分别与所有的职业、公司类型、专业和咨询类型进行匹配,获取职业数据对应的职业匹配值、公司类型数据对应的公司匹配值、专业数据对应的专业匹配值和咨询类型数据对应的咨询匹配值;
S24:将职业匹配值标记为ZPi,i=1,2...n;将公司匹配值标记为GPi,i=1,2...n;将专业匹配值标记为ZYi,i=1,2...n;将咨询匹配值标记为ZXi,i=1,2...n;将职业匹配值、公司匹配值、专业匹配值和咨询匹配值进行归一化处理并取值;
S25:利用公式获取用户信息的集合值,该公式为:
Figure DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE004
表示为集合值,
Figure DEST_PATH_IMAGE006
表示为预设的集合修正因子,g1、g2、g3、g4表示为预设的不同比例系数;
S26:将集合值标记为筛选类别,根据筛选类别在预设的数据库中获取筛选类别对应的筛选词组集和筛选问题集并进行处理,得到筛选集;
S27:将职业匹配值、公司匹配值、专业匹配值和咨询匹配值与筛选集分别进行关联和组合,得到样本筛选数据;
获取第一匹配数据和第二匹配数据的初匹相似度,将初匹相似度与预设的相似阈值进行对比,得到相似结果,具体的步骤包括:
S71:获取第一匹配数据中的匹样中集和匹样漏集以及第二匹配数据中的匹数中集和匹数漏集;
S72:将匹样中集中与匹数中集中相同的词语标记为选中词语,将匹样中集中与匹数中集中不相同的词语标记为第一待选词语;
S73:将匹样漏集中与匹数漏集中相同的词语标记为第二待选词语,将匹样漏集中与匹数漏集中不相同的词语标记为选弃词语;
S74:利用相识度公式获取匹配的初匹相似度,该公式为:
Figure DEST_PATH_IMAGE008
其中,
Figure DEST_PATH_IMAGE010
表示为初匹相似度,DYD表示为第一待选词语的个数,DED表示为第二待选词语的个数,PYZ0表示为匹样中集中词语的总个数,PYL0表示为匹样漏集中词语的总个数;
S75:将初匹相似度与预设的相似阈值进行对比,若初匹相似度不小于相似阈值,则判定初匹相似度对应的第一待选词语和第二待选词语有效并生成第一相似信号;若初匹相似度小于相似阈值,则判定初匹相似度对应的第一待选词语和第二待选词语无效并生成第二相似信号;
S76:根据第一相似信号将选中词语与第一待选词语和第二待选词语分类组合,得到匹配结果并存储至数据库中;
S77:根据第二相似信号将选弃词语与第一待选词语和第二待选词语分类组合,得到相似结果。
2.根据权利要求1所述的一种基于智能语音的话术训练方法,其特征在于,根据筛选类别在预设的数据库中获取筛选类别对应的筛选词组集和筛选问题集并进行处理,得到筛选集,具体的步骤包括:
S31:将筛选类别在预设的数据库中进行匹配,获取数据库中筛选类别关联的筛选词组集和筛选问题集;
S32:利用职业数据、公司类型数据、专业数据和咨询类型数据中的职业关键字、公司类型关键字、专业关键字和咨询类型关键字与筛选词组进行匹配,得到筛选职业词组集、筛选公司类型词组集、筛选专业词组集和筛选咨询类型词组集;
S33:在筛选职业词组集中获取职业关键字前后的N个词组以及词组对应的问题并组合,得到待测职业词组集;在筛选公司类型词组集中获取公司类型关键字前后的N个词组以及词组对应的问题并组合,得到待测公司类型词组集;在筛选专业词组集中获取专业关键字前后的N个词组以及词组对应的问题并组合,得到待测专业词组集;在筛选咨询类型词组集中获取咨询类型关键字前后的N个词组以及词组对应的问题并组合,得到咨询类型职业词组集;
S34:将待测职业词组集、待测公司类型词组集、待测专业词组集和咨询类型职业词组集分类组合,得到筛选集。
3.根据权利要求1所述的一种基于智能语音的话术训练方法,其特征在于,获取语音文本数据,将语音文本数据进行预处理,得到文本向量数据,具体的步骤包括:
S41:获取语音文本数据中的纯文本数据,利用分词器将纯文本数据进行分词,得到拆分数据;
S42:将拆分数据根据预设的停词表进行匹配,将拆分数据中与停词表中相同的词语进行删除,将拆分数据中与停词表中不相同的若干个词语进行保存,得到文本向量数据。
4.根据权利要求1所述的一种基于智能语音的话术训练方法,其特征在于,将文本向量数据与样本筛选数据进行匹配,得到第一匹配数据,具体的步骤包括:
S51:获取文本向量数据中的若干个词语并与样本筛选数据进行匹配;
S52:将文本向量数据中与样本筛选数据相同的词语进行标注,得到匹样中词语,统计匹样中词语的总个数;将文本向量数据中与样本筛选数据不相同的词语进行标注,得到匹样漏词语,统计匹样漏词语的总个数;
S53:利用公式获取匹配的分散值,该公式为:
Figure DEST_PATH_IMAGE012
其中,
Figure DEST_PATH_IMAGE014
表示为分散值,
Figure DEST_PATH_IMAGE016
表示为预设的分散修正因子,a1、a2表示为预设的不同比例系数,PZ表示为匹样中词语的总个数,PL表示为匹样漏中词语的总个数;
S54:将分散值与预设的分散阈值进行匹配,若分散值不小于分散阈值,则判定该分散值对应的匹样漏词语需要进行保存并生成第一匹配信号;若分散值小于分散阈值,则判定该分散值对应的匹样漏词语不需要进行保存并生成第二匹配信号;
S55:将若干个匹样中词语排序组合得到匹样中集,将若干个匹样漏词语排序组合得到匹样漏集;将匹样中集、匹样漏集以及第一匹配信号和第二匹配信号分类组合,得到第一匹配数据。
5.根据权利要求1所述的一种基于智能语音的话术训练方法,其特征在于,将文本向量数据与数据库进行匹配,得到第二匹配数据,具体的步骤包括:
S61:获取文本向量数据中的若干个词语与数据库进行匹配,将与数据库中匹配相同的词语标注为匹数中词语;将与数据库中匹配不到的词语标注为匹数漏词语;
S62:将若干个匹数中词语排序组合得到匹数中集,将若干个匹数漏词语排序组合得到匹数漏集;
S63:将匹数中集与匹数漏集组合,得到第二匹配数据。
CN202110013643.XA 2021-01-06 2021-01-06 一种基于智能语音的话术训练方法 Active CN112668664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110013643.XA CN112668664B (zh) 2021-01-06 2021-01-06 一种基于智能语音的话术训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110013643.XA CN112668664B (zh) 2021-01-06 2021-01-06 一种基于智能语音的话术训练方法

Publications (2)

Publication Number Publication Date
CN112668664A CN112668664A (zh) 2021-04-16
CN112668664B true CN112668664B (zh) 2022-11-15

Family

ID=75413315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110013643.XA Active CN112668664B (zh) 2021-01-06 2021-01-06 一种基于智能语音的话术训练方法

Country Status (1)

Country Link
CN (1) CN112668664B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
CN107688608A (zh) * 2017-07-28 2018-02-13 合肥美的智能科技有限公司 智能语音问答方法、装置、计算机设备和可读存储介质
CN109473106A (zh) * 2018-11-12 2019-03-15 平安科技(深圳)有限公司 声纹样本采集方法、装置、计算机设备及存储介质
CN109947909A (zh) * 2018-06-19 2019-06-28 平安科技(深圳)有限公司 智能客服应答方法、设备、存储介质及装置
CN109947919A (zh) * 2019-03-12 2019-06-28 北京字节跳动网络技术有限公司 用于生成文本匹配模型的方法和装置
CN110032619A (zh) * 2019-04-18 2019-07-19 合肥天毅网络传媒有限公司 一种基于深度学习的分词器训练方法及其装置
CN110163281A (zh) * 2019-05-20 2019-08-23 腾讯科技(深圳)有限公司 语句分类模型训练方法和装置
CN110309874A (zh) * 2019-06-28 2019-10-08 阿里巴巴集团控股有限公司 负样本筛选模型训练方法、数据筛选方法和数据匹配方法
CN111159346A (zh) * 2019-12-27 2020-05-15 深圳物控智联科技有限公司 基于意图识别的智能答疑方法、服务器及存储介质
CN111325037A (zh) * 2020-03-05 2020-06-23 苏宁云计算有限公司 文本意图识别方法、装置、计算机设备和存储介质
CN111708861A (zh) * 2020-04-29 2020-09-25 平安科技(深圳)有限公司 基于双重匹配的匹配集获取方法、装置和计算机设备
CN111833865A (zh) * 2020-01-08 2020-10-27 北京嘀嘀无限科技发展有限公司 一种人机交互方法与终端、计算机可读存储介质
CN111883110A (zh) * 2020-07-30 2020-11-03 上海携旅信息技术有限公司 语音识别的声学模型训练方法、系统、设备及介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
CN107688608A (zh) * 2017-07-28 2018-02-13 合肥美的智能科技有限公司 智能语音问答方法、装置、计算机设备和可读存储介质
CN109947909A (zh) * 2018-06-19 2019-06-28 平安科技(深圳)有限公司 智能客服应答方法、设备、存储介质及装置
CN109473106A (zh) * 2018-11-12 2019-03-15 平安科技(深圳)有限公司 声纹样本采集方法、装置、计算机设备及存储介质
CN109947919A (zh) * 2019-03-12 2019-06-28 北京字节跳动网络技术有限公司 用于生成文本匹配模型的方法和装置
CN110032619A (zh) * 2019-04-18 2019-07-19 合肥天毅网络传媒有限公司 一种基于深度学习的分词器训练方法及其装置
CN110163281A (zh) * 2019-05-20 2019-08-23 腾讯科技(深圳)有限公司 语句分类模型训练方法和装置
CN110309874A (zh) * 2019-06-28 2019-10-08 阿里巴巴集团控股有限公司 负样本筛选模型训练方法、数据筛选方法和数据匹配方法
CN111159346A (zh) * 2019-12-27 2020-05-15 深圳物控智联科技有限公司 基于意图识别的智能答疑方法、服务器及存储介质
CN111833865A (zh) * 2020-01-08 2020-10-27 北京嘀嘀无限科技发展有限公司 一种人机交互方法与终端、计算机可读存储介质
CN111325037A (zh) * 2020-03-05 2020-06-23 苏宁云计算有限公司 文本意图识别方法、装置、计算机设备和存储介质
CN111708861A (zh) * 2020-04-29 2020-09-25 平安科技(深圳)有限公司 基于双重匹配的匹配集获取方法、装置和计算机设备
CN111883110A (zh) * 2020-07-30 2020-11-03 上海携旅信息技术有限公司 语音识别的声学模型训练方法、系统、设备及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Toward Fail-Safe Speaker Recognition: Trial-Based Calibration With a Reject Option;Luciana Ferrer等;《IEEE/ACM Transactions on Audio, Speech, and Language Processing》;20181012;140-153 *
基于LSTM的智能客服系统设计与实现;宿汇祥;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200215;第2020年卷(第2期);I138-675 *
基于注意力池化机制和额外知识的事实型知识问答研究;汪欢;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190815;第2019年卷(第8期);I138-1429 *

Also Published As

Publication number Publication date
CN112668664A (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN108305618B (zh) 语音获取及搜索方法、智能笔、搜索终端及存储介质
CN110750978A (zh) 情感倾向分析方法、装置、电子设备及存储介质
CN112966082A (zh) 音频质检方法、装置、设备以及存储介质
CN112163553A (zh) 物料价格核算方法、装置、存储介质和计算机设备
CN106910512A (zh) 语音文件的分析方法、装置及系统
CN109800309A (zh) 课堂话语类型分类方法及装置
CN110019741A (zh) 问答系统答案匹配方法、装置、设备及可读存储介质
CN108229565B (zh) 一种基于认知的图像理解方法
CN114239579A (zh) 基于正则表达式和crf模型的电力可研文档提取方法及装置
CN107480126B (zh) 一种工程材料类别智能识别方法
CN113726942A (zh) 一种智能电话接听方法、系统、介质及电子终端
CN113065352B (zh) 一种电网调度工作文本的操作内容识别方法
CN106709824B (zh) 一种基于网络文本语义分析的建筑评价方法
CN112668664B (zh) 一种基于智能语音的话术训练方法
CN112231440A (zh) 一种基于人工智能的语音搜索方法
CN111339757A (zh) 一种催收场景下语音识别结果的纠错方法
CN116611447A (zh) 一种基于深度学习方法的信息抽取和语义匹配系统及方法
CN114822557A (zh) 课堂中不同声音的区分方法、装置、设备以及存储介质
CN114707515A (zh) 话术判别方法、装置、电子设备及存储介质
CN108897739A (zh) 一种智能化的应用流量识别特征自动挖掘方法与系统
CN114417821A (zh) 基于云平台的金融文本核查分析系统
CN112951237A (zh) 一种基于人工智能的自动语音识别方法及系统
CN111666469B (zh) 语句库构建方法、装置、设备和存储介质
CN111489744A (zh) 一种智慧银行管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant