CN113270103A - 基于语义增强的智能语音对话方法、装置、设备及介质 - Google Patents
基于语义增强的智能语音对话方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113270103A CN113270103A CN202110586728.7A CN202110586728A CN113270103A CN 113270103 A CN113270103 A CN 113270103A CN 202110586728 A CN202110586728 A CN 202110586728A CN 113270103 A CN113270103 A CN 113270103A
- Authority
- CN
- China
- Prior art keywords
- text
- intention
- data
- target
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012937 correction Methods 0.000 claims abstract description 102
- 238000006243 chemical reaction Methods 0.000 claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 36
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 18
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims description 148
- 230000006870 function Effects 0.000 claims description 27
- 108091026890 Coding region Proteins 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及人工智能技术领域,揭示了一种基于语义增强的智能语音对话方法、装置、设备及介质,其中方法包括:将待识别的语音数据输入预设的语音识别模型进行语音转换文本得到待分析的文本数据;将待分析的文本数据输入语义增强文本纠错模型进行语义增强和纠错处理得到纠错后的文本数据;将纠错后的文本数据输入预设的意图识别模型进行意图识别得到意图识别结果;根据意图识别结果和意图与话术知识库进行匹配得到目标回答文本数据;将目标回答文本数据输入预设的语音合成模型进行文本转换语音得到目标回答语音数据。实现了在语音转换文本后和意图识别之间进行语义增强和纠错处理,提高了输入预设的意图识别模型的文本的准确性。
Description
技术领域
本申请涉及到人工智能技术领域,特别是涉及到一种基于语义增强的智能语音对话方法、装置、设备及介质。
背景技术
智能语音对话能够实时将客户输入的语音转换为文本,进而根据转换得到的文本识别出客户意图,根据客户意图进行针对性话术,其具有广泛的应用场景,比如,智能语音对话用于智能助手、售前咨询、售后服务以及产品销售等。当客户通过输入语音与智能语音对话系统交互时,如果客户在输入语音时出现噪声大或吐字说话不清等情况,将降低语音转换文本的正确率低,这就使得基于语音转换得到的文本的意图识别模型的效果一般,进而影响智能语音对话系统的使用效果和客户体验。现有技术的语音转换为文本的模型都是基于自左向右的单向语言模型,前面的词决定后面生成的词,这样忽略了句子的整体意思,导致生成的文本存在一定的错误。
发明内容
本申请的主要目的为提供一种基于语义增强的智能语音对话方法、装置、设备及介质,旨在解决现有技术的语音转换为文本的模型都是基于自左向右的单向语言模型,因忽略了句子的整体意思,导致生成的文本存在错误的技术问题。
为了实现上述发明目的,本申请提出一种基于语义增强的智能语音对话方法,所述方法包括:
获取待识别的语音数据;
将所述待识别的语音数据输入预设的语音识别模型进行语音转换文本,得到待分析的文本数据;
将所述待分析的文本数据输入语义增强文本纠错模型进行语义增强和纠错处理,得到纠错后的文本数据,其中,所述语义增强文本纠错模型是基于Bert模型和全连接层训练得到的模型;
将所述纠错后的文本数据输入预设的意图识别模型进行意图识别,得到意图识别结果;
获取意图与话术知识库,根据所述意图识别结果和所述意图与话术知识库进行匹配,得到目标回答文本数据;
将所述目标回答文本数据输入预设的语音合成模型进行文本转换语音,得到目标回答语音数据。
进一步的,所述将所述待分析的文本数据输入语义增强文本纠错模型进行语义增强和纠错处理,得到纠错后的文本数据的步骤之前,还包括:
获取多个训练文本,所述多个训练文本中每个训练文本包括:文本样本数据、文本标定值和意图标定值,所述文本样本数据是语音转换文本得到的数据;
从所述多个训练文本中获取一个所述训练文本作为目标训练文本;
将所述目标训练文本的所述文本样本数据输入初始模型进行文本预测和意图预测,得到所述目标训练文本对应的文本预测值和意图预测值,所述初始模型包括:文本预测模块和意图预测模块,所述文本预测模块是基于所述Bert模型得到的模块,所述意图预测模块是基于所述全连接层得到的模块;
将所述目标训练文本对应的所述文本标定值、所述意图标定值、所述文本预测值和所述意图预测值输入目标损失函数进行损失值计算,得到目标损失值,根据所述目标损失值更新所述初始模型的参数,将更新参数后的所述初始模型用于下一次计算所述文本预测值和所述意图预测值;
重复执行所述从所述多个训练文本中获取一个所述训练文本作为目标训练文本的步骤,直至满足预设的模型训练结束条件,将满足所述预设的模型训练结束条件的所述初始模型的所述文本预测模块作为所述语义增强文本纠错模型。
进一步的,所述训练文本中的文本样本数据的语音转换文本错误率小于错误率阈值。
进一步的,所述将所述目标训练文本的所述文本样本数据输入初始模型进行文本预测和意图预测,得到所述目标训练文本对应的文本预测值和意图预测值的步骤,包括:
获取编码字典;
根据所述编码字典对所述目标训练文本的所述文本样本数据进行编码序列化处理,得到目标编码序列;
将所述目标编码序列输入所述初始模型进行文本预测,得到所述目标训练文本对应的所述文本预测值;
采用所述初始模型,对所述文本预测值进行意图预测,得到所述目标训练文本对应的所述意图预测值。
进一步的,所述根据所述编码字典对所述目标训练文本的所述文本样本数据进行编码序列化处理,得到目标编码序列的步骤,包括:
分别将所述目标训练文本的所述文本样本数据中的每个字符在所述编码字典中进行查找,得到所述目标训练文本的所述文本样本数据对应的待处理编码集合;
根据所述目标训练文本的所述文本样本数据的字符顺序,对所述待处理编码集合进行序列生成,得到所述目标编码序列。
进一步的,所述将所述目标训练文本对应的所述文本标定值、所述意图标定值、所述文本预测值和所述意图预测值输入目标损失函数进行损失值计算,得到目标损失值的步骤,包括:
将所述目标训练文本对应的所述文本标定值和所述文本预测值输入第一损失函数进行损失值计算,得到第一损失值;
将所述目标训练文本对应的所述意图标定值和所述意图预测值输入第二损失函数进行损失值计算,得到第二损失值;
根据所述第一损失值和所述第二损失值进行总损失值计算,得到所述目标损失值。
进一步的,所述目标损失值的计算公式L3为:
L3=L2+λ*L1
其中,L1是所述第一损失值,L2是所述第二损失值,λ是常量。
本申请还提出了一种基于语义增强的智能语音对话装置,所述装置包括:
数据获取模块,用于获取待识别的语音数据;
待分析的文本数据确定模块,用于将所述待识别的语音数据输入预设的语音识别模型进行语音转换文本,得到待分析的文本数据;
纠错后的文本数据确定模块,用于将所述待分析的文本数据输入语义增强文本纠错模型进行语义增强和纠错处理,得到纠错后的文本数据,其中,所述语义增强文本纠错模型是基于Bert模型和全连接层训练得到的模型;
意图识别结果确定模块,用于将所述纠错后的文本数据输入预设的意图识别模型进行意图识别,得到意图识别结果;
目标回答文本数据确定模块,用于获取意图与话术知识库,根据所述意图识别结果和所述意图与话术知识库进行匹配,得到目标回答文本数据;
目标回答语音数据确定模块,用于将所述目标回答文本数据输入预设的语音合成模型进行文本转换语音,得到目标回答语音数据。
本申请还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于语义增强的智能语音对话方法、装置、设备及介质,通过首先将待识别的语音数据输入预设的语音识别模型进行语音转换文本,得到待分析的文本数据,其次将待分析的文本数据输入语义增强文本纠错模型进行语义增强和纠错处理,得到纠错后的文本数据,然后将纠错后的文本数据输入预设的意图识别模型进行意图识别,得到意图识别结果,根据意图识别结果和意图与话术知识库进行匹配,得到目标回答文本数据,最后将目标回答文本数据输入预设的语音合成模型进行文本转换语音,得到目标回答语音数据,实现了在语音转换文本后和意图识别之间进行语义增强和纠错处理,提高了输入预设的意图识别模型的文本的准确性;因语义增强文本纠错模型是基于Bert模型和全连接层训练得到的模型,使语义增强文本纠错模型在确保意图不变的情况下进行文本纠错,从而实现了语义增强和纠错处理,解决了现有技术的语音转换为文本的模型都是基于自左向右的单向语言模型,因忽略了句子的整体意思,导致生成的文本存在错误的技术问题。
附图说明
图1为本申请一实施例的基于语义增强的智能语音对话方法的流程示意图;
图2为本申请一实施例的基于语义增强的智能语音对话装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
为了解决现有技术中现有技术的语音转换为文本的模型都是基于自左向右的单向语言模型,因忽略了句子的整体意思,导致生成的文本存在错误的技术问题,本申请提出了一种基于语义增强的智能语音对话方法,所述方法应用于人工智能技术领域,所述方法进一步应用于人工智能的自然语言处理技术领域。所述基于语义增强的智能语音对话方法,通过将语音转换文本输入模型进行语义增强和纠错处理,对语义增强和纠错处理得到的文本进行意图识别,根据意图识别结果确定目标回答文本数据,根据目标回答文本数据确定目标回答语音数据,实现了在语音转换文本后和意图识别之间进行语义增强和纠错处理,提高了输入预设的意图识别模型的文本的准确性。
参照图1,本申请实施例中提供一种基于语义增强的智能语音对话方法,所述方法包括:
S1:获取待识别的语音数据;
S2:将所述待识别的语音数据输入预设的语音识别模型进行语音转换文本,得到待分析的文本数据;
S3:将所述待分析的文本数据输入语义增强文本纠错模型进行语义增强和纠错处理,得到纠错后的文本数据,其中,所述语义增强文本纠错模型是基于Bert模型和全连接层训练得到的模型;
S4:将所述纠错后的文本数据输入预设的意图识别模型进行意图识别,得到意图识别结果;
S5:获取意图与话术知识库,根据所述意图识别结果和所述意图与话术知识库进行匹配,得到目标回答文本数据;
S6:将所述目标回答文本数据输入预设的语音合成模型进行文本转换语音,得到目标回答语音数据。
本实施例通过首先将待识别的语音数据输入预设的语音识别模型进行语音转换文本,得到待分析的文本数据,其次将待分析的文本数据输入语义增强文本纠错模型进行语义增强和纠错处理,得到纠错后的文本数据,然后将纠错后的文本数据输入预设的意图识别模型进行意图识别,得到意图识别结果,根据意图识别结果和意图与话术知识库进行匹配,得到目标回答文本数据,最后将目标回答文本数据输入预设的语音合成模型进行文本转换语音,得到目标回答语音数据,实现了在语音转换文本后和意图识别之间进行语义增强和纠错处理,提高了输入预设的意图识别模型的文本的准确性;因语义增强文本纠错模型是基于Bert模型和全连接层训练得到的模型,使语义增强文本纠错模型在确保意图不变的情况下进行文本纠错,从而实现了语义增强和纠错处理,解决了现有技术的语音转换为文本的模型都是基于自左向右的单向语言模型,因忽略了句子的整体意思,导致生成的文本存在错误的技术问题。
对于S1,可以获取用户输入的待识别的语音数据,也可以是智能对话机器人输入的待识别的语音数据,还可以从数据库中获取待识别的语音数据,还可以从第三方应用系统获取待识别的语音数据。
待识别的语音数据,也就是语音数据。
对于S2,将所述待识别的语音数据输入预设的语音识别模型进行语音转换文本,将转换得到的文本作为所述待分析的文本数据。其中,所述预设的语音识别模型是基于ASR(自动语音识别)技术得到的模型。
对于S3,将所述待分析的文本数据输入语义增强文本纠错模型进行语义增强和纠错处理,将语义增强和纠错处理得到的数据作为纠错后的文本数据。可以理解的是,语义增强文本纠错模型对所述待分析的文本数据进行预测时,即可同时进行语义增强和纠错处理。
所述语义增强文本纠错模型是基于Bert(Bidirectional EncoderRepresentation from Transformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的)模型和全连接层训练得到的模型,用于在保留所述待分析的文本数据整体意图的情况下对所述待分析的文本数据进行语义增强和纠错处理。
对于S4,将所述纠错后的文本数据输入预设的意图识别模型进行意图识别,将意图识别得到的所有数据作为意图识别结果。
所述预设的意图识别模型,也就是意图识别模型。意图识别模型,用于对文本中的意图进行识别。意图识别模型的实现方法可以从现有技术中选择对文本进行意图识别的模型,在此不做赘述。
对于S5,可以获取用户输入的意图与话术知识库,也可以可以从数据库中获取意图与话术知识库,还可以从第三方应用系统获取意图与话术知识库。
意图与话术知识库包括:意图数据、回答文本数据,每个意图数据对应一个回答文本数据。
其中,将所述意图识别结果在所述意图与话术知识库中进行匹配,将在所述意图与话术知识库中匹配到的意图数据对应的回答文本数据作为所述目标回答文本数据。
对于S6,将所述目标回答文本数据输入预设的语音合成模型进行文本转换语音,将转换得到的语音数据作为目标回答语音数据,从而使目标回答语音数据是基于语义增强和文本纠错后的文本得到的回答语音数据。
所述预设的语音合成模型,也就是语音合成模型。语音合成模型,可以从现有技术中选择将文本转换为语音的模型,在此不做赘述。
在一个实施例中,上述将所述待分析的文本数据输入语义增强文本纠错模型进行语义增强和纠错处理,得到纠错后的文本数据的步骤之前,还包括:
S31:获取多个训练文本,所述多个训练文本中每个训练文本包括:文本样本数据、文本标定值和意图标定值,所述文本样本数据是语音转换文本得到的数据;
S32:从所述多个训练文本中获取一个所述训练文本作为目标训练文本;
S33:将所述目标训练文本的所述文本样本数据输入初始模型进行文本预测和意图预测,得到所述目标训练文本对应的文本预测值和意图预测值,所述初始模型包括:文本预测模块和意图预测模块,所述文本预测模块是基于所述Bert模型得到的模块,所述意图预测模块是基于所述全连接层得到的模块;
S34:将所述目标训练文本对应的所述文本标定值、所述意图标定值、所述文本预测值和所述意图预测值输入目标损失函数进行损失值计算,得到目标损失值,根据所述目标损失值更新所述初始模型的参数,将更新参数后的所述初始模型用于下一次计算所述文本预测值和所述意图预测值;
S35:重复执行所述从所述多个训练文本中获取一个所述训练文本作为目标训练文本的步骤,直至满足预设的模型训练结束条件,将满足所述预设的模型训练结束条件的所述初始模型的所述文本预测模块作为所述语义增强文本纠错模型。
本实施例实现了对初始模型进行训练得到语义增强文本纠错模型,在训练时同时采用将所述目标训练文本对应的所述文本标定值、所述意图标定值、所述文本预测值和所述意图预测值输入目标损失函数进行损失值计算,训练了所述初始模型在确保意图不变的情况下进行文本纠错,使最终得的语义增强文本纠错模型在确保输入文本意图不变的情况下具有语义增强和纠错处理的能力。
对于S31,可以从数据库中获取多个训练文本,也可以获取用户输入的多个训练文本,还可以从第三方应用系统获取多个训练文本。
每个训练文本包括:一个文本样本数据、一个文本标定值和一个意图标定值。
文本样本数据,是采用基于ASR技术得的模型对语音数据进行语音转换文本得到的文本数据。
在同一个训练文本中,文本标定值是对文本样本数据进行纠正后的正确文本数据,意图标定值是对文本样本数据的意图的标定值。
可选的,所述训练文本中的文本样本数据是一句话。可以理解的是,所述训练文本中的文本样本数据还可以是多句话。
对于S32,依次从所述多个训练文本中获取一个所述训练文本,将获取的所述训练文本作为所述目标训练文本。
对于S33,先对所述目标训练文本的所述文本样本数据进行编码序列化处理,然后将编码序列化处理的结果输入初始模型的文本预测模块进行文本预测,将初始模型输入的文本纠错作为所述目标训练文本对应的文本预测值,最后采用初始模型的意图预测模块对所述目标训练文本对应的文本预测值进行意图识别,得到所述目标训练文本对应的意图预测值。
意图预测值是对所述目标训练文本的所述文本样本数据的意图进行分类的结果。
可选的,所述初始模型的所述意图预测模块采用softmax激活函数(回归分类函数)。
对于S34,首先将所述目标训练文本对应的所述文本标定值、所述意图标定值、所述文本预测值和所述意图预测值输入目标损失函数进行损失值计算,将计算得到的数据作为目标损失值,然后根据所述目标损失值更新所述初始模型的参数,从而对初始模型进行在确保意图不变的情况下进行语义增强和文本纠错的训练。
目标损失函数,是基于交叉熵损失函数得到的损失函数。
对于S35,重复执行步骤S31至步骤S35,直至满足预设的模型训练结束条件。
其中,将满足所述预设的模型训练结束条件的所述初始模型的所述文本预测模块作为所述语义增强文本纠错模型,也就是说,所述语义增强文本纠错模型,用于在保持输入的文本数据的意图的情况下对输入的文本数据进行语义增强和文本纠错。
其中,所述预设的模型训练结束条件是指所述目标损失值达到第一收敛条件或迭代次数达到第二收敛条件。
所述第一收敛条件是指相邻两次计算的所述目标损失值的大小满足lipschitz条件(利普希茨连续条件)。
所述迭代次数达到第二收敛条件是指所述初始模型被训练的次数,也就是说,所述初始模型被训练一次,迭代次数增加1。
在一个实施例中,上述训练文本中的文本样本数据的语音转换文本错误率小于错误率阈值。
本实施例实现了将语音转换文本错误率小于错误率阈值作为文本样本数据,有利于确保每个训练文本的训练效果。
其中,从所述多个训练文本中获取任一个所述训练文本作为待计算的训练文本;将待计算的训练文本的文本样本数据和文本标定值进行逐个字符对比,得到待计算的训练文本的文本样本数据对应的错误字符数;对待计算的训练文本的文本标定值进行字符数量计算,得到待计算的训练文本的文本样本数据对应的总字符数;将待计算的训练文本的文本样本数据对应的错误字符数除以待计算的训练文本的文本样本数据对应的总字符数,得到待计算的训练文本的语音转换文本错误率;其中,待计算的训练文本的语音转换文本错误率小于错误率阈值。
错误率阈值,是一个0到1之间的小数,可以包括0,不包括1。
在一个实施例中,上述将所述目标训练文本的所述文本样本数据输入初始模型进行文本预测和意图预测,得到所述目标训练文本对应的文本预测值和意图预测值的步骤,包括:
S331:获取编码字典;
S332:根据所述编码字典对所述目标训练文本的所述文本样本数据进行编码序列化处理,得到目标编码序列;
S333:将所述目标编码序列输入所述初始模型进行文本预测,得到所述目标训练文本对应的所述文本预测值;
S334:采用所述初始模型,对所述文本预测值进行意图预测,得到所述目标训练文本对应的所述意图预测值。
本实施例通过先进行编码序列化处理,然后再进行语义增强,最后根据语义增强结果进行意图预测,为后续训练所述初始模型在确保意图不变的情况下进行文本纠错通过了基础。
对于S331,可以从数据库中获取编码字典,也可以获取用户输入的编码字典,还可以从第三方应用系统获取编码字典。
编码字典包括:字符、编码,每个字符对应一个编码。可以理解的是,编码字典中的编码具有唯一性。编码字典中的字符是一个字符。编码字典中的字符可以是一个中文字符。
对于S332,分别将所述目标训练文本的所述文本样本数据中每个字符在所述编码字典中进行查找,根据在所述编码字典中查找到的所有字符各自对应的编码得到目标编码序列。
对于S333,将所述目标编码序列输入所述初始模型的意图预测模块进行文本预测,将语义增强得到的文本数据作为所述目标训练文本对应的所述文本预测值。
可选的,所述初始模型的意图预测模块对将所述目标编码序列对应的每个字符对应的位置进行预测,将预测得到的所有数据作为所述目标训练文本对应的所述文本预测值。
对于S334,采用所述初始模型的文本预测模块,对所述目标训练文本对应的所述文本预测值进行意图预测,将意图预测得到的数据作为所述目标训练文本对应的所述意图预测值。
在一个实施例中,上述根据所述编码字典对所述目标训练文本的所述文本样本数据进行编码序列化处理,得到目标编码序列的步骤,包括:
S3321:分别将所述目标训练文本的所述文本样本数据中的每个字符在所述编码字典中进行查找,得到所述目标训练文本的所述文本样本数据对应的待处理编码集合;
S3322:根据所述目标训练文本的所述文本样本数据的字符顺序,对所述待处理编码集合进行序列生成,得到所述目标编码序列。
本实施例实现了根据所述编码字典对所述目标训练文本的所述文本样本数据进行编码序列化处理,为后续输入初始模型进行文本预测提供了基础。
对于S3321,分别将所述目标训练文本的所述文本样本数据中的每个字符在所述编码字典中进行查找,将在所述编码字典中查找到的每个字符对应的编码作为一个待处理编码,将所有的待处理编码作为所述目标训练文本的所述文本样本数据对应的待处理编码集合。
对于S3322,根据所述目标训练文本的所述文本样本数据的字符顺序,将所述待处理编码集合中的所有待处理编码进行排序,将排序后的所述待处理编码集合作为一个序列,将该序列作为目标编码序列。
在一个实施例中,上述将所述目标训练文本对应的所述文本标定值、所述意图标定值、所述文本预测值和所述意图预测值输入目标损失函数进行损失值计算,得到目标损失值的步骤,包括:
S341:将所述目标训练文本对应的所述文本标定值和所述文本预测值输入第一损失函数进行损失值计算,得到第一损失值;
S342:将所述目标训练文本对应的所述意图标定值和所述意图预测值输入第二损失函数进行损失值计算,得到第二损失值;
S343:根据所述第一损失值和所述第二损失值进行总损失值计算,得到所述目标损失值。
本实施例实现了对初始模型的文本预测和意图预测进行分别计算损失值后,再根据计算的两个损失值得到目标损失值,从而使根据目标损失值更新初始模型的参数时,通过文本预测和文本预测后文本的意图预测的同时训练,使最终得的语义增强文本纠错模型在文本预测时在确保输入文本意图不变的情况下具有语义增强和纠错处理的能力。
对于S341,将所述目标训练文本对应的所述文本标定值和所述文本预测值输入第一损失函数进行损失值计算,将计算得到的损失值作为第一损失值。
可选的,所述第一损失函数采用交叉熵损失函数。
将所述目标训练文本对应的所述文本标定值和所述文本预测值输入第一损失函数进行损失值计算的具体步骤在此不做赘述。
对于S342,将所述目标训练文本对应的所述意图标定值和所述意图预测值输入第二损失函数进行损失值计算,将计算得到的损失值作为第二损失值。
可选的,所述第二损失函数采用交叉熵损失函数。
将所述目标训练文本对应的所述意图标定值和所述意图预测值输入第二损失函数进行损失值计算的具体步骤在此不做赘述。
对于S343,根据所述第一损失值和所述第二损失值进行总损失值计算,将计算得到的数据作为目标损失值,从而实现了对第一损失值和第二损失值的融合,为对初始模型在文本预测和文本预测后文本的意图预测的同时训练提供了基础。
在一个实施例中,上述目标损失值的计算公式L3为:
L3=L2+λ*L1
其中,L1是所述第一损失值,L2是所述第二损失值,λ是常量。
本实施例采用对第一损失值和第二损失值进行融合,为更好的对初始模型在文本预测和文本预测后文本的意图预测的同时训练提供了基础。
可选的,λ是一个大于0的常量。
参照图2,本申请还提出了一种基于语义增强的智能语音对话装置,所述装置包括:
数据获取模块100,用于获取待识别的语音数据;
待分析的文本数据确定模块200,用于将所述待识别的语音数据输入预设的语音识别模型进行语音转换文本,得到待分析的文本数据;
纠错后的文本数据确定模块300,用于将所述待分析的文本数据输入语义增强文本纠错模型进行语义增强和纠错处理,得到纠错后的文本数据,其中,所述语义增强文本纠错模型是基于Bert模型和全连接层训练得到的模型;
意图识别结果确定模块400,用于将所述纠错后的文本数据输入预设的意图识别模型进行意图识别,得到意图识别结果;
目标回答文本数据确定模块500,用于获取意图与话术知识库,根据所述意图识别结果和所述意图与话术知识库进行匹配,得到目标回答文本数据;
目标回答语音数据确定模块600,用于将所述目标回答文本数据输入预设的语音合成模型进行文本转换语音,得到目标回答语音数据。
本实施例通过首先将待识别的语音数据输入预设的语音识别模型进行语音转换文本,得到待分析的文本数据,其次将待分析的文本数据输入语义增强文本纠错模型进行语义增强和纠错处理,得到纠错后的文本数据,然后将纠错后的文本数据输入预设的意图识别模型进行意图识别,得到意图识别结果,根据意图识别结果和意图与话术知识库进行匹配,得到目标回答文本数据,最后将目标回答文本数据输入预设的语音合成模型进行文本转换语音,得到目标回答语音数据,实现了在语音转换文本后和意图识别之间进行语义增强和纠错处理,提高了输入预设的意图识别模型的文本的准确性;因语义增强文本纠错模型是基于Bert模型和全连接层训练得到的模型,使语义增强文本纠错模型在确保意图不变的情况下进行文本纠错,从而实现了语义增强和纠错处理,解决了现有技术的语音转换为文本的模型都是基于自左向右的单向语言模型,因忽略了句子的整体意思,导致生成的文本存在错误的技术问题。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存基于语义增强的智能语音对话方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于语义增强的智能语音对话方法。所述基于语义增强的智能语音对话方法,包括:获取待识别的语音数据;将所述待识别的语音数据输入预设的语音识别模型进行语音转换文本,得到待分析的文本数据;将所述待分析的文本数据输入语义增强文本纠错模型进行语义增强和纠错处理,得到纠错后的文本数据,其中,所述语义增强文本纠错模型是基于Bert模型和全连接层训练得到的模型;将所述纠错后的文本数据输入预设的意图识别模型进行意图识别,得到意图识别结果;获取意图与话术知识库,根据所述意图识别结果和所述意图与话术知识库进行匹配,得到目标回答文本数据;将所述目标回答文本数据输入预设的语音合成模型进行文本转换语音,得到目标回答语音数据。
本实施例通过首先将待识别的语音数据输入预设的语音识别模型进行语音转换文本,得到待分析的文本数据,其次将待分析的文本数据输入语义增强文本纠错模型进行语义增强和纠错处理,得到纠错后的文本数据,然后将纠错后的文本数据输入预设的意图识别模型进行意图识别,得到意图识别结果,根据意图识别结果和意图与话术知识库进行匹配,得到目标回答文本数据,最后将目标回答文本数据输入预设的语音合成模型进行文本转换语音,得到目标回答语音数据,实现了在语音转换文本后和意图识别之间进行语义增强和纠错处理,提高了输入预设的意图识别模型的文本的准确性;因语义增强文本纠错模型是基于Bert模型和全连接层训练得到的模型,使语义增强文本纠错模型在确保意图不变的情况下进行文本纠错,从而实现了语义增强和纠错处理,解决了现有技术的语音转换为文本的模型都是基于自左向右的单向语言模型,因忽略了句子的整体意思,导致生成的文本存在错误的技术问题。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基于语义增强的智能语音对话方法,包括步骤:获取待识别的语音数据;将所述待识别的语音数据输入预设的语音识别模型进行语音转换文本,得到待分析的文本数据;将所述待分析的文本数据输入语义增强文本纠错模型进行语义增强和纠错处理,得到纠错后的文本数据,其中,所述语义增强文本纠错模型是基于Bert模型和全连接层训练得到的模型;将所述纠错后的文本数据输入预设的意图识别模型进行意图识别,得到意图识别结果;获取意图与话术知识库,根据所述意图识别结果和所述意图与话术知识库进行匹配,得到目标回答文本数据;将所述目标回答文本数据输入预设的语音合成模型进行文本转换语音,得到目标回答语音数据。
上述执行的基于语义增强的智能语音对话方法,本实施例通过首先将待识别的语音数据输入预设的语音识别模型进行语音转换文本,得到待分析的文本数据,其次将待分析的文本数据输入语义增强文本纠错模型进行语义增强和纠错处理,得到纠错后的文本数据,然后将纠错后的文本数据输入预设的意图识别模型进行意图识别,得到意图识别结果,根据意图识别结果和意图与话术知识库进行匹配,得到目标回答文本数据,最后将目标回答文本数据输入预设的语音合成模型进行文本转换语音,得到目标回答语音数据,实现了在语音转换文本后和意图识别之间进行语义增强和纠错处理,提高了输入预设的意图识别模型的文本的准确性;因语义增强文本纠错模型是基于Bert模型和全连接层训练得到的模型,使语义增强文本纠错模型在确保意图不变的情况下进行文本纠错,从而实现了语义增强和纠错处理,解决了现有技术的语音转换为文本的模型都是基于自左向右的单向语言模型,因忽略了句子的整体意思,导致生成的文本存在错误的技术问题。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于语义增强的智能语音对话方法,其特征在于,所述方法包括:
获取待识别的语音数据;
将所述待识别的语音数据输入预设的语音识别模型进行语音转换文本,得到待分析的文本数据;
将所述待分析的文本数据输入语义增强文本纠错模型进行语义增强和纠错处理,得到纠错后的文本数据,其中,所述语义增强文本纠错模型是基于Bert模型和全连接层训练得到的模型;
将所述纠错后的文本数据输入预设的意图识别模型进行意图识别,得到意图识别结果;
获取意图与话术知识库,根据所述意图识别结果和所述意图与话术知识库进行匹配,得到目标回答文本数据;
将所述目标回答文本数据输入预设的语音合成模型进行文本转换语音,得到目标回答语音数据。
2.根据权利要求1所述的基于语义增强的智能语音对话方法,其特征在于,所述将所述待分析的文本数据输入语义增强文本纠错模型进行语义增强和纠错处理,得到纠错后的文本数据的步骤之前,还包括:
获取多个训练文本,所述多个训练文本中每个训练文本包括:文本样本数据、文本标定值和意图标定值,所述文本样本数据是语音转换文本得到的数据;
从所述多个训练文本中获取一个所述训练文本作为目标训练文本;
将所述目标训练文本的所述文本样本数据输入初始模型进行文本预测和意图预测,得到所述目标训练文本对应的文本预测值和意图预测值,所述初始模型包括:文本预测模块和意图预测模块,所述文本预测模块是基于所述Bert模型得到的模块,所述意图预测模块是基于所述全连接层得到的模块;
将所述目标训练文本对应的所述文本标定值、所述意图标定值、所述文本预测值和所述意图预测值输入目标损失函数进行损失值计算,得到目标损失值,根据所述目标损失值更新所述初始模型的参数,将更新参数后的所述初始模型用于下一次计算所述文本预测值和所述意图预测值;
重复执行所述从所述多个训练文本中获取一个所述训练文本作为目标训练文本的步骤,直至满足预设的模型训练结束条件,将满足所述预设的模型训练结束条件的所述初始模型的所述文本预测模块作为所述语义增强文本纠错模型。
3.根据权利要求2所述的基于语义增强的智能语音对话方法,其特征在于,所述训练文本中的文本样本数据的语音转换文本错误率小于错误率阈值。
4.根据权利要求2所述的基于语义增强的智能语音对话方法,其特征在于,所述将所述目标训练文本的所述文本样本数据输入初始模型进行文本预测和意图预测,得到所述目标训练文本对应的文本预测值和意图预测值的步骤,包括:
获取编码字典;
根据所述编码字典对所述目标训练文本的所述文本样本数据进行编码序列化处理,得到目标编码序列;
将所述目标编码序列输入所述初始模型进行文本预测,得到所述目标训练文本对应的所述文本预测值;
采用所述初始模型,对所述文本预测值进行意图预测,得到所述目标训练文本对应的所述意图预测值。
5.根据权利要求4所述的基于语义增强的智能语音对话方法,其特征在于,所述根据所述编码字典对所述目标训练文本的所述文本样本数据进行编码序列化处理,得到目标编码序列的步骤,包括:
分别将所述目标训练文本的所述文本样本数据中的每个字符在所述编码字典中进行查找,得到所述目标训练文本的所述文本样本数据对应的待处理编码集合;
根据所述目标训练文本的所述文本样本数据的字符顺序,对所述待处理编码集合进行序列生成,得到所述目标编码序列。
6.根据权利要求2所述的基于语义增强的智能语音对话方法,其特征在于,所述将所述目标训练文本对应的所述文本标定值、所述意图标定值、所述文本预测值和所述意图预测值输入目标损失函数进行损失值计算,得到目标损失值的步骤,包括:
将所述目标训练文本对应的所述文本标定值和所述文本预测值输入第一损失函数进行损失值计算,得到第一损失值;
将所述目标训练文本对应的所述意图标定值和所述意图预测值输入第二损失函数进行损失值计算,得到第二损失值;
根据所述第一损失值和所述第二损失值进行总损失值计算,得到所述目标损失值。
7.根据权利要求6所述的基于语义增强的智能语音对话方法,其特征在于,所述目标损失值的计算公式L3为:
L3=L2+λ*L1
其中,L1是所述第一损失值,L2是所述第二损失值,λ是常量。
8.一种基于语义增强的智能语音对话装置,其特征在于,所述装置包括:
数据获取模块,用于获取待识别的语音数据;
待分析的文本数据确定模块,用于将所述待识别的语音数据输入预设的语音识别模型进行语音转换文本,得到待分析的文本数据;
纠错后的文本数据确定模块,用于将所述待分析的文本数据输入语义增强文本纠错模型进行语义增强和纠错处理,得到纠错后的文本数据,其中,所述语义增强文本纠错模型是基于Bert模型和全连接层训练得到的模型;
意图识别结果确定模块,用于将所述纠错后的文本数据输入预设的意图识别模型进行意图识别,得到意图识别结果;
目标回答文本数据确定模块,用于获取意图与话术知识库,根据所述意图识别结果和所述意图与话术知识库进行匹配,得到目标回答文本数据;
目标回答语音数据确定模块,用于将所述目标回答文本数据输入预设的语音合成模型进行文本转换语音,得到目标回答语音数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110586728.7A CN113270103A (zh) | 2021-05-27 | 2021-05-27 | 基于语义增强的智能语音对话方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110586728.7A CN113270103A (zh) | 2021-05-27 | 2021-05-27 | 基于语义增强的智能语音对话方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113270103A true CN113270103A (zh) | 2021-08-17 |
Family
ID=77233200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110586728.7A Pending CN113270103A (zh) | 2021-05-27 | 2021-05-27 | 基于语义增强的智能语音对话方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113270103A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113948066A (zh) * | 2021-09-06 | 2022-01-18 | 北京数美时代科技有限公司 | 一种实时转译文本的纠错方法、系统、存储介质和装置 |
CN113990302A (zh) * | 2021-09-14 | 2022-01-28 | 北京左医科技有限公司 | 电话随访语音识别方法、装置及系统 |
CN116136957A (zh) * | 2023-04-18 | 2023-05-19 | 之江实验室 | 一种基于意图一致性的文本纠错方法、装置和介质 |
CN117524215A (zh) * | 2023-09-26 | 2024-02-06 | 镁佳(北京)科技有限公司 | 语音意图识别方法、装置、计算机设备及存储介质 |
CN117975968A (zh) * | 2024-04-02 | 2024-05-03 | 四川金信石信息技术有限公司 | 一种基于声音和语言模型的远程巡视系统控制方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287100A (zh) * | 2019-07-12 | 2021-01-29 | 阿里巴巴集团控股有限公司 | 文本识别方法、拼写纠错方法及语音识别方法 |
CN112365892A (zh) * | 2020-11-10 | 2021-02-12 | 杭州大搜车汽车服务有限公司 | 人机对话方法、装置、电子装置及存储介质 |
US20210082424A1 (en) * | 2019-09-12 | 2021-03-18 | Oracle International Corporation | Reduced training intent recognition techniques |
CN112581954A (zh) * | 2020-12-01 | 2021-03-30 | 杭州九阳小家电有限公司 | 一种高匹配性语音交互方法和智能设备 |
-
2021
- 2021-05-27 CN CN202110586728.7A patent/CN113270103A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287100A (zh) * | 2019-07-12 | 2021-01-29 | 阿里巴巴集团控股有限公司 | 文本识别方法、拼写纠错方法及语音识别方法 |
US20210082424A1 (en) * | 2019-09-12 | 2021-03-18 | Oracle International Corporation | Reduced training intent recognition techniques |
CN112365892A (zh) * | 2020-11-10 | 2021-02-12 | 杭州大搜车汽车服务有限公司 | 人机对话方法、装置、电子装置及存储介质 |
CN112581954A (zh) * | 2020-12-01 | 2021-03-30 | 杭州九阳小家电有限公司 | 一种高匹配性语音交互方法和智能设备 |
Non-Patent Citations (1)
Title |
---|
苗伟: "基于语义增强的多轮检索式对话方法研究", 中国优秀硕士学位论文全文数据库信息科技辑, pages 138 - 895 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113948066A (zh) * | 2021-09-06 | 2022-01-18 | 北京数美时代科技有限公司 | 一种实时转译文本的纠错方法、系统、存储介质和装置 |
CN113948066B (zh) * | 2021-09-06 | 2022-07-12 | 北京数美时代科技有限公司 | 一种实时转译文本的纠错方法、系统、存储介质和装置 |
CN113990302A (zh) * | 2021-09-14 | 2022-01-28 | 北京左医科技有限公司 | 电话随访语音识别方法、装置及系统 |
CN113990302B (zh) * | 2021-09-14 | 2022-11-25 | 北京左医科技有限公司 | 电话随访语音识别方法、装置及系统 |
CN116136957A (zh) * | 2023-04-18 | 2023-05-19 | 之江实验室 | 一种基于意图一致性的文本纠错方法、装置和介质 |
CN116136957B (zh) * | 2023-04-18 | 2023-07-07 | 之江实验室 | 一种基于意图一致性的文本纠错方法、装置和介质 |
CN117524215A (zh) * | 2023-09-26 | 2024-02-06 | 镁佳(北京)科技有限公司 | 语音意图识别方法、装置、计算机设备及存储介质 |
CN117975968A (zh) * | 2024-04-02 | 2024-05-03 | 四川金信石信息技术有限公司 | 一种基于声音和语言模型的远程巡视系统控制方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113270103A (zh) | 基于语义增强的智能语音对话方法、装置、设备及介质 | |
CN110442870B (zh) | 文本纠错方法、装置、计算机设备和存储介质 | |
CN112380840B (zh) | 文本纠错方法、装置、设备及介质 | |
CN111133506A (zh) | 语音合成模型的训练方法、装置、计算机设备及存储介质 | |
CN109614627B (zh) | 一种文本标点预测方法、装置、计算机设备及存储介质 | |
CN111223476A (zh) | 语音特征向量的提取方法、装置、计算机设备和存储介质 | |
CN115599901B (zh) | 基于语义提示的机器问答方法、装置、设备及存储介质 | |
CN110689881A (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
CN113673698A (zh) | 适用于bert模型的蒸馏方法、装置、设备及存储介质 | |
CN112382272B (zh) | 可控制语音速度的语音合成方法、装置、设备及存储介质 | |
CN112733911A (zh) | 实体识别模型的训练方法、装置、设备和存储介质 | |
CN114357976A (zh) | 基于信息增强的多轮对话生成方法和系统 | |
CN114416984A (zh) | 基于人工智能的文本分类方法、装置、设备及存储介质 | |
CN110909134A (zh) | 语音转换的方法、移动终端和可读存储介质 | |
CN113268564B (zh) | 相似问题的生成方法、装置、设备及存储介质 | |
CN111933125B (zh) | 联合模型的语音识别方法、装置和计算机设备 | |
CN113223504B (zh) | 声学模型的训练方法、装置、设备和存储介质 | |
CN112800748B (zh) | 适用于多音字的音素预测方法、装置、设备及存储介质 | |
CN112365886B (zh) | 语音识别模型的训练方法、装置和计算机设备 | |
CN112732884A (zh) | 目标回答语句生成方法、装置、计算机设备和存储介质 | |
CN113178188A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN115497484B (zh) | 语音解码结果处理方法、装置、设备及存储介质 | |
CN113990296B (zh) | 语音声学模型的训练方法、后处理方法和相关设备 | |
CN113868403A (zh) | 基于人工智能的人机多轮对话方法、装置、设备及介质 | |
CN113887243A (zh) | 语义分类模型的训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20240528 |