CN112906403B - 语义分析模型训练方法、装置、终端设备及存储介质 - Google Patents
语义分析模型训练方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN112906403B CN112906403B CN202110449663.1A CN202110449663A CN112906403B CN 112906403 B CN112906403 B CN 112906403B CN 202110449663 A CN202110449663 A CN 202110449663A CN 112906403 B CN112906403 B CN 112906403B
- Authority
- CN
- China
- Prior art keywords
- word
- vector
- segmentation
- vocabulary
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请适用于人工智能技术领域,提供了一种语义分析模型训练方法、装置、终端设备及存储介质,该方法包括:对样本语句进行分词得到分词词汇,对分词词汇进行切分标和向量转换得到词向量,根据词汇顺序对词向量进行排序得到词向量序列,对词向量序列进行向量编码得到上下文编码向量;根据标记信息和上下文编码向量构建特征训练集;根据特征训练集对语义分析模型进行模型训练。本申请通过根据词汇顺序对词向量进行排序得到词向量序列,对词向量序列进行向量编码,使得上下文编码向量中能携带不同分词词汇之间的顺序特征,保障了特征训练集中携带有不同样本语句之间的关联特征,提高了语义分析模型训练的准确性。此外,本申请还涉及区块链技术。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种语义分析模型训练方法、装置、终端设备及存储介质。
背景技术
语义分析模型是人机交互中的重要一环,语义分析模型可以用于识别用户语音中的语义信息,并基于识别到的语音信息进行自动的语音对话,语义分析模型可用于客服机器人、语音操作界面或有声书播报等场景。
现有的语义分析模型训练过程中,均是直接对样本对话信息中的语句进行领域分析和意图理解,并未考虑样本对话信息中上下文之间的关联特征,使得语义分析模型的训练准确性低下。
发明内容
有鉴于此,本申请实施例提供了一种语义分析模型训练方法、装置、终端设备及存储介质,以解决现有技术的语义分析模型训练过程中,由于直接对样本对话信息中的语句进行领域分析和意图理解,所导致的语义分析模型准确性确率低下的问题。
本申请实施例的第一方面提供了一种语义分析模型训练方法,包括:
对样本对话信息中的样本语句进行分词,得到分词词汇,并对所述分词词汇进行切分标记,所述切分标记用于标记对应所述分词词汇被切分为指定词汇的次数;
对切分标记后的所述分词词汇进行向量转换,得到词向量,并获取不同所述分词词汇之间的词汇顺序,所述词汇顺序用于表征所述分词词汇在所述样本语句中的顺序;
根据所述词汇顺序对所述词向量进行排序,得到词向量序列,所述词向量序列包括至少两个所述词向量,并对所述词向量序列进行向量编码,得到上下文编码向量;
获取所述样本语句对应的标记信息,并根据同一所述样本语句对应的所述标记信息和所述上下文编码向量构建特征训练集;
根据所述特征训练集对语义分析模型进行模型训练,直至所述语义分析模型收敛。
进一步地,所述对所述词向量序列进行向量编码,得到上下文编码向量,包括:
对所述词向量序列进行向量转换,得到句向量数据,所述句向量数据包括不同所述样本语句与对应句向量之间的对应关系;
将所述句向量与所述句向量数据中其他的句向量进行组合,得到句向量组,并对所述句向量组进行向量编码,得到所述上下文编码向量。
进一步地,所述对切分标记后的所述分词词汇进行向量转换,得到词向量,包括:
将切分标记后的所述分词词汇输入预训练后的词汇相关模型进行向量转换,得到所述词向量;
所述对所述句向量组进行向量编码,得到所述上下文编码向量,包括:
将所述句向量组输入预训练后的RNN网络进行编码,得到所述上下文编码向量。
进一步地,所述对所述分词词汇进行切分标记,包括:
获取所述分词词汇与词汇列表之间的被匹配次数,得到词汇切分次数,所述词汇列表中存储有不同预先设置的所述指定词汇;
将所述词汇切分次数与预设的标记信息查询表进行匹配,得到切分标记信息,并根据所述切分标记信息对所述分词词汇进行标记。
进一步地,所述对样本对话信息中的样本语句进行分词,得到分词词汇的步骤之后,所述方法还包括:
获取所述分词词汇在所述样本对话信息中的出现次数,并根据所述出现次数计算所述分词词汇的词频;
若所述分词词汇的词频小于预设词频,则删除所述分词词汇。
进一步地,所述对样本对话信息中的样本语句进行分词,得到分词词汇,包括:
将所述样本语句中的样本词汇分别与预设的词汇列表进行匹配,所述词汇列表中存储有不同预先设置的指定词汇;
若所述样本词汇与所述词汇列表中的任一所述指定词汇相匹配,则对所述样本词汇进行分词,得到所述分词词汇。
本申请实施例的第二方面提供了一种语义分析方法,包括:
获取待分析语音,并将所述待分析语音输入采用上述方法训练后的所述语义分析模型进行语义分析,得到语义信息。
本申请实施例的第三方面提供了一种语义分析模型训练装置,包括:
切分标记单元,用于对样本对话信息中的样本语句进行分词,得到分词词汇,并对所述分词词汇进行切分标记,所述切分标记用于标记对应所述分词词汇被切分为指定词汇的次数;
向量转换单元,用于对切分标记后的所述分词词汇进行向量转换,得到词向量,并获取不同所述分词词汇之间的词汇顺序,所述词汇顺序用于表征所述分词词汇在所述样本语句中的顺序;
向量编码单元,用于根据所述词汇顺序对所述词向量进行排序,得到词向量序列,所述词向量序列包括至少两个所述词向量,并对所述词向量序列进行向量编码,得到上下文编码向量;
训练集构建单元,用于获取所述样本语句对应的标记信息,并根据同一所述样本语句对应的所述标记信息和所述上下文编码向量构建特征训练集;
模型训练单元,用于根据所述特征训练集对语义分析模型进行模型训练,直至所述语义分析模型收敛。
本申请实施例的第四方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在终端设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方案提供的语义分析模型训练方法的各步骤。
本申请实施例的第五方面提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方案提供的语义分析模型训练方法的各步骤。
实施本申请实施例提供的一种语义分析模型训练方法、装置、终端设备及存储介质具有以下有益效果:
本申请实施例提供的一种语义分析模型训练方法,通过对样本对话信息中的样本语句进行分词,能有效地获取到样本语句对应的分词词汇,通过对分词词汇进行切分标记,并对切分标记后的分词词汇进行向量转换,使得分词词汇对应的词向量上携带有切分次数特征,通过根据分词词汇之间的词汇顺序对词向量进行排序,得到词向量序列,并对词向量序列进行向量编码,使得得到的上下文编码向量中能有效地携带不同分词词汇之间的顺序特征,通过获取样本语句对应的标记信息,并根据同一样本语句对应的标记信息和上下文编码向量构建特征训练集,使得特征训练集中携带有不同样本语句之间的关联特征,进而有效地提高了语义分析模型训练的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语义分析模型训练方法的实现流程图;
图2是本申请另一实施例提供的一种语义分析模型训练方法的实现流程图;
图3是本申请实施例提供的一种语义分析模型训练装置的结构框图;
图4是本申请实施例提供的一种终端设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例所涉及的语义分析模型训练方法,可以由控制设备或终端(以下称“移动终端”)执行。
请参阅图1,图1示出了本申请实施例提供的一种语义分析模型训练方法的实现流程图,包括:
步骤S10,对样本对话信息中的样本语句进行分词,得到分词词汇,并对所述分词词汇进行切分标记;
其中,该样本对话信息中样本语句的数量和内容均可以根据需求进行设置,当该样本对话信息中样本语句的数量大于或等于2个时,则分别对该样本语句进行分词,例如,当该样本对话信息中的样本语句包括语句a1、语句a2和语句a3,则分别对该语句a1、语句a2和语句a3进行分词,得到分词集合b1、分词集合b2和分词集合b3,该分词集合b1、分词集合b2和分词集合b3包括对应样本语句的分词词汇。
具体的,该步骤中,所述对样本对话信息中的样本语句进行分词,得到分词词汇,包括:
将所述样本语句中的样本词汇分别与预设的词汇列表进行匹配,其中,该词汇列表中存储有不同预先设置的指定词汇,该指定词汇的数量和词汇内容均可以根据需求进行设置,例如,该词汇列表中存储有1000、5000或10000个不同的指定词汇;
若所述样本词汇与所述词汇列表中的任一所述指定词汇相匹配,则对所述样本词汇进行分词,得到所述分词词汇;
其中,若该样本词汇与词汇列表中的任一指定词汇中的词汇相同,则判定该样本词汇与该指定词汇相匹配,例如,当该样本语句为“中国人比较开朗”,该词汇列表包括“中国”、“中国人”、“人”“比较”和“开朗”时,由于样本语句中的词汇“中国”分别与词汇列表中的指定词汇“中国”和“中国人”相匹配,因此,针对样本词汇的分词结果包括“中国-人-比较-开朗”,“中国人-比较-开朗”。
通过在样本语句中对该样本词汇进行词汇分隔,以得到该分词词汇,具体的,该步骤中,可以采用预设分隔符的方式对该样本词汇进行词汇分隔,该预设分隔符可以根据需求进行设置,例如,可以将预设分隔符设置为“-”、“//”、“\\”或“/\”等符号。
可选的,该步骤中,还可以采用分词器的方式自动进行该样本语句的分词,通过对样本对话信息中的样本语句进行分词,有效的方便了后续对分词词汇的向量转换操作。
进一步地,该步骤中,该切分标记用于标记对应分词词汇被切分为指定词汇的次数,所述对所述分词词汇进行切分标记,包括:
获取所述分词词汇与词汇列表之间的被匹配次数,得到词汇切分次数;
其中,该词汇切分次数是对应分词词汇在进行分词时被切分的次数,例如,当该样本语句为“中国人比较开朗”,该词汇列表包括“中国”、“中国人”、“人”“比较”和“开朗”时,则分词词汇“中国”对应的词汇切分次数是2次、分词词汇“中国人”对应的词汇切分次数是1次、分词词汇“人”对应的词汇切分次数是2次、分词词汇“比较”对应的词汇切分次数是1次、分词词汇“开朗”对应的词汇切分次数是1次;
将所述词汇切分次数与预设的标记信息查询表进行匹配,得到切分标记信息,并根据所述切分标记信息对所述分词词汇进行标记;
其中,该标记信息查询表中存储有不同词汇切分次数与对应切分标记信息之间的对应关系,通过将词汇切分次数与预设的标记信息查询表进行匹配,有效地提高了切分标记信息获取的准确性,并通过根据切分标记信息对分词词汇进行标记,使得标记后的分词词汇上能有效地携带有词汇的切分特征,该词汇的切分特征用于表征对应分词词汇在样本语句中被切分的次数。
可选的,该步骤中,所述对样本对话信息中的样本语句进行分词,得到分词词汇的步骤之后,所述方法还包括:
获取所述分词词汇在所述样本对话信息中的出现次数,并根据所述出现次数计算所述分词词汇的词频,其中,通过计算分词词汇在样本对话信息中的出现次数与样本对话信息中的总词汇数量之间的商值,得到该分词词汇的词频,当该分词词汇的词频越大时,则判定该分词词汇在样本对话信息中次数越多;
若所述分词词汇的词频小于预设词频,则删除所述分词词汇,其中,该预设词频可以根据需求进行设置,该预设词频用于判断分词词汇在样本对话信息中的出现次数是否满足特征提取需求,若分词词汇的词频小于预设词频,则判定该分词词汇在样本对话信息中的出现次数不满足特征提取需求,即,针对该分词词汇无需进行特征提取,通过在该样本对话信息中删除该分词词汇,以提高后续对该分词词汇的向量转换效率。
步骤S20,对切分标记后的所述分词词汇进行向量转换,得到词向量,并获取不同所述分词词汇之间的词汇顺序;
其中,该步骤中,可以采用词编码器的方式对该分词词汇进行向量转换,可以采用Word2Vec/Glove等词嵌入技术,也可以使用ELMo/BERT等预训练语言模型作为词编码器,该词编码器用于将切分标记后的分词词汇转换为对应固定维度的词向量,该词汇顺序用于表征分词词汇在样本语句中的顺序。
可选的,该步骤中,所述对切分标记后的所述分词词汇进行向量转换,得到词向量,包括:将切分标记后的所述分词词汇输入预训练后的词汇相关模型(词向量模型)进行向量转换,得到所述词向量。
具体的,该步骤中,词汇相关模型的训练步骤包括:
对词汇相关模型中的输入层、投影层和输出层进行参数初始化,并获取训练语料;
将训练语料输入该输入层,并依据训练语料中每个词的词频生成哈弗曼树;
根据生成的哈弗曼树生成每个词的哈弗曼编码以及路径,并初始化输入层中的词向量以及哈弗曼树上非叶子结点的向量;
计算输出层的模型损失值,并根据计算得到的模型损失值对词汇相关模型中的输入层、投影层和输出层进行参数更新,直至该词汇相关模型收敛。收敛后的词汇相关模型用于将输入的词汇转换为对应维度的词向量。
步骤S30,根据所述词汇顺序对所述词向量进行排序,得到词向量序列,并对所述词向量序列进行向量编码,得到上下文编码向量;
其中,该词向量序列包括至少两个词向量,通过根据词汇顺序对词向量进行排序,使得词向量序列进行向量编码后的上下文编码向量中携带有不同分词词汇之间的内容特征和顺序特征。
该步骤中,可以基于循环神经网络的方式对词向量序列进行向量编码,以得到该词向量序列对应的上下文编码向量。
步骤S40,获取所述样本语句对应的标记信息,并根据同一所述样本语句对应的所述标记信息和所述上下文编码向量构建特征训练集;
其中,通过获取该样本语句的语句标识,并将该语句标识与标记信息查询表进行匹配,得到样本语句对应的标记信息,该标记信息查询表中还存储有不同语句标识与标记信息之间的对应关系;
具体的,该步骤中,将同一样本语句对应的标记信息和上下文编码向量对应进行存储,得到样本训练信息,并根据该样本语句在样本对话信息中的语句编号对该样本训练信息进行排序,得到该特征训练集。
步骤S50,根据所述特征训练集对语义分析模型进行模型训练,直至所述语义分析模型收敛;
其中,当语义分析模型完成训练时,计算该语义分析模型的模型损失,当计算得到的模型损失小于损失阈值,则判定该语义分析模型未收敛,通过重新获取样本对话信息,并返回执行所述对样本对话信息中的样本语句进行分词,得到分词词汇的步骤以及后续步骤,直至计算得到的模型损失大于或等于损失阈值时,判定该语义分析模型收敛。
可选的,该步骤中,若语义分析模型的模型训练次数大于次数阈值时,判定语义分析模型收敛。
本实施例中,通过对样本对话信息中的样本语句进行分词,能有效地获取到样本语句对应的分词词汇,通过对分词词汇进行切分标记,并对切分标记后的分词词汇进行向量转换,使得分词词汇对应的词向量上携带有切分次数特征,通过根据分词词汇之间的词汇顺序对词向量进行排序,得到词向量序列,并对词向量序列进行向量编码,使得得到的上下文编码向量中能有效地携带不同分词词汇之间的顺序特征,通过获取样本语句对应的标记信息,并根据同一样本语句对应的标记信息和上下文编码向量构建特征训练集,使得特征训练集中携带有不同样本语句之间的关联特征,进而有效地提高了语义分析模型训练的准确性。
请参阅图2,图2是本申请另一实施例提供的一种语义分析模型训练方法的实现流程图。相对于图1实施例,本实施例提供的语义分析模型训练方法用于对图1实施例中的步骤S30作进一步细化,包括:
步骤S31,对所述词向量序列进行向量转换,得到句向量数据;
其中,该句向量数据包括不同样本语句与对应句向量之间的对应关系,该句向量是样本语句对应词向量序列进行向量转换得到的向量数据,该步骤中,可以采用词编码器的方式对该词向量序列进行向量转换,可以采用Word2Vec/Glove等词嵌入技术,也可以使用ELMo/BERT等预训练语言模型作为词编码器,该词编码器用于将词向量序列转换为对应固定维度的词向量;
假如,当样本语句s=w1、w2…wn,其中wi(i=1…n)为样本语句分词后的分词词汇,wi经过词编码器得到对应词向量vi,v1、v2…vn所构成的数据为样本语句s对应的句向量数据,针对样本语句s,不同分词词汇之间的词汇顺序为v1、v2…vn。
步骤S32,将所述句向量与所述句向量数据中其他的句向量进行组合,得到句向量组,并对所述句向量组进行向量编码,得到所述上下文编码向量;
该步骤中,可以采用向量矢量叠加的方式进行该句向量与其他不同句向量之间组合的效果,以得到对应的句向量组;
例如,当样本语句对应词向量序列进行向量转换,得到句向量数据q,句向量数据q包括q1,q2,…qn-1,将当前句子和上下文句子两两组合进行组合,得到句向量组,即得到n-1个组合(q n,q 1)/(q n,q 2)/…/(q n,q n-1)。
具体的,该步骤中,所述对所述句向量组进行向量编码,得到所述上下文编码向量,包括:将所述句向量组输入预训练后的RNN网络进行编码,得到所述上下文编码向量。
其中,将句向量组分别经过一全连接神经网络得到序列变换输出o1,o2,…on-1,最后使用预训练后循环神经网络作为序列编码器处理o1,o2…on-1,得到上下文编码向量hn;
本实施例中,通过对词向量序列进行向量转换,使得句向量数据中能有效的携带有不同词向量对应分词词汇之间的内容特征,通过将句向量与句向量数据中其他的句向量进行组合,得到句向量组,能有效的在不同句向量之间起到特征关联的效果,通过对句向量组进行向量编码,得到上下文编码向量,使得得到的上下文编码向量中能有效地携带样本对话信息中的原始信息特征和上下文之间的关联特征。
本实施例还提供一种语义分析方法,包括:
获取待分析语音,并将所述待分析语音输入采用如图1或图2实施例中语义分析模型训练方法训练后的所述语义分析模型进行语义分析,得到语义信息。
本实施例中,通过将待分析语音输入采用如图1或图2实施例中语义分析模型训练方法训练后的语义分析模型进行语义分析,有效地提高了对待分析语音语义分析的准确性。
在本申请的所有实施例中,基于特征训练集对语义分析模型进行模型训练,得到收敛后的语义分析模型,具体来说,收敛后的语义分析模型由特征训练集进行模型训练得到。将收敛后的语义分析模型上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得到该收敛后的语义分析模型,以便查证收敛后的语义分析模型是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
请参阅图3,图3是本申请实施例提供的一种语义分析模型训练装置100的结构框图。本实施例中该语义分析模型训练装置100包括的各单元用于执行图1、图2对应的实施例中的各步骤。具体请参阅图1、图2以及图1、图2所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图3,语义分析模型训练装置100包括:切分标记单元10、向量转换单元11、向量编码单元12、训练集构建单元13和模型训练单元14,其中:
切分标记单元10,用于对样本对话信息中的样本语句进行分词,得到分词词汇,并对所述分词词汇进行切分标记,所述切分标记用于标记对应所述分词词汇被切分为指定词汇的次数。
其中,该切分标记单元10还用于:获取所述分词词汇与词汇列表之间的被匹配次数,得到词汇切分次数,所述词汇列表中存储有不同预先设置的所述指定词汇;
将所述词汇切分次数与预设的标记信息查询表进行匹配,得到切分标记信息,并根据所述切分标记信息对所述分词词汇进行标记。
优选的,该切分标记单元10还用于:获取所述分词词汇在所述样本对话信息中的出现次数,并根据所述出现次数计算所述分词词汇的词频;
若所述分词词汇的词频小于预设词频,则删除所述分词词汇。
进一步地,该切分标记单元10还用于:将所述样本语句中的样本词汇分别与预设的词汇列表进行匹配,所述词汇列表中存储有不同预先设置的指定词汇;
若所述样本词汇与所述词汇列表中的任一所述指定词汇相匹配,则对所述样本词汇进行分词,得到所述分词词汇。
向量转换单元11,用于对切分标记后的所述分词词汇进行向量转换,得到词向量,并获取不同所述分词词汇之间的词汇顺序,所述词汇顺序用于表征所述分词词汇在所述样本语句中的顺序。
其中,该向量转换单元11还用于:将切分标记后的所述分词词汇输入预训练后的词汇相关模型进行向量转换,得到所述词向量。
向量编码单元12,用于根据所述词汇顺序对所述词向量进行排序,得到词向量序列,所述词向量序列包括至少两个所述词向量,并对所述词向量序列进行向量编码,得到上下文编码向量。
其中,该向量编码单元12还用于:对所述词向量序列进行向量转换,得到句向量数据,所述句向量数据包括不同所述样本语句与对应句向量之间的对应关系;
将所述句向量与所述句向量数据中其他的句向量进行组合,得到句向量组,并对所述句向量组进行向量编码,得到所述上下文编码向量。
可选的,该向量编码单元12还用于:将所述句向量组输入预训练后的RNN网络进行编码,得到所述上下文编码向量。
训练集构建单元13,用于获取所述样本语句对应的标记信息,并根据同一所述样本语句对应的所述标记信息和所述上下文编码向量构建特征训练集。
模型训练单元14,用于根据所述特征训练集对语义分析模型进行模型训练,直至所述语义分析模型收敛。
本实施例中,通过对样本对话信息中的样本语句进行分词,能有效地获取到样本语句对应的分词词汇,通过对分词词汇进行切分标记,并对切分标记后的分词词汇进行向量转换,使得分词词汇对应的词向量上携带有切分次数特征,通过根据分词词汇之间的词汇顺序对词向量进行排序,得到词向量序列,并对词向量序列进行向量编码,使得得到的上下文编码向量中能有效地携带不同分词词汇之间的顺序特征,通过获取样本语句对应的标记信息,并根据同一样本语句对应的标记信息和上下文编码向量构建特征训练集,使得特征训练集中携带有不同样本语句之间的关联特征,进而有效地提高了语义分析模型训练的准确性。
图4是本申请另一实施例提供的一种终端设备2的结构框图。如图4所示,该实施例的终端设备2包括:处理器20、存储器21以及存储在所述存储器21中并可在所述处理器20上运行的计算机程序22,例如语义分析模型训练方法的程序。处理器20执行所述计算机程序23时实现上述各个语义分析模型训练方法各实施例中的步骤,例如图1所示的S10至S50,或者图2所示的S31至S32。或者,所述处理器20执行所述计算机程序22时实现上述图3对应的实施例中各单元的功能,例如,图3所示的单元10至14的功能,具体请参阅图3对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序22可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器21中,并由所述处理器20执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序22在所述终端设备2中的执行过程。例如,所述计算机程序22可以被分割成切分标记单元10、向量转换单元11、向量编码单元12、训练集构建单元13和模型训练单元14,各单元具体功能如上所述。
所述终端设备可包括,但不仅限于,处理器20、存储器21。本领域技术人员可以理解,图4仅仅是终端设备2的示例,并不构成对终端设备2的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器20可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器21可以是所述终端设备2的内部存储单元,例如终端设备2的硬盘或内存。所述存储器21也可以是所述终端设备2的外部存储设备,例如所述终端设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器21还可以既包括所述终端设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。
本实施例还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语义分析模型训练方法的各步骤。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (9)
1.一种语义分析模型训练方法,其特征在于,包括:
对样本对话信息中的样本语句进行分词,得到分词词汇,并对所述分词词汇进行切分标记,所述切分标记用于标记对应所述分词词汇被切分为指定词汇的次数;
对切分标记后的所述分词词汇进行向量转换,得到词向量,并获取不同所述分词词汇之间的词汇顺序,所述词汇顺序用于表征所述分词词汇在所述样本语句中的顺序;
根据所述词汇顺序对所述词向量进行排序,得到词向量序列,所述词向量序列包括至少两个所述词向量,并对所述词向量序列进行向量编码,得到上下文编码向量,包括:对所述词向量序列进行向量转换,得到句向量数据,所述句向量数据包括不同所述样本语句与对应句向量之间的对应关系;将所述句向量与所述句向量数据中其他的句向量进行组合,得到句向量组,并对所述句向量组进行向量编码,得到所述上下文编码向量;
获取所述样本语句对应的标记信息,并根据同一所述样本语句对应的所述标记信息和所述上下文编码向量构建特征训练集;
根据所述特征训练集对语义分析模型进行模型训练,直至所述语义分析模型收敛。
2.根据权利要求1所述的语义分析模型训练方法,其特征在于,所述对切分标记后的所述分词词汇进行向量转换,得到词向量,包括:
将切分标记后的所述分词词汇输入预训练后的词汇相关模型进行向量转换,得到所述词向量;
所述对所述句向量组进行向量编码,得到所述上下文编码向量,包括:
将所述句向量组输入预训练后的RNN网络进行编码,得到所述上下文编码向量。
3.根据权利要求1所述的语义分析模型训练方法,其特征在于,所述对所述分词词汇进行切分标记,包括:
获取所述分词词汇与词汇列表之间的被匹配次数,得到词汇切分次数,所述词汇列表中存储有不同预先设置的所述指定词汇;
将所述词汇切分次数与预设的标记信息查询表进行匹配,得到切分标记信息,并根据所述切分标记信息对所述分词词汇进行标记。
4.根据权利要求1所述的语义分析模型训练方法,其特征在于,所述对样本对话信息中的样本语句进行分词,得到分词词汇的步骤之后,所述方法还包括:
获取所述分词词汇在所述样本对话信息中的出现次数,并根据所述出现次数计算所述分词词汇的词频;
若所述分词词汇的词频小于预设词频,则删除所述分词词汇。
5.根据权利要求1所述的语义分析模型训练方法,其特征在于,所述对样本对话信息中的样本语句进行分词,得到分词词汇,包括:
将所述样本语句中的样本词汇分别与预设的词汇列表进行匹配,所述词汇列表中存储有不同预先设置的指定词汇;
若所述样本词汇与所述词汇列表中的任一所述指定词汇相匹配,则对所述样本词汇进行分词,得到所述分词词汇。
6.一种语义分析方法,其特征在于,包括:
获取待分析语音,并将所述待分析语音输入采用如权利要求1至5任一项所述方法训练后的所述语义分析模型进行语义分析,得到语义信息。
7.一种语义分析模型训练装置,其特征在于,包括:
切分标记单元,用于对样本对话信息中的样本语句进行分词,得到分词词汇,并对所述分词词汇进行切分标记,所述切分标记用于标记对应所述分词词汇被切分为指定词汇的次数;
向量转换单元,用于对切分标记后的所述分词词汇进行向量转换,得到词向量,并获取不同所述分词词汇之间的词汇顺序,所述词汇顺序用于表征所述分词词汇在所述样本语句中的顺序;
向量编码单元,用于根据所述词汇顺序对所述词向量进行排序,得到词向量序列,所述词向量序列包括至少两个所述词向量,并对所述词向量序列进行向量编码,得到上下文编码向量,包括:对所述词向量序列进行向量转换,得到句向量数据,所述句向量数据包括不同所述样本语句与对应句向量之间的对应关系;将所述句向量与所述句向量数据中其他的句向量进行组合,得到句向量组,并对所述句向量组进行向量编码,得到所述上下文编码向量;
训练集构建单元,用于获取所述样本语句对应的标记信息,并根据同一所述样本语句对应的所述标记信息和所述上下文编码向量构建特征训练集;
模型训练单元,用于根据所述特征训练集对语义分析模型进行模型训练,直至所述语义分析模型收敛。
8.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。
9.一种存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110449663.1A CN112906403B (zh) | 2021-04-25 | 2021-04-25 | 语义分析模型训练方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110449663.1A CN112906403B (zh) | 2021-04-25 | 2021-04-25 | 语义分析模型训练方法、装置、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112906403A CN112906403A (zh) | 2021-06-04 |
CN112906403B true CN112906403B (zh) | 2023-02-03 |
Family
ID=76108898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110449663.1A Active CN112906403B (zh) | 2021-04-25 | 2021-04-25 | 语义分析模型训练方法、装置、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112906403B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486674A (zh) * | 2021-06-30 | 2021-10-08 | 河南光悦网络科技有限公司 | 基于人工智能的针对多轮对话进行语义分析的方法和装置 |
CN115983251B (zh) * | 2023-02-16 | 2023-06-09 | 江苏联著实业股份有限公司 | 一种基于句用分析的文本主题提取系统及方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110288980A (zh) * | 2019-06-17 | 2019-09-27 | 平安科技(深圳)有限公司 | 语音识别方法、模型的训练方法、装置、设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9477654B2 (en) * | 2014-04-01 | 2016-10-25 | Microsoft Corporation | Convolutional latent semantic models and their applications |
CN105824797B (zh) * | 2015-01-04 | 2019-11-12 | 华为技术有限公司 | 一种评价语义相似度的方法、装置和系统 |
CN110895553A (zh) * | 2018-08-23 | 2020-03-20 | 国信优易数据有限公司 | 语义匹配模型训练方法、语义匹配方法及答案获取方法 |
CN110210030B (zh) * | 2019-05-31 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 语句分析的方法及装置 |
CN110334190A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 一种面向开放域对话系统的回复自动生成方法 |
CN110674639B (zh) * | 2019-09-24 | 2022-12-09 | 识因智能科技有限公司 | 一种基于预训练模型的自然语言理解方法 |
CN111753550A (zh) * | 2020-06-28 | 2020-10-09 | 汪秀英 | 一种自然语言的语义解析方法 |
-
2021
- 2021-04-25 CN CN202110449663.1A patent/CN112906403B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110288980A (zh) * | 2019-06-17 | 2019-09-27 | 平安科技(深圳)有限公司 | 语音识别方法、模型的训练方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112906403A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271631B (zh) | 分词方法、装置、设备及存储介质 | |
AU2018232914B2 (en) | Techniques for correcting linguistic training bias in training data | |
CN108847241B (zh) | 将会议语音识别为文本的方法、电子设备及存储介质 | |
CN110543552B (zh) | 对话交互方法、装置及电子设备 | |
CN110990543A (zh) | 智能对话的生成方法、装置、计算机设备及计算机存储介质 | |
CN108710704B (zh) | 对话状态的确定方法、装置、电子设备及存储介质 | |
CN111695052A (zh) | 标签分类方法、数据处理设备、可读存储介质 | |
CN110795552A (zh) | 一种训练样本生成方法、装置、电子设备及存储介质 | |
CN112906403B (zh) | 语义分析模型训练方法、装置、终端设备及存储介质 | |
CN109241330A (zh) | 用于识别音频中的关键短语的方法、装置、设备和介质 | |
CN111274797A (zh) | 用于终端的意图识别方法、装置、设备及存储介质 | |
CN112528637A (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN112836508A (zh) | 信息提取模型训练方法、装置、终端设备及存储介质 | |
CN112613322B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN112786003A (zh) | 语音合成模型训练方法、装置、终端设备及存储介质 | |
CN112463942A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN110942774A (zh) | 一种人机交互系统、其对话方法、介质和设备 | |
CN111563161B (zh) | 一种语句识别方法、语句识别装置及智能设备 | |
CN113806645A (zh) | 标签分类系统及标签分类模型的训练系统 | |
CN114860938A (zh) | 一种语句意图识别方法和电子设备 | |
CN113553847A (zh) | 用于对地址文本进行解析的方法、装置、系统和存储介质 | |
CN111046674B (zh) | 语义理解方法、装置、电子设备和存储介质 | |
CN112052329A (zh) | 文本摘要生成方法、装置、计算机设备及可读存储介质 | |
CN112818096A (zh) | 对话生成方法及其装置 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |