CN112183114A - 模型训练、语义完整性识别方法和装置 - Google Patents

模型训练、语义完整性识别方法和装置 Download PDF

Info

Publication number
CN112183114A
CN112183114A CN202010794728.1A CN202010794728A CN112183114A CN 112183114 A CN112183114 A CN 112183114A CN 202010794728 A CN202010794728 A CN 202010794728A CN 112183114 A CN112183114 A CN 112183114A
Authority
CN
China
Prior art keywords
sample
semantic
sentence
complete
incomplete
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010794728.1A
Other languages
English (en)
Other versions
CN112183114B (zh
Inventor
夏海兵
佘丽丽
毛宇
林昊
徐伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Merchants Union Consumer Finance Co Ltd
Original Assignee
Merchants Union Consumer Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Merchants Union Consumer Finance Co Ltd filed Critical Merchants Union Consumer Finance Co Ltd
Priority to CN202010794728.1A priority Critical patent/CN112183114B/zh
Publication of CN112183114A publication Critical patent/CN112183114A/zh
Application granted granted Critical
Publication of CN112183114B publication Critical patent/CN112183114B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种模型训练、语义完整性识别方法和装置。所述方法包括:获取待识别语句;获取语义完整样本;根据所述语义完整样本,得到语义不完整样本;根据所述语义完整样本和所述语义不完整样本,得到完整性识别模型的模型训练样本;根据所述模型训练样本对所述完整性识别模型进行训练,得到训练后完整性识别模型;所述训练后完整性识别模型用于对待识别语句进行语义完整性识别。采用本方法能够使训练样本中既包含语义完整样本又包含语义不完整样本,训练得到的模型能够结合语义完整特征和语义不完整特征识别语义完整性,可以提高语义完整性识别的准确性。

Description

模型训练、语义完整性识别方法和装置
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种用于语义完整性识别的模型训练方法和装置、一种语义完整性识别方法和装置、一种计算机设备和一种存储介质。
背景技术
随着自然语言处理技术的发展,出现了人机交互技术,人机交互具备交互性和实时性,通过设置音频静音等待时间,智能体可以在实时交互过程中确定何时开始回复客户,然而,当静音等待时间设置过长时,容易导致客户在长期未得到回应的情况下继续表述,从而造成串话、多意图的现象,容易造成交互流畅度不高。
目前的解决方法是通过ASR(Automatic Speech Recognition,自动语音识别)实时流式反馈客户话术的文本信息,流式判断客户话术语义表述的完整性,进而根据完整性来动态调整静音等待时间。然而,ASR方法容易受识别词汇表大小、语音复杂性和语音信号质量的限制,容易导致语义完整行识别的准确性较低。
因此,目前的语义完整性识别技术存在识别准确性较低的问题。
发明内容
基于此,有必要针对语义完整性识别准确性较低的技术问题,提供一种用于语义完整性识别的模型训练方法和装置、一种语义完整性识别方法和装置、一种计算机设备和一种存储介质。
一种用于语义完整性识别的模型训练方法,所述方法包括:
获取语义完整样本;
根据所述语义完整样本,得到语义不完整样本;
根据所述语义完整样本和所述语义不完整样本,得到完整性识别模型的模型训练样本;
根据所述模型训练样本对所述完整性识别模型进行训练,得到训练后完整性识别模型;所述训练后完整性识别模型用于对待识别语句进行语义完整性识别。
在其中一个实施例中,所述语义完整样本包括完整样本语句;所述根据所述语义完整样本,得到语义不完整样本,包括:
对所述完整样本语句进行切词处理,得到完整样本词;
通过去除所述完整样本词中的停用词,得到完整样本关键词;
通过对所述完整样本关键词进行不完全选取,得到不完整样本关键词;
根据所述不完整样本关键词,得到所述语义不完整样本。
在其中一个实施例中,所述根据所述语义完整样本和所述语义不完整样本,得到完整性识别模型的模型训练样本,包括:
对所述完整样本关键词进行编码,得到完整样本关键词编码,以及,对所述不完整样本关键词进行编码,得到不完整样本关键词编码;
根据所述完整样本关键词编码和所述不完整样本关键词编码,得到所述模型训练样本。
在其中一个实施例中,所述根据所述语义完整样本和所述语义不完整样本,得到完整性识别模型的模型训练样本,还包括:
获取所述完整样本关键词对应的完整样本词性,以及,获取所述不完整样本关键词对应的不完整样本词性;
对所述完整样本词性进行编码,得到完整样本词性编码,以及,对所述不完整样本词性进行编码,得到不完整样本词性编码;
根据所述完整样本关键词编码、所述不完整样本关键词编码、所述完整样本词性编码和所述不完整样本词性编码,得到所述模型训练样本。
在其中一个实施例中,所述获取语义完整样本,包括:
获取候选样本语句;
通过对所述候选样本语句进行句法分析处理,得到所述候选样本语句的语句结构;
根据所述语句结构,识别所述候选样本语句的语句意图;
若所述语句意图为单意图,则将所述候选样本语句作为所述完整样本语句;
根据所述完整样本语句,得到所述语义完整样本。
一种语义完整性识别方法,所述方法包括:
获取待识别语句;
对所述待识别语句进行预处理,得到所述待识别语句的词向量;
将所述词向量输入预设的完整性识别模型,得到所述完整性识别模型输出的完整性概率;所述完整性识别模型为根据语义完整样本和语义不完整样本训练得到的模型;
当所述完整性概率超过预设的概率阈值时,判定所述待识别语句具备语义完整性。
在其中一个实施例中,所述对所述待识别语句进行预处理,得到所述待识别语句的词向量,包括:
对所述待识别语句进行切词处理,得到待识别语句切词;
通过去除所述待识别语句切词中的停用词,得到待识别语句关键词;
通过对所述待识别语句关键词进行编码,得到待识别语句关键词编码;
根据所述待识别语句关键词编码,得到所述待识别语句的词向量。
在其中一个实施例中,所述方法还包括:
获取所述待识别语句关键词的词性;
通过对所述词性进行编码,得到关键词词性编码;
根据所述关键词词性编码,得到所述待识别语句的词性向量;
将所述词向量和所述词性向量输入所述完整性识别模型,得到所述完整性概率。
一种用于语义完整性识别的模型训练装置,所述装置包括:
完整样本获取模块,用于获取语义完整样本;
不完整样本获取模块,用于根据所述语义完整样本,得到语义不完整样本;
训练样本获取模块,用于根据所述语义完整样本和所述语义不完整样本,得到完整性识别模型的模型训练样本;
训练模块,用于根据所述模型训练样本对所述完整性识别模型进行训练,得到训练后完整性识别模型;所述训练后完整性识别模型用于对待识别语句进行语义完整性识别。
一种语义完整性识别装置,所述装置包括:
获取模块,用于获取待识别语句;
预处理模块,用于对所述待识别语句进行预处理,得到所述待识别语句的词向量;
概率计算模块,用于将所述词向量输入预设的完整性识别模型,得到所述完整性识别模型输出的完整性概率;所述完整性识别模型为根据语义完整样本和语义不完整样本训练得到的模型;
识别模块,用于当所述完整性概率超过预设的概率阈值时,判定所述待识别语句具备语义完整性。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取语义完整样本;
根据所述语义完整样本,得到语义不完整样本;
根据所述语义完整样本和所述语义不完整样本,得到完整性识别模型的模型训练样本;
根据所述模型训练样本对所述完整性识别模型进行训练,得到训练后完整性识别模型;所述训练后完整性识别模型用于对待识别语句进行语义完整性识别。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待识别语句;
对所述待识别语句进行预处理,得到所述待识别语句的词向量;
将所述词向量输入预设的完整性识别模型,得到所述完整性识别模型输出的完整性概率;所述完整性识别模型为根据语义完整样本和语义不完整样本训练得到的模型;
当所述完整性概率超过预设的概率阈值时,判定所述待识别语句具备语义完整性。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取语义完整样本;
根据所述语义完整样本,得到语义不完整样本;
根据所述语义完整样本和所述语义不完整样本,得到完整性识别模型的模型训练样本;
根据所述模型训练样本对所述完整性识别模型进行训练,得到训练后完整性识别模型;所述训练后完整性识别模型用于对待识别语句进行语义完整性识别。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待识别语句;
对所述待识别语句进行预处理,得到所述待识别语句的词向量;
将所述词向量输入预设的完整性识别模型,得到所述完整性识别模型输出的完整性概率;所述完整性识别模型为根据语义完整样本和语义不完整样本训练得到的模型;
当所述完整性概率超过预设的概率阈值时,判定所述待识别语句具备语义完整性。
上述用于语义完整性识别的模型训练方法和装置、语义完整性识别方法和装置、计算机设备和存储介质,通过首先获取语义完整样本,根据语义完整样本,得到语义不完整样本,然后,根据语义完整样本和语义不完整样本,得到完整性识别模型的模型训练样本,进而根据模型训练样本对完整性识别模型进行训练,得到训练后完整性识别模型,可以使训练样本中既包含语义完整样本又包含语义不完整样本,训练得到的模型能够结合语义完整特征和语义不完整特征识别语义完整性,可以提高语义完整性识别的准确性。
附图说明
图1为一个实施例中模型训练和语义完整性识别方法的应用环境图;
图2为一个实施例中用于语义完整性识别的模型训练方法的流程示意图;
图3为一个实施例中语义完整性识别方法的流程示意图;
图4为另一个实施例中语义完整性识别方法的流程示意图;
图5为另一个实施例中语义完整性识别方法的流程示意图;
图6为一个实施例中用于语义完整性识别的模型训练装置的结构框图;
图7为一个实施例中语义完整性识别装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的用于语义完整性识别的模型训练方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种用于语义完整性识别的模型训练方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤S210,获取语义完整样本。
其中,语义完整样本为能够表达完整语义的语句样本。
具体实现中,可以通过终端102向服务器104随机输入一段语音或一段文本作为候选样本语句,通过对候选样本语句进行依存句法分析和意图识别,可以识别出语义完整的单意图样本,将其作为完整样本语句(表示为sent1),并用label=1对其进行标识,可以得到一个语义完整样本(sent1,label)。通过获取多个语义完整样本,可以得到一个语义完整样本集合{(sent1,label)},服务器104可以将语义完整样本集合存储在样本数据表中。
其中,依存句法分析通过分析语言单位内成分之间的依存关系揭示其句法结构,即分析识别句子中的“主谓宾”、“定状补”等语法成分,并分析各成分之间的关系。
其中,可以基于深度学习算法建立用于识别意图的意图识别模型,通过意图识别模型进行意图识别。
步骤S220,根据语义完整样本,得到语义不完整样本。
其中,语义不完整样本为能够表达不完整语义的语句样本。
具体实现中,服务器104可以通过jieba(结巴)对语义完整样本中的完整样本语句sent1进行切词和去停用词处理,得到sent1分成的多个词,组成完整样本语句的词集合{wordi,i=1,2,…,N},其中i为词索引,N为词个数。语义不完整样本可以通过在词集合{wordi,i=1,2,…,N}中选取子集来实现,初始情况下设置词索引i0=0,根据词索引选取的子集为空集,相应的不完整样本语句为空语句,通过随机选取1到N之间的整数作为词索引增量Δi1,词索引可以更新为i1=i0+Δi1,根据更新的词索引选取子集,得到
Figure BDA0002625143500000071
下一次继续选取词索引增量Δi2,词索引可以更新为i2=i1+Δi2,根据更新的词索引选取子集,得到
Figure BDA0002625143500000072
以此类推,可以依次得到不完整样本语句的词集合φ,
Figure BDA0002625143500000073
通过对上述词集合中的词进行连接可以得到相应的不完整样本语句
Figure BDA0002625143500000074
去除其中的空语句φ和完整样本语句sent2N,并用label=0对其余的不完整样本语句
Figure BDA0002625143500000075
进行标记,可以得到一个语义不完整样本集合{(sent2,label)},服务器104可以将语义不完整样本集合存储在样本数据表中。
其中,jieba是Python中文分词组件,主要有三种特性,包括支持精确模式、全模式、搜索引擎模式3种分词模式,支持繁体分词,支持自定义词典。
进一步地,还可以获取完整样本语句中各个词的词性,由完整样本语句的词和词性共同组成语义完整样本,以及获取不完整样本语句中各个词的词性,由不完整样本语句的词和词性共同组成语义不完整样本。可以通过对完整样本语句中的各个词进行词性标注,得到完整样本语句的词性,可以根据完整样本语句中词和词性之间的映射关系,对不完整样本语句中的词一一映射,得到不完整样本语句的词性。
例如,对于(“请问有客服人员吗”,1),经过切词和去停用词后可以得到(“请问”,“有”,“客服人员”,“吗”,1),通过标注可以得到相应词性为(动词,动词,名词,介词,1),则(“请问有客服人员吗”,1)和(动词,动词,名词,介词,1)可以组成一个语义完整样本。根据词索引在(“请问”,“有”,“客服人员”,“吗”)中选取不完整样本,可以依次得到词集合(“请问”)、(“请问”,“有”)、(“请问”,“有”,“客服人员”)、(“请问”,“有”,“客服人员”,“吗”),相应的词性集合为(动词)、(动词,动词)、(动词,动词,名词)、(动词,动词,名词,介词),根据词集合组成不完整样本语句(“请问”)、(“请问有”)、(“请问有客服人员”)、(“请问有客服人员吗”),联合词性集合可以得到语义不完整样本(“请问”,0)、(动词,0)、(“请问有”,0)、(动词,动词,0)、(“请问有客服人员”,0)、(动词,动词,名词,0)、(“请问有客服人员吗”,0)、(动词,动词,名词,介词,0)。
步骤S230,根据语义完整样本和语义不完整样本,得到完整性识别模型的模型训练样本。
具体实现中,服务器104可以获取多个语义完整样本和多个语义不完整样本,合并得到一个语义样本集合,使用Keras的Tokenizer分别对语义样本中切词和去停用词后的词和词性进行编码,并用Keras的pad_sequences将词和词性的编码长度规范到预设长度,具体地,若编码长度大于预设长度,则可以根据预设长度进行截取,若编码长度不大于30,则可以在词和词性编码前进行补零,长度规范后得到的词编码和词性编码,可以组成模型训练样本。
其中,Keras是一个高层神经网络API(Application Programming Interface,应用程序接口),基于Theano和TensorFlow的深度学习库,Keras由纯Python编写而成并基于Tensorflow、Theano以及CNTK后端。
其中,Tokenizer是Keras中一个用于向量化文本,或将文本转换为序列(即单词在字典中的下标构成的列表,从1算起)的类。
其中,pad_sequences是Keras中一个填充序列函数,可以将长度不定的序列规范化成定长的序列。
例如,服务器104可以将(“请问有客服人员吗”,1)、(动词,动词,名词,介词,1)、(“请问”,0)、(动词,0)、(“请问有”,0)、(动词,动词,0)、(“请问有客服人员”,0)、(动词,动词,名词,0)、(“请问有客服人员吗”,0)、(动词,动词,名词,介词,0)组成一个语义样本集合,经过切词和去停用词后得到(“请问”,“有”,“客服人员”,“吗”,1)、(动词,动词,名词,介词,1)、(“请问”,0)、(动词,0)、(“请问”,“有”,0)、(动词,动词,0)、(“请问”,“有”,“客服人员”,0)、(动词,动词,名词,0)、(“请问”,“有”,“客服人员”,“吗”,0)、(动词,动词,名词,介词,0),进行文本转序列编码后可以得到各个词和词性对应的编码向量,将词和词性编码长度规范到30的长度,其中,若编码长度>30,则截取前30位编码,若编码长度<=30,则在词和词性编码前添加(30-sent的长度)个0,保证词和词性编码长度规范到30,从而获得词和词性的编码,其中,文本转序列编码为将文本转化为数学序列的一种编码方式。
步骤S240,根据模型训练样本对完整性识别模型进行训练,得到训练后完整性识别模型;训练后完整性识别模型用于对待识别语句进行语义完整性识别。
其中,完整性识别模型为对待识别语句的语义完整性进行识别的模型,可以为LSTM(Long Short Term Memory,长短期记忆神经网络),还可以为TextCNN(TextConvolutional Neural Networks,文本卷积神经网络)、DCNN(Deep ConvolutionalNeural Networks,深度卷积神经网络)、RCNN(Region-based Convolutional NeuralNetworks,基于区域的卷积神经网络)、FastText(快速文本分类模型)、Attention(注意力模型)等模型。
具体实现中,以LSTM为例,完整性识别模型的结构可以包括2个输入层(Input)、2个词嵌入层(Embedding)、1个拼接层(Concatenate)、1个LSTM层和1个全连接层(dense),服务器104将词编码和词性编码分别输入2个输入层,通过词嵌入层后,在拼接层中进行拼接,拼接后输入LSTM层进行训练,得到完整性识别模型。在进行语义完整性识别时,可以将待识别语句输入服务器104,服务器104将待识别语句输入完整性识别模型,输出得到完整性概率,根据完整性概率,可以识别出待识别语句是否语义完整。
其中,LSTM是一种特殊的递归神经网络,可以解决长序列训练过程中的梯度消失和梯度爆炸问题,相比于普通的递归神经网络,能够在较长的序列中实现较好的性能。
上述用于语义完整性识别的模型训练方法,通过首先获取语义完整样本,根据语义完整样本,得到语义不完整样本,然后,根据语义完整样本和语义不完整样本,得到完整性识别模型的模型训练样本,进而根据模型训练样本对完整性识别模型进行训练,得到训练后完整性识别模型,可以使训练样本中既包含语义完整样本又包含语义不完整样本,训练得到的模型能够结合语义完整特征和语义不完整特征识别语义完整性,可以提高语义完整性识别的准确性。
在一个实施例中,上述步骤S220,可以具体包括:对完整样本语句进行切词处理,得到完整样本词;通过去除完整样本词中的停用词,得到完整样本关键词;通过对完整样本关键词进行不完全选取,得到不完整样本关键词;根据不完整样本关键词,得到语义不完整样本。
其中,完整样本词为完整样本语句中的词,完整样本关键词为去除完整样本词中停用词后得到的词。
具体实现中,服务器可以通过jieba对语义完整样本中的完整样本语句sent1进行切词和去停用词处理,得到sent1分成的多个词,组成完整样本语句的词集合{wordi,i=1,2,…,N},其中i为词索引,N为词个数。语义不完整样本可以通过在词集合{wordi,i=1,2,…,N}中选取子集来实现,初始情况下设置词索引i0=0,根据词索引选取的子集为空集,相应的不完整样本语句为空语句,通过随机选取1到N之间的整数作为词索引增量Δi1,词索引可以更新为i1=i0+Δi1,根据更新的词索引选取子集,得到
Figure BDA0002625143500000101
下一次继续选取词索引增量Δi2,词索引可以更新为i2=i1+Δi2,根据更新的词索引选取子集,得到
Figure BDA0002625143500000102
以此类推,可以依次得到不完整样本语句的词集合φ,
Figure BDA0002625143500000103
通过对上述词集合中的词进行连接可以得到相应的不完整样本语句
Figure BDA0002625143500000111
去除其中的空语句φ和完整样本语句sent2N,并用label=0对其余的不完整样本语句
Figure BDA0002625143500000112
进行标记,可以得到一个语义不完整样本集合{(sent2,label)},服务器可以将语义不完整样本集合存储在样本数据表中。
本实施例中,通过首先对完整样本语句进行切词处理,得到完整样本词,然后通过去除完整样本词中的停用词,得到完整样本关键词,再通过对完整样本关键词进行不完全选取,得到不完整样本关键词,最后根据不完整样本关键词,得到语义不完整样本,可以根据语义完整样本构建出语义不完整样本,降低算法复杂度,且可以使训练样本中既包含语义完整样本又包含语义不完整样本,训练得到的模型能够结合语义完整特征和语义不完整特征识别语义完整性,可以提高语义完整性识别的准确性。
在一个实施例中,上述步骤S230,可以具体包括:对完整样本关键词进行编码,得到完整样本关键词编码,以及,对不完整样本关键词进行编码,得到不完整样本关键词编码;根据完整样本关键词编码和不完整样本关键词编码,得到模型训练样本。
具体实现中,服务器可以获取多个语义完整样本和多个语义不完整样本,合并得到一个语义样本集合,使用Keras的Tokenizer分别对完整样本关键词和不完整样本关键词进行编码,并用Keras的pad_sequences将词的编码长度规范到预设长度,具体地,若编码长度大于预设长度,则可以根据预设长度进行截取,若编码长度不大于30,则可以在词编码前进行补零,长度规范后得到的完整样本关键词编码和不完整样本关键词编码,可以组成模型训练样本。
本实施例中,通过对完整样本关键词进行编码,得到完整样本关键词编码,以及,对不完整样本关键词进行编码,得到不完整样本关键词编码,根据完整样本关键词编码和不完整样本关键词编码,得到模型训练样本,可以使训练样本中既包含语义完整样本又包含语义不完整样本,训练得到的模型能够结合语义完整特征和语义不完整特征识别语义完整性,可以提高语义完整性识别的准确性。
在一个实施例中,上述步骤S230,具体还可以包括:获取完整样本关键词对应的完整样本词性,以及,获取不完整样本关键词对应的不完整样本词性;对完整样本词性进行编码,得到完整样本词性编码,以及,对不完整样本词性进行编码,得到不完整样本词性编码;根据完整样本关键词编码、不完整样本关键词编码、完整样本词性编码和不完整样本词性编码,得到模型训练样本。
其中,完整样本词性为完整样本关键词的词性,不完整样本词性为不完整样本关键词的词性,完整样本词性编码为完整样本词性的编码,不完整样本词性编码为不完整样本词性的编码。
具体实现中,可以获取完整样本语句中各个词的词性,由完整样本语句的词和词性共同组成语义完整样本,以及获取不完整样本语句中各个词的词性,由不完整样本语句的词和词性共同组成语义不完整样本。可以通过对完整样本语句中的各个词进行词性标注,得到完整样本语句的词性,可以根据完整样本语句中词和词性之间的映射关系,对不完整样本语句中的词一一映射,得到不完整样本语句的词性。服务器可以获取多个语义完整样本和多个语义不完整样本,合并得到一个语义样本集合,使用Keras的Tokenizer分别对完整样本关键词、不完整样本关键词、完整样本关键词的词性、不完整样本关键词的词性进行编码,并用Keras的pad_sequences将词和词性的编码长度规范到预设长度,具体地,若编码长度大于预设长度,则可以根据预设长度进行截取,若编码长度不大于30,则可以在词和词性编码前进行补零,长度规范后得到的完整样本关键词编码、不完整样本关键词编码、完整样本词性编码、不完整样本词性编码,可以组成模型训练样本。
本实施例中,通过获取完整样本关键词对应的完整样本词性,以及,获取不完整样本关键词对应的不完整样本词性;对完整样本词性进行编码,得到完整样本词性编码,以及,对不完整样本词性进行编码,得到不完整样本词性编码;根据完整样本关键词编码、不完整样本关键词编码、完整样本词性编码和不完整样本词性编码,得到模型训练样本,可以综合语义完整样本和语义不完整样本的词和词性进行模型训练,训练得到的模型能够结合语义完整样本和语义不完整样本的词特征和词性特征识别语义完整性,通过词特征进行语义识别,通过词性特征进行重点词识别,可以提高语义完整性识别的准确性。
在一个实施例中,上述步骤S210,可以具体包括:获取候选样本语句;通过对候选样本语句进行句法分析处理,得到候选样本语句的语句结构;根据语句结构,识别候选样本语句的语句意图;若语句意图为单意图,则将候选样本语句作为完整样本语句;根据完整样本语句,得到语义完整样本。
具体实现中,可以通过终端向服务器随机输入一段语音或一段文本作为候选样本语句,通过对候选样本语句进行依存句法分析和意图识别,若识别出语义完整的单意图样本,则可以将其作为完整样本语句(表示为sent1),并用label=1对其进行标识,可以得到一个语义完整样本(sent1,label)。通过获取多个语义完整样本,可以得到一个语义完整样本集合{(sent1,label)},服务器可以将语义完整样本集合存储在样本数据表中。
本实施例中,通过获取候选样本语句;通过对候选样本语句进行句法分析处理,得到候选样本语句的语句结构;根据语句结构,识别候选样本语句的语句意图;若语句意图为单意图,则将候选样本语句作为完整样本语句;根据完整样本语句,得到语义完整样本,可以获取到单意图的语义完整样本,便于后续根据语义完整样本生成语义不完整样本,提高语义完整性识别的准确性。
在一个实施例中,如图3所示,提供了一种语义完整性识别方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤S310,获取待识别语句;
步骤S320,对待识别语句进行预处理,得到待识别语句的词向量;
步骤S330,将词向量输入预设的完整性识别模型,得到完整性识别模型输出的完整性概率;完整性识别模型为根据语义完整样本和语义不完整样本训练得到的模型;
步骤S340,当完整性概率超过预设的概率阈值时,判定待识别语句具备语义完整性。
具体实现中,终端向服务器输入一段流式的语音或文本,服务器在接收到语音或文本后,将其作为待识别语句,通过对待识别语句进行切词和去停用词等预处理,可以得到待识别语句中的词和词性,通过对词进行文本转序列编码,编码后可以得到待识别语句的词向量,通过对词性进行文本转序列编码,编码后可以得到待识别语句的词性向量,将词向量和词性向量输入完整性识别模型,完整性识别模型可以输出待识别语句的完整性概率,若完整性概率高于预设的语义完整性概率阈值,则可以判定待识别语句语义完整,否则,可以判定当前语句的语义不完整,此时可以返回获取待识别语句,对待识别语句进行切词和去停用词等预处理的步骤,重新执行上述语义完整性识别过程。根据语义完整性识别结果,服务器可以动态调整静音等待时间。
本实施例中,通过获取待识别语句;对待识别语句进行预处理,得到待识别语句的词向量;将词向量输入预设的完整性识别模型,得到完整性识别模型输出的完整性概率;完整性识别模型为根据语义完整样本和语义不完整样本训练得到的模型;当完整性概率超过预设的概率阈值时,判定待识别语句具备语义完整性,可以结合语义完整特征和语义不完整特征对待识别语句进行语义完整性识别,识别准确性较高。
在一个实施例中,上述步骤S320,可以具体包括:对待识别语句进行切词处理,得到待识别语句切词;通过去除待识别语句切词中的停用词,得到待识别语句关键词;通过对待识别语句关键词进行编码,得到待识别语句关键词编码;根据待识别语句关键词编码,得到待识别语句的词向量。
具体实现中,服务器在获取到待识别语句后,可以首先对待识别语句进行切词处理,得到待识别语句切词,然后去除待识别语句切词中的停用词,得到待识别语句关键词,通过对待识别语句关键词进行文本转序列编码,编码后可以得到待识别语句关键词编码,待识别语句关键词编码可以作为待识别语句的词向量。
本实施例中,通过对待识别语句进行切词处理,得到待识别语句切词;通过去除待识别语句切词中的停用词,得到待识别语句关键词;通过对待识别语句关键词进行编码,得到待识别语句关键词编码;根据待识别语句关键词编码,得到待识别语句的词向量,可以将待识别语句转化为待识别语句的词向量,便于根据词向量对待识别语句的完整性进行识别,识别准确性较高。
在一个实施例中,上述语义完整性识别方法,具体还可以包括:获取待识别语句关键词的词性;通过对词性进行编码,得到关键词词性编码;根据关键词词性编码,得到待识别语句的词性向量;将词向量和词性向量输入完整性识别模型,得到完整性概率。
具体实现中,服务器还可以获取待识别语句关键词所对应的词性,通过对待识别语句关键词的词性进行文本转序列编码,编码后可以得到待识别语句的关键词词性编码,关键词词性编码可以作为待识别语句的词性向量,将词向量和词性向量共同输入完整性识别模型进行语义完整性判断,完整性识别模型可以根据词向量和词性向量,输出待识别语句的完整性概率。
本实施例中,通过获取待识别语句关键词的词性;通过对词性进行编码,得到关键词词性编码;根据关键词词性编码,得到待识别语句的词性向量;将词向量和词性向量输入完整性识别模型,得到完整性概率,可以综合待识别语句的词特征和词性特征进行语义完整性识别,识别准确性较高。
在一个实施例中,如图4所示,提供了一种语义完整性识别方法的流程示意图,包括以下步骤:
步骤S410,执行数据预处理,具体可以包括:
步骤S411,经过依存句法分析和意图识别模型处理后,生成<语义完整的单意图样本数据(sent1,label)>,其中样本的格式为(sent1,label),sent1为句子,label=1;
步骤S412,执行jieba切词、去停用词,并获取词和词性;
步骤S413,对每个语义完整的单意图样本的sent1,从0个词开始,每次随机增加1至n个词作为1个语义不完整的样本的sent2,直至len(sent2)=len(sent1)(其中len()表示求取sent的词长,len(sent2)=0或len(sent2)=len(sent1)时,不作为语义不完整的样本),生成<语义不完整的样本数据(sent2,label)>,其中label=0;
步骤S414,将<语义完整的单意图样本数据(sent1,label)>和<语义不完整的样本数据(sent2,label)>合并成<训练样本数据(sent,label)>,使用kera的Tokenizer分别对切词、去停用词的sent的词和词性进行文本转序列编码,并用Keras的pad_sequences将sent的词和词性编码长度规范到30的长度,其中若编码长度>30,则截取前30位编码,若编码长度<=30,则在sent的词和词性编码前添加(30-sent的长度)个0,保证sent的词和词性编码长度规范到30的长度,从而获得sent的词和词性的编码;
步骤S420,执行LSTM模型训练,模型结构包括2个输入层(Input,用于输入词和词性)、2个词嵌入层(Embedding,包括嵌入词和词性),1个拼接层(Concatenate,用于拼接词和词性),1个LSTM层,1个全连接层(dense);利用词和词性编码好的<训练样本数据(sent,label)>对该LSTM网络模型结构进行训练;
步骤S430,执行模型预测,具体可以包括:
步骤S431,使用jieba切词、去停用词技术对流式输入的待判断句子进行预处理,并获取词和词性;
步骤S432,使用文本转序列编码对切词、去停用词的待判断句子进行词和词性编码;
步骤S433,基于步骤S420中训练好的LSTM网络模型对当前流式输入句子进行语义完整性判断,若模型输出概率大于语义完整性阈值,则输出句子语义完整,否则返回至步骤S431。
本实施例中,通过随机增加1至n个词的方式生成语义不完整样本,采用词和词性融合特征进行语义识别和重点词识别,基于LSTM建模实现实时流式地判断客户话术语义表述完整性,以及实现动态调整静音等待时间,可以根据语义完整样本和语义不完整样本、以及词和词性的融合特征进行语义识别和重点词识别,可以提高识别的准确性。
在一个实施例中,如图5所示,提供了一种语义完整性识别方法的流程示意图,包括以下步骤:
步骤S501,获取候选样本语句;
步骤S502,通过对候选样本语句进行句法分析处理,得到候选样本语句的语句结构;根据语句结构,识别候选样本语句的语句意图;若语句意图为单意图,则将候选样本语句作为完整样本语句;
步骤S503,根据完整样本语句,得到语义完整样本;
步骤S504,对完整样本语句进行切词处理,得到完整样本词;通过去除完整样本词中的停用词,得到完整样本关键词;
步骤S505,通过对完整样本关键词进行不完全选取,得到不完整样本关键词;
步骤S506,根据不完整样本关键词,得到语义不完整样本;
步骤S507,对完整样本关键词进行编码,得到完整样本关键词编码,以及,对不完整样本关键词进行编码,得到不完整样本关键词编码;
步骤S508,根据完整样本关键词编码和不完整样本关键词编码,得到模型训练样本;
步骤S509,根据模型训练样本对完整性识别模型进行训练,得到训练后完整性识别模型;训练后完整性识别模型用于对待识别语句进行语义完整性识别。
步骤S510,获取待识别语句;
步骤S511,对待识别语句进行切词处理,得到待识别语句切词;通过去除待识别语句切词中的停用词,得到待识别语句关键词;通过对待识别语句关键词进行编码,得到待识别语句关键词编码;根据待识别语句关键词编码,得到待识别语句的词向量;
步骤S512,将词向量输入预设的完整性识别模型,得到完整性识别模型输出的完整性概率;完整性识别模型为根据语义完整样本和语义不完整样本训练得到的模型;
步骤S513,当完整性概率超过预设的概率阈值时,判定待识别语句具备语义完整性。
应该理解的是,虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-5中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种用于语义完整性识别的模型训练装置600,包括:完整样本获取模块602、不完整样本获取模块604、训练样本获取模块606、训练模块608,其中:
完整样本获取模块602,用于获取语义完整样本;
不完整样本获取模块604,用于根据语义完整样本,得到语义不完整样本;
训练样本获取模块606,用于根据语义完整样本和语义不完整样本,得到完整性识别模型的模型训练样本;
训练模块608,用于根据模型训练样本对完整性识别模型进行训练,得到训练后完整性识别模型;训练后完整性识别模型用于对待识别语句进行语义完整性识别。
在一个实施例中,上述不完整样本获取模块604,还用于对完整样本语句进行切词处理,得到完整样本词;通过去除完整样本词中的停用词,得到完整样本关键词;通过对完整样本关键词进行不完全选取,得到不完整样本关键词;根据不完整样本关键词,得到语义不完整样本。
在一个实施例中,上述训练样本获取模块606,还用于对完整样本关键词进行编码,得到完整样本关键词编码,以及,对不完整样本关键词进行编码,得到不完整样本关键词编码;根据完整样本关键词编码和不完整样本关键词编码,得到模型训练样本。
在一个实施例中,上述训练样本获取模块606,还用于获取完整样本关键词对应的完整样本词性,以及,获取不完整样本关键词对应的不完整样本词性;对完整样本词性进行编码,得到完整样本词性编码,以及,对不完整样本词性进行编码,得到不完整样本词性编码;根据完整样本关键词编码、不完整样本关键词编码、完整样本词性编码和不完整样本词性编码,得到模型训练样本。
在一个实施例中,上述完整样本获取模块602,还用于获取候选样本语句;通过对候选样本语句进行句法分析处理,得到候选样本语句的语句结构;根据语句结构,识别候选样本语句的语句意图;若语句意图为单意图,则将候选样本语句作为完整样本语句;根据完整样本语句,得到语义完整样本。
关于模型训练装置的具体限定可以参见上文中对于模型训练方法的限定,在此不再赘述。上述模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,如图7所示,提供了一种语义完整性识别装置700,包括:获取模块702、预处理模块704、概率计算模块706、识别模块708,其中:
获取模块702,用于获取待识别语句;
预处理模块704,用于对待识别语句进行预处理,得到待识别语句的词向量;
概率计算模块706,用于将词向量输入预设的完整性识别模型,得到完整性识别模型输出的完整性概率;完整性识别模型为根据语义完整样本和语义不完整样本训练得到的模型;
识别模块708,用于当完整性概率超过预设的概率阈值时,判定待识别语句具备语义完整性。
在一个实施例中,上述预处理模块704,还用于对待识别语句进行切词处理,得到待识别语句切词;通过去除待识别语句切词中的停用词,得到待识别语句关键词;通过对待识别语句关键词进行编码,得到待识别语句关键词编码;根据待识别语句关键词编码,得到待识别语句的词向量。
在一个实施例中,上述语义完整性识别装置700,还用于获取待识别语句关键词的词性;通过对词性进行编码,得到关键词词性编码;根据关键词词性编码,得到待识别语句的词性向量;将词向量和词性向量输入完整性识别模型,得到完整性概率。
关于语义完整性识别装置的具体限定可以参见上文中对于语义完整性识别方法的限定,在此不再赘述。上述语义完整性识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语义完整性识别数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语义完整性识别方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取语义完整样本;根据语义完整样本,得到语义不完整样本;根据语义完整样本和语义不完整样本,得到完整性识别模型的模型训练样本;根据模型训练样本对完整性识别模型进行训练,得到训练后完整性识别模型;训练后完整性识别模型用于对待识别语句进行语义完整性识别。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对完整样本语句进行切词处理,得到完整样本词;通过去除完整样本词中的停用词,得到完整样本关键词;通过对完整样本关键词进行不完全选取,得到不完整样本关键词;根据不完整样本关键词,得到语义不完整样本。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对完整样本关键词进行编码,得到完整样本关键词编码,以及,对不完整样本关键词进行编码,得到不完整样本关键词编码;根据完整样本关键词编码和不完整样本关键词编码,得到模型训练样本。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取完整样本关键词对应的完整样本词性,以及,获取不完整样本关键词对应的不完整样本词性;对完整样本词性进行编码,得到完整样本词性编码,以及,对不完整样本词性进行编码,得到不完整样本词性编码;根据完整样本关键词编码、不完整样本关键词编码、完整样本词性编码和不完整样本词性编码,得到模型训练样本。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取候选样本语句;通过对候选样本语句进行句法分析处理,得到候选样本语句的语句结构;根据语句结构,识别候选样本语句的语句意图;若语句意图为单意图,则将候选样本语句作为完整样本语句;根据完整样本语句,得到语义完整样本。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取待识别语句;对待识别语句进行预处理,得到待识别语句的词向量;将词向量输入预设的完整性识别模型,得到完整性识别模型输出的完整性概率;完整性识别模型为根据语义完整样本和语义不完整样本训练得到的模型;当完整性概率超过预设的概率阈值时,判定待识别语句具备语义完整性。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对待识别语句进行切词处理,得到待识别语句切词;通过去除待识别语句切词中的停用词,得到待识别语句关键词;通过对待识别语句关键词进行编码,得到待识别语句关键词编码;根据待识别语句关键词编码,得到待识别语句的词向量。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取待识别语句关键词的词性;通过对词性进行编码,得到关键词词性编码;根据关键词词性编码,得到待识别语句的词性向量;将词向量和词性向量输入完整性识别模型,得到完整性概率。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取语义完整样本;根据语义完整样本,得到语义不完整样本;根据语义完整样本和语义不完整样本,得到完整性识别模型的模型训练样本;根据模型训练样本对完整性识别模型进行训练,得到训练后完整性识别模型;训练后完整性识别模型用于对待识别语句进行语义完整性识别。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对完整样本语句进行切词处理,得到完整样本词;通过去除完整样本词中的停用词,得到完整样本关键词;通过对完整样本关键词进行不完全选取,得到不完整样本关键词;根据不完整样本关键词,得到语义不完整样本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对完整样本关键词进行编码,得到完整样本关键词编码,以及,对不完整样本关键词进行编码,得到不完整样本关键词编码;根据完整样本关键词编码和不完整样本关键词编码,得到模型训练样本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取完整样本关键词对应的完整样本词性,以及,获取不完整样本关键词对应的不完整样本词性;对完整样本词性进行编码,得到完整样本词性编码,以及,对不完整样本词性进行编码,得到不完整样本词性编码;根据完整样本关键词编码、不完整样本关键词编码、完整样本词性编码和不完整样本词性编码,得到模型训练样本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取候选样本语句;通过对候选样本语句进行句法分析处理,得到候选样本语句的语句结构;根据语句结构,识别候选样本语句的语句意图;若语句意图为单意图,则将候选样本语句作为完整样本语句;根据完整样本语句,得到语义完整样本。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待识别语句;对待识别语句进行预处理,得到待识别语句的词向量;将词向量输入预设的完整性识别模型,得到完整性识别模型输出的完整性概率;完整性识别模型为根据语义完整样本和语义不完整样本训练得到的模型;当完整性概率超过预设的概率阈值时,判定待识别语句具备语义完整性。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对待识别语句进行切词处理,得到待识别语句切词;通过去除待识别语句切词中的停用词,得到待识别语句关键词;通过对待识别语句关键词进行编码,得到待识别语句关键词编码;根据待识别语句关键词编码,得到待识别语句的词向量。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取待识别语句关键词的词性;通过对词性进行编码,得到关键词词性编码;根据关键词词性编码,得到待识别语句的词性向量;将词向量和词性向量输入完整性识别模型,得到完整性概率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种用于语义完整性识别的模型训练方法,其特征在于,所述方法包括:
获取语义完整样本;
根据所述语义完整样本,得到语义不完整样本;
根据所述语义完整样本和所述语义不完整样本,得到完整性识别模型的模型训练样本;
根据所述模型训练样本对所述完整性识别模型进行训练,得到训练后完整性识别模型;所述训练后完整性识别模型用于对待识别语句进行语义完整性识别。
2.根据权利要求1所述的方法,其特征在于,所述语义完整样本包括完整样本语句;所述根据所述语义完整样本,得到语义不完整样本,包括:
对所述完整样本语句进行切词处理,得到完整样本词;
通过去除所述完整样本词中的停用词,得到完整样本关键词;
通过对所述完整样本关键词进行不完全选取,得到不完整样本关键词;
根据所述不完整样本关键词,得到所述语义不完整样本。
3.根据权利要求2所述的方法,其特征在于,所述根据所述语义完整样本和所述语义不完整样本,得到完整性识别模型的模型训练样本,包括:
对所述完整样本关键词进行编码,得到完整样本关键词编码,以及,对所述不完整样本关键词进行编码,得到不完整样本关键词编码;
根据所述完整样本关键词编码和所述不完整样本关键词编码,得到所述模型训练样本。
4.根据权利要求3所述的方法,其特征在于,所述根据所述语义完整样本和所述语义不完整样本,得到完整性识别模型的模型训练样本,还包括:
获取所述完整样本关键词对应的完整样本词性,以及,获取所述不完整样本关键词对应的不完整样本词性;
对所述完整样本词性进行编码,得到完整样本词性编码,以及,对所述不完整样本词性进行编码,得到不完整样本词性编码;
根据所述完整样本关键词编码、所述不完整样本关键词编码、所述完整样本词性编码和所述不完整样本词性编码,得到所述模型训练样本。
5.根据权利要求2所述的方法,其特征在于,所述获取语义完整样本,包括:
获取候选样本语句;
通过对所述候选样本语句进行句法分析处理,得到所述候选样本语句的语句结构;
根据所述语句结构,识别所述候选样本语句的语句意图;
若所述语句意图为单意图,则将所述候选样本语句作为所述完整样本语句;
根据所述完整样本语句,得到所述语义完整样本。
6.一种语义完整性识别方法,其特征在于,所述方法包括:
获取待识别语句;
对所述待识别语句进行预处理,得到所述待识别语句的词向量;
将所述词向量输入预设的完整性识别模型,得到所述完整性识别模型输出的完整性概率;所述完整性识别模型为根据语义完整样本和语义不完整样本训练得到的模型;
当所述完整性概率超过预设的概率阈值时,判定所述待识别语句具备语义完整性。
7.根据权利要求6所述的方法,其特征在于,所述对所述待识别语句进行预处理,得到所述待识别语句的词向量,包括:
对所述待识别语句进行切词处理,得到待识别语句切词;
通过去除所述待识别语句切词中的停用词,得到待识别语句关键词;
通过对所述待识别语句关键词进行编码,得到待识别语句关键词编码;
根据所述待识别语句关键词编码,得到所述待识别语句的词向量。
8.根据权利要求7所述的语义完整性识别方法,其特征在于,所述方法还包括:
获取所述待识别语句关键词的词性;
通过对所述词性进行编码,得到关键词词性编码;
根据所述关键词词性编码,得到所述待识别语句的词性向量;
将所述词向量和所述词性向量输入所述完整性识别模型,得到所述完整性概率。
9.一种用于语义完整性识别的模型训练装置,其特征在于,所述装置包括:
完整样本获取模块,用于获取语义完整样本;
不完整样本获取模块,用于根据所述语义完整样本,得到语义不完整样本;
训练样本获取模块,用于根据所述语义完整样本和所述语义不完整样本,得到完整性识别模型的模型训练样本;
训练模块,用于根据所述模型训练样本对所述完整性识别模型进行训练,得到训练后完整性识别模型;所述训练后完整性识别模型用于对待识别语句进行语义完整性识别。
10.一种语义完整性识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别语句;
预处理模块,用于对所述待识别语句进行预处理,得到所述待识别语句的词向量;
概率计算模块,用于将所述词向量输入预设的完整性识别模型,得到所述完整性识别模型输出的完整性概率;所述完整性识别模型为根据语义完整样本和语义不完整样本训练得到的模型;
识别模块,用于当所述完整性概率超过预设的概率阈值时,判定所述待识别语句具备语义完整性。
CN202010794728.1A 2020-08-10 2020-08-10 模型训练、语义完整性识别方法和装置 Active CN112183114B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010794728.1A CN112183114B (zh) 2020-08-10 2020-08-10 模型训练、语义完整性识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010794728.1A CN112183114B (zh) 2020-08-10 2020-08-10 模型训练、语义完整性识别方法和装置

Publications (2)

Publication Number Publication Date
CN112183114A true CN112183114A (zh) 2021-01-05
CN112183114B CN112183114B (zh) 2024-05-14

Family

ID=73918939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010794728.1A Active CN112183114B (zh) 2020-08-10 2020-08-10 模型训练、语义完整性识别方法和装置

Country Status (1)

Country Link
CN (1) CN112183114B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593553A (zh) * 2021-07-12 2021-11-02 深圳市明源云客电子商务有限公司 语音识别方法、装置、语音管理服务器以及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150294580A1 (en) * 2014-04-11 2015-10-15 Aspen Performance Technologies System and method for promoting fluid intellegence abilities in a subject
CN108305612A (zh) * 2017-11-21 2018-07-20 腾讯科技(深圳)有限公司 文本处理、模型训练方法、装置、存储介质和计算机设备
CN108345612A (zh) * 2017-01-25 2018-07-31 北京搜狗科技发展有限公司 一种问题处理方法和装置、一种用于问题处理的装置
CN108509477A (zh) * 2017-09-30 2018-09-07 平安科技(深圳)有限公司 语义识别方法、电子装置及计算机可读存储介质
CN109034231A (zh) * 2018-07-17 2018-12-18 辽宁大学 信息反馈rbf网络估值的不完整数据模糊聚类方法
CN109522395A (zh) * 2018-10-12 2019-03-26 平安科技(深圳)有限公司 自动问答方法及装置
CN110349568A (zh) * 2019-06-06 2019-10-18 平安科技(深圳)有限公司 语音检索方法、装置、计算机设备及存储介质
US20200005673A1 (en) * 2018-06-29 2020-01-02 Beijing Baidu Netcom Science Technology Co., Ltd. Method, apparatus, device and system for sign language translation
CN111062220A (zh) * 2020-03-13 2020-04-24 成都晓多科技有限公司 一种基于记忆遗忘装置的端到端意图识别系统和方法
CN111402866A (zh) * 2020-03-23 2020-07-10 北京声智科技有限公司 语义识别方法、装置及电子设备
US20200251091A1 (en) * 2017-08-29 2020-08-06 Tiancheng Zhao System and method for defining dialog intents and building zero-shot intent recognition models

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150294580A1 (en) * 2014-04-11 2015-10-15 Aspen Performance Technologies System and method for promoting fluid intellegence abilities in a subject
CN108345612A (zh) * 2017-01-25 2018-07-31 北京搜狗科技发展有限公司 一种问题处理方法和装置、一种用于问题处理的装置
US20200251091A1 (en) * 2017-08-29 2020-08-06 Tiancheng Zhao System and method for defining dialog intents and building zero-shot intent recognition models
CN108509477A (zh) * 2017-09-30 2018-09-07 平安科技(深圳)有限公司 语义识别方法、电子装置及计算机可读存储介质
CN108305612A (zh) * 2017-11-21 2018-07-20 腾讯科技(深圳)有限公司 文本处理、模型训练方法、装置、存储介质和计算机设备
US20200005673A1 (en) * 2018-06-29 2020-01-02 Beijing Baidu Netcom Science Technology Co., Ltd. Method, apparatus, device and system for sign language translation
CN109034231A (zh) * 2018-07-17 2018-12-18 辽宁大学 信息反馈rbf网络估值的不完整数据模糊聚类方法
CN109522395A (zh) * 2018-10-12 2019-03-26 平安科技(深圳)有限公司 自动问答方法及装置
CN110349568A (zh) * 2019-06-06 2019-10-18 平安科技(深圳)有限公司 语音检索方法、装置、计算机设备及存储介质
CN111062220A (zh) * 2020-03-13 2020-04-24 成都晓多科技有限公司 一种基于记忆遗忘装置的端到端意图识别系统和方法
CN111402866A (zh) * 2020-03-23 2020-07-10 北京声智科技有限公司 语义识别方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李雪涛;文茂平;杨鉴;: "基于Web网页语料构建动态语言模型", 信息技术, no. 08 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593553A (zh) * 2021-07-12 2021-11-02 深圳市明源云客电子商务有限公司 语音识别方法、装置、语音管理服务器以及存储介质
CN113593553B (zh) * 2021-07-12 2022-05-24 深圳市明源云客电子商务有限公司 语音识别方法、装置、语音管理服务器以及存储介质

Also Published As

Publication number Publication date
CN112183114B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
JP5167546B2 (ja) 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置
CN110955761A (zh) 文书中问答数据获取方法、装置、计算机设备和存储介质
WO2022241950A1 (zh) 文本摘要生成方法、装置、设备及存储介质
Fernández et al. Classifying non-sentential utterances in dialogue: A machine learning approach
CN114580382A (zh) 文本纠错方法以及装置
CN111460115A (zh) 智能人机对话模型训练方法、模型训练装置及电子设备
CN112711950A (zh) 地址信息抽取方法、装置、设备及存储介质
CN112017643B (zh) 语音识别模型训练方法、语音识别方法及相关装置
CN116628186B (zh) 文本摘要生成方法及系统
CN112668333A (zh) 命名实体的识别方法和设备、以及计算机可读存储介质
CN111858894A (zh) 语义缺失的识别方法及装置、电子设备、存储介质
CN112464655A (zh) 中文字符和拼音相结合的词向量表示方法、装置、介质
CN112633007A (zh) 一种语义理解模型构建方法及装置、语义理解方法及装置
CN110020024B (zh) 一种科技文献中链接资源的分类方法、系统、设备
WO2022022049A1 (zh) 文本长难句的压缩方法、装置、计算机设备及存储介质
CN112183114B (zh) 模型训练、语义完整性识别方法和装置
CN113515593A (zh) 基于聚类模型的话题检测方法、装置和计算机设备
Lagus et al. Topic identification in natural language dialogues using neural networks
CN115115432B (zh) 基于人工智能的产品信息推荐方法及装置
CN114792092B (zh) 一种基于语义增强的文本主题抽取方法及装置
CN113836937B (zh) 基于比较模型的文本处理方法、装置、设备与存储介质
GB2618903A (en) System and method for identification and verification
CN114691716A (zh) Sql语句转换方法、装置、设备及计算机可读存储介质
CN113111646A (zh) 一种文本摘要模型生成及文本摘要识别方法
CN115600580B (zh) 文本匹配方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: China

Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant after: Zhaolian Consumer Finance Co.,Ltd.

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant before: MERCHANTS UNION CONSUMER FINANCE Co.,Ltd.

Country or region before: China

GR01 Patent grant
GR01 Patent grant