CN110781277A - 文本识别模型相似度训练方法、系统、识别方法及终端 - Google Patents
文本识别模型相似度训练方法、系统、识别方法及终端 Download PDFInfo
- Publication number
- CN110781277A CN110781277A CN201910901703.4A CN201910901703A CN110781277A CN 110781277 A CN110781277 A CN 110781277A CN 201910901703 A CN201910901703 A CN 201910901703A CN 110781277 A CN110781277 A CN 110781277A
- Authority
- CN
- China
- Prior art keywords
- sample
- sentences
- similarity
- similar
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明适用于文本识别技术领域,提供了一种文本识别模型相似度训练方法、系统、识别方法及终端,该方法包括:获取样本数据,分别对样本数据内的样本语句进行相似度计算,以获取多组相似语句组合;判断相似语句组合内的相似语句之间是否满足语义条件,根据判断结果对相似语句进行样本标记;根据样本标记的标记结果以构建训练数据集,根据训练数据集对文本识别模型进行模型训练。本发明通过对相似语句组合内的相似语句进行是否满足语义条件的判断的设计,以对应进行正样本标记或负样本标记,以达到将训练数据集中组词相同但语义不同的相似语句进行负标记的效果,进而防止了后续文本识别模型由于该组词相同但语义不同的相似语句所导致的答非所问。
Description
技术领域
本发明属于文本识别技术领域,尤其涉及一种文本识别模型相似度训练方法、系统、识别方法及终端。
背景技术
随着人工智能的发展和普及,智能客服机器人在各个行业的应用也越来越多了,对于所有领域的智能客服机器人来说,常见问答库似乎是不可或缺的,常见问答库用于针对访客提出的问题进行回答,因此,如何准确有效的检索访客真正需要检索的问答对,以防止出现匹配错误出现答非所问现象已经成为了智能问答行业必须解决的底线问题。
现有的问答库使用过程中,均通过基于文本识别模型的方式进行访客问题的回答,但现有的文本识别模型使用过程中,均是通过采用无监督的方式进行文本相似度的训练,使得当两个语句中组成词相同,但语义不相同时,文本识别模型会出现检索错误,导致会误认为访客的问题和知识库里的问答对匹配成功,而返回了错误的答案,使得答非所问概率较高。
发明内容
本发明实施例的目的在于提供一种文本识别模型相似度训练方法、系统、识别方法及终端,旨在解决现有的文本识别模型训练方法中,由于采用无监督训练方式所导致的答非所问概率高的问题。
本发明实施例是这样实现的,一种文本识别模型相似度训练方法,所述方法包括:
获取样本数据,并分别对所述样本数据内的样本语句进行相似度计算,以获取多组相似语句组合;
判断所述相似语句组合内的相似语句之间是否满足语义条件,并根据判断结果对所述相似语句进行样本标记;
根据所述样本标记的标记结果以构建训练数据集,并根据所述训练数据集对文本识别模型进行模型训练。
更进一步的,所述分别对所述样本数据内的样本语句进行相似度计算的步骤包括:
分别对所述样本语句进行分词,以得到词语串,并将所述词语串转化为标识串,所述标识串为数字串或字母串;
将所述标识串进行向量映射,以得到词向量,并对所述词向量进行特征变换和特征提取,以得到特征向量;
根据所述特征向量,分别在所述样本数据中两两所述样本语句之间进行余弦计算,以得到余弦相似度。
更进一步的,所述分别对所述样本数据内的样本语句进行相似度计算的步骤还包括:
当判断到所述余弦相似度大于相似度阈值时,将所述余弦相似度对应的两个所述样本语句进行组合,以得到所述相似语句组合。
更进一步的,所述判断所述相似语句组合内的相似语句之间是否满足语义条件的步骤包括:
分别对所述相似语句进行特征提取,以得到语义特征;
判断所述语义特征之间是否属于相同语义类别;
若是,则判定所述相似语句之间满足所述语义条件;
若否,则判定所述相似语句之间未满足所述语义条件。
更进一步的,所述根据判断结果对所述相似语句进行样本标记的步骤包括:
当判断到所述相似语句之间满足所述语义条件时,对所述相似语句进行正样本标记;
当判断到所述相似语句之间未满足所述语义条件时,对所述相似语句进行样本负标记。
更进一步的,所述分别对所述样本数据内的样本语句进行相似度计算的步骤包括:
分别对所述样本语句进行分词,以得到词语串;
在所述样本数据中的所述词语串之间进行词语匹配,以得到多个重复词频;
当判断到所述重复词频大于词频阈值时,将对应的两个所述样本语句进行组合,以得到所述相似语句组合。
更进一步的,所述根据所述样本标记的标记结果以构建训练数据集的步骤之前,所述方法还包括:
将所述样本数据分别输入intention模型和ner模型,并获取相似度结果;
将所述相似度结果与所述标记结果进行融合。
本发明实施例的另一目的在于提供一种文本识别模型相似度训练系统,所述系统包括:
相似度计算模块,用于获取样本数据,并分别对所述样本数据内的样本语句进行相似度计算,以获取多组相似语句组合;
样本标记模块,用于判断所述相似语句组合内的相似语句之间是否满足语义条件,并根据判断结果对所述相似语句进行样本标记;
模型训练模块,用于根据所述样本标记的标记结果以构建训练数据集,并根据所述训练数据集对文本识别模型进行模型训练。
本发明实施例的另一目的在于提供一种文本识别模型相似度识别方法,所述方法包括:
根据上述的文本识别模型相似度训练方法对文本识别模型进行训练;
获取待识别语句,并控制所述文本识别模型将所述待识别语句与本地预存储的常见问答库进行相似度匹配,以获取目标疑问句和与所述目标疑问句对应的目标回复句;
根据所述目标回复句进行疑问回复。
本发明实施例的另一目的在于提供一种终端,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述终端执行上述的文本识别模型相似度训练方法。
本发明实施例,通过对所述相似语句组合内的相似语句进行是否满足语义条件的判断的设计,以对应进行正样本标记或负样本标记,以达到将训练数据集中组词相同但语义不同的相似语句进行负标记的效果,进而防止了后续文本识别模型由于该组词相同但语义不同的相似语句所导致的答非所问,降低了答非所问的概率。
附图说明
图1是本发明第一实施例提供的文本识别模型相似度训练方法的流程图;
图2是本发明第二实施例提供的文本识别模型相似度训练方法的流程图;
图3是本发明第三实施例提供的文本识别模型相似度训练方法的流程图;
图4是本发明第四实施例提供的文本识别模型相似度训练系统的结构示意图;
图5是本发明第五实施例提供的文本识别模型相似度识别方法的流程图;
图6是本发明第六实施例提供的终端的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
现有的文本识别模型使用过程中,当两个语句中组成词相同,但语义不相同时,文本识别模型会出现检索错误,使得出现答非所问现象,例如当访客的问题是“吸脂瘦腿一次需要做多久?”,则文本识别模型所识别检索后的回答是“用我院专用仪器吸脂大概只需要半个小时即可”,但当访客的问题是“吸脂瘦腿多久需要做一次?”时,现有的文本识别模型的识别检索结果任然相同,此时会导致答非所问现象发生,因此,本发明通过采用将模型的训练数据集中组词相同但语义不同的相似语句进行负标记的方式,以降低答非所问的概率。
实施例一
请参阅图1,是本发明第一实施例提供的文本识别模型相似度训练方法的流程图,包括步骤:
步骤S10,获取样本数据,并分别对所述样本数据内的样本语句进行相似度计算,以获取多组相似语句组合;
其中,该样本数据中存储有多个不同的样本语句,该样本语句为疑问句,该步骤对所述样本数据中的样本语句进行两两相似度计算,即分别计算所述样本数据中两两样本语句之间的相似度,并将满足相似度条件的两个样本语句对应进行存储,以获取所述相似语句组合;
具体的,该步骤中可以采用词向量法或词频法的方式进行两两疑问句之间的相似度计算,该词向量法用于将该样本语句转换为向量,并基于向量之间的矢量关系以判定样本语句之间是否为相似句;该词频法通过基于各个样本语句之间的重复词,以对应判定样本语句之间是否为相似句;该步骤中,通过进行相似度计算,以获取相似语句组合的设计,有效的方便了后续针对相似语句之间的样本标记;
步骤S20,判断所述相似语句组合内的相似语句之间是否满足语义条件,并根据判断结果对所述相似语句进行样本标记;
其中,该语义条件用于分别判断每组所述相似语句组合内的相似语句表达的是否是相同语义,例如当所述相似语句组合包括语句A和语句B时:
语句A:你们那脱毛需要多少次?
语句B:你们那脱毛需要多少钱?
则该步骤,用于判断语句A和语句B的表达含义是否相同,由于语句A是问次数,语句B是问金额,此时,判定语句A与语句B未满足语义条件,因此,分别对语句A和语句B进行负标记;
例如当所述相似语句组合包括语句C和语句D时:
语句C:为什么APP的安全没有验证成功?
语句D:APP的安全验证为什么没有成功?
由于语句C和语句D所表达的都是询问APP的验证为何没成功,因此,判定语句C与语句D满足语义条件,因此,分别对语句C和语句D进行负标记;
步骤S30,根据所述样本标记的标记结果以构建训练数据集,并根据所述训练数据集对文本识别模型进行模型训练;
其中,通过基于所述样本标记的标记结果,能有效的在所述训练数据集中构建有监督的训练集,使得能有效的对组词相似但语义不同的相似句进行权值惩罚,提高了文本识别模型的识别精准度;
本实施例,通过对所述相似语句组合内的相似语句进行是否满足语义条件的判断的设计,以对应进行正样本标记或负样本标记,以达到将训练数据集中组词相同但语义不同的相似语句进行负标记的效果,进而防止了后续文本识别模型由于该组词相同但语义不同的相似语句所导致的答非所问,降低了答非所问的概率。
实施例二
请参阅图2,是本发明第二实施例提供的文本识别模型相似度训练方法的流程图,包括步骤:
步骤S11,获取样本数据,并分别对所述样本语句进行分词,以得到词语串,并将所述词语串转化为标识串;
其中,所述标识串为数字串或字母串,具体的,该步骤中,通过将所述词语串与本地预存储的标识表进行匹配,以保障所述词语串与所述标识串之间转换的准确性,所述标识表中存储有多组不同词语与对应ID之间的对应关系;
优选的,该步骤中,可以通过依序判断所述样本语句中相邻文字之间是否满足关联关系的方式,以对应进行分词,即通过依序判断所述样本语句中相邻文字之间所组成的相邻词是否与本地预存储的关联词表匹配,当匹配成功时,将该相邻词进行分词,当匹配未成功时,针对相邻文字不进行组词;
进一步地,该步骤中,还可以通过预先设置的分词阈值对所述样本语句进行分词,例如当该分词阈值为2时,则依序将所述样本语句中的文字采用二进制选取框的方式进行分词操作,以得到所述词语串;
步骤S21,将所述标识串进行向量映射,以得到词向量,并对所述词向量进行特征变换和特征提取,以得到特征向量;
其中,通过采用word2vec模型得到词向量,并将句子的所有词向量求和取平均值即得到句子的向量,优选的,即通过采用CNN卷积神经网络、RNN循环神经网络等变换方式以进行特征变换和特征提取,得到每个句子的特征向量;
步骤S31,根据所述特征向量,分别在所述样本数据中两两所述样本语句之间进行余弦计算,以得到余弦相似度;
其中,通过对两个input句子的特征向量计算cos值,以得到其余弦相似度;
步骤S41,当判断到所述余弦相似度大于相似度阈值时,将所述余弦相似度对应的两个所述样本语句进行组合,以得到多个相似语句组合;
步骤S51,分别对所述相似语句进行特征提取,以得到语义特征;
其中,可以通过采用特征词的方式进行所述语音特征的提取,即通过将所述相似语句依序与本地预存储的特征词表进行匹配,以得到所述语音特征,所述特征词表中的特征词可以根据用户需求自主进行设置,例如该特征词可以设置为“次数”、“时间”等,优选的,该语义特征还可以为多个特征词的组合;
例如当所述相似语句组合包括语句A和语句B时:
语句A:你们那脱毛需要多少次?
语句B:你们那脱毛需要多少钱?
则针对语句A提取到的语义特征为“脱毛-次”,针对语句B提取到的语音特征为“脱毛-钱”;
步骤S61,判断所述语义特征之间是否属于相同语义类别;
其中,通过将“脱毛-次”与“脱毛-钱”与本地预存储的语义类别表进行匹配,以判定“脱毛-次”与“脱毛-钱”是否属于相同语义类别,优选的,该步骤中,还可以通过将所述语义特征的提取结果发送至用户,以使根据用户需求自主进行所述语义特征之间的类别判断;
当步骤S61判断到所述特征语音之间属于相同语义类别时,执行步骤S71;
步骤S71,判定对应所述相似语句之间满足语义条件,对所述相似语句进行正样本标记;
当步骤S61判断到所述特征语音之间不属于相同语义类别时,执行步骤S81;
步骤S81,判定所述相似语句之间未满足所述语义条件时,对所述相似语句进行样本负标记;
步骤S91,根据样本标记的标记结果以构建训练数据集,并根据所述训练数据集对文本识别模型进行模型训练;
其中,通过基于所述样本标记的标记结果,能有效的在所述训练数据集中构建有监督的训练集,使得能有效的对组词相似但语义不同的相似句进行权值惩罚,提高了文本识别模型的识别精准度;
本实施例,通过对所述相似语句组合内的相似语句进行是否满足语义条件的判断的设计,以对应进行正样本标记或负样本标记,以达到将训练数据集中组词相同但语义不同的相似语句进行负标记的效果,进而防止了后续文本识别模型由于该组词相同但语义不同的相似语句所导致的答非所问,降低了答非所问的概率。
实施例三
请参阅图3,是本发明第三实施例提供的文本识别模型相似度训练方法的流程图,包括步骤:
步骤S12,获取样本数据,并分别对所述样本语句进行分词,以得到词语串;
步骤S22,在所述样本数据中的所述词语串之间进行词语匹配,以得到多个重复词频;
步骤S32,当判断到所述重复词频大于词频阈值时,将对应的两个所述样本语句进行组合,以得到多个相似语句组合;
步骤S42,分别对所述相似语句进行特征提取,以得到语义特征;
步骤S52,判断所述语义特征之间是否属于相同语义类别;
当步骤S52判断到所述特征语音之间属于相同语义类别时,执行步骤S62;
步骤S62,判定对应所述相似语句之间满足语义条件,对所述相似语句进行正样本标记;
当步骤S52判断到所述特征语音之间不属于相同语义类别时,执行步骤S72;
步骤S72,判定所述相似语句之间未满足所述语义条件时,对所述相似语句进行样本负标记;
步骤S82,将所述样本数据分别输入intention模型和ner模型,并获取相似度结果,将所述相似度结果与所述标记结果进行融合;
其中,通过将句子分别输入intention和ner模块即可得到句子的意图和关键实体,具体的,当第一组相似语句组合包括语句Q1和语句Q2,第二组相似语句组合包括P1和P2时:
Q1:你们那丰胸用的是什么材料,对人体有害吗?
Q2:你们那丰臀用的是什么材料,对人体有害吗?
P1:你们那脱毛需要多少次?
P2:你们那脱毛需要多少钱?
可见Q1和Q2只有一个字不一样,语义就完全不一样,因此需要融合ner模型(Q1的ner项目为丰胸,Q2的ner项目为丰臀);同样,P1和P2也是一字之差就导致语义完全不一样,因此需要融合intention模型(P1的Intention为咨询次数,P2的Intention为咨询价格),可以采用项目替换、同义词替换等方式构造出更多此种类型句子作为反例,进行数据增强;
步骤S92,根据样本标记的标记结果以构建训练数据集,并根据所述训练数据集对文本识别模型进行模型训练;
本实施例,通过对所述相似语句组合内的相似语句进行是否满足语义条件的判断的设计,以对应进行正样本标记或负样本标记,以达到将训练数据集中组词相同但语义不同的相似语句进行负标记的效果,进而防止了后续文本识别模型由于该组词相同但语义不同的相似语句所导致的答非所问,降低了答非所问的概率。
实施例四
请参阅图4,是本发明第四实施例提供的文本识别模型相似度训练系统100的结构示意图,包括相似度计算模块10、样本标记模块11和模型训练模块12,其中:
相似度计算模块10,用于获取样本数据,并分别对所述样本数据内的样本语句进行相似度计算,以获取多组相似语句组合。
其中,所述相似度计算模块10还用于:分别对所述样本语句进行分词,以得到词语串,并将所述词语串转化为标识串,所述标识串为数字串或字母串;将所述标识串进行向量映射,以得到词向量,并对所述词向量进行特征变换和特征提取,以得到特征向量;根据所述特征向量,分别在所述样本数据中两两所述样本语句之间进行余弦计算,以得到余弦相似度。
优选的,所述相似度计算模块10还用于:当判断到所述余弦相似度大于相似度阈值时,将所述余弦相似度对应的两个所述样本语句进行组合,以得到所述相似语句组合。
进一步地,所述相似度计算模块10还用于:分别对所述样本语句进行分词,以得到词语串;在所述样本数据中的所述词语串之间进行词语匹配,以得到多个重复词频;当判断到所述重复词频大于词频阈值时,将对应的两个所述样本语句进行组合,以得到所述相似语句组合。
样本标记模块11,用于判断所述相似语句组合内的相似语句之间是否满足语义条件,并根据判断结果对所述相似语句进行样本标记。
其中,所述样本标记模块11还用于:分别对所述相似语句进行特征提取,以得到语义特征;判断所述语义特征之间是否属于相同语义类别;若是,则判定所述相似语句之间满足所述语义条件;若否,则判定所述相似语句之间未满足所述语义条件。
优选的,所述样本标记模块11还用于:当判断到所述相似语句之间满足所述语义条件时,对所述相似语句进行正样本标记;当判断到所述相似语句之间未满足所述语义条件时,对所述相似语句进行样本负标记。
模型训练模块12,用于根据所述样本标记的标记结果以构建训练数据集,并根据所述训练数据集对文本识别模型进行模型训练。
此外,所述模型训练模块12还用于:将所述样本数据分别输入intention模型和ner模型,并获取相似度结果;将所述相似度结果与所述标记结果进行融合。
本实施例,通过对所述相似语句组合内的相似语句进行是否满足语义条件的判断的设计,以对应进行正样本标记或负样本标记,以达到将训练数据集中组词相同但语义不同的相似语句进行负标记的效果,进而防止了后续文本识别模型由于该组词相同但语义不同的相似语句所导致的答非所问,降低了答非所问的概率。
实施例五
请参阅图5,是本发明第五实施例提供的文本识别模型相似度识别方法,所述方法包括以下步骤:
步骤S13,根据文本识别模型相似度训练方法对文本识别模型进行训练;
步骤S23,获取待识别语句,并控制所述文本识别模型将所述待识别语句与本地预存储的常见问答库进行相似度匹配,以获取目标疑问句和与所述目标疑问句对应的目标回复句;
步骤S33,根据所述目标回复句进行疑问回复;
本实施例,通过基于有监督的模型训练,以达到将训练数据集中组词相同但语义不同的相似语句进行负标记的效果,进而防止了后续文本识别模型由于该组词相同但语义不同的相似语句所导致的答非所问,降低了答非所问的概率。
实施例六
请参阅图6,是本发明第六实施例提供的终端101,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述终端101执行上述的文本识别模型相似度训练方法。
本实施例还提供了一种存储介质,其上存储有上述终端101中所使用的计算机程序,该程序在执行时,包括如下步骤:
获取样本数据,并分别对所述样本数据内的样本语句进行相似度计算,以获取多组相似语句组合;
判断所述相似语句组合内的相似语句之间是否满足语义条件,并根据判断结果对所述相似语句进行样本标记;
根据所述样本标记的标记结果以构建训练数据集,并根据所述训练数据集对文本识别模型进行模型训练。所述的存储介质,如:ROM/RAM、磁碟、光盘等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元或模块完成,即将存储装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
本领域技术人员可以理解,图4中示出的组成结构并不构成对本发明的文本识别模型相似度训练系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,而图1-3中的文本识别模型相似度训练方法亦采用图4中所示的更多或更少的部件,或者组合某些部件,或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标文本识别模型相似度训练系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序,其均可存储于所述目标文本识别模型相似度训练系统的存储设备(图未示)内。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文本识别模型相似度训练方法,其特征在于,所述方法包括:
获取样本数据,并分别对所述样本数据内的样本语句进行相似度计算,以获取多组相似语句组合;
判断所述相似语句组合内的相似语句之间是否满足语义条件,并根据判断结果对所述相似语句进行样本标记;
根据所述样本标记的标记结果以构建训练数据集,并根据所述训练数据集对文本识别模型进行模型训练。
2.如权利要求1所述的文本识别模型相似度训练方法,其特征在于,所述分别对所述样本数据内的样本语句进行相似度计算的步骤包括:
分别对所述样本语句进行分词,以得到词语串,并将所述词语串转化为标识串,所述标识串为数字串或字母串;
将所述标识串进行向量映射,以得到词向量,并对所述词向量进行特征变换和特征提取,以得到特征向量;
根据所述特征向量,分别在所述样本数据中两两所述样本语句之间进行余弦计算,以得到余弦相似度。
3.如权利要求2所述的文本识别模型相似度训练方法,其特征在于,所述分别对所述样本数据内的样本语句进行相似度计算的步骤还包括:
当判断到所述余弦相似度大于相似度阈值时,将所述余弦相似度对应的两个所述样本语句进行组合,以得到所述相似语句组合。
4.如权利要求1所述的文本识别模型相似度训练方法,其特征在于,所述判断所述相似语句组合内的相似语句之间是否满足语义条件的步骤包括:
分别对所述相似语句进行特征提取,以得到语义特征;
判断所述语义特征之间是否属于相同语义类别;
若是,则判定所述相似语句之间满足所述语义条件;
若否,则判定所述相似语句之间未满足所述语义条件。
5.如权利要求1所述的文本识别模型相似度训练方法,其特征在于,所述根据判断结果对所述相似语句进行样本标记的步骤包括:
当判断到所述相似语句之间满足所述语义条件时,对所述相似语句进行正样本标记;
当判断到所述相似语句之间未满足所述语义条件时,对所述相似语句进行样本负标记。
6.如权利要求1所述的文本识别模型相似度训练方法,其特征在于,所述分别对所述样本数据内的样本语句进行相似度计算的步骤包括:
分别对所述样本语句进行分词,以得到词语串;
在所述样本数据中的所述词语串之间进行词语匹配,以得到多个重复词频;
当判断到所述重复词频大于词频阈值时,将对应的两个所述样本语句进行组合,以得到所述相似语句组合。
7.如权利要求1所述的文本识别模型相似度训练方法,其特征在于,所述根据所述样本标记的标记结果以构建训练数据集的步骤之前,所述方法还包括:
将所述样本数据分别输入intention模型和ner模型,并获取相似度结果;
将所述相似度结果与所述标记结果进行融合。
8.一种文本识别模型相似度训练系统,其特征在于,所述系统包括:
相似度计算模块,用于获取样本数据,并分别对所述样本数据内的样本语句进行相似度计算,以获取多组相似语句组合;
样本标记模块,用于判断所述相似语句组合内的相似语句之间是否满足语义条件,并根据判断结果对所述相似语句进行样本标记;
模型训练模块,用于根据所述样本标记的标记结果以构建训练数据集,并根据所述训练数据集对文本识别模型进行模型训练。
9.一种文本识别模型相似度识别方法,其特征在于,所述方法包括:
根据权利要求1至7任一项所述的文本识别模型相似度训练方法对文本识别模型进行训练;
获取待识别语句,并控制所述文本识别模型将所述待识别语句与本地预存储的常见问答库进行相似度匹配,以获取目标疑问句和与所述目标疑问句对应的目标回复句;
根据所述目标回复句进行疑问回复。
10.一种终端,其特征在于,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述终端执行根据权利要求1至7任一项所述的文本识别模型相似度训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910901703.4A CN110781277A (zh) | 2019-09-23 | 2019-09-23 | 文本识别模型相似度训练方法、系统、识别方法及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910901703.4A CN110781277A (zh) | 2019-09-23 | 2019-09-23 | 文本识别模型相似度训练方法、系统、识别方法及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110781277A true CN110781277A (zh) | 2020-02-11 |
Family
ID=69383728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910901703.4A Pending CN110781277A (zh) | 2019-09-23 | 2019-09-23 | 文本识别模型相似度训练方法、系统、识别方法及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110781277A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340218A (zh) * | 2020-02-24 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 一种训练问题识别模型的方法和系统 |
CN111353033A (zh) * | 2020-02-27 | 2020-06-30 | 支付宝(杭州)信息技术有限公司 | 一种训练文本相似度模型的方法和系统 |
CN111401071A (zh) * | 2019-01-02 | 2020-07-10 | 百度在线网络技术(北京)有限公司 | 模型的训练方法、装置、计算机设备和可读存储介质 |
CN111538822A (zh) * | 2020-04-24 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 一种智能客户服务机器人训练数据的生成方法和系统 |
CN111709247A (zh) * | 2020-05-20 | 2020-09-25 | 北京百度网讯科技有限公司 | 数据集处理方法、装置、电子设备和存储介质 |
CN112395886A (zh) * | 2021-01-19 | 2021-02-23 | 深圳壹账通智能科技有限公司 | 相似文本确定方法及相关设备 |
CN112560463A (zh) * | 2020-12-15 | 2021-03-26 | 中国平安人寿保险股份有限公司 | 文本多标注方法、装置、设备及存储介质 |
CN113724738A (zh) * | 2021-08-31 | 2021-11-30 | 平安普惠企业管理有限公司 | 语音处理方法、决策树模型训练方法、装置、设备及存储介质 |
CN113779237A (zh) * | 2020-06-09 | 2021-12-10 | 奇安信科技集团股份有限公司 | 构建社交行为序列图的方法、系统、移动终端及可读存储介质 |
CN114091427A (zh) * | 2021-11-19 | 2022-02-25 | 海信电子科技(武汉)有限公司 | 一种图像文本相似度模型训练方法及显示设备 |
CN116975206A (zh) * | 2023-09-25 | 2023-10-31 | 华云天下(南京)科技有限公司 | 一种基于aigc大模型的垂直领域训练方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170147691A1 (en) * | 2015-11-20 | 2017-05-25 | Guangzhou Shenma Mobile Information Technology Co. Ltd. | Method and apparatus for extracting topic sentences of webpages |
CN107329949A (zh) * | 2017-05-24 | 2017-11-07 | 北京捷通华声科技股份有限公司 | 一种语义匹配方法和系统 |
CN108334495A (zh) * | 2018-01-30 | 2018-07-27 | 国家计算机网络与信息安全管理中心 | 短文本相似度计算方法及系统 |
CN109102809A (zh) * | 2018-06-22 | 2018-12-28 | 北京光年无限科技有限公司 | 一种用于智能机器人的对话方法及系统 |
CN109215636A (zh) * | 2018-11-08 | 2019-01-15 | 广东小天才科技有限公司 | 一种语音信息的分类方法及系统 |
CN110032635A (zh) * | 2019-04-22 | 2019-07-19 | 齐鲁工业大学 | 一种基于深度特征融合神经网络的问题对匹配方法和装置 |
-
2019
- 2019-09-23 CN CN201910901703.4A patent/CN110781277A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170147691A1 (en) * | 2015-11-20 | 2017-05-25 | Guangzhou Shenma Mobile Information Technology Co. Ltd. | Method and apparatus for extracting topic sentences of webpages |
CN107329949A (zh) * | 2017-05-24 | 2017-11-07 | 北京捷通华声科技股份有限公司 | 一种语义匹配方法和系统 |
CN108334495A (zh) * | 2018-01-30 | 2018-07-27 | 国家计算机网络与信息安全管理中心 | 短文本相似度计算方法及系统 |
CN109102809A (zh) * | 2018-06-22 | 2018-12-28 | 北京光年无限科技有限公司 | 一种用于智能机器人的对话方法及系统 |
CN109215636A (zh) * | 2018-11-08 | 2019-01-15 | 广东小天才科技有限公司 | 一种语音信息的分类方法及系统 |
CN110032635A (zh) * | 2019-04-22 | 2019-07-19 | 齐鲁工业大学 | 一种基于深度特征融合神经网络的问题对匹配方法和装置 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401071A (zh) * | 2019-01-02 | 2020-07-10 | 百度在线网络技术(北京)有限公司 | 模型的训练方法、装置、计算机设备和可读存储介质 |
CN111340218A (zh) * | 2020-02-24 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 一种训练问题识别模型的方法和系统 |
CN111353033B (zh) * | 2020-02-27 | 2023-04-07 | 支付宝(杭州)信息技术有限公司 | 一种训练文本相似度模型的方法和系统 |
CN111353033A (zh) * | 2020-02-27 | 2020-06-30 | 支付宝(杭州)信息技术有限公司 | 一种训练文本相似度模型的方法和系统 |
CN111538822A (zh) * | 2020-04-24 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 一种智能客户服务机器人训练数据的生成方法和系统 |
CN111538822B (zh) * | 2020-04-24 | 2023-05-09 | 支付宝(杭州)信息技术有限公司 | 一种智能客户服务机器人训练数据的生成方法和系统 |
CN111709247A (zh) * | 2020-05-20 | 2020-09-25 | 北京百度网讯科技有限公司 | 数据集处理方法、装置、电子设备和存储介质 |
CN111709247B (zh) * | 2020-05-20 | 2023-04-07 | 北京百度网讯科技有限公司 | 数据集处理方法、装置、电子设备和存储介质 |
CN113779237A (zh) * | 2020-06-09 | 2021-12-10 | 奇安信科技集团股份有限公司 | 构建社交行为序列图的方法、系统、移动终端及可读存储介质 |
CN113779237B (zh) * | 2020-06-09 | 2023-12-26 | 奇安信科技集团股份有限公司 | 构建社交行为序列图的方法、系统、移动终端及可读存储介质 |
CN112560463A (zh) * | 2020-12-15 | 2021-03-26 | 中国平安人寿保险股份有限公司 | 文本多标注方法、装置、设备及存储介质 |
CN112560463B (zh) * | 2020-12-15 | 2023-08-04 | 中国平安人寿保险股份有限公司 | 文本多标注方法、装置、设备及存储介质 |
CN112395886A (zh) * | 2021-01-19 | 2021-02-23 | 深圳壹账通智能科技有限公司 | 相似文本确定方法及相关设备 |
CN113724738A (zh) * | 2021-08-31 | 2021-11-30 | 平安普惠企业管理有限公司 | 语音处理方法、决策树模型训练方法、装置、设备及存储介质 |
CN113724738B (zh) * | 2021-08-31 | 2024-04-23 | 硅基(昆山)智能科技有限公司 | 语音处理方法、决策树模型训练方法、装置、设备及存储介质 |
CN114091427A (zh) * | 2021-11-19 | 2022-02-25 | 海信电子科技(武汉)有限公司 | 一种图像文本相似度模型训练方法及显示设备 |
CN116975206A (zh) * | 2023-09-25 | 2023-10-31 | 华云天下(南京)科技有限公司 | 一种基于aigc大模型的垂直领域训练方法、装置及电子设备 |
CN116975206B (zh) * | 2023-09-25 | 2023-12-08 | 华云天下(南京)科技有限公司 | 一种基于aigc大模型的垂直领域训练方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781277A (zh) | 文本识别模型相似度训练方法、系统、识别方法及终端 | |
CN110781276B (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN111046133B (zh) | 基于图谱化知识库的问答方法、设备、存储介质及装置 | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
CN106570708B (zh) | 一种智能客服知识库的管理方法及系统 | |
CN111325029B (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
CN109460459B (zh) | 一种基于日志学习的对话系统自动优化方法 | |
CN109933661B (zh) | 一种基于深度生成模型的半监督问答对归纳方法和系统 | |
CN108038208B (zh) | 上下文信息识别模型的训练方法、装置和存储介质 | |
CN106844344B (zh) | 用于对话的贡献度计算方法及主题抽取方法和系统 | |
CN115858758A (zh) | 一种多非结构化数据识别的智慧客服知识图谱系统 | |
CN112579666B (zh) | 智能问答系统和方法及相关设备 | |
CN113704444A (zh) | 基于自然语言处理的问答方法、系统、设备及存储介质 | |
CN113821605A (zh) | 一种事件抽取方法 | |
CN115292461B (zh) | 基于语音识别的人机交互学习方法及系统 | |
CN111368096A (zh) | 基于知识图谱的信息分析方法、装置、设备和存储介质 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN114647713A (zh) | 基于虚拟对抗的知识图谱问答方法、设备及存储介质 | |
CN113947084A (zh) | 基于图嵌入的问答知识检索方法、装置及设备 | |
CN115146124A (zh) | 问答系统应答方法及其装置、设备、介质、产品 | |
CN117763119A (zh) | 智能语音客服对话方法、装置、电子设备及存储介质 | |
CN110674276B (zh) | 机器人自学习方法、机器人终端、装置及可读存储介质 | |
CN118132669A (zh) | 一种基于大语言模型的智能索引方法 | |
Ajees et al. | A named entity recognition system for Malayalam using conditional random fields | |
CN113095073B (zh) | 语料标签生成方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200211 |
|
RJ01 | Rejection of invention patent application after publication |