CN110209831A - 模型生成、语义识别的方法、系统、设备及存储介质 - Google Patents
模型生成、语义识别的方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN110209831A CN110209831A CN201810149170.4A CN201810149170A CN110209831A CN 110209831 A CN110209831 A CN 110209831A CN 201810149170 A CN201810149170 A CN 201810149170A CN 110209831 A CN110209831 A CN 110209831A
- Authority
- CN
- China
- Prior art keywords
- feature
- model
- brand
- article
- random field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000000605 extraction Methods 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 238000006243 chemical reaction Methods 0.000 abstract description 6
- 238000003058 natural language processing Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000002360 preparation method Methods 0.000 description 4
- 244000062793 Sorghum vulgare Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 235000019713 millet Nutrition 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000010939 rose gold Substances 0.000 description 2
- 229910001112 rose gold Inorganic materials 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 244000309464 bull Species 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种模型生成、语义识别的方法、系统、设备及存储介质,模型生成的方法包括获取历史数据;对每条所述历史数据进行特征提取及标注以得到对应的历史序列,每条所述历史序列包括特征提取后的特征和标注后的标签,所述标签包括物品的中心词、物品的修饰词、询问范围、物品的品牌及频道编号中的至少一种;采用条件随机场学习算法对所述历史序列进行模型训练,以确定条件随机场模型的参数,所述参数包括迭代次数、步长和学习率。本发明提供的基于条件随机场的用户语义识别的模型生成、语义识别的方法、系统、设备及存储介质相比于模板匹配的传统思路,更加的灵活且覆盖更多的用户,能够提升语音相关服务的用户体验和点击转化率。
Description
技术领域
本发明涉及自然语言处理领域,特别涉及一种基于条件随机场的用户语义识别的模型生成、语义识别的方法、系统、设备及存储介质。
背景技术
语音识别和语义理解是未来互联网网站发展的一种趋势,用户对着机器说一句话,当语音转化为文字后,如何根据文字准确地把握用户意图,显得越来越重要。现有技术中采用斯坦福正则匹配模板提取语义信息,该种实现方式比较死板,只有在模板指定的话术中才可以匹配,随着应用需求的扩大,需要设计越来越多的正则模板,浪费人力,效果也不够灵活。
发明内容
本发明要解决的技术问题是为了克服现有技术中语义识别采用斯坦福正则匹配模板提取语义信息的方式不够灵活,需要设计越来越多的正则模板导致人力成本高的缺陷,提供一种能够灵活地对用户语音输入信息准确提取关键信息进而实现语义识别的基于条件随机场的用户语义识别的模型生成、语义识别的方法、系统、设备及存储介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供了一种模型生成的方法,其特点在于,包括以下步骤:
获取历史数据;
对每条所述历史数据进行特征提取及标注以得到对应的历史序列,每条所述历史序列包括特征提取后的特征和标注后的标签,所述标签包括物品的中心词、物品的修饰词、询问范围、物品的品牌及频道编号中的至少一种;
采用条件随机场学习算法对所述历史序列进行模型训练,以确定条件随机场模型的参数,所述参数包括迭代次数maxiter、步长stepsize和学习率learningrate。
本方案中,历史数据采用用户输入的历史数据,对每条历史数据进行特征提取及标注后得到历史序列,将历史序列构成的训练数据集输入至条件随机场学习算法进行模型自动训练,以估算条件随机场模型的参数,本方案中经过训练确定的参数包括迭代次数maxiter、步长stepsize和学习率learningrate;其中maxiter的取值范围为1到无穷大,stepsize是1到无穷大,learningrate是0到1。
本方案通过多种标签的设置,能够提高模型的准确性。其中,询问范围和频道编号只需要查询相应的数据库进行匹配即可获知。例如询问范围可以是购物车,如果历史数据中包括购物车这个词,而对应的数据库中提前预存有购物车,经过查询相应的数据库进行匹配即可确定该历史数据对应的询问范围涉及购物车,由此能够确定该条历史数据中对应的询问范围这一标签为购物车。
本方案提出了一种基于条件随机场改进的用户语义识别的模型生成的方法,本方法借助于自动化训练的方式,相比于传统斯坦福正则匹配模板灵活且覆盖度广。
较佳地,所述方法采用斯坦福CoreNLP(一种自然语言的分析工具)对每条所述历史数据进行特征提取。
本方案中,特征通过斯坦福CoreNLP工具得到,也就是说本方案利用了斯坦福CoreNLP的特征提取功能,但是没有使用其进行具体的语义识别。
较佳地,所述特征包括分词特征、词性特征和品牌专有特征;
所述方法还包括预设品牌词库,所述品牌词库包括若干品牌;
所述采用斯坦福CoreNLP对每条所述历史数据进行特征提取包括:
采用斯坦福CoreNLP对每条所述历史数据进行分词以得到所述分词特征;
采用斯坦福CoreNLP对分词后的词语进行词性标注以得到所述词性特征;
根据分词后的词语是否为所述品牌词库中的品牌设置所述分词后的词语的所述品牌专有特征。
本方案中,对条件随机场算法所用到的特征进行了改进,增加了品牌专有特征,并利用斯坦福CoreNLP工具进行分词特征及词性特征的提取,同时通过提前预设品牌词库对分词后的词语进行品牌专有特征的提取。
较佳地,所述方法还包括预设物品词库,所述方法采用斯坦福CoreNLP的正则匹配模板、所述物品词库及所述品牌词库对每条所述历史数据进行标注以得到所述标签。
本方案中,通过设计斯坦福CoreNLP自然语言处理工具的正则匹配模板,借助于物品词库和品牌词库,对分词后的词语进行标注,通过本次标注能够比较准确地提取一部分标注,提高了标注的效率,为条件随机场的应用做好基本的准备;同时也为条件随机场算法的运用构造了比较好的训练集标注数据,提升了模型预测语义的准确度。具体应用时,对于历史数据的标注可以先使用斯坦福CoreNLP自然语言处理工具的正则匹配模板进行自动标注一部分,剩余部分再使用人工进行标注。
较佳地,所述方法还包括设置所述条件随机场学习算法的特征模板,所述特征模板包括与所述品牌专有特征相对应的匹配规则。
本方案中,在条件随机场学习算法的特征模板中专门设置有与新增的品牌专有特征对应的匹配规则,模型训练过程中加入这一新增的特征及相应的匹配规则能够提升模型预测语义的准确度。
较佳地,所述方法还包括利用N-gram模型调试所述特征模板。
本方案中,借助于N-gram模型的调试思想调试特征模板,即调试根据前后文关系构建的文本特征N-gram,该特征考虑了词语和词语之间的依存关系,调试每个词语和它前后的两个词语,滑动窗口是2时为2-gram,滑动窗口是1时为1-gram。具体进行特征模板设计时,可以设计前后3个字,2个字,1个字等进行调试。
较佳地,所述条件随机场学习算法的优化实现算法采用拟牛顿法。
本发明还提供了一种模型生成的系统,其特点在于,包括:
第一获取模块,用于获取历史数据;
处理模块,用于对每条所述历史数据进行特征提取及标注以得到对应的历史序列,每条所述历史序列包括特征提取后的特征和标注后的标签,所述标签包括物品的中心词、物品的修饰词、询问范围、物品的品牌及频道编号中的至少一种;
训练模块,用于采用条件随机场学习算法对所述历史序列进行模型训练,以确定条件随机场模型的参数,所述参数包括迭代次数maxiter、步长stepsize和学习率learningrate。
较佳地,所述处理模块采用斯坦福CoreNLP对每条所述历史数据进行特征提取。
较佳地,所述特征包括分词特征、词性特征和品牌专有特征;
所述系统还包括第一预设模块,所述第一预设模块用于预设品牌词库,所述品牌词库包括若干品牌;
所述处理模块采用斯坦福CoreNLP对每条所述历史数据进行特征提取包括:
所述处理模块采用斯坦福CoreNLP对每条所述历史数据进行分词以得到所述分词特征;
所述处理模块采用斯坦福CoreNLP对分词后的词语进行词性标注以得到所述词性特征;
所述处理模块根据分词后的词语是否为所述品牌词库中的品牌设置所述分词后的词语的所述品牌专有特征。
较佳地,所述系统还包括第二预设模块,所述第二预设模块用于预设物品词库,所述处理模块采用斯坦福CoreNLP的正则匹配模板、所述物品词库及所述品牌词库对每条所述历史数据进行标注以得到所述标签。
较佳地,所述系统还包括设置模块,所述设置模块用于设置所述条件随机场学习算法的特征模板,所述特征模板包括与所述品牌专有特征相对应的匹配规则。
较佳地,所述系统还包括调试模块,所述调试模块用于利用N-gram模型调试所述特征模板。
本发明还提供了一种模型生成的设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特点在于,所述处理器执行所述程序时实现前述的模型生成的方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,其特点在于,所述程序被处理器执行时实现前述的模型生成的方法的步骤。
本发明还提供了一种语义识别的方法,其特点在于,包括以下步骤:
执行前述的模型生成的方法;
获取待识别的数据,对所述待识别的数据进行特征提取以得到对应的待识别的序列,所述待识别的序列包括特征提取后的特征;
采用条件随机场预测算法对所述待识别序列进行标注,以得到所述待预测序列对应的所述标签。
本方案中,所述条件随机场预测算法的实现算法采用维特比算法。标注预测包括用户输入信息的物品的中心词的预测,物品的品牌的预测,物品的修饰词的预测,询问范围预测和频道编号预测中的至少一种。
本方案中,首先采用模型生成的方法训练模型,具体为通过条件随机场学习算法对所述历史序列进行模型训练,以确定条件随机场模型的参数,然后采用条件随机场预测算法利用训练好的条件随机场模型对所述待识别序列进行标注,以得到所述待预测序列对应的所述标签。
本方案改进了斯坦福CoreNLP语言模型,加入了物品词库和品牌词库,同时新增品牌专有特征及在特征模板中增加相应的匹配规则,为条件随机场算法的运用构造了比较好的训练集标注数据,提升了模型预测语义的准确度。本方案提供的语义识别的方法相比于模板匹配的传统思路,更加的灵活且覆盖更多的用户,能够提升语音相关服务的用户体验和点击转化率。
本发明还提供了一种语义识别的系统,其特点在于,包括:
模型训练模块,用于调用前述的模型生成的系统;
第二获取模块,用于获取待识别的数据,对所述待识别的数据进行特征提取以得到对应的待识别的序列,所述待识别的序列包括特征提取后的特征;
预测模块,用于采用条件随机场预测算法对所述待识别序列进行标注,以得到所述待预测序列对应的所述标签。
本发明还提供了一种语义识别的设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特点在于,所述处理器执行所述程序时实现前述的语义识别的方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,其特点在于,所述程序被处理器执行时实现前述的语义识别的方法的步骤。
本发明的积极进步效果在于:本发明提供的基于条件随机场的用户语义识别的模型生成、语义识别的方法、系统、设备及存储介质改进了斯坦福CoreNLP语言模型,加入了物品词库和品牌词库,同时新增品牌专有特征及在特征模板中增加相应的匹配规则,为条件随机场算法的运用构造了比较好的训练集标注数据,提升了模型预测语义的准确度。本发明提供的语义识别的方法相比于模板匹配的传统思路更加的灵活且覆盖更多的用户,能够提升语音相关服务的用户体验和点击转化率。
附图说明
图1为本发明实施例1的模型生成的方法的流程图。
图2为本发明实施例2的模型生成的系统的模块示意图。
图3为本发明实施例3的模型生成的设备的硬件结构示意图。
图4为本发明实施例5的语义识别的方法的流程图。
图5为本发明实施例6的语义识别的系统的模块示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
如图1所示,本实施例提供的模型生成的方法包括以下步骤:
步骤101、预设品牌词库和物品词库,所述品牌词库包括若干品牌,所述物品词库用于存储各种物品的名称;
步骤102、获取用户输入的历史数据;
步骤103、对每条所述历史数据进行特征提取及标注以得到对应的历史序列,每条所述历史序列包括特征提取后的特征和标注后的标签,所述特征包括分词特征、词性特征和品牌专有特征;所述标签包括物品的中心词、物品的修饰词、询问范围、物品的品牌及频道编号;
步骤104、设置条件随机场学习算法的特征模板,利用N-gram模型调试所述特征模板,所述特征模板包括与所述品牌专有特征相对应的匹配规则;
步骤105、采用所述条件随机场学习算法对所述历史序列进行模型训练,以确定条件随机场模型的参数,所述参数包括迭代次数maxiter、步长stepsize和学习率learningrate,其中所述条件随机场学习算法的优化实现算法采用拟牛顿法。
本实施例中采用斯坦福CoreNLP对每条所述历史数据进行特征提取,具体步骤如下:采用斯坦福CoreNLP对每条所述历史数据进行分词以得到所述分词特征,对分词后的词语进行词性标注以得到所述词性特征,根据分词后的词语是否为所述品牌词库中的品牌设置所述分词后的词语的所述品牌专有特征。
本实施例中采用斯坦福CoreNLP的正则匹配模板、所述物品词库及所述品牌词库对每条所述历史数据进行标注以得到所述标签。
本实施例中,历史数据采用用户输入的历史数据。对每条历史数据进行特征提取及标注后得到历史序列,将历史序列构成的训练集输入至条件随机场学习算法进行模型自动训练,以估算条件随机场模型的参数,本实施例中经过训练确定的参数包括迭代次数maxiter、步长stepsize和学习率learningrate;其中maxiter的取值范围为1到无穷大,stepsize是1到无穷大,learningrate是0到1。
本实施例采用以上5个标签对历史数据进行标注,能够提高模型的准确性。其中,询问范围和频道编号只需要查询相应的数据库进行匹配即可获知。例如询问范围可以是购物车,如果历史数据中包括购物车这个词,而对应的数据库中提前预存有购物车,经过查询相应的数据库进行匹配即可确定该历史数据对应的询问范围涉及购物车,由此能够确定该条历史数据中对应的询问范围这一标签为购物车。
本实施例中,对条件随机场算法所用到的特征进行了改进,增加了品牌专有特征,并利用斯坦福CoreNLP工具进行分词特征及词性特征的提取,同时通过提前预设品牌词库对分词后的词语进行品牌专有特征的提取。本实施例新增的特征模板的设计,加入了品牌专有特征,具体实施是分词后的词语如果是品牌词库中的品牌可以取值1,如果不是品牌词库中的品牌则取值0。
本实施例中,特征通过斯坦福CoreNLP工具得到,也就是说本实施例利用了斯坦福CoreNLP的特征提取功能,但是没有使用其进行具体的语义识别。
本实施例中,通过设计斯坦福CoreNLP自然语言处理工具的正则匹配模板,借助于物品词库和品牌词库,对分词后的词语进行标注,通过本次标注能够比较准确地提取一部分标注,提高了标注的效率,为条件随机场的应用做好基本的准备;同时也为条件随机场算法的运用构造了比较好的训练集标注数据,提升了模型预测语义的准确度。具体应用时,对于历史数据的标注可以先使用斯坦福CoreNLP自然语言处理工具的正则匹配模板进行自动标注一部分,剩余部分再使用人工进行标注。
本实施例中,借助于N-gram模型的调试思想调试特征模板,即调试根据前后文关系构建的文本特征N-gram,该特征考虑了词语和词语之间的依存关系,调试每个词语和它前后的两个词语,滑动窗口是2时为2-gram,滑动窗口是1时为1-gram。具体进行特征模板设计时,可以设计前后3个字,2个字,1个字等进行调试。
本实施例中,在条件随机场学习算法的特征模板中专门设置有与新增的品牌专有特征对应的匹配规则,模型训练过程中加入这一新增的特征及相应的匹配规则能够提升模型预测语义的准确度。
本实施例提出了一种基于条件随机场改进的用户语义识别的模型生成的方法,本方法加入了物品词库和品牌词库,同时新增品牌专有特征及在特征模板中增加相应的匹配规则,为条件随机场算法的运用构造了比较好的训练集标注数据,提升了模型预测语义的准确度。本方法借助于自动化训练的方式,相比于传统斯坦福正则匹配模板灵活且覆盖度广。
实施例2
如图2所示,本实施例的模型生成的系统包括:
第一预设模块1,用于预设品牌词库,所述品牌词库包括若干品牌;
第二预设模块2,用于预设物品词库;
第一获取模块3,用于获取历史数据;
处理模块4,用于对每条所述历史数据进行特征提取及标注以得到对应的历史序列,每条所述历史序列包括特征提取后的特征和标注后的标签,所述特征包括分词特征、词性特征和品牌专有特征;所述标签包括物品的中心词、物品的修饰词、询问范围、物品的品牌及频道编号;
设置模块5,用于设置所述条件随机场学习算法的特征模板,所述特征模板包括与所述品牌专有特征相对应的匹配规则;
调试模块6,用于利用N-gram模型调试所述特征模板;
训练模块7,用于采用条件随机场学习算法对所述历史序列进行模型训练,以确定条件随机场模型的参数,所述参数包括迭代次数maxiter、步长stepsize和学习率learningrate。
本实施例中所述处理模块4采用斯坦福CoreNLP对每条所述历史数据进行特征提取,具体为:所述处理模块4采用斯坦福CoreNLP对每条所述历史数据进行分词以得到所述分词特征,及对分词后的词语进行词性标注以得到所述词性特征,根据分词后的词语是否为所述品牌词库中的品牌设置所述分词后的词语的所述品牌专有特征。
本实施例中所述处理模块4采用斯坦福CoreNLP的正则匹配模板、所述物品词库及所述品牌词库对每条所述历史数据进行标注以得到所述标签。
本实施例中采用斯坦福CoreNLP对每条所述历史数据进行特征提取,采用斯坦福CoreNLP的正则匹配模板、所述物品词库及所述品牌词库对每条所述历史数据进行标注以得到所述标签。
本实施例中,历史数据采用用户输入的历史数据。对每条历史数据进行特征提取及标注后得到历史序列,将历史序列构成的训练集输入至条件随机场学习算法进行模型自动训练,以估算条件随机场模型的参数,本实施例中经过训练确定的参数包括迭代次数maxiter、步长stepsize和学习率learningrate。
本实施例采用以上5个标签对历史数据进行标注,能够提高模型的准确性。
本实施例中,对条件随机场算法所用到的特征进行了改进,增加了品牌专有特征,并利用斯坦福CoreNLP工具进行分词特征及词性特征的提取,同时通过提前预设品牌词库对分词后的词语进行品牌专有特征的提取。本实施例新增的特征模板的设计,加入了品牌专有特征,具体实施是分词后的词语如果是品牌词库中的品牌可以取值1,如果不是品牌词库中的品牌则取值0。
本实施例中,特征通过斯坦福CoreNLP工具得到,也就是说本实施例利用了斯坦福CoreNLP的特征提取功能,但是没有使用其进行具体的语义识别。
本实施例中,通过设计斯坦福CoreNLP自然语言处理工具的正则匹配模板,借助于物品词库和品牌词库,对分词后的词语进行标注,通过本次标注能够比较准确地提取一部分标注,提高了标注的效率,为条件随机场的应用做好基本的准备;同时也为条件随机场算法的运用构造了比较好的训练集标注数据,提升了模型预测语义的准确度。具体应用时,对于历史数据的标注可以先使用斯坦福CoreNLP自然语言处理工具的正则匹配模板进行自动标注一部分,剩余部分再使用人工进行标注。
本实施例中,借助于N-gram模型的调试思想调试特征模板,即调试根据前后文关系构建的文本特征N-gram,该特征考虑了词语和词语之间的依存关系,调试每个词语和它前后的两个词语,滑动窗口是2时为2-gram,滑动窗口是1时为1-gram。具体进行特征模板设计时,可以设计前后3个字,2个字,1个字等进行调试。
本实施例中,在条件随机场学习算法的特征模板中专门设置有与新增的品牌专有特征对应的匹配规则,模型训练过程中加入这一新增的特征及相应的匹配规则能够提升模型预测语义的准确度。
本实施例提出了一种基于条件随机场改进的用户语义识别的模型生成的系统,本系统加入了物品词库和品牌词库,同时新增品牌专有特征及在特征模板中增加相应的匹配规则,为条件随机场算法的运用构造了比较好的训练集标注数据,提升了模型预测语义的准确度。本系统借助于自动化训练的方式,相比于传统斯坦福正则匹配模板灵活且覆盖度广。
实施例3
图3为本发明实施例3提供的一种模型生成的设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性模型生成的设备30的框图。图3显示的模型生成的设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,模型生成的设备30可以通用计算设备的形式表现,例如其可以为服务器设备。模型生成的设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1所提供的模型生成的方法。
模型生成的设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了模型生成的设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例4
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1所提供的模型生成的方法的步骤。
实施例5
如图4所示,本实施例的语义识别的方法包括以下步骤:
步骤201、执行实施例1所述的模型生成的方法;
步骤202、获取待识别的数据,对所述待识别的数据进行特征提取以得到对应的待识别的序列,所述待识别的序列包括特征提取后的特征;
步骤203、采用条件随机场预测算法对所述待识别序列进行标注,以得到所述待预测序列对应的所述标签。
本实施例中,所述条件随机场预测算法的实现算法采用维特比算法。标注预测包括用户输入信息的物品的中心词的预测,物品的品牌的预测,物品的修饰词的预测,询问范围预测和频道编号预测。
本实施例中,首先采用实施例1的模型生成的方法训练模型,具体为通过条件随机场学习算法对所述历史序列进行模型训练,以确定条件随机场模型的参数,然后采用条件随机场预测算法利用训练好的条件随机场模型对所述待识别序列进行标注,以得到所述待预测序列对应的所述标签。
本实施例改进了斯坦福CoreNLP语言模型,加入了物品词库和品牌词库,同时新增品牌专有特征及在特征模板中增加相应的匹配规则,为条件随机场算法的运用构造了比较好的训练集标注数据,提升了模型预测语义的准确度。本实施例提供的语义识别的方法相比于模板匹配的传统思路,更加的灵活且覆盖更多的用户,能够提升语音相关服务的用户体验和点击转化率。
实施例6
如图5所示,本实施例的一种语义识别的系统,包括:
模型训练模块,用于调用实施例2所述的模型生成的系统;
第二获取模块,用于获取待识别的数据,对所述待识别的数据进行特征提取以得到对应的待识别的序列,所述待识别的序列包括特征提取后的特征;
预测模块,用于采用条件随机场预测算法对所述待识别序列进行标注,以得到所述待预测序列对应的所述标签。
本实施例中,所述条件随机场预测算法的实现算法采用维特比算法。标注预测包括用户输入信息的物品的中心词的预测,物品的品牌的预测,物品的修饰词的预测,询问范围预测和频道编号预测。
本实施例中,首先采用实施例2的模型生成的系统训练模型,具体为通过条件随机场学习算法对所述历史序列进行模型训练,以确定条件随机场模型的参数,然后预测模块采用条件随机场预测算法利用训练好的条件随机场模型对所述待识别序列进行标注,以得到所述待预测序列对应的所述标签。
本实施例改进了斯坦福CoreNLP语言模型,加入了物品词库和品牌词库,同时新增品牌专有特征及在特征模板中增加相应的匹配规则,为条件随机场算法的运用构造了比较好的训练集标注数据,提升了模型预测语义的准确度。本实施例提供的语义识别的系统相比于模板匹配的传统思路,更加的灵活且覆盖更多的用户,能够提升语音相关服务的用户体验和点击转化率。
实施例7
本实施例提供了一种语义识别的设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例5所提供的语义识别的方法。
实施例8
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例5所提供的语义识别的方法的步骤。
下面继续通过具体的例子,进一步说明本发明的技术方案和技术效果。
本发明提出一种基于条件随机场改进的用户的语义识别的新的实现方式,能够用来提取用户输入内容的关键信息。具体可以应用在京东的语音助手项目中,本例子中的语音助手是指京东手机APP(应用程序)的一个频道,用户可以在这个频道以语音形式输入,语音助手会识别用户输入信息语义意图,并且给出相应的个性化推荐。语音助手的日志落到大数据Hive(一个数据仓库工具)表中,本例子用到的字段是该表中用户输入的内容,根据用户输入的内容识别用户的语义意图。具体应用时可以先使用正则匹配去除垃圾的没有信息含量的用户输入然后再进一步处理。
本例子的目的是识别用户输入信息的语义意图,用户语义意图由以下5个部分构成(1)物品名称,即物品的中心词,例子:“我想买手机”,物品的中心词为“手机”;(2)物品描述,即物品的修饰词,例子:“我想买玫瑰金手机”,物品描述为“玫瑰金”;(3)询问范围,例子:“我的购物车里有什么优惠”,询问范围为“购物车”;(4)物品的品牌,例子:“我买苹果手机”,物品的品牌为“苹果”;(5)频道编号,即京东的全站直达,例子:“我买秒杀里面的自拍杆”,频道编号为“秒杀”。为了确保模型的准确性,具体实施时采用以上5个标签标注1万条历史数据。
本例子中一部分历史数据标注是用斯坦福的自然语言处理工具CoreNLP模板匹配得到的,线上已经做成服务,工程通过HTTP(超文本传输协议)请求,爬虫得到用户语义的5个语义构成部分。比如用户输入“我要买伊利牛奶”,爬虫结果输出三列数据,第一列是用户输入信息分词,第二列是词性标注,第三列是语义标注标签。
本例子中训练数据由特征和标注后的标签组成,特征通过斯坦福CoreNLP工具得到,标签一部分由人工标注,另一部分是模板匹配得到。
本例子中标注预测包括用户输入信息的物品的中心词预测、品牌词预测、修饰词预测、询问范围预测和京东全站频道预测。比如用户输入“我要买粉色的小米手机”,预测结果是预测出“小米”是品牌,“手机”是物品的中心词。
本例子在算法层面,结合斯坦福CoreNLP自然语言处理工具和京东的物品词库及品牌词库,在斯坦福CoreNLP计算出分词、词性等特征后,加入京东特色的购物场景正则匹配模板,比较准确地提取了一部分标注,为条件随机场的应用做好基础准备,提升了模型预测语义的准确度;在业务层面,相比于模板匹配的传统思路,条件随机场灵活且覆盖更多的用户,提升了语音助手项目的用户体验和点击转化率。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (19)
1.一种模型生成的方法,其特征在于,包括以下步骤:
获取历史数据;
对每条所述历史数据进行特征提取及标注以得到对应的历史序列,每条所述历史序列包括特征提取后的特征和标注后的标签,所述标签包括物品的中心词、物品的修饰词、询问范围、物品的品牌及频道编号中的至少一种;
采用条件随机场学习算法对所述历史序列进行模型训练,以确定条件随机场模型的参数,所述参数包括迭代次数maxiter、步长stepsize和学习率learningrate。
2.如权利要求1所述的模型生成的方法,其特征在于,所述方法采用斯坦福CoreNLP对每条所述历史数据进行特征提取。
3.如权利要求2所述的模型生成的方法,其特征在于,所述特征包括分词特征、词性特征和品牌专有特征;
所述方法还包括预设品牌词库,所述品牌词库包括若干品牌;
所述采用斯坦福CoreNLP对每条所述历史数据进行特征提取包括:
采用斯坦福CoreNLP对每条所述历史数据进行分词以得到所述分词特征;
采用斯坦福CoreNLP对分词后的词语进行词性标注以得到所述词性特征;
根据分词后的词语是否为所述品牌词库中的品牌设置所述分词后的词语的所述品牌专有特征。
4.如权利要求3所述的模型生成的方法,其特征在于,所述方法还包括预设物品词库,所述方法采用斯坦福CoreNLP的正则匹配模板、所述物品词库及所述品牌词库对每条所述历史数据进行标注以得到所述标签。
5.如权利要求4所述的模型生成的方法,其特征在于,所述方法还包括设置所述条件随机场学习算法的特征模板,所述特征模板包括与所述品牌专有特征相对应的匹配规则。
6.如权利要求5所述的模型生成的方法,其特征在于,所述方法还包括利用N-gram模型调试所述特征模板。
7.如权利要求1至6任一项所述的模型生成的方法,其特征在于,所述条件随机场学习算法的优化实现算法采用拟牛顿法。
8.一种模型生成的系统,其特征在于,包括:
第一获取模块,用于获取历史数据;
处理模块,用于对每条所述历史数据进行特征提取及标注以得到对应的历史序列,每条所述历史序列包括特征提取后的特征和标注后的标签,所述标签包括物品的中心词、物品的修饰词、询问范围、物品的品牌及频道编号中的至少一种;
训练模块,用于采用条件随机场学习算法对所述历史序列进行模型训练,以确定条件随机场模型的参数,所述参数包括迭代次数maxiter、步长stepsize和学习率learningrate。
9.如权利要求8所述的模型生成的系统,其特征在于,所述处理模块采用斯坦福CoreNLP对每条所述历史数据进行特征提取。
10.如权利要求9所述的模型生成的系统,其特征在于,所述特征包括分词特征、词性特征和品牌专有特征;
所述系统还包括第一预设模块,所述第一预设模块用于预设品牌词库,所述品牌词库包括若干品牌;
所述处理模块采用斯坦福CoreNLP对每条所述历史数据进行特征提取包括:
所述处理模块采用斯坦福CoreNLP对每条所述历史数据进行分词以得到所述分词特征;
所述处理模块采用斯坦福CoreNLP对分词后的词语进行词性标注以得到所述词性特征;
所述处理模块根据分词后的词语是否为所述品牌词库中的品牌设置所述分词后的词语的所述品牌专有特征。
11.如权利要求10所述的模型生成的系统,其特征在于,所述系统还包括第二预设模块,所述第二预设模块用于预设物品词库,所述处理模块采用斯坦福CoreNLP的正则匹配模板、所述物品词库及所述品牌词库对每条所述历史数据进行标注以得到所述标签。
12.如权利要求11所述的模型生成的系统,其特征在于,所述系统还包括设置模块,所述设置模块用于设置所述条件随机场学习算法的特征模板,所述特征模板包括与所述品牌专有特征相对应的匹配规则。
13.如权利要求12所述的模型生成的系统,其特征在于,所述系统还包括调试模块,所述调试模块用于利用N-gram模型调试所述特征模板。
14.一种模型生成的设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7任一项所述的模型生成的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7任一项所述的模型生成的方法的步骤。
16.一种语义识别的方法,其特征在于,包括以下步骤:
执行权利要求1至7任一项所述的模型生成的方法;
获取待识别的数据,对所述待识别的数据进行特征提取以得到对应的待识别的序列,所述待识别的序列包括特征提取后的特征;
采用条件随机场预测算法对所述待识别序列进行标注,以得到所述待预测序列对应的所述标签。
17.一种语义识别的系统,其特征在于,包括:
模型训练模块,用于调用权利要求8至13任一项所述的模型生成的系统;
第二获取模块,用于获取待识别的数据,对所述待识别的数据进行特征提取以得到对应的待识别的序列,所述待识别的序列包括特征提取后的特征;
预测模块,用于采用条件随机场预测算法对所述待识别序列进行标注,以得到所述待预测序列对应的所述标签。
18.一种语义识别的设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求16所述的语义识别的方法。
19.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求16所述的语义识别的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810149170.4A CN110209831A (zh) | 2018-02-13 | 2018-02-13 | 模型生成、语义识别的方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810149170.4A CN110209831A (zh) | 2018-02-13 | 2018-02-13 | 模型生成、语义识别的方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110209831A true CN110209831A (zh) | 2019-09-06 |
Family
ID=67778585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810149170.4A Pending CN110209831A (zh) | 2018-02-13 | 2018-02-13 | 模型生成、语义识别的方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110209831A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688859A (zh) * | 2019-09-18 | 2020-01-14 | 平安科技(深圳)有限公司 | 基于机器学习的语义解析方法、装置、介质及电子设备 |
CN111613212A (zh) * | 2020-05-13 | 2020-09-01 | 携程旅游信息技术(上海)有限公司 | 语音识别方法、系统、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160239758A1 (en) * | 2015-02-17 | 2016-08-18 | Microsoft Technology Licensing, Llc | Training systems and methods for sequence taggers |
CN105930432A (zh) * | 2016-04-19 | 2016-09-07 | 北京百度网讯科技有限公司 | 序列标注工具的训练方法和装置 |
CN107133207A (zh) * | 2016-02-26 | 2017-09-05 | 阿里巴巴集团控股有限公司 | 一种信息提取方法及装置 |
CN107609192A (zh) * | 2017-10-12 | 2018-01-19 | 北京京东尚科信息技术有限公司 | 一种搜索引擎的补充搜索方法和装置 |
-
2018
- 2018-02-13 CN CN201810149170.4A patent/CN110209831A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160239758A1 (en) * | 2015-02-17 | 2016-08-18 | Microsoft Technology Licensing, Llc | Training systems and methods for sequence taggers |
CN107133207A (zh) * | 2016-02-26 | 2017-09-05 | 阿里巴巴集团控股有限公司 | 一种信息提取方法及装置 |
CN105930432A (zh) * | 2016-04-19 | 2016-09-07 | 北京百度网讯科技有限公司 | 序列标注工具的训练方法和装置 |
CN107609192A (zh) * | 2017-10-12 | 2018-01-19 | 北京京东尚科信息技术有限公司 | 一种搜索引擎的补充搜索方法和装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688859A (zh) * | 2019-09-18 | 2020-01-14 | 平安科技(深圳)有限公司 | 基于机器学习的语义解析方法、装置、介质及电子设备 |
CN111613212A (zh) * | 2020-05-13 | 2020-09-01 | 携程旅游信息技术(上海)有限公司 | 语音识别方法、系统、电子设备和存储介质 |
CN111613212B (zh) * | 2020-05-13 | 2023-10-31 | 携程旅游信息技术(上海)有限公司 | 语音识别方法、系统、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10909969B2 (en) | Generation of language understanding systems and methods | |
US10937413B2 (en) | Techniques for model training for voice features | |
KR102316063B1 (ko) | 오디오 중의 키 프레이즈를 인식하기 위한 방법과 장치, 기기 및 매체 | |
CN109284399B (zh) | 相似度预测模型训练方法、设备及计算机可读存储介质 | |
CN111708869B (zh) | 人机对话的处理方法及装置 | |
KR20200108775A (ko) | 트레이닝 말뭉치를 생성하는 방법, 장치, 기기 및 저장 매체 | |
CN104572072B (zh) | 一种对基于mvc模式的程序的语言转换方法与设备 | |
CN110866093A (zh) | 机器问答方法及装置 | |
US10854189B2 (en) | Techniques for model training for voice features | |
CN110119353B (zh) | 测试数据生成方法、装置以及控制器和介质 | |
CN110929094A (zh) | 一种视频标题处理方法和装置 | |
CN116127020A (zh) | 生成式大语言模型训练方法以及基于模型的搜索方法 | |
CN107102993A (zh) | 一种用户诉求分析方法和装置 | |
CN111292751A (zh) | 语义解析方法及装置、语音交互方法及装置、电子设备 | |
CN110738055A (zh) | 文本的实体识别方法、设备及存储介质 | |
CN111144118A (zh) | 口语化文本中命名实体的识别方法、系统、设备和介质 | |
CN112115252A (zh) | 智能辅助写作处理方法、装置、电子设备及存储介质 | |
CN110209831A (zh) | 模型生成、语义识别的方法、系统、设备及存储介质 | |
CN113220854B (zh) | 机器阅读理解的智能对话方法及装置 | |
CN117667979B (zh) | 基于大语言模型的数据挖掘方法、装置、设备及介质 | |
US20200159824A1 (en) | Dynamic Contextual Response Formulation | |
CN117573955A (zh) | 一种基于大语言能力的自动题解生成方法及装置 | |
CN106021631A (zh) | 交互式数字集成电路仿真验证方法、服务器、客户端及系统 | |
CN110826330B (zh) | 人名识别方法及装置、计算机设备及可读存储介质 | |
CN110895924B (zh) | 一种文档内容朗读方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190906 |