CN110532394A - 订单备注文本的处理方法及系统 - Google Patents
订单备注文本的处理方法及系统 Download PDFInfo
- Publication number
- CN110532394A CN110532394A CN201910857974.4A CN201910857974A CN110532394A CN 110532394 A CN110532394 A CN 110532394A CN 201910857974 A CN201910857974 A CN 201910857974A CN 110532394 A CN110532394 A CN 110532394A
- Authority
- CN
- China
- Prior art keywords
- remarks
- order
- clause
- label
- automated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000002372 labelling Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims description 74
- 230000007717 exclusion Effects 0.000 claims description 53
- 241001269238 Data Species 0.000 claims description 26
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 18
- 238000012937 correction Methods 0.000 description 8
- 230000001537 neural effect Effects 0.000 description 8
- 238000013519 translation Methods 0.000 description 7
- 230000000391 smoking effect Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 4
- 239000012141 concentrate Substances 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 239000000835 fiber Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012804 iterative process Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000001746 injection moulding Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种订单备注文本的处理方法及系统,该方法包括:将备注文本划分为若干个备注子句;备注子句分别输入无效备注模型,若输出的分类概率小于第一预设阈值则为有效备注子句;将有效备注子句依次输入若干个自动化标签模型,若含每个自动化标签分类概率的输出结果中无大于第二预设阈值的第一目标分类概率,则为非自动化备注子句;判断订单是否有非自动化备注子句,是为非自动化订单,否为自动化订单。本发明对用户订单的备注文本通过备注子句划分、是否无效备注、有效备注是否自动化标签等多层次处理,将订单分成自动和非自动,自动订单系统自动发单,非自动订单人工通道处理,极大地提高了订单备注文本处理的准确率,提高了响应速度。
Description
技术领域
本发明涉及计算机的订单自动处理领域,特别涉及一种订单备注的文本处理方法及系统。
背景技术
目前OTA(在线旅游)行业中,对于标注用户下单时输入的特殊需求的订单备注的处理方法,主要是基于人工和简单规则匹配,将备注文本包含的特殊需求打上标签进行分类,可自动化发单的备注进行自动化归类和直接发单,实现一定程度的自动化。在海外订单领域,再对标签进行对应的标准英文翻译,然后自动发送订单,减少人工翻译工作量。在对文本分类领域,常见的分类方法仅限传统的SVM(支持向量机)、LR(逻辑回归)、RNN(循环神经网络)等方法,该场景遇到的是短文本领域的分类问题;同时一个手输备注可能有多个需求多个标签的对应关系,简单的应用LSTM(长短期记忆网络,一种时间循环神经网络)于该领域无法满足需求。
发明内容
本发明要解决的技术问题是为了克服现有技术中的对订单的备注文本分类只单纯进行规则匹配和单个模型进行分类带来的准确率低、无法处理多个需求多个标签的对应关系的缺陷,提供一种订单备注的文本处理方法及系统。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供一种订单备注文本的处理方法,该方法包括以下步骤:
将订单的备注文本划分为若干个备注子句;
将所述若干个备注子句分别作为无效备注模型的输入,判断所述无效备注模型输出的分类概率是否大于第一预设阈值,若是,则确定所述备注子句为无效备注子句,若否,则确定所述备注子句为有效备注子句;
将所述有效备注子句依次作为若干个自动化标签模型的输入,获取每个自动化标签模型的输出结果,所述输出结果包括所述自动化标签模型预测出的每个自动化标签的分类概率;检测所有自动化标签模型的输出结果中是否存在大于第二预设阈值的第一目标分类概率,若是,则确定所述备注子句为自动化备注子句,若否,则确定所述备注子句为非自动化备注子句;
判断所述订单的所有备注子句是否有非自动化备注子句,若是,则确定所述订单为非自动化订单,若否,则确定所述订单为自动化订单。
较佳地,所述订单备注文本的处理方法还包括:为每个所述备注子句设置对应的标签集;
在确定所述备注子句为无效备注子句时,在对应的标签集中添加无效备注标签;
在将所述有效备注子句作为所述自动化标签模型的输入,判定所述自动化标签模型的输出结果中存在所述第一目标分类概率时,在所述有效备注子句的标签集中添加与所述第一目标分类概率相对应的自动化标签。
较佳地,所述订单备注文本的处理方法还包括:将所述非自动化备注子句依次作为若干个非自动化标签模型的输入,获取每个非自动化标签模型的输出结果,所述输出结果包括所述非自动化标签模型预测出的每个非自动化标签的分类概率;检测所述输出结果中是否存在大于第三预设阈值的第二目标分类概率,若是,则在对应的标签集中添加与所述第二目标分类概率相对应的非自动化标签。
较佳地,所述订单备注文本的处理方法还包括:将所述非自动化订单以及所述非自动化订单中每个备注子句的标签集发往人工处理通道,对所述自动化订单以及所述自动化订单的每个备注子句的标签集进行自动发单。
较佳地,所述订单备注文本的处理方法还包括:判断所述订单的国家属性是否为中国,若否,则确定所述订单为海外订单;
对所述海外订单的备注子句的标签集中的标签进行标准英文翻译得到英文标签,并将所述英文标签添加至所述备注子句的标签集。
较佳地,所述无效备注模型为注意力网格两分类LSTM模型,所述无效备注模型基于若干订单历史数据通过二分类的数据迭代方法训练而得;
所述自动化标签模型包括具有互斥自动化标签组的若干个自动化多分类LSTM模型和具有不互斥自动化标签的若干个自动化两分类LSTM模型,所述若干个自动化多分类LSTM模型使用互斥自动化标签基于若干订单历史数据通过多次二分类的数据迭代方法训练而得,所述若干个自动化两分类LSTM模型使用不互斥自动化标签基于若干订单历史数据通过二分类的数据迭代方法训练而得;
所述非自动化标签模型包括具有互斥非自动化标签组的若干个非自动化多分类LSTM模型和具有不互斥非自动化标签的若干个非自动化两分类LSTM模型,所述若干个多分类非自动化LSTM模型使用互斥非自动化标签基于若干订单历史数据通过多次二分类的数据迭代方法训练而得,所述若干个非自动化两分类LSTM模型使用不互斥非自动化标签基于若干订单历史数据通过二分类的数据迭代方法训练而得。
本发明还提供一种订单备注文本的处理系统,该处理系统包括:预处理模块、无效备注判断模块、自动化识别模块和整句判断模块;
所述预处理模块用于将订单的备注文本划分为若干个备注子句;
所述无效备注判断模块用于将所述若干个备注子句分别作为无效备注模型的输入,判断所述无效备注模型输出的分类概率是否大于第一预设阈值,若是,则确定所述备注子句为无效备注子句,若否,则确定所述备注子句为有效备注子句;
所述自动化识别模块用于将所述有效备注子句依次作为若干个自动化标签模型的输入,获取每个自动化标签模型的输出结果,所述输出结果包括所述自动化标签模型预测出的每个自动化标签的分类概率;所述自动化识别模块还用于检测所有自动化标签模型的输出结果中是否存在大于第二预设阈值的第一目标分类概率,若是,则确定所述备注子句为自动化备注子句,若否,则确定所述备注子句为非自动化备注子句;
所述整句判断模块用于判断所述订单的所有备注子句是否有非自动化备注子句,若是,则确定所述订单为非自动化订单,若否,则确定所述订单为自动化订单。
较佳地,所述订单备注文本的处理系统还包括标签标注模块,所述标签标注模块用于为每个所述备注子句设置对应的标签集;
所述标签标注模块还用于在确定所述备注子句为无效备注子句时,在对应的标签集中添加无效备注标签;
所述标签标注模块还用于在将所述有效备注子句作为所述自动化标签模型的输入,判定所述自动化标签模型的输出结果中存在所述第一目标分类概率时,在所述有效备注子句的标签集中添加与所述第一目标分类概率相对应的自动化标签。
较佳地,所述订单备注文本的处理系统还包括非自动化识别模块,所述非自动化识别模块用于将所述非自动化备注子句依次作为若干个非自动化标签模型的输入,获取每个非自动化标签模型的输出结果,所述输出结果包括所述非自动化标签模型预测出的每个非自动化标签的分类概率;所述非自动化识别模块还用于检测所述输出结果中是否存在大于第三预设阈值的第二目标分类概率,若是,则在对应的标签集中添加与所述第二目标分类概率相对应的非自动化标签。
较佳地,所述订单备注文本的处理系统还包括订单发送模块,所述订单发送模块用于将所述非自动化订单以及所述非自动化订单中每个备注子句的标签集发往人工处理通道,所述订单发送模块还用于对所述自动化订单以及所述自动化订单的每个备注子句的标签集进行自动发单。
较佳地,所述订单备注文本的处理系统还包括海外订单处理模块,所述海外订单处理模块用于判断所述订单的国家属性是否为中国,若否,则确定所述订单为海外订单;
所述海外订单处理模块还用于对所述海外订单的备注子句的标签集中的标签进行标准英文翻译得到英文标签,并将所述英文标签添加至所述备注子句的标签集。
较佳地,所述无效备注模型为注意力网格两分类LSTM模型,所述无效备注模型基于若干订单历史数据通过二分类的数据迭代方法训练而得;
所述自动化标签模型包括具有互斥自动化标签组的若干个自动化多分类LSTM模型和具有不互斥自动化标签的若干个自动化两分类LSTM模型,所述若干个自动化多分类LSTM模型使用互斥自动化标签基于若干订单历史数据通过多次二分类的数据迭代方法训练而得,所述若干个自动化两分类LSTM模型使用不互斥自动化标签基于若干订单历史数据通过二分类的数据迭代方法训练而得;
所述非自动化标签模型包括具有互斥非自动化标签组的若干个非自动化多分类LSTM模型和具有不互斥非自动化标签的若干个非自动化两分类LSTM模型,所述若干个非自动化多分类LSTM模型使用互斥非自动化标签基于若干订单历史数据通过多次二分类的数据迭代方法训练而得,所述若干个非自动化两分类LSTM模型使用不互斥非自动化标签基于若干订单历史数据通过二分类的数据迭代方法训练而得。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:对用户下单时手输的备注文本通过国内/海外订单划分、备注子句划分、是否有效备注判断、有效备注中含有的标签是否能自动化处理等多层次的综合处理,将备注文本分类成可自动处理的和不可自动处理的,可自动处理的备注文本对应的订单由系统自动发单,不可自动处理的备注文本对应的订单转人工通道处理,极大地提高了订单备注文本处理的准确率,节省OTA客服的操作人力,提高OTA平台下单的响应速度。
附图说明
图1为本发明实施例1的订单备注文本的处理方法的流程图。
图2为本发明实施例1的订单备注文本的处理方法的注意力网格LSTM模型的模型架构示意图。
图3为本发明实施例2的订单备注文本的处理方法的流程图。
图4为本发明实施例3的订单备注文本的处理系统的模块示意图。
图5为本发明实施例4的订单备注文本的处理系统的模块示意图。
具体实施方式
下面通过实施例的方式并结合附图来更清楚完整地说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供一种订单备注文本的处理方法。用户在OTA平台下单时,可能手动输入备注文本,来表达其希望达到的特殊需求,如“我想要大床房”、“要海景房”、“希望是无烟房”等,也有可能是表达感谢或当时心情等,如“谢谢啦”、“萌萌哒”、“好赞”等。前者是表达用户需求的有效备注信息,需要按照用户需求对订单进行后续处理的,后者不需要进行处理,可以划分为无效备注信息,是系统可以自动处理的。有效备注信息还分为可以自动处理的和需要人工处理的两类,如大床房、海景房、无烟房等标签在系统中可以自动匹配酒店房间进行分配,而婚房配置等标签需要酒店客服确认本酒店是否可以满足,即需要人工处理。如图1所示,订单备注文本的处理方法包括如下步骤:
S101、订单备注文本划分为若干个备注子句。
对用户在OTA平台下单的订单备注文本,统计字频、词频,使用非常见中英文字符替换掉特殊符号如表情等。然后根据中英文段落特殊标点符号将订单备注文本划分为若干个备注子句,其中中文段落特殊标点符号包括逗号、顿号、句号、感叹号、问号和空格等,英文中空格是词与词之间的间隔,不包括在英文的特殊标点符号之内。
S102、订单备注子句输入无效备注模型,判断是否为无效备注。
用户在OTA平台输入的备注文本拆分为多个备注子句之后,需要对每个子句进行无效备注识别,这需要通过无效备注模型来进行识别。无效备注模型进行识别分为两步:训练和预测。
无效备注模型的训练采用三年内用户下单时的订单备注历史数据,考虑在OTA领域,订单备注本身句子较短,国内订单备注文本的无效备注模型句子最大设计长度为40,海外订单备注的空格和字母情况,海外订单备注文本的无效备注模型句子最大设计长度为100。国内和海外订单备注均设计为字模型。
在无效备注识别的训练数据集中,将如“谢谢啦”、“萌萌哒”、“好赞”、“一定要注意一下”等样本归为无效备注样本即正样本,将“我想要大床房”、“要海景房”、“希望是无烟房”等样本归为有效备注样本即负样本。在真实生产场景中,正样本所占比例远小于负样本。因此考虑样本不均衡情况,结合真实生产场景,将样本正负样本比例定为1:20,以此构建注意力网格LSTM模型。
训练时,首先使用业务给定的标签标注训练数据集中的历史数据,然后使用图2所示的注意力网格LSTM模型架构做二分类的数据迭代方法进行训练。以子句“麻烦不要安排走廊两边的房间”为例,它的标签是“不要走廊尽头”;首先将订单备注历史数据将整句划分为多个子句,给属于该标签的子句设计为正样本,不属于该标签的子句设计为负样本,通过全量的订单备注历史数据训练出来的bert(基于变形转换的双向编码表征)字向量是一个2048维的字向量,将该子句的每个字转换为bert字向量;将该字向量送入到每个LSTM单元,在该网络的尾部将网络连接到正、负两个神经单元的全连接,全连接即上一层的所有单元有权重地连接到这两个神经单元,权重是计算出的每个字的注意力,如“麻”注意力为0.02,“烦”注意力为0.1,而“走”、“廊”的注意力分别为0.5、0.3,然后利用深度学习进行训练,选择合适的损失函数和学习率,得到一个损失下降比较好的模型之后,用该模型对所有测试集和刚放入训练的训练集进行模型预测和输出该子句的分类概率,将与实际标注结果不一致的样本以及分类概率在0.4~0.6的子句进行人工迭代纠错,再将纠错后的数据,重新训练建立模型,直到模型准确率达到一定程度。在数据迭代过程中,模型达到较好准确率后模型网络架构就保持不变了。
在预测阶段,订单备注拆分而成的若干个备注子句依次输入上述训练好的无效备注模型进行预测,无效备注模型分别输出每个备注子句的分类概率,判断无效备注模型输出的分类概率是否大于第一预设阈值,若是,则确定该备注子句为无效备注子句,若否,则确定该备注子句为有效备注子句。第一预设阈值取值越大,选取出来的数据越准确,为了兼顾召回率本实施例中取第一预设阈值为0.5,即当输出的分类概率大于0.5时代表输出为正类,该备注子句为无效备注子句;当输出的分类概率小于0.5时代表输出为负类,该备注子句为有效备注子句。
S103、有效备注子句输入若干个自动化标签模型,判断是否为自动化标签。
经过无效备注模型识别后的有效备注子句包含用户的特殊需求,下面需要判断这些有效备注子句是否能自动化处理,这通过若干个自动化标签模型来进行识别。
与无效备注模型相同,自动化标签模型也需要训练和预测两步来完成自动化标签的识别。自动化标签模型包括具有互斥自动化标签组的若干个自动化多分类LSTM模型和具有不互斥自动化标签的若干个自动化两分类LSTM模型。自动化标签是指有效备注中系统可以进行自动化处理的标签,如园景房、无烟房、不靠电梯的房等;非自动化标签是有效备注中系统不能自动处理、需要酒店客服根据酒店本身情况进行处理的标签,如婚房布置。使用不互斥的自动化标签分别建立单独的自动化两分类模型,使用互斥的自动化标签组建立多个自动化多分类模型,互斥的自动化标签组举例如下:
吸烟互斥:{无烟房、吸烟房、无烟楼层},
蜜月布置互斥:{蜜月布置(否)、蜜月布置}。
自动化两分类LSTM模型的训练过程与无效备注模型类似,使用包含标签的大量历史样本数据,通过二分类的数据迭代方法反复进行训练,以提高模型的准确度。
自动化多分类LSTM模型的训练以模型的多个标签分别进行训练,使用包含某个标签的大量历史样本数据,通过二分类的数据迭代方法反复训练模型,然后再使用包含下一个标签的大量历史样本数据,通过二分类的数据迭代方法反复训练模型,多次循环直到所有标签均训练完毕。
预测阶段,将有效备注子句依次输入前述训练好的具有互斥自动化标签组的若干个自动化多分类LSTM模型和具有不互斥自动化标签的若干个自动化两分类LSTM模型,获取每个自动化标签模型的输出结果,输出结果中包括自动化标签模型预测出的该模型包括的每个自动化标签的分类概率;检测所有自动化标签模型的输出结果中是否存在大于第二预设阈值的第一目标分类概率,若是则确定该备注子句为自动化备注子句,若否则确定该备注子句为非自动化备注子句。同样的,第二预设阈值取值越大,选取出来的数据越准确;本实施例中取第二预设阈值为0.5,因为LSTM模型输出的标签的分类概率之和恒为1,所以每个自动化标签模型的输出结果中只可能有一个标签的分类概率能大于0.5。在所有自动化标签模型的输出结果中选取值大于0.5的第一目标分类概率,若第一目标分类概率的个数大于0,则该备注子句为自动化备注子句;若第一目标分类概率的个数等于0,则该备注子句为非自动化备注子句。
S104、判断订单的备注子句是否有非自动化备注子句,若是则该订单为非自动化订单,若否则该订单为自动化订单。
一个订单有非自动备注子句,那么该订单就是非自动化订单,需要发往人工通道进行人工审核和后续处理。只有一个订单的所有备注子句均为无效备注子句或自动备注子句,该订单才是自动化订单,可以进行自动发单,自动发送到后台系统进行自动化处理,减少OTA客服处理的失误及错误,提升OTA平台下单的响应速度。
本实施例对用户下单时手输的备注文本通过备注子句划分、是否有效备注判断、有效备注中含有的标签是否能自动化处理等多层次的综合处理,将订单分类成自动化订单和非自动化订单,自动化订单可以进行自动发单,非自动化订单才发往人工通道进行处理,极大地提高了订单备注文本处理的准确率,节省了OTA客服的操作人力,提高了OTA平台下单的响应速度。
实施例2
本实施例是在实施例1的基础上,提供一种更完善的订单备注文本的处理方法,如图3所示,订单备注文本的处理方法包括如下步骤:
S201、订单划分为国内订单和海外订单。
OTA平台接收的订单包括国内和海外两类,根据订单的国家属性将订单划分为国内订单和海外订单。
S202、订单备注文本划分为若干个备注子句。
对国内、海外的用户在OTA平台下单的订单备注文本,统计字频、词频,使用非常见中英文字符替换掉特殊符号如表情等。然后根据中英文段落特殊标点符号将订单备注文本划分为若干个备注子句,其中中文段落特殊标点符号包括逗号、顿号、句号、感叹号、问号和空格等,英文中空格是词与词之间的间隔,不包括在英文的特殊标点符号之内。订单备注文本划分为多个备注子句时,为每个备注子句设置对应的标签集。
S203、订单备注子句输入无效备注模型,判断是否为无效备注。
用户在OTA平台输入的备注文本拆分为多个备注子句之后,需要对每个子句进行无效备注识别,这需要通过无效备注模型来进行识别。无效备注模型进行识别分为两步:训练和预测。
无效备注模型的训练采用三年内用户下单时的订单备注历史数据,考虑在OTA领域,订单备注本身句子较短,国内订单备注文本的无效备注模型句子最大设计长度为40,海外订单备注的空格和字母情况,海外订单备注文本的无效备注模型句子最大设计长度为100。国内和海外订单备注均设计为字模型。
在无效备注识别的训练数据集中,将如“谢谢啦”、“萌萌哒”、“好赞”、“一定要注意一下”等样本归为无效备注样本即正样本,将“我想要大床房”、“要海景房”、“希望是无烟房”等样本归为有效备注样本即负样本。在真实生产场景中,正样本所占比例远小于负样本。因此考虑样本不均衡情况,结合真实生产场景,将样本正负样本比例定为1:20,以此构建注意力网格LSTM模型。海外的无效备注模型的样本包括中文和英文的数据,以便于识别中英文混杂的海外订单备注文本,
训练时,首先使用业务给定的标签标注训练数据集中的历史数据,然后使用图2所示的注意力网格LSTM模型架构做二分类的数据迭代方法进行训练。以子句“麻烦不要安排走廊两边的房间”为例,它的标签是“不要走廊尽头”;首先将订单备注历史数据将整句划分为多个子句,给属于该标签的子句设计为正样本,不属于该标签的子句设计为负样本,通过全量的订单备注历史数据训练出来的bert(基于变压器的双向编码表征)字向量是一个2048维的字向量,将该子句的每个字转换为bert字向量;将该字向量送入到每个LSTM单元,在该网络的尾部将网络连接到正、负两个神经单元的全连接,全连接即上一层的所有单元有权重地连接到这两个神经单元,权重是计算出的每个字的注意力,如“麻”注意力为0.02,“烦”注意力为0.1,而“走”、“廊”的注意力分别为0.5、0.3,然后利用深度学习进行训练,选择合适的损失函数和学习率,得到一个损失下降比较好的模型之后,用该模型对所有测试集和刚放入训练的训练集进行模型预测和输出该子句的分类概率,将与实际标注结果不一致的样本以及分类概率在0.4~0.6的子句进行人工迭代纠错,再将纠错后的数据,重新训练建立模型,直到模型准确率达到一定程度。在数据迭代过程中,模型达到较好准确率后模型网络架构就保持不变了。
在预测阶段,订单备注拆分而成的多个备注子句依次输入上述训练好的无效备注模型进行预测,无效备注模型分别输出每个备注子句的分类概率,判断无效备注模型输出的分类概率是否大于第一预设阈值,若是,则确定该备注子句为无效备注子句,同时为该备注子句添加无效备注标签,若否,则确定该备注子句为有效备注子句。第一预设阈值取值越大,选取出来的数据越准确,为了兼顾召回率本实施例中取第一预设阈值为0.5,即当输出的分类概率大于0.5时代表输出为正类,该备注子句为无效备注子句,为该备注子句添加无效备注标签;当输出的分类概率小于0.5时代表输出为负类,该备注子句为有效备注子句。
另外,海外订单的备注子句的标签集还包括无效备注标签进行标准英文翻译得到的无效备注英文标签,在训练阶段的历史数据也要包括相应的英文备注子句。
S204、有效备注子句输入若干个自动化标签模型,判断是否为自动化标签。
经过无效备注模型识别后的有效备注子句包含用户的特殊需求,下面需要判断这些有效备注子句是否能自动化处理,这通过若干个自动化标签模型来进行识别。
与无效备注模型相同,自动化标签模型也需要训练和预测两步来完成自动化标签的识别。自动化标签模型包括具有互斥自动化标签组的若干个自动化多分类LSTM模型和具有不互斥自动化标签的若干个自动化两分类LSTM模型。自动化标签是指有效备注中系统可以进行自动化处理的标签,如园景房、无烟房、不靠电梯的房等;非自动化标签是有效备注中系统不能自动处理、需要酒店客服根据酒店本身情况进行处理的标签,如婚房布置。
自动化两分类LSTM模型的训练过程与无效备注模型类似,使用包含标签的大量历史样本数据,通过二分类的数据迭代方法反复进行训练,以提高模型的准确度。
自动化多分类LSTM模型的训练以模型的多个标签分别进行训练,使用包含某个标签的大量历史样本数据,通过二分类的数据迭代方法反复训练模型,然后再使用包含下一个标签的大量历史样本数据,通过二分类的数据迭代方法反复训练模型,多次循环直到所有标签均训练完毕。
预测阶段,将有效备注子句依次输入前述训练好的具有互斥自动化标签组的若干个自动化多分类LSTM模型和具有不互斥自动化标签的若干个自动化两分类LSTM模型,获取每个自动化标签模型的输出结果,输出结果中包括自动化标签模型预测出的该模型包括的每个自动化标签的分类概率;检测所有自动化标签模型的输出结果中是否存在大于第二预设阈值的第一目标分类概率,若是则确定该备注子句为自动化备注子句,在该备注子句的标签集中添加与第一目标分类概率相对应的自动化标签,若否则确定该备注子句为非自动化备注子句。同样的,第二预设阈值取值越大,选取出来的数据越准确;本实施例中取第二预设阈值为0.5,因为LSTM模型输出的标签的分类概率之和恒为1,所以每个自动化标签模型的输出结果中只可能有一个标签的分类概率能大于0.5。在所有自动化标签模型的输出结果中选取值大于0.5的第一目标分类概率,若第一目标分类概率的个数大于0,则该备注子句为自动化备注子句,将每个第一目标分类概率对应的自动化标签都加入到该有效备注子句的标签集中;若第一目标分类概率的个数等于0,则该备注子句为非自动化备注子句。
海外有效备注子句的自动化标签还包括自动化标签进行标准英文翻译得到的自动化英文标签,在训练阶段的历史数据也要包括相应的英文备注子句,海外有效备注子句经过判别后分为海外自动化备注子句和海外非自动化备注子句。
S205、非自动化备注子句输入若干个非自动化标签模型,识别非自动化标签。
非自动化备注子句虽然是进入人工通道进行处理,但是如果能给每个非自动化备注子句打上非自动化标签,将有助于OTA客服人员快速识别备注的关键信息,加快处理进度。识别非自动化备注子句包含的非自动化标签,通过若干个非自动化标签模型来完成。与自动化标签模型相同,非自动化标签模型也需要训练和预测两步来完成非自动化标签的识别。非自动化标签模型的训练和识别过程均与自动化标签模型相同,只是标签的差异,此处省略了具体的训练和识别过程。
将非自动化备注子句依次作为若干个非自动化标签模型的输入,获取每个非自动化标签模型的输出结果,该输出结果包括非自动化标签模型预测出的每个非自动化标签的分类概率;检测输出结果中是否存在大于第三预设阈值的第二目标分类概率,若是,则在对应的标签集中添加与所述第二目标分类概率相对应的非自动化标签。本实施例中第三预设阈值同样取值0.5,将每个非自动化标签模型输出结果中分类概率大于0.5的作为第二目标分类概率,若存在第二目标分类概率则将该分类概率对应的标签添加进该备注子句的标签集中。
备注子句经过非自动化标签模型识别出其所属的非自动化标签,并随同非自动化备注子句一起发往人工通道,可以帮助OTA客服人员快速识别客户的需求,提高处理效率。
同样的,海外非自动化备注子句的标签集还包括非自动化标签进行标准英文翻译得到的非自动化英文标签,在训练阶段的历史数据也要包括相应的英文备注子句。
S206、判断订单的备注子句是否有非自动化备注子句,若是则该订单为非自动化订单,发往人工通道进行人工审核;若否则该订单为自动化订单,进行自动发单。
一个订单有非自动备注子句,那么该订单就是非自动化订单,需要和其非自动化标签一起发往人工通道进行人工审核和后续处理。只有一个订单的所有备注子句均为无效备注子句或自动备注子句,该订单才是自动化订单,可以与该订单的无效备注标签或自动化标签一起进行自动发单,自动发送到后台系统进行自动化处理,减少OTA客服处理的失误及错误,节省OTA客服操作人力,提升OTA平台下单的响应速度;需注意海外订单自动发单前还需要进行步骤S207。
S207、判断订单是否为海外订单,若是则进行标准英文翻译后再自动发单。
海外订单及其标签集需要分别发送给酒店和后台系统,所以还需要进行标准英文翻译,将其中的中文标签翻译为英文,英文标签翻译为中文,然后中文标签和订单发送给后台系统,英文标签和订单发送给酒店。
以下举一实例进行详细说明。如某英国客户在下单时手输备注“please arrangeking size bed with good view,please provide room without smoking请在20日下午3点安排接机”,则首先根据订单的国家属性将本订单划分为海外订单。
第二步,对备注文本进行预处理,利用英文中的逗号和中文的空格将备注文本划分为3个子句:
子句1:please arrange king size bed with lake view;
子句2:please provide room without smoking;
子句3:请在20日下午3点安排接机。
第三步,调用训练好的海外无效备注模型,对三个备注子句做文本预测。此处三个备注子句均包含有效信息,海外无效备注模型输出均为负类样本,即三者均为有效备注子句。
第四步,调用训练好的海外自动化标签模型,依次将三个备注子句输入进行预测。其中备注子句1的标签集将加入自动化标签king size bed和lake view,备注子句2的标签集将加入自动化标签no smoking,因为接机服务不属于自动化标签,所以备注子句3无法通过自动化标签模型加入标签,其属于非自动化备注子句,相应的该订单也属于非自动化海外订单。
第五步,调用训练好的海外非自动化标签模型,将备注子句3输入进行预测,可为备注子句3的标签集加入非自动化标签接送服务。
第六步,将海外订单的三个备注子句的标签集中的标签分别进行标准英文翻译,king size bed对应的中文翻译大床房、good view对应的中文翻译湖景房、no smoking对应的中文翻译无烟房、接送服务对应的英文翻译transfer service,然后将海外订单和中文标签发送到后台系统,海外订单和英文标签发送到对应的酒店的客服进行处理。
本实施例对用户下单时手输的备注文本通过国内/海外订单划分、备注子句划分、是否有效备注判断、有效备注中含有的标签是否能自动化处理这样多层次的综合处理,将备注文本分类成可自动处理的和不可自动处理的,可自动处理的备注文本对应的订单由系统自动发单,不可自动处理的备注文本对应的订单转人工通道处理,极大地提高了订单备注文本处理的准确率,节省了OTA客服的操作人力,提高了OTA平台下单的响应速度。
实施例3
本实施例提供一种订单备注文本的处理系统,如图4所示,该处理系统包括预处理模块1、无效备注判断模块2、自动化识别模块3和整句判断模块4。用户在OTA平台下单时,可能手动输入备注文本,来表达其希望达到的特殊需求,本订单备注文本的处理系统通过上述各模块的配合,通过用户手输的备注文本将订单分类为自动订单和非自动订单。
预处理模块1用于将订单的备注文本划分为若干个备注子句。使用非常见中英文字符替换掉特殊符号如表情等,然后根据中英文段落特殊标点符号将订单备注文本划分为多个备注子句,其中中文段落特殊标点符号包括逗号、顿号、句号、感叹号、问号和空格等,英文中空格是词与词之间的间隔,不包括在英文的特殊标点符号之内。
无效备注判断模块2用于将若干个备注子句分别作为无效备注模型的输入,判断无效备注模型输出的分类概率是否大于第一预设阈值,若是,则确定该备注子句为无效备注子句,若否,则确定该备注子句为有效备注子句。
通过无效备注模型进行识别需分为两步:训练和预测。训练时,首先使用业务给定的标签标注训练数据集中的历史数据,然后使用图2所示的注意力网格LSTM模型架构做二分类的数据迭代方法进行训练。以子句“麻烦不要安排走廊两边的房间”为例,它的标签是“不要走廊尽头”;首先将订单备注历史数据将整句划分为多个子句,给属于该标签的子句设计为正样本,不属于该标签的子句设计为负样本,通过全量的订单备注历史数据训练出来的bert(基于变压器的双向编码表征)字向量是一个2048维的字向量,将该子句的每个字转换为bert字向量;将该字向量送入到每个LSTM单元,在该网络的尾部将网络连接到正、负两个神经单元的全连接,全连接即上一层的所有单元有权重地连接到这两个神经单元,权重是计算出的每个字的注意力,如“麻”注意力为0.02,“烦”注意力为0.1,而“走”、“廊”的注意力分别为0.5、0.3,然后利用深度学习进行训练,选择合适的损失函数和学习率,得到一个损失下降比较好的模型之后,用该模型对所有测试集和刚放入训练的训练集进行模型预测和输出该子句的分类概率,将与实际标注结果不一致的样本以及分类概率在0.4~0.6的子句进行人工迭代纠错,再将纠错后的数据,重新训练建立模型,直到模型准确率达到一定程度。在数据迭代过程中,模型达到较好准确率后模型网络架构就保持不变了。
在预测阶段,无效备注判断模块2将订单备注拆分而成的若干个备注子句依次输入上述训练好的无效备注模型进行预测,无效备注模型分别输出每个备注子句的分类概率,无效备注判断模块2判断无效备注模型输出的分类概率是否大于第一预设阈值,若是,则确定所述备注子句为无效备注子句,若否,则确定所述备注子句为有效备注子句。第一预设阈值取值越大,选取出来的数据越准确,为了兼顾召回率本实施例中取第一预设阈值为0.5,即当输出的分类概率大于0.5时代表输出为正类,该备注子句为无效备注子句;当输出的分类概率小于0.5时代表输出为负类,该备注子句为有效备注子句。
自动化识别模块3用于将有效备注子句依次作为若干个自动化标签模型的输入,获取每个自动化标签模型的输出结果,输出结果中包括所述自动化标签模型预测出的每个自动化标签的分类概率;自动化识别模块3还用于检测所有自动化标签模型的输出结果中是否存在大于第二预设阈值的第一目标分类概率,若是,则确定该备注子句为自动化备注子句,若否则确定该备注子句为非自动化备注子句。
与无效备注模型相同,自动化标签模型也需要训练和预测两步来完成自动化标签的识别。自动化标签模型包括具有互斥自动化标签组的若干个自动化多分类LSTM模型和具有不互斥自动化标签的若干个自动化两分类LSTM模型。自动化标签是指有效备注中系统可以进行自动化处理的标签,如园景房、无烟房、不靠电梯的房等;非自动化标签是有效备注中系统不能自动处理、需要酒店客服根据酒店本身情况进行处理的标签,如婚房布置。
自动化两分类LSTM模型的训练过程与无效备注模型类似,使用包含标签的大量历史样本数据,通过二分类的数据迭代方法反复进行训练,以提高模型的准确度。
自动化多分类LSTM模型的训练以模型的多个标签分别进行训练,使用包含某个标签的大量历史样本数据,通过二分类的数据迭代方法反复训练模型,然后再使用包含下一个标签的大量历史样本数据,通过二分类的数据迭代方法反复训练模型,多次循环直到所有标签均训练完毕。
预测阶段,自动化识别模块3将有效备注子句依次输入前述训练好的具有互斥自动化标签组的若干个自动化多分类LSTM模型和具有不互斥自动化标签的若干个两分类LSTM模型,获取每个自动化标签模型的输出结果,输出结果中包括自动化标签模型预测出的该模型包括的每个自动化标签的分类概率;自动化识别模块3检测所有自动化标签模型的输出结果中是否存在大于第二预设阈值的第一目标分类概率,若是,则确定该备注子句为自动化备注子句,若否则确定该备注子句为非自动化备注子句。同样的,第二预设阈值取值越大,选取出来的数据越准确;本实施例中取第二预设阈值为0.5,因为LSTM模型输出的标签的分类概率之和恒为1,所以每个自动化标签模型的输出结果中只可能有一个标签的分类概率能大于0.5。在所有自动化标签模型的输出结果中选取值大于0.5的第一目标分类概率,若第一目标分类概率的个数大于0,则该备注子句为自动化备注子句;若第一目标分类概率的个数等于0,则该备注子句为非自动化备注子句。
整句判断模块4用于判断订单的所有备注子句是否有非自动化备注子句,若是,则确定该订单为非自动化订单,若否则确定该订单为自动化订单。
在完成备注子句划分、备注子句有效无效划分、自动化标签识别和非自动化标签识别后,整句判断模块4判断一个订单的所有备注子句是否有非自动化备注子句,一个订单有非自动备注子句,那么该订单就是非自动化订单,需要发送到人工通道进行处理;只有一个订单的所有备注子句均为无效备注子句或自动备注子句,该订单才是自动化订单,可以进行自动发单,自动发送到后台系统进行自动化处理,减少OTA客服处理的失误及错误,提升OTA平台下单的响应速度。
本实施例对用户下单时手输的备注文本通过备注子句划分、是否有效备注判断、有效备注中含有的标签是否能自动化处理等多层次的综合处理,将订单分类成自动化订单和非自动化订单,自动化订单可以进行自动发单,非自动化订单才发往人工通道进行处理,极大地提高了订单备注文本处理的准确率,节省了OTA客服的操作人力,提高了OTA平台下单的响应速度。
实施例4
本实施例提供一种订单备注文本的处理系统,如图5所示,该处理系统包括预处理模块1、无效备注判断模块2、自动化识别模块3、整句判断模块4、标签标注模块5、非自动化识别模块6、订单发送模块7和海外订单处理模块8。用户在OTA平台下单时,可能手动输入备注文本,来表达其希望达到的特殊需求,本订单备注文本的处理系统通过上述各模块的配合,将用户手输的备注文本分类为可自动处理的和不可自动处理的,可自动处理的备注文本对应的订单由系统自动发单,不可自动处理的备注文本对应的订单转人工通道处理。
海外订单处理模块8用于判断订单的国家属性是否为中国,若否,则确定订单为海外订单。OTA平台接收的订单包括国内和海外两类,根据订单的国家属性是否为中国可将订单划分为国内订单和海外订单。
预处理模块1用于将订单的备注文本划分为若干个备注子句。使用非常见中英文字符替换掉特殊符号如表情等,然后根据中英文段落特殊标点符号将订单备注文本划分为多个备注子句,其中中文段落特殊标点符号包括逗号、顿号、句号、感叹号、问号和空格等,英文中空格是词与词之间的间隔,不包括在英文的特殊标点符号之内。预处理模块1将订单的备注文本划分为若干个备注子句时,标签标注模块5为每个备注子句设置对应的标签集。
无效备注判断模块2用于将若干个备注子句分别作为无效备注模型的输入,判断无效备注模型输出的分类概率是否大于第一预设阈值,若是,则确定该备注子句为无效备注子句,若否,则确定该备注子句为有效备注子句。
通过无效备注模型进行识别需分为两步:训练和预测。训练时,首先使用业务给定的标签标注训练数据集中的历史数据,然后使用图2所示的注意力网格LSTM模型架构做二分类的数据迭代方法进行训练。以子句“麻烦不要安排走廊两边的房间”为例,它的标签是“不要走廊尽头”;首先将订单备注历史数据将整句划分为多个子句,给属于该标签的子句设计为正样本,不属于该标签的子句设计为负样本,通过全量的订单备注历史数据训练出来的bert(基于变压器的双向编码表征)字向量是一个2048维的字向量,将该子句的每个字转换为bert字向量;将该字向量送入到每个LSTM单元,在该网络的尾部将网络连接到正、负两个神经单元的全连接,全连接即上一层的所有单元有权重地连接到这两个神经单元,权重是计算出的每个字的注意力,如“麻”注意力为0.02,“烦”注意力为0.1,而“走”、“廊”的注意力分别为0.5、0.3,然后利用深度学习进行训练,选择合适的损失函数和学习率,得到一个损失下降比较好的模型之后,用该模型对所有测试集和刚放入训练的训练集进行模型预测和输出该子句的分类概率,将与实际标注结果不一致的样本以及分类概率在0.4~0.6的子句进行人工迭代纠错,再将纠错后的数据,重新训练建立模型,直到模型准确率达到一定程度。在数据迭代过程中,模型达到较好准确率后模型网络架构就保持不变了。
在预测阶段,无效备注判断模块2将订单备注拆分而成的多个备注子句依次输入上述训练好的无效备注模型进行预测,无效备注模型分别输出每个备注子句的分类概率,无效备注判断模块2判断无效备注模型输出的分类概率是否大于第一预设阈值,若是,则确定所述备注子句为无效备注子句,同时标签标注模块5为该备注子句添加无效备注标签,若否,则确定所述备注子句为有效备注子句。第一预设阈值取值越大,选取出来的数据越准确,为了兼顾召回率本实施例中取第一预设阈值为0.5,即当输出的分类概率大于0.5时代表输出为正类,该备注子句为无效备注子句;当输出的分类概率小于0.5时代表输出为负类,该备注子句为有效备注子句。在确定备注子句为无效备注子句时,标签标注模块5在该子句对应的标签集中添加无效备注标签。
自动化识别模块3用于将有效备注子句依次作为若干个自动化标签模型的输入,获取每个自动化标签模型的输出结果,输出结果中包括所述自动化标签模型预测出的每个自动化标签的分类概率;自动化识别模块3还用于检测所有自动化标签模型的输出结果中是否存在大于第二预设阈值的第一目标分类概率,若是,则确定该备注子句为自动化备注子句,同时标签标注模块5在该备注子句的标签集中添加与第一目标分类概率相对应的自动化标签,若否则确定该备注子句为非自动化备注子句。
与无效备注模型相同,自动化标签模型也需要训练和预测两步来完成自动化标签的识别。自动化标签模型包括具有互斥自动化标签组的若干个自动化多分类LSTM模型和具有不互斥自动化标签的若干个自动化两分类LSTM模型。自动化标签是指有效备注中系统可以进行自动化处理的标签,如园景房、无烟房、不靠电梯的房等;非自动化标签是有效备注中系统不能自动处理、需要酒店客服根据酒店本身情况进行处理的标签,如婚房布置。
自动化两分类LSTM模型的训练过程与无效备注模型类似,使用包含标签的大量历史样本数据,通过二分类的数据迭代方法反复进行训练,以提高模型的准确度。
自动化多分类LSTM模型的训练以模型的多个标签分别进行训练,使用包含某个标签的大量历史样本数据,通过二分类的数据迭代方法反复训练模型,然后再使用包含下一个标签的大量历史样本数据,通过二分类的数据迭代方法反复训练模型,多次循环直到所有标签均训练完毕。
预测阶段,自动化识别模块3将有效备注子句依次输入前述训练好的具有互斥自动化标签组的若干个自动化多分类LSTM模型和具有不互斥自动化标签的若干个两分类LSTM模型,获取每个自动化标签模型的输出结果,输出结果中包括自动化标签模型预测出的该模型包括的每个自动化标签的分类概率;自动化识别模块3检测所有自动化标签模型的输出结果中是否存在大于第二预设阈值的第一目标分类概率,若是,则确定该备注子句为自动化备注子句,标签标注模块5在该备注子句的标签集中添加与第一目标分类概率相对应的自动化标签,若否则确定该备注子句为非自动化备注子句。同样的,第二预设阈值取值越大,选取出来的数据越准确;本实施例中取第二预设阈值为0.5,因为LSTM模型输出的标签的分类概率之和恒为1,所以每个自动化标签模型的输出结果中只可能有一个标签的分类概率能大于0.5。在所有自动化标签模型的输出结果中选取值大于0.5的第一目标分类概率,若第一目标分类概率的个数大于0,则该备注子句为自动化备注子句,标签标注模块5在该备注子句的标签集中添加与第一目标分类概率相对应的自动化标签;若第一目标分类概率的个数等于0,则该备注子句为非自动化备注子句。
非自动化识别模块6用于将非自动化备注子句依次作为若干个非自动化标签模型的输入,获取每个非自动化标签模型的输出结果,输出结果中包括非自动化标签模型预测出的每个非自动化标签的分类概率;非自动化识别模块6还用于检测述输出结果中是否存在大于第三预设阈值的第二目标分类概率,若是,则标签标注模块5在对应的标签集中添加与第二目标分类概率相对应的非自动化标签。
与自动化标签模型相同,非自动化标签模型也需要训练和预测两步来完成非自动化标签的识别。非自动化标签模型的训练过程与自动化标签模型相同,只是标签的差异,此处省略了具体的训练过程。
非自动化识别模块6将非自动化备注子句依次作为若干个非自动化标签模型的输入,获取每个非自动化标签模型的输出结果,该输出结果包括所述非自动化标签模型预测出的每个非自动化标签的分类概率;非自动化识别模块6检测输出结果中是否存在大于第三预设阈值的第二目标分类概率,若是,则标签标注模块5在对应的标签集中添加与所述第二目标分类概率相对应的非自动化标签。本实施例中第三预设阈值同样取值0.5,将每个非自动化标签模型输出结果中分类概率大于0.5的作为第二目标分类概率,若存在第二目标分类概率则将该分类概率对应的标签添加进该备注子句的标签集中。
整句判断模块4用于判断订单的所有备注子句是否有非自动化备注子句,若是,则确定该订单为非自动化订单,若否则确定该订单为自动化订单。
在完成备注子句的有效无效划分、自动化标签识别和非自动化标签识别后,整句判断模块4判断一个订单的所有备注子句是否有非自动化备注子句,一个订单有非自动备注子句,那么该订单就是非自动化订单;只有一个订单的所有备注子句均为无效备注子句或自动备注子句,该订单才是自动化订单。
订单发送模块7用于将非自动化订单以及非自动化订单中每个备注子句的标签集发往人工处理通道,订单发送模块7还用于对自动化订单以及自动化订单的每个备注子句的标签集进行自动发单。
在将订单划分为自动化订单和非自动化订单后,订单发送模块7将非自动化订单和它所有备注子句的标签集中的标签发往人工通道进行人工审核和后续处理;订单发送模块7将自动化订单和该订单的无效备注标签或自动化标签一起进行自动发单,自动发送到后台系统进行自动化处理,减少OTA客服处理的失误及错误,节省OTA客服操作人力,提升OTA平台下单的响应速度。
发送海外订单时,海外订单处理模块8还用于对海外订单的备注子句的标签集中的标签进行标准英文翻译得到对应的英文标签或中文标签,并将翻译得到的英文标签或中文标签添加至备注子句的标签集,在发送订单时将每个标签的中文标签和相对应的英文标签都一起发送。
本实施例对用户下单时手输的备注文本通过国内/海外订单划分、备注子句划分、是否有效备注判断、有效备注中含有的标签是否能自动化处理这样多层次的综合处理,将备注文本分类成可自动处理的和不可自动处理的,可自动处理的备注文本对应的订单由系统自动发单,不可自动处理的备注文本对应的订单转人工通道处理,极大地提高了订单备注文本处理的准确率,节省了OTA客服的操作人力,提高了OTA平台下单的响应速度。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (12)
1.一种订单备注文本的处理方法,其特征在于,所述订单备注文本的处理方法包括以下步骤:
将订单的备注文本划分为若干个备注子句;
将所述若干个备注子句分别作为无效备注模型的输入,判断所述无效备注模型输出的分类概率是否大于第一预设阈值,若是,则确定所述备注子句为无效备注子句,若否,则确定所述备注子句为有效备注子句;
将所述有效备注子句依次作为若干个自动化标签模型的输入,获取每个自动化标签模型的输出结果,所述输出结果包括所述自动化标签模型预测出的每个自动化标签的分类概率;检测所有自动化标签模型的输出结果中是否存在大于第二预设阈值的第一目标分类概率,若是,则确定所述备注子句为自动化备注子句,若否,则确定所述备注子句为非自动化备注子句;
判断所述订单的所有备注子句是否有非自动化备注子句,若是,则确定所述订单为非自动化订单,若否,则确定所述订单为自动化订单。
2.如权利要求1所述的订单备注文本的处理方法,其特征在于,所述订单备注文本的处理方法还包括:为每个所述备注子句设置对应的标签集;
在确定所述备注子句为无效备注子句时,在对应的标签集中添加无效备注标签;
在将所述有效备注子句作为所述自动化标签模型的输入,判定所述自动化标签模型的输出结果中存在所述第一目标分类概率时,在所述有效备注子句的标签集中添加与所述第一目标分类概率相对应的自动化标签。
3.如权利要求2所述的订单备注文本的处理方法,其特征在于,所述订单备注文本的处理方法还包括:将所述非自动化备注子句依次作为若干个非自动化标签模型的输入,获取每个非自动化标签模型的输出结果,所述输出结果包括所述非自动化标签模型预测出的每个非自动化标签的分类概率;检测所述输出结果中是否存在大于第三预设阈值的第二目标分类概率,若是,则在对应的标签集中添加与所述第二目标分类概率相对应的非自动化标签。
4.如权利要求3所述的订单备注文本的处理方法,其特征在于,所述订单备注文本的处理方法还包括:将所述非自动化订单以及所述非自动化订单中每个备注子句的标签集发往人工处理通道,对所述自动化订单以及所述自动化订单的每个备注子句的标签集进行自动发单。
5.如权利要求4所述的订单备注文本的处理方法,其特征在于,所述订单备注文本的处理方法还包括:判断所述订单的国家属性是否为中国,若否,则确定所述订单为海外订单;
对所述海外订单的备注子句的标签集中的标签进行标准英文翻译得到英文标签,并将所述英文标签添加至所述备注子句的标签集。
6.如权利要求3所述的订单备注文本的处理方法,其特征在于,所述无效备注模型为注意力网格两分类LSTM模型,所述无效备注模型基于若干订单历史数据通过二分类的数据迭代方法训练而得;
所述自动化标签模型包括具有互斥自动化标签组的若干个自动化多分类LSTM模型和具有不互斥自动化标签的若干个自动化两分类LSTM模型,所述若干个自动化多分类LSTM模型使用互斥自动化标签基于若干订单历史数据通过多次二分类的数据迭代方法训练而得,所述若干个自动化两分类LSTM模型使用不互斥自动化标签基于若干订单历史数据通过二分类的数据迭代方法训练而得;
所述非自动化标签模型包括具有互斥非自动化标签组的若干个非自动化多分类LSTM模型和具有不互斥非自动化标签的若干个非自动化两分类LSTM模型,所述若干个非自动化多分类LSTM模型使用互斥非自动化标签基于若干订单历史数据通过多次二分类的数据迭代方法训练而得,所述若干个非自动化两分类LSTM模型使用不互斥非自动化标签基于若干订单历史数据通过二分类的数据迭代方法训练而得。
7.一种订单备注文本的处理系统,其特征在于,所述订单备注文本的处理系统包括:预处理模块、无效备注判断模块、自动化识别模块和整句判断模块;
所述预处理模块用于将订单的备注文本划分为若干个备注子句;
所述无效备注判断模块用于将所述若干个备注子句分别作为无效备注模型的输入,判断所述无效备注模型输出的分类概率是否大于第一预设阈值,若是,则确定所述备注子句为无效备注子句,若否,则确定所述备注子句为有效备注子句;
所述自动化识别模块用于将所述有效备注子句依次作为若干个自动化标签模型的输入,获取每个自动化标签模型的输出结果,所述输出结果包括所述自动化标签模型预测出的每个自动化标签的分类概率;所述自动化识别模块还用于检测所有自动化标签模型的输出结果中是否存在大于第二预设阈值的第一目标分类概率,若是,则确定所述备注子句为自动化备注子句,若否,则确定所述备注子句为非自动化备注子句;
所述整句判断模块用于判断所述订单的所有备注子句是否有非自动化备注子句,若是,则确定所述订单为非自动化订单,若否,则确定所述订单为自动化订单。
8.如权利要求7所述的订单备注文本的处理系统,其特征在于,所述订单备注文本的处理系统还包括标签标注模块,所述标签标注模块用于为每个所述备注子句设置对应的标签集;
所述标签标注模块还用于在确定所述备注子句为无效备注子句时,在对应的标签集中添加无效备注标签;
所述标签标注模块还用于在将所述有效备注子句作为所述自动化标签模型的输入,判定所述自动化标签模型的输出结果中存在所述第一目标分类概率时,在所述有效备注子句的标签集中添加与所述第一目标分类概率相对应的自动化标签。
9.如权利要求8所述的订单备注文本的处理系统,其特征在于,所述订单备注文本的处理系统还包括非自动化识别模块,所述非自动化识别模块用于将所述非自动化备注子句依次作为若干个非自动化标签模型的输入,获取每个非自动化标签模型的输出结果,所述输出结果包括所述非自动化标签模型预测出的每个非自动化标签的分类概率;所述非自动化识别模块还用于检测所述输出结果中是否存在大于第三预设阈值的第二目标分类概率,若是,则在对应的标签集中添加与所述第二目标分类概率相对应的非自动化标签。
10.如权利要求9所述的订单备注文本的处理系统,其特征在于,所述订单备注文本的处理系统还包括订单发送模块,所述订单发送模块用于将所述非自动化订单以及所述非自动化订单中每个备注子句的标签集发往人工处理通道,所述订单发送模块还用于对所述自动化订单以及所述自动化订单的每个备注子句的标签集进行自动发单。
11.如权利要求10所述的订单备注文本的处理系统,其特征在于,所述订单备注文本的处理系统还包括海外订单处理模块,所述海外订单处理模块用于判断所述订单的国家属性是否为中国,若否,则确定所述订单为海外订单;
所述海外订单处理模块还用于对所述海外订单的备注子句的标签集中的标签进行标准英文翻译得到英文标签,并将所述英文标签添加至所述备注子句的标签集。
12.如权利要求9所述的订单备注文本的处理系统,其特征在于,所述无效备注模型为注意力网格两分类LSTM模型,所述无效备注模型基于若干订单历史数据通过二分类的数据迭代方法训练而得;
所述自动化标签模型包括具有互斥自动化标签组的若干个自动化多分类LSTM模型和具有不互斥自动化标签的若干个自动化两分类LSTM模型,所述若干个自动化多分类LSTM模型使用互斥自动化标签基于若干订单历史数据通过多次二分类的数据迭代方法训练而得,所述若干个自动化两分类LSTM模型使用不互斥自动化标签基于若干订单历史数据通过二分类的数据迭代方法训练而得;
所述非自动化标签模型包括具有互斥非自动化标签组的若干个非自动化多分类LSTM模型和具有不互斥非自动化标签的若干个非自动化两分类LSTM模型,所述若干个非自动化多分类LSTM模型使用互斥非自动化标签基于若干订单历史数据通过多次二分类的数据迭代方法训练而得,所述若干个非自动化两分类LSTM模型使用不互斥非自动化标签基于若干订单历史数据通过二分类的数据迭代方法训练而得。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910857974.4A CN110532394B (zh) | 2019-09-11 | 2019-09-11 | 订单备注文本的处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910857974.4A CN110532394B (zh) | 2019-09-11 | 2019-09-11 | 订单备注文本的处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110532394A true CN110532394A (zh) | 2019-12-03 |
CN110532394B CN110532394B (zh) | 2023-04-07 |
Family
ID=68668401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910857974.4A Active CN110532394B (zh) | 2019-09-11 | 2019-09-11 | 订单备注文本的处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110532394B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111882379A (zh) * | 2020-06-29 | 2020-11-03 | 南京意博软件科技有限公司 | 一种基于邮件的订单确认方法和装置 |
CN113724037A (zh) * | 2021-08-02 | 2021-11-30 | 深圳依时货拉拉科技有限公司 | 非正常订单处理方法、装置、存储介质和计算机设备 |
CN113987189A (zh) * | 2021-11-11 | 2022-01-28 | 深圳依时货拉拉科技有限公司 | 订单备注标签确定方法、装置、存储介质和计算机设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100010968A1 (en) * | 2008-07-10 | 2010-01-14 | Redlich Ron M | System and method to identify, classify and monetize information as an intangible asset and a production model based thereon |
US20130218614A1 (en) * | 2000-08-18 | 2013-08-22 | The Crawford Group, Inc. | Extended Web enabled Business to Business Computer System for Rental Vehicles Services |
CN105100407A (zh) * | 2015-05-26 | 2015-11-25 | 努比亚技术有限公司 | 联系人自动备注方法及装置 |
CN107169049A (zh) * | 2017-04-25 | 2017-09-15 | 腾讯科技(深圳)有限公司 | 应用的标签信息生成方法及装置 |
CN107292722A (zh) * | 2017-06-29 | 2017-10-24 | 北京微影时代科技有限公司 | 一种生成对账单的方法及装置 |
CN107451787A (zh) * | 2017-08-21 | 2017-12-08 | 合肥蓝胖子科技有限公司 | 基于互联网的电子商务订单快速处理系统 |
CN108053294A (zh) * | 2017-12-30 | 2018-05-18 | 淄博赢信达知识产权咨询服务有限公司 | 通过订单内容证明网购商品身份唯一性的方法 |
US20180268464A1 (en) * | 2015-11-18 | 2018-09-20 | Alibaba Group Holding Limited | Order clustering and malicious information combating method and apparatus |
CN108805470A (zh) * | 2018-06-29 | 2018-11-13 | 安徽江淮汽车集团股份有限公司 | 一种生产订单自动化配置方法及装置 |
CN109191225A (zh) * | 2018-07-02 | 2019-01-11 | 阿里巴巴集团控股有限公司 | 订单生成方法、装置、订单处理方法和服务器 |
CN110069627A (zh) * | 2017-11-20 | 2019-07-30 | 中国移动通信集团上海有限公司 | 短文本的分类方法、装置、电子设备和存储介质 |
-
2019
- 2019-09-11 CN CN201910857974.4A patent/CN110532394B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130218614A1 (en) * | 2000-08-18 | 2013-08-22 | The Crawford Group, Inc. | Extended Web enabled Business to Business Computer System for Rental Vehicles Services |
US20100010968A1 (en) * | 2008-07-10 | 2010-01-14 | Redlich Ron M | System and method to identify, classify and monetize information as an intangible asset and a production model based thereon |
CN105100407A (zh) * | 2015-05-26 | 2015-11-25 | 努比亚技术有限公司 | 联系人自动备注方法及装置 |
US20180268464A1 (en) * | 2015-11-18 | 2018-09-20 | Alibaba Group Holding Limited | Order clustering and malicious information combating method and apparatus |
CN107169049A (zh) * | 2017-04-25 | 2017-09-15 | 腾讯科技(深圳)有限公司 | 应用的标签信息生成方法及装置 |
CN107292722A (zh) * | 2017-06-29 | 2017-10-24 | 北京微影时代科技有限公司 | 一种生成对账单的方法及装置 |
CN107451787A (zh) * | 2017-08-21 | 2017-12-08 | 合肥蓝胖子科技有限公司 | 基于互联网的电子商务订单快速处理系统 |
CN110069627A (zh) * | 2017-11-20 | 2019-07-30 | 中国移动通信集团上海有限公司 | 短文本的分类方法、装置、电子设备和存储介质 |
CN108053294A (zh) * | 2017-12-30 | 2018-05-18 | 淄博赢信达知识产权咨询服务有限公司 | 通过订单内容证明网购商品身份唯一性的方法 |
CN108805470A (zh) * | 2018-06-29 | 2018-11-13 | 安徽江淮汽车集团股份有限公司 | 一种生产订单自动化配置方法及装置 |
CN109191225A (zh) * | 2018-07-02 | 2019-01-11 | 阿里巴巴集团控股有限公司 | 订单生成方法、装置、订单处理方法和服务器 |
Non-Patent Citations (3)
Title |
---|
EWA PAWŁUSZEWICZ 等: "Remarks on observability of h-difference linear control systems with two fractional orders", 《PROCEEDINGS OF THE 14TH INTERNATIONAL CARPATHIAN CONTROL CONFERENCE (ICCC)》 * |
刘鹏: "某物流软件"小度骑士"的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
陈思云等: "汽车装配车间零部件订单跟踪系统的设计研究", 《武汉理工大学学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111882379A (zh) * | 2020-06-29 | 2020-11-03 | 南京意博软件科技有限公司 | 一种基于邮件的订单确认方法和装置 |
CN113724037A (zh) * | 2021-08-02 | 2021-11-30 | 深圳依时货拉拉科技有限公司 | 非正常订单处理方法、装置、存储介质和计算机设备 |
CN113987189A (zh) * | 2021-11-11 | 2022-01-28 | 深圳依时货拉拉科技有限公司 | 订单备注标签确定方法、装置、存储介质和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110532394B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107329967B (zh) | 基于深度学习的问答系统以及方法 | |
CN110597988B (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN110276075A (zh) | 模型训练方法、命名实体识别方法、装置、设备及介质 | |
CN107766371A (zh) | 一种文本信息分类方法及其装置 | |
CN110532394A (zh) | 订单备注文本的处理方法及系统 | |
CN109598517B (zh) | 商品通关处理、对象的处理及其类别预测方法和装置 | |
CN107169001A (zh) | 一种基于众包反馈和主动学习的文本分类模型优化方法 | |
CN108304468A (zh) | 一种文本分类方法以及文本分类装置 | |
CN109299344A (zh) | 排序模型的生成方法、搜索结果的排序方法、装置及设备 | |
CN105740227B (zh) | 一种求解中文分词中新词的遗传模拟退火方法 | |
CN107291783A (zh) | 一种语义匹配方法及智能设备 | |
CN109344237A (zh) | 一种用于人机交互的信息处理的方法及装置 | |
CN108491388A (zh) | 数据集获取方法、分类方法、装置、设备及存储介质 | |
CN112487794B (zh) | 行业分类方法、装置、终端设备及存储介质 | |
CN104281615A (zh) | 一种投诉处理的方法和系统 | |
CN114969326B (zh) | 分类模型训练、语义分类方法、装置、设备和介质 | |
CN111062220A (zh) | 一种基于记忆遗忘装置的端到端意图识别系统和方法 | |
CN115269959A (zh) | 一种搜索联想推荐方法、装置、电子设备及存储介质 | |
CN107797981B (zh) | 一种目标文本识别方法及装置 | |
CN115906763A (zh) | 一种招标文件解析表格抽取方法 | |
CN107783958B (zh) | 一种目标语句识别方法及装置 | |
CN116542676A (zh) | 一种基于大数据分析的智能客服系统及其方法 | |
CN114722198A (zh) | 产品分类编码确定方法、系统及相关装置 | |
CN112100367A (zh) | 一种景区舆情预警方法及装置 | |
CN113705159A (zh) | 商户名称的标注方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |