CN110941717B - 客票规则解析方法、装置、电子设备及计算机可读介质 - Google Patents
客票规则解析方法、装置、电子设备及计算机可读介质 Download PDFInfo
- Publication number
- CN110941717B CN110941717B CN201911158284.6A CN201911158284A CN110941717B CN 110941717 B CN110941717 B CN 110941717B CN 201911158284 A CN201911158284 A CN 201911158284A CN 110941717 B CN110941717 B CN 110941717B
- Authority
- CN
- China
- Prior art keywords
- preset
- data
- neural network
- ticket
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种客票规则解析方法,所述方法包括:获取待处理的客票规则文本;将所述客票规则文本进行词向量化处理,得到所述客票规则文本对应的第一向量;将所述第一向量输入至预先训练的深度神经网络,得到与所述第一向量对应的预设标注字段的数据;反馈所述预设标注字段的数据。本发明的优点在于:预设标注字段的数据反映了客票规则文本中的有关退改票的信息,用户可以直接在查询或购票界面看到退改票信息,提升了用户体验。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种客票规则解析方法、装置、电子设备及计算机可读介质。
背景技术
用户在购票结束后经常会由于种种原因需要退改票,根据客票规则,用户购买的票的种类不同,客票是否允许退改也不同,或用户退改票时间不同,用户得到的退改票金额也是不同的。在这种情况下,用户发出退改票请求后,一般需要客服人工解读客票规则,然后将是否允许退改票,和退改票金额通知用户,增加了客服工作量,也不方便用户在购买初期知晓是否允许退改票和退改票价格,给用户带来了不便。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明提供了一种客票规则解析方法、装置、电子设备及计算机可读介质。
为解决上述技术问题,本发明采用的技术方案是:
第一方面,一种客票规则解析方法,所述方法包括:
获取待处理的客票规则文本;
将所述客票规则文本进行词向量化处理,得到所述客票规则文本对应的第一向量;
将所述第一向量输入至预先训练的深度神经网络,得到与所述第一向量对应的预设标注字段的数据;
反馈所述预设标注字段的数据。
可选的,在获取待处理的客票规则文本之前,还包括:
获取样本客票规则文本和所述样本客票规则文本对应的样本标注数据,其中,所述样本标注数据为用于标注所述样本客票规则文本中的预设标注字段的数据;
将所述样本客票规则文本进行词向量化处理,得到所述样本客票规则文本对应的第二向量;
通过所述第二向量、所述样本标注数据和预设的训练算法,对初始深度神经网络进行训练,得到训练后的深度神经网络。
可选的,通过所述第二向量、所述样本标注数据和预设的训练算法,对初始深度神经网络进行训练,得到训练后的深度神经网络,包括:
针对每个预设标注字段,建立该预设标注字段对应的初始深度神经网络;
通过所述第二向量、该样本标注字段对应的样本标注数据和预设的训练算法,对该预设标注字段对应的初始深度神经网络进行训练,得到训练后的深度神经网络。
可选的,所述将所述客票规则文本进行词向量化处理,包括:
将所述客票规则文本进行分词处理;
将分词处理后的客票规则文本进行词向量化处理。
可选的,所述将所述第一向量输入至预先训练的深度神经网络,包括:
将所述第一向量进行类聚处理;
将类聚处理后的第一向量输入至预先训练的深度神经网络。
可选的,所述将所述客票规则文本进行词向量化处理,包括:
对所述客票规则文本进行语料清洗;
将语料清洗后的客票规则文本进行词向量化处理。
第二方面,一种客票规则解析装置,其特征在于,所述装置包括:
确定模块,用于确定客票规则文本;
第一词向量化模块,用于将所述客票规则文本进行词向量化处理,得到所述客票规则文本对应的第一向量;
输入输出模块,用于将所述第一向量输入至预先训练的深度神经网络,得到与所述第一向量对应的预设标注字段的数据;
反馈模块,用于反馈所述预设标注字段的数据。
可选的,所述装置还包括:
获取模块,用于获取样本客票规则文本和所述样本客票规则文本对应的样本标注数据,其中,所述样本标注数据为用于标注所述样本客票规则文本中的预设标注字段的数据;
第二词向量化模块,用于将所述样本客票规则文本进行词向量化处理,得到所述样本客票规则文本对应的第二向量;
训练模块,用于通过所述第二向量、所述样本标注数据和预设的训练算法,对初始深度神经网络进行训练,得到训练后的深度神经网络。
第三方面,一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述的方法的步骤。
第四方面,一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行上述任一项所述的方法。
本发明实施例提供的上述技术方案与现有技术相比具有如下优点:
本发明将客票规则文本输入至预先训练的深度神经网络,得到预设标注字段的数据并反馈至终端,预设标注字段的数据反映了客票规则文本中的有关退改票的信息,用户可以直接在查询或购票界面看到退改票信息,提升了用户体验,也减少了客服的工作量。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例提供的一种客票规则解析方法的流程图;
图2为本发明一个实施例提供的一种深度神经网络训练的方法的流程图;
图3为本发明的一实施例提供的一种客票规则解析设备的结构示意图;
图4为本发明一个实施例提供的一种终端的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种客票规则解析方法,可以应用于服务器,也可以应用于终端设备,终端设备可以用于解析客票规则,并将解析后得到的退改票信息反馈至终端。
下面将以服务器为例,结合具体实施方式,对本申请实施例提供的一种客票规则解析方法进行详细的说明,如图1所示,具体步骤如下:
步骤101:获取待处理的客票规则文本。
在某些情况下,用户在购票时无法看到客票规则文本,或客票规则文本过长导致用户没有耐心或时间看完,用户在进行退改票时经常会咨询客服人员,客服人员从客票规则文本中找寻退改票相关的信息,然后再反馈给用户,这样就增加了客服人员的工作量,而且,用户在购票时无法查看到简洁的退改票信息,可能会给用户带来不便。
在本发明实施例中,用户进入到票价查询或票价购买界面时,服务器检测到用户进入的界面,并根据界面中的票价信息,确定与该票价信息对应的客票规则文本。在本发明实施例中,客票规则文本为用户在查票或购票过程中,与用户查询或购买的客票的相对应的相关规则信息,如行李托运费用、该客票是否允许退票或改签,在取票前后的退改费用分别为多少等信息。
例如:用户想要查询2019年11月5日从天津飞往昆明的机票,那么用户在进入机票查询界面后,界面显示出两条航班信息,服务器根据界面中的两条航班信息,分别确定与每条航班信息对应的客票规则文本。
步骤102:将客票规则文本进行词向量化处理,得到客票规则文本对应的第一向量。
在本发明实施例中,服务器将客票规则文本进行词向量处理,服务器将客票规则文本输入词向量化神经网络,并输出向量化的结果,该结果即客票规则文本对应的第一向量,第一向量可以表达客票规则文本的含义,以便于深度神经网络能够输入该第一向量。本申请实施例中,可以采用word2vec模型将客票规则文本进行词向量化处理,并得到客票规则文本对应的第一向量。
步骤103:将第一向量输入至预先训练的深度神经网络,得到与第一向量对应的预设标注字段的数据。
在本发明实施例中,服务器将第一向量输入至预先训练的深度神经网络,得到与第一向量对应的预设标注字段的数据。由于第一向量可以表达客票规则文本的含义,则相当于预设标注字段的数据与客票规则文本对应,预设标注字段的数据可以将客票规则文本中的客票信息简洁的反映出来。
举例来说,预设标注字段的数据为预设标注字段在客票规则文本中的具体数据,比如订单编号为7250365554、允许改期、不允许退票、按照航段收费、付款币种为人民币等。
步骤104:反馈预设标注字段的数据。
在本发明实施例中,服务器通过深度神经网络输出预设标注字段的数据后,服务器将预设标注字段的数据反馈至终端,并显示在终端的查询或购票界面,以使用户能够看到该预设标注字段的数据,得知所查询或购买的客票的退改详情。
例如,客票规则文本部分内容为:CHARGES
BEFORE DAPARTURE
CHARGE VND 300000
在客票规则文本中,预设标注字段包含两类,分别为before_departure_amount(行程开始前的金额)和currency_code(付款币种),结合预设标注字段数值,服务器反馈至终端的结果为:行程开始前改期金额为30000越南盾。
可选的,如图2所示,本申请实施例还提供了深度神经网络的训练过程,具体包括以下步骤:
步骤201:获取样本客票规则文本和样本客票规则文本对应的样本标注数据,其中,样本标注数据为用于标注样本客票规则文本中的预设标注字段的数据。
在本发明实施例中,服务器获取样本客票规则文本,其中样本客票规则文本为,对深度神经网络进行训练学习时所采用的客票规则文本,客票规则文本为客票的相关规则信息,如订单号为1225724737、该客票不允许改签,行程开始前改期金额为750元等信息。
在本发明实施例中,针对每个样本客票规则文本,服务器还可以获取样本标注数据,其中,样本标注数据为事先对该样本客票规则文本中的预设标注字段标注完善的数据。以用户购买机票为例,表一为对应的样本标注数据的表格,从表格中可以看出,表格中每行都包括一个等式,样本标注数据包括预设标注字段和预设标注字段数值,其中,等式前面的内容为预设标注字段,等式后面的内容为预设标注字段数值,即预设标注字段在样本客票规则文本中对应的具体数值。预设标注字段分为五类:order-num(订单号),is_permitted(是否允许改期)currency_code(罚金币种),applies_per(罚金粒度/收费标准)departure_amount(行程的改期金额),其他标注字段则是具体解释,如:第4-7行的标注字段分别为对应currency_code的解释,第10-13行标注字段分别为对应before_departure_amount的解释,15-18行标注字段分别为对应after_departure_amount的解释。
表一
order-num=1225724737 |
is_permitted=1 |
currency_code=VND |
currency_start_row=16 |
currency_start_col=8 |
currency_end_row=16 |
currency_end_col=11 |
applies_per=不填 |
before_departure_amount=300000 |
before_departure_amount_start_row=16 |
before_departure_amount_start_col=12 |
before_departure_amount_end_row==16 |
before_departure_amount_end_col==18 |
after_departure_amount=600000 |
after_departure_amount_start_row=22 |
after_departure_amount_start_col=11 |
after_departure_amount_end_row==22 |
after_departure_amount_end_col==18 |
在本发明实施例中,在样本标注数据中,其中一部分预设标注字段及其预设标注字段数值是直接从样本客票规则文本中获得的,如order-num(订单号)=1225724737,currency_code=VND,before_departure_amount=30000和after_departure_amount(行程开始后的金额)=60000,applies_per(罚金粒度)=不填(文段中没有出现per,所以不填),而is_permitted(是否允许)=1是根据before_departure_amount=30000和after_departure_amount=60000推论得到的。
样本标注数据对预设标注字段进行标注,如before_departure_amount_start_row(行程开始前改期金额开始的光标位置的行数)=16,before_departure_amount=30000,currency_code=VND,currency_start_row(币种开始的光标位置的行数)=16,等。
预设标注字段的解释如表二所示,表二中,第一列为预设标注字段的名称,第二列为对预设标注字段名称的解释,及其预设标注字段数值的说明。以is_permitted为例进行解释:表格第一列中有预设标注字段的名称:is_permitted,第二列中包括对预设标注字段名称的解释,is_permitted解释为是否允许改期;还包括预设标注字段数值的说明,1表示允许,0表示不允许,is_permitted的数值由before_departure_amount和after_departure_amount决定,如果before_departure_amount和after_departure_amount数值不一致,按before_departure_amount的数值标注。
表二
表三为对样本标注数据的解释,第一列为样本标注数据,第二列为样本标注数据的释义,如,before_departure_amoun_start_row=16,表示形成开始前的改期金额开始的光标位置的行数为16。
表三
具体来说,反馈至终端的预设标注字段的数据包括两部分:预设标注字段和预设标注字段数值。举例来说,预设标注字段为order-num(订单号),预设标注字段数值为1225724737,则预设标注字段的数据为:订单号为1225724737。预设标注字段为is_permitted(是否允许改期),预设标注字段数值为1,则预设标注字段的数据为:允许改期。(1表示允许改期,0表示不允许改期)。
步骤202:将样本客票规则文本进行词向量化处理,得到样本客票规则文本对应的第二向量。
在本发明实施例中,服务器将样本客票规则文本进行词向量处理,服务器将客票规则文本输入词向量化神经网络,并输出向量化的数字,量化后的数字即客票规则文本对应的第二向量,本申请实施例中,采用word2vec模型将客票规则文本进行词向量化处理,并得到客票规则文本对应的第二向量。
步骤203:通过第二向量、样本标注数据和预设的训练算法,对初始深度神经网络进行训练,得到训练后的深度神经网络。
在本发明实施例中,服务器将第二向量输入初始深度神经网络,初始深度神经网络输出与第二向量对应的预设标注字段的数据,服务器判断输出的预设标注字段的数据和样本标注数据否满足预设条件,若不满足预设条件,则重新训练初始深度神经网络直至满足预设条件。
由于事先对样本客票规则文本做了样本标注数据,因此样本客票规则文本和样本标注数据之间是存在对应关系的,即第二向量和样本标注数据之间存在对应关系,服务器将第二向量输入初始深度神经网络,初始深度神经网络根据第二向量和样本标注数据之间的对应关系以及预设的训练算法,输出与第二向量对应的预设标注字段的数据。其中,该预设标注字段的数据包括多个,在本发明实施例中,输出的预设标注字段的数据为五个,分别对应样本标注数据中的:order-num=1225724737,is_permitted=1,currency_code=VND,applies_per=不填,before_departure_amount=30000和after_departure_amount=60000。
可选的,通过第二向量、样本标注数据和预设的训练算法,对初始深度神经网络进行训练,得到训练后的深度神经网络,包括:
针对每个预设标注字段,建立该预设标注字段对应的初始深度神经网络;通过第二向量、该样本标注字段对应的样本标注数据和预设的训练算法,对该预设标注字段对应的初始深度神经网络进行训练,得到训练后的深度神经网络。
在本发明实施例中,样本标注数据包括多个预设标注字段,针对每个预设标注字段,分别建立该预设标注字段对应的初始深度神经网络,避免预设标注字段之间相互干扰,影响整体的通用型和鲁棒性,可以提高深度神经网络的精度。
在本发明实施例中,第二向量包括第二分向量和第三分向量,服务器将第二分向量和与第二分向量对应的标准标注数据输入初始深度神经网络,初始深度神经网络输出第二向量与预设标注字段的数据的对应关系,其中,在本发明实施例中,第二分向量的数量为多个,不同的第二分向量所对应的标准标注数据也不同。初始深度神经网络得到第二向量与预设标注字段的数据的对应关系后,服务器将第三分向量输入初始深度神经网络,并根据得到的对应关系输出与第三分向量对应的预设标注字段的数据,服务器判断初始深度神经网络输出的第三分向量对应的预设标注字段的数据,与第三分向量对应的样本标注数据的差别是否在预设范围内,若在预设范围内,则停止对初始深度神经网络的训练,若不在预设范围内,则重新训练初始深度神经网络,直至第三分向量对应的预设标注字段的数据,与第三分向量对应的样本标注数据的差别在预设范围内。
举例来说,第二向量包括一百个向量,其中第二分向量为七十个,第三分向量为三十个,服务器将其中一个第二分向量和与第二分向量对应的标准标注数据输入初始深度神经网络,初始深度神经网络输出第二向量与预设标注字段的数据的对应关系;然后服务器将第二个第二分向量和与第二分向量对应的标准标注数据输入初始深度神经网络,初始深度神经网络调整并输出输出第二向量与预设标注字段的数据的对应关系,服务器循环该输入输出过程,直至服务器将七十个第二分向量全部输入初始深度神经网络,初始深度神经网络不断调整上述对应关系,然后服务器依次将三十个第三分向量输入初始深度神经网络,初始深度神经网络分别输出与三十个第三分向量对应的三十个预设标注字段的数据,服务器判断输出的三十个预设标注字段的数据与第三分向量对应的三十个样本标注数据的差别是否在预设范围内,若在预设范围内,则表示该初始深度神经网络训练结束;若不在预设范围内,则重新将第二向量输入初始深度神经网络,直至第三分向量对应的预设标注字段的数据与第三分向量对应的样本标注数据的差别在预设范围内。
可选的,将所述客票规则文本进行词向量化处理,包括:
将所述客票规则文本进行分词处理;将分词处理后的客票规则文本进行词向量化处理。
在本发明实施例中,将所述客票规则文本进行分词处理,具体的,可以定位到关键的段落或把不同关键词的段落做拆分,将拆分后的文本再进行词向量化处理,可以提高词向量化处理的精度,其中,关键的段落是指包含预设标注字段的段落。在本发明实施例中,关键词包括但不限于:charges(收费),refund(退款金额),before departure(行程开始前),after departure(行程开始后)。
可选的,将第一向量进行类聚处理包括:
计算第一向量的相似性;根据第一向量的相似性对第一向量做类聚处理。
在本发明实施例中,服务器计算第一向量的相似性,其中向量的相似度的算法为皮尔逊相关系数。
皮尔逊相关系数一般用于计算两个定距变量间联系的紧密程度,它的取值在[-1,+1]之间。其中,[-1,1],绝对值越大,说明相关性越强。
在计算相似性结束后,服务器根据第一向量的相似性对第一向量做类聚处理。由于第一向量由数字字符串组成,每组字符串之间可以计算两个向量的相似度,当两个向量的距离越近或者方向越相近时,可认为这两个向量相似度很高,同样的,相似度高的向量背后的客票规则文本的语义也更相近。
可选的,将第一向量输入至预先训练的深度神经网络,包括:
将第一向量进行类聚处理;将类聚处理后的第一向量输入至预先训练的深度神经网络。
在本发明实施例中,服务器将第一向量进行类聚处理,将类聚处理后的第一向量输入至预先训练的深度神经网络。其中,第一向量与多个客票规则文本相对应,采用分类模型将第一向量进行类聚处理,可以将第一向量分成相似的多个向量,其中,相似度高的向量背后的客票规则文本的语义也更相近,将同类的向量输入至深度神经网络,可以提高第一向量的训练精度。本发明实施例中,分类模型为k-means,(k-means clusteringalgorithm,k均值聚类算法)是一种迭代求解的聚类分析算法,给定一个数据点集合和需要的聚类数目k,k由用户指定,k均值算法根据某个距离函数反复把数据分入k个聚类中。将类聚处理后的第一向量输入至预先训练的深度神经网络。
可选的,将客票规则文本进行词向量化处理,包括:
对客票规则文本进行语料清洗;将语料清洗后的客票规则文本进行词向量化处理。
在本发明实施例中,服务器对客票规则文本进行语料清洗,语料清洗可以过滤掉文本中的特殊字符,以便于提高分词效率,其中,特殊字符包括但不限于any(任何)、be(是)、every(每个)等第一停用词。
服务器对客票规则文本进行语料清洗后,对客票规则文本进行分词处理,然后要过滤掉客票规则文本中的第二停用词,如标点符号、语气词、人称等,其中第二停用词在分词处理过程可以作为分词处理的标准,例如,标点符号中的句号用作分词的标准。所以在分词处理之后将第二停用词过滤掉,提高词向量化效率。服务器将第二停用词过滤掉之后,将语料清洗后的客票规则文本进行词向量化处理。
本发明将客票规则文本输入至预先训练的深度神经网络,得到预设标注字段的数据并反馈至终端,预设标注字段的数据反映了客票规则文本中的有关退改票的信息,用户可以直接在查询或购票界面看到退改票信息,提升了用户体验,也减少了客服的工作量。
基于同一构思,本申请实施例中还提供了一种客票规则解析装置,如图3所示,包括:
确定模块301,用于确定客票规则文本;
第一向量化模块302,用于将客票规则文本进行词向量化处理,得到客票规则文本对应的第一向量;
输入输出模块303,将第一向量输入至预先训练的深度神经网络,得到与第一向量对应的预设标注字段的数据;
反馈模块304,用于反馈预设标注字段的数据。
可选的,所示装置还包括:
获取模块,用于获取样本客票规则文本和样本客票规则文本对应的样本标注数据,其中,样本标注数据为用于标注样本客票规则文本中的预设标注字段的数据;
第二向量化模块,将样本客票规则文本进行词向量化处理,得到样本客票规则文本对应的第二向量;
训练模块,用于通过第二向量、样本标注数据和预设的训练算法,对初始深度神经网络进行训练,得到训练后的深度神经网络。
可选的,训练模块包括:
建立单元,用于针对每个预设标注字段,建立该预设标注字段对应的初始深度神经网络;
训练单元,用于通过第二向量、该样本标注字段对应的样本标注数据和预设的训练算法,对该预设标注字段对应的初始深度神经网络进行训练,得到训练后的深度神经网络。
可选的,第一向量化模块302包括:
分词单元,用于将客票规则文本进行分词处理;
词向量单元,用于将分词处理后的客票规则文本进行词向量化处理。
可选的,输入输出模块303包括:
类聚单元,用于将第一向量进行类聚处理;
输入单元,用于将类聚处理后的第一向量输入至预先训练的深度神经网络。
可选的,类聚单元包括:
计算子单元,用于计算第一向量的相似性;
类聚子单元,用于根据第一向量的相似性对第一向量做类聚处理。
可选的,第一向量化模块302包括:
语料清洗单元,用于对客票规则文本进行语料清洗;
词向量化单元,用于将语料清洗后的客票规则文本进行词向量化处理。
基于同一构思,本申请实施例中还提供了一种电子设备,包括存储器、处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的控制方法。
基于同一构思,本申请实施例中还提供了一种电子设备,如图4所示,该电子设备主要包括:处理器401、通信接口402、存储器403和通信总线404,其中,处理器401、通信接口402和存储器403通过通信总线404完成相互间的通信。其中,通信接口402用于上述电子设备与其他设备之间的通信。存储器403中存储有可被处理器401执行的程序,处理器401通过执行存储器403上所存放的程序,执行计算机程序时实现上述的控制方法。
上述电子设备中提到的通信总线404可以时外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该通信总线404可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器403可以包括随机存取存储器(RandomAccessMemory,简称RAM),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器401可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请的又一实施例中,还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行上述控制方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以时通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD)或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种客票规则解析方法,其特征在于,所述方法包括:
获取待处理的客票规则文本;
将所述客票规则文本进行词向量化处理,得到所述客票规则文本对应的第一向量;
将所述第一向量输入至预先训练的深度神经网络,得到与所述第一向量对应的预设标注字段的数据,其中,所述预设标注字段的数据能够反映所述客票规则文本中的客票信息,所述预设标注字段的数据包括预设标注字段和预设标注字段数值,部分预设标注字段的数据是根据其他预设标注字段的数据得到的;
对所述预设标注字段和所述预设标注字段数值进行分析后,反馈所述预设标注字段的数据;
其中,在所述深度神经网络的训练过程中,针对样本标注数据中的每个预设标注字段,建立所述预设标注字段对应的初始深度神经网络;通过对每个初始深度神经网络进行训练,得到训练后的深度神经网络。
2.根据权利要求1所述的方法,其特征在于,在获取待处理的客票规则文本之前,还包括:
获取样本客票规则文本和所述样本客票规则文本对应的样本标注数据,其中,所述样本标注数据为用于标注所述样本客票规则文本中的预设标注字段的数据;
将所述样本客票规则文本进行词向量化处理,得到所述样本客票规则文本对应的第二向量;
通过所述第二向量、所述样本标注数据和预设的训练算法,对初始深度神经网络进行训练,得到训练后的深度神经网络。
3.根据权利要求2所述的方法,其特征在于,通过所述第二向量、所述样本标注数据和预设的训练算法,对初始深度神经网络进行训练,得到训练后的深度神经网络,包括:
针对每个预设标注字段,建立该预设标注字段对应的初始深度神经网络;
通过所述第二向量、该样本标注字段对应的样本标注数据和预设的训练算法,对该预设标注字段对应的初始深度神经网络进行训练,得到训练后的深度神经网络。
4.根据权利要求1所述的方法,其特征在于,所述将所述客票规则文本进行词向量化处理,包括:
将所述客票规则文本进行分词处理;
将分词处理后的客票规则文本进行词向量化处理。
5.根据权利要求1所述的方法,其特征在于,所述将所述第一向量输入至预先训练的深度神经网络,包括:
将所述第一向量进行类聚处理;
将类聚处理后的第一向量输入至预先训练的深度神经网络。
6.根据权利要求1所述的方法,其特征在于,所述将所述客票规则文本进行词向量化处理,包括:
对所述客票规则文本进行语料清洗;
将语料清洗后的客票规则文本进行词向量化处理。
7.一种客票规则解析装置,其特征在于,所述装置包括:
确定模块,用于确定客票规则文本;
第一词向量化模块,用于将所述客票规则文本进行词向量化处理,得到所述客票规则文本对应的第一向量;
输入输出模块,用于将所述第一向量输入至预先训练的深度神经网络,得到与所述第一向量对应的预设标注字段的数据,其中,所述预设标注字段的数据能够反映所述客票规则文本中的客票信息,所述预设标注字段的数据包括预设标注字段和预设标注字段数值,部分预设标注字段的数据是根据其他预设标注字段的数据得到的;
反馈模块,用于反馈对所述预设标注字段和所述预设标注字段数值进行分析后,所述预设标注字段的数据;
其中,所述装置还用于:在所述深度神经网络的训练过程中,针对样本标注数据中的每个预设标注字段,建立所述预设标注字段对应的初始深度神经网络;通过对每个初始深度神经网络进行训练,得到训练后的深度神经网络。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
获取模块,用于获取样本客票规则文本和所述样本客票规则文本对应的样本标注数据,其中,所述样本标注数据为用于标注所述样本客票规则文本中的预设标注字段的数据;
第二词向量化模块,用于将所述样本客票规则文本进行词向量化处理,得到所述样本客票规则文本对应的第二向量;
训练模块,用于通过所述第二向量、所述样本标注数据和预设的训练算法,对初始深度神经网络进行训练,得到训练后的深度神经网络。
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至6任一项所述的方法的步骤。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行上述权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911158284.6A CN110941717B (zh) | 2019-11-22 | 2019-11-22 | 客票规则解析方法、装置、电子设备及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911158284.6A CN110941717B (zh) | 2019-11-22 | 2019-11-22 | 客票规则解析方法、装置、电子设备及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110941717A CN110941717A (zh) | 2020-03-31 |
CN110941717B true CN110941717B (zh) | 2023-08-11 |
Family
ID=69907380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911158284.6A Active CN110941717B (zh) | 2019-11-22 | 2019-11-22 | 客票规则解析方法、装置、电子设备及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110941717B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111815287A (zh) * | 2020-07-16 | 2020-10-23 | 中国民航信息网络股份有限公司 | 一种业务申退处理方法及装置 |
CN112989050B (zh) * | 2021-03-31 | 2023-05-30 | 建信金融科技有限责任公司 | 一种表格分类方法、装置、设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103854308A (zh) * | 2014-03-18 | 2014-06-11 | 中国铁道科学研究院电子计算技术研究所 | 一种铁路自动检票方法及系统 |
CN107844560A (zh) * | 2017-10-30 | 2018-03-27 | 北京锐安科技有限公司 | 一种数据接入的方法、装置、计算机设备和可读存储介质 |
CN108182229A (zh) * | 2017-12-27 | 2018-06-19 | 上海科大讯飞信息科技有限公司 | 信息交互方法及装置 |
CN109376219A (zh) * | 2018-10-31 | 2019-02-22 | 北京锐安科技有限公司 | 文本属性字段的匹配方法、装置、电子设备及存储介质 |
CN109408631A (zh) * | 2018-09-03 | 2019-03-01 | 平安医疗健康管理股份有限公司 | 药品数据处理方法、装置、计算机设备和存储介质 |
CN109635288A (zh) * | 2018-11-29 | 2019-04-16 | 东莞理工学院 | 一种基于深度神经网络的简历抽取方法 |
CN109636645A (zh) * | 2018-12-13 | 2019-04-16 | 平安医疗健康管理股份有限公司 | 医保监管方法、设备、装置及计算机可读存储介质 |
WO2019071660A1 (zh) * | 2017-10-09 | 2019-04-18 | 平安科技(深圳)有限公司 | 票据信息识别方法、电子装置及可读存储介质 |
CN109885832A (zh) * | 2019-02-14 | 2019-06-14 | 平安科技(深圳)有限公司 | 模型训练、语句处理方法、装置、计算机设备及存储介质 |
WO2019174130A1 (zh) * | 2018-03-14 | 2019-09-19 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN110348975A (zh) * | 2019-05-24 | 2019-10-18 | 深圳壹账通智能科技有限公司 | 报关单信息校验方法及装置、电子设备和存储介质 |
CN110442568A (zh) * | 2019-07-30 | 2019-11-12 | 北京明略软件系统有限公司 | 字段标签的获取方法及装置、存储介质、电子装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070050388A1 (en) * | 2005-08-25 | 2007-03-01 | Xerox Corporation | Device and method for text stream mining |
US10984030B2 (en) * | 2017-03-20 | 2021-04-20 | International Business Machines Corporation | Creating cognitive intelligence queries from multiple data corpuses |
RU2701995C2 (ru) * | 2018-03-23 | 2019-10-02 | Общество с ограниченной ответственностью "Аби Продакшн" | Автоматическое определение набора категорий для классификации документа |
-
2019
- 2019-11-22 CN CN201911158284.6A patent/CN110941717B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103854308A (zh) * | 2014-03-18 | 2014-06-11 | 中国铁道科学研究院电子计算技术研究所 | 一种铁路自动检票方法及系统 |
WO2019071660A1 (zh) * | 2017-10-09 | 2019-04-18 | 平安科技(深圳)有限公司 | 票据信息识别方法、电子装置及可读存储介质 |
CN107844560A (zh) * | 2017-10-30 | 2018-03-27 | 北京锐安科技有限公司 | 一种数据接入的方法、装置、计算机设备和可读存储介质 |
CN108182229A (zh) * | 2017-12-27 | 2018-06-19 | 上海科大讯飞信息科技有限公司 | 信息交互方法及装置 |
WO2019174130A1 (zh) * | 2018-03-14 | 2019-09-19 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN109408631A (zh) * | 2018-09-03 | 2019-03-01 | 平安医疗健康管理股份有限公司 | 药品数据处理方法、装置、计算机设备和存储介质 |
CN109376219A (zh) * | 2018-10-31 | 2019-02-22 | 北京锐安科技有限公司 | 文本属性字段的匹配方法、装置、电子设备及存储介质 |
CN109635288A (zh) * | 2018-11-29 | 2019-04-16 | 东莞理工学院 | 一种基于深度神经网络的简历抽取方法 |
CN109636645A (zh) * | 2018-12-13 | 2019-04-16 | 平安医疗健康管理股份有限公司 | 医保监管方法、设备、装置及计算机可读存储介质 |
CN109885832A (zh) * | 2019-02-14 | 2019-06-14 | 平安科技(深圳)有限公司 | 模型训练、语句处理方法、装置、计算机设备及存储介质 |
CN110348975A (zh) * | 2019-05-24 | 2019-10-18 | 深圳壹账通智能科技有限公司 | 报关单信息校验方法及装置、电子设备和存储介质 |
CN110442568A (zh) * | 2019-07-30 | 2019-11-12 | 北京明略软件系统有限公司 | 字段标签的获取方法及装置、存储介质、电子装置 |
Non-Patent Citations (1)
Title |
---|
常曾硕 ; 张志强 ; 刘文韬 ; .铁路回收车票自动核验系统的研发与应用.铁路计算机应用.2018,(第02期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110941717A (zh) | 2020-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046221B (zh) | 歌曲推荐方法、装置、终端设备以及存储介质 | |
CN105550227B (zh) | 一种命名实体识别方法及装置 | |
CN110941717B (zh) | 客票规则解析方法、装置、电子设备及计算机可读介质 | |
CN109325121B (zh) | 用于确定文本的关键词的方法和装置 | |
CN109766447B (zh) | 一种确定敏感信息的方法和装置 | |
CN111291551B (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN108470065B (zh) | 一种异常评论文本的确定方法及装置 | |
CN110069594B (zh) | 合同确认方法、装置、电子设备及存储介质 | |
CN111325033A (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN118193806A (zh) | 一种目标检索方法、装置、电子设备及存储介质 | |
CN117909499A (zh) | 合同审查方法、装置、电子设备及存储介质 | |
CN113656575A (zh) | 训练数据的生成方法、装置、电子设备及可读介质 | |
CN111241269B (zh) | 一种短信文本分类方法、装置、电子设备及存储介质 | |
US11915157B2 (en) | Computerized method of training a computer executed model for recognizing numerical quantities | |
CN116720888A (zh) | 一种积分发放方法、装置、电子设备及存储介质 | |
CN114078037A (zh) | 基于标签向量化的商品推荐方法及装置 | |
CN114254109B (zh) | 用于确定行业类别的方法及装置 | |
CN110619067A (zh) | 基于行业分类的检索方法、检索装置及可读存储介质 | |
CN114139547B (zh) | 知识融合方法、装置、设备、系统及介质 | |
CN112579774B (zh) | 模型训练方法、模型训练装置及终端设备 | |
CN113535938A (zh) | 基于内容识别的标准数据构建方法、系统、设备及介质 | |
CN113204710A (zh) | 一种舆情分析方法、装置、终端设备及存储介质 | |
CN117131426B (zh) | 基于预训练的品牌识别方法、装置及电子设备 | |
CN110705251A (zh) | 计算机执行的文本分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |