CN108268880A - 一种行业类别的识别方法及装置 - Google Patents
一种行业类别的识别方法及装置 Download PDFInfo
- Publication number
- CN108268880A CN108268880A CN201611263987.1A CN201611263987A CN108268880A CN 108268880 A CN108268880 A CN 108268880A CN 201611263987 A CN201611263987 A CN 201611263987A CN 108268880 A CN108268880 A CN 108268880A
- Authority
- CN
- China
- Prior art keywords
- invoice
- industry
- industry category
- identified
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 14
- 230000006870 function Effects 0.000 description 11
- 238000004519 manufacturing process Methods 0.000 description 7
- 235000013361 beverage Nutrition 0.000 description 6
- 235000021443 coca cola Nutrition 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 239000002994 raw material Substances 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 235000014171 carbonated beverage Nutrition 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 244000269722 Thea sinensis Species 0.000 description 1
- 238000004587 chromatography analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000010972 statistical evaluation Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供了一种行业类别的识别方法及装置,包括提取待识别发票的预定特征;根据建立的预定特征与行业类别的最大熵模型,计算出待识别发票对应的行业类别。本申请实施例根据发票是经济活动内容的载体,而行业又是根据经济活动的内容进行分类的现实依据,提供了一种根据发票内容识别行业类别的方法,通过从发票内容中提取特征,建立特征与行业类别之间的关系模型,实现了根据发票内容,准确识别行业类别。
Description
技术领域
本发明涉及数据挖掘领域,尤其涉及一种行业类别的识别方法及装置。
背景技术
行业(或产业)是指从事相同性质的经济活动的所有单位的集合。当单位从事一种经济活动时,则按照该经济活动确定单位的行业;当单位从事两种或者两种以上的经济活动时,则按照该单位所从事的主要经济活动确定单位的行业。
准确的行业分类才可能被用于解释行业本身所处的发展阶段及其在国民经济中的地位,分析影响行业发展的各种因素以及判断对行业的影响力度,预测并引导行业的未来发展趋势,判断行业的投资价值,揭示行业风向,为各组织机构提供投资决策或者投资依据。
发明内容
本发明的实施例根据发票是经济活动内容的载体,而行业又是根据经济活动的内容进行分类的现实依据,提供了一种根据发票内容识别行业类别的方法,通过从发票内容中提取特征,建立特征与行业类别之间的关系模型,实现了根据发票内容,准确识别行业类别。
为达到上述目的,本发明的实施例采用如下技术方案:
一方面,本发明实施例提供了一种行业类别的识别方法,包括提取待识别发票的预定特征;根据建立的所述预定特征与所述行业类别的最大熵模型,计算出所述待识别发票对应的行业类别。
可选地,所述提取待识别发票的预定特征之前包括:将已知行业类别的n张发票放入训练数据库中;处理所述训练数据库中每张发票的内容,得到每张发票的预定特征;建立所述预定特征与行业类别之间的特征指示函数;建立所述训练数据库中每张发票与行业类别的最大熵模型;采用拉格朗日乘子法计算所述最大熵模型,得到条件概率的最优解和最优拉格朗日乘子向量。
可选地,上述的预定特征为发票的商品名称和金额的组合特征。
另一方面,本发明实施例还提供了一种行业类别的识别装置,包括提取模块,用于提取待识别发票的预定特征;识别模块,用于根据建立的所述预定特征与所述行业类别的最大熵模型,计算出所述待识别发票对应的行业类别。
综上,本发明实施例提供了一种行业类别的识别方法及装置,将已知行业类别的发票作为训练样本,通过改进的最大熵模型,得到发票的特征与行业类别的关系模型,进而根据得到的关系模型来识别未知行业类别的发票,实现了快速,准确地根据发票内容识别行业类别。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种行业类别的识别方法的流程图;
图2为本发明实施例提供的一种行业类别的识别装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例所提到的发票是指在购销商品、提供或者接受服务以及从事其他经营活动中,开具、收取的收付款凭证。其基本内容包括:发票的名称、发票代码和号码、联次及用途、客户名称、开户银行及账号、商品名称或经营项目、计量单位、数量、单价、大小写金额、开票人、开票日期、开票单位(个人)名称(章)等。
通常把经济活动划分为门类、大类、中类和小类四级。例如,对于碳酸饮料制造行业,其归属的行业门类、大类、中类和小类分别为:门类C-制造业(本门类包括13-43大类,是经物理变化或化学变化后成为新的产品,不论是动力机械制造,还是手工制作;也不论产品是批发销售,还是零售,均视为制造)、大类15-酒、饮料和精制茶制造业、中类152-饮料制造、小类1521-碳酸饮料制造。
需要说明的是,本发明实施例所涉及的识别行业分类,可以是识别到门类,也可以是识别到大类,也可以是识别到中类,也可以是识别到小类,具体识别到哪一层析,由具体的适用情况而定,比如,如果要分析碳酸行业的发展阶段及其在国民经济中的地位,就要识别到碳酸饮料这个小类,如果只需要分析饮料行业的发展阶段及其在国民经济中的地位,那么,就只需识别到饮料这个大类。
现有技术中的最大熵模型一般是针对单一特征的统计评估,而本发明实施例中,考虑到当单位从事两种以上的经济活动时,则按照主要经济活动确定单位的行业,而金额对发票中物品的权值起到至关重要的作用,比如一家单位卖出了9000000元的可乐,1元的很多件其他商品,我们会认为这家单位的主要经济活动是销售可乐的。因此,我们对现有技术中的最大熵模型进行了改进,将商品名称(或者经营项目)以及金额作为组合特征,对未知行业类别的发票进行所属行业类别的准确预估。
要想对待识别发票进行行业类别的预估,就要建立一个准确的模型,来对未知行业类别的发票进行行业类别的识别。首先建立一个训练数据库,在实施例中,假设有n张已知行业类别的发票,将这n张发票放入训练数据库中,对训练数据库中的每张发票的内容进行处理,即提取每张发票的特征,这里的特征指的是商品名称和金额的组合特征,设x表示一个商品名称和金额的组合特征x={xa,xb},xa表示商品名称,xa的取值为共n种商品的一种,xb表示金额,y表示行业分类,假设这n中发票总共有m种行业类别,那么,y的可能取值为y1,y2,...,ym共m种行业类别的一种,x和y都为离散型随机变量,且成对出现。一个x和y的组合为一个样本。比如行业分类为yv的一家单位有商品名称为金额为1000的发票项目,则产生样本xb=1000,y=yv。提取训练数据库中的所有样本,Y和X分别表示所有y和所有x的样本集合。
给定任意一个商品名称和金额的组合特征x时,行业类别y的条件概率设为p(y/x)。设是p(x)在训练数据库中的经验分布,p(y|x)对应的条件熵为:
优化的目标为选择最优的概率分布p(y|x),使得熵H(Y/X)最大。
接下来建立上述组合特征与行业类别之间的特征指示函数,设fi(x,y)为特征指示函数,i的取值范围为1到M,M是xa和y的取值组合个数,M≤n×m。fi(x,y)为:
其中,fi(x,y)的产生过程为:i的取值初始值设为1,扫描整个训练数据库,每出现一次新的xa和y的取值组合,记录和yi,i递增,直到不再出现新的xa和y的取值组合,M为xa和y的取值组合的个数,其值等于最终i的值减1。或者i的取值初始值设为0,扫描整个训练数据库,每出现一次新的xa和y的取值组合,记录和yi,i递增,直到不再出现新的xa和y的取值组合,M为xa和y的取值组合的个数,在这种情况下,M的值等于最终i的值。设和yi为fi(x,y)对应的特征,即fi(x,y)在xa和y为特定取值和yi时有效,则fi(x,y)的定义为:
因为本发明实施例对最大熵模型进行了改进,将商品名称和金额的组合作为特征,所以相应地,特征指示函数也不一样,在现有的最大熵模型中,特征指示函数是一个要么是1,要么是0的二值函数,本发明实施例中的特征指示函数在满足y=yi时,其值为商品名称对应的金额。
设是p(x,y)在训练数据库中的经验分布。设约束条件为两个等值约束,第一个约束条件是对所有的x,∑yp(y|x)=1;第二个约束条件是对所有的i,建立这些约束条件下最大化H(Y|X)的拉格朗日函数L如下:
其中,λi(i=0...M)是拉格朗日乘子。对p(y|x)求偏导,并令偏导为0,得到使L最大的p(y|x)的最优解p(y|x)*,表示为:
其中,
将p(y|x)*代入拉格朗日函数L,用GIS,IIS,LBFGS等算法中的任意一种求得使L最大的λi(i=1...M),得到最优的拉格朗日乘子向量为V=(λ1,,λ2,……λM)。保存yi,λi(i=1...M),作为训练好的模型参数,用于识别。
根据前述的由拉格朗日乘子法得到的条件概率的最优解,如果给定了多个商品名称和金额的组合,即给定了多个x,可以得到如下公式:
其中,y*代表最优的行业类别。
由上述的公式以及图1可知,如果给定一个单位的多张发票,也就是说,这多张发票均为待识别发票,即待识别行业类别的发票,此处,发票的张数可以是一张,也可以是两张,也可以是两张以上,只要满足大于等于一张即可。首先执行步骤S101:提取待识别发票的预定特征,即提取多张待识别发票的商品名称和金额的组合特征,然后执行步骤S102:根据建立的预定特征与行业类别的最大熵模型,计算出待识别发票对应的行业类别,上述公式就是根据最大熵模型得到的公司,因此把经过步骤S101提取的组合特征带入到上述公式中,就可以计算出最优的行业类别,从而识别出发票的行业类别。
举一个具体的例子来说明上述得到y*的过程,比如一家公司有一张销项发票记录,明细包含可口可乐10000元,餐巾纸50元;一张进项发票记录,明细包含可口可乐原料5000元,于是得到三个组合特征,分别是(可口可乐,10000),(餐巾纸,50),以及(可口可乐原料,5000)。
由上述三个组合特征,根据公式:
可以得到这家公司为y类的可能性为:
λ(可口可乐,y)*10000+λ(可口可乐原料,y)*5000+λ(餐巾纸,y)*50
其中,λ(可口可乐,y)是文中fi(可口可乐,y)对应的模型参数,该值越大,表示可口可乐为y类企业销售的可能性越大。根据本发明实施例训练的模型,y为饮料制造企业时,上式的值最大。因此,通过该单位的两张发票包含的3件商品,可以识别出该单位属于饮料制造企业。
基于同样的发明构思,如图2所示,本申请实施例还提供了一种行业类别的识别装置,包括提取模块,用于提取待识别发票的预定特征;识别模块,用于根据建立的预定特征与行业类别的最大熵模型,计算出待识别发票对应的行业类别。
可选地,上述识别装置还包括训练模块,用于将已知行业类别的n张发票放入训练数据库中;处理所述训练数据库中每张发票的内容,得到每张发票的预定特征;建立所述预定特征与行业类别之间的特征指示函数;建立所述训练数据库中每张发票与行业类别的最大熵模型;采用拉格朗日乘子法计算所述最大熵模型,得到条件概率的最优解和最优拉格朗日乘子向量,这里的n≥1。
可选地,上述的提取模块具体用于提取待识别发票的商品名称和金额的组合特征。
可选地,上述的训练模块中建立的预定特征与行业类别之间的特征指示函数为:
其中,xa为训练数据库中n张发票的商品名称,xb为训练数据库中n张发票的金额,x为xa和xb的组合特征,y为行业类别,i的取值范围为1到M,M是xa和y的取值组合个数,M≤n×m,m为已知行业类别的n张发票的行业类别的种类个数;采用拉格朗日乘子法计算得到的条件概率的最优解为其中,Z(x)为归一化因子,而且其值为计算得到的最优拉格朗日乘子向量为V=(λ1,,λ2,……λM),上述的识别模块具体用于:
根据公式将待识别发票的商品名称xa和金额xb带入,计算得到待识别发票对应的行业类别。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种行业类别的识别方法,其特征在于,包括:
提取待识别发票的预定特征;
根据建立的所述预定特征与所述行业类别的最大熵模型,计算出所述待识别发票对应的行业类别。
2.根据权利要求1所述的识别方法,其特征在于,所述提取待识别发票的预定特征之前包括:
将已知行业类别的n张发票放入训练数据库中;
处理所述训练数据库中每张发票的内容,得到每张发票的预定特征;
建立所述预定特征与行业类别之间的特征指示函数;
建立所述训练数据库中每张发票与行业类别的最大熵模型;
采用拉格朗日乘子法计算所述最大熵模型,得到条件概率的最优解和最优拉格朗日乘子向量,其中,n≥1。
3.根据权利要求1或2所述的识别方法,其特征在于,
所述预定特征为发票的商品名称和金额的组合特征。
4.根据权利要求3所述的识别方法,其特征在于,所建立的预定特征与行业类别之间的特征指示函数为:
其中,xa为所述训练数据库中n张发票的商品名称,xb为所述训练数据库中n张发票的金额,x为xa和xb的组合特征,y为行业类别,i的取值范围为1到M,M是xa和y的取值组合个数,M≤n×m,m为所述已知行业类别的n张发票的行业类别的种类个数。
5.根据权利要求3所述的识别方法,其特征在于,所述采用拉格朗日乘子法计算得到的条件概率的最优解为:
其中,Z(x)为归一化因子,且
所得到的最优拉格朗日乘子向量V=(λ1,,λ2,……λM)。
6.根据权利要求5所述的识别方法,其特征在于,所述根据建立的所述预定特征与所述行业类别的最大熵模型,计算出所述待识别发票对应的行业类别为:根据公式将待识别发票的商品名称xa和金额xb带入,计算得到所述待识别发票对应的行业类别。
7.一种行业类别的识别装置,其特征在于,包括:
提取模块,用于提取待识别发票的预定特征;
识别模块,用于根据建立的所述预定特征与所述行业类别的最大熵模型,计算出所述待识别发票对应的行业类别。
8.根据权利要求7所述的识别装置,其特征在于,所述识别装置还包括训练模块,用于:
将已知行业类别的n张发票放入训练数据库中;
处理所述训练数据库中每张发票的内容,得到每张发票的预定特征;
建立所述预定特征与行业类别之间的特征指示函数;
建立所述训练数据库中每张发票与行业类别的最大熵模型;
采用拉格朗日乘子法计算所述最大熵模型,得到条件概率的最优解和最优拉格朗日乘子向量,其中,n≥1。
9.根据权利要求7所述的识别装置,其特征在于,所述提取模块具体用于提取待识别发票的商品名称和金额的组合特征。
10.根据权利要求8所述的识别装置,其特征在于,所述训练模块中建立的预定特征与行业类别之间的特征指示函数为:
其中,xa为所述训练数据库中n张发票的商品名称,xb为所述训练数据库中n张发票的金额,x为xa和xb的组合特征,y为行业类别,i的取值范围为1到M,M是xa和y的取值组合个数,M≤n×m,m为所述已知行业类别的n张发票的行业类别的种类个数;所述采用拉格朗日乘子法计算得到的条件概率的最优解为其中,Z(x)为归一化因子,而且其值为计算得到的最优拉格朗日乘子向量为V=(λ1,,λ2,……λM),所述识别模块具体用于:
根据公式将待识别发票的商品名称xa和金额xb带入,计算得到所述待识别发票对应的行业类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611263987.1A CN108268880A (zh) | 2016-12-30 | 2016-12-30 | 一种行业类别的识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611263987.1A CN108268880A (zh) | 2016-12-30 | 2016-12-30 | 一种行业类别的识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108268880A true CN108268880A (zh) | 2018-07-10 |
Family
ID=62755217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611263987.1A Pending CN108268880A (zh) | 2016-12-30 | 2016-12-30 | 一种行业类别的识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108268880A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740642A (zh) * | 2018-12-19 | 2019-05-10 | 北京邮电大学 | 发票类别识别方法、装置、电子设备及可读存储介质 |
CN109801118A (zh) * | 2018-12-24 | 2019-05-24 | 航天信息股份有限公司 | 识别指定行业的制造业企业的方法、装置、介质和设备 |
CN110009796A (zh) * | 2019-04-11 | 2019-07-12 | 北京邮电大学 | 发票类别识别方法、装置、电子设备及可读存储介质 |
CN110059692A (zh) * | 2019-04-16 | 2019-07-26 | 厦门商集网络科技有限责任公司 | 一种识别企业所属行业的方法及终端 |
CN110490637A (zh) * | 2019-07-15 | 2019-11-22 | 北京三快在线科技有限公司 | 商品组的推荐方法、装置、电子设备及可读存储介质 |
CN110647845A (zh) * | 2019-09-23 | 2020-01-03 | 税友软件集团股份有限公司 | 一种发票数据识别装置、相关方法及相关装置 |
CN110674248A (zh) * | 2019-09-23 | 2020-01-10 | 税友软件集团股份有限公司 | 一种行业数据识别装置、相关方法及相关装置 |
CN111340365A (zh) * | 2020-02-26 | 2020-06-26 | 深圳壹账通智能科技有限公司 | 企业数据处理方法、装置、计算机设备和存储介质 |
CN115809887A (zh) * | 2022-12-09 | 2023-03-17 | 蔷薇大树科技有限公司 | 一种基于发票数据确定企业主要经营范围的方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103336983A (zh) * | 2013-06-08 | 2013-10-02 | 上海电机学院 | 基于条形码的票据生成系统及其识别方法 |
CN103488782A (zh) * | 2013-09-30 | 2014-01-01 | 华北电力大学 | 一种利用歌词识别音乐情感的方法 |
CN103744830A (zh) * | 2013-12-31 | 2014-04-23 | 北京锐安科技有限公司 | 基于语义分析的excel文档中身份信息的识别方法 |
CN103942191A (zh) * | 2014-04-25 | 2014-07-23 | 中国科学院自动化研究所 | 一种基于内容的恐怖文本识别方法 |
CN104134128A (zh) * | 2014-08-11 | 2014-11-05 | 税友软件集团股份有限公司 | 一种发票的处理方法及系统 |
CN104834718A (zh) * | 2015-05-11 | 2015-08-12 | 苏州大学 | 基于最大熵模型的事件论元识别方法及系统 |
CN105045780A (zh) * | 2015-07-15 | 2015-11-11 | 广州敦和信息技术有限公司 | 一种发票字条语义信息的识别方法及装置 |
-
2016
- 2016-12-30 CN CN201611263987.1A patent/CN108268880A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103336983A (zh) * | 2013-06-08 | 2013-10-02 | 上海电机学院 | 基于条形码的票据生成系统及其识别方法 |
CN103488782A (zh) * | 2013-09-30 | 2014-01-01 | 华北电力大学 | 一种利用歌词识别音乐情感的方法 |
CN103744830A (zh) * | 2013-12-31 | 2014-04-23 | 北京锐安科技有限公司 | 基于语义分析的excel文档中身份信息的识别方法 |
CN103942191A (zh) * | 2014-04-25 | 2014-07-23 | 中国科学院自动化研究所 | 一种基于内容的恐怖文本识别方法 |
CN104134128A (zh) * | 2014-08-11 | 2014-11-05 | 税友软件集团股份有限公司 | 一种发票的处理方法及系统 |
CN104834718A (zh) * | 2015-05-11 | 2015-08-12 | 苏州大学 | 基于最大熵模型的事件论元识别方法及系统 |
CN105045780A (zh) * | 2015-07-15 | 2015-11-11 | 广州敦和信息技术有限公司 | 一种发票字条语义信息的识别方法及装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740642A (zh) * | 2018-12-19 | 2019-05-10 | 北京邮电大学 | 发票类别识别方法、装置、电子设备及可读存储介质 |
CN109801118A (zh) * | 2018-12-24 | 2019-05-24 | 航天信息股份有限公司 | 识别指定行业的制造业企业的方法、装置、介质和设备 |
CN110009796A (zh) * | 2019-04-11 | 2019-07-12 | 北京邮电大学 | 发票类别识别方法、装置、电子设备及可读存储介质 |
CN110059692A (zh) * | 2019-04-16 | 2019-07-26 | 厦门商集网络科技有限责任公司 | 一种识别企业所属行业的方法及终端 |
CN110490637A (zh) * | 2019-07-15 | 2019-11-22 | 北京三快在线科技有限公司 | 商品组的推荐方法、装置、电子设备及可读存储介质 |
CN110647845A (zh) * | 2019-09-23 | 2020-01-03 | 税友软件集团股份有限公司 | 一种发票数据识别装置、相关方法及相关装置 |
CN110674248A (zh) * | 2019-09-23 | 2020-01-10 | 税友软件集团股份有限公司 | 一种行业数据识别装置、相关方法及相关装置 |
CN111340365A (zh) * | 2020-02-26 | 2020-06-26 | 深圳壹账通智能科技有限公司 | 企业数据处理方法、装置、计算机设备和存储介质 |
CN115809887A (zh) * | 2022-12-09 | 2023-03-17 | 蔷薇大树科技有限公司 | 一种基于发票数据确定企业主要经营范围的方法和装置 |
CN115809887B (zh) * | 2022-12-09 | 2023-10-10 | 蔷薇大树科技有限公司 | 一种基于发票数据确定企业主要经营范围的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108268880A (zh) | 一种行业类别的识别方法及装置 | |
Wu et al. | [Retracted] An Empirical Study on Customer Segmentation by Purchase Behaviors Using a RFM Model and K‐Means Algorithm | |
Chen et al. | Predicting customer churn from valuable B2B customers in the logistics industry: a case study | |
Muûls et al. | Imports and Exports at the Level of the Firm: Evidence from Belgium | |
AU2004267843B2 (en) | Methods and systems for predicting business behavior from profiling consumer card transactions | |
US20150332414A1 (en) | System and method for predicting items purchased based on transaction data | |
CN112001754A (zh) | 用户画像生成方法、装置、设备及计算机可读介质 | |
Singh et al. | E-commerce system for sale prediction using machine learning technique | |
CN112419030B (zh) | 财务舞弊风险评估的方法、系统及设备 | |
CN109815480B (zh) | 一种数据处理方法和装置、及存储介质 | |
US11488195B1 (en) | Reward offer redemption for payment cards | |
CN111177581A (zh) | 一种基于多平台的社交电商网站商品推荐方法及装置 | |
CN108629467B (zh) | 一种样品信息处理方法及系统 | |
CN111091409B (zh) | 客户标签的确定方法、装置和服务器 | |
Hu | Predicting and improving invoice-to-cash collection through machine learning | |
US20140297372A1 (en) | Evaluation support device and evaluation support method | |
CN118096292A (zh) | 一种基于云购物的智能推荐方法及系统 | |
CN117196758A (zh) | 一种商品上架前的甄选方法、设备及介质 | |
CN115660733A (zh) | 一种基于人工智能的销量预测系统及方法 | |
CN115907840A (zh) | 交易风险的预测方法及用于交易风险预测的装置 | |
Jamaludin et al. | A Review on the Role of Big Data Analytics in the Financial Services Industry | |
CN114266594A (zh) | 一种基于东南亚跨境电商平台的大数据分析方法 | |
Niknya et al. | Financial distress prediction of Tehran Stock Exchange companies using support vector machine | |
CN110968622B (zh) | 一种会计报告定制方法、平台和终端 | |
Hassani et al. | Studying product quality by exploring credit card customers behaviour via data mining techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180710 |