CN107704455A - 一种信息处理方法及电子设备 - Google Patents

一种信息处理方法及电子设备 Download PDF

Info

Publication number
CN107704455A
CN107704455A CN201711033442.6A CN201711033442A CN107704455A CN 107704455 A CN107704455 A CN 107704455A CN 201711033442 A CN201711033442 A CN 201711033442A CN 107704455 A CN107704455 A CN 107704455A
Authority
CN
China
Prior art keywords
matrix
employment
category
information
row
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711033442.6A
Other languages
English (en)
Inventor
余刚
李维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Tide Polytron Technologies Inc
Original Assignee
Chengdu Tide Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Tide Polytron Technologies Inc filed Critical Chengdu Tide Polytron Technologies Inc
Priority to CN201711033442.6A priority Critical patent/CN107704455A/zh
Publication of CN107704455A publication Critical patent/CN107704455A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种信息处理方法及电子设备,通过将获取到的第一信息中的每个字符转化为相应的表征每个字符具体意义的第一矩阵,再基于第一矩阵进行数学变换而确定所述第一信息所具体表征的行业类别。由于所述第一矩阵可以采用数字化方式表征每个字符的具体意义,因此即使文本信息中出现使用较少的词汇或生僻词汇电子设备仍可以根据每个字符的含义而确定出该词汇的具体意义,从而实现对使用较少的词汇或生僻词汇的分析,同时本申请实施例中的技术方案还可以通过提高表征每个字符的向量维数或矩阵元素数的方式提升词汇分析精度。

Description

一种信息处理方法及电子设备
技术领域
本发明涉及电子信息处理技术领域,特别涉及一种信息处理方法及电子设备。
背景技术
目前,随着电商销售业务的快速发展,人们正越来越多的采用网上购物或电子终端购物的方式进行消费,因此,在网络购物或终端购物过程中通常需要通过电子设备对用户输入的信息进行分析以确认用户所需采购的具体商品或搜索的商品所属行业类别。而现有技术中,通常采用如下方案对用户输入的文本信息进行分析:首先采用分词技术对文本信息中的词语进行分词,然后针对特定词语建立词频或逆词频特征,再利用向量机针对特定词语进行分类。然而上述方案无法解决未登录词语的问题,并且分类精度较低、模型更新通常需要采用人工搜集和输入的方式,因此更新成本高、适用性弱。
可见,现有技术中存在着在采用电子设备对输入的文本信息进行分析以确定商品所属行业类别时,无法针对未登录词语进行分析且分析精度低的技术问题。
发明内容
本申请实施例提供一种信息处理方法及电子设备,用于解决现有技术中存在着的在采用电子设备对输入的文本信息进行分析以确定商品所属行业类别时,无法针对未登录词语进行分析且分析精度低的技术问题。
本申请实施例提供一种信息处理方法,应用于一电子设备,所述方法包括:
获取第一信息,所述第一信息包括M个字符,M为大于等于1的整数;
确定表征所述M个字符中每个字符的第一矩阵;
基于所述第一矩阵确定所述第一信息所表征的行业类别。
可选地,所述确定表征所述M个字符中每个字符的第一矩阵,包括:
确定所述M个字符中每个字符分别对应的N维向量,获得M个N维向量, N为大于等于20的整数;
将所述M个N维向量按照每个字符在所述第一信息中的顺序进行排组,获得一M行N列的所述第一矩阵。
可选地,3、如权利要求2所述的信息处理方法,其特征在于,所述基于所述第一矩阵确定所述第一信息所表征的行业类别,包括:
获得预设的K个Q行N列的第二矩阵,所述第二矩阵用以表征行业类别对应的权重值,K为大于等于80的整数,Q为大于等于3且小于M的整数;
基于所述第一矩阵和K个第二矩阵,确定出所述第一信息与K个行业类别分别一一对应的K个概率值;
确定所述K个概率值中取值最大的概率值所对应的第一行业类别为所述第一信息表征的行业类别。
4、如权利要求3所述的信息处理方法,其特征在于,所述获得K个Q行 N列的第二矩阵,包括:
获得K个3行N列的所述第二矩阵,所述第二矩阵中的每个元素属于大于等于-1且小于等于1的第一范围,且所述第二矩阵中的每个元素在所述第一范围内呈平均分布或正态分布;
所述基于所述第一矩阵和K个第二矩阵,确定出所述第一信息与K个行业类别分别一一对应的K个概率值,包括:
按照3行N列沿行数依次递增的方式将所述第一矩阵中的元素进行截取,获得M-2个3行N列的第三矩阵;
基于计算式其中Relu(x)=max(0,x), v∈[1,K],Wi,j为所述第二矩阵中第i行第j列对应的元素,Xi,j为所述第三矩阵中第i行第j列对应的元素,获得与K个第二矩阵分别一一对应的K个向量Ci,i∈{1,2,…,K};
基于计算式i∈{1,2,…,K},j∈{1,2,…,M-2},获得K个基础值Pi,i∈{1,2,…,K};
基于所述K个基础值Pi确定出所述第一信息与K个行业类别分别一一对应的K个概率值。
5、如权利要求4所述的信息处理方法,其特征在于,所述基于所述K个基础值Pi确定出所述第一信息与K个行业类别分别一一对应的K个概率值,包括:
基于所述K个基础值Pi以及公式i∈{1,2,…,K}获得所述第一信息与K个行业类别分别一一对应的K个概率值σi,i∈{1,2,…,K};
所述确定所述K个概率值中取值最大的概率值所对应的第一行业类别为所述第一信息表征的行业类别,包括:
将所述K个概率值σi,i∈{1,2,…,K}中取值最大的概率值对应的行业类别确定为所述第一信息表征的行业类别。
6、一种电子设备,其特征在于,包括:
输入装置,用以获取第一信息,所述第一信息包括M个字符,M为大于等于1的整数;
处理器,用以确定表征所述M个字符中每个字符的第一矩阵,基于所述第一矩阵确定所述第一信息所表征的行业类别。
7、如权利要求6所述的电子设备,其特征在于,所述处理器,用以确定所述M个字符中每个字符分别对应的N维向量,将所述M个N维向量按照每个字符在所述第一信息中的顺序进行排组,获得一M行N列的所述第一矩阵,其中,获得M个N维向量,N为大于等于20的整数。
8、如权利要求7所述的电子设备,其特征在于,所述处理器,用以获得预设的K个Q行N列的第二矩阵,基于所述第一矩阵和K个第二矩阵,确定出所述第一信息与K个行业类别分别一一对应的K个概率值,确定所述K个概率值中取值最大的概率值所对应的第一行业类别为所述第一信息表征的行业类别,其中,所述第二矩阵用以表征行业类别对应的权重值,K为大于等于 80的整数,Q为大于等于3且小于M的整数。
9、如权利要求8所述的电子设备,其特征在于,所述处理器,用以获得 K个3行N列的所述第二矩阵,按照3行N列沿行数依次递增的方式将所述第一矩阵中的元素进行截取,获得M-2个3行N列的第三矩阵,基于计算式获得与K个第二矩阵分别一一对应的K个向量Ci,i∈{1,2,…,K},基于计算式i∈{1,2,…,K},j∈ {1,2,…,M-2},获得K个基础值Pi,i∈{1,2,…,K},基于所述K个基础值Pi确定出所述第一信息与K个行业类别分别一一对应的K个概率值,其中,所述第二矩阵中的每个元素属于大于等于-1且小于等于1的第一范围,且所述第二矩阵中的每个元素在所述第一范围内呈平均分布或正态分布, Relu(x)=max(0,x),v∈[1,K],Wi,j为所述第二矩阵中第i行第j列对应的元素, Xi,j为所述第三矩阵中第i行第j列对应的元素。
10、如权利要求9所述的电子设备,其特征在于,所述处理器,用以基于所述K个基础值P以及公式获得所述第一信息与K个行业类别分别一一对应的K个概率值σi,i∈{1,2,…,K},将所述 K个概率值σi,i∈{1,2,…,K}中取值最大的概率值对应的行业类别确定为所述第一信息表征的行业类别。
本申请实施例中的技术方案具有如下技术效果或优点:
本申请实施例中的技术方案可以通过将获取到的第一信息中的每个字符转化为相应的表征每个字符具体意义的第一矩阵,再基于第一矩阵进行数学变换而确定所述第一信息所具体表征的行业类别。由于所述第一矩阵可以采用数字化方式表征每个字符的具体意义,因此即使文本信息中出现使用较少的词汇或生僻词汇电子设备仍可以根据每个字符的含义而确定出该词汇的具体意义,从而实现对使用较少的词汇或生僻词汇的分析,同时本申请实施例中的技术方案还可以通过提高表征每个字符的向量维数或矩阵元素数的方式提升词汇分析精度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例中一种信息处理方法的流程图;
图2为本发明实施例中一种电子设备的结构图。
具体实施方式
本申请实施例提供一种信息处理方法及电子设备,用于解决现有技术中存在着的在采用电子设备对输入的文本信息进行分析以确定商品所属行业类别时,无法针对未登录词语进行分析且分析精度低的技术问题。
本申请实施例中的技术方案可以通过将获取到的第一信息中的每个字符转化为相应的表征每个字符具体意义的第一矩阵,再基于第一矩阵进行数学变换而确定所述第一信息所具体表征的行业类别。由于所述第一矩阵可以采用数字化方式表征每个字符的具体意义,因此即使文本信息中出现使用较少的词汇或生僻词汇电子设备仍可以根据每个字符的含义而确定出该词汇的具体意义,从而实现对使用较少的词汇或生僻词汇的分析,同时本申请实施例中的技术方案还可以通过提高表征每个字符的向量维数或矩阵元素数的方式提升词汇分析精度。
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A 和B,单独存在B这三种情况。另外,本文中字符“/”,在不做特别说明的情况下,一般表示前后关联对象是一种“或”的关系。
为了更好的理解本申请的技术方案,下面将结合说明书附图以及具体的实施方式对本申请的技术方案进行详细的说明。
实施例一
请参见图1,本申请实施例提供一种信息处理方法,应用于一电子设备,所述方法包括:
步骤101:获取第一信息,所述第一信息包括M个字符,M为大于等于1 的整数。
所述第一信息可以是用户输入的字符信息,可以是通过语音输入的信息,还可以是电子设备基于预设规则而自动生成或获取的信息,等等,只要是电子设备获取到的可转化为具体字符的信息都可以作为所述第一信息。
步骤102:确定表征所述M个字符中每个字符的第一矩阵。
在现有技术中可以通过多种方式确定所述第一矩阵,例如,可以将每个字符分别映射为预设的矩阵,再将这些矩阵按照预设规则组合为一矩阵,从而得到所述第一矩阵;或者将每个字符分别映射为预设的向量,再将这些向量组合为一矩阵,从而得到所述第一矩阵,等等。在实际操作过程中可以通过多种方式获得表征所述M个字符中每个字符的第一矩阵,用户可以根据需要而自行设置,本申请实施例中的方案不做限制。
需要注意的是,由于每个表征具体字符的矩阵或向量具体可表征该字符的具体意义,因此通过所述第一矩阵可以数字化表征所述第一信息中的每个字符具体所表征的含义。本领域普通技术人员可容易得知,向量维数越多或矩阵中的元素越多,则表征字符具体含义的精确性越高,在实际操作过程中,可以根据需要而自行设置表征每个字符的向量的维数或表征每个字符的矩阵的元素数量。
步骤103:基于所述第一矩阵确定所述第一信息所表征的行业类别。
由于所述第一矩阵可表征所述第一信息中的每个字符的具体含义,因此基于所述第一矩阵可以通过多种预设的数学变换而获得所述第一矩阵对应于不同行业类别的权重数值、或权重向量、或权重矩阵。通过这些权重数值、或权重向量、或权重矩阵按照预定规则即可判断确定所述第一信息所表征的行业类别。
可见,本申请实施例中的技术方案可以通过将获取到的第一信息中的每个字符转化为相应的表征每个字符具体意义的第一矩阵,再基于第一矩阵进行数学变换而确定所述第一信息所具体表征的行业类别。由于所述第一矩阵可以采用数字化方式表征每个字符的具体意义,因此即使文本信息中出现使用较少的词汇或生僻词汇电子设备仍可以根据每个字符的含义而确定出该词汇的具体意义,从而实现对使用较少的词汇或生僻词汇的分析,同时本申请实施例中的技术方案还可以通过提高表征每个字符的向量维数或矩阵元素数的方式提升词汇分析精度。
可选地,所述确定表征所述M个字符中每个字符的第一矩阵,包括:
确定所述M个字符中每个字符分别对应的N维向量,获得M个N维向量, N为大于等于20的整数;
将所述M个N维向量按照每个字符在所述第一信息中的顺序进行排组,获得一M行N列的所述第一矩阵。
也就是说,在本申请实施例的技术方案中具体可以采用将每个字符映射为多维向量的方式以表征每个字符的含义。而在具体实施过程中可以将多维向量的维数设定为大于等于20个,具体优选为将每个字符分别映射为60维的向量。例如,当第一信息中包括M个字符时,可以将M个字符分别映射为60维的向量,从而获得M个60维向量,然后将这M个60维向量按照每个字符在第一信息中的顺序进行顺序排列,从而获得一个M行60列的第一矩阵。
可选地,所述基于所述第一矩阵确定所述第一信息所表征的行业类别,包括:
获得预设的K个Q行N列的第二矩阵,所述第二矩阵用以表征行业类别对应的权重值,K为大于等于80的整数,Q为大于等于3且小于M的整数;
基于所述第一矩阵和K个第二矩阵,确定出所述第一信息与K个行业类别分别一一对应的K个概率值;
确定所述K个概率值中取值最大的概率值所对应的第一行业类别为所述第一信息表征的行业类别。
所述第二矩阵可以为对应于某一个行业类别的加权比重,在实际操作过程中,所述第二矩阵可以基于所述第一信息的文本特征来确定,例如,可以通过文字识别的方式确定所述第一信息属于电子类文本或者文娱类文本,而与电子类文本对应的第二矩阵可以跟与文娱类文本对应的第二举证不同,在实际操作过程中可以根据需要而自行设置。因此所述第二矩阵中的每个元素可以为系统预设的值,也可以是电子设备基于预设方案而生成的值。
通过将所述第一矩阵分别与K个第二矩阵进行相应的数学换算,即可获得所述第一矩阵相对于K个行业类别分别对应的概率值,在实际操作时,可以将 K个概率值进行比较,取值最大的概率值所对应的行业类别作为所述第一信息所表征的行业类别。
可选地,所述获得K个Q行N列的第二矩阵,包括:
获得K个3行N列的所述第二矩阵,所述第二矩阵中的每个元素属于大于等于-1且小于等于1的第一范围,且所述第二矩阵中的每个元素在所述第一范围内呈平均分布或正态分布;
所述基于所述第一矩阵和K个第二矩阵,确定出所述第一信息与K个行业类别分别一一对应的K个概率值,包括:
按照3行N列沿行数依次递增的方式将所述第一矩阵中的元素进行截取,获得M-2个3行N列的第三矩阵;
基于计算式其中Relu(x)=max(0,x), v∈[1,K],Wi,j为所述第二矩阵中第i行第j列对应的元素,Xi,j为所述第三矩阵中第i行第j列对应的元素,获得与K个第二矩阵分别一一对应的K个向量Ci, i∈{1,2,…,K};
基于计算式i∈{1,2,…,K},j∈{1,2,…,M-2},获得K个基础值Pi,i∈{1,2,…,K};
基于所述K个基础值Pi确定出所述第一信息与K个行业类别分别一一对应的K个概率值。
例如,系统中可预设3个3行4列的第二矩阵如下: 这3个第二矩阵可以分别表征3 个不同行业类别所对应的权重。当电子设备获取到的第一信息中包括5个字符时,可以将5个字符分别用4维向量进行表征,从而获得一个5行4列的第一矩阵如下:此时可以按照3行4列沿行数依次递增的方式将该第一矩阵中的元素进行截取,获得3个3行4列的第三矩阵如下: 进一步地,可以再根据计算式:其中Relu(x)=max(0,x),v∈[1,K],分别获得上述3个第三矩阵与3个第二矩阵分别对应的5-2=3个C值,分别为C1、 C2、C3,其中,3个第三矩阵与第二矩阵对应的3个值 C1、C2、C3可以分别为如下:
而上述C1、C2、C3中最大的值为3.5,因此,与第二矩阵对应的基础值P1为3.5。
3个第三矩阵与第二矩阵对应的C1、C2、C3分别为:
而上述3个C值中最大的值为0,因此,与第二矩阵对应的基础值P2为0。
3个第三矩阵与第二矩阵对应的C1、C2、C3分别为:
而上述C1、C2、C3中最大的值为0,因此,与第二矩阵对应的基础值P3为6.5。
基于上述3个基础值P1、P2、P3可以通过多种计算方式确定出与3个行业类别分别一一对应的3个概率值,用户可以根据需要而自行设置,为了说明书的简洁就不一一赘述。
进一步可选地,所述基于所述K个基础值P确定出所述第一信息与K个行业类别分别一一对应的K个概率值,包括:
基于所述K个基础值Pi以及公式i∈{1,2,…,K}获得所述第一信息与K个行业类别分别一一对应的K个概率值σi,i∈{1,2,…,K};
所述确定所述K个概率值中取值最大的概率值所对应的第一行业类别为所述第一信息表征的行业类别,包括:
将所述K个概率值σi,i∈{1,2,…,K}中取值最大的概率值对应的行业类别确定为所述第一信息表征的行业类别。
也就是说,当获得了与不同行业类别相对应的基础值Pi后,可根据公式i∈{1,2,…,K}获得与K个行业类别中每个行业类别相对应的概率值σi,然后取概率值最大的行业类别作为所述第一信息所对应的行业类别。
实施例二
请参见图2,本申请实施例提供一种电子设备,其特征在于,包括:
输入装置201,用以获取第一信息,所述第一信息包括M个字符,M为大于等于1的整数;
处理器202,用以确定表征所述M个字符中每个字符的第一矩阵,基于所述第一矩阵确定所述第一信息所表征的行业类别。
具体来讲,处理器202具体可以是通用的中央处理器(CPU),可以是特定应用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC),可以是一个或多个用于控制程序执行的集成电路。
进一步的,所述电子设备还可以包括存储器,存储器的数量可以是一个或多个。存储器可以包括只读存储器(英文:Read Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)和磁盘存储器。
可选地,所述处理器202,用以确定所述M个字符中每个字符分别对应的 N维向量,将所述M个N维向量按照每个字符在所述第一信息中的顺序进行排组,获得一M行N列的所述第一矩阵,其中,获得M个N维向量,N为大于等于20的整数。
可选地,所述处理器,用以获得预设的K个Q行N列的第二矩阵,基于所述第一矩阵和K个第二矩阵,确定出所述第一信息与K个行业类别分别一一对应的K个概率值,确定所述K个概率值中取值最大的概率值所对应的第一行业类别为所述第一信息表征的行业类别,其中,所述第二矩阵用以表征行业类别对应的权重值,K为大于等于80的整数,Q为大于等于3且小于M的整数。
可选地,所述处理器,用以获得K个3行N列的所述第二矩阵,按照3 行N列沿行数依次递增的方式将所述第一矩阵中的元素进行截取,获得M-2 个3行N列的第三矩阵,基于计算式获得与 K个第二矩阵分别一一对应的K个向量Ci,i∈{1,2,…,K},基于计算式i∈{1,2,…,K},j∈{1,2,…,M-2},获得K个基础值 Pi,i∈{1,2,…,K},基于所述K个基础值Pi确定出所述第一信息与K个行业类别分别一一对应的K个概率值,其中,所述第二矩阵中的每个元素属于大于等于-1且小于等于1的第一范围,且所述第二矩阵中的每个元素在所述第一范围内呈平均分布或正态分布,Relu(x)=max(0,x),v∈[1,K],Wi,j为所述第二矩阵中第i行第j列对应的元素,Xi,j为所述第三矩阵中第i行第j列对应的元素。
可选地,所述处理器,用以基于所述K个基础值P以及公式j∈{1,2,...K},获得所述第一信息与K个行业类别分别一一对应的K个概率值σi,i∈{1,2,…,K},将所述K个概率值σi,i∈{1,2,…,K} 中取值最大的概率值对应的行业类别确定为所述第一信息表征的行业类别。
前述实施例中的信息处理方法中的各种数据处理方式和具体实例同样适用于本实施例的电子设备,通过前述实施例中对信息处理方法的详细描述,本领域技术人员可以清楚的知道本实施例中电子设备的实施方法,所以为了说明书的简洁,在此不再详述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-KOM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
具体来讲,本申请实施例中的一种信息处理方法对应的计算机程序指令可以被存储在光盘、硬盘、U盘等存储介质上,当存储介质中的与一种信息处理方法对应的计算机程序指令被一电子设备读取或被执行时,包括如下步骤:
获取第一信息,所述第一信息包括M个字符,M为大于等于1的整数;
确定表征所述M个字符中每个字符的第一矩阵;
基于所述第一矩阵确定所述第一信息所表征的行业类别。
可选地,所述存储介质中存储的与步骤:确定表征所述M个字符中每个字符的第一矩阵对应的计算机程序指令在被执行时,具体包括如下步骤:
确定所述M个字符中每个字符所对应的N维向量,获得M个N维向量, N为大于等于20的整数;
将所述M个N维向量按照每个字符在所述第一信息中的顺序进行排组,获得一M行N列的所述第一矩阵。
可选地,所述存储介质中存储的与步骤:基于所述第一矩阵确定所述第一信息所表征的行业类别对应的计算机程序指令在被执行时,具体包括如下步骤:
获得预设的K个Q行N列的第二矩阵,所述第二矩阵用以表征行业类别对应的权重值,K为大于等于80的整数,Q为大于等于3且小于M的整数;
基于所述第一矩阵和K个第二矩阵,确定出所述第一信息与K个行业类别分别一一对应的K个概率值;
确定所述K个概率值中取值最大的概率值所对应的第一行业类别为所述第一信息表征的行业类别。
可选地,所述存储介质中存储的与步骤:获得K个Q行N列的第二矩阵对应的计算机程序指令在被执行时,具体包括如下步骤:
获得K个3行N列的所述第二矩阵,所述第二矩阵中的每个元素属于大于等于-1且小于等于1的第一范围,且所述第二矩阵中的每个元素在所述第一范围内呈平均分布或正态分布;
所述基于所述第一矩阵和K个第二矩阵,确定出所述第一信息与K个行业类别分别一一对应的K个概率值对应的计算机程序指令在被执行时,具体包括如下步骤:
按照3行N列沿行数依次递增的方式将所述第一矩阵中的元素进行截取,获得M-2个3行N列的第三矩阵;
基于计算式其中Relu(x)=max(0,x),v∈[1,K],Wi,j为所述第二矩阵中第i行第j列对应的元素,Xi,j为所述第三矩阵中第i行第j列对应的元素,获得与K个第二矩阵分别一一对应的K个向量Ci, i∈{1,2,…,K};
基于计算式i∈{1,2,…,K},j∈{1,2,…,M-2},获得K个基础值Pi,i∈{1,2,…,K};
基于所述K个基础值Pi确定出所述第一信息与K个行业类别分别一一对应的K个概率值。
可选地,所述存储介质中存储的与步骤:基于所述K个基础值Pi确定出所述第一信息与K个行业类别分别一一对应的K个概率值对应的计算机程序指令在被执行时,具体包括如下步骤:
基于所述K个基础值Pi以及公式i∈{1,2,…,K}获得所述第一信息与K个行业类别分别一一对应的K个概率值σi,i∈{1,2,…,K};
所述确定所述K个概率值中取值最大的概率值所对应的第一行业类别为所述第一信息表征的行业类别对应的计算机程序指令在被执行时,具体包括如下步骤:
将所述K个概率值σi,i∈{1,2,…,K}中取值最大的概率值对应的行业类别确定为所述第一信息表征的行业类别。
由此可见,本申请实施例中的技术方案可以通过将获取到的第一信息中的每个字符转化为相应的表征每个字符具体意义的第一矩阵,再基于第一矩阵进行数学变换而确定所述第一信息所具体表征的行业类别。由于所述第一矩阵可以采用数字化方式表征每个字符的具体意义,因此即使文本信息中出现使用较少的词汇或生僻词汇电子设备仍可以根据每个字符的含义而确定出该词汇的具体意义,从而实现对使用较少的词汇或生僻词汇的分析,同时本申请实施例中的技术方案还可以通过提高表征每个字符的向量维数或矩阵元素数的方式提升词汇分析精度。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种信息处理方法,应用于一电子设备,其特征在于,所述方法包括:
获取第一信息,所述第一信息包括M个字符,M为大于等于1的整数;
确定表征所述M个字符中每个字符的第一矩阵;
基于所述第一矩阵确定所述第一信息所表征的行业类别。
2.如权利要求1所述的信息处理方法,其特征在于,所述确定表征所述M个字符中每个字符的第一矩阵,包括:
确定所述M个字符中每个字符分别对应的N维向量,获得M个N维向量,N为大于等于20的整数;
将所述M个N维向量按照每个字符在所述第一信息中的顺序进行排组,获得一M行N列的所述第一矩阵。
3.如权利要求2所述的信息处理方法,其特征在于,所述基于所述第一矩阵确定所述第一信息所表征的行业类别,包括:
获得预设的K个Q行N列的第二矩阵,所述第二矩阵用以表征行业类别对应的权重值,K为大于等于80的整数,Q为大于等于3且小于M的整数;
基于所述第一矩阵和K个第二矩阵,确定出所述第一信息与K个行业类别分别一一对应的K个概率值;
确定所述K个概率值中取值最大的概率值所对应的第一行业类别为所述第一信息表征的行业类别。
4.如权利要求3所述的信息处理方法,其特征在于,所述获得K个Q行N列的第二矩阵,包括:
获得K个3行N列的所述第二矩阵,所述第二矩阵中的每个元素属于大于等于-1且小于等于1的第一范围,且所述第二矩阵中的每个元素在所述第一范围内呈平均分布或正态分布;
所述基于所述第一矩阵和K个第二矩阵,确定出所述第一信息与K个行业类别分别一一对应的K个概率值,包括:
按照3行N列沿行数依次递增的方式将所述第一矩阵中的元素进行截取,获得M-2个3行N列的第三矩阵;
基于计算式其中Relu(x)=max(0,x),v∈[1,K],Wi,j为所述第二矩阵中第i行第j列对应的元素,Xi,j为所述第三矩阵中第i行第j列对应的元素,获得与K个第二矩阵分别一一对应的K个向量Ci,i∈{1,2,…,K};
基于计算式i∈{1,2,…,K},j∈{1,2,…,M-2},获得K个基础值Pi,i∈{1,2,…,K};
基于所述K个基础值Pi确定出所述第一信息与K个行业类别分别一一对应的K个概率值。
5.如权利要求4所述的信息处理方法,其特征在于,所述基于所述K个基础值Pi确定出所述第一信息与K个行业类别分别一一对应的K个概率值,包括:
基于所述K个基础值Pi以及公式i∈{1,2,…,K}获得所述第一信息与K个行业类别分别一一对应的K个概率值σi,i∈{1,2,…,K};
所述确定所述K个概率值中取值最大的概率值所对应的第一行业类别为所述第一信息表征的行业类别,包括:
将所述K个概率值σi,i∈{1,2,…,K}中取值最大的概率值对应的行业类别确定为所述第一信息表征的行业类别。
6.一种电子设备,其特征在于,包括:
输入装置,用以获取第一信息,所述第一信息包括M个字符,M为大于等于1的整数;
处理器,用以确定表征所述M个字符中每个字符的第一矩阵,基于所述第一矩阵确定所述第一信息所表征的行业类别。
7.如权利要求6所述的电子设备,其特征在于,所述处理器,用以确定所述M个字符中每个字符分别对应的N维向量,将所述M个N维向量按照每个字符在所述第一信息中的顺序进行排组,获得一M行N列的所述第一矩阵,其中,获得M个N维向量,N为大于等于20的整数。
8.如权利要求7所述的电子设备,其特征在于,所述处理器,用以获得预设的K个Q行N列的第二矩阵,基于所述第一矩阵和K个第二矩阵,确定出所述第一信息与K个行业类别分别一一对应的K个概率值,确定所述K个概率值中取值最大的概率值所对应的第一行业类别为所述第一信息表征的行业类别,其中,所述第二矩阵用以表征行业类别对应的权重值,K为大于等于80的整数,Q为大于等于3且小于M的整数。
9.如权利要求8所述的电子设备,其特征在于,所述处理器,用以获得K个3行N列的所述第二矩阵,按照3行N列沿行数依次递增的方式将所述第一矩阵中的元素进行截取,获得M-2个3行N列的第三矩阵,基于计算式获得与K个第二矩阵分别一一对应的K个向量Ci,i∈{1,2,…,K},基于计算式i∈{1,2,…,K},j∈{1,2,…,M-2},获得K个基础值Pi,i∈{1,2,…,K},基于所述K个基础值Pi确定出所述第一信息与K个行业类别分别一一对应的K个概率值,其中,所述第二矩阵中的每个元素属于大于等于-1且小于等于1的第一范围,且所述第二矩阵中的每个元素在所述第一范围内呈平均分布或正态分布,Relu(x)=max(0,x),v∈[1,K],Wi,j为所述第二矩阵中第i行第j列对应的元素,Xi,j为所述第三矩阵中第i行第j列对应的元素。
10.如权利要求9所述的电子设备,其特征在于,所述处理器,用以基于所述K个基础值P以及公式j∈{1,2,...K},获得所述第一信息与K个行业类别分别一一对应的K个概率值σi,i∈{1,2,…,K},将所述K个概率值σi,i∈{1,2,…,K}中取值最大的概率值对应的行业类别确定为所述第一信息表征的行业类别。
CN201711033442.6A 2017-10-30 2017-10-30 一种信息处理方法及电子设备 Pending CN107704455A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711033442.6A CN107704455A (zh) 2017-10-30 2017-10-30 一种信息处理方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711033442.6A CN107704455A (zh) 2017-10-30 2017-10-30 一种信息处理方法及电子设备

Publications (1)

Publication Number Publication Date
CN107704455A true CN107704455A (zh) 2018-02-16

Family

ID=61176814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711033442.6A Pending CN107704455A (zh) 2017-10-30 2017-10-30 一种信息处理方法及电子设备

Country Status (1)

Country Link
CN (1) CN107704455A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115455987A (zh) * 2022-11-14 2022-12-09 合肥高维数据技术有限公司 基于字频词频的字符分组方法、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110054974A1 (en) * 2009-09-01 2011-03-03 Pioneer Hi-Bred International, Inc. Allocation of resources across an enterprise
CN105975987A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 一种基于全自动学习的企业行业分类方法
CN106682217A (zh) * 2016-12-31 2017-05-17 成都数联铭品科技有限公司 一种基于自动信息筛选学习的企业二级行业分类方法
CN106779467A (zh) * 2016-12-31 2017-05-31 成都数联铭品科技有限公司 基于自动信息筛选的企业行业分类系统
CN106874923A (zh) * 2015-12-14 2017-06-20 阿里巴巴集团控股有限公司 一种商品的风格分类确定方法及装置
CN107038480A (zh) * 2017-05-12 2017-08-11 东华大学 一种基于卷积神经网络的文本情感分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110054974A1 (en) * 2009-09-01 2011-03-03 Pioneer Hi-Bred International, Inc. Allocation of resources across an enterprise
CN106874923A (zh) * 2015-12-14 2017-06-20 阿里巴巴集团控股有限公司 一种商品的风格分类确定方法及装置
CN105975987A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 一种基于全自动学习的企业行业分类方法
CN106682217A (zh) * 2016-12-31 2017-05-17 成都数联铭品科技有限公司 一种基于自动信息筛选学习的企业二级行业分类方法
CN106779467A (zh) * 2016-12-31 2017-05-31 成都数联铭品科技有限公司 基于自动信息筛选的企业行业分类系统
CN107038480A (zh) * 2017-05-12 2017-08-11 东华大学 一种基于卷积神经网络的文本情感分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YE ZHANG等: "A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification", 《HTTPS://ARXIV.ORG/ABS/1510.03820》 *
YELBOSH: "卷积神经网络CNN在自然语言处理中的应用", 《HTTPS://WWW.CNBLOGS.COM/YELBOSH/P/5808706.HTML》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115455987A (zh) * 2022-11-14 2022-12-09 合肥高维数据技术有限公司 基于字频词频的字符分组方法、存储介质及电子设备
CN115455987B (zh) * 2022-11-14 2023-05-05 合肥高维数据技术有限公司 基于字频词频的字符分组方法、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN110287312A (zh) 文本相似度的计算方法、装置、计算机设备及计算机存储介质
CN108256568A (zh) 一种植物种类识别方法以及装置
CN109446430A (zh) 产品推荐的方法、装置、计算机设备及可读存储介质
JPWO2006073081A1 (ja) 識別用データ学習システム、学習装置、識別装置及び学習方法
CN109299258A (zh) 一种舆情事件检测方法、装置及设备
Samadiani et al. A neural network-based approach for recognizing multi-font printed English characters
CN110489545A (zh) 文本分类方法及装置、存储介质、计算机设备
CN112199862B (zh) 纳米粒子运移的预测方法、其影响因子分析方法及系统
CN111860671A (zh) 分类模型训练方法、装置、终端设备和可读存储介质
CN110263808B (zh) 一种基于lstm网络和注意力机制的图像情感分类方法
CN112785005A (zh) 多目标任务的辅助决策方法、装置、计算机设备及介质
CN109189922A (zh) 评论评估模型的训练方法和装置
CN113435531B (zh) 零样本图像分类方法、系统、电子设备及存储介质
CN110335061A (zh) 交易模式画像建立方法、装置、介质及电子设备
CN110147798A (zh) 一种可用于网络信息检测的语义相似度学习方法
CN107704455A (zh) 一种信息处理方法及电子设备
CN109255377A (zh) 仪器识别方法、装置、电子设备及存储介质
US20220139069A1 (en) Information processing system, information processing method, and recording medium
Elishakoff et al. Uncertainty quantification based on pillars of experiment, theory, and computation. Part I: Data analysis
Sharma et al. Machine-learning classification of two-dimensional vortex configurations
US20070223821A1 (en) Pattern recognition method
Szilágyi Robust Spherical Shell Clustering Using Fuzzy‐Possibilistic Product Partition
Gunes et al. Detecting direction of pepper stem by using CUDA-based accelerated hybrid intuitionistic fuzzy edge detection and ANN
CN113032443A (zh) 用于处理数据的方法、装置、设备和计算机可读存储介质
CN113160126A (zh) 硬件木马检测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180216