CN111104791B - 行业信息获取方法和装置、电子设备和介质 - Google Patents

行业信息获取方法和装置、电子设备和介质 Download PDF

Info

Publication number
CN111104791B
CN111104791B CN201911115346.5A CN201911115346A CN111104791B CN 111104791 B CN111104791 B CN 111104791B CN 201911115346 A CN201911115346 A CN 201911115346A CN 111104791 B CN111104791 B CN 111104791B
Authority
CN
China
Prior art keywords
industry
vocabulary
identified
information
text length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911115346.5A
Other languages
English (en)
Other versions
CN111104791A (zh
Inventor
胡作海
杜波
周晗
范成
柳超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jindi Technology Co Ltd
Original Assignee
Beijing Jindi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jindi Technology Co Ltd filed Critical Beijing Jindi Technology Co Ltd
Priority to CN201911115346.5A priority Critical patent/CN111104791B/zh
Publication of CN111104791A publication Critical patent/CN111104791A/zh
Application granted granted Critical
Publication of CN111104791B publication Critical patent/CN111104791B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本公开实施例公开了一种行业信息获取方法和装置、电子设备和介质,其中,方法包括:将待识别对象输入神经网络,利用所述神经网络预测所述待识别对象中的行业词汇,之后,从行业目录信息中获取与所述待识别对象中的行业词汇匹配的行业词汇中文本长度最长的行业词汇,进而基于所述文本长度最长的行业词汇确定所述待识别对象的行业信息。本公开实施例实现了基于神经网络预测模型的行业信息获取,可用于经济实体的分类、搜索服务和实体推荐中。

Description

行业信息获取方法和装置、电子设备和介质
技术领域
本公开涉及自然语言处理和及其学习计算领域,尤其是一种行业信息获取方法和装置、电子设备和介质。
背景技术
经济实体(例如公司、合伙制企业、个人独资企业、个体户等)名称中包含很多信息,例如经济实体名称中通常包含字号、地址、行业和公司后缀等信息。
在实现本公开的过程中,本发明人通过研究发现,经济实体名称中的行业信息有很大的利用价值,它较为精准地确定了经济实体的所属行业或主营业务范围,这对经济实体的分类,搜索服务和实体推荐等具体应用有很大的帮助。因此,从经济实体名称中获取行业信息是一项有价值的工作。
现有的行业信息获取方法,主要依靠规则和积累的方式。其中,由于人工定义的规则无法包含所有的命名方式,获取方法缺少泛化能力,使得依靠规则方式获取的行业词汇存在不准确的情况,获取的行业词汇不完整、不准确。而通过积累方式形成的行业信息目录缺乏对新行业词汇的发现能力,无法获取新的行业词汇。
发明内容
有鉴于此,本公开实施例提供一种行业信息获取方法和装置、电子设备和介质。
本公开实施例提供的一种行业信息获取方法,包括:
将待识别对象输入神经网络,利用所述神经网络预测所述待识别对象中的行业词汇;
从行业目录信息中获取与所述待识别对象中的行业词汇匹配的行业词汇中文本长度最长的行业词汇;
基于所述文本长度最长的行业词汇确定所述待识别对象的行业信息。
可选地,在本公开上述各方法实施例中,所述训练样本包括以下任意一项或多项的名称:公司,合伙制企业,个人独资企业,个体户。
可选地,在本公开上述各方法实施例中,所述行业目录信息基于所述神经网络对多个待识别对象预测的行业词汇构建得到。
可选地,在本公开上述各方法实施例中,所述行业目录信息包括至少一个层级的行业词汇,较高层级的行业词汇的文本长度小于较低层级的行业词汇的文本长度;
基于所述神经网络对多个待识别对象预测的行业词汇构建得到所述行业目录信息,包括:
基于所述神经网络分别预测多个待识别对象中的行业词汇;
识别所述多个待识别对象中的行业词汇的文本长度和相互之间包含关系,将文本长度最短的行业词汇作为最高层级的目录,按照文本长度较短的行业词汇包含于文本长度较长的行业词汇、文本长度较短的行业词汇的层级高于文本长度较长的行业词汇的层级的原则,基于所述多个待识别对象中的行业词汇架构至少一个层级的目录,得到所述行业目录信息。
可选地,在本公开上述各方法实施例中,所述基于所述神经网络分别预测多个待识别对象中的行业词汇之后,还包括:
对所述多个待识别对象中的行业词汇进行聚类;
所述识别所述多个待识别对象中的行业词汇的文本长度和相互之间包含关系,包括:识别聚类后的所述多个待识别对象中的行业词汇的文本长度和相互之间包含关系,以基于聚类后的所述多个待识别对象中的行业词汇架构至少一个层级的目录,得到所述行业目录信息。
可选地,在本公开上述各方法实施例中,还包括:
按照预设周期获取至少一个新增待识别对象;
基于所述神经网络分别预测所述至少一个新增待识别对象中的行业词汇;
基于所述新增待识别对象中的行业词汇与所述行业目录信息中行业词汇的文本长度和包含关系,对所述行业目录信息进行更新。
可选地,在本公开上述各方法实施例中,所述基于所述神经网络分别预测所述至少一个新增待识别对象中的行业词汇之后,还包括:
对所述至少一个新增待识别对象中的行业词汇和所述行业目录信息中的行业词汇进行聚类;
所述基于所述新增待识别对象中的行业词汇与所述行业目录信息中行业词汇的文本长度和包含关系,对所述行业目录信息进行更新,包括:基于聚类后的所述新增待识别对象中的行业词汇与所述行业目录信息中行业词汇的文本长度和包含关系,对所述行业目录信息进行更新。
可选地,在本公开上述各方法实施例中,所述将待识别对象输入神经网络之前,还包括:
接收搜索请求,所述搜索请求中包括所述待识别对象;
基于所述搜索请求进行搜索,得到多个候选对象;
所述基于所述文本长度最长的行业词汇确定所述待识别对象的行业信息之后,还包括:
基于所述行业信息对所述候选对象进行排序,并返回搜索结果,所述搜索结果中包括排序后的候选对象。
可选地,在本公开上述各方法实施例中,所述基于所述文本长度最长的行业词汇确定所述待识别对象的行业信息之后,还包括:
获取与所述待识别对象的行业信息匹配度最高的至少一个推荐对象;
返回搜索结果,所述搜索结果中包括所述多个候选对象和所述至少一个推荐对象。
可选地,在本公开上述各方法实施例中,所述神经网络的训练,包括:
利用所述神经网络标注所述训练样本中各词的词性;所述训练样本上标注有行业词汇信息,所述训练样本上标注的行业词汇信息包括:所述训练样本中各词的词性;
根据所述神经网络标注的所述训练样本中各词的词性与所述训练样本上标注的各词的词性之间的差异,对所述神经网络进行训练。
可选地,在本公开上述各方法实施例中,所述基于训练样本对所述神经网络进行训练之前,还包括:
分别从样本数据库中采样多个数量的候选样本,并获取每个数量的候选样本中各类别的候选样本所占的比例;
分别基于所述多个数量的候选样本中各类别的候选样本所占的比例,对所述多个数量的候选样本中各类别的候选样本的数量进行加权求和,得到所述多个数量中各类别的候选样本的总数量;
分别获取各类别的候选样本的总数量与所述多个数量之和的比例,得到各类别训练样本的采集比例;
分别基于各类别训练样本的采集比例与训练样本的总数量,从样本数据库采集相应数量的各类别训练样本。
可选地,在本公开上述各方法实施例中,所述从样本数据库采集相应数量的各类别训练样本之后,还包括:
分别对各训练样本进行分词,并统计所有训练样本中各词的频率,得到词频表;
基于左右熵标准过滤掉所述词频表中的高频词汇中的噪声词汇,基于置信度标准从所述词频表中的低频词汇中筛选出行业词汇,得到行业词汇集;
基于所述行业词汇集,对所述训练样本进行词性标注。
可选地,在本公开上述各方法实施例中,所述基于所述行业词汇集,对所述训练样本进行词性标注,包括:
基于最长匹配原则将训练样本与所述行业词汇集进行匹配;
利用开始中间结尾其他BIEO序列标注法,对所述训练样本中匹配出的各词进行BIEO词性标注。
根据本公开实施例的另一个方面,提供的一种行业信息获取装置,包括:
预测模块,用于利用神经网络预测待识别对象中的行业词汇;
第一获取模块,用于从行业目录信息中获取与所述待识别对象中的行业词汇匹配的行业词汇中文本长度最长的行业词汇;
确定模块,用于基于所述文本长度最长的行业词汇确定所述待识别对象的行业信息。
可选地,在本公开上述各装置实施例中,所述训练样本包括以下任意一项或多项的名称:公司,合伙制企业,个人独资企业,个体户。
可选地,在本公开上述各装置实施例中,还包括:
构建模块,用于基于所述神经网络对多个待识别对象预测的行业词汇构建得到所述行业目录信息。
可选地,在本公开上述各装置实施例中,所述行业目录信息包括至少一个层级的行业词汇,较高层级的行业词汇的文本长度小于较低层级的行业词汇的文本长度;
所述预测模块具体用于基于所述神经网络分别预测多个待识别对象中的行业词汇;
所述构建模块包括:
识别单元,用于识别所述多个待识别对象中的行业词汇的文本长度和相互之间包含关系;
构建单元,用于将文本长度最短的行业词汇作为最高层级的目录,按照文本长度较短的行业词汇包含于文本长度较长的行业词汇、以及文本长度较短的行业词汇的层级高于文本长度较长的行业词汇的层级的原则,基于所述多个待识别对象中的行业词汇架构至少一个层级的目录,得到所述行业目录信息。
可选地,在本公开上述各装置实施例中,所述构建模块还包括:
聚类单元,用于对所述多个待识别对象中的行业词汇进行聚类;
所述识别单元,具体用于识别所述聚类单元聚类后的所述多个待识别对象中的行业词汇的文本长度和相互之间包含关系,以便所述构建单元基于所述聚类单元聚类后的所述多个待识别对象中的行业词汇架构至少一个层级的目录,得到所述行业目录信息。
可选地,在本公开上述各装置实施例中,还包括:
第二获取模块,用于按照预设周期获取至少一个新增待识别对象;
所述预测模块,用于基于所述神经网络分别预测所述至少一个新增待识别对象中的行业词汇;
更新模块,用于基于所述新增待识别对象中的行业词汇与所述行业目录信息中行业词汇的文本长度和包含关系,对所述行业目录信息进行更新。
可选地,在本公开上述各装置实施例中,所述聚类单元,用于对所述至少一个新增待识别对象中的行业词汇和所述行业目录信息中的行业词汇进行聚类;
所述识别单元,还用于识别聚类后的所述新增待识别对象中的行业词汇与所述行业目录信息中行业词汇的文本长度和包含关系;
所述更新模块,还用于基于聚类后的所述新增待识别对象中的行业词汇与所述行业目录信息中行业词汇的文本长度和包含关系,对所述行业目录信息进行更新。
可选地,在本公开上述各装置实施例中,还包括:
接收模块,用于接收搜索请求,所述搜索请求中包括所述待识别对象;
搜索模块,用于基于所述搜索请求进行搜索,得到多个候选对象;
反馈模块,用于基于所述确定模块确定的行业信息对所述候选对象进行排序,并返回搜索结果,所述搜索结果中包括排序后的候选对象。
可选地,在本公开上述各装置实施例中,所述反馈模块包括:
推荐单元,用于获取与所述待识别对象的行业信息匹配度最高的至少一个推荐对象;
返回单元,用于返回搜索结果,所述搜索结果中包括所述多个候选对象和所述至少一个推荐对象。
可选地,在本公开上述各装置实施例中,还包括:
标注模块,用于利用所述神经网络标注所述训练样本中各词的词性;所述训练样本上标注的行业词汇信息包括:所述训练样本中各词的词性;基于训练样本对所述神经网络进行训练;
训练模块,用于根据所述神经网络标注的所述训练样本中各词的词性与所述训练样本上标注的各词的词性之间的差异,对所述神经网络进行训练。
可选地,在本公开上述各装置实施例中,所述标注模块包括:
匹配单元,用于基于最长匹配原则将训练样本与所述行业词汇集进行匹配;
标注单元,用于利用开始中间结尾其他BIEO序列标注法,对所述训练样本中匹配出的各词进行BIEO词性标注。
可选地,在本公开上述各装置实施例中,还包括:
采样模块,用于分别从样本数据库中采样多个数量的候选样本,并获取每个数量的候选样本中各类别的候选样本所占的比例;
加权求和模块,用于分别基于所述多个数量的候选样本中各类别的候选样本所占的比例,对所述多个数量的候选样本中各类别的候选样本的数量进行加权求和,得到所述多个数量中各类别的候选样本的总数量;
计算模块,用于分别获取各类别的候选样本的总数量与所述多个数量之和的比例,得到各类别训练样本的采集比例;
采集模块,用于分别基于各类别训练样本的采集比例与训练样本的总数量,从样本数据库采集相应数量的各类别训练样本。
可选地,在本公开上述各装置实施例中,还包括:
分词模块,用于分别对所述采集模块采集的各类别训练样本进行分词,并统计所有训练样本中各词的频率,得到词频表;
筛选模块,用于基于左右熵标准过滤掉所述词频表中的高频词汇中的噪声词汇,基于置信度标准从所述词频表中的低频词汇中筛选出行业词汇,得到行业词汇集;
所述标注模块,用于基于所述行业词汇集,对所述训练样本进行词性标注。
根据本公开实施例的又一个方面,提供的一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行本公开上述任一实施例的行业词汇自动抽取方法。
根据本公开实施例的还一个方面,提供了一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本公开上述任一实施例的行业信息获取方法。
基于本公开上述实施例提供的行业信息获取方法和装置、电子设备和介质,获取待识别对象的行业信息时,将待识别对象输入神经网络,利用神经网络预测待识别对象中的行业词汇,之后从行业目录信息获取与该待识别对象中的行业词汇匹配的行业词汇中文本长度最长的行业词汇,以便可以获取到与待识别对象匹配度最高的行业词汇,然后基于所述文本长度最长的行业词汇确定待识别对象的行业信息。本公开实施例可用于对待识别对象的行业分类,以便基于待识别对象进行个性化的搜索服务、行业信息推荐等等。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1为本公开行业信息获取方法一个实施例的流程图。
图2为本公开行业信息获取方法另一个实施例的流程图。
图3为本公开行业信息获取方法一个应用实施例的示意图。
图4为本公开行业信息获取方法又一个实施例的流程图。
图5为本公开行业信息获取方法再一个实施例的流程图。
图6为本公开行业信息获取装置一个实施例的结构示意图。
图7为本公开行业信息获取装置另一个实施例的结构示意图。
图8为本公开行业信息获取装置又一个实施例的结构示意图。
图9为本公开行业信息获取装置再一个实施例的结构示意图。
图10为本公开电子设备实施例的一个示例性框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
图1为本公开行业信息获取方法一个实施例的流程图。如图1所示,该实施例的行业信息获取方法包括:
101,将待识别对象输入神经网络,利用神经网络预测待识别对象中的行业词汇。
本公开实施例中的待识别对象,可以包括但不限于任意经济实体的名称、个人名称或其他任意信息等,其中的经济实体可以是公司、合伙制企业、个人独资企业、个体户等等任意经济实体。其中的公司可以是无限责任公司、有限责任公司、股份有限公司,也可以是非盈利性的社会团体、事业机构等。本公开实施例对经济实体的类型不做任何限制。
本公开实施例的神经网络可以基于训练样本训练得到,其中的训练样本上标注有行业词汇信息。
在其中一些实施方式中,本公开实施例中的训练样本,例如可以包括但不限于以下任意一项或多项的名称:公司、合伙制企业、个人独资企业、个体户等等任意经济实体。其中的公司可以是无限责任公司、有限责任公司、股份有限公司,也可以是非盈利性的社会团体、事业机构等。本公开对训练样本的经济实体类型不做任何限制。
103,从行业目录信息中获取与待识别对象中的行业词汇匹配的行业词汇中文本长度最长的行业词汇。
本公开实施例中的行业目录信息,可以包括至少一个层级的行业词汇,较高层级的行业词汇的文本长度小于较低层级的行业词汇的文本长度。
105,基于所述文本长度最长的行业词汇确定待识别对象的行业信息。
在其中一些实施方式中,操作106中,可以直接以所述文本长度最长的行业词汇作为待识别对象的行业信息,或者,也可以以所述文本长度最长的行业词汇基于预设对应关系对应的行业信息作为待识别对象的行业信息。
本公开的实施例中,利用神经网络预测待识别对象中的行业词汇,之后从行业目录信息获取与该待识别对象中的行业词汇匹配的行业词汇中文本长度最长的行业词汇,以便获取到与待识别对象匹配度最高的行业词汇,然后基于该文本长度最长的行业词汇确定待识别对象的行业信息,由此实现了对待识别对象行业信息的准确获取。本公开实施例可用于对待识别对象的的行业分类,以便基于待识别对象进行个性化的搜索服务、行业信息推荐等等。
在其中一些实施方式中,本公开是实施例中的神经网络,可以采用Bert+bi-lstm+crf模型实现。其中,Bert(Bidirectional Encoder Representation from Transformers,基于双向编码器的语言表征)模型是一种基于双向转换器(Transformer)的大规模预训练语言模型,其中Bidirectional(双向)表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息,因此基于bert模型的词性标注方法比其他词性标注方法更加准确;bi-lstm(long short term memory,长短期记忆)是一种双向循环神经网络,属于循环神经网络(RNN)的一种;crf(Conditional Random Field,条件随机场)模型可用于构造在给定一组输入随机变量的条件下,另一组输出随机变量的条件概率分布模型。本公开实施例中,神经网络基于Bert模型、bi-lstm模型和crf模型的结合实现,可以在预测行业词汇方面有更好的应用效果。
图2为本公开行业信息获取方法另一个实施例的流程图。如图2所示,基于神经网络对多个待识别对象预测的行业词汇构建得到行业目录信息的过程,可以包括:
201,基于神经网络分别预测多个待识别对象中的行业词汇。
203,识别多个待识别对象中的行业词汇的文本长度和相互之间包含关系,将文本长度最短的行业词汇作为最高层级的目录,按照文本长度较短的行业词汇包含于文本长度较长的行业词汇、以及文本长度较短的行业词汇的层级高于文本长度较长的行业词汇的层级的原则,基于多个待识别对象中的行业词汇架构至少一个层级的目录,得到行业目录信息。
例如,通过上述神经网络分别预测出了多个待识别对象的行业词汇,包括:知识产权、知识产权服务、知识产权代理、国际知识产权代理、服务、文化创意服务、咨询服务、人力咨询服务、房地产咨询服务、信息咨询服务、出国咨询服务、教育信息咨询服务、贸易信息咨询服务、房屋信息咨询服务、装载机、装载机配件等。根据这些行业词汇的文本长度和相互包含关系,基于文本长度较短的行业词汇包含于文本长度较长的行业词汇、文本长度较短的行业词汇的层级高于文本长度较长的行业词汇的层级的原则,构建行业目录信息。如图3所示,知识产权、服务和装载机放在行业目录的第一层级,知识产权服务、知识产权代理等文本长度第二长的词汇放在第二层级且均含有“知识产权”词汇,包含于“知识产权”,应当放在知识产权的下一级,同理,文化创意服务和人力咨询服务等文本长度第二长的词汇也放在第二层级且放在服务的下一级,而与文化创意服务相比文本长度更短一些的咨询服务,其文本长度不属于第一层级范围内,同时其内容包含于服务中,因此咨询服务也放在第二层级,装载机配件放在第二层级且放在装载机的下一级。由此类推,国际知识产权代理放在第三层级且放在知识产权代理的下面,房地产咨询服务、信息咨询服务和出国咨询服务均放在第三层级且放在咨询服务的下面,而教育信息咨询服务、贸易信息咨询服务和房屋信息咨询服务均放在第四层级且放在信息咨询服务的下面。由此,将神经网络预测出的所有行业词汇按照文本长度和包含关系依次分配到不同的层级,形成了包含与被包含关系的行业目录信息。
在其中一些实施方式中,在步骤201之后,还可包括以下步骤:
对多个待识别对象中的行业词汇进行聚类;
识别多个待识别对象中的行业词汇的文本长度和相互之间包含关系,包括:识别聚类后的多个待识别对象中的行业词汇的文本长度和相互之间包含关系,以基于聚类后的多个待识别对象中的行业词汇架构至少一个层级的目录,得到行业目录信息。
其中,现有经济实体中有一些行业词汇的表述虽然不同但含义相近,为了提升行业目录信息应用的准确性,需要对同义的行业词汇进行聚类。这里,聚类方法包括Word2vec(Word2vector,词向量)方法,即利用Word2vec方法将行业词汇转化为几何空间中的向量,进而可以用包括但不限于以下任意一项向量计算方法:cosine(余弦距离)值,向量间的欧式距离,Tanimoto(谷本)系数等来计算行业词汇之间的相似性,通过设置较高阈值对多个待识别对象中的行业词汇进行聚类。
在另外一些实施方式中,在步骤201之后,还可包括以下步骤:
按照预设周期获取至少一个新增待识别对象;
基于神经网络分别预测至少一个新增待识别对象中的行业词汇;
基于新增待识别对象中的行业词汇与行业目录信息中行业词汇的文本长度和包含关系,对行业目录信息进行更新。
其中,新增待识别对象可以是从在工商备案的企业信息数据库或其他官方数据库中获取。本公开不限制新增待识别对象的获取方法。
其中,当新增待识别对象中的行业词汇包含于行业目录信息中的行业词汇时,比较该新增待识别对象中的行业词汇文本长度与行业目录信息中行业词汇的文本长度最接近的行业词汇;如行业目录信息包括三层目录结构,第一层为服务,第二层包括文化创意服务和咨询服务两个词汇,当新增待识别对象中的行业词汇为“出国咨询服务”时,“出国咨询服务”文本长度大于第二层的词汇文本长度,并且该“出国咨询服务”包含于“咨询服务”,因此该新增待识别对象中的行业词汇放于该行业目录信息中“咨询服务”的下一层。当新增待识别对象中的行业词汇不包含于行业目录信息中的行业词汇时,如当新增待识别对象中的行业词汇为“人力资源服务”时,该“人力资源服务”文本长度等于第二层的词汇文本长度,同时该“人力资源服务”不包含于“文化创意服务”和“咨询服务”,因此该新增待识别对象中的行业词汇放于该行业目录信息中的第二层。由此,根据“较短行业词汇包含于较长行业词汇,则较短行业词汇是较长行业词汇的上级目录”的原则,实现行业目录信息的更新。
在另外一些实施方式中,在步骤201之后,还可包括以下步骤:对至少一个新增待识别对象中的行业词汇和行业目录信息中的行业词汇进行聚类。相应地,基于新增待识别对象中的行业词汇与行业目录信息中行业词汇的文本长度和包含关系,对行业目录信息进行更新,可以包括:基于聚类后的新增待识别对象中的行业词汇与行业目录信息中行业词汇的文本长度和包含关系,对行业目录信息进行更新。
其中,对至少一个新增待识别对象中的行业词汇和行业目录信息中的行业词汇进行聚类,同样是为了提升行业目录信息应用的准确性,将该至少一个新增待识别对象中的行业词汇与行业目录信息中的相似行业词汇进行聚类。
本公开的实施例中,基于神经网络预测得到的待识别对象的行业词汇来自动构建行业目录信息,能解决依靠规则和积累的方法构建行业目录信息所带来的行业词汇信息不完整和不准确等缺陷,同时通过新增待识别对象的方式对行业目录信息进行更新,能发现最新行业领域的行业信息,对于精准、准确地确定经济实体的所属行业或主营业务范围有很大的帮助。
另外,在本公开上述实施例之前,还可以预先基于训练样本对神经网络进行训练。如图4所示,基于训练样本对神经网络进行训练可以包括:
401,利用神经网络标注训练样本中各词的词性。
其中,训练样本上标注有行业词汇信息,训练样本上标注的行业词汇信息包括:训练样本中各词的词性。
403,根据神经网络标注的训练样本中各词的词性与训练样本上标注的各词的词性之间的差异,对神经网络进行训练,即对神经网络的参数进行调整。
其中,上述对神经网络的训练操作401-403为迭代执行的操作,直至满足训练完成条件。其中的训练条件例如可以包括但不限于:对神经网络的训练次数(即上述迭代执行次数)达到预设次数,和/或神经网络标注的训练样本中各词的词性与训练样本上标注的各词的词性之间的差异小于预设差异。本公开不限制对神经网络进行训练的结束条件类型。
在其中一些可选实施方式中,上述步骤401可以包括:
基于最长匹配原则将训练样本与所述行业词汇集进行匹配;
利用BIEO序列标注法,对所述训练样本中匹配出的各词进行BIEO词性标注。这里‘B’表示一个行业词汇的开始(Begin,开始),‘I’表示行业词汇的中间词(Intermediate,中间),‘E’表示一个行业词汇的结尾(End,结尾),‘O’表示非行业词汇(Other,其他)。
本公开的实施例中,BIEO标注法有更强的语义表达能力和预测能力,利用已知领域的已标注各词词性的行业词汇训练得到的神经网络,来预测该已知领域的行业词汇,能保证预测结果更加准确。
图5为本公开行业信息获取方法再一个实施例的流程图。如图5所示,在基于训练样本对神经网络进行训练之前,还可以包括:
501,分别从样本数据库中采样多个数量的候选样本,并获取每个数量的候选样本中各类别的候选样本所占的比例。
503,分别基于多个数量的候选样本中各类别的候选样本所占的比例,对多个数量的候选样本中各类别的候选样本的数量进行加权求和,得到多个数量中各类别的候选样本的总数量。
505,获取各类别的候选样本的总数量与多个数量之和的比例,得到各类别训练样本的采集比例。
507,分别基于各类别训练样本的采集比例与训练样本的总数量,从样本数据库采集相应数量的各类别训练样本。
例如,首先按照40万,80万,120万,160万等不断累加(有放回)的方式从1.7亿的经济实体名称中随机取样,统计不同经济实体类别(如股份有限公司,有限责任公司,个人独资企业,个体工商户等,依照工商信息中的公司类型确定)所占比例,比如股份有限公司在上述四次抽样中所占比例分别是10%、15%、20%和30%,有限责任公司在上述四次抽样中所占比例分别是30%、30%、40%和30%,个人独资企业在上述四次抽样中所占比例分别是30%、20%、10%和20%,个体工商户在上述四次抽样中所占比例分别是30%、35%、30%和20%;之所以要按照不同实体类别进行统计,是因为不同的实体类别有着不同的命名规则,如公司名常常是“地址+字号+行业+后缀”的命名方式,而个体户常常没有后缀。然后,以加权的方式确定各类别最终比例即(40*0.1+80*0.15+120*0.2+160*0.3):(40*0.3+80*0.3+120*0.4+160*0.3):(40*0.3+80*0.2+120*0.1+160*0.2):(40*0.3+80*0.35+120*0.3+160*0.2)=88:132:72:108=22:33:18:27;最后,例如训练样本总量为100万,则并按照此比例从所有实体中分别抽取22万股份有限公司、33万有限责任公司、18万个人独资企业和27万个体工商户。通过加权的自助法采样,可以较为近似估计出总体按类别的分布,使得筛选的训练样本的分布能够近似代表总体分布。
可选地,再参见图5,在基于上述实施例从样本数据库采集相应数量的各类别训练样本之后,还可以包括:
509,分别对各训练样本进行分词,并统计所有训练样本中各词的频率,得到词频表。
在其中一些可能的实施方式中,可以利用n-gram模型(Chinese Language Model,汉语语言模型)统计所有训练样本中各词的频率,其中,n为大于0的整数。该n-gram模型考虑每一个词的出现和前面n-1个词的条件概率,如2-gram表示前面出现某个词后后面出现该词的概率,得到n个词的联合概率,统计高频词汇,构造词频表。该n-gram模型是基于“一个词的出现和前面n-1个词的出现有关”的原理提出的,即如果一个词是行业词汇,那么该词出现的频率较高,更加贴近真实情况。
511,基于左右熵标准过滤掉词频表中的高频词汇中的噪声词汇,基于置信度标准从词频表中的低频词汇中筛选出行业词汇,得到行业词汇集。
其中,上述标注模块具体用于基于行业词汇集,对训练样本进行词性标注。
其中,左右熵标准是通过左右熵的取值来判断的。左右熵反映一个词的自由度的指标,它利用周围的信息来反映这个词的稳定性。在公司行业词汇的提取中,如果某个词汇是字号,那么其左右出现的词汇就会很多个,如:字号“宏达”周围会出现各种行业词汇和地址,那么这个词就是不稳定的;相反如果某个词汇是行业词汇那么其周围出现的词汇就会少很多,如技术,其左右出现的词汇基本和行业相关,要稳定很多。这种稳定性就可以用左右熵来衡量,其计算公式为:
其中s(w)表示在词w附近出现的词汇集合,p(a)表示w出现的概率。
其中,置信度标准是通过置信度的取值来判断的。置信度是反映一个词和另一个词的结合度,计算公式为:
其中,w1表示高频行业词汇,w2是低频行业词汇,该公式表示当w2出现时,w1出现的概率,如果P值较高,可以认为w2每次出现时基本与行业词汇w1共现,那么可以认为w1和w2均为行业词汇。
本公开的实施例中,采用基于加权的自助法采样方法获取待训练样本,考虑了不同的实体类别有着不同的命名规则,通过加权的自助法采样,可以较为近似估计出总体按类别的分布,使得抽取的训练样本的分布能够近似代表总体分布;同时,利用左右熵标准和置信度标准清洗训练样本,构造包含高频词表和低频词表的词频表,去掉现有的地名和后缀名,对于后续神经网络的训练效率有很大提升。
本公开的上述所有实施例中,当获取到待识别对象的行业信息时,通过接收搜索请求,搜索请求中包括待识别对象,基于搜索请求进行搜索,得到多个候选对象,从而基于行业信息对候选对象进行排序,并返回搜索结果,搜索结果中包括排序后的候选对象。根据搜索的结果,就可以获取与待识别对象的行业信息匹配度最高的至少一个推荐对象,返回包括多个候选对象和至少一个推荐对象的搜索结果;其中,候选对象和/或推荐对象的类型包含但不限于以下任意一个:公司,合伙制企业,个人独资企业,个体户,因此,本公开可用于对待识别对象的的行业分类,以便基于待识别对象进行个性化的搜索服务、行业信息推荐等。
图6为本公开行业信息获取装置一个实施例的结构示意图。该实施例行业信息获取装置可用于实现本公开上述各行业信息获取方法实施例。如图6所示,该实施例行业信息获取装置包括:预测模块、第一获取模块和确定模块。其中:
预测模块,用于利用神经网络预测待识别对象中的行业词汇。
在其中一些可能的实施方式中,上述神经网络基于训练样本训练得到,训练样本上标注有行业词汇信息。
第一获取模块,用于从行业目录信息中获取与待识别对象中的行业词汇匹配的行业词汇中文本长度最长的行业词汇。
在其中,一些可能的实施方式中,上述行业目录信息可以包括至少一个层级的行业词汇,较高层级的行业词汇的文本长度小于较低层级的行业词汇的文本长度。
确定模块,用于基于文本长度最长的行业词汇确定待识别对象的行业信息。
其中,训练样本包括以下任意一项或多项的名称:公司,合伙制企业,个人独资企业,个体户。上述所说的公司可以是无限责任公司、有限责任公司、股份有限公司,也可以是非盈利性的社会团体、事业机构等。本公开对训练样本的经济实体类型不做任何限制。
基于本公开上述实施例提供的行业信息获取装置,获取待识别对象的行业信息时,将待识别对象输入神经网络,利用神经网络预测待识别对象中的行业词汇,之后从行业目录信息获取与该待识别对象中的行业词汇匹配的行业词汇中文本长度最长的行业词汇,以便可以获取到与待识别对象匹配度最高的行业词汇,然后基于所述文本长度最长的行业词汇确定待识别对象的行业信息。本公开实施例可用于对待识别对象的行业分类,以便基于待识别对象进行个性化的搜索服务、行业信息推荐等等。
图7为本公开行业信息获取装置另一个实施例的结构示意图。该实施例行业信息获取装置包括构建模块,如图7所述,该构建模块包括:识别单元和构建单元。其中:
识别单元,用于识别多个待识别对象中的行业词汇的文本长度和相互之间包含关系;
构建单元,用于将文本长度最短的行业词汇作为最高层级的目录,按照文本长度较短的行业词汇包含于文本长度较长的行业词汇、文本长度较短的行业词汇的层级高于文本长度较长的行业词汇的层级的原则,基于多个待识别对象中的行业词汇架构至少一个层级的目录,得到行业目录信息。
在其中一些实施方式中,构建模块还包括:
聚类单元,用于对多个待识别对象中的行业词汇进行聚类;
其中,现有经济实体中有一些行业词汇的表述虽然不同但含义相近,为了提升行业目录信息应用的准确性,需要对同义的行业词汇进行聚类。这里,聚类方法包括Word2vec方法,即利用Word2vec方法将行业词汇转化为几何空间中的向量,进而可以用包括但不限于以下任意一项向量计算方法:cosine值,向量间的欧式距离,Tanimoto系数等来计算行业词汇之间的相似性,通过设置较高阈值对多个待识别对象中的行业词汇进行聚类。
在其中一些实施方式中,本公开实施例还包括:
第二获取模块,用于按照预设周期获取至少一个新增待识别对象;
更新模块,用于基于新增待识别对象中的行业词汇与行业目录信息中行业词汇的文本长度和包含关系,对行业目录信息进行更新。
值得注意的是,通过上述图6所述的预测模块来分别预测该至少一个新增待识别对象中的行业词汇,通过聚类单元对该至少一个新增待识别对象中的行业词汇和行业目录信息中的行业词汇进行聚类,通过识别单元识别聚类后的该新增待识别对象中的行业词汇与行业目录信息中行业词汇的文本长度和包含关系,通过更新模块基于聚类后的该新增待识别对象中的行业词汇与行业目录信息中行业词汇的文本长度和包含关系,对行业目录信息进行更新。
此外,新增待识别对象可以是从在工商备案的企业信息数据库或其他官方数据库中获取。本公开不限制新增待识别对象的获取方法。
其中,当新增待识别对象中的行业词汇包含于行业目录信息中的行业词汇时,比较该新增待识别对象中的行业词汇文本长度与行业目录信息中行业词汇的文本长度最接近的行业词汇;例如,行业目录信息包括三层目录结构,第一层为服务,第二层包括文化创意服务和咨询服务两个词汇,当新增待识别对象中的行业词汇为“出国咨询服务”时,“出国咨询服务”文本长度大于第二层的词汇文本长度,并且该“出国咨询服务”包含于“咨询服务”,因此该新增待识别对象中的行业词汇放于该行业目录信息中“咨询服务”的下一层。当新增待识别对象中的行业词汇不包含于行业目录信息中的行业词汇时,如当新增待识别对象中的行业词汇为“人力资源服务”时,该“人力资源服务”文本长度等于第二层的词汇文本长度,同时该“人力资源服务”不包含于“文化创意服务”和“咨询服务”,因此该新增待识别对象中的行业词汇放于该行业目录信息中的第二层。由此,根据“较短行业词汇包含于较长行业词汇,则较短行业词汇是较长行业词汇的上级目录”的原则,实现行业目录信息的更新。
基于本公开上述实施例提供的行业信息获取装置,利用神经网络预测得到的待识别对象的行业词汇来自动构建行业目录信息,能解决依靠规则和积累的方法构建行业目录信息所带来的行业词汇信息不完整和不准确等缺陷,同时通过新增待识别对象的方式对行业目录信息进行更新,能发现最新行业领域的行业信息,对于精准、准确地确定经济实体的所属行业或主营业务范围有很大的帮助。
图8为本公开行业信息获取装置又一个实施例的结构示意图。如图8所示,该实施例行业信息获取装置还包括:
标注模块,用于利用神经网络标注训练样本中各词的词性;所述训练样本上标注的行业词汇信息包括:所述训练样本中各词的词性;基于训练样本对所述神经网络进行训练;
训练模块,用于根据神经网络标注的训练样本中各词的词性与训练样本上标注的各词的词性之间的差异,对神经网络进行训练。
其中,利用训练模块对神经网络进行训练时,训练的结束条件包括训练次数、训练误差。本公开对此不作不限制。
在其中一些实施方式中,标注模块可包括:
匹配单元,用于基于最长匹配原则将训练样本与行业词汇集进行匹配;
词性标注单元,用于利用BIEO序列标注法,对训练样本中匹配出的各词进行BIEO词性标注。
其中,神经网络包括BOIE标注模型,这里‘B’表示一个行业词汇的开始,‘I’表示行业词汇的中间词,‘E’表示一个行业词汇的结尾,‘O’表示非行业词汇。
基于本公开上述实施例提供的行业信息获取装置,相较于传统的BIO标注法,BIEO标注法有更强的语义表达能力和预测能力;同时利用已知领域的已标注各词词性的行业词汇训练此神经网络,来预测该已知领域的行业词汇,能保证预测结果更加准确。
图9为本公开行业信息获取装置再一个实施例的结构示意图。该实施例行业信息获取装置包括:
采样模块,用于分别从样本数据库中采样多个数量的候选样本,并获取每个数量的候选样本中各类别的候选样本所占的比例;
加权求和模块,用于分别基于多个数量的候选样本中各类别的候选样本所占的比例,对多个数量的候选样本中各类别的候选样本的数量进行加权求和,得到多个数量中各类别的候选样本的总数量;
计算模块,用于分别获取各类别的候选样本的总数量与所述多个数量之和的比例,得到各类别训练样本的采集比例;
采集模块,用于分别基于各类别训练样本的采集比例与训练样本的总数量,从样本数据库采集相应数量的各类别训练样本。
在其中一些实施方式中,本实施例还可包括:
分词模块,用于分别对采集模块采集的各类别训练样本进行分词,并统计所有训练样本中各词的频率,得到词频表;
筛选模块,用于基于左右熵标准过滤掉词频表中的高频词汇中的噪声词汇,基于置信度标准从词频表中的低频词汇中筛选出行业词汇,得到行业词汇集;
其中,标注模块具体用于基于行业词汇集,对训练样本进行词性标注。
基于本公开上述实施例提供的行业信息获取装置,采用基于加权的自助法采样方法获取待训练样本,考虑了不同的实体类别有着不同的命名规则,通过加权的自助法采样,可以较为近似估计出总体按类别的分布,使得抽取的训练样本的分布能够近似代表总体分布;同时,利用左右熵标准和置信度标准清洗训练样本,构造包含高频词表和低频词表的词频表,去掉现有的地名和后缀名,对于后续神经网络的训练效率有很大提升。
基于本公开上述所有实施例提供的行业信息获取装置,还可包括:
接收模块,用于接收搜索请求,搜索请求中包括所述待识别对象;
搜索模块,用于基于搜索请求进行搜索,得到多个候选对象;
反馈模块,用于基于确定模块确定的行业信息对候选对象进行排序,并返回搜索结果,搜索结果中包括排序后的候选对象。
其中,上述反馈模块包括:
推荐单元,用于获取与待识别对象的行业信息匹配度最高的至少一个推荐对象;
返回单元,用于返回搜索结果,搜索结果中包括多个候选对象和至少一个推荐对象。
通过接收搜索请求,搜索请求中包括待识别对象,基于搜索请求进行搜索,得到多个候选对象,从而基于行业信息对候选对象进行排序,并返回搜索结果,搜索结果中包括排序后的候选对象。根据搜索的结果,就可以获取与待识别对象的行业信息匹配度最高的至少一个推荐对象,返回包括多个候选对象和至少一个推荐对象的搜索结果,以便基于待识别对象进行个性化的搜索服务、行业信息推荐等。
另外,本公开实施例还提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本公开上述任一实施例所述行业信息获取方法。
图10为本公开电子设备实施例的一个示例性框图。下面,参考图10来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。如图10所示,电子设备包括一个或多个处理器和存储器。
处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。处理器可被配置为执行图1-图4中任一行业信息获取方法的处理步骤。
存储器可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行所述程序指令,以实现上文所述的本公开的各个实施例的行业信息获取方法以及/或者其他期望的功能。
在一个示例中,电子设备还可以包括:输入装置和输出装置,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
此外,该输入设备还可以包括例如键盘、鼠标等等。
该输出装置可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图10中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本本公开上述各实施例的行业信息获取方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本公开说明书上述各实施例的行业信息获取方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (16)

1.一种行业信息获取方法,其特征在于,包括:
将待识别对象输入基于训练样本训练得到的神经网络,利用所述神经网络预测所述待识别对象中的行业词汇,所述神经网络基于Bert模型、bi-lstm模型和crf模型的结合实现;
从行业目录信息中获取与所述待识别对象中的行业词汇匹配的行业词汇中文本长度最长的行业词汇,所述行业目录信息基于所述神经网络对多个待识别对象预测的行业词汇构建得到;其中,所述行业目录信息包括至少一个层级的行业词汇,较高层级的行业词汇的文本长度小于较低层级的行业词汇的文本长度;
基于所述神经网络分别预测多个待识别对象中的行业词汇;识别所述多个待识别对象中的行业词汇的文本长度和相互之间包含关系;将文本长度最短的行业词汇作为最高层级的目录,按照文本长度较短的行业词汇包含于文本长度较长的行业词汇、以及文本长度较短的行业词汇的层级高于文本长度较长的行业词汇的层级的原则,基于所述多个待识别对象中的行业词汇架构至少一个层级的目录,得到所述行业目录信息;
基于所述文本长度最长的行业词汇确定所述待识别对象的行业信息。
2.根据权利要求1所述的方法,其特征在于,所述基于所述神经网络分别预测多个待识别对象中的行业词汇之后,还包括:
对所述多个待识别对象中的行业词汇进行聚类;
所述识别所述多个待识别对象中的行业词汇的文本长度和相互之间包含关系,包括:识别聚类后的所述多个待识别对象中的行业词汇的文本长度和相互之间包含关系,以基于聚类后的所述多个待识别对象中的行业词汇架构至少一个层级的目录,得到所述行业目录信息。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
按照预设周期获取至少一个新增待识别对象;
基于所述神经网络分别预测所述至少一个新增待识别对象中的行业词汇;
基于所述新增待识别对象中的行业词汇与所述行业目录信息中行业词汇的文本长度和包含关系,对所述行业目录信息进行更新。
4.根据权利要求3所述的方法,其特征在于,所述基于所述神经网络分别预测所述至少一个新增待识别对象中的行业词汇之后,还包括:
对所述至少一个新增待识别对象中的行业词汇和所述行业目录信息中的行业词汇进行聚类;
所述基于所述新增待识别对象中的行业词汇与所述行业目录信息中行业词汇的文本长度和包含关系,对所述行业目录信息进行更新,包括:基于聚类后的所述新增待识别对象中的行业词汇与所述行业目录信息中行业词汇的文本长度和包含关系,对所述行业目录信息进行更新。
5.根据权利要求1或2所述的方法,其特征在于,所述将待识别对象输入神经网络之前,还包括:
接收搜索请求,所述搜索请求中包括所述待识别对象;
基于所述搜索请求进行搜索,得到多个候选对象;
所述基于所述文本长度最长的行业词汇确定所述待识别对象的行业信息之后,还包括:
基于所述行业信息对所述候选对象进行排序,并返回搜索结果,所述搜索结果中包括排序后的候选对象。
6.根据权利要求1或2所述的方法,其特征在于,所述基于所述文本长度最长的行业词汇确定所述待识别对象的行业信息之后,还包括:
获取与所述待识别对象的行业信息匹配度最高的至少一个推荐对象;
返回搜索结果,所述搜索结果中包括所述多个候选对象和所述至少一个推荐对象。
7.根据权利要求1或2所述的方法,其特征在于,所述神经网络的训练,包括:
利用所述神经网络标注训练样本中各词的词性;所述训练样本上标注有行业词汇信息,所述训练样本上标注的行业词汇信息包括:所述训练样本中各词的词性;
根据所述神经网络标注的所述训练样本中各词的词性与所述训练样本上标注的各词的词性之间的差异,对所述神经网络进行训练。
8.根据权利要求7所述的方法,其特征在于,所述基于训练样本对所述神经网络进行训练之前,还包括:
分别从样本数据库中采样多个数量的候选样本,并获取每个数量的候选样本中各类别的候选样本所占的比例;
分别基于所述多个数量的候选样本中各类别的候选样本所占的比例,对所述多个数量的候选样本中各类别的候选样本的数量进行加权求和,得到所述多个数量中各类别的候选样本的总数量;
分别获取各类别的候选样本的总数量与所述多个数量之和的比例,得到各类别训练样本的采集比例;
分别基于各类别训练样本的采集比例与训练样本的总数量,从样本数据库采集相应数量的各类别训练样本。
9.根据权利要求8所述的方法,其特征在于,所述从样本数据库采集相应数量的各类别训练样本之后,还包括:
分别对各训练样本进行分词,并统计所有训练样本中各词的频率,得到词频表;
基于左右熵标准过滤掉所述词频表中的高频词汇中的噪声词汇,基于置信度标准从所述词频表中的低频词汇中筛选出行业词汇,得到行业词汇集;
基于所述行业词汇集,对所述训练样本进行词性标注。
10.根据权利要求9所述的方法,其特征在于,所述基于所述行业词汇集,对所述训练样本进行词性标注,包括:
基于最长匹配原则将训练样本与所述行业词汇集进行匹配;
利用开始中间结尾其他BIEO序列标注法,对所述训练样本中匹配出的各词进行BIEO词性标注。
11.一种行业信息获取装置,其特征在于,包括:
预测模块,用于利用基于训练样本训练得到的神经网络预测待识别对象中的行业词汇,所述神经网络基于Bert模型、bi-lstm模型和crf模型的结合实现;
第一获取模块,用于从行业目录信息中获取与所述待识别对象中的行业词汇匹配的行业词汇中文本长度最长的行业词汇;
确定模块,用于基于所述文本长度最长的行业词汇确定所述待识别对象的行业信息;
构建模块,用于基于所述神经网络对多个待识别对象预测的行业词汇构建得到所述行业目录信息;
所述构建模块包括:
识别单元,用于识别所述多个待识别对象中的行业词汇的文本长度和相互之间包含关系;
构建单元,用于将文本长度最短的行业词汇作为最高层级的目录,按照文本长度较短的行业词汇包含于文本长度较长的行业词汇、以及文本长度较短的行业词汇的层级高于文本长度较长的行业词汇的层级的原则,基于所述多个待识别对象中的行业词汇架构至少一个层级的目录,得到所述行业目录信息;所述行业目录信息包括至少一个层级的行业词汇,较高层级的行业词汇的文本长度小于较低层级的行业词汇的文本长度。
12.根据权利要求11所述的装置,其特征在于,还包括:
接收模块,用于接收搜索请求,所述搜索请求中包括所述待识别对象;
搜索模块,用于基于所述搜索请求进行搜索,得到多个候选对象;
反馈模块,用于基于所述确定模块确定的行业信息对所述候选对象进行排序,并返回搜索结果,所述搜索结果中包括排序后的候选对象。
13.根据权利要求11所述的装置,其特征在于,还包括:标注模块,用于利用所述神经网络标注训练样本中各词的词性;所述训练样本上标注有行业词汇信息,所述训练样本上标注的行业词汇信息包括:所述训练样本中各词的词性;
训练模块,用于根据所述神经网络标注的所述训练样本中各词的词性与所述训练样本上标注的各词的词性之间的差异,对所述神经网络进行训练。
14.根据权利要求13所述的装置,其特征在于,所述标注模块包括:
匹配单元,用于基于最长匹配原则将训练样本与行业词汇集进行匹配;
标注单元,用于利用开始中间结尾其他BIEO序列标注法,对所述训练样本中匹配出的各词进行BIEO词性标注。
15.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现上述权利要求1-10任一所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现上述权利要求1-10任一所述的方法。
CN201911115346.5A 2019-11-14 2019-11-14 行业信息获取方法和装置、电子设备和介质 Active CN111104791B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911115346.5A CN111104791B (zh) 2019-11-14 2019-11-14 行业信息获取方法和装置、电子设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911115346.5A CN111104791B (zh) 2019-11-14 2019-11-14 行业信息获取方法和装置、电子设备和介质

Publications (2)

Publication Number Publication Date
CN111104791A CN111104791A (zh) 2020-05-05
CN111104791B true CN111104791B (zh) 2024-02-20

Family

ID=70420666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911115346.5A Active CN111104791B (zh) 2019-11-14 2019-11-14 行业信息获取方法和装置、电子设备和介质

Country Status (1)

Country Link
CN (1) CN111104791B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975555A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 一种基于双向递归神经网络的企业简称提取方法
CN107291812A (zh) * 2017-05-18 2017-10-24 辛柯俊 一种对企业信息中自然语义的专家学习拟合方法及系统
CN108171276A (zh) * 2018-01-17 2018-06-15 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN108460014A (zh) * 2018-02-07 2018-08-28 百度在线网络技术(北京)有限公司 企业实体的识别方法、装置、计算机设备及存储介质
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN109753653A (zh) * 2018-12-25 2019-05-14 金蝶软件(中国)有限公司 实体名称识别方法、装置、计算机设备和存储介质
CN110209812A (zh) * 2019-05-07 2019-09-06 北京地平线机器人技术研发有限公司 文本分类方法和装置
WO2019174422A1 (zh) * 2018-03-16 2019-09-19 北京国双科技有限公司 实体关联关系的分析方法及相关装置
CN110413764A (zh) * 2019-06-18 2019-11-05 杭州熊猫智云企业服务有限公司 基于预建词库的长文本企业名称识别算法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10268965B2 (en) * 2015-10-27 2019-04-23 Yardi Systems, Inc. Dictionary enhancement technique for business name categorization
US10599769B2 (en) * 2018-05-01 2020-03-24 Capital One Services, Llc Text categorization using natural language processing

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975555A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 一种基于双向递归神经网络的企业简称提取方法
CN107291812A (zh) * 2017-05-18 2017-10-24 辛柯俊 一种对企业信息中自然语义的专家学习拟合方法及系统
CN108171276A (zh) * 2018-01-17 2018-06-15 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN108460014A (zh) * 2018-02-07 2018-08-28 百度在线网络技术(北京)有限公司 企业实体的识别方法、装置、计算机设备及存储介质
WO2019174422A1 (zh) * 2018-03-16 2019-09-19 北京国双科技有限公司 实体关联关系的分析方法及相关装置
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN109753653A (zh) * 2018-12-25 2019-05-14 金蝶软件(中国)有限公司 实体名称识别方法、装置、计算机设备和存储介质
CN110209812A (zh) * 2019-05-07 2019-09-06 北京地平线机器人技术研发有限公司 文本分类方法和装置
CN110413764A (zh) * 2019-06-18 2019-11-05 杭州熊猫智云企业服务有限公司 基于预建词库的长文本企业名称识别算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁露 ; 崔平 ; .SOM聚类算法在文本分类上的应用.现代情报.2007,(09),全文. *
张学新 ; 贾园园 ; 饶希 ; 蔡黎 ; .海量非结构化网络招聘数据的挖掘分析.长春师范大学学报.2017,(10),全文. *

Also Published As

Publication number Publication date
CN111104791A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN108073568B (zh) 关键词提取方法和装置
CN110162749B (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
US11714831B2 (en) Data processing and classification
CN110019732B (zh) 一种智能问答方法以及相关装置
CN112148889A (zh) 一种推荐列表的生成方法及设备
WO2013151546A1 (en) Contextually propagating semantic knowledge over large datasets
CN109388743B (zh) 语言模型的确定方法和装置
CN112395487B (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
CN110737774A (zh) 图书知识图谱的构建、图书推荐方法、装置、设备及介质
CN115809887B (zh) 一种基于发票数据确定企业主要经营范围的方法和装置
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
CN111949785A (zh) 查询语句管理方法和装置、可读存储介质、电子设备
CN110083766B (zh) 一种基于元路径引导嵌入的查询推荐方法及装置
CN111753151B (zh) 一种基于互联网用户行为的服务推荐方法
CN109902152B (zh) 用于检索信息的方法和装置
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
CN111104791B (zh) 行业信息获取方法和装置、电子设备和介质
CN113139558A (zh) 确定物品的多级分类标签的方法和装置
CN114201622B (zh) 获取事件信息的方法、装置、电子设备和存储介质
CN115017385A (zh) 一种物品搜索方法、装置、设备和存储介质
CN115099832A (zh) 异常用户检测方法及其装置、设备、介质、产品
CN113688633A (zh) 一种提纲确定方法及装置
CN117151089A (zh) 新词发现方法、装置、设备和介质
CN113094584A (zh) 推荐学习资源的确定方法和装置
CN113553851A (zh) 关键词的确定方法、装置、存储介质和计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant