CN116610803A - 基于大数据的产业链优企信息管理方法及系统 - Google Patents

基于大数据的产业链优企信息管理方法及系统 Download PDF

Info

Publication number
CN116610803A
CN116610803A CN202310882881.3A CN202310882881A CN116610803A CN 116610803 A CN116610803 A CN 116610803A CN 202310882881 A CN202310882881 A CN 202310882881A CN 116610803 A CN116610803 A CN 116610803A
Authority
CN
China
Prior art keywords
enterprise
semantic
sequence
service
target enterprise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310882881.3A
Other languages
English (en)
Other versions
CN116610803B (zh
Inventor
李琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange Times Beijing Network Technology Co ltd
Original Assignee
Beijing Daily Xindong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Daily Xindong Technology Co ltd filed Critical Beijing Daily Xindong Technology Co ltd
Priority to CN202310882881.3A priority Critical patent/CN116610803B/zh
Publication of CN116610803A publication Critical patent/CN116610803A/zh
Application granted granted Critical
Publication of CN116610803B publication Critical patent/CN116610803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于大数据的产业链优企信息管理方法及系统。其首先获取待推广TOB业务的文本描述以及目标企业信息,接着,对所述待推广TOB业务的文本描述进行语义理解以得到业务语义表达特征向量,然后,对所述目标企业信息进行语义理解以得到目标企业语义表达特征向量,接着,对所述业务语义表达特征向量和所述目标企业语义表达特征向量进行语义关联编码以得到企业‑业务语义匹配特征矩阵,最后,基于所述企业‑业务语义匹配特征矩阵,确定是否向目标企业推送所述待推广TOB业务。这样,可以提高企业合作伙伴的匹配效率,还可以降低人力成本和错误率,从而提升金融机构的客户服务能力和市场竞争力。

Description

基于大数据的产业链优企信息管理方法及系统
技术领域
本申请涉及信息管理领域,且更为具体地,涉及一种基于大数据的产业链优企信息管理方法及系统。
背景技术
随着大数据时代的到来,企业获取和处理大量数据已成为现代商业活动的一项重要任务。而对于产业链优企这样的企业来说,如何快速、准确地为泛金融机构的TOB业务匹配符合其精准业务特征的企业合作目标是一个很大的挑战。
目前,传统的泛金融机构TOB业务匹配主要依赖于专业人士进行人工筛选和评估,这样不仅需要耗费大量人力成本,还会使得匹配的效率低下,难以满足实际应用需求。并且,传统的泛金融机构TOB业务匹配方式往往需要复杂的人力决策过程,容易出现错误、遗漏等问题,导致匹配的精准度较低,影响金融机构的客户服务能力和市场竞争力。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于大数据的产业链优企信息管理方法及系统,其可以提高企业合作伙伴的匹配效率,还可以降低人力成本和错误率,从而提升金融机构的客户服务能力和市场竞争力。
根据本申请的一个方面,提供了一种基于大数据的产业链优企信息管理方法,其包括:
获取待推广TOB业务的文本描述以及目标企业信息;
对所述待推广TOB业务的文本描述进行语义理解以得到业务语义表达特征向量;
对所述目标企业信息进行语义理解以得到目标企业语义表达特征向量;
对所述业务语义表达特征向量和所述目标企业语义表达特征向量进行语义关联编码以得到企业-业务语义匹配特征矩阵;
以及基于所述企业-业务语义匹配特征矩阵,确定是否向目标企业推送待推广TOB业务。
根据本申请的另一个方面,提供了一种基于大数据的产业链优企信息管理系统,其包括:
数据获取模块,用于获取待推广TOB业务的文本描述以及目标企业信息;
业务语义理解模块,用于对所述待推广TOB业务的文本描述进行语义理解以得到业务语义表达特征向量;
目标企业语义理解模块,用于对所述目标企业信息进行语义理解以得到目标企业语义表达特征向量;
语义关联编码模块,用于对所述业务语义表达特征向量和所述目标企业语义表达特征向量进行语义关联编码以得到企业-业务语义匹配特征矩阵;
以及推送控制模块,用于基于所述企业-业务语义匹配特征矩阵,确定是否向目标企业推送待推广TOB业务。
与现有技术相比,本申请提供的基于大数据的产业链优企信息管理方法及系统,其首先获取待推广TOB业务的文本描述以及目标企业信息,接着,对所述待推广TOB业务的文本描述进行语义理解以得到业务语义表达特征向量,然后,对所述目标企业信息进行语义理解以得到目标企业语义表达特征向量,接着,对所述业务语义表达特征向量和所述目标企业语义表达特征向量进行语义关联编码以得到企业-业务语义匹配特征矩阵,最后,基于所述企业-业务语义匹配特征矩阵,确定是否向目标企业推送所述待推广TOB业务。这样,可以提高企业合作伙伴的匹配效率,还可以降低人力成本和错误率,从而提升金融机构的客户服务能力和市场竞争力。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,以下附图并未刻意按实际尺寸等比例缩放绘制,重点在于示出本申请的主旨。
图1为根据本申请实施例的基于大数据的产业链优企信息管理方法的流程图。
图2为根据本申请实施例的基于大数据的产业链优企信息管理方法的架构示意图。
图3为根据本申请实施例的基于大数据的产业链优企信息管理方法的子步骤S120的流程图。
图4为根据本申请实施例的基于大数据的产业链优企信息管理方法的子步骤S123的流程图。
图5为根据本申请实施例的基于大数据的产业链优企信息管理方法的子步骤S130的流程图。
图6为根据本申请实施例的基于大数据的产业链优企信息管理方法的子步骤S133的流程图。
图7为根据本申请实施例的基于大数据的产业链优企信息管理方法的子步骤S150的流程图。
图8为根据本申请实施例的基于大数据的产业链优企信息管理系统的框图。
图9为根据本申请实施例的基于大数据的产业链优企信息管理方法的应用场景图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述,显而易见地,所描述的实施例仅仅是本申请的部分实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,也属于本申请保护的范围。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
目前,传统的泛金融机构TOB业务匹配主要依赖于专业人士进行人工筛选和评估,这样不仅需要耗费大量人力成本,还会使得匹配的效率低下,难以满足实际应用需求。并且,传统的泛金融机构TOB业务匹配方式往往需要复杂的人力决策过程,容易出现错误、遗漏等问题,导致匹配的精准度较低,影响金融机构的客户服务能力和市场竞争力。因此,期望一种优化的基于大数据的产业链优企信息管理方案。
相应地,考虑到在实际进行产业链优企的信息管理过程中,为了能够为泛金融机构的TOB业务智能匹配符合其精准业务特征的企业合作目标,需要对于待推广TOB业务和目标企业进行精准且充分地分析和精准匹配。特别地,考虑到在实际的信息管理中,有关于所述待推广TOB业务的信息为文本描述形式,所述目标企业信息也为文本形式。因此,有关于泛金融机构TOB业务和企业合作目标的匹配为语义特征匹配的问题。基于此,在本申请的技术方案中,期望基于深度学习的语义理解模型来分别对于所述待推广TOB业务的文本描述和所述目标企业信息进行语义理解,以此来进行两者语义关联特征的捕捉和特征匹配,从而判断是否向目标企业推送所述待推广TOB业务。这样,不仅可以提高企业合作伙伴的匹配效率,还可以降低人力成本和错误率,从而提升金融机构的客户服务能力和市场竞争力。
图1为根据本申请实施例的基于大数据的产业链优企信息管理方法的流程图。图2为根据本申请实施例的基于大数据的产业链优企信息管理方法的架构示意图。如图1和图2所示,根据本申请实施例的基于大数据的产业链优企信息管理方法,包括步骤:S110,获取待推广TOB业务的文本描述以及目标企业信息;S120,对所述待推广TOB业务的文本描述进行语义理解以得到业务语义表达特征向量;S130,对所述目标企业信息进行语义理解以得到目标企业语义表达特征向量;S140,对所述业务语义表达特征向量和所述目标企业语义表达特征向量进行语义关联编码以得到企业-业务语义匹配特征矩阵;以及,S150,基于所述企业-业务语义匹配特征矩阵,确定是否向目标企业推送待推广TOB业务。
更具体地,在步骤S110中,获取待推广TOB业务的文本描述以及目标企业信息。相应地,在本申请的一个具体示例中,所述待推广TOB业务的文本描述包括有所服务的行业、业务模式、客户群体等,所述目标企业信息包括企业规模、行业领域和经营状况等方面的数据信息。
应可以理解,在实际对所述待推广TOB业务的文本描述和所述目标企业信息进行文本描述时,使用自然语言的表达方式会导致不同的表述,从而产生不同的语义理解信息,给后续的语义理解和基于匹配算法的处理过程带来处理难度。因此,在语义理解前需要对所述待推广TOB业务的文本描述进行分词处理以得到业务特征描述词的序列,且对所述目标企业信息进行分词处理以得到目标企业描述词的序列,以此来避免语序混乱,从而提高语义理解的精准度。
然后,考虑到由于词性是分词后每个单词所对应的词类,因此它包含了这个单词在句子中扮演的语法角色信息以及其他的语义信息。在进行自然语言处理或文本匹配时,利用每个词的词性信息可以更好地反映其所携带的意义,从而更准确地进行语义特征的匹配。因此,在本申请的技术方案中,在基于大数据分析和人工智能技术实现泛金融机构TOB业务智能匹配时,进一步提取所述业务特征描述词的序列中各个业务特征描述词的词性信息以得到业务特征描述词性信息的序列,并提取所述目标企业描述词的序列中各个目标企业描述词的词性信息以得到目标企业描述词性信息的序列,以此来提取待推广的TOB业务和目标企业的描述词序列中各个词的词性信息。通过提取这些词性信息,可以增强描述词序列的语义表达能力,从而提高匹配算法的准确率,并尽可能地避免词义歧义等问题的发生。
进一步地,在实现泛金融机构TOB业务自动化智能匹配时,需要将待推广的TOB业务和目标企业的描述词的序列中的各个词转化为词向量表示,以得到业务描述词向量的序列和目标企业描述词向量的序列。通过转化为词向量的方式,能够将文本信息转化成为一组实数向量,方便后续进行两者语义的特征提取和相似性比较。
同时,所述业务特征描述词的序列和所述目标企业描述词的序列中的词性也是一种非常重要的信息,因此使用独热编码对所述业务特征描述词性信息的序列和所述目标企业描述词性信息的序列进行处理,以得到业务特征描述词性向量的序列和目标企业描述词性向量的序列。这样可以把词性信息也加入到文本向量之中,提高文本向量的表达能力,从而更好地反映所述待推广TOB业务的文本描述以及所述目标企业信息的文本语义含义。同时,独热编码也可以使得描述词序列中的每个词性信息变成一维实数向量形式,方便进行计算语义相似度以实现自动化智能匹配。
继而,为了更准确地表达描述词的含义,需要同时考虑描述词和描述词性信息。因此,进一步再融合所述业务描述词向量的序列和所述业务特征描述词性向量的序列以得到业务描述词综合向量的序列,并且融合所述目标企业描述词向量的序列和所述目标企业描述词性向量的序列以得到目标企业描述词综合向量的序列。
进而,将所述业务描述词综合向量的序列和所述目标企业描述词综合向量的序列通过基于双向长短期记忆神经网络模型的语义编码器以得到业务语义表达特征向量和目标企业语义表达特征向量,以此来分别提取出所述待推广TOB业务的文本描述以及所述目标企业信息的基于中短距离依赖的上下文语义关联特征信息,即所述待推广TOB业务的文本描述的语义理解特征和所述目标企业信息的语义理解特征。应可以理解,所述双向长短期记忆神经网络模型通过增加输入门、输出门和遗忘门,使得神经网络的权重能够自我更新,在网络模型参数固定的情况下,不同通道的权重尺度可以动态改变,从而能够避免梯度消失或者梯度膨胀的问题,以此来更为精准地就进行两者的语义理解。
更具体地,在步骤S120中,对所述待推广TOB业务的文本描述进行语义理解以得到业务语义表达特征向量。相应地,在一个具体示例中,如图3所示,对所述待推广TOB业务的文本描述进行语义理解以得到业务语义表达特征向量,包括:S121,对所述待推广TOB业务的文本描述进行分词处理以得到业务特征描述词的序列;S122,提取所述业务特征描述词的序列中各个业务特征描述词的词性信息以得到业务特征描述词性信息的序列;S123,将所述业务特征描述词的序列和所述业务特征描述词性信息的序列分别转化为向量后融合以得到业务描述词综合向量的序列;以及,S124,通过基于第一深度神经网络模型的语义编码器对所述业务描述词综合向量的序列进行语义编码以得到所述业务语义表达特征向量。
值得一提的是,分词处理是文本预处理的一部分,可以更好地理解文本的语义信息,从而更好地进行后续的文本处理。对待推广的TOB业务文本描述进行分词处理,可以将文本描述中的词语按照一定规则切分成一个个单独的词语,形成一个词语序列。分词处理的方法有很多种,其中比较常用的是基于规则的方法和基于统计的方法。基于规则的方法是指根据一定的规则对文本进行切分,例如根据空格、标点符号、中文分词规则等进行切分。基于统计的方法是指根据一定的统计模型对文本进行切分,例如最大匹配法、最大概率法、隐马尔可夫模型等。在本申请的一个示例中,可以使用一些现成的分词工具进行分词处理,例如jieba、NLTK、Stanford CoreNLP等。以中文分词为例,jieba是一个常用的中文分词工具,jieba可以根据一定的规则对中文文本进行切分,并且可以处理一些特殊情况。对于待推广的TOB业务文本描述,可以使用上述分词工具对其进行分词处理,得到一个词语序列,该序列可以作为业务特征描述词的表示。需要注意的是,在分词处理过程中,需要考虑一些特殊情况,例如英文文本、数字、专有名词等,以便更好地提取文本的语义信息。
相应地,在一个具体示例中,所述第一深度神经网络模型为双向长短期记忆神经网络模型。应可以理解,双向长短期记忆神经网络(Bidirectional Long Short-TermMemory,BiLSTM)模型是一种常用的深度学习模型,双向长短期记忆神经网络可以对序列数据进行建模,并且能够捕获序列中的长期依赖关系。双向长短期记忆神经网络模型是一种循环神经网络(RNN)模型,可以对输入的序列进行逐个元素的处理,并且可以将之前处理的信息传递给后续的处理过程。通过使用双向长短期记忆神经网络模型,可以将输入的文本序列编码成一个固定长度的向量,该向量包含了输入文本的语义信息。在上述过程中,双向长短期记忆神经网络模型作为第一深度神经网络模型的语义编码器,对业务描述词综合向量的序列进行语义编码,将其转化为业务语义表达特征向量。通过使用双向长短期记忆神经网络模型,可以更好地理解业务文本描述中的语义信息,从而提高文本理解的准确性和效率。
相应地,在一个具体示例中,如图4所示,将所述业务特征描述词的序列和所述业务特征描述词性信息的序列分别转化为向量后融合以得到业务描述词综合向量的序列,包括:S1231,将所述业务特征描述词的序列中的各个词转化为词向量表示以得到业务描述词向量的序列;S1232,使用独热编码对所述业务特征描述词性信息的序列进行处理以得到业务特征描述词性向量的序列;以及,S1233,融合所述业务描述词向量的序列和所述业务特征描述词性向量的序列以得到所述业务描述词综合向量的序列。值得一提的是,独热编码(One-Hot Encoding)是一种常用的特征编码方法,独热编码将离散特征的每个取值都转化为一个二进制向量中的一位,使得每个向量只有一位是1,其余位都是0。这种编码方式通常用于机器学习和深度学习中,可以将离散特征转化为连续特征,使得模型能够更好地理解和利用这些特征。这种编码方式可以避免离散特征之间的大小关系对模型的影响,同时也可以减少特征之间的相关性,提高模型的鲁棒性。
更具体地,在步骤S130中,对所述目标企业信息进行语义理解以得到目标企业语义表达特征向量。相应地,在一个具体示例中,如图5所示,对所述目标企业信息进行语义理解以得到目标企业语义表达特征向量,包括:S131,对所述目标企业信息进行分词处理以得到目标企业描述词的序列;S132,提取所述目标企业描述词的序列中各个目标企业描述词的词性信息以得到目标企业描述词性信息的序列;S133,将所述目标企业描述词的序列和所述目标企业描述词性信息的序列分别转化为向量后融合以得到目标企业描述词综合向量的序列;以及,S134,通过基于第二深度神经网络模型的语义编码器对所述目标企业描述词综合向量的序列进行语义编码以得到所述业务语义表达特征向量。
相应地,在一个具体示例中,所述第二深度神经网络模型为双向长短期记忆神经网络模型。应可以理解双向长短期记忆神经网络模型作为第二深度神经网络模型的语义编码器,对目标企业描述词综合向量的序列进行语义编码,将其转化为目标企业语义表达特征向量。通过使用双向长短期记忆神经网络模型,可以更好地理解目标企业信息中的语义信息,从而提高信息理解的准确性和效率。
相应地,在一个具体示例中,如图6所示,将所述目标企业描述词的序列和所述目标企业描述词性信息的序列分别转化为向量后融合以得到目标企业描述词综合向量的序列,包括:S1331,将所述目标企业描述词的序列中的各个词转化为词向量表示以得到目标企业描述词向量的序列;S1332,使用独热编码对所述目标企业描述词性信息的序列进行处理以得到目标企业描述词性向量的序列;以及,S1333,融合所述目标企业描述词向量的序列和所述目标企业描述词性向量的序列以得到所述目标企业描述词综合向量的序列。
进一步地,在得到所述待推广TOB业务的文本描述的语义理解特征信息和所述目标企业信息的语义理解特征信息后,对所述业务语义表达特征向量和所述目标企业语义表达特征向量进行关联编码以得到企业-业务语义匹配特征矩阵,以此来表示所述文本描述的语义特征和所述目标企业信息的语义特征之间的关联特征分布信息,即两者的语义相似度匹配关联特征。相应地,在步骤S140中,对所述业务语义表达特征向量和所述目标企业语义表达特征向量进行语义关联编码以得到企业-业务语义匹配特征矩阵。
应可以理解,语义关联编码是将两个文本序列的语义信息编码成两个向量,使这两个向量在向量空间中具有相关性。在企业-业务语义匹配任务中,可以将待推广的TOB业务文本描述和目标企业信息文本描述分别编码成特征向量,然后计算这两个特征向量之间的相似度,得到企业-业务语义匹配特征矩阵。
进而,可以再将所述企业-业务语义匹配特征矩阵通过分类器以得到分类结果,所述分类结果用于表示是否向目标企业推送所述待推广TOB业务。也就是说,以所述待推广TOB业务的文本描述的语义理解特征信息和所述目标企业信息的语义理解特征信息之间的相似性关联特征来进行分类,从而基于这两者的语义匹配关联特征来决定是否向目标企业推送所述待推广TOB业务。相应地,在步骤S150中,基于所述企业-业务语义匹配特征矩阵,确定是否向目标企业推送所述待推广TOB业务。在一个具体示例中,如图7所示,基于所述企业-业务语义匹配特征矩阵,确定是否向目标企业推送所述待推广TOB业务,包括:S151,对所述企业-业务语义匹配特征矩阵进行特征分布优化以得到优化企业-业务语义匹配特征矩阵;以及,S152,将所述优化企业-业务语义匹配特征矩阵通过分类器以得到分类结果,所述分类结果用于表示是否向目标企业推送所述待推广TOB业务。
也就是,在本公开的技术方案中,所述分类器的标签包括向目标企业推送所述待推广TOB业务(第一标签),以及,不向目标企业推送所述待推广TOB业务(第二标签),其中,所述分类器通过软最大值函数来确定所述优化企业-业务语义匹配特征矩阵属于哪个分类标签。值得注意的是,这里的所述第一标签p1和所述第二标签p2并不包含人为设定的概念,实际上在训练过程当中,计算机模型并没有“是否向目标企业推送所述待推广TOB业务”这种概念,其只是有两种分类标签且输出特征在这两个分类标签下的概率,即p1和p2之和为一。因此,是否向目标企业推送所述待推广TOB业务的分类结果实际上是通过分类标签转化为符合自然规律的二分类的类概率分布,实质上用到的是标签的自然概率分布的物理意义,而不是“是否向目标企业推送所述待推广TOB业务”的语言文本意义。
具体地,将所述优化企业-业务语义匹配特征矩阵通过分类器以得到分类结果,所述分类结果用于表示是否向目标企业推送所述待推广TOB业务,包括:将所述优化企业-业务语义匹配特征矩阵按照行向量或列向量展开为分类特征向量;使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
应可以理解,分类器的作用是利用给定的类别、已知的训练数据来学习分类规则和分类器,然后对未知数据进行分类(或预测)。逻辑回归(logistics)、SVM等常用于解决二分类问题,对于多分类问题(multi-class classification),同样也可以用逻辑回归或SVM,只是需要多个二分类来组成多分类,但这样容易出错且效率不高,常用的多分类方法有Softmax分类函数。
特别地,在本申请的技术方案中,对所述业务语义表达特征向量和所述目标企业语义表达特征向量进行关联编码以得到关企业-业务语义匹配特征矩阵时,是将所述业务语义表达特征向量和所述目标企业语义表达特征向量进行逐位置关联,因此所述关企业-业务语义匹配特征矩阵的每个行特征向量可以看作为所述业务语义表达特征向量的每个特征值与所述目标企业语义表达特征向量整体的关联特征向量,因此所述关企业-业务语义匹配特征矩阵相当于各个行特征向量对应的局部特征集合的组合特征集合。并且,由于各个行特征向量的特征分布之间具有由所述业务语义表达特征向量所表达的TOB业务的文本描述和词性描述的文本语义关联特征分布,因此所述各个行特征向量除了具有相互关联的邻域分布关系外,其间还具有对应于目标企业信息的文本语义关联分布信息的多源信息关联关系。
因此,为了提升所述关企业-业务语义匹配特征矩阵作为整体对用户行为数据的不同尺度的文本语义关联特征的表达效果,本申请的申请人对每个行特征向量,例如记为进行多源信息融合验前分布评估优化,以获得优化后的行特征向量/>
相应地,在一个具体示例中,对所述企业-业务语义匹配特征矩阵进行特征分布优化以得到优化企业-业务语义匹配特征矩阵,包括:以如下优化公式对所述企业-业务语义匹配特征矩阵的各个行特征向量进行多源信息融合验前分布评估优化以得到所述优化企业-业务语义匹配特征矩阵;其中,所述优化公式为:
其中,是所述企业-业务语义匹配特征矩阵的第/>个行特征向量,/>是所述企业-业务语义匹配特征矩阵的第/>个行特征向量,/>是均值特征向量,/>为邻域设置超参数,/>表示以2为底的对数函数,/>表示按位置减法,/>是所述优化企业-业务语义匹配特征矩阵的第/>个优化行特征向量。且当/>小于等于零或者大于所述企业-业务语义匹配特征矩阵的行数时,特征向量/>可以为全零向量或者单位向量。
这里,所述多源信息融合验前分布评估优化可以对于由多个相互关联的邻域部分组成的特征局部集合,基于特征分布融合稳健性的类极大似然估计,来实现特征向量各自的验前信息在局部合成分布上的有效折合,并通过多源情况下的验前分布构建,来获得能够用于评估集合内内部关联与集合间变动关系之间的标准期望融合信息的优化范式,以提升特征向量基于多源信息关联融合的信息表达效果。由此,再将优化后的行特征向量排列为所述关企业-业务语义匹配特征矩阵,就可以提升所述关企业-业务语义匹配特征矩阵作为整体对用户行为数据的不同尺度的文本语义关联特征的表达效果。这样,不仅可以提高企业合作伙伴的匹配效率,还可以降低人力成本和错误率,从而提升金融机构的客户服务能力和市场竞争力。
综上,基于本申请实施例的基于大数据的产业链优企信息管理方法被阐明,其可以提高企业合作伙伴的匹配效率,还可以降低人力成本和错误率,从而提升金融机构的客户服务能力和市场竞争力。
图8为根据本申请实施例的基于大数据的产业链优企信息管理系统100的框图。如图8所示,根据本申请实施例的基于大数据的产业链优企信息管理系统100,包括:数据获取模块110,用于获取待推广TOB业务的文本描述以及目标企业信息;业务语义理解模块120,用于对所述待推广TOB业务的文本描述进行语义理解以得到业务语义表达特征向量;目标企业语义理解模块130,用于对所述目标企业信息进行语义理解以得到目标企业语义表达特征向量;语义关联编码模块140,用于对所述业务语义表达特征向量和所述目标企业语义表达特征向量进行语义关联编码以得到企业-业务语义匹配特征矩阵;以及,推送控制模块150,用于基于所述企业-业务语义匹配特征矩阵,确定是否向目标企业推送所述待推广TOB业务。
这里,本领域技术人员可以理解,上述基于大数据的产业链优企信息管理系统100中的各个模块的具体功能和操作已经在上面参考图1到图7的基于大数据的产业链优企信息管理方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的基于大数据的产业链优企信息管理系统100可以实现在各种无线终端中,例如具有基于大数据的产业链优企信息管理算法的服务器等。在一个示例中,根据本申请实施例的基于大数据的产业链优企信息管理系统100可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如,该基于大数据的产业链优企信息管理系统100可以是该无线终端的操作系统中的一个软件模块,或者可以是针对于该无线终端所开发的一个应用程序;当然,该基于大数据的产业链优企信息管理系统100同样可以是该无线终端的众多硬件模块之一。
替换地,在另一示例中,该基于大数据的产业链优企信息管理系统100与该无线终端也可以是分立的设备,并且该基于大数据的产业链优企信息管理系统100可以通过有线和/或无线网络连接到该无线终端,并且按照约定的数据格式来传输交互信息。
图9为根据本申请实施例的基于大数据的产业链优企信息管理方法的应用场景图。如图9所示,在该应用场景中,首先,获取待推广TOB业务的文本描述(例如,图9中所示意的D1)以及目标企业信息(例如,图9所示意的D2),然后,将所述待推广TOB业务的文本描述和所述目标企业信息输入至部署有基于大数据的产业链优企信息管理算法的服务器中(例如,图9中所示意的S),其中,所述服务器能够使用所述基于大数据的产业链优企信息管理算法对所述待推广TOB业务的文本描述和所述目标企业信息进行处理以得到用于表示是否向目标企业推送所述待推广TOB业务的分类结果。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
上面是对本发明的说明,而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解,上面是对本发明的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims (10)

1.一种基于大数据的产业链优企信息管理方法,其特征在于,包括:
获取待推广TOB业务的文本描述以及目标企业信息;
对所述待推广TOB业务的文本描述进行语义理解以得到业务语义表达特征向量;
对所述目标企业信息进行语义理解以得到目标企业语义表达特征向量;
对所述业务语义表达特征向量和所述目标企业语义表达特征向量进行语义关联编码以得到企业-业务语义匹配特征矩阵;
以及基于所述企业-业务语义匹配特征矩阵,确定是否向目标企业推送待推广TOB业务。
2.根据权利要求1所述的基于大数据的产业链优企信息管理方法,其特征在于,对所述待推广TOB业务的文本描述进行语义理解以得到业务语义表达特征向量,包括:
对所述待推广TOB业务的文本描述进行分词处理以得到业务特征描述词的序列;
提取所述业务特征描述词的序列中各个业务特征描述词的词性信息以得到业务特征描述词性信息的序列;
将所述业务特征描述词的序列和所述业务特征描述词性信息的序列分别转化为向量后融合以得到业务描述词综合向量的序列;
以及通过基于第一深度神经网络模型的语义编码器对所述业务描述词综合向量的序列进行语义编码以得到所述业务语义表达特征向量。
3.根据权利要求2所述的基于大数据的产业链优企信息管理方法,其特征在于,将所述业务特征描述词的序列和所述业务特征描述词性信息的序列分别转化为向量后融合以得到业务描述词综合向量的序列,包括:
将所述业务特征描述词的序列中的各个词转化为词向量表示以得到业务描述词向量的序列;
使用独热编码对所述业务特征描述词性信息的序列进行处理以得到业务特征描述词性向量的序列;
以及融合所述业务描述词向量的序列和所述业务特征描述词性向量的序列以得到所述业务描述词综合向量的序列。
4.根据权利要求3所述的基于大数据的产业链优企信息管理方法,其特征在于,所述第一深度神经网络模型为双向长短期记忆神经网络模型。
5.根据权利要求4所述的基于大数据的产业链优企信息管理方法,其特征在于,对所述目标企业信息进行语义理解以得到目标企业语义表达特征向量,包括:
对所述目标企业信息进行分词处理以得到目标企业描述词的序列;
提取所述目标企业描述词的序列中各个目标企业描述词的词性信息以得到目标企业描述词性信息的序列;
将所述目标企业描述词的序列和所述目标企业描述词性信息的序列分别转化为向量后融合以得到目标企业描述词综合向量的序列;
以及通过基于第二深度神经网络模型的语义编码器对所述目标企业描述词综合向量的序列进行语义编码以得到所述业务语义表达特征向量。
6.根据权利要求5所述的基于大数据的产业链优企信息管理方法,其特征在于,将所述目标企业描述词的序列和所述目标企业描述词性信息的序列分别转化为向量后融合以得到目标企业描述词综合向量的序列,包括:
将所述目标企业描述词的序列中的各个词转化为词向量表示以得到目标企业描述词向量的序列;
使用独热编码对所述目标企业描述词性信息的序列进行处理以得到目标企业描述词性向量的序列;
以及融合所述目标企业描述词向量的序列和所述目标企业描述词性向量的序列以得到所述目标企业描述词综合向量的序列。
7.根据权利要求6所述的基于大数据的产业链优企信息管理方法,其特征在于,所述第二深度神经网络模型为双向长短期记忆神经网络模型。
8.根据权利要求7所述的基于大数据的产业链优企信息管理方法,其特征在于,基于所述企业-业务语义匹配特征矩阵,确定是否向目标企业推送待推广TOB业务,包括:
对所述企业-业务语义匹配特征矩阵进行特征分布优化以得到优化企业-业务语义匹配特征矩阵;
以及将所述优化企业-业务语义匹配特征矩阵通过分类器以得到分类结果,所述分类结果用于表示是否向目标企业推送待推广TOB业务。
9.根据权利要求8所述的基于大数据的产业链优企信息管理方法,其特征在于,对所述企业-业务语义匹配特征矩阵进行特征分布优化以得到优化企业-业务语义匹配特征矩阵,包括:
以如下优化公式对所述企业-业务语义匹配特征矩阵的各个行特征向量进行多源信息融合验前分布评估优化以得到所述优化企业-业务语义匹配特征矩阵;
其中,所述优化公式为:
其中,/>是所述企业-业务语义匹配特征矩阵的第/>个行特征向量,/>是均值特征向量,/>为邻域设置超参数,/>表示以2为底的对数函数,/>表示按位置减法,/>是所述优化企业-业务语义匹配特征矩阵的第/>个优化行特征向量。
10.一种基于大数据的产业链优企信息管理系统,其特征在于,包括:
数据获取模块,用于获取待推广TOB业务的文本描述以及目标企业信息;
业务语义理解模块,用于对所述待推广TOB业务的文本描述进行语义理解以得到业务语义表达特征向量;
目标企业语义理解模块,用于对所述目标企业信息进行语义理解以得到目标企业语义表达特征向量;
语义关联编码模块,用于对所述业务语义表达特征向量和所述目标企业语义表达特征向量进行语义关联编码以得到企业-业务语义匹配特征矩阵;
以及推送控制模块,用于基于所述企业-业务语义匹配特征矩阵,确定是否向目标企业推送待推广TOB业务。
CN202310882881.3A 2023-07-19 2023-07-19 基于大数据的产业链优企信息管理方法及系统 Active CN116610803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310882881.3A CN116610803B (zh) 2023-07-19 2023-07-19 基于大数据的产业链优企信息管理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310882881.3A CN116610803B (zh) 2023-07-19 2023-07-19 基于大数据的产业链优企信息管理方法及系统

Publications (2)

Publication Number Publication Date
CN116610803A true CN116610803A (zh) 2023-08-18
CN116610803B CN116610803B (zh) 2023-12-08

Family

ID=87676788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310882881.3A Active CN116610803B (zh) 2023-07-19 2023-07-19 基于大数据的产业链优企信息管理方法及系统

Country Status (1)

Country Link
CN (1) CN116610803B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116823193A (zh) * 2023-08-31 2023-09-29 深圳市永迦电子科技有限公司 基于大数据的智能制造流程管理系统
CN116957304A (zh) * 2023-09-20 2023-10-27 飞客工场科技(北京)有限公司 无人机群协同任务分配方法及系统
CN117521606A (zh) * 2024-01-04 2024-02-06 长春职业技术学院 用于财务数据的智能报表生成系统及方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10157347B1 (en) * 2013-11-04 2018-12-18 Predii, Inc. Adaptable systems and methods for processing enterprise data
US20200134537A1 (en) * 2018-10-30 2020-04-30 Ascendify Corporation System and method for generating employment candidates
CN113255370A (zh) * 2021-06-22 2021-08-13 中国平安财产保险股份有限公司 基于语义相似度的行业类型推荐方法、装置、设备及介质
WO2022033073A1 (zh) * 2020-08-12 2022-02-17 哈尔滨工业大学 一种面向认知服务的用户意图识别方法及系统
CN114492367A (zh) * 2022-01-21 2022-05-13 武汉东湖大数据交易中心股份有限公司 一种产业招商线索发现方法、系统、设备及存储介质
CN115222566A (zh) * 2022-08-02 2022-10-21 吴若涵 国际金融与金融计量学教学用学习方法及其系统
US20220414792A1 (en) * 2021-06-24 2022-12-29 Jinan University Social recommendation method based on multi-feature heterogeneous graph neural networks
CN115860005A (zh) * 2022-12-29 2023-03-28 企知道网络技术有限公司 基于语义匹配的产业链挂载企业的方法、装置及相关组件
CN116010713A (zh) * 2023-03-27 2023-04-25 日照职业技术学院 基于云计算的创新创业平台服务数据处理方法及系统
CN116028098A (zh) * 2023-01-10 2023-04-28 杭州行知方舟信息科技有限公司 用于非标企业的软件管理系统及方法
CN116150535A (zh) * 2023-02-20 2023-05-23 南京泛娱科技有限公司 一种企业网站建设推广平台及方法
CN116303881A (zh) * 2022-12-13 2023-06-23 浙江邦盛科技股份有限公司 一种基于自监督表示学习的企业单位地址匹配方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10157347B1 (en) * 2013-11-04 2018-12-18 Predii, Inc. Adaptable systems and methods for processing enterprise data
US20200134537A1 (en) * 2018-10-30 2020-04-30 Ascendify Corporation System and method for generating employment candidates
WO2022033073A1 (zh) * 2020-08-12 2022-02-17 哈尔滨工业大学 一种面向认知服务的用户意图识别方法及系统
CN113255370A (zh) * 2021-06-22 2021-08-13 中国平安财产保险股份有限公司 基于语义相似度的行业类型推荐方法、装置、设备及介质
US20220414792A1 (en) * 2021-06-24 2022-12-29 Jinan University Social recommendation method based on multi-feature heterogeneous graph neural networks
CN114492367A (zh) * 2022-01-21 2022-05-13 武汉东湖大数据交易中心股份有限公司 一种产业招商线索发现方法、系统、设备及存储介质
CN115222566A (zh) * 2022-08-02 2022-10-21 吴若涵 国际金融与金融计量学教学用学习方法及其系统
CN116303881A (zh) * 2022-12-13 2023-06-23 浙江邦盛科技股份有限公司 一种基于自监督表示学习的企业单位地址匹配方法及装置
CN115860005A (zh) * 2022-12-29 2023-03-28 企知道网络技术有限公司 基于语义匹配的产业链挂载企业的方法、装置及相关组件
CN116028098A (zh) * 2023-01-10 2023-04-28 杭州行知方舟信息科技有限公司 用于非标企业的软件管理系统及方法
CN116150535A (zh) * 2023-02-20 2023-05-23 南京泛娱科技有限公司 一种企业网站建设推广平台及方法
CN116010713A (zh) * 2023-03-27 2023-04-25 日照职业技术学院 基于云计算的创新创业平台服务数据处理方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116823193A (zh) * 2023-08-31 2023-09-29 深圳市永迦电子科技有限公司 基于大数据的智能制造流程管理系统
CN116823193B (zh) * 2023-08-31 2023-11-03 深圳市永迦电子科技有限公司 基于大数据的智能制造流程管理系统
CN116957304A (zh) * 2023-09-20 2023-10-27 飞客工场科技(北京)有限公司 无人机群协同任务分配方法及系统
CN116957304B (zh) * 2023-09-20 2023-12-26 飞客工场科技(北京)有限公司 无人机群协同任务分配方法及系统
CN117521606A (zh) * 2024-01-04 2024-02-06 长春职业技术学院 用于财务数据的智能报表生成系统及方法
CN117521606B (zh) * 2024-01-04 2024-03-19 长春职业技术学院 用于财务数据的智能报表生成系统及方法

Also Published As

Publication number Publication date
CN116610803B (zh) 2023-12-08

Similar Documents

Publication Publication Date Title
CN116610803B (zh) 基于大数据的产业链优企信息管理方法及系统
CN116010713A (zh) 基于云计算的创新创业平台服务数据处理方法及系统
US20150095017A1 (en) System and method for learning word embeddings using neural language models
CN114298158A (zh) 一种基于图文线性组合的多模态预训练方法
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN111324696B (zh) 实体抽取方法、实体抽取模型的训练方法、装置及设备
CN104750875B (zh) 一种机器错误数据分类方法及系统
CN111309918A (zh) 一种基于标签关联性的多标签文本分类方法
CN111898704B (zh) 对内容样本进行聚类的方法和装置
US10824808B2 (en) Robust key value extraction
CN116663568B (zh) 基于优先级的关键任务识别系统及其方法
CN113948217A (zh) 一种基于局部特征整合的医学嵌套命名实体识别方法
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN115859980A (zh) 一种半监督式命名实体识别方法、系统及电子设备
CN111611395B (zh) 一种实体关系的识别方法及装置
CN115168590A (zh) 文本特征提取方法、模型训练方法、装置、设备及介质
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN113535949B (zh) 基于图片和句子的多模态联合事件检测方法
CN114266252A (zh) 命名实体识别方法、装置、设备及存储介质
CN114547301A (zh) 文档处理、识别模型训练方法、装置、设备及存储介质
CN112270189A (zh) 一种提问式的分析节点生成方法、系统及存储介质
CN114818979A (zh) 一种基于最大化间隔机制的含噪多标记分类方法
CN115098681A (zh) 一种基于有监督对比学习的开放服务意图检测方法
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN114626378A (zh) 命名实体识别方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20231113

Address after: Room 1, Room 1106, 10th Floor, Building 1, No. 98 East Third Ring South Road, Chaoyang District, Beijing, 100000

Applicant after: Orange times (Beijing) Network Technology Co.,Ltd.

Address before: Room C01, Room 301, Floor 3, Building 2, No. 2, Minzu Garden Road, Chaoyang District, Beijing 100020

Applicant before: Beijing Daily Xindong Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Big Data Based Information Management Method and System for Optimizing Enterprises in the Industrial Chain

Granted publication date: 20231208

Pledgee: China Construction Bank Corporation Beijing Anhua Sub-branch

Pledgor: Orange times (Beijing) Network Technology Co.,Ltd.

Registration number: Y2024980004968

PE01 Entry into force of the registration of the contract for pledge of patent right