CN113806538B - 标签提取模型训练方法、装置、设备与存储介质 - Google Patents

标签提取模型训练方法、装置、设备与存储介质 Download PDF

Info

Publication number
CN113806538B
CN113806538B CN202111095420.9A CN202111095420A CN113806538B CN 113806538 B CN113806538 B CN 113806538B CN 202111095420 A CN202111095420 A CN 202111095420A CN 113806538 B CN113806538 B CN 113806538B
Authority
CN
China
Prior art keywords
sentence
word
vector
label
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111095420.9A
Other languages
English (en)
Other versions
CN113806538A (zh
Inventor
周建锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202111095420.9A priority Critical patent/CN113806538B/zh
Publication of CN113806538A publication Critical patent/CN113806538A/zh
Application granted granted Critical
Publication of CN113806538B publication Critical patent/CN113806538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及人工智能技术领域,本申请提供一种标签提取模型训练方法、装置、设备与存储介质,标签提取模型训练方法包括:获取文本样本,获取每个句子对应的词向量序列,将每个句子对应的词向量序列输入第一编码层进行词编码处理,获得分词对应的隐向量;通过第一注意力层对分词对应的隐向量进行第一注意力处理,获得句子向量;将句子向量输入第二编码层进行句子编码处理,获得句子对应的隐向量;通过第二注意力层对句子对应的隐向量进行第二注意力处理,获得文档向量;基于文档向量调整所述标签提取模型的参数。实施本申请,能够实现对大文本的标签提取,提高标签提取的准确性。

Description

标签提取模型训练方法、装置、设备与存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种标签提取模型训练方法、装置、设备与存储介质。
背景技术
互联网平台上通常含有大量企业的公告信息或其他机构对各个企业披露的各种信息,这些大文本信息中往往含有企业的重大发展方向变更或者经营状况等重要信息,其中,大文本信息可以是指文本中字词数量比较多,比如包含成百上千字的公告文章,如何从这些大文本信息中准确的抽取出相关标签信息是一个比较重要的发展方向,传统的用于提取标签的模型仅限于对几句话的标签提取,不适用于对大文本的标签提取。
发明内容
基于此,有必要针对上述技术问题,提供一种标签提取模型训练方法、装置、设备与存储介质,能够让标签提取模型学习到从词到句子,再到文档的特征学习过程,从而能够实现对大文本的文本分析,并提取适合大文本的标签,提高标签提取的准确性。
第一方面,本申请提供一种标签提取模型训练方法,所述标签提取模型包括第一编码层、第一注意力层、第二编码层以及第二注意力层,所述方法包括:
获取文本样本,所述文本样本中的文字数量大于第一阈值,所述文本样本包括至少一个句子;
获取所述至少一个句子中每个句子对应的词向量序列,所述词向量序列中包含所述句子的至少一个分词中每个分词对应的词向量;
将所述每个句子对应的词向量序列输入所述第一编码层进行词编码处理,获得所述每个句子中每个分词对应的隐向量;
通过所述第一注意力层对所述每个句子中每个分词对应的隐向量进行第一注意力处理,获得所述每个句子对应的句子向量;
将所述每个句子对应的句子向量输入所述第二编码层进行句子编码处理,获得所述每个句子对应的隐向量;
通过所述第二注意力层对所述每个句子对应的隐向量进行第二注意力处理,获得所述文本样本的文档向量;
基于所述文档向量,获得所述文本样本的预测标签,并根据所述预测标签和所述文本样本的实际标签之间的差异,调整所述标签提取模型的参数。
结合第一方面,在一些实施例中,所述通过所述第一注意力层对所述每个句子中每个分词对应的隐向量进行第一注意力处理,获得所述每个句子对应的句子向量,包括:
获取所述第一注意力层对应的第一语义向量;
根据所述第一语义向量和所述每个句子中每个分词对应的隐向量,获得所述每个分词对应的注意力权重;
根据所述每个句子中每个分词对应的隐向量和所述每个句子中每个分词对应的注意力权重,获得所述每个句子对应的句子向量。
结合第一方面,在一些实施例中,所述通过所述第二注意力层对所述每个句子对应的隐向量进行第二注意力处理,获得所述文本样本的文档向量,包括:
获取所述第二注意力层对应的第二语义向量;
根据所述第二语义向量和所述每个句子对应的隐向量,获得所述每个句子对应的注意力权重;
根据所述每个句子对应的隐向量和所述每个句子对应的注意力权重,获得所述文本样本的文档向量。
结合第一方面,在一些实施例中,所述标签提取模型还包括全连接层和逻辑回归softmax层;
所述基于所述文档向量,获得所述文本样本的预测标签,包括:
将所述文档向量输入所述全连接层进行线性转换处理,获得目标向量;
将所述目标向量输入所述softmax层进行分类处理,获得所述文本样本的预测标签。
结合第一方面,在一些实施例中,所述根据所述预测标签和所述文本样本的实际标签之间的差异,调整所述标签提取模型的参数,包括:
根据所述预测标签和所述文本样本的实际标签之间的差异,确定损失值;
若所述损失值大于或者等于第二阈值,调整所述标签提取模型的参数。
结合第一方面,在一些实施例中,若所述损失值小于所述第二阈值,将所述标签提取模型确定为训练好的标签提取模型;
确定至少一个待分析企业,采用网络爬虫技术从互联网爬取所述至少一个个待分析企业中每个待分析企业的文本数据,所述文本数据包括所述待分析企业的财经文本、法律公告或研究报告中的一项或多项;
基于所述训练好的标签提取模型对所述每个待分析企业的文本数据进行标签提取处理,获得所述每个待分析企业的企业标签。
结合第一方面,在一些实施例中,所述方法还包括:
从所述至少一个待分析企业的企业标签中筛选与目标标签匹配的待分析企业,并将与所述目标标签匹配的待分析企业确定为目标企业;
向与所述目标企业关联的终端设备发送与所述目标标签对应的预设信息。
第二方面,本申请提供一种标签提取模型训练装置,所述标签提取模型包括第一编码层、第一注意力层、第二编码层以及第二注意力层,该装置包括:
第一获取单元,用于获取文本样本,所述文本样本中的文字数量大于第一阈值,所述文本样本包括至少一个句子;
第二获取单元,用于获取所述至少一个句子中每个句子对应的词向量序列,所述词向量序列中包含所述句子的至少一个分词中每个分词对应的词向量;
词编码单元,用于将所述每个句子对应的词向量序列输入所述第一编码层进行词编码处理,获得所述每个句子中每个分词对应的隐向量;
第一注意力单元,用于通过所述第一注意力层对所述每个句子中每个分词对应的隐向量进行第一注意力处理,获得所述每个句子对应的句子向量;
句子编码单元,用于将所述每个句子对应的句子向量输入所述第二编码层进行句子编码处理,获得所述每个句子对应的隐向量;
第二注意力单元,用于通过所述第二注意力层对所述每个句子对应的隐向量进行第二注意力处理,获得所述文本样本的文档向量;
模型训练单元,用于基于所述文档向量,获得所述文本样本的预测标签,并根据所述预测标签和所述文本样本的实际标签之间的差异,调整所述标签提取模型的参数。
结合第二方面,在一些实施例中,所述第一注意力单元具体用于:
获取所述第一注意力层对应的第一语义向量;
根据所述第一语义向量和所述每个句子中每个分词对应的隐向量,获得所述每个分词对应的注意力权重;
根据所述每个句子中每个分词对应的隐向量和所述每个句子中每个分词对应的注意力权重,获得所述每个句子对应的句子向量。
结合第二方面,在一些实施例中,所述第二注意力单元具体用于:
获取所述第二注意力层对应的第二语义向量;
根据所述第二语义向量和所述每个句子对应的隐向量,获得所述每个句子对应的注意力权重;
根据所述每个句子对应的隐向量和所述每个句子对应的注意力权重,获得所述文本样本的文档向量。
结合第二方面,在一些实施例中,所述标签提取模型还包括全连接层和逻辑回归softmax层;
所述模型训练单元具体用于:将所述文档向量输入所述全连接层进行线性转换处理,获得目标向量;
将所述目标向量输入所述softmax层进行分类处理,获得所述文本样本的预测标签。
结合第二方面,在一些实施例中,所述模型训练单元具体用于:根据所述预测标签和所述文本样本的实际标签之间的差异,确定损失值;
若所述损失值大于或者等于第二阈值,调整所述标签提取模型的参数。
结合第二方面,在一些实施例中,所述模型训练单元还用于若所述损失值小于所述第二阈值,将所述标签提取模型确定为训练好的标签提取模型;
所述装置还包括:
第三获取单元,用于确定至少一个待分析企业,采用网络爬虫技术从互联网爬取所述至少一个个待分析企业中每个待分析企业的文本数据,所述文本数据包括所述待分析企业的财经文本、法律公告或研究报告中的一项或多项;
标签提取单元,用于基于所述训练好的标签提取模型对所述每个待分析企业的文本数据进行标签提取处理,获得所述每个待分析企业的企业标签。
结合第二方面,在一些实施例中,所述装置还包括:
筛选单元,用于从所述至少一个待分析企业的企业标签中筛选与目标标签匹配的待分析企业,并将与所述目标标签匹配的待分析企业确定为目标企业;
通信单元,用于向与所述目标企业关联的终端设备发送与所述目标标签对应的预设信息。
第三方面,本申请提供一种标签提取模型训练设备,包括处理器、存储器以及通信接口,该处理器、存储器和通信接口相互连接,其中,该通信接口用于接收和发送数据,该存储器用于存储程序代码,该处理器用于调用该程序代码,执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
第四方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序;当该计算机程序在一个或多个处理器上运行时,使得该终端设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
本申请实施例中,对于包含文字数量较多的大文本样本,可以各个句子中各个分词的词向量进行词编码,得到各个分词对应的隐向量,进一步基于每个句子中各个分词的隐向量得到每个句子对应的句子向量,再基于各个句子的句子向量进行句子编码,得到各个句子对应的隐向量,进一步基于各个句子的隐向量得到文档向量,最后基于文档向量获取预测标签,并根据预测标签与实际标签之间的差异调整模型参数,能够让模型学习到从词到句子,再到文档的特征学习过程,从而能够实现对大文本的文本分析,并提取适合大文本的标签,提高标签提取的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种标签提取模型训练方法的流程示意图;
图2为本申请实施例提供的另一种标签提取模型训练方法的示意图;
图3为本申请实施例提供的一种标签提取模型训练装置的示意图;
图4为本申请实施例提供的一种标签提取模型训练设备的示意图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供了一种标签提取模型训练方法,为了更清楚地描述本申请的方案,下面对本申请涉及的一些附图作进一步介绍。
请参阅图1,图1为本申请实施例提供的一种标签提取模型训练方法的流程示意图,所述标签提取模型包括第一编码层、第一注意力层、第二编码层以及第二注意力层。如图1所示,所述方法包括以下步骤:
S101,获取文本样本,所述文本样本中的文字数量大于第一阈值,所述文本样本包括至少一个句子;
本申请实施例中,文本样本可以是包含文字数量比较多的文本,即大文本,该文本样本中文字数量大于第一阈值,譬如,该文本样本包含成百上千,甚至上万级别字数的文本信息。示例性的,该文本样本可以是企业的财务公告,或者该样本文本还可以是企业的法律公告,在一些可选的方式中,该文本样本还可以是某个企业的研究报告等等。其中,文本样本被标注实际标签,其中,该实际标签可以包括一个或多个,本申请不作限定。
其中,该实际标签可以是预设标签库中的标签,示例性的,预设经营类标签库中的标签可以有:经营异常、股权质押、动产抵押、土地抵押、清算信息、司法拍卖、破产重整、债券违约、行政处罚、环保处罚、税收处罚、担保信息、欠税公告、产品召回等。预设法律风险标签库中的标签可以有:司法案件、被执行人信息、失信被执行人、限制高消费、限制出境、裁判文书、法庭公告、立案信息等。其中,预测不同标签库中的标签可以采取不同的标签提取模型,但是标签提取模型的训练方式可以参照S101-S107的描述。在进行训练的文本样本也可以不同,比如,用于提取经营类标签的标签提取模型时可以采用企业的财务公告作为样本文本,用于提取法律风险标签的标签提取模型时可以是采用企业的法律公告作为样本文本等等,当然样本文本被标注的实际标签所属标签库也是不同的。
S102,获取所述至少一个句子中每个句子对应的词向量序列,所述词向量序列中包含所述句子的至少一个分词中每个分词对应的词向量;
本申请实施例中,根据该文本样本中所包含的标点符号,将该文本样本划分为至少一个句子,比如划分为句子1、句子2、句子3;进一步分别对每个句子进行分词处理,获得每个句子包含的至少一个分词,进一步通过词向量模型分别将各个每个句子中包含的分词转换为对应的词向量,获得每个句子对应的词向量序列,一个句子对应的词向量序列中包含该句子的各个分词所对应的词向量,其中,该词向量模型可以是word2vec模型。以句子1为例,该句子1包括3个分词,该三个分词分别对应的词向量为v1、v2、v3,则将该三个词向量组成词向量序列(v1 v2 v3),每个句子均对应一个词向量序列。
S103,将所述每个句子对应的词向量序列输入所述第一编码层进行词编码处理,获得所述每个句子中每个分词对应的隐向量;
本申请实施例中,将每个句子对应的词向量序列输入到第一编码层进行词编码处理,从而获得每个句子中每个分词所对应的隐向量。第一编码层可以包括双向循环神经网络(Recurrent Neural Network,RNN),通过双向RNN从分词的上下文信息来获得各个分词对应的隐向量,进而便于将上下文信息合并到句子向量中。每个句子的每个分词均会对应一个隐向量。
S104,通过所述第一注意力层对所述每个句子中每个分词对应的隐向量进行第一注意力处理,获得所述每个句子对应的句子向量;
本申请实施例中,在通过第一编码层获得每个句子中每个分词对应的隐向量之后,进一步将每个句子的每个分词对应的隐向量输入第一注意力层进行第一注意力处理,获得每个句子对应的句子向量。具体可选的,获取第一注意力层对应的第一语义向量,该第一语义向量是标签提取模型的一个参数,该第一语义向量初始化时可以是一个随机向量,随着对标签提取模型的不断训练,调整该第一语义向量。第一语义向量可以表征句子中各个分词的重要性。将第一语义向量与句子中每个分词对应的隐向量点积得到注意力attention权重,然后把句子中每个分词对应的隐向量形成的隐向量序列,根据注意力attention权重进行加权和,从而得到该句子的句子向量。
将每个句子的分词均通过第一编码层和第一注意力层的处理,可以获得每个句子对应的句子向量。
S105,将所述每个句子对应的句子向量输入所述第二编码层进行句子编码处理,获得所述每个句子对应的隐向量;
本申请实施例中,进一步将各个句子对应的句子向量输入到第二编码层进行句子编码处理,从而获得每个句子所对应的隐向量。该第二编码层也可以包括双向RNN,通过双向RNN可以获得上下句的句子信息,从而将上下文信息合并到文档向量中。每个句子均会对应一个隐向量。
S106,通过所述第二注意力层对所述每个句子对应的隐向量进行第二注意力处理,获得所述文本样本的文档向量;
本申请实施例中,在通过第二编码层获得每个句子对应的隐向量之后,进一步将每个句子对应的隐向量输入第二注意力层进行第二注意力处理,获得文本样本的文档向量。具体可选的,获取第二注意力层对应的第二语义向量,该第二语义向量是标签提取模型的一个参数,该第二语义向量初始化时可以是一个随机向量,随着对标签提取模型的不断训练,调整该第二语义向量,该第二语义向量可以表征各个句子的重要性。将第二语义向量与每个句子对应的隐向量点积得到注意力attention权重,然后把每个句子对应的隐向量形成的隐向量序列,根据注意力attention权重进行加权和,从而得到文档向量。
S107,基于所述文档向量,获得所述文本样本的预测标签,并根据所述预测标签和所述文本样本的实际标签之间的差异,调整所述标签提取模型的参数。
本申请实施例中,该标签提取模型还包括全连接层和softmax层,通过全连接层对该文档向量进行线性转换处理,获得目标向量,进一步通过softmax层的softmax函数基于该目标向量进行分类处理,获得该文本样本所对应的预测标签,其中,该预测标签可以包括一个或多个,该预测标签也是预设标签库中的标签。
进一步,根据文本样本的预测标签和该文本样本被标注的实际标签之间的差异,确定损失值,从而根据损失值调整标签提取模型的参数,然后再从训练集中获取另一个文本样本对该标签提取模型进行训练,不断迭代循环,直至损失值小于预设阈值,标签提取模型收敛,获取训练好的标签提取模型。
本申请实施例中,对于包含文字数量较多的大文本样本,可以各个句子中各个分词的词向量进行词编码,得到各个分词对应的隐向量,进一步基于每个句子中各个分词的隐向量得到每个句子对应的句子向量,再基于各个句子的句子向量进行句子编码,得到各个句子对应的隐向量,进一步基于各个句子的隐向量得到文档向量,最后基于文档向量获取预测标签,并根据预测标签与实际标签之间的差异调整模型参数,能够让模型学习到从词到句子,再到文档的特征学习过程,从而能够实现对大文本的文本分析,并提取适合大文本的标签,提高标签提取的准确性。
请参阅图2,图2为本申请实施例提供的另一种标签提取模型训练方法的流程示意图,所述标签提取模型包括第一编码层、第一注意力层、第二编码层以及第二注意力层。如图2所示,所述方法包括以下步骤:
S201,获取文本样本,所述文本样本中的文字数量大于第一阈值,所述文本样本包括至少一个句子;
S202,获取所述至少一个句子中每个句子对应的词向量序列,所述词向量序列中包含所述句子的至少一个分词中每个分词对应的词向量;
S203,将所述每个句子对应的词向量序列输入所述第一编码层进行词编码处理,获得所述每个句子中每个分词对应的隐向量;
S204,通过所述第一注意力层对所述每个句子中每个分词对应的隐向量进行第一注意力处理,获得所述每个句子对应的句子向量;
S205,将所述每个句子对应的句子向量输入所述第二编码层进行句子编码处理,获得所述每个句子对应的隐向量;
S206,通过所述第二注意力层对所述每个句子对应的隐向量进行第二注意力处理,获得所述文本样本的文档向量;
本申请实施例步骤S201-步骤S206请参照图1的实施例步骤S101-步骤S106,在此不再赘述。
S207,基于所述文档向量,获得所述文本样本的预测标签,根据所述预测标签和所述文本样本的实际标签之间的差异,确定损失值。
本申请实施例中,该标签提取模型还包括全连接层和softmax层,通过全连接层对该文档向量进行线性转换处理,获得目标向量,进一步通过softmax层的softmax函数基于该目标向量进行分类处理,获得该文本样本所对应的预测标签,其中,该预测标签可以包括一个或多个,该预测标签也是预设标签库中的标签。
每个文本样本均被标注实际标签,进一步根据文本样本的预测标签和该文本样本被标注的实际标签之间的差异,确定损失值。
S208,若所述损失值大于或者等于第二阈值,调整所述标签提取模型的参数。
S209,若所述损失值小于所述第二阈值,将所述标签提取模型确定为训练好的标签提取模型;
具体可选的,如果所计算得到的损失值大于或者等于第二阈值,则需要调整标签提取模型的参数,从而对标签提取模型进行更新,然后再从训练集中获取一个文本样本,循环执行步骤S201至S207,直到损失值小于第二阈值,模型收敛,将此时的标签提取模型确定为训练好的标签提取模型。
S210,确定至少一个待分析企业,采用网络爬虫技术从互联网爬取所述至少一个个待分析企业中每个待分析企业的文本数据,所述文本数据包括所述待分析企业的财经文本、法律公告或研究报告中的一项或多项;
S211,基于所述训练好的标签提取模型对所述每个待分析企业的文本数据进行标签提取处理,获得所述每个待分析企业的企业标签。
本申请实施例中,可以确定至少一个待分析企业的企业名称或企业标识,进一步从互联网爬取该至少一个待分析企业的文本数据,并将该文本数据输入训练好的标签提取模型,得到待分析企业的企业标签,根据该企业标签构建该待分析企业的企业画像,可以通过不同标签提取模型分别提取的该待分析企业的不同类型的标签构建该待分析企业的企业画像,比如,可以提取经营类企业标签,还可以提取法律风险类标签。
本实施例中,可以采用网络爬虫技术,实时的在互联网中爬取各个待分析企业的文本数据,比如,爬取待分析企业的财经文本或法律公告或研究报告等等,其中,爬取财经文本的目标网站可以是互联网中的各个财经网站,可以是整体访问量排名在前20的主流财经网站。可以是每隔一个预设时间段,对互联网中预设财经网站的各类财经文本进行自动爬取,从而将爬取到的财经文本存储到本地进行企业标签提取。可以理解的,上述爬取到的企业的文本信息可以包括标题和正文。
进一步将爬取到的文本数据根据标点符号,划分为至少一个句子,并对每个句子进行分词,获得每个句子对应的至少一个分词,进一步通过词向量模型将每个分词转换为词向量,获得每个句子对应的词向量序列,将每个句子对应的词向量序列输入训练好的标签提取模型进行标签提取,即可得到待分析企业的企业标签,可以根据该企业标签构建该待分析企业的企业画像。在获得待分析企业的企业画像之后,可以进一步基于该企业画像得到该待分析企业的经营状态,或者,还可以通过基于在互联网上爬取的文本数据所得到的企业画像与机构内查询得到的该企业的文本数据所构建的企业画像作对比,从而确定该企业是否可疑。
S212,从所述至少一个待分析企业的企业标签中筛选与目标标签匹配的待分析企业,并将与所述目标标签匹配的待分析企业确定为目标企业;
S213,向与所述目标企业关联的终端设备发送与所述目标标签对应的预设信息。
本申请实施例中,在获取海量待分析企业中各个待分析企业的企业标签之后,还可以通过标签筛选得到包括某个目标标签的一系列企业,比如,需要对新能源企业进行补助,则可以通过“新能源”标签进行筛选,得到包含“新能源”标签的一系列企业,并对该一系列企业进行机器外呼。
其中,与目标企业关联的终端设备可以是该目标企业登记的企业负责人的电话号码对应的终端设备。不同目标标签可以对应不同的预设信息,比如,目标标签是“新能源”,需要对新能源企业进行补助,则预设信息可以是“经过初步筛选,贵司符合新能源标准,需要具体提供XX文件”,又比如,目标标签是“中小微型企业”,需要对中小微型企业进行补助,则预设信息可以是“经过初步筛选,贵司符合中小微型企业,需要具体提供XY文件”。
本申请实施例中,可以进一步将从互联网爬取的各个待分析企业的文本数据输入到训练好的标签提取模型进行标签提取出来,从而获得各个待分析企业的企业标签,即可以通过对各个待企业的大文本数据分析,得到符合各个企业特征的标签,便于利用各个企业的企业标签进行各种譬如筛选、描绘企业画像等处理。
请参见图3,为本申请实施例提供了一种标签提取模型训练装置的结构示意图。如图3所示,该标签提取模型训练装置可以包括:
第一获取单元10,用于获取文本样本,所述文本样本中的文字数量大于第一阈值,所述文本样本包括至少一个句子;
第二获取单元11,用于获取所述至少一个句子中每个句子对应的词向量序列,所述词向量序列中包含所述句子的至少一个分词中每个分词对应的词向量;
词编码单元12,用于将所述每个句子对应的词向量序列输入所述第一编码层进行词编码处理,获得所述每个句子中每个分词对应的隐向量;
第一注意力单元13,用于通过所述第一注意力层对所述每个句子中每个分词对应的隐向量进行第一注意力处理,获得所述每个句子对应的句子向量;
句子编码单元14,用于将所述每个句子对应的句子向量输入所述第二编码层进行句子编码处理,获得所述每个句子对应的隐向量;
第二注意力单元15,用于通过所述第二注意力层对所述每个句子对应的隐向量进行第二注意力处理,获得所述文本样本的文档向量;
模型训练单元16,用于基于所述文档向量,获得所述文本样本的预测标签,并根据所述预测标签和所述文本样本的实际标签之间的差异,调整所述标签提取模型的参数。
在一种可能的设计中,所述第一注意力单元13具体用于:
获取所述第一注意力层对应的第一语义向量;
根据所述第一语义向量和所述每个句子中每个分词对应的隐向量,获得所述每个分词对应的注意力权重;
根据所述每个句子中每个分词对应的隐向量和所述每个句子中每个分词对应的注意力权重,获得所述每个句子对应的句子向量。
在一种可能的设计中,所述第二注意力单元15具体用于:
获取所述第二注意力层对应的第二语义向量;
根据所述第二语义向量和所述每个句子对应的隐向量,获得所述每个句子对应的注意力权重;
根据所述每个句子对应的隐向量和所述每个句子对应的注意力权重,获得所述文本样本的文档向量。
在一种可能的设计中,所述标签提取模型还包括全连接层和逻辑回归softmax层;
所述模型训练单元16具体用于:将所述文档向量输入所述全连接层进行线性转换处理,获得目标向量;
将所述目标向量输入所述softmax层进行分类处理,获得所述文本样本的预测标签。
在一种可能的设计中,所述模型训练单元16具体用于:根据所述预测标签和所述文本样本的实际标签之间的差异,确定损失值;
若所述损失值大于或者等于第二阈值,调整所述标签提取模型的参数。
在一种可能的设计中,所述模型训练单元16还用于若所述损失值小于所述第二阈值,将所述标签提取模型确定为训练好的标签提取模型;
所述装置还包括:
第三获取单元,用于确定至少一个待分析企业,采用网络爬虫技术从互联网爬取所述至少一个个待分析企业中每个待分析企业的文本数据,所述文本数据包括所述待分析企业的财经文本、法律公告或研究报告中的一项或多项;
标签提取单元,用于基于所述训练好的标签提取模型对所述每个待分析企业的文本数据进行标签提取处理,获得所述每个待分析企业的企业标签。
在一种可能的设计中,所述装置还包括:
筛选单元,用于从所述至少一个待分析企业的企业标签中筛选与目标标签匹配的待分析企业,并将与所述目标标签匹配的待分析企业确定为目标企业;
通信单元,用于向与所述目标企业关联的终端设备发送与所述目标标签对应的预设信息。
其中,图3所示装置实施例的具体描述可以参照前述图1或图2所示方法实施例的具体说明,在此不进行赘述。
请参照图4,为本申请实施例提供的一种标签提取模型训练设备的结构示意图,所述标签提取模型包括第一编码层、第一注意力层、第二编码层以及第二注意力层,如图4所示,该标签提取模型训练设备1000可以包括:至少一个处理器1001,例如CPU,至少一个通信接口1003,存储器1004,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。通信接口1003可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1004可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图4所示,作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信单元以及程序指令。
在图4所示的标签提取模型训练设备1000中,处理器1001可以用于加载存储器1004中存储的程序指令,并具体执行以下操作:
获取文本样本,所述文本样本中的文字数量大于第一阈值,所述文本样本包括至少一个句子;
获取所述至少一个句子中每个句子对应的词向量序列,所述词向量序列中包含所述句子的至少一个分词中每个分词对应的词向量;
将所述每个句子对应的词向量序列输入所述第一编码层进行词编码处理,获得所述每个句子中每个分词对应的隐向量;
通过所述第一注意力层对所述每个句子中每个分词对应的隐向量进行第一注意力处理,获得所述每个句子对应的句子向量;
将所述每个句子对应的句子向量输入所述第二编码层进行句子编码处理,获得所述每个句子对应的隐向量;
通过所述第二注意力层对所述每个句子对应的隐向量进行第二注意力处理,获得所述文本样本的文档向量;
基于所述文档向量,获得所述文本样本的预测标签,并根据所述预测标签和所述文本样本的实际标签之间的差异,调整所述标签提取模型的参数。
需要说明的是,具体执行过程可以参见图1或图2所示方法实施例的具体说明,在此不进行赘述。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1或图2所示实施例的方法步骤,具体执行过程可以参见图1或图2所示实施例的具体说明,在此不进行赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims (7)

1.一种标签提取模型训练方法,其特征在于,所述标签提取模型包括第一编码层、第一注意力层、第二编码层以及第二注意力层,所述方法包括:
获取文本样本,所述文本样本中的文字数量大于第一阈值,所述文本样本包括至少一个句子;
获取所述至少一个句子中每个句子对应的词向量序列,所述词向量序列中包含所述句子的至少一个分词中每个分词对应的词向量;
将所述每个句子对应的词向量序列输入所述第一编码层进行词编码处理,获得所述每个句子中每个分词对应的隐向量;
通过所述第一注意力层对所述每个句子中每个分词对应的隐向量进行第一注意力处理,获得所述每个句子对应的句子向量;
将所述每个句子对应的句子向量输入所述第二编码层进行句子编码处理,获得所述每个句子对应的隐向量;
通过所述第二注意力层对所述每个句子对应的隐向量进行第二注意力处理,获得所述文本样本的文档向量;
基于所述文档向量,获得所述文本样本的预测标签,并根据所述预测标签和所述文本样本的实际标签之间的差异,确定损失值;
若所述损失值大于或者等于第二阈值,调整所述标签提取模型的参数;
若所述损失值小于所述第二阈值,将所述标签提取模型确定为训练好的标签提取模型;
确定至少一个待分析企业,采用网络爬虫技术从互联网爬取所述至少一个个待分析企业中每个待分析企业的文本数据,所述文本数据包括所述待分析企业的财经文本、法律公告或研究报告中的一项或多项;
基于所述训练好的标签提取模型对所述每个待分析企业的文本数据进行标签提取处理,获得所述每个待分析企业的企业标签;
从所述至少一个待分析企业的企业标签中筛选与目标标签匹配的待分析企业,并将与所述目标标签匹配的待分析企业确定为目标企业;
向与所述目标企业关联的终端设备发送与所述目标标签对应的预设信息。
2.如权利要求1所述的方法,其特征在于,所述通过所述第一注意力层对所述每个句子中每个分词对应的隐向量进行第一注意力处理,获得所述每个句子对应的句子向量,包括:
获取所述第一注意力层对应的第一语义向量;
根据所述第一语义向量和所述每个句子中每个分词对应的隐向量,获得所述每个分词对应的注意力权重;
根据所述每个句子中每个分词对应的隐向量和所述每个句子中每个分词对应的注意力权重,获得所述每个句子对应的句子向量。
3.如权利要求1所述的方法,其特征在于,所述通过所述第二注意力层对所述每个句子对应的隐向量进行第二注意力处理,获得所述文本样本的文档向量,包括:
获取所述第二注意力层对应的第二语义向量;
根据所述第二语义向量和所述每个句子对应的隐向量,获得所述每个句子对应的注意力权重;
根据所述每个句子对应的隐向量和所述每个句子对应的注意力权重,获得所述文本样本的文档向量。
4.如权利要求1-3任一项所述的方法,其特征在于,所述标签提取模型还包括全连接层和逻辑回归softmax层;
所述基于所述文档向量,获得所述文本样本的预测标签,包括:
将所述文档向量输入所述全连接层进行线性转换处理,获得目标向量;
将所述目标向量输入所述softmax层进行分类处理,获得所述文本样本的预测标签。
5.一种标签提取模型训练装置,其特征在于,所述标签提取模型训练装置用于实现如权利要求1-4任一项所述的方法,所述标签提取模型包括第一编码层、第一注意力层、第二编码层以及第二注意力层,所述标签提取模型训练装置包括:
第一获取单元,用于获取文本样本,所述文本样本中的文字数量大于第一阈值,所述文本样本包括至少一个句子;
第二获取单元,用于获取所述至少一个句子中每个句子对应的词向量序列,所述词向量序列中包含所述句子的至少一个分词中每个分词对应的词向量;
词编码单元,用于将所述每个句子对应的词向量序列输入所述第一编码层进行词编码处理,获得所述每个句子中每个分词对应的隐向量;
第一注意力模块,用于通过所述第一注意力层对所述每个句子中每个分词对应的隐向量进行第一注意力处理,获得所述每个句子对应的句子向量;
句子编码单元,用于将所述每个句子对应的句子向量输入所述第二编码层进行句子编码处理,获得所述每个句子对应的隐向量;
第二注意力模块,用于通过所述第二注意力层对所述每个句子对应的隐向量进行第二注意力处理,获得所述文本样本的文档向量;
模型训练单元,用于基于所述文档向量,获得所述文本样本的预测标签,并根据所述预测标签和所述文本样本的实际标签之间的差异,调整所述标签提取模型的参数。
6.一种标签提取模型训练设备,其特征在于,包括处理器、存储器以及通信接口,所述处理器、存储器和通信接口相互连接,其中,所述通信接口用于接收和发送数据,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,执行如权利要求1至4任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序;当所述计算机程序在一个或多个处理器上运行时,执行如权利要求1-4中任一项所述的方法。
CN202111095420.9A 2021-09-17 2021-09-17 标签提取模型训练方法、装置、设备与存储介质 Active CN113806538B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111095420.9A CN113806538B (zh) 2021-09-17 2021-09-17 标签提取模型训练方法、装置、设备与存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111095420.9A CN113806538B (zh) 2021-09-17 2021-09-17 标签提取模型训练方法、装置、设备与存储介质

Publications (2)

Publication Number Publication Date
CN113806538A CN113806538A (zh) 2021-12-17
CN113806538B true CN113806538B (zh) 2023-08-22

Family

ID=78895865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111095420.9A Active CN113806538B (zh) 2021-09-17 2021-09-17 标签提取模型训练方法、装置、设备与存储介质

Country Status (1)

Country Link
CN (1) CN113806538B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114386419B (zh) * 2022-01-11 2023-07-25 平安科技(深圳)有限公司 实体识别模型训练方法、装置、设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943847A (zh) * 2017-11-02 2018-04-20 平安科技(深圳)有限公司 企业关系提取方法、装置及存储介质
CN108170681A (zh) * 2018-01-15 2018-06-15 中南大学 文本情感分析方法、系统及计算机可读存储介质
CN110321558A (zh) * 2019-06-18 2019-10-11 平安普惠企业管理有限公司 一种基于自然语义理解的反作弊方法及相关设备
EP3567525A1 (en) * 2018-05-07 2019-11-13 Zebra Medical Vision Ltd. Systems and methods for analysis of anatomical images each captured at a unique orientation
CN113064964A (zh) * 2021-03-22 2021-07-02 广东博智林机器人有限公司 文本分类方法、模型训练方法、装置、设备以及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943847A (zh) * 2017-11-02 2018-04-20 平安科技(深圳)有限公司 企业关系提取方法、装置及存储介质
CN108170681A (zh) * 2018-01-15 2018-06-15 中南大学 文本情感分析方法、系统及计算机可读存储介质
EP3567525A1 (en) * 2018-05-07 2019-11-13 Zebra Medical Vision Ltd. Systems and methods for analysis of anatomical images each captured at a unique orientation
CN110321558A (zh) * 2019-06-18 2019-10-11 平安普惠企业管理有限公司 一种基于自然语义理解的反作弊方法及相关设备
CN113064964A (zh) * 2021-03-22 2021-07-02 广东博智林机器人有限公司 文本分类方法、模型训练方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN113806538A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN110232114A (zh) 语句意图识别方法、装置及计算机可读存储介质
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN108984775B (zh) 一种基于商品评论的舆情监控方法及系统
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
US11429810B2 (en) Question answering method, terminal, and non-transitory computer readable storage medium
US20220300546A1 (en) Event extraction method, device and storage medium
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN113434688B (zh) 用于舆情分类模型训练的数据处理方法和装置
CN112188312A (zh) 用于确定新闻的视频素材的方法和装置
Algiriyage et al. Multi-source multimodal data and deep learning for disaster response: A systematic review
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN113705909A (zh) 基于预测模型的风险等级预测方法、装置与存储介质
CN114970540A (zh) 训练文本审核模型的方法和装置
CN113806538B (zh) 标签提取模型训练方法、装置、设备与存储介质
CN115017879A (zh) 文本对比方法、计算机设备及计算机存储介质
Padmanayana et al. Stock market prediction using twitter sentiment analysis
CN114547301A (zh) 文档处理、识别模型训练方法、装置、设备及存储介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN111782811A (zh) 一种基于卷积神经网络和支持向量机的电子政务敏感文本检测方法
CN116340516A (zh) 实体关系的聚类提取方法、装置、设备及存储介质
CN116089886A (zh) 信息处理方法、装置、设备及存储介质
CN116127060A (zh) 一种基于提示词的文本分类方法及系统
CN115269816A (zh) 基于信息处理方法的核心人员挖掘方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant