CN111814479A - 一种企业简称生成及其模型的训练方法及装置 - Google Patents
一种企业简称生成及其模型的训练方法及装置 Download PDFInfo
- Publication number
- CN111814479A CN111814479A CN202010659379.2A CN202010659379A CN111814479A CN 111814479 A CN111814479 A CN 111814479A CN 202010659379 A CN202010659379 A CN 202010659379A CN 111814479 A CN111814479 A CN 111814479A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- word
- name
- sample set
- full
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种企业简称生成及其模型的训练方法及装置,其中,所述企业简称生成模型的结构依次包括嵌入层、编码器和解码器,所述训练方法包括:基于企业全称样本集和企业简称样本集生成企业全称的关联词词库,基于企业全称词库和关联词词库生成字库;将企业全称样本集按字符进行分词得到第一维度的字向量,并将其输入到所述嵌入层进行降维处理得到第二维度的字向量;将第二维度的字向量输入编码器进行编码处理生成中间语义向量;基于所述字库将所述中间语义向量输入所述解码器进行解码处理,生成企业简称候选集;其中,在解码处理的过程中,将每一步生成的预测字符按照相似度调整到所述字库中。本申请实施例可以提高企业简称生成的准确率。
Description
技术领域
本申请涉及深度学习技术领域,尤其是涉及一种企业简称生成及其模型的训练方法及装置。
背景技术
企业简称在自然语言中的使用频率要远多于全称。在通用的命名实体识别(NamedEntity Recognition)的任务中,组织机构名识别成为难度最大的一类实体,就是因为企业简称的广泛使用。另外在实际应用中,如自然语言检索、问答、知识图谱构建等领域,识别出简称并不是最终目标,还需要对企业的简称进行标准化,才能够进行后续的工作。
现有技术中,主要用规则及传统的条件随机场(CRF)算法生成企业简称。CRF模型是一种序列标注模型,对全称中的每个字都标注两种状态,决定该字是否应该选取到简称中。但该方法都是基于以下的假设:企业简称所有字均是从企业全称中选取;企业简称的词序与全称的词序完全相同。有些模型甚至还基于其他苛刻的假设,如全称的每个词都至少选取一个字放在简称中。
申请人在研究中发现,现有技术中的假设前提容易导致遗失简称信息,造成在应用过程中的查全率损失。如“重庆三峡油漆股份有限公司”的对应简称“渝三峡”,“北京神州汽车租赁有限公司”的对应简称“神州租车”,这两个例子不能满足以上的假设,最终无法在文本提取出结果。并且,现有技术中步骤较多,每个步骤都有准确率的损失,造成整体的准确率下降,影响实际应用。
发明内容
有鉴于此,本申请的目的在于提供一种企业简称生成及其模型的训练方法及装置,以提高企业简称生成的准确率。
第一方面,本申请实施例提供了一种企业简称生成模型的训练方法,所述企业简称生成模型的结构依次包括嵌入层、编码器和解码器,所述训练方法包括:
获取企业全称样本集和企业简称样本集,并基于所述企业全称样本集和企业简称样本集生成企业全称的关联词词库,基于企业全称词库和关联词词库生成字库;
将所述企业全称样本集按字符进行分词得到第一维度的字向量,并将其输入到所述嵌入层进行降维处理得到第二维度的字向量;
将所述第二维度的字向量输入所述编码器进行编码处理,生成中间语义向量;
基于所述字库,将所述中间语义向量输入所述解码器进行解码处理,生成企业简称候选集;其中,在解码处理的过程中,将每一步生成的预测字符按照相似度调整到所述字库中。
在一种可能的实施方式中,基于所述企业全称样本集和企业简称样本集生成企业全称的关联词词库,包括:
对所述企业全称样本集进行分词处理,得到所述企业全称样本集的词库集合;
对所述企业简称样本集按字符进行分词处理,得到所述企业简称样本集的字集合;
基于所述企业全称样本集的词库集合在所述企业全称样本集中出现的概率、所述企业简称样本集的字集合在所述企业简称样本集中出现的概率以及所述企业全称样本集和企业简称样本集在所述企业全称样本集中同时出现的概率,生成企业全称的关联词词库。
在一种可能的实施方式中,基于企业全称词库和关联词词库生成字库,包括:
对所述企业全称词库和关联词词库分别按字符进行分词处理,得到所述企业全称词库的字集合和所述关联词词库的字集合;
基于所述企业全称词库的字集合和所述关联词词库的字集合,生成字库。
第二方面,本申请实施例提供了一种企业简称生成方法,包括:
将待生成企业简称的企业全称按字符进行分词得到字向量;
将所述字向量输入利用上述第一方面中任一项所述的训练方法训练得到的企业简称生成模型中进行处理,输出所述企业全称的候选集。
第三方面,本申请实施例提供了一种企业简称生成模型的训练装置,所述企业简称生成模型的结构依次包括嵌入层、编码器和解码器,所述训练装置包括:
获取模块,用于获取企业全称样本集和企业简称样本集,并基于所述企业全称样本集和企业简称样本集生成企业全称的关联词词库,基于企业全称词库和关联词词库生成字库;
降维模块,用于将所述企业全称样本集按字符进行分词得到第一维度的字向量,并将其输入到所述嵌入层进行降维处理得到第二维度的字向量;
编码模块,用于将所述第二维度的字向量输入所述编码器进行编码处理,生成中间语义向量;
解码模块,用于基于所述字库,将所述中间语义向量输入所述解码器进行解码处理,生成企业简称候选集;其中,在解码处理的过程中,将每一步生成的预测字符按照相似度调整到所述字库中。
在一种可能的实施方式中,所述获取模块包括:
获取单元,用于获取企业全称样本集和企业简称样本集;
第一分词单元,用于对所述企业全称样本集进行分词处理,得到所述企业全称样本集的词库集合;
第二分词单元,用于对所述企业简称样本集按字符进行分词处理,得到所述企业简称样本集的字集合;
第一生成单元,用于基于所述企业全称样本集的词库集合在所述企业全称样本集中出现的概率、所述企业简称样本集的字集合在所述企业简称样本集中出现的概率以及所述企业全称样本集和企业简称样本集在所述企业全称样本集中同时出现的概率,生成企业全称的关联词词库;
第二生成单元,用于基于企业全称词库和关联词词库生成字库。
在一种可能的实施方式中,所述第二生成单元具体用于:
对所述企业全称词库和关联词词库分别按字符进行分词处理,得到所述企业全称词库的字集合和所述关联词词库的字集合;
基于所述企业全称词库的字集合和所述关联词词库的字集合,生成字库。
第四方面,本申请实施例提供了一种企业简称生成装置,包括:
分词模块,用于将待生成企业简称的企业全称按字符进行分词得到字向量;
生成模块,用于将所述字向量输入利用上述第三方面中任一项所述的训练装置训练得到的企业简称生成模型中进行处理,生成所述企业全称的候选集。
第五方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面或第二方面中任一种可能的实施方式中的步骤。
第六方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面或第二方面中任一种可能的实施方式中的步骤。
本申请实施例提供的一种企业简称生成模型的训练方法,首先基于企业全称样本集和企业简称样本集生成企业全称的关联词词库,基于企业全称词库和关联词词库生成字库,本申请字库中的字除了来自企业全称词库中的字还包含关联词词库中的字,使得字库中的字更加全面;其次所述企业简称生成模型的结构依次包括嵌入层、编码器和解码器,也即在现有的深度学习模型中增加了嵌入层,用来将按字符对企业全称样本集进行分词得到的第一维度的字向量进行降维处理得到第二维度的字向量,本申请的模型输入向量不是词向量而是字向量。再次将所述第二维度的字向量输入所述编码器进行编码处理,生成中间语义向量。最后基于所述字库,将所述中间语义向量输入所述解码器进行解码处理,生成企业简称候选集;其中,在解码处理的过程中,将每一步生成的预测字符按照相似度调整到所述字库中,既能防止在解码过程中模型的误差累积,又能加快训练过程的参数收敛速度。因此,本申请实施例提供的一种企业简称生成模型的训练方法可以以较快的速度训练出更加准确的企业简称生成模型。
进一步,本申请实施例提供的一种企业简称生成方法,首先将待生成企业简称的企业全称按字符进行分词得到字向量。其次将所述字向量输入已训练完成的企业简称生成模型中进行处理,输出所述企业全称的候选集。由于本申请的模型输入向量不是词向量而是字向量,且已训练完成的企业简称生成模型更加准确,可以提高企业简称生成的准确率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种企业简称生成模型的训练方法的流程图;
图2示出了现有的企业简称生成模型的结构示意图;
图3示出了本申请实施例所提供的企业简称生成模型的结构示意图;
图4示出了本申请实施例所提供的一种企业简称生成方法的流程图;
图5示出了本申请实施例所提供的一种企业简称生成模型的训练装置的结构示意图;
图6示出了本申请实施例所提供的一种企业简称生成装置的结构示意图;
图7示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到现有技术中,主要用规则及传统的条件随机场(CRF)算法生成企业简称。CRF模型是一种序列标注模型,对全称中的每个字都标注两种状态,决定该字是否应该选取到简称中。但该方法都是基于以下的假设:企业简称所有字均是从企业全称中选取;企业简称的词序与全称的词序完全相同。有些模型甚至还基于其他苛刻的假设,如全称的每个词都至少选取一个字放在简称中。
申请人在研究中发现,现有技术中的假设前提容易导致遗失简称信息,造成在应用过程中的查全率损失。如“重庆三峡油漆股份有限公司”的对应简称“渝三峡”,“北京神州汽车租赁有限公司”的对应简称“神州租车”,这两个例子不能满足以上的假设,最终无法在文本提取出结果。并且,现有技术中步骤较多,每个步骤都有准确率的损失,造成整体的准确率下降,影响实际应用。
基于此,本申请实施例提供了一种企业简称生成及其模型的训练方法及装置,下面通过实施例进行描述。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种企业简称生成模型的训练方法进行详细介绍。
请参照图1,图1为本申请实施例所提供的一种企业简称生成模型的训练方法的流程图。如图1所示,所述训练方法可以包括以下步骤S101至S104。其中,所述企业简称生成模型的结构依次包括嵌入层、编码器和解码器。
步骤S101、获取企业全称样本集和企业简称样本集,并基于所述企业全称样本集和企业简称样本集生成企业全称的关联词词库,基于企业全称词库和关联词词库生成字库;
步骤S102、将所述企业全称样本集按字符进行分词得到第一维度的字向量,并将其输入到所述嵌入层进行降维处理得到第二维度的字向量;
步骤S103、将所述第二维度的字向量输入所述编码器进行编码处理,生成中间语义向量;
步骤S104、基于所述字库,将所述中间语义向量输入所述解码器进行解码处理,生成企业简称候选集;其中,在解码处理的过程中,将每一步生成的预测字符按照相似度调整到所述字库中。
首先,请参照图2,图2为现有的企业简称生成模型的结构示意图。如图2所示,现有的企业简称生成模型的结构包括Encoder和Decoder,Encoder称为编码器,Decoder称为解码器。
其中:
x1,x2,x3表示输入的序列;
h1,h2,h3表示encoder的隐藏层状态;
c表示中间语义向量;
y1,y2表示输出的序列;
h’1,h’2,h’3表示decoder的隐藏层状态;
_B和_E分别表示输出序列的开始及结束标志。
本实施例提供的企业简称生成模型如图3所示,其结构依次包括嵌入层、编码器和解码器。本实施例采用字向量作为输入,而不是词向量。由于企业的名称属于专有名词,其组成的词语并不会表现出相应的语境含义。如“万科”,“万”与“科”只是单纯的名字,而非具体的数词或者科技的含义。因此在模型中,不会关注词本身的含义,而只关注字的本身。
在一种可能的实施方式中,基于所述企业全称样本集和企业简称样本集生成企业全称的关联词词库,包括:
对所述企业全称样本集进行分词处理,得到所述企业全称样本集的词库集合;
对所述企业简称样本集按字符进行分词处理,得到所述企业简称样本集的字集合;
基于所述企业全称样本集的词库集合在所述企业全称样本集中出现的概率、所述企业简称样本集的字集合在所述企业简称样本集中出现的概率以及所述企业全称样本集和企业简称样本集在所述企业全称样本集中同时出现的概率,生成企业全称的关联词词库。
具体地,该步骤将生成关联词词库,词库能够提升后续编码器的性能。方法如下:对训练集的全称进行分词,简称则直接按字符分词(均不需要去除停用词)。按如下公式计算词之间的关联度。
其中:
X:全称中的词库集合;
Y:简称中的字集合;
P(X):表示X词在全称样本中出现的概率;
P(Y):表示Y词在简称样本中出现的概率;
P(X,Y):表示X、Y在样本中同时出现的概率;
本实施例中,若lift值大于2,意味着X和Y更倾向于同时出现,则将Y加入X词的关联词库。(关联词并不完全是同义词)
在一种可能的实施方式中,基于企业全称词库和关联词词库生成字库,包括:
对所述企业全称词库和关联词词库分别按字符进行分词处理,得到所述企业全称词库的字集合和所述关联词词库的字集合;
基于所述企业全称词库的字集合和所述关联词词库的字集合,生成字库。
在步骤S102中,将高维的one_hot向量转换并映射到低维的字向量。全称按字符进行分词,转换成one-hot字向量,作为输入层。在神经网络第一层加入Embedding嵌入层,将输入转化为256维特征的字向量。
在步骤S103中,与标准的Seq2Seq结构相同,该步骤用GRU层生成中间语义向量。但是需要输出每个时间步(相当于字的序列)的cell_state和hidden_state状态,作为后续解码器的初始状态。
在步骤S104中,对编码器生成的中间语义向量进行解码生成最终的简称序列。本专利在解码器中对每步的预测字符进行调整。与其他的机器翻译任务不同,简称中的字大多数是从全称中得到,或者是全称的同义词。因此本专利在解码器中加入额外的计算:在训练过程中,直接调整为训练集中的字;在预测过程中,将每步生成的预测字符按照相似度调整到全称+关联词库对应的字库中。该方法是既能防止在解码过程中模型的误差累积,又能加快训练过程的参数收敛速度。
另外,在解码器的预测过程中加入Beam Search机制。在每步的预测字符生成中,都会选择概率最高的top k个词序列。最终的输出也调整为k个序列,提升简称生成的召回率。本实施例中k取3,最多生成3个简称。
在一种可能的实施方式中,可以采用transformer架构或bert预训练模型可以大幅提升生成结果的准确率。
在一种可能的实施方式中,还可以建立深度学习模型对全称-简称的匹配度进行评估,能够对模型的准确率进行更好地控制。
本申请实施例提供的一种企业简称生成模型的训练方法,首先基于企业全称样本集和企业简称样本集生成企业全称的关联词词库,基于企业全称词库和关联词词库生成字库,本申请字库中的字除了来自企业全称词库中的字还包含关联词词库中的字,使得字库中的字更加全面;其次所述企业简称生成模型的结构依次包括嵌入层、编码器和解码器,也即在现有的深度学习模型中增加了嵌入层,用来将按字符对企业全称样本集进行分词得到的第一维度的字向量进行降维处理得到第二维度的字向量,本申请的模型输入向量不是词向量而是字向量。再次将所述第二维度的字向量输入所述编码器进行编码处理,生成中间语义向量。最后基于所述字库,将所述中间语义向量输入所述解码器进行解码处理,生成企业简称候选集;其中,在解码处理的过程中,将每一步生成的预测字符按照相似度调整到所述字库中,既能防止在解码过程中模型的误差累积,又能加快训练过程的参数收敛速度。因此,本申请实施例提供的一种企业简称生成模型的训练方法可以以较快的速度训练出更加准确的企业简称生成模型。
基于相同的技术构思,本申请实施例还提供一种企业简称生成模型的训练装置、一种企业简称生成方法和装置、电子设备、以及计算机存储介质等,具体可参见以下实施例。
请参照图4,图4为本申请实施例所提供的一种企业简称生成方法的流程图。如图4所示,所述方法可以包括以下步骤S401和S402。
步骤S401、将待生成企业简称的企业全称按字符进行分词得到字向量;
步骤S402、将所述字向量输入利用一种企业简称生成模型的训练方法训练得到的企业简称生成模型中进行处理,输出所述企业全称的候选集。
本申请实施例提供的一种企业简称生成方法,首先将待生成企业简称的企业全称按字符进行分词得到字向量。其次将所述字向量输入已训练完成的企业简称生成模型中进行处理,输出所述企业全称的候选集。由于本申请的模型输入向量不是词向量而是字向量,且已训练完成的企业简称生成模型更加准确,可以提高企业简称生成的准确率。
请参照图5,图5为本申请实施例所提供的一种企业简称生成模型的训练装置的结构示意图。所述企业简称生成模型的结构依次包括嵌入层、编码器和解码器,所述装置可以包括:
获取模块501,用于获取企业全称样本集和企业简称样本集,并基于所述企业全称样本集和企业简称样本集生成企业全称的关联词词库,基于企业全称词库和关联词词库生成字库;
降维模块502,用于将所述企业全称样本集按字符进行分词得到第一维度的字向量,并将其输入到所述嵌入层进行降维处理得到第二维度的字向量;
编码模块503,用于将所述第二维度的字向量输入所述编码器进行编码处理,生成中间语义向量;
解码模块504,用于基于所述字库,将所述中间语义向量输入所述解码器进行解码处理,生成企业简称候选集;其中,在解码处理的过程中,将每一步生成的预测字符按照相似度调整到所述字库中。
在一种可能的实施方式中,所述获取模块501包括:
获取单元,用于获取企业全称样本集和企业简称样本集;
第一分词单元,用于对所述企业全称样本集进行分词处理,得到所述企业全称样本集的词库集合;
第二分词单元,用于对所述企业简称样本集按字符进行分词处理,得到所述企业简称样本集的字集合;
第一生成单元,用于基于所述企业全称样本集的词库集合在所述企业全称样本集中出现的概率、所述企业简称样本集的字集合在所述企业简称样本集中出现的概率以及所述企业全称样本集和企业简称样本集在所述企业全称样本集中同时出现的概率,生成企业全称的关联词词库;
第二生成单元,用于基于企业全称词库和关联词词库生成字库。
在一种可能的实施方式中,所述第二生成单元具体用于:
对所述企业全称词库和关联词词库分别按字符进行分词处理,得到所述企业全称词库的字集合和所述关联词词库的字集合;
基于所述企业全称词库的字集合和所述关联词词库的字集合,生成字库。
请参照图6,图6为本申请实施例所提供的一种企业简称生成装置的结构示意图。所述装置可以包括:
分词模块601,用于将待生成企业简称的企业全称按字符进行分词得到字向量;
生成模块602,用于将所述字向量输入利用上述训练装置训练得到的企业简称生成模型中进行处理,生成所述企业全称的候选集。
本申请实施例公开了一种电子设备,如图7所示,包括:处理器701、存储器702和总线703,所述存储器702存储有所述处理器701可执行的机器可读指令,当电子设备运行时,所述处理器701与所述存储器702之间通过总线703通信。所述机器可读指令被所述处理器701执行时执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
本申请实施例所提供的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种企业简称生成模型的训练方法,其特征在于,所述企业简称生成模型的结构依次包括嵌入层、编码器和解码器,所述训练方法包括:
获取企业全称样本集和企业简称样本集,并基于所述企业全称样本集和企业简称样本集生成企业全称的关联词词库,基于企业全称词库和关联词词库生成字库;
将所述企业全称样本集按字符进行分词得到第一维度的字向量,并将其输入到所述嵌入层进行降维处理得到第二维度的字向量;
将所述第二维度的字向量输入所述编码器进行编码处理,生成中间语义向量;
基于所述字库,将所述中间语义向量输入所述解码器进行解码处理,生成企业简称候选集;其中,在解码处理的过程中,将每一步生成的预测字符按照相似度调整到所述字库中。
2.根据权利要求1所述的训练方法,其特征在于,基于所述企业全称样本集和企业简称样本集生成企业全称的关联词词库,包括:
对所述企业全称样本集进行分词处理,得到所述企业全称样本集的词库集合;
对所述企业简称样本集按字符进行分词处理,得到所述企业简称样本集的字集合;
基于所述企业全称样本集的词库集合在所述企业全称样本集中出现的概率、所述企业简称样本集的字集合在所述企业简称样本集中出现的概率以及所述企业全称样本集和企业简称样本集在所述企业全称样本集中同时出现的概率,生成企业全称的关联词词库。
3.根据权利要求1所述的训练方法,其特征在于,基于企业全称词库和关联词词库生成字库,包括:
对所述企业全称词库和关联词词库分别按字符进行分词处理,得到所述企业全称词库的字集合和所述关联词词库的字集合;
基于所述企业全称词库的字集合和所述关联词词库的字集合,生成字库。
4.一种企业简称生成方法,其特征在于,包括:
将待生成企业简称的企业全称按字符进行分词得到字向量;
将所述字向量输入利用权利要求1至3中任一项所述的训练方法训练得到的企业简称生成模型中进行处理,输出所述企业全称的候选集。
5.一种企业简称生成模型的训练装置,其特征在于,所述企业简称生成模型的结构依次包括嵌入层、编码器和解码器,所述训练装置包括:
获取模块,用于获取企业全称样本集和企业简称样本集,并基于所述企业全称样本集和企业简称样本集生成企业全称的关联词词库,基于企业全称词库和关联词词库生成字库;
降维模块,用于将所述企业全称样本集按字符进行分词得到第一维度的字向量,并将其输入到所述嵌入层进行降维处理得到第二维度的字向量;
编码模块,用于将所述第二维度的字向量输入所述编码器进行编码处理,生成中间语义向量;
解码模块,用于基于所述字库,将所述中间语义向量输入所述解码器进行解码处理,生成企业简称候选集;其中,在解码处理的过程中,将每一步生成的预测字符按照相似度调整到所述字库中。
6.根据权利要求5所述的训练装置,其特征在于,所述获取模块包括:
获取单元,用于获取企业全称样本集和企业简称样本集;
第一分词单元,用于对所述企业全称样本集进行分词处理,得到所述企业全称样本集的词库集合;
第二分词单元,用于对所述企业简称样本集按字符进行分词处理,得到所述企业简称样本集的字集合;
第一生成单元,用于基于所述企业全称样本集的词库集合在所述企业全称样本集中出现的概率、所述企业简称样本集的字集合在所述企业简称样本集中出现的概率以及所述企业全称样本集和企业简称样本集在所述企业全称样本集中同时出现的概率,生成企业全称的关联词词库;
第二生成单元,用于基于企业全称词库和关联词词库生成字库。
7.根据权利要求5所述的训练装置,其特征在于,所述第二生成单元具体用于:
对所述企业全称词库和关联词词库分别按字符进行分词处理,得到所述企业全称词库的字集合和所述关联词词库的字集合;
基于所述企业全称词库的字集合和所述关联词词库的字集合,生成字库。
8.一种企业简称生成装置,其特征在于,包括:
分词模块,用于将待生成企业简称的企业全称按字符进行分词得到字向量;
生成模块,用于将所述字向量输入利用权利要求5至7中任一项所述的训练装置训练得到的企业简称生成模型中进行处理,生成所述企业全称的候选集。
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至4任一所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至4任一所述的模拟鼠标的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010659379.2A CN111814479B (zh) | 2020-07-09 | 2020-07-09 | 一种企业简称生成及其模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010659379.2A CN111814479B (zh) | 2020-07-09 | 2020-07-09 | 一种企业简称生成及其模型的训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111814479A true CN111814479A (zh) | 2020-10-23 |
CN111814479B CN111814479B (zh) | 2023-08-25 |
Family
ID=72842218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010659379.2A Active CN111814479B (zh) | 2020-07-09 | 2020-07-09 | 一种企业简称生成及其模型的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814479B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613299A (zh) * | 2020-12-25 | 2021-04-06 | 北京知因智慧科技有限公司 | 企业同义词库的构建方法、装置和电子设备 |
CN115017899A (zh) * | 2022-04-19 | 2022-09-06 | 北京三快在线科技有限公司 | 一种缩略语生成方法、装置、设备及存储介质 |
CN115169338A (zh) * | 2022-09-08 | 2022-10-11 | 杭州费尔斯通科技有限公司 | 一种公司名简称识别方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975455A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 基于双向递归神经网络的信息分析系统 |
US20180174020A1 (en) * | 2016-12-21 | 2018-06-21 | Microsoft Technology Licensing, Llc | Systems and methods for an emotionally intelligent chat bot |
CN108460014A (zh) * | 2018-02-07 | 2018-08-28 | 百度在线网络技术(北京)有限公司 | 企业实体的识别方法、装置、计算机设备及存储介质 |
CN110020438A (zh) * | 2019-04-15 | 2019-07-16 | 上海冰鉴信息科技有限公司 | 基于序列识别的企业或组织中文名称实体消歧方法和装置 |
US20200012940A1 (en) * | 2017-03-17 | 2020-01-09 | Portland State University | Frame interpolation via adaptive convolution and adaptive separable convolution |
CN110750700A (zh) * | 2019-10-29 | 2020-02-04 | 北京中数智汇科技股份有限公司 | 一种基于机器学习的企业简称生成方法及模型 |
-
2020
- 2020-07-09 CN CN202010659379.2A patent/CN111814479B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975455A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 基于双向递归神经网络的信息分析系统 |
US20180174020A1 (en) * | 2016-12-21 | 2018-06-21 | Microsoft Technology Licensing, Llc | Systems and methods for an emotionally intelligent chat bot |
US20200012940A1 (en) * | 2017-03-17 | 2020-01-09 | Portland State University | Frame interpolation via adaptive convolution and adaptive separable convolution |
CN108460014A (zh) * | 2018-02-07 | 2018-08-28 | 百度在线网络技术(北京)有限公司 | 企业实体的识别方法、装置、计算机设备及存储介质 |
CN110020438A (zh) * | 2019-04-15 | 2019-07-16 | 上海冰鉴信息科技有限公司 | 基于序列识别的企业或组织中文名称实体消歧方法和装置 |
CN110750700A (zh) * | 2019-10-29 | 2020-02-04 | 北京中数智汇科技股份有限公司 | 一种基于机器学习的企业简称生成方法及模型 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613299A (zh) * | 2020-12-25 | 2021-04-06 | 北京知因智慧科技有限公司 | 企业同义词库的构建方法、装置和电子设备 |
CN115017899A (zh) * | 2022-04-19 | 2022-09-06 | 北京三快在线科技有限公司 | 一种缩略语生成方法、装置、设备及存储介质 |
CN115169338A (zh) * | 2022-09-08 | 2022-10-11 | 杭州费尔斯通科技有限公司 | 一种公司名简称识别方法及装置 |
CN115169338B (zh) * | 2022-09-08 | 2023-01-03 | 杭州费尔斯通科技有限公司 | 一种公司名简称识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111814479B (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110196894B (zh) | 语言模型的训练方法和预测方法 | |
EP3707622A1 (en) | Generation of text from structured data | |
CN111814479A (zh) | 一种企业简称生成及其模型的训练方法及装置 | |
CN111401084A (zh) | 一种机器翻译的方法、设备以及计算机可读存储介质 | |
CN111859940B (zh) | 一种关键词提取方法、装置、电子设备及存储介质 | |
US11423237B2 (en) | Sequence transduction neural networks | |
JP5809381B1 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
CN113380223A (zh) | 多音字消歧方法、装置、系统及存储介质 | |
CN109902273A (zh) | 关键词生成模型的建模方法和装置 | |
CN118093834A (zh) | 一种基于aigc大模型的语言处理问答系统及方法 | |
CN111353295A (zh) | 序列标注方法、装置、存储介质及计算机设备 | |
CN114444492B (zh) | 一种非标准词类判别方法及计算机可读存储介质 | |
CN114925175A (zh) | 基于人工智能的摘要生成方法、装置、计算机设备及介质 | |
CN113177406B (zh) | 文本处理方法、装置、电子设备和计算机可读介质 | |
CN115270792A (zh) | 一种医疗实体识别方法及装置 | |
CN117371447A (zh) | 命名实体识别模型的训练方法、装置及存储介质 | |
CN114372467A (zh) | 命名实体抽取方法及装置、电子设备、存储介质 | |
CN114417891A (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 | |
CN113486160A (zh) | 基于跨语言知识的对话方法及系统 | |
CN112966520B (zh) | 自然语言生成方法及装置 | |
CN114416970B (zh) | 带角色的文本分类模型以及对话文本分类方法及装置 | |
US20240143927A1 (en) | Method for generating summary and system therefor | |
CN116521846A (zh) | 基于人工智能的长对话补全方法、装置、终端设备及介质 | |
CN115994219A (zh) | 论辩文本的挖掘方法、装置、电子设备及存储介质 | |
CN113239667A (zh) | 基于注意力机制的文本翻译方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |