CN112395881A - 物料标签的构建方法、装置、可读存储介质及电子设备 - Google Patents

物料标签的构建方法、装置、可读存储介质及电子设备 Download PDF

Info

Publication number
CN112395881A
CN112395881A CN202011352250.3A CN202011352250A CN112395881A CN 112395881 A CN112395881 A CN 112395881A CN 202011352250 A CN202011352250 A CN 202011352250A CN 112395881 A CN112395881 A CN 112395881A
Authority
CN
China
Prior art keywords
determining
feature
description text
word
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011352250.3A
Other languages
English (en)
Other versions
CN112395881B (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Truelore Information Technology Co ltd
Original Assignee
Beijing Truelore Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Truelore Information Technology Co ltd filed Critical Beijing Truelore Information Technology Co ltd
Priority to CN202011352250.3A priority Critical patent/CN112395881B/zh
Publication of CN112395881A publication Critical patent/CN112395881A/zh
Application granted granted Critical
Publication of CN112395881B publication Critical patent/CN112395881B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种物料标签的构建方法、装置、可读存储介质及电子设备,所述构建方法包括:将获取到的物料描述文本输入至预先训练好的实体识别模型中,确定所述物料描述文本中包括的至少一个物料实体;基于预设特征集,从所述物料描述文本中确定出至少一个物料特征;基于预设的特征‑关联词映射关系,确定与每一个物料特征相关联的物料属性类别;针对每一个物料实体,基于将与该物料实体相关联的物料特征,以及与该物料特征相关联的物料属性类别,构建物料标签。这样,通过基于物料描述文本中构建与每个物料相对应的物料标签,可以通过物料标签准确识别物料的物料信息,有助于提高物料识别的效率以及准确率。

Description

物料标签的构建方法、装置、可读存储介质及电子设备
技术领域
本申请涉及数据处理技术领域,尤其是涉及物料标签的构建方法、装置、可读存储介质及电子设备。
背景技术
在现有产品生产线上,一般会存在多条生产线同时进行工作的情况,在每一条生产线上除了生产线上生产的产品之外,生产线上的生产工具等均是生产线上需要进行管理的物料,为了进行物料的统一管理,收集相应的物料描述文本,但是在收集到的物料描述文本中的物料数据是随机进行收集的,难以快速准确地识别出物料描述文本所描述的物料,因此,如何从物料描述文本中如何准确地确定出物料信息成为亟待解决的问题。
发明内容
有鉴于此,本申请的目的在于提供物料标签的构建方法、装置、可读存储介质及电子设备,通过基于物料描述文本中构建与每个物料相对应的物料标签,可以通过物料标签准确识别物料的物料信息,有助于提高物料识别的效率以及准确率。
本申请实施例提供了一种物料标签的构建方法,所述构建方法包括:
将获取到的物料描述文本输入至预先训练好的实体识别模型中,确定所述物料描述文本中包括的至少一个物料实体;
基于预设特征集,从所述物料描述文本中确定出至少一个物料特征;
基于预设的特征-关联词映射关系,确定与每一个物料特征相关联的物料属性类别;
针对每一个物料实体,基于将与该物料实体相关联的物料特征,以及与该物料特征相关联的物料属性类别,构建物料标签。
进一步的,所述基于预设特征集,从所述物料描述文本中确定出至少一个物料特征,包括:
确定所述预设特征集中每一个特征包括的多个字符,以及每两个字符之间的关联关系;
基于每一个特征中的多个字符以及每两个字符之间的关联关系,构建与所述预设特征集对应的匹配树;
基于所述匹配树,确定所述物料描述文本中确定出至少一个物料特征。
进一步的,通过以下步骤确定所述预设特征集:
获取多条历史数据以及与每一条历史数据对应的目录信息;
基于获取到的多条目录信息,确定与所述多条历史数据对应的至少一个历史类别,并将所述多条历史数据基于至少一个历史类别分类,确定多个历史数据集;
针对每一个历史数据集,确定出该历史数据集中的包括的至少一个特征词,以及每一个特征词的词频;
针对于每一个历史数据集,确定对应的词频大于预设词频阈值的至少一个目标特征词;
将每一个历史数据集中包括的至少一个目标特征词集合,组成所述预设特征集。
进一步的,通过以下步骤确定预设的特征对应的关联词:
针对每一个目标特征词,确定该目标特征词与同一历史数据集中的出该目标特征词之外,每一个特征词之间的支持度以及置信度;
针对每一个目标特征词,将与该目标特征词之间的支持度大于或者等于预设支持度阈值,并且与目标特征词之间的置信度大于或者等于预设置信度阈值的特征词,确定为与该目标特征词具有映射关系的关联词。
进一步的,通过以下步骤训练所述实体识别模型:
获取多个样本物料描述文本,以及每一个样本物料描述文本对应的多个样本实体;
针对每一个样本物料描述文本,将该样本物料描述文本以及对应的多个样本实体输入至构建好的深度神经网络中,得到该样本物料描述文本对应的多个预测实体;
针对每一个样本物料描述文本,确定该样本物料描述文本中包括的样本实体与预测实体不同的实体的差异数量;
若存在任一样本物料描述文本对应的差异数量大于预设差异数量,调整所述深度神经网络中的参数,直至每个样本物料描述文本对应的差异数量小于或者等于预设差异数量,确定所述深度神经网络训练完毕,并将训练完毕的所述深度神经网络确定为训练好的所述实体识别模型。
本申请实施例还提供了一种物料标签的构建装置,所述构建装置包括:
实体确定模块,用于将获取到的物料描述文本输入至预先训练好的实体识别模型中,确定所述物料描述文本中包括的至少一个物料实体;
特征确定模块,用于基于预设特征集,从所述物料描述文本中确定出至少一个物料特征;
类别确定模块,用于基于预设的特征-关联词映射关系,确定与每一个物料特征相关联的物料属性类别;
标签构建模块,用于针对每一个物料实体,基于将与该物料实体相关联的物料特征,以及与该物料特征相关联的物料属性类别,构建物料标签。
进一步的,所述特征确定模块在用于基于预设特征集,从所述物料描述文本中确定出至少一个物料特征时,所述特征确定模块用于:
确定所述预设特征集中每一个特征包括的多个字符,以及每两个字符之间的关联关系;
基于每一个特征中的多个字符以及每两个字符之间的关联关系,构建与所述预设特征集对应的匹配树;
基于所述匹配树,确定所述物料描述文本中确定出至少一个物料特征。
进一步的,所述构建装置还包括特征集确定模块,所述特征集确定模块用于:
获取多条历史数据以及与每一条历史数据对应的目录信息;
基于获取到的多条目录信息,确定与所述多条历史数据对应的至少一个历史类别,并将所述多条历史数据基于至少一个历史类别分类,确定多个历史数据集;
针对每一个历史数据集,确定出该历史数据集中的包括的至少一个特征词,以及每一个特征词的词频;
针对于每一个历史数据集,确定对应的词频大于预设词频阈值的至少一个目标特征词;
将每一个历史数据集中包括的至少一个目标特征词集合,组成所述预设特征集。
进一步的,所述构建装置还包括关联词确定模块,所述关联词确定模块用于:
针对每一个目标特征词,确定该目标特征词与同一历史数据集中的出该目标特征词之外,每一个特征词之间的支持度以及置信度;
针对每一个目标特征词,将与该目标特征词之间的支持度大于或者等于预设支持度阈值,并且与目标特征词之间的置信度大于或者等于预设置信度阈值的特征词,确定为与该目标特征词具有映射关系的关联词。
进一步的,所述构建装置还包括模型训练模块,所述模型训练模块用于:
获取多个样本物料描述文本,以及每一个样本物料描述文本对应的多个样本实体;
针对每一个样本物料描述文本,将该样本物料描述文本以及对应的多个样本实体输入至构建好的深度神经网络中,得到该样本物料描述文本对应的多个预测实体;
针对每一个样本物料描述文本,确定该样本物料描述文本中包括的样本实体与预测实体不同的实体的差异数量;
若存在任一样本物料描述文本对应的差异数量大于预设差异数量,调整所述深度神经网络中的参数,直至每个样本物料描述文本对应的差异数量小于或者等于预设差异数量,确定所述深度神经网络训练完毕,并将训练完毕的所述深度神经网络确定为训练好的所述实体识别模型。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的物料标签的构建方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的物料标签的构建方法的步骤。
本申请实施例提供的物料标签的构建方法、装置、可读存储介质及电子设备,将获取到的物料描述文本输入至预先训练好的实体识别模型中,确定所述物料描述文本中包括的至少一个物料实体;基于预设特征集,从所述物料描述文本中确定出至少一个物料特征;基于预设的特征-关联词映射关系,确定与每一个物料特征相关联的物料属性类别;针对每一个物料实体,基于将与该物料实体相关联的物料特征,以及与该物料特征相关联的物料属性类别,构建物料标签。
这样,将获取到的物料描述文本输入至预先训练好的实体识别模型中,确定出物料描述文本中包括的至少一个物料实体,根据预设特征集,从物料描述文本中确定出至少一个物料特征,并根据特征-关联词映射关系,确定与每一个物料特征相关联的物料属性类别,将物料特征、物料属性类别与物料实体相关联,构建物料标签,从而可以通过物料标签准确识别物料的物料信息,有助于提高物料识别的效率以及准确率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为一种可能的应用场景下的系统结构图;
图2为本申请实施例所提供的一种物料标签的构建方法的流程图;
图3为物料实体提取流程图;
图4为本申请另一实施例提供的一种物料标签的构建方法的流程图;
图5为物料特征确定流程图;
图6为本申请实施例所提供的一种物料标签的构建装置的结构示意图之一;
图7为本申请实施例所提供的一种物料标签的构建装置的结构示意图之二;
图8为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
首先,对本申请可适用的应用场景进行介绍。本申请可应用于数据处理技术领域,通过基于物料描述文本中构建与每个物料相对应的包括物料信息的物料标签,可以通过物料标签准确识别物料的物料信息,有助于提高物料识别的效率以及准确率,请参阅图1,图1为一种可能的应用场景下的系统结构图,如图1中所示,所述系统包括数据库和构建装置,所述数据库中存储有与多个物料对应的物料描述文本,所述构建装置在获取到物料描述文本后,通过实体识别、预设关键词比对,确定出物料描述文本中包括的物料实体,以及每一个物料实体对应的物料特征以及物料属性类别,从而构建与每一个物料实体对应的物料标签。
经研究发现,在现有产品生产线上,一般会存在多条生产线同时进行工作的情况,在每一条生产线上除了生产线上生产的产品之外,生产线上的生产工具等均是生产线上需要进行管理的物料,为了进行物料的统一管理,收集相应的物料描述文本,但是在收集到的物料描述文本中的物料数据是随机进行收集的,难以快速准确地识别出物料描述文本所描述的物料,因此,如何从物料描述文本中如何准确地确定出物料信息成为亟待解决的问题。
基于此,本申请实施例提供了一种物料标签的构建方法,以提高物料识别的效率以及准确率。
请参阅图2,图2为本申请实施例所提供的一种物料标签的构建方法的流程图。如图2中所示,本申请实施例提供的物料标签的构建方法,包括:
S201、将获取到的物料描述文本输入至预先训练好的实体识别模型中,确定所述物料描述文本中包括的至少一个物料实体。
该步骤中,将获取到的物料描述文本输入至预先训练好的实体识别模型中,确定出获取到的物料描述文本中包括的至少一个物料实体。
这里,实体识别又称命名实体识别、专名识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
例如,针对于物料描述文本,可以识别出的实体可以包括电脑、XX公司、管理员姓名等实体。
这里,预先训练好的实体识别模型是基于前后长短期记忆神经网络(BilLSTM)+条件随机场(CRF)共同构建的模型,该模型可以实现命名实体识别(NER)的功能,以识别出物料描述文本中包括的多个实体,进而从物料文本中确定出多个物料名称。
其中,BilLSTM循环神经网络能通过双向的设置学习到观测序列之间的依赖,自动提取到观测序列的特征,再经过CRF可以对特征的转移关系进行建模处理。
这里,在对物料描述文本进行处理时,可以是以字为单位进行处理,经过实体识别模型时的处理原理为:w0,w1等表示句子里面的字,经过BilLSTM处理,输出每个字对应每个标签的分数,将最大数值表示对该字预测的标签,但是BilLSTM模型只能预测出文本序列与标签之间的关系,无法预测出标签与标签之间的关系,可以通过CRF中的转移矩阵,确定出标签与标签之间的关系,从而确定出物料描述文本中的至少一个实体。
这里,对于获取到的物料描述文本中包括多条物料描述数据(可以是物料属性描述数据,原始物料目录数据等),在获取到的物料描述文本中,每条物料描述数据均是随机获取的,彼此之间无预设关联关系。
请参阅图3,图3为物料实体提取流程图,如图3中所示,在获取到物料描述文本后,将该物料描述文本输入至预先通过无监督学习构造好的包括BilLSTM层以及CRF层的实体识别模型中,确定出物料描述文本中包括的至少一个实体,再确定出实体后,经过词图扫描,确定出物料描述文本中的物料名称。
S202、基于预设特征集,从所述物料描述文本中确定出至少一个物料特征。
该步骤中,根据预设的特征集,从步骤S201获取到的物料描述文本中确定出至少一个物料特征。
这里,预设的特征集中包括的是每个词汇类别中的词语出现频率最高的词语,这些特征可以很好地代表词汇的类别,即当出现某一词语类别时,大概率是会出现的词汇,词频的确定与物料的历史描述文本有关。
例如,对于电脑这个物料来说,在历史统计过程中,电脑的品牌多数是A品牌,即在电脑的品牌这个类别中,A品牌出现频率最高,可以作为预设特征集中的特征。
这里,根据预设特征集,从物料描述文本中确定出至少一个物料特征的方式为:将物料描述文本中包括的多个词语与预设特征集中每个预设特征进行相似度比对,当词语与预设特征之间的相似度大于预设阈值时,确定该词语为物料特征。
这里,对于确定物料特征的物料描述文本,可以是通过实体标注的物料描述文本,也可以是未经实体标注的物料描述文本,对于使用哪种物料描述文本,是基于物料文本中每条物料数据中包括的具体内容确定的,本申请实施例中的特征的确定主要针对除物料名称之外的描述词语,当物料特征的物料描述文本中既包括物料名称以及物料描述词汇时,进行特征确定的物料描述文本可以是通过实体标注的物料描述文本。
S203、基于预设的特征-关联词映射关系,确定与每一个物料特征相关联的物料属性类别。
该步骤中,根据预设的特征-关联词映射关系,确定出步骤S202中确定出的与每个物料特征相关联的关联词,进而确定出与每一个物料特征相关联的物料属性类别。
这里,对于预设的特征与关联词之间的映射关系是通过关联规则算法进行确定的,在本申请中的关联关系主要描述的是特征与物料描述文本中描述的该特征所属的属性类别之间的关联关系。
针对于上述示例,从物料描述文本中确定出特征A品牌后,基于预设的特征-关联词映射关系,确定出与A品牌关联的关联词为品牌,即A品牌是属于品牌这一类别的。
进一步的,物料属性类型还可以是标示一个物料属性的类别,例如,确定出的特征是8G后,基于预设的特征-关联词映射关系,确定出与8G关联的物料属性类别为内存,即8G是表征内存这一属性的。
S204、针对每一个物料实体,基于将与该物料实体相关联的物料特征,以及与该物料特征相关联的物料属性类别,构建物料标签。
该步骤中,针对步骤S201确定出的每一个物料实体,基于与该物料实体相关联的物料特征,以及与该物料特征相关联的物料属性类别,构建与该物料实体对应的物料标签。
这里,构建的物料标签,是标准化后的物料标签,物料标签的组成形式可以是物料实体-物料属性类别-物料特征。
针对于上述示例,构建的物料标签可以是“电脑-品牌-A品牌”。
其中,对于一个物料描述文本,可以确定出多个物料实体,并且每一个物料实体可以确定出多个特征以及多个物料属性类别,因此,一个物料描述文本最后可以确定出多个不同的物料标签。
这里,对于一个物料描述文本确定出的多个物料标签,除了确定出多个物料标签,还可以确定出每一个物料标签与其他物料标签之间的关联关系(包含、交叉、互斥等)。
本申请实施例提供的物料标签的构建方法,将获取到的物料描述文本输入至预先训练好的实体识别模型中,确定所述物料描述文本中包括的至少一个物料实体;基于预设特征集,从所述物料描述文本中确定出至少一个物料特征;基于预设的特征-关联词映射关系,确定与每一个物料特征相关联的物料属性类别;针对每一个物料实体,基于将与该物料实体相关联的物料特征,以及与该物料特征相关联的物料属性类别,构建物料标签。
这样,将获取到的物料描述文本输入至预先训练好的实体识别模型中,确定出物料描述文本中包括的至少一个物料实体,根据预设特征集,从物料描述文本中确定出至少一个物料特征,并根据特征-关联词映射关系,确定与每一个物料特征相关联的物料属性类别,将物料特征、物料属性类别与物料实体相关联,构建物料标签,从而可以通过物料标签准确识别物料的物料信息,有助于提高物料识别的效率以及准确率。
请参阅图4,图4为本申请另一实施例提供的一种物料标签的构建方法的流程图。如图4中所示,本申请实施例提供的物料标签的构建方法,包括:
S401、将获取到的物料描述文本输入至预先训练好的实体识别模型中,确定所述物料描述文本中包括的至少一个物料实体。
S402、确定所述预设特征集中每一个特征包括的多个字符,以及每两个字符之间的关联关系。
该步骤中,确定出预设特征集中包括的多个特征,每一个特征包括的多个字符,并且需要确定出每两个字符之间的关联关系。
这里,每一个特征中可以包括多个字符,例如,针对于中文特征“书籍”,包括两个字符:“书”以及“籍”;针对于英文特征“book”,包括四个字符“b”、“o”、“o”以及“k”。
这里,确定的每两个字符之间的关联关系,一般是指在一个特征中每两个字符出现的先后顺序,针对于上述示例,针对于中文特征“书籍”,字符“书”位于字符“籍”之前。
这里,除了需要确定每个特征包括的多个字符以及每两个字符之间的关联关系,还需要确定出一个特征中的起始点以及终结点。
针对于上述示例,针对于中文特征“书籍”,起始点为字符“书”,终结点为字符“籍”;针对于英文特征“book”,起始点为字符“b”,终结点为字符“k”。
S403、基于每一个特征中的多个字符以及每两个字符之间的关联关系,构建与所述预设特征集对应的匹配树。
该步骤中,根据步骤S402确定出的每一个特征中的多个字符以及每两个字符之间的关联关系,构建出与预设特征集对应的匹配树,其中,匹配树中包括的每一个树枝分支都对应于该预设特征集中的一个特征。
这里,针对于一个特征,按照确定出的该特征中包括的多个字符以及每两个字符之间的关联关系,以及该特征中的起始点以及终止点,确定还特征对应的分支。
针对于上述示例,针对于中文特征“书籍”对应的树枝分支为“书-籍”;针对于英文特征“book”,对应的树枝分支为“b-o-o-k”。
其中,在生成匹配树时,可以以一个字符为参考点,分散出多个分支,即包括该字符的特征对应的树枝分支均经过该参考点。
S404、基于所述匹配树,确定所述物料描述文本中确定出至少一个物料特征。
该步骤中,根据步骤S403确定出的匹配树,从物料描述文本中确定出至少一个物料特征。
这里,将物料描述文本进行分词处理,得到该物料描述文本中包括的多个词语,并将每个词语从匹配树每个树枝分支的起始点开始进行比对,从物料描述文本中包括的多个物料特征。
针对于上述示例,从物料描述文本中确定出的一个词语为“book”,根据该词语的第一个字符“b”可以找到多个与之相关的树枝分支,在确定第一字符匹配后,接着比较第二字符“o”,第三个字符“o”以及第四个“k”,确定该词语与匹配树中的“book”树枝分支完全匹配,这时可以确定出一个物料特征“book”。
这里,采用匹配树进行特征匹配,可以排除在特征提取时同义词、近义词、别名等模糊匹配问题以及正则化问题的干扰,可以提高特征匹配的准确率以及效率。
S405、基于预设的特征-关联词映射关系,确定与每一个物料特征相关联的物料属性类别。
S406、针对每一个物料实体,基于将与该物料实体相关联的物料特征,以及与该物料特征相关联的物料属性类别,构建物料标签。
其中,S401、S405以及S406的描述可以参照S201、S203以及S204的描述,并且能达到相同的技术效果,对此不做赘述。
进一步的,通过以下步骤确定所述预设特征集:获取多条历史数据以及与每一条历史数据对应的目录信息;基于获取到的多条目录信息,确定与所述多条历史数据对应的至少一个历史类别,并将所述多条历史数据基于至少一个历史类别分类,确定多个历史数据集;针对每一个历史数据集,确定出该历史数据集中的包括的至少一个特征词,以及每一个特征词的词频;针对于每一个历史数据集,确定对应的词频大于预设词频阈值的至少一个目标特征词;将每一个历史数据集中包括的至少一个目标特征词集合,组成所述预设特征集。
该步骤中,获取多条历史数据以及每一条历史数据对应的目录信息,根据获取到的多条目录信息,确定与多条历史数据对应的至少一个历史类别,并根据确定出的历史类别,将多条历史数据进行分类,确定出多个历史数据集,针对每一个历史数据集,确定对应的词频大于预设词频阈值的至少一个目标特征词,将每个历史数据集包括的至少一个目标特征词集合,组合成预设特征。
这里,根据目录标签提取技术对历史数据进行分类处理,通过对历史数据集中每一条历史数据的目录信息的标签化处理,得到目录的标签值,并将确定出的每一个标签值作为对历史数据集中包括的多条历史数据的分类依据。
这里,在对多条历史数据分类后,确定出多个类别的历史数据集后,针对每个历史数据集中的多条历史数据,对多条历史数据进行分词处理,本申请中可以采用结巴(jieba)中文分词工具包对历史物料的特征描述进行词语的切分,已得到该历史数据集对应的至少一个特征词。
这里,预设词频阈值,可以是根据特征集的可以存储的特征词的数量确定,并且在其他实施例中,还可以对每一个历史数据集包括的每个特征词按照对应的词频由高到低的顺序排序,将排序位于前N位的特征词,确定为该历史数据集对应的N个目标特征词。
进一步的,通过以下步骤确定预设的特征-关联词映射关系:针对每一个目标特征词,确定该目标特征词与同一历史数据集中的出该目标特征词之外,每一个特征词之间的支持度以及置信度;针对每一个目标特征词,将与该目标特征词之间的支持度大于或者等于预设支持度阈值,并且与目标特征词之间的置信度大于或者等于预设置信度阈值的特征词,确定为与该目标特征词具有映射关系的关联词。
该步骤中,针对每一个目标特征词,确定该目标特征词与隶属于同一历史数据集中,除该目标特征词之外的,每一个特征词之间的支持度以及置信度。针对于每一个目标特征词,将与该目标特征词之间的支持度大于或者等于预设支持度阈值,并且与目标特征词之间的置信度大于或者等于预设置信度阈值的特征词,确定为与该目标特征词具有映射关系的关联词。
这里,对于预设的特征对应的关联词的确定方式可以通过关联规则算法,是一种关联分析,是在关系数据或者其他信息载体中,查找存在与项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。
其中,关联分析可从数据库中关联分析出形如“由于某些事件的发生而引起另外一些事件的发生”之类的规则,进而分析出事务之间的关联关系。
这里,支持度的计算方式为:支持度计数除于总的事务数。
其中,支持度计数是指一个项集出现在多个事务中的事务数,例如特征词“B名著”出现在事务1以及事务2中,那么特征词“B名著”的支持度计数就为2;针对于本申请来说,事务数是指一个历史数据集中包括的物料数据的条数。
这里,对于置信度来说,是指出现一个特征词即出现另一个特征词的概率,计算方式可以是X->Y的置信度={X,Y}的支持度计数除以X的支持度计数。
其中,{X,Y}为X与Y同时出现的支持度计数。
这里,针对于本申请中确定出的与该目标特征词之间的支持度大于或者等于预设支持度阈值,并且与目标特征词之间的置信度大于或者等于预设置信度阈值的特征词,是确定出与目标特征词具有强关联规则,在替他实施例中,在确定预设的特征的关联词时,可以只确定与该目标特征词之间的支持度大于或者等于预设支持度阈值的特征词为关联词。
这里,在确定出与预设的特征对应的关联词之后,可以将确定出的特征以关联词放入特征值的备选库,作为模型库对物料描述文本中的特征进行对比提取,并在形成备选库后,还可以根据提取需求,对备选库进行修正,进而生成模型库。
进一步的,通过以下步骤训练所述实体识别模型:获取多个样本物料描述文本,以及每一个样本物料描述文本对应的多个样本实体;针对每一个样本物料描述文本,将该样本物料描述文本以及对应的多个样本实体输入至构建好的深度神经网络中,得到该样本物料描述文本对应的多个预测实体;针对每一个样本物料描述文本,确定该样本物料描述文本中包括的样本实体与预测实体不同的实体的差异数量;若存在任一样本物料描述文本对应的差异数量大于预设差异数量,调整所述深度神经网络中的参数,直至每个样本物料描述文本对应的差异数量小于或者等于预设差异数量,确定所述深度神经网络训练完毕,并将训练完毕的所述深度神经网络确定为训练好的所述实体识别模型。
该步骤中,获取多个样本物料描述文本,以及每一个样本物料描述文本对应的多个样本实体,针对于每一个样本物料描述文本,将该物料描述文本以及对应的多个样本实体输入至构建好的深度神经网络中,经由深度神经网络,确定出与该样本物料描述文本对应的多个预测实体,针对每一个样本物料描述文本,确定该样本物料描述文本包括的样本实体与预测实体之间不同的实体的差异数量,若存在任一样本物料描述文本对应的差异值数量大于预设差异数量,调整构建好的深度神经网络中的参数,直至每个样本物料描述文本对应的差异数量小于或者等于预设差异数量,确定对深度神经网络训练完毕,并将训练完毕的深度神经网络确定为训练好的实体识别模型。
这里,在获取样本物料描述文本时,需要获取包括不同实体类别的多个样本物料描述文本,需要确定将物料描述文本中可能描述的实体类别均包含到获取的样本物料描述文本中,以保证训练出的实体识别模型的精度更高。
这里,对于模型的训练是一种无监督学习模式。
请参阅图5,图5为物料特征确定流程图,在该实施例中,可以通过构建模型识别物料特征,根据多条历史数据,确定出具体类别,从而确定出语料,进而建立模型,并将建立的模型导入模型库中,确定出对应的具体模型,将获取到的物料文本输入至已经导入模型的模型库中,通过建立好的模型,确定出物料特征。
本申请实施例提供的物料标签的构建方法,将获取到的物料描述文本输入至预先训练好的实体识别模型中,确定所述物料描述文本中包括的至少一个物料实体;确定所述预设特征集中每一个特征包括的多个字符,以及每两个字符之间的关联关系;基于每一个特征中的多个字符以及每两个字符之间的关联关系,构建与所述预设特征集对应的匹配树;基于所述匹配树,确定所述物料描述文本中确定出至少一个物料特征;基于预设的特征-关联词映射关系,确定与每一个物料特征相关联的物料属性类别;针对每一个物料实体,基于将与该物料实体相关联的物料特征,以及与该物料特征相关联的物料属性类别,构建物料标签。
这样,将获取到的物料描述文本输入至预先训练好的实体识别模型中,确定出至少一个物料实体;确定出预设特征集中每一个特征包括的多个字符,以及每两个字符之间的关联关系,根据确定出的字符之间的关联关系,确定出与预设特征集对应的匹配树;根据匹配树,确定所述物料描述文本中确定出至少一个物料特征;根据特征-关联词映射关系,确定与每一个物料特征相关联的物料属性类别,将物料特征、物料属性类别与物料实体相关联,构建物料标签,从而可以通过物料标签准确识别物料的物料信息,有助于提高物料识别的效率以及准确率。
请参阅图6、图7,图6为本申请实施例所提供的一种物料标签的构建装置的结构示意图之一,图7为本申请实施例所提供的一种物料标签的构建装置的结构示意图之二。如图6中所示,所述构建装置600包括:
实体确定模块610,用于将获取到的物料描述文本输入至预先训练好的实体识别模型中,确定所述物料描述文本中包括的至少一个物料实体。
特征确定模块620,用于基于预设特征集,从所述物料描述文本中确定出至少一个物料特征。
类别确定模块630,用于基于预设的特征-关联词映射关系,确定与每一个物料特征相关联的物料属性类别。
标签构建模块640,用于针对每一个物料实体,基于将与该物料实体相关联的物料特征,以及与该物料特征相关联的物料属性类别,构建物料标签。
进一步的,如图7所示,所述构建装置600还包括特征集确定模块650,所述特征集确定模块650用于:
获取多条历史数据以及与每一条历史数据对应的目录信息;
基于获取到的多条目录信息,确定与所述多条历史数据对应的至少一个历史类别,并将所述多条历史数据基于至少一个历史类别分类,确定多个历史数据集;
针对每一个历史数据集,确定出该历史数据集中的包括的至少一个特征词,以及每一个特征词的词频;
针对于每一个历史数据集,确定对应的词频大于预设词频阈值的至少一个目标特征词;
将每一个历史数据集中包括的至少一个目标特征词集合,组成所述预设特征集。
进一步的,如图7所示,所述构建装置600还包括关联词确定模块660,所述关联词确定模块660用于:
针对每一个目标特征词,确定该目标特征词与同一历史数据集中的出该目标特征词之外,每一个特征词之间的支持度以及置信度;
针对每一个目标特征词,将与该目标特征词之间的支持度大于或者等于预设支持度阈值,并且与目标特征词之间的置信度大于或者等于预设置信度阈值的特征词,确定为与该目标特征词具有映射关系的关联词。
进一步的,如图7所示,所述构建装置600还包括模型训练模块670,所述模型训练模块670用于:
获取多个样本物料描述文本,以及每一个样本物料描述文本对应的多个样本实体;
针对每一个样本物料描述文本,将该样本物料描述文本以及对应的多个样本实体输入至构建好的深度神经网络中,得到该样本物料描述文本对应的多个预测实体;
针对每一个样本物料描述文本,确定该样本物料描述文本中包括的样本实体与预测实体不同的实体的差异数量;
若存在任一样本物料描述文本对应的差异数量大于预设差异数量,调整所述深度神经网络中的参数,直至每个样本物料描述文本对应的差异数量小于或者等于预设差异数量,确定所述深度神经网络训练完毕,并将训练完毕的所述深度神经网络确定为训练好的所述实体识别模型。
进一步的,所述特征确定模块620在用于基于预设特征集,从所述物料描述文本中确定出至少一个物料特征时,所述特征确定模块620用于:
确定所述预设特征集中每一个特征包括的多个字符,以及每两个字符之间的关联关系;
基于每一个特征中的多个字符以及每两个字符之间的关联关系,构建与所述预设特征集对应的匹配树;
基于所述匹配树,确定所述物料描述文本中确定出至少一个物料特征。
本申请实施例提供的物料标签的构建装置,将获取到的物料描述文本输入至预先训练好的实体识别模型中,确定所述物料描述文本中包括的至少一个物料实体;基于预设特征集,从所述物料描述文本中确定出至少一个物料特征;基于预设的特征-关联词映射关系,确定与每一个物料特征相关联的物料属性类别;针对每一个物料实体,基于将与该物料实体相关联的物料特征,以及与该物料特征相关联的物料属性类别,构建物料标签。
这样,将获取到的物料描述文本输入至预先训练好的实体识别模型中,确定出物料描述文本中包括的至少一个物料实体,根据预设特征集,从物料描述文本中确定出至少一个物料特征,并根据特征-关联词映射关系,确定与每一个物料特征相关联的物料属性类别,将物料特征、物料属性类别与物料实体相关联,构建物料标签,从而可以通过物料标签准确识别物料的物料信息,有助于提高物料识别的效率以及准确率。
请参阅图8,图8为本申请实施例所提供的一种电子设备的结构示意图。如图8中所示,所述电子设备800包括处理器810、存储器820和总线830。
所述存储器820存储有所述处理器810可执行的机器可读指令,当电子设备800运行时,所述处理器810与所述存储器820之间通过总线830通信,所述机器可读指令被所述处理器810执行时,可以执行如上述图2以及图4所示方法实施例中的物料标签的构建方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图2以及图4所示方法实施例中的物料标签的构建方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种物料标签的构建方法,其特征在于,所述构建方法包括:
将获取到的物料描述文本输入至预先训练好的实体识别模型中,确定所述物料描述文本中包括的至少一个物料实体;
基于预设特征集,从所述物料描述文本中确定出至少一个物料特征;
基于预设的特征-关联词映射关系,确定与每一个物料特征相关联的物料属性类别;
针对每一个物料实体,基于将与该物料实体相关联的物料特征,以及与该物料特征相关联的物料属性类别,构建物料标签。
2.根据权利要求1所述的构建方法,其特征在于,所述基于预设特征集,从所述物料描述文本中确定出至少一个物料特征,包括:
确定所述预设特征集中每一个特征包括的多个字符,以及每两个字符之间的关联关系;
基于每一个特征中的多个字符以及每两个字符之间的关联关系,构建与所述预设特征集对应的匹配树;
基于所述匹配树,确定所述物料描述文本中确定出至少一个物料特征。
3.根据权利要求1所述的构建方法,其特征在于,通过以下步骤确定所述预设特征集:
获取多条历史数据以及与每一条历史数据对应的目录信息;
基于获取到的多条目录信息,确定与所述多条历史数据对应的至少一个历史类别,并将所述多条历史数据基于至少一个历史类别分类,确定多个历史数据集;
针对每一个历史数据集,确定出该历史数据集中的包括的至少一个特征词,以及每一个特征词的词频;
针对于每一个历史数据集,确定对应的词频大于预设词频阈值的至少一个目标特征词;
将每一个历史数据集中包括的至少一个目标特征词集合,组成所述预设特征集。
4.根据权利要求3所述的构建方法,其特征在于,通过以下步骤确定预设的特征对应的关联词:
针对每一个目标特征词,确定该目标特征词与同一历史数据集中的出该目标特征词之外,每一个特征词之间的支持度以及置信度;
针对每一个目标特征词,将与该目标特征词之间的支持度大于或者等于预设支持度阈值,并且与目标特征词之间的置信度大于或者等于预设置信度阈值的特征词,确定为与该目标特征词具有映射关系的关联词。
5.根据权利要求1所述的构建方法,其特征在于,通过以下步骤训练所述实体识别模型:
获取多个样本物料描述文本,以及每一个样本物料描述文本对应的多个样本实体;
针对每一个样本物料描述文本,将该样本物料描述文本以及对应的多个样本实体输入至构建好的深度神经网络中,得到该样本物料描述文本对应的多个预测实体;
针对每一个样本物料描述文本,确定该样本物料描述文本中包括的样本实体与预测实体不同的实体的差异数量;
若存在任一样本物料描述文本对应的差异数量大于预设差异数量,调整所述深度神经网络中的参数,直至每个样本物料描述文本对应的差异数量小于或者等于预设差异数量,确定所述深度神经网络训练完毕,并将训练完毕的所述深度神经网络确定为训练好的所述实体识别模型。
6.一种物料标签的构建装置,其特征在于,所述构建装置包括:
实体确定模块,用于将获取到的物料描述文本输入至预先训练好的实体识别模型中,确定所述物料描述文本中包括的至少一个物料实体;
特征确定模块,用于基于预设特征集,从所述物料描述文本中确定出至少一个物料特征;
类别确定模块,用于基于预设的特征-关联词映射关系,确定与每一个物料特征相关联的物料属性类别;
标签构建模块,用于针对每一个物料实体,基于将与该物料实体相关联的物料特征,以及与该物料特征相关联的物料属性类别,构建物料标签。
7.根据权利要求6所述的构建装置,其特征在于,所述特征确定模块在用于基于预设特征集,从所述物料描述文本中确定出至少一个物料特征时,所述特征确定模块用于:
确定所述预设特征集中每一个特征包括的多个字符,以及每两个字符之间的关联关系;
基于每一个特征中的多个字符以及每两个字符之间的关联关系,构建与所述预设特征集对应的匹配树;
基于所述匹配树,确定所述物料描述文本中确定出至少一个物料特征。
8.根据权利要求6所述的构建装置,其特征在于,所述构建装置还包括特征集确定模块,所述特征集确定模块用于:
获取多条历史数据以及与每一条历史数据对应的目录信息;
基于获取到的多条目录信息,确定与所述多条历史数据对应的至少一个历史类别,并将所述多条历史数据基于至少一个历史类别分类,确定多个历史数据集;
针对每一个历史数据集,确定出该历史数据集中的包括的至少一个特征词,以及每一个特征词的词频;
针对于每一个历史数据集,确定对应的词频大于预设词频阈值的至少一个目标特征词;
将每一个历史数据集中包括的至少一个目标特征词集合,组成所述预设特征集。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至5中任一所述的物料标签的构建方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至5中任一所述的物料标签的构建方法的步骤。
CN202011352250.3A 2020-11-27 2020-11-27 物料标签的构建方法、装置、可读存储介质及电子设备 Active CN112395881B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011352250.3A CN112395881B (zh) 2020-11-27 2020-11-27 物料标签的构建方法、装置、可读存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011352250.3A CN112395881B (zh) 2020-11-27 2020-11-27 物料标签的构建方法、装置、可读存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN112395881A true CN112395881A (zh) 2021-02-23
CN112395881B CN112395881B (zh) 2022-12-13

Family

ID=74605400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011352250.3A Active CN112395881B (zh) 2020-11-27 2020-11-27 物料标签的构建方法、装置、可读存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN112395881B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449509A (zh) * 2021-08-05 2021-09-28 湖南特能博世科技有限公司 文本分析方法、装置及计算机设备
CN117195897A (zh) * 2023-09-08 2023-12-08 北京三维天地科技股份有限公司 一种基于nlp的物料描述智能拆分方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020293A (zh) * 2012-12-28 2013-04-03 百度在线网络技术(北京)有限公司 一种移动应用的本体库的构建方法及系统
US20150199333A1 (en) * 2014-01-15 2015-07-16 Abbyy Infopoisk Llc Automatic extraction of named entities from texts
CN111506727A (zh) * 2020-04-16 2020-08-07 腾讯科技(深圳)有限公司 文本内容类别获取方法、装置、计算机设备和存储介质
CN111523289A (zh) * 2020-04-24 2020-08-11 支付宝(杭州)信息技术有限公司 一种文本格式生成方法、装置、设备和可读介质
CN111611775A (zh) * 2020-05-14 2020-09-01 沈阳东软熙康医疗系统有限公司 一种实体识别模型生成方法、实体识别方法及装置、设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020293A (zh) * 2012-12-28 2013-04-03 百度在线网络技术(北京)有限公司 一种移动应用的本体库的构建方法及系统
US20150199333A1 (en) * 2014-01-15 2015-07-16 Abbyy Infopoisk Llc Automatic extraction of named entities from texts
CN111506727A (zh) * 2020-04-16 2020-08-07 腾讯科技(深圳)有限公司 文本内容类别获取方法、装置、计算机设备和存储介质
CN111523289A (zh) * 2020-04-24 2020-08-11 支付宝(杭州)信息技术有限公司 一种文本格式生成方法、装置、设备和可读介质
CN111611775A (zh) * 2020-05-14 2020-09-01 沈阳东软熙康医疗系统有限公司 一种实体识别模型生成方法、实体识别方法及装置、设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449509A (zh) * 2021-08-05 2021-09-28 湖南特能博世科技有限公司 文本分析方法、装置及计算机设备
CN117195897A (zh) * 2023-09-08 2023-12-08 北京三维天地科技股份有限公司 一种基于nlp的物料描述智能拆分方法及系统

Also Published As

Publication number Publication date
CN112395881B (zh) 2022-12-13

Similar Documents

Publication Publication Date Title
WO2020192401A1 (en) System and method for generating answer based on clustering and sentence similarity
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN103778205A (zh) 一种基于互信息的商品分类方法和系统
CA2882280A1 (en) System and method for matching data using probabilistic modeling techniques
CN112347778A (zh) 关键词抽取方法、装置、终端设备及存储介质
CN107943792B (zh) 一种语句分析方法、装置及终端设备、存储介质
CN110851598A (zh) 文本分类方法、装置、终端设备及存储介质
CN111860575B (zh) 物品属性信息的处理方法、装置、电子设备和存储介质
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN109934251B (zh) 一种用于小语种文本识别的方法、识别系统及存储介质
EP3608802A1 (en) Model variable candidate generation device and method
CN112395881B (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
US11520835B2 (en) Learning system, learning method, and program
CN110866102A (zh) 检索处理方法
CN110597978A (zh) 物品摘要生成方法、系统、电子设备及可读存储介质
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN110287493B (zh) 风险短语识别方法、装置、电子设备及存储介质
CN113282717B (zh) 文本中实体关系的抽取方法、装置、电子设备及存储介质
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN111985212A (zh) 文本关键字识别方法、装置、计算机设备及可读存储介质
CN110941713B (zh) 基于主题模型的自优化金融资讯版块分类方法
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
CN113919352A (zh) 数据库敏感数据识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant