CN114186013A - 实体识别模型热更新方法及其装置、设备、介质、产品 - Google Patents
实体识别模型热更新方法及其装置、设备、介质、产品 Download PDFInfo
- Publication number
- CN114186013A CN114186013A CN202111539471.6A CN202111539471A CN114186013A CN 114186013 A CN114186013 A CN 114186013A CN 202111539471 A CN202111539471 A CN 202111539471A CN 114186013 A CN114186013 A CN 114186013A
- Authority
- CN
- China
- Prior art keywords
- entity
- recognition model
- named
- standard
- named entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Fuzzy Systems (AREA)
- Automation & Control Theory (AREA)
- Character Discrimination (AREA)
Abstract
本申请公开一种实体识别模型热更新方法及其装置、设备、介质、产品,所述方法包括:将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库的命名实体输出;将未精准命中的命名实体与标准词库进行模糊匹配,将实现模糊匹配的命名实体添加至标准词库;根据经该实体识别模型历史处理的被识别文本所构成的语料库,计算未实现模糊匹配的命名实体的信息熵评分,筛选出信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本;根据许可信息将目标被识别文本添加至数据集中构成迭代训练实体识别模型的新增数据样本、将目标命名实体添加至标准词库中。本申请可以实现实体识别模型的热更新,提升模型完整准确识别命名实体的能力。
Description
技术领域
本申请涉及电商信息技术领域,尤其涉及一种实体识别模型热更新方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。
背景技术
命名实体识别在电商领域的搜索、推荐和用户画像分析等都起着重要作用,例如用户搜索时,搜索框对用户搜索的词汇联想,可以引导用户搜索想要搜索的商品词,提高搜索效率,而词汇联想中的联想词需要基于商品库中的商品,命名实体识别方法就可以识别出商品词。根据用户的搜索,识别出搜索关键词的tag,例如商品词、品牌等,可以用于提高搜索精排的效果。同时用户的搜索商品、点击商品、加购、下单商品等行为,可以使用嵌套实体识别方法识别出用户这些行为的偏好,用于用户画像分析。
命名实体识别(NER)可以被当作序列标注问题,采用经训练的神经网络模型来解决,其中实体边界和类别标签被联合预测。实体识别任务由于序列标注,在样本均衡及训练时,有较大的不足,所以在推断时会出现召回率较低,边界识别不准确等多种问题,在生产上的使用时精确率较低,使用场景较为受限。
因此,如何改进命名实体识别技术,使其能够从待识别文件中尽可能完整并且准确地识别出命名实体,成为该领域有待不断演进的问题。
发明内容
本申请的首要目的在于解决上述问题至少之一而提供一种实体识别模型热更新方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
为满足本申请的各个目的,本申请采用如下技术方案:
适应本申请的目的之一而提供的一种实体识别模型热更新方法,包括如下步骤:
将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果;
将未精准命中所述标准词库中标准词的命名实体与标准词库中标准词进行模糊匹配,将实现模糊匹配的命名实体作为标准词添加至所述标准词库中;
计算未实现模糊匹配所述标准词库中标准词的命名实体的信息熵评分,筛选出信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本;
根据许可信息将目标被识别文本添加至数据集中构成迭代训练实体识别模型的新增数据样本、将目标命名实体作为标准词添加至所述标准词库中。
深化的实施例中,将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果,包括如下步骤:
将所述被识别文本进行编码,获得其嵌入向量,所述嵌入向量包含被识别文本中的每个字符的嵌入向量,每个字符的嵌入向量包含该字符字向量以及该字符的所有可能的分词根据该字符在分词中的出现位置进行分类编码获得的词向量;
将该嵌入向量输入所述实体识别模型的文本特征提取模块进行表示学习,获得表征了该嵌入向量的深层语义信息的文本特征向量;
将该文本特征向量输入所述实体识别模型的条件随机场模块进行词性标注,提取出被识别文本中的一个或多个命名实体;
将提取出的命名实体与所述标准词库中进行精准匹配,将与标准词库中标准词实现精准匹配的命名实体作为识别结果输出。
深化的实施例中,计算未实现模糊匹配所述标准词库中标准词的命名实体的信息熵评分,筛选出信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本,包括如下步骤:
调用由所述实体识别模型在预设历史时长处理的被识别文本及其对应的未实现模糊匹配的命名实体构成的语料库;
计算所述未实现模糊匹配的各个命名实体的自信息熵及互信息熵的加权和值作为各个命名实体相应的信息熵评分;
比较各个命名实体的信息熵评分是否超过预设阈值,将信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本存储为待标注集。
深化的实施例中,根据许可信息将目标被识别文本添加至数据集中构成迭代训练实体识别模型的新增数据样本、将目标命名实体作为标准词添加至所述标准词库中,包括如下步骤:
获取所述目标被识别文本及其相应的目标命名实体的许可信息;
根据目标被识别文本的许可信息所指示的正、负样本类型,将所述目标被识别文本标注为正、负样本,添加至数据集中构成迭代训练所述实体识别模型的新增数据样本;
根据目标命名实体的许可信息所包含的标准词确认指令,将相应的目标命名实体作为标准词添加至所述标准词库中。
扩展的一种实施例中,根据许可信息将所述目标被识别文本添加至数据集中构成迭代训练所述实体识别模型的数据样本、将所述目标命名实体作为标准词添加至所述标准词库中的步骤之后,包括如下步骤:
响应定时任务或用户指令,调用所述数据集中的所述新增数据样本对所述实体识别模型实施迭代训练;
在完成该实体识别模型的迭代训练后,重启该实体识别模型用于为被识别文本识别命名实体。
扩展的一种实施例中,将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果的步骤之后,包括如下步骤:
构造包含所述识别结果中的命名实体的搜索表达式;
调用商品搜索引擎从商品数据库中获取与该搜索表达式相匹配的商品对象;
将所述商品对象构造为商品列表,将该商品列表推送至提供所述被识别文本的搜索请求方。
扩展的一种实施例中,将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果的步骤之后,包括如下步骤:
利用所述识别结果中的命名实体对携带所述被识别文本的商品对象进行标注,使所述识别结果中的命名实体构成所述商品对象的画像标签。
适应本申请的目的之一而提供的一种实体识别模型热更新装置,包括:精确匹配模块、模糊匹配模块、实体筛选模块,以及数据更新模块,其中,所述精确匹配模块,用于将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果;所述模糊匹配模块,用于将未精准命中所述标准词库中标准词的命名实体与标准词库中标准词进行模糊匹配,将实现模糊匹配的命名实体作为标准词添加至所述标准词库中;所述实体筛选模块,用于计算未实现模糊匹配所述标准词库中标准词的命名实体的信息熵评分,筛选出信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本;所述数据更新模块,用于根据许可信息将目标被识别文本添加至数据集中构成迭代训练实体识别模型的新增数据样本、将目标命名实体作为标准词添加至所述标准词库中。
深化的实施例中,所述精确匹配模块,包括:编码处理子模块,用于将所述被识别文本进行编码,获得其嵌入向量,所述嵌入向量包含被识别文本中的每个字符的嵌入向量,每个字符的嵌入向量包含该字符字向量以及该字符的所有可能的分词根据该字符在分词中的出现位置进行分类编码获得的词向量;表示学习子模块,用于将该嵌入向量输入所述实体识别模型的文本特征提取模块进行表示学习,获得表征了该嵌入向量的深层语义信息的文本特征向量;实体提取子模块,用于将该文本特征向量输入所述实体识别模型的条件随机场模块进行词性标注,提取出被识别文本中的一个或多个命名实体;词库匹配子模块,用于将提取出的命名实体与所述标准词库中进行精准匹配,将与标准词库中标准词实现精准匹配的命名实体作为识别结果输出。
深化的实施例中,所述实体筛选模块,包括:语料调用子模块,用于调用由所述实体识别模型在预设历史时长处理的被识别文本及其对应的未实现模糊匹配的命名实体构成的语料库;评分计算子模块,用于计算所述未实现模糊匹配的各个命名实体的自信息熵及互信息熵的加权和值作为各个命名实体相应的信息熵评分;目标筛选子模块,用于比较各个命名实体的信息熵评分是否超过预设阈值,将信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本存储为待标注集。
深化的实施例中,所述数据更新模块,包括:许可获取子模块,用于获取所述目标被识别文本及其相应的目标命名实体的许可信息;分类添加子模块,用于根据目标被识别文本的许可信息所指示的正、负样本类型,将所述目标被识别文本标注为正、负样本,添加至数据集中构成迭代训练所述实体识别模型的新增数据样本;确认新增子模块,用于根据目标命名实体的许可信息所包含的标准词确认指令,将相应的目标命名实体作为标准词添加至所述标准词库中。
扩展的一种实施例中,本申请的实体识别模型热更新装置,还包括:持续训练模块,用于响应定时任务或用户指令,调用所述数据集中的所述新增数据样本对所述实体识别模型实施迭代训练;模型重启子模块,用于在完成该实体识别模型的迭代训练后,重启该实体识别模型用于为被识别文本识别命名实体。
扩展的一种实施例中,本申请的实体识别模型热更新装置,还包括:搜索表达模块,用于构造包含所述识别结果中的命名实体的搜索表达式;搜索执行模块,用于调用商品搜索引擎从商品数据库中获取与该搜索表达式相匹配的商品对象;商品推送模块,用于将所述商品对象构造为商品列表,将该商品列表推送至提供所述被识别文本的搜索请求方。
扩展的一种实施例中,本申请的实体识别模型热更新装置,还包括:商品标注模块,用于利用所述识别结果中的命名实体对携带所述被识别文本的商品对象进行标注,使所述识别结果中的命名实体构成所述商品对象的画像标签。
适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的实体识别模型热更新方法的步骤。
适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的实体识别模型热更新方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
适应本申请的另一目的而提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。
相对于现有技术,本申请的优势如下:
首先,本申请在利用实体识别模型从被识别文本中识别出的命名实体先经与标准词库进行精准匹配,进一步再行模糊匹配,在此基础上,对未能与标记词库实现匹配的命名实体,引用该实体识别模型在一段时间内处理被识别文本获得的语料库,统计量化各个未实现匹配的命名实体的信息熵评分,根据信息熵评分确定有待人工提供许可信息的目标命名实体及其相应的目标被识别文本,最后,根据人工标注获得的许可信息,分别将相应的目标被识别文本添加到该实体识别模型相对应的数据集中,将相应的目标命名实体添加到所述的标准词库中,使该实体识别模型可以根据新增数据继续迭代训练,不断提升模型完整且准确地从被识别文本中提取出命名实体的能力。
其次,本申请根据实体识别模型在投入生产阶段,产出其数据集中的新增数据样本及其标准词库中的新增标准词,后续又可根据这些新增数据继续迭代训练而实现模型的版本升级,构成一个可以长期自动演进的热更新机制,不仅可以提升实体识别模型的利用率,还可降低其维护成本。
此外,本申请基于准确性的提升而从被识别文本中获得关键词,所述的关键词可用于在线搜索、搜索关键词联想、数据画像、推荐搜索等场景中,能够获得语义更为精准的匹配效果,因此,特别是在电商领域,由于与商品对象相关的文本数据量较大,且文本识别的成本远低于图片,使用本申请的技术方案,可以获得更为明显的规模经济成效。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的实体识别模型热更新方法的典型实施例的流程示意图;
图2为实现本申请的实体识别模型热更新方法的原理框图;
图3为本申请的实体识别模型的工作过程的流程示意图;
图4为本申请实施例中根据信息熵评分确定待标准集过程的流程示意图;
图5为本申请实施例中根据预标注的许可信息扩增数据集和标准词库的过程的流程示意图;
图6为本申请的实体识别模型热更新方法的扩展实施例之一的流程示意图;
图7为本申请的实体识别模型热更新方法的另一扩展实施例的流程示意图;
图8为本申请的实体识别模型热更新装置的原理框图;
图9为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种实体识别模型热更新方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如在本申请的电商平台应用场景中,一般部署在服务器中实施,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
请参阅图1和图2,图1为本申请的实体识别模型热更新方法在其典型实施例中体现的流程示意图,图2为本申请技术方案的实现原理的原理框图,在本典型实施例中,本申请的实体识别模型热更新方法包括如下步骤:
步骤S1100、将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果:
如图2所示,本申请的实体识别模型被用于对被识别文本实施命名实体识别,所述的被识别文本可以从用户请求中获取,也可以从数据库例如商品数据库中商品对象的商品标题或本地存储空间中例如系统粘贴板中调用,视本申请所应用的下游任务的不同而灵活获取输入文本作为所述的被识别文本,用于执行命名实体识别,从被识别文本中提取出一个或多个命名实体与预设的标准词库进行匹配,将与标准词库实现匹配的命名实体作为识别结果中的关键词输出,以作为下游任务之用。本步骤中,在将实体识别模型输出的命名实体与标准词库进行匹配时,采用精准匹配的方式实施,即要求命名实体与标准词的字符内容一致。
所述的实体识别模型,包括文本特征提取模块和条件随机场模块,所述的文本特征提取模块通常是基于Transformer底层网络架构实现的,可选用Lattice LSTM、Bert等适于处理序列数据的基础网络模型来担任,用于对被识别文本进行表示学习,以获得相应的文本特征向量。所述条件随机场模块,即CRF模型,基于所述文本特征向量对被识别文本进行词性标注,以便提取出其中的命名实体。因这些模型用于实施命名实体识别的技术已为本领域技术人员所熟知,故恕不赘述。当然,所述的实体识别模型在投入本申请使用之前应被事先训练至收敛状态,使其习得相应的能力,该能力使得该模型能根据本申请的被识别文本编码获得的嵌入向量进行表示学习获得深层语义信息相对应的文本特征向量,并在该文本特征向量的基础上实现词性标注,根据词性标注结果获得各个命名实体。
所述的标准词库,其存储有海量的标准词,提供给模型输出进行匹配,具体是对所述条件随机场模块所提取的命名实体进行匹配,故该标准词库中的标准词是预先定义的,并且可动态更新的。标准词的内容,视本申请技术方案所服务的领域和场景的不同而不同,例如,在本申请示例性的电商领域相关的应用场景中,所述的标准词可以是品牌词或者标签词,相应的,当一个命名实体命中标准词库中的一个标准词(或标签词)时,即表明该命名实体是一个品牌词(或标签词)。由此可知,本领域技术人员可以根据其具体任务要求灵活设定所述的标准词库中的标准词。
所述的下游任务,视本申请的技术方案的具体应用场景而定,例如在线搜索、搜索关键词联想、数据画像、推荐搜索等。
示例之一,在线搜索场景中,用户在客户端设备提交其原始搜索表达式后,该原始搜索表达式被作为所述的被识别文本进行命名实体识别后提取出多个关键词,再根据所述关键词进行逻辑结合之后构成优化后的搜索表达式再执行在线搜索。
示例之二,搜索关键词联想场景中,用户在输入其搜索关键词的过程中,其已输入的文本被作为所述的被识别文本进行命名实体识别,然后后台根据命名实体识别获得的关键词进行词语联想,将相关联想词显然给用户选定。
示例之三,数据画像场景中,以电商领域为例,可以直接从客户端设备或者从商品数据库中获取商品对象的商品标题或商品详情等文本信息,作为所述的被识别文本,进行命名实体识别,获得相应的关键词,对相应的商品对象进行标注,将这些关键词作为商品对象的数据画像标签。
示例之四,推荐搜索场景中,仍以电商领域为例,可以获取客户端设备的输入作为被识别文本,对其进行命名实体识别,根据识别所获得的关键词在商品数据库中搜索获取其相对应的商品对象,然后构造出商品对象推荐列表推送给用户端。
诸如此类,表明可以根据其应用场景的不同而获取相应输入的文本信息作为所述的被识别文本,以便启动本申请的命名实体识别过程。实际上,命名实体识别是自然语言处理技术中的一项基础功能,可以广泛地适用于多种场合,对此,本领域技术人员均已知晓,因此,不应以应用领域为限约束本申请的创造精神所应涵盖的保护范围。
步骤S1200、将未精准命中所述标准词库中标准词的命名实体与标准词库中标准词进行模糊匹配,将实现模糊匹配的命名实体作为标准词添加至所述标准词库中:
前一步骤中未实现精准匹配的命名实体,作为待定命名实体,可以在本步骤中与所述标准词库中的标准词进一步模糊匹配。考虑到一种情况,示例而言,对于命名实体“华多皮鞋”其中,“华多”是一个品牌词,预先被构造为所述标准词库中的一个标准词,在前一步骤进行精准匹配时,由于标准词库中不存在标准词“华多皮鞋”,因此,“华多皮鞋”未能在前一步骤中精准命名标准词库中的标准词,便作为待定命名实体在本步骤中进行模糊匹配时。
在模糊匹配时,可借助预设的正则规则、通配符等进行,或者利用逻辑的包含与被包含的关系来判别,沿用前述示例,此时,判断待定命名实体“华多皮鞋”是否包含“华多”,如果包含,便可将该待定命名实体“华多皮鞋”作为新的标准词,添加到所述的标准词库中,实现对标准词库的增容。当然,如果待定命名实体与标准词库中的任一标准词均不符合模糊匹配相对应的规则时,则未能实现模糊匹配,可将该待命名实体保留至下一步骤继续处理。此处,不难理解,在利用标准词库完成精确匹配的基础上,进一步利用标准词库对待定命名实体实施模糊匹配,可以最大化程度地扩展命名实体的语义边界,通过结合语义边界从实体识别模型识别结果中的待定命名实体进行选优,可以实现对标准词库的扩容,使标准词库得以更新升级,以提供实体识别模型后续进行命名实体识别的完整性和准确度,降低误判几率。
步骤S1300、计算未实现模糊匹配所述标准词库中标准词的命名实体的信息熵评分,筛选出信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本:
所述的信息熵评分,主要由各个命名实体的互信息熵和自信息熵量化构成,信息熵评分,可以参照一个统计了各个命名实体的词频的数据表来进行信息熵评分的计算,而各个命名实体的词频,示例而言,可以依据所述实体识别模型历史处理的被识别文本的分词结果来进行统计。
命名实体的自信息熵,用来衡量该命名实体的自由度。假设一个命名实体一共出现了N次,其左边共出现过n个汉字,每个汉字依次出现N1,N2,……,Nn次,则满足N=N1+N2+……+Nn,因此可以计算该词语左边各个汉字出现的概率,并根据熵公式计算左邻熵。同理,可以计算出其右邻熵。根据左邻熵与右邻熵的汇总和值,便可进一步确定出该命名实体的自信息熵。熵越小则自由度越低,否则其自由度越高。
命名实体的互信息熵,用来衡量该命名实体的凝固度。假设命名实体为S,首先计算该词语在命名实体集合中出现的概率P(S),然后尝试S的所有可能的二切分,即分为左半部分sl和右半部分sr并计算P(sl)和P(sr),例如双汉字词语存在一种二切分、三汉字词语存在两种二切分。接下来计算所有二切分方案中,P(S)/(P(sl)×P(sr))的最小值,取对数之后即可作为凝固度的衡量。互信息熵越大,命名实体的内部的聚合程度越高,互信息熵越大,命名实体内部的聚合程度越低。
将命名实体的自信息熵进行融合来确定该命名实体的信息熵评分,本质上是给出该命名实体的价值评估指标,当信息熵评分越高时,其构成具有独立地位的中心词的可能性越高,否则,当信息熵评分越低时,其构成中心词的可能性越低。最简单的融合方式,可以是将互信息熵与自信息熵直接相加来确定。部分优化的实施例中,也可将互信息熵与自信息熵进行平滑加权来获得信息熵评分。
改进的实施例中,对于一些特定的应用领域,在进行信息熵评分计算的过程中可以做出适当的变通。例如,考察本申请所主要应用的电商领域中商品对象的标题文本的特点可知,所述标题文本为电商产品的标题形式,包括用于描述电商产品的多个语义相关而语法上离散的字词,例如“欢聚蹦迪舞鞋畅销新款利能定制款”,其中,当其被分词之后,理论上将得到多个命名实体如:“欢聚”、“蹦迪”、“舞鞋”、“畅销”、“新款”、“利能”、“定制款”,考察这些命名实体的特点可以看出,基本上均为关键词的堆叠,词与词之间语义上有一定的相关性,但在语法上是相对离散的,更多是并列的,且整个标题文本的长度基本也不会过长。根据这些特点,以这些标题文本为被识别文本时并获得所述的未实现模糊匹配的命名实体时,考虑到互信息熵会受到命名实体长度的影响,命名实体越长,互信息熵的取值便更大,因此,在计算互信息熵时,可以为互信息熵的计算引入n方的权,其中n指命名实体的字的数量。
通过计算获得各个命名实体的信息熵评分之后,可以根据预设阈值来判决命名实体的信息熵评分是否满足要求,将满足要求的命名实体确定为目标命名实体,表征该命名实体为包含较高价值的疑似标准词,对应的,包含该目标命名实体的被识别文本,也为目标被识别文本,后续可将目标被识别文本和目标命名实体提供给人工进行识别。
所述的预设阈值可以根据本领域技术人员的先验知识来确定,也可基于对所有命名实体的信息熵评分的统计均值来确定。给出所述的预设阈值之后,将每一命名实体的信息熵评分与之相比较,信息熵评分高于该预设阈值的命名实体便可确定为所述的目标命名实体,否则不将其确定为目标命中实体。
步骤S1400、根据许可信息将目标被识别文本添加至数据集中构成迭代训练实体识别模型的新增数据样本、将目标命名实体作为标准词添加至所述标准词库中:
前一步骤筛选出来的目标命名实体及目标被识别文本可以提供给相关管理用户实施人工标注,从而获得人工标注生成的相对应的许可信息。对于所述的目标被识别文本,可将其样本类型表示为许可信息,对应可标记为正样本或负样本,据此,便可将该目标被识别文本关联其相应的具体样本类型添加到所述实体识别模型迭代训练所需的数据集中,构成其中的新增数据样本。对于所述的目标命名实体,人工标注可将其表示为真值或假值,其中真值表示可将该目标命名实体视为标准词,从而根据这一许可信息,将该目标命名实体作为新增标准词添加到所述实体识别模型匹配所需的标准词库中。
由此,即使是对于未能与标准词库实现精准匹配的命名实体及其相应的被识别文本,也可实现回收利用,使实体识别模型的标准词库及其训练所需的数据集实现扩展增容,后续重启对该实体识别模型的训练任务时,可利用这些数据对实体识别模型实施再训练,实现实体识别模型的升级,在不断增长的数据样本的作用下不断提升实体识别模型的表示学习能力和命名实体广泛识别能力,体现统计学上的查全率优势;在不断增长的标准词库的作用下,不断提升实体识别模型所输出的识别结果的识别精准程度,体现统计学上的查准率优势。
通过本典型实施例的揭示,可以理解,本申请包含丰富的积极效果,包括但不限于如下各方面:
首先,本申请在利用实体识别模型从被识别文本中识别出的命名实体先经与标准词库进行精准匹配,进一步再行模糊匹配,在此基础上,对未能与标记词库实现匹配的命名实体,引用该实体识别模型在一段时间内处理被识别文本获得的语料库,统计量化各个未实现匹配的命名实体的信息熵评分,根据信息熵评分确定有待人工提供许可信息的目标命名实体及其相应的目标被识别文本,最后,根据人工标注获得的许可信息,分别将相应的目标被识别文本添加到该实体识别模型相对应的数据集中,将相应的目标命名实体添加到所述的标准词库中,使该实体识别模型可以根据新增数据继续迭代训练,不断提升模型完整且准确地从被识别文本中提取出命名实体的能力。
其次,本申请根据实体识别模型在投入生产阶段,产出其数据集中的新增数据样本及其标准词库中的新增标准词,后续又可根据这些新增数据继续迭代训练而实现模型的版本升级,构成一个可以长期自动演进的热更新机制,不仅可以提升实体识别模型的利用率,还可降低其维护成本。
此外,本申请基于准确性的提升而从被识别文本中获得关键词,所述的关键词可用于在线搜索、搜索关键词联想、数据画像、推荐搜索等场景中,能够获得语义更为精准的匹配效果,因此,特别是在电商领域,由于与商品对象相关的文本数据量较大,且文本识别的成本远低于图片,使用本申请的技术方案,可以获得更为明显的规模经济成效。
请参阅图3,深化的实施例中,所述步骤S1100、将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果,包括如下步骤:
步骤S1110、将所述被识别文本进行编码,获得其嵌入向量,所述嵌入向量包含被识别文本中的每个字符的嵌入向量,每个字符的嵌入向量包含该字符字向量以及该字符的所有可能的分词根据该字符在分词中的出现位置进行分类编码获得的词向量:
本步骤旨在对所述被识别文本进行编码,实现向量化,而获得相应的嵌入向量。现有技术中存在多种对文本进行编码的技术,可供本领域技术人员灵活实施。本申请中,也推荐一种新的编码方式,使所述嵌入向量包含被识别文本的每个字符对应的编码信息,每个字符的编码信息中包含该字符的字向量以及该字符的所有可能的分词根据该字符在分词中的出现位置进行分类编码获得的词向量。
具体而言,对于所述被识别文本,以中文为例,针对其中的每个字符先分别进行编码。在针对每个字符进行编码时,先根据预设的词典获得每个字符相对应的分词集,每个分词集中包含其相应的字符在被识别文本中的所有可能的分词。例如,以“中山西路”的“山”字为例,其根据词典确定出的分词集中可能包含{“中山”;“中山西”;“中山西路”;“山西”;“山西路”;“山”}等分词。通过该示例可以看出,单字“山”在其分词集的各个分词中的出现位置,存在多种位置情况,包括出现于首字位置、尾字位置、中间字位置、独字位置,其中,为理解的便利,首字位置可标记为B,尾字位置标记为E、中间字位置标记为M、独字位置标记为S。根据这几种不同出现位置,便可根据出现位置的不同构造出不同的分类,相应获得:
B={“山西”;“山西路”}
E={“中山”}
M={“中山西”;“中山西路”}
S={“山”}
由此可见,根据每个字符在其可能的分词中所出现的位置的不同,可以划分出多个相应的分词子集。然后针对不同的分词子集获取词向量进行综合,综合的方式包括对各个词向量求均值或求加权值,实现词向量压缩;再将综合获得的向量表示结合到该字符的字向量中,构成该字符相应的向量表示,由各个字符的向量表示构造成被识别文本相对应的嵌入向量。
这一过程中,根据所述各个字符在其可能的分词所出现的位置不同获得多个分词子集,然后针对每个分词子集获得其中各个分词的词向量的综合结果,这一综合结果独立表示了相应位置的分词的共性特征,最后通过这些共性特征叠加到字向量中,构成单字相对应的向量表示,使每个单字的向量表示又综合了各个出现位置相对应的共性特征,据此,通过这些共性特征的表示,突出了不同出现位置相对应的含义的表征,使最终获得的被识别文本的嵌入向量综合了全方面的语义信息,后续据此进行命名实体识别,自然可以获得更丰富的语义。
步骤S1120、将该嵌入向量输入所述实体识别模型的文本特征提取模块进行表示学习,获得表征了该嵌入向量的深层语义信息的文本特征向量:
所述的文本特征提取模块,优选采用Lattice LSTM实施,该模块基于预先编码获得的所述被识别文本的嵌入向量,参考上下文对其进行表示学习,获得相应的文本特征向量。
步骤S1130、将该文本特征向量输入所述实体识别模型的条件随机场模块进行词性标注,提取出被识别文本中的一个或多个命名实体:
将所述文本特征向量输入条件随机场模块(CRF)进行词性标注,在条件随机场模块的作用下,用Lattice LSTM输出的概率矩阵和CRF的状态转移矩阵结合进行预测,完成词性标注,根据词性标注结果即可提取出被识别文本中的多个命名实体。
本实施例中,LSTM也可替换为Bert之类的基于Transformer内核的模型。此外,尽管这些模型本身也可独立担当词性标注的任务,但结合条件随机场能显著提升命名实体提取的准确率,因此予以推荐。
步骤S1140、将提取出的命名实体与所述标准词库中进行精准匹配,将与标准词库中标准词实现精准匹配的命名实体作为识别结果输出:
与标准词库进行精准匹配时,只需逐一确定标准词库中是否存在与所提取出的各个命名实体完全一致即可,当命名实体与标记词库中的一个标准词完全一致时,该命名实体即命中该标准词。最后,将实现精准匹配的所有命名实体作为识别结果输出,即完成从所述被识别文本中提取出标准词的目标。
本实施例中,主要对需要进行命名实体识别的被识别文本的编码过程进行改进,对所述被识别文本进行向量化,获得被识别文本中各个字符相对应的嵌入向量,使所述嵌入向量包含该字符的字向量以及该字符的所有可能的分词根据该字符在分词中的出现位置进行分类编码获得的词向量,通过分类加强各个分类的共性特征的表示,从而指导实体识别模型的表示学习过程,使模型表示学习所获得的深层语义信息更能准确表示各个字之间的语义相关性,从而由该模型基于更为精准的深层语义信息进行词性标注,在词性标注的基础上准确识别出各个命名实体,经精准匹配获得相对应的标准词。
其次,本申请在编码过程中,考虑到中文没有明显的单词边界的特点,字符序列下不同分词会有不同含义,因此根据各个字符在分词的具体出现位置进行分类,由此使各个分类表现了字符所处位置所承载的含义,更符合中文的特点,因此,据其编码获得的嵌入向量,可使实体识别模型更易于对中文进行命名实体的识别,使基于中文的命名实体识别任务更加高效准确。
此外,由于针对编码过程进行改进提升了命名实体识别的准确性,因此,可使相应的实体识别模型的训练过程所需的数据样本的总量降低,使模型更易被训练至收敛状态,提升模型训练效率,节省模型训练成本。
请参阅图4,深化的实施例中,所述步骤S1300、计算未实现模糊匹配所述标准词库中标准词的命名实体的信息熵评分,筛选出信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本,包括如下步骤:
步骤S1310、调用由所述实体识别模型在预设历史时长处理的被识别文本及其对应的未实现模糊匹配的命名实体构成的语料库;
所述实体识别模型日常服务于各种下游任务,对海量的被识别文本进行识别,获得相应的识别结果的过程中,可将这些历史处理的被识别文本进行缓存,以用于构成本申请用于统计信息熵评分的语料库,也可根据该语料库制作计算信息熵评分所需的词频的数据表。该语料库可以反映实体识别模型在过去时间段处理的具体数据,这个时间段的跨度,可以由本领域技术人员灵活设定,例如,可以设定为一天的缓存时间,为此,当调用缓存时,便可至少获得当前时刻起过去24小时内的被识别文本。当然,缓存也可以用于存储任意时长的历史时间段内产生的被识别文本,而实体识别模型也可根据给定的时间跨度从中获取相对应的被识别文本。本申请仅出于动态热更新的需要,示例性地规定将前一天0:00至24:00之间产生的被识别文本作为本申请统计命名实体的信息熵评分所需的语料库。
步骤S1320、计算所述未实现模糊匹配的各个命名实体的自信息熵及互信息熵的加权和值作为各个命名实体相应的信息熵评分:
首先,统计每个命名实体的自信息熵,自信息熵为该命名实体的左邻信息熵与右邻信息熵的和值:
熵表示对于分布为P(xi)的随机变量X,其自信息的数学期望,其计算公式为信息论中公知的公式,本申请中表示为:
H(x)=∑PxiLnPxi
本步骤中,先行统计从被识别文本中提取出的命名实体的自信息熵,为了计算自信息熵,需要先计算命名实体的左右邻熵。
左邻熵计算公式为:
EL=∑P(wi|str)LnP(wi|str)
其中,Wi为左邻字符串集合,str为字符串的组合,P(.)为给定条件str下wi的条件概率。
右邻熵计算公式为:
ER=∑P(wi|str)LnP(wi|str)
其中,wi为右邻字符串集合,str为字符串的组合,P(.)为给定条件str下wi的条件概率。
根据左邻熵和右邻熵公式可以得知,当wi集合越大,以及当p的值越大时,得到的熵就会越大。熵越大,代表的信息量也就越大。
在获得左邻熵和右邻熵的基础上,适用如下的自信息熵评估函数:
L=ERlnEL+ELlnER+|EL-ER|ln(ER+EL)-(ER+EL)ln|ER-EL|
可见,左右的信息熵都相对较大时,此时的命名实体可以独立作为一个中心词的可能性越大,使用的左右邻字丰富程度优化后评估函数更好。本申请在实际测试中,也取得了很好的效果。
其次,统计每个命名实体的互信息熵:
一般地,两个离散随机变量X和Y的互信息可以定义为:
其中,p(x,y)是X和Y的联合概率分布函数,而p(x)和p(y)分别是X和Y的边缘概率分布函数。
两个字符串之间的互信息评估的是他们在一起的意义,互信息越大,说明彼此依赖更强,而不是可以有可无的。故适用如下函数对互信息熵进行计算:
其中,P(str)为命名实体对应的词频。
进一步,由于对象间互信息量会受到命名实体长度的影响(命名实体越长,互信息取值偏大),在电商场景下,文本的使用大概率是由关键词的堆叠,且文本的长度基本不会过长,故而为MI加入n方的权,修正如下:
进而,适应每个命名实体,将其自信息熵与其互信息熵配以不同权重进行线性融合,获得相应的命名实体的信息熵评分:
为了获得每个命名实体的自信息熵与互信息熵之间的和值,且方便对其进行调和,对自信息熵和互信息熵分别配以不同权重参数,用于计算所述的信息熵评分。本领域技术人员可以根据实际情况灵活确定其中的不同权重。相应的公式如下:
score=α·L(W)+β·AMI(W)
其中,L(W)是自信息熵,AMI(W)互信息熵,α和β是其相应的权重参数。
根据该公式,便可求得各个命名实体相对应的综合信息熵,作为其对应的信息熵评分,因此便可据此来选择所述的命名实体作为目标命名实体。
步骤S1330、比较各个命名实体的信息熵评分是否超过预设阈值,将信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本存储为待标注集:
为了实现对命名实体的优选,可以引入预设阈值用于判决每个命名实体的信息熵评分是否满足要求,当一个命名实体相对应的信息熵评分高于所述的预设阈值时,将该命名实体确定为具有较高信息价值的目标命名实体,后续经人工考察后可能被标注为新的标准词,相应的,将该目标命名实体所在的被识别文本确定为目标被识别文本,后续可经人工考察后标准为实体识别模型训练所需的数据集中的某种样本类型的新增数据样本。
为了便于实施人工标注,可将所述的目标命名实体及其所在的目标被识别文本的映射关系数据构造为待标注集,以备调用。
本实施例在对未能与标准词库实现模糊匹配的命名实体进行优选以识别出目标命名实体的过程中,应用了信息论中关于自信息熵与互信息熵的加权融合的思维,既考虑了命名实体自身内部的聚合程度的稳定性,也考虑了命名实体与其他字词之间的关联自由度,使得据此所发现的新词更具语义上的准确性,实现对需要进行人工标注的待定命名实体和待定被识别文本的精选。
请参阅图5,深化的实施例中,所述步骤S1400、根据许可信息将目标被识别文本添加至数据集中构成迭代训练实体识别模型的新增数据样本、将目标命名实体作为标准词添加至所述标准词库中,包括如下步骤:
步骤S1410、获取所述目标被识别文本及其相应的目标命名实体的许可信息:
从步骤S1300及其各种变化实施例获得的目标命名实体及目标被识别文本,事先被提供给人工进行标注,相应的标注信息可视为目标命名实体和目标被识别文本相对应的许可信息,根据相应的许可信息,便可处理相应的目标命名实体、目标被识别实体。
步骤S1420、根据目标被识别文本的许可信息所指示的正、负样本类型,将所述目标被识别文本标注为正、负样本,添加至数据集中构成迭代训练所述实体识别模型的新增数据样本:
在对所述目标被识别文本进行人工标注时,主要是标注其样本类型,以便为实体识别模型的训练提供相应的监督标签,此处,样本类型主要为两种,即正样本类型和负样本类型,人工标注时,可根据实际情况,例如目标被识别文本中是否包含可被作为新增标准词的目标命名实体,而相应确定该目标被识别文本为正样本或负样本,以此表示出该目标被识别文本相对应的许可信息。
根据这一原理,针对所述的目标被识别文本,计算机识别其许可信息所包含的样本类型,相应将该目标被识别文本关联其具体样本类型,添加至数据集中,作为数据集中的新增数据样本,后续用户于对实体识别模型实施训练时,其具体样本类型即构成实体识别模型的监督标签。
步骤S1430、根据目标命名实体的许可信息所包含的标准词确认指令,将相应的目标命名实体作为标准词添加至所述标准词库中:
在对所述目标命名实体进行人工标注时,主要是标注其是否适于构成所述标准词库中的新增标准词,为此,其相对应的许可信息,可以表示为逻辑值,例如True和False,据此,针对所述的目标命名实体,计算机识别其许可信息的逻辑值,将标示为True的逻辑值视为标准词确认指令,从而响应该指令将相应的目标命名实体作为新增标准词,添加到所述标准词库中,实现对标准词库的扩容。
本实施例中,允许通过人工标注来针对基于信息熵评分确定的目标命名实体和目标被识别文本实施进一步的精选,并根据所标注的许可信息,将目标命名实体和目标被识别文本分别添加至实体识别模型相对应的标准词库和数据集中,实现所述实体识别模型为自身扩增实现其功能所需的标准词和实现其识别能力所需的数据样本,构建出实体识别模型的热更新机制的基础。
请参阅图6,扩展的一种实施例中,所述步骤S1400、根据许可信息将所述目标被识别文本添加至数据集中构成迭代训练所述实体识别模型的数据样本、将所述目标命名实体作为标准词添加至所述标准词库中的步骤之后,包括如下步骤:
步骤S1500、响应定时任务或用户指令,调用所述数据集中的所述新增数据样本对所述实体识别模型实施迭代训练:
本实施例中,针对所述的实体识别模型,可以通过设置定时任务来启动继续训练该实体识别模型的任务,当然,也可人工触发用户指令予以启动。当所述实体识别模型开始实施训练时,便可迭代调用其数据集中的新增数据样本实施训练,直至被训练至收敛状态。据此,不难理解,实体识别模型日常处理的被识别文本所产生的目标命名实体,将在训练过程中以标准词库的新增标准词的身份对条件随机场模块的输出进行匹配,使训练过程中的参考标准词更为全面,从而也有助于促进模型快速收敛。
步骤S1600、在完成该实体识别模型的迭代训练后,重启该实体识别模型用于为被识别文本识别命名实体:
当完成所述的实体识别模型完成其迭代训练后,便可重新发布该实体识别模型,实现版本升级,重启该实体识别模型用于为被识别文本识别命名实体。如此不断循环,形成针对所述实体识别模型的热更新机制。
本实施例完善了实体识别模型的热更新机制的闭环,使后台可以实现不断循环升级实体识别模型,一方面,日常使用该实体识别模型服务于被识别文本的实体识别所需,并在提供服务过程中产出新增标准词和新增数据样本,对相应的标准词库和数据集进行扩容;另一方面,定时或不定时地采用所述标准词库中相应的新增标准词用于模型训练、生产阶段的精准匹配,采用所述数据集中的新增数据样本用于对实体识别模型进行升级性训练,待实体识别模型训练完毕后又重新发布并重启实体识别模型提供命名实体识别服务,循环不息,形成自更新机制。
请参阅图7,扩展的一种实施例中,所述步骤S1100、将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果的步骤之后,包括如下步骤:
步骤S1101、构造包含所述识别结果中的命名实体的搜索表达式:
本实施例中,适应电商领域在线搜索应用场景的需要,所述的被识别文本为用户输入的原始搜索表达式,用户在其终端界面完成所述被识别文本的输入,确认提交后,被服务器获得,服务器根据本申请的技术方案,通过前述各个实施例的相关步骤,对所述被识别文本进行编码获得其相应的嵌入向量,然后采用实体识别模型根据该嵌入向量预测出命名实体,进一步经过精确匹配获得相应的识别结果,该识别结果中包含多个与相应的标准词实现精准匹配的命名实体,可作为搜索所需的关键词。
在此基础上,可以根据预设规则将各个关键词进行组合,例如将各个关键词设置为逻辑与运算,构成新的搜索表达式。
步骤S1102、调用商品搜索引擎从商品数据库中获取与该搜索表达式相匹配的商品对象;
根据前一步骤修正后的搜索表达式,调用商品搜索引擎,对商品数据库执行搜索,获得匹配该搜索表达式的多个商品对象。
步骤S1103、将所述商品对象构造为商品列表,将该商品列表推送至提供所述被识别文本的搜索请求方:
进一步,可获取匹配到的各个商品对象相应的摘要信息,例如其商品图片、商品标题、商品价格等,将所述摘要信息封装于一个商品列表中,然后将该商品列表推送至作为请求方的所述用户的客户设备中显示。
本实施例将本申请的技术方案进一步应用于电商领域的在线搜索应用场景中,展示出本申请的技术优势。不难理解,由于本申请在先介绍的有益效果的存在,其经命名识别获得的关键词更为精准,因此,根据预设逻辑结合规则确定出来的新的搜索表达式,以其在商品数据库中进行搜索获得的商品列表,更能匹配用户在被识别文本中表达的意图,实现商品的精准搜索。
扩展的一种实施例中,步骤S1101、将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果的步骤之后,包括如下步骤:利用所述识别结果中的命名实体对携带所述被识别文本的商品对象进行标注,使所述识别结果中的命名实体构成所述商品对象的画像标签:
本实施例中,适应电商领域对商品数据库中的商品对象进行数据画像的需要,以所述商品对象的商品标题和/或商品详情文本等作为确定数据画像标签的素材,作为所述的被识别文本,然后,通过前述各个实施例的相关步骤,对所述被识别文本进行编码获得其相应的嵌入向量,采用实体识别模型根据该嵌入向量预测并精准匹配出识别结果,内含多个与标准词库的标准词相一致的命名实体,构成关键词,这些关键词便可作为对所述商品对象进行数据画像所需的标签,直接用这些标签对所述商品对象进行标注,便可完成商品对象的数据画像。
本实施例将本申请其他实施例的技术方案进一步应用于电商领域的在线搜索应用场景中,展示出本申请的技术优势。不难理解,由于本申请在先介绍的有益效果的存在,其经命名识别获得的关键词更为精准,因此,将这些关键词作为商品对象的数据画像标签,可以快速高效且精准地实现对商品对象的数据画像标注。
请参阅图8,适应本申请的目的之一而提供的一种实体识别模型热更新装置,是对本申请的实体识别模型热更新方法的功能化体现,该装置包括:精确匹配模块1100、模糊匹配模块1200、实体筛选模块1300,以及数据更新模块1400,其中,所述精确匹配模块1100,用于将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果;所述模糊匹配模块1200,用于将未精准命中所述标准词库中标准词的命名实体与标准词库中标准词进行模糊匹配,将实现模糊匹配的命名实体作为标准词添加至所述标准词库中;所述实体筛选模块1300,用于计算未实现模糊匹配所述标准词库中标准词的命名实体的信息熵评分,筛选出信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本;所述数据更新模块1400,用于根据许可信息将目标被识别文本添加至数据集中构成迭代训练实体识别模型的新增数据样本、将目标命名实体作为标准词添加至所述标准词库中。
深化的实施例中,所述精确匹配模块1100,包括:编码处理子模块,用于将所述被识别文本进行编码,获得其嵌入向量,所述嵌入向量包含被识别文本中的每个字符的嵌入向量,每个字符的嵌入向量包含该字符字向量以及该字符的所有可能的分词根据该字符在分词中的出现位置进行分类编码获得的词向量;表示学习子模块,用于将该嵌入向量输入所述实体识别模型的文本特征提取模块进行表示学习,获得表征了该嵌入向量的深层语义信息的文本特征向量;实体提取子模块,用于将该文本特征向量输入所述实体识别模型的条件随机场模块进行词性标注,提取出被识别文本中的一个或多个命名实体;词库匹配子模块,用于将提取出的命名实体与所述标准词库中进行精准匹配,将与标准词库中标准词实现精准匹配的命名实体作为识别结果输出。
深化的实施例中,所述实体筛选模块1300,包括:语料调用子模块,用于调用由所述实体识别模型在预设历史时长处理的被识别文本及其对应的未实现模糊匹配的命名实体构成的语料库;评分计算子模块,用于计算所述未实现模糊匹配的各个命名实体的自信息熵及互信息熵的加权和值作为各个命名实体相应的信息熵评分;目标筛选子模块,用于比较各个命名实体的信息熵评分是否超过预设阈值,将信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本存储为待标注集。
深化的实施例中,所述数据更新模块1400,包括:许可获取子模块,用于获取所述目标被识别文本及其相应的目标命名实体的许可信息;分类添加子模块,用于根据目标被识别文本的许可信息所指示的正、负样本类型,将所述目标被识别文本标注为正、负样本,添加至数据集中构成迭代训练所述实体识别模型的新增数据样本;确认新增子模块,用于根据目标命名实体的许可信息所包含的标准词确认指令,将相应的目标命名实体作为标准词添加至所述标准词库中。
扩展的一种实施例中,本申请的实体识别模型热更新装置,还包括:持续训练模块,用于响应定时任务或用户指令,调用所述数据集中的所述新增数据样本对所述实体识别模型实施迭代训练;模型重启子模块,用于在完成该实体识别模型的迭代训练后,重启该实体识别模型用于为被识别文本识别命名实体。
扩展的一种实施例中,本申请的实体识别模型热更新装置,还包括:搜索表达模块,用于构造包含所述识别结果中的命名实体的搜索表达式;搜索执行模块,用于调用商品搜索引擎从商品数据库中获取与该搜索表达式相匹配的商品对象;商品推送模块,用于将所述商品对象构造为商品列表,将该商品列表推送至提供所述被识别文本的搜索请求方。
扩展的一种实施例中,本申请的实体识别模型热更新装置,还包括:商品标注模块,用于利用所述识别结果中的命名实体对携带所述被识别文本的商品对象进行标注,使所述识别结果中的命名实体构成所述商品对象的画像标签。
为解决上述技术问题,本申请实施例还提供计算机设备。如图9所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种实体识别模型热更新方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的实体识别模型热更新方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图8中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的实体识别模型热更新装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的实体识别模型热更新方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请为实体识别模型建立了热更新机制,使实体识别模型可以通过生产、训练、再生产,不断提升自身的命名实体识别能力,特别适合处理中文信息,据此获得的识别结果可以提升多种下游任务的执行效果。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种实体识别模型热更新方法,其特征在于,包括如下步骤:
将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果;
将未精准命中所述标准词库中标准词的命名实体与标准词库中标准词进行模糊匹配,将实现模糊匹配的命名实体作为标准词添加至所述标准词库中;
计算未实现模糊匹配所述标准词库中标准词的命名实体的信息熵评分,筛选出信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本;
根据许可信息将目标被识别文本添加至数据集中构成迭代训练实体识别模型的新增数据样本、将目标命名实体作为标准词添加至所述标准词库中。
2.根据权利要求1所述的实体识别模型热更新方法,其特征在于,将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果,包括如下步骤:
将所述被识别文本进行编码,获得其嵌入向量,所述嵌入向量包含被识别文本中的每个字符的嵌入向量,每个字符的嵌入向量包含该字符字向量以及该字符的所有可能的分词根据该字符在分词中的出现位置进行分类编码获得的词向量;
将该嵌入向量输入所述实体识别模型的文本特征提取模块进行表示学习,获得表征了该嵌入向量的深层语义信息的文本特征向量;
将该文本特征向量输入所述实体识别模型的条件随机场模块进行词性标注,提取出被识别文本中的一个或多个命名实体;
将提取出的命名实体与所述标准词库中进行精准匹配,将与标准词库中标准词实现精准匹配的命名实体作为识别结果输出。
3.根据权利要求1所述的实体识别模型热更新方法,其特征在于,计算未实现模糊匹配所述标准词库中标准词的命名实体的信息熵评分,筛选出信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本,包括如下步骤:
调用由所述实体识别模型在预设历史时长处理的被识别文本及其对应的未实现模糊匹配的命名实体构成的语料库;
计算所述未实现模糊匹配的各个命名实体的自信息熵及互信息熵的加权和值作为各个命名实体相应的信息熵评分;
比较各个命名实体的信息熵评分是否超过预设阈值,将信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本存储为待标注集。
4.根据权利要求1所述的实体识别模型热更新方法,其特征在于,根据许可信息将目标被识别文本添加至数据集中构成迭代训练实体识别模型的新增数据样本、将目标命名实体作为标准词添加至所述标准词库中,包括如下步骤:
获取所述目标被识别文本及其相应的目标命名实体的许可信息;
根据目标被识别文本的许可信息所指示的正、负样本类型,将所述目标被识别文本标注为正、负样本,添加至数据集中构成迭代训练所述实体识别模型的新增数据样本;
根据目标命名实体的许可信息所包含的标准词确认指令,将相应的目标命名实体作为标准词添加至所述标准词库中。
5.根据权利要求1至4中任意一项所述的实体识别模型热更新方法,其特征在于,根据许可信息将所述目标被识别文本添加至数据集中构成迭代训练所述实体识别模型的数据样本、将所述目标命名实体作为标准词添加至所述标准词库中的步骤之后,包括如下步骤:
响应定时任务或用户指令,调用所述数据集中的所述新增数据样本对所述实体识别模型实施迭代训练;
在完成该实体识别模型的迭代训练后,重启该实体识别模型用于为被识别文本识别命名实体。
6.根据权利要求1至4中任意一项所述的实体识别模型热更新方法,其特征在于,将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果的步骤之后,包括如下步骤:
构造包含所述识别结果中的命名实体的搜索表达式;
调用商品搜索引擎从商品数据库中获取与该搜索表达式相匹配的商品对象;
将所述商品对象构造为商品列表,将该商品列表推送至提供所述被识别文本的搜索请求方。
7.根据权利要求1至4中任意一项所述的实体识别模型热更新方法,其特征在于,将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果的步骤之后,包括如下步骤:
利用所述识别结果中的命名实体对携带所述被识别文本的商品对象进行标注,使所述识别结果中的命名实体构成所述商品对象的画像标签。
8.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。
9.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至7任意一项中所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111539471.6A CN114186013A (zh) | 2021-12-15 | 2021-12-15 | 实体识别模型热更新方法及其装置、设备、介质、产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111539471.6A CN114186013A (zh) | 2021-12-15 | 2021-12-15 | 实体识别模型热更新方法及其装置、设备、介质、产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114186013A true CN114186013A (zh) | 2022-03-15 |
Family
ID=80605266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111539471.6A Pending CN114186013A (zh) | 2021-12-15 | 2021-12-15 | 实体识别模型热更新方法及其装置、设备、介质、产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114186013A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782729A (zh) * | 2020-07-07 | 2020-10-16 | 国网湖南省电力有限公司 | 一种分布式基础词库的构建和同步的方法及装置 |
CN116187342A (zh) * | 2023-03-03 | 2023-05-30 | 北京青萌数海科技有限公司 | 一种提取商品标签的方法及系统 |
CN116976351A (zh) * | 2023-09-22 | 2023-10-31 | 之江实验室 | 基于学科实体的语言模型构建方法以及学科实体识别装置 |
CN117077679A (zh) * | 2023-10-16 | 2023-11-17 | 之江实验室 | 命名实体识别方法和装置 |
CN117540827A (zh) * | 2024-01-08 | 2024-02-09 | 杭州吉利汽车数字科技有限公司 | 模型热更新方法、装置、设备及计算机可读存储介质 |
-
2021
- 2021-12-15 CN CN202111539471.6A patent/CN114186013A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782729A (zh) * | 2020-07-07 | 2020-10-16 | 国网湖南省电力有限公司 | 一种分布式基础词库的构建和同步的方法及装置 |
CN116187342A (zh) * | 2023-03-03 | 2023-05-30 | 北京青萌数海科技有限公司 | 一种提取商品标签的方法及系统 |
CN116976351A (zh) * | 2023-09-22 | 2023-10-31 | 之江实验室 | 基于学科实体的语言模型构建方法以及学科实体识别装置 |
CN116976351B (zh) * | 2023-09-22 | 2024-01-23 | 之江实验室 | 基于学科实体的语言模型构建方法以及学科实体识别装置 |
CN117077679A (zh) * | 2023-10-16 | 2023-11-17 | 之江实验室 | 命名实体识别方法和装置 |
CN117077679B (zh) * | 2023-10-16 | 2024-03-12 | 之江实验室 | 命名实体识别方法和装置 |
CN117540827A (zh) * | 2024-01-08 | 2024-02-09 | 杭州吉利汽车数字科技有限公司 | 模型热更新方法、装置、设备及计算机可读存储介质 |
CN117540827B (zh) * | 2024-01-08 | 2024-04-09 | 杭州吉利汽车数字科技有限公司 | 模型热更新方法、装置、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581510B (zh) | 分享内容处理方法、装置、计算机设备和存储介质 | |
US11636147B2 (en) | Training neural networks to perform tag-based font recognition utilizing font classification | |
CN114186013A (zh) | 实体识别模型热更新方法及其装置、设备、介质、产品 | |
CN110069709B (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
CN111539197B (zh) | 文本匹配方法和装置以及计算机系统和可读存储介质 | |
CN112364204B (zh) | 视频搜索方法、装置、计算机设备及存储介质 | |
US20220107980A1 (en) | Providing an object-based response to a natural language query | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN116521906A (zh) | 元描述生成方法及其装置、设备、介质 | |
CN116976920A (zh) | 商品导购方法及其装置、设备、介质 | |
CN114626926A (zh) | 商品搜索类目识别方法及其装置、设备、介质、产品 | |
CN114218948A (zh) | 关键词识别方法及其装置、设备、介质、产品 | |
CN114491079A (zh) | 知识图谱构建和查询方法、装置、设备和介质 | |
CN117194616A (zh) | 一种垂域知识图谱的知识查询方法、装置、计算机设备和存储介质 | |
CN116975340A (zh) | 信息检索方法、装置、设备、程序产品及存储介质 | |
CN116029793A (zh) | 商品推荐方法及其装置、设备、介质 | |
CN112487154B (zh) | 一种基于自然语言的智能搜索方法 | |
CN112650869B (zh) | 图像检索重排序方法、装置、电子设备及存储介质 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN114997921A (zh) | 广告文案推荐方法及其装置、设备、介质、产品 | |
CN114282622A (zh) | 训练样本排查方法及其装置、设备、介质、产品 | |
CN113157892A (zh) | 用户意图处理方法、装置、计算机设备及存储介质 | |
CN113392312A (zh) | 信息处理方法、系统及电子设备 | |
US20240054290A1 (en) | Deep technology innovation management by cross-pollinating innovations dataset | |
US20220245179A1 (en) | Semantic phrasal similarity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |