CN117764069B - 一种基于元器件行业的中英文混编文本的切词方法 - Google Patents

一种基于元器件行业的中英文混编文本的切词方法 Download PDF

Info

Publication number
CN117764069B
CN117764069B CN202410195634.0A CN202410195634A CN117764069B CN 117764069 B CN117764069 B CN 117764069B CN 202410195634 A CN202410195634 A CN 202410195634A CN 117764069 B CN117764069 B CN 117764069B
Authority
CN
China
Prior art keywords
word
data
model
component
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410195634.0A
Other languages
English (en)
Other versions
CN117764069A (zh
Inventor
张长付
刘军
侯跃腾
谢中涞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huaqiang Electronic Network Group Co ltd
Original Assignee
Shenzhen Huaqiang Electronic Network Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huaqiang Electronic Network Group Co ltd filed Critical Shenzhen Huaqiang Electronic Network Group Co ltd
Priority to CN202410195634.0A priority Critical patent/CN117764069B/zh
Publication of CN117764069A publication Critical patent/CN117764069A/zh
Application granted granted Critical
Publication of CN117764069B publication Critical patent/CN117764069B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于元器件行业的中英文混编文本的切词方法,涉及文本切词技术领域,该切词方法包括:S1、获取工业场景下的元器件文本数据,标注元器件文本数据中的中英文混编文本的切词边界,生成标注数据,并存储至元器件语料库;S2、采集不同种类元器件的物料清单数据,并进行数据预处理;S3、构建语言模型,并输入预处理后的物料清单数据进行模型测试;S4、采用数据蒸馏与模型压缩的方式,优化语言模型;S5、语言模型打包至可部署模块,接入元器件文本切词应用场景。本发明具备在专业领域中处理中英文混编文本的能力,为元器件行业提供了高效、准确的切词工具,提升了文本处理的效率和精度。

Description

一种基于元器件行业的中英文混编文本的切词方法
技术领域
本发明涉及文本切词技术领域,尤其是涉及一种基于元器件行业的中英文混编文本的切词方法。
背景技术
在电子元器件行业,中英文混编的专业文本数据给切词任务带来了独特而复杂的挑战。传统的切词算法,如基于字典匹配、基于统计和基于深度学习的方法,以及常见的分词工具如jieba、spacy、hanlp等,往往在处理这类文本时效果不尽如人意。原因主要在于电子元器件物料规格命名的特殊性,其常采用中英文混合的方式,并且规则繁多,如“集成电路(MPS)”、“IC-APX809-26SAG-7”、“2SMD”、“15210802601000”等。
这些规格命名中融合了中英文,使得切词算法难以正确辨别中文与英文之间的边界。例如,“集成电路(MPS)”中,“集成电路”为中文,而“(MPS)”为英文缩写,传统的切词方法可能无法准确区分。此外,一些规格名称中存在数字、特殊字符,如“IC-APX809-26SAG-7”中的“26SAG-7”,更增加了切词的难度。
传统的中文分词工具如jieba和英文分词工具如spacy都面临着无法很好适应这种专业领域文本的问题。深度学习模型,包括BERT/ERNIE等,虽然在自然语言处理任务中表现出色,但同样面临着对于特殊领域、专业术语处理不足的困境,因为它们通常是在通用语料库上预训练而得到的。
因此,为了有效处理电子元器件行业的专业文本数据,切词算法可能需要结合领域知识,采用定制化的方法,包括利用领域内的专业词典、规则来增强切词模型,以更好地适应中英文混编、包含特殊字符和数字的规格命名方式。此外,对于电子元器件领域,可能需要考虑使用专门训练过的模型,提高对于专业术语的理解和切分准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种基于元器件行业的中英文混编文本的切词方法。
本发明提供了一种基于元器件行业的中英文混编文本的切词方法,该切词方法包括:
S1、获取工业场景下的元器件文本数据,标注元器件文本数据中的中英文混编文本的切词边界,生成标注数据,并存储至元器件语料库;
S2、采集不同种类元器件的物料清单数据,并进行数据预处理;
S3、构建语言模型,并输入预处理后的物料清单数据进行模型测试;
S4、采用数据蒸馏与模型压缩的方式,优化语言模型;
S5、语言模型打包至可部署模块,接入元器件文本切词应用场景。
进一步的,采集不同种类元器件的物料清单数据,并进行数据预处理包括:
S21、从不同种类的元器件中采集物料清单数据,其中,物料清单数据包括物料识别单数据与物料规格结构化数据;
S22、分别提取物料识别单数据与物料规格结构化数据中包含的元器件信息,并转换为文本格式的物料文本数据;
S23、清洗物料文本数据,并统一物料文本数据的类型与格式。
进一步的,构建语言模型,并输入预处理后的物料清单数据进行模型测试包括:
S31、基于元器件语料库中已知的标注数据,定义元器件标识集,并构建基于自适应隐马尔可夫的初级切词模型;
S32、基于语料相似度策略构建识别模型,匹配元器件的种类;
S33、在元器件语料库中提取与已匹配元器件同种类的标注数据,形成切词参考集,并基于切词参考集,构建二级切词模型;
S34、融合初级切词模型、识别模型及二级切词模型,形成用于元器件中英文混编文本切词的语言模型;
S35、向语言模型输入物料清单数据预处理后得到的物料文本数据,测试与验证语言模型输出的中英文词语切词的准确性。
进一步的,基于元器件语料库中已知的标注数据,定义元器件标识集,并构建基于自适应隐马尔可夫的初级切词模型包括:
S311、梳理元器件语料库中标注数据包含的已知单词的标注名称与数据类型,并匹配每个标注名称与数据类型,合并定义为元器件标注集;
S312、利用文本扫描器初步扫描输入的物料文本数据,统计物料文本数据中包含的中英文切换词段的数量,作为初验数值;
S313、创建初级切词模型,通过对比初验数值与预设数量阈值,自适应调度初级切词模型的切词模式,其中,初级切词模型包括一阶隐马尔可夫模型与二阶隐马尔可夫模型。
进一步的,通过对比初验数值与预设数量阈值,自适应调度初级切词模型的切词模式包括:
S3131、对比初验数值与预设数量阈值的大小,若初验数值大于等于预设数量阈值,则转入步骤S3132,若初验数值小于预设数量阈值,则执行步骤S3133;
S3132、调用二阶隐马尔可夫模型对输入的物料文本数据进行切词,将字串分成单词序列,并执行步骤S3134;
S3133、调用一阶隐马尔可夫模型对输入的物料文本数据进行切词,将字串分成单词序列,并执行步骤S3134;
S3134、遍历单词序列,判断每个单词的数据类型是否存在元器件标注集中,若存在则执行步骤S3135,若不存在则执行步骤S3136;
S3135、查找单词的相邻上下单词,并记录该单词与上单词、下单词与元器件编号至元器件数组中,再执行步骤S3137;
S3136、将单词代入约束矩阵进行验证,若满足约束矩阵,则执行步骤S3137,若不满足约束矩阵,则记录并剔除相应的切词方式;
S3137、判断元器件数组是否完全遍历,若遍历结束,则结束分词,并输出分词结果,若未遍历结束,则返回步骤S3134。
进一步的,基于语料相似度策略构建识别模型,匹配元器件的种类包括:
S321、获取初级切词模型成功切词后的单词,作为待匹配单词;
S322、建立待匹配单词与元器件语料库中已知单词之间的向量映射关系,用于将待匹配单词向量映射至语料库单词端,并统计语料库单词端与待匹配向量距离小于距离阈值的k个单词,作为近邻单词;
S323、基于设定的语料相似度策略,构建待匹配单词以及元器件的识别模型,优先计算每个待匹配单词与近邻单词之间的语料相似度;
S324、综合所有待匹配单词相似度最高的目标单词,分析物料文本数据对应的待匹配元器件的种类。
进一步的,优先计算每个待匹配单词与近邻单词之间的语料相似度包括:
S3231、计算待匹配单词向量与k个近邻单词之间的语料相似度,语料相似度的计算公式为:
式中,表示待匹配单词f与第k个近邻单词的语料相似度;Se)表示待匹配单词在语料库单词端的近邻单词集合;e表示待匹配单词在语料库单词端的映射向量;e k表示第k个近邻单词;
S3232、提取待匹配单词与k个近邻单词中语料相似度最高的近邻单词,作为目标单词。
进一步的,综合所有待匹配单词相似度最高的目标单词,分析物料文本数据对应的待匹配元器件的种类包括:
S3241、统计所有目标单词对应的标注名称与数据类型;
S3242、在元器件语料库中筛选同时具备所有目标单词的标注名称的元器件种类,作为匹配合集;
S3243、按照待匹配单词中单词的顺序,对标注名称排序,再按照排序结果在匹配合集中筛选符合顺序要求的元器件种类,作为最终的待匹配元器件的种类。
进一步的,在元器件语料库中提取与已匹配元器件同种类的标注数据,形成切词参考集,并基于切词参考集,构建二级切词模型包括:
S331、获取元器件的匹配成功的种类,在元器件语料库中提取同种类元器件的标注数据,形成切词参考集;
S332、构建基于Transformer架构的二级切词模型,并利用切词参考集进行模型的训练与测试。
进一步的,采用数据蒸馏与模型压缩的方式,优化语言模型包括:
S41、设定完整的语言模型作为教师模型,再构建一个学生模型;
S42、将标注数据划分为训练数据集与测试训练集,利用训练数据集训练教师模型,再利用训练完毕的教师模型进行推理,生成软标签;
S43、将原始训练数据集与软标签结合,形成蒸馏训练数据,再利用蒸馏训练数据训练学生模型;
S44、利用测试训练集测试学生模型的性能,若满足要求,则保留学生模型作为优化后的语言模型,若不满足要求,则返回训练。
本发明的有益效果为:
1、通过工业场景下元器件文本数据的标注和存储,构建完备的元器件语料库,采集不同种类元器件的物料清单数据进行数据预处理,构建并优化语言模型,最终将优化后的语言模型打包成可部署模块,成功接入元器件文本切词应用场景,具备了在专业领域中处理中英文混编文本的能力,为元器件行业提供了高效、准确的切词工具,提升了文本处理的效率和精度。
2、通过构建切词-识别-切词的三层模型结构,实现了高效而精确的中英文混编文本切词方法;首先,在初级切词模型中,基于元器件语料库的标注数据,定义了元器件标识集,并构建了自适应隐马尔可夫模型,实现了对中英文混编文本的初步准确切分;其次,在识别模型的引入下,通过语料相似度策略,构建了用于匹配元器件种类的模型,为后续切词提供了更丰富的语境信息,提高了模型对元器件文本的理解和判断能力;通过在元器件语料库中提取切词参考集,构建了二级切词模型,以更精准地适应元器件行业中文混编文本的切词需求,从而具备了对于元器件行业专业文本的敏感性和强大适应性,为切词任务提供了高效、准确的解决方案。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种基于元器件行业的中英文混编文本的切词方法的流程图;
图2是根据本发明实施例的人工标注数据示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,提供了一种基于元器件行业的中英文混编文本的切词方法,该切词方法包括:
S1、获取工业场景下的元器件文本数据,标注元器件文本数据中的中英文混编文本的切词边界,生成标注数据,并存储至元器件语料库。
其中,从工业场景中收集包含元器件信息的文本数据,包括物料清单、规格说明等。利用人工或自动化工具,标注中英文混编文本的切词边界,确保准确标注每个词语的开始和结束位置,如图2所示。将标注的切词边界信息与原始文本结合,形成标注数据,其中记录了每个词语的边界及其对应的中英文标识。最终将生成的标注数据存储至元器件语料库中,建立一个结构化、可检索的数据库,以方便后续的模型训练和语言处理任务。
S2、采集不同种类元器件的物料清单数据,并进行数据预处理。
在本发明的描述中,采集不同种类元器件的物料清单数据,并进行数据预处理包括:
S21、从不同种类的元器件中采集物料清单数据,其中,物料清单数据包括物料识别单数据与物料规格结构化数据。
其中,物料识别单数据包括物料的名称、编号、描述、制造商信息以及数量单位等基本标识和基本信息,用于唯一标识和简要描述物料。
物料规格结构化数据则包括物料的技术参数、制造材料、性能特征、尺寸、重量等详细和结构化的技术特性,提供了全面了解和有效管理物料的信息。通过这两部分数据的结合,物料清单数据不仅能够标识和描述物料,还提供了丰富的技术详细信息,满足了对物料的全面管理需求。
S22、分别提取物料识别单数据与物料规格结构化数据中包含的元器件信息,并转换为文本格式的物料文本数据。
S23、清洗物料文本数据,并统一物料文本数据的类型与格式。
S3、构建语言模型,并输入预处理后的物料清单数据进行模型测试。
在本发明的描述中,构建语言模型,并输入预处理后的物料清单数据进行模型测试包括:
S31、基于元器件语料库中已知的标注数据,定义元器件标识集,并构建基于自适应隐马尔可夫的初级切词模型。
在本发明的描述中,基于元器件语料库中已知的标注数据,定义元器件标识集,并构建基于自适应隐马尔可夫的初级切词模型包括:
S311、梳理元器件语料库中标注数据包含的已知单词的标注名称与数据类型,并匹配每个标注名称与数据类型,合并定义为元器件标注集。
S312、利用文本扫描器初步扫描输入的物料文本数据,统计物料文本数据中包含的中英文切换词段的数量,作为初验数值。
利用文本扫描器初步扫描输入的物料文本数据,统计其中包含的中英文切换词段的数量,通过以下步骤进行:遍历物料文本数据,使用文本扫描器按照一定规则扫描文本内容。制定识别规则,识别文本中的中英文切换词段,涉及到中文字符和英文字符之间的切换点,例如标点符号、空格等。统计识别到的中英文切换词段的数量,作为初验数值。最终将统计结果输出,包括中英文切换词段的具体内容和数量。
S313、创建初级切词模型,通过对比初验数值与预设数量阈值,自适应调度初级切词模型的切词模式,其中,初级切词模型包括一阶隐马尔可夫模型与二阶隐马尔可夫模型。
在本发明的描述中,通过对比初验数值与预设数量阈值,自适应调度初级切词模型的切词模式包括:
S3131、对比初验数值与预设数量阈值的大小,若初验数值大于等于预设数量阈值,则转入步骤S3132,若初验数值小于预设数量阈值,则执行步骤S3133。
S3132、调用二阶隐马尔可夫模型对输入的物料文本数据进行切词,将字串分成单词序列,并执行步骤S3134。
其中,二阶隐马尔可夫模型(Second Order Hidden Markov Model,简称二阶HMM)是一种隐马尔可夫模型的变体,它考虑了更复杂的上下文关系和状态转移概率。在二阶HMM中,每个隐藏状态的转移概率不仅与当前状态有关,还与前一个状态有关,因此模型能够更好地捕捉序列数据中的长程依赖关系。
具体来说,二阶HMM包含以下要素:
隐藏状态(Hidden States):与一阶HMM类似,二阶HMM也有一组隐藏状态,每个隐藏状态表示模型在某个时刻的内部状态。
观测状态(Observation States):对应于具体观察到的数据,可以是文本中的单词、字母等。
初始概率分布(Initial Probability Distribution):描述模型在序列开始时各隐藏状态的概率分布。
状态转移概率矩阵(Transition Probability Matrix):描述从一个隐藏状态转移到另一个隐藏状态的概率分布。在二阶HMM中,这个矩阵考虑了当前状态和前一个状态之间的关系。
发射概率矩阵(Emission Probability Matrix):描述在每个隐藏状态下生成每个观测状态的概率分布。
S3133、调用一阶隐马尔可夫模型对输入的物料文本数据进行切词,将字串分成单词序列,并执行步骤S3134。
其中,一阶隐马尔可夫模型(First Order Hidden Markov Model,简称一阶HMM)是隐马尔可夫模型的一种基础形式。它是一种用于描述具有潜在未知状态的序列数据的概率模型。在一阶HMM中,假设系统的状态在时刻t只与前一个时刻t-1的状态有关,与更早时刻的状态无关。
S3134、遍历单词序列,判断每个单词的数据类型是否存在元器件标注集中,若存在则执行步骤S3135,若不存在则执行步骤S3136。
S3135、查找单词的相邻上下单词,并记录该单词与上单词、下单词与元器件编号至元器件数组中,再执行步骤S3137。
S3136、将单词代入约束矩阵进行验证,若满足约束矩阵,则执行步骤S3137,若不满足约束矩阵,则记录并剔除相应的切词方式。
S3137、判断元器件数组是否完全遍历,若遍历结束,则结束分词,并输出分词结果,若未遍历结束,则返回步骤S3134。
S32、基于语料相似度策略构建识别模型,匹配元器件的种类。
在本发明的描述中,基于语料相似度策略构建识别模型,匹配元器件的种类包括:
S321、获取初级切词模型成功切词后的单词,作为待匹配单词。
S322、建立待匹配单词与元器件语料库中已知单词之间的向量映射关系,用于将待匹配单词向量映射至语料库单词端,并统计语料库单词端与待匹配向量距离小于距离阈值的k个单词,作为近邻单词。
S323、基于设定的语料相似度策略,构建待匹配单词以及元器件的识别模型,优先计算每个待匹配单词与近邻单词之间的语料相似度。
在本发明的描述中,优先计算每个待匹配单词与近邻单词之间的语料相似度包括:
S3231、计算待匹配单词向量与k个近邻单词之间的语料相似度,语料相似度的计算公式为:
式中,表示待匹配单词f与第k个近邻单词的语料相似度,Se)表示待匹配单词在语料库单词端的近邻单词集合,e表示待匹配单词在语料库单词端的映射向量,e k表示第k个近邻单词。
S3232、提取待匹配单词与k个近邻单词中语料相似度最高的近邻单词,作为目标单词。
S324、综合所有待匹配单词相似度最高的目标单词,分析物料文本数据对应的待匹配元器件的种类。
在本发明的描述中,综合所有待匹配单词相似度最高的目标单词,分析物料文本数据对应的待匹配元器件的种类包括:
S3241、统计所有目标单词对应的标注名称与数据类型。
S3242、在元器件语料库中筛选同时具备所有目标单词的标注名称的元器件种类,作为匹配合集。
S3243、按照待匹配单词中单词的顺序,对标注名称排序,再按照排序结果在匹配合集中筛选符合顺序要求的元器件种类,作为最终的待匹配元器件的种类。
S33、在元器件语料库中提取与已匹配元器件同种类的标注数据,形成切词参考集,并基于切词参考集,构建二级切词模型。
在本发明的描述中,在元器件语料库中提取与已匹配元器件同种类的标注数据,形成切词参考集,并基于切词参考集,构建二级切词模型包括:
S331、获取元器件的匹配成功的种类,在元器件语料库中提取同种类元器件的标注数据,形成切词参考集。
S332、构建基于Transformer架构的二级切词模型,并利用切词参考集进行模型的训练与测试。
利用Transformer架构,构建二级切词模型。Transformer是一种强大的深度学习模型,特别适用于序列转换任务,如文本生成和切词。
使用切词参考集进行模型的训练。在训练过程中,模型学习如何根据上下文信息准确地切分文本,并参考切词参考集的标注数据进行监督学习。
进行模型的测试,评估模型在新的文本数据上的切词性能。这可以通过与切词参考集中的标注数据进行比较来实现。
S34、融合初级切词模型、识别模型及二级切词模型,形成用于元器件中英文混编文本切词的语言模型。
S35、向语言模型输入物料清单数据预处理后得到的物料文本数据,测试与验证语言模型输出的中英文词语切词的准确性。
S4、采用数据蒸馏与模型压缩的方式,优化语言模型。
在本发明的描述中,采用数据蒸馏与模型压缩的方式,优化语言模型包括:
S41、设定完整的语言模型作为教师模型,再构建一个学生模型。
S42、将标注数据划分为训练数据集与测试训练集,利用训练数据集训练教师模型,再利用训练完毕的教师模型进行推理,生成软标签。
S43、将原始训练数据集与软标签结合,形成蒸馏训练数据,再利用蒸馏训练数据训练学生模型。
S44、利用测试训练集测试学生模型的性能,若满足要求,则保留学生模型作为优化后的语言模型,若不满足要求,则返回训练。
S5、语言模型打包至可部署模块,接入元器件文本切词应用场景。
其中,将融合后的语言模型导出为可部署的格式,包括将模型参数、权重以及必要的预处理步骤保存成一个文件或文件集。设计一个可以接收元器件文本输入并输出切词结果的部署模块。该模块应该包括模型加载、文本输入处理、切词输出等功能。在部署模块中集成加载融合后语言模型的功能,确保模型可以在部署环境中正确加载,准备接收输入数据。
实现将输入的元器件文本进行必要的预处理,以符合模型的输入要求。这可能包括分词、编码等步骤。将预处理后的文本输入送入加载的语言模型进行推理。获取切词结果。将模型推理得到的切词结果输出,使其能够在应用场景中使用。将设计好的部署模块嵌入到元器件文本切词应用场景中,包括将模块嵌入到一个软件应用程序、网络服务中,或者与其他系统进行集成。
综上所述,借助于本发明的上述技术方案,通过工业场景下元器件文本数据的标注和存储,构建完备的元器件语料库,采集不同种类元器件的物料清单数据进行数据预处理,构建并优化语言模型,最终将优化后的语言模型打包成可部署模块,成功接入元器件文本切词应用场景,具备了在专业领域中处理中英文混编文本的能力,为元器件行业提供了高效、准确的切词工具,提升了文本处理的效率和精度。通过构建切词-识别-切词的三层模型结构,实现了高效而精确的中英文混编文本切词方法;首先,在初级切词模型中,基于元器件语料库的标注数据,定义了元器件标识集,并构建了自适应隐马尔可夫模型,实现了对中英文混编文本的初步准确切分;其次,在识别模型的引入下,通过语料相似度策略,构建了用于匹配元器件种类的模型,为后续切词提供了更丰富的语境信息,提高了模型对元器件文本的理解和判断能力;通过在元器件语料库中提取切词参考集,构建了二级切词模型,以更精准地适应元器件行业中文混编文本的切词需求,从而具备了对于元器件行业专业文本的敏感性和强大适应性,为切词任务提供了高效、准确的解决方案。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

Claims (5)

1.一种基于元器件行业的中英文混编文本的切词方法,其特征在于,该切词方法包括:
S1、获取工业场景下的元器件文本数据,标注所述元器件文本数据中的中英文混编文本的切词边界,生成标注数据,并存储至元器件语料库;
S2、采集不同种类元器件的物料清单数据,并进行数据预处理;
S3、构建语言模型,并输入预处理后的物料清单数据进行模型测试;
S4、采用数据蒸馏与模型压缩的方式,优化所述语言模型;
S5、所述语言模型打包至可部署模块,接入元器件文本切词应用场景;
所述采集不同种类元器件的物料清单数据,并进行数据预处理包括:
S21、从不同种类的元器件中采集物料清单数据,其中,所述物料清单数据包括物料识别单数据与物料规格结构化数据;
S22、分别提取所述物料识别单数据与所述物料规格结构化数据中包含的元器件信息,并转换为文本格式的物料文本数据;
S23、清洗所述物料文本数据,并统一所述物料文本数据的类型与格式;
所述构建语言模型,并输入预处理后的物料清单数据进行模型测试包括:
S31、基于所述元器件语料库中已知的标注数据,定义元器件标识集,并构建基于自适应隐马尔可夫的初级切词模型;
S32、基于语料相似度策略构建识别模型,匹配元器件的种类;
S33、在所述元器件语料库中提取与已匹配元器件同种类的标注数据,形成切词参考集,并基于所述切词参考集,构建二级切词模型;
S34、融合所述初级切词模型、所述识别模型及所述二级切词模型,形成用于元器件中英文混编文本切词的语言模型;
S35、向所述语言模型输入所述物料清单数据预处理后得到的物料文本数据,测试与验证所述语言模型输出的中英文词语切词的准确性;
所述基于所述元器件语料库中已知的标注数据,定义元器件标识集,并构建基于自适应隐马尔可夫的初级切词模型包括:
S311、梳理所述元器件语料库中标注数据包含的已知单词的标注名称与数据类型,并匹配每个标注名称与数据类型,合并定义为元器件标注集;
S312、利用文本扫描器初步扫描输入的物料文本数据,统计所述物料文本数据中包含的中英文切换词段的数量,作为初验数值;
S313、创建初级切词模型,通过对比所述初验数值与预设数量阈值,自适应调度所述初级切词模型的切词模式,其中,所述初级切词模型包括一阶隐马尔可夫模型与二阶隐马尔可夫模型;
所述通过对比所述初验数值与预设数量阈值,自适应调度所述初级切词模型的切词模式包括:
S3131、对比所述初验数值与预设数量阈值的大小,若所述初验数值大于等于所述预设数量阈值,则转入步骤S3132,若所述初验数值小于所述预设数量阈值,则执行步骤S3133;
S3132、调用二阶隐马尔可夫模型对输入的物料文本数据进行切词,将字串分成单词序列,并执行步骤S3134;
S3133、调用一阶隐马尔可夫模型对输入的物料文本数据进行切词,将字串分成单词序列,并执行步骤S3134;
S3134、遍历所述单词序列,判断每个单词的数据类型是否存在所述元器件标注集中,若存在则执行步骤S3135,若不存在则执行步骤S3136;
S3135、查找单词的相邻上下单词,并记录该单词与上单词、下单词与元器件编号至元器件数组中,再执行步骤S3137;
S3136、将单词代入约束矩阵进行验证,若满足约束矩阵,则执行步骤S3137,若不满足约束矩阵,则记录并剔除相应的切词方式;
S3137、判断元器件数组是否完全遍历,若遍历结束,则结束分词,并输出分词结果,若未遍历结束,则返回步骤S3134;
所述采用数据蒸馏与模型压缩的方式,优化所述语言模型包括:
S41、设定完整的语言模型作为教师模型,再构建一个学生模型;
S42、将标注数据划分为训练数据集与测试训练集,利用所述训练数据集训练所述教师模型,再利用训练完毕的教师模型进行推理,生成软标签;
S43、将原始训练数据集与所述软标签结合,形成蒸馏训练数据,再利用所述蒸馏训练数据训练所述学生模型;
S44、利用所述测试训练集测试所述学生模型的性能,若满足要求,则保留学生模型作为优化后的语言模型,若不满足要求,则返回训练。
2.根据权利要求1所述的一种基于元器件行业的中英文混编文本的切词方法,其特征在于,所述基于语料相似度策略构建识别模型,匹配元器件的种类包括:
S321、获取所述初级切词模型成功切词后的单词,作为待匹配单词;
S322、建立待匹配单词与所述元器件语料库中已知单词之间的向量映射关系,用于将待匹配单词向量映射至语料库单词端,并统计所述语料库单词端与待匹配向量距离小于距离阈值的k个单词,作为近邻单词;
S323、基于设定的语料相似度策略,构建待匹配单词以及元器件的识别模型,优先计算每个所述待匹配单词与所述近邻单词之间的语料相似度;
S324、综合所有所述待匹配单词相似度最高的目标单词,分析所述物料文本数据对应的待匹配元器件的种类。
3.根据权利要求2所述的一种基于元器件行业的中英文混编文本的切词方法,其特征在于,所述优先计算每个所述待匹配单词与所述近邻单词之间的语料相似度包括:
S3231、计算所述待匹配单词向量与k个所述近邻单词之间的语料相似度,所述语料相似度的计算公式为:
式中,表示待匹配单词f与第k个近邻单词的语料相似度;
Se)表示待匹配单词在语料库单词端的近邻单词集合;
e表示待匹配单词在语料库单词端的映射向量;
e k表示第k个近邻单词;
S3232、提取所述待匹配单词与k个所述近邻单词中语料相似度最高的近邻单词,作为目标单词。
4.根据权利要求2所述的一种基于元器件行业的中英文混编文本的切词方法,其特征在于,所述综合所有所述待匹配单词相似度最高的目标单词,分析所述物料文本数据对应的待匹配元器件的种类包括:
S3241、统计所有所述目标单词对应的标注名称与数据类型;
S3242、在所述元器件语料库中筛选同时具备所有所述目标单词的标注名称的元器件种类,作为匹配合集;
S3243、按照所述待匹配单词中单词的顺序,对所述标注名称排序,再按照排序结果在所述匹配合集中筛选符合顺序要求的元器件种类,作为最终的待匹配元器件的种类。
5.根据权利要求1所述的一种基于元器件行业的中英文混编文本的切词方法,其特征在于,所述在所述元器件语料库中提取与已匹配元器件同种类的标注数据,形成切词参考集,并基于所述切词参考集,构建二级切词模型包括:
S331、获取元器件的匹配成功的种类,在所述元器件语料库中提取同种类元器件的标注数据,形成切词参考集;
S332、构建基于Transformer架构的二级切词模型,并利用所述切词参考集进行模型的训练与测试。
CN202410195634.0A 2024-02-22 2024-02-22 一种基于元器件行业的中英文混编文本的切词方法 Active CN117764069B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410195634.0A CN117764069B (zh) 2024-02-22 2024-02-22 一种基于元器件行业的中英文混编文本的切词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410195634.0A CN117764069B (zh) 2024-02-22 2024-02-22 一种基于元器件行业的中英文混编文本的切词方法

Publications (2)

Publication Number Publication Date
CN117764069A CN117764069A (zh) 2024-03-26
CN117764069B true CN117764069B (zh) 2024-05-07

Family

ID=90326167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410195634.0A Active CN117764069B (zh) 2024-02-22 2024-02-22 一种基于元器件行业的中英文混编文本的切词方法

Country Status (1)

Country Link
CN (1) CN117764069B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1687807B1 (en) * 2003-11-21 2016-03-16 Nuance Communications, Inc. Topic specific models for text formatting and speech recognition
CN111859960A (zh) * 2020-07-27 2020-10-30 中国平安人寿保险股份有限公司 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN112101014A (zh) * 2020-08-20 2020-12-18 淮阴工学院 一种混合特征融合的中文化工文献分词方法
CN112990296A (zh) * 2021-03-10 2021-06-18 中科人工智能创新技术研究院(青岛)有限公司 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
CN115455975A (zh) * 2022-05-18 2022-12-09 之江实验室 基于多模型融合决策提取主题关键词的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2531720A (en) * 2014-10-27 2016-05-04 Ibm Automatic question generation from natural text

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1687807B1 (en) * 2003-11-21 2016-03-16 Nuance Communications, Inc. Topic specific models for text formatting and speech recognition
CN111859960A (zh) * 2020-07-27 2020-10-30 中国平安人寿保险股份有限公司 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN112101014A (zh) * 2020-08-20 2020-12-18 淮阴工学院 一种混合特征融合的中文化工文献分词方法
CN112990296A (zh) * 2021-03-10 2021-06-18 中科人工智能创新技术研究院(青岛)有限公司 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
CN115455975A (zh) * 2022-05-18 2022-12-09 之江实验室 基于多模型融合决策提取主题关键词的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于条件随机场的地质矿产文本分词研究;陈婧汶;陈建国;王成彬;朱月琴;;中国矿业;20180915(第09期);全文 *

Also Published As

Publication number Publication date
CN117764069A (zh) 2024-03-26

Similar Documents

Publication Publication Date Title
CN110597735B (zh) 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法
CN111428071B (zh) 一种基于多模态特征合成的零样本跨模态检索方法
CN110727779A (zh) 基于多模型融合的问答方法及系统
CN111581961A (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
CN111695052A (zh) 标签分类方法、数据处理设备、可读存储介质
CN111464881B (zh) 基于自优化机制的全卷积视频描述生成方法
CN111274817A (zh) 一种基于自然语言处理技术的智能化软件成本度量方法
CN113035311A (zh) 一种基于多模态注意力机制的医学图像报告自动生成方法
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN117529755A (zh) 图像识别系统中的迁移学习
CN116414990B (zh) 一种车辆故障诊断与预防方法
CN114816997A (zh) 一种基于图神经网络与双向gru特征抽取的缺陷预测方法
CN113064995A (zh) 一种基于图深度学习的文本多标签分类方法和系统
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN110457450B (zh) 基于神经网络模型的答案生成方法及相关设备
CN114612702A (zh) 基于深度学习的图像数据标注系统及其方法
CN117435716A (zh) 电网人机交互终端的数据处理方法及系统
CN117764069B (zh) 一种基于元器件行业的中英文混编文本的切词方法
CN115618043B (zh) 文本操作图互检方法及模型训练方法、装置、设备、介质
CN116861269A (zh) 工程领域的多源异构数据融合及分析方法
CN115617975A (zh) 针对少样本多轮对话的意图识别方法及装置
CN115145928A (zh) 模型训练方法及装置、结构化摘要获取方法及装置
CN116090463A (zh) 一种名片信息抽取系统训练方法及装置、存储介质
CN113886602A (zh) 一种基于多粒度认知的领域知识库实体识别方法
CN114626378A (zh) 命名实体识别方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant