CN117764069A - 一种基于元器件行业的中英文混编文本的切词方法 - Google Patents
一种基于元器件行业的中英文混编文本的切词方法 Download PDFInfo
- Publication number
- CN117764069A CN117764069A CN202410195634.0A CN202410195634A CN117764069A CN 117764069 A CN117764069 A CN 117764069A CN 202410195634 A CN202410195634 A CN 202410195634A CN 117764069 A CN117764069 A CN 117764069A
- Authority
- CN
- China
- Prior art keywords
- word
- data
- model
- component
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 144
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000000463 material Substances 0.000 claims abstract description 82
- 238000012360 testing method Methods 0.000 claims abstract description 23
- 238000005520 cutting process Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000004821 distillation Methods 0.000 claims abstract description 12
- 230000006835 compression Effects 0.000 claims abstract description 6
- 238000007906 compression Methods 0.000 claims abstract description 6
- 238000004806 packaging method and process Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 36
- 238000002372 labelling Methods 0.000 claims description 33
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 10
- 238000009826 distribution Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于元器件行业的中英文混编文本的切词方法,涉及文本切词技术领域,该切词方法包括:S1、获取工业场景下的元器件文本数据,标注元器件文本数据中的中英文混编文本的切词边界,生成标注数据,并存储至元器件语料库;S2、采集不同种类元器件的物料清单数据,并进行数据预处理;S3、构建语言模型,并输入预处理后的物料清单数据进行模型测试;S4、采用数据蒸馏与模型压缩的方式,优化语言模型;S5、语言模型打包至可部署模块,接入元器件文本切词应用场景。本发明具备在专业领域中处理中英文混编文本的能力,为元器件行业提供了高效、准确的切词工具,提升了文本处理的效率和精度。
Description
技术领域
本发明涉及文本切词技术领域,尤其是涉及一种基于元器件行业的中英文混编文本的切词方法。
背景技术
在电子元器件行业,中英文混编的专业文本数据给切词任务带来了独特而复杂的挑战。传统的切词算法,如基于字典匹配、基于统计和基于深度学习的方法,以及常见的分词工具如jieba、spacy、hanlp等,往往在处理这类文本时效果不尽如人意。原因主要在于电子元器件物料规格命名的特殊性,其常采用中英文混合的方式,并且规则繁多,如“集成电路(MPS)”、“IC-APX809-26SAG-7”、“2SMD”、“15210802601000”等。
这些规格命名中融合了中英文,使得切词算法难以正确辨别中文与英文之间的边界。例如,“集成电路(MPS)”中,“集成电路”为中文,而“(MPS)”为英文缩写,传统的切词方法可能无法准确区分。此外,一些规格名称中存在数字、特殊字符,如“IC-APX809-26SAG-7”中的“26SAG-7”,更增加了切词的难度。
传统的中文分词工具如jieba和英文分词工具如spacy都面临着无法很好适应这种专业领域文本的问题。深度学习模型,包括BERT/ERNIE等,虽然在自然语言处理任务中表现出色,但同样面临着对于特殊领域、专业术语处理不足的困境,因为它们通常是在通用语料库上预训练而得到的。
因此,为了有效处理电子元器件行业的专业文本数据,切词算法可能需要结合领域知识,采用定制化的方法,包括利用领域内的专业词典、规则来增强切词模型,以更好地适应中英文混编、包含特殊字符和数字的规格命名方式。此外,对于电子元器件领域,可能需要考虑使用专门训练过的模型,提高对于专业术语的理解和切分准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种基于元器件行业的中英文混编文本的切词方法。
本发明提供了一种基于元器件行业的中英文混编文本的切词方法,该切词方法包括:
S1、获取工业场景下的元器件文本数据,标注元器件文本数据中的中英文混编文本的切词边界,生成标注数据,并存储至元器件语料库;
S2、采集不同种类元器件的物料清单数据,并进行数据预处理;
S3、构建语言模型,并输入预处理后的物料清单数据进行模型测试;
S4、采用数据蒸馏与模型压缩的方式,优化语言模型;
S5、语言模型打包至可部署模块,接入元器件文本切词应用场景。
进一步的,采集不同种类元器件的物料清单数据,并进行数据预处理包括:
S21、从不同种类的元器件中采集物料清单数据,其中,物料清单数据包括物料识别单数据与物料规格结构化数据;
S22、分别提取物料识别单数据与物料规格结构化数据中包含的元器件信息,并转换为文本格式的物料文本数据;
S23、清洗物料文本数据,并统一物料文本数据的类型与格式。
进一步的,构建语言模型,并输入预处理后的物料清单数据进行模型测试包括:
S31、基于元器件语料库中已知的标注数据,定义元器件标识集,并构建基于自适应隐马尔可夫的初级切词模型;
S32、基于语料相似度策略构建识别模型,匹配元器件的种类;
S33、在元器件语料库中提取与已匹配元器件同种类的标注数据,形成切词参考集,并基于切词参考集,构建二级切词模型;
S34、融合初级切词模型、识别模型及二级切词模型,形成用于元器件中英文混编文本切词的语言模型;
S35、向语言模型输入物料清单数据预处理后得到的物料文本数据,测试与验证语言模型输出的中英文词语切词的准确性。
进一步的,基于元器件语料库中已知的标注数据,定义元器件标识集,并构建基于自适应隐马尔可夫的初级切词模型包括:
S311、梳理元器件语料库中标注数据包含的已知单词的标注名称与数据类型,并匹配每个标注名称与数据类型,合并定义为元器件标注集;
S312、利用文本扫描器初步扫描输入的物料文本数据,统计物料文本数据中包含的中英文切换词段的数量,作为初验数值;
S313、创建初级切词模型,通过对比初验数值与预设数量阈值,自适应调度初级切词模型的切词模式,其中,初级切词模型包括一阶隐马尔可夫模型与二阶隐马尔可夫模型。
进一步的,通过对比初验数值与预设数量阈值,自适应调度初级切词模型的切词模式包括:
S3131、对比初验数值与预设数量阈值的大小,若初验数值大于等于预设数量阈值,则转入步骤S3132,若初验数值小于预设数量阈值,则执行步骤S3133;
S3132、调用二阶隐马尔可夫模型对输入的物料文本数据进行切词,将字串分成单词序列,并执行步骤S3134;
S3133、调用一阶隐马尔可夫模型对输入的物料文本数据进行切词,将字串分成单词序列,并执行步骤S3134;
S3134、遍历单词序列,判断每个单词的数据类型是否存在元器件标注集中,若存在则执行步骤S3135,若不存在则执行步骤S3136;
S3135、查找单词的相邻上下单词,并记录该单词与上单词、下单词与元器件编号至元器件数组中,再执行步骤S3138;
S3136、将单词代入约束矩阵进行验证,若满足约束矩阵,则执行步骤S3138,若不满足约束矩阵,则记录并剔除该切词方式;
S3137、判断元器件数组是否完全遍历,若遍历结束,则结束分词,并输出分词结果,若未遍历结束,则返回步骤S3134。
进一步的,基于语料相似度策略构建识别模型,匹配元器件的种类包括:
S321、获取初级切词模型成功切词后的单词,作为待匹配单词;
S322、建立待匹配单词与元器件语料库中已知单词之间的向量映射关系,用于将待匹配单词向量映射至语料库单词端,并统计语料库单词端与待匹配向量距离小于距离阈值的k个单词,作为近邻单词;
S323、基于设定的语料相似度策略,构建待匹配单词以及元器件的识别模型,优先计算每个待匹配单词与近邻单词之间的语料相似度;
S324、综合所有待匹配单词相似度最高的目标单词,分析物料文本数据对应的待匹配元器件的种类。
进一步的,优先计算每个待匹配单词与近邻单词之间的语料相似度包括:
S3231、计算待匹配单词向量与k个近邻单词之间的语料相似度,语料相似度的计算公式为:
;
式中,表示待匹配单词f与第k个近邻单词的语料相似度;S(e)表示待匹配单词在语料库单词端的近邻单词集合;e表示待匹配单词在语料库单词端的映射向量;e k表示第k个近邻单词;
S3232、提取待匹配单词与k个近邻单词中语料相似度最高的近邻单词,作为目标单词。
进一步的,综合所有待匹配单词相似度最高的目标单词,分析物料文本数据对应的待匹配元器件的种类包括:
S3241、统计所有目标单词对应的标注名称与数据类型;
S3242、在元器件语料库中筛选同时具备所有目标单词的标注名称的元器件种类,作为匹配合集;
S3243、按照待匹配单词中单词的顺序,对标注名称排序,再按照排序结果在匹配合集中筛选符合顺序要求的元器件种类,作为最终的待匹配元器件的种类。
进一步的,在元器件语料库中提取与已匹配元器件同种类的标注数据,形成切词参考集,并基于切词参考集,构建二级切词模型包括:
S331、获取元器件的匹配成功的种类,在元器件语料库中提取同种类元器件的标注数据,形成切词参考集;
S332、构建基于Transformer架构的二级切词模型,并利用切词参考集进行模型的训练与测试。
进一步的,采用数据蒸馏与模型压缩的方式,优化语言模型包括:
S41、设定完整的语言模型作为教师模型,再构建一个学生模型;
S42、将标注数据划分为训练数据集与测试训练集,利用训练数据集训练教师模型,再利用训练完毕的教师模型进行推理,生成软标签;
S43、将原始训练数据集与软标签结合,形成蒸馏训练数据,再利用蒸馏训练数据训练学生模型;
S44、利用测试训练集测试学生模型的性能,若满足要求,则保留学生模型作为优化后的语言模型,若不满足要求,则返回训练。
本发明的有益效果为:
1、通过工业场景下元器件文本数据的标注和存储,构建完备的元器件语料库,采集不同种类元器件的物料清单数据进行数据预处理,构建并优化语言模型,最终将优化后的语言模型打包成可部署模块,成功接入元器件文本切词应用场景,具备了在专业领域中处理中英文混编文本的能力,为元器件行业提供了高效、准确的切词工具,提升了文本处理的效率和精度。
2、通过构建切词-识别-切词的三层模型结构,实现了高效而精确的中英文混编文本切词方法;首先,在初级切词模型中,基于元器件语料库的标注数据,定义了元器件标识集,并构建了自适应隐马尔可夫模型,实现了对中英文混编文本的初步准确切分;其次,在识别模型的引入下,通过语料相似度策略,构建了用于匹配元器件种类的模型,为后续切词提供了更丰富的语境信息,提高了模型对元器件文本的理解和判断能力;通过在元器件语料库中提取切词参考集,构建了二级切词模型,以更精准地适应元器件行业中文混编文本的切词需求,从而具备了对于元器件行业专业文本的敏感性和强大适应性,为切词任务提供了高效、准确的解决方案。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种基于元器件行业的中英文混编文本的切词方法的流程图;
图2是根据本发明实施例的人工标注数据示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,提供了一种基于元器件行业的中英文混编文本的切词方法,该切词方法包括:
S1、获取工业场景下的元器件文本数据,标注元器件文本数据中的中英文混编文本的切词边界,生成标注数据,并存储至元器件语料库。
其中,从工业场景中收集包含元器件信息的文本数据,包括物料清单、规格说明等。利用人工或自动化工具,标注中英文混编文本的切词边界,确保准确标注每个词语的开始和结束位置,如图2所示。将标注的切词边界信息与原始文本结合,形成标注数据,其中记录了每个词语的边界及其对应的中英文标识。最终将生成的标注数据存储至元器件语料库中,建立一个结构化、可检索的数据库,以方便后续的模型训练和语言处理任务。
S2、采集不同种类元器件的物料清单数据,并进行数据预处理。
在本发明的描述中,采集不同种类元器件的物料清单数据,并进行数据预处理包括:
S21、从不同种类的元器件中采集物料清单数据,其中,物料清单数据包括物料识别单数据与物料规格结构化数据。
其中,物料识别单数据包括物料的名称、编号、描述、制造商信息以及数量单位等基本标识和基本信息,用于唯一标识和简要描述物料。
物料规格结构化数据则包括物料的技术参数、制造材料、性能特征、尺寸、重量等详细和结构化的技术特性,提供了全面了解和有效管理物料的信息。通过这两部分数据的结合,物料清单数据不仅能够标识和描述物料,还提供了丰富的技术详细信息,满足了对物料的全面管理需求。
S22、分别提取物料识别单数据与物料规格结构化数据中包含的元器件信息,并转换为文本格式的物料文本数据。
S23、清洗物料文本数据,并统一物料文本数据的类型与格式。
S3、构建语言模型,并输入预处理后的物料清单数据进行模型测试。
在本发明的描述中,构建语言模型,并输入预处理后的物料清单数据进行模型测试包括:
S31、基于元器件语料库中已知的标注数据,定义元器件标识集,并构建基于自适应隐马尔可夫的初级切词模型。
在本发明的描述中,基于元器件语料库中已知的标注数据,定义元器件标识集,并构建基于自适应隐马尔可夫的初级切词模型包括:
S311、梳理元器件语料库中标注数据包含的已知单词的标注名称与数据类型,并匹配每个标注名称与数据类型,合并定义为元器件标注集。
S312、利用文本扫描器初步扫描输入的物料文本数据,统计物料文本数据中包含的中英文切换词段的数量,作为初验数值。
利用文本扫描器初步扫描输入的物料文本数据,统计其中包含的中英文切换词段的数量,通过以下步骤进行:遍历物料文本数据,使用文本扫描器按照一定规则扫描文本内容。制定识别规则,识别文本中的中英文切换词段,涉及到中文字符和英文字符之间的切换点,例如标点符号、空格等。统计识别到的中英文切换词段的数量,作为初验数值。最终将统计结果输出,包括中英文切换词段的具体内容和数量。
S313、创建初级切词模型,通过对比初验数值与预设数量阈值,自适应调度初级切词模型的切词模式,其中,初级切词模型包括一阶隐马尔可夫模型与二阶隐马尔可夫模型。
在本发明的描述中,通过对比初验数值与预设数量阈值,自适应调度初级切词模型的切词模式包括:
S3131、对比初验数值与预设数量阈值的大小,若初验数值大于等于预设数量阈值,则转入步骤S3132,若初验数值小于预设数量阈值,则执行步骤S3133。
S3132、调用二阶隐马尔可夫模型对输入的物料文本数据进行切词,将字串分成单词序列,并执行步骤S3134。
其中,二阶隐马尔可夫模型(Second Order Hidden Markov Model,简称二阶HMM)是一种隐马尔可夫模型的变体,它考虑了更复杂的上下文关系和状态转移概率。在二阶HMM中,每个隐藏状态的转移概率不仅与当前状态有关,还与前一个状态有关,因此模型能够更好地捕捉序列数据中的长程依赖关系。
具体来说,二阶HMM包含以下要素:
隐藏状态(Hidden States):与一阶HMM类似,二阶HMM也有一组隐藏状态,每个隐藏状态表示模型在某个时刻的内部状态。
观测状态(Observation States):对应于具体观察到的数据,可以是文本中的单词、字母等。
初始概率分布(Initial Probability Distribution):描述模型在序列开始时各隐藏状态的概率分布。
状态转移概率矩阵(Transition Probability Matrix):描述从一个隐藏状态转移到另一个隐藏状态的概率分布。在二阶HMM中,这个矩阵考虑了当前状态和前一个状态之间的关系。
发射概率矩阵(Emission Probability Matrix):描述在每个隐藏状态下生成每个观测状态的概率分布。
S3133、调用一阶隐马尔可夫模型对输入的物料文本数据进行切词,将字串分成单词序列,并执行步骤S3134。
其中,一阶隐马尔可夫模型(First Order Hidden Markov Model,简称一阶HMM)是隐马尔可夫模型的一种基础形式。它是一种用于描述具有潜在未知状态的序列数据的概率模型。在一阶HMM中,假设系统的状态在时刻t只与前一个时刻t-1的状态有关,与更早时刻的状态无关。
S3134、遍历单词序列,判断每个单词的数据类型是否存在元器件标注集中,若存在则执行步骤S3135,若不存在则执行步骤S3136。
S3135、查找单词的相邻上下单词,并记录该单词与上单词、下单词与元器件编号至元器件数组中,再执行步骤S3138。
S3136、将单词代入约束矩阵进行验证,若满足约束矩阵,则执行步骤S3138,若不满足约束矩阵,则记录并剔除该切词方式。
S3137、判断元器件数组是否完全遍历,若遍历结束,则结束分词,并输出分词结果,若未遍历结束,则返回步骤S3134。
S32、基于语料相似度策略构建识别模型,匹配元器件的种类。
在本发明的描述中,基于语料相似度策略构建识别模型,匹配元器件的种类包括:
S321、获取初级切词模型成功切词后的单词,作为待匹配单词。
S322、建立待匹配单词与元器件语料库中已知单词之间的向量映射关系,用于将待匹配单词向量映射至语料库单词端,并统计语料库单词端与待匹配向量距离小于距离阈值的k个单词,作为近邻单词。
S323、基于设定的语料相似度策略,构建待匹配单词以及元器件的识别模型,优先计算每个待匹配单词与近邻单词之间的语料相似度。
在本发明的描述中,优先计算每个待匹配单词与近邻单词之间的语料相似度包括:
S3231、计算待匹配单词向量与k个近邻单词之间的语料相似度,语料相似度的计算公式为:
;
式中,表示待匹配单词f与第k个近邻单词的语料相似度,S(e)表示待匹配单词在语料库单词端的近邻单词集合,e表示待匹配单词在语料库单词端的映射向量,e k表示第k个近邻单词。
S3232、提取待匹配单词与k个近邻单词中语料相似度最高的近邻单词,作为目标单词。
S324、综合所有待匹配单词相似度最高的目标单词,分析物料文本数据对应的待匹配元器件的种类。
在本发明的描述中,综合所有待匹配单词相似度最高的目标单词,分析物料文本数据对应的待匹配元器件的种类包括:
S3241、统计所有目标单词对应的标注名称与数据类型。
S3242、在元器件语料库中筛选同时具备所有目标单词的标注名称的元器件种类,作为匹配合集。
S3243、按照待匹配单词中单词的顺序,对标注名称排序,再按照排序结果在匹配合集中筛选符合顺序要求的元器件种类,作为最终的待匹配元器件的种类。
S33、在元器件语料库中提取与已匹配元器件同种类的标注数据,形成切词参考集,并基于切词参考集,构建二级切词模型。
在本发明的描述中,在元器件语料库中提取与已匹配元器件同种类的标注数据,形成切词参考集,并基于切词参考集,构建二级切词模型包括:
S331、获取元器件的匹配成功的种类,在元器件语料库中提取同种类元器件的标注数据,形成切词参考集。
S332、构建基于Transformer架构的二级切词模型,并利用切词参考集进行模型的训练与测试。
利用Transformer架构,构建二级切词模型。Transformer是一种强大的深度学习模型,特别适用于序列转换任务,如文本生成和切词。
使用切词参考集进行模型的训练。在训练过程中,模型学习如何根据上下文信息准确地切分文本,并参考切词参考集的标注数据进行监督学习。
进行模型的测试,评估模型在新的文本数据上的切词性能。这可以通过与切词参考集中的标注数据进行比较来实现。
S34、融合初级切词模型、识别模型及二级切词模型,形成用于元器件中英文混编文本切词的语言模型。
S35、向语言模型输入物料清单数据预处理后得到的物料文本数据,测试与验证语言模型输出的中英文词语切词的准确性。
S4、采用数据蒸馏与模型压缩的方式,优化语言模型。
在本发明的描述中,采用数据蒸馏与模型压缩的方式,优化语言模型包括:
S41、设定完整的语言模型作为教师模型,再构建一个学生模型。
S42、将标注数据划分为训练数据集与测试训练集,利用训练数据集训练教师模型,再利用训练完毕的教师模型进行推理,生成软标签。
S43、将原始训练数据集与软标签结合,形成蒸馏训练数据,再利用蒸馏训练数据训练学生模型。
S44、利用测试训练集测试学生模型的性能,若满足要求,则保留学生模型作为优化后的语言模型,若不满足要求,则返回训练。
S5、语言模型打包至可部署模块,接入元器件文本切词应用场景。
其中,将融合后的语言模型导出为可部署的格式,包括将模型参数、权重以及必要的预处理步骤保存成一个文件或文件集。设计一个可以接收元器件文本输入并输出切词结果的部署模块。该模块应该包括模型加载、文本输入处理、切词输出等功能。在部署模块中集成加载融合后语言模型的功能,确保模型可以在部署环境中正确加载,准备接收输入数据。
实现将输入的元器件文本进行必要的预处理,以符合模型的输入要求。这可能包括分词、编码等步骤。将预处理后的文本输入送入加载的语言模型进行推理。获取切词结果。将模型推理得到的切词结果输出,使其能够在应用场景中使用。将设计好的部署模块嵌入到元器件文本切词应用场景中,包括将模块嵌入到一个软件应用程序、网络服务中,或者与其他系统进行集成。
综上所述,借助于本发明的上述技术方案,通过工业场景下元器件文本数据的标注和存储,构建完备的元器件语料库,采集不同种类元器件的物料清单数据进行数据预处理,构建并优化语言模型,最终将优化后的语言模型打包成可部署模块,成功接入元器件文本切词应用场景,具备了在专业领域中处理中英文混编文本的能力,为元器件行业提供了高效、准确的切词工具,提升了文本处理的效率和精度。通过构建切词-识别-切词的三层模型结构,实现了高效而精确的中英文混编文本切词方法;首先,在初级切词模型中,基于元器件语料库的标注数据,定义了元器件标识集,并构建了自适应隐马尔可夫模型,实现了对中英文混编文本的初步准确切分;其次,在识别模型的引入下,通过语料相似度策略,构建了用于匹配元器件种类的模型,为后续切词提供了更丰富的语境信息,提高了模型对元器件文本的理解和判断能力;通过在元器件语料库中提取切词参考集,构建了二级切词模型,以更精准地适应元器件行业中文混编文本的切词需求,从而具备了对于元器件行业专业文本的敏感性和强大适应性,为切词任务提供了高效、准确的解决方案。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
Claims (10)
1.一种基于元器件行业的中英文混编文本的切词方法,其特征在于,该切词方法包括:
S1、获取工业场景下的元器件文本数据,标注所述元器件文本数据中的中英文混编文本的切词边界,生成标注数据,并存储至元器件语料库;
S2、采集不同种类元器件的物料清单数据,并进行数据预处理;
S3、构建语言模型,并输入预处理后的物料清单数据进行模型测试;
S4、采用数据蒸馏与模型压缩的方式,优化所述语言模型;
S5、所述语言模型打包至可部署模块,接入元器件文本切词应用场景。
2.根据权利要求1所述的一种基于元器件行业的中英文混编文本的切词方法,其特征在于,所述采集不同种类元器件的物料清单数据,并进行数据预处理包括:
S21、从不同种类的元器件中采集物料清单数据,其中,所述物料清单数据包括物料识别单数据与物料规格结构化数据;
S22、分别提取所述物料识别单数据与所述物料规格结构化数据中包含的元器件信息,并转换为文本格式的物料文本数据;
S23、清洗所述物料文本数据,并统一所述物料文本数据的类型与格式。
3.根据权利要求1所述的一种基于元器件行业的中英文混编文本的切词方法,其特征在于,所述构建语言模型,并输入预处理后的物料清单数据进行模型测试包括:
S31、基于所述元器件语料库中已知的标注数据,定义元器件标识集,并构建基于自适应隐马尔可夫的初级切词模型;
S32、基于语料相似度策略构建识别模型,匹配元器件的种类;
S33、在所述元器件语料库中提取与已匹配元器件同种类的标注数据,形成切词参考集,并基于所述切词参考集,构建二级切词模型;
S34、融合所述初级切词模型、所述识别模型及所述二级切词模型,形成用于元器件中英文混编文本切词的语言模型;
S35、向所述语言模型输入所述物料清单数据预处理后得到的物料文本数据,测试与验证所述语言模型输出的中英文词语切词的准确性。
4.根据权利要求3所述的一种基于元器件行业的中英文混编文本的切词方法,其特征在于,所述基于所述元器件语料库中已知的标注数据,定义元器件标识集,并构建基于自适应隐马尔可夫的初级切词模型包括:
S311、梳理所述元器件语料库中标注数据包含的已知单词的标注名称与数据类型,并匹配每个标注名称与数据类型,合并定义为元器件标注集;
S312、利用文本扫描器初步扫描输入的物料文本数据,统计所述物料文本数据中包含的中英文切换词段的数量,作为初验数值;
S313、创建初级切词模型,通过对比所述初验数值与预设数量阈值,自适应调度所述初级切词模型的切词模式,其中,所述初级切词模型包括一阶隐马尔可夫模型与二阶隐马尔可夫模型。
5.根据权利要求4所述的一种基于元器件行业的中英文混编文本的切词方法,其特征在于,所述通过对比所述初验数值与预设数量阈值,自适应调度所述初级切词模型的切词模式包括:
S3131、对比所述初验数值与预设数量阈值的大小,若所述初验数值大于等于所述预设数量阈值,则转入步骤S3132,若所述初验数值小于所述预设数量阈值,则执行步骤S3133;
S3132、调用二阶隐马尔可夫模型对输入的物料文本数据进行切词,将字串分成单词序列,并执行步骤S3134;
S3133、调用一阶隐马尔可夫模型对输入的物料文本数据进行切词,将字串分成单词序列,并执行步骤S3134;
S3134、遍历所述单词序列,判断每个单词的数据类型是否存在所述元器件标注集中,若存在则执行步骤S3135,若不存在则执行步骤S3136;
S3135、查找单词的相邻上下单词,并记录该单词与上单词、下单词与元器件编号至元器件数组中,再执行步骤S3138;
S3136、将单词代入约束矩阵进行验证,若满足约束矩阵,则执行步骤S3138,若不满足约束矩阵,则记录并剔除该切词方式;
S3137、判断元器件数组是否完全遍历,若遍历结束,则结束分词,并输出分词结果,若未遍历结束,则返回步骤S3134。
6.根据权利要求4所述的一种基于元器件行业的中英文混编文本的切词方法,其特征在于,所述基于语料相似度策略构建识别模型,匹配元器件的种类包括:
S321、获取所述初级切词模型成功切词后的单词,作为待匹配单词;
S322、建立待匹配单词与所述元器件语料库中已知单词之间的向量映射关系,用于将待匹配单词向量映射至语料库单词端,并统计所述语料库单词端与待匹配向量距离小于距离阈值的k个单词,作为近邻单词;
S323、基于设定的语料相似度策略,构建待匹配单词以及元器件的识别模型,优先计算每个所述待匹配单词与所述近邻单词之间的语料相似度;
S324、综合所有所述待匹配单词相似度最高的目标单词,分析所述物料文本数据对应的待匹配元器件的种类。
7.根据权利要求6所述的一种基于元器件行业的中英文混编文本的切词方法,其特征在于,所述优先计算每个所述待匹配单词与所述近邻单词之间的语料相似度包括:
S3231、计算所述待匹配单词向量与k个所述近邻单词之间的语料相似度,所述语料相似度的计算公式为:
;
式中,表示待匹配单词f与第k个近邻单词的语料相似度;
S(e)表示待匹配单词在语料库单词端的近邻单词集合;
e表示待匹配单词在语料库单词端的映射向量;
e k表示第k个近邻单词;
S3232、提取所述待匹配单词与k个所述近邻单词中语料相似度最高的近邻单词,作为目标单词。
8.根据权利要求6所述的一种基于元器件行业的中英文混编文本的切词方法,其特征在于,所述综合所有所述待匹配单词相似度最高的目标单词,分析所述物料文本数据对应的待匹配元器件的种类包括:
S3241、统计所有所述目标单词对应的标注名称与数据类型;
S3242、在所述元器件语料库中筛选同时具备所有所述目标单词的标注名称的元器件种类,作为匹配合集;
S3243、按照所述待匹配单词中单词的顺序,对所述标注名称排序,再按照排序结果在所述匹配合集中筛选符合顺序要求的元器件种类,作为最终的待匹配元器件的种类。
9.根据权利要求4所述的一种基于元器件行业的中英文混编文本的切词方法,其特征在于,所述在所述元器件语料库中提取与已匹配元器件同种类的标注数据,形成切词参考集,并基于所述切词参考集,构建二级切词模型包括:
S331、获取元器件的匹配成功的种类,在所述元器件语料库中提取同种类元器件的标注数据,形成切词参考集;
S332、构建基于Transformer架构的二级切词模型,并利用所述切词参考集进行模型的训练与测试。
10.根据权利要求1所述的一种基于元器件行业的中英文混编文本的切词方法,其特征在于,所述采用数据蒸馏与模型压缩的方式,优化所述语言模型包括:
S41、设定完整的语言模型作为教师模型,再构建一个学生模型;
S42、将标注数据划分为训练数据集与测试训练集,利用所述训练数据集训练所述教师模型,再利用训练完毕的教师模型进行推理,生成软标签;
S43、将原始训练数据集与所述软标签结合,形成蒸馏训练数据,再利用所述蒸馏训练数据训练所述学生模型;
S44、利用所述测试训练集测试所述学生模型的性能,若满足要求,则保留学生模型作为优化后的语言模型,若不满足要求,则返回训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410195634.0A CN117764069B (zh) | 2024-02-22 | 2024-02-22 | 一种基于元器件行业的中英文混编文本的切词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410195634.0A CN117764069B (zh) | 2024-02-22 | 2024-02-22 | 一种基于元器件行业的中英文混编文本的切词方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117764069A true CN117764069A (zh) | 2024-03-26 |
CN117764069B CN117764069B (zh) | 2024-05-07 |
Family
ID=90326167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410195634.0A Active CN117764069B (zh) | 2024-02-22 | 2024-02-22 | 一种基于元器件行业的中英文混编文本的切词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117764069B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1687807B1 (en) * | 2003-11-21 | 2016-03-16 | Nuance Communications, Inc. | Topic specific models for text formatting and speech recognition |
US20160117314A1 (en) * | 2014-10-27 | 2016-04-28 | International Business Machines Corporation | Automatic Question Generation from Natural Text |
CN111859960A (zh) * | 2020-07-27 | 2020-10-30 | 中国平安人寿保险股份有限公司 | 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质 |
CN112101014A (zh) * | 2020-08-20 | 2020-12-18 | 淮阴工学院 | 一种混合特征融合的中文化工文献分词方法 |
CN112990296A (zh) * | 2021-03-10 | 2021-06-18 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统 |
CN115455975A (zh) * | 2022-05-18 | 2022-12-09 | 之江实验室 | 基于多模型融合决策提取主题关键词的方法及装置 |
-
2024
- 2024-02-22 CN CN202410195634.0A patent/CN117764069B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1687807B1 (en) * | 2003-11-21 | 2016-03-16 | Nuance Communications, Inc. | Topic specific models for text formatting and speech recognition |
US20160117314A1 (en) * | 2014-10-27 | 2016-04-28 | International Business Machines Corporation | Automatic Question Generation from Natural Text |
CN111859960A (zh) * | 2020-07-27 | 2020-10-30 | 中国平安人寿保险股份有限公司 | 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质 |
CN112101014A (zh) * | 2020-08-20 | 2020-12-18 | 淮阴工学院 | 一种混合特征融合的中文化工文献分词方法 |
CN112990296A (zh) * | 2021-03-10 | 2021-06-18 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统 |
CN115455975A (zh) * | 2022-05-18 | 2022-12-09 | 之江实验室 | 基于多模型融合决策提取主题关键词的方法及装置 |
Non-Patent Citations (1)
Title |
---|
陈婧汶;陈建国;王成彬;朱月琴;: "基于条件随机场的地质矿产文本分词研究", 中国矿业, no. 09, 15 September 2018 (2018-09-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN117764069B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428071A (zh) | 一种基于多模态特征合成的零样本跨模态检索方法 | |
CN113268609A (zh) | 基于知识图谱的对话内容推荐方法、装置、设备及介质 | |
CN116414990B (zh) | 一种车辆故障诊断与预防方法 | |
CN117529755A (zh) | 图像识别系统中的迁移学习 | |
CN113064995A (zh) | 一种基于图深度学习的文本多标签分类方法和系统 | |
CN111651668A (zh) | 用户画像的标签生成方法及装置、存储介质、终端 | |
CN114816997A (zh) | 一种基于图神经网络与双向gru特征抽取的缺陷预测方法 | |
CN111461175A (zh) | 自注意与协同注意机制的标签推荐模型构建方法及装置 | |
CN118312600B (zh) | 一种基于知识图谱与大语言模型的智能客服问答方法 | |
CN118260439A (zh) | 密集架系统的信息管理系统及方法 | |
CN117764069B (zh) | 一种基于元器件行业的中英文混编文本的切词方法 | |
CN117828142A (zh) | 基于多模态信息的问答方法、装置及其应用 | |
CN115618043B (zh) | 文本操作图互检方法及模型训练方法、装置、设备、介质 | |
CN115617975B (zh) | 针对少样本多轮对话的意图识别方法及装置 | |
CN116910190A (zh) | 多任务感知模型获取方法、装置、设备及可读存储介质 | |
CN116186223A (zh) | 一种金融文本处理方法、装置、设备和存储介质 | |
CN115797795A (zh) | 基于强化学习的遥感影像问答式检索系统及方法 | |
CN115712855A (zh) | 一种基于自学习的标签规则产生方法及装置 | |
CN114756617A (zh) | 一种工程档案结构化数据提取方法、系统、设备和存介质 | |
CN116090463A (zh) | 一种名片信息抽取系统训练方法及装置、存储介质 | |
CN113886602A (zh) | 一种基于多粒度认知的领域知识库实体识别方法 | |
CN112015939A (zh) | 一种基于图像中英文描述的电脑照片检索方法与系统 | |
CN111158640B (zh) | 一种基于深度学习的一对多需求分析识别方法 | |
CN117608565B (zh) | 基于屏幕截图分析的rpa中ai类组件推荐方法及系统 | |
CN117669493B (zh) | 基于显著性检测的智能图文排版方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |