CN117131375A - 英文缩写字符串的特征获取方法、装置、设备及存储介质 - Google Patents
英文缩写字符串的特征获取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117131375A CN117131375A CN202311107918.1A CN202311107918A CN117131375A CN 117131375 A CN117131375 A CN 117131375A CN 202311107918 A CN202311107918 A CN 202311107918A CN 117131375 A CN117131375 A CN 117131375A
- Authority
- CN
- China
- Prior art keywords
- word
- annotation
- character string
- matrix
- abbreviation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 239000011159 matrix material Substances 0.000 claims abstract description 183
- 239000013598 vector Substances 0.000 claims abstract description 107
- 230000011218 segmentation Effects 0.000 claims abstract description 99
- 230000015654 memory Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims 3
- 238000004590 computer program Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 8
- 238000002372 labelling Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 101150084844 PAFAH1B1 gene Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 101150006006 nudF gene Proteins 0.000 description 1
- 101150077839 pac1 gene Proteins 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种英文缩写字符串的特征获取方法、装置、设备及存储介质。该方法包括:获取非惯用缩写字符串矩阵和注释分词矩阵,注释分词矩阵的每一行中包括非惯用缩写字符串矩阵中对应行数的非惯用缩写字符串的中文释义,每一行中的注释分词属于同一条注释信息,非惯用缩写字符串矩阵和注释分词矩阵的行数和列数均为大于或等于1的整数;分别计算各非惯用缩写字符串与各注释分词之间的相关度,将相关度满足第一预设条件时的注释分词确定为对应非惯用缩写字符串的目标注释分词;根据各目标注释分词和预设词典确定各非惯用缩写字符串的嵌入向量。本申请的方法,降低了人工成本,且提高了获取英文缩写字符串的特征的效率。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种英文缩写字符串的特征获取方法、装置、设备及存储介质。
背景技术
在进行数据分级分类时,可以使用人工或者机器学习方式进行数据的分级分类处理。相同属性的数据集合为一个字段,当采用机器学习方式进行数据分级分类时,需要对字段进行特征构造。由于字段的命名中经常出现英文缩写的情况,因此,为了使特征构造更加准确,即英文缩写所表达的特征向量与其对应的原单词所表达的特征向量更接近,需要将英文缩写字符串还原为原单词(也可以称为英文全拼)。
一些实现中,通过人工标注的手段进行样本特征的标注,再将标注好的样本特征输入序列到序列(sequence to sequence,seq2seq)模型,供该seq2seq模型学习英文缩写字符串与原单词之间的映射关系,以便在seq2seq模训练好后,可以使用该模型计算待还原的英文缩写字符串的原单词。
然而,这样通过人工标注的手段获取样本特征的方法,人力成本较高且效率较低。
发明内容
本申请提供一种英文缩写字符串的特征获取方法、装置、设备及存储介质,用以解决人力成本较高且效率较低的技术问题。
第一方面,本申请提供一种英文缩写字符串的特征获取方法,包括:
获取非惯用缩写字符串矩阵和注释分词矩阵,注释分词矩阵的每一行中包括非惯用缩写字符串矩阵中对应行数的非惯用缩写字符串的中文释义,每一行中的注释分词属于同一条注释信息,非惯用缩写字符串矩阵和注释分词矩阵的行数和列数均为大于或等于1的整数;
分别计算各非惯用缩写字符串与各注释分词之间的相关度,将相关度满足第一预设条件时的注释分词确定为对应非惯用缩写字符串的目标注释分词;
根据各目标注释分词和预设词典确定各非惯用缩写字符串的嵌入向量。
在一种可能的实现方式中,相关度包括概率,分别计算各非惯用缩写字符串与各注释分词之间的相关度,将相关度满足第一预设条件时的注释分词确定为对应非惯用缩写字符串的目标注释分词,包括:
针对任一注释分词,分别计算各非惯用缩写字符串与注释分词共同出现的概率;非惯用缩写字符串与注释分词共同出现为:注释分词所在矩阵行数与非惯用缩写字符串所在矩阵行数相等;
将注释分词确定为概率最大时对应的非惯用缩写字符串的目标注释分词。
在一种可能的实现方式中,针对任一注释分词,分别计算各非惯用缩写字符串与注释分词共同出现的概率,包括:
根据非惯用缩写字符串矩阵和注释分词矩阵建立共现矩阵,共现矩阵中包括任一注释分词与任一非惯用缩写字符串共同出现的次数,且共现矩阵中每一行的次数对应的注释分词相同,每一行的次数对应的非惯用缩写字符串不同,每一列的次数对应的非惯用缩写字符串相同,每一列的次数对应的注释分词不同;
针对任一注释分词,根据共现矩阵分别计算各非惯用缩写字符串与注释分词共同出现的概率。
在一种可能的实现方式中,根据各目标注释分词和预设词典确定各非惯用缩写字符串的嵌入向量,包括:
针对非惯用缩写字符串矩阵中的任一非惯用缩写字符串,将第一预设词典中满足第二预设条件的英文单词加入第一列表;
将第一列表中满足第三预设条件的英文单词加入第二列表,第三预设条件为:英文单词在第一预设词典中对应的中文单词包括非惯用缩写字符串的目标注释分词;
通过第二预设词典查询第二列表中各英文单词的嵌入向量,将各英文单词的嵌入向量的均值确定为非惯用缩写字符串的嵌入向量。
在一种可能的实现方式中,第二预设条件为:英文单词开头与非惯用缩写字符串相同。
在一种可能的实现方式中,获取非惯用缩写字符串矩阵,包括:
获取至少一个字段,每个字段包括至少一个字符串和至少一个第一预设符号;
针对任一字段,根据第一预设符号对字段进行分词,得到第三列表,第三列表中包括字段中的字符串;
通过第二预设词典查询第三列表中各字符串的嵌入向量,得到字段的第一向量;
将第三列表中未被查询到的字符串确定为缩写字符串,通过第三预设词典查询各缩写字符串的原单词,将未查询到原单词的缩写字符串确定为非惯用缩写字符串,并将非惯用缩写字符串加入第四列表;
通过各字段对应的第四列表得到非惯用缩写字符串矩阵。
在一种可能的实现方式中,在通过第三预设词典查询各缩写字符串的原单词之后,方法还包括:
若原单词中包括第二预设符号,则根据第二预设符号对原单词进行分词,得到第五列表,第五列表中包括原单词中的多个英文分词;
通过第二预设词典查询原单词中各英文分词的嵌入向量,并计算各英文分词的嵌入向量的平均值,得到字段的第二向量。
第二方面,本申请提供一种英文缩写字符串的特征获取装置,包括:获取模块,计算模块和确定模块,其中,
获取模块,用于获取非惯用缩写字符串矩阵和注释分词矩阵,注释分词矩阵的每一行中包括非惯用缩写字符串矩阵中对应行数的非惯用缩写字符串的中文释义,每一行中的注释分词属于同一条注释信息,非惯用缩写字符串矩阵和注释分词矩阵的行数和列数均为大于或等于1的整数;
计算模块,用于分别计算各非惯用缩写字符串与各注释分词之间的相关度,将相关度满足第一预设条件时的注释分词确定为对应非惯用缩写字符串的目标注释分词;
确定模块,用于根据各目标注释分词和预设词典确定各非惯用缩写字符串的嵌入向量。
在一种可能的实现方式中,相关度包括概率,计算模块,具体用于:
针对任一注释分词,分别计算各非惯用缩写字符串与注释分词共同出现的概率;非惯用缩写字符串与注释分词共同出现为:注释分词所在矩阵行数与非惯用缩写字符串所在矩阵行数相等;
将注释分词确定为概率最大时对应的非惯用缩写字符串的目标注释分词。
在一种可能的实现方式中,计算模块,具体用于:
根据非惯用缩写字符串矩阵和注释分词矩阵建立共现矩阵,共现矩阵中包括任一注释分词与任一非惯用缩写字符串共同出现的次数,且共现矩阵中每一行的次数对应的注释分词相同,每一行的次数对应的非惯用缩写字符串不同,每一列的次数对应的非惯用缩写字符串相同,每一列的次数对应的注释分词不同;
针对任一注释分词,根据共现矩阵分别计算各非惯用缩写字符串与注释分词共同出现的概率。
在一种可能的实现方式中,确定模块,具体用于:
针对非惯用缩写字符串矩阵中的任一非惯用缩写字符串,将第一预设词典中满足第二预设条件的英文单词加入第一列表;
将第一列表中满足第三预设条件的英文单词加入第二列表,第三预设条件为:英文单词在第一预设词典中对应的中文单词包括非惯用缩写字符串的目标注释分词;
通过第二预设词典查询第二列表中各英文单词的嵌入向量,将各英文单词的嵌入向量的均值确定为非惯用缩写字符串的嵌入向量。
在一种可能的实现方式中,第二预设条件为:英文单词开头与非惯用缩写字符串相同。
在一种可能的实现方式中,获取模块,具体用于:
获取至少一个字段,每个字段包括至少一个字符串和至少一个第一预设符号;
针对任一字段,根据第一预设符号对字段进行分词,得到第三列表,第三列表中包括字段中的字符串;
通过第二预设词典查询第三列表中各字符串的嵌入向量,得到字段的第一向量;
将第三列表中未被查询到的字符串确定为缩写字符串,通过第三预设词典查询各缩写字符串的原单词,将未查询到原单词的缩写字符串确定为非惯用缩写字符串,并将非惯用缩写字符串加入第四列表;
通过各字段对应的第四列表得到非惯用缩写字符串矩阵。
在一种可能的实现方式中,该装置还包括:
分词模块,用于若原单词中包括第二预设符号,则根据第二预设符号对原单词进行分词,得到第五列表,第五列表中包括原单词中的多个英文分词;
查询模块,用于通过第二预设词典查询原单词中各英文分词的嵌入向量,并计算各英文分词的嵌入向量的平均值,得到字段的第二向量。
第三方面,本申请提供一种电子设备,包括:处理器、存储器;
存储器存储计算机执行指令;
处理器执行存储器存储的计算机执行指令,使得处理器执行如第一方面描述的英文缩写字符串的特征获取方法。
第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当计算机执行指令被处理器执行时用于实现如第一方面描述的英文缩写字符串的特征获取方法。
第五方面,本申请提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面描述的英文缩写字符串的特征获取方法。
第六方面,本申请提供一种芯片,芯片上存储有计算机程序,计算机程序被芯片执行时,实现如第一方面或第二方面描述的英文缩写字符串的特征获取方法。
在一种可能的实现方式中,芯片为芯片模组中的芯片。
本申请提供的英文缩写字符串的特征获取方法、装置、设备及存储介质,该方法通过获取非惯用缩写字符串矩阵和注释分词矩阵,注释分词矩阵的每一行中包括非惯用缩写字符串矩阵中对应行数的非惯用缩写字符串的中文释义,每一行中的注释分词属于同一条注释信息,非惯用缩写字符串矩阵和注释分词矩阵的行数和列数均为大于或等于1的整数;分别计算各非惯用缩写字符串与各注释分词之间的相关度,将相关度满足第一预设条件时的注释分词确定为对应非惯用缩写字符串的目标注释分词;根据各目标注释分词和预设词典确定各非惯用缩写字符串的嵌入向量。也就是通过确定非惯用英文缩写词字符串的目标注释分词,再结合目标注释分词和预设词典确定非惯用缩写词字符串的嵌入向量,该嵌入向量可以作为后续训练模型的样本特征,这样从未标记、未分类的数据中获取样本特征的无监督过程,不需要人工标注样本特征,从而可以降低人力成本,同时还可以提高获取样本特征的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例所适用的场景示意图;
图2为本申请实施例提供的一种英文缩写字符串的特征获取方法的流程示意图;
图3为本申请实施例提供的一种获取非惯用缩写字符串矩阵的流程示意图;
图4为本申请实施例提供的一种英文缩写字符串的特征获取装置的结构示意图;
图5为本申请实施例提供的一种电子设备的硬件结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
在数据管理领域,为了使数据满足合规要求、满足企业发展需求,也为了提升数据的使用价值、减少数据安全风险,企业需要对数据进行分级分类处理。在进行数据分级分类时,可以使用人工或者机器学习方式进行数据的分级分类处理。相同属性的数据集合为一个字段,当采用机器学习方式进行数据分级分类时,需要对字段进行特征构造。
特征构造意味着从现有的数据中构造额外特征,这些特征通常分布在多张相关的表中。特征构造需要从数据中提取相关信息并将其存入单张表格中,然后被用来训练机器学习模型。
由于字段的命名中经常出现英文缩写的情况,因此,为了使特征构造更加准确,即英文缩写所表达的特征向量与其对应的原单词(也可以称为英文全拼)所表达的特征向量更接近,需要将英文缩写字符串还原为原单词。
一些实现中,构建缩写还原词典,在语义分析时以词典中的相应语义为基础进行缩写语义消歧,并根据词典确定英文缩写字符串和其原单词之间的映射关系,这对于比较固定的、惯用的、约定俗成的表达是有用的。例如惯用的英文缩写字符串“app”,一般可以认为该英文缩写字符串指“应用”,其原单词为“application”。
但是,基于词典的方法存在如下两个问题:首先,因为数据库是不断更新的,所以不断有新词出现需要标注,所以需要不断的对词典进行维护,费时费力,且由于语言表现形式的快速演化,其完整性无法保证;其次,仅能处理一些经常出现,被广泛认可的英文缩写字符串,对用户根据个人意愿随机给出的缩写则无法处理。例如由于不同用户的命名习惯不同,一些英文缩写字符串不是固定表达,只是原单词的最大公因子序列,故基于缩写还原词典进行缩写字符串还原时准确率较低。
另一些实现中,通过人工标注的手段进行样本特征的标注,例如将“AI”标注为“artificial intelligence”,再将标注好的样本特征输入序列到序列(sequence tosequence,seq2seq)模型,供该seq2seq模型学习英文缩写字符串与原单词之间的映射关系,以便在seq2seq模训练好后,可以使用该模型计算待还原的英文缩写字符串的原单词。这样通过标注的样本特征训练机器学习的模型,调整模型的参数,可以使采用训练好的模型计算得到的原单词更准确,也就是可以提升英文缩写字符串的还原准确率。
然而,该模型的样本特征是通过人工标注的手段得到,而为了使通过样本特征训练的英文缩写字符串还原模型更加准确,样本特征的数量一般是越多越好,但样本特征的数量越多,消耗的人力成本、时间成本也就越多,因此,这样通过人工标注的手段获取样本特征的方法,人力成本较高且获取样本特征的效率较低。
有鉴于此,本申请实施例提供一种英文缩写字符串的特征获取方法,该方法通过确定非惯用英文缩写词字符串最相关的注释分词,再结合最相关的注释分词和预设词典确定非惯用缩写词字符串的嵌入向量,该嵌入向量可以作为后续训练模型的样本特征,这样从未标记、未分类的数据中获取样本特征的无监督过程,不需要人工标注样本特征,从而可以降低人力成本,同时还可以提高获取样本特征的效率。
示例性的,图1为本申请实施例所适用的场景示意图。如图1所示,该场景中可以包括服务器,服务器中可以包括至少一个数据库和多个预设词典。
数据库中可以包括多个字段和多条注释信息,每个字段对应有自已的注释信息,每一条注释信息可以包括对应字段的多个注释分词。每个字段可以包括至少一个英文缩写字符串,各英文缩写字符串之间通过下划线“_”隔开。示例性的,字段的表现形式例如可以是“user_id”、“field_id_json”、“nlp_name”等。
本申请实施例中,英文缩写字符串包括惯用缩写字符串和非惯用缩写字符串。其中,惯用缩写字符串(也可以称为惯用英文缩写字符串)可以是经常出现、被广泛认可的、比较固定的、惯用的、约定俗成的英文缩写字符串;非惯用缩写字符串(也可以称为非惯用英文缩写字符串)可以是非固定表达的、用户根据个人意愿随机给出的英文缩写字符串。
预设词典可以由数据维护人员整理后存储在该服务器中。预设词典可以包括用于查询英文单词的中文释义的英汉词典(第一预设词典),用于查询惯用缩写字符串和英文单词的嵌入(embedding)向量的词典(第二预设词典),以及用于查询惯用缩写字符串的原单词的词典(第三预设词典)。
针对非惯用缩写字符串,服务器可以通过本申请实施例提供的英文缩写字符串的特征获取方法获取其嵌入向量。
示例性的,该英文缩写字符串的特征获取方法可以包括:获取非惯用缩写字符串矩阵和注释分词矩阵,注释分词矩阵的每一行中包括非惯用缩写字符串矩阵中对应行数的非惯用缩写字符串的中文释义,每一行中的注释分词属于同一条注释信息,非惯用缩写字符串矩阵和注释分词矩阵的行数和列数均为大于或等于1的整数;分别计算各非惯用缩写字符串与各注释分词之间的相关度,将相关度满足第一预设条件时的注释分词确定为对应非惯用缩写字符串的目标注释分词;根据各目标注释分词和预设词典确定各非惯用缩写字符串的嵌入向量。该嵌入向量可以作为后续训练模型的样本特征,这样从未标记、未分类的数据中获取样本特征的无监督过程,不需要人工去标注样本特征,因此可以降低人力成本,同时还可以提高获取样本特征的效率。
另外,本申请实施例描述的场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请实施例提供的一种英文缩写字符串的特征获取方法的流程示意图。该方法可以应用于图1中的服务器,具体执行主体可以根据实际应用场景确定。如图2所示,该方法可以包括:
S201:获取非惯用缩写字符串矩阵和注释分词矩阵,注释分词矩阵的每一行中包括非惯用缩写字符串矩阵中对应行数的非惯用缩写字符串的中文释义,每一行中的注释分词属于同一条注释信息,非惯用缩写字符串矩阵和注释分词矩阵的行数和列数均为大于或等于1的整数。
本申请实施例中,注释分词矩阵中每一行为一条注释信息,例如第二行为数据库中第二条注释信息,一行中的每个元素为该条注释信息的注释分词。一条注释信息用于解释一个字段,或者也可以说一条注释信息为一个字段的中文释义,因此,各注释分词可以理解为是对应字段中各缩写字符串的中文释义。也就是说,注释分词矩阵的任一行中可以包括一个字段的非惯用缩写字符串的中文释义和惯用缩写字符串的中文释义,且该字段在非惯用缩写字符串矩阵中对应的行数与该中文释义在注释分词矩阵中的行数相等。
注释分词矩阵的行数与注释信息的条数相同,所有注释信息中,若第i条注释信息中的注释分词的数量最多,则该条注释信息中的注释分词的数量即为注释分词矩阵的列数。其余注释信息中的注释分词的数量没有达到该列数的,可以用0补位,从而得到注释分词矩阵。当然也可以采用其他可以用于占位的数字、字符等来补位。
可能的实现中,通过分词工具进行分词。分词工具例如可以包括jieba、PKUseg、THULAC、SnowNLP、HanLP等。示例性的,对三条注释信息分词后得到的注释分词矩阵可以如:
每一行为一条注释信息,一条注释信息对应一个字段。“0”用于补位,使得注释分词矩阵每一行的元素个数相同。
类似的,所有字段中,若某一字段中的非惯用缩写字符串的数量最多,则该字段中的非惯用缩写字符串的数量即为非惯用缩写字符串矩阵的列数。其余字段中的非惯用缩写字符串的数量没有达到该列数的,可以用0补位,从而得到非惯用缩写字符串矩阵。
示例性的,非惯用缩写字符串矩阵可以如:
其中,非惯用缩写字符串ab和la属于同一字段(字段一),sw属于另一字段(字段二),fi、st和na属于另一字段(字段三),“0”用于补位,使得非惯用缩写字符串矩阵每一行的元素个数相同。
本申请实施例中,非惯用缩写字符串矩阵和注释分词矩阵的行数相同。若某一个或多个字段中不存在非惯用缩写字符串,则非惯用缩写字符串矩阵中这些字段对应的行数中的各元素可以为0,当然也可以是其他可以用于占位的数字、字符等,只要使得非惯用缩写字符串矩阵和注释分词矩阵的行数相同即可。
可能的实现中,分别对每一个字段和每一条注释信息进行分词处理,得到各字段的非惯用缩写字符串列表和各注释信息的注释分词列表,通过各字段的非惯用缩写字符串列表得到非惯用缩写字符串矩阵,通过各注释信息的注释分词列表得到注释分词矩阵。
S202:分别计算各非惯用缩写字符串与各注释分词之间的相关度,将相关度满足第一预设条件时的注释分词确定为对应非惯用缩写字符串的目标注释分词。
本申请实施例中,非惯用缩写字符串与注释分词之间的相关度满足第一预设条件可以包括:注释分词中与非惯用缩写字符串的中文释义最相关的注释分词,或者在注释分词中与非惯用缩写字符串的中文释义较相关的多个注释分词中任选一个。
或者可以理解为,非惯用缩写字符串的目标注释分词,为注释分词中与该非惯用缩写字符串的中文释义最相关的注释分词,或者,非惯用缩写字符串的目标注释分词,为注释分词中与非惯用缩写字符串的中文释义较相关的多个注释分词中的任一个。
可能的实现中,通过计算各非惯用缩写字符串和各注释分词共同出现的次数,或者共同出现的概率来计算各非惯用缩写字符串与各注释分词之间的相关度。某一非惯用缩写字符串和某一注释分词共同出现的次数越多或者概率越大,表示该非惯用缩写字符串和该注释分词的相关度越大。
S203:根据各目标注释分词和预设词典确定各非惯用缩写字符串的嵌入向量。
本申请实施例中,嵌入向量也可以称为特征向量或者词向量,嵌入向量用于表征相应对象的某些特征,嵌入向量之间的距离反映了对象之间的相似性。嵌入向量可以作为后续训练模型的样本特征。
一种可能的实现中,通过查询预设词典中中文释义与目标注释分词最接近的至少一个原单词,进而根据该至少一个原单词确定该目标注释分词对应的非惯用缩写字符串的嵌入向量。各非惯用缩写字符串的嵌入向量的平均值可以作为后续模型训练的样本特征。
另一种可能的实现中,通过查询预设词典,筛选出非惯用缩写字符串对应的可能的原单词,再确定可能的原单词中中文释义与目标注释分词最接近的至少一个原单词,进而根据该至少一个原单词确定该目标注释分词对应的非惯用缩写字符串的嵌入向量。
本申请实施例中,通过获取非惯用缩写字符串矩阵和注释分词矩阵,注释分词矩阵的每一行中包括非惯用缩写字符串矩阵中对应行数的非惯用缩写字符串的中文释义,每一行中的注释分词属于同一条注释信息,非惯用缩写字符串矩阵和注释分词矩阵的行数和列数均为大于或等于1的整数;分别计算各非惯用缩写字符串与各注释分词之间的相关度,将相关度满足第一预设条件时的注释分词确定为对应非惯用缩写字符串的目标注释分词;根据各目标注释分词和预设词典确定各非惯用缩写字符串的嵌入向量。也就是通过确定非惯用英文缩写词字符串的目标注释分词,再结合目标注释分词和预设词典确定非惯用缩写词字符串的嵌入向量,该嵌入向量可以作为后续训练模型的样本特征,这样从未标记、未分类的数据中获取样本特征的无监督过程,不需要人工标注样本特征,从而可以降低人力成本,同时还可以提高获取样本特征的效率。
基于上述介绍可以确定的是,非惯用缩写词字符串的嵌入向量基于非惯用缩写词字符串的目标注释分词得到,而目标注释分词基于非惯用缩写字符串矩阵和注释分词矩阵得到,因此需要先获取非惯用缩写字符串矩阵和注释分词矩阵。上述实施例已介绍过获取注释分词矩阵的具体实现介绍,下面对获取非惯用缩写字符串矩阵的具体实现进行介绍。
示例性的,请参见图3,图3为本申请实施例提供的一种获取非惯用缩写字符串矩阵的流程示意图。该方法可以应用于图1中的服务器,具体执行主体可以根据实际应用场景确定。如图3所示,该方法可以包括:
S301:获取至少一个字段,每个字段包括至少一个字符串和至少一个第一预设符号。
其中,字符串可以包括缩写字符串和非缩写字符串(也就是原单词或者英文全拼)。第一预设符号可以是用于将字段中各字符串隔开的分隔符,示例性的,第一预设符号例如可以是下划线“_”符号。示例性的,字段例如可以是“nlp_update”,其中,“nlp”为缩写字符串,“update”为非缩写字符串。
S302:针对任一字段,根据第一预设符号对字段进行分词,得到第三列表,第三列表中包括字段中的字符串。
示例性的,假设字段为“merchants_admin_id”则根据第一预设符号对字段进行分词后得到的第三列表为{merchants,admin,id}。假设一个字段中包括n个字符串,该字段的第三列表可以表示为:list1={str1,str2…strn},其中,“list1”表示第三列表,“str”表示字段中的字符串。
S303:通过第二预设词典查询第三列表中各字符串的嵌入向量,得到字段的第一向量。
本申请实施例中,第二预设词典的内容格式可以表示为:dic1={word1:embedding1,word2:embedding2…wordn:embeddingn},其中,“word”表示原单词或者说英文全拼,“embedding”表示“word”的嵌入向量,“word”的嵌入向量可以通过word2vec、glove等方法计算得到。
通过第二预设词典查询第三列表中各字符串,也就是通过第二预设词典查询list1中的每一个元素。list1中的元素与第二预设词典中的原单词对应,若第二预设词典中存在与某元素相同的原单词,则将第二预设词典中该原单词对应的嵌入向量作为list1对应字段的第一向量。
可以理解的是,多个字段对应多个第三列表,或者也可以理解为各字段对应各自的list1。
需要说明的是,若第二预设词典中存在与list1中的多个元素相同的多个原单词时,则可以将第二预设词典中该多个原单词各自对应的嵌入向量均作为list1对应字段的第一向量。
S304:将第三列表中未被查询到的字符串确定为缩写字符串,通过第三预设词典查询各缩写字符串的原单词,将未查询到原单词的缩写字符串确定为非惯用缩写字符串,并将非惯用缩写字符串加入第四列表。
本申请实施例中,第三预设词典的内容格式可以表示为:dic2={abbr1:word1,abbr2:word2…abbrn:wordn},其中,“abbr”表示缩写字符串,“word”表示原单词或者说英文全拼。例如,“nlp”为缩写字符串,“natural language processing”表示“nlp”的原单词或者说英文全拼。
本申请实施例中,第二预设词典为原单词-嵌入向量词典,因此,可以将第三列表中未被第二预设词典查询到的字符串确定为缩写字符串。第三预设词典为缩写字符串-原单词词典,因此,可以通过第三预设词典查询第三列表中的缩写字符串的原单词。
可能的实现中,若第三预设词典中存在各缩写字符串,则通过第三预设词典查询可以得到各缩写字符串的原单词,进一步的,通过第二预设词典查询各缩写字符串的原单词,得到各原单词对应的嵌入向量,将该嵌入向量作为缩写字符串所属字段的第二向量。
示例性的,假设某一字段的第三列表为{merchants,admin,id,app},其中,“merchants”和“admin”为原单词或者说英文全拼,可以通过第二预设词典查询其嵌入向量,得到两个第一向量;“id”和“app”为缩写字符串,可以通过第三预设词典查询得到其原单词分别为“identity”和“application”。进一步的,通过第二预设词典查询“identity”和“application”,得到“identity”和“application”各自对应的嵌入向量,将这两个嵌入向量作为“id”和“app”所属字段的第二向量。
可能的实现中,通过第三预设词典查询第三列表中的缩写字符串时,若某一个或多个缩写字符串未被第三预设词典查询到,或者说第三预设词典中不存在某一个或多个缩写字符串,则将该一个或多个缩写字符串确定为非惯用缩写字符串,并将非惯用缩写字符串加入第四列表。非惯用缩写字符串可以理解为是既不存在于第二预设词典也不存在于第三预设词典的缩写字符串,或者说是既不能通过第二预设词典查询到也不能通过第三预设词典查询到的缩写字符串。
示例性的,假设某一字段的第三列表为{merchants,admin,id,ab,st,fl},并假设其中的“ab”、“st”和“fl”为非惯用缩写字符串,即“ab”、“st”和“fl”既不存在于第二预设词典也不存在于第三预设词典。因此,该字段的第四列表为{ab,st,fl}。假设一个字段中包括m个非惯用缩写字符串,该字段的第四列表可以表示为: 其中,“list2”表示第四列表,“abbr_str”表示字段中的非惯用缩写字符串,m为该字段中的非惯用缩写字符串的数量。
可以理解的是,一个字段中的字符串可以包括缩写字符串和/或非缩写字符串,缩写字符串可以包括惯用缩写字符串和/或非惯用缩写字符串,因此针对同一个字段,其对应的第三列表中的字符串个数大于或等于第四列表中的字符串个数。
可选的,在通过第三预设词典查询第三列表中的缩写字符串后,若查询缩写字符串得到的原单词中包括第二预设符号,则根据第二预设符号对原单词进行分词,得到第五列表,第五列表中包括原单词中的多个英文分词;通过第二预设词典查询原单词中各英文分词的嵌入向量,并计算各英文分词的嵌入向量的平均值,得到字段的第二向量。
本申请实施例中,第二预设符号可以用于将原单词中存在的多个英文分词隔开,示例性的,第二预设符号可以为空格。
本申请实施例中,英文分词是英文全拼,英文分词可以理解为是不包括第二预设符号的原单词,或者可以说,当原单词中不存在第二预设符号时,该原单词的英文分词即是该原单词。例如当原单词为“user”时,该原单词中不存在第二预设符号,因此,该原单词与原单词的英文分词均为“user”。
假设一个原单词中包括n个英文分词,该原单词对应的第五列表可以表示为:list3={word1,word2…wordn},其中,“list3”表示第五列表,“word”表示原单词中的英文分词。
示例性的,假设某一字段的第三列表中的缩写字符串包括“nlp”,通过第三预设词典查询得到其原单词为“natural language processing”,该原单词中存在空格(第二预设符号),则可以理解为该原单词为一个词组,根据空格对该原单词进行分词后,得到第五列表为{natural,language,processing},其中,“natural”、“language”、“processing”均为原单词“natural language processing”的英文分词。由于这些英文分词是从缩写字符串-原单词词典(第三预设词典)中获取的,因此可以通过原单词-嵌入向量词典(第二预设词典)查询原单词中各英文分词的嵌入向量,并计算各英文分词的嵌入向量的平均值,得到所属字段的第二向量。
S305:通过各字段对应的第四列表得到非惯用缩写字符串矩阵。
示例性的,假设数据库中共有n个字段,且每个字段中均包括非惯用缩写字符串,则通过各字段对应的第四列表得到的非惯用缩写字符串矩阵可以为:
其中,abbr_str_matrix表示非惯用缩写字符串矩阵,n为字段个数,m、j、k分别为对应字段中的非惯用缩写字符串数量,m、j、k的值可以相同,当m、j、k的值不同时,可以用0补位,使得该矩阵中每一行的元素个数相同。例如假设数据库中包括字段1和字段2两个字段,其中,字段1的第四列表list2为{ab,st,fl},字段2的第四列表list2为{re,ne},则此时的非惯用缩写字符串矩阵可以为:
类似的,假设数据库中共有n个字段,则对应有n条注释信息,则通过分词工具分词后的注释分词矩阵可以表示为:
其中,anno_word_matrix表示非惯用缩写字符串矩阵,n为注释信息条数,x、y、z分别为对应注释信息中的注释分词数量,x、y、z的值可以相同,当x、y、z的值不同时,可以用0补位,使得该矩阵中每一行的元素个数相同。
本申请实施例中,通过第二预设词典、第三预设词典进行一系列查询,得到字段中的非缩写字符串和惯用缩写字符串对应的嵌入向量。由于预设词典中存在时才可以查询得到字段中的非缩写字符串和惯用缩写字符串对应的嵌入向量,因此,嵌入向量的准确性较高,有助于提高后续模型训练的准确率。同时将第二预设词典、第三预设词典均查询不到的字符串加入非惯用缩写字符串矩阵,从而得到非惯用缩写字符串矩阵,以便后续可以结合注释分词矩阵确定非惯用缩写字符串的目标注释分词。
下面,对确定非惯用缩写字符串的目标注释分词的具体实现进行介绍。
在一种可能的实现中,相关度可以包括概率,上述步骤S202可以包括:针对任一注释分词,分别计算各非惯用缩写字符串与注释分词共同出现的概率;非惯用缩写字符串与注释分词共同出现为:注释分词所在矩阵行数与非惯用缩写字符串所在矩阵行数相等;将注释分词确定为概率最大时对应的非惯用缩写字符串的目标注释分词。
本申请实施例中,相关度可以包括非惯用缩写字符串与注释分词共同出现的概率,概率越大,相关度就越大。
示例性的,假设非惯用缩写字符串矩阵为:
假设该非惯用缩写字符串矩阵对应的注释分词矩阵为:
其中,非惯用缩写字符串例如“ab”、“la”、“sa”均与“分词1”、“分词2”、“分词3”和“分词4”同行,也就是共同出现。
可能的实现中,计算注释分词与非惯用缩写字符串的共同出现的次数,从而基于共同出现的次数计算共现出现的概率。
本申请实施例中,通过计算各非惯用缩写字符串与注释分词共同出现的概率确定非惯用缩写字符串的最相关注释分词(也就是目标注释分词),以便后续可以基于最相关注释分词确定非惯用缩写字符串的原单词,避免不相关注释分词对非惯用缩写字符串的原单词的确定造成干扰。
在一种可能的实现中,上述步骤针对任一注释分词,分别计算各非惯用缩写字符串与注释分词共同出现的概率,可以包括:
根据非惯用缩写字符串矩阵和注释分词矩阵建立共现矩阵,共现矩阵中包括任一注释分词与任一非惯用缩写字符串共同出现的次数,且共现矩阵中每一行的次数对应的注释分词相同,每一行的次数对应的非惯用缩写字符串不同,每一列的次数对应的非惯用缩写字符串相同,每一列的次数对应的注释分词不同;针对任一注释分词,根据共现矩阵分别计算各非惯用缩写字符串与注释分词共同出现的概率。
可能的实现中,在根据非惯用缩写字符串矩阵和注释分词矩阵建立共现矩阵时,需要对非惯用缩写字符串矩阵中的非惯用缩写字符串和注释分词矩阵字符串进行去重处理。去重后建立的共现矩阵可以如:
其中,W1表示共现矩阵,n为所有字段中的非惯用缩写字符串去重后的数量,m为所有注释信息中的注释分词去重后的数量,annom_abbrn为去重后依次排列的第m个注释分词和去重后依次排列的第n个非惯用缩写字符串的共同出现的次数。annom=∑k annom_abbrk(k小于或等于n),表示去重后依次排列的第m个注释分词与第k个非惯用缩写字符串的共同出现的总次数。
进一步的,基于共现矩阵计算一个非惯用缩写字符串和一个注释分词共同出现的概率,该概率满足公式:
其中,P(n|m)表示当去重后依次排列的第m个注释分词出现时,去重后依次排列的第n个非惯用缩写字符串与该第m个注释分词共同出现的概率。
可能的实现中,基于同一非惯用缩写字符串,计算不同注释分词与该非惯用缩写字符串共同出现的概率,再基于这些概率计算共现概率比值,进而基于共现概率比值来确定相关度。示例性的,共现概率比值满足:
其中,Ratio(n,m,k)为基于去重后依次排列的第n个非惯用缩写字符串的共现概率比值,P(n|m)为去重后依次排列的第n个非惯用缩写字符串与去重后依次排列的第m个注释分词共同出现的概率,P(n|k)为去重后依次排列的第n个非惯用缩写字符串与去重后依次排列的第k个注释分词共同出现的概率。
本申请实施例中,当Ratio(n,m,k)越比1大时,则表示去重后依次排列的第n个非惯用缩写字符串与去重后依次排列的第m个注释分词的相关度(也可以称为相关性),比该第n个非惯用缩写字符串与去重后依次排列的第k个注释分词的相关度越更大,当Ratio(n,m,k)越比1小时,则表示去重后依次排列的第n个非惯用缩写字符串与去重后依次排列的第m个注释分词的相关度,比该第n个非惯用缩写字符串与去重后依次排列的第k个注释分词的相关度越更小。将相关度更大时对应的注释分词确定为非惯用缩写字符串的目标注释分词。
示例性的,假设非惯用缩写字符串矩阵和注释分词矩阵分别为:
则去重后计算的各共现次数可以如表1所示。
表1
ab | st | |
分词1 | 2 | 1 |
分词2 | 1 | 0 |
分词3 | 1 | 1 |
从表1可得,分词1出现时,非惯用缩写字符串“ab”与其共同出现的概率为非惯用缩写字符串“st”与其共同出现的概率为/>分词2出现时,非惯用缩写字符串“ab”与其共同出现的概率为1,非惯用缩写字符串“st”与其共同出现的概率为0;分词3出现时,非惯用缩写字符串“ab”与其共同出现的概率为/>非惯用缩写字符串“st”与其共同出现的概率为
因此,共现概率比值
即非惯用缩写字符串“ab”与分词1的相关度小于非惯用缩写字符串“ab”与分词2的相关度;
即非惯用缩写字符串“ab”与分词1的相关度大于非惯用缩写字符串“ab”与分词3的相关度;
即非惯用缩写字符串“ab”与分词2的相关度大于非惯用缩写字符串“ab”与分词3的相关度,因此分词2为非惯用缩写字符串“ab”的目标注释分词。
即非惯用缩写字符串“st”与分词2的相关度既小于非惯用缩写字符串“st”与分词1的相关度,也小于非惯用缩写字符串“st”与分词3的相关度,非惯用缩写字符串“st”与分词1的相关度小于非惯用缩写字符串“st”与分词3的相关度,因此分词3为非惯用缩写字符串“st”的目标注释分词。
本申请实施例中,可以将各非惯用缩写字符串和各非惯用缩写字符串的目标注释分词之间的对应关系加入第四预设词典中,以便后续可以基于该第四预设词典中各非惯用缩写字符串的各目标注释分词从候选原单词列表中确定原单词。
本申请实施例的方法,通过非惯用缩写英文字符串矩阵与注释分词矩阵创建共现矩阵,按照这种方式构建全局语料库的统计信息,通过共现矩阵计算出当某注释分词出现时,另一缩写字符串共同出现的概率,进而根据共同出现的概率确定各非惯用缩写字符串的目标注释分词。可以应用在数据库场景中,由于在数据库场景中,某缩写字符串对应的注释分词大概率只有一个,所以为了提高还原准确率,分别计算该缩写字符串与不同注释分词共同出现的概率,并计算它们之间的比值,找到该缩写字符串最相关的注释分词。因为在英汉词典中,英文单词对应的中文释义会是比较完整的一句话,此时除了英文单词本身的中文释义,还包括用于解释的其他中文释义,如果不筛选出最相关注释分词,将其他注释分词也用于匹配候选原单词,则其他注释分词会匹配出其他注释分词对应的候选英文单词,从而导致误判出错误的候选原单词,因此,为了能够规避将多个注释分词都匹配候选原单词对应的中文释义带来的偏差,所以需要将找到该缩写字符串最相关的注释分词。
下面,对确定非惯用缩写字符串的嵌入向量的具体实现进行介绍。
在一种可能的实现中,上述步骤S203可以包括:
针对非惯用缩写字符串矩阵中的任一非惯用缩写字符串,将第一预设词典中满足第二预设条件的英文单词加入第一列表;将第一列表中满足第三预设条件的英文单词加入第二列表,第三预设条件为:英文单词在第一预设词典中对应的中文单词包括非惯用缩写字符串的目标注释分词;通过第二预设词典查询第二列表中各英文单词的嵌入向量,将各英文单词的嵌入向量的均值确定为非惯用缩写字符串的嵌入向量。
本申请实施例中,第一预设词典可以是用于查询英文单词的中文释义的英汉词典,第一预设词典的内容格式可以表示为:dic1={word1:chinese1,word2:chinese2…wordn:chinesen},其中,“word”表示原单词或者说英文全拼,“chinese”表示“word”的中文释义。
本申请实施例中,第一列表为候选原单词(或者说还原词)列表,一个字段的第一列表可以表示为:start_list={word1,word2…wordn},其中,n为针对该字段的第一预设词典中符合第二预设条件的英文单词的数量,“start_list”表示第一列表,“word”表示第一预设词典中符合第二预设条件的英文单词。
本申请实施例中,第二预设条件可以是基于用户的英文缩写习惯设定的条件。示例性的,由于数据库中的字段中的缩写经常以原单词的开头的至少一个依次相邻的字母表示,例如,缩写字符串“app”是原单词也就是英文单词“application”开头三个字母表示的,因此第二预设条件可以为:英文单词开头与非惯用缩写字符串相同,或者说是英文单词开头的至少一个依次相邻的字母与非惯用缩写字符串相同。
本申请实施例中,第二列表为原单词(或者说还原词)列表,一个字段的第二列表可以表示为:start_filter_list={word1,word2…wordm},其中,m为该字段的第一列表中符合第三预设条件的英文单词的数量,且m小于或等于第一列表中的n,“start_filter_list”表示第二列表,“word”表示第一列表中符合第三预设条件的英文单词。
示例性的,假设非惯用缩写字符串矩阵中包括非惯用缩写字符串为“li”,则针对该非惯用缩写字符串“li”,将第一预设词典中满足第二预设条件的英文单词加入第一列表,则该非惯用缩写字符串“li”的第一列表例如可以为start_list={liability,liable,liaise,liaison,liana,liar,libation……}。假设该非惯用缩写字符串“li”的目标注释分词为“联系”,而第一列表中的候选原单词“liaise”和“liaison”的中文单词(或者说中文释义)中均包含“联系”的意思,则将该非惯用缩写字符串“li”的第一列表中满足第三预设条件的英文单词加入第二列表,即该非惯用缩写字符串“li”第二列表可以为start_filter_list={liaise,liaison}。进一步的,通过第二预设词典查询第二列表中的英文单词“liaise”和“liaison”各自的嵌入向量,将各英文单词的嵌入向量的均值确定为该非惯用缩写字符串“li”的嵌入向量。同理遍历非惯用缩写字符串矩阵中的每个非惯用缩写字符串,确定每个字段中每个非惯用缩写字符串的嵌入向量。
本申请实施例中,通过第一预设词典筛选出非惯用缩写字符串的至少一个候选原单词,再基于非惯用缩写字符串的目标注释分词从至少一个候选原单词中确定中文释义包括目标注释分的至少一个原单词,进而基于至少一个原单词确定非惯用缩写字符串的嵌入向量。这样,结合了注释信息是对字段进行解释的场景,引入注释信息来确定字段中非惯用缩写字符串的原单词,相比于通过英文缩写与英文全拼建立监督学习还原缩写的方法,这样引入更多信息源可以提高样本特征的准确性,进而可以提高模型的准确率。
本申请实施例中,将一个字段对应的第一向量、第二向量以及非惯用缩写字符串的嵌入向量共同作为该字段的嵌入向量,该字段的嵌入向量可以用于后续训练模型的样本特征。这样从未标记、未分类的数据中获取样本特征的无监督过程,不需要人工标注样本特征,从而可以降低人力成本,同时还可以提高获取样本特征的效率。
图4为本申请实施例提供的一种英文缩写字符串的特征获取装置的结构示意图。请参见图4,该装置40包括获取模块401,计算模块402和确定模块403,其中,
获取模块401,用于获取非惯用缩写字符串矩阵和注释分词矩阵,注释分词矩阵的每一行中包括非惯用缩写字符串矩阵中对应行数的非惯用缩写字符串的中文释义,每一行中的注释分词属于同一条注释信息,非惯用缩写字符串矩阵和注释分词矩阵的行数和列数均为大于或等于1的整数;
计算模块402,用于分别计算各非惯用缩写字符串与各注释分词之间的相关度,将相关度满足第一预设条件时的注释分词确定为对应非惯用缩写字符串的目标注释分词;
确定模块403,用于根据各目标注释分词和预设词典确定各非惯用缩写字符串的嵌入向量。
在一种可能的实现方式中,相关度包括概率,计算模块402,具体用于:
针对任一注释分词,分别计算各非惯用缩写字符串与注释分词共同出现的概率;非惯用缩写字符串与注释分词共同出现为:注释分词所在矩阵行数与非惯用缩写字符串所在矩阵行数相等;
将注释分词确定为概率最大时对应的非惯用缩写字符串的目标注释分词。
在一种可能的实现方式中,计算模块402,具体用于:
根据非惯用缩写字符串矩阵和注释分词矩阵建立共现矩阵,共现矩阵中包括任一注释分词与任一非惯用缩写字符串共同出现的次数,且共现矩阵中每一行的次数对应的注释分词相同,每一行的次数对应的非惯用缩写字符串不同,每一列的次数对应的非惯用缩写字符串相同,每一列的次数对应的注释分词不同;
针对任一注释分词,根据共现矩阵分别计算各非惯用缩写字符串与注释分词共同出现的概率。
在一种可能的实现方式中,确定模块403,具体用于:
针对非惯用缩写字符串矩阵中的任一非惯用缩写字符串,将第一预设词典中满足第二预设条件的英文单词加入第一列表;
将第一列表中满足第三预设条件的英文单词加入第二列表,第三预设条件为:英文单词在第一预设词典中对应的中文单词包括非惯用缩写字符串的目标注释分词;
通过第二预设词典查询第二列表中各英文单词的嵌入向量,将各英文单词的嵌入向量的均值确定为非惯用缩写字符串的嵌入向量。
在一种可能的实现方式中,第二预设条件为:英文单词开头与非惯用缩写字符串相同。
在一种可能的实现方式中,获取模块401,具体用于:
获取至少一个字段,每个字段包括至少一个字符串和至少一个第一预设符号;
针对任一字段,根据第一预设符号对字段进行分词,得到第三列表,第三列表中包括字段中的字符串;
通过第二预设词典查询第三列表中各字符串的嵌入向量,得到字段的第一向量;
将第三列表中未被查询到的字符串确定为缩写字符串,通过第三预设词典查询各缩写字符串的原单词,将未查询到原单词的缩写字符串确定为非惯用缩写字符串,并将非惯用缩写字符串加入第四列表;
通过各字段对应的第四列表得到非惯用缩写字符串矩阵。
在一种可能的实现方式中,装置40还包括:
分词模块,用于若原单词中包括第二预设符号,则根据第二预设符号对原单词进行分词,得到第五列表,第五列表中包括原单词中的多个英文分词;
查询模块,用于通过第二预设词典查询原单词中各英文分词的嵌入向量,并计算各英文分词的嵌入向量的平均值,得到字段的第二向量。
本申请实施例提供的英文缩写字符串的特征获取装置,可用于执行上述的方法实施例,其实现原理和技术效果类似,本申请实施例此处不再赘述。
应该理解,上述的装置实施例仅是示意性的,本申请的装置还可通过其它的方式实现。例如,上述实施例中单元/模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如,多个单元、模块或组件可以结合,或者可以集成到另一个系统,或一些特征可以忽略或不执行。
本申请实施例提供一种电子设备,图5为本申请实施例提供的一种电子设备的硬件结构示意图。
如图5所示,该电子设备50包括:处理器501和存储器502;存储器502存储计算机执行指令;处理器501执行存储器502存储的计算机执行指令,使得电子设备50执行上述方法。
当存储器502独立设置时,该电子设备50还包括总线503,用于连接存储器502和处理器501。
图5实施例所示的电子设备50可以执行上述方法实施例中的步骤,其实现原理以及有益效果类似,此处不再进行赘述。
本申请实施例提供一种芯片。芯片包括处理器,处理器用于调用存储器中的计算机程序,以执行上述实施例中的技术方案。其实现原理和技术效果与上述相关实施例类似,此处不再赘述。
本申请实施例还提供了一种计算机可读存储介质。计算机可读存储介质存储有计算机程序。计算机程序被处理器执行时实现上述方法。上述实施例中描述的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。如果在软件中实现,则功能可以作为一个或多个指令或代码存储在计算机可读介质上或者在计算机可读介质上传输。计算机可读介质可以包括计算机存储介质和通信介质,还可以包括任何可以将计算机程序从一个地方传送到另一个地方的介质。存储介质可以是可由计算机访问的任何目标介质。
一种可能的实现方式中,计算机可读介质可以包括RAM,ROM,只读光盘(compactdisc read-only memory,CD-ROM)或其它光盘存储器,磁盘存储器或其它磁存储设备,或目标于承载的任何其它介质或以指令或数据结构的形式存储所需的程序代码,并且可由计算机访问。而且,任何连接被适当地称为计算机可读介质。例如,如果使用同轴电缆,光纤电缆,双绞线,数字用户线(digital subscriber line,DSL)或无线技术(如红外,无线电和微波)从网站,服务器或其它远程源传输软件,则同轴电缆,光纤电缆,双绞线,DSL或诸如红外,无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括光盘,激光盘,光盘,数字通用光盘(digital versatiledisc,DVD),软盘和蓝光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光光学地再现数据。上述的组合也应包括在计算机可读介质的范围内。
本申请实施例提供一种计算机程序产品,计算机程序产品包括计算机程序,当计算机程序被运行时,使得计算机执行上述方法。
本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理单元以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (10)
1.一种英文缩写字符串的特征获取方法,其特征在于,所述方法包括:
获取非惯用缩写字符串矩阵和注释分词矩阵,所述注释分词矩阵的每一行中包括所述非惯用缩写字符串矩阵中对应行数的非惯用缩写字符串的中文释义,每一行中的注释分词属于同一条注释信息,所述非惯用缩写字符串矩阵和所述注释分词矩阵的行数和列数均为大于或等于1的整数;
分别计算各所述非惯用缩写字符串与各所述注释分词之间的相关度,将相关度满足第一预设条件时的注释分词确定为对应非惯用缩写字符串的目标注释分词;
根据各所述目标注释分词和预设词典确定各所述非惯用缩写字符串的嵌入向量。
2.根据权利要求1所述的方法,其特征在于,所述相关度包括概率,所述分别计算各所述非惯用缩写字符串与各所述注释分词之间的相关度,将相关度满足第一预设条件时的注释分词确定为对应非惯用缩写字符串的目标注释分词,包括:
针对任一注释分词,分别计算各所述非惯用缩写字符串与所述注释分词共同出现的概率;所述非惯用缩写字符串与所述注释分词共同出现为:所述注释分词所在矩阵行数与所述非惯用缩写字符串所在矩阵行数相等;
将所述注释分词确定为所述概率最大时对应的非惯用缩写字符串的目标注释分词。
3.根据权利要求2所述的方法,其特征在于,所述针对任一注释分词,分别计算各所述非惯用缩写字符串与所述注释分词共同出现的概率,包括:
根据所述非惯用缩写字符串矩阵和所述注释分词矩阵建立共现矩阵,所述共现矩阵中包括任一所述注释分词与任一所述非惯用缩写字符串共同出现的次数,且所述共现矩阵中每一行的所述次数对应的注释分词相同,每一行的所述次数对应的非惯用缩写字符串不同,每一列的所述次数对应的非惯用缩写字符串相同,每一列的所述次数对应的注释分词不同;
针对任一注释分词,根据所述共现矩阵分别计算各所述非惯用缩写字符串与所述注释分词共同出现的概率。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述根据各所述目标注释分词和预设词典确定各所述非惯用缩写字符串的嵌入向量,包括:
针对所述非惯用缩写字符串矩阵中的任一所述非惯用缩写字符串,将第一预设词典中满足第二预设条件的英文单词加入第一列表;
将所述第一列表中满足第三预设条件的英文单词加入第二列表,所述第三预设条件为:所述英文单词在所述第一预设词典中对应的中文单词包括所述非惯用缩写字符串的目标注释分词;
通过第二预设词典查询所述第二列表中各所述英文单词的嵌入向量,将各所述英文单词的嵌入向量的均值确定为所述非惯用缩写字符串的嵌入向量。
5.根据权利要求4所述的方法,其特征在于,所述第二预设条件为:所述英文单词开头与所述非惯用缩写字符串相同。
6.根据权利要求4所述的方法,其特征在于,所述获取非惯用缩写字符串矩阵,包括:
获取至少一个字段,每个所述字段包括至少一个字符串和至少一个第一预设符号;
针对任一所述字段,根据所述第一预设符号对所述字段进行分词,得到第三列表,所述第三列表中包括所述字段中的字符串;
通过所述第二预设词典查询所述第三列表中各所述字符串的嵌入向量,得到所述字段的第一向量;
将所述第三列表中未被查询到的字符串确定为缩写字符串,通过第三预设词典查询各所述缩写字符串的原单词,将未查询到原单词的缩写字符串确定为非惯用缩写字符串,并将所述非惯用缩写字符串加入第四列表;
通过各所述字段对应的所述第四列表得到所述非惯用缩写字符串矩阵。
7.根据权利要求6所述的方法,其特征在于,在所述通过第三预设词典查询各所述缩写字符串的原单词之后,所述方法还包括:
若所述原单词中包括第二预设符号,则根据所述第二预设符号对所述原单词进行分词,得到第五列表,所述第五列表中包括所述原单词中的多个英文分词;
通过所述第二预设词典查询所述原单词中各所述英文分词的嵌入向量,并计算各所述英文分词的嵌入向量的平均值,得到所述字段的第二向量。
8.一种英文缩写字符串的特征获取装置,其特征在于,包括:获取模块,计算模块和确定模块,其中,
获取模块,用于获取非惯用缩写字符串矩阵和注释分词矩阵,所述注释分词矩阵的每一行中包括所述非惯用缩写字符串矩阵中对应行数的非惯用缩写字符串的中文释义,每一行中的注释分词属于同一条注释信息,所述非惯用缩写字符串矩阵和所述注释分词矩阵的行数和列数均为大于或等于1的整数;
计算模块,用于分别计算各所述非惯用缩写字符串与各所述注释分词之间的相关度,将相关度满足第一预设条件时的注释分词确定为对应非惯用缩写字符串的目标注释分词;
确定模块,用于根据各所述目标注释分词和预设词典确定各所述非惯用缩写字符串的嵌入向量。
9.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311107918.1A CN117131375A (zh) | 2023-08-30 | 2023-08-30 | 英文缩写字符串的特征获取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311107918.1A CN117131375A (zh) | 2023-08-30 | 2023-08-30 | 英文缩写字符串的特征获取方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117131375A true CN117131375A (zh) | 2023-11-28 |
Family
ID=88854198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311107918.1A Pending CN117131375A (zh) | 2023-08-30 | 2023-08-30 | 英文缩写字符串的特征获取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117131375A (zh) |
-
2023
- 2023-08-30 CN CN202311107918.1A patent/CN117131375A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Edizel et al. | Misspelling oblivious word embeddings | |
CN106649783B (zh) | 一种同义词挖掘方法和装置 | |
CN109543178B (zh) | 一种司法文本标签体系构建方法及系统 | |
CN111104794A (zh) | 一种基于主题词的文本相似度匹配方法 | |
CN113268995B (zh) | 中文学术关键词抽取方法、装置和存储介质 | |
JP5605583B2 (ja) | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム | |
CN114911917B (zh) | 资产元信息搜索方法、装置、计算机设备及可读存储介质 | |
KR100847376B1 (ko) | 질의어 자동 추출을 이용한 검색 방법 및 장치 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
Mandal et al. | Clustering-based Bangla spell checker | |
CN112131876A (zh) | 一种基于相似度确定标准问题的方法及系统 | |
CN110955767A (zh) | 一种机器人对话系统中生成意图候选集列表集合的算法及装置 | |
CN114153978A (zh) | 模型训练方法、信息抽取方法、装置、设备及存储介质 | |
CN111985212A (zh) | 文本关键字识别方法、装置、计算机设备及可读存储介质 | |
CN112613293A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
Nugraha et al. | Typographic-based data augmentation to improve a question retrieval in short dialogue system | |
CN107239455B (zh) | 核心词识别方法及装置 | |
WO2019163642A1 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
US11947571B2 (en) | Efficient tagging of content items using multi-granular embeddings | |
CN111339778A (zh) | 文本处理方法、装置、存储介质和处理器 | |
CN114579729B (zh) | 一种融合多算法模型的faq问答匹配方法和系统 | |
CN115455152A (zh) | 写作素材的推荐方法、装置、电子设备及存储介质 | |
CN117131375A (zh) | 英文缩写字符串的特征获取方法、装置、设备及存储介质 | |
CN112949287B (zh) | 热词挖掘方法、系统、计算机设备和存储介质 | |
CN111625579A (zh) | 一种信息处理方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |