CN113688615B - 一种字段注释生成、字符串理解方法、设备及存储介质 - Google Patents
一种字段注释生成、字符串理解方法、设备及存储介质 Download PDFInfo
- Publication number
- CN113688615B CN113688615B CN202010425705.3A CN202010425705A CN113688615B CN 113688615 B CN113688615 B CN 113688615B CN 202010425705 A CN202010425705 A CN 202010425705A CN 113688615 B CN113688615 B CN 113688615B
- Authority
- CN
- China
- Prior art keywords
- english
- pinyin
- spelling
- understanding
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 238000013507 mapping Methods 0.000 claims description 99
- 230000011218 segmentation Effects 0.000 claims description 57
- 238000012549 training Methods 0.000 claims description 57
- 108091026890 Coding region Proteins 0.000 claims description 25
- 238000013210 evaluation model Methods 0.000 claims description 18
- 238000000926 separation method Methods 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 9
- 238000013519 translation Methods 0.000 claims description 5
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 12
- 230000009467 reduction Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 239000000203 mixture Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供一种字段注释生成、字符串理解方法、设备及存储介质。在本申请实施例中,对于缺失字段注释的字段名,可从至少一种维度对所述字段名进行理解,以获得至少一种理解结果,从所述至少一种理解结果中选择符合预设条件的目标理解结果,作为所述字段名的字段注释。据此,本申请实施例中,可从不同理解维度对缺失字段注释的字段名进行理解,并从多种理解结果中选出最优的理解结果作为所述字段名的字段注释。这不仅保证了字段注释的准确性,而且可有效提高字段注释的效率。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种字段注释生成、字符串理解方法、设备及存储介质。
背景技术
随着用户数据量的不断增大,越来越多的用户发出了数据标准化的需求,期望获得高质量的数据资产。数据标准化过程中至关重要的一项处理内容是对数据库中字段名的注释补全。
目前,需要采用人工方式对数据库中字段名进行注释补全,这种方式的效率和准确性都比较低。
发明内容
本申请的多个方面提供一种字段注释生成、字符串理解方法、设备及存储介质,用于提高字段注释的生成效率和准确性。
本申请实施例提供一种字段注释生成方法,包括:
获取待处理的字段名;
从至少一种维度对所述字段名进行理解,以获得至少一种理解结果;
从所述至少一种理解结果中选择符合预设条件的目标理解结果,作为所述字段名的字段注释。
本申请实施例还提供一种字符串理解方法,包括:
获取待理解字符串;
从至少一种维度对所述待理解字符串进行理解,以获得至少一种理解结果;
从所述至少一种理解结果中选择符合预设条件的目标理解结果,作为所述待理解字符串的最终理解结果。
本申请实施例还提供一种计算设备,包括存储器和处理器;
所述存储器用于存储一条或多条计算机指令;
所述处理器与所述存储器耦合,用于执行所述一条或多条计算机指令,以用于:
获取待处理的字段名;
从至少一种维度对所述字段名进行理解,以获得至少一种理解结果;
从所述至少一种理解结果中选择符合预设条件的目标理解结果,作为所述字段名的字段注释。
本申请实施例还提供一种计算设备,包括存储器和处理器;
所述存储器用于存储一条或多条计算机指令;
所述处理器与所述存储器耦合,用于执行所述一条或多条计算机指令,以用于:
获取待理解字符串;
从至少一种维度对所述待理解字符串进行理解,以获得至少一种理解结果;
从所述至少一种理解结果中选择符合预设条件的目标理解结果,作为所述待理解字符串的最终理解结果。
本申请实施例还提供一种存储计算机指令的计算机可读存储介质,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行前述的字段注释生成方法或前述的字符串理解方法。
在本申请实施例中,对于缺失字段注释的字段名,可从至少一种维度对所述字段名进行理解,以获得至少一种理解结果,从所述至少一种理解结果中选择符合预设条件的目标理解结果,作为所述字段名的字段注释。据此,本申请实施例中,可从不同理解维度对缺失字段注释的字段名进行理解,并从多种理解结果中选出最优的理解结果作为所述字段名的字段注释。这不仅保证了字段注释的准确性,而且可有效提高字段注释的效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1a为本申请一示例性实施例提供的一种字段注释生成方法的流程示意图;
图1b为本申请一示例性实施例提供的一种字段注释生成方法的逻辑框图;
图2为本申请一示例性实施例提供的一种从拼音理解维度对字段名进行理解的方案逻辑示意图;
图3为本申请一示例性实施例提供的一种从英文理解维度对字段名进行理解的方案逻辑示意图;
图4为本申请另一示例性实施例提供的一种字符串理解方法的流程示意图;
图5为本申请又一示例性实施例提供的一种计算设备的结构示意图;
图6为本申请又一示例性实施例提供的另一种计算设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,需要采用人工方式对数据库中字段名进行注释补全,这种方式的效率和准确性都比较低。针对这些技术问题,本申请实施例提供一种解决方案,基本思路之一是:对于缺失字段注释的字段名,可从至少一种维度对所述字段名进行理解,以获得至少一种理解结果,从所述至少一种理解结果中选择符合预设条件的目标理解结果,作为所述字段名的字段注释。据此,本申请实施例中,可从不同理解维度对缺失字段注释的字段名进行理解,并从多种理解结果中选出最优的理解结果作为所述字段名的字段注释。这不仅保证了字段注释的准确性,而且可有效提高字段注释的效率。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1a为本申请一示例性实施例提供的一种字段注释生成方法的流程示意图。图1b为本申请一示例性实施例提供的一种字段注释生成方法的逻辑框图。本实施例提供的字段注释生成方法可以由一字段注释生成装置来执行,该字段注释生成装置可以实现为软件或实现为软件和硬件的组合,该字段注释生成装置可集成设置在计算设备中。如图1a和1b所示,该方法包括:
步骤100、获取待处理的字段名;
步骤101、从至少一种维度对字段名进行理解,以获得至少一种理解结果;
步骤102、从至少一种理解结果中选择符合预设条件的目标理解结果,作为字段名的字段注释。
本实施例提供的字段注释生成方法,可应用于数据库或电子表格等其它存在字段的场景中,本实施例对应用场景不作限定。以数据库为例,在大多数情况下,数据表中的列可称为字段,每个字段包含某一专题的信息。以电子表格为例,电子表格中的一列也可作为字段。
字段对应有字段名,字段名作为字段所包含信息的名称。例如,数据库场景中,字段名可以是属性类信息的名称,如身份证、性别等等。
在实际应用中,为了适配软件代码技术等需求,字段名通常由字符组成。而且,根据不同技术人员的习惯,对字段名的编写维度可能不完全相同,这造成字段名的通读性比较低。因此,字段名通常都会配置有字段注释,用于解释字段名的含义。例如,字段名为yhsj,技术人员可为该字段名添加字段注释“用户数据”。
但是,目前看来,仍存在大量缺失字段注释的字段名。对于缺失字段注释的字段名,只能依靠技术人员人工进行理解,尤其对于未参与原始开发过程的技术人员来说,处理效率和准确性都比较低。
本实施例中,可将缺失字段注释的字段名作为待处理的字段名。正如上文提及的,本实施例中,不限定待处理的字段名的来源。
本实施例中,可从至少一种维度对字段名进行理解。其中,至少一种维度可包含拼音理解维度或英文理解维度等等,当然,本实施例并不限于此。
在从多个维度对字段名进行理解的情况下,多个维度下的理解过程可相互独立,且分别产生理解结果。针对同一字段名,不同维度下的理解结果可能不完全相同。其中,理解结果通常为中文词组,当然,理解结果中还可能包含标点符号、数字等等,在此不作限定。
例如,对于字段名cd,在拼音理解维度下的理解结果可能是“菜单”,而在英文理解维度下的理解结果可能是“代码”。
在这种情况下,本实施例中,可按照预设条件从多种理解结果中,选出最优的目标理解结果,作为字段名的字段注释。
在一种可选实现方式中,可基于用语习惯知识,确定至少一种理解结果各自符合用语习惯的程度;将程度最高的理解结果,作为字段名的字段注释。在该实现方式下,前述的预设条件即为符合用语习惯的程度最高。
例如,以字段名CUST为例,拼音维度下的理解结果符合用语习惯的程度将小于英文维度下的理解结果符合用语习惯的程度。因此,可将英文维度下的理解结果作为字段注释。
实际应用中,可使用用语习惯评价模型实现上述目标理解结果的筛选操作。
可将至少一种理解结果输入用语习惯评价模型;在用语习惯评价模型中,基于用语习惯知识,计算至少一种理解结果各自符合用语习惯的概率,作为至少一种理解结果各自符合用语习惯的程度。
其中,用语习惯评价模型可预先学习用语习惯知识。用语习惯知识可理解为根据语法、语义等因素将字组合为通顺的词或句的知识。因此,用语习惯评价模型可从若干正常的中文文本中习得用语习惯知识。实际应用中,用语习惯评价模型中可将用语习惯知识转换为模型参数,基于此,用语习惯评价模型可基于模型参数计算各理解结果符合用语习惯的概率。其中,符合用语习惯可理解为符合语法、语义且通顺。
另外,不同行业领域中的用语习惯可能不完全相同。本实施例中,可在用语习惯评价模型中,针对不同领域,分别学习用语习惯知识。而在对理解结果进行用语习惯评价的过程中,则可确定字段名所属的目标行业领域,并在用语习惯评价模型中,利用目标行业领域下的用语习惯知识,确定至少一种理解结果各自符合用语习惯的程度。
还是以字段名cd为例,若确定字段名属于餐饮领域,则显然拼音理解维度下的理解结果“菜单”更加符合餐饮领域的用语习惯。据此,可将餐饮作为字段名cd的字段注释。
本实施例中,用语习惯评价模型可采用语言模型,例如bert模型,当然,本实施例并不限于此。
在用语习惯模型中,可计算至少一种理解结果各自符合用语习惯的概率,并将概率最高的理解结果作为字段名的注释字段。
本实施例中,在步骤101之前,还可确定用户是否指定理解维度,若用户指定理解维度,则从指定的理解维度对字段名进行理解,并将理解结果作为字段名的字段注释。
若用户未指定理解维度,则可执行前述的步骤101和102。
对技术人员来说,字段名在很多情况下是可见的,技术人员可通过观察字段名的构成,确定字段名的编写维度,并可根据确定出的编写维度指定对字段名的理解维度。编写维度与理解维度相对应,例如,编写维度可以是拼音维度或英文维度等等。
在准确指定理解维度的情况下,可有效节省计算量,进一步提高字段注释的生成效率。
另外,本实施例中,可在步骤101之前,确定字段名所属的目标行业领域。其中,本实施例可应用于各种行业领域中,并可从不同行业领域中学习经验知识,以利用与待处理的字段名对口的行业领域中的经验知识对字段名进行理解。后文中将行业领域穿插在从各种维度对字段名进行理解的方案说明中,在此不进行详述。
本实施例中,对于缺失字段注释的字段名,可从至少一种维度对所述字段名进行理解,以获得至少一种理解结果,从所述至少一种理解结果中选择符合预设条件的目标理解结果,作为所述字段名的字段注释。据此,本申请实施例中,可从不同理解维度对缺失字段注释的字段名进行理解,并从多种理解结果中选出最优的理解结果作为所述字段名的字段注释。这不仅保证了字段注释的准确性,而且可有效提高字段注释的效率。
在上述或下述实施例中,至少一种维度包括拼音理解维度。
图2为本申请一示例性实施例提供的一种从拼音理解维度对字段名进行理解的方案逻辑示意图。
本实施例中,将对从拼音理解维度对字段名进行理解的方案进行说明。
参考图2,本实施例中,可对字段名进行拼音分词,以获得拼音序列,拼音序列中包含至少一个字符组,字符组中包含拼音全拼或拼音简写。
其中,拼音分词是指将字段名分割为具有拼音意义的最小单元。拼音分词后的最小单元即为前述的字符组。对于一个字段名来说,其可能完全是拼音全拼、完全是拼音简写或者是拼音全拼和简写的混合。本实施例中,在字段名中包含拼音简写的情况下,拼音序列中可能存在包含单字符(也即拼音简写)的字符组;而在字段名中包含拼音全拼的情况下,拼音序列中可能包含一个汉字对应的拼音全拼的字符组。
另外,拼音分词保持字段名中各字符原有的顺序,在这种顺序的基础上,经过拼音分词,可生成字段名对应的拼音序列。
例如,字段名为wm,经过拼音分词后可获得拼音序列【w,m】;字段名为jiaotong,经过拼音分词后可获得拼音序列【jiao,tong】;字段名为ddan,经过拼音分词后可获得拼音序列【d,dan】。
基于对字段名进行拼音分词获得的拼写序列,本实施例中,可根据拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列对应的中文序列。
应当理解的是,本实施例中,可同时预置拼音全拼与中文之间的映射关系,以及拼音简写与中文之间的映射关系。而在确定拼音序列对应的中文序列的过程中,可根据拼音序列中实际包含的内容灵活确定所需要依据的映射关系。
例如,若拼音序列中只包含拼音全拼,则可只启用拼音全拼与中文之间的映射关系;若拼音序列中只包含拼音简写,则可只启用拼音简写与中文之间的映射关系;若拼音序列中同时包含拼音全拼和拼音简写,则可同时启用拼音全拼与中文之间的映射关系和拼音简写与中文之间的映射关系。
为了实现对字段名的拼音分词,本实施例中可将字段名输入拼音分词模型;在拼音分词模型中,识别字段名中符合拼音全拼特征的至少一串连续字符以及不符合拼音全拼特征的至少一个单字符,分别作为字符组,以生成字段名对应的拼音序列。
在拼音分词模型中,可对字段名进行拼音识别,从而确定出字段名中包含的拼音全拼以及拼音简写。例如,可将不属于拼音全拼的单字符确定为拼音简写。
其中,拼音全拼特征可以是指一串连续字符可构成拼音全拼的概率要求。符合拼音全拼特征可以是指一串连续字符符合可构成拼音全拼的概率要求。
本实施例中,为了确定出符合拼音全拼特征的至少一串连续字符以及不符合拼音全拼特征的至少一个单字符,可针对字段名中的每个字符,根据字符的上下文及字符本身,确定字符符合拼音全拼下各拼写位置的状态特征的概率。其中,各拼音全拼下各拼写位置的状态特征即可作为前述的拼音全拼特征。当然,本实施例中,拼音全拼特征并不限于此,还可从其它角度表征拼音全拼特征。
对于一个拼音全拼来说,其包含多个拼写位置,拼写位置可以是开始位置、中间位置或结束位置等。例如,拼音jiao,字符j处于开始位置、字符i和a处于中间位置,而o处于结束位置。
本实施例中,可确定字段名中各字符符合拼音全拼下各拼写位置的状态特征的概率。该概率受到字符的上下文以及字符本身的影响。
若字符符合拼音全拼下任意拼写位置的状态特征的概率满足预设条件,确定该字符符合拼音全拼特征。该字符将被分割至一拼音全拼对应的字符组中。
若字符符合拼音全拼下各拼写位置的状态特征的概率均不满足预设条件,确定字符为不符合拼音全拼特征的单字符。该字符将单独构成一个字符组。
为了使拼音分词模型学习到拼音全拼特征,本实施例中,可利用训练文本对拼音分词模型进行训练。以拼音全拼特征为各拼写位置的状态特征为例,在模型训练过程中:
可获取训练文本,并将训练文本转换为拼音全拼,以获得训练序列;为训练序列中的字符标注所属的拼写位置;将标注后的训练序列输入拼音分词模型,以供拼音分词模型学习拼音全拼下各拼写位置的状态特征,作为拼音全拼特征。
其中,可通过爬虫技术等方式获取网络中的文本。另外,获取的训练文本可按照行业领域进行分类,并可针对不同的行业领域分别训练拼音分词模型的参数,这样,不同行业领域下,拼音分词模型将学习到不同的拼音全拼特征。
实际应用中,拼音分词模型可采用HMM模型。基于HMM模型,可将标注后的训练序列输入HMM模型,以供HMM模型学习状态转移矩阵等表征拼音全拼特征的模型参数。
在对字段名进行拼音分词时,在HMM模型中,可根据某一字符以及该字符的上一字符的隐藏状态,计算该字符符合各拼写位置的状态特征的概率,也即是,根据一字符的上下文以及该字符本身,计算该字符处于拼音全拼的开始位置、中间位置和/或结束位置的概率。
例如,若该字符处于拼音全拼的开始位置的概率高于预设概率阈值,则可确定该字符为拼音全拼中开始位置上的字符。并继续对其下一字符进行识别,通常,其下一字符符合中间位置或结束位置的状态特征的概率会比较高,可根据实际情况确定出其下一字符的拼写位置。
又例如,若该字符处于拼音全拼的所以拼写位置的概率均低于预设概率阈值,则可确定该字符为拼音简写,也即不属于任何拼音全拼。
正如上文提及的,拼音全拼中各拼写位置的状态特征只是拼音全拼特征的一种示例性实现形式,本实施例中,还可从其它角度表征拼音全拼特征,针对不同的拼音全拼特征,可对训练文本进行不同角度的标注,以便拼音分词模型从训练文本中学习到拼音全拼特征。
参考图2,基于对字段名进行拼音分词获得的拼写序列,本实施例中,可根据拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列对应的中文序列。
其中,不同行业领域下的拼音全拼和/或拼音简写与中文之间的映射关系,可能不完全相同。本实施例中,可根据字段名所属的目标行业领域,基于目标行业领域下的拼音全拼和/或拼音简写与中文之间的映射关系,确定字段名的拼音序列对应的中文序列。
正如上文提及的,拼音序列中包含至少一个字符组。为了确定出拼音序列对应的中文序列,本实施例中,可将拼音序列输入拼音理解模型,在拼音理解模型中,基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列中的至少一个字符组各自对应的中文;根据至少一个字符组各自对应的中文,组成中文序列。
其中,拼音理解模型中,可针对不同的行业领域,学习不同的拼音全拼和/或拼音简写与中文之间的映射关系。在此,可将目标行业领域输入拼音理解模型,在拼音理解模型中,可基于字段名所述的目标行业领域下的拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列中的至少一个字符组各自对应的中文。
为了使拼音理解模型学习到不同行业领域下拼音全拼和/或拼音简写与中文之间的映射关系,可对拼音理解模型进行训练。训练过程可以是:
获取训练文本,并将训练文本分割为单字序列;
将单字序列转换为拼音全拼序列以及拼音缩写序列;
以拼音全拼序列以及拼音缩写序列作为输入,以训练文本作为输出,训练拼音理解模型,以使拼音理解模型学习拼音全拼和/或拼音简写与中文之间的映射关系。
其中,可采用爬虫技术等从网络中获取训练文本,而且,可根据行业领域对训练文本进行分类,针对不同的行业领域,使用不完全相同的训练文本对拼音理解模型进行训练。
本实施例中,对训练文本可进行了分割,将训练文本分割为单字序列,这保证了拼音理解模型可学习到拼音全拼及拼音简写与中文单字之间的映射关系,进而可保证在使用拼音理解模型对字段名进行理解的过程中,可确定出字段名的拼音序列中每个字符组对应的中文,其中,每个字符组对应一个中文单字。
实际应用中,拼音理解模型可采用seq2seq模型。当然,拼音理解模型还可采用其它类型的算法模型,本实施例并不限于此。
至此,可生成字段名的拼音序列对应的中文序列。
在此基础上,可根据中文序列,生成字段名在拼音理解维度下的理解结果。通常是将中文序列中的中文单字进行拼接,可生成字段名在拼音理解维度下的理解结果。
本实施例中,可从将字段名分割成有拼音意义的最小单元,以产生字段的的拼音序列,并从拼音理解维度对最小单元进行理解,确定最小单元对应的中文单字,进而产生拼音序列对应的中文序列,并可根据中文序列,生成字段名在拼音理解维度下的理解结果。
在上述或下述实施例中,至少一种维度包括英文理解维度。
图3为本申请一示例性实施例提供的一种从英文理解维度对字段名进行理解的方案逻辑示意图。
本实施例中,将对从英文理解维度对字段名进行理解的方案进行说明。
参考图3,本实施例中,可确定字段名中包含的英文缩写字符串。
其中,英文缩写字符串可以是无法进行英文单词翻译的字符串。
实际应用中,分属于不同英文单字的英文缩写字符串之间通常存在分隔字符。例如,字段名CUST_NO中,通过分隔字符“_”将两个英文缩写字符串分隔开。这种情况下,认为该字段名中包含两个英文缩写字符串【CUST】和【NO】。
参考图3,本实施例中,可针对字段名中的每个英文缩写字符串,基于英文缩写与英文全拼之间的映射关系,确定英文缩写字符串对应的英文全拼。
其中,不同行业领域下的英文缩写与英文全拼之间的映射关系,可能不完全相同。本实施例中,可根据字段名所属的目标行业领域,基于目标行业领域下的英文缩写与英文全拼之间的映射关系,确定英文缩写字符串对应的英文全拼。
为此,本实施例中,可收集不同行业领域下的英文全拼,也即英文单词,组成不同行业领域下的英文单词库。
基于英文单词库,本实施例中,可以英文缩写字符串作为最大公因子序列,从英文单词库中,确定与最大公因子序列匹配的至少一个候选单词。
在字段名所属的行业领域已知的情况下,可从字段名所属的目标行业领域下的英文单词库中,以英文缩写字符串作为最大公因子序列,从目标行业领域对应的英文单词库中,确定与最大公因子序列匹配的至少一个候选单词。
其中,与最大公因子序列匹配是指英文单词中存在英文缩写中包含的所有英文字母,尽管这些英文字母在英文单词中可能不是连续的,但这些英文字母在英文单词中的顺序与在英文缩写字符串中的顺序一致。
例如,英文缩写字符串为cd,对于英文单词库中的英文单词code来说,其中存在英文字母c和d,且c和d在code中的顺序和在英文缩写字符串cd中的顺序一致,因此,可确定英文单词code为英文字符串cd的候选单词。
据此,可获得英文字符串对应的候选单词集,候选单词集中包含至少一个候选单词。
针对候选单词集中的至少一个候选单词,可基于英文缩写与英文全拼之间的映射关系,计算英文缩写字符串作为至少一个候选单词的英文缩写的概率。
为此,本实施例中,可将英文缩写字符串输入英文缩写预测模型,并在英文缩写预测模型中,基于英文缩写与英文全拼之间的映射关系,计算至少一个候选单词缩写为英文缩写字符串的概率。
英文缩写预测模型可遍历候选单词集中的每个候选单词,并计算候选单词在英文缩写字符串下的条件概率,也即是候选单词缩写为英文缩写字符串的概率。
其中,在英文缩写预测模型中,可针对不同的行业领域,学习不同的英文缩写与英文全拼之间的映射关系。在此,可将目标行业领域输入英文缩写预测模型,在英文缩写预测模型中,可基于字段名所属的目标行业领域下的英文缩写与英文全拼之间的映射关系,确定至少一个候选单词缩写为英文缩写字符串的概率。
为了使英文缩写预测模型学习到不同行业领域下英文缩写与英文全拼之间的映射关系,可对英文缩写预测模型进行训练。训练过程可以是:
获取包含样本英文单词和样本英文缩写的样本数据集;
在样本数据集中标注样本英文单词和样本英文缩写之间的对应关系;
将标注后的样本数据集输入英文缩写预测模型,以供英文缩写预测模型学习英文缩写与英文全拼之间的映射关系。
其中,可采用爬虫技术等从网络中获取训练文本,还可将英文缩写词典和英文单词词典作为训练文本,而且,可根据行业领域对训练文本进行分类,针对不同的行业领域,使用不完全相同的训练文本对英文缩写预测模型进行训练。
其中,在对样本数据集进行标注的过程中,可对样本英文缩写进行编码,以获得样本英文缩写的编码序列,编码序列用于表征样本英文缩写与其对应的样本英文单词之间的公因子;建立编码序列与样本英文单词之间的对应关系,以供英文缩写预测模型学习编码序列与英文全拼之间的映射关系。
在实际应用中,可对样本英文缩写进行01编码,获得的编码序列将为01序列。其中,编码序列中的1可表征在该序列位置上存在样本英文缩写与其对应的样本英文单词之间的公因子。例如,对于样本英文缩写cd和其对应的样本英文单词code来说,可将样本英文缩写编码为【1010】。
这样,英文缩写预测模型可从标注后的样本数据集中学习到编码序列与英文全拼之间的映射关系。
据此,英文缩写预测模型可基于编码序列与英文全拼之间的映射关系,计算至少一个候选单词缩写为英文缩写字符串对应的编码序列的概率,作为至少一个候选单词缩写为英文缩写字符串的概率。
实际应用中,并无法预知一个候选单词可能缩写为哪种编码序列,为此,可穷举或根据预设规则确定一个候选单词可能缩写为的多个编码序列,并在英文缩写预测模型中,根据学习到的编码序列与英文全拼之间的映射关系,分别预测候选单词缩写为前述多个编码序列的概率。多个编码序列中包含英文缩写字符串对应的编码序列。
当然,这仅是示例性的,本实施例中,也可指定英文缩写预测模型只计算候选单词缩写为英文缩写字符串对应的编码序列的概率,而不再计算候选单词缩写为其它编码序列的概率。本实施例对此不作限定。
本实施例中,采用编码序列的方式表征英文缩写字符串,可将英文缩写的预测问题转换成为分类问题,使得预测效率更高、预测结果更合理、更准确。
实际应用中,英文缩写预测模型可采用seq2seq模型。当然,英文缩写预测模型还可采用其它类型的算法模型,本实施例并不限于此。
至此,可基于英文缩写预测模型,确定出候选单词集中的至少一个候选单词各自缩写为英文缩写字符串的概率。
在此基础上,可基于贝叶斯假设,根据英文缩写预测模型输出的至少一个候选单词缩写为英文缩写字符串的概率,计算至少一个候选单词各自作为英文缩写字符串的英文全拼的概率。
其中,基于贝叶斯假设的计算过程,可表征为计算式:
其中,P(word|abbr)表示候选单词word作为英文缩写字符串abbr的英文全拼的概率,P(abbr|word)表示候选单词word缩写为英文缩写字符串abbr的概率(来自前述的英文缩写预测模型),P(word)表示候选单词word出现的频率,P(abbr)表示英文缩写字符串出现的频率。
据此,可计算出候选单词集中至少一个候选单词各自作为英文缩写字符串的英文全拼的概率。
在此基础上,可将概率符合预设要求的候选单词,作为英文缩写字符串对应的英文全拼。例如,将概率最大的候选单词,作为英文缩写字符串对应的英文全拼。
参考图3,可基于英文缩写字符串对应的英文全拼,可对字段名进行英文翻译,以生成字段名在英文理解维度下的理解结果。
正如前文提及的,字段名中可能包含英文缩写字符串,还可能包含其它字符,例如,英文全拼字符串。本实施例中,可将字段名中的英文缩写字符串替换为英文全拼,并将英文缩写字符串对应的英文全拼与字段名中的其它字符组合后,进行英文翻译,以产生字段名的字段注释。当然,也可将英文缩写字符串对应的英文全拼直接翻译为中文词组,并将翻译结果与字段名中的其它字符的理解结果进行拼接,产生字段名的字段注释。
本实施中,可为不同行业领域构建适配的英文单词库,这使得英文缩写还原的过程拥有了更加准确和合理的还原范围,可有效提高英文缩写还原的准确性。而且,采用编码序列的方式表征英文缩写字符串,可将英文缩写的预测问题转换成为分类问题,使得预测效率更高、预测结果更合理、更准确,进而也可有效提高英文缩写还原的准确性。
另外,本实施例中,在基于英文缩写与英文全拼之间的映射关系,确定英文缩写字符串对应的英文全拼过程中,还可利用英文缩写词典对英文缩写字符串进行识别,若确定英文缩写字符串存在于英文缩写词典中,则根据英文缩写词典,确定英文缩写字符串对应的英文全拼。而无需在执行确定候选单词等操作。
其中,英文缩写词典可以是行业领域中通用的词典,当然,也可以是经过其它官方或团体认证的通用的词典,本实施例对此不作限定。英文缩写词典中记录有英文缩写与英文全拼的对应关系。
据此,本实施例中,可预先判断英文缩写字符串是否出现在英文缩写词典中,若是,则可直接根据英文缩写词典确定英文全拼,若否,则可再根据前述实施例中提供的以英文缩写字符串作为最大公因子序列,从英文单词库中,确定与最大公因子序列匹配的至少一个候选单词以及其它后续操作,确定出英文缩写字符串的英文全拼。这可有效提高英文缩写还原的效率。
在上述或下述实施例中,字段名可能包含分隔字符。
本实施例中,若字段名中包含分隔字符,可根据分隔字符,将字段名分割多个字符段;针对第一字符段,从至少一种字符理解维度对第一字符段进行理解,以获得第一字符段在至少一种字符理解维度对应的理解结果;从至少一种理解结果中选择符合预设条件的目标理解结果,作为字段名的字段注释,包括:针对第一字符段,分别从其在至少一种字符理解维度对应的理解结果中选择符合预设条件的目标理解结果,将至少一个目标理解结果进行拼接,以生成第一字符段的字段注释。
其中,第一字符段可以是多个字符段中的任意一个。
字段名中的分割字符在多数情况下已到语义分割或者编码维度分割的作用。例如,字段名CUST_NO中的分隔字符“_”起到语义分割的作用,将字段名的语义分割为客户和号码。又例如,字段名BIRTH-riqi中的分隔字符“-”起到编码维度分割的作用,BIRTH采用英文编码维度,而riqi则采用拼音编码维度。
本实施例中,可根据分隔字符对字段名进行分割,并针对分割后获得的多个字符段,分别从前述实施例中的至少一个维度进行理解,以获得多个字符段各自的目标理解结果。在此基础上,可将多个字符段各自的目标理解结果进行拼接,以产生字段名对应的字段注释。
另外,本实施例中,对于字段名中的分隔字符,可保留至字段名的字段注释中,当然,也可直接删除,不再出现在字段注释中。这可根据实际需求或用户指令等进行灵活设置,本实施例对此不作限定。
本实施例中,可实现对字段名的分段理解,不同的字符段最终所采用的理解结果可能来自不同维度,这使得对字段名的理解更加准确,尤其是对于包含多个编码维度的混写类字段名,可有效保证其包含的不同编码维度下的字符段获得最准确的理解结果,有效提高最终生成的字段注释的准确性。
在上述或下述实施例中,基于为字段名生成的字段注释,可将字段名对应的字段注释补充至字段名所在的数据库中。
据此,可将生成的字段注释应用于数据库中,为数据库中的字段名添加字段注释。
本实施例中,还可基于字段名对应的字段注释以及字段名所在的数据库中的其它字段名对应的字段注释,构建数据库下字段名与字段注释之间的关联关系。
基于此,可以字段名与字段注释之间的关联关系作为访问数据库过程中的中间媒介,以保证访问者正确理解数据库中各字段名的含义。
实际应用中,可将字段名与字段注释之间的关联关系配置在相关的数据访问协议中,以使通信方按照相同的理解基础进行数据处理。
当然,对于字段注释的应用绝不仅限于此,本实施例中,生成的字段注释还可应用在其它处理事项中,在此不再穷举。
图4为本申请另一示例性实施例提供的一种字符串理解方法的流程示意图。本实施例提供的字符串理解方法可以由一字符串理解装置来执行,该字符串理解装置可以实现为软件或实现为软件和硬件的组合,该字符串理解装置可集成设置在计算设备中。如图4所示,该方法包括:
步骤400、获取待理解字符串;
步骤401、从至少一种维度对待处理字符串进行理解,以获得至少一种理解结果;
步骤402、从至少一种理解结果中选择符合预设条件的目标理解结果,作为待理解字符串的最终理解结果。
本实施例提供的字符串理解方法可应用于各种缩写还原的场景中。
例如,IM聊天工具中,聊天内容中涉及到的缩写字符串的还原。
再例如,输入法中对用户输入的缩写字符的含义预测。
又例如,医院期刊等学术期刊或者专业期刊中涉及到的专有名词的缩写的还原。
又例如,搜索场景下的搜索词句中涉及到的缩写字符串的还原,如电商场景下发生的商品搜索或搜索引擎中发生的搜索等。
又例如,数据库或电子表格中包含的缩写字符串的还原。
当然,还可应用于其它对缩写字符串进行理解的场景中,本实施例对应用场景不作限定。
对于不同的应用场景,待理解字符串的类型可能不完全相同。待理解字符串可以包括数据库中的字段名、聊天内容中的字符串、专业术语、搜索关键词中的一种或多种。例如,在数据库场景中,待理解字符串可以是字段名,在电子表格场景中,字符串可以是任意单元格中的内容。在其它场景中,待理解字符串还可以是文本中的一串字符,或者是代码文件中的一句代码等等。
据此,本实施例中,待理解字符串可以是任意含义未知的字符串,本实施例对待理解字符串的来源、规格、类型等不作限定。
本实施例提供的字符串理解方法,可实现对含义未知的字符串的还原。例如,在IM工具里面,打字聊天的时候,对聊天内容中缩写字符串的还原;学术期刊或者专业期刊,例如医院期刊里面专业术语的缩写的还原;搜索场景下关键词缩写的还原,如电商场景下的商品关键词,或搜索引擎下的搜索关键词等。
本实施例与图1a所示实施例的不同在于,本实施例中的待理解字符串不局限于前述实施例中的字段名。
基于相似的发明构思,本实施例中对于技术细节可参考前述关于最终理解结果生成方法的各实施例中的相关描述,为了节省篇幅,将不再展开详述技术细节,但这不应造成对本申请保护范围的损失。
以下仅示例性地描述几个代表性的实施例。
在一可选实施例中,至少一种维度包括拼音理解维度,步骤从拼音理解维度对待处理字符串进行理解,包括:
对待处理字符串进行拼音分词,以获得拼音序列,拼音序列中包含至少一个字符组,字符组中包含拼音全拼或拼音简写;
基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列对应的中文序列;
根据中文序列,生成待处理字符串在拼音理解维度下的理解结果。
在一可选实施例中,步骤对待处理字符串进行拼音分词,以获得拼音序列,包括:
将待处理字符串输入拼音分词模型;
在拼音分词模型中,识别待处理字符串中符合拼音全拼特征的至少一串连续字符以及不符合拼音全拼特征的至少一个单字符,分别作为字符组,以生成待处理字符串对应的拼音序列。
在一可选实施例中,步骤识别待处理字符串中符合拼音全拼特征的至少一串连续字符以及不符合拼音全拼特征的至少一个单字符,包括:
针对待处理字符串中的每个字符,根据字符的上下文及字符本身,确定字符符合拼音全拼下各拼写位置的状态特征的概率;
若字符符合拼音全拼下任意拼写位置的状态特征的概率满足预设条件,确定字符符合拼音全拼特征;
若字符符合拼音全拼下各拼写位置的状态特征的概率均不满足预设条件,确定字符为不符合拼音全拼特征的单字符。
在一可选实施例中,步骤在将待处理字符串输入拼音分词模型之前,还包括:
获取训练文本,并将训练文本转换为拼音全拼,以获得训练序列;
为训练序列中的字符标注所属的拼写位置;
将标注后的训练序列输入拼音分词模型,以供拼音分词模型学习拼音全拼下各拼写位置的状态特征,作为拼音全拼特征。
在一可选实施例中,拼音分词模型采用隐马尔可夫HMM模型。
在一可选实施例中,步骤基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列对应的中文序列,包括:
将拼音序列输入拼音理解模型;
在拼音理解模型中,基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列中的至少一个字符组各自对应的中文;根据至少一个字符组各自对应的中文,组成中文序列。
在一可选实施例中,步骤将拼音序列输入拼音理解模型,包括:
确定待处理字符串所处的目标行业领域;
将拼音序列以及目标行业领域输入拼音理解模型;
基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列中的至少一个字符组各自对应的中文,包括:
基于目标行业领域下的拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列中的至少一个字符组各自对应的中文。
在一可选实施例中,步骤在将拼音序列输入拼音理解模型之前,还包括:
获取训练文本,并将训练文本分割为单字序列;
将单字序列转换为拼音全拼序列以及拼音缩写序列;
以拼音全拼序列以及拼音缩写序列作为输入,以训练文本作为输出,训练拼音理解模型,以使拼音理解模型学习拼音全拼和/或拼音简写与中文之间的映射关系。
在一可选实施例中,拼音理解模型采用序列到序列seq2seq模型。
在一可选实施例中,步骤至少一个维度包括英文理解维度,从英文理解维度对待处理字符串进行理解,包括:
确定待处理字符串中包含的英文缩写字符串;
基于英文缩写与英文全拼之间的映射关系,确定英文缩写字符串对应的英文全拼;
基于英文缩写字符串对应的英文全拼,对待处理字符串进行英文翻译,以生成待处理字符串在英文理解维度下的理解结果。
在一可选实施例中,步骤基于英文缩写与英文全拼之间的映射关系,确定英文缩写字符串对应的英文全拼,包括:
以英文缩写字符串作为最大公因子序列,从英文单词库中,确定与最大公因子序列匹配的至少一个候选单词;
基于英文缩写与英文全拼之间的映射关系,计算至少一个候选单词各自作为英文缩写字符串的英文全拼的概率;
将概率符合预设要求的候选单词,作为英文缩写字符串对应的英文全拼。
在一可选实施例中,步骤基于英文缩写与英文全拼之间的映射关系,计算至少一个候选单词各自作为英文缩写字符串的英文全拼的概率,包括:
将英文缩写字符串输入英文缩写预测模型;并在英文缩写预测模型中,基于英文缩写与英文全拼之间的映射关系,计算至少一个候选单词缩写为英文缩写字符串的概率;
基于贝叶斯假设,根据英文缩写预测模型输出的至少一个候选单词缩写为英文缩写字符串的概率,计算至少一个候选单词各自作为英文缩写字符串的英文全拼的概率。
在一可选实施例中,英文缩写预测模型采用seq2seq模型。
在一可选实施例中,步骤将英文缩写字符串输入英文缩写预测模型之前,还包括:
获取包含样本英文单词和样本英文缩写的样本数据集;
在样本数据集中标注样本英文单词和样本英文缩写之间的对应关系;
将标注后的样本数据集输入英文缩写预测模型,以供英文缩写预测模型学习英文缩写与英文全拼之间的映射关系。
在一可选实施例中,步骤在样本数据集中标注样本英文单词和样本英文缩写之间的对应关系,包括:
对样本英文缩写进行编码,以获得样本英文缩写的编码序列,编码序列用于表征样本英文缩写与其对应的样本英文单词之间的公因子;
建立编码序列与样本英文单词之间的对应关系,以供英文缩写预测模型学习编码序列与英文全拼之间的映射关系。
在一可选实施例中,步骤基于英文缩写与英文全拼之间的映射关系,计算至少一个候选单词缩写为英文缩写字符串的概率,包括:
基于编码序列与英文全拼之间的映射关系,计算至少一个候选单词缩写为英文缩写字符串对应的编码序列的概率,作为至少一个候选单词缩写为英文缩写字符串的概率。
在一可选实施例中,步骤以英文缩写字符串作为最大公因子序列,从英文单词库中,确定与最大公因子序列匹配的至少一个候选单词,包括:
确定待处理字符串所处的目标行业领域;
以英文缩写字符串作为最大公因子序列,从目标行业领域对应的英文单词库中,确定与最大公因子序列匹配的至少一个候选单词。
在一可选实施例中,步骤以英文缩写字符串作为最大公因子序列,从英文单词库中,确定与最大公因子序列匹配的至少一个候选单词之前,还包括:
利用英文缩写词典对英文缩写字符串进行识别,若确定英文缩写字符串存在于英文缩写词典中,则根据英文缩写词典,确定英文缩写字符串对应的英文全拼;
若确定英文缩写字符串未存在于英文缩写词典中,则执行以英文缩写字符串作为最大公因子序列,从英文单词库中,确定与最大公因子序列匹配的至少一个候选单词的操作。
在一可选实施例中,步骤将英文缩写字符串输入英文缩写预测模型,包括:
确定待处理字符串所处的目标行业领域;
英文缩写字符串以及目标行业领域输入英文缩写预测模型;
基于英文缩写与英文全拼之间的映射关系,计算至少一个候选单词缩写为英文缩写字符串的概率,包括:
基于目标行业领域下的英文缩写与英文全拼之间的映射关系,计算至少一个候选单词缩写为英文缩写字符串的概率。
在一可选实施例中,步骤从至少一种理解结果中选择符合预设条件的目标理解结果,作为待处理字符串的最终理解结果,包括:
基于用语习惯知识,确定至少一种理解结果各自符合用语习惯的程度;
将程度最高的理解结果,作为待处理字符串的最终理解结果。
在一可选实施例中,步骤基于用语习惯知识,确定至少一种理解结果各自符合用语习惯的程度,包括:
将至少一种理解结果输入用语习惯评价模型;
在用语习惯评价模型中,基于用语习惯知识,计算至少一种理解结果各自符合用语习惯的概率,作为至少一种理解结果各自符合用语习惯的程度。
在一可选实施例中,步骤从至少一种字符理解维度对待处理字符串进行理解,以获得至少一种字符理解维度对应的理解结果,包括:
若待处理字符串中包含分隔字符,根据分隔字符,将待处理字符串分割多个字符段;
针对第一字符段,从至少一种字符理解维度对第一字符段进行理解,以获得第一字符段在至少一种字符理解维度对应的理解结果;
从至少一种理解结果中选择符合预设条件的目标理解结果,作为待处理字符串的最终理解结果,包括:
针对第一字符段,分别从其在至少一种字符理解维度对应的理解结果中选择符合预设条件的目标理解结果,将至少一个目标理解结果进行拼接,以生成第一字符段的最终理解结果;
其中,第一字符段为所述多个字符段中的任意一个。
在一可选实施例中,该方法还包括:
将待处理字符串对应的最终理解结果补充至待处理字符串所在的数据库中;或者
基于待处理字符串对应的最终理解结果以及待处理字符串所在的数据库中的其它待处理字符串对应的最终理解结果,构建数据库下待处理字符串与最终理解结果之间的关联关系。
需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤100至步骤102的执行主体可以为设备A;又比如,步骤100和101的执行主体可以为设备A,步骤102的执行主体可以为设备B;等等。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如100、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的字符段、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
图5为本申请又一示例性实施例提供的一种计算设备的结构示意图。如图5所示,该计算设备包括:存储器50和处理器51。
处理器51,与存储器50耦合,用于执行存储器50中的计算机程序,以用于:
获取待处理字段名;
从至少一种维度对字段名进行理解,以获得至少一种理解结果;
从至少一种理解结果中选择符合预设条件的目标理解结果,作为字段名的字段注释。
在一可选实施例中,至少一种维度包括拼音理解维度,处理器51在从拼音理解维度对字段名进行理解时,用于:
对字段名进行拼音分词,以获得拼音序列,拼音序列中包含至少一个字符组,字符组中包含拼音全拼或拼音简写;
基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列对应的中文序列;
根据中文序列,生成字段名在拼音理解维度下的理解结果。
在一可选实施例中,处理器51在对字段名进行拼音分词,以获得拼音序列时,用于:
将字段名输入拼音分词模型;
在拼音分词模型中,识别字段名中符合拼音全拼特征的至少一串连续字符以及不符合拼音全拼特征的至少一个单字符,分别作为字符组,以生成字段名对应的拼音序列。
在一可选实施例中,处理器51在识别字段名中符合拼音全拼特征的至少一串连续字符以及不符合拼音全拼特征的至少一个单字符时,用于:
针对字段名中的每个字符,根据字符的上下文及字符本身,确定字符符合拼音全拼下各拼写位置的状态特征的概率;
若字符符合拼音全拼下任意拼写位置的状态特征的概率满足预设条件,确定字符符合拼音全拼特征;
若字符符合拼音全拼下各拼写位置的状态特征的概率均不满足预设条件,确定字符为不符合拼音全拼特征的单字符。
在一可选实施例中,处理器51在将字段名输入拼音分词模型之前,还用于:
获取训练文本,并将训练文本转换为拼音全拼,以获得训练序列;
为训练序列中的字符标注所属的拼写位置;
将标注后的训练序列输入拼音分词模型,以供拼音分词模型学习拼音全拼下各拼写位置的状态特征,作为拼音全拼特征。
在一可选实施例中,拼音分词模型采用隐马尔可夫HMM模型。
在一可选实施例中,处理器51在基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列对应的中文序列时,用于:
将拼音序列输入拼音理解模型;
在拼音理解模型中,基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列中的至少一个字符组各自对应的中文;根据至少一个字符组各自对应的中文,组成中文序列。
在一可选实施例中,处理器51在将拼音序列输入拼音理解模型时,用于:
确定字段名所处的目标行业领域;
将拼音序列以及目标行业领域输入拼音理解模型;
基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列中的至少一个字符组各自对应的中文时,用于:
基于目标行业领域下的拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列中的至少一个字符组各自对应的中文。
在一可选实施例中,处理器51在将拼音序列输入拼音理解模型之前,还用于:
获取训练文本,并将训练文本分割为单字序列;
将单字序列转换为拼音全拼序列以及拼音缩写序列;
以拼音全拼序列以及拼音缩写序列作为输入,以训练文本作为输出,训练拼音理解模型,以使拼音理解模型学习拼音全拼和/或拼音简写与中文之间的映射关系。
在一可选实施例中,拼音理解模型采用序列到序列seq2seq模型。
在一可选实施例中,至少一个维度包括英文理解维度,处理器51在从英文理解维度对字段名进行理解时,用于:
确定字段名中包含的英文缩写字符串;
基于英文缩写与英文全拼之间的映射关系,确定英文缩写字符串对应的英文全拼;
基于英文缩写字符串对应的英文全拼,对字段名进行英文翻译,以生成字段名在英文理解维度下的理解结果。
在一可选实施例中,处理器51在基于英文缩写与英文全拼之间的映射关系,确定英文缩写字符串对应的英文全拼时,用于:
以英文缩写字符串作为最大公因子序列,从英文单词库中,确定与最大公因子序列匹配的至少一个候选单词;
基于英文缩写与英文全拼之间的映射关系,计算至少一个候选单词各自作为英文缩写字符串的英文全拼的概率;
将概率符合预设要求的候选单词,作为英文缩写字符串对应的英文全拼。
在一可选实施例中,处理器51在基于英文缩写与英文全拼之间的映射关系,计算至少一个候选单词各自作为英文缩写字符串的英文全拼的概率时,用于:
将英文缩写字符串输入英文缩写预测模型;并在英文缩写预测模型中,基于英文缩写与英文全拼之间的映射关系,计算至少一个候选单词缩写为英文缩写字符串的概率;
基于贝叶斯假设,根据英文缩写预测模型输出的至少一个候选单词缩写为英文缩写字符串的概率,计算至少一个候选单词各自作为英文缩写字符串的英文全拼的概率。
在一可选实施例中,英文缩写预测模型采用seq2seq模型。
在一可选实施例中,处理器51在将英文缩写字符串输入英文缩写预测模型之前,还用于:
获取包含样本英文单词和样本英文缩写的样本数据集;
在样本数据集中标注样本英文单词和样本英文缩写之间的对应关系;
将标注后的样本数据集输入英文缩写预测模型,以供英文缩写预测模型学习英文缩写与英文全拼之间的映射关系。
在一可选实施例中,处理器51在样本数据集中标注样本英文单词和样本英文缩写之间的对应关系时,用于:
对样本英文缩写进行编码,以获得样本英文缩写的编码序列,编码序列用于表征样本英文缩写与其对应的样本英文单词之间的公因子;
建立编码序列与样本英文单词之间的对应关系,以供英文缩写预测模型学习编码序列与英文全拼之间的映射关系。
在一可选实施例中,处理器51在基于英文缩写与英文全拼之间的映射关系,计算至少一个候选单词缩写为英文缩写字符串的概率时,用于:
基于编码序列与英文全拼之间的映射关系,计算至少一个候选单词缩写为英文缩写字符串对应的编码序列的概率,作为至少一个候选单词缩写为英文缩写字符串的概率。
在一可选实施例中,处理器51在以英文缩写字符串作为最大公因子序列,从英文单词库中,确定与最大公因子序列匹配的至少一个候选单词时,用于:
确定字段名所处的目标行业领域;
以英文缩写字符串作为最大公因子序列,从目标行业领域对应的英文单词库中,确定与最大公因子序列匹配的至少一个候选单词。
在一可选实施例中,处理器51在将英文缩写字符串输入英文缩写预测模型时,用于:
确定字段名所处的目标行业领域;
英文缩写字符串以及目标行业领域输入英文缩写预测模型;
基于英文缩写与英文全拼之间的映射关系,计算至少一个候选单词缩写为英文缩写字符串的概率时,用于:
基于目标行业领域下的英文缩写与英文全拼之间的映射关系,计算至少一个候选单词缩写为英文缩写字符串的概率。
在一可选实施例中,处理器51在从至少一种理解结果中选择符合预设条件的目标理解结果,作为字段名的字段注释时,用于:
基于用语习惯知识,确定至少一种理解结果各自符合用语习惯的程度;
将程度最高的理解结果,作为字段名的字段注释。
在一可选实施例中,处理器51在以英文缩写字符串作为最大公因子序列,从英文单词库中,确定与最大公因子序列匹配的至少一个候选单词之前,还用于:
利用英文缩写词典对英文缩写字符串进行识别,若确定英文缩写字符串存在于英文缩写词典中,则根据英文缩写词典,确定英文缩写字符串对应的英文全拼;
若确定英文缩写字符串未存在于英文缩写词典中,则执行以英文缩写字符串作为最大公因子序列,从英文单词库中,确定与最大公因子序列匹配的至少一个候选单词的操作。
在一可选实施例中,处理器51在基于用语习惯知识,确定至少一种理解结果各自符合用语习惯的程度时,用于:
将至少一种理解结果输入用语习惯评价模型;
在用语习惯评价模型中,基于用语习惯知识,计算至少一种理解结果各自符合用语习惯的概率,作为至少一种理解结果各自符合用语习惯的程度。
在一可选实施例中,处理器51在从至少一种字符理解维度对字段名进行理解,以获得至少一种字符理解维度对应的理解结果时,用于:
若字段名中包含分隔字符,根据分隔字符,将字段名分割多个字符段;
针对第一字符段,从至少一种字符理解维度对第一字符段进行理解,以获得第一字符段在至少一种字符理解维度对应的理解结果;
从至少一种理解结果中选择符合预设条件的目标理解结果,作为字段名的字段注释时,用于:
针对第一字符段,分别从其在至少一种字符理解维度对应的理解结果中选择符合预设条件的目标理解结果,将至少一个目标理解结果进行拼接,以生成第一字符段的字段注释;
其中,第一字符段为所述多个字符段中的任意一个。
在一可选实施例中,处理器51还用于:
将字段名对应的字段注释补充至字段名所在的数据库中;或者
基于字段名对应的字段注释以及字段名所在的数据库中的其它字段名对应的字段注释,构建数据库下字段名与字段注释之间的关联关系。
值得说明的是,上述关于计算设备的各实施例中的技术细节,可参考前述字段注释生成方法的各实施例中的相关描述,为节省篇幅,在此不再赘述,但这不应造成本申请保护范围的损失。
进一步,如图5所示,该计算设备还包括:通信组件52、电源组件53等其它组件。图5中仅示意性给出部分组件,并不意味着计算设备只包括图5所示组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由计算设备执行的各步骤。
图6为本申请又一实施例提供的另一种计算设备的结构示意图。如图6所示,该计算设备包括:存储器60和处理器61。
处理器61,与存储器60耦合,用于执行存储器60中的计算机程序,以用于:
获取待理解字符串;
从至少一种维度对待理解字符串进行理解,以获得至少一种理解结果;
从至少一种理解结果中选择符合预设条件的目标理解结果,作为待理解字符串的最终理解结果。
在一可选实施例中,至少一种维度包括拼音理解维度,处理器61在从拼音理解维度对待处理字符串进行理解时,用于:
对待处理字符串进行拼音分词,以获得拼音序列,拼音序列中包含至少一个字符组,字符组中包含拼音全拼或拼音简写;
基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列对应的中文序列;
根据中文序列,生成待处理字符串在拼音理解维度下的理解结果。
在一可选实施例中,处理器61在对待处理字符串进行拼音分词,以获得拼音序列时,用于:
将待处理字符串输入拼音分词模型;
在拼音分词模型中,识别待处理字符串中符合拼音全拼特征的至少一串连续字符以及不符合拼音全拼特征的至少一个单字符,分别作为字符组,以生成待处理字符串对应的拼音序列。
在一可选实施例中,处理器61在识别待处理字符串中符合拼音全拼特征的至少一串连续字符以及不符合拼音全拼特征的至少一个单字符时,用于:
针对待处理字符串中的每个字符,根据字符的上下文及字符本身,确定字符符合拼音全拼下各拼写位置的状态特征的概率;
若字符符合拼音全拼下任意拼写位置的状态特征的概率满足预设条件,确定字符符合拼音全拼特征;
若字符符合拼音全拼下各拼写位置的状态特征的概率均不满足预设条件,确定字符为不符合拼音全拼特征的单字符。
在一可选实施例中,处理器61在在将待处理字符串输入拼音分词模型之前,还用于:
获取训练文本,并将训练文本转换为拼音全拼,以获得训练序列;
为训练序列中的字符标注所属的拼写位置;
将标注后的训练序列输入拼音分词模型,以供拼音分词模型学习拼音全拼下各拼写位置的状态特征,作为拼音全拼特征。
在一可选实施例中,拼音分词模型采用隐马尔可夫HMM模型。
在一可选实施例中,处理器61在基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列对应的中文序列时,用于:
将拼音序列输入拼音理解模型;
在拼音理解模型中,基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列中的至少一个字符组各自对应的中文;根据至少一个字符组各自对应的中文,组成中文序列。
在一可选实施例中,处理器61在将拼音序列输入拼音理解模型时,用于:
确定待处理字符串所处的目标行业领域;
将拼音序列以及目标行业领域输入拼音理解模型;
基于拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列中的至少一个字符组各自对应的中文时,用于:
基于目标行业领域下的拼音全拼和/或拼音简写与中文之间的映射关系,确定拼音序列中的至少一个字符组各自对应的中文。
在一可选实施例中,处理器61在在将拼音序列输入拼音理解模型之前,还用于:
获取训练文本,并将训练文本分割为单字序列;
将单字序列转换为拼音全拼序列以及拼音缩写序列;
以拼音全拼序列以及拼音缩写序列作为输入,以训练文本作为输出,训练拼音理解模型,以使拼音理解模型学习拼音全拼和/或拼音简写与中文之间的映射关系。
在一可选实施例中,拼音理解模型采用序列到序列seq2seq模型。
在一可选实施例中,处理器61在至少一个维度包括英文理解维度,从英文理解维度对待处理字符串进行理解时,用于:
确定待处理字符串中包含的英文缩写字符串;
基于英文缩写与英文全拼之间的映射关系,确定英文缩写字符串对应的英文全拼;
基于英文缩写字符串对应的英文全拼,对待处理字符串进行英文翻译,以生成待处理字符串在英文理解维度下的理解结果。
在一可选实施例中,处理器61在基于英文缩写与英文全拼之间的映射关系,确定英文缩写字符串对应的英文全拼时,用于:
以英文缩写字符串作为最大公因子序列,从英文单词库中,确定与最大公因子序列匹配的至少一个候选单词;
基于英文缩写与英文全拼之间的映射关系,计算至少一个候选单词各自作为英文缩写字符串的英文全拼的概率;
将概率符合预设要求的候选单词,作为英文缩写字符串对应的英文全拼。
在一可选实施例中,处理器61在基于英文缩写与英文全拼之间的映射关系,计算至少一个候选单词各自作为英文缩写字符串的英文全拼的概率时,用于:
将英文缩写字符串输入英文缩写预测模型;并在英文缩写预测模型中,基于英文缩写与英文全拼之间的映射关系,计算至少一个候选单词缩写为英文缩写字符串的概率;
基于贝叶斯假设,根据英文缩写预测模型输出的至少一个候选单词缩写为英文缩写字符串的概率,计算至少一个候选单词各自作为英文缩写字符串的英文全拼的概率。
在一可选实施例中,英文缩写预测模型采用seq2seq模型。
在一可选实施例中,处理器61在将英文缩写字符串输入英文缩写预测模型之前,还用于:
获取包含样本英文单词和样本英文缩写的样本数据集;
在样本数据集中标注样本英文单词和样本英文缩写之间的对应关系;
将标注后的样本数据集输入英文缩写预测模型,以供英文缩写预测模型学习英文缩写与英文全拼之间的映射关系。
在一可选实施例中,处理器61在在样本数据集中标注样本英文单词和样本英文缩写之间的对应关系时,用于:
对样本英文缩写进行编码,以获得样本英文缩写的编码序列,编码序列用于表征样本英文缩写与其对应的样本英文单词之间的公因子;
建立编码序列与样本英文单词之间的对应关系,以供英文缩写预测模型学习编码序列与英文全拼之间的映射关系。
在一可选实施例中,处理器61在基于英文缩写与英文全拼之间的映射关系,计算至少一个候选单词缩写为英文缩写字符串的概率时,用于:
基于编码序列与英文全拼之间的映射关系,计算至少一个候选单词缩写为英文缩写字符串对应的编码序列的概率,作为至少一个候选单词缩写为英文缩写字符串的概率。
在一可选实施例中,处理器61在以英文缩写字符串作为最大公因子序列,从英文单词库中,确定与最大公因子序列匹配的至少一个候选单词之前,还用于:
利用英文缩写词典对英文缩写字符串进行识别,若确定英文缩写字符串存在于英文缩写词典中,则根据英文缩写词典,确定英文缩写字符串对应的英文全拼;
若确定英文缩写字符串未存在于英文缩写词典中,则执行以英文缩写字符串作为最大公因子序列,从英文单词库中,确定与最大公因子序列匹配的至少一个候选单词的操作。
在一可选实施例中,处理器61在以英文缩写字符串作为最大公因子序列,从英文单词库中,确定与最大公因子序列匹配的至少一个候选单词时,用于:
确定待处理字符串所处的目标行业领域;
以英文缩写字符串作为最大公因子序列,从目标行业领域对应的英文单词库中,确定与最大公因子序列匹配的至少一个候选单词。
在一可选实施例中,处理器61在将英文缩写字符串输入英文缩写预测模型时,用于:
确定待处理字符串所处的目标行业领域;
英文缩写字符串以及目标行业领域输入英文缩写预测模型;
基于英文缩写与英文全拼之间的映射关系,计算至少一个候选单词缩写为英文缩写字符串的概率时,用于:
基于目标行业领域下的英文缩写与英文全拼之间的映射关系,计算至少一个候选单词缩写为英文缩写字符串的概率。
在一可选实施例中,处理器61在从至少一种理解结果中选择符合预设条件的目标理解结果,作为待处理字符串的最终理解结果时,用于:
基于用语习惯知识,确定至少一种理解结果各自符合用语习惯的程度;
将程度最高的理解结果,作为待处理字符串的最终理解结果。
在一可选实施例中,处理器61在基于用语习惯知识,确定至少一种理解结果各自符合用语习惯的程度时,用于:
将至少一种理解结果输入用语习惯评价模型;
在用语习惯评价模型中,基于用语习惯知识,计算至少一种理解结果各自符合用语习惯的概率,作为至少一种理解结果各自符合用语习惯的程度。
在一可选实施例中,处理器61在从至少一种字符理解维度对待处理字符串进行理解,以获得至少一种字符理解维度对应的理解结果时,用于:
若待处理字符串中包含分隔字符,根据分隔字符,将待处理字符串分割多个字符段;
针对第一字符段,从至少一种字符理解维度对第一字符段进行理解,以获得第一字符段在至少一种字符理解维度对应的理解结果;
从至少一种理解结果中选择符合预设条件的目标理解结果,作为待处理字符串的最终理解结果时,用于:
针对第一字符段,分别从其在至少一种字符理解维度对应的理解结果中选择符合预设条件的目标理解结果,将至少一个目标理解结果进行拼接,以生成第一字符段的最终理解结果;
其中,第一字符段为所述多个字符段中的任意一个。
在一可选实施例中,处理器61还用于:
将待处理字符串对应的最终理解结果补充至待处理字符串所在的数据库中;或者
基于待处理字符串对应的最终理解结果以及待处理字符串所在的数据库中的其它待处理字符串对应的最终理解结果,构建数据库下待处理字符串与最终理解结果之间的关联关系。
值得说明的是,上述关于计算设备的各实施例中的技术细节,可参考前述字符串理解方法的各实施例中的相关描述,为节省篇幅,在此不再赘述,但这不应造成本申请保护范围的损失。
进一步,如图6所示,该计算设备还包括:通信组件62、电源组件63等其它组件。图6中仅示意性给出部分组件,并不意味着计算设备只包括图6所示组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由计算设备执行的各步骤。
其中,图5和图6中的存储器,用于存储计算机程序,并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
其中,图5和图6中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G/LTE、5G等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
其中,图5和图6中的电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (22)
1.一种字段注释生成方法,其特征在于,包括:
获取待处理的字段名;
从至少一种维度对所述字段名进行理解,以获得至少一种理解结果;
从所述至少一种理解结果中选择符合预设条件的目标理解结果,作为所述字段名的字段注释;
其中,所述至少一种维度包括拼音理解维度,从所述拼音理解维度对所述字段名进行理解,包括:
将所述字段名输入拼音分词模型;
在所述拼音分词模型中,针对所述字段名中的每个字符,根据所述字符的上下文及所述字符本身,确定所述字符符合拼音全拼下各拼写位置的状态特征的概率;
若所述字符符合拼音全拼下任意拼写位置的状态特征的概率满足预设条件,确定所述字符符合所述拼音全拼特征;
若所述字符符合拼音全拼下各拼写位置的状态特征的概率均不满足所述预设条件,确定所述字符为不符合所述拼音全拼特征的单字符;
将符合拼音全拼特征的至少一串连续字符以及不符合所述拼音全拼特征的至少一个单字符,分别作为字符组,以生成所述字段名对应的拼音序列,所述拼音序列中包含至少一个字符组,所述字符组中包含拼音全拼或拼音简写;
基于拼音全拼和/或拼音简写与中文之间的映射关系,确定所述拼音序列对应的中文序列;
根据所述中文序列,生成所述字段名在所述拼音理解维度下的理解结果。
2.根据权利要求1所述的方法,其特征在于,在将所述字段名输入拼音分词模型之前,还包括:
获取训练文本,并将所述训练文本转换为拼音全拼,以获得训练序列;
为所述训练序列中的字符标注所属的拼写位置;
将标注后的所述训练序列输入所述拼音分词模型,以供所述拼音分词模型学习所述拼音全拼下各拼写位置的状态特征,作为所述拼音全拼特征。
3.根据权利要求1所述的方法,其特征在于,所述拼音分词模型采用隐马尔可夫HMM模型。
4.根据权利要求1所述的方法,其特征在于,所述基于拼音全拼和/或拼音简写与中文之间的映射关系,确定所述拼音序列对应的中文序列,包括:
将所述拼音序列输入拼音理解模型;
在所述拼音理解模型中,基于拼音全拼和/或拼音简写与中文之间的映射关系,确定所述拼音序列中的至少一个字符组各自对应的中文;根据所述至少一个字符组各自对应的中文,组成所述中文序列。
5.根据权利要求4所述的方法,其特征在于,所述将所述拼音序列输入拼音理解模型,包括:
确定所述字段名所处的目标行业领域;
将所述拼音序列以及所述目标行业领域输入所述拼音理解模型;
所述基于拼音全拼和/或拼音简写与中文之间的映射关系,确定所述拼音序列中的至少一个字符组各自对应的中文,包括:
基于所述目标行业领域下的拼音全拼和/或拼音简写与中文之间的映射关系,确定所述拼音序列中的至少一个字符组各自对应的中文。
6.根据权利要求5所述的方法,其特征在于,在将所述拼音序列输入拼音理解模型之前,还包括:
获取训练文本,并将所述训练文本分割为单字序列;
将所述单字序列转换为拼音全拼序列以及拼音缩写序列;
以所述拼音全拼序列以及所述拼音缩写序列作为输入,以所述训练文本作为输出,训练所述拼音理解模型,以使所述拼音理解模型学习拼音全拼和/或拼音简写与中文之间的映射关系。
7.根据权利要求4所述的方法,其特征在于,所述拼音理解模型采用序列到序列seq2seq模型。
8.根据权利要求1所述的方法,其特征在于,所述至少一个维度包括英文理解维度,从所述英文理解维度对所述字段名进行理解,包括:
确定所述字段名中包含的英文缩写字符串;
基于英文缩写与英文全拼之间的映射关系,确定所述英文缩写字符串对应的英文全拼;
基于所述英文缩写字符串对应的英文全拼,对所述字段名进行英文翻译,以生成所述字段名在所述英文理解维度下的理解结果。
9.根据权利要求8所述的方法,其特征在于,所述基于英文缩写与英文全拼之间的映射关系,确定所述英文缩写字符串对应的英文全拼,包括:
以所述英文缩写字符串作为最大公因子序列,从英文单词库中,确定与所述最大公因子序列匹配的至少一个候选单词;
基于英文缩写与英文全拼之间的映射关系,计算所述至少一个候选单词各自作为所述英文缩写字符串的英文全拼的概率;
将概率符合预设要求的候选单词,作为所述英文缩写字符串对应的英文全拼。
10.根据权利要求9所述的方法,其特征在于,所述基于英文缩写与英文全拼之间的映射关系,计算所述至少一个候选单词各自作为所述英文缩写字符串的英文全拼的概率,包括:
将所述英文缩写字符串输入英文缩写预测模型;并在所述英文缩写预测模型中,基于英文缩写与英文全拼之间的映射关系,计算所述至少一个候选单词缩写为所述英文缩写字符串的概率;
基于贝叶斯假设,根据所述英文缩写预测模型输出的至少一个候选单词缩写为所述英文缩写字符串的概率,计算所述至少一个候选单词各自作为所述英文缩写字符串的英文全拼的概率。
11.根据权利要求10所述的方法,其特征在于,所述英文缩写预测模型采用seq2seq模型。
12.根据权利要求10所述的方法,其特征在于,所述将所述英文缩写字符串输入英文缩写预测模型之前,还包括:
获取包含样本英文单词和样本英文缩写的样本数据集;
在所述样本数据集中标注样本英文单词和样本英文缩写之间的对应关系;
将标注后的样本数据集输入所述英文缩写预测模型,以供所述英文缩写预测模型学习所述英文缩写与英文全拼之间的映射关系。
13.根据权利要求12所述的方法,其特征在于,所述在所述样本数据集中标注样本英文单词和样本英文缩写之间的对应关系,包括:
对所述样本英文缩写进行编码,以获得所述样本英文缩写的编码序列,所述编码序列用于表征所述样本英文缩写与其对应的样本英文单词之间的公因子;
建立编码序列与所述样本英文单词之间的对应关系,以供所述英文缩写预测模型学习所述编码序列与英文全拼之间的映射关系。
14.根据权利要求13所述的方法,其特征在于,所述基于英文缩写与英文全拼之间的映射关系,计算所述至少一个候选单词缩写为所述英文缩写字符串的概率,包括:
基于所述编码序列与英文全拼之间的映射关系,计算所述至少一个候选单词缩写为所述英文缩写字符串对应的编码序列的概率,作为所述至少一个候选单词缩写为所述英文缩写字符串的概率。
15.根据权利要求9所述的方法,其特征在于,所述以所述英文缩写字符串作为最大公因子序列,从英文单词库中,确定与所述最大公因子序列匹配的至少一个候选单词,包括:
确定所述字段名所处的目标行业领域;
以所述英文缩写字符串作为最大公因子序列,从所述目标行业领域对应的英文单词库中,确定与所述最大公因子序列匹配的至少一个候选单词。
16.根据权利要求9所述的方法,其特征在于,所述以所述英文缩写字符串作为最大公因子序列,从英文单词库中,确定与所述最大公因子序列匹配的至少一个候选单词之前,还包括:
利用英文缩写词典对英文缩写字符串进行识别,若确定英文缩写字符串存在于英文缩写词典中,则根据英文缩写词典,确定英文缩写字符串对应的英文全拼;
若确定英文缩写字符串未存在于英文缩写词典中,则执行所述以所述英文缩写字符串作为最大公因子序列,从英文单词库中,确定与所述最大公因子序列匹配的至少一个候选单词的操作。
17.根据权利要求10所述的方法,其特征在于,所述将所述英文缩写字符串输入英文缩写预测模型,包括:
确定所述字段名所处的目标行业领域;
所述英文缩写字符串以及所述目标行业领域输入英文缩写预测模型;
所述基于英文缩写与英文全拼之间的映射关系,计算所述至少一个候选单词缩写为所述英文缩写字符串的概率,包括:
基于所述目标行业领域下的英文缩写与英文全拼之间的映射关系,计算所述至少一个候选单词缩写为所述英文缩写字符串的概率。
18.根据权利要求1所述的方法,其特征在于,所述从所述至少一种理解结果中选择符合预设条件的目标理解结果,作为所述字段名的字段注释,包括:
基于用语习惯知识,确定所述至少一种理解结果各自符合用语习惯的程度;
将符合用语习惯的程度最高的理解结果,作为所述字段名的字段注释。
19.根据权利要求18所述的方法,其特征在于,所述基于用语习惯知识,确定所述至少一种理解结果各自符合用语习惯的程度,包括:
将所述至少一种理解结果输入用语习惯评价模型,所述用语习惯评价模型预先学习用语习惯知识;
在所述用语习惯评价模型中,基于所述用语习惯知识,计算所述至少一种理解结果各自符合用语习惯的概率,作为所述至少一种理解结果各自符合用语习惯的程度。
20.根据权利要求1所述的方法,其特征在于,所述从至少一种字符理解维度对所述字段名进行理解,以获得所述至少一种字符理解维度对应的理解结果,包括:
若所述字段名中包含分隔字符,根据所述分隔字符,将所述字段名分割多个字符段;
针对第一字符段,从至少一种字符理解维度对所述第一字符段进行理解,以获得所述第一字符段在所述至少一种字符理解维度对应的理解结果;
所述从所述至少一种理解结果中选择符合预设条件的目标理解结果,作为所述字段名的字段注释,包括:
针对所述第一字符段,分别从其在所述至少一种字符理解维度对应的理解结果中选择符合所述预设条件的目标理解结果,将所述至少一个目标理解结果进行拼接,以生成所述第一字符段的字段注释;
其中,第一字符段为所述多个字符段的中的任意一个。
21.根据权利要求1所述的方法,其特征在于,还包括:
将所述字段名对应的字段注释补充至所述字段名所在的数据库中;或者
基于所述字段名对应的字段注释以及所述字段名所在的数据库中的其它字段名对应的字段注释,构建所述数据库下字段名与字段注释之间的关联关系。
22.一种存储计算机指令的计算机可读存储介质,其特征在于,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行权利要求1-21任一项所述的字段注释生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010425705.3A CN113688615B (zh) | 2020-05-19 | 2020-05-19 | 一种字段注释生成、字符串理解方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010425705.3A CN113688615B (zh) | 2020-05-19 | 2020-05-19 | 一种字段注释生成、字符串理解方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113688615A CN113688615A (zh) | 2021-11-23 |
CN113688615B true CN113688615B (zh) | 2024-02-27 |
Family
ID=78576081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010425705.3A Active CN113688615B (zh) | 2020-05-19 | 2020-05-19 | 一种字段注释生成、字符串理解方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113688615B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115455987B (zh) * | 2022-11-14 | 2023-05-05 | 合肥高维数据技术有限公司 | 基于字频词频的字符分组方法、存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0528324A (ja) * | 1991-07-23 | 1993-02-05 | Matsushita Electric Ind Co Ltd | 英文字認識装置 |
CN105095194A (zh) * | 2014-05-23 | 2015-11-25 | 富士通株式会社 | 抽取姓名词典和翻译规则表的方法和设备 |
CN106933972A (zh) * | 2017-02-14 | 2017-07-07 | 杭州数梦工场科技有限公司 | 利用自然语言处理技术定义数据元素的方法以及装置 |
CN109902090A (zh) * | 2019-02-19 | 2019-06-18 | 北京明略软件系统有限公司 | 字段名称获取方法和装置 |
CN110569505A (zh) * | 2019-09-04 | 2019-12-13 | 平顶山学院 | 一种文本输入方法及装置 |
-
2020
- 2020-05-19 CN CN202010425705.3A patent/CN113688615B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0528324A (ja) * | 1991-07-23 | 1993-02-05 | Matsushita Electric Ind Co Ltd | 英文字認識装置 |
CN105095194A (zh) * | 2014-05-23 | 2015-11-25 | 富士通株式会社 | 抽取姓名词典和翻译规则表的方法和设备 |
CN106933972A (zh) * | 2017-02-14 | 2017-07-07 | 杭州数梦工场科技有限公司 | 利用自然语言处理技术定义数据元素的方法以及装置 |
CN109902090A (zh) * | 2019-02-19 | 2019-06-18 | 北京明略软件系统有限公司 | 字段名称获取方法和装置 |
CN110569505A (zh) * | 2019-09-04 | 2019-12-13 | 平顶山学院 | 一种文本输入方法及装置 |
Non-Patent Citations (3)
Title |
---|
Necati Cihan Camgoz ; 等.Neural_Sign_Language_Translation.《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition 》.2018,全文. * |
基于隐马尔可夫过程的藏语语音预测初探;马明;刘华;;西北民族大学学报(自然科学版)(02);全文 * |
科技英文缩写词构词方法之我见;杨巍纳;;科技与出版(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113688615A (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145294B (zh) | 文本实体识别方法及装置、电子设备、存储介质 | |
CN111309915A (zh) | 联合学习的自然语言训练方法、系统、设备及存储介质 | |
CN110276071B (zh) | 一种文本匹配方法、装置、计算机设备及存储介质 | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN111814482B (zh) | 文本关键数据的提取方法、系统和计算机设备 | |
CN111079432B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
WO2021174871A1 (zh) | 数据查询方法、系统、计算机设备及存储介质 | |
US11645447B2 (en) | Encoding textual information for text analysis | |
CN112347241A (zh) | 一种摘要提取方法、装置、设备及存储介质 | |
CN112417823B (zh) | 一种中文文本语序调整和量词补全方法及系统 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN116861269A (zh) | 工程领域的多源异构数据融合及分析方法 | |
CN113688615B (zh) | 一种字段注释生成、字符串理解方法、设备及存储介质 | |
CN114861630A (zh) | 信息获取及相关模型的训练方法、装置、电子设备和介质 | |
CN109190112B (zh) | 基于双通道特征融合的专利分类方法、系统及存储介质 | |
Bender et al. | Unsupervised estimation of subjective content descriptions | |
RU2546064C1 (ru) | Распределенная система и способ языкового перевода | |
CN114254622B (zh) | 一种意图识别方法和装置 | |
CN115115432B (zh) | 基于人工智能的产品信息推荐方法及装置 | |
CN116028608A (zh) | 问答交互方法、装置、计算机设备及可读存储介质 | |
CN115203206A (zh) | 数据内容搜索方法、装置、计算机设备及可读存储介质 | |
CN111626059B (zh) | 一种信息处理方法及装置 | |
CN114625889A (zh) | 一种语义消歧方法、装置、电子设备及存储介质 | |
CN111199170B (zh) | 配方文件识别方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40064489 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |