CN116719424B - 一种类型识别模型的确定方法及相关装置 - Google Patents

一种类型识别模型的确定方法及相关装置 Download PDF

Info

Publication number
CN116719424B
CN116719424B CN202310998311.0A CN202310998311A CN116719424B CN 116719424 B CN116719424 B CN 116719424B CN 202310998311 A CN202310998311 A CN 202310998311A CN 116719424 B CN116719424 B CN 116719424B
Authority
CN
China
Prior art keywords
error
strings
character
character strings
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310998311.0A
Other languages
English (en)
Other versions
CN116719424A (zh
Inventor
谢贵才
张伟
黄泽谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202310998311.0A priority Critical patent/CN116719424B/zh
Publication of CN116719424A publication Critical patent/CN116719424A/zh
Application granted granted Critical
Publication of CN116719424B publication Critical patent/CN116719424B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开一种类型识别模型的确定方法及相关装置,用于人工智能领域。方法包括:获取第一字符串类型的多个第一正确字符串、第二字符串类型的多个第二正确字符串;以此选取多个待编辑字符串;按照字符串的输入错误类型进行错误编辑,得到第一字符串类型的多个第一错误字符串和第二字符串类型的多个第二错误字符串;将多个第一正确字符串和多个第一错误字符串作为多个第一字符串;将多个第二正确字符串和多个第二错误字符串作为多个第二字符串;通过多个第一字符串、对应的第一字符串类型、多个第二字符串、对应的第二字符串类型,训练初始识别模型得到类型识别模型。即使字符串存在输入错误,类型识别模型也可准确识别字符串的字符串类型。

Description

一种类型识别模型的确定方法及相关装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种类型识别模型的确定方法及相关装置。
背景技术
目前,大多数情况下通过输入字符串与计算机设备等进行交互。其中,字符串的字符串类型各种各样,需要识别字符串的字符串类型,以区分不同字符串类型的字符串。
相关技术中,识别字符串的字符串类型是指:通过不同字符串类型的字符串字典与字符串进行匹配,将字符串匹配到字符串字典的字符串类型作为字符串的字符串类型。
然而,在字符串存在输入错误的情况下,通过不同字符串类型的字符串字典与字符串进行匹配,字符串无法匹配到字符串字典,或匹配到字符串字典的字符串类型与字符串的实际字符串类型不符,导致字符串的类型识别结果较差。
发明内容
为了解决上述技术问题,本申请提供了一种类型识别模型的确定方法及相关装置,即使在字符串存在输入错误的情况下,类型识别模型也能够准确地识别字符串的字符串类型,从而提升字符串的类型识别准确率。
本申请实施例公开了如下技术方案:
一方面,本申请实施例提供一种类型识别模型的确定方法,所述方法包括:
获取第一字符串类型的多个第一正确字符串和第二字符串类型的多个第二正确字符串;所述第一字符串类型与所述第二字符串类型不同;
从所述多个第一正确字符串和所述多个第二正确字符串中选取多个待编辑字符串;
根据所述多个待编辑字符串和字符串的输入错误类型进行错误编辑,获得所述第一字符串类型的多个第一错误字符串和所述第二字符串类型的多个第二错误字符串;
将所述多个第一正确字符串和所述多个第一错误字符串确定为多个第一字符串;将所述多个第二正确字符串和所述多个第二错误字符串确定为多个第二字符串;
根据所述多个第一字符串、所述多个第一字符串对应的所述第一字符串类型、所述多个第二字符串和所述多个第二字符串对应的所述第二字符串类型,对初始识别模型进行训练获得类型识别模型。
另一方面,本申请实施例提供一种类型识别模型的确定装置,所述装置包括:获取单元、选取单元、编辑单元、确定单元和训练单元;
所述获取单元,用于获取第一字符串类型的多个第一正确字符串和第二字符串类型的多个第二正确字符串;所述第一字符串类型与所述第二字符串类型不同;
所述选取单元,用于从所述多个第一正确字符串和所述多个第二正确字符串中选取多个待编辑字符串;
所述编辑单元,用于根据所述多个待编辑字符串和字符串的输入错误类型进行错误编辑,获得所述第一字符串类型的多个第一错误字符串和所述第二字符串类型的多个第二错误字符串;
所述确定单元,用于将所述多个第一正确字符串和所述多个第一错误字符串确定为多个第一字符串;将所述多个第二正确字符串和所述多个第二错误字符串确定为多个第二字符串;
所述训练单元,用于根据所述多个第一字符串、所述多个第一字符串对应的所述第一字符串类型、所述多个第二字符串和所述多个第二字符串对应的所述第二字符串类型,对初始识别模型进行训练获得类型识别模型。
另一方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器用于根据所述计算机程序中的指令执行前述任一方面所述的方法。
另一方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行前述任一方面所述的方法。
另一方面,本申请实施例提供一种计算机程序产品,包括计算机程序,当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行前述任一方面所述的方法。
由上述技术方案可以看出,首先,获取第一字符串类型的多个第一正确字符串、以及与第一字符串类型不同的第二字符串类型的多个第二正确字符串;该方式能够收集不同字符串类型的多个正确字符串。其次,基于多个第一正确字符串和多个第二正确字符串,选取多个待编辑字符串;按照字符串的输入错误类型对多个待编辑字符串进行错误编辑,得到第一字符串类型的多个第一错误字符串和第二字符串类型的多个第二错误字符串;该方式在不同字符串类型的多个正确字符串基础上,能够基于字符串的输入错误类型构建出不同字符串类型的多个错误字符串。然后,将多个第一正确字符串和多个第一错误字符串作为多个第一字符串;将多个第二正确字符串和多个第二错误字符串作为多个第二字符串;该方式能够使得不同字符串类型中相同字符串类型的多个字符串既包括正确字符串又包括错误字符串。最后,通过多个第一字符串、多个第一字符串对应的第一字符串类型、多个第二字符串和多个第二字符串对应的第二字符串类型,训练初始识别模型得到类型识别模型;该方式能够挖掘并学习正确字符串与字符串类型的对应关系、以及错误字符串与字符串类型的对应关系,使得类型识别模型能够更准确地识别字符串的字符串类型。基于此,即使在字符串存在输入错误的情况下,类型识别模型也能够准确地识别字符串的字符串类型,从而提升字符串的类型识别准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术成员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种类型识别模型的确定方法的系统架构示意图;
图2为本申请实施例提供的一种类型识别模型的确定方法的流程图;
图3为本申请实施例提供的一种字符串的输入错误类型的示意图;
图4为本申请实施例提供的一种基于拼音字符串和英文字符串确定类型识别模型的方法流程图;
图5为本申请实施例提供的一种初始识别模型的示意图;
图6为本申请实施例提供的一种字符串类型的识别方法的流程图;
图7为本申请实施例提供的一种类型识别模型的确定装置的结构图;
图8为本申请实施例提供的一种服务器的结构图;
图9为本申请实施例提供的一种终端的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
现阶段,为了识别字符串的字符串类型,以区分不同字符串类型的字符串,通常是利用不同字符串类型的字符串字典与字符串进行匹配,将字符串匹配到字符串字典的字符串类型作为字符串的字符串类型。作为一种示例,在拼音和英文输入场景下,不同字符串类型的字符串字典包括拼音字典和英文字典,若字符串为nihao,利用拼音字典和英文字典分别与nihao进行匹配,nihao匹配拼音字典,则nihao的字符串类型为拼音。
但是,在字符串存在输入错误的情况下,通过不同字符串类型的字符串字典与字符串进行匹配,字符串无法匹配到字符串字典,或匹配到字符串字典的字符串类型与字符串的实际字符串类型不符,导致字符串的类型识别结果较差。作为一种示例,在上述示例的基础上,若字符串为输入拼音字符串nihao时存在输入错误得到的nihwo,通过拼音字典和英文字典分别与nihwo进行匹配,nihwo既无法匹配到拼音字典,又无法匹配到英文字典,导致无法识别nihwo的字符串类型。作为另一种示例,在上述示例的基础上,若字符串为输入拼音字符串nihao时存在输入错误得到的nihoa,利用拼音字典和英文字典分别与nihoa进行匹配,nihoa匹配英文字典,英文字典的字符串类型为英文,与nihoa的实际字符串类型为拼音不符,导致nihoa的类型识别不准确。
本申请实施例提供一种类型识别模型的确定方法,获取第一字符串类型的多个第一正确字符串、以及与第一字符串类型不同的第二字符串类型的多个第二正确字符串;该方式能够收集不同字符串类型的多个正确字符串。基于多个第一正确字符串和多个第二正确字符串,选取多个待编辑字符串;按照字符串的输入错误类型对多个待编辑字符串进行错误编辑,得到第一字符串类型的多个第一错误字符串和第二字符串类型的多个第二错误字符串;该方式在不同字符串类型的多个正确字符串基础上,能够基于字符串的输入错误类型构建出不同字符串类型的多个错误字符串。将多个第一正确字符串和多个第一错误字符串作为多个第一字符串;将多个第二正确字符串和多个第二错误字符串作为多个第二字符串;该方式能够使得不同字符串类型中相同字符串类型的多个字符串既包括正确字符串又包括错误字符串。通过多个第一字符串、多个第一字符串对应的第一字符串类型、多个第二字符串和多个第二字符串对应的第二字符串类型,训练初始识别模型得到类型识别模型;该方式能够挖掘并学习正确字符串与字符串类型的对应关系、以及错误字符串与字符串类型的对应关系,使得类型识别模型能够更准确地识别字符串的字符串类型。基于此,即使在字符串存在输入错误的情况下,类型识别模型也能够准确地识别字符串的字符串类型,从而提升字符串的类型识别准确率。
接下来,将对类型识别模型的确定方法的系统架构进行介绍。参见图1,图1为本申请实施例提供的一种类型识别模型的确定方法的系统架构示意图,该系统架构中包括服务器100,该服务器100用于确定类型识别模型。
服务器100获取第一字符串类型的多个第一正确字符串和第二字符串类型的多个第二正确字符串;第一字符串类型与第二字符串类型不同。作为一种示例,第一字符串类型为拼音,第一正确字符串为正确拼音字符串,第二字符串类型为英文,第二正确字符串为正确英文字符串;则服务器100可以获取多个正确拼音字符串和多个正确英文字符串。
服务器100从多个第一正确字符串和多个第二正确字符串中选取多个待编辑字符串。作为一种示例,在上述示例的基础上,服务器100可以基于多个正确拼音字符串和多个正确英文字符串,选取多个待编辑字符串。
服务器100根据多个待编辑字符串和字符串的输入错误类型进行错误编辑,获得第一字符串类型的多个第一错误字符串和第二字符串类型的多个第二错误字符串。作为一种示例,字符串的输入错误类型包括误用类型、乱序类型、遗漏类型和赘余类型,在上述示例的基础上,第一错误字符串为错误拼音字符串,第二错误字符串为错误英文字符串;则服务器100可以按照误用类型、乱序类型、遗漏类型和赘余类型,对多个待编辑字符串进行错误编辑,得到多个错误拼音字符串和多个错误英文字符串。
服务器100将多个第一正确字符串和多个第一错误字符串确定为多个第一字符串;将多个第二正确字符串和多个第二错误字符串确定为多个第二字符串。作为一种示例,在上述示例的基础上,第一字符串为拼音字符串,第二字符串为英文字符串,服务器100将多个正确拼音字符串和多个错误拼音字符串作为多个拼音字符串;将多个正确英文字符串和多个错误英文字符串作为多个英文字符串。
服务器100根据多个第一字符串、多个第一字符串对应的第一字符串类型、多个第二字符串和多个第二字符串对应的第二字符串类型,对初始识别模型进行训练获得类型识别模型。作为一种示例,在上述示例的基础上,通过多个拼音字符串、多个拼音字符串对应的拼音、多个英文字符串和多个英文字符串对应的英文,训练初始识别模型得到类型识别模型。
也就是说,该类型识别模型的确定方法能够收集不同字符串类型的多个正确字符串,以此基于字符串的输入错误类型构建出不同字符串类型的多个错误字符串,使得不同字符串类型中相同字符串类型的多个字符串既包括正确字符串又包括错误字符串;通过挖掘并学习正确字符串与字符串类型的对应关系、以及错误字符串与字符串类型的对应关系,使得类型识别模型能够更准确地识别字符串的字符串类型。基于此,即使在字符串存在输入错误的情况下,类型识别模型也能够准确地识别字符串的字符串类型,从而提升字符串的类型识别准确率。
需要说明的是,在本申请实施例中,对初始识别模型进行训练获得类型识别模型涉及到人工智能。而人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。在本申请实施例中,主要涉及到自然语言处理技术以及机器学习/深度学习。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
需要说明的是,在本申请实施例中,计算机设备可以是服务器或终端,本申请实施例提供的方法可以由终端或服务器单独执行,也可以由终端和服务器配合执行。其中,图1对应的实施例主要以服务器执行本申请实施例提供的方法为例进行介绍。
此外,当本申请实施例提供的方法由终端单独执行时,其执行方法与图1对应的实施例类似,主要是将服务器换成终端。另外,当由终端和服务器配合执行本申请实施例提供的方法时,需要体现在前端界面上的步骤可以由终端执行,而一些需要后台计算、无需体现在前端界面上的步骤可以由服务器执行。
其中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、车载终端或飞行器等,但并不局限于此。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器,但并不局限于此。终端和服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。例如终端和服务器可以通过网络连接,该网络可以是有线或无线网络。
此外,本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、音视频、辅助驾驶等。
接下来,将以服务器执行本申请实施例提供的方法为例、结合附图对本申请实施例提供的类型识别模型的确定方法进行详细介绍。参见图2,图2为本申请实施例提供的一种类型识别模型的确定方法的流程图,方法包括:
S201:获取第一字符串类型的多个第一正确字符串和第二字符串类型的多个第二正确字符串;第一字符串类型与第二字符串类型不同。
本申请实施例中,为了识别字符串的字符串类型,以区分不同字符串类型的字符串;首先,需要收集不同字符串类型的多个正确字符串。字符串类型是指字符串所表示内容的内容类型,例如可以是字符串表示文本的文本类型、字符串表示符号的符号类型、字符串表示数字的数字类型等。
其中,不同字符串类型可以是不同的第一字符串类型和第二字符串类型,正确字符串是指不存在输入错误的字符串,第一字符串类型的正确字符串为第一正确字符串;第二字符串类型的正确字符串为第二正确字符串;基于此,首先需要获取第一字符串类型的多个第一正确字符串和第二字符串类型的多个第二正确字符串。
该S201能够收集不同字符串类型的多个正确字符串,以便后续用于确定正确字符串与字符串类型的对应关系。
作为一种示例,第一字符串类型为拼音,第一正确字符串为正确拼音字符串,第二字符串类型为英文,第二正确字符串为正确英文字符串;则S201可以是:获取多个正确拼音字符串和多个正确英文字符串。
S202:从多个第一正确字符串和多个第二正确字符串中选取多个待编辑字符串。
S203:根据多个待编辑字符串和字符串的输入错误类型进行错误编辑,获得第一字符串类型的多个第一错误字符串和第二字符串类型的多个第二错误字符串。
由于相关技术中,利用不同字符串类型的字符串字典与字符串进行匹配,将字符串匹配到字符串字典的字符串类型作为字符串的字符串类型;在字符串存在输入错误的情况下,通过不同字符串类型的字符串字典与字符串进行匹配,字符串无法匹配到字符串字典,或匹配到字符串字典的字符串类型与字符串的实际字符串类型不符,导致字符串的类型识别结果较差。
因此,本申请实施例中,为了解决上述问题,考虑挖掘并学习错误字符串与字符串类型的对应关系,以更准确地识别字符串的字符串类型;需要在不同字符串类型的多个正确字符串基础上,基于字符串的输入错误类型构建出不同字符串类型的多个错误字符串。
即,在执行S201获取第一字符串类型的多个第一正确字符串和第二字符串类型的多个第二正确字符串之后;首先,基于多个第一正确字符串和多个第二正确字符串,选取多个待编辑字符串;其中,多个待编辑字符串是指被选取用于进行错误编辑的多个第一正确字符串和多个第二正确字符串;多个待编辑字符串的数量小于或等于多个第一正确字符串和多个第二正确字符串的总数量。
然后,按照字符串的输入错误类型对多个待编辑字符串进行错误编辑,得到第一字符串类型的多个第一错误字符串和第二字符串类型的多个第二错误字符串;字符串的输入错误类型是指字符串存在输入错误所具有的输入错误特性。其中,参见图3,图3为本申请实施例提供的一种字符串的输入错误类型的示意图,字符串的输入错误类型包括多个错误类型,具体可以包括误用类型、乱序类型、遗漏类型和赘余类型;误用类型是指在字符串中误用错误字符代替正确字符,乱序类型是指字符串中字符的顺序是乱序的,遗漏类型是指字符串中遗漏字符,赘余类型是指字符串中存在冗余字符,比如针对正确字符串query而言,quwry是误用w代替e得到的;qurey是e和r乱序得到的;qury是遗漏e得到的;queery是冗余e得到的。错误编辑是指将正确字符串按照字符串的输入错误类型编辑为存在输入错误的字符串;多个第一错误字符串是按照字符串的输入错误类型对多个待编辑字符串中的多个第一正确字符串进行错误编辑得到的;多个第二错误字符串是按照字符串的输入错误类型对多个待编辑字符串中的多个第二正确字符串进行错误编辑得到的。
该S202-S203在S201收集不同字符串类型的多个正确字符串基础上,能够基于字符串的输入错误类型构建出不同字符串类型的多个错误字符串,以便后续用于确定错误字符串与字符串类型的对应关系。
当多个待编辑字符串的数量小于多个第一正确字符串和多个第二正确字符串的总数量时,表示并非多个第一正确字符串和多个第二正确字符串均需要进行错误编辑,能够减少错误编辑的消耗时间和计算资源,从而提升错误编辑的处理效率。
当多个待编辑字符串的数量等于多个第一正确字符串和多个第二正确字符串的总数量时,表示多个第一正确字符串和多个第二正确字符串均需要进行错误编辑,能够增加错误编辑的编辑规模,从而丰富错误编辑的处理结果。
作为一种示例,在上述S201示例的基础上,S202可以是:从多个正确拼音字符串和多个正确英文字符串中选取多个待编辑字符串。S203可以是:根据多个待编辑字符串和字符串的输入错误类型进行错误编辑,获得多个错误拼音字符串和多个错误英文字符串。
S204:将多个第一正确字符串和多个第一错误字符串确定为多个第一字符串;将多个第二正确字符串和多个第二错误字符串确定为多个第二字符串。
本申请实施例中,为了后续不仅能够挖掘并学习正确字符串与字符串类型的对应关系,而且能够挖掘并学习错误字符串与字符串类型的对应关系,以更准确地识别字符串的字符串类型;在收集到不同字符串类型的多个正确字符串,构建出不同字符串类型的多个错误字符串之后,还需要确定相同字符串类型的多个正确字符串和多个错误字符串为该字符串类型的多个字符串。
即,在执行S203得到多个第一错误字符串和多个第二错误字符串之后,还需要将多个第一正确字符串和多个第一错误字符串作为多个第一字符串;将多个第二正确字符串和多个第二错误字符串作为多个第二字符串。
该S204在S201收集不同字符串类型的多个正确字符串、S202-S203构建不同字符串类型的多个错误字符串基础上,能够将不同字符串类型中相同字符串类型的多个正确字符串和多个错误字符串汇集在一起,为后续挖掘并学习正确字符串与字符串类型的对应关系、以及错误字符串与字符串类型的对应关系奠定数据基础。
作为一种示例,在上述S203示例的基础上,S204可以是:将多个正确拼音字符串和多个错误拼音字符串确定为多个拼音字符串;将多个正确英文字符串和多个错误英文字符串确定为多个英文字符串。
S205:根据多个第一字符串、多个第一字符串对应的第一字符串类型、多个第二字符串和多个第二字符串对应的第二字符串类型,对初始识别模型进行训练获得类型识别模型。
本申请实施例中,为了挖掘并学习正确字符串与字符串类型的对应关系、以及错误字符串与字符串类型的对应关系,以更准确地识别字符串的字符串类型;还需要通过将每个字符串类型的包括多个正确字符串和多个错误字符串的多个字符串,训练能够进行挖掘与学习的初始识别模型,以得到类型识别模型。
在执行S204得到多个第一字符串和多个第二字符串之后,由于多个第一字符串包括第一字符串类型的第一正确字符串和第一字符串类型的第一错误字符串,多个第二字符串包括第二字符串类型的第二正确字符串和第二字符串类型的第二错误字符串;因此,可以通过多个第一字符串、多个第一字符串对应的第一字符串类型、多个第二字符串和多个第二字符串对应的第二字符串类型,训练初始识别模型得到类型识别模型,使得类型识别模型能够更准确地识别字符串的字符串类型。
该S205不仅挖掘并学习正确字符串与字符串类型的对应关系,而且挖掘并学习错误字符串与字符串类型的对应关系,使得类型识别模型不仅能够识别正确字符串的字符串类型,而且能够识别错误字符串的字符串类型;基于此,即使在字符串存在输入错误的情况下,类型识别模型也能够准确地识别字符串的字符串类型,从而提升字符串的类型识别准确率。
作为一种示例,在上述S204示例的基础上,S205可以是:根据多个拼音字符串、多个拼音字符串对应的拼音、多个英文字符串和多个英文字符串对应的英文,对初始识别模型进行训练获得类型识别模型。
综上所述,在上述S201-S205示例的基础上,图4为本申请实施例提供的一种基于拼音字符串和英文字符串确定类型识别模型的方法流程图。第一步:获取多个正确拼音字符串和多个正确英文字符串。第二步:从多个正确拼音字符串和多个正确英文字符串中选取多个待编辑字符串;根据多个待编辑字符串和字符串的输入错误类型进行错误编辑,获得多个错误拼音字符串和多个错误英文字符串;将多个正确拼音字符串和多个错误拼音字符串确定为多个拼音字符串;将多个正确英文字符串和多个错误英文字符串确定为多个英文字符串。第三步:根据多个拼音字符串、多个拼音字符串对应的拼音、多个英文字符串和多个英文字符串对应的英文,对初始识别模型进行训练获得类型识别模型。
由上述技术方案可以看出,获取第一字符串类型的多个第一正确字符串、以及与第一字符串类型不同的第二字符串类型的多个第二正确字符串;该方式能够收集不同字符串类型的多个正确字符串。基于多个第一正确字符串和多个第二正确字符串,选取多个待编辑字符串;按照字符串的输入错误类型对多个待编辑字符串进行错误编辑,得到第一字符串类型的多个第一错误字符串和第二字符串类型的多个第二错误字符串;该方式在不同字符串类型的多个正确字符串基础上,能够基于字符串的输入错误类型构建出不同字符串类型的多个错误字符串。将多个第一正确字符串和多个第一错误字符串作为多个第一字符串;将多个第二正确字符串和多个第二错误字符串作为多个第二字符串;该方式能够使得不同字符串类型中相同字符串类型的多个字符串既包括正确字符串又包括错误字符串。通过多个第一字符串、多个第一字符串对应的第一字符串类型、多个第二字符串和多个第二字符串对应的第二字符串类型,训练初始识别模型得到类型识别模型;该方式能够挖掘并学习正确字符串与字符串类型的对应关系、以及错误字符串与字符串类型的对应关系,使得类型识别模型能够更准确地识别字符串的字符串类型。基于此,即使在字符串存在输入错误的情况下,类型识别模型也能够准确地识别字符串的字符串类型,从而提升字符串的类型识别准确率。
上述实施例中,在S203具体实现时,可以包括以下多种实现方式:
一种S203的实现方式是指:在输入错误类型包括多个错误类型的基础上,考虑到错误字符串可以是正确字符串中一个字符存在输入错误的情况,针对每个待编辑字符串而言,可以按照多个错误类型中的一个错误类型,将待编辑字符串编辑为存在输入错误的字符串作为错误字符串。若待编辑字符串为第一正确字符串时,错误编辑得到第一错误字符串;若待编辑字符串为第二正确字符串时,错误编辑得到第二错误字符串;在多个待编辑字符串均完成错误编辑之后,即可得到对应多个错误类型的多个第一错误字符串和多个第二错误字符串。此情况下,每个第一错误字符串和每个第二错误字符串是一个字符存在输入错误。因此,本申请提供了一种可能的实现方式,输入错误类型包括多个错误类型,S203例如可以包括S2030(图中未示出):根据每个待编辑字符串和多个错误类型中的一个错误类型进行错误编辑,获得对应多个错误类型的多个第一错误字符串和多个第二错误字符串。
该S2030针对基于多个第一正确字符串和多个第二正确字符串选取的每个待编辑字符串,按照多个错误类型中的一个错误类型,错误编辑得到对应多个错误类型的多个第一错误字符串和多个第二错误字符串,不仅能够覆盖多个错误类型,而且每个待编辑字符串通过一个错误类型的错误编辑即可得到错误字符串,使得错误编辑的操作更简单、更快速,从而提升错误编辑的处理效率。
其中,多个错误类型中的一个错误类型可以是随机选取的,以提升错误编辑得到多个第一错误字符串和多个第二错误字符串存在的输入错误的随机性。
作为一种示例,多个错误类型包括误用类型、乱序类型、遗漏类型和赘余类型,在上述S203示例的基础上,针对每个待编辑字符串而言,可以按照误用类型、乱序类型、遗漏类型和赘余类型中随机选取的一个错误类型,将待编辑字符串编辑为存在输入错误的字符串作为错误字符串,若待编辑字符串为正确拼音字符串时,错误编辑得到错误拼音字符串;若待编辑字符串为第二正确字符串时,错误编辑得到错误英文字符串;在多个待编辑字符串均完成错误编辑后,即可得到对应误用类型、乱序类型、遗漏类型和赘余类型的多个错误拼音字符串和多个错误英文字符串。此情况下,每个错误拼音字符串和每个错误英文字符串是一个字符存在输入错误。
另一种S203的实现方式是指:考虑到错误字符串可以是正确字符串中一个字符存在输入错误的情况,也可以是正确字符串中两个字符存在输入错误的情况等;为了覆盖前述两种情况,针对每个待编辑字符串而言,首先,可以按照多个错误类型中的一个错误类型,将待编辑字符串编辑为存在输入错误的字符串作为错误字符串,在多个待编辑字符串均完成错误编辑之后,即可得到对应多个错误类型的多个第三错误字符串;此情况下,每个第三错误字符串是一个字符存在输入错误。然后,基于多个第三错误字符串,选取多个第四错误字符串,多个第四错误字符串是指被选取用于继续进行错误编辑的多个第三错误字符串;针对每个第四错误字符串而言,继续按照多个错误类型中的一个错误类型,将第四错误字符串编辑为存在输入错误的字符串作为错误字符串,在多个第四错误字符串均完成错误编辑之后,即可得到对应多个错误类型的多个第五错误字符串;此情况下,每个第五错误字符串是两个字符存在输入错误。最后,将对应第一字符串类型的多个第三错误字符串和对应第一字符串类型的多个第五错误字符串作为多个第一错误字符串;将对应第二字符串类型的多个第三错误字符串和对应第二字符串类型的多个第五错误字符串作为多个第二错误字符串。因此,本申请提供了一种可能的实现方式,S203例如可以包括S2031-S2034(图中未示出):
S2031:根据每个待编辑字符串和多个错误类型中的一个错误类型进行错误编辑,获得对应多个错误类型的多个第三错误字符串。
S2032:从多个第三错误字符串中选取多个第四错误字符串。
其中,一种可能的实现方式,S2032例如可以为:从多个第三错误字符串中选取第二数量的第三错误字符串作为多个第四错误字符串;第二数量小于或等于多个第三错误字符串的数量。例如,第二数量的第三错误字符串等同于多个第三错误字符串中β%的第三错误字符串,0<β≤100,比如β为10。
S2033:根据每个第四错误字符串和多个错误类型中的一个错误类型进行错误编辑,获得对应多个错误类型的多个第五错误字符串。
S2034:根据多个第三错误字符串和多个第五错误字符串,确定多个第一错误字符串和多个第二错误字符串。
同理,S2031和S2033表示的多个错误类型中的一个错误类型可以是随机选取的,以提升错误编辑得到多个第一错误字符串和多个第二错误字符串存在的输入错误的随机性。
该S2031-S2034针对基于多个第一正确字符串和多个第二正确字符串选取的每个待编辑字符串,先按照多个错误类型中的一个错误类型,错误编辑得到对应多个错误类型的多个第三错误字符串,再继续基于多个第三错误字符串选取的每个第四错误字符串,继续按照多个错误类型中的一个错误类型,错误编辑得到对应多个错误类型的多个第五错误字符串;从而通过多个第三错误字符串和第五错误字符串,得到多个第一错误字符串和多个第二错误字符串。该方式不仅能够覆盖多个错误类型,而且既存在每个待编辑字符串通过一个错误类型的错误编辑即可得到错误字符串的情况,又存在待编辑字符串通过两次错误编辑得到错误字符串的情况,使得错误编辑覆盖更多存在输入错误的字符串,从而丰富错误编辑的处理结果。
作为一种示例,在上述S203示例的基础上,针对每个待编辑字符串而言,可以按照误用类型、乱序类型、遗漏类型和赘余类型中随机选取的一个错误类型,将待编辑字符串编辑为存在输入错误的字符串作为错误字符串;在多个待编辑字符串均完成错误编辑后,即可得到对应误用类型、乱序类型、遗漏类型和赘余类型的多个第三错误字符串;此情况下,每个第三错误字符串是一个字符存在输入错误。
选取多个第三错误字符串中10%的第三错误字符串作为多个第四错误字符串;针对每个第四错误字符串而言,继续按照误用类型、乱序类型、遗漏类型和赘余类型中随机选取的一个错误类型,将第四错误字符串编辑为存在输入错误的字符串作为错误字符串;在多个第四错误字符串均完成错误编辑之后,即可得到对应误用类型、乱序类型、遗漏类型和赘余类型的多个第五错误字符串;此情况下,每个第五错误字符串是两个字符存在输入错误。
基于此,将对应拼音的多个第三错误字符串和对应拼音的多个第五错误字符串作为多个错误拼音字符串;将对应英文的多个第三错误字符串和对应英文的多个第五错误字符串作为多个错误英文字符串。
另一种S203的实现方式是指:考虑到错误字符串可以是正确字符串中一个字符存在输入错误的情况,也可以是正确字符串中至少两个字符存在输入错误的情况等;为了覆盖前述两种情况,一方面,基于多个待编辑字符串,选取多个第一编辑字符串;针对每个第一编辑字符串而言,可以按照多个错误类型中的一个错误类型,将第一编辑字符串编辑为存在输入错误的字符串作为错误字符串,在多个待编辑字符串均完成错误编辑之后,即可得到对应多个错误类型的多个第六错误字符串;每个第六错误字符串是一个字符存在输入错误。另一方面,基于多个待编辑字符串,选取多个第二编辑字符串;针对每个第二编辑字符串而言,可以按照多个错误类型中的至少两个错误类型,将待编辑字符串编辑为存在输入错误的字符串作为错误字符串,在多个第二编辑字符串均完成错误编辑之后,即可得到对应多个错误类型的多个第七错误字符串;每个第七错误字符串是至少两个字符存在输入错误。最后,将对应第一字符串类型的多个第六错误字符串和对应第一字符串类型的多个第七错误字符串作为多个第一错误字符串;将对应第二字符串类型的多个第六错误字符串和对应第二字符串类型的多个第七错误字符串作为多个第二错误字符串。因此,本申请提供了一种可能的实现方式,S203例如可以包括S2035-S2039(图中未示出):
S2035:从多个待编辑字符串中选取多个第一编辑字符串。
其中,一种可能的实现方式,S2035例如可以为:从多个待编辑字符串中选取第三数量的待编辑字符串作为多个第一编辑字符串;第三数量小于或等于多个待编辑字符串的数量。例如,第三数量的待编辑错误字符串等同于多个待编辑错误字符串中γ%的待编辑字符串,0<γ≤100,比如γ为90。
S2036:根据每个第一编辑字符串和多个错误类型中的一个错误类型进行错误编辑,获得对应多个错误类型的多个第六错误字符串。
同理,多个错误类型中的一个错误类型可以是随机选取的,以提升错误编辑得到多个第六错误字符串存在的输入错误的随机性。
S2037:从多个待编辑字符串中选取多个第二编辑字符串。
其中,一种可能的实现方式,S2037例如可以为:从多个待编辑字符串中选取第四数量的待编辑字符串作为多个第二编辑字符串;第四数量小于或等于多个待编辑字符串的数量。例如,第四数量的待编辑错误字符串等同于多个待编辑错误字符串中λ%的待编辑字符串,0<λ≤100,比如λ为10。
S2038:根据每个第二编辑字符串和多个错误类型中的至少两个错误类型进行错误编辑,获得对应多个错误类型的多个第七错误字符串。
同理,多个错误类型中的至少两个错误类型可以是随机选取的,以提升错误编辑得到第七错误字符串存在的输入错误的随机性。
需要说明的是,既可以串行执行S2035-S2036和S2037-S2038,即,先执行S2035-S2036,再执行S2037-S2038;或者,先执行S2037-S2038,再执行S2035-S2036;也可以并行执行S2035-S2036和S2037-S2038。
S2039:根据多个第六错误字符串和多个第七错误字符串,确定多个第一错误字符串和多个第二错误字符串。
该S2035-S2039针对基于多个第一正确字符串和多个第二正确字符串选取的多个待编辑字符串,一方面,基于多个待编辑字符串选取的每个第一编辑字符串,按照多个错误类型中的一个错误类型,错误编辑得到对应多个错误类型的多个第六错误字符串;另一方面,基于多个待编辑字符串选取的每个第二编辑字符串,继续按照多个错误类型中的至少两个错误类型,错误编辑得到对应多个错误类型的多个第七错误字符串;从而通过多个第六错误字符串和第七错误字符串得到多个第一错误字符串和多个第二错误字符串。该方式不仅能够覆盖多个错误类型,而且既存在待编辑字符串通过一个错误类型的错误编辑即可得到错误字符串的情况,又存在待编辑字符串通过至少两个错误编辑得到错误字符串的情况,使得错误编辑进一步覆盖更多存在输入错误的字符串,从而进一步丰富错误编辑的处理结果。
作为一种示例,在上述S203示例的基础上,选取多个待编辑字符串中90%的待编辑字符串作为多个第一编辑字符串。针对每个第一编辑字符串而言,可以按照误用类型、乱序类型、遗漏类型和赘余类型中随机选取的一个错误类型,将第一编辑字符串编辑为存在输入错误的字符串作为错误字符串;在多个待编辑字符串均完成错误编辑之后,即可得到对应误用类型、乱序类型、遗漏类型和赘余类型的多个第六错误字符串;每个第六错误字符串是一个字符存在输入错误。
选取多个待编辑字符串中10%的待编辑字符串作为第二编辑字符串;针对每个第二编辑字符串而言,可以按照误用类型、乱序类型、遗漏类型和赘余类型中的至少两个错误类型,将待编辑字符串编辑为存在输入错误的字符串作为错误字符串;在多个第二编辑字符串均完成错误编辑之后,即可得到对应误用类型、乱序类型、遗漏类型和赘余类型的多个第七错误字符串;每个第七错误字符串是至少两个字符存在输入错误。
基于此,将对应拼音的多个第六错误字符串和对应拼音的多个第七错误字符串作为多个错误拼音字符串;将对应英文的多个第六错误字符串和对应英文的多个第七错误字符串作为多个错误英文字符串。
上述实施例中,在S202具体实现方式时,进一步考虑到字符串长度过小的正确字符串,很可能无法按照字符串的输入错误类型编辑为存在输入错误的字符串;或,按照字符串的输入错误类型编辑为存在输入错误的字符串效果较差;基于此,首先,需要从多个第一正确字符串和多个第二正确字符串中,选取字符串长度大于预设长度的多个第一正确字符串、以及字符串长度大于预设长度的多个第二正确字符串作为多个候选字符串;然后,基于多个候选字符串,选取多个待编辑字符串。因此,本申请提供了一种可能的实现方式,S202例如可以包括S2021-S2022(图中未示出):
S2021:将字符串长度大于预设长度的多个第一正确字符串、以及字符串长度大于预设长度的多个第二正确字符串确定为多个候选字符串。
S2022:从多个候选字符串中选取多个待编辑字符串。
其中,一种可能的实现方式,S2022例如可以为:从多个候选字符串中选取第一数量的候选字符串作为多个待编辑字符串;第一数量小于或等于多个候选字符串的数量。例如,第一数量的候选字符串等同于多个候选字符串中α%的候选字符串,0<α≤100,比如α为80。
作为一种示例,预设长度为k,k为正整数,k≥2,在上述S202示例基础上,从多个正确拼音字符串和多个正确英文字符串中,选取字符串长度大于k的多个正确拼音字符串、以及字符串长度大于k的多个正确英文字符串作为多个候选字符串;然后,将多个候选字符串中80%的候选字符串作为多个待编辑字符串。
上述实施例中,在S205具体实现方式时,通过多个第一字符串、多个第一字符串对应的第一字符串类型、多个第二字符串和多个第二字符串对应的第二字符串类型,训练初始识别模型实际上是为了使得初始识别模型能够将第一字符串识别为第一字符串类型,将第二字符串识别为第二字符串类型。具体训练过程是指:将第一字符串输入初始识别模型,经过初始识别模型的类型识别,输出第一字符串的识别字符串类型为第三字符串类型;通过初始识别模型的损失函数,计算第三字符串类型与第一字符串对应的第一字符串类型之间的损失作为第一损失。同理,将第二字符串输入初始识别模型,经过初始识别模型的类型识别,输出第二字符串的识别字符串类型为第四字符串类型;通过初始识别模型的损失函数,计算第四字符串类型与第二字符串对应的第二字符串类型之间的损失作为第二损失。通过第一损失和第二损失,调整初始识别模型的模型参数,直至损失不再下降或者达到预设迭代次数,确定初始识别模型训练结束,将训练结束的初始识别模型作为类型识别模型。因此,本申请提供了一种可能的实现方式,S205例如可以包括S2051-S2055(图中未示出):
S2051:通过初始识别模型对第一字符串进行类型识别,获得第一字符串的第三字符串类型。
S2052:根据第三字符串类型、第一字符串类型和初始识别模型的损失函数进行损失计算,获得第一损失。
S2053:通过初始识别模型对第二字符串进行类型识别,获得第二字符串的第四字符串类型。
S2054:根据第四字符串类型、第二字符串类型和损失函数进行损失计算,获得第二损失。
需要说明的是,既可以串行执行S2051-S2052和S2053-S2054,即,先执行S2051-S2052,再执行S2053-S2054;或者,先执行S2053-S2054,再执行S2051-S2052;也可以并行执行S2051-S2052和S2053-S2054。
S2055:根据第一损失和第二损失对初始识别模型的模型参数进行参数调整,获得类型识别模型。
该S2051-S2055通过损失函数计算不同字符串类型的字符串的识别字符串类型与标签字符串类型之间的损失,调整初始识别模型的模型参数,使得模型的识别字符串类型逐渐接近标签字符串类型,以训练得到类型识别模型,能够提高类型识别模型识别字符串的字符串类型的准确性。
作为一种示例,在上述S205示例的基础上,S2051-S2055可以是:通过初始识别模型对拼音字符串进行类型识别,获得拼音字符串的第三字符串类型;根据第三字符串类型、拼音和初始识别模型的损失函数进行损失计算,获得第一损失;通过初始识别模型对英文字符串进行类型识别,获得英文字符串的第四字符串类型;根据第四字符串类型、英文和损失函数进行损失计算,获得第二损失;根据第一损失和第二损失对初始识别模型的模型参数进行参数调整,获得类型识别模型。
其中,在S2051具体实现方式时,为了能够捕捉第一字符串的更多信息,以更准确地识别第一字符串的字符串类型,可以考虑在初始识别模型中配置编码层和识别层,将第一字符串输入编码层,经过编码层的编码处理,得到第一字符串的编码向量作为第一编码向量;将第一编码向量输入识别层,经过识别层的类型识别,得到第一字符串的第三字符串类型。因此,本申请提供了一种可能的实现方式,初始识别模型包括编码层和识别层,S2051例如可以包括S7-S8(图中未示出):
S7:通过编码层对第一字符串进行编码处理,获得第一字符串的第一编码向量。
S8:通过识别层对第一字符串的第一编码向量进行类型识别,获得第一字符串的第三字符串类型。
其中,在S2053具体实现方式时,同理,为了能够捕捉第二字符串的更多信息,以更准确地识别第二字符串的字符串类型,在初始识别模型中配置编码层和识别层的基础上,将第二字符串输入编码层,经过编码层的编码处理,得到第二字符串的编码向量作为第二编码向量;将第二编码向量输入识别层,经过识别层的类型识别,得到第二字符串的第四字符串类型。因此,本申请提供了一种可能的实现方式,S2053例如可以包括S9-S10(图中未示出):
S9:通过编码层对第二字符串进行编码处理,获得第二字符串的第二编码向量。
S10:通过识别层对第二字符串的第二编码向量进行类型识别,获得第二字符串的第四字符串类型。
其中,初始识别模型可以为循环神经网络或其他神经网络等,具体地,初始识别模型可以为双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)、融合注意力机制的双向长短期记忆网络(Attention Bi-directional Long Short-TermMemory,AttBiLSTM)、Transformer或文本卷积神经网络(Text Convolutional NeuralNetwork,TextCNN)等。
该S7-S10通过将不同字符串类型的正确字符串和错误字符串编码为编码向量,能够捕捉不同字符串类型的正确字符串和错误字符串的语义信息;通过编码向量对正确字符串和错误字符串进行字符串类型的识别,能够更准确地识别正确字符串的字符串类型和错误字符串的字符串类型;基于此,训练初始识别模型能够更深层次挖掘并学习正确字符串与字符串类型的对应关系、以及错误字符串与字符串类型的对应关系,并快速训练得到类型识别模型。此外,通过语义信息的捕捉和编码,即使在多个第一字符串的数量和多个第二字符串的数量较少情况,也能够使得类型识别模型较为准确地识别字符串的字符串类型。
作为一种示例,在上述S2051-S2055示例的基础上,第一编码向量为拼音编码向量,第二编码向量为英文编码向量,则S7-S10可以是:通过编码层对拼音字符串进行编码处理,获得拼音字符串的拼音编码向量;通过识别层对拼音字符串的拼音编码向量进行类型识别,获得拼音字符串的第三字符串类型;通过编码层对英文字符串进行编码处理,获得英文字符串的英文编码向量。通过识别层对英文字符串的英文编码向量进行类型识别,获得英文字符串的第四字符串类型。
作为一种示例,参见图5,图5为本申请实施例提供的一种初始识别模型的示意图。其中,初始识别模型为BiLSTM,BiLSTM包括输入层、嵌入层、长短期记忆网络(Long Short-Term Memory,LSTM)层和输出层,例如,第二字符串为query,则L为第二字符串的长度,输入层的x1、x2、x3、…和xL分别为query中的字符q、u、e、r、y;嵌入层的e1、e2、e3、…和eL分别为query中q、u、e、r、y的嵌入向量,每个嵌入向量的维度可以为64,LSTM层的带右箭头的h1、h2、h3、…和hL分别为query中字符q、u、e、r、y的正向编码向量,LSTM层的带左箭头的h1、h2、h3、…和hL分别为query中字符q、u、e、r、y的反向编码向量;输出层的h1、h2、h3、…和hL分别为对应的带右箭头和带左箭头的h1、h2、h3、…和hL的融合编码向量,LSTM层中第L个隐层输出的hL(y)即为query的第二编码向量。
此外,本申请实施例中,为了进一步丰富不同字符串类型的多个错误字符串,还可以在字符串的纠错场景中,进一步收集不同字符串类型的多个错误字符串;即,将纠错为第一字符串类型的正确字符串的多个错误字符串作为多个第八错误字符串,以更新第一字符串类型的多个第一字符串;将纠错为第二字符串类型的正确字符串的多个错误字符串作为多个第九错误字符串,以更新第二字符串类型的多个第二字符串。因此,本申请提供了一种可能的实现方式,方法例如还可以包括S11-S12(图中未示出):
S11:在字符串的纠错场景中,获取多个第八错误字符串和多个第九错误字符串;每个第八错误字符串纠错为第一字符串类型的正确字符串,每个第九错误字符串纠错为第二字符串类型的正确字符串。
S12:根据多个第八错误字符串更新多个第一字符串;根据多个第九错误字符串更新多个第二字符串。
该S11-S12通过在字符串的纠错场景中,收集纠错为正确字符串的不同字符串类型的多个错误字符串,并更新用于训练模型的不同字符串类型的多个字符串,能够提升不同字符串类型的多个字符串中多个错误字符串的数量规模,以便后续能够进一步学习更多错误字符串与字符串类型的对应关系,从而进一步提高类型识别模型识别字符串的字符串类型的准确性。
作为一种示例,在上述S201-S205示例的基础上,在字符串的纠错场景中,S11-S12可以是:获取多个第八错误字符串和多个第九错误字符串;每个第八错误字符串纠错为拼音的正确字符串,每个第九错误字符串纠错为英文的正确字符串;根据多个第八错误字符串更新多个拼音字符串;根据多个第九错误字符串更新多个英文字符串。
此外,本申请实施例中,考虑到不同字符串类型的多个字符串之间可能存在多个交集字符串,每个交集字符串对应不同字符串类型,为了避免交集字符串对应不同字符串类型对训练预设模型存在的训练影响,配置多个交集字符串对应预设字符串类型,预设字符串类型表示交集字符串对应多个字符串类型,还需要在不同字符串类型的多个字符串中去除多个交集字符串,并结合多个交集字符串,以训练初始识别模型得到类型识别模型。
即,针对第一字符串类型的多个第一字符串和第二字符串类型的多个第二字符串,首先,需要计算多个第一字符串形成的字符串集合和多个第二字符串形成的字符串集合的交集,得到多个交集字符串;然后,从多个第一字符串中去除多个交集字符串,获得多个第三字符串;从多个第二字符串中去除多个交集字符串,获得多个第四字符串;最后,可以通过多个第三字符串、多个第三字符串对应的第一字符串类型、多个第四字符串和多个第四字符串对应的第二字符串类型,结合多个交集字符串和多个交集字符串对应的预设字符串类型,训练初始识别模型得到类型识别模型,使得类型识别模型能够更准确地识别字符串的字符串类型。因此,本申请提供了一种可能的实现方式,方法例如还可以包括S13-S14(图中未示出):
S13:将多个第一字符串形成的字符串集合和多个第二字符串形成的字符串集合进行交集计算,获得多个交集字符串。
S14:从多个第一字符串中去除多个交集字符串,获得多个第三字符串;从多个第二字符串中去除多个交集字符串,获得多个第四字符串。
对应地,S205例如可以为:根据多个第三字符串、多个第三字符串对应的第一字符串类型、多个第四字符串、多个第四字符串对应的第二字符串类型、多个交集字符串和多个交集字符串对应的预设字符串类型,对初始识别模型进行训练,获得类型识别模型。
该S13-S14通过进一步确定不同字符串类型的多个字符串之间存在的多个交集字符串,避免每个交集字符串对应不同字符串类型对训练预设模型的训练影响,并进一步挖掘交集字符串与多个字符串类型的对应关系,从而进一步提高类型识别模型识别字符串的字符串类型的准确性。
作为一种示例,在上述S205示例的基础上,S13-S14可以是:将多个拼音字符串形成的字符串集合和多个英文字符串形成的字符串集合进行交集计算,获得多个交集字符串;从多个拼音字符串中去除多个交集字符串,获得多个第三字符串;从多个英文字符串中去除多个交集字符串,获得多个第四字符串。S205可以是:根据多个第三字符串、多个第三字符串对应的拼音、多个第四字符串、多个第四字符串对应的英文、多个交集字符串和多个交集字符串对应的预设字符串类型,对类型识别模型进行训练,获得类型识别模型。
其中,多个第三字符串的数量、多个第四字符串的数量和多个交集字符串的数量可以如下表所示:
即,多个第三字符串的数量为m,m例如可以为390570;多个第四字符串的数量为n,n例如可以为166600;多个交集字符串的数量为z,z例如可以为13215。
上述实施例中,在S201具体实现方式时,考虑到第一字符串类型的正确基础字符串通常收集在第一数据库中,为了收集第一字符串类型的正确基础字符串,需要获取第一数据库中的正确基础字符串作为第一正确字符串;此外,考虑到第一搜索日志记录第一字符串类型的第一正确字符串,为了增加第一正确字符串的收集数量和收集规模,还需要获取第一搜索日志中的第一正确字符串;进一步,考虑到第一数据库中的第一正确字符串和第一搜索日志中的第一正确字符串之间可能存在相同的第一正确字符串,为了避免获取的多个第一正确字符串存在冗余,还需要对第一数据库中的第一正确字符串和第一搜索日志中的第一正确字符串进行去重处理,以得到多个第一正确字符串。
同理,考虑到第二字符串类型的正确基础字符串通常收集在第二数据库中,为了收集第二字符串类型的正确基础字符串,需要获取第二数据库中的正确基础字符串作为第二正确字符串;此外,考虑到第二搜索日志记录第二字符串类型的第二正确字符串,为了增加第二正确字符串的收集数量和收集规模,还需要获取第二搜索日志中的第二正确字符串;进一步,考虑到第二数据库中的第二正确字符串和第二搜索日志中的第二正确字符串之间可能存在相同的第二正确字符串,为了避免获取的多个第二正确字符串存在冗余,还需要对第二数据库中的第二正确字符串和第二搜索日志中的第二正确字符串进行去重处理,以得到多个第二正确字符串。
因此,本申请提供了一种可能的实现方式,S201例如可以包括S2011- S2014(图中未示出):
S2011:获取第一数据库中的第一正确字符串和第一搜索日志中的第一正确字符串;第一数据库用于存储第一字符串类型的正确基础字符串。
S2012:对第一数据库中的第一正确字符串和第一搜索日志中的第一正确字符串进行去重处理,获得多个第一正确字符串。
其中,去重处理是指针对第一数据库和第一搜索日志中相同的多个第一正确字符串,去除冗余的第一正确字符串以保留一个第一正确字符串。
S2013:获取第二数据库中的第二正确字符串和第二搜索日志中的第二正确字符串;第二数据库用于存储第二字符串类型的正确基础字符串。
其中,考虑到在字符串的搜索场景中,可能一个搜索引擎仅支持第一字符串类型的正确字符串的搜索,另一个搜索引擎仅支持第二字符串类型的正确字符串的搜索,则第一搜索日志和第二搜索日志是不同的搜索日志;也可能一个搜索引擎不仅支持第一字符串类型的正确字符串的搜索,而且支持第二字符串类型的正确字符串的搜索,则第一搜索日志和第二搜索日志是相同的搜索日志。
S2014:对第二数据库中的第二正确字符串和第二搜索日志中的第二正确字符串进行去重处理,获得多个第二正确字符串。
其中,去重处理是指针对第二数据库和第二搜索日志中相同的多个第二正确字符串,去除冗余的第二正确字符串以保留一个第二正确字符串。
需要说明的是,既可以串行执行S2011-S2012和S2013-S2014,即,先执行S2011-S2012,再执行S2013-S2014;或者,先执行S2013-S2014,再执行S2011-S2012;也可以并行执行S2011-S2012和S2013-S2014。
该S2011- S2014在收集不同字符串类型的正确基础字符串基础上,不仅能够增加不同字符串类型的正确字符串的收集数量和收集规模,以丰富不同字符串类型的正确字符串,而且能够避免相同字符串类型的正确字符串存在冗余,以避免对后续步骤产生冗余影响。
作为一种示例,在上述S201示例的基础上,第一数据库为拼音词典,第二数据库为英文词典。基于此,S2011-S2014可以是:获取拼音词典中的正确拼音字符串和第一搜索日志中的正确拼音字符串;对拼音词典中的正确拼音字符串和第一搜索日志中的正确拼音字符串进行去重处理,得到多个正确拼音字符串;获取英文词典中的正确英文字符串和第二搜索日志中的正确英文字符串;对英文词典中的正确英文字符串和第二搜索日志中的正确英文字符串进行去重处理,得到多个正确英文字符串。
接下来,将以服务器执行本申请实施例提供的方法为例、结合附图对本申请实施例提供字符串类型的识别方法进行详细介绍。在上述实施例的基础上,由于执行S201-S205得到的类型识别模型不仅能够识别正确字符串的字符串类型,而且能够识别错误字符串的字符串类型,即使在字符串存在输入错误的情况下,类型识别模型也能够准确地识别字符串的字符串类型;基于此,获取待识别字符串;将待识别字符串输入类型识别模型,经过类型识别模型的类型识别,输出待识别字符串的识别字符串类型。参见图6,图6为本申请实施例提供的一种字符串类型的识别方法的流程图,方法包括:
S601:获取待识别字符串。
其中,待识别字符串存在输入错误,或,待识别字符串不存在输入错误。
S602:根据类型识别模型对待识别字符串进行类型识别,获得待识别字符串的识别字符串类型。
作为一种示例,待识别字符串为nihwo,nihwo存在输入错误;将nihwo输入类型识别模型,经过类型识别模型的类型识别,得到nihwo的识别字符串类型为拼音。
此外,本申请实施例中,在字符串的除类型识别场景之外的其他处理场景中,例如,字符串的纠错场景、语音识别场景或翻译场景中的一种或多种,不同字符串类型的字符串可能对应不同处理方式,则多个字符串类型对应多个处理方式;为了选取正确处理方式对字符串进行其他处理,还需要通过字符串的字符串类型确定对应的处理方式,以提升字符串的处理结果的准确性。基于此,在执行S601-S602得到识别字符串的识别字符串类型之后,通过多个字符串类型对应的多个处理方式,确定识别字符串类型对应的预设处理方式,预设处理方式属于多个处理方式,通过预设处理方式处理待识别字符串,即可得到待识别字符串的处理结果。因此,本申请提供了一种可能的实现方式,多个字符串类型对应多个处理方式,多个字符串类型包括识别字符串类型,方法例如还可以包括S15-S16(图中未示出):
S15:根据多个字符串类型对应的多个处理方式,确定识别字符串类型对应的预设处理方式;不同处理方式包括预设处理方式。
S16:根据预设处理方式对待识别字符串进行处理,获得待识别字符串的处理结果。
作为一种示例,在上述示例所示nihwo的识别字符串类型为拼音基础上,在字符串的纠错场景中,确定拼音对应的预设纠错方式,通过预设纠错方式纠错nihwo,即可得到nihwo的纠错结果为:先将nihwo纠错为nihao,再将nihao纠错为你好。
由上述技术方案可以看出,获取待识别字符串;将待识别字符串输入类型识别模型,经过类型识别模型的类型识别,输出待识别字符串的识别字符串类型。在类型识别模型不仅能够识别正确字符串的字符串类型,而且能够识别错误字符串的字符串类型的情况下,即使在待识别字符串存在输入错误的情况下,类型识别模型也能够准确地识别待识别字符串的字符串类型,从而提升待识别字符串的类型识别准确率。
需要说明的是,本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。
基于图2对应实施例提供的类型识别模型的确定方法,本申请实施例还提供一种类型识别模型的确定装置,参见图7,图7为本申请实施例提供的一种类型识别模型的确定装置的结构图,该类型识别模型的确定装置700包括:获取单元701、选取单元702、编辑单元703、确定单元704和训练单元705;
获取单元701,用于获取第一字符串类型的多个第一正确字符串和第二字符串类型的多个第二正确字符串;第一字符串类型与第二字符串类型不同;
选取单元702,用于从多个第一正确字符串和多个第二正确字符串中选取多个待编辑字符串;
编辑单元703,用于根据多个待编辑字符串和字符串的输入错误类型进行错误编辑,获得第一字符串类型的多个第一错误字符串和第二字符串类型的多个第二错误字符串;
确定单元704,用于将多个第一正确字符串和多个第一错误字符串确定为多个第一字符串;将多个第二正确字符串和多个第二错误字符串确定为多个第二字符串;
训练单元705,用于根据多个第一字符串、多个第一字符串对应的第一字符串类型、多个第二字符串和多个第二字符串对应的第二字符串类型,对初始识别模型进行训练获得类型识别模型。
在一种可能的实现方式中,输入错误类型包括多个错误类型,编辑单元703,用于:
根据每个待编辑字符串和多个错误类型中的一个错误类型进行错误编辑,获得对应多个错误类型的多个第一错误字符串和多个第二错误字符串。
在一种可能的实现方式中,输入错误类型包括多个错误类型,编辑单元703,用于:
根据每个待编辑字符串和多个错误类型中的一个错误类型进行错误编辑,获得对应多个错误类型的多个第三错误字符串;
从多个第三错误字符串中选取多个第四错误字符串;
根据每个第四错误字符串和多个错误类型中的一个错误类型进行错误编辑,获得对应多个错误类型的多个第五错误字符串;
根据多个第三错误字符串和多个第五错误字符串,确定多个第一错误字符串和多个第二错误字符串。
在一种可能的实现方式中,输入错误类型包括多个错误类型,编辑单元703,用于:
从多个待编辑字符串中选取多个第一编辑字符串;
根据每个第一编辑字符串和多个错误类型中的一个错误类型进行错误编辑,获得对应多个错误类型的多个第六错误字符串;
从多个待编辑字符串中选取多个第二编辑字符串;
根据每个第二编辑字符串和多个错误类型中的至少两个错误类型进行错误编辑,获得对应多个错误类型的多个第七错误字符串;
根据多个第六错误字符串和多个第七错误字符串,确定多个第一错误字符串和多个第二错误字符串。
在一种可能的实现方式中,选取单元702,用于:
将字符串长度大于预设长度的多个第一正确字符串、以及字符串长度大于预设长度的多个第二正确字符串确定为多个候选字符串;
从多个候选字符串中选取多个待编辑字符串。
在一种可能的实现方式中,训练单元705,用于:
通过初始识别模型对第一字符串进行类型识别,获得第一字符串的第三字符串类型;
根据第三字符串类型、第一字符串类型和初始识别模型的损失函数进行损失计算,获得第一损失;
通过初始识别模型对第二字符串进行类型识别,获得第二字符串的第四字符串类型;
根据第四字符串类型、第二字符串类型和损失函数进行损失计算,获得第二损失;
根据第一损失和第二损失对初始识别模型的模型参数进行参数调整,获得类型识别模型。
在一种可能的实现方式中,训练单元705,用于:
通过编码层对第一字符串进行编码处理,获得第一字符串的第一编码向量;
通过识别层对第一字符串的第一编码向量进行类型识别,获得第一字符串的第三字符串类型;
通过编码层对第二字符串进行编码处理,获得第二字符串的第二编码向量;
通过识别层对第二字符串的第二编码向量进行类型识别,获得第二字符串的第四字符串类型。
在一种可能的实现方式中,装置还包括:更新单元;
获取单元701,还用于在字符串的纠错场景中,获取多个第八错误字符串和多个第九错误字符串;每个第八错误字符串纠错为第一字符串类型的正确字符串,每个第九错误字符串纠错为第二字符串类型的正确字符串;
更新单元,用于根据多个第八错误字符串更新多个第一字符串;根据多个第九错误字符串更新多个第二字符串。
在一种可能的实现方式中,装置还包括:交集单元和去除单元;
交集单元,用于将多个第一字符串形成的字符串集合和多个第二字符串形成的字符串集合进行交集计算,获得多个交集字符串;
去除单元,用于从多个第一字符串中去除多个交集字符串,获得多个第三字符串;从多个第二字符串中去除多个交集字符串,获得多个第四字符串;
训练单元705,用于根据多个第三字符串、多个第三字符串对应的第一字符串类型、多个第四字符串、多个第四字符串对应的第二字符串类型、多个交集字符串和多个交集字符串对应的预设字符串类型,对初始识别模型进行训练,获得类型识别模型。
在一种可能的实现方式中,获取单元701,用于:
获取第一数据库中的第一正确字符串和第一搜索日志中的第一正确字符串;第一数据库用于存储第一字符串类型的正确基础字符串;
对第一数据库中的第一正确字符串和第一搜索日志中的第一正确字符串进行去重处理,获得多个第一正确字符串;
获取第二数据库中的第二正确字符串和第二搜索日志中的第二正确字符串;第二数据库用于存储第二字符串类型的正确基础字符串;
对第二数据库中的第二正确字符串和第二搜索日志中的第二正确字符串进行去重处理,获得多个第二正确字符串。
在一种可能的实现方式中,装置还包括:识别单元;
获取单元701,还用于获取待识别字符串;
识别单元,用于根据类型识别模型对待识别字符串进行类型识别,获得待识别字符串的识别字符串类型。
在一种可能的实现方式中,多个字符串类型对应多个处理方式,多个字符串类型包括识别字符串类型,装置还包括:处理单元;
确定单元704,还用于根据多个字符串类型对应的多个处理方式,确定识别字符串类型对应的预设处理方式;多个处理方式包括预设处理方式;
处理单元,用于根据预设处理方式对待识别字符串进行处理,获得待识别字符串的处理结果。
由上述技术方案可以看出,获取第一字符串类型的多个第一正确字符串、以及与第一字符串类型不同的第二字符串类型的多个第二正确字符串;该方式能够收集不同字符串类型的多个正确字符串。基于多个第一正确字符串和多个第二正确字符串,选取多个待编辑字符串;按照字符串的输入错误类型对多个待编辑字符串进行错误编辑,得到第一字符串类型的多个第一错误字符串和第二字符串类型的多个第二错误字符串;该方式在不同字符串类型的多个正确字符串基础上,能够基于字符串的输入错误类型构建出不同字符串类型的多个错误字符串。将多个第一正确字符串和多个第一错误字符串作为多个第一字符串;将多个第二正确字符串和多个第二错误字符串作为多个第二字符串;该方式能够使得不同字符串类型中相同字符串类型的多个字符串既包括正确字符串又包括错误字符串。通过多个第一字符串、多个第一字符串对应的第一字符串类型、多个第二字符串和多个第二字符串对应的第二字符串类型,训练初始识别模型得到类型识别模型;该方式能够挖掘并学习正确字符串与字符串类型的对应关系、以及错误字符串与字符串类型的对应关系,使得类型识别模型能够更准确地识别字符串的字符串类型。基于此,即使在字符串存在输入错误的情况下,类型识别模型也能够准确地识别字符串的字符串类型,从而提升字符串的类型识别准确率。
本申请实施例还提供了一种计算机设备,该计算机设备可以是服务器,参见图8,图8为本申请实施例提供的一种服务器的结构图,服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器,例如CPU822,以及存储器832,一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器822可以设置为与存储介质830通信,在服务器800上执行存储介质830中的一系列指令操作。
服务器800还可以包括一个或一个以上电源826,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口858,和/或,一个或一个以上操作系统841,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
在本实施例中,由服务器800中的中央处理器822可以执行上述实施例各种可选实现方式中提供的方法。
本申请实施例提供的计算机设备还可以是终端,参见图9,图9为本申请实施例提供的一种终端的结构图。以终端为智能手机为例,智能手机包括:射频(Radio Frequency,RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(Wireless Fidelity,WiFi)模块970、处理器980、以及电源9120等部件。输入单元930可包括触控面板931以及其他输入设备932,显示单元940可包括显示面板941,音频电路960可以包括扬声器961和传声器962。本领域技术人员可以理解,图9中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器920可用于存储软件程序以及模块,处理器980通过运行存储在存储器920的软件程序以及模块,从而执行智能手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器980是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器920内的软件程序和/或模块,以及调用存储在存储器920内的数据,执行智能手机的各种功能和处理数据。可选的,处理器980可包括一个或多个处理单元;优选的,处理器980可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器980中。
在本实施例中,智能手机中的处理器980可以执行上述实施例各种可选实现方式中提供的方法。
根据本申请的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行上述实施例各种可选实现方式中提供的方法。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述实施例各种可选实现方式中提供的方法。
上述各个附图对应的流程或结构的描述各有侧重,某个流程或结构中没有详述的部分,可以参见其他流程或结构的相关描述。
本申请的说明书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、RAM、磁碟或者光盘等各种可以存储计算机程序的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术成员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (20)

1.一种类型识别模型的确定方法,其特征在于,所述方法包括:
获取第一字符串类型的多个第一正确字符串和第二字符串类型的多个第二正确字符串;所述第一字符串类型与所述第二字符串类型不同;
从所述多个第一正确字符串和所述多个第二正确字符串中选取多个待编辑字符串;
根据所述多个待编辑字符串和字符串的输入错误类型进行错误编辑,获得所述第一字符串类型的多个第一错误字符串和所述第二字符串类型的多个第二错误字符串;
将所述多个第一正确字符串和所述多个第一错误字符串确定为多个第一字符串;将所述多个第二正确字符串和所述多个第二错误字符串确定为多个第二字符串;
将所述多个第一字符串形成的字符串集合和所述多个第二字符串形成的字符串集合进行交集计算,获得多个交集字符串;
从所述多个第一字符串中去除所述多个交集字符串,获得多个第三字符串;从所述多个第二字符串中去除所述多个交集字符串,获得多个第四字符串;
根据所述多个第三字符串、所述多个第三字符串对应的所述第一字符串类型、所述多个第四字符串、所述多个第四字符串对应的所述第二字符串类型、所述多个交集字符串和所述多个交集字符串对应的预设字符串类型,对初始识别模型进行训练,获得所述类型识别模型。
2.根据权利要求1所述的方法,其特征在于,所述输入错误类型包括多个错误类型,所述根据所述多个待编辑字符串和字符串的输入错误类型进行错误编辑,获得所述第一字符串类型的多个第一错误字符串和所述第二字符串类型的多个第二错误字符串,包括:
根据每个待编辑字符串和所述多个错误类型中的一个错误类型进行错误编辑,获得对应所述多个错误类型的所述多个第一错误字符串和所述多个第二错误字符串。
3.根据权利要求1所述的方法,其特征在于,所述输入错误类型包括多个错误类型,所述根据所述多个待编辑字符串和字符串的输入错误类型进行错误编辑,获得所述第一字符串类型的多个第一错误字符串和所述第二字符串类型的多个第二错误字符串,包括:
根据每个待编辑字符串和所述多个错误类型中的一个错误类型进行错误编辑,获得对应所述多个错误类型的多个第三错误字符串;
从所述多个第三错误字符串中选取多个第四错误字符串;
根据每个第四错误字符串和所述多个错误类型中的一个错误类型进行错误编辑,获得对应所述多个错误类型的多个第五错误字符串;
根据所述多个第三错误字符串和所述多个第五错误字符串,确定所述多个第一错误字符串和所述多个第二错误字符串。
4.根据权利要求1所述的方法,其特征在于,所述输入错误类型包括多个错误类型,所述根据所述多个待编辑字符串和字符串的输入错误类型进行错误编辑,获得所述第一字符串类型的多个第一错误字符串和所述第二字符串类型的多个第二错误字符串,包括:
从所述多个待编辑字符串中选取多个第一编辑字符串;
根据每个第一编辑字符串和所述多个错误类型中的一个错误类型进行错误编辑,获得对应所述多个错误类型的多个第六错误字符串;
从所述多个待编辑字符串中选取多个第二编辑字符串;
根据每个第二编辑字符串和所述多个错误类型中的至少两个错误类型进行错误编辑,获得对应所述多个错误类型的多个第七错误字符串;
根据所述多个第六错误字符串和所述多个第七错误字符串,确定所述多个第一错误字符串和所述多个第二错误字符串。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述从所述多个第一正确字符串和所述多个第二正确字符串中选取多个待编辑字符串,包括:
将字符串长度大于预设长度的多个第一正确字符串、以及字符串长度大于所述预设长度的多个第二正确字符串确定为多个候选字符串;
从所述多个候选字符串中选取所述多个待编辑字符串。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在字符串的纠错场景中,获取多个第八错误字符串和多个第九错误字符串;每个第八错误字符串纠错为所述第一字符串类型的正确字符串,每个第九错误字符串纠错为所述第二字符串类型的正确字符串;
根据所述多个第八错误字符串更新所述多个第一字符串;根据多个第九错误字符串更新所述多个第二字符串。
7.根据权利要求1所述的方法,其特征在于,所述获取第一字符串类型的多个第一正确字符串和第二字符串类型的多个第二正确字符串,包括:
获取第一数据库中的第一正确字符串和第一搜索日志中的第一正确字符串;所述第一数据库用于存储所述第一字符串类型的正确基础字符串;
对所述第一数据库中的第一正确字符串和所述第一搜索日志中的第一正确字符串进行去重处理,获得所述多个第一正确字符串;
获取第二数据库中的第二正确字符串和第二搜索日志中的第二正确字符串;所述第二数据库用于存储所述第二字符串类型的正确基础字符串;
对所述第二数据库中的第二正确字符串和所述第二搜索日志中的第二正确字符串进行去重处理,获得所述多个第二正确字符串。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取待识别字符串;
根据所述类型识别模型对所述待识别字符串进行类型识别,获得所述待识别字符串的识别字符串类型。
9.根据权利要求8所述的方法,其特征在于,多个字符串类型对应多个处理方式,所述多个字符串类型包括所述识别字符串类型,所述方法还包括:
根据所述多个字符串类型对应的多个处理方式,确定所述识别字符串类型对应的预设处理方式;所述多个处理方式包括所述预设处理方式;
根据所述预设处理方式对所述待识别字符串进行处理,获得所述待识别字符串的处理结果。
10.一种类型识别模型的确定装置,其特征在于,所述装置包括:获取单元、选取单元、编辑单元、确定单元、交集单元、去除单元和训练单元;
所述获取单元,用于获取第一字符串类型的多个第一正确字符串和第二字符串类型的多个第二正确字符串;所述第一字符串类型与所述第二字符串类型不同;
所述选取单元,用于从所述多个第一正确字符串和所述多个第二正确字符串中选取多个待编辑字符串;
所述编辑单元,用于根据所述多个待编辑字符串和字符串的输入错误类型进行错误编辑,获得所述第一字符串类型的多个第一错误字符串和所述第二字符串类型的多个第二错误字符串;
所述确定单元,用于将所述多个第一正确字符串和所述多个第一错误字符串确定为多个第一字符串;将所述多个第二正确字符串和所述多个第二错误字符串确定为多个第二字符串;
所述交集单元,用于将多个第一字符串形成的字符串集合和多个第二字符串形成的字符串集合进行交集计算,获得多个交集字符串;
所述去除单元,用于从多个第一字符串中去除多个交集字符串,获得多个第三字符串;从多个第二字符串中去除多个交集字符串,获得多个第四字符串;
所述训练单元,用于根据多个第三字符串、多个第三字符串对应的第一字符串类型、多个第四字符串、多个第四字符串对应的第二字符串类型、多个交集字符串和多个交集字符串对应的预设字符串类型,对初始识别模型进行训练,获得类型识别模型。
11.根据权利要求10所述的装置,其特征在于,所述输入错误类型包括多个错误类型,所述编辑单元,用于:
根据每个待编辑字符串和多个错误类型中的一个错误类型进行错误编辑,获得对应多个错误类型的多个第一错误字符串和多个第二错误字符串。
12.根据权利要求10所述的装置,其特征在于,所述输入错误类型包括多个错误类型,所述编辑单元,用于:
根据每个待编辑字符串和多个错误类型中的一个错误类型进行错误编辑,获得对应多个错误类型的多个第三错误字符串;
从多个第三错误字符串中选取多个第四错误字符串;
根据每个第四错误字符串和多个错误类型中的一个错误类型进行错误编辑,获得对应多个错误类型的多个第五错误字符串;
根据多个第三错误字符串和多个第五错误字符串,确定多个第一错误字符串和多个第二错误字符串。
13.根据权利要求10所述的装置,其特征在于,所述输入错误类型包括多个错误类型,所述编辑单元,用于:
从多个待编辑字符串中选取多个第一编辑字符串;
根据每个第一编辑字符串和多个错误类型中的一个错误类型进行错误编辑,获得对应多个错误类型的多个第六错误字符串;
从多个待编辑字符串中选取多个第二编辑字符串;
根据每个第二编辑字符串和多个错误类型中的至少两个错误类型进行错误编辑,获得对应多个错误类型的多个第七错误字符串;
根据多个第六错误字符串和多个第七错误字符串,确定多个第一错误字符串和多个第二错误字符串。
14.根据权利要求10-13任一所述的装置,其特征在于,所述选取单元,用于:
将字符串长度大于预设长度的多个第一正确字符串、以及字符串长度大于预设长度的多个第二正确字符串确定为多个候选字符串;
从多个候选字符串中选取多个待编辑字符串。
15.根据权利要求10所述的装置,其特征在于,所述装置还包括:更新单元;
所述获取单元,还用于在字符串的纠错场景中,获取多个第八错误字符串和多个第九错误字符串;每个第八错误字符串纠错为第一字符串类型的正确字符串,每个第九错误字符串纠错为第二字符串类型的正确字符串;
所述更新单元,用于根据多个第八错误字符串更新多个第一字符串;根据多个第九错误字符串更新多个第二字符串。
16.根据权利要求10所述的装置,其特征在于,所述获取单元,用于:
获取第一数据库中的第一正确字符串和第一搜索日志中的第一正确字符串;第一数据库用于存储第一字符串类型的正确基础字符串;
对第一数据库中的第一正确字符串和第一搜索日志中的第一正确字符串进行去重处理,获得多个第一正确字符串;
获取第二数据库中的第二正确字符串和第二搜索日志中的第二正确字符串;第二数据库用于存储第二字符串类型的正确基础字符串;
对第二数据库中的第二正确字符串和第二搜索日志中的第二正确字符串进行去重处理,获得多个第二正确字符串。
17.根据权利要求10所述的装置,其特征在于,所述装置还包括:识别单元;
所述获取单元,还用于获取待识别字符串;
所述识别单元,用于根据类型识别模型对待识别字符串进行类型识别,获得待识别字符串的识别字符串类型。
18.根据权利要求10所述的装置,其特征在于,多个字符串类型对应多个处理方式,多个字符串类型包括识别字符串类型,所述装置还包括:处理单元;
所述确定单元,还用于根据多个字符串类型对应的多个处理方式,确定识别字符串类型对应的预设处理方式;多个处理方式包括预设处理方式;
所述处理单元,用于根据预设处理方式对待识别字符串进行处理,获得待识别字符串的处理结果。
19.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器用于根据所述计算机程序中的指令执行权利要求1-9任一项所述的方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行权利要求1-9任一项所述的方法。
CN202310998311.0A 2023-08-09 2023-08-09 一种类型识别模型的确定方法及相关装置 Active CN116719424B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310998311.0A CN116719424B (zh) 2023-08-09 2023-08-09 一种类型识别模型的确定方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310998311.0A CN116719424B (zh) 2023-08-09 2023-08-09 一种类型识别模型的确定方法及相关装置

Publications (2)

Publication Number Publication Date
CN116719424A CN116719424A (zh) 2023-09-08
CN116719424B true CN116719424B (zh) 2024-03-22

Family

ID=87864749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310998311.0A Active CN116719424B (zh) 2023-08-09 2023-08-09 一种类型识别模型的确定方法及相关装置

Country Status (1)

Country Link
CN (1) CN116719424B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013214188A (ja) * 2012-04-02 2013-10-17 Sharp Corp 文字認識処理装置、文字認識処理方法、文字認識処理プログラム、および、コンピュータ読み取り可能な記録媒体
KR101744124B1 (ko) * 2016-08-26 2017-06-07 이진우 문자 출력 영역에서 입력과 출력의 듀얼 기능을 하는 문자 인식 장치 및 그 방법
CN112036135A (zh) * 2020-11-06 2020-12-04 腾讯科技(深圳)有限公司 一种文本处理方法和相关装置
CN112528649A (zh) * 2020-12-14 2021-03-19 圆通速递有限公司 针对多语言混合文本的英文拼音识别方法和系统
CN113496227A (zh) * 2020-04-08 2021-10-12 顺丰科技有限公司 一种字符识别模型的训练方法、装置、服务器及存储介质
WO2021258853A1 (zh) * 2020-06-24 2021-12-30 平安科技(深圳)有限公司 词汇纠错方法、装置、计算机设备及存储介质
CN114580391A (zh) * 2022-03-21 2022-06-03 深圳壹账通智能科技有限公司 中文错误检测模型训练方法、装置、设备及存储介质
WO2022267353A1 (zh) * 2021-06-25 2022-12-29 北京市商汤科技开发有限公司 文本纠错的方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7047493B1 (en) * 2000-03-31 2006-05-16 Brill Eric D Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013214188A (ja) * 2012-04-02 2013-10-17 Sharp Corp 文字認識処理装置、文字認識処理方法、文字認識処理プログラム、および、コンピュータ読み取り可能な記録媒体
KR101744124B1 (ko) * 2016-08-26 2017-06-07 이진우 문자 출력 영역에서 입력과 출력의 듀얼 기능을 하는 문자 인식 장치 및 그 방법
CN113496227A (zh) * 2020-04-08 2021-10-12 顺丰科技有限公司 一种字符识别模型的训练方法、装置、服务器及存储介质
WO2021258853A1 (zh) * 2020-06-24 2021-12-30 平安科技(深圳)有限公司 词汇纠错方法、装置、计算机设备及存储介质
CN112036135A (zh) * 2020-11-06 2020-12-04 腾讯科技(深圳)有限公司 一种文本处理方法和相关装置
CN112528649A (zh) * 2020-12-14 2021-03-19 圆通速递有限公司 针对多语言混合文本的英文拼音识别方法和系统
WO2022267353A1 (zh) * 2021-06-25 2022-12-29 北京市商汤科技开发有限公司 文本纠错的方法、装置、电子设备及存储介质
CN114580391A (zh) * 2022-03-21 2022-06-03 深圳壹账通智能科技有限公司 中文错误检测模型训练方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
允许错误的并行字符串匹配技术;邹旭楷 等;计算机研究与发展;19950215;第32卷(第02期);第34-38页 *
英文光学字符识别的后处理;吕学强 等;鞍山钢铁学院学报(第03期);第192-196段 *

Also Published As

Publication number Publication date
CN116719424A (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN108052499B (zh) 基于人工智能的文本纠错方法、装置及计算机可读介质
CN113672708B (zh) 语言模型训练方法、问答对生成方法、装置及设备
CN109325040B (zh) 一种faq问答库泛化方法、装置及设备
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN112214593A (zh) 问答处理方法、装置、电子设备及存储介质
CN113157885B (zh) 一种面向人工智能领域知识的高效智能问答系统
CN111382231B (zh) 意图识别系统及方法
CN115062109B (zh) 一种基于实体对注意力机制的实体关系联合抽取方法
CN107993636B (zh) 基于递归神经网络的乐谱建模与生成方法
CN110084323A (zh) 端到端语义解析系统及训练方法
CN112861518A (zh) 文本纠错方法、装置和存储介质及电子装置
CN116662488A (zh) 业务文档检索方法、装置、设备及存储介质
CN110909174B (zh) 一种基于知识图谱的简单问答中实体链接的改进方法
CN112364125A (zh) 一种联合阅读课程学习机制的文本信息抽取系统及方法
CN113869398B (zh) 一种不平衡文本分类方法、装置、设备及存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN116719424B (zh) 一种类型识别模型的确定方法及相关装置
CN116644180A (zh) 文本匹配模型的训练方法、训练系统和文本标签确定方法
CN111401038A (zh) 文本处理方法、装置、电子设备及存储介质
CN116362265A (zh) 文本翻译方法、装置、设备和存储介质
CN111026908A (zh) 歌曲标签确定方法、装置、计算机设备以及存储介质
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN113468307B (zh) 文本处理方法、装置、电子设备及存储介质
CN115712739A (zh) 舞蹈动作生成方法、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40093787

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant