CN113435188B - 基于语义相似的过敏文本样本生成方法、装置及相关设备 - Google Patents

基于语义相似的过敏文本样本生成方法、装置及相关设备 Download PDF

Info

Publication number
CN113435188B
CN113435188B CN202110712401.XA CN202110712401A CN113435188B CN 113435188 B CN113435188 B CN 113435188B CN 202110712401 A CN202110712401 A CN 202110712401A CN 113435188 B CN113435188 B CN 113435188B
Authority
CN
China
Prior art keywords
text
preset
replacement
text sample
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110712401.XA
Other languages
English (en)
Other versions
CN113435188A (zh
Inventor
刘卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110712401.XA priority Critical patent/CN113435188B/zh
Publication of CN113435188A publication Critical patent/CN113435188A/zh
Application granted granted Critical
Publication of CN113435188B publication Critical patent/CN113435188B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本申请属于研发管理技术领域,本申请提供了一种基于语义相似的过敏文本样本生成方法、装置、计算机设备及计算机可读存储介质。本申请通过获取预设源文本样本,根据预设源文本样本,基于预设语义相似文本生成算法,生成目标替换文本样本,将预设源文本样本与目标替换文本样本进行比对,获取被替换的源连续文本,及目标替换连续文本,并根据源连续文本与目标替换连续文本的对应关系,生成对应的目标语义相似替换规则,获取预设训练文本样本,根据语义相似替换规则,将预设训练文本样本进行文本内容替换,生成预设训练文本样本对应的过敏文本样本,可以解决训练数据偏差导致的输入过敏问题,能够提升业务模型的准确率和泛化性。

Description

基于语义相似的过敏文本样本生成方法、装置及相关设备
技术领域
本申请涉及研发管理技术领域,尤其涉及一种基于语义相似的过敏文本样本生成方法、装置、计算机设备及计算机可读存储介质。
背景技术
在线问诊模型一般是由样本数据训练的深度学习模型,在线问诊模型在面不同的用户时,针对同样问诊内容的描述,由于每个人表述方式存在不同,在线问诊模型可能会接收不同的表述方式,而训练在线问诊模型时采用的样本数据,很难将针对同样问诊内容的所有表述方式均进行训练,因此,虽然针对同样的问诊内容,但是由于不同人的表述方式不一致,会导致在线问诊模型输出不同的应答。因此,发明人发现,在线问诊模型存在输入过于敏感的问题,即针对语义相似、但表达不同的两个文本输入,有可能导致在线问诊模型输出不同的结果,或者当患者输入与问诊无关的字符,及更改其表述后,在线问诊模型有可能会给出无关回复或错误答案,在线问诊模型的稳定性与泛化性较差,降低了在线问诊模型应答的准确率。
发明内容
本申请提供了一种基于语义相似的过敏文本样本生成方法、装置、计算机设备及计算机可读存储介质,能够解决传统技术中由于文本样本过敏导致的业务模型泛化性较差、业务模型输出结果准确率较低的技术问题。
第一方面,本申请提供了一种基于语义相似的过敏文本样本生成方法,包括:获取预设源文本样本,并根据所述预设源文本样本,基于预设语义相似文本生成算法,生成与所述预设源文本样本语义相似的目标替换文本样本;基于预设文本比对算法,将所述预设源文本样本与所述目标替换文本样本进行比对,获取所述预设源文本样本包含的最小替换的源连续文本,及所述目标替换文本样本包含的与所述源连续文本对应的目标替换连续文本,并根据所述源连续文本与所述目标替换连续文本的对应关系,生成对应的目标语义相似替换规则;获取预设训练文本样本,根据所述语义相似替换规则,将所述预设训练文本样本进行文本内容替换,以生成所述预设训练文本样本对应的过敏文本样本。
第二方面,本申请还提供了一种基于语义相似的过敏文本样本生成装置,包括:替换文本生成单元,用于获取预设源文本样本,并根据所述预设源文本样本,基于预设语义相似文本生成算法,生成与所述预设源文本样本语义相似的目标替换文本样本;替换规则生成单元,用于基于预设文本比对算法,将所述预设源文本样本与所述目标替换文本样本进行比对,获取所述预设源文本样本包含的最小替换的源连续文本,及所述目标替换文本样本包含的与所述源连续文本对应的目标替换连续文本,并根据所述源连续文本与所述目标替换连续文本的对应关系,生成对应的目标语义相似替换规则;过敏文本生成单元,用于获取预设训练文本样本,根据所述语义相似替换规则,将所述预设训练文本样本进行文本内容替换,以生成所述预设训练文本样本对应的过敏文本样本。
第三方面,本申请还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现所述基于语义相似的过敏文本样本生成方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行所述基于语义相似的过敏文本样本生成方法的步骤。
本申请提供了一种基于语义相似的过敏文本样本生成方法、装置、计算机设备及计算机可读存储介质。本申请通过获取预设源文本样本,并根据所述预设源文本样本,基于预设语义相似文本生成算法,生成与所述预设源文本样本语义相似的目标替换文本样本,基于预设文本比对算法,将所述预设源文本样本与所述目标替换文本样本进行比对,获取所述预设源文本样本包含的最小替换的源连续文本,及所述目标替换文本样本包含的与所述源连续文本对应的目标替换连续文本,并根据所述源连续文本与所述目标替换连续文本的对应关系,生成对应的目标语义相似替换规则,再获取预设训练文本样本,根据所述语义相似替换规则,将所述预设训练文本样本进行文本内容替换,以生成所述预设训练文本样本对应的过敏文本样本,可以解决训练数据偏差导致的输入过敏问题,扩展了预设训练文本样本的相似语义范围,充分缓解多样性的用户输入过敏的问题,能够提升具体业务模型的准确率和泛化性,减少模型对输入过敏的程度。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于语义相似的过敏文本样本生成方法的一个流程示意图;
图2为本申请实施例提供的在线问诊模型示例中与源文本样本语义相似的目标替换文本样本的生成过程示意图;
图3为本申请实施例提供的基于语义相似的过敏文本样本生成方法的第一个子流程示意图;
图4为本申请实施例提供的基于语义相似的过敏文本样本生成方法的第二个子流程示意图;
图5为本申请实施例提供的基于语义相似的过敏文本样本生成方法的第三个子流程示意图;
图6为本申请实施例提供的基于语义相似的过敏文本样本生成方法的第四个子流程示意图;
图7为本申请实施例提供的基于语义相似的过敏文本样本生成方法的第五个子流程示意图;
图8为本申请实施例提供的基于语义相似的过敏文本样本生成方法的第六个子流程示意图;
图9为本申请实施例提供的基于语义相似的过敏文本样本生成装置的一个示意性框图;以及
图10为本申请实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
请参阅图1,图1为本申请实施例提供的基于语义相似的过敏文本样本生成方法的一个流程示意图。如图1所示,该方法包括以下步骤S11-S13:
S11、获取预设源文本样本,并根据所述预设源文本样本,基于预设语义相似文本生成算法,生成与所述预设源文本样本语义相似的目标替换文本样本。
具体地,源文本样本,为初始文本样本。为了实现通过计算程序算法自动实现生成大量的语义相似的过敏样本,需要先生成语义相似替换规则,即哪些文本内容与其它文本内容存在语义相似关系,即该文本内容与其它文本内容之间可以互相替换,从而可以根据生成的语义相似替换规则,自动生成存在语义相似的过敏样本。在源文本样本的基础上,基于预设语义相似文本生成算法,将所述预设源文本样本包含的连续文本用相似语义或者相同语义进行替换,例如将所述预设源文本样本中包含的词语用该词语对应的同义词或者近似词进行替换,以生成与源文本样本语义相同、但表述不同的目标替换文本样本,所述目标替换文本样本与所述预设源文本样本为语义相似或者相同。例如,请参阅图2,图2为本申请实施例提供的在线问诊模型示例中与源文本样本语义相似的目标替换文本样本的生成过程示意图,如图2所示,在医学领域的中文在线问诊模型中,中文源文本样本C经过中文至英文的翻译、英文同义词替换及英文至中文的翻译,最后,得到与中文源文本样本C语义相同或者相似的中文目标替换文本C1、C2、C3及C4,中文源文本样本C与中文目标替换文本C1、C2、C3及C4之间互相为语义相似的过敏样本。
请参阅图3,图3为本申请实施例提供的基于语义相似的过敏文本样本生成方法的第一个子流程示意图。如图3所示,在该实施例中,所述根据所述预设源文本样本,基于预设语义相似文本生成算法,生成与所述预设源文本样本语义相似的目标替换文本样本的步骤包括:
S110、基于预设第一机器翻译模型,将所述预设源文本样本进行翻译,得到翻译文本样本;
S111、获取预设替换词库,所述预设替换词库包含预设语言单位及与所述预设语言单位对应的替换文本,所述替换文本为所述预设语言单位的同义内容或者近义内容;
S112、判断所述翻译文本样本是否包含所述预设语言单位;
S113、若所述翻译文本样本包含所述预设语言单位,将所述翻译文本样本包含的所述预设语言单位替换为所述替换文本,得到所述翻译文本样本对应的翻译替换文本样本;
S114、基于预设第二机器翻译模型,将所述翻译替换文本样本进行翻译,得到与所述预设源文本样本属于相同语言的目标替换文本样本;
S115、若所述翻译文本样本不包含所述预设语言单位,不将所述翻译文本样本替换为所述替换文本。
其中,所述预设语言单位包含词语、短语及其它语义相似、可以互相替换的连续文本对应的语言内容,例如,词语及短语可以为同义词或者近义词,其它语义相似、可以互相替换的语言内容,例如,中文中的“今天早上”与“早上”在就诊环境中含义相同,可以互相替换。机器翻译,又称为自动翻译,英文为Machine Translation,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程,机器翻译模型包括基于统计的机器翻译与,基于人工神经网络的机器翻译(英文为Neural Machine Translation)等。
具体地,为了充分利用现有的同义词或者近义词等替换词库,尤其是在一些专业技术领域已经存在替换词库时,并且替换词库与使用替换词库的应用场景在不同语言之间,可以基于预设第一机器翻译模型,将所述预设源文本样本进行翻译,得到所述预设源文本样本对应的翻译文本样本,然后获取预设替换词库,所述预设替换词库可以为已经存在的替换词库,所述预设替换词库包含预设语言单位及与所述预设语言单位对应的替换文本,所述替换文本为所述预设语言单位的同义内容或者近义内容,例如,某一词语的同义词及近义词,然后判断所述翻译文本样本是否包含所述预设语言单位,若所述翻译文本样本包含所述预设语言单位,将所述翻译文本样本包含的所述预设语言单位替换为所述替换文本,得到所述翻译文本样本对应的翻译替换文本样本,所述翻译文本样本与所述翻译替换文本样本为语义相似的过敏文本,再基于预设第二机器翻译模型,将所述翻译替换文本样本进行翻译,得到与所述预设源文本样本属于相同语言的目标替换文本样本,所述预设源文本样本与所述目标替换文本样本也为语义相似的过敏文本。例如,请继续参阅图2,如图2所示,在医学领域,一体化医学语言系统(英文为Unified Medical Language System,简写为UMLS)为英文语言的词汇转换系统,UMLS是对生物医学科学领域内许多受控英文词表的一步纲目式汇编,是一部英文生物医学概念的广泛全面的叙词表和本体。通过UMLS,可以找到提取一段英文文本中的医学概念,找到其同义词替换原词,得到一个新的同义英文语句,例如,fever与pyrexia是医学同义词,因此”I have a fever.”等价于”I have apyrexia.”。如图2所示示例,在实现中文线上问诊模型时,为了充分利用UMLS中医学同义词,以提高过敏文本样本生成的准确性与效率,基于中译英机器翻译模型,例如Paddlepaddle中译英机器翻译模型,可以先将中文源文本样本C进行英文翻译,得到对应的英文翻译文本Ei,例如,得到英文翻译文本E1、英文翻译文本E2及英文翻译文本E3,然后利用UMLS中医学同义词替换,将Ei进行同义词或近义词替换,从而将Ei映射为一个或多个同义语句Eij=UMLS(Ei),可以充分利用UMLS中医学同义词实现根据Ei生成Eij,得到对应的英文近似替换样本E10、英文近似替换样本E11…英文近似替换样本E32,再基于英译中机器翻译模型,将Eij翻译成中文,得到对应的中文目标替换文本CK,例如,得到中文目标替换文本C1、中文目标替换文本C2、中文目标替换文本C3及中文目标替换文本C4,所述中文源文本样本C与中文目标替换文本CK之间为语义相似的过敏样本,特别地,Ei0=Ei,也就是说即使没能找到可替换的医学同义词,至少有一个英文原句作为映射结果,从而实现了充分利用已有的预设替换词库UMLS,尤其是在利用计算机设备自动生成大量的过敏文本时,可以提高过敏文本的生成效率。其中,将所述预设源文本样本进行翻译,得到翻译文本样本,只要为不同语言之间的翻译即可,不仅可以将中文翻译成英文,还可以为法文与英文、日文与英文等其它语言与英文之间的翻译,还可以为中文与日文之间的翻译等。
进一步地,请参阅图4,图4为本申请实施例提供的基于语义相似的过敏文本样本生成方法的第二个子流程示意图。如图4所示,在该实施例中,所述基于预设第一机器翻译模型,将所述预设源文本样本进行翻译,得到翻译文本样本的步骤包括:
S1100、基于n个预设第一机器翻译模型,分别将所述预设源文本样本进行翻译,得到每个所述预设第一机器翻译模型输出的初始第一翻译文本及所述初始第一翻译文本对应的第一条件概率,其中,n≥2,n为正整数;
S1101、根据所述第一条件概率由高到低,将所有所述初始第一翻译文本进行排序,得到初始第一翻译文本排序队列;
S1102、基于所述初始第一翻译文本排序队列,按照从前到后顺序,筛选出m个所述初始第一翻译文本,并将m个所述初始第一翻译文本作为翻译文本样本,其中,m<n,m为正整数。
具体地,基于神经机器翻译的机器翻译模型,可以在训练时使用神经网络直接学习翻译结果对应的条件概率分布,并在应用环境中直接输出翻译结果所对应的条件概率。
为了通过提高将所述预设源文本样本进行翻译的准确性,从而提高后续过敏样本的准确性,可以采用多种不同的机器翻译模型,将所述预设源文本样本进行翻译,得到所述预设源文本样本对应的多个初始第一翻译文本及每个所述初始第一翻译文本对应的第一条件概率,例如,可以采用n个预设第一机器翻译模型,n个预设第一机器翻译模型可以为基于神经机器翻译的机器翻译模型,从而将所述预设源文本样本进行翻译,每个所述第一机器翻译模型可以输出所述预设源文本样本对应的初始第一翻译文本及所述初始第一翻译文本对应的第一条件概率,然后根据所述第一条件概率,将所有所述初始第一翻译文本进行排序,得到初始第一翻译文本排序队列,从所述初始第一翻译文本排序队列中,筛选出第一条件概率最高的预设数量m所述初始第一翻译文本,并将预设数量所述初始第一翻译文本作为所述预设源文本样本最终对应的翻译文本样本,由于采用了多种不同的机器翻译模型,并且筛选出了第一条件概率最高的翻译文本,可以保证翻译文本样本具备尽可能高的准确性。例如,请继续参阅图2,对于给定的中文输入文本中文源文本样本C,首先,使用中文和英文互相翻译的多个机器翻译模型,分别将中文C进行翻译,然后根据第一条件概率,获得第一条件概率最高的m个翻译后的英文文本Ei,i=1,2,…,m,其第一条件概率ProbCE(Ei|C)由每个翻译模型输出,第一条件概率ProbCE(Ei|C)用于描述在C的条件下发生Ei的概率。
更进一步地,请参阅图5,图5为本申请实施例提供的基于语义相似的过敏文本样本生成方法的第三个子流程示意图。如图5所示,在该实施例中,所述基于预设第二机器翻译模型,将所述翻译替换文本样本进行翻译,得到与所述预设源文本样本属于相同语言的目标替换文本样本的步骤包括:
S1140、基于h个预设第二机器翻译模型,分别将所述翻译替换文本样本进行翻译,得到每个所述预设第二机器翻译模型输出的初始第二翻译文本及所述初始第二翻译文本对应的第二条件概率,其中,所述初始第二翻译文本与所述预设源文本样本属于相同语言,h为正整数;
S1141、根据所述第二条件概率,确定目标初始第二翻译文本,并将所述目标初始第二翻译文本作为目标替换文本样本。
具体地,得到所述翻译替换文本样本后,需要再将所述翻译替换文本样本翻译成与所述预设源文本样本属于相同语言的文本,即可得到与所述预设源文本样本语义相似的过敏样本。在将所述翻译替换文本样本进行翻译时,可以使用一种预设第二机器翻译模型将所有所述翻译替换文本样本进行翻译,也可以使用多个不同的预设第二机器翻译模型将所有所述翻译替换文本样本进行翻译,进一步地,使用多个不同的预设第二机器翻译模型将所有所述翻译替换文本样本进行翻译,可以使用多个不同的预设第二机器翻译模型各自将所有所述翻译替换文本样本进行翻译一遍,也可以使用一部分所述预设第二机器翻译模型将一部分所述翻译替换文本样本进行翻译,使用另外一部分所述预设第二机器翻译模型将另外一部分所述翻译替换文本样本进行翻译,从而充分利用不同预设第二机器翻译模型的翻译优点,提高将所述翻译替换文本样本进行翻译的多样性,得到多样性的初始第二翻译文本,并从多样性的初始第二翻译文本中进行筛选,以最终提高所述预设源文本样本对应目标替换文本样本的准确性,从而提高过敏样本的准确性,例如,请继续参阅图2,针对英文近似替换样本E10、英文近似替换样本E11…英文近似替换样本E32,进一步地,可以使用第二机器翻译模型A将英文近似替换样本E10、英文近似替换样本E11…英文近似替换样本E32进行翻译,在第二个实施例中,可以使用第二机器翻译模型A将英文近似替换样本E10、英文近似替换样本E11…英文近似替换样本E32进行翻译,可以使用第二机器翻译模型B将英文近似替换样本E10、英文近似替换样本E11…英文近似替换样本E32进行翻译,可以使用第二机器翻译模型C将英文近似替换样本E10、英文近似替换样本E11…英文近似替换样本E32进行翻译等,在第三实施例中,可以使用第二机器翻译模型A将英文近似替换样本E10、英文近似替换样本E11进行翻译,可以使用第二机器翻译模型B将英文近似替换样本E20进行翻译,可以使用第二机器翻译模型C将英文近似替换样本E30、英文近似替换样本E31及英文近似替换样本E32进行翻译等。在将所述翻译替换文本样本进行翻译时,同样可以得到每个所述预设第二机器翻译模型输出的初始第二翻译文本及所述初始第二翻译文本对应的第二条件概率。
在得到所述初始第二翻译文本及所述初始第二翻译文本对应的第二条件概率后,可以根据所述第二条件概率,确定与所述预设源文本样本的语义最相似的目标初始第二翻译文本,并所述目标初始第二翻译文本作为目标替换文本样本,从而得到与所述预设源文本样本的语义最相似过敏文本样本。
再进一步地,请参阅图6,图6为本申请实施例提供的基于语义相似的过敏文本样本生成方法的第四个子流程示意图。如图6所示,在该实施例中,所述根据所述第二条件概率,确定目标初始第二翻译文本,并将所述目标初始第二翻译文本作为目标替换文本样本的步骤包括:
S11410、根据所述第二条件概率由高到低,将所有所述初始第二翻译文本进行排序,得到初始第二翻译文本排序队列;
S11411、基于所述初始第二翻译文本排序队列,按照从前到后顺序,筛选出j个所述初始第二翻译文本作为目标初始第二翻译文本,并将所述目标初始第二翻译文本作为目标替换文本样本,其中,j为正整数。
具体地,得到每个所述预设第二机器翻译模型输出的初始第二翻译文本及所述初始第二翻译文本对应的第二条件概率后,可以直接根据所述第二条件概率,确定与所述预设源文本样本的语义最相似的初始第二翻译文本,即根据所述第二条件概率由高到低,将所有所述初始第二翻译文本进行排序,得到初始第二翻译文本排序队列,基于所述初始第二翻译文本排序队列,按照从前到后顺序,筛选出j个所述初始第二翻译文本,并将j个所述初始第二翻译文本作为目标替换文本样本,j个所述目标替换文本样本为所述预设源文本样本较为具备相似语义的过敏性文本样本,其中,j为正整数。
更进一步地,所述根据所述第二条件概率,确定目标初始第二翻译文本,并将所述目标初始第二翻译文本作为目标替换文本样本的步骤包括:
获取所述初始第二翻译文本对应的源翻译替换文本样本,并根据所述源翻译替换文本样本,获取所述源翻译替换文本样本对应的源初始第一翻译文本及所述源初始第一翻译文本对应的源第一条件概率;
根据所述源第一条件概率与所述第二条件概率,计算所述初始第二翻译文本与所述预设源文本样本之间的语义相似程度,得到对应的语义相似度;
判断所述语义相似度是否大于或者等于预设语义相似度阈值;
若所述语义相似度大于或者等于预设语义相似度阈值,将所述第二条件概率对应的初始第二翻译文本作为目标初始第二翻译文本,并将所述目标初始第二翻译文本作为目标替换文本样本。
具体地,由于每次翻译均会产生语义差异,为了充分考虑每次翻译导致的差异,可以将所述预设第一机器翻译模型导致的差异与所述预设第二机器翻译模型导致的差异充分考虑进去,这种差异可以通过各自对应的条件概率进行描述,从而结合相应的所述第一条件概率与所述第二条件概率,计算所述初始第二翻译文本与所述预设源文本样本之间的语义相似程度,得到对应的语义相似度,并根据语义相似度,筛选出与所述预设源文本样本的语义最相似的过敏文本样本。
得到每个所述预设第二机器翻译模型输出的初始第二翻译文本及所述初始第二翻译文本对应的第二条件概率后,可以根据所述初始第二翻译文本的血缘关系,得到所述初始第二翻译文本对应的第一条件概率(即源第一条件概率),即获取所述初始第二翻译文本对应的源翻译替换文本样本(即将源翻译替换文本样本经过预设第二机器翻译模型进行翻译,得到所述初始第二翻译文本所对应的翻译替换文本样本),并根据所述源翻译替换文本样本,获取所述源翻译替换文本样本对应的源初始第一翻译文本及所述源初始第一翻译文本对应的源第一条件概率,其中,所述源初始第一翻译文本为将所述初始第一翻译文本经过语义替换,得到翻译替换文本样本所对应的初始第一翻译文,从而根据所述第二条件概率与所述源第一条件概率,计算所述初始第二翻译文本与所述预设源文本样本之间的语义相似程度,得到对应的语义相似度,再判断所述语义相似度是否大于或者等于预设语义相似度阈值,若所述语义相似度大于或者等于预设语义相似度阈值,将所述第二条件概率对应的初始第二翻译文本作为目标初始第二翻译文本,并将所述目标初始第二翻译文本作为目标替换文本样本,由于充分考虑每次翻译导致的差异,因此,筛选出的所述目标替换文本样本为与所述预设源文本样本最具相似语义的过敏性文本样本。请继续参阅图2,使用预设第二机器翻译模型计算将Eij翻译为n个语义相似中文文本Ck,k=1,2,…,n的条件概率ProbEC(Ck|Eij),其中Ck≠C,根据以上第一条件概率ProbCE(Ei|C)与第二条件概率ProbEC(Ck|Eij),可以定义C与Ck之间的语义相似度为:
其中N为Eij的总个数,Sem(C,Ck)是一个0到1之间的值,用于描述C与Ck之间的语义相似度,越大表明C与Ck越相似,设置一个阈值τ来筛选C的语义相似输入样本,图2所示实施例的在线问诊模型可以表示为输入文本的函数f(C),这样,对于任意输入样本C,可以得到其对应的输入过敏的样本集合:
S(C)={Ck|f(Ck)≠f(C),且Sem(C,Ck)>τ} 公式(2)
S(C)即为所述中文源文本样本C的语义相似但模型输出不同的输入文本集合。
S12、基于预设文本比对算法,将所述预设源文本样本与所述目标替换文本样本进行比对,获取所述预设源文本样本包含的最小替换的源连续文本,及所述目标替换文本样本包含的与所述源连续文本对应的目标替换连续文本,并根据所述源连续文本与所述目标替换连续文本的对应关系,生成对应的目标语义相似替换规则。
其中,语义相似替换规则为通过将某段文字a替换为a'后,可以获得相似语义的文本,记为映射r=(a→a’),例如,替换「今天早上」为「早上」,记为(今天早上→早上),即为对应的语义相似替换规则。
具体地,获取预设源文本样本,并根据所述预设源文本样本,基于预设语义相似文本生成算法,生成与所述预设源文本样本语义相似的目标替换文本样本后,基于预设文本比对算法,将所述预设源文本样本与所述目标替换文本样本进行比对,即可获得所述预设源文本样本中哪些最小的连续文本(即源连续文本)被所述目标替换文本样本所包含的对应内容(即目标替换连续文本)进行替换,并将所述源连续文本与所述目标替换连续文本生成对应的目标语义相似替换规则,例如,若将预设源文本样本A与对应的目标替换文本样本B进行比对,若预设源文本样本A中包含的源连续文本为「今天早上」,目标替换文本样本B中所包含的与所述「今天早上」对应的目标替换连续文本为「早上」,根据「今天早上」与「早上」之间对应的替换与被替换关系,记为(今天早上→早上),即为对应的目标语义相似替换规则。
进一步地,请参阅图7,图7为本申请实施例提供的基于语义相似的过敏文本样本生成方法的第五个子流程示意图。如图7所示,在该实施例中,所述基于预设文本比对算法,将所述预设源文本样本与所述目标替换文本样本进行比对,获取所述预设源文本样本包含的最小替换的源连续文本,及所述目标替换文本样本包含的与所述源连续文本对应的目标替换连续文本,并根据所述源连续文本与所述目标替换连续文本的对应关系,生成对应的目标语义相似替换规则的步骤包括:
S121、基于预设文本比对算法,将所述预设源文本样本与对应的所述目标替换文本样本进行比对,获取所述预设源文本样本包含的最小替换的源连续文本,及所述目标替换文本样本包含的与所述源连续文本对应的目标替换连续文本,并根据所述源连续文本与对应的所述目标替换连续文本的对应关系,生成对应的初始语义相似替换规则,从而得到多个所述初始语义替换规则;
S122、根据所有所述初始语义替换规则,统计每个所述初始语义替换规则的规则数量,并根据所述规则数量,计算所述初始语义替换规则在所有所述初始语义替换规则中所占比重;
S123、判断所述比重是否大于或者等于预设比重阈值;
S124、若所述比重大于或者等于预设比重阈值,将所述初始语义替换规则作为目标语义相似替换规则;
S125、若所述比重小于预设比重阈值,不将所述初始语义替换规则作为目标语义相似替换规则。
具体地,由于每个所述预设源文本样本均可能会存在多个对应的所述目标替换文本样本,需要将每个所述预设源文本样本及每个对应的所述目标替换文本样本进行一一比对,例如,请继续参阅图2,中文源文本样本C对应中文目标替换文本C1、C2、C3及C4,需要将C与C1进行比对,需要将C与C2进行比对,需要将C与C3进行比对,需要将C与C4进行比对,每个所述预设源文本样本及每个对应的所述目标替换文本样本也可能会存在多个初始语义替换规则,针对每个所述预设源文本样本及每个对应的所述目标替换文本样本,均会生成对应的若干个初始语义相似替换规则,从而得到多个所述初始语义替换规则,例如,针对上述样本集合S(C),对样本集中的每一个文本C,将C与集合S(C)中对应的文本一一比对,基于已有的文本比对算法,获取其最小替换的连续文本,可以获得多个替换规则r1,r2,r3,…。并且生成的多个所述初始语义替换规则中,可能会存在重复的初始语义替换规则,例如,请继续参阅图1,C与C1生成了初始语义替换规则K,C与C2也可能会生成初始语义替换规则K,C与C3也可能会生成初始语义替换规则K等,即C与C1、C与C2及C与C3均生成了相同的初始语义替换规则K。
获取到多个所述初始语义替换规则后,为了进一步提炼出现频率较高的语义替换规则,以提高语义替换规则生成的准确性,可以将所有所述初始语义替换规则进行筛选,通过每个所述初始语义替换规则出现的频率,即每个所述初始语义替换规则在所有所述初始语义替换规则所占的比重,或者理解为每个所述初始语义替换规则出现的概率,保留出现频率大于预设频率阈值τ的规则,τ是人为设定的0到1之间的数值,越大则筛选越严格,即根据所有所述初始语义替换规则,统计每个所述初始语义替换规则的规则数量,并根据所述规则数量,计算所述初始语义替换规则在所有所述初始语义替换规则中所占比重,例如,所有所述初始语义替换规则为200条,其中,初始语义替换规则K出现了50次,初始语义替换规则K所占比重为25%,再判断所述比重是否大于或者等于预设比重阈值,若所述比重大于或者等于预设比重阈值,表明所述初始语义替换规则出现的频率能够满足人为设定的频繁程度,所述初始语义替换规则使用的频率较高,例如在医学领域的中文在线问诊模型中,对应的语义相似对抗情形出现的较多,将所述初始语义替换规则作为目标语义相似替换规则,若所述比重小于预设比重阈值,所述初始语义替换规则使用的频率较低,不将所述初始语义替换规则作为目标语义相似替换规则,从而能够筛选出语义相似对抗性较强的语义替换规则,后续能够产生质量较高的过敏样本,从而提升对业务模型的训练质量与效率。
更进一步地,请参阅图8,图8为本申请实施例提供的基于语义相似的过敏文本样本生成方法的第六个子流程示意图。如图8所示,在该实施例中所述若所述比重大于或者等于预设比重阈值,将所述初始语义替换规则作为目标语义相似替换规则的步骤包括:
S126、若所述比重大于或者等于预设比重阈值,将所述初始语义替换规则作为留存语义替换规则;
S127、将所有所述留存语义替换规则进行显示,以将所述留存语义替换规则进行人工确认,并得到确认语义替换规则,将所述确认语义替换规则作为目标语义相似替换规则。
具体地,将所述初始语义替换规则根据替换规则的出现频率进行初步筛选,得到筛选后的初始语义替换规则(即留存语义替换规则),为了进一步提高目标语义相似替换规则的准确性,可以将所述留存语义替换规则进行人工确认,通过将所有所述留存语义替换规则输出至预设显示页面上,以让人工对所述留存语义替换规则进行确认,并可以对所述留存语义替换规则进行修改、删除等编辑操作,从而得到人工确认后的确认语义替换规则,将所述确认语义替换规则作为目标语义相似替换规则。例如,将所述留存语义替换规则写成「a→a’」的形式,输出至预设显示页面上进行显示,以交由人工修改、筛除、确认等编辑操作,人工筛除的目的是去除可能存在的少量语义上不合理的语义替换规则,相比传统技术中,全部通过人工总结替换规则,本申请实施例通过自动生成初始语义替换规则,并将初始语义替换规则进行初步筛选,以得到留存语义替换规则,再将所述留存语义替换规则进行人工筛选,以得到最终的目标语义相似替换规则,最终,可以得到语义相似替换规则集合Rules={r},这些规则是可以将原样本转换为语义相似、但传统技术中会导致业务模型输出不同的输入过敏样本,可以提高语义替换规则的生成效率,并且大大降低人力成本,后续可以提升扩增预设训练文本样本数据的效率。
S13、获取预设训练文本样本,根据所述语义相似替换规则,将所述预设训练文本样本进行文本内容替换,以生成所述预设训练文本样本对应的过敏文本样本。
具体地,利用少量的预设源文本样本,生成对应的目标语义相似替换规则后,就可以利用所述目标语义相似替换规则,在预设训练文本样本基础上,将所述预设训练文本样本中的内容进行对应替换,从而生成与所述预设训练文本样本语义相似的过敏文本样本。例如,针对语义相似替换规则集合Rules={r},其中,规则r=(a→a’),规则描述连续文本a可以用文本a’进行替换,从而生成语义相似的过敏文本,若一个预设训练文本样本包含Rules中规则r=(a→a’)的条件文本a,则将a替换为a',获得一个新样本,即为过敏文本样本,所述过敏文本样本与所述预设训练文本样本语义相似,所述过敏文本样本为所述预设训练文本样本的过敏样本,所述过敏文本样本与所述预设训练文本样本为语义相似对抗的关系。
进一步地,所述生成所述预设训练文本样本对应的过敏文本样本的步骤之后,还包括:
获取所述预设训练文本样本所匹配的预设目标输出值;
将所述过敏文本样本匹配至预设目标输出值;
将所述预设训练文本样本与所述预设目标输出值,及所述过敏文本样本与所述预设目标输出值组成目标训练文本样本集。
具体地,由于所述过敏文本样本与所述预设训练文本样本之间语义相似,在一些应用场景,例如,请继续参阅图2,针对中文在线问诊模型,所述过敏文本样本与所述预设训练文本样本应该具备相同的输出值,才能准确的理解用户意图,充分缓解多样性的用户输入过敏的问题,提升在线问诊模型的准确率和泛化性,因此,在中文在线问诊模型等应用场景中,应该给所述过敏文本样本与所述预设训练文本样本匹配相同的预设目标输出值,并利用所述过敏文本样本、所述预设训练文本样本及两者匹配的相同预设目标输出值训练业务模型,后续业务模型针对语义相似的不同输入,才能做出相同的输出,从而才能解决过敏数据导致的输出不同的问题,因此,生成所述预设训练文本样本对应的过敏文本样本的步骤之后,还可以获取所述预设训练文本样本所匹配的预设目标输出值,将所述过敏文本样本匹配至预设目标输出值,将所述预设训练文本样本与所述预设目标输出值,及所述过敏文本样本与所述预设目标输出值组成目标训练文本样本集,然后利用所述目标训练文本样本集训练业务模型,后续业务模型针对所述过敏文本样本与所述预设训练文本样本之间语义相似的情形,会做出相同的反应,输出相同的输出值,从而实现利用语义相似替换规则扩增原有预设训练文本样本,提升了扩增所述预设训练文本样本数据的效率,使用所述目标训练文本样本集训练对应的业务模型,可以有效缓解业务模型的输入过敏的问题。例如,请继续参阅图2,针对中文在线问诊模型,本申请实施例通过机器翻译模型和一体化医学语言系统(即UMLS),可以充分利用UMLS英文医学语料知识扩展中文医学文本,不但扩展了中文相似语义的范围,而且能产生更适合在线问诊场景的语义相似文本内容,充分缓解多样性的用户输入过敏的问题,提升在线问诊模型的准确率和泛化性,减少模型对输入过敏的程度,增加患者对模型的信赖程度,提升了中文在线问诊模型的可用性与适应性。当然,针对不同的应用场景,可以将所述过敏文本样本做不同使用,例如,在一些应用场景中,可以将所述过敏文本样本做干扰数据,利用语义相似对抗来训练模型对输入数据识别的准确性,可能需要充分强化所述过敏文本样本与所述预设训练文本样本各自对应的输出值的不同,在此不做限定。
本申请实施例,通过获取预设源文本样本,并根据所述预设源文本样本,基于预设语义相似文本生成算法,生成与所述预设源文本样本语义相似的目标替换文本样本,基于预设文本比对算法,将所述预设源文本样本与所述目标替换文本样本进行比对,获取所述预设源文本样本包含的最小替换的源连续文本,及所述目标替换文本样本包含的与所述源连续文本对应的目标替换连续文本,并根据所述源连续文本与所述目标替换连续文本的对应关系,生成对应的目标语义相似替换规则,再获取预设训练文本样本,根据所述语义相似替换规则,将所述预设训练文本样本进行文本内容替换,以生成所述预设训练文本样本对应的过敏文本样本,可以解决训练数据偏差导致的输入过敏问题,扩展了预设训练文本样本的相似语义范围,充分缓解多样性的用户输入过敏的问题,能够提升具体业务模型的准确率和泛化性,减少模型对输入过敏的程度。
需要说明的是,上述各个实施例所述的基于语义相似的过敏文本样本生成方法,可以根据需要将不同实施例中包含的技术特征重新进行组合,以获取组合后的实施方案,但都在本申请要求的保护范围之内。
请参阅图9,图9为本申请实施例提供的基于语义相似的过敏文本样本生成装置的一个示意性框图。对应于上述所述基于语义相似的过敏文本样本生成方法,本申请实施例还提供一种基于语义相似的过敏文本样本生成装置。如图9所示,该基于语义相似的过敏文本样本生成装置包括用于执行上述所述基于语义相似的过敏文本样本生成方法的单元,该基于语义相似的过敏文本样本生成装置可以被配置于计算机设备中。具体地,请参阅图9,该基于语义相似的过敏文本样本生成装置90包括替换文本生成单元91、替换规则生成单元92及过敏文本生成单元93。
其中,替换文本生成单元91,用于获取预设源文本样本,并根据所述预设源文本样本,基于预设语义相似文本生成算法,生成与所述预设源文本样本语义相似的目标替换文本样本;
替换规则生成单元92,用于基于预设文本比对算法,将所述预设源文本样本与所述目标替换文本样本进行比对,获取所述预设源文本样本包含的最小替换的源连续文本,及所述目标替换文本样本包含的与所述源连续文本对应的目标替换连续文本,并根据所述源连续文本与所述目标替换连续文本的对应关系,生成对应的目标语义相似替换规则;
过敏文本生成单元93,用于获取预设训练文本样本,根据所述语义相似替换规则,将所述预设训练文本样本进行文本内容替换,以生成所述预设训练文本样本对应的过敏文本样本。
在一实施例中,所述替换文本生成单元91包括:
第一翻译子单元,用于基于预设第一机器翻译模型,将所述预设源文本样本进行翻译,得到翻译文本样本;
第一获取子单元,用于获取预设替换词库,所述预设替换词库包含预设语言单位及与所述预设语言单位对应的替换文本,所述替换文本为所述预设语言单位的同义内容或者近义内容;
第一判断子单元,用于判断所述翻译文本样本是否包含所述预设语言单位;
第一替换子单元,用于若所述翻译文本样本包含所述预设语言单位,将所述翻译文本样本包含的所述预设语言单位替换为所述替换文本,得到所述翻译文本样本对应的翻译替换文本样本;
第二翻译子单元,用于基于预设第二机器翻译模型,将所述翻译替换文本样本进行翻译,得到与所述预设源文本样本属于相同语言的目标替换文本样本。
在一实施例中,所述第一翻译子单元包括:
第三翻译子单元,用于基于n个预设第一机器翻译模型,分别将所述预设源文本样本进行翻译,得到每个所述预设第一机器翻译模型输出的初始第一翻译文本及所述初始第一翻译文本对应的第一条件概率,其中,n≥2,n为正整数;
第一排序子单元,用于根据所述第一条件概率由高到低,将所有所述初始第一翻译文本进行排序,得到初始第一翻译文本排序队列;
第一筛选子单元,用于基于所述初始第一翻译文本排序队列,按照从前到后顺序,筛选出m个所述初始第一翻译文本,并将m个所述初始第一翻译文本作为翻译文本样本,其中,m<n,m为正整数。
在一实施例中,所述第二翻译子单元包括:
第四翻译子单元,用于基于h个预设第二机器翻译模型,分别将所述翻译替换文本样本进行翻译,得到每个所述预设第二机器翻译模型输出的初始第二翻译文本及所述初始第二翻译文本对应的第二条件概率,其中,所述初始第二翻译文本与所述预设源文本样本属于相同语言,h为正整数;
第一确定子单元,用于根据所述第二条件概率,确定目标初始第二翻译文本,并将所述目标初始第二翻译文本作为目标替换文本样本。
在一实施例中,所述确定子单元包括:
第二排序子单元,用于根据所述第二条件概率由高到低,将所有所述初始第二翻译文本进行排序,得到初始第二翻译文本排序队列;
第二筛选子单元,用于基于所述初始第二翻译文本排序队列,按照从前到后顺序,筛选出j个所述初始第二翻译文本作为目标初始第二翻译文本,并将所述目标初始第二翻译文本作为目标替换文本样本,其中,j为正整数。
在一实施例中,所述替换规则生成单元92包括:
比对子单元,用于基于预设文本比对算法,将所述预设源文本样本与对应的所述目标替换文本样本进行比对,获取所述预设源文本样本包含的最小替换的源连续文本,及所述目标替换文本样本包含的与所述源连续文本对应的目标替换连续文本,并根据所述源连续文本与对应的所述目标替换连续文本的对应关系,生成对应的初始语义相似替换规则,从而得到多个所述初始语义替换规则;
计算子单元,用于根据所有所述初始语义替换规则,统计每个所述初始语义替换规则的规则数量,并根据所述规则数量,计算所述初始语义替换规则在所有所述初始语义替换规则中所占比重;
第二判断子单元,用于判断所述比重是否大于或者等于预设比重阈值;
第二确定子单元,用于若所述比重大于或者等于预设比重阈值,将所述初始语义替换规则作为目标语义相似替换规则。
在一实施例中,所述第二确定子单元包括:
第三确定子单元,用于若所述比重大于或者等于预设比重阈值,将所述初始语义替换规则作为留存语义替换规则;
确认子单元,用于将所有所述留存语义替换规则进行显示,以将所述留存语义替换规则进行人工确认,并得到确认语义替换规则,将所述确认语义替换规则作为目标语义相似替换规则。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述基于语义相似的过敏文本样本生成装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
同时,上述基于语义相似的过敏文本样本生成装置中各个单元的划分和连接方式仅用于举例说明,在其他实施例中,可将基于语义相似的过敏文本样本生成装置按照需要划分为不同的单元,也可将基于语义相似的过敏文本样本生成装置中各单元采取不同的连接顺序和方式,以完成上述基于语义相似的过敏文本样本生成装置的全部或部分功能。
上述基于语义相似的过敏文本样本生成装置可以实现为一种计算机程序的形式,该计算机程序可以在如图10所示的计算机设备上运行。
请参阅图10,图10是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是台式机电脑或者服务器等计算机设备,也可以是其他设备中的组件或者部件。
参阅图10,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504,所述存储器也可以为易失性存储介质。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行一种上述基于语义相似的过敏文本样本生成方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种上述基于语义相似的过敏文本样本生成方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图10所示实施例一致,在此不再赘述。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:获取预设源文本样本,并根据所述预设源文本样本,基于预设语义相似文本生成算法,生成与所述预设源文本样本语义相似的目标替换文本样本;基于预设文本比对算法,将所述预设源文本样本与所述目标替换文本样本进行比对,获取所述预设源文本样本包含的最小替换的源连续文本,及所述目标替换文本样本包含的与所述源连续文本对应的目标替换连续文本,并根据所述源连续文本与所述目标替换连续文本的对应关系,生成对应的目标语义相似替换规则;获取预设训练文本样本,根据所述语义相似替换规则,将所述预设训练文本样本进行文本内容替换,以生成所述预设训练文本样本对应的过敏文本样本。
在一实施例中,所述处理器502在实现基于预设语义相似文本生成算法,生成与所述预设源文本样本语义相似的目标替换文本样本的步骤时,具体实现以下步骤:
基于预设第一机器翻译模型,将所述预设源文本样本进行翻译,得到翻译文本样本;
获取预设替换词库,所述预设替换词库包含预设语言单位及与所述预设语言单位对应的替换文本,所述替换文本为所述预设语言单位的同义内容或者近义内容;
判断所述翻译文本样本是否包含所述预设语言单位;
若所述翻译文本样本包含所述预设语言单位,将所述翻译文本样本包含的所述预设语言单位替换为所述替换文本,得到所述翻译文本样本对应的翻译替换文本样本;
基于预设第二机器翻译模型,将所述翻译替换文本样本进行翻译,得到与所述预设源文本样本属于相同语言的目标替换文本样本。
在一实施例中,所述处理器502在实现所述基于预设第一机器翻译模型,将所述预设源文本样本进行翻译,得到翻译文本样本的步骤时,具体实现以下步骤:
基于n个预设第一机器翻译模型,分别将所述预设源文本样本进行翻译,得到每个所述预设第一机器翻译模型输出的初始第一翻译文本及所述初始第一翻译文本对应的第一条件概率,其中,n≥2,n为正整数;
根据所述第一条件概率由高到低,将所有所述初始第一翻译文本进行排序,得到初始第一翻译文本排序队列;
基于所述初始第一翻译文本排序队列,按照从前到后顺序,筛选出m个所述初始第一翻译文本,并将m个所述初始第一翻译文本作为翻译文本样本,其中,m<n,m为正整数。
在一实施例中,所述处理器502在实现所述基于预设第二机器翻译模型,将所述翻译替换文本样本进行翻译,得到与所述预设源文本样本属于相同语言的目标替换文本样本的步骤时,具体实现以下步骤:
基于h个预设第二机器翻译模型,分别将所述翻译替换文本样本进行翻译,得到每个所述预设第二机器翻译模型输出的初始第二翻译文本及所述初始第二翻译文本对应的第二条件概率,其中,所述初始第二翻译文本与所述预设源文本样本属于相同语言,h为正整数;
根据所述第二条件概率,确定目标初始第二翻译文本,并将所述目标初始第二翻译文本作为目标替换文本样本。
在一实施例中,所述处理器502在实现所述根据所述第二条件概率,确定目标初始第二翻译文本,并将所述目标初始第二翻译文本作为目标替换文本样本的步骤时,具体实现以下步骤:
根据所述第二条件概率由高到低,将所有所述初始第二翻译文本进行排序,得到初始第二翻译文本排序队列;基于所述初始第二翻译文本排序队列,按照从前到后顺序,筛选出j个所述初始第二翻译文本作为目标初始第二翻译文本,并将所述目标初始第二翻译文本作为目标替换文本样本,其中,j为正整数。
在一实施例中,所述处理器502在实现所述基于预设文本比对算法,将所述预设源文本样本与所述目标替换文本样本进行比对,获取所述预设源文本样本包含的最小替换的源连续文本,及所述目标替换文本样本包含的与所述源连续文本对应的目标替换连续文本,并根据所述源连续文本与所述目标替换连续文本的对应关系,生成对应的目标语义相似替换规则的步骤时,具体实现以下步骤:
基于预设文本比对算法,将所述预设源文本样本与对应的所述目标替换文本样本进行比对,获取所述预设源文本样本包含的最小替换的源连续文本,及所述目标替换文本样本包含的与所述源连续文本对应的目标替换连续文本,并根据所述源连续文本与对应的所述目标替换连续文本的对应关系,生成对应的初始语义相似替换规则,从而得到多个所述初始语义替换规则;根据所有所述初始语义替换规则,统计每个所述初始语义替换规则的规则数量,并根据所述规则数量,计算所述初始语义替换规则在所有所述初始语义替换规则中所占比重;判断所述比重是否大于或者等于预设比重阈值;若所述比重大于或者等于预设比重阈值,将所述初始语义替换规则作为目标语义相似替换规则。
在一实施例中,所述处理器502在实现所述若所述比重大于或者等于预设比重阈值,将所述初始语义替换规则作为目标语义相似替换规则的步骤时,具体实现以下步骤:
若所述比重大于或者等于预设比重阈值,将所述初始语义替换规则作为留存语义替换规则;将所有所述留存语义替换规则进行显示,以将所述留存语义替换规则进行人工确认,并得到确认语义替换规则,将所述确认语义替换规则作为目标语义相似替换规则。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来完成,该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本申请还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以为易失性的计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时使处理器执行如下步骤:
一种计算机程序产品,当其在计算机上运行时,使得计算机执行以上各实施例中所描述的所述基于语义相似的过敏文本样本生成方法的步骤。
所述计算机可读存储介质可以是前述设备的内部存储单元,例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储计算机程序的实体存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,终端,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
以上所述,仅为本申请的具体实施方式,但本申请明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种基于语义相似的过敏文本样本生成方法,包括:
获取预设源文本样本,并根据所述预设源文本样本,基于预设语义相似文本生成算法,生成与所述预设源文本样本语义相似的目标替换文本样本;
基于预设文本比对算法,将所述预设源文本样本与所述目标替换文本样本进行比对,获取所述预设源文本样本包含的最小替换的源连续文本,及所述目标替换文本样本包含的与所述源连续文本对应的目标替换连续文本,并根据所述源连续文本与所述目标替换连续文本的对应关系,生成对应的目标语义相似替换规则;
获取预设训练文本样本,根据所述语义相似替换规则,将所述预设训练文本样本进行文本内容替换,以生成所述预设训练文本样本对应的过敏文本样本;
所述根据所述预设源文本样本,基于预设语义相似文本生成算法,生成与所述预设源文本样本语义相似的目标替换文本样本的步骤包括:
基于预设第一机器翻译模型,将所述预设源文本样本进行翻译,得到翻译文本样本;
获取预设替换词库,所述预设替换词库包含预设语言单位及与所述预设语言单位对应的替换文本,所述替换文本为所述预设语言单位的同义内容或者近义内容;
判断所述翻译文本样本是否包含所述预设语言单位;
若所述翻译文本样本包含所述预设语言单位,将所述翻译文本样本包含的所述预设语言单位替换为所述替换文本,得到所述翻译文本样本对应的翻译替换文本样本;
基于预设第二机器翻译模型,将所述翻译替换文本样本进行翻译,得到与所述预设源文本样本属于相同语言的目标替换文本样本;
其中,若所述翻译文本样本不包含所述预设语言单位,不将所述翻译文本样本替换为所述替换文本。
2.根据权利要求1所述基于语义相似的过敏文本样本生成方法,其特征在于,所述基于预设第一机器翻译模型,将所述预设源文本样本进行翻译,得到翻译文本样本的步骤包括:
基于n个预设第一机器翻译模型,分别将所述预设源文本样本进行翻译,得到每个所述预设第一机器翻译模型输出的初始第一翻译文本及所述初始第一翻译文本对应的第一条件概率,其中,n≥2,n为正整数;
根据所述第一条件概率由高到低,将所有所述初始第一翻译文本进行排序,得到初始第一翻译文本排序队列;
基于所述初始第一翻译文本排序队列,按照从前到后顺序,筛选出m个所述初始第一翻译文本,并将m个所述初始第一翻译文本作为翻译文本样本,其中,m<n,m为正整数。
3.根据权利要求1所述基于语义相似的过敏文本样本生成方法,其特征在于,所述基于预设第二机器翻译模型,将所述翻译替换文本样本进行翻译,得到与所述预设源文本样本属于相同语言的目标替换文本样本的步骤包括:
基于h个预设第二机器翻译模型,分别将所述翻译替换文本样本进行翻译,得到每个所述预设第二机器翻译模型输出的初始第二翻译文本及所述初始第二翻译文本对应的第二条件概率,其中,所述初始第二翻译文本与所述预设源文本样本属于相同语言,h为正整数;
根据所述第二条件概率,确定目标初始第二翻译文本,并将所述目标初始第二翻译文本作为目标替换文本样本。
4.根据权利要求3所述基于语义相似的过敏文本样本生成方法,其特征在于,所述根据所述第二条件概率,确定目标初始第二翻译文本,并将所述目标初始第二翻译文本作为目标替换文本样本的步骤包括:
根据所述第二条件概率由高到低,将所有所述初始第二翻译文本进行排序,得到初始第二翻译文本排序队列;
基于所述初始第二翻译文本排序队列,按照从前到后顺序,筛选出j个所述初始第二翻译文本作为目标初始第二翻译文本,并将所述目标初始第二翻译文本作为目标替换文本样本,其中,j为正整数。
5.根据权利要求1所述基于语义相似的过敏文本样本生成方法,其特征在于,所述基于预设文本比对算法,将所述预设源文本样本与所述目标替换文本样本进行比对,获取所述预设源文本样本包含的最小替换的源连续文本,及所述目标替换文本样本包含的与所述源连续文本对应的目标替换连续文本,并根据所述源连续文本与所述目标替换连续文本的对应关系,生成对应的目标语义相似替换规则的步骤包括:
基于预设文本比对算法,将所述预设源文本样本与对应的所述目标替换文本样本进行比对,获取所述预设源文本样本包含的最小替换的源连续文本,及所述目标替换文本样本包含的与所述源连续文本对应的目标替换连续文本,并根据所述源连续文本与对应的所述目标替换连续文本的对应关系,生成对应的初始语义相似替换规则,从而得到多个所述初始语义替换规则;
根据所有所述初始语义替换规则,统计每个所述初始语义替换规则的规则数量,并根据所述规则数量,计算所述初始语义替换规则在所有所述初始语义替换规则中所占比重;
判断所述比重是否大于或者等于预设比重阈值;
若所述比重大于或者等于预设比重阈值,将所述初始语义替换规则作为目标语义相似替换规则。
6.根据权利要求5所述基于语义相似的过敏文本样本生成方法,其特征在于,所述若所述比重大于或者等于预设比重阈值,将所述初始语义替换规则作为目标语义相似替换规则的步骤包括:
若所述比重大于或者等于预设比重阈值,将所述初始语义替换规则作为留存语义替换规则;
将所有所述留存语义替换规则进行显示,以将所述留存语义替换规则进行人工确认,并得到确认语义替换规则,将所述确认语义替换规则作为目标语义相似替换规则。
7.一种基于语义相似的过敏文本样本生成装置,其特征在于,包括:
替换文本生成单元,用于获取预设源文本样本,并根据所述预设源文本样本,基于预设语义相似文本生成算法,生成与所述预设源文本样本语义相似的目标替换文本样本;
替换规则生成单元,用于基于预设文本比对算法,将所述预设源文本样本与所述目标替换文本样本进行比对,获取所述预设源文本样本包含的最小替换的源连续文本,及所述目标替换文本样本包含的与所述源连续文本对应的目标替换连续文本,并根据所述源连续文本与所述目标替换连续文本的对应关系,生成对应的目标语义相似替换规则;
过敏文本生成单元,用于获取预设训练文本样本,根据所述语义相似替换规则,将所述预设训练文本样本进行文本内容替换,以生成所述预设训练文本样本对应的过敏文本样本;
所述替换文本生成单元具体用于:
基于预设第一机器翻译模型,将所述预设源文本样本进行翻译,得到翻译文本样本;
获取预设替换词库,所述预设替换词库包含预设语言单位及与所述预设语言单位对应的替换文本,所述替换文本为所述预设语言单位的同义内容或者近义内容;
判断所述翻译文本样本是否包含所述预设语言单位;
若所述翻译文本样本包含所述预设语言单位,将所述翻译文本样本包含的所述预设语言单位替换为所述替换文本,得到所述翻译文本样本对应的翻译替换文本样本;
基于预设第二机器翻译模型,将所述翻译替换文本样本进行翻译,得到与所述预设源文本样本属于相同语言的目标替换文本样本;
其中,若所述翻译文本样本不包含所述预设语言单位,不将所述翻译文本样本替换为所述替换文本。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器以及与所述存储器相连的处理器;所述存储器用于存储计算机程序;所述处理器用于运行所述计算机程序,以执行如权利要求1-6任一项所述方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1-6中任一项所述方法的步骤。
CN202110712401.XA 2021-06-25 2021-06-25 基于语义相似的过敏文本样本生成方法、装置及相关设备 Active CN113435188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110712401.XA CN113435188B (zh) 2021-06-25 2021-06-25 基于语义相似的过敏文本样本生成方法、装置及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110712401.XA CN113435188B (zh) 2021-06-25 2021-06-25 基于语义相似的过敏文本样本生成方法、装置及相关设备

Publications (2)

Publication Number Publication Date
CN113435188A CN113435188A (zh) 2021-09-24
CN113435188B true CN113435188B (zh) 2024-05-14

Family

ID=77754561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110712401.XA Active CN113435188B (zh) 2021-06-25 2021-06-25 基于语义相似的过敏文本样本生成方法、装置及相关设备

Country Status (1)

Country Link
CN (1) CN113435188B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859987A (zh) * 2020-07-28 2020-10-30 网易(杭州)网络有限公司 文本处理方法、目标任务模型的训练方法和装置
WO2020220539A1 (zh) * 2019-04-28 2020-11-05 平安科技(深圳)有限公司 数据增量方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106383818A (zh) * 2015-07-30 2017-02-08 阿里巴巴集团控股有限公司 一种机器翻译方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020220539A1 (zh) * 2019-04-28 2020-11-05 平安科技(深圳)有限公司 数据增量方法、装置、计算机设备及存储介质
CN111859987A (zh) * 2020-07-28 2020-10-30 网易(杭州)网络有限公司 文本处理方法、目标任务模型的训练方法和装置

Also Published As

Publication number Publication date
CN113435188A (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
US10579721B2 (en) Lean parsing: a natural language processing system and method for parsing domain-specific languages
TWI664540B (zh) Search word error correction method and device, and weighted edit distance calculation method and device
US10460029B2 (en) Reply information recommendation method and apparatus
US9373075B2 (en) Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation
US8660836B2 (en) Optimization of natural language processing system based on conditional output quality at risk
US9152622B2 (en) Personalized machine translation via online adaptation
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
US11934781B2 (en) Systems and methods for controllable text summarization
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
JP7413630B2 (ja) 要約生成モデルの訓練方法、装置、デバイス及び記憶媒体
CN114547274B (zh) 多轮问答的方法、装置及设备
JP6729095B2 (ja) 情報処理装置及びプログラム
CN108319586B (zh) 一种信息提取规则的生成和语义解析方法及装置
US20220058349A1 (en) Data processing method, device, and storage medium
US11699034B2 (en) Hybrid artificial intelligence system for semi-automatic patent infringement analysis
CN116303537A (zh) 数据查询方法及装置、电子设备、存储介质
CN113407677A (zh) 评估咨询对话质量的方法、装置、设备和存储介质
US9547645B2 (en) Machine translation apparatus, translation method, and translation system
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
CN111161730B (zh) 语音指令匹配方法、装置、设备及存储介质
CN117370190A (zh) 测试用例生成方法、装置、电子设备和存储介质
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
CN115859999B (zh) 意图识别方法、装置、电子设备及存储介质
WO2023124837A1 (zh) 问诊处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant