CN112800779B - 文本处理方法及装置、模型训练方法及装置 - Google Patents

文本处理方法及装置、模型训练方法及装置 Download PDF

Info

Publication number
CN112800779B
CN112800779B CN202110331040.4A CN202110331040A CN112800779B CN 112800779 B CN112800779 B CN 112800779B CN 202110331040 A CN202110331040 A CN 202110331040A CN 112800779 B CN112800779 B CN 112800779B
Authority
CN
China
Prior art keywords
text
language text
language
candidate
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110331040.4A
Other languages
English (en)
Other versions
CN112800779A (zh
Inventor
王超超
王为磊
屠昶旸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smart Bud Information Technology Suzhou Co ltd
Original Assignee
Smart Bud Information Technology Suzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smart Bud Information Technology Suzhou Co ltd filed Critical Smart Bud Information Technology Suzhou Co ltd
Priority to CN202110331040.4A priority Critical patent/CN112800779B/zh
Priority to CN202110915501.2A priority patent/CN113609872A/zh
Publication of CN112800779A publication Critical patent/CN112800779A/zh
Application granted granted Critical
Publication of CN112800779B publication Critical patent/CN112800779B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种文本处理方法及装置、模型训练方法及装置,涉及数据处理技术领域。该文本处理方法包括:基于第一语言文本确定第一语言文本模块,并基于第二语言文本确定第二语言文本模块;分别对第一语言文本模块和第二语言文本模块进行句词拆分操作,以生成多个第一语言文本单元和多个第二语言文本单元;基于多个第一语言文本单元和多个第二语言文本单元确定第一语言文本模块和第二语言文本模块对应的平行句对。本公开充分利用了文本的结构特征,并借助了句词拆分操作将相应的文本模块转换为包括碎片化的分句分词的文本单元,因此,本公开能够充分顾及句子间的潜在语义信息,进而能够有效提升平行句对的构建效果。

Description

文本处理方法及装置、模型训练方法及装置
技术领域
本公开涉及数据处理技术领域,具体涉及文本处理方法及装置、模型训练方法及装置、计算机可读存储介质和电子设备。
背景技术
近年来,随着全球化的加速发展,文本翻译、文本检索等文本处理需求日益涌现。平行句对作为文本处理的重要依据,其重要性不言而喻。
然而,现有平行句对的构建方案主要依赖于词汇和句子的长度信息实现,忽略了句子间潜在的语义信息,因此,构建效果较差。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种文本处理方法及装置、模型训练方法及装置、计算机可读存储介质和电子设备。
第一方面,本公开一实施例提供一种文本处理方法,该方法包括:基于第一语言文本确定第一语言文本模块,并基于第二语言文本确定第二语言文本模块,其中,第一语言文本模块与第二语言文本模块在文本结构层面呈对应关系;分别对第一语言文本模块和第二语言文本模块进行句词拆分操作,以生成多个第一语言文本单元和多个第二语言文本单元;基于多个第一语言文本单元和多个第二语言文本单元确定第一语言文本模块和第二语言文本模块对应的平行句对。
结合本公开的第一方面,在一些实施例中,基于多个第一语言文本单元和多个第二语言文本单元确定第一语言文本模块和第二语言文本模块对应的平行句对,包括:针对多个第一语言文本单元中的每个第一语言文本单元,基于多个第二语言文本单元确定第一语言文本单元对应的第一候选单元集合,其中,第一候选单元集合包括至少一个第二语言文本单元;计算第一候选单元集合中包括的第二语言文本单元对应的统计分数信息;基于统计分数信息确定第一语言文本单元对应的第二候选单元集合;基于多个第一语言文本单元各自对应的第二候选单元集合确定平行句对。
结合本公开的第一方面,在一些实施例中,计算第一候选单元集合中包括的第二语言文本单元对应的统计分数信息,包括:确定第一候选单元集合中包括的第二语言文本单元和第一语言文本单元对应的多个候选词对;确定多个候选词对各自对应的分数信息;基于多个候选词对各自对应的分数信息确定统计分数信息。
结合本公开的第一方面,在一些实施例中,候选词对包括第一语言词和与第一语言词对应的第二语言词,确定多个候选词对各自对应的分数信息,包括:针对多个候选词对中的每个候选词对,基于候选词对的出现频率信息、包含有第二语言词的第二语言文本单元在第一候选单元集合中的比值信息、第二语言文本单元的候选加权信息、第二语言文本单元和第一语言文本单元的长度比值信息,确定候选词对对应的分数信息;其中,基于多个候选词对各自对应的分数信息确定统计分数信息,包括:对多个候选词对各自对应的分数信息进行累加操作,以确定统计分数信息。
结合本公开的第一方面,在一些实施例中,基于候选词对的出现频率信息、包含有第二语言词的第二语言文本单元在第一候选单元集合中的比值信息、第二语言文本单元的候选加权信息、第二语言文本单元和第一语言文本单元的长度比值信息,确定候选词对对应的分数信息,包括:计算出现频率信息和比值信息的第一乘积信息对应的对数信息;计算对数信息、候选加权信息和长度比值信息的第二乘积信息;基于第二乘积信息确定分数信息。
结合本公开的第一方面,在一些实施例中,基于统计分数信息确定第一语言文本单元对应的第二候选单元集合,包括:确定第一候选单元集合中包括的第二语言文本单元对应的统计分数信息与预设统计分数阈值的关系;基于第一候选单元集合中符合第一预设关系条件的第二语言文本单元生成第二候选单元集合。
结合本公开的第一方面,在一些实施例中,在基于多个第一语言文本单元各自对应的第二候选单元集合确定平行句对之前,该方法还包括:基于第二候选单元集合和双语翻译模型确定第三候选单元集合,其中,双语翻译模型用于将第一语言文本单元翻译为与第一语言文本单元对应的第二语言翻译单元。其中,基于多个第一语言文本单元各自对应的第二候选单元集合确定平行句对,包括:基于第三候选单元集合确定平行句对。
结合本公开的第一方面,在一些实施例中,基于第二候选单元集合和双语翻译模型确定第三候选单元集合,包括:将第一语言文本单元输入双语翻译模型,以得到第一语言文本单元对应的第二语言翻译单元;确定第二候选单元集合中包括的第二语言文本单元与第二语言翻译单元的相似评估信息;基于相似评估信息确定第三候选单元集合。
结合本公开的第一方面,在一些实施例中,基于相似评估信息确定第三候选单元集合,包括:确定第二候选单元集合中包括的第二语言文本单元对应的相似评估信息与预设相似评估阈值的关系;基于第二候选单元集合中符合第二预设关系条件的第二语言文本单元生成第三候选单元集合。
结合本公开的第一方面,在一些实施例中,在基于第三候选单元集合确定平行句对之后,该方法还包括:基于平行句对增量更新双语翻译模型。
结合本公开的第一方面,在一些实施例中,基于第一语言文本确定第一语言文本模块,并基于第二语言文本确定第二语言文本模块,包括:分别对第一语言文本和第二语言文本进行专利结构拆分操作,以生成第一语言文本模块和第二语言文本模块。
结合本公开的第一方面,在一些实施例中,专利结构拆分操作包括摘要结构拆分操作、权利要求书结构拆分操作、说明书结构拆分操作、背景技术拆分操作、发明内容拆分操作和具体实施方式拆分操作中的至少一种。
结合本公开的第一方面,在一些实施例中,该方法还包括:接收用户输入的待处理信息,其中,待处理信息包括待翻译信息或待检索信息;根据待处理信息和平行句对确定处理结果,其中,处理结果包括翻译结果或检索结果。
第二方面,本公开一实施例提供一种模型训练方法,该方法包括:确定初始处理模型;基于平行句对训练初始处理模型,以生成文本处理模型。其中,文本处理模型用于基于第一语言的待处理文本生成与待处理文本对应的第二语言的目标文本,平行句对基于上述任一实施例所述的文本处理方法确定。
第三方面,本公开一实施例提供一种文本处理方法,该方法包括:获取第一语言的待处理文本;将第一语言的待处理文本输入文本处理模型,以生成第二语言的目标文本。其中,文本处理模型基于上述任一实施例所述的模型训练方法训练得到。
结合本公开的第三方面,在一些实施例中,文本处理模型为文本翻译模型,文本翻译模型用于将第一语言的待处理文本翻译为第二语言的翻译文本。
第四方面,本公开一实施例提供一种文本处理装置,该装置包括:第一确定模块,用于基于第一语言文本确定第一语言文本模块,并基于第二语言文本确定第二语言文本模块,其中,第一语言文本模块与第二语言文本模块在文本结构层面呈对应关系;拆分模块,用于分别对第一语言文本模块和第二语言文本模块进行句词拆分操作,以生成多个第一语言文本单元和多个第二语言文本单元;第二确定模块,用于基于多个第一语言文本单元和多个第二语言文本单元确定第一语言文本模块和第二语言文本模块对应的平行句对。
第五方面,本公开一实施例提供一种模型训练装置,该装置包括:初始处理模型确定模块,用于确定初始处理模型;训练模块,用于基于平行句对训练初始处理模型,以生成文本处理模型。其中,文本处理模型用于基于第一语言的待处理文本生成与待处理文本对应的第二语言的目标文本,平行句对基于上述任一实施例所述的文本处理方法确定。
第六方面,本公开一实施例提供一种文本处理装置,该装置包括:获取模块,用于获取第一语言的待处理文本;处理模块,用于将第一语言的待处理文本输入文本处理模型,以生成第二语言的目标文本。其中,文本处理模型基于上述任一实施例所述的模型训练方法训练得到。
第七方面,本公开一实施例提供一种计算机可读存储介质,所述存储介质存储有指令,当所述指令由电子设备的处理器执行时,使得所述电子设备能够执行上述任一实施例所提及的文本处理方法和/或模型训练方法。
第八方面,本公开一实施例提供一种电子设备,所述电子设备包括:处理器和用于存储所述计算机可执行指令的存储器。所述处理器,用于执行所述计算机可执行指令,以实现上述任一实施例所提及的文本处理方法和/或模型训练方法。
本公开实施例提供的文本处理方法充分利用了文本的结构特征,并借助了句词拆分操作将相应的文本模块转换为碎片化的分句分词,因此,本公开实施例能够充分顾及句子间的潜在语义信息,进而能够有效提升平行句对的构建效果。
附图说明
图1所示为本公开一实施例提供的文本处理方法的应用场景示意图。
图2所示为本公开一实施例提供的文本处理方法的流程示意图。
图3所示为本公开一实施例提供的基于多个第一语言文本单元和多个第二语言文本单元确定第一语言文本模块和第二语言文本模块对应的平行句对的流程示意图。
图4所示为本公开一实施例提供的计算第一候选单元集合中包括的第二语言文本单元对应的统计分数信息的流程示意图。
图5所示为本公开另一实施例提供的计算第一候选单元集合中包括的第二语言文本单元对应的统计分数信息的流程示意图。
图6所示为本公开一实施例提供的基于候选词对的出现频率信息、包含有第二语言词的第二语言文本单元在第一候选单元集合中的比值信息、第二语言文本单元的候选加权信息、第二语言文本单元和第一语言文本单元的长度比值信息,确定候选词对对应的分数信息的流程示意图。
图7所示为本公开一实施例提供的基于统计分数信息确定第一语言文本单元对应的第二候选单元集合的流程示意图。
图8所示为本公开另一实施例提供的基于多个第一语言文本单元和多个第二语言文本单元确定第一语言文本模块和第二语言文本模块对应的平行句对的流程示意图。
图9所示为本公开一实施例提供的基于第二候选单元集合和双语翻译模型确定第三候选单元集合的流程示意图。
图10所示为本公开一实施例提供的基于相似评估信息确定第三候选单元集合的流程示意图。
图11所示为本公开又一实施例提供的基于多个第一语言文本单元和多个第二语言文本单元确定第一语言文本模块和第二语言文本模块对应的平行句对的流程示意图。
图12所示为本公开另一实施例提供的文本处理方法的流程示意图。
图13所示为本公开一实施例提供的文本处理方法的实际应用流程示意图。
图14所示为本公开一实施例提供的模型训练方法的流程示意图。
图15所示为本公开一实施例提供的文本处理方法的流程示意图。
图16所示为本公开一实施例提供的文本处理装置的结构示意图。
图17所示为本公开一实施例提供的第二确定模块的结构示意图。
图18所示为本公开一实施例提供的统计分数信息确定单元的结构示意图。
图19所示为本公开一实施例提供的第二候选单元集合确定单元的结构示意图。
图20所示为本公开另一实施例提供的第二确定模块的结构示意图。
图21所示为本公开一实施例提供的第三候选单元集合确定单元的结构示意图。
图22所示为本公开一实施例提供的第三候选单元集合确定子单元的结构示意图。
图23所示为本公开另一实施例提供的文本处理装置的结构示意图。
图24所示为本公开一实施例提供的模型训练装置的结构示意图。
图25所示为本公开一实施例提供的文本处理装置的结构示意图。
图26为本公开一实施例提供的电子设备的硬件结构示意图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
本公开提供的技术方案可以应用在智能终端(比如平板电脑、手机等)中,以使智能终端具备相关功能,比如,跨语言专利的检索功能、专利文本的快速翻译功能等。
下面结合图1对本公开提供的文本处理方法的应用场景进行简单的介绍。
图1所示为本公开一实施例提供的文本处理方法的应用场景示意图。图1所示的场景包括服务器110以及与服务器110通信连接的客户端120。具体而言,服务器110用于基于双语同族专利文本生成双语同族专利文本对应的平行句对,并根据接收的第一语言的待检索信息或待翻译信息、以及预先生成的平行句对对应生成第二语言的检索结果或翻译结果。
示例性地,基于双语同族专利文本生成双语同族专利文本对应的平行句对的方式包括:基于第一语言文本确定第一语言文本模块,并基于第二语言文本确定第二语言文本模块,继而分别对第一语言文本模块和第二语言文本模块进行句词拆分操作,以生成多个第一语言文本单元和多个第二语言文本单元,并基于多个第一语言文本单元和多个第二语言文本单元确定第一语言文本模块和第二语言文本模块对应的平行句对。其中,第一语言文本和第二语言文本为同一待处理专利对应的两种不同语言的专利文本(即双语同族专利文本),第一语言文本模块与第二语言文本模块在文本结构(即专利结构)层面呈对应关系。
示例性地,在实际应用过程中,客户端120可以接收用户发出的第一语言的待检索信息(即待处理信息),并将接收的第一语言的待检索信息发送至服务器110,服务器110基于接收的第一语言的待检索信息和预先生成的多组同族专利各自对应的平行句对对应生成第二语言的检索结果,并将生成的第二语言的检索结果发送至客户端120,客户端120将接收的第二语言的检索结果呈现给用户。
示例性地,在实际应用过程中,客户端120可以接收用户发出的第一语言的待翻译信息,并将接收的第一语言的待翻译信息发送至服务器110,服务器110基于接收的第一语言的待翻译信息和预先生成的多组同族专利各自对应的平行句对对应生成第二语言的翻译结果,并将生成的第二语言的翻译结果发送至客户端120,客户端120将接收的第二语言的翻译结果呈现给用户。
下面结合图2至图15对本公开提供的文本处理方法和模型训练方法进行简单的介绍。
图2所示为本公开一实施例提供的文本处理方法的流程示意图。如图2所示,本公开实施例提供的文本处理方法包括如下步骤。
步骤210,基于第一语言文本确定第一语言文本模块,并基于第二语言文本确定第二语言文本模块。
示例性地,第一语言文本和第二语言文本为双语同族专利文本,比如中英文同族专利文本。又比如,第一语言文本和第二语言文本为同一篇论文(比如硕士学位论文)的双语文本,比如中英文双语文本。
示例性地,第一语言文本模块和第二语言文本模块在专利结构(即文本结构)层面呈对应关系。比如,第一语言文本模块为第一语言文本的摘要模块,对应地,第二语言文本模块为第二语言文本的摘要模块。又比如,第一语言文本模块为第一语言文本的权利要求书模块,对应地,第二语言文本模块为第二语言文本的权利要求书模块。
步骤220,分别对第一语言文本模块和第二语言文本模块进行句词拆分操作,以生成多个第一语言文本单元和多个第二语言文本单元。
在本公开一实施例中,句词拆分操作指的是,将待拆分的文本模块(即第一语言文本模块或第二语言文本模块)所包括的文本段落拆分为多个分句,并将每个分句拆分为多个分词,以最终生成待拆分的文本模块对应的文本单元。
需要说明的是,文本单元(包括第一语言文本单元和第二语言文本单元)既可以只包括一个独立的句子(即一个分句),亦可以包括两个、三个或更多个独立的句子(即两个、三个或更多个分句)。其中,每个独立的句子又包括多个分词,即每个分句被划分生成多个分词。
举例说明,第一语言文本单元表示为S,第二语言文本单元表示为TST可用下述表达式(1)和(2)表示。
Figure DEST_PATH_IMAGE001
(1)
在表达式(1)中,
Figure DEST_PATH_IMAGE002
分别表示第一语言文本单元中包括的分词。
Figure DEST_PATH_IMAGE003
(2)
在表达式(2)中,
Figure DEST_PATH_IMAGE004
分别表示第二语言文本单元中包括的分词。
步骤230,基于多个第一语言文本单元和多个第二语言文本单元确定第一语言文本模块和第二语言文本模块对应的平行句对。
在实际应用过程中,首先基于第一语言文本确定第一语言文本模块,并基于第二语言文本确定第二语言文本模块,然后分别对第一语言文本模块和第二语言文本模块进行句词拆分操作,以生成多个第一语言文本单元和多个第二语言文本单元,并基于多个第一语言文本单元和多个第二语言文本单元确定第一语言文本模块和第二语言文本模块对应的平行句对。
本公开实施例提供的文本处理方法充分利用了文本的结构特征,并借助了句词拆分操作将相应的文本模块转换为碎片化的分句分词,因此,本公开实施例能够充分顾及句子间的潜在语义信息,进而能够有效提升平行句对的构建效果。
图3所示为本公开一实施例提供的基于多个第一语言文本单元和多个第二语言文本单元确定第一语言文本模块和第二语言文本模块对应的平行句对的流程示意图。在本公开图2所示实施例基础上延伸出本公开图3所示实施例,下面着重叙述图3所示实施例与图2所示实施例的不同之处,相同之处不再赘述。
如图3所示,在本公开实施例提供的文本处理方法中,基于多个第一语言文本单元和多个第二语言文本单元确定第一语言文本模块和第二语言文本模块对应的平行句对步骤,包括如下步骤。
步骤310,针对多个第一语言文本单元中的每个第一语言文本单元,基于多个第二语言文本单元确定第一语言文本单元对应的第一候选单元集合。
示例性地,第一候选单元集合包括至少一个第二语言文本单元。也就是说,从步骤310中提及的多个第二语言文本单元中筛选出至少一个第二语言文本单元,以生成第一候选单元集合。
示例性地,基于预设人工词典确定第一语言文本单元对应的第一候选单元集合。
步骤320,计算第一候选单元集合中包括的第二语言文本单元对应的统计分数信息。
在本公开一实施例中,针对第一候选单元集合中包括的每个第二语言文本单元,递归计算基于统计的分数,以得到该第二语言文本单元对应的统计分数信息。
步骤330,基于统计分数信息确定第一语言文本单元对应的第二候选单元集合。
示例性地,将第一候选单元集合中统计分数大于预设统计分数阈值的第二语言文本单元组合在一起,以生成第二候选单元集合。
步骤340,基于多个第一语言文本单元各自对应的第二候选单元集合确定平行句对。
本公开实施例提供的文本处理方法,通过针对多个第一语言文本单元中的每个第一语言文本单元,基于多个第二语言文本单元确定该第一语言文本单元对应的第一候选单元集合,然后计算第一候选单元集合中包括的第二语言文本单元对应的统计分数信息,并基于统计分数信息确定该第一语言文本单元对应的第二候选单元集合,继而基于多个第一语言文本单元各自对应的第二候选单元集合确定平行句对的方式,实现了基于多个第一语言文本单元和多个第二语言文本单元确定第一语言文本模块和第二语言文本模块对应的平行句对的目的。由于第二语言文本单元对应的统计分数信息能够有效表征该第二语言文本单元相对于第一语言文本单元的准确率,因此,本公开实施例所生成的第二候选单元集合的准确率高于第一候选单元集合的准确率。在此基础上,本公开实施例利用多个第一语言文本单元各自对应的第二候选单元集合确定平行句对的方式,实现了进一步提高所构建的平行句对的准确率的目的。
图4所示为本公开一实施例提供的计算第一候选单元集合中包括的第二语言文本单元对应的统计分数信息的流程示意图。在本公开图3所示实施例基础上延伸出本公开图4所示实施例,下面着重叙述图4所示实施例与图3所示实施例的不同之处,相同之处不再赘述。
如图4所示,在本公开实施例提供的文本处理方法中,计算第一候选单元集合中包括的第二语言文本单元对应的统计分数信息步骤,包括如下步骤。
步骤410,确定第一候选单元集合中包括的第二语言文本单元和第一语言文本单元对应的多个候选词对。
需要说明的是,如果第一候选单元集合中仅仅包括一个第二语言文本单元,那么,仅确定该第二语言文本单元和第一语言文本单元对应的多个候选词对即可。如果第一候选单元集合中包括多个第二语言文本单元,那么,针对每个第二语言文本单元,都要确定该第二语言文本单元和第一语言文本单元对应的多个候选词对,然后分别基于多个第二语言文本单元各自对应的多个候选词对确定多个第二语言文本单元各自对应的统计分数信息。
步骤420,确定多个候选词对各自对应的分数信息。
步骤430,基于多个候选词对各自对应的分数信息确定统计分数信息。
示例性地,针对每组第二语言文本单元和第一语言文本单元,将该组对应的候选词对的分数累加,并将累加结果作为该组对应的统计分数(即统计分数信息)。
本公开实施例提供的文本处理方法,通过确定第一候选单元集合中包括的第二语言文本单元和第一语言文本单元对应的多个候选词对,确定多个候选词对各自对应的分数信息,继而基于多个候选词对各自对应的分数信息确定统计分数信息的方式,实现了计算第一候选单元集合中包括的第二语言文本单元对应的统计分数信息的目的。
在本公开实施例中,每组第二语言文本单元和第一语言文本单元对应的统计分数信息,均是基于该组第二语言文本单元和第一语言文本单元对应的多个候选词对各自对应的分数信息确定的。由于每组第二语言文本单元和第一语言文本单元是由上述多个候选词对组成的,因此,本公开实施例能够基于上述多个候选词对各自对应的分数信息,更精准地确定该组第二语言文本单元和第一语言文本单元对应的统计分数信息,进而为提高平行句对的准确率提供了前提条件。
图5所示为本公开另一实施例提供的计算第一候选单元集合中包括的第二语言文本单元对应的统计分数信息的流程示意图。在本公开图4所示实施例基础上延伸出本公开图5所示实施例,下面着重叙述图5所示实施例与图4所示实施例的不同之处,相同之处不再赘述。
如图5所示,在本公开实施例提供的文本处理方法中,确定多个候选词对各自对应的分数信息步骤,包括如下步骤。
步骤510,针对多个候选词对中的每个候选词对,基于候选词对的出现频率信息、包含有第二语言词的第二语言文本单元在第一候选单元集合中的比值信息、第二语言文本单元的候选加权信息、第二语言文本单元和第一语言文本单元的长度比值信息,确定候选词对对应的分数信息。
并且,在本公开实施例中,基于多个候选词对各自对应的分数信息确定统计分数信息步骤,包括如下步骤。
步骤520,对多个候选词对各自对应的分数信息进行累加操作,以确定统计分数信息。
由于针对每组第二语言文本单元和第一语言文本单元,该组第二语言文本单元和第一语言文本单元对应的统计分数信息充分兼顾了候选词对的出现频率、第二语言文本单元的候选加权信息等信息,因此,本公开实施例能够极大提高所得到的统计分数信息的精准度。
图6所示为本公开一实施例提供的基于候选词对的出现频率信息、包含有第二语言词的第二语言文本单元在第一候选单元集合中的比值信息、第二语言文本单元的候选加权信息、第二语言文本单元和第一语言文本单元的长度比值信息,确定候选词对对应的分数信息的流程示意图。在本公开图5所示实施例基础上延伸出本公开图6所示实施例,下面着重叙述图6所示实施例与图5所示实施例的不同之处,相同之处不再赘述。
如图6所示,在本公开实施例提供的文本处理方法中,基于候选词对的出现频率信息、包含有第二语言词的第二语言文本单元在第一候选单元集合中的比值信息、第二语言文本单元的候选加权信息、第二语言文本单元和第一语言文本单元的长度比值信息,确定候选词对对应的分数信息步骤,包括如下步骤。
步骤610,计算出现频率信息和比值信息的第一乘积信息对应的对数信息。
步骤620,计算对数信息、候选加权信息和长度比值信息的第二乘积信息。
步骤630,基于第二乘积信息确定分数信息。
举例说明,假设在一组第二语言文本单元和第一语言文本单元中,该第一语言文本单元S用上述表达式(1)表示,该第二语言文本单元T用上述表达式(2)表示,那么,该组第二语言文本单元和第一语言文本单元对应的统计分数
Figure DEST_PATH_IMAGE005
可基于下述公式(3)计算得到。
Figure DEST_PATH_IMAGE006
(3)
在公式(3)中,k表示该组第二语言文本单元和第一语言文本单元中包括的候选词对的数量,
Figure DEST_PATH_IMAGE007
表示第i组候选词对的分数信息。也就是说,在本公开实施例中,该组第二语言文本单元和第一语言文本单元的统计分数(即该第二语言文本单元对应的统计分数)为该组第二语言文本单元和第一语言文本单元所包括的候选词对的分数的累加和。
此外,针对第i组候选词对,
Figure DEST_PATH_IMAGE008
表征该组候选词对在该组第二语言文本单元和第一语言文本单元中的出现频率信息,
Figure DEST_PATH_IMAGE009
表征含有该组候选词对中的第二语言词的第二语言文本单元在第一候选单元集合中的比值信息,
Figure DEST_PATH_IMAGE010
表征该第二语言文本单元的候选加权信息,
Figure DEST_PATH_IMAGE011
表征该第二语言文本单元和第一语言文本单元的长度比值信息。
示例性地,针对该组中的第二语言文本单元(又称为候选文本单元)与第一语言文本模块对应的多个第一语言文本单元的映射关系,确定
Figure 229092DEST_PATH_IMAGE010
的值。本公开发明人经多次实验发现,如此限定第二语言文本单元的候选加权信息,能够极大提高所确定的候选词对对应的分数信息的精准度。
图7所示为本公开一实施例提供的基于统计分数信息确定第一语言文本单元对应的第二候选单元集合的流程示意图。在本公开图3所示实施例基础上延伸出本公开图7所示实施例,下面着重叙述图7所示实施例与图3所示实施例的不同之处,相同之处不再赘述。
如图7所示,在本公开实施例提供的文本处理方法中,基于统计分数信息确定第一语言文本单元对应的第二候选单元集合步骤,包括如下步骤。
步骤710,确定第一候选单元集合中包括的第二语言文本单元对应的统计分数信息与预设统计分数阈值的关系。
步骤720,基于第一候选单元集合中符合第一预设关系条件的第二语言文本单元生成第二候选单元集合。
示例性地,第一预设关系条件为“大于”,对应地,符合第一预设关系条件的第二语言文本单元为统计分数信息(即统计分数)大于预设统计分数阈值的第二语言文本单元。
需要说明的是,第一预设关系条件可根据实际情况确定,本公开实施例对此不进行统一限定。
本公开实施例提供的文本处理方法,通过确定第一候选单元集合中包括的第二语言文本单元对应的统计分数信息与预设统计分数阈值的关系,并基于第一候选单元集合中符合第一预设关系条件的第二语言文本单元生成第二候选单元集合的方式,实现了基于统计分数信息确定第一语言文本单元对应的第二候选单元集合的目的。
图8所示为本公开另一实施例提供的基于多个第一语言文本单元和多个第二语言文本单元确定第一语言文本模块和第二语言文本模块对应的平行句对的流程示意图。在本公开图3所示实施例基础上延伸出本公开图8所示实施例,下面着重叙述图8所示实施例与图3所示实施例的不同之处,相同之处不再赘述。
如图8所示,在本公开实施例提供的文本处理方法中,在基于多个第一语言文本单元各自对应的第二候选单元集合确定平行句对步骤之前,还包括如下步骤。
步骤810,基于第二候选单元集合和双语翻译模型确定第三候选单元集合。
示例性地,双语翻译模型用于将第一语言文本单元翻译为与第一语言文本单元对应的第二语言翻译单元。比如,第一语言为中文,第二语言为英文,第一语言文本单元为“我爱中国”,第二语言翻译单元为“I love China”。
应当理解,双语翻译模型用于进一步筛选第二候选单元集合中包括的第二语言文本单元,以得到预设数量的、具有更高准确率的第二语言文本单元,继而生成第三候选单元集合。
在本公开一实施例中,双语翻译模型的确定过程为:确定初始网络模型,并利用平行句对样本训练初始网络模型,以训练得到双语翻译模型。
并且,在本公开实施例中,基于多个第一语言文本单元各自对应的第二候选单元集合确定平行句对步骤,包括如下步骤。
步骤820,基于第三候选单元集合确定平行句对。
在本公开一实施例中,将第三候选单元集合中包括的第二语言文本单元作为平行句对的组成部分。
由于双语翻译模型能够进一步筛选第二候选单元集合中包括的第二语言文本单元,并且,双语翻译模型能够充分顾及句对的语义信息,因此,本公开实施例能够借助双语翻译模型进一步提高所确定的平行句对的准确率。
图9所示为本公开一实施例提供的基于第二候选单元集合和双语翻译模型确定第三候选单元集合的流程示意图。在本公开图8所示实施例基础上延伸出本公开图9所示实施例,下面着重叙述图9所示实施例与图8所示实施例的不同之处,相同之处不再赘述。
如图9所示,在本公开实施例提供的文本处理方法中,基于第二候选单元集合和双语翻译模型确定第三候选单元集合步骤,包括如下步骤。
步骤910,将第一语言文本单元输入双语翻译模型,以得到第一语言文本单元对应的第二语言翻译单元。
步骤920,确定第二候选单元集合中包括的第二语言文本单元与第二语言翻译单元的相似评估信息。
需要说明的是,相似评估信息的具体计算方式可根据实际情况确定,本公开实施例对此不进行统一限定。
步骤930,基于相似评估信息确定第三候选单元集合。
示例性地,基于第二候选单元集合中包括的第二语言文本单元各自对应的相似评估信息和预设相似评估阈值确定第三候选单元集合。比如,抽选出相似评估信息大于预设相似评估阈值的第二语言文本单元,以生成第三候选单元集合。
本公开实施例提供的文本处理方法,通过将第一语言文本单元输入双语翻译模型,以得到第一语言文本单元对应的第二语言翻译单元,继而确定第二候选单元集合中包括的第二语言文本单元与第二语言翻译单元的相似评估信息,并基于相似评估信息确定第三候选单元集合的方式,生成了包括更精准的第二语言文本单元的第三候选单元集合。
在本公开一实施例中,相似评估信息基于双语评估替补(Bilingual EvaluationUnderstudy, BLEU)分数信息确定。
图10所示为本公开一实施例提供的基于相似评估信息确定第三候选单元集合的流程示意图。在本公开图9所示实施例基础上延伸出本公开图10所示实施例,下面着重叙述图10所示实施例与图9所示实施例的不同之处,相同之处不再赘述。
如图10所示,在本公开实施例提供的文本处理方法中,基于相似评估信息确定第三候选单元集合步骤,包括如下步骤。
步骤1010,确定第二候选单元集合中包括的第二语言文本单元对应的相似评估信息与预设相似评估阈值的关系。
步骤1020,基于第二候选单元集合中符合第二预设关系条件的第二语言文本单元生成第三候选单元集合。
示例性地,第二预设关系条件为“大于”,对应地,符合第二预设关系条件的第二语言文本单元为相似评估信息(即相似评估数值)大于预设相似评估阈值的第二语言文本单元。
需要说明的是,第二预设关系条件可根据实际情况确定,本公开实施例对此不进行统一限定。
由于相似评估信息能够精准表征第二候选单元集合中包括的第二语言文本单元与第二语言翻译单元的相似性,因此,本公开实施例能够筛选出包括更高精准度的第二语言文本单元的第三候选单元集合。
图11所示为本公开又一实施例提供的基于多个第一语言文本单元和多个第二语言文本单元确定第一语言文本模块和第二语言文本模块对应的平行句对的流程示意图。在本公开图8所示实施例基础上延伸出本公开图11所示实施例,下面着重叙述图11所示实施例与图8所示实施例的不同之处,相同之处不再赘述。
如图11所示,在本公开实施例提供的文本处理方法中,在基于第三候选单元集合确定平行句对步骤之后,还包括如下步骤。
步骤1110,基于平行句对增量更新双语翻译模型。
本公开实施例提供的文本处理方法,通过利用平行句对增量更新双语翻译模型的方式,优化了双语翻译模型的翻译质量,进而最终提升了后续的平行句对的抽取精度。
图12所示为本公开另一实施例提供的文本处理方法的流程示意图。在本公开图2所示实施例基础上延伸出本公开图12所示实施例,下面着重叙述图12所示实施例与图2所示实施例的不同之处,相同之处不再赘述。
如图12所示,在本公开实施例提供的文本处理方法中,基于第一语言文本确定第一语言文本模块,并基于第二语言文本确定第二语言文本模块步骤,包括如下步骤。
步骤1210,分别对第一语言文本和第二语言文本进行文本结构拆分操作,以生成第一语言文本模块和第二语言文本模块。
示例性地,文本结构拆分操作指的是,对第一语言文本和第二语言文本进行文本结构层面的拆分操作。比如,基于文本的摘要、序言、研究内容等结构进行文本结构拆分操作。
示例性地,第一语言文本和第二语言文本为双语同族专利文本,文本结构拆分操作为专利结构拆分操作。专利结构拆分操作指的是,对专利文本进行专利结构层面的拆分操作。比如,专利结构拆分操作包括摘要结构拆分操作、权利要求书结构拆分操作、说明书结构拆分操作、背景技术拆分操作、发明内容拆分操作和具体实施方式拆分操作中的至少一种。其中,摘要结构拆分操作指的是,从专利文本中拆分出该专利文本的摘要模块。权利要求书结构拆分操作指的是,从专利文本中拆分出该专利文本的权利要求书模块。说明书结构拆分操作指的是,从专利文本中拆分出该专利文本的说明书模块。背景技术拆分操作指的是,从专利文本中拆分出该专利文本的背景技术模块。发明内容拆分操作指的是,从专利文本中拆分出该专利文本的发明内容模块。具体实施方式拆分操作指的是,从专利文本中拆分出该专利文本的具体实施方式模块。
由于本公开实施例充分利用了文本的结构信息,因此,能够极大提高所构建的平行句对的准确率。
图13所示为本公开一实施例提供的文本处理方法的实际应用流程示意图。如图13所示,本公开实施例提供的文本处理方法的实际应用流程可参见下述。
获取专利双语同族数据(即1310),对专利双语同族数据进行专利结构拆分操作,以生成第一语言文本模块和第二语言文本模块(即1320),然后对分别对第一语言文本模块和第二语言文本模块进行句词拆分操作,以确定多个第一语言文本单元和多个第二语言文本单元(即1330)。
继而,针对多个第一语言文本单元中的每个第一语言文本单元,基于预设人工词典和上述多个第二语言文本单元生成第一候选单元集合(其中,第一候选单元集合包括至少一个第二语言文本单元),然后计算该第一候选单元集合中包括的第二语言文本单元对应的统计分数信息(即1340),判断第一候选单元集合中包括的第二语言文本单元对应的统计分数信息是否大于预设统计分数阈值,并基于统计分数信息大于预设统计分数阈值的第二语言文本单元生成第二候选单元集合(即1350)。此外,获取平行句对样本数据(即1360),然后利用平行句对样本数据训练得到双语翻译模型。继而,将该第二候选单元集合对应的第一语言文本单元输入到双语翻译模型,以得到第二语言翻译单元(即1370),并分别确定第二候选单元集合中包括的第二语言文本单元和第二语言翻译单元的相似评估信息(即1380),然后分别判断第二候选单元集合中包括的第二语言文本单元各自对应的相似评估信息是否大于预设相似评估阈值,并将相似评估信息大于预设相似评估阈值的第二语言文本单元生成第三候选单元集合(即1390),继而结合第三候选单元集合和第一语言文本单元生成平行句对。此外,基于确定的平行句对增量更新双语翻译模型。
本公开实施例结合统计分析方式和双语翻译模型,极大提高了所构建的平行句对的准确率,进而为后续搭建专利翻译引擎、跨语言专利检索提供了有利条件。此外,本公开实施例利用所构建的平行句对增量更新双语翻译模型的方式,能够进一步提高双语翻译模型的场景适应能力和翻译精准度。
在本公开一实施例中,在确定平行句对之后,文本处理方法还包括:接收用户输入的待处理信息,其中,待处理信息包括待翻译信息或待检索信息;根据待处理信息和平行句对确定处理结果,其中,处理结果包括翻译结果或检索结果。
本公开实施例借助生成的平行句对实现了跨语言的检索目的和翻译目的,与现有技术相比,具有速度快、结果精准等优势。
图14所示为本公开一实施例提供的模型训练方法的流程示意图。如图14所示,本公开实施例提供的模型训练方法包括如下步骤。
步骤2310,确定初始处理模型。
示例性地,初始处理模型为基于深度学习的神经网络模型。
步骤2320,基于平行句对训练初始处理模型,以生成文本处理模型。
示例性地,文本处理模型用于基于第一语言的待处理文本生成与待处理文本对应的第二语言的目标文本。其中,平行句对基于上述任一实施例提及的文本处理方法确定。
由于基于上述实施例确定的平行句对的构建精准度较高,因此,本公开实施例利用上述实施例确定的平行句对训练得到的文本处理模型,亦具备较高的处理精准度。
图15所示为本公开一实施例提供的文本处理方法的流程示意图。本公开实施例提供的文本处理方法应用图14所示实施例提及的模型训练方法训练得到的文本处理模型。如图15所示,本公开实施例提供的文本处理方法包括如下步骤。
步骤S2410,获取第一语言的待处理文本。
步骤S2420,将第一语言的待处理文本输入文本处理模型,以生成第二语言的目标文本。
示例性地,文本处理模型为文本翻译模型。其中,文本翻译模型用于将第一语言的待处理文本翻译为第二语言的翻译文本(即第二语言的目标文本)。
示例性地,文本处理模型为文本检索模型。其中,文本检索模型用于基于第一语言的待处理文本检索生成第二语言的检索文本(即第二语言的目标文本)。
本公开实施例提供的文本处理方法,能够借助文本处理模型优化文本处理结果,提高文本处理的精准度。
上文结合图2至图15,详细描述了本公开的方法实施例,下面结合图16至图26,详细描述本公开的装置实施例。此外,应理解,方法实施例的描述与装置实施例的描述相互对应,因此,未详细描述的部分可以参见前面方法实施例。
图16所示为本公开一实施例提供的文本处理装置的结构示意图。如图16所示,本公开实施例提供的文本处理装置1400包括:
第一确定模块1410,用于基于第一语言文本确定第一语言文本模块,并基于第二语言文本确定第二语言文本模块;
拆分模块1420,用于分别对第一语言文本模块和第二语言文本模块进行句词拆分操作,以生成多个第一语言文本单元和多个第二语言文本单元;
第二确定模块1430,用于基于多个第一语言文本单元和多个第二语言文本单元确定第一语言文本模块和第二语言文本模块对应的平行句对。
图17所示为本公开一实施例提供的构建模块的结构示意图。在本公开图16所示实施例基础上延伸出本公开图17所示实施例,下面着重叙述图17所示实施例与图16所示实施例的不同之处,相同之处不再赘述。
如图17所示,在本公开实施例提供的文本处理装置中,第二确定模块1430包括:
第一候选单元集合确定单元1510,用于针对多个第一语言文本单元中的每个第一语言文本单元,基于多个第二语言文本单元确定第一语言文本单元对应的第一候选单元集合;
统计分数信息确定单元1520,用于计算第一候选单元集合中包括的第二语言文本单元对应的统计分数信息;
第二候选单元集合确定单元1530,用于基于统计分数信息确定第一语言文本单元对应的第二候选单元集合;
平行句对确定单元1540,用于基于多个第一语言文本单元各自对应的第二候选单元集合确定平行句对。
图18所示为本公开一实施例提供的统计分数信息确定单元的结构示意图。在本公开图17所示实施例基础上延伸出本公开图18所示实施例,下面着重叙述图18所示实施例与图17所示实施例的不同之处,相同之处不再赘述。
如图18所示,在本公开实施例提供的文本处理装置中,统计分数信息确定单元1520包括:
候选词对确定子单元1610,用于确定第一候选单元集合中包括的第二语言文本单元和第一语言文本单元对应的多个候选词对;
分数信息确定子单元1620,用于确定多个候选词对各自对应的分数信息;
统计分数信息确定子单元1630,用于基于多个候选词对各自对应的分数信息确定统计分数信息。
图19所示为本公开一实施例提供的第二候选单元集合确定单元的结构示意图。在本公开图17所示实施例基础上延伸出本公开图19所示实施例,下面着重叙述图19所示实施例与图17所示实施例的不同之处,相同之处不再赘述。
如图19所示,在本公开实施例提供的文本处理装置中,第二候选单元集合确定单元1530包括:
第一关系确定子单元1710,用于确定第一候选单元集合中包括的第二语言文本单元对应的统计分数信息与预设统计分数阈值的关系;
第二候选单元集合确定子单元1720,用于基于第一候选单元集合中符合第一预设关系条件的第二语言文本单元生成第二候选单元集合。
图20所示为本公开另一实施例提供的构建模块的结构示意图。在本公开图17所示实施例基础上延伸出本公开图20所示实施例,下面着重叙述图20所示实施例与图17所示实施例的不同之处,相同之处不再赘述。
如图20所示,在本公开实施例提供的文本处理装置中,第二确定模块1430还包括:
第三候选单元集合确定单元1810,用于基于第二候选单元集合和双语翻译模型确定第三候选单元集合。
并且,在本公开实施例中,平行句对确定单元1540包括:
平行句对确定子单元1820,用于基于第三候选单元集合确定平行句对。
图21所示为本公开一实施例提供的第三候选单元集合确定单元的结构示意图。在本公开图20所示实施例基础上延伸出本公开图21所示实施例,下面着重叙述图21所示实施例与图20所示实施例的不同之处,相同之处不再赘述。
如图21所示,在本公开实施例提供的文本处理装置中,第三候选单元集合确定单元1810包括:
第二语言翻译单元获得子单元1910,用于将第一语言文本单元输入双语翻译模型,以得到第一语言文本单元对应的第二语言翻译单元;
相似评估信息确定子单元1920,用于确定第二候选单元集合中包括的第二语言文本单元与第二语言翻译单元的相似评估信息;
第三候选单元集合确定子单元1930,用于基于相似评估信息确定第三候选单元集合。
图22所示为本公开一实施例提供的第三候选单元集合确定子单元的结构示意图。在本公开图21所示实施例基础上延伸出本公开图22所示实施例,下面着重叙述图22所示实施例与图21所示实施例的不同之处,相同之处不再赘述。
如图22所示,在本公开实施例提供的文本处理装置中,第三候选单元集合确定子单元1930包括:
第二关系确定子单元2010,用于确定第二候选单元集合中包括的第二语言文本单元对应的相似评估信息与预设相似评估阈值的关系;
生成子单元2020,用于基于第二候选单元集合中符合第二预设关系条件的第二语言文本单元生成第三候选单元集合。
图23所示为本公开另一实施例提供的文本处理装置的结构示意图。在本公开图20所示实施例基础上延伸出本公开图23所示实施例,下面着重叙述图23所示实施例与图20所示实施例的不同之处,相同之处不再赘述。
如图23所示,本公开实施例提供的文本处理装置1400还包括:
增量更新模块2110,用于基于平行句对增量更新双语翻译模型。
图24所示为本公开一实施例提供的模型训练装置的结构示意图。如图24所示,本公开实施例提供的模型训练装置2400包括:
初始处理模型确定模块2410,用于确定初始处理模型;
训练模块2420,用于基于平行句对训练初始处理模型,以生成文本处理模型。
图25所示为本公开一实施例提供的文本处理装置的结构示意图。本公开实施例提供的文本处理装置需要利用图24所示实施例提及的模型训练装置。如图25所示,本公开实施例提供的文本处理装置2500包括:
获取模块2510,用于获取第一语言的待处理文本;
处理模块2520,用于将第一语言的待处理文本输入文本处理模型,以生成第二语言的目标文本。
图26为本公开一实施例提供的电子设备的硬件结构示意图。图26所示的电子设备2200(该电子设备2200具体可以是一种计算机设备)包括存储器2201、处理器2202、通信接口2203以及总线2204。其中,存储器2201、处理器2202、通信接口2203通过总线2204实现彼此之间的通信连接。
存储器2201可以是只读存储器(read only memory, ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory, RAM)。存储器2201可以存储程序,当存储器2201中存储的程序被处理器2202执行时,处理器2202和通信接口2203用于执行本公开实施例的文本处理方法和/或模型训练方法的各个步骤。
处理器2202可以采用通用的中央处理器(central processing unit, CPU),微处理器,应用专用集成电路(application specific integrated circuit, ASIC),图形处理器(graphics processing unit, GPU)或者一个或多个集成电路,用于执行相关程序,以实现本公开实施例的文本处理装置和/或模型训练装置中的单元所需执行的功能。
处理器2202还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本公开的文本处理方法和/或模型训练方法的各个步骤可以通过处理器2202中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2202还可以是通用处理器、数字信号处理器(digital signal processing, DSP)、专用集成电路(ASIC)、现场可编程门阵列(field programmable gate array, FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器2201,处理器2202读取存储器2201中的信息,结合其硬件完成本公开实施例的文本处理装置和/或模型训练装置中包括的单元所需执行的功能,或者执行本公开方法实施例的文本处理方法和/或模型训练方法。
通信接口2203使用例如但不限于收发器一类的收发装置,来实现电子设备2200与其他设备或通信网络之间的通信。例如,可以通过通信接口2203获取第一关联矩阵。
总线2204可包括在电子设备2200各个部件(例如,存储器2201、处理器2202、通信接口2203)之间传送信息的通路。
应理解,文本处理装置1400中的第一确定模块1410、拆分模块1420和第二确定模块1430可以相当于处理器2202。
应注意,尽管图26所示的电子设备2200仅仅示出了存储器、处理器、通信接口,但是在具体实现过程中,本领域的技术人员应当理解,电子设备2200还包括实现正常运行所必须的其他器件。同时,根据具体需要,本领域的技术人员应当理解,电子设备2200还可包括实现其他附加功能的硬件器件。此外,本领域的技术人员应当理解,电子设备2200也可仅仅包括实现本公开实施例所必须的器件,而不必包括图26中所示的全部器件。
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的模型训练方法和/或文本处理方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的模型训练方法和/或文本处理方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。

Claims (20)

1.一种文本处理方法,其特征在于,包括:
基于第一语言文本确定第一语言文本模块,并基于第二语言文本确定第二语言文本模块,其中,所述第一语言文本和所述第二语言文本为双语同族专利文本,或者,所述第一语言文本和所述第二语言文本为同一篇论文的双语文本,所述第一语言文本模块与所述第二语言文本模块在文本结构层面呈对应关系;
分别对所述第一语言文本模块和所述第二语言文本模块进行句词拆分操作,以生成多个第一语言文本单元和多个第二语言文本单元,所述句词拆分操作用于将所述第一语言文本模块和所述第二语言文本模块中的每个语言文本模块所包括的文本段落拆分为多个分句,并将每个分句拆分为多个分词;
基于所述多个第一语言文本单元和所述多个第二语言文本单元确定所述第一语言文本模块和所述第二语言文本模块对应的平行句对;
其中,所述基于第一语言文本确定第一语言文本模块,并基于第二语言文本确定第二语言文本模块,包括:
分别对所述第一语言文本和所述第二语言文本进行文本结构拆分操作,以生成第一语言文本模块和第二语言文本模块,所述文本结构拆分操作指的是对所述第一语言文本和所述第二语言文本进行文本结构层面的拆分操作;
其中,所述基于所述多个第一语言文本单元和所述多个第二语言文本单元确定所述第一语言文本模块和所述第二语言文本模块对应的平行句对,包括:
针对所述多个第一语言文本单元中的每个第一语言文本单元,基于所述多个第二语言文本单元确定所述第一语言文本单元对应的第一候选单元集合,其中,所述第一候选单元集合包括至少一个第二语言文本单元;
计算所述第一候选单元集合中包括的第二语言文本单元对应的统计分数信息;
基于所述统计分数信息确定所述第一语言文本单元对应的第二候选单元集合;
基于所述多个第一语言文本单元各自对应的第二候选单元集合确定所述平行句对。
2.根据权利要求1所述的文本处理方法,其特征在于,所述计算所述第一候选单元集合中包括的第二语言文本单元对应的统计分数信息,包括:
确定所述第一候选单元集合中包括的第二语言文本单元和所述第一语言文本单元对应的多个候选词对;
确定所述多个候选词对各自对应的分数信息;
基于所述多个候选词对各自对应的分数信息确定所述统计分数信息。
3.根据权利要求2所述的文本处理方法,其特征在于,所述候选词对包括第一语言词和与所述第一语言词对应的第二语言词,所述确定所述多个候选词对各自对应的分数信息,包括:
针对所述多个候选词对中的每个候选词对,基于所述候选词对的出现频率信息、包含有所述第二语言词的第二语言文本单元在所述第一候选单元集合中的比值信息、所述第二语言文本单元的候选加权信息、所述第二语言文本单元和所述第一语言文本单元的长度比值信息,确定所述候选词对对应的分数信息;
其中,所述基于所述多个候选词对各自对应的分数信息确定所述统计分数信息,包括:
对所述多个候选词对各自对应的分数信息进行累加操作,以确定所述统计分数信息。
4.根据权利要求3所述的文本处理方法,其特征在于,所述基于所述候选词对的出现频率信息、包含有所述第二语言词的第二语言文本单元在所述第一候选单元集合中的比值信息、所述第二语言文本单元的候选加权信息、所述第二语言文本单元和所述第一语言文本单元的长度比值信息,确定所述候选词对对应的分数信息,包括:
计算所述出现频率信息和所述比值信息的第一乘积信息对应的对数信息;
计算所述对数信息、所述候选加权信息和所述长度比值信息的第二乘积信息;
基于所述第二乘积信息确定所述分数信息。
5.根据权利要求1至4任一项所述的文本处理方法,其特征在于,所述基于所述统计分数信息确定所述第一语言文本单元对应的第二候选单元集合,包括:
确定所述第一候选单元集合中包括的第二语言文本单元对应的统计分数信息与预设统计分数阈值的关系;
基于所述第一候选单元集合中符合第一预设关系条件的第二语言文本单元生成所述第二候选单元集合。
6.根据权利要求1至4任一项所述的文本处理方法,其特征在于,在所述基于所述多个第一语言文本单元各自对应的第二候选单元集合确定所述平行句对之前,还包括:
基于所述第二候选单元集合和双语翻译模型确定第三候选单元集合,其中,所述双语翻译模型用于将第一语言文本单元翻译为与所述第一语言文本单元对应的第二语言翻译单元;
其中,所述基于所述多个第一语言文本单元各自对应的第二候选单元集合确定所述平行句对,包括:
基于所述第三候选单元集合确定所述平行句对。
7.根据权利要求6所述的文本处理方法,其特征在于,所述基于所述第二候选单元集合和双语翻译模型确定第三候选单元集合,包括:
将所述第一语言文本单元输入所述双语翻译模型,以得到所述第一语言文本单元对应的第二语言翻译单元;
确定所述第二候选单元集合中包括的第二语言文本单元与所述第二语言翻译单元的相似评估信息;
基于所述相似评估信息确定所述第三候选单元集合。
8.根据权利要求7所述的文本处理方法,其特征在于,所述基于所述相似评估信息确定所述第三候选单元集合,包括:
确定所述第二候选单元集合中包括的第二语言文本单元对应的相似评估信息与预设相似评估阈值的关系;
基于所述第二候选单元集合中符合第二预设关系条件的第二语言文本单元生成所述第三候选单元集合。
9.根据权利要求6所述的文本处理方法,其特征在于,在所述基于所述第三候选单元集合确定所述平行句对之后,还包括:
基于所述平行句对增量更新所述双语翻译模型。
10.根据权利要求1至4任一项所述的文本处理方法,其特征在于,所述第一语言文本和所述第二语言文本均为专利文本,所述基于第一语言文本确定第一语言文本模块,并基于第二语言文本确定第二语言文本模块,包括:
分别对所述第一语言文本和所述第二语言文本进行专利结构拆分操作,以生成所述第一语言文本模块和所述第二语言文本模块。
11.根据权利要求10所述的文本处理方法,其特征在于,所述专利结构拆分操作包括摘要结构拆分操作、权利要求书结构拆分操作、说明书结构拆分操作、背景技术拆分操作、发明内容拆分操作和具体实施方式拆分操作中的至少一种。
12.根据权利要求1至4任一项所述的文本处理方法,其特征在于,还包括:接收用户输入的待处理信息,其中,所述待处理信息包括待翻译信息或待检索信息;
根据所述待处理信息和所述平行句对确定处理结果,其中,所述处理结果包括翻译结果或检索结果。
13.一种模型训练方法,其特征在于,包括:
确定初始处理模型;
基于平行句对训练所述初始处理模型,以生成文本处理模型,其中,所述文本处理模型用于基于第一语言的待处理文本生成与所述待处理文本对应的第二语言的目标文本,所述平行句对基于上述权利要求1至12任一项所述的文本处理方法确定。
14.一种文本处理方法,其特征在于,包括:
获取第一语言的待处理文本;
将所述第一语言的待处理文本输入文本处理模型,以生成第二语言的目标文本,其中,所述文本处理模型基于上述权利要求13所述的模型训练方法训练得到。
15.根据权利要求14所述的文本处理方法,其特征在于,所述文本处理模型为文本翻译模型,所述文本翻译模型用于将所述第一语言的待处理文本翻译为第二语言的翻译文本。
16.一种文本处理装置,其特征在于,包括:
第一确定模块,用于基于第一语言文本确定第一语言文本模块,并基于第二语言文本确定第二语言文本模块,其中,所述基于第一语言文本确定第一语言文本模块,并基于第二语言文本确定第二语言文本模块,包括:分别对所述第一语言文本和所述第二语言文本进行文本结构拆分操作,以生成第一语言文本模块和第二语言文本模块,所述文本结构拆分操作指的是对所述第一语言文本和所述第二语言文本进行文本结构层面的拆分操作,所述第一语言文本和所述第二语言文本为双语同族专利文本,或者,所述第一语言文本和所述第二语言文本为同一篇论文的双语文本,所述第一语言文本模块与所述第二语言文本模块在文本结构层面呈对应关系;
拆分模块,用于分别对所述第一语言文本模块和所述第二语言文本模块进行句词拆分操作,以生成多个第一语言文本单元和多个第二语言文本单元,所述句词拆分操作用于将所述第一语言文本模块和所述第二语言文本模块中的每个语言文本模块所包括的文本段落拆分为多个分句,并将每个分句拆分为多个分词;
第二确定模块,用于基于所述多个第一语言文本单元和所述多个第二语言文本单元确定所述第一语言文本模块和所述第二语言文本模块对应的平行句对;
其中,所述第二确定模块包括:
第一候选单元集合确定单元,用于针对所述多个第一语言文本单元中的每个第一语言文本单元,基于所述多个第二语言文本单元确定所述第一语言文本单元对应的第一候选单元集合,其中,所述第一候选单元集合包括至少一个第二语言文本单元;
统计分数信息确定单元,用于计算所述第一候选单元集合中包括的第二语言文本单元对应的统计分数信息;
第二候选单元集合确定单元,用于基于所述统计分数信息确定所述第一语言文本单元对应的第二候选单元集合;
平行句对确定单元,用于基于所述多个第一语言文本单元各自对应的第二候选单元集合确定所述平行句对。
17.一种模型训练装置,其特征在于,包括:
初始处理模型确定模块,用于确定初始处理模型;
训练模块,用于基于平行句对训练所述初始处理模型,以生成文本处理模型,其中,所述文本处理模型用于基于第一语言的待处理文本生成与所述待处理文本对应的第二语言的目标文本,所述平行句对基于上述权利要求1至12任一项所述的文本处理方法确定。
18.一种文本处理装置,其特征在于,包括:
获取模块,用于获取第一语言的待处理文本;
处理模块,用于将所述第一语言的待处理文本输入文本处理模型,以生成第二语言的目标文本,其中,所述文本处理模型基于上述权利要求13所述的模型训练方法训练得到。
19.一种计算机可读存储介质,其特征在于,所述存储介质存储有指令,当所述指令由电子设备的处理器执行时,使得所述电子设备能够执行上述权利要求1至15任一项所述的方法。
20.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储计算机可执行指令的存储器;
所述处理器,用于执行所述计算机可执行指令,以实现上述权利要求1至15任一项所述的方法。
CN202110331040.4A 2021-03-29 2021-03-29 文本处理方法及装置、模型训练方法及装置 Active CN112800779B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110331040.4A CN112800779B (zh) 2021-03-29 2021-03-29 文本处理方法及装置、模型训练方法及装置
CN202110915501.2A CN113609872A (zh) 2021-03-29 2021-03-29 文本处理方法及装置、模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110331040.4A CN112800779B (zh) 2021-03-29 2021-03-29 文本处理方法及装置、模型训练方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202110915501.2A Division CN113609872A (zh) 2021-03-29 2021-03-29 文本处理方法及装置、模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN112800779A CN112800779A (zh) 2021-05-14
CN112800779B true CN112800779B (zh) 2021-08-31

Family

ID=75815882

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110331040.4A Active CN112800779B (zh) 2021-03-29 2021-03-29 文本处理方法及装置、模型训练方法及装置
CN202110915501.2A Pending CN113609872A (zh) 2021-03-29 2021-03-29 文本处理方法及装置、模型训练方法及装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202110915501.2A Pending CN113609872A (zh) 2021-03-29 2021-03-29 文本处理方法及装置、模型训练方法及装置

Country Status (1)

Country Link
CN (2) CN112800779B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800779B (zh) * 2021-03-29 2021-08-31 智慧芽信息科技(苏州)有限公司 文本处理方法及装置、模型训练方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512114B (zh) * 2015-12-14 2018-06-15 清华大学 平行句对的筛选方法和系统
JP6678087B2 (ja) * 2016-08-26 2020-04-08 株式会社エヌ・ティ・ティ・データ 対訳文抽出装置、対訳文抽出方法およびプログラム
JP2018055328A (ja) * 2016-09-28 2018-04-05 株式会社エヌ・ティ・ティ・データ 対訳文抽出装置、対訳文抽出方法およびプログラム
CN110795928B (zh) * 2018-07-16 2023-09-05 中移(苏州)软件技术有限公司 一种基于神经网络的语言句子切分方法及装置
CN111160036B (zh) * 2018-11-07 2023-07-21 中移(苏州)软件技术有限公司 一种对基于神经网络的机器翻译模型的更新方法及装置
CN111199157B (zh) * 2018-11-19 2023-04-18 阿里巴巴集团控股有限公司 一种文本数据处理方法及其装置
CN110414009B (zh) * 2019-07-09 2021-02-05 昆明理工大学 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN112257459B (zh) * 2020-10-16 2023-03-24 北京有竹居网络技术有限公司 语言翻译模型的训练方法、翻译方法、装置和电子设备
CN112800779B (zh) * 2021-03-29 2021-08-31 智慧芽信息科技(苏州)有限公司 文本处理方法及装置、模型训练方法及装置

Also Published As

Publication number Publication date
CN113609872A (zh) 2021-11-05
CN112800779A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN109408526B (zh) Sql语句生成方法、装置、计算机设备及存储介质
CN110162627B (zh) 数据增量方法、装置、计算机设备及存储介质
EP3832519A1 (en) Method and apparatus for evaluating translation quality
CN112560501B (zh) 语义特征的生成方法、模型训练方法、装置、设备及介质
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
US20160162575A1 (en) Mining multi-lingual data
CN113590645B (zh) 搜索方法、装置、电子设备及存储介质
US20180365209A1 (en) Artificial intelligence based method and apparatus for segmenting sentence
KR20180078318A (ko) 선행사의 결정방법 및 장치
CN106897439A (zh) 文本的情感识别方法、装置、服务器以及存储介质
CN108121697B (zh) 一种文本改写的方法、装置、设备和计算机存储介质
CN111325038B (zh) 翻译训练数据生成方法、装置、计算机设备及存储介质
CN109271641A (zh) 一种文本相似度计算方法、装置及电子设备
CN110032734B (zh) 近义词扩展及生成对抗网络模型训练方法和装置
CN111597800B (zh) 同义句的获取方法及装置、设备及存储介质
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
CN110717021A (zh) 人工智能面试中获取输入文本和相关装置
CN112800779B (zh) 文本处理方法及装置、模型训练方法及装置
CN108268443B (zh) 确定话题点转移以及获取回复文本的方法、装置
EP4060526A1 (en) Text processing method and device
CN109902273B (zh) 关键词生成模型的建模方法和装置
CN113420545B (zh) 摘要生成方法、装置、设备及存储介质
CN115292008A (zh) 用于分布式系统的事务处理方法、装置、设备及介质
CN113076760B (zh) 翻译、商品检索方法、装置、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant