CN111178085B - 文本翻译器训练方法、专业领域文本语义解析方法和装置 - Google Patents
文本翻译器训练方法、专业领域文本语义解析方法和装置 Download PDFInfo
- Publication number
- CN111178085B CN111178085B CN201911275031.7A CN201911275031A CN111178085B CN 111178085 B CN111178085 B CN 111178085B CN 201911275031 A CN201911275031 A CN 201911275031A CN 111178085 B CN111178085 B CN 111178085B
- Authority
- CN
- China
- Prior art keywords
- text
- professional field
- sentence pattern
- semantic
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明公开了一种文本翻译器训练方法、专业领域文本语义解析方法和装置,并且还相应提供了一种专业领域文本语义解析设备以及计算机可读存储介质。具体是通过机器翻译的框架设计出面向专业领域特定需求的文本翻译器的训练方式,借由这种具有针对性的训练方式,将文本翻译器训练为足以匹配专业领域对于文本多样性、复杂性、处理难度以及解析覆盖率等具体的实际所需,并在相应的实施例中体现出本发明的解析思路和实现手段相比现有的语言解析技术,不仅能够使得专业领域文本的解析结果更为符合专业性标准以及准确度要求,而且也能够大幅缓解目前专门应对专业领域文本解析工作的大规模人力所连带产生的负面代价和压力。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种文本翻译器训练方法、专业领域文本语义解析方法和装置。
背景技术
实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成。因此,自然语言处理大体包括了自然语言理解和自然语言生成两个部分。
需要让只认识0和1的机器能够理解并表达人类的语言,首要关键是将自然语言的原始形态转化为一种对于机器来说是有意义的、可以理解的含义表示,这一过程被称之为语义解析,换言之,在技术实现上需要为人类的自然语言设计出机器可读的表示规则,并形成运用该规则进行语义解析的配套方案。
但是,针对较为特定的专业领域,例如建筑工程、制造加工等工业领域,其文本模式涉及工程实现以及相关法规标准,因此相比人类日常使用的会话语言来说,专业领域文本存在较多的书面性、规则性、多样性以及专业性,并且专业领域对于文本内容的解析要求相比自然会话来说,由于其可能面向工程实施或者精密加工,因而更为需要确保较高的准确度,如果仅凭人工进行此类文本解析工作,已难以匹配专业领域的客观所需乃至客观发展,然而,目前也没有能够较佳地面向特定专业领域的、且覆盖上述要求的自然语言处理方案。
发明内容
本发明针对上述情况,提供了一种文本翻译器训练方法、专业领域文本语义解析方法和装置,本发明还相应提供了一种专业领域文本语义解析设备以及计算机可读存储介质,通过以上形式,能够有效缓解当前针对特定的专业领域文本的语言解析的需求压力。
关于上述本发明采用的技术方案具体如下:
第一方面,本发明提供了一种文本翻译器训练方法,所述训练方法包括:
对专业领域文本进行句式处理,得到源端句式数据以及按预设的语义表示结构表征的目标端数据;
将所述目标端数据转换为序列形式;
基于专业领域词典,对所述源端句式数据以及序列化的所述目标端数据进行分词;
将所述源端句式数据的分词结果作为输入,且将所述目标端数据的分词结果作为输出,训练所述文本翻译器。
在其中一种可能的实现方式中,所述对专业领域文本进行句式处理包括:
利用预先构建的分类器对所述专业领域文本中的语句进行句式分类;
根据预设的语法策略,将已确定类型的各类句式分别转换为基于专业领域的语义表示结构;
对无确定类型的语句进行专家拆解,并将拆解后的语句利用所述分类器进行重分类处理。
在其中一种可能的实现方式中,所述预设的语义表示结构包括:基于专业领域预设的主级句式、次级句式以及底层句式;
所述主级句式能够以至少一层嵌套所述次级句式和/或所述底层句式;
所述次级句式能够以至少一层嵌套其他次级句式和/或所述底层句式;
所述底层句式为不能嵌套其他句式的最小句式单元。
在其中一种可能的实现方式中,所述文本翻译器采用Transformer模型架构。
在其中一种可能的实现方式中,所述训练方法还包括:
所述源端句式数据与所述目标端数据共享词向量;和/或,
融合训练后期的多轮的更新参数,对所述文本翻译器进行加权平均优化。
第二方面,本发明提供了一种专业领域文本语义解析方法,包括:
接收原始的专业领域文本;
对所述专业领域文本进行句式标注和分词处理;
根据处理后的所述专业领域文本,以及经由任一项上述的训练方法获得的文本翻译器,得到对应于专业领域的语义表示结构的解析结果。
在其中一种可能的实现方式中,所述解析方法还包括:
将所述解析结果与相应专业领域的软件平台对接,以使所述软件平台从所述解析结果中获取所需语义信息。
第三方面,本发明提供了一种专业领域文本语义解析装置,所述装置包括:
文本接收模块,用于接收原始的专业领域文本;
文本处理模块,用于对所述专业领域文本进行句式标注和分词处理;
语义解析模块,用于根据处理后的所述专业领域文本,以及经由如上所述的训练方法获得的文本翻译器,得到对应于专业领域的语义表示结构的解析结果。
在其中一种可能的实现方式中,所述装置还包括:
专业领域软件对接模块,用于将所述解析结果与相应专业领域的软件平台对接,以使所述软件平台从所述解析结果中获取所需语义信息。
第四方面,本发明提供了一种专业领域文本语义解析设备,所述设备包括:
一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如上所述的专业领域文本语义解析方法。
第五方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如上所述的专业领域文本语义解析方法。
本发明实施例对于本领域的技术贡献在于,深入研究、挖掘现有的语言解析技术在面向专业领域文本时的弊端根源所在,从中推导和探索出一套基于机器翻译框架的解决方案,这其中包括如上所述的多个方面,例如针对前文提及的专业领域文本的多种特殊要求,设计了一种面向该特定需求的文本翻译器的训练方式,借由这种具有针对性的训练方式,将文本翻译器训练为足以匹配专业领域对于文本多样性、复杂性、处理难度以及解析覆盖率等具体的实际所需,并在相应的实施例中体现出本发明的解析思路和实现手段,相比现有的语言解析技术不仅能够使得专业领域文本的解析结果更为符合专业性标准以及准确度要求,而且也能够大幅减少目前专门应对专业领域文本解析工作的大规模人力所连带产生的负面代价。
附图说明
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步描述,其中:
图1为本发明提供的文本翻译器训练方法的实施例的流程图;
图2为本发明提供的专业领域文本语义解析方法的实施例的流程图;
图3为本发明提供的专业领域文本语义解析装置的实施例的示意图。
附图标记说明:
1文本接收模块 2文本处理模块 3语义解析模块 4专业领域软件对接模块
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
目前的语义解析方法自身存在诸多弊端,比如基于信息抽取方法的错误传播问题,文法解析方法的匹配容错率低、模版多而且复杂的问题,人工解析方法的人力大量耗费问题,尤其在面对专业领域文本时上述弊端则更为突显,具体产生上述弊端的原因将在后文中说明,此处暂不赘述。这里需要说明的是,正是基于当前的技术条件和技术所需,本发明循序渐进地提供了多种解决多径,首先提供了一种文本翻译器训练方法,通过对于训练数据的处理,包括前文提及的设计出一些使机器可读的面向专业领域的语义表示结构,并结合机器翻译的框架构思,以文本翻译器作为被训对象,从而获得了一种可用于针对专业领域文本的语义解析方案。
具体来说,对于该文本翻译器训练方法的至少一种实施例的流程图,如图1所示,可包括如下步骤:
步骤S1、对专业领域文本进行句式处理,得到源端句式数据以及按预设的语义表示结构表征的目标端数据;
作为样本数据的专业领域文本可以大量搜集相应专业领域的文书、报告、论文、图纸、国家标准等,例如针对建筑工程领域来说,可以从诸如建设施工单位、房地产开发公司等出搜集大量的建筑规范文本。对此,本发明不做限定。
而对于待训练对象——文本翻译器而言,其有源端和目标端之分,即文本翻译器的输入数据和输出结果,因此为了使文本翻译器达到本发明所需,在本步骤中需要先对训练数据进行句式分析,并形成一种通用的且方便机器理解的专业领域语义表达形式。
换言之,步骤S1实质上可以包含至少如下两个协调层面:
其一、专业领域文本的句式分类处理。
即确定出专业领域文本所特有的句式结构类型,例如特定的措辞形式、短语形式、短句形式、长句形式等。因而在本发明的一些实施方式中,可以利用预先构建的分类器对所述专业领域文本中的语句进行句式分类,此处关于分类器的架构选型及其训练方式,皆有成熟的现有技术可供参考,此非本发明重点,因而不与赘述。
其二、预先确定机器可读语义表示结构。
即在句式分析之后,对于句式类型明确的语句,从中提取信息并转化为专业领域特有的语义表示结构,换言之,该层面是对句式进行机器语言化的解析,由此形成一套计算机可读的表达结构。对于句式解析的过程,在实际操作中还可以参考如下:根据预设的语法策略,将已确定类型的各类句式分别转换为基于专业领域的语义表示结构;而对无确定类型的语句则进行专家拆解,并将拆解后的语句再利用前述分类器进行重分类处理以及再次解析处理。
例如,对于归类于较为简单的短语短句或者其他句式明确的类型,可使用基于语法规则的方式进行信息抽取,或者使用专用的文法规则算法、模板或标准等进行句式解析,例如前述语法策略可选用但不限于科大讯飞的扩展巴科斯-诺尔范式(ABNF)文法,将上述已确定句式类型的文本语句转化成预先基于专业领域所设计的语义表达形式。当然,限于分类器的能力,在实际操作中,存在无法准确划分出句式类型的可能,例如某些工程领域的规范文本中的长句较为鲜有,即便由分类器也可能不容易判定为哪种明确的句式类型,这时,则可以将该对无确定类型的语句则进行专家拆解,例如将此长句拆分为多个短语短句,然后再由分类器针对拆分结果进行重新归类,此过程也可以体现为是对该分类器的再次更新。当然,本发明并不限于此方式,在条件允许情况下,也可以直接由专家对未明确类型的语句进行人工解析,得到上述预设的语义形式结构,该直接方式引入了人工处理,则可以在一定程度上省去重新分类、重新解析的冗余过程。
总之,通过上述方式,便可以得到类似机器翻译技术中的“平行句对”,即每一条专业领域文本语句均对应一条基于预设的语义表示结构的语义表达形式。此处需指出,在一些实施方式中,获得上述“平行句对”后,便可以直接开展文本翻译器的训练,本发明则提供了一个相对更优的训练方式,后文将做具体介绍,此处暂不赘述;但需要先在这里说明的是,关于所述预设的语义表示结构,可以针对不同的专业领域,采取句式分级并对各级句式建立嵌套关系的构思,例如基于某专业领域,可预先设计出主级句式、次级句式以及底层句式。这其中,所述主级句式能够以至少一层嵌套所述次级句式和/或所述底层句式,所述次级句式能够以至少一层嵌套其他次级句式和/或所述底层句式,所述底层句式为不能嵌套其他句式的最小句式单元。本领域技术人员可以理解的是,各级句式的数量以及所述次级句式的“次级”数量,可依据不同领域进行调整,例如某专业领域,主级句式可称为一级句式,并且有一种或多种一级句式,而次级句式包括二级、三级、四级……,且每一个次级可能有一种或多种同级句式,而底层句式就是可以被其上层级句式(一级、二级、三级、四级)所包含的最小的句式结构。
以建筑工程领域的规范文本举例而言,所述预设的语义表示结构可分为三个层级,即主级对应一级、次级对应二级、底层对应三级。
(1)首先是一级句式:例如“当-则”句式,该句式是该专业领域文本中长句的主要表现形式,其内部则可以多层方式嵌套二级句式和三级句式;
(2)接着是二级句式,可以包括但不限于两大类该层级句式,例如一类二级句式用来表征“操作”,另一类二级句式用来表征“动作”,即分别是操作句式和动作句式,当然,根据专业领域文本的特定语言模式,其中所述操作句式还可进一步细分为:诸如关系、比较、运算等细化的二级句式,所述动作句式还可进一步细分为:诸如创建、设置、修改、替换等细化的二级句式。此处需指出,与前述一级句式不同的是,二级句式不仅可以嵌套以下各层级句式(比如本示例中的三级句式),还可以层级内嵌套,比如动作句式可以嵌套操作句式。
(3)最后,三级句式则可以但不限于分为两种,也就是EA(实体-属性)和E(实体)。这两种句式结构即为最小的解析单元,无法在其内部进行嵌套。
基于上述示例说明,便可以覆盖到目前建筑工程领域的规范文本的语义形式。
为了进一步加深理解,此处通过一个具体示例以展示上述所设计的语义表示形式。例如某建筑规范文本是“洞口的宽度大于等于电动加压送风百叶的宽度减2mm”,经按上述方式转化,其所对应的语义表示结果可为:
该示例是一个二级句式——比较操作句式,指的是“洞口的宽度”和“电动加压送风板叶的宽度”进行比较。基于二级句式的框架,其中还嵌套了三级句式。其中,right代表右值,left代表左值,type表示该句式是哪种类型,entity是实体,attribute是属性,op是操作符,n是数量,unit是单位,但需说明,此例的目的仅为示意出一种机器语言结构,其中的符号、字段等皆不属于对本发明实施方式的限定。
接续前文,再看图1所示步骤S2、将目标端数据转换为序列形式。
以及,步骤S3、基于专业领域词典,对源端句式数据以及序列化的目标端数据进行分词。
如前文记载,虽然在某些实施方式中,获得“平行句对”之后便可以直接开展文本翻译器的训练,但为了使得经由上述处理后的训练数据更为适应某些特定架构的文本翻译器、并且为了提升训练质量,本发明提出对上述数据进行如下处理。
首先是将目标端数据,也即是前述语义形式结构的表达方式,作序列化处理。结合前文示例,对于如下目标端数据:
{
"_type":"EA",
"entity":"电动加压送风百叶",
"attribute":"宽度"
}
只要去除其中的换行符,则可以简便地转变为序列形式:{"_type":"EA","entity":"电动加压送风百叶","attribute":"宽度"},那么,该序列就替换了原有结构,成为需要文本翻译器输出的语义表示形式。
而对于源端而言,再经由前述句式处理的步骤之后,实质上已从原始的专业领域文本得到了标注句式结构类型的各类基于自然语言表达的句式序列,这样,在同时具备了专业领域文本的源端句式序列以及目标端数据序列之后,本发明还提出需要对两组序列进行分词处理,这是考虑到对于专业领域术语的辨识,而具体的分词方式为了确保和专业领域的需求相对应,源端句式数据可以使用特定的基于专业领域词典的分词方法,即根据该领域词典中实体、关系和属性等来进行最大长度匹配分词,若无法匹的则可以按单个字符处理。目标端数据则可以是将“"_type":”这种字段标签作为完整的单词进行分割,具体例如可将标签中的双引号和字段分开,同时每个“{”也与前后字符分开,双引号内的字段就是一个分词结果,如“电动加压送风百叶”即为一个分词结果,当然也可以与源端句式数据序列的分词方法相对应,对此本发明不作限定。
最后执行步骤S4、将源端句式数据的分词结果作为输入,且将目标端数据的分词结果作为输出,训练文本翻译器。
也即是在本实施例中,经过前述序列化、分词处理之后的“平行句对”,就可以放入文本翻译器中开始进行训练。
在具体介绍可选的文本翻译器架构之前,关于本发明采用文本翻译器的创造构思,还需说明如下:
对于专业领域文本的语义解析,如果采用现有的解析思路,本领域通常有三种方式:
(1)单纯基于规则的信息抽取方法:该现有方法首先需要通过规则进行句式识别、实体识别,关系识别等,然后再将抽取出的信息进行组合,形成文本的语义表示形式;然而,仅仅基于规则的信息抽取方法,需要书写大量的规则,代码量较大,而且实体和关系识别的过程中如果出现错误,会直接影响最后的语义表示结果,即,经分析研究,该现有方案在应用于专业领域文本的语义解析时,存在严重的错误传播问题。
(2)文法解析方法:该现有方法需要预先编制一套类似正则表达式的匹配模板以便对句式进行匹配,当匹配到正确的信息时,则可以转换成语义表示形式;然而,仅仅利用文法解析方法,其需要对整个句子进行识别并进行匹配,如果待解析的文本稍与前述预先编制的模板不同,则无法进行匹配,进而无法完成文法解析。由于自然语言是千变万化的,随着专业领域范围的横向扩展以及专业领域的纵向深入,难以确保表达形式一成不变,因而也就造成了文法解析方法的匹配容错率在实际操作层面上并不适用,导致对于同一专业领域文本的不同表达方式需要编写多个模板,并且事实上,模板量会一直增加,也即是当新句式一出现就不得不变动模板,因此经分析研究,该现有方案在应用于专业领域文本的语义解析时,存在文本覆盖率低的问题。
(3)单纯的人工标注方法:简言之,人工标注就是填槽,基于自然语言的知识,专家将各部分信息填入已经制定好的语义表示框架槽中;然而,虽然可以借由人工标注保证文本解析的准确性,但是此过程无疑需要耗费大量的人力成本,而且出于前文提及的同样原因,专业领域的文本会持续增多且变化,因此经分析研究,该现有方案在面对如此大规模的变量和增量时,存在持续性的成本耗费问题。
在对上述现有方式进行综合分析后,本发明构思出采用基于机器翻译框架的模型训练方式,也即是构建一种通过学习迭代的文本翻译器方案,同时设计出易于底层操作的语义表示形式,降低数据的处理难度的同时能够提升文本覆盖,相比上述提及的现有处理手段,利用本发明的技术方案能够有效克服基于规则的信息抽取方法的错误传播问题、文法解析方法的匹配容错率较低问题以及可以节省大量的人力成本。据此,对于文本翻译器的选型,也在本方案的优选实施中发挥着重要作用,在本发明的至少一种可能的实现方式中,前述文本翻译器则采用了较新颖且能力突出的Transformer模型架构。
Transformer模型是一种seq2seq模型(Sequence-to-Sequence),它可以将一个序列输入进模型中,经过模型处理后输出成另一个序列。结合本发明的解析任务,可以将专业领域文本的解析视作一个文本翻译任务,也即是将输入文本翻译成对应的语义表示形式,这也是在某些实施例中采用目前机器翻译任务中效果较佳的Transformer模型的原因。对于该模型架构与本发明的结合,此处可结合主要的架构中的Embedding层、编码端、解码端等,作如下介绍:
1)Embedding层
可将分词后的专业领域文本进行向量化处理,例如,可直接将每个词随机初始化为521维的词向量,由此便得到Input Embedding。在进入文本翻译器的编码端之前,还可向Input Embedding中加入Position Embedding(模型中自动根据输入数据生成),也即是位置编码,便于表示每个词向量在句子中的位置。
2)编码端
编码端每层主要有两个模块,一个模块是多头自注意力机制(Multi-headattention),该模块的每个头主要用来对专业领域文本的每个词向量进行与其他词向量的相似度计算,然后加权求和形成新的词向量,新词向量相当于结合了上下文信息的词向量。多头的目的是为了从不同的角度、不同的层面提取特征向量,最后对多个头提取词向量进行拼接,由此可见,该模块相当于特征提取层。
另一个模块是前馈神经网络层(Feed-Forward Networks),该层主要为整套网络引入了非线性变换函数,以此可以更好地拟合模型。在每一个模块中还可以包含残差连接和层归一化操作,目的是为了易于模型学习和防止数据分布变化过大而导致的训练难度加大等问题。综合上述操作,本文本翻译器可以堆叠成较深的网络结构,例如在一些实施方式中,编码端便堆叠了六层。
3)解码端
解码端与编码端的一个主要差别是,在前馈神经网络层之前还加入了一层与编码端相连接的多头注意力机制模块,该层可以获取源端句子的编码信息,其他两层则可以与上述编码端相同,此处不再赘述。在一些实施方式中,解码端也可同样堆叠六层。此外,在解码端之上,会经过一个线性变换将编码过的信息转换成可以对应专业领域词典大小的张量,然后经过softmax层预测每个词的概率。
最后,利用上述模型架构展开对文本翻译器的训练,例如在至少一种实施方式中,文本翻译器的编码端和解码端均采用但不限于六层结构,前述Multi-head attention的头数则可设置但不限于八头,损失函数则可使用但不限于是交叉熵损失,而训练步数则可以但不限于为250000步等。当然,本领域技术人员可以理解的是,在训练细节上,本发明还可以作出如下改进:所述源端句式数据与所述目标端数据共享词向量;和/或,融合训练后期的多轮的更新参数,对所述文本翻译器进行加权平均优化。
也即是结合本发明实际场景和应用经验来看,一方面,由于源端的专业领域文本和目标端的语义表示形式的大部分词可能是重复的,所以可以采用共享词向量技术,在上述文本翻译器的训练阶段,使源端和目标端共享一套词向量,此举可以大大降低数据稀疏性,减少模型参数。另一方面,在训练过程中,还可以对最后几轮更新的参数进行保存,也即是保存了多个文本翻译器,然后再结合模型集成技术对最后的多个文本翻译器进行加权平均等融合操作,使模型泛化性能进一步增强。
综上所述,前述各实施例及其优选方案,对于本领域的技术贡献在于,深入研究、挖掘现有的语言解析技术在面向专业领域文本时的弊端根源所在,从中推导和探索出一套基于机器翻译框架的解决方案,这其中包括针对前文提及的专业领域文本的多种特殊要求,设计了一种面向该特定需求的文本翻译器的训练方式,借由这种具有针对性的训练方式,将文本翻译器训练为足以匹配专业领域对于文本多样性、复杂性、处理难度以及解析覆盖率等具体的实际所需,并在相应的实施例中体现出本发明的解析思路和实现手段,相比现有的语言解析技术不仅能够使得专业领域文本的解析结果更为符合专业性标准以及准确度要求,而且也能够大幅减少目前专门应对专业领域文本解析工作的大规模人力所连带产生的负面代价。
基于此,本发明还提供了一种专业领域文本语义解析方法的实施例,如图2所示,可以包括如下步骤:
步骤S10、接收原始的专业领域文本;
步骤S20、对专业领域文本进行句式标注和分词处理;
步骤S30、根据处理后的专业领域文本以及预先训练获得的文本翻译器,得到对应于专业领域的语义表示结构的解析结果。
利用模型进行输入、输出的方式本身并非重点,因此该方案实施例的有益效果仍体现在前文阐明的基于本发明特定任务需求的文本翻译器的获得上,因此,此处不作过多赘述,但需要进一步补充的是,结合专业领域的实际需求,在本方案的其中一种可能的实现方式中,在获得解析结果之后,还可以包括如下步骤(已将此优选在图2中以虚线示出):
步骤S40、将解析结果与相应专业领域的软件平台对接,以使软件平台从解析结果中获取所需语义信息。
具体结合实际操作来说,在前述文本翻译器经由前述训练结束后,并可将文本翻译器部署在服务器上,运行阶段接收经标注分词处理的某专业领域文本后,经过文本翻译器的计算,可以实现完全自动解析,输出相应的语义表示结果(若在后期引入更多的新数据,还可以重新训练文本翻译器,使其性能更优)。接着,在一些实施例中,还可以经过后处理步骤,将序列化的语义表示形式逆向转成前文提及的多行结构,以便与文本翻译器衔接的后续接收方有效且准确地获取语义信息。此处,本发明以相应专业领域的软件平台作为所述后续接收方,例如建筑工程领域的制图软件,可以与前述文本翻译器相关联,通过设计相应的API,查询、提取该语义解析结果中所需字段的信息、内容,从而无需制图人员手动录入绘图参数,便可实现自动且准确的制图功能,以上仅为示意性介绍,对此本发明不作限定。
相应于上述解析方法实施例及优选方案,本发明还提供了一种专业领域文本语义解析装置的实施例,如图3所示,具体可以包括如下部件:
文本接收模块1,用于接收原始的专业领域文本;
文本处理模块2,用于对所述专业领域文本进行句式标注和分词处理;
语义解析模块3,用于根据处理后的所述专业领域文本,以及经由如上所述的训练方法获得的文本翻译器,得到对应于专业领域的语义表示结构的解析结果。
进一步地,所述装置还可以包括(以虚线示出):
专业领域软件对接模块4,用于将所述解析结果与相应专业领域的软件平台对接,以使所述软件平台从所述解析结果中获取所需语义信息。
应理解以上图3所示的专业领域文本语义解析装置的各个部件的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分部件以软件通过处理元件调用的形式实现,部分部件通过硬件的形式实现。例如,某个上述模块可以为单独设立的处理元件,也可以集成在电子设备的某一个芯片中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在一起,也可以独立实现。在实现过程中,上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些部件可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit;以下简称:ASIC),或,一个或多个微处理器(Digital Singnal Processor;以下简称:DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array;以下简称:FPGA)等。再如,这些部件可以集成在一起,以片上系统(System-On-a-Chip;以下简称:SOC)的形式实现。
综合上述各实施例及其优选方案,本领域技术人员可以理解的是,在实际操作中,本发明适用于多种实施方式,本发明以下述载体作为示意性说明:
(1)一种专业领域文本语义解析设备,其可以包括:
一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如上所述的专业领域文本语义解析方法。
其中,该设备可以是电子设备也可以是内置于电子设备的电路设备。上述电子设备可以为云服务器、移动终端(手机)、智慧屏、无人机、ICV、智能(汽)车或车载设备等。本实施例对专业领域文本语义解析设备的具体形式不作限定。
应理解,所述专业领域文本语义解析设备能够实现前述实施例提供的方法的相关过程或包含上述装置中的相关部件。具体可参见前文中关于方法、装置等实施例的描述,为避免重复,此处适当省略详细描述。
应理解,所述专业领域文本语义解析设备中的处理器可以是片上系统SOC,该处理器中可以包括中央处理器(Central Processing Unit;以下简称:CPU),还可以进一步包括其他类型的处理器,例如:图像处理器(Graphics Processing Unit;以下简称:GPU)等,具体在下文中再作介绍。总之,处理器内部的各部分处理器或处理单元可以共同配合实现之前的方法流程,且各部分处理器或处理单元相应的软件程序可存储在存储器中。
(2)一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如上所述的专业领域文本语义解析方法。
在本发明所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。
(3)一种计算机程序产品(该产品可以包括上述装置),该计算机程序产品在终端设备上运行时,使终端设备执行前述实施例或等效实施方式的专业领域文本语义解析方法。
具体地,通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述计算机程序产品可以包括但不限于是指APP;接续前文,上述设备/终端可以是一台计算机设备(例如前述手机、PC终端、云平台、服务器、服务器集群或者诸如媒体网关等网络通信设备等)。并且,该计算机设备的硬件结构还可以具体包括:至少一个处理器,至少一个通信接口,至少一个存储器和至少一个通信总线;处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中,处理器可能是一个中央处理器CPU、DSP、微控制器或数字信号处理器,还可包括GPU、嵌入式神经网络处理器(Neural-network ProcessUnits;以下简称:NPU)和图像信号处理器(Image Signal Processing;以下简称:ISP),该处理器还可包括特定集成电路ASIC,或者是被配置成实施本发明实施例的一个或多个集成电路等,此外,处理器可以具有操作一个或多个软件程序的功能,软件程序可以存储在存储器等存储介质中;而前述的存储器/存储介质可以包括:非易失性存储器(non-volatilememory),例如非可移动磁盘、U盘、移动硬盘、光盘等,以及只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)等。
本发明实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
本领域技术人员可以意识到,本说明书中公开的实施例中描述的各模块、单元及方法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以及,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可。尤其,对于装置、设备等实施例而言,由于其基本相似于方法实施例,所以相关之处可参见方法实施例的部分说明即可。以上所描述的装置、设备等实施例仅仅是示意性的,其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个地方,例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果,但以上仅为本发明的较佳实施例,需要言明的是,上述实施例及其优选方式所涉及的技术特征,本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下,合理地组合搭配成多种等效方案;因此,本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。
Claims (10)
1.一种文本翻译器训练方法,其特征在于,所述训练方法包括:
对专业领域文本进行句式处理,得到源端句式数据以及按预设的语义表示结构表征的目标端数据;所述句式处理包括句式分类,并将各类句式解析为预设的语义表示结构;设定语义表示结构包括基于不同的领域,采取句式分级并对各级句式建立嵌套关系;
将所述目标端数据转换为序列形式;
基于专业领域词典,对所述源端句式数据以及序列化的所述目标端数据进行分词;
将所述源端句式数据的分词结果作为输入,且将所述目标端数据的分词结果作为输出,训练所述文本翻译器。
2.根据权利要求1所述的文本翻译器训练方法,其特征在于,所述对专业领域文本进行句式处理包括:
利用预先构建的分类器对所述专业领域文本中的语句进行句式分类;
根据预设的语法策略,将已确定类型的各类句式分别转换为基于专业领域的语义表示结构;
对无确定类型的语句进行专家拆解,并将拆解后的语句利用所述分类器进行重分类处理。
3.根据权利要求1所述的文本翻译器训练方法,其特征在于,所述预设的语义表示结构包括:基于专业领域预设的主级句式、次级句式以及底层句式;
所述主级句式能够以至少一层嵌套所述次级句式和/或所述底层句式;
所述次级句式能够以至少一层嵌套其他次级句式和/或所述底层句式;
所述底层句式为不能嵌套其他句式的最小句式单元。
4.根据权利要求1~3任一项所述的文本翻译器训练方法,其特征在于,所述训练方法还包括:
所述源端句式数据与所述目标端数据共享词向量;和/或,
融合训练后期的多轮的更新参数,对所述文本翻译器进行加权平均优化。
5.一种专业领域文本语义解析方法,其特征在于,包括:
接收原始的专业领域文本;
对所述专业领域文本进行句式标注和分词处理;
根据处理后的所述专业领域文本,以及经由权利要求1~4任一项所述的训练方法获得的文本翻译器,得到对应于专业领域的语义表示结构的解析结果。
6.根据权利要求5所述的专业领域文本语义解析方法,其特征在于,所述解析方法还包括:
将所述解析结果与相应专业领域的软件平台对接,以使所述软件平台从所述解析结果中获取所需语义信息。
7.一种专业领域文本语义解析装置,其特征在于,所述装置包括:
文本接收模块,用于接收原始的专业领域文本;
文本处理模块,用于对所述专业领域文本进行句式标注和分词处理;
语义解析模块,用于根据处理后的所述专业领域文本,以及经由权利要求1~4任一项所述的训练方法获得的文本翻译器,得到对应于专业领域的语义表示结构的解析结果。
8.根据权利要求7所述的专业领域文本语义解析装置,其特征在于,所述装置还包括:
专业领域软件对接模块,用于将所述解析结果与相应专业领域的软件平台对接,以使所述软件平台从所述解析结果中获取所需语义信息。
9.一种专业领域文本语义解析设备,其特征在于,所述设备包括:
一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如权利要求5或6所述的专业领域文本语义解析方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如权利要求5或6所述的专业领域文本语义解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911275031.7A CN111178085B (zh) | 2019-12-12 | 2019-12-12 | 文本翻译器训练方法、专业领域文本语义解析方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911275031.7A CN111178085B (zh) | 2019-12-12 | 2019-12-12 | 文本翻译器训练方法、专业领域文本语义解析方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111178085A CN111178085A (zh) | 2020-05-19 |
CN111178085B true CN111178085B (zh) | 2020-11-24 |
Family
ID=70655477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911275031.7A Active CN111178085B (zh) | 2019-12-12 | 2019-12-12 | 文本翻译器训练方法、专业领域文本语义解析方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178085B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753544A (zh) * | 2020-06-30 | 2020-10-09 | 北京来也网络科技有限公司 | 基于rpa及ai的文档纠错方法、装置、设备及介质 |
CN112347235A (zh) * | 2020-11-05 | 2021-02-09 | 北京羽扇智信息科技有限公司 | 规则库生成方法及装置 |
CN112489652A (zh) * | 2020-12-10 | 2021-03-12 | 北京有竹居网络技术有限公司 | 一种语音信息的文本获取方法、装置和存储介质 |
CN113486680B (zh) * | 2021-07-23 | 2023-12-15 | 平安科技(深圳)有限公司 | 文本翻译方法、装置、设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649434B (zh) * | 2016-09-06 | 2020-10-13 | 北京蓝色光标品牌管理顾问股份有限公司 | 一种跨领域知识迁移的标签嵌入方法和装置 |
CN107038159B (zh) * | 2017-03-09 | 2019-07-12 | 清华大学 | 一种基于无监督领域自适应的神经网络机器翻译方法 |
CN107273363B (zh) * | 2017-05-12 | 2019-11-22 | 清华大学 | 一种语言文本翻译方法及系统 |
CN109145108A (zh) * | 2017-06-16 | 2019-01-04 | 贵州小爱机器人科技有限公司 | 文本层叠分类器训练方法、分类方法、装置及计算机设备 |
JP7170984B2 (ja) * | 2018-03-02 | 2022-11-15 | 国立研究開発法人情報通信研究機構 | 疑似対訳データ生成装置、機械翻訳処理装置、および疑似対訳データ生成方法 |
CN109271644A (zh) * | 2018-08-16 | 2019-01-25 | 北京紫冬认知科技有限公司 | 一种翻译模型训练方法及装置 |
CN110069790B (zh) * | 2019-05-10 | 2022-12-06 | 东北大学 | 一种通过译文回译对照原文的机器翻译系统及方法 |
-
2019
- 2019-12-12 CN CN201911275031.7A patent/CN111178085B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111178085A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111178085B (zh) | 文本翻译器训练方法、专业领域文本语义解析方法和装置 | |
CN110309267B (zh) | 基于预训练模型的语义检索方法和系统 | |
CN111241294B (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
CN111708882B (zh) | 基于Transformer的中文文本信息缺失的补全方法 | |
CN107967262A (zh) | 一种神经网络蒙汉机器翻译方法 | |
CN107273913B (zh) | 一种基于多特征融合的短文本相似度计算方法 | |
CN111612103A (zh) | 结合抽象语义表示的图像描述生成方法、系统及介质 | |
Sethi et al. | DLPaper2Code: Auto-generation of code from deep learning research papers | |
CN112269868B (zh) | 一种基于多任务联合训练的机器阅读理解模型的使用方法 | |
CN112883193A (zh) | 一种文本分类模型的训练方法、装置、设备以及可读介质 | |
CN113010683B (zh) | 基于改进图注意力网络的实体关系识别方法及系统 | |
CN115526236A (zh) | 一种基于多模态对比学习的文本网络图分类方法 | |
CN114564563A (zh) | 一种基于关系分解的端到端实体关系联合抽取方法及系统 | |
CN116010581A (zh) | 一种基于电网隐患排查场景的知识图谱问答方法及系统 | |
CN111522963A (zh) | 一种基于公安知识图谱引擎的智能助理应用交互方法 | |
Yang et al. | Tree-based data augmentation and mutual learning for offline handwritten mathematical expression recognition | |
CN115658846A (zh) | 一种适用于开源软件供应链的智能搜索方法及装置 | |
Lyu et al. | Deep learning for textual entailment recognition | |
CN117390198A (zh) | 构建电力领域科技知识图谱的方法、装置、设备及介质 | |
CN117290478A (zh) | 一种知识图谱问答方法、装置、设备和存储介质 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN116595169A (zh) | 一种基于提示学习的煤矿生产领域问答意图分类方法 | |
CN115617666A (zh) | 基于gpt2模型中文测试用例补全方法 | |
CN116483314A (zh) | 一种自动化智能活动图生成方法 | |
CN114942977A (zh) | 基于支持句预测的多任务文档级关系抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |