CN111475621B

CN111475621B - 同义词替换表的挖掘方法及装置、电子设备、计算机可读介质

Info

Publication number: CN111475621B
Application number: CN202010260098.XA
Authority: CN
Inventors: 翟周伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2021-06-04
Anticipated expiration: 2040-04-03
Also published as: CN111475621A

Abstract

本公开提供了一种同义词替换表的挖掘方法，其包括：对平行语料进行同义词改写，获得平行语料对齐样本；其中，平行语料对齐样本包括第一侧语料、第二侧语料、第一侧语料中的词和第二侧语料中的词；将平行语料对齐样本转换成序列标注样本；基于序列标注样本训练模型，获得序列标注对齐模型，再利用序列标注对齐模型改写平行语料；基于序列标注对齐模型生成同义词替换表。该同义词替换表的挖掘方法抛弃了繁琐的自然语言处理规则，而且降低了维护成本，提高了同义词替换表的精度。本公开还提供了一种同义词替换表的挖掘装置、电子设备和计算机可读介质。

Description

同义词替换表的挖掘方法及装置、电子设备、计算机可读介质

技术领域

本公开实施例涉及计算机技术领域，特别涉及同义词替换表的挖掘方法及装置、电子设备、计算机可读介质。

背景技术

同义短语替换表是一种同义词候选表。每个短语都会给出所有可能存在的同义短语以及同义替换的概率，同义短语替换表是同义改写技术中的核心基础数据，用于同义词候选的召回，是对话系统和搜索系统的核心基础技术。

在生成同义短语替换表时，需要保证所有可能的候选同义词能被召回，同时要避免转义，还需生成同义短语替换表的算法具有的可维护性。

发明内容

本公开实施例提供一种同义词替换表的挖掘方法及装置、电子设备、计算机可读介质。

第一方面，本公开实施例提供一种同义词替换表的挖掘方法，其包括：

对平行语料进行同义词改写，获得平行语料对齐样本；其中，所述平行语料对齐样本包括第一侧语料、第二侧语料、所述第一侧语料中的词和所述第二侧语料中的词，其中，所述第一侧语料和所述第二侧语料为平行语料，而且，所述第一侧语料中的词和所述第二侧语料中的词为词义或语义相同的同义词；

将所述平行语料对齐样本转换成序列标注样本；

基于所述序列标注样本训练模型，获得序列标注对齐模型，再利用所述序列标注对齐模型改写所述平行语料；

基于所述序列标注对齐模型生成同义词替换表。

第二方面，本公开实施例提供一种同义词替换表的挖掘的装置，其包括：

改写模块，用于对平行语料进行同义词改写，获得平行语料对齐样本；其中，所述平行语料对齐样本包括第一侧语料、第二侧语料、所述第一侧语料中的词和所述第二侧语料中的词，其中，所述第一侧语料和所述第二侧语料为平行语料而且，所述第一侧语料中的词和所述第二侧语料中的词为词义或语义相同的同义词；

转换模块，用于将所述平行语料对齐样本转换成序列标注样本；

模型生成模块，用于基于所述序列标注样本训练模型，获得序列标注对齐模型；而且，所述模型生成模块生成的所述序列标注对齐模型用于所述改写模块改写所述平行语料；

同义词替换表生成模块，用于基于所述序列标注对齐模型生成同义词替换表。

第三方面，本公开实施例提供一种电子设备，其包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器上述任意一种同义词替换表的挖掘方法；

一个或多个I/O接口，连接在所述处理器与存储器之间，配置为实现所述处理器与存储器的信息交互。

第四方面，本公开实施例提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任意一种同义词替换表的挖掘方法。

本公开实施例提供的同义词替换表的挖掘方法，对平行语料进行同义词改写，获得平行语料对齐样本；其中，所述平行语料对齐样本包括第一侧语料、第二侧语料、所述第一侧语料中的词和所述第二侧语料中的词，其中，所述第一侧语料和所述第二侧语料为平行语料，而且，所述第一侧语料中的词和所述第二侧语料中的词为同义词；将所述平行语料对齐样本转换成序列标注样本；基于所述序列标注样本训练模型，获得序列标注对齐模型，再利用所述序列标注对齐模型改写所述平行语料；基于所述序列标注对齐模型生成同义词替换表。该同义词替换表的挖掘方法利用获得的序列标注样本训练模型改写平行语料，抛弃了繁琐的自然语言处理规则，而且降低了维护成本；同时，由于改写后的平行语料第一侧语料、第二侧语料、所述第一侧语料中的词和所述第二侧语料中的词，且所述第一侧语料中的词和所述第二侧语料中的词为同义词，提高了同义词替换表的精度。

附图说明

附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开，并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述，以上和其它特征和优点对本领域技术人员将变得更加显而易见，在附图中：

图1为本公开实施例提供的同义词替换表的挖掘方法的流程图；

图2为本公开实施例提供的同义词替换表的挖掘方法中步骤101的具体流程图；

图3为本公开实施例提供的同义词替换表的挖掘方法中步骤104的具体流程图；

图4为本公开实施例提供的同义词替换表的挖掘方法中步骤302的具体流程图；

图5为本公开实施例提供的同义词替换表的挖掘方法中步骤401的具体流程图；

图6为本公开实施例提供的同义词替换表的挖掘装置的原理框图；

图7为本公开实施例提供的同义词替换表的挖掘装置中改写模块的原理框图；

图8为本公开实施例提供的同义词替换表的挖掘装置中同义词替换表生成模块的原理框图；

图9为本公开实施例提供的同义词替换表的挖掘装置中过滤单元的原理框图；

图10为本公开实施例提供的同义词替换表的挖掘装置中上下文统计对齐子单元的原理框图；

图11为本公开实施例提供的一种电子设备的组成框图。

具体实施方式

为使本领域的技术人员更好地理解本公开的技术方案，下面结合附图对本公开提供的同义词替换表的挖掘方法及装置、电子设备、计算机可读介质进行详细描述。

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

在不冲突的情况下，本公开各实施例及实施例中的各特征可相互组合。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

同义词替换表可基于IBM Model翻译对齐模型、基于seq2seq的神经网络翻译模型、基于词语embedding向量相似度计算模型或基于规则的统计模型获得。其中，基于IBMModel翻译对齐模型和seq2seq的神经网络翻译模型要求平行语料同义，但同义短语挖掘的语料并不严格同义，因此，基于IBM Model翻译对齐模型和seq2seq的神经网络翻译模型获得同义词替换表的精度较差，只能满足基本召回。基于词语embedding向量相似度计算模型难以区分同位词和同义词，召回有限，精度也不宜控制。基于规则的同义词挖掘方法在一定程度上提高同义词替换表的精度，但规则繁琐，而且维护困难。

本公开实施例提供的同义词替换表的挖掘方法主要是针对生成同义词替换表规则维护困难，提供一种规则维护简单，同义词替换表的精度高的挖掘方法及装置。

第一方面，本公开实施例提供一种同义词替换表的挖掘方法。图1为本公开实施例提供的同义词替换表的挖掘方法的流程图。参照图1，同义词替换表的挖掘方法包括：

步骤101，对平行语料进行同义词改写，获得平行语料对齐样本。

其中，平行语料是词义或语义相关联的两个语料，两个语料意思相同或相近，或者两个语料语义相同或相近。平行语料可以利用＜f，e＞来表示，平行语料的第一侧(左侧)f和第二侧(右侧)e的语义和词义基本一致。

例如，＜孩子感冒吃什么药，宝宝感冒发热吃什么药＞，平行语料的第一侧f和第二侧e的语义和词义是基本相同的。

在一些实施例中，平行语料来自于互联网。具体地，用户在使用搜索引擎进行网页检索时，服务器会根据用户的实际操作产生大量的网络日志数据。其中，网络日志数据包记录了用户在一次查询会话中所执行的不同的查询操作，其包括输入询问(query)和所点击的网页的标题(title)，询问和标题具有相同或者相近词义、语义的平行语料；以及，用户在一次查询会话中所使用的至少两个检索句，这些检索句作为具有相同或者相近语义的平行语料。

同义词改写又可称为同义改写，指找出平行语料中词义或语义相同的词，然后将词义或语义相同的词配对，获得由语料、同义词构成的平行语料对齐样本。

更具体地，平行语料对齐是指将平行语料中语义或词义相同的词对齐，即将平行语料中词义或语义相同的词找出，然后使词义或语义相同的词相对。例如，在平行语料＜孩子感冒吃什么药，宝宝感冒发热吃什么药＞中，“孩子”和“宝宝”是词义相同的词，因此，可将“孩子”和“宝宝”对齐。将平行语料对齐后得到的样本即为平行语料对齐样本。

在一些实施例中，利用对齐模型改写平行语料，其中，对齐模型可以采用已有的对齐模型，如IBM Model对齐模型；也可以采用本实施例生成的对齐模型。

例如，利用对齐模型将平行语料＜f，e＞改写为四元组＜f，e，f_word，e_rword＞，其中，f和e为平行语料中的两个句子，即f和e分别是一对平行语料，f为平行语料中位于第一侧的语料，即平行语料的左侧的句子，e为平行语料中位于第二侧的语料，即平行语料的右侧的句子。f_word为左侧的句子中的字或词语，e_rword为右侧的句子中的字或词语，而且，f_word和e_rword语义或词义相同。

如，平行语料＜孩子感冒吃什么药，宝宝感冒发热吃什么药＞改写为＜孩子感冒吃什么药，宝宝感冒发热吃什么药，孩子，宝宝＞。

不难理解，改写后的平行语料对齐样本包括第一侧语料、第二侧语料、第一侧语料中的词和第二侧语料中的词，其中，第一侧语料和第二侧语料为平行语料，第一侧语料中的词和第二侧语料中的词为词义或语义相同的同义词。

需要说明的是，本公开实施例提及的第一侧和第二侧是一个相对的概念，当第一侧为平行语料的左侧时，第二侧即为平行语料的右侧；当第一侧为平行语料的右侧时，第二侧即为平行语料的左侧。而且，虽然本公开实施例对平行语料的左侧进行了同义词改写，但本公开实施例并不局限于此。同义改写平行语料的右侧同样能达到本实施例的目的，对此不做限定。

步骤102，将平行语料对齐样本转换成序列标注样本。

在步骤102中，用于同义词挖掘的序列标注label体系将平行语料对齐样本转换成序列标注样本。

在本公开实施例中，首先，将平行语料中左侧f句子和右侧e句子以Tab分割符号“\t”拼接在一起。然后，利用同义词挖掘的序列标注label体系表进行映射标注，生成用于训练的一条序列标注样本。

表1为用于同义词挖掘的序列标注label体系表。

左侧f的短语	SYN_F
		右侧e中的同义短语	SYN_E
非同义	NOR

例如，将平行语料＜孩子感冒吃什么药，宝宝感冒发热吃什么药＞以Tab分割符号“\t”拼接为＜孩子感冒吃什么药“\t”宝宝感冒发热吃什么药，孩子，宝宝＞。然后，利用表1所示序列标注label体系表进行label映射标注，生成用于训练的一条序列标注样本，如表2。

表2为平行语料和序列标注映射表

需要说明的是，本公开实施例也可以采用其他序列标注体系将平行语料对齐样本转换成序列标注样本，本公开实施例对序列标注样本的转换方式不作限定。

步骤103，基于序列标注样本训练模型，获得序列标注对齐模型。

在步骤103中，利用序列标注样本训练模型，利用神经网络模型和条件随机场标注模型获得序列标注对齐模型。其中，神经网络模型可以但不限于循环神经网络(RecurrentNeural Network，简称GRU)；长短时记忆网络(Long Short Term Memory Network，简称LSTM)；卷积神经网络(Convolutional Neural Networks，简称CNN)。模型的具体训练方式在此不作限定。

在本公开实施例中，在改写平行语料初始，可以利用已知的对齐模型改写平行语料。当通过步骤103获得序列标注对齐模型后，即利用该序列标注对齐模型进行步骤101中平行语料的同义词改写，这种改写方式抛弃了繁琐的自然语言处理(Natural LanguageProcessing，简称NLP)规则，降低了维护成本，而且，由于改写后的平行语料对齐样本包括第一侧语料、第二侧语料、第一侧语料中的词和第二侧语料中的词，而且，第一侧语料中的词和第二侧语料中的词为同义词，因此可以保证同义词替换表的精度。

步骤104，基于序列标注对齐模型生成同义词替换表。

在步骤104中，利用步骤103获得的序列标注对齐模型对海量的平行语料进行对齐，获得同义词替换表。

图2为本公开实施例提供的同义词替换表的挖掘方法中步骤101的具体流程图。如图2所示，在本公开实施例中，对平行语料同义词改写，获得平行语料对齐样本，具体包括：

步骤201，对平行语料的第一侧语料进行同义词改写，获得单侧改写结果。

在步骤201中，利用对齐模型对平行语料的一侧进行同义词改写，如改写平行语料的第一侧语料，获得单侧改写结果，即获得三元组。在该三元组中包括第一侧语料以及第一侧语料的同义词。

例如，利用对齐模型对平行语料＜孩子感冒吃什么药，宝宝感冒发热吃什么药＞进行同义词改写，得到的单侧改写结果为：

＜孩子感冒吃什么药，孩子，宝宝＞。

其中，“孩子感冒吃什么药”为平行语料的第一侧的句子，“孩子”为第一侧的词语，“宝宝”为与第一侧的词语“孩子”同义的词。

在一些实施例中，单侧改写结果还可以为：

＜孩子感冒吃什么药，孩子，宝宝，0.95＞。

其中，“孩子感冒吃什么药”为平行语料的第一侧的句子，“孩子”为第一侧的词语，“宝宝”为与第一侧的词语“孩子”同义的词，“0.95”为所有平行语料中“孩子”和“宝宝”同义词的统计概率。

需要说明的是，在改写平行语料时，尽可能地获得平行语料的第一侧中所有词和短语的同义词，以及尽可能地获得同一词或短语的所有同义词。

例如，平行语料＜孩子感冒吃什么药，宝宝感冒发热吃什么药＞还可以同义改写为：

＜孩子感冒吃什么药，感冒，生病，0.75＞；

＜孩子感冒吃什么药，吃，喝，0.6＞。

需要说明的是，本公开实施例仅列举了改写平行语料中第一侧的情况，但本实施例并不局限于此，改写平行语料的右侧也能获得同样的效果。

步骤202，将单侧改写结果与平行语料的第二侧语料对齐，获得对齐结果。

在步骤202中，利用对齐模型将单侧改写结果与平行语料的第二侧语料对齐，获得对齐结果。

例如，将同义改写结果＜孩子感冒吃什么药，孩子，宝宝＞与平行语料第二侧＜宝宝感冒发热吃什么药＞对齐，得到对齐结果至少可以包括：

＜孩子感冒吃什么药，孩子，宝宝＞；

＜孩子感冒吃什么药，感冒，生病＞；

＜孩子感冒吃什么药，吃，喝＞。

步骤203，从对齐结果中选择最大粒度的对齐结果生成平行语料对齐样本。

在一些实施例中，从所有的对齐结果中选择粒度最大词语作为对齐结果。其中，粒度是指词语的长度，词语的长度越长，粒度越大。当粒度相同时，选择置信度最高的词语最为对齐结果。

例如，在同义改写后的三元组＜孩子感冒吃什么药，孩子，宝宝＞、＜孩子感冒吃什么药，感冒，生病＞、＜孩子感冒吃什么药，吃，喝＞与平行语料的第二侧＜宝宝感冒发热吃什么药＞进行词语对齐，得到粒度最大的对齐结果为：

＜孩子感冒吃什么药，宝宝感冒发热吃什么药，孩子，宝宝＞。

图3为本公开实施例提供的同义词替换表的挖掘方法中步骤104的具体流程图。如图3所示，在一些实施例中，步骤104具体包括：

步骤301，利用序列标注对齐模型，对平行语料进行同义词预测，获得候选同义词替换表。

在步骤301中，利用步骤103获得的序列标注对齐模型对海量的平行语料进行同义预测，获得候选同义词替换表。

其中，海量的平行语料可以来自网络，如上文的搜索引擎服务器的网络日志数据。但本实施例并不局限于此，平行语料也可以来自其它领域，如拥有平行语料的第三方等。

步骤302，对候选同义词替换表进行过滤，获得同义词替换表。

在步骤302中，对候选同义词替换表进一步处理，将同位词过滤掉，获得更准确地同义词替换表。

图4为本公开实施例提供的同义词替换表的挖掘方法中步骤302的具体流程图。如图4所示，步骤302具体包括：

步骤401，对候选同义词替换表中的同义词候选语料进行上下文统计对齐，获得统计短语对齐次数和自对齐次数。

在本公开实施例中，对步骤301得到的对齐结果进行上下文统计对齐，获得上下文短语对齐；然后，从上文提取一个词语，从下文提起一个词，对齐后输出统计结果。该统计结果包括短语、同义短语、短语对齐次数和自对齐次数。其中，短语与同义短语对齐次数是指短语对齐次数，自对齐次数是指词语自己对齐自己的次数。

例如，将＜爸爸生日送什么，父亲生日送什么礼物，爸爸，父亲，＞上下文统计对齐后输出：

＜爸爸，父亲，1＞；

＜爸爸生日，父亲生日，1＞；

＜生日，生日，1＞；

＜送，送，1＞；

＜什么，什么，1＞，

在输出的统计结果中，第一位置为词或短语，第二位置为同义词或同义短语，第三位置为短语对齐的次数。

在本公开实施例中，统计对齐的次数，统计对齐的次数后，输出＜word，rword，self_align_freq，sub_align_freq＞，其中，word表示短语/词、rword表示同义短语/同义词、sub_align_freq表示短语/词对齐次数，self_align_freq表示自对齐次数。

在步骤401中，对候选同义词替换表中的同义词候选语料进行上下文统计对齐，提高了同义词挖掘的精度，从而提高同义词替换表的精度。

步骤402，依据短语对齐次数和自对齐次数获得对齐概率的rate特征和prob特征。

在一些实施例中，通过公式(1)计算对齐概率的rate特征。

利用公式(2)计算对齐概率的prob特征，

步骤403，基于rate特征、prob特征以及搜索特征，利用树模型对候选同义词替换表进行过滤，获得同义词替换表。

在步骤403中，利用树模型过滤候选同义词替换表，获得同义词替换表。

利用rate特征、prob特征训练树模型，利用树模型再次判断候选同义词替换表中各个同义词对是否同义，将预测置信度低的同义词过滤，以提高同义词替换表的精度。

在实际应用过程中，由于同位词同样能获得较高的rate特征和prob特征，因此，仅通过rate特征和prob特征过滤得到的同义词替换表精度还能被进一步提高。

在一些实施例中，基于rate特征、prob特征以及搜索特征，利用树模型对候选同义词替换表进行过滤，获得精度更好的同义词替换表。

其中，搜索特征是搜索引擎和用户反馈的统计特征。在一些实施例中，搜索特征包括短语搜索次数、同义短语搜索次数、搜索次数的差值、搜索点击次数、搜索跳过次数、字面相似度和拼音相似度中的一种或多种。

其中，短语搜索次数包括短语的搜索次数和词的搜索次数。同义短语搜索次数包括同义短语的搜索次数和同义词的搜索次数。短语和同义短语的搜索次数的差值包括短语和同义短语的搜索次数的差值以及词和同义词的搜索次数的差值。搜索点击次数是指搜索引擎依据输入的询问召回的标题中，用户点击标题的次数。搜索跳过次数是指搜索引擎依据输入的询问召回的标题中，用户跳过的标题的次数，以及用户点击和跳过的标题的长度。如，搜索引擎依据用户输入的询问召回10条标题，如果用户点击了第2条和第5条标题，那么，用户跳过标题的长度为3。搜索次数的差值是指搜索原短语和同义短语的次数的差值以及搜索原词和同义词的次数的差值。字面相似度包括原词的字数相同、改写词的字数相同、总字数相同或相似的程度。拼音相似度是指搜索词的拼音相同和相似的程度。

在本公开实施例中，利用rate特征、prob特征以及搜索特征训练，获得树模型，利用该树模型进一步过滤候选同义词替换表中同义词和同义短语，以将预测置信度低的同义词过滤掉，生成精度更高的同义词替换表。

需要说明的是，在最终的同义词替换表中还可以包括同义词替换的概率，即在步骤403中得到的同义词替换表不仅包括词语的替换词，还包括同义词替换的概率。

图5为本公开实施例提供的同义词替换表的挖掘方法中步骤401的具体流程图。如图5所示，步骤401具体包括：

步骤501，对候选同义词替换表中的同义词候选语料进行反转。

在步骤501中，对步骤301获得的候选同义词替换表中的同义词候选语料进一步利用上下文统计对齐。

例如，利用步骤301获得的序列标注对齐模型对平行语料＜爸爸生日什么，父亲生日送什么礼物＞对齐，得到的对齐结果为：

＜爸爸生日送什么，父亲生日送什么礼物，爸爸，父亲＞。

对该对齐结果进行反转，即将原词和同义词放在对齐语料的前面，将原平行语料放在对齐语料的后面。例如，上述对齐结果反转后变为：

＜爸爸，父亲，爸爸生日送什么，父亲生日送什么礼物＞。

步骤502，对反转后的同义词候选语料进行上下文统计对齐，获得同义词候选对齐语料。

在步骤502中，将步骤501获得的反转后的同义词候选语料进行上下文统计对齐，获得同义词候选对齐语料。

步骤503，统计同义词候选对齐语料中短语对齐的次数和自对齐次数。

在步骤503中，在步骤502得到的同义词候选对齐语料中，从上文提取一个词语，从下文提起一个词，对齐后输出统计结果。该统计结果包括短语、同义短语、短语对齐次数和自对齐次数。其中，短语与同义短语对齐次数是指短语对齐次数，自对齐次数是指词语自己对齐自己的次数。

在步骤503中，短语对齐的次数和自对齐次数与步骤401中采用的方式相同，在此不再赘述。

本公开实施例提供的同义词替换表的挖掘方法，利用获得的序列标注样本训练模型改写平行语料，抛弃了繁琐的自然语言处理规则，而且降低了维护成本；同时，由于改写后的平行语料第一侧语料、第二侧语料、第一侧语料中的词和第二侧语料中的词，且第一侧语料中的词和第二侧语料中的词为同义词，提高了同义词替换表的精度。

第二方面，本公开实施例提供一种同义词替换表的挖掘的装置。图6为本公开实施例提供的同义词替换表的挖掘装置的原理框图。参照图6，同义词替换表的挖掘的装置包括：

改写模块601，用于对平行语料进行同义词改写，获得平行语料对齐样本；其中，平行语料对齐样本包括第一侧语料、第二侧语料、第一侧语料中的词和第二侧语料中的词，其中，所述第一侧语料和所述第二侧语料为平行语料，而且，第一侧语料中的词和第二侧语料中的词为词义或语义相同的同义词。

在一些实施例中，利用对齐模型改写平行语料，其中，对齐模型可以采用已有的对齐模型，如IBM Model对齐模型；也可以采用本实施例产生的对齐模型。

转换模块602，用于将平行语料对齐样本转换成序列标注样本。

在本公开实施例中，将平行语料中左侧f句子和右侧e句子以Tab分割符号“\t”拼接在一起。然后，利用同义词挖掘的序列标注label体系表进行映射标注，生成用于训练的一条序列标注样本。

在本公开实施例中，转换模块602的具体转换方式与上述实施例步骤102相同，在此不再赘述。

模型生成模块603，用于基于序列标注样本训练模型，获得序列标注对齐模型。

在改写平行语料初始，可以利用已知的对齐模型改写平行语料。当通过模型生成模块603获得序列标注对齐模型后，即利用该序列标注对齐模型进行步骤101中平行语料的同义改写，这种改写方式抛弃了繁琐的自然语言处理(Natural Language Processing，简称NLP)规则，降低了维护成本，而且，由于改写后的平行语料对齐样本包括第一侧语料、第二侧语料、第一侧语料中的词和第二侧语料中的词，而且，第一侧语料中的词和第二侧语料中的词为同义词，因此可以保证同义词替换表的精度。

在一些实施例中，模型生成模块603是基于序列标注样本，利用神经网络模型和条件随机场标注模型获得序列标注对齐模型。

同义词替换表生成模块604，用于基于序列标注对齐模型生成同义词替换表。

在本公开实施例中，基于模型生成模块603生成的序列标注对齐模型生成同义词替换表。

图7为本公开实施例提供的同义词替换表的挖掘装置中改写模块的原理框图。如图7所示，改写模块包括：

改写单元701，用于对平行语料的第一侧语料进行同义词改写，获得单侧改写结果；其中，单侧改写结果包括第一侧语料以及第一侧语料的同义词。

改写单元701利用对齐模型对平行语料的一侧进行同义词改写，如改写平行语料的第一侧语料，获得单侧改写结果，即获得三元组。在该三元组中包括第一侧语料以及第一侧语料的同义词。

＜孩子感冒吃什么药，孩子，宝宝＞。

在一些实施例中，单侧改写结果还可以为：

＜孩子感冒吃什么药，孩子，宝宝，0.95＞。

＜孩子感冒吃什么药，感冒，生病，0.75＞；

＜孩子感冒吃什么药，吃，喝，0.6＞。

对齐单元702，用于将单侧改写结果与平行语料的第二侧语料对齐，获得对齐结果。

对齐单元702利用对齐模型将单侧改写结果与平行语料的第二侧语料对齐，获得对齐结果。

＜孩子感冒吃什么药，孩子，宝宝＞；

＜孩子感冒吃什么药，感冒，生病＞；

＜孩子感冒吃什么药，吃，喝＞。

选择单元703，用于从对齐结果中选择最大粒度的对齐结果生成平行语料对齐样本。

选择单元703从所有的对齐结果中选择粒度最大词语作为对齐结果。其中，粒度是指词语的长度，词语的长度越长，粒度越大。当粒度相同时，选择置信度最高的词语最为对齐结果。

图8为本公开实施例提供的同义词替换表的挖掘装置中同义词替换表生成模块的原理框图。如图8所示，同义词替换表生成模块包括：

替换表生成单元801，用于利用序列标注对齐模型，对平行语料进行同义词预测，获得候选同义词替换表。

替换表生成单元801利用模型生成模块603获得的序列标注对齐模型对海量的平行语料进行同义预测，获得候选同义词替换表。

过滤单元802，用于对候选同义词替换表进行过滤，获得同义词替换表。

图9为本公开实施例提供的同义词替换表的挖掘装置中过滤单元的原理框图。如图9所示，过滤单元包括：

上下文统计对齐子单元901，用于对候选同义词替换表中的同义词候选语料进行上下文统计对齐，获得统计短语对齐次数和自对齐次数。

上下文统计对齐子单元901对替换表生成单元801得到的对齐结果进行上下文统计对齐，获得上下文短语对齐；然后，从上文提取一个词语，从下文提起一个词，对齐后输出统计结果。该统计结果包括短语、同义短语、短语对齐次数和自对齐次数。其中，短语与同义短语对齐次数是指短语对齐次数，自对齐次数是指词语自己对齐自己的次数。

上下文统计对齐子单元901具体地实施方式与本公开实施例中的步骤401相同，在此不再赘述。

特征计算子单元902，用于依据短语对齐次数和自对齐次数获得对齐概率的rate特征和prob特征。

特征计算子单元902基于短语对齐次数和自对齐次数获得对齐概率的rate特征和prob特征的方式与本公开实施例中步骤402相同，在此不再赘述。

过滤子单元903，用于基于rate特征、prob特征以及搜索特征，利用树模型对候选同义词替换表进行过滤，获得同义词替换表；其中，搜索特征是网络搜索统计的特征。

在一些实施例中，过滤子单元903利用rate特征、prob特征训练树模型，利用树模型再次判断候选同义词替换表中各个同义词对是否同义，将预测置信度低的同义词过滤，以提高同义词替换表的精度。

本公开实施例，利用rate特征、prob特征以及搜索特征训练，获得树模型，利用该树模型进一步过滤候选同义词替换表中同义词和同义短语，以将预测置信度低的同义词过滤掉，生成精度更高的同义词替换表。

图10为本公开实施例提供的同义词替换表的挖掘装置中上下文统计对齐子单元的原理框图。如图10所示，上下文统计对齐子单元包括：

反转子单元1001，用于对候选同义词替换表中的同义词候选语料进行反转。

在一些实施例中，反转子单元1001对候选同义词替换表中的同义词候选语料进行反转。例如，利用步骤301获得的序列标注对齐模型对平行语料＜爸爸生日什么，父亲生日送什么礼物＞对齐，得到的对齐结果为：

＜爸爸生日送什么，父亲生日送什么礼物，爸爸，父亲＞。

＜爸爸，父亲，爸爸生日送什么，父亲生日送什么礼物＞。

对齐子单元1002，用于对反转后的同义词候选语料进行上下文统计对齐，获得同义词候选对齐语料。

统计子单元1003，用于统计同义词候选对齐语料中短语对齐的次数和自对齐次数。

在一些实施例中，统计子单元1003在对齐子单元1002得到的同义词候选对齐语料中，从上文提取一个词语，从下文提起一个词，对齐后输出统计结果。该统计结果包括短语、同义短语、短语对齐次数和自对齐次数。其中，短语与同义短语对齐次数是指短语对齐次数，自对齐次数是指词语自己对齐自己的次数。

本公开实施例提供的同义词替换表的挖掘装置，利用获得的序列标注样本训练模型改写平行语料，抛弃了繁琐的自然语言处理规则，而且降低了维护成本；同时，由于改写后的平行语料第一侧语料、第二侧语料、第一侧语料中的词和第二侧语料中的词，且第一侧语料中的词和第二侧语料中的词为同义词，提高了同义词替换表的精度。

第三方面，参照图11，本公开实施例提供一种电子设备，其包括：

一个或多个处理器1101；

存储器1102，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述任意一项的同义词替换表的挖掘方法；

一个或多个I/O接口1103，连接在处理器与存储器之间，配置为实现处理器与存储器的信息交互。

其中，处理器1101为具有数据处理能力的器件，其包括但不限于中央处理器(CPU)等；存储器1102为具有数据存储能力的器件，其包括但不限于随机存取存储器(RAM，更具体如SDRAM、DDR等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、闪存(FLASH)；I/O接口(读写接口)1103连接在处理器1101与存储器1102间，能实现处理器1101与存储器1102的信息交互，其包括但不限于数据总线(Bus)等。

在一些实施例中，处理器1101、存储器1102和I/O接口1103通过总线相互连接，进而与计算设备的其它组件连接。

第四方面，本公开实施例提供一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现上述任意一种同义词替换表的挖掘方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其它的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其它传输机制之类的调制数据信号中的其它数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其它实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种同义词替换表的挖掘方法，其包括：

对平行语料进行同义词改写，获得平行语料对齐样本；其中，所述平行语料对齐样本包括第一侧语料、第二侧语料、所述第一侧语料中的词和所述第二侧语料中的词，其中，所述第一侧语料和所述第二侧语料为平行语料，所述第一侧语料中的词和所述第二侧语料中的词为词义或语义相同的同义词；

将所述平行语料对齐样本转换成序列标注样本；

基于所述序列标注对齐模型和改写后的所述平行语料生成同义词替换表。

2.根据权利要求1所述的方法，其中，所述对平行语料进行同义词改写，获得平行语料对齐样本，包括：

对所述平行语料中的第一侧语料进行同义词改写，获得单侧改写结果；其中，所述单侧改写结果包括所述第一侧语料以及所述第一侧语料的同义词；

将所述单侧改写结果与所述平行语料中的第二侧语料对齐，获得对齐结果；

从所述对齐结果中选择最大粒度的对齐结果生成平行语料对齐样本。

3.根据权利要求1所述的方法，其中，所述基于所述序列标注样本训练模型，获得序列标注对齐模型，包括：

基于所述序列标注样本，利用神经网络模型和条件随机场标注模型获得序列标注对齐模型。

4.根据权利要求1所述的方法，其中，所述基于所述序列标注对齐模型和改写后的所述平行语料生成同义词替换表，包括：

利用所述序列标注对齐模型，对平行语料进行同义词预测，获得候选同义词替换表；

对所述候选同义词替换表进行过滤，获得同义词替换表。

5.根据权利要求4所述的方法，其中，所述对所述候选同义词替换表进行过滤，获得同义词替换表，包括：

对所述候选同义词替换表中的同义词候选语料进行上下文统计对齐，获得短语对齐次数和自对齐次数；

依据所述短语对齐次数和自对齐次数获得对齐概率的rate特征和prob特征；其中，所述rate特征是基于短语对齐次数获得的对齐概率；所述prob特征是基于自对齐次数和短语对齐次数获得的对齐概率；

基于所述rate特征、prob特征以及搜索特征，利用树模型对所述候选同义词替换表进行过滤，获得所述同义词替换表；其中，所述搜索特征是搜索引擎和用户反馈的统计特征。

6.根据权利要求5所述的方法，其中，所述对所述候选同义词替换表中的同义词候选语料进行上下文统计对齐，获得短语对齐次数和自对齐次数，还包括：

对所述候选同义词替换表中的所述同义词候选语料进行反转；

对反转后的所述同义词候选语料进行上下文统计对齐，获得同义词候选对齐语料；

统计所述同义词候选对齐语料中所述短语对齐次数和自对齐次数。

7.根据权利要求5所述的方法，其中，所述搜索特征包括短语搜索次数、搜索次数差值、搜索点击次数、搜索跳过次数、字面相似度和拼音相似度中的一种或多种。

8.一种同义词替换表的挖掘装置，其包括：

改写模块，用于对平行语料进行同义词改写，获得平行语料对齐样本；其中，所述平行语料对齐样本包括第一侧语料、第二侧语料、所述第一侧语料中的词和所述第二侧语料中的词，而且，所述第一侧语料和所述第二侧语料为平行语料，所述第一侧语料中的词和所述第二侧语料中的词为词义或语义相同的同义词；

同义词替换表生成模块，用于基于所述序列标注对齐模型和改写后的所述平行语料生成同义词替换表。

9.根据权利要求8所述的装置，其中，所述改写模块，包括：

改写单元，用于对所述平行语料中的第一侧语料同义词改写，获得单侧改写结果；其中，所述单侧改写结果包括所述第一侧语料以及所述第一侧语料的同义词；

对齐单元，用于将所述单侧改写结果与所述平行语料的第二侧语料对齐，获得对齐结果；

选择单元，用于从所述对齐结果中选择最大粒度的对齐结果生成平行语料对齐样本。

10.根据权利要求8所述的装置，其中，所述模型生成模块，基于所述序列标注样本，利用神经网络模型和条件随机场标注模型获得序列标注对齐模型。

11.根据权利要求8所述的装置，其中，所述同义词替换表生成模块包括：

替换表生成单元，用于利用所述序列标注对齐模型，对平行语料进行同义词预测，获得候选同义词替换表；

过滤单元，用于对所述候选同义词替换表进行过滤，获得同义词替换表。

12.根据权利要求11所述的装置，其中，所述过滤单元，包括：

上下文统计对齐子单元，用于对所述候选同义词替换表中的同义词候选语料进行上下文统计对齐，获得短语对齐次数和自对齐次数；

特征计算子单元，用于依据所述短语对齐次数和自对齐次数获得对齐概率的rate特征和prob特征；其中，所述rate特征是基于短语对齐次数获得的对齐概率；所述prob特征是基于自对齐次数和短语对齐次数获得的对齐概率；

过滤子单元，用于基于所述rate特征、prob特征以及搜索特征，利用树模型对所述候选同义词替换表进行过滤，获得所述同义词替换表；其中，所述搜索特征是搜索引擎和用户反馈的统计特征。

13.根据权利要求12所述的装置，其中，所述上下文统计对齐子单元，包括：

反转子单元，用于对所述候选同义词替换表中的所述同义词候选语料进行反转；

对齐子单元，用于对反转后的所述同义词候选语料进行上下文统计对齐，获得同义词候选对齐语料；

统计子单元，用于统计所述同义词候选对齐语料中所述短语对齐次数和自对齐次数。

14.一种电子设备，其包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1-7任意一项所述的方法；

15.一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1-7任意一项所述的方法。