CN108304373B

CN108304373B - 语义词典的构建方法、装置、存储介质和电子装置

Info

Publication number: CN108304373B
Application number: CN201710952460.8A
Authority: CN
Inventors: 鲁亚楠; 林芬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-10-13
Filing date: 2017-10-13
Publication date: 2021-07-09
Anticipated expiration: 2037-10-13
Also published as: CN108304373A

Abstract

本发明公开一种语义词典的构建方法、装置、存储介质和电子装置。其中，该方法包括：在多个词条中获取已标注等级的第一目标词条，并将具有对应关系的第一目标词条和第一等级数据添加至第一目标语义词典中；对第一目标语义词典中的第一目标词条和第一等级数据进行训练，得到目标分级模型；通过目标分级模型对多个词条中未标注等级的第二目标词条的歧义程度进行分级，得到第二等级数据；将具有对应关系的第二目标词条和第二等级数据添加至第一目标语义词典中，得到第二目标语义词典。本发明解决了相关技术中对语义词典构建的效率低的技术问题。

Description

语义词典的构建方法、装置、存储介质和电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种语义词典的构建方法、装置、存储介质和电子装置。

背景技术

目前，语义词典没有语义歧义程度分级，通常根据语义词典中的实体词抽取前后缀特征，再根据前后缀特征利用模板规则进行抽取识别。比如，现有的音乐语义词典，没有语义歧义程度分级，只有音乐实体的类型、歌曲、歌手、专辑等信息。通常根据音乐语义词典中的实体词抽取前后缀特征，根据这些前后缀特征利用模版规则抽取识别。例如，模版规则为“放一首song”，其中，song用于表示音乐语义词典中的歌曲名称。或者，利用语义词典的手工特征输入到序列标注模型，比如，通过神经网络CRF、RNN、RNN-CRF等来识别用户句子中的音乐实体。

由于现有的语义词典没有对实体的歧义程度进行分级，语义词典构建的效率低，会导致对实体词的误识别。比如，在规则模版“唱首song”中，会将句子“唱首我们喜欢的歌”中的“我们”识别成一首歌，由于“我们”是歌手齐一唱的一首歌，并且具有较高的热度，但是在当前语境中，将“我们”识别成歌曲却是错误的。另外，通过序列标注模型来识别音乐实体，需要大规模的标注数据，来覆盖音乐实体的各种各样的情况，如果标注数据没有覆盖“我们”的各种情况，同样也会导致对实体词的误识别，由于音乐语义词典的量级存在千万级别，将标注数据覆盖所有的实体词很困难，通常通过采样的方法来解决，从而导致基于序列标注模型的音乐实体识别容易产生误识别。

针对上述对语义词典构建的效率低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语义词典的构建方法、装置、存储介质和电子装置，以至少解决相关技术中对语义词典构建的效率低的技术问题。

根据本发明实施例的一个方面，提供了一种语义词典的构建方法。该方法包括：在多个词条中获取已标注等级的第一目标词条，并将具有对应关系的第一目标词条和第一等级数据添加至第一目标语义词典中，其中，第一等级数据用于指示第一目标词条的歧义程度的等级，第一目标语义词典用于识别词条在目标语料中的语义；对第一目标语义词典中的第一目标词条和第一等级数据进行训练，得到目标分级模型，其中，目标分级模型用于对多个词条中的未标注等级的第二目标词条的歧义程度进行分级；通过目标分级模型对多个词条中未标注等级的第二目标词条的歧义程度进行分级，得到第二等级数据，其中，第二目标词条为多个词条中除第一目标词条之外的词条，第二等级数据用于指示第二目标词条的歧义程度的等级；将具有对应关系的第二目标词条和第二等级数据添加至第一目标语义词典中，得到第二目标语义词典，其中，添加有第一目标词条、第一等级数据、第二目标词条和第二等级数据的第二目标语义词典用于识别多个词条中的目标词条在目标语料中的语义和歧义程度。

根据本发明实施例的另一方面，还提供了一种语义词典的构建装置。该装置包括：处理单元，用于在多个词条中获取已标注等级的第一目标词条，并将具有对应关系的第一目标词条和第一等级数据添加至第一目标语义词典中，其中，第一等级数据用于指示第一目标词条的歧义程度的等级，第一目标语义词典用于识别词条在目标语料中的语义；训练单元，用于对第一目标语义词典中的第一目标词条和第一等级数据进行训练，得到目标分级模型，其中，目标分级模型用于对多个词条中的未标注等级的第二目标词条的歧义程度进行分级；分级单元，用于通过目标分级模型对多个词条中未标注等级的第二目标词条的歧义程度进行分级，得到第二等级数据，其中，第二目标词条为多个词条中除第一目标词条之外的词条，第二等级数据用于指示第二目标词条的歧义程度的等级；添加单元，用于将具有对应关系的第二目标词条和第二等级数据添加至第一目标语义词典中，得到第二目标语义词典，其中，添加有第一目标词条、第一等级数据、第二目标词条和第二等级数据的第二目标语义词典用于识别多个词条中的目标词条在目标语料中的语义和歧义程度。

根据本发明实施例的另一方面，还提供了一种存储介质。该存储介质包括存储的程序，其中，程序运行时执行本发明实施例的语义词典的构建方法。

根据本发明实施例的另一方面，还提供了一种电子装置。该电子装置包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，处理器通过计算机程序执行本发明实施例中的语义词典的构建方法。

在本发明实施例中，在多个词条中获取已标注等级的第一目标词条，并将具有对应关系的第一目标词条和第一等级数据添加至第一目标语义词典中；对第一目标语义词典中的第一目标词条和第一等级数据进行训练，得到目标分级模型；通过目标分级模型对多个词条中未标注等级的第二目标词条的歧义程度进行分级，得到第二等级数据；将具有对应关系的第二目标词条和第二等级数据添加至第一目标语义词典中，得到第二目标语义词典，其中，添加有第一目标词条、第一等级数据、第二目标词条和第二等级数据的第二目标语义词典用于识别多个词条中的目标词条在目标语料中的语义和歧义程度。由于按照歧义程度对词条进行分级，可以利用少量的标注资源训练模型，对未标注词条进行标注，构建第二目标语义词典，可以对目标词条进行歧义分级，从而实现了提高语义词典构建的效率的技术效果，进而解决了相关技术中对语义词典构建的效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种语义词典的构建方法的硬件环境的示意图；

图2是根据本发明实施例的一种语义词典的构建方法的流程图；

图3是根据本发明实施例的一种语义特征的组成示意图；

图4是根据本发明实施例的一种热度特征的示意图；

图5是根据本发明实施例的一种语义歧义特征的示意图；

图6是根据本发明实施例的一种语义词典的构建示意图；

图7是根据本发明实施例的一种语义词典的构建装置的示意图；以及

图8是根据本发明实施例的一种电子装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种语义词典的构建方法的实施例。

可选地，在本实施例中，上述语义词典的构建方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。图1是根据本发明实施例的一种语义词典的构建方法的硬件环境的示意图。如图1所示，服务器102通过网络与终端104进行连接，上述网络包括但不限于：广域网、城域网或局域网，终端104并不限定于PC、手机、平板电脑等。本发明实施例的语义词典的构建方法可以由服务器102来执行，也可以由终端104来执行，还可以是由服务器102和终端104共同执行。其中，终端104执行本发明实施例的语义词典的构建方法也可以是由安装在其上的第一客户端来执行。

图2是根据本发明实施例的一种语义词典的构建方法的流程图。如图2所示，该方法可以包括以下步骤：

步骤S202，在多个词条中获取已标注等级的第一目标词条，并将具有对应关系的第一目标词条和第一等级数据添加至第一目标语义词典中。

在本申请上述步骤S202提供的技术方案中，在多个词条中获取已标注等级的第一目标词条，并将具有对应关系的第一目标词条和第一等级数据添加至第一目标语义词典中，其中，第一等级数据用于指示第一目标词条的歧义程度的等级，第一目标语义词典用于识别词条在目标语料中的语义。

在该实施例中，词条可以为闲聊数据、音乐数据中的音乐词条，比如，为歌曲词条、歌手词条、专辑词条等。词条的类型为词条实体，比如，音乐实体包括歌曲类型、歌手类型、专辑类型等，此处不做任何限制。

从多个词条中获取已标注等级的第一目标词条，该已标注等级的第一目标词条为少量的标注资源，也即，为种子训练数据。该第一目标词条可以为多个词条中抽取指令冲突率高、闲聊IDF值高、闲聊语言模型得分高的第一目标词条，对第一目标词条进行少量的标注，可以开始通过人工对第一目标词条进行少量的标注，从而标注词条的歧义程度等级，其中，歧义程度等级，也即，歧义混淆度，用于表示词条的歧义性。其中，歧义程度等级包括三级，一级(weaker)用于表示歧义程度最大，需要固定的上下文才能识别词条，比如，识别为音乐实体；二级(weak)用于表示中等歧义，需要有限的上下文识别词条，比如，识别为音乐实体；三级(strong)用于表示歧义程度最小，在整个句子为音乐意图下，可以识别为词条，比如，识别为音乐实体。

在多个词条中获取已标注等级的第一目标词条，并将具有对应关系的第一目标词条和第一等级数据添加至第一目标语义词典中，该第一等级数据用于指示第一目标词条的歧义程度等级。第一目标语义词典用于识别词条在目标语料中的语义，目标语料可以为对话，比如，识别词条“你”在“我想让你放首歌”中的语义。

步骤S204，对第一目标语义词典中的第一目标词条和第一等级数据进行训练，得到目标分级模型。

在本申请上述步骤S204提供的技术方案中，对第一目标语义词典中的第一目标词条和第一等级数据进行训练，得到目标分级模型，其中，目标分级模型用于对多个词条中的未标注等级的第二目标词条的歧义程度进行分级。

在该实施例中，已标注等级的第一目标词条可以作为种子训练数据。在将具有对应关系的第一目标词条和第一等级数据添加至第一目标语义词典中之后，对已标注等级的第一目标词条和第一等级数据进行训练，可以采用主动学习方法(active-learning)、自学习方法(self-training)、协同训练方法(co-training)来对第一目标词条和第一等级数据进行训练。其中，自学习方法，为模型通过对未标注样本进行预测，将置信度高的逐步加入到训练样本中以达到自学习的目的；协同训练方法，为两个模型互相学习，逐步将置信度高的未标注数据加入对方的模型中；主动学习方法是一种在模型学习期间主动将筛选过的数据给专家标注。

可选地，该实施例统计词条的特征，包括统计热度特征和语义歧义特征，构建词典特征库。将特征库中的特征集合通过分类器随机平均分成两份，特征集music_feature_list_a，特征集music_feature_list_b，利用已标注等级的第一目标词条作为种子训练数据进行训练。

多个词条中具有未标注等级的第二目标词条，该实施例的目标分级模型用于对多个词条中的未标注等级的第二目标词条的歧义程度进行分级，以利用少量的标注数据迭代自动标注全量的数据。在发现歧义程度高的词条时，可以对词条的歧义程度由人工进行确认。

步骤S206，通过目标分级模型对多个词条中未标注等级的第二目标词条的歧义程度进行分级，得到第二等级数据。

在本申请上述步骤S206提供的技术方案中，通过目标分级模型对多个词条中未标注等级的第二目标词条的歧义程度进行分级，得到第二等级数据，其中，第二目标词条为多个词条中除第一目标词条之外的词条，第二等级数据用于指示第二目标词条的歧义程度的等级。

在对第一目标语义词典中的第一目标词条和第一等级数据进行训练，得到目标分级模型之后，通过目标分级模型对多个词条中未标注等级的第二目标词条的歧义程度进行分级，得到第二等级数据，其中，未标注等级的第二目标词条，也即，未标注数据，未标注样本。

可选地，通过协同训练方法，将模型A中对未标注词典中预测置信度大于阈值的未标注数据加入模型B的训练数据中，重新训练模型B。将模型B中对未标注词典预测置信度大于阈值的未标注数据加入到模型A的训练数据中，重新训练模型A，从而使得模型A和模型B互相学习。其中，模型A可以由上述特征集music_feature_list_a得到，模型B可以由上述特征集music_feature_list_b得到。

该实施例还可以通过自学习方法self-training的方法，利用全部的特征集合训练模型标注数据，对未标注数据进行预测，将预测置信度大于阈值的未标注数据取出来。还可以通过主动学习方法，将模型预测置信度低于某一阈值的未标注数据，进行人工标注。

步骤S208，将具有对应关系的第二目标词条和第二等级数据添加至第一目标语义词典中，得到第二目标语义词典。

在本申请上述步骤S208提供的技术方案中，将具有对应关系的第二目标词条和第二等级数据添加至第一目标语义词典中，得到第二目标语义词典，其中，添加有第一目标词条、第一等级数据、第二目标词条和第二等级数据的第二目标语义词典用于识别多个词条中的目标词条在目标语料中的语义和歧义程度。

在通过目标分级模型对多个词条中未标注等级的第二目标词条的歧义程度进行分级，得到第二等级数据之后，将具有对应关系的第二目标词条和第二等级数据添加至第一目标语义词典中，得到第二目标语义词典。

为了防止模型预测的偏差导致错误传播，这里可以利用上述协同训练方法的两个模型对未标注数据进行预测，如果两个模型对某个样本预测的置信度都大于阈值，再加入到第一目标语义词典中，还可以通过主动学习方法，将模型预测置信度低于某一阈值的未标注数据，人工标注加入到第一目标语义词典中。

按照步骤S206和步骤S208中的方式，可以重复执行，从而逐步将未标注数据全部标注，得到第二目标语义词典，该第二目标语义词典为高精度的语义词典，可以对词条进行歧义分级。另外，该实施例的第二目标语义词典可以提高模版规则匹配的准确率和覆盖率，将歧义特征输入到序列标注模型中，可以对序列标注模型进行约束，从而降低了预测不准确的风险，提高了序列标注模型的性能，同时建立语义词典的歧义特征和热度特征也可以提高序列标注模型的性能。

通过上述步骤S202至步骤S208，在多个词条中获取已标注等级的第一目标词条，并将具有对应关系的第一目标词条和第一等级数据添加至第一目标语义词典中；对第一目标语义词典中的第一目标词条和第一等级数据进行训练，得到目标分级模型；通过目标分级模型对多个词条中未标注等级的第二目标词条的歧义程度进行分级，得到第二等级数据；将具有对应关系的第二目标词条和第二等级数据添加至第一目标语义词典中，得到第二目标语义词典，其中，添加有第一目标词条、第一等级数据、第二目标词条和第二等级数据的第二目标语义词典用于识别多个词条中的目标词条在目标语料中的语义和歧义程度。由于按照歧义程度对词条进行分级，可以利用少量的标注资源训练模型，对未标注词条进行标注，构建第二目标语义词典，可以对目标词条进行歧义分级，从而实现了提高语义词典构建的效率的技术效果，进而解决了相关技术中对语义词典构建的效率低的技术问题。

作为一种可选的实施方式，在步骤S202，多个词条中获取已标注等级的第一目标词条之前，该方法还包括：获取多个词条的第一语义特征，其中，第一语义特征包括用于指示词条的歧义程度的特征信息；获取多个词条的第二语义特征，其中，第二语义特征包括用于指示词条的重要程度的特征信息；由第一语义特征和第二语义特征构建第一目标特征集合；在多个词条中获取已标注等级的第一目标词条包括：将第一目标特征集合中符合目标条件的特征信息确定为目标特征信息；将与目标特征信息对应的已标注等级的词条确定为第一目标词条。

在该实施例中，语义词典中的词条具有语义特征，统计两种维度的特征，比如，统计实体词条的热度特征、实体词条的语义歧义特征。在多个词条中获取已标注等级的第一目标词条之前，获取多个词条的第一语义特征，该第一语义特征也即语义歧义特征，可以表示词条是音乐词条的可能性，例如，“今天”这个词条，既是歌手刘德华演唱的一首名曲的歌曲名称，又是一个用于表示时间的时间词，在这种情况下，这个词条的歧义性歧义程度就比较大，需要在音乐的上下文环境下才可以识别出是歌曲名称，而在“今天下不下雨呢”这种语境下，“今天”就不是音乐实体词。

该实施例的第一语义特征包括用于指示词条的歧义程度的特征信息，比如，包括音乐语言模型得分、闲聊语言模型得分、闲聊逆向文件频率(Inverse DocumentFrequency，简称为IDF)IDF/音乐IDF、闲聊信息熵/音乐信息熵、闲聊语言模型/音乐语言模型等特征信息，还包括指令冲突率、百度搜索意图指数，其中，指令冲突率用于表示词条与指令词条中词的重叠率，百度搜索意图指数用于表示在百度上的搜索词条中搜索出来的音乐box的比例。因而，第一语义特征为多信息数据特征中的一种。

在多个词条中获取已标注等级的第一目标词条之前，获取多个词条的第二语义特征，包括了用于指示词条的重要程度的特征信息，反映了词条的热度，可以说明该词条的重要程度。当热度越大的词条识别错了，对音箱的体验也会造成很大的影响。可选地，该实施例的热度特征包括累积播放量、周播放量、月播放量，日播放量，日分享量、新歌指数等，其中，累积播放量用于表示音乐词条在音乐产品中的累积播放次数，歌曲用于表示歌曲累积播放次数，歌手用于表示歌手的歌曲播放总量，专辑用于表示该专辑下所有歌曲的播放总量，周播放量用于表示一周的播放次数，日分享量用于表示该词条每天在朋友圈分享的次数，新歌指数可以由歌曲当前播放总量song_hot_day/(歌曲历史播放总量song_hot_history+1)进行计算得到。因而，第二语义特征为多信息数据特征中的一种。

在获取多个词条的第一语义特征、多个词条的第二语义特征之后，由第一语义特征和第二语义特征构建第一目标特征集合，也即，构建音乐词典语义特征库。在多个词条中获取已标注等级的第一目标词条时，将第一目标特征集合中符合目标条件的特征信息确定为目标特征信息，比如，将第一目标特征集合中的高指令冲突率、高闲聊IDF值、得分高的闲聊语言模型确定为目标特征信息，将该目标特征信息对应的词条标注等级，也即，将该目标特征信息对应的词条标注歧义程度等级，比如，标注三级(strong)、二级(weak)、一级(weaker)。将已标注等级的词条确定为上述第一目标词条，也即，得到模型的种子训练数据。

作为一种可选的实施方式，步骤S204，对第一目标语义词典中的第一目标词条和第一等级数据进行训练，得到目标分级模型包括：将第一目标特征集合随机划分为第一特征集合和第二特征集合；对第一目标语义词典中的第一目标词条、第一等级数据和第一目标特征集合通过分类器进行训练，得到第一分级模型，其中，目标分级模型包括第一分级模型，第一分级模型用于预测第二目标词条的置信度；对第一目标语义词典中的第一目标词条、第一等级数据和第二目标特征集合通过分类器进行训练，得到第二分级模型，其中，目标分级模型包括第二分级模型，第二分级模型用于预测第二目标词条的置信度。

在对第一目标语义词典中的第一目标词条和第一等级数据进行训练，得到目标分级模型时，将第一目标特征结合随机平均分成两份，得到第一特征集合和第二特征集合，其中，第一特征集合可以为music_feature_list_a，第二特征集合可以为music_feature_list_b。对第一目标语义词典中的第一目标词条、第一等级数据和第一目标特征集合通过分类器进行训练，得到第一分级模型，其中，分类器可以为梯度渐进决策树(GradientBoosting Decision Tree，简称为GBDT)，为一种集成学习机器学习分类器，也即，对第一目标语义词典中的第一目标词条、第一等级数据和第一目标特征集合通过迭代的决策树算法GBDT进行训练，得到第一分级模型，比如，得到模型A，用于预测第二目标词条的置信度。对第一目标语义词典中的第一目标词条、第一等级数据和第二目标特征集合通过分类器进行训练，得到第二分级模型，可以对第一目标语义词典中的第一目标词条、第一等级数据和第二目标特征集合通过分类器GBDT进行训练，得到第二分级模型，比如，得到模型B，用于预测第二目标词条的置信度。其中，上述分类器还可以为循环神经网络(Recurrent neuralNetwork，简称为RNN)、支持向量机(Support Vector Machine，简称为SVM)等，此处不做任何限制。

作为一种可选的实施方式，步骤S206，通过目标分级模型对多个词条中未标注等级的第二目标词条的歧义程度进行分级，得到第二等级数据包括：在多个词条中，对第一特征集合和第二特征集合进行训练，得到第三分级模型，第三分级模型用于预测第二目标词条的置信度；通过第三分级模型预测第二目标词条的置信度，得到第一置信度，且从多个词条中获取第一置信度大于第一阈值的第二目标词条；对第一置信度大于第一阈值的第二目标词条的歧义程度进行分级，得到第二等级数据。

在该实施例中，自学习方法(self-training)为模型通过对未标注样本进行预测，将置信度高的未标注数据逐步加入到训练样本中达到自学习的目的，可以在多个词条中，对第一特征集合和第二特征集合进行训练，得到第三分级模型，也即，利用全部的特征集合训练模型标注数据，得到第三分级模型，该第三分级模型用于预测第二目标词条的置信度，也即，对未标注数据进行预测。通过第三分级模型预测第二目标词条的置信度，得到第一置信度，该第一置信度也即为预测置信度，然后从多个词条中获取第一置信度大于第一阈值的第二目标词条，该第一阈值可以为alpha，也即，将多个词条中第一置信度大于alpha的第二目标词条取出来，对第一置信度大于第一阈值的第二目标词条的歧义程度进行分级，得到第二等级数据，进而将具有对应关系的第二目标词条和第二等级数据添加至第一目标语义词典中，得到第二目标语义词典，从而实现了提高语义词典构建的效率的技术效果。

作为一种可选的实施方式，对第一置信度大于第一阈值的第二目标词条的歧义程度进行分级，得到第二等级数据包括：通过第一分级模型对第一置信度大于第一阈值的第二目标词条进行预测，得到第二置信度，且将第二置信度大于第一阈值的第二目标词条和与第二目标词条对应的特征信息，添加至第二分级模型中，其中，添加至第二分级模型中的第二目标词条和与第二目标词条对应的特征信息用于对第二分级模型进行重新处理；通过重新处理后的第二分级模型对第一置信度大于第一阈值的第二目标词条进行预测，得到第三置信度，且将第二置信度大于第一阈值的第二目标词条和与第二目标词条对应的特征信息，添加至第一分级模型中，其中，添加至第一分级模型中的第二目标词条和与第二目标词条对应的特征信息用于对第一分级模型进行重新处理；在第二置信度和第三置信度都大于第一阈值的情况下，对第一置信度大于第一阈值的第二目标词条的歧义程度进行分级，得到第二等级数据。

在该实施例中，协同训练方法(co-training)为两个模型互相学习，逐步将置信度高的未标注数据加入对方的模型中。在对第一置信度大于第一阈值的第二目标词条的歧义程度进行分级，得到第二等级数据时，可以通过第一分级模型对上述第一置信度大于第一阈值的第二目标词条进行预测，得到第二置信度，且将第二置信度大于第一阈值的第二目标词条和与第二目标词条对应的特征信息，添加至第二分级模型中，比如，通过模型A对未标注词典中的预测置信度大于阈值alpha的未标注数据加入模型B的训练数据中。添加至第二分级模型中的第二目标词条和与第二目标词条对应的特征信息用于对第二分级模型进行重新处理，比如，重新训练模型B。

该实施例还通过重新处理后的第二分级模型对第一置信度大于第一阈值的第二目标词条进行预测，得到第三置信度，且将第二置信度大于第一阈值的第二目标词条和与第二目标词条对应的特征信息添加至第一分级模型中，比如，通过模型B对未标注词典中的预测置信度大于阈值alpha的未标注数据加入到模型A的训练数据中。添加至第一分级模型中的第二目标词条和与第二目标词条对应的特征信息用于对第一分级模型进行重新处理，比如，重新训练模型B。在第二置信度和第三置信度都大于第一阈值的情况下，对第一置信度大于第一阈值的第二目标词条的歧义程度进行分级，得到第二等级数据，也即，如果第一分级模型和第二分级模型对某个样本中的第二目标词条进行预测的置信度都大于阈值alpha，则对该第二目标词条的歧义程度进行分级，得到第二等级数据，将其加入至标注数据中，从而防止由于模型预测的偏差导致错误传播，进而提高了语义词典构建的效率。

作为一种可选的实施方式，在通过第一分级模型预测第二目标词条的置信度，得到第一置信度之后，该方法还包括：获取第一置信度低于第二阈值的第二目标词条；接收已经对第一置信度低于第二阈值的第二目标词条的歧义程度进行分级得到的第二等级数据。

在该实施例中，主动学习方法(active-learning)为一种在模型学习期间主动将筛选过的数据给专家进行标注。在通过第一分级模型预测第二目标词条的置信度，得到第一置信度之后，获取第一置信度低于第二阈值的第二目标词条，比如，获取第一置信度低于beta值的第二目标词条，人工对第二目标词条进行分级，也即，人工对第二目标词条进行歧义程度等级的标注。在获取第一置信度低于第二阈值的第二目标词条之后，接收已经对第一置信度低于第二阈值的第二目标词条的歧义程度进行分级得到的第二等级数据，可以将人工标注得到的第二等级数据添加至第一目标语义词典中，得到第二目标语义词典，从而逐步对未标注的第二目标词条全部进行歧义程度的标注。

作为一种可选的实施方式，词条的特征信息包括以下至少之一：词条的逆向文件频率；词条的信息熵；词条对应的语言模型的分数；词条与指令词条中的词的重叠率，其中，指令词条用于指示对词条执行的指令；词条的搜索指数，其中，搜索指数用于指示在搜索引擎上搜索出的词条在全部搜索词条中占的比例。

在该实施例中，词条的特征信息包括词条的逆向文件频率IDF值，IDF值的计算公式为：

其中，|D|用于表示语料的条数，{j:t_j∈d_j}用于表示包含词条t_j语料的条数；词条的信息熵的计算公式为：

其中，P(x_i)用于表示词条x上下文中x_i的概率；词条对应的语言模型得分的计算公式为：

其中，P(x_i)用于表示词条x_i的概率；词条与指令词条中的词的重叠率，也即，指令冲突率CR，CR的计算公式为：

指令冲突率可以用于表示音乐词条与指令词条中词的重叠率，其中，cmd_word用于表示指令词条中的词，music_word用于表示音乐词条中的词；搜索指数可以为百度搜索指数、百度音乐意图指数music_search_index，用于表示在百度上搜索词条搜出来的音乐box的比例，其中，search_content用于表示在百度上进行搜索得到的词条，music_box用于表示音乐box。该实施例通过上下文Embedding，利用word2vec工具包，从而将音乐词条映射成向量进行表示。最终利用上述计算公式，分别计算出词条的IDF值、信息熵、语言模型得分、上下文Embedding，同时计算出指令冲突率、搜索指数等。

作为一种可选的实施方式，在将具有对应关系的第二目标词条和第二等级数据添加至第一目标语义词典中，得到第二目标语义词典之后，该方法还包括：确定目标语料中的待识别词条；在待识别词条为多个词条中的目标词条的情况下，在第二目标语义词典中查找待识别词条在语料中的语义和歧义程度。

该实施例在将具有对应关系的第二目标词条和第二等级数据添加至第一目标语义词典中，得到第二目标语义词典之后，通过该第二目标语义词典来识别待识别词条在语料中的语义和歧义程度。确定目标语料中的待识别词条，比如，确定目标语料“唱首我们喜欢的歌”中的待识别词条“我们”。由于第二目标语义词典用于识别多个词条中的目标词条在目标语料中的语义和歧义程度，在待识别词条为多个词条中的目标词条的情况下，也即，在“我们”为多个词条中的目标词条的情况下，在第二目标语义词典中查找待识别词条在语料中的语义和歧义程度。

在实际操作中，需要按照歧义程度来将待识别词条分成三级，一级(weaker)表示歧义程度最大，二级(weak)表示中等歧义，三级(strong)表示歧义程度最小，在整个句子为音乐意图下，可以直接将词条识别为音乐实体。

作为一种可选的实施方式，在第二目标语义词典中查找待识别词条在语料中的语义和歧义程度包括：在查找到待识别词条在语料中的歧义程度为第一等级的情况下，通过外部输入的目标语料的预定上下文识别待识别词条在目标语料中的语义；在查找到待识别词条在语料中的歧义程度为第二等级的情况下，通过外部输入的目标语料的预定数量的上下文识别待识别词条在目标语料中的语义；在查找到待识别词条在语料中的歧义程度为第三等级的情况下，识别待识别词条在目标语料中的语义。

在该实施例中，在第二目标语义词典中查找待识别词条在语料中的语义和歧义程度时，在查找到待识别词条在语料中的歧义程度为第一等级的情况下，通过外部输入的目标语料的预定上下文识别待识别词条在目标语料中的语义，比如，在查找到待识别词条在语料中的歧义程度为第一等级weaker的情况下，则该待识别词条的歧义程度最大，需要固定的上下文才能将词条识别成音乐实体；在查找到待识别词条在语料中的歧义程度为第二等级的情况下，通过外部输入的目标语料的预定数量的上下文识别待识别词条在目标语料中的语义，比如，在查找到待识别词条在语料中的歧义程度为第二等级weak的情况下，则该待识别词条的歧义程度为中等歧义，可以通过有限的上下文将词条识别为音乐实体；在查找到待识别词条在语料中的歧义程度为第三等级的情况下，可以直接识别待识别词条在目标语料中的语义，比如，在查找到待识别词条在语料中的歧义程度为第三等级strong的情况下，则该待识别词条在语料中的歧义程度最小，在整个句子为音乐意图下，可以直接识别为音乐实体。

该实施例可以对多个词条进行半自动构建语义词典，对词条进行歧义程度分级。针对不同歧义程度的词条，可以配置不同的模版规则，可以解决模版规则错识别的问题，同时还可以将语义歧义分级和语义词典的歧义特征输入到序列标注模型中，约束识别模型，在少量的词条标注语料中，还可以达到高精度的语义识别率。

下面结合优选的实施例对本发明的技术方案进行说明。具体以语音词典为音乐语义词典进行举例说明。

该实施例提出了一种融合多信息的半自动化构建音乐语义词典的方法，将音乐语义词典中所有的实体词条，包括歌曲、歌手、专辑等，分为不同的等级，比如，分为三级strong、二级weak、一级weaker。该方法可以分为三个阶段，以下对这三个阶段进行详细的说明。

第一个阶段，为对多信息数据特征进行构建的阶段。音乐语义词典数据来自于音乐产品的数据，主要包含歌曲、歌手、专辑词条等。

图3是根据本发明实施例的一种语义特征的组成示意图。如图3所示，对音乐语义词典中的实体词条，这里统计两种维度的语义特征，包括统计热度特征和语义歧义特征。

图4是根据本发明实施例的一种热度特征的示意图。如图4所示，热度特征反映了词条的热度，可以说明该词条的重要程度，可以为累积播放量、周播放量、月播放量、日播放量、日分享量、新歌指数等，此处不做任何限制。其中，累积播放量可以用于表示音乐词条在音乐产品中的累积播放次数，对于歌曲而言，用于表示歌曲累积播放次数，对于歌手而言，用于表示歌手的歌曲播放总量，对于专辑而言，用于表示该专辑下所有歌曲的播放总量；周播放量可以用于表示一周的播放次数；日分享量可以用于表示该词条每天在朋友圈分享的次数；新歌指数可以由歌曲当前播放总量song_hot_day/(歌曲历史播放总量song_hot_history+1)计算得到。其中，如果热度越大的音乐词条识别错了，对音箱的体验造成的影响很大。

图5是根据本发明实施例的一种语义歧义特征的示意图。如图5所示，该实施例判断词条的语义歧义程度融合各个方面的信息来综合判断，主要包括以下几种信息：音乐语言模型得分、闲聊语言模型得分、闲聊上下文Embedding、闲聊IDF/音乐IDF、闲聊信息熵/音乐信息熵、闲聊语言模型/音乐语言模型、指令冲突率、百度音乐意图指数等。语义歧义特征，也即，用于语义歧义程度表示音乐实体在语境中是音乐词条的可能性，该语义歧义特征反映了词条的歧义程度。比如，“今天”这个词条，既是歌手刘德华演唱的一首名曲的歌曲名称，又是一个用于表示时间的时间词，在这种情况下，这个词条的歧义性歧义程度就比较大，需要在音乐的上下文环境下才可以识别出是歌曲名称，而在“今天下不下雨呢”这种语境下，“今天”就不是音乐实体词。

下面对上述语义歧义特征包括的信息进行一一介绍。

歧义程度，IDF值的计算公式为：

其中，|D|用于表示语料的条数，{j:t_j∈d_j}用于表示包含词条t_j语料的条数。

词条信息熵的计算公式为：

其中，P(x_i)用于表示词条x上下文中x_i的概率。

语言模型得分的计算公式为：

其中，P(x_i)用于表示词条x_i的概率。

指令冲突率CR的计算公式为：

指令冲突率用于表示音乐词条与指令词条中词的重叠率，其中，cmd_word用于表示指令词条中的词，music_word用于表示音乐词条中的词。

百度搜索指数music_search_index的计算公式为：

百度搜索指数用于表示在百度上搜索词条搜出来的音乐box的比例，其中，search_content用于表示在百度上进行搜索得到的词条，music_box用于表示音乐box。

上下文嵌入Embedding：利用word2vec工具包，将音乐词条映射成向量表示。

该实施例利用上述计算公式，可以分别计算出在如闲聊数据、音乐数据中音乐词条的IDF值、信息熵、语言模型得分、上下文Embedding等。同时计算出指令冲突率、百度搜索指数。

该实施例通过热度特征和语义歧义特征，可以抽取热度高、歧义特征大的音乐实体，对音乐实体的歧义分级进行少量的人工标注。

第二阶段，为种子训练数据标注阶段，分别抽取指令冲突率高、闲聊IDF值高、闲聊语言模型得分高的词条进行少量的标注数据，得到种子训练数据，对种子训练数据标注语义歧义程度，包括标注三级strong、二级weak、一级weaker。

第三阶段，为模型训练阶段，包括主动学习方法(active-learning)、自学习方法(self-training)、协同训练方法(co-training)阶段，可以利用少量的标注数据迭代，自动标注全量的数据，并且在发现歧义程度高的数据的情况下，对歧义程度高的数据进行人工确认。

图6是根据本发明实施例的一种语义词典的构建示意图。如图6所示，对语义词典用上述第一阶段的方法计算统计特征，其中，包括统计音乐实体词典的热度特征和语义歧义特征，构建音乐语义词典特征库，也即，构建特征集合，该特征集合可以包括多种语义特征，比如，包括20种语义特征。利用第二阶段的方法选取少量的标注数据，作为该实施例的种子训练数据，添加至标注词典中。然后将音乐语义词典特征库随机平均分成两份，比如，分成特征集music_feature_list_a，特征集music_feature_list_b。进而通过分类器GBDT训练用于对未标注词典中的未标注数据进行标注的模型，还可以利用DNN、CNN、RNN、SVM等分类器进行分类，此处不做任何限制。

该实施例采用协同训练方法(co-training)，将通过特征集music_feature_list_a训练得到的模型A对未标注词典中的未标注数据进行预测，得到预测置信度，将预测置信度大于阈值alpha未标注数据加入由特征集music_feature_list_b训练得到的模型B的训练数据中，重新训练模型B。通过模型B对未标注词典中的未标注数据进行预测，得到预测置信度，将预测置信度大于阈值alpha的未标注数据加入到模型A的训练数据中，重新训练模型A，从而实现了模型A和模型B互相学习，逐步将置信度高的未标注数据加入对方的模型中，从新训练。

该实施例还可以通过自学习方法(self-training)方法，利用全部的特征集合训练模型，对未标注数据进行预测，得到预测置信度。将预测置信度大于阈值alpha的未标注数据取出来。为了防止模型预测的偏差导致错误传播，该实施例利用上述协同训练方法(co-training)的两个模型对未标注数据进行预测，如果两个模型对某个未标注数据进行预测的预测置信度都大于阈值alpha，则对该未标注数据进行标注，添加至标注词典中。

该实施例还可以通过主动学习的方法，将预测置信度低于阈值beta的数据，通过人工进行标注添加至标注词典中。

该实施例可以重复执行上述协同训练方法、自学习方法和主动学习的方法，从而逐步将未标注数据全部标注。

该实施例利用多信息融合的方法，采用半自动化构建大规模的音乐语义词典，也即，通过人工对多个词条中的词条进行少量的标注，迭代自动标注全量的数据，构建高精度的音乐语义词典，从而针对不同歧义程度的实体词条，可以配置不同的模版规则，从而解决模版规则误识别的问题。可以通过该词典和上下文的约束，快速构建音乐实体语义解析和音箱槽位解析功能，其中，槽位可以为播放音乐、歌曲、歌手、槽位等对象。半自动构建的音乐语义词典，可以提高模版规则匹配的准确率和覆盖率，将语义歧义特征输入至序列标注模型中，可以对训练标注模型进行约束，从而降低预测的风险，提高了模型的性能，同时建立语义词典的歧义特征和热度特征也可以提高序列标注模型的性能。

需要说明的是，该实施例的语义词典构建方法仅为本发明实施例的优选实施例，不限于构建音乐语义词典，同时还适用于其它智能对话中的垂直领域语义词典构建，比如，视频、小说、金融等。此处不再一一举例说明。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

根据本发明实施例，还提供了一种用于实施上述语义词典的构建方法的语义词典的构建装置。图7是根据本发明实施例的一种语义词典的构建装置的示意图。如图7所示，该装置可以包括：处理单元10、训练单元20、分级单元30和添加单元40。

处理单元10，用于在多个词条中获取已标注等级的第一目标词条，并将具有对应关系的第一目标词条和第一等级数据添加至第一目标语义词典中，其中，第一等级数据用于指示第一目标词条的歧义程度的等级，第一目标语义词典用于识别词条在目标语料中的语义。

训练单元20，用于对第一目标语义词典中的第一目标词条和第一等级数据进行训练，得到目标分级模型，其中，目标分级模型用于对多个词条中的未标注等级的第二目标词条的歧义程度进行分级。

分级单元30，用于通过目标分级模型对多个词条中未标注等级的第二目标词条的歧义程度进行分级，得到第二等级数据，其中，第二目标词条为多个词条中除第一目标词条之外的词条，第二等级数据用于指示第二目标词条的歧义程度的等级。

添加单元40，用于将具有对应关系的第二目标词条和第二等级数据添加至第一目标语义词典中，得到第二目标语义词典，其中，添加有第一目标词条、第一等级数据、第二目标词条和第二等级数据的第二目标语义词典用于识别多个词条中的目标词条在目标语料中的语义和歧义程度。

可选地，该装置还包括：第一获取单元、第二获取单元和构建单元。其中，第一获取单元，用于在多个词条中获取已标注等级的第一目标词条之前，获取多个词条的第一语义特征，其中，第一语义特征包括用于指示词条的歧义程度的特征信息；第二获取单元，用于获取多个词条的第二语义特征，其中，第二语义特征包括用于指示词条的重要程度的特征信息；构建单元，用于由第一语义特征和第二语义特征构建第一目标特征集合；处理单元10包括：第一确定模块和第二确定模块。其中，第一确定模块，用于将第一目标特征集合中符合目标条件的特征信息确定为目标特征信息；第二确定模块，用于将与目标特征信息对应的已标注等级的词条确定为第一目标词条。

可选地，训练单元20包括：划分模块、第一训练模块和第二训练模块。其中，划分模块，用于将第一目标特征集合随机划分为第一特征集合和第二特征集合；第一训练模块，用于对第一目标语义词典中的第一目标词条、第一等级数据和第一目标特征集合通过分类器进行训练，得到第一分级模型，其中，目标分级模型包括第一分级模型，第一分级模型用于预测第二目标词条的置信度；第二训练模块，用于对第一目标语义词典中的第一目标词条、第一等级数据和第二目标特征集合通过分类器进行训练，得到第二分级模型，其中，目标分级模型包括第二分级模型，第二分级模型用于预测第二目标词条的置信度。

可选地，分级单元30包括：第三训练模块、预测模块和分级模块。其中，第三训练模块，用于在多个词条中，对第一特征集合和第二特征集合进行训练，得到第三分级模型，第三分级模型用于预测第二目标词条的置信度；预测模块，用于通过第三分级模型预测第二目标词条的置信度，得到第一置信度，且从多个词条中获取第一置信度大于第一阈值的第二目标词条；分级模块，用于对第一置信度大于第一阈值的第二目标词条的歧义程度进行分级，得到第二等级数据。

需要说明的是，该实施例中的处理单元10可以用于执行本申请实施例1中的步骤S202，该实施例中的训练单元20可以用于执行本申请实施例1中的步骤S204，该实施例中的分级单元30可以用于执行本申请实施例1中的步骤S206，该实施例中的添加单元40可以用于执行本申请实施例1中的步骤S208。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本发明实施例，还提供了一种用于实施上述语义词典的构建方法的电子装置。

图8是根据本发明实施例的一种电子装置的结构框图。如图8所示，该的电子装置可以包括：一个或多个(图中仅示出一个)处理器801、存储器803。可选地，如图8所示，该电子装置还可以包括传输装置805、输入输出设备807。

其中，存储器803可用于存储软件程序以及模块，如本发明实施例中的语义词典的构建方法和装置对应的程序指令/模块，处理器801通过运行存储在存储器803内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语义词典的构建方法。存储器803可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器803可进一步包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至电子装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置805用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置805包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置805为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器803用于存储应用程序。

处理器801可以通过传输装置805调用存储器803存储的应用程序，以执行下述步骤：

在多个词条中获取已标注等级的第一目标词条，并将具有对应关系的第一目标词条和第一等级数据添加至第一目标语义词典中，其中，第一等级数据用于指示第一目标词条的歧义程度的等级，第一目标语义词典用于识别词条在目标语料中的语义；

对第一目标语义词典中的第一目标词条和第一等级数据进行训练，得到目标分级模型，其中，目标分级模型用于对多个词条中的未标注等级的第二目标词条的歧义程度进行分级；

通过目标分级模型对多个词条中未标注等级的第二目标词条的歧义程度进行分级，得到第二等级数据，其中，第二目标词条为多个词条中除第一目标词条之外的词条，第二等级数据用于指示第二目标词条的歧义程度的等级；

将具有对应关系的第二目标词条和第二等级数据添加至第一目标语义词典中，得到第二目标语义词典，其中，添加有第一目标词条、第一等级数据、第二目标词条和第二等级数据的第二目标语义词典用于识别多个词条中的目标词条在目标语料中的语义和歧义程度。

处理器801还用于执行下述步骤：在多个词条中获取已标注等级的第一目标词条之前，获取多个词条的第一语义特征，其中，第一语义特征包括用于指示词条的歧义程度的特征信息；获取多个词条的第二语义特征，其中，第二语义特征包括用于指示词条的重要程度的特征信息；由第一语义特征和第二语义特征构建第一目标特征集合；将第一目标特征集合中符合目标条件的特征信息确定为目标特征信息；将与目标特征信息对应的已标注等级的词条确定为第一目标词条。

处理器801还用于执行下述步骤：将第一目标特征集合随机划分为第一特征集合和第二特征集合；对第一目标语义词典中的第一目标词条、第一等级数据和第一目标特征集合通过分类器进行训练，得到第一分级模型，其中，目标分级模型包括第一分级模型，第一分级模型用于预测第二目标词条的置信度；对第一目标语义词典中的第一目标词条、第一等级数据和第二目标特征集合通过分类器进行训练，得到第二分级模型，其中，目标分级模型包括第二分级模型，第二分级模型用于预测第二目标词条的置信度。

处理器801还用于执行下述步骤：在多个词条中，对第一特征集合和第二特征集合进行训练，得到第三分级模型，第三分级模型用于预测第二目标词条的置信度；通过第三分级模型预测第二目标词条的置信度，得到第一置信度，且从多个词条中获取第一置信度大于第一阈值的第二目标词条；对第一置信度大于第一阈值的第二目标词条的歧义程度进行分级，得到第二等级数据。

处理器801还用于执行下述步骤：通过第一分级模型对第一置信度大于第一阈值的第二目标词条进行预测，得到第二置信度，且将第二置信度大于第一阈值的第二目标词条和与第二目标词条对应的特征信息，添加至第二分级模型中，其中，添加至第二分级模型中的第二目标词条和与第二目标词条对应的特征信息用于对第二分级模型进行重新处理；通过重新处理后的第二分级模型对第一置信度大于第一阈值的第二目标词条进行预测，得到第三置信度，且将第二置信度大于第一阈值的第二目标词条和与第二目标词条对应的特征信息，添加至第一分级模型中，其中，添加至第一分级模型中的第二目标词条和与第二目标词条对应的特征信息用于对第一分级模型进行重新处理；在第二置信度和第三置信度都大于第一阈值的情况下，对第一置信度大于第一阈值的第二目标词条的歧义程度进行分级，得到第二等级数据。

处理器801还用于执行下述步骤：在通过第一分级模型预测第二目标词条的置信度，得到第一置信度之后，获取第一置信度低于第二阈值的第二目标词条；接收已经对第一置信度低于第二阈值的第二目标词条的歧义程度进行分级得到的第二等级数据。

处理器801还用于执行下述步骤：在将具有对应关系的第二目标词条和第二等级数据添加至第一目标语义词典中，得到第二目标语义词典之后，确定目标语料中的待识别词条；在待识别词条为多个词条中的目标词条的情况下，在第二目标语义词典中查找待识别词条在语料中的语义和歧义程度。

处理器801还用于执行下述步骤：在查找到待识别词条在语料中的歧义程度为第一等级的情况下，通过外部输入的目标语料的预定上下文识别待识别词条在目标语料中的语义；在查找到待识别词条在语料中的歧义程度为第二等级的情况下，通过外部输入的目标语料的预定数量的上下文识别待识别词条在目标语料中的语义；在查找到待识别词条在语料中的歧义程度为第三等级的情况下，识别待识别词条在目标语料中的语义。

采用本发明实施例，提供了一种语义词典的构建方法的方案。在多个词条中获取已标注等级的第一目标词条，并将具有对应关系的第一目标词条和第一等级数据添加至第一目标语义词典中；对第一目标语义词典中的第一目标词条和第一等级数据进行训练，得到目标分级模型；通过目标分级模型对多个词条中未标注等级的第二目标词条的歧义程度进行分级，得到第二等级数据；将具有对应关系的第二目标词条和第二等级数据添加至第一目标语义词典中，得到第二目标语义词典，其中，添加有第一目标词条、第一等级数据、第二目标词条和第二等级数据的第二目标语义词典用于识别多个词条中的目标词条在目标语料中的语义和歧义程度。由于按照歧义程度对词条进行分级，可以利用少量的标注资源训练模型，对未标注词条进行标注，构建第二目标语义词典，可以对目标词条进行歧义分级，从而实现了提高语义词典构建的效率的技术效果，进而解决了相关技术中对语义词典构建的效率低的技术问题。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图8所示的结构仅为示意，电子装置可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等电子装置。图8其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图8所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令电子装置相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行语义词典的构建方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在多个词条中获取已标注等级的第一目标词条之前，获取多个词条的第一语义特征，其中，第一语义特征包括用于指示词条的歧义程度的特征信息；获取多个词条的第二语义特征，其中，第二语义特征包括用于指示词条的重要程度的特征信息；由第一语义特征和第二语义特征构建第一目标特征集合；将第一目标特征集合中符合目标条件的特征信息确定为目标特征信息；将与目标特征信息对应的已标注等级的词条确定为第一目标词条。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：将第一目标特征集合随机划分为第一特征集合和第二特征集合；对第一目标语义词典中的第一目标词条、第一等级数据和第一目标特征集合通过分类器进行训练，得到第一分级模型，其中，目标分级模型包括第一分级模型，第一分级模型用于预测第二目标词条的置信度；对第一目标语义词典中的第一目标词条、第一等级数据和第二目标特征集合通过分类器进行训练，得到第二分级模型，其中，目标分级模型包括第二分级模型，第二分级模型用于预测第二目标词条的置信度。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在多个词条中，对第一特征集合和第二特征集合进行训练，得到第三分级模型，第三分级模型用于预测第二目标词条的置信度；通过第三分级模型预测第二目标词条的置信度，得到第一置信度，且从多个词条中获取第一置信度大于第一阈值的第二目标词条；对第一置信度大于第一阈值的第二目标词条的歧义程度进行分级，得到第二等级数据。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：通过第一分级模型对第一置信度大于第一阈值的第二目标词条进行预测，得到第二置信度，且将第二置信度大于第一阈值的第二目标词条和与第二目标词条对应的特征信息，添加至第二分级模型中，其中，添加至第二分级模型中的第二目标词条和与第二目标词条对应的特征信息用于对第二分级模型进行重新处理；通过重新处理后的第二分级模型对第一置信度大于第一阈值的第二目标词条进行预测，得到第三置信度，且将第二置信度大于第一阈值的第二目标词条和与第二目标词条对应的特征信息，添加至第一分级模型中，其中，添加至第一分级模型中的第二目标词条和与第二目标词条对应的特征信息用于对第一分级模型进行重新处理；在第二置信度和第三置信度都大于第一阈值的情况下，对第一置信度大于第一阈值的第二目标词条的歧义程度进行分级，得到第二等级数据。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在通过第一分级模型预测第二目标词条的置信度，得到第一置信度之后，获取第一置信度低于第二阈值的第二目标词条；接收已经对第一置信度低于第二阈值的第二目标词条的歧义程度进行分级得到的第二等级数据。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在将具有对应关系的第二目标词条和第二等级数据添加至第一目标语义词典中，得到第二目标语义词典之后，确定目标语料中的待识别词条；在待识别词条为多个词条中的目标词条的情况下，在第二目标语义词典中查找待识别词条在语料中的语义和歧义程度。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在查找到待识别词条在语料中的歧义程度为第一等级的情况下，通过外部输入的目标语料的预定上下文识别待识别词条在目标语料中的语义；在查找到待识别词条在语料中的歧义程度为第二等级的情况下，通过外部输入的目标语料的预定数量的上下文识别待识别词条在目标语料中的语义；在查找到待识别词条在语料中的歧义程度为第三等级的情况下，识别待识别词条在目标语料中的语义。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的第一客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语义词典的构建方法，其特征在于，包括：

在多个词条中获取已标注等级的第一目标词条，并将具有对应关系的所述第一目标词条和第一等级数据添加至第一目标语义词典中，其中，所述第一等级数据用于指示所述第一目标词条的歧义程度的等级，所述第一目标语义词典用于识别词条在目标语料中的语义；

对所述第一目标语义词典中的所述第一目标词条和所述第一等级数据进行训练，得到目标分级模型，其中，所述目标分级模型用于对所述多个词条中的未标注等级的第二目标词条的歧义程度进行分级；

通过所述目标分级模型对所述多个词条中未标注等级的所述第二目标词条的歧义程度进行分级，得到第二等级数据，其中，所述第二目标词条为所述多个词条中除所述第一目标词条之外的词条，所述第二等级数据用于指示所述第二目标词条的歧义程度的等级；

将具有对应关系的所述第二目标词条和所述第二等级数据添加至所述第一目标语义词典中，得到第二目标语义词典，其中，添加有所述第一目标词条、所述第一等级数据、所述第二目标词条和所述第二等级数据的所述第二目标语义词典用于识别所述多个词条中的目标词条在所述目标语料中的语义和歧义程度。

2.根据权利要求1所述的方法，其特征在于，

在所述多个词条中获取已标注等级的所述第一目标词条之前，所述方法还包括：获取所述多个词条的第一语义特征，其中，所述第一语义特征包括用于指示所述词条的歧义程度的特征信息；获取所述多个词条的第二语义特征，其中，所述第二语义特征包括用于指示所述词条的重要程度的特征信息；由所述第一语义特征和所述第二语义特征构建第一目标特征集合；

在所述多个词条中获取已标注等级的所述第一目标词条包括：将所述第一目标特征集合中符合目标条件的特征信息确定为目标特征信息；将与所述目标特征信息对应的已标注等级的词条确定为所述第一目标词条。

3.根据权利要求2所述的方法，其特征在于，对所述第一目标语义词典中的所述第一目标词条和所述第一等级数据进行训练，得到所述目标分级模型包括：

将所述第一目标特征集合随机划分为第一特征集合和第二特征集合；

对所述第一目标语义词典中的所述第一目标词条、所述第一等级数据和所述第一特征集合通过分类器进行训练，得到第一分级模型，其中，所述目标分级模型包括所述第一分级模型，所述第一分级模型用于预测所述第二目标词条的置信度；

对所述第一目标语义词典中的所述第一目标词条、所述第一等级数据和所述第二特征集合通过分类器进行训练，得到第二分级模型，其中，所述目标分级模型包括所述第二分级模型，所述第二分级模型用于预测所述第二目标词条的置信度。

4.根据权利要求3所述的方法，其特征在于，通过所述目标分级模型对所述多个词条中未标注等级的第二目标词条的歧义程度进行分级，得到所述第二等级数据包括：

在所述多个词条中，对所述第一特征集合和所述第二特征集合进行训练，得到第三分级模型，所述第三分级模型用于预测所述第二目标词条的置信度；

通过所述第三分级模型预测所述第二目标词条的置信度，得到第一置信度，且从所述多个词条中获取所述第一置信度大于第一阈值的所述第二目标词条；

对所述第一置信度大于所述第一阈值的所述第二目标词条的歧义程度进行分级，得到所述第二等级数据。

5.根据权利要求4所述的方法，其特征在于，对所述第一置信度大于所述第一阈值的所述第二目标词条的歧义程度进行分级，得到所述第二等级数据包括：

通过所述第一分级模型对所述第一置信度大于所述第一阈值的所述第二目标词条进行预测，得到第二置信度，且将所述第二置信度大于所述第一阈值的所述第二目标词条和与所述第二目标词条对应的特征信息，添加至所述第二分级模型中，其中，添加至所述第二分级模型中的所述第二目标词条和与所述第二目标词条对应的特征信息用于对所述第二分级模型进行重新处理；

通过重新处理后的所述第二分级模型对所述第一置信度大于所述第一阈值的所述第二目标词条进行预测，得到第三置信度，且将所述第二置信度大于所述第一阈值的所述第二目标词条和与所述第二目标词条对应的特征信息，添加至所述第一分级模型中，其中，添加至所述第一分级模型中的所述第二目标词条和与所述第二目标词条对应的特征信息用于对所述第一分级模型进行重新处理；

在所述第二置信度和所述第三置信度都大于所述第一阈值的情况下，对所述第一置信度大于所述第一阈值的所述第二目标词条的歧义程度进行分级，得到所述第二等级数据。

6.根据权利要求4所述的方法，其特征在于，在通过所述第一分级模型预测所述第二目标词条的置信度，得到所述第一置信度之后，所述方法还包括：

获取所述第一置信度低于第二阈值的所述第二目标词条；

接收已经对所述第一置信度低于所述第二阈值的所述第二目标词条的歧义程度进行分级得到的所述第二等级数据。

7.根据权利要求2至6中任意一项所述的方法，其特征在于，所述词条的特征信息包括以下至少之一：

所述词条的逆向文件频率；

所述词条的信息熵；

所述词条对应的语言模型的分数；

所述词条与指令词条中的词的重叠率，其中，所述指令词条用于指示对所述词条执行的指令；

所述词条的搜索指数，其中，所述搜索指数用于指示在搜索引擎上搜索出的所述词条在全部搜索词条中占的比例。

8.根据权利要求1至6中任意一项所述的方法，其特征在于，在将具有对应关系的所述第二目标词条和所述第二等级数据添加至所述第一目标语义词典中，得到第二目标语义词典之后，所述方法还包括：

确定目标语料中的待识别词条；

在所述待识别词条为所述多个词条中的目标词条的情况下，在所述第二目标语义词典中查找所述待识别词条在所述语料中的语义和歧义程度。

9.根据权利要求8所述的方法，其特征在于，在所述第二目标语义词典中查找所述待识别词条在所述语料中的语义和歧义程度包括：

在查找到所述待识别词条在所述语料中的歧义程度为第一等级的情况下，通过外部输入的所述目标语料的预定上下文识别所述待识别词条在所述目标语料中的语义；

在查找到所述待识别词条在所述语料中的歧义程度为第二等级的情况下，通过外部输入的所述目标语料的预定数量的上下文识别所述待识别词条在所述目标语料中的语义；

在查找到所述待识别词条在所述语料中的歧义程度为第三等级的情况下，识别所述待识别词条在所述目标语料中的语义。

10.一种语义词典的构建装置，其特征在于，包括：

处理单元，用于在多个词条中获取已标注等级的第一目标词条，并将具有对应关系的所述第一目标词条和第一等级数据添加至第一目标语义词典中，其中，所述第一等级数据用于指示所述第一目标词条的歧义程度的等级，所述第一目标语义词典用于识别词条在目标语料中的语义；

训练单元，用于对所述第一目标语义词典中的所述第一目标词条和所述第一等级数据进行训练，得到目标分级模型，其中，所述目标分级模型用于对所述多个词条中的未标注等级的第二目标词条的歧义程度进行分级；

分级单元，用于通过所述目标分级模型对所述多个词条中未标注等级的所述第二目标词条的歧义程度进行分级，得到第二等级数据，其中，所述第二目标词条为所述多个词条中除所述第一目标词条之外的词条，所述第二等级数据用于指示所述第二目标词条的歧义程度的等级；

添加单元，用于将具有对应关系的所述第二目标词条和所述第二等级数据添加至所述第一目标语义词典中，得到第二目标语义词典，其中，添加有所述第一目标词条、所述第一等级数据、所述第二目标词条和所述第二等级数据的所述第二目标语义词典用于识别所述多个词条中的目标词条在所述目标语料中的语义和歧义程度。

11.根据权利要求10所述的装置，其特征在于，

所述装置还包括：第一获取单元，用于在所述多个词条中获取已标注等级的所述第一目标词条之前，获取所述多个词条的第一语义特征，其中，所述第一语义特征包括用于指示所述词条的歧义程度的特征信息；第二获取单元，用于获取所述多个词条的第二语义特征，其中，所述第二语义特征包括用于指示所述词条的重要程度的特征信息；构建单元，用于由所述第一语义特征和所述第二语义特征构建第一目标特征集合；

所述处理单元包括：第一确定模块，用于将所述第一目标特征集合中符合目标条件的特征信息确定为目标特征信息；第二确定模块，用于将与所述目标特征信息对应的已标注等级的词条确定为所述第一目标词条。

12.根据权利要求11所述的装置，其特征在于，所述训练单元包括：

划分模块，用于将所述第一目标特征集合随机划分为第一特征集合和第二特征集合；

第一训练模块，用于对所述第一目标语义词典中的所述第一目标词条、所述第一等级数据和所述第一特征集合通过分类器进行训练，得到第一分级模型，其中，所述目标分级模型包括所述第一分级模型，所述第一分级模型用于预测所述第二目标词条的置信度；

第二训练模块，用于对所述第一目标语义词典中的所述第一目标词条、所述第一等级数据和所述第二特征集合通过分类器进行训练，得到第二分级模型，其中，所述目标分级模型包括所述第二分级模型，所述第二分级模型用于预测所述第二目标词条的置信度。

13.根据权利要求12所述的装置，其特征在于，所述分级单元包括：

第三训练模块，用于在所述多个词条中，对所述第一特征集合和所述第二特征集合进行训练，得到第三分级模型，所述第三分级模型用于预测所述第二目标词条的置信度；

预测模块，用于通过所述第三分级模型预测所述第二目标词条的置信度，得到第一置信度，且从所述多个词条中获取所述第一置信度大于第一阈值的所述第二目标词条；

分级模块，用于对所述第一置信度大于所述第一阈值的所述第二目标词条的歧义程度进行分级，得到所述第二等级数据。

14.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至9中任一项所述的语义词典的构建方法。

15.一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序执行所述权利要求1至9中任一项所述的语义词典的构建方法。