CN110377904A

CN110377904A - 一种基于语料库的近义词辨析方法

Info

Publication number: CN110377904A
Application number: CN201910555817.8A
Authority: CN
Inventors: 肖清林
Original assignee: Central Mdt Infotech Ltd Of United States Of Xiamen
Current assignee: Central Mdt Infotech Ltd Of United States Of Xiamen
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-10-25

Abstract

一种基于语料库的近义词辨析方法，所述辨析方法包括以下步骤：S1、采集整理相关词语并建立语料库；S2、根据词语信息对语料库进行实时更新；S3、对词语进行采集和预处理；S4、对预处理后的词语进行识别分析；S5、根据语料库对采集的词语进行近义词辨析；S6、对近义词辨析结果进行统计确认。本发明对信息近义词辨析精准且辨析效率高。

Description

一种基于语料库的近义词辨析方法

技术领域

本发明涉及词义信息处理技术领域，尤其涉及一种基于语料库的近义词辨析方法。

背景技术

在工作中，对不同信息需要进行不同类型的处理，由于其信息内容的庞大性，相同或相似信息在不同地区的展现形式存在差异，例如名称或词语的描述彼此不同，从而影响信息工作准确快速进行，需要通过对信息进行近义词的辨析，以便工作正常有序进行；目前的近义词辨析方法效率差，且辨析精度不高，容易因计算错误影响工作的正常进行。

为解决上述问题，本申请中提出一种基于语料库的近义词辨析方法。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种基于语料库的近义词辨析方法，对信息近义词辨析精准且辨析效率高。

(二)技术方案

为解决上述问题，本发明提供了一种基于语料库的近义词辨析方法，所述辨析方法包括以下步骤：

S1、采集整理相关词语并建立语料库；

S2、根据词语信息对语料库进行实时更新；

S3、对词语进行采集和预处理；

S4、对预处理后的词语进行识别分析；

S5、根据语料库对采集的词语进行近义词辨析；

S6、对近义词辨析结果进行统计确认。

优选的，所述语料库与互联网相连，并通过互联网对语料库内词语进行释义解析。

优选的，所述对语料库进行实时更新包括对新词的添加和释义以及对删除词语的去除。

优选的，所述对词语的预处理包括对词语进行分类和分词处理。

优选的，所述词语进行识别分析包括关键词属性识别和语义属性分析。

优选的，所述关键词属性由关键词文本、关键词数量和关键词内容共同确定。

优选的，所述语义属性由语义分类、词语向量和词语含义共同确定。

本发明的上述技术方案具有如下有益的技术效果：通过整理相关词语并建立语料库，有利于对后续近义词辨析提供资料服务，通过对语料库的实时更新确保语料库信息资料的时效性和准确性，以便提高近义词辨析效率和辨析精度；采集需要进行近义词辨析的词语，并对采集到的词语进行预处理，方便后续辨析近义词的顺利进行，有效提高对近义词的辨析速度；对预处理后的词语进行识别和分析，以便于后续辨析近义词；通过语料库的信息资料对采集处理后的词语进行近义词辨析，辨别采集信息的近义词程度，并将辨析结果进行统计和确认，可以方便后续信息近义词辨析的对比和查阅，同时进一步对辨析结果进行审核，确保辨析近义词结果的准确性。本发明对信息近义词辨析精准且辨析效率高。

附图说明

图1为本发明提出的一种基于语料库的近义词辨析方法的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本发明提出的一种基于语料库的近义词辨析方法，所述辨析方法包括以下步骤：

S1、采集整理相关词语并建立语料库；

S2、根据词语信息对语料库进行实时更新；

S3、对词语进行采集和预处理；

S4、对预处理后的词语进行识别分析；

S5、根据语料库对采集的词语进行近义词辨析；

S6、对近义词辨析结果进行统计确认。

本发明中，通过整理相关词语并建立语料库，有利于对后续近义词辨析提供资料服务，通过对语料库的实时更新确保语料库信息资料的时效性和准确性，以便提高近义词辨析效率和辨析精度；采集需要进行近义词辨析的词语，并对采集到的词语进行预处理，方便后续辨析近义词的顺利进行，有效提高对近义词的辨析速度；对预处理后的词语进行识别和分析，以便于后续辨析近义词；通过语料库的信息资料对采集处理后的词语进行近义词辨析，辨别采集信息的近义词程度，并将辨析结果进行统计和确认，可以方便后续信息近义词辨析的对比和查阅，同时进一步对辨析结果进行审核，确保辨析近义词结果的准确性。本发明对信息近义词辨析精准且辨析效率高。

在一个可选的实施例中，所述语料库与互联网相连，并通过互联网对语料库内词语进行释义解析。

需要说明的是，语料库通过与互联网相连，通过互联网对语料库对词语进行释义解析，有效确保语料库内词语信息的完整性和准确性，使语料库对近义词辨析时资料对比查找时更为精准。

在一个可选的实施例中，所述对语料库进行实时更新包括对新词的添加和释义以及对删除词语的去除。

需要说明的是，通过对语料库的实时更新有效确保语料库资料信息的时效性和准确性，及时对新增信息进行补充和对过时信息进行删除，不仅确保语料库的精简型同时提高准确性，使近义词辨析时对语料库信息资源调用时更方便快捷，提高对近义词辨析的效率和精度。

在一个可选的实施例中，所述对词语的预处理包括对词语进行分类和分词处理。

需要说明的是，通过采集需要进行近义词辨析的词语，并对采集到的词语进行预处理，方便后续辨析近义词的顺利进行，同时通过对词语进行分类，将同类词语放在一起进行辨析有效提高辨析效率，通过对词语进行分词处理，将分词进行逐一对比在进行总结辨析，可有效提高对近义词的辨析精度。

在一个可选的实施例中，所述词语进行识别分析包括关键词属性识别和语义属性分析。

需要说明的是，通过对关键词属性的识别可以提高对近义词辨析的效率，相同关键词属性的信息放在一起进行辨析，提高近义词辨析精度，同时对语义属性进行分析，分析词语含义以辨析其近义词程度，可进一步确保对近义词的辨析精度。

在一个可选的实施例中，所述关键词属性由关键词文本、关键词数量和关键词内容共同确定。

需要说明的是，通过关键词属性的关键词文本、关键词数量和关键词内容共同对近义词进行辨析，使近义词辨析更加全面彻底，可以提高对近义词辨析的精度。

在一个可选的实施例中，所述语义属性由语义分类、词语向量和词语含义共同确定。

需要说明的是，通过语义属性的语义分类、词语向量和词语含义共同对近义词属性进行辨析，使近义词辨析更加全面彻底，可以提高对近义词辨析的精度。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于语料库的近义词辨析方法，其特征在于，所述辨析方法包括以下步骤：

S1、采集整理相关词语并建立语料库；

S2、根据词语信息对语料库进行实时更新；

S3、对词语进行采集和预处理；

S4、对预处理后的词语进行识别分析；

S5、根据语料库对采集的词语进行近义词辨析；

S6、对近义词辨析结果进行统计确认。

2.根据权利要求1所述的一种基于语料库的近义词辨析方法，其特征在于，所述语料库与互联网相连，并通过互联网对语料库内词语进行释义解析。

3.根据权利要求1所述的一种基于语料库的近义词辨析方法，其特征在于，所述对语料库进行实时更新包括对新词的添加和释义以及对删除词语的去除。

4.根据权利要求1所述的一种基于语料库的近义词辨析方法，其特征在于，所述对词语的预处理包括对词语进行分类和分词处理。

5.根据权利要求1所述的一种基于语料库的近义词辨析方法，其特征在于，所述词语进行识别分析包括关键词属性识别和语义属性分析。

6.根据权利要求5所述的一种基于语料库的近义词辨析方法，其特征在于，所述关键词属性由关键词文本、关键词数量和关键词内容共同确定。

7.根据权利要求5所述的一种基于语料库的近义词辨析方法，其特征在于，所述语义属性由语义分类、词语向量和词语含义共同确定。