CN110377904A - 一种基于语料库的近义词辨析方法 - Google Patents

一种基于语料库的近义词辨析方法 Download PDF

Info

Publication number
CN110377904A
CN110377904A CN201910555817.8A CN201910555817A CN110377904A CN 110377904 A CN110377904 A CN 110377904A CN 201910555817 A CN201910555817 A CN 201910555817A CN 110377904 A CN110377904 A CN 110377904A
Authority
CN
China
Prior art keywords
word
corpus
near synonym
discrimination
carried out
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910555817.8A
Other languages
English (en)
Inventor
肖清林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central Mdt Infotech Ltd Of United States Of Xiamen
Original Assignee
Central Mdt Infotech Ltd Of United States Of Xiamen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central Mdt Infotech Ltd Of United States Of Xiamen filed Critical Central Mdt Infotech Ltd Of United States Of Xiamen
Priority to CN201910555817.8A priority Critical patent/CN110377904A/zh
Publication of CN110377904A publication Critical patent/CN110377904A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于语料库的近义词辨析方法,所述辨析方法包括以下步骤:S1、采集整理相关词语并建立语料库;S2、根据词语信息对语料库进行实时更新;S3、对词语进行采集和预处理;S4、对预处理后的词语进行识别分析;S5、根据语料库对采集的词语进行近义词辨析;S6、对近义词辨析结果进行统计确认。本发明对信息近义词辨析精准且辨析效率高。

Description

一种基于语料库的近义词辨析方法
技术领域
本发明涉及词义信息处理技术领域,尤其涉及一种基于语料库的近义词辨析方法。
背景技术
在工作中,对不同信息需要进行不同类型的处理,由于其信息内容的庞大性,相同或相似信息在不同地区的展现形式存在差异,例如名称或词语的描述彼此不同,从而影响信息工作准确快速进行,需要通过对信息进行近义词的辨析,以便工作正常有序进行;目前的近义词辨析方法效率差,且辨析精度不高,容易因计算错误影响工作的正常进行。
为解决上述问题,本申请中提出一种基于语料库的近义词辨析方法。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于语料库的近义词辨析方法,对信息近义词辨析精准且辨析效率高。
(二)技术方案
为解决上述问题,本发明提供了一种基于语料库的近义词辨析方法,所述辨析方法包括以下步骤:
S1、采集整理相关词语并建立语料库;
S2、根据词语信息对语料库进行实时更新;
S3、对词语进行采集和预处理;
S4、对预处理后的词语进行识别分析;
S5、根据语料库对采集的词语进行近义词辨析;
S6、对近义词辨析结果进行统计确认。
优选的,所述语料库与互联网相连,并通过互联网对语料库内词语进行释义解析。
优选的,所述对语料库进行实时更新包括对新词的添加和释义以及对删除词语的去除。
优选的,所述对词语的预处理包括对词语进行分类和分词处理。
优选的,所述词语进行识别分析包括关键词属性识别和语义属性分析。
优选的,所述关键词属性由关键词文本、关键词数量和关键词内容共同确定。
优选的,所述语义属性由语义分类、词语向量和词语含义共同确定。
本发明的上述技术方案具有如下有益的技术效果:通过整理相关词语并建立语料库,有利于对后续近义词辨析提供资料服务,通过对语料库的实时更新确保语料库信息资料的时效性和准确性,以便提高近义词辨析效率和辨析精度;采集需要进行近义词辨析的词语,并对采集到的词语进行预处理,方便后续辨析近义词的顺利进行,有效提高对近义词的辨析速度;对预处理后的词语进行识别和分析,以便于后续辨析近义词;通过语料库的信息资料对采集处理后的词语进行近义词辨析,辨别采集信息的近义词程度,并将辨析结果进行统计和确认,可以方便后续信息近义词辨析的对比和查阅,同时进一步对辨析结果进行审核,确保辨析近义词结果的准确性。本发明对信息近义词辨析精准且辨析效率高。
附图说明
图1为本发明提出的一种基于语料库的近义词辨析方法的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明提出的一种基于语料库的近义词辨析方法,所述辨析方法包括以下步骤:
S1、采集整理相关词语并建立语料库;
S2、根据词语信息对语料库进行实时更新;
S3、对词语进行采集和预处理;
S4、对预处理后的词语进行识别分析;
S5、根据语料库对采集的词语进行近义词辨析;
S6、对近义词辨析结果进行统计确认。
本发明中,通过整理相关词语并建立语料库,有利于对后续近义词辨析提供资料服务,通过对语料库的实时更新确保语料库信息资料的时效性和准确性,以便提高近义词辨析效率和辨析精度;采集需要进行近义词辨析的词语,并对采集到的词语进行预处理,方便后续辨析近义词的顺利进行,有效提高对近义词的辨析速度;对预处理后的词语进行识别和分析,以便于后续辨析近义词;通过语料库的信息资料对采集处理后的词语进行近义词辨析,辨别采集信息的近义词程度,并将辨析结果进行统计和确认,可以方便后续信息近义词辨析的对比和查阅,同时进一步对辨析结果进行审核,确保辨析近义词结果的准确性。本发明对信息近义词辨析精准且辨析效率高。
在一个可选的实施例中,所述语料库与互联网相连,并通过互联网对语料库内词语进行释义解析。
需要说明的是,语料库通过与互联网相连,通过互联网对语料库对词语进行释义解析,有效确保语料库内词语信息的完整性和准确性,使语料库对近义词辨析时资料对比查找时更为精准。
在一个可选的实施例中,所述对语料库进行实时更新包括对新词的添加和释义以及对删除词语的去除。
需要说明的是,通过对语料库的实时更新有效确保语料库资料信息的时效性和准确性,及时对新增信息进行补充和对过时信息进行删除,不仅确保语料库的精简型同时提高准确性,使近义词辨析时对语料库信息资源调用时更方便快捷,提高对近义词辨析的效率和精度。
在一个可选的实施例中,所述对词语的预处理包括对词语进行分类和分词处理。
需要说明的是,通过采集需要进行近义词辨析的词语,并对采集到的词语进行预处理,方便后续辨析近义词的顺利进行,同时通过对词语进行分类,将同类词语放在一起进行辨析有效提高辨析效率,通过对词语进行分词处理,将分词进行逐一对比在进行总结辨析,可有效提高对近义词的辨析精度。
在一个可选的实施例中,所述词语进行识别分析包括关键词属性识别和语义属性分析。
需要说明的是,通过对关键词属性的识别可以提高对近义词辨析的效率,相同关键词属性的信息放在一起进行辨析,提高近义词辨析精度,同时对语义属性进行分析,分析词语含义以辨析其近义词程度,可进一步确保对近义词的辨析精度。
在一个可选的实施例中,所述关键词属性由关键词文本、关键词数量和关键词内容共同确定。
需要说明的是,通过关键词属性的关键词文本、关键词数量和关键词内容共同对近义词进行辨析,使近义词辨析更加全面彻底,可以提高对近义词辨析的精度。
在一个可选的实施例中,所述语义属性由语义分类、词语向量和词语含义共同确定。
需要说明的是,通过语义属性的语义分类、词语向量和词语含义共同对近义词属性进行辨析,使近义词辨析更加全面彻底,可以提高对近义词辨析的精度。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (7)

1.一种基于语料库的近义词辨析方法,其特征在于,所述辨析方法包括以下步骤:
S1、采集整理相关词语并建立语料库;
S2、根据词语信息对语料库进行实时更新;
S3、对词语进行采集和预处理;
S4、对预处理后的词语进行识别分析;
S5、根据语料库对采集的词语进行近义词辨析;
S6、对近义词辨析结果进行统计确认。
2.根据权利要求1所述的一种基于语料库的近义词辨析方法,其特征在于,所述语料库与互联网相连,并通过互联网对语料库内词语进行释义解析。
3.根据权利要求1所述的一种基于语料库的近义词辨析方法,其特征在于,所述对语料库进行实时更新包括对新词的添加和释义以及对删除词语的去除。
4.根据权利要求1所述的一种基于语料库的近义词辨析方法,其特征在于,所述对词语的预处理包括对词语进行分类和分词处理。
5.根据权利要求1所述的一种基于语料库的近义词辨析方法,其特征在于,所述词语进行识别分析包括关键词属性识别和语义属性分析。
6.根据权利要求5所述的一种基于语料库的近义词辨析方法,其特征在于,所述关键词属性由关键词文本、关键词数量和关键词内容共同确定。
7.根据权利要求5所述的一种基于语料库的近义词辨析方法,其特征在于,所述语义属性由语义分类、词语向量和词语含义共同确定。
CN201910555817.8A 2019-06-25 2019-06-25 一种基于语料库的近义词辨析方法 Pending CN110377904A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910555817.8A CN110377904A (zh) 2019-06-25 2019-06-25 一种基于语料库的近义词辨析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910555817.8A CN110377904A (zh) 2019-06-25 2019-06-25 一种基于语料库的近义词辨析方法

Publications (1)

Publication Number Publication Date
CN110377904A true CN110377904A (zh) 2019-10-25

Family

ID=68249369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910555817.8A Pending CN110377904A (zh) 2019-06-25 2019-06-25 一种基于语料库的近义词辨析方法

Country Status (1)

Country Link
CN (1) CN110377904A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329455A (zh) * 2020-11-06 2021-02-05 渤海大学 一种基于语料库的近义词辨析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020002450A1 (en) * 1997-07-02 2002-01-03 Xerox Corp. Article and method of automatically filtering information retrieval results using text genre
CN107451126A (zh) * 2017-08-21 2017-12-08 广州多益网络股份有限公司 一种近义词筛选方法及系统
CN109271477A (zh) * 2018-09-05 2019-01-25 杭州数湾信息科技有限公司 一种借助互联网构建分类语料库的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020002450A1 (en) * 1997-07-02 2002-01-03 Xerox Corp. Article and method of automatically filtering information retrieval results using text genre
CN107451126A (zh) * 2017-08-21 2017-12-08 广州多益网络股份有限公司 一种近义词筛选方法及系统
CN109271477A (zh) * 2018-09-05 2019-01-25 杭州数湾信息科技有限公司 一种借助互联网构建分类语料库的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴姣: "基于语料库的近义词辨析研究———以affect 和 influence为例", 《兰州教育学院学报》 *
张冰雪: "语料库驱动下的同义词辨析――以"安排"和"布置"为例", 《艺术科技》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329455A (zh) * 2020-11-06 2021-02-05 渤海大学 一种基于语料库的近义词辨析方法

Similar Documents

Publication Publication Date Title
CN109446524B (zh) 一种语音质检方法及装置
CN106095996B (zh) 用于文本分类的方法
EP3082051A1 (en) Data mining method
CN106886567B (zh) 基于语义扩展的微博突发事件检测方法及装置
CN110377724A (zh) 一种基于数据挖掘的语料库关键词自动抽取算法
RU2666277C1 (ru) Сегментация текста
CN107392143A (zh) 一种基于svm文本分类的简历精确解析方法
CN103366231A (zh) 一种合同风险信息自动处理方法及装置
CN104077407B (zh) 一种智能数据搜索系统及方法
CN108363691B (zh) 一种用于电力95598工单的领域术语识别系统及方法
CN111860981A (zh) 一种基于lstm深度学习的企业国民行业类别预测方法及系统
US20060224682A1 (en) System and method of screening unstructured messages and communications
CN103164537B (zh) 一种面向用户信息需求的搜索引擎日志数据挖掘的方法
CN113779983B (zh) 文本数据处理方法以及装置、存储介质、电子装置
CN102402717A (zh) 数据分析设备和方法
CN111177332A (zh) 自动提取裁判文书涉案标的和裁判结果的方法及装置
CN103793371B (zh) 一种新闻文本情绪倾向分析方法
Flisar et al. Enhanced feature selection using word embeddings for self-admitted technical debt identification
CN103823868B (zh) 一种面向在线百科的事件识别方法和事件关系抽取方法
Hakim et al. Modified Alpha++ algorithm for discovering the hybrid of non-free choice and invisible task of business processes
CN110377904A (zh) 一种基于语料库的近义词辨析方法
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN110728131A (zh) 一种分析文本属性的方法和装置
CN105786929B (zh) 一种信息监测方法及装置
CN107577667A (zh) 一种实体词处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191025

RJ01 Rejection of invention patent application after publication