CN106339369B - 一种资料集的同义词识别方法及系统 - Google Patents

一种资料集的同义词识别方法及系统 Download PDF

Info

Publication number
CN106339369B
CN106339369B CN201610772919.1A CN201610772919A CN106339369B CN 106339369 B CN106339369 B CN 106339369B CN 201610772919 A CN201610772919 A CN 201610772919A CN 106339369 B CN106339369 B CN 106339369B
Authority
CN
China
Prior art keywords
keyword
same
data set
high level
synonym
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610772919.1A
Other languages
English (en)
Other versions
CN106339369A (zh
Inventor
钟伟金
李佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Medical University
Original Assignee
Guangdong Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Medical University filed Critical Guangdong Medical University
Priority to CN201610772919.1A priority Critical patent/CN106339369B/zh
Publication of CN106339369A publication Critical patent/CN106339369A/zh
Application granted granted Critical
Publication of CN106339369B publication Critical patent/CN106339369B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种资料集的同义词识别方法及系统,该方法包括:获取包括N份资料的资料集;分别提取每份资料中的所有关键词;分别确定每个关键词的所有同生词;分别计算每个关键词与该关键词所对应的同生词之间的同生值;分别确定每个关键词的高值词群;对资料集中任意两个关键词之间是否为同义词进行识别,得到相应的同义词库,其中,若第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且第一关键词和第二关键词之间的同生值为0,则将第一关键词和第二关键词识别为同义词。本申请中,同义词的识别过程无需涉及到词形本身的比较或者依赖于特定的文本结构,从而能够大幅地提升同义词的识别效果。

Description

一种资料集的同义词识别方法及系统
技术领域
本发明涉及语义识别技术领域,特别涉及一种资料集的同义词识别方法及系统。
背景技术
人机交互是研究系统与用户之间的交互关系的科学。其中,上述系统可以是各种各样的机器,也可以是计算机的系统和软件。例如,智能检索系统、语义理解系统等等。
同义词是人机交互的重要组成部分。同义词的自动识别是知识库研究的重要组成部分,同义词自动识别的方式很多,常见的方法有基于词形相似识别法、基于定义识别法等等。前者只能识别词形相近的同义词,不能识别出词形完全不同的同义词;后者需要依靠特定的结构文本,如果某些关键词没有在文本中进行定义,就不能识别出来,因此,在具体应用中受到很大的限制。
综上所述可以看出,如何提高同义词的识别效果是目前有待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种资料集的同义词识别方法及系统,提高了同义词的识别效果。其具体方案如下:
一种资料集的同义词识别方法,包括:
获取包括N份资料的资料集,N为正整数;
分别提取每份资料中的所有关键词;
分别确定每个关键词的所有同生词,其中,任一个关键词的同生词为与该关键词同时出现在同一份资料中的关键词;
分别计算每个关键词与该关键词所对应的同生词之间的同生值;其中,同生值用来衡量任意两个关键词在同一份资料中出现的概率;
分别确定每个关键词的高值词群,其中,任一个关键词的高值词群为按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群;
对所述资料集中任意两个关键词之间是否为同义词进行识别,得到相应的同义词库,其中,若第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且所述第一关键词和所述第二关键词之间的同生值为0,则将所述第一关键词和所述第二关键词识别为同义词。
优选的,任意两个关键词之间的同生值的计算公式为:
Eij=Cij 2/(Ci×Cj);
式中,Cij表示所述资料集中同时出现关键词Ki和关键词Kj的资料的总份数,Ci表示所述资料集中出现所述关键词Ki的资料的总份数;Cj表示所述资料集中出现所述关键词Kj的资料的总份数;Eij表示所述关键词Ki和所述关键词Kj之间的同生值。
优选的,在所述分别确定每个关键词的高值词群的过程之后,还包括:
分别计算每个关键词的同生指数,其中,任一个关键词的同生指数为该关键词对应的高值词群中的所有同生词与该关键词之间的同生值的平均值。
优选的,在所述第一关键词的高值词群与所述第二关键词的高值词群之间的相似度不小于所述预设相似度阈值的情况下,还包括:
若所述第一关键词和所述第二关键词之间的同生值不为0,则计算所述第一关键词的同生指数和所述第二关键词的同生指数之间的平均值,得到相应的平均同生指数;
计算所述平均同生指数与当前同生值之间的比值,其中,所述当前同生值为所述第一关键词和所述第二关键词之间的同生值;
判断所述比值是否不小于预设比值阈值,如果是,则将所述第一关键词和所述第二关键词识别为同义词,如果否,则将所述第一关键词和所述第二关键词识别为非同义词。
优选的,所述预设相似度阈值为80%,所述预设比值阈值为10。
本发明还公开了一种资料集的同义词识别系统,包括:
资料集获取模块,用于获取包括N份资料的资料集,N为正整数;
关键词提取模块,用于分别提取每份资料中的所有关键词;
同生词确定模块,用于分别确定每个关键词的所有同生词,其中,任一个关键词的同生词为与该关键词同时出现在同一份资料中的关键词;
同生值计算模块,用于分别计算每个关键词与该关键词所对应的同生词之间的同生值;其中,同生值用来衡量任意两个关键词在同一份资料中出现的概率;
高值词群确定模块,用于分别确定每个关键词的高值词群,其中,任一个关键词的高值词群为按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群;
同义词识别模块,用于对所述资料集中任意两个关键词之间是否为同义词进行识别,得到相应的同义词库,其中,若第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且所述第一关键词和所述第二关键词之间的同生值为0,则将所述第一关键词和所述第二关键词识别为同义词。
优选的,所述同生值计算模块在计算任意两个关键词之间的同生值时,相应的计算公式为:
Eij=Cij 2/(Ci×Cj);
式中,Cij表示所述资料集中同时出现关键词Ki和关键词Kj的资料的总份数,Ci表示所述资料集中出现所述关键词Ki的资料的总份数;Cj表示所述资料集中出现所述关键词Kj的资料的总份数;Eij表示所述关键词Ki和所述关键词Kj之间的同生值。
优选的,所述同义词识别系统,还包括:
同生指数计算模块,用于在所述高值词群确定模块分别确定每个关键词的高值词群之后,分别计算每个关键词的同生指数,其中,任一个关键词的同生指数为该关键词对应的高值词群中的所有同生词与该关键词之间的同生值的平均值。
优选的,所述同义词识别模块还包括:
平均值计算单元,用于在所述第一关键词的高值词群与所述第二关键词的高值词群之间的相似度不小于所述预设相似度阈值,并且,所述第一关键词和所述第二关键词之间的同生值不为0的情况下,计算所述第一关键词的同生指数和所述第二关键词的同生指数之间的平均值,得到相应的平均同生指数;
比值计算单元,用于计算所述平均同生指数与当前同生值之间的比值,其中,所述当前同生值为所述第一关键词和所述第二关键词之间的同生值;
比值判断单元,用于判断所述比值是否不小于预设比值阈值,如果是,则将所述第一关键词和所述第二关键词识别为同义词,如果否,则将所述第一关键词和所述第二关键词识别为非同义词。
优选的,所述预设相似度阈值为80%,所述预设比值阈值为10。
可见,本发明在对资料集中的任意两个关键词是否为同义词进行识别之前,先计算出资料集中每个关键词与该关键词所对应的同生词之间的同生值,以及确定出每个关键词的高值词群,其中,所谓的同生值是用来衡量任意两个关键词在同一份资料中出现的概率,而任一个关键词的高值词群是指按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群。可以理解的是,若任意两个关键词各自所对应的高值词群较为相似,则意味着这两个关键词很有可能是同义词,在此基础上,若这两个关键词之间同生值为0,也即,若这两个关键词并没有出现在同一份资料中,由于在同一份资料中,资料的创作者很大程度上不会先后采用两种不同词形的词语来表示同一种含义,所以,在通过高值词群的比对发现某两个关键词很可能是同义词之后,若进一步发现这两个关键词并没有出现在同一份资料中,则将这两个关键词识别成同义词,显然,上述同义词的识别过程中无需涉及到词形本身的比较或者依赖于特定的文本结构,从而能够大幅地提升同义词的识别效果,也即,提高了同义词的识别准确率,并且上述同义词的识别方法不会受限于资料类型的不同,能够广泛地应用于各类文本资料,具有非常广阔的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种资料集的同义词识别方法流程图;
图2为本发明实施例公开的一种资料集的同义词识别系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种资料集的同义词识别方法,参见图1所示,该方法包括:
步骤S11:获取包括N份资料的资料集,N为正整数。
其中,本发明实施例中的资料集包括通过网络途径和/或人工收集的途径来获取到的各种专题和/或学科资料,例如科技文献、专利文献、病案病例、事实数据等。
另外,需要说明的是,上述资料集中包括的资料的数量越多,最终的同义词识别准确率则越高。
步骤S12:分别提取每份资料中的所有关键词。
其中,每份资料中的关键词既可以是人工标引的关键词,也可以是由后台系统自动标引的关键词。
步骤S13:分别确定每个关键词的所有同生词,其中,任一个关键词的同生词为与该关键词同时出现在同一份资料中的关键词。
本实施例中,若关键词A和关键词B同时出现在同一份资料中,则关键词A称为关键词B的同生词,同理,关键词B也称为关键词A的同生词,可以理解的是,上述关键词A和关键词B构成了一组同生词对。
另外,为了便于对同生词进行管理,本发明实施例可以将确定出的所有同生词保存至关系型数据库中,或者以矩阵的形式保存下来以形成相应的同生词矩阵。
步骤S14:分别计算每个关键词与该关键词所对应的同生词之间的同生值;其中,同生值用来衡量任意两个关键词在同一份资料中出现的概率。
本实施例中,所谓的同生值是用来衡量任意两个关键词在同一份资料中出现的概率,也即用来衡量任意两个关键字能否构成同生词对的概率。
如果在步骤S14之前,已经将所有的同生词保存为同生词矩阵或保存至上述关系型数据库中,则本发明实施例还可以进一步将步骤S14中计算出的每个同生值标注在上述同生词矩阵或关系型数据库中的相应位置上,由此构成一张由同生词以及相应同生值构成的同生词网。
步骤S15:分别确定每个关键词的高值词群,其中,任一个关键词的高值词群为按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群。
本实施例中某个关键词的高值词群是指将该关键词的所有同生词按照同生值从大到小的顺序排列后得到的词群。
例如,下面表一记录了A资料中关键词“5-氟尿嘧啶”所对应的高值词群;另外,下面表二记录了B资料中关键词“5-FU”所对应的高值词群。
其中,表一中显示出关键词“5-氟尿嘧啶”和“5-FU”之间的同生值为0,这意味着关键词“5-FU”并没有出现在A资料中。同理,表二中显示出关键词“5-FU”与“5-氟尿嘧啶”之间的同生值为0,这意味着关键词“5-氟尿嘧啶”并没有出现在B资料中。
表一
关键词 关键词 同生值
5-氟尿嘧啶 抗肿瘤联合化疗方案 0.0314
5-氟尿嘧啶 顺铂 0.0272
5-氟尿嘧啶 醛氢叶酸 0.0197
5-氟尿嘧啶 抗肿瘤药 0.0015
5-氟尿嘧啶 5-FU 0
表二
关键词 关键词 同生值
5-FU 抗肿瘤联合化疗方案 0.0302
5-FU 顺铂 0.0281
5-FU 醛氢叶酸 0.0188
5-FU 抗肿瘤药 0.0019
5-FU 5-氟尿嘧啶 0
步骤S16:对资料集中任意两个关键词之间是否为同义词进行识别,得到相应的同义词库,其中,若第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且第一关键词和第二关键词之间的同生值为0,则将第一关键词和第二关键词识别为同义词。
可以理解的是,上述第一关键词和上述第二关键均是资料集中任意的关键词。本发明实施例在第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值的情况下,若第一关键词和第二关键词之间的同生值为0,则将第一关键词和第二关键词识别为同义词。
以上述表一和表二为例,表一中的关键词“5-氟尿嘧啶”和表二中的关键词“5-FU”各自所对应的高值词群非常类似,在这种情况下,进一步比较关键词“5-氟尿嘧啶”和“5-FU”之间的同生值,通过上述表一和表二可知,关键词“5-氟尿嘧啶”和“5-FU”之间的同生值为0。由于在同一份资料中,资料的创作者很大程度上不会先后采用两种不同词形的词语来表示同一种含义,所以,本实施例将上述关键词“5-氟尿嘧啶”和“5-FU”确定为了同义词。
另外需要说明的是,上述步骤S16所创建出来的同义词库可以直接应用到数据资源的组织与利用,以及人工智能等领域。
可见,本发明实施例在对资料集中的任意两个关键词是否为同义词进行识别之前,先计算出资料集中每个关键词与该关键词所对应的同生词之间的同生值,以及确定出每个关键词的高值词群,其中,所谓的同生值是用来衡量任意两个关键词在同一份资料中出现的概率,而任一个关键词的高值词群是指按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群。可以理解的是,若任意两个关键词各自所对应的高值词群较为相似,则意味着这两个关键词很有可能是同义词,在此基础上,若这两个关键词之间同生值为0,也即,若这两个关键词并没有出现在同一份资料中,由于在同一份资料中,资料的创作者很大程度上不会先后采用两种不同词形的词语来表示同一种含义,所以,在通过高值词群的比对发现某两个关键词很可能是同义词之后,若进一步发现这两个关键词并没有出现在同一份资料中,则将这两个关键词识别成同义词,显然,上述同义词的识别过程中无需涉及到词形本身的比较或者依赖于特定的文本结构,从而能够大幅地提升同义词的识别效果,也即,提高了同义词的识别准确率,并且上述同义词的识别方法不会受限于资料类型的不同,能够广泛地应用于各类文本资料,具有非常广阔的应用前景。
本发明实施例公开了一种具体的资料集的同义词识别方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
上一实施例步骤S14中,需要计算每个关键词与该关键词所对应的同生词之间的同生值。本实施例中,任意两个关键词之间的同生值的计算公式具体为:
Eij=Cij 2/(Ci×Cj);
式中,Cij表示资料集中同时出现关键词Ki和关键词Kj的资料的总份数,Ci表示资料集中出现关键词Ki的资料的总份数;Cj表示资料集中出现关键词Kj的资料的总份数;Eij表示关键词Ki和关键词Kj之间的同生值。
上一实施例步骤S15中,需要分别确定每个关键词的高值词群。本实施例中,在分别确定每个关键词的高值词群的过程之后,还可以进一步包括:分别计算每个关键词的同生指数,其中,任一个关键词的同生指数为该关键词对应的高值词群中的所有同生词与该关键词之间的同生值的平均值。
另外,上一实施例步骤S16中公开了如下的技术方案:在第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且第一关键词和第二关键词之间的同生值为0的情况下,将第一关键词和第二关键词识别为同义词。
由于在同一份资料中,无法完全排除资料的作者前后采用两种不同的关键词来表述同一种含义。为了进一步提升同义词的识别准确率,本实施例中,在第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值的情况下,还包括下面步骤S17至步骤S19,其中:
步骤S17:若第一关键词和第二关键词之间的同生值不为0,则计算第一关键词的同生指数和第二关键词的同生指数之间的平均值,得到相应的平均同生指数;
步骤S18:计算上述平均同生指数与当前同生值之间的比值,其中,当前同生值为第一关键词和第二关键词之间的同生值;
步骤S19:判断上述比值是否不小于预设比值阈值,如果是,则将第一关键词和第二关键词识别为同义词,如果否,则将第一关键词和第二关键词识别为非同义词。
本实施例中,优先将上述预设相似度阈值设为80%,以及,将上述预设比值阈值设为10。
相应的,本发明实施例还公开了一种资料集的同义词识别系统,参见图2所示,该系统包括:
资料集获取模块21,用于获取包括N份资料的资料集,N为正整数;
关键词提取模块22,用于分别提取每份资料中的所有关键词;
同生词确定模块23,用于分别确定每个关键词的所有同生词,其中,任一个关键词的同生词为与该关键词同时出现在同一份资料中的关键词;
同生值计算模块24,用于分别计算每个关键词与该关键词所对应的同生词之间的同生值;其中,同生值用来衡量任意两个关键词在同一份资料中出现的概率;
高值词群确定模块25,用于分别确定每个关键词的高值词群,其中,任一个关键词的高值词群为按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群;
同义词识别模块26,用于对资料集中任意两个关键词之间是否为同义词进行识别,得到相应的同义词库,其中,若第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且第一关键词和第二关键词之间的同生值为0,则将第一关键词和第二关键词识别为同义词。
可见,本发明实施例在对资料集中的任意两个关键词是否为同义词进行识别之前,先计算出资料集中每个关键词与该关键词所对应的同生词之间的同生值,以及确定出每个关键词的高值词群,其中,所谓的同生值是用来衡量任意两个关键词在同一份资料中出现的概率,而任一个关键词的高值词群是指按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群。可以理解的是,若任意两个关键词各自所对应的高值词群较为相似,则意味着这两个关键词很有可能是同义词,在此基础上,若这两个关键词之间同生值为0,也即,若这两个关键词并没有出现在同一份资料中,由于在同一份资料中,资料的创作者很大程度上不会先后采用两种不同词形的词语来表示同一种含义,所以,在通过高值词群的比对发现某两个关键词很可能是同义词之后,若进一步发现这两个关键词并没有出现在同一份资料中,则将这两个关键词识别成同义词,显然,上述同义词的识别过程中无需涉及到词形本身的比较或者依赖于特定的文本结构,从而能够大幅地提升同义词的识别效果,也即,提高了同义词的识别准确率,并且上述同义词的识别方法不会受限于资料类型的不同,能够广泛地应用于各类文本资料,具有非常广阔的应用前景。
进一步的,上述同生值计算模块在计算任意两个关键词之间的同生值时,相应的计算公式为:
Eij=Cij 2/(Ci×Cj);
式中,Cij表示资料集中同时出现关键词Ki和关键词Kj的资料的总份数,Ci表示资料集中出现关键词Ki的资料的总份数;Cj表示资料集中出现关键词Kj的资料的总份数;Eij表示关键词Ki和关键词Kj之间的同生值。
另外,本实施例中的同义词识别系统,还可以进一步包括:
同生指数计算模块,用于在高值词群确定模块分别确定每个关键词的高值词群之后,分别计算每个关键词的同生指数,其中,任一个关键词的同生指数为该关键词对应的高值词群中的所有同生词与该关键词之间的同生值的平均值。
进一步的,上述同义词识别模块还可以进一步包括平均值计算单元、比值计算单元和比值判断单元;其中,
平均值计算单元,用于在第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且,第一关键词和第二关键词之间的同生值不为0的情况下,计算第一关键词的同生指数和第二关键词的同生指数之间的平均值,得到相应的平均同生指数;
比值计算单元,用于计算平均同生指数与当前同生值之间的比值,其中,当前同生值为第一关键词和第二关键词之间的同生值;
比值判断单元,用于判断比值是否不小于预设比值阈值,如果是,则将第一关键词和第二关键词识别为同义词,如果否,则将第一关键词和第二关键词识别为非同义词。
优选的,上述预设相似度阈值为80%,预设比值阈值为10。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种资料集的同义词识别方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种资料集的同义词识别方法,其特征在于,包括:
获取包括N份资料的资料集,N为正整数;
分别提取每份资料中的所有关键词;
分别确定每个关键词的所有同生词,其中,任一个关键词的同生词为与该关键词同时出现在同一份资料中的关键词;
分别计算每个关键词与该关键词所对应的同生词之间的同生值;其中,同生值用来衡量任意两个关键词在同一份资料中出现的概率;
分别确定每个关键词的高值词群,其中,任一个关键词的高值词群为按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群;
对所述资料集中任意两个关键词之间是否为同义词进行识别,得到相应的同义词库,其中,若第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且所述第一关键词和所述第二关键词之间的同生值为0,则将所述第一关键词和所述第二关键词识别为同义词;
并且,在所述分别确定每个关键词的高值词群的过程之后,还包括:
分别计算每个关键词的同生指数,其中,任一个关键词的同生指数为该关键词对应的高值词群中的所有同生词与该关键词之间的同生值的平均值。
2.根据权利要求1所述的资料集的同义词识别方法,其特征在于,任意两个关键词之间的同生值的计算公式为:
Eij=Cij 2/(Ci×Cj);
式中,Cij表示所述资料集中同时出现关键词Ki和关键词Kj的资料的总份数,Ci表示所述资料集中出现所述关键词Ki的资料的总份数;Cj表示所述资料集中出现所述关键词Kj的资料的总份数;Eij表示所述关键词Ki和所述关键词Kj之间的同生值。
3.根据权利要求1所述的资料集的同义词识别方法,其特征在于,在所述第一关键词的高值词群与所述第二关键词的高值词群之间的相似度不小于所述预设相似度阈值的情况下,还包括:
若所述第一关键词和所述第二关键词之间的同生值不为0,则计算所述第一关键词的同生指数和所述第二关键词的同生指数之间的平均值,得到相应的平均同生指数;
计算所述平均同生指数与当前同生值之间的比值,其中,所述当前同生值为所述第一关键词和所述第二关键词之间的同生值;
判断所述比值是否不小于预设比值阈值,如果是,则将所述第一关键词和所述第二关键词识别为同义词,如果否,则将所述第一关键词和所述第二关键词识别为非同义词。
4.根据权利要求3所述的资料集的同义词识别方法,其特征在于,
所述预设相似度阈值为80%,所述预设比值阈值为10。
5.一种资料集的同义词识别系统,其特征在于,包括:
资料集获取模块,用于获取包括N份资料的资料集,N为正整数;
关键词提取模块,用于分别提取每份资料中的所有关键词;
同生词确定模块,用于分别确定每个关键词的所有同生词,其中,任一个关键词的同生词为与该关键词同时出现在同一份资料中的关键词;
同生值计算模块,用于分别计算每个关键词与该关键词所对应的同生词之间的同生值;其中,同生值用来衡量任意两个关键词在同一份资料中出现的概率;
高值词群确定模块,用于分别确定每个关键词的高值词群,其中,任一个关键词的高值词群为按照同生值从大到小的排列顺序,对该关键词的所有同生词进行排序后得到的词群;
同义词识别模块,用于对所述资料集中任意两个关键词之间是否为同义词进行识别,得到相应的同义词库,其中,若第一关键词的高值词群与第二关键词的高值词群之间的相似度不小于预设相似度阈值,并且所述第一关键词和所述第二关键词之间的同生值为0,则将所述第一关键词和所述第二关键词识别为同义词;
并且,所述同义词识别系统还包括:
同生指数计算模块,用于在所述高值词群确定模块分别确定每个关键词的高值词群之后,分别计算每个关键词的同生指数,其中,任一个关键词的同生指数为该关键词对应的高值词群中的所有同生词与该关键词之间的同生值的平均值。
6.根据权利要求5所述的资料集的同义词识别系统,其特征在于,所述同生值计算模块在计算任意两个关键词之间的同生值时,相应的计算公式为:
Eij=Cij 2/(Ci×Cj);
式中,Cij表示所述资料集中同时出现关键词Ki和关键词Kj的资料的总份数,Ci表示所述资料集中出现所述关键词Ki的资料的总份数;Cj表示所述资料集中出现所述关键词Kj的资料的总份数;Eij表示所述关键词Ki和所述关键词Kj之间的同生值。
7.根据权利要求5所述的资料集的同义词识别系统,其特征在于,所述同义词识别模块还包括:
平均值计算单元,用于在所述第一关键词的高值词群与所述第二关键词的高值词群之间的相似度不小于所述预设相似度阈值,并且,所述第一关键词和所述第二关键词之间的同生值不为0的情况下,计算所述第一关键词的同生指数和所述第二关键词的同生指数之间的平均值,得到相应的平均同生指数;
比值计算单元,用于计算所述平均同生指数与当前同生值之间的比值,其中,所述当前同生值为所述第一关键词和所述第二关键词之间的同生值;
比值判断单元,用于判断所述比值是否不小于预设比值阈值,如果是,则将所述第一关键词和所述第二关键词识别为同义词,如果否,则将所述第一关键词和所述第二关键词识别为非同义词。
8.根据权利要求7所述的资料集的同义词识别系统,其特征在于,
所述预设相似度阈值为80%,所述预设比值阈值为10。
CN201610772919.1A 2016-08-30 2016-08-30 一种资料集的同义词识别方法及系统 Expired - Fee Related CN106339369B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610772919.1A CN106339369B (zh) 2016-08-30 2016-08-30 一种资料集的同义词识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610772919.1A CN106339369B (zh) 2016-08-30 2016-08-30 一种资料集的同义词识别方法及系统

Publications (2)

Publication Number Publication Date
CN106339369A CN106339369A (zh) 2017-01-18
CN106339369B true CN106339369B (zh) 2019-06-04

Family

ID=57822802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610772919.1A Expired - Fee Related CN106339369B (zh) 2016-08-30 2016-08-30 一种资料集的同义词识别方法及系统

Country Status (1)

Country Link
CN (1) CN106339369B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414750B (zh) * 2020-03-18 2023-08-18 北京百度网讯科技有限公司 一种词条的同义判别方法、装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1223410A (zh) * 1998-01-13 1999-07-21 富士通株式会社 相关词抽取设备和方法以及记录相关词抽取程序的媒体
US8392413B1 (en) * 2007-02-07 2013-03-05 Google Inc. Document-based synonym generation
WO2014002775A1 (ja) * 2012-06-25 2014-01-03 日本電気株式会社 同義語抽出システム、方法および記録媒体
JP2014132406A (ja) * 2013-01-07 2014-07-17 Nec Corp 同義語抽出システム、方法およびプログラム
JP5754019B2 (ja) * 2011-07-11 2015-07-22 日本電気株式会社 同義語抽出システム、方法およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1223410A (zh) * 1998-01-13 1999-07-21 富士通株式会社 相关词抽取设备和方法以及记录相关词抽取程序的媒体
US8392413B1 (en) * 2007-02-07 2013-03-05 Google Inc. Document-based synonym generation
JP5754019B2 (ja) * 2011-07-11 2015-07-22 日本電気株式会社 同義語抽出システム、方法およびプログラム
WO2014002775A1 (ja) * 2012-06-25 2014-01-03 日本電気株式会社 同義語抽出システム、方法および記録媒体
JP2014132406A (ja) * 2013-01-07 2014-07-17 Nec Corp 同義語抽出システム、方法およびプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Using cooccurrence statistics and the web to discover synonyms in a technical language;Marco Baroni,Sabrina Bisi;《 Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC"04)》;20040531;第3节 *
共词分析法研究(一)——共词分析的过程与方式;钟伟金,李佳;《情报杂志》;20080531(第5期);第2.4节 *
基于共现"互斥互信"原理的同义词识别;钟伟金;《中华医学图书情报杂志》;20120531;第21卷(第5期);第1-2节图1 *

Also Published As

Publication number Publication date
CN106339369A (zh) 2017-01-18

Similar Documents

Publication Publication Date Title
US9990421B2 (en) Phrase-based searching in an information retrieval system
CA2513850C (en) Phrase identification in an information retrieval system
Li et al. Computing term similarity by large probabilistic isa knowledge
CN102609407B (zh) 一种网络不良文本内容的细粒度语义检测方法
CA2813644A1 (en) Phrase-based searching in an information retrieval system
CN106250513A (zh) 一种基于事件建模的事件个性化分类方法及系统
CN108334528B (zh) 一种信息推荐方法和装置
JP2009093650A (ja) 文書の段落分析によるその文書のタグの選択
CN104137097A (zh) 谓语模板收集装置、特定短语对收集装置、以及用于它们的计算机程序
US20160321241A1 (en) Probabilistic model for term co-occurrence scores
Peetz et al. Adaptive temporal query modeling
CN106446575A (zh) 智能推送医疗资源的方法及系统
Zhao et al. Mid-ontology learning from linked data
CN106339369B (zh) 一种资料集的同义词识别方法及系统
Wu et al. Extracting knowledge from web tables based on DOM tree similarity
Kwak et al. Ontology Matching Based on Hypernym
Wu et al. An event timeline extraction method based on news corpus
Vulić et al. Evaluation by association: A systematic study of quantitative word association evaluation
Hou et al. HITSZ-ICRC at NTCIR-11 Temporalia Task.
Alamri et al. Automatic detection of answers to research questions from medline abstracts
CN116756373A (zh) 基于知识图谱更新的项目评审专家筛选方法、系统及介质
KR102052823B1 (ko) 잠재 디리클레 할당을 이용한 토픽 모델 자동화 방법 및 장치
CN111241846B (zh) 一种主题挖掘模型中主题维度自适应确定方法
Pera et al. Using maximal spanning trees and word similarity to generate hierarchical clusters of non-redundant RSS news articles
Wu et al. An efficient linear text segmentation algorithm using hierarchical agglomerative clustering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190604

Termination date: 20200830