CN109543175B - 一种查找同义词的方法及装置 - Google Patents
一种查找同义词的方法及装置 Download PDFInfo
- Publication number
- CN109543175B CN109543175B CN201811181685.9A CN201811181685A CN109543175B CN 109543175 B CN109543175 B CN 109543175B CN 201811181685 A CN201811181685 A CN 201811181685A CN 109543175 B CN109543175 B CN 109543175B
- Authority
- CN
- China
- Prior art keywords
- word
- preset
- participles
- optimized
- vector matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种查找同义词的方法及装置,所述方法包括:输入待查找分词至优化词向量矩阵;所述优化词向量矩阵是采用预设模型得到的;所述预设模型包括用于获取词向量的Word2vec模型和用于将所述分词作为训练样本,并进行训练的SKIP‑GRAM模型;所述待查找分词为预设词库中的分词;在所述优化词向量矩阵中获取与所述待查找分词对应的目标词向量;并分别计算所述目标词向量和所述优化词向量矩阵中的其它向量的余弦距离;根据所有余弦距离和所述预设词库,获取所述待查找分词的n个同义词。所述装置执行上述方法。本发明实施例提供的查找同义词的方法及装置,能够提高同义词查找的准确性。
Description
技术领域
本发明实施例涉及词处理技术领域,具体涉及一种查找同义词的方法及装置。
背景技术
同义词查找是一个重要研究课题。现有的同义词查找方法通过分析每个词在当前文本中出现的次数以及在整个文本集合中出现的次数,进而利用这些词频信息将文本建模为一个向量,然后采用one-hot-encoding编码算法或者tf-idf等算法,并利用向量间的余弦相似度、jaccard相似度等方法计算词汇之间的相似度,即现有技术是基于词频信息的相似度方法进行同义词查找。
然而,在研究词语语义的时候,实际上要弄清楚在人们在描述客观事物、表达自己的想法的时候,是如何使用某个词语的:在哪使用,在什么时候使用,和哪些词一起使用。也就是说,如果人们要进行有意义的交流,那么在讨论、描述某个事物的时候,除事物本身以外,须另外附加上某个语境,通过事物和语境中其他元素的互动,来表达事先设定的语义。而现有技术仅仅通过词频进行同义词查找,查找出的同义词的准确性不高。
因此,如何避免上述缺陷,能够提高同义词查找的准确性,成为亟须解决的问题。
发明内容
针对现有技术存在的问题,本发明实施例提供一种查找同义词的方法及装置。
第一方面,本发明实施例提供一种查找同义词的方法,所述方法包括:
输入待查找分词至优化词向量矩阵;所述优化词向量矩阵是采用预设模型得到的;所述预设模型包括用于获取词向量的Word2vec模型和用于将所述分词作为训练样本,并进行训练的SKIP-GRAM模型;所述待查找分词为预设词库中的分词;
在所述优化词向量矩阵中获取与所述待查找分词对应的目标词向量;并分别计算所述目标词向量和所述优化词向量矩阵中的其它向量的余弦距离;
根据所有余弦距离和所述预设词库,获取所述待查找分词的n个同义词。
第二方面,本发明实施例提供一种查找同义词的装置,所述装置包括:
输入单元,用于输入待查找分词至优化词向量矩阵;所述优化词向量矩阵是采用预设模型得到的;所述预设模型包括用于获取词向量的Word2vec模型和用于将所述分词作为训练样本,并进行训练的SKIP-GRAM模型;所述待查找分词为预设词库中的分词;
计算单元,用于在所述优化词向量矩阵中获取与所述待查找分词对应的目标词向量;并分别计算所述目标词向量和所述优化词向量矩阵中的其它向量的余弦距离;
查找单元,用于根据所有余弦距离和所述预设词库,获取所述待查找分词的n个同义词。
第三方面,本发明实施例提供一种电子设备,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:
输入待查找分词至优化词向量矩阵;所述优化词向量矩阵是采用预设模型得到的;所述预设模型包括用于获取词向量的Word2vec模型和用于将所述分词作为训练样本,并进行训练的SKIP-GRAM模型;所述待查找分词为预设词库中的分词;
在所述优化词向量矩阵中获取与所述待查找分词对应的目标词向量;并分别计算所述目标词向量和所述优化词向量矩阵中的其它向量的余弦距离;
根据所有余弦距离和所述预设词库,获取所述待查找分词的n个同义词。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,包括:
所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如下方法:
输入待查找分词至优化词向量矩阵;所述优化词向量矩阵是采用预设模型得到的;所述预设模型包括用于获取词向量的Word2vec模型和用于将所述分词作为训练样本,并进行训练的SKIP-GRAM模型;所述待查找分词为预设词库中的分词;
在所述优化词向量矩阵中获取与所述待查找分词对应的目标词向量;并分别计算所述目标词向量和所述优化词向量矩阵中的其它向量的余弦距离;
根据所有余弦距离和所述预设词库,获取所述待查找分词的n个同义词。
本发明实施例提供的查找同义词的方法及装置,通过Word2vec模型和SKIP-GRAM模型获取优化词向量矩阵,并计算待查找分词在该优化词向量矩阵中的目标向量与其他向量的余弦距离,根据所有余弦距离,再结合预设词库剔除部分无关的分词,从而获取n个同义词,能够提高同义词查找的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例查找同义词的方法流程示意图;
图2为本发明实施例滑窗取词的截图;
图3为本发明实施例分词查找结果图;
图4为本发明实施例查找同义词的装置结构示意图;
图5为本发明实施例提供的电子设备实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例查找同义词的方法流程示意图,如图1所示,本发明实施例提供的一种查找同义词的方法,包括以下步骤:
S101:输入待查找分词至优化词向量矩阵;所述优化词向量矩阵是采用预设模型得到的;所述预设模型包括用于获取词向量的Word2vec模型和用于将所述分词作为训练样本,并进行训练的SKIP-GRAM模型;所述待查找分词为预设词库中的分词。
具体的,装置输入待查找分词至优化词向量矩阵;所述优化词向量矩阵是采用预设模型得到的;所述预设模型包括用于获取词向量的Word2vec模型和用于将所述分词作为训练样本,并进行训练的SKIP-GRAM模型;所述待查找分词为预设词库中的分词。预设词库可以为包含有医学专业词的医学词库,所述优化词向量矩阵的获取,可以包括:对语料库进行分词,进一步可以采用jieba库对语料库进行分词,语料库包括不限于预设词库中的分词;在得到的分词中获取包含在所述预设词库中的目标分词;根据所述预设词库对所述目标分词进行合并,以获取合并词;其中,所述预设词库包括预设合并词与预设分词之间的对应关系;根据所述合并词和未合并的剩余分词构建初始词向量矩阵;其中,所述初始词向量矩阵为N×M矩阵,其中,N为分词总数、M为每一个分词对应的向量维数,所述分词总数为所述合并词和未合并的剩余分词之和;采用所述Word2vec模型对所述语料库进行滑窗取词,以获取训练样本;采用所述SKIP-GRAM模型对所述训练样本进行训练,以获取基于所述初始词向量矩阵的优化词向量矩阵。说明如下:例句:目的研究大剂量甲氨喋呤(hd-mtx,5g/m2)加四氢叶酸钙(cf),解救方案治疗儿童急性淋巴细胞白血病(all)的不良反应。分词结果:
['目的','研究','大剂量','甲氨喋呤','(','hd','-','mtx','5g','/','m2',')','加','四氢','叶酸','钙','(','cf',')','解救','方案','治疗','儿童','急性','淋巴细胞','白血病','(','all',')','的','不良反应']。
其中预设词库中包含有'四氢','叶酸','钙'和'四氢叶酸钙'的对应关系,则目标分词为'四氢','叶酸','钙',获取合并词'四氢叶酸钙','hd','-','mtx'不再赘述。然后采用如下内容(包括有合并词和未合并的剩余分词)构建初始词向量矩阵。举例如下:
['目的','研究','大剂量','甲氨喋呤','(','hd-mtx','5g','/','m2',')','加','四氢叶酸钙','(','cf',')','解救','方案','治疗','儿童','急性','淋巴细胞','白血病','(','all',')','的','不良反应']。向量维数可以根据实际情况自主设置,可选为128,向量元素可以是[-1,1]之间的随机数。图2为本发明实施例滑窗取词的截图,窗宽为2,滑窗过程如图2所示。
训练过程为本领域成熟技术:可以定义上下文中的分词为正样本,假设定义负样本64个,则负样本选取原则为:从不包括上下文分词的剩余分词中随机选取64个作为负样本,在优化损失函数时,遵循的原则为使正样本出现的概率越来越高,使负样本出现的概率越来越低,从而减少计算量,加快模型训练速度。通过滑窗遍历所有分词,不断通过SKIP-GRAM模型,训练优化词向量,得到最终的优化词向量矩阵。
需要说明的是:基于SKIP-GRAM模型的原理,即预测结果考虑到上下文分词出现的概率,从而提高查找同义词的准确性。Word2vec模型获取分词,进而得到分词向量,再对分词向量进行训练。
S102:在所述优化词向量矩阵中获取与所述待查找分词对应的目标词向量;并分别计算所述目标词向量和所述优化词向量矩阵中的其它向量的余弦距离。
具体的,装置在所述优化词向量矩阵中获取与所述待查找分词对应的目标词向量;并分别计算所述目标词向量和所述优化词向量矩阵中的其它向量的余弦距离。举例说明如下:例如待查找分词为细胞,假如该分词“细胞”对应优化词向量矩阵的第10行分词细胞,则第10行分词细胞对应的128维词向量为目标词向量,假设该优化词向量矩阵有N行,则分别计算该目标词向量与其他N-1行向量的N-1个余弦距离,具体余弦距离的计算方法为本领域成熟技术,不再赘述。
S103:根据所有余弦距离和所述预设词库,获取所述待查找分词的n个同义词。
具体的,装置根据所有余弦距离和所述预设词库,获取所述待查找分词的n个同义词。具体可以包括:按照所有余弦距离的数值由小到大的顺序对与所有余弦距离对应的其他向量进行排序;获取排序中的第一个向量对应的分词,确定第一个向量对应的分词是否在所述预设词库中;若确定为是,则将所述第一个向量对应的分词作为一个同义词,再确定第二个向量对应的分词是否在所述预设词库中,并重复执行,直到获取到n个同义词。若确定为不是,则将所述第一个向量对应的分词剔除;再确定第二个向量对应的分词是否在所述预设词库中,并重复执行,直到获取到n个同义词。
图3为本发明实施例分词查找结果图,参照上述举例,排序为向量A…,n的数值可自主设定,可选为5,确定向量A对应的分词是否在预设词库中,如果在,则向量A对应的分词作为细胞一个同义词,如图3中的淋巴细胞,此时n为1,再确定向量B对应的分词是否在预设词库中,如果在,则向量B对应的分词作为细胞一个同义词,例如图3中的干细胞,此时n为2,再确定向量C是否在预设词库中,如果不在,即不属于医学专业词,则向量C对应的分词不能作为细胞一个同义词(图3未示出),此时n还是为2,再重复上述步骤,直到查找到5个同义词,从图3中还可以看出重叠的细胞-淋巴细胞、肿瘤-骨肉瘤、白血病-淋巴瘤,即图3中分词对应的点越近,说明词义越相近。
需要说明的是:本发明实施例采用的预设模型,通过较少的向量维数,例如128维,即可以准确查找同义词,相比于现有技术中采用的模型,准确查找所需的向量维数已大幅降低,因此,本发明实施例的方法还具有节省计算资源,提高运算效率的技术效果。
在该步骤之后,该方法还可以包括:将所述n个同义词对应的向量维数都降至二维,以平面显示所述n个同义词。可以通过PCA进行向量降维,参照图3,可以更加直观看出分词之间的同义程度。
本发明实施例提供的查找同义词的方法,通过Word2vec模型和SKIP-GRAM模型获取优化词向量矩阵,并计算待查找分词在该优化词向量矩阵中的目标向量与其他向量的余弦距离,根据所有余弦距离,再结合预设词库剔除部分无关的分词,从而获取n个同义词,能够提高同义词查找的准确性。
在上述实施例的基础上,所述根据所有余弦距离和所述预设词库,获取所述待查找分词的n个同义词,包括:
按照所有余弦距离的数值由小到大的顺序对与所有余弦距离对应的其他向量进行排序。
具体的,装置按照所有余弦距离的数值由小到大的顺序对与所有余弦距离对应的其他向量进行排序。可参照上述实施例,不再赘述。
获取排序中的第一个向量对应的分词,确定第一个向量对应的分词是否在所述预设词库中。
具体的,装置获取排序中的第一个向量对应的分词,确定第一个向量对应的分词是否在所述预设词库中。可参照上述实施例,不再赘述。
若确定为是,则将所述第一个向量对应的分词作为一个同义词,再确定第二个向量对应的分词是否在所述预设词库中,并重复执行,直到获取到n个同义词。
具体的,装置若确定为是,则将所述第一个向量对应的分词作为一个同义词,再确定第二个向量对应的分词是否在所述预设词库中,并重复执行,直到获取到n个同义词。可参照上述实施例,不再赘述。
本发明实施例提供的查找同义词的方法,进一步能够提高同义词查找的准确性。
在上述实施例的基础上,所述方法还包括:
若确定为不是,则将所述第一个向量对应的分词剔除;再确定第二个向量对应的分词是否在所述预设词库中,并重复执行,直到获取到n个同义词。
具体的,装置若确定为不是,则将所述第一个向量对应的分词剔除;再确定第二个向量对应的分词是否在所述预设词库中,并重复执行,直到获取到n个同义词。可参照上述实施例,不再赘述。
本发明实施例提供的查找同义词的方法,通过剔除不相关分词,进一步能够提高同义词查找的准确性。
在上述实施例的基础上,在所述获取所述待查找分词的n个同义词的步骤之后,所述方法还包括:
将所述n个同义词对应的向量维数都降至二维,以平面显示所述n个同义词。
具体的,装置将所述n个同义词对应的向量维数都降至二维,以平面显示所述n个同义词。可参照上述实施例,不再赘述。
本发明实施例提供的查找同义词的方法,能够直观显示同义词。
在上述实施例的基础上,所述优化词向量矩阵的获取,包括:
对语料库进行分词。
具体的,装置对语料库进行分词。可参照上述实施例,不再赘述。
在得到的分词中获取包含在所述预设词库中的目标分词。
具体的,装置在得到的分词中获取包含在所述预设词库中的目标分词。可参照上述实施例,不再赘述。
根据所述预设词库对所述目标分词进行合并,以获取合并词;其中,所述预设词库包括预设合并词与预设分词之间的对应关系。
具体的,装置根据所述预设词库对所述目标分词进行合并,以获取合并词;其中,所述预设词库包括预设合并词与预设分词之间的对应关系。可参照上述实施例,不再赘述。
根据所述合并词和未合并的剩余分词构建初始词向量矩阵;其中,所述初始词向量矩阵为N×M矩阵,其中,N为分词总数、M为每一个分词对应的向量维数,所述分词总数为所述合并词和未合并的剩余分词之和。
具体的,装置根据所述合并词和未合并的剩余分词构建初始词向量矩阵;其中,所述初始词向量矩阵为N×M矩阵,其中,N为分词总数、M为每一个分词对应的向量维数,所述分词总数为所述合并词和未合并的剩余分词之和。可参照上述实施例,不再赘述。
采用所述Word2vec模型对所述语料库进行滑窗取词,以获取训练样本。
具体的,装置采用所述Word2vec模型对所述语料库进行滑窗取词,以获取训练样本。可参照上述实施例,不再赘述。
采用所述SKIP-GRAM模型对所述训练样本进行训练,以获取基于所述初始词向量矩阵的优化词向量矩阵。
具体的,装置采用所述SKIP-GRAM模型对所述训练样本进行训练,以获取基于所述初始词向量矩阵的优化词向量矩阵。可参照上述实施例,不再赘述。
本发明实施例提供的查找同义词的方法,通过合理地获取优化词向量矩阵,保证了该方法正常进行。
在上述实施例的基础上,所述对语料库进行分词,包括:
采用jieba库对语料库进行分词。
具体的,装置采用jieba库对语料库进行分词。可参照上述实施例,不再赘述。
本发明实施例提供的查找同义词的方法,能够高效对语料库进行分词。
在上述实施例的基础上,所述预设词库为包含有医学专业词的医学词库。
具体的,装置中的所述预设词库为包含有医学专业词的医学词库。可参照上述实施例,不再赘述。
本发明实施例提供的查找同义词的方法,能够提高医学专业词相关的同义词查找的准确性。
图4为本发明实施例查找同义词的装置结构示意图,如图4所示,本发明实施例提供了一种查找同义词的装置,包括输入单元401、计算单元402和查找单元403,其中:
输入单元401用于输入待查找分词至优化词向量矩阵;所述优化词向量矩阵是采用预设模型得到的;所述预设模型包括用于获取词向量的Word2vec模型和用于将所述分词作为训练样本,并进行训练的SKIP-GRAM模型;所述待查找分词为预设词库中的分词;计算单元402用于在所述优化词向量矩阵中获取与所述待查找分词对应的目标词向量;并分别计算所述目标词向量和所述优化词向量矩阵中的其它向量的余弦距离;查找单元403用于根据所有余弦距离和所述预设词库,获取所述待查找分词的n个同义词。
具体的,输入单元401用于输入待查找分词至优化词向量矩阵;所述优化词向量矩阵是采用预设模型得到的;所述预设模型包括用于获取词向量的Word2vec模型和用于将所述分词作为训练样本,并进行训练的SKIP-GRAM模型;所述待查找分词为预设词库中的分词;计算单元402用于在所述优化词向量矩阵中获取与所述待查找分词对应的目标词向量;并分别计算所述目标词向量和所述优化词向量矩阵中的其它向量的余弦距离;查找单元403用于根据所有余弦距离和所述预设词库,获取所述待查找分词的n个同义词。
本发明实施例提供的查找同义词的装置,通过Word2vec模型和SKIP-GRAM模型获取优化词向量矩阵,并计算待查找分词在该优化词向量矩阵中的目标向量与其他向量的余弦距离,根据所有余弦距离,再结合预设词库剔除部分无关的分词,从而获取n个同义词,能够提高同义词查找的准确性。
本发明实施例提供的查找同义词的装置具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图5为本发明实施例提供的电子设备实体结构示意图,如图5所示,所述电子设备包括:处理器(processor)501、存储器(memory)502和总线503;
其中,所述处理器501、存储器502通过总线503完成相互间的通信;
所述处理器501用于调用所述存储器502中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:输入待查找分词至优化词向量矩阵;所述优化词向量矩阵是采用预设模型得到的;所述预设模型包括用于获取词向量的Word2vec模型和用于将所述分词作为训练样本,并进行训练的SKIP-GRAM模型;所述待查找分词为预设词库中的分词;在所述优化词向量矩阵中获取与所述待查找分词对应的目标词向量;并分别计算所述目标词向量和所述优化词向量矩阵中的其它向量的余弦距离;根据所有余弦距离和所述预设词库,获取所述待查找分词的n个同义词。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:输入待查找分词至优化词向量矩阵;所述优化词向量矩阵是采用预设模型得到的;所述预设模型包括用于获取词向量的Word2vec模型和用于将所述分词作为训练样本,并进行训练的SKIP-GRAM模型;所述待查找分词为预设词库中的分词;在所述优化词向量矩阵中获取与所述待查找分词对应的目标词向量;并分别计算所述目标词向量和所述优化词向量矩阵中的其它向量的余弦距离;根据所有余弦距离和所述预设词库,获取所述待查找分词的n个同义词。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:输入待查找分词至优化词向量矩阵;所述优化词向量矩阵是采用预设模型得到的;所述预设模型包括用于获取词向量的Word2vec模型和用于将所述分词作为训练样本,并进行训练的SKIP-GRAM模型;所述待查找分词为预设词库中的分词;在所述优化词向量矩阵中获取与所述待查找分词对应的目标词向量;并分别计算所述目标词向量和所述优化词向量矩阵中的其它向量的余弦距离;根据所有余弦距离和所述预设词库,获取所述待查找分词的n个同义词。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的电子设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的各实施例技术方案的范围。
Claims (9)
1.一种查找同义词的方法,其特征在于,包括:
输入待查找分词至优化词向量矩阵;所述优化词向量矩阵是采用预设模型得到的;所述预设模型包括用于获取词向量的Word2vec模型和用于将所述分词作为训练样本,并进行训练的SKIP-GRAM模型;所述待查找分词为预设词库中的分词;
在所述优化词向量矩阵中获取与所述待查找分词对应的目标词向量;并分别计算所述目标词向量和所述优化词向量矩阵中的其它向量的余弦距离;
根据所有余弦距离和所述预设词库,获取所述待查找分词的n个同义词;
其中,所述优化词向量矩阵的获取,包括:
对语料库进行分词;
在得到的分词中获取包含在所述预设词库中的目标分词;
根据所述预设词库对所述目标分词进行合并,以获取合并词;其中,所述预设词库包括预设合并词与预设分词之间的对应关系;
根据所述合并词和未合并的剩余分词构建初始词向量矩阵;其中,所述初始词向量矩阵为N×M矩阵,其中,N为分词总数、M为每一个分词对应的向量维数,所述分词总数为所述合并词和未合并的剩余分词之和;
采用所述Word2vec模型对所述语料库进行滑窗取词,以获取训练样本;
采用所述SKIP-GRAM模型对所述训练样本进行训练,以获取基于所述初始词向量矩阵的优化词向量矩阵。
2.根据权利要求1所述的方法,其特征在于,所述根据所有余弦距离和所述预设词库,获取所述待查找分词的n个同义词,包括:
按照所有余弦距离的数值由小到大的顺序对与所有余弦距离对应的其他向量进行排序;
获取排序中的第一个向量对应的分词,确定第一个向量对应的分词是否在所述预设词库中;
若确定为是,则将所述第一个向量对应的分词作为一个同义词,再确定第二个向量对应的分词是否在所述预设词库中,并重复执行,直到获取到n个同义词。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若确定为不是,则将所述第一个向量对应的分词剔除;再确定第二个向量对应的分词是否在所述预设词库中,并重复执行,直到获取到n个同义词。
4.根据权利要求1至3任一所述的方法,其特征在于,在所述获取所述待查找分词的n个同义词的步骤之后,所述方法还包括:
将所述n个同义词对应的向量维数都降至二维,以平面显示所述n个同义词。
5.根据权利要求1所述的方法,其特征在于,所述对语料库进行分词,包括:
采用jieba库对语料库进行分词。
6.根据权利要求1所述的方法,其特征在于,所述预设词库为包含有医学专业词的医学词库。
7.一种查找同义词的装置,其特征在于,包括:
输入单元,用于输入待查找分词至优化词向量矩阵;所述优化词向量矩阵是采用预设模型得到的;所述预设模型包括用于获取词向量的Word2vec模型和用于将所述分词作为训练样本,并进行训练的SKIP-GRAM模型;所述待查找分词为预设词库中的分词;
计算单元,用于在所述优化词向量矩阵中获取与所述待查找分词对应的目标词向量;并分别计算所述目标词向量和所述优化词向量矩阵中的其它向量的余弦距离;
查找单元,用于根据所有余弦距离和所述预设词库,获取所述待查找分词的n个同义词;
其中,所述优化词向量矩阵的获取,包括:
对语料库进行分词;
在得到的分词中获取包含在所述预设词库中的目标分词;
根据所述预设词库对所述目标分词进行合并,以获取合并词;其中,所述预设词库包括预设合并词与预设分词之间的对应关系;
根据所述合并词和未合并的剩余分词构建初始词向量矩阵;其中,所述初始词向量矩阵为N×M矩阵,其中,N为分词总数、M为每一个分词对应的向量维数,所述分词总数为所述合并词和未合并的剩余分词之和;
采用所述Word2vec模型对所述语料库进行滑窗取词,以获取训练样本;
采用所述SKIP-GRAM模型对所述训练样本进行训练,以获取基于所述初始词向量矩阵的优化词向量矩阵。
8.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。
9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至6任一所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811181685.9A CN109543175B (zh) | 2018-10-11 | 2018-10-11 | 一种查找同义词的方法及装置 |
PCT/CN2019/124513 WO2020074022A1 (zh) | 2018-10-11 | 2019-12-11 | 一种查找同义词的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811181685.9A CN109543175B (zh) | 2018-10-11 | 2018-10-11 | 一种查找同义词的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109543175A CN109543175A (zh) | 2019-03-29 |
CN109543175B true CN109543175B (zh) | 2020-06-02 |
Family
ID=65843573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811181685.9A Active CN109543175B (zh) | 2018-10-11 | 2018-10-11 | 一种查找同义词的方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109543175B (zh) |
WO (1) | WO2020074022A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543175B (zh) * | 2018-10-11 | 2020-06-02 | 北京诺道认知医学科技有限公司 | 一种查找同义词的方法及装置 |
CN111191454A (zh) * | 2020-01-06 | 2020-05-22 | 精硕科技(北京)股份有限公司 | 一种实体匹配的方法及装置 |
CN111241833A (zh) * | 2020-01-16 | 2020-06-05 | 支付宝(杭州)信息技术有限公司 | 一种文本数据的分词方法、装置及电子设备 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050033568A1 (en) * | 2003-08-08 | 2005-02-10 | Hong Yu | Methods and systems for extracting synonymous gene and protein terms from biological literature |
CN105718586B (zh) * | 2016-01-26 | 2018-12-28 | 中国人民解放军国防科学技术大学 | 分词的方法及装置 |
CN105786782B (zh) * | 2016-03-25 | 2018-10-19 | 北京搜狗信息服务有限公司 | 一种词向量的训练方法和装置 |
CN106844346B (zh) * | 2017-02-09 | 2020-08-25 | 北京红马传媒文化发展有限公司 | 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统 |
CN107291914A (zh) * | 2017-06-27 | 2017-10-24 | 达而观信息科技(上海)有限公司 | 一种生成搜索引擎查询扩展词的方法及系统 |
CN107451126B (zh) * | 2017-08-21 | 2020-07-28 | 广州多益网络股份有限公司 | 一种近义词筛选方法及系统 |
CN107748755B (zh) * | 2017-09-19 | 2019-11-05 | 华为技术有限公司 | 同义词挖掘方法、装置、设备和计算机可读存储介质 |
CN108133045B (zh) * | 2018-01-12 | 2020-07-24 | 广州杰赛科技股份有限公司 | 关键词提取方法与系统、关键词提取模型生成方法与系统 |
CN109543175B (zh) * | 2018-10-11 | 2020-06-02 | 北京诺道认知医学科技有限公司 | 一种查找同义词的方法及装置 |
-
2018
- 2018-10-11 CN CN201811181685.9A patent/CN109543175B/zh active Active
-
2019
- 2019-12-11 WO PCT/CN2019/124513 patent/WO2020074022A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN109543175A (zh) | 2019-03-29 |
WO2020074022A1 (zh) | 2020-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
US11361569B2 (en) | Hierarchical neural networks with granularized attention | |
CN109543175B (zh) | 一种查找同义词的方法及装置 | |
Ling et al. | Integrating extra knowledge into word embedding models for biomedical NLP tasks | |
US10796095B2 (en) | Prediction of tone of interpersonal text communications | |
CN113011689B (zh) | 软件开发工作量的评估方法、装置及计算设备 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
Fouzia Sayeedunnissa et al. | Supervised opinion mining of social network data using a bag-of-words approach on the cloud | |
CN114579430A (zh) | 一种基于预训练语言模型的测试用例推荐系统及方法 | |
Chandrasekaran et al. | Student Sentiment Analysis Using Various Machine Learning Techniques | |
CN115757775B (zh) | 基于文本蕴含的无触发词文本事件检测方法及系统 | |
Ahmad et al. | Sentiment Analysis System of Indonesian tweets using lexicon and naïve Bayes approach | |
Obagbuwa et al. | Supervised machine learning models for depression sentiment analysis | |
CN117291192B (zh) | 一种政务文本语义理解分析方法及系统 | |
CN110019556B (zh) | 一种话题新闻获取方法、装置及其设备 | |
EP3293689A1 (en) | Estimating conditional probabilities | |
Nguyen et al. | A model of convolutional neural network combined with external knowledge to measure the question similarity for community question answering systems | |
CN110851600A (zh) | 基于深度学习的文本数据处理方法及装置 | |
CN114239583B (zh) | 实体链指模型的训练及实体链指方法、装置、设备及介质 | |
Elfaik | Deep contextualized embeddings for sentiment analysis of Arabic book's reviews | |
CN115577109A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN115906824A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
Devkota et al. | Knowledge of the ancestors: Intelligent ontology-aware annotation of biological literature using semantic similarity | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN112329478A (zh) | 一种构建因果关系确定模型的方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |