CN110427613A - 一种近义词发现方法及其系统、计算机可读存储介质 - Google Patents

一种近义词发现方法及其系统、计算机可读存储介质 Download PDF

Info

Publication number
CN110427613A
CN110427613A CN201910638943.XA CN201910638943A CN110427613A CN 110427613 A CN110427613 A CN 110427613A CN 201910638943 A CN201910638943 A CN 201910638943A CN 110427613 A CN110427613 A CN 110427613A
Authority
CN
China
Prior art keywords
near synonym
vocabulary
identified
semantic analysis
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910638943.XA
Other languages
English (en)
Other versions
CN110427613B (zh
Inventor
饶竹一
张云翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Power Supply Bureau Co Ltd
Original Assignee
Shenzhen Power Supply Bureau Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Power Supply Bureau Co Ltd filed Critical Shenzhen Power Supply Bureau Co Ltd
Priority to CN201910638943.XA priority Critical patent/CN110427613B/zh
Publication of CN110427613A publication Critical patent/CN110427613A/zh
Application granted granted Critical
Publication of CN110427613B publication Critical patent/CN110427613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明为一种近义词发现方法及其系统、计算机可读存储介质,所述方法包括:获取原始语料数据,并确定原始语料数据中的待识别词汇;获取待识别词汇的词意向量;根据词意向量生成与词意向量对应的词向量数据库;将词意向量与词向量数据库中的近义词进行匹配,获取词向量数据库中与词意向量对应的多个候选近义词;将多个候选近义词分别替代原始语料数据中待识别词汇得到对应的多个二次语料数据;对原始语料数据进行语义分析得到第一语义分析结果,并对多个二次语料数据分别进行语义分析得到多个第二语义分析结果;将多个第二语义分析结果逐一与第一语义分析结果进行对比,并根据对比结果确定待识别词汇的近义词。本发明能够提高近义词发现的精准性。

Description

一种近义词发现方法及其系统、计算机可读存储介质
技术领域
本发明涉及近义词发现技术领域,具体涉及一种近义词发现方法及其系统、计算机可读存储介质。
背景技术
近义词,是指词汇意义相同或相近的词语,如“美好”和“美妙”、“懒惰”和“怠惰”、“枯萎”和“干枯”、“宽敞”和“宽阔”,与“近义词”意思相近的词为同义词,近义词的识别和发现在信息检索、信息表示以及编制后控制词表等,都具有十分重要的意义,目前近义词发现方法主要侧重于基于词汇字面相似度算法、基于词素的语义相似度算法以及基于语义词典的语义相似度算法,这些分类体系和词表资源都是手工构建的,无需机器学习,能够保证一定程度的质量,但是却要花费大量的人力为代价,并且人力在构建分类体系和词表资源时容易出现一定错误,影响近义词识别和发现的精准程度。
发明内容
本发明的目的在于提出一种基于词向量的近义词发现方法及其系统、计算机可读存储介质,以提高近义词识别和发现的精准性。
为了实现本发明目的,根据本发明第一方面,本发明实施例提供一种近义词发现方法,所述方法包括如下步骤:
获取原始语料数据,并确定所述原始语料数据中的待识别词汇;
获取所述待识别词汇的词意向量;
根据所述词意向量生成与所述词意向量对应的词向量数据库;
将所述词意向量与所述词向量数据库中的近义词进行匹配,获取词向量数据库中与所述词意向量对应的多个候选近义词;
将所述多个候选近义词分别替代所述原始语料数据中待识别词汇得到对应的多个二次语料数据;
对所述原始语料数据进行语义分析得到第一语义分析结果,并对所述多个二次语料数据分别进行语义分析得到多个第二语义分析结果;
将所述多个第二语义分析结果逐一与所述第一语义分析结果进行对比,并根据对比结果确定所述待识别词汇的近义词。
优选地,所述获取所述待识别词汇的词意向量包括:
根据所述待识别词汇得到与所述待识别词汇对应的多个词意向量;
采用局部加权算法对所述多个词意向量进行优化得到所述待识别词汇的最优解词向量。
优选地,所述根据所述词意向量生成与所述词意向量对应的词向量数据库包括:
采用词意向量训练工具对所述词意向量进行训练得到与所述词意向量对应的词向量数据库,所述词向量数据库包括与所述待识别词汇对应的多个候选近义词。
优选地,所述根据对比结果确定所述待识别词汇的近义词包括:
若一候选近义词所对应的第二语义分析结果与所述第一语义分析结果的对比结果为存在语义偏差,则确定该候选近义词不是所述待识别词汇的近义词,否则,确定该候选近义词为所述待识别词汇的近义词。
优选地,所述根据对比结果确定所述待识别词汇的近义词包括:
若根据对比结果确定所述待识别词汇的近义词为一个,则输出该近义词;
若根据对比结果确定所述待识别词汇的近义词为多个,则分别计算多个近义词与所述待识别词汇的词意向量的相似度,并将多个近义词按相似度排序后输出。
根据本发明第二方面,本发明实施例提供一种近义词发现系统,包括:
数据获取单元,被配置为获取原始语料数据并确定所述原始语料数据中的待识别词汇;
词意向量获取单元,被配置为获取所述待识别词汇的词意向量;
数据库生成单元,被配置为根据所述词意向量生成与所述词意向量对应的词向量数据库;
近义词匹配单元,被配置为将所述词意向量与所述词向量数据库中的近义词进行匹配,获取词向量数据库中与所述词意向量对应的多个候选近义词;
语料数据处理单元,被配置为将所述多个候选近义词分别替代所述原始语料数据中待识别词汇得到对应的多个二次语料数据;
语义分析单元,被配置为对所述原始语料数据进行语义分析得到第一语义分析结果,并对所述多个二次语料数据分别进行语义分析得到多个第二语义分析结果;
近义词筛选单元,被配置为将所述多个第二语义分析结果逐一与所述第一语义分析结果进行对比,并根据对比结果确定所述待识别词汇的近义词。
优选地,所述词意向量获取单元包括:
第一词意向量单元,被配置为根据所述待识别词汇得到与所述待识别词汇对应的多个词意向量;
第二词意向量单元,被配置为采用局部加权算法对所述多个词意向量进行优化得到所述待识别词汇的最优解词向量。
优选地,所述近义词筛选单元包括:
语义对比单元,用于将所述多个第二语义分析结果逐一与所述第一语义分析结果进行对比;
近义词确定单元,用于根据对比结果确定所述待识别词汇的近义词;其中,若一候选近义词所对应的第二语义分析结果与所述第一语义分析结果的对比结果为存在语义偏差,则确定该候选近义词不是所述待识别词汇的近义词,否则,确定该候选近义词为所述待识别词汇的近义词。
优选地,所述近义词筛选单元包括:
近义词排序输出单元,被配置为将近义词进行排序并输出;其中,若根据对比结果确定所述待识别词汇的近义词为一个,则输出该近义词;若根据对比结果确定所述待识别词汇的近义词为多个,则分别计算多个近义词与所述待识别词汇的词意向量的相似度,并将多个近义词按相似度排序后输出。
根据本发明第三方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述近义词发现方法。
在本发明实施例中,采用词向量训练工具对需要发现近义词的数据进行数据库和词向量训练得到对应的模型,通过预先训练好的模型获取待识别词汇的多个候选近义词,然后将所述多个候选近义词分别替代所述原始语料数据中待识别词汇得到对应的多个二次语料数据;基于深度学习网络模型对所述原始语料数据和所述多个二次语料数据分别进行语义分析得到第一语义结果和多个第二语义分析结果;最后将所述多个第二语义分析结果逐一与所述第一语义分析结果进行对比,并根据对比结果确定所述待识别词汇的近义词。本发明实施例提供的方法步骤可以在计算机上自动执行,解决人力在构建分类体系和词表资源时容易出现错误的问题,提高近义词识别和发现的精准程度和效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而得以体现。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一中一种近义词发现方法流程图。
图2为本发明实施例二中一种近义词发现系统示意图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
另外,为了更好的说明本发明,在下文的具体实施例中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的手段未作详细描述,以便于凸显本发明的主旨。
如图1所示,本发明实施例一提供本发明实施例提供一种近义词发现方法,所述方法包括如下步骤:
步骤S1、获取原始语料数据,并确定所述原始语料数据中的待识别词汇;
步骤S2、获取所述待识别词汇的词意向量;
步骤S3、根据所述词意向量生成与所述词意向量对应的词向量数据库;
步骤S4、将所述词意向量与所述词向量数据库中的近义词进行匹配,获取词向量数据库中与所述词意向量对应的多个候选近义词;
步骤S5、将所述多个候选近义词分别替代所述原始语料数据中待识别词汇得到对应的多个二次语料数据;
步骤S6、对所述原始语料数据进行语义分析得到第一语义分析结果,并对所述多个二次语料数据分别进行语义分析得到多个第二语义分析结果;
步骤S7、将所述多个第二语义分析结果逐一与所述第一语义分析结果进行对比,并根据对比结果确定所述待识别词汇的近义词。
具体而言,本实施例在进行近义词的识别和发现之前,将需要发现同义词的数据进行采集,在获取需要发现同义词的数据时,会将需要发现同义词的词汇所在段落和文档进行整体采集,随后对采集到的语料数据依次进行去标点符号、分词、去停用词和大写转换为小写处理,选取语料数据中给定的词汇,对词汇所在段落进行去标点符号、分词、去停用词和大写转换为小写处理;词库内存储的词汇数据会通过词向量训练工具进行训练,得到对应每个词汇的词向量数据库,并将词向量数据库进行保存;使用词向量训练工具(例如Word2vec)分别对预处理后的语料数据和语料数据中的词汇进行训练,之后通过梯度优化的方式,对训练得出的对应语料数据的词向量和对应词汇的词向量进行处理,得出语料数据的词向量和对应词汇的词向量最优解。其中,最优解是指代入的语料数据的词向量和对应词汇的词向量与词向量数据库对比,产生的最相似解,采用梯度下降算法,将得出的语料数据词向量和对应词汇词向量最优解进行计算,求解原理为梯度下降算法计算。其中,自然语言处理的都是文字,如要对100个文字的小段文本做分析,而算法运算需要的输入是数字,比如y=w*x+b,无论是中文汉字还是英文字母,都需要将文字映射成数字才行,映射后的结果就是词向量,词库内的词汇数据会在训练后形成计算机能快速识别的词向量数据。
在一些实施例中,所述步骤S2包括:
根据所述待识别词汇得到与所述待识别词汇对应的多个词意向量;
采用局部加权算法对所述多个词意向量进行优化得到所述待识别词汇的最优解词向量。
具体而言,局部加权算法是指在每次预测新样本时会重新训练临近的数据得到新参数值,从而得到样本的最优解。
在一些实施例中,所述步骤S3包括:
采用词意向量训练工具对所述词意向量进行训练得到与所述词意向量对应的词向量数据库,所述词向量数据库包括与所述待识别词汇对应的多个候选近义词。
在一些实施例中,所述步骤S7中根据对比结果确定所述待识别词汇的近义词包括:
若一候选近义词所对应的第二语义分析结果与所述第一语义分析结果的对比结果为存在语义偏差,则确定该候选近义词不是所述待识别词汇的近义词,否则,确定该候选近义词为所述待识别词汇的近义词。
在一些实施例中,所述步骤S7中根据对比结果确定所述待识别词汇的近义词包括:
若根据对比结果确定所述待识别词汇的近义词为一个,则输出该近义词;
若根据对比结果确定所述待识别词汇的近义词为多个,则分别计算多个近义词与所述待识别词汇的词意向量的相似度,并将多个近义词按相似度排序后输出。
具体而言,所述相似度通过计算得出的词向量数据库中与词汇词意向量会转化为计算机所能识别的语言进行校对,将计算得出的词向量数据库中与词汇词意向量进行对比,计算机可自动筛选出差异最小的词汇。
进一步地,根据近义词对应的相似度与预设相似度的比较结果来确定近义词最终是否输出该近义词,例如只输出相似度大于90%的近义词。
如图2所示,本发明实施例二提供一种近义词发现系统,包括:
数据获取单元1,被配置为获取原始语料数据并确定所述原始语料数据中的待识别词汇;
词意向量获取单元2,被配置为获取所述待识别词汇的词意向量;
数据库生成单元3,被配置为根据所述词意向量生成与所述词意向量对应的词向量数据库;
近义词匹配单元4,被配置为将所述词意向量与所述词向量数据库中的近义词进行匹配,获取词向量数据库中与所述词意向量对应的多个候选近义词;
语料数据处理单元5,被配置为将所述多个候选近义词分别替代所述原始语料数据中待识别词汇得到对应的多个二次语料数据;
语义分析单元6,被配置为对所述原始语料数据进行语义分析得到第一语义分析结果,并对所述多个二次语料数据分别进行语义分析得到多个第二语义分析结果;
近义词筛选单元7,被配置为将所述多个第二语义分析结果逐一与所述第一语义分析结果进行对比,并根据对比结果确定所述待识别词汇的近义词。
在一些实施例中,所述词意向量获取单元2包括:
第一词意向量单元21,被配置为根据所述待识别词汇得到与所述待识别词汇对应的多个词意向量;
第二词意向量单元22,被配置为采用局部加权算法对所述多个词意向量进行优化得到所述待识别词汇的最优解词向量。
在一些实施例中,所述近义词筛选单元7包括:
语义对比单元71,用于将所述多个第二语义分析结果逐一与所述第一语义分析结果进行对比;
近义词确定单元72,用于根据对比结果确定所述待识别词汇的近义词;其中,若一候选近义词所对应的第二语义分析结果与所述第一语义分析结果的对比结果为存在语义偏差,则确定该候选近义词不是所述待识别词汇的近义词,否则,确定该候选近义词为所述待识别词汇的近义词。
在一些实施例中,所述近义词筛选单元7包括:
近义词排序输出单元73,被配置为将近义词进行排序并输出;其中,若根据对比结果确定所述待识别词汇的近义词为一个,则输出该近义词;若根据对比结果确定所述待识别词汇的近义词为多个,则分别计算多个近义词与所述待识别词汇的词意向量的相似度,并将多个近义词按相似度排序后输出。
需说明的是,本实施例二所述系统用于实现所述实施例一所述方法,因此,关于本实施例二所述系统未详述的有关部分可以参阅实施例一所述方法得到,此处不再赘述。
还应该理解,可以以很多方式实施实施例一所述方法和实施例二所述系统,包括作为过程、装置或系统。本文中所述的方法可以部分地由用于指示处理器执行这种方法的程序指令、以及记录在非暂态计算机可读存储介质上的该指令而实施,非暂态计算机可读存储介质诸如硬盘驱动、软盘、光碟(诸如小型碟(CD)或数字通用碟(DVD))、闪速存储器等。在一些实施例中,程序指令可以被远程存储并且经由光学或电子通信链路而在网络上被发送。
本发明实施例三提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例一所述的近义词发现方法。
通过以上实施例描述可知,本发明采用词向量训练工具对需要发现近义词的数据进行数据库和词向量训练得到对应的模型,通过预先训练好的模型获取待识别词汇的多个候选近义词,然后将所述多个候选近义词分别替代所述原始语料数据中待识别词汇得到对应的多个二次语料数据;基于深度学习网络模型对所述原始语料数据和所述多个二次语料数据分别进行语义分析得到第一语义结果和多个第二语义分析结果;最后将所述多个第二语义分析结果逐一与所述第一语义分析结果进行对比,并根据对比结果确定所述待识别词汇的近义词。本发明实施例提供的方法步骤可以在计算机上自动执行,解决人力在构建分类体系和词表资源时容易出现错误的问题,提高近义词识别和发现的精准程度和效率。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种近义词发现方法,其特征在于,所述方法包括如下步骤:
获取原始语料数据,并确定所述原始语料数据中的待识别词汇;
获取所述待识别词汇的词意向量;
根据所述词意向量生成与所述词意向量对应的词向量数据库;
将所述词意向量与所述词向量数据库中的近义词进行匹配,获取词向量数据库中与所述词意向量对应的多个候选近义词;
将所述多个候选近义词分别替代所述原始语料数据中待识别词汇得到对应的多个二次语料数据;
对所述原始语料数据进行语义分析得到第一语义分析结果,并对所述多个二次语料数据分别进行语义分析得到多个第二语义分析结果;
将所述多个第二语义分析结果逐一与所述第一语义分析结果进行对比,并根据对比结果确定所述待识别词汇的近义词。
2.如权利要求1所述的近义词发现方法,其特征在于,所述获取所述待识别词汇的词意向量包括:
根据所述待识别词汇得到与所述待识别词汇对应的多个词意向量;
采用局部加权算法对所述多个词意向量进行优化得到所述待识别词汇的最优解词向量。
3.如权利要求1所述的近义词发现方法,其特征在于,所述根据所述词意向量生成与所述词意向量对应的词向量数据库包括:
采用词意向量训练工具对所述词意向量进行训练得到与所述词意向量对应的词向量数据库,所述词向量数据库包括与所述待识别词汇对应的多个候选近义词。
4.如权利要求1所述的近义词发现方法,其特征在于,所述根据对比结果确定所述待识别词汇的近义词包括:
若一候选近义词所对应的第二语义分析结果与所述第一语义分析结果的对比结果为存在语义偏差,则确定该候选近义词不是所述待识别词汇的近义词,否则,确定该候选近义词为所述待识别词汇的近义词。
5.如权利要求4所述的近义词发现方法,其特征在于,所述根据对比结果确定所述待识别词汇的近义词包括:
若根据对比结果确定所述待识别词汇的近义词为一个,则输出该近义词;
若根据对比结果确定所述待识别词汇的近义词为多个,则分别计算多个近义词与所述待识别词汇的词意向量的相似度,并将多个近义词按相似度排序后输出。
6.一种近义词发现系统,其特征在于,包括:
数据获取单元,被配置为获取原始语料数据并确定所述原始语料数据中的待识别词汇;
词意向量获取单元,被配置为获取所述待识别词汇的词意向量;
数据库生成单元,被配置为根据所述词意向量生成与所述词意向量对应的词向量数据库;
近义词匹配单元,被配置为将所述词意向量与所述词向量数据库中的近义词进行匹配,获取词向量数据库中与所述词意向量对应的多个候选近义词;
语料数据处理单元,被配置为将所述多个候选近义词分别替代所述原始语料数据中待识别词汇得到对应的多个二次语料数据;
语义分析单元,被配置为对所述原始语料数据进行语义分析得到第一语义分析结果,并对所述多个二次语料数据分别进行语义分析得到多个第二语义分析结果;
近义词筛选单元,被配置为将所述多个第二语义分析结果逐一与所述第一语义分析结果进行对比,并根据对比结果确定所述待识别词汇的近义词。
7.如权利要求6所述的近义词发现系统,其特征在于,所述词意向量获取单元包括:
第一词意向量单元,被配置为根据所述待识别词汇得到与所述待识别词汇对应的多个词意向量;
第二词意向量单元,被配置为采用局部加权算法对所述多个词意向量进行优化得到所述待识别词汇的最优解词向量。
8.如权利要求6所述的近义词发现系统,其特征在于,所述近义词筛选单元包括:
语义对比单元,用于将所述多个第二语义分析结果逐一与所述第一语义分析结果进行对比;
近义词确定单元,用于根据对比结果确定所述待识别词汇的近义词;其中,若一候选近义词所对应的第二语义分析结果与所述第一语义分析结果的对比结果为存在语义偏差,则确定该候选近义词不是所述待识别词汇的近义词,否则,确定该候选近义词为所述待识别词汇的近义词。
9.如权利要求8所述的近义词发现系统,其特征在于,所述近义词筛选单元包括:
近义词排序输出单元,被配置为将近义词进行排序并输出;其中,若根据对比结果确定所述待识别词汇的近义词为一个,则输出该近义词;若根据对比结果确定所述待识别词汇的近义词为多个,则分别计算多个近义词与所述待识别词汇的词意向量的相似度,并将多个近义词按相似度排序后输出。
10.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1~5中任一项所述的近义词发现方法。
CN201910638943.XA 2019-07-16 2019-07-16 一种近义词发现方法及其系统、计算机可读存储介质 Active CN110427613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910638943.XA CN110427613B (zh) 2019-07-16 2019-07-16 一种近义词发现方法及其系统、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910638943.XA CN110427613B (zh) 2019-07-16 2019-07-16 一种近义词发现方法及其系统、计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110427613A true CN110427613A (zh) 2019-11-08
CN110427613B CN110427613B (zh) 2022-12-13

Family

ID=68409598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910638943.XA Active CN110427613B (zh) 2019-07-16 2019-07-16 一种近义词发现方法及其系统、计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110427613B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372063A (zh) * 2016-11-01 2017-02-01 上海智臻智能网络科技股份有限公司 信息处理方法、装置及终端
CN107451126A (zh) * 2017-08-21 2017-12-08 广州多益网络股份有限公司 一种近义词筛选方法及系统
CN107665188A (zh) * 2016-07-27 2018-02-06 科大讯飞股份有限公司 一种语义理解方法及装置
CN108255810A (zh) * 2018-01-10 2018-07-06 北京神州泰岳软件股份有限公司 近义词挖掘方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665188A (zh) * 2016-07-27 2018-02-06 科大讯飞股份有限公司 一种语义理解方法及装置
CN106372063A (zh) * 2016-11-01 2017-02-01 上海智臻智能网络科技股份有限公司 信息处理方法、装置及终端
CN107451126A (zh) * 2017-08-21 2017-12-08 广州多益网络股份有限公司 一种近义词筛选方法及系统
CN108255810A (zh) * 2018-01-10 2018-07-06 北京神州泰岳软件股份有限公司 近义词挖掘方法、装置及电子设备

Also Published As

Publication number Publication date
CN110427613B (zh) 2022-12-13

Similar Documents

Publication Publication Date Title
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
CN106847288B (zh) 语音识别文本的纠错方法与装置
US20240028837A1 (en) Device and method for machine reading comprehension question and answer
CN110929038B (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
CN104699763B (zh) 多特征融合的文本相似性度量系统
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
US11113323B2 (en) Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering
CN110781276A (zh) 文本抽取方法、装置、设备及存储介质
CN109918485B (zh) 语音识别菜品的方法及装置、存储介质、电子装置
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN105930452A (zh) 一种识别自然语言的智能应答方法
KR20200127020A (ko) 의미 텍스트 데이터를 태그와 매칭시키는 방법, 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체
CN107357765A (zh) Word文档碎片化方法及装置
Gunaseelan et al. Automatic extraction of segments from resumes using machine learning
CN109408175B (zh) 通用高性能深度学习计算引擎中的实时交互方法及系统
WO2008062822A1 (fr) Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte
KR101811565B1 (ko) 자연어 질의에 대한 전문가 답변을 제공하는 시스템
CN110413779B (zh) 一种针对电力行业的词向量训练方法及其系统、介质
CN116795789A (zh) 自动生成专利检索报告的方法及装置
CN115017271B (zh) 用于智能生成rpa流程组件块的方法及系统
WO2020144736A1 (ja) 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム
CN110427613A (zh) 一种近义词发现方法及其系统、计算机可读存储介质
JP2019204415A (ja) 言い回し文生成方法、言い回し文装置及びプログラム
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant