CN106547732A - 近义词识别方法和近义词识别系统 - Google Patents

近义词识别方法和近义词识别系统 Download PDF

Info

Publication number
CN106547732A
CN106547732A CN201610900127.8A CN201610900127A CN106547732A CN 106547732 A CN106547732 A CN 106547732A CN 201610900127 A CN201610900127 A CN 201610900127A CN 106547732 A CN106547732 A CN 106547732A
Authority
CN
China
Prior art keywords
near synonym
word
undetermined
process step
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610900127.8A
Other languages
English (en)
Inventor
杨吉雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE ICT Technologies Co Ltd
Original Assignee
ZTE ICT Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE ICT Technologies Co Ltd filed Critical ZTE ICT Technologies Co Ltd
Priority to CN201610900127.8A priority Critical patent/CN106547732A/zh
Publication of CN106547732A publication Critical patent/CN106547732A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种近义词识别方法和近义词识别系统,其中,所述近义词识别方法包括:将实体词作为关键词进行检索;处理步骤:计算检索结果中符合预设条件的词与所述实体词之间的相似度,根据所述相似度,在所述符合预设条件的词中选择出所述实体词的待定近义词;将所述待定近义词作为所述关键词进行检索,并重新执行所述处理步骤,直到接收到停止迭代的信号时为止;根据在接收到所述停止迭代的信号时选择出的所述待定近义词,确定所述实体词的目标近义词。通过本发明的技术方案,可以有效地识别出近义词,且避免花费大量的人力进行近义词的识别。

Description

近义词识别方法和近义词识别系统
技术领域
本发明涉及计算机处理自然语言的技术领域,具体而言,涉及一种近义词识别方法和一种近义词识别系统。
背景技术
近义词的自动识别在信息检索、信息表示(如文本信息自动赋词标引、自动分类等)、以及编制后控制词表等,都具有十分重要的意义。目前近义词识别方法主要侧重于基于词汇字面相似度算法、基于词素的语义相似度算法、以及基于《近义词词林》、《知网》等语义词典的语义相似度算法。这些分类体系和词表资源都是手工构建的,无需机器学习,能够保证一定程度的质量,但是以花费大量的人力为代价的。
所以,有必要提出一种新的近义词识别方法,以解决在互联网应用中不断出现的新词汇,如何自动有效地获取近义词的技术问题。
因此,如何有效地识别出近义词,且避免花费大量的人力进行近义词的识别成为亟待解决的技术问题。
发明内容
本发明正是基于上述问题,提出了一种新的技术方案,可以有效地识别出近义词,且避免花费大量的人力进行近义词的识别。
有鉴于此,本发明的第一方面提出了一种近义词识别方法,包括:将实体词作为关键词进行检索;处理步骤:计算检索结果中符合预设条件的词与所述实体词之间的相似度,根据所述相似度,在所述符合预设条件的词中选择出所述实体词的待定近义词;将所述待定近义词作为所述关键词进行检索,并重新执行所述处理步骤,直到接收到停止迭代的信号时为止;根据在接收到所述停止迭代的信号时选择出的所述待定近义词,确定所述实体词的目标近义词。
在该技术方案中,通过对检索结果进行统计分析,并进行多次迭代确定实体词的目标近义词,在无需人工干预的前提下,自动、高效、准确地识别出近义词,避免花费大量的人力进行识别。
在上述技术方案中,优选地,所述计算检索结果中符合预设条件的词与所述实体词之间的相似度的步骤,具体包括:为所述符合预设条件的词赋予权重值;生成所述符合预设条件的词对应的词向量;根据所述权重值,计算所述词向量与所述实体词之间的距离,以根据所述距离,确定所述相似度。
在该技术方案中,通过计算检索结果中符合预设条件的词对应的词向量与实体词之间的距离,可以准确地确定检索结果中的词与实体词之间的相似度,从而保证了近义词识别的准确性和可靠性。
在上述任一技术方案中,优选地,通过搜索引擎对所述关键词进行检索。
在该技术方案中,通过搜索引擎进行检索,可见,参与检索的数据相当于利用一个超大型的语料库,在一定程度上解决了数据稀疏的问题。而且避免预先标注词典或大规模的预料,从而提高了近义词识别的效率。
在上述任一技术方案中,优选地,在重新执行所述处理步骤的情况下,当前选择出的所述待定近义词与上次选择出的所述待定近义词不同。
在该技术方案中,当前选择出的待定近义词与上次选择出的待定近义词不同,进一步地保证了识别近义词的高效性和准确性。
在上述任一技术方案中,优选地,所述停止迭代的信号包括:执行所述处理步骤的次数达到预设次数时触发的信号、和/或执行完所述处理步骤后所述待定近义词的个数为预设个数时触发的信号。
在该技术方案中,可以在进行迭代的次数为预设次数时停止迭代,也可以在选择出的待定近义词的个数为预设个数(例如一个或者两个)时停止迭代,从而使用户可以根据自己的实际需求来进行近义词识别。
本发明的第二方面提出了一种近义词识别系统,包括:检索单元,用于将实体词作为关键词进行检索;处理单元,用于执行处理步骤:计算检索结果中符合预设条件的词与所述实体词之间的相似度,根据所述相似度,在所述符合预设条件的词中选择出所述实体词的待定近义词;所述检索单元还用于,将所述待定近义词作为关键词进行检索,并所述处理单元重新执行所述处理步骤,直到接收到停止迭代的信号时为止;确定单元,用于根据在接收到所述停止迭代的信号时选择出的所述待定近义词,确定所述实体词的目标近义词。
在该技术方案中,通过对检索结果进行统计分析,并进行多次迭代确定实体词的目标近义词,在无需人工干预的前提下,自动、高效、准确地识别出近义词,避免花费大量的人力进行识别。
在上述技术方案中,优选地,所述处理单元包括:赋值子单元,用于为所述符合预设条件的词赋予权重值;生成子单元,用于生成所述符合预设条件的词对应的词向量;确定子单元,用于根据所述权重值,计算所述词向量与所述实体词之间的距离,以根据所述距离,确定所述相似度。
在该技术方案中,通过计算检索结果中符合预设条件的词对应的词向量与实体词之间的距离,可以准确地确定检索结果中的词与实体词之间的相似度,从而保证了近义词识别的准确性和可靠性。
在上述任一技术方案中,优选地,通过搜索引擎对所述关键词进行检索。
在该技术方案中,通过搜索引擎进行检索,可见,参与检索的数据相当于利用一个超大型的语料库,在一定程度上解决了数据稀疏的问题。而且避免预先标注词典或大规模的预料,从而提高了近义词识别的效率。
在上述任一技术方案中,优选地,在重新执行所述处理步骤的情况下,当前选择出的所述待定近义词与上次选择出的所述待定近义词不同。
在该技术方案中,当前选择出的待定近义词与上次选择出的待定近义词不同,进一步地保证了识别近义词的高效性和准确性。
在上述任一技术方案中,优选地,所述停止迭代的信号包括:执行所述处理步骤的次数达到预设次数时触发的信号、和/或执行完所述处理步骤后所述待定近义词的个数为预设个数时触发的信号。
在该技术方案中,可以在进行迭代的次数为预设次数时停止迭代,也可以在选择出的待定近义词的个数为预设个数(例如一个或者两个)时停止迭代,从而使用户可以根据自己的实际需求来进行近义词识别。
通过本发明的技术方案,可以有效地识别出近义词,且避免花费大量的人力进行近义词的识别。
附图说明
图1示出了根据本发明的一个实施例的近义词识别方法的流程示意图;
图2示出了根据本发明的另一个实施例的近义词识别方法的流程示意图;
图3示出了根据本发明的一个实施例的近义词识别系统的结构示意图。
具体实施方式
为了可以更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的一个实施例的近义词识别方法的流程示意图。
如图1所示,根据本发明的一个实施例的近义词识别方法,包括:
步骤102,将实体词作为关键词进行检索。
步骤104,处理步骤:计算检索结果中符合预设条件的词与所述实体词之间的相似度,根据所述相似度,在所述符合预设条件的词中选择出所述实体词的待定近义词。
符合预设条件的词包括但不限于以下之一或多种的组合:检索结果中的标题、摘要、标红词、相关搜索词。
例如,在符合预设条件的词中选择出相似度最大的前5个作为待定近义词。
步骤106,将所述待定近义词作为所述关键词进行检索,并重新执行所述处理步骤,直到接收到停止迭代的信号时为止。
步骤108,根据在接收到所述停止迭代的信号时选择出的所述待定近义词,确定所述实体词的目标近义词。
例如,在最终的待定近义词中,选择出相似度最大的词作为目标近义词。
在该技术方案中,通过对检索结果进行统计分析,并进行多次迭代确定实体词的目标近义词,在无需人工干预的前提下,自动、高效、准确地识别出近义词,避免花费大量的人力进行识别。
在上述技术方案中,优选地,所述计算检索结果中符合预设条件的词与所述实体词之间的相似度的步骤,具体包括:为所述符合预设条件的词赋予权重值;生成所述符合预设条件的词对应的词向量;根据所述权重值,计算所述词向量与所述实体词之间的距离,以根据所述距离,确定所述相似度。
在该技术方案中,通过计算检索结果中符合预设条件的词对应的词向量与实体词之间的距离,可以准确地确定检索结果中的词与实体词之间的相似度,从而保证了近义词识别的准确性和可靠性。
例如,对符合预设条件的词进行深度学习训练,利用word2vec(word2vec是一个利用神经网络将词表示为连续空间向量的一个工具包),采用Skip-gram模型(连续跨词模型)训练生成对应的词向量。标红词的权重值、标题中词的权重值、摘要中词的权重值和相关搜索词的权重值依次降低。
在上述任一技术方案中,优选地,通过搜索引擎对所述关键词进行检索。
在该技术方案中,通过搜索引擎进行检索,可见,参与检索的数据相当于利用一个超大型的语料库,在一定程度上解决了数据稀疏的问题。而且避免预先标注词典或大规模的预料,从而提高了近义词识别的效率。
在上述任一技术方案中,优选地,在重新执行所述处理步骤的情况下,当前选择出的所述待定近义词与上次选择出的所述待定近义词不同。
在该技术方案中,当前选择出的待定近义词与上次选择出的待定近义词不同,进一步地保证了识别近义词的高效性和准确性。
在上述任一技术方案中,优选地,所述停止迭代的信号包括:执行所述处理步骤的次数达到预设次数时触发的信号、和/或执行完所述处理步骤后所述待定近义词的个数为预设个数时触发的信号。
在该技术方案中,可以在进行迭代的次数为预设次数时停止迭代,也可以在选择出的待定近义词的个数为预设个数(例如一个或者两个)时停止迭代,从而使用户可以根据自己的实际需求来进行近义词识别。
下面通过一个例子来进一步说明上述技术方案。
在该例子中,具有一定规模的词库;具有一定规模的业务知识库,可以从业务知识库中提取一批实体词,采用Mysql数据库,识别业务知识库中的近义词的方案具体如下。其中,在WEB(互联网)应用方面,Mysql是最好的RDBMS(Relational Database ManagementSystem,关系型数据库管理系统)应用软件之一。
第一步:对业务知识库进行分词、词性标注,提取业务知识库中的实体词。实体词是指在段落或短语中有实际意义的词,能体现整个段落或短语意思的少数几个词,提取实体词的算法包括但不限于TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆向文件频率,用于信息检索数据挖掘的常用加权技术)算法或者TextRank算法(TextRank算法是一种用于文本的排序算法)等。
第二步:用实体词作为关键词进行检索,具体使用百度、搜狐、必应等搜索引擎进行检索。
第三步:提取检索结果中的标题、摘要、标红词、相关搜索词等内容。
第四步:对标题、摘要、标红词、相关搜索词等内容进行分词、加权,并与实体词建立关联。
第五步:利用词向量生成工具,对上述语料(即标题、摘要、标红词、相关搜索词的分词)进行训练,生成对应的词向量。
第六步:计算实体词与词向量之间的距离,根据该距离确定实体词与词向量对应的词之间的相似度,取相似度最高的词作为待定近义词。
第七步:用待定近义词作为关键词进行检索,并重复第二步到第七步,以经过多次迭代获取最终的目标近义词。
图2示出了根据本发明的另一个实施例的近义词识别方法的流程示意图。
如图2所示,根据本发明的另一个实施例的近义词识别方法,包括:
步骤202,用中文分词器收集整理实体词。
步骤204,将实体词作为关键词,利用搜索引擎进行检索。
步骤206,抽取搜索结果页面中的标题、摘要、标红词、相关搜索词等内容。
步骤208,建立实体词与提取的标题、摘要、标红词、相关搜索词等内容的关联,并赋予标题、摘要、标红词、相关搜索词不同的权重值。
步骤210,用于word2vec生成标题、摘要、标红词、相关搜索词的词向量。
步骤212,计算向量空间中词向量与实体词之间的距离,提取待定近义词。并重新进入步骤204进行迭代,在进行迭代的过程中,若提取的待定近义词的数量为一个时,停止迭代,并执行步骤214。
步骤214,识别出目标近义词。将停止迭代时所提取的待定近义词作为实体词的目标近义词。
图3示出了根据本发明的一个实施例的近义词识别系统的结构示意图。
如图3所示,根据本发明的一个实施例的近义词识别系统300,包括:检索单元302、处理单元304和确定单元306。
检索单元302,用于将实体词作为关键词进行检索;处理单元304,用于执行处理步骤:计算检索结果中符合预设条件的词与所述实体词之间的相似度,根据所述相似度,在所述符合预设条件的词中选择出所述实体词的待定近义词;所述检索单元302还用于,将所述待定近义词作为关键词进行检索,并所述处理单元304重新执行所述处理步骤,直到接收到停止迭代的信号时为止;确定单元306,用于根据在接收到所述停止迭代的信号时选择出的所述待定近义词,确定所述实体词的目标近义词。
在该技术方案中,通过对检索结果进行统计分析,并进行多次迭代确定实体词的目标近义词,在无需人工干预的前提下,自动、高效、准确地识别出近义词,避免花费大量的人力进行识别。
在上述技术方案中,优选地,所述处理单元304包括:赋值子单元3042,用于为所述符合预设条件的词赋予权重值;生成子单元3044,用于生成所述符合预设条件的词对应的词向量;确定子单元3046,用于根据所述权重值,计算所述词向量与所述实体词之间的距离,以根据所述距离,确定所述相似度。
在该技术方案中,通过计算检索结果中符合预设条件的词对应的词向量与实体词之间的距离,可以准确地确定检索结果中的词与实体词之间的相似度,从而保证了近义词识别的准确性和可靠性。
在上述任一技术方案中,优选地,通过搜索引擎对所述关键词进行检索。
在该技术方案中,通过搜索引擎进行检索,可见,参与检索的数据相当于利用一个超大型的语料库,在一定程度上解决了数据稀疏的问题。而且避免预先标注词典或大规模的预料,从而提高了近义词识别的效率。
在上述任一技术方案中,优选地,在重新执行所述处理步骤的情况下,当前选择出的所述待定近义词与上次选择出的所述待定近义词不同。
在该技术方案中,当前选择出的待定近义词与上次选择出的待定近义词不同,进一步地保证了识别近义词的高效性和准确性。
在上述任一技术方案中,优选地,所述停止迭代的信号包括:执行所述处理步骤的次数达到预设次数时触发的信号、和/或执行完所述处理步骤后所述待定近义词的个数为预设个数时触发的信号。
在该技术方案中,可以在进行迭代的次数为预设次数时停止迭代,也可以在选择出的待定近义词的个数为预设个数(例如一个或者两个)时停止迭代,从而使用户可以根据自己的实际需求来进行近义词识别。
以上结合附图详细说明了本发明的技术方案,通过本发明的技术方案,可以有效地识别出近义词,且避免花费大量的人力进行近义词的识别。
在本发明中,术语“第一”、“第二”仅用于描述的目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种近义词识别方法,其特征在于,包括:
将实体词作为关键词进行检索;
处理步骤:计算检索结果中符合预设条件的词与所述实体词之间的相似度,根据所述相似度,在所述符合预设条件的词中选择出所述实体词的待定近义词;
将所述待定近义词作为所述关键词进行检索,并重新执行所述处理步骤,直到接收到停止迭代的信号时为止;
根据在接收到所述停止迭代的信号时选择出的所述待定近义词,确定所述实体词的目标近义词。
2.根据权利要求1所述的近义词识别方法,其特征在于,所述计算检索结果中符合预设条件的词与所述实体词之间的相似度的步骤,具体包括:
为所述符合预设条件的词赋予权重值;
生成所述符合预设条件的词对应的词向量;
根据所述权重值,计算所述词向量与所述实体词之间的距离,以根据所述距离,确定所述相似度。
3.根据权利要求1所述的近义词识别方法,其特征在于,
通过搜索引擎对所述关键词进行检索。
4.根据权利要求1至3中任一项所述的近义词识别方法,其特征在于,
在重新执行所述处理步骤的情况下,当前选择出的所述待定近义词与上次选择出的所述待定近义词不同。
5.根据权利要求1至3中任一项所述的近义词识别方法,其特征在于,
所述停止迭代的信号包括:执行所述处理步骤的次数达到预设次数时触发的信号、和/或执行完所述处理步骤后所述待定近义词的个数为预设个数时触发的信号。
6.一种近义词识别系统,其特征在于,包括:
检索单元,用于将实体词作为关键词进行检索;
处理单元,用于执行处理步骤:计算检索结果中符合预设条件的词与所述实体词之间的相似度,根据所述相似度,在所述符合预设条件的词中选择出所述实体词的待定近义词;
所述检索单元还用于,将所述待定近义词作为所述关键词进行检索,并所述处理单元重新执行所述处理步骤,直到接收到停止迭代的信号时为止;
确定单元,用于根据在接收到所述停止迭代的信号时选择出的所述待定近义词,确定所述实体词的目标近义词。
7.根据权利要求6所述的近义词识别系统,其特征在于,所述处理单元包括:
赋值子单元,用于为所述符合预设条件的词赋予权重值;
生成子单元,用于生成所述符合预设条件的词对应的词向量;
确定子单元,用于根据所述权重值,计算所述词向量与所述实体词之间的距离,以根据所述距离,确定所述相似度。
8.根据权利要求6所述的近义词识别系统,其特征在于,
通过搜索引擎对所述关键词进行检索。
9.根据权利要求6至8中任一项所述的近义词识别系统,其特征在于,
在重新执行所述处理步骤的情况下,当前选择出的所述待定近义词与上次选择出的所述待定近义词不同。
10.根据权利要求6至8中任一项所述的近义词识别系统,其特征在于,
所述停止迭代的信号包括:执行所述处理步骤的次数达到预设次数时触发的信号、和/或执行完所述处理步骤后所述待定近义词的个数为预设个数时触发的信号。
CN201610900127.8A 2016-10-14 2016-10-14 近义词识别方法和近义词识别系统 Pending CN106547732A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610900127.8A CN106547732A (zh) 2016-10-14 2016-10-14 近义词识别方法和近义词识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610900127.8A CN106547732A (zh) 2016-10-14 2016-10-14 近义词识别方法和近义词识别系统

Publications (1)

Publication Number Publication Date
CN106547732A true CN106547732A (zh) 2017-03-29

Family

ID=58368764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610900127.8A Pending CN106547732A (zh) 2016-10-14 2016-10-14 近义词识别方法和近义词识别系统

Country Status (1)

Country Link
CN (1) CN106547732A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506498A (zh) * 2017-09-28 2017-12-22 合肥博力生产力促进中心有限公司 一种知识产权数据采集加工系统及方法
CN108255810A (zh) * 2018-01-10 2018-07-06 北京神州泰岳软件股份有限公司 近义词挖掘方法、装置及电子设备
CN109213916A (zh) * 2018-09-14 2019-01-15 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109376219A (zh) * 2018-10-31 2019-02-22 北京锐安科技有限公司 文本属性字段的匹配方法、装置、电子设备及存储介质
CN109508414A (zh) * 2018-11-13 2019-03-22 北京奇艺世纪科技有限公司 一种同义词挖掘方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530414A (zh) * 2013-10-28 2014-01-22 北京国双科技有限公司 网页关键词的拓词方法和装置
CN105989047A (zh) * 2015-02-05 2016-10-05 富士通株式会社 获取装置、获取方法、训练装置以及检测装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530414A (zh) * 2013-10-28 2014-01-22 北京国双科技有限公司 网页关键词的拓词方法和装置
CN105989047A (zh) * 2015-02-05 2016-10-05 富士通株式会社 获取装置、获取方法、训练装置以及检测装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506498A (zh) * 2017-09-28 2017-12-22 合肥博力生产力促进中心有限公司 一种知识产权数据采集加工系统及方法
CN108255810A (zh) * 2018-01-10 2018-07-06 北京神州泰岳软件股份有限公司 近义词挖掘方法、装置及电子设备
CN109213916A (zh) * 2018-09-14 2019-01-15 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109376219A (zh) * 2018-10-31 2019-02-22 北京锐安科技有限公司 文本属性字段的匹配方法、装置、电子设备及存储介质
CN109508414A (zh) * 2018-11-13 2019-03-22 北京奇艺世纪科技有限公司 一种同义词挖掘方法及装置

Similar Documents

Publication Publication Date Title
CN111639171B (zh) 一种知识图谱问答方法及装置
Zou et al. Retrieving similar cases for construction project risk management using Natural Language Processing techniques
CN106202382B (zh) 链接实体方法和系统
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN106991092B (zh) 基于大数据挖掘相似裁判文书的方法和设备
CN111125343B (zh) 适用于人岗匹配推荐系统的文本解析方法及装置
CN103699625B (zh) 基于关键词进行检索的方法及装置
CN105279252B (zh) 挖掘相关词的方法、搜索方法、搜索系统
CN106547732A (zh) 近义词识别方法和近义词识别系统
CN107463658B (zh) 文本分类方法及装置
CN104572958B (zh) 一种基于事件抽取的敏感信息监控方法
Li et al. Keyword extraction based on tf/idf for Chinese news document
CN105320772B (zh) 一种专利查重的关联论文查询方法
CN105653706A (zh) 一种基于文献内容知识图谱的多层引文推荐方法
CN110888991B (zh) 一种弱标注环境下的分段式语义标注方法
CN103793434A (zh) 一种基于内容的图片搜索方法和装置
WO2020074017A1 (zh) 基于深度学习的医学文献中关键词筛选方法及装置
CN106933800A (zh) 一种金融领域的事件句抽取方法
CN103324700A (zh) 一种基于Web信息的本体概念属性学习方法
CN103034627A (zh) 计算句子相似度的方法和装置以及机器翻译的方法和装置
CN109766447B (zh) 一种确定敏感信息的方法和装置
CN105786971B (zh) 一种面向国际汉语教学的语法点识别方法
CN110321434A (zh) 一种基于词义消歧卷积神经网络的文本分类方法
CN110910175A (zh) 一种旅游门票产品画像生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170329