CN110674378A - 基于余弦相似度和最小编辑距离的中文语义识别方法 - Google Patents

基于余弦相似度和最小编辑距离的中文语义识别方法 Download PDF

Info

Publication number
CN110674378A
CN110674378A CN201910917326.3A CN201910917326A CN110674378A CN 110674378 A CN110674378 A CN 110674378A CN 201910917326 A CN201910917326 A CN 201910917326A CN 110674378 A CN110674378 A CN 110674378A
Authority
CN
China
Prior art keywords
chinese
corpus
semantic
matching
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910917326.3A
Other languages
English (en)
Inventor
李飞
范文斌
吴彤彤
刘成彪
冯强中
王亚平
王涛
刘媛媛
赵龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Section Big Country Wound Software Inc Co
Original Assignee
Section Big Country Wound Software Inc Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Section Big Country Wound Software Inc Co filed Critical Section Big Country Wound Software Inc Co
Priority to CN201910917326.3A priority Critical patent/CN110674378A/zh
Publication of CN110674378A publication Critical patent/CN110674378A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于余弦相似度和最小编辑距离的中文语义识别方法,涉及自然语言处理技术领域。本发明包括如下步骤:步骤S1、语料元数据采集;步骤S2、语料数据预处理;步骤S3、语料知识库配置;步骤S4、语义匹配规则配置;步骤S5、中文文字相似度计算;步骤S6、中文拼音相似度计算;步骤S7、语义总匹配度计算。本发明通过爬虫技术采集互联网语料数据,构建语料知识库,以数据为基础,配置语义匹配的多重规则、中文和拼音双重匹配识别语义、余弦相似度算法计算中文文字、最小编辑距离算法计算语义拼音,根据配置的中文匹配和拼音匹配的权重计算语义总匹配率,使语义识别率更精准,保障双重识别模式识别率的稳定。

Description

基于余弦相似度和最小编辑距离的中文语义识别方法
技术领域
本发明属于自然语言处理技术领域,特别是涉及一种基于余弦相似度和最小编辑距离的中文语义识别方法,同时结合了爬虫技术和知识库技术,以数据为基础,提供更有效、准确的中文语义模式识别方法。
背景技术
自然语言处理包括语法分析、语义分析、篇章理解等。从应用角度来看,自然语言处理具有广泛的应用前景。特别是在信息时代,自然语言处理的应用包罗万象,例如:机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
现有的服务机器大部分设置有摄像头,通过摄像头的视频录制和实施人工监控,使得即使在嘈杂的环境中,语音识别的正确率仍能保持,在多音源的情况下,识别的准确度需要其他功能的辅助提升语音语义识别的准确度。目前的服务机器在语音语义识别过程中,仍存在诸多的问题,例如语音设备在采集过程或采集设备本身会带来干扰,导致其准确率不高,或者语音识别基本能涵盖准确识别结果,但是在实时识别过程中需要采用大型的计算机硬件设备,计算量大。
因此,对于服务机器来说,不仅如何快速、准确识别用户发出的语音指令并对指令的语义进行理解后,做出相应的响应或者回复是体现一个服务机器性能的重要指标,能否将识别设备变得轻巧、可移动和便携,是一个新的客体要求。
发明内容
本发明的目的在于提供一种基于余弦相似度和最小编辑距离的中文语义识别方法,通过爬虫技术采集互联网语料数据,构建语料知识库,以数据为基础,配置语义匹配的多重规则、中文和拼音双重匹配识别语义、余弦相似度算法计算中文文字、最小编辑距离算法计算语义拼音,根据配置的中文匹配和拼音匹配的权重计算语义总匹配率,解决了现有的中文语义识别率低、容易出现歧义词汇的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种基于余弦相似度和最小编辑距离的中文语义识别方法,包括如下步骤:
步骤S1、语料元数据采集:运用网络爬虫技术,通过配置采集规则和采集模板,从互联网中获取语料相关数据信息,采集到的语料相关数据信息为语料元数据,将语料元数据存储到本地数据库;
步骤S2、语料数据预处理:针对语料元数据进行预处理操作,通过配置预处理规则,将语料元数据按照处理规则整合成语料数据,预处理依次包括:提取文字、中文分词、消除噪音、索引处理;
步骤S3、语料知识库配置:对语料元数据初始化后形成语料数据,将语料数据存储到语料库中,同时建立索引库,数据库结合索引库共同形成语料知识库,同时提供语料检索服务接口,通过配置接口入参参数、出参参数和访问路径,快速开放接口;
步骤S4、语义匹配规则配置:给语义识别规则配置语义匹配规则,语义匹配规则包含多个子规则,包括消歧词规则、同义词规则、关键词规则、同义句规则、中文和拼音匹配权重;
步骤S5、中文文字相似度计算:结合语料知识库对中文语句进行中文分词,针对两段中文语义进行中文分词,将完整的中文语义分解为一个个单一的词语,根据配置的语义匹配规则对中文分词进行替换操作,计算词语出现的频率,针对两段中文语义分别构建两个词频向量,根据余弦相似度算法得出中文文字语义匹配率的数值;
步骤S6、中文拼音相似度计算:将中文文字转换为汉语拼音,根据拼音长度建立矩阵,按照删除、插入和替换三种编辑操作,循环计算整个矩阵,根据最小编辑距离算法得出中文拼音的匹配率数值;
步骤S7、语义总匹配度计算:根据步骤S5中计算得到的中文文字匹配度数值,步骤S6中拼音匹配度的数值,再结合步骤S4中配置的中文匹配和拼音匹配的权重,计算得出语义总匹配度。
优选地,所述步骤S1中,语料元数据的具体采集步骤如下:
步骤S11:首先选取一部分的种子URL,将这些URL放入待抓取URL队列;
步骤S12:取出待抓取URL,解析DNS得到主机的IP,并将URL对应的网页下载下来,存储进已下载网页库中,并且将这些URL放进已抓取URL队列;
步骤S13:分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环;
步骤S14:满足设置的停止条件后,循环停止,元数据采集结束。
优选地,所述步骤S2中,语料数据预处理的具体步骤如下:
步骤S21、提取文字:将爬虫获取的网页中的中文文字单独提取出来;
步骤S22、中文分词;对步骤S21中提取的中文语句进行分词,并标注相应词性;
步骤S23、消除噪音:消除版权声明、导航条、广告以及无关的文字信息;
步骤S24、索引处理:为语料数据构建索引,提供关键字检索的服务。
优选地,所述步骤S3中,语料知识库配置的具体步骤如下:
步骤S31:将语料数据存储在数据库中;
步骤S32:建立索引库,数据库结合索引库形成语料知识库;
步骤S33:提供语料检索服务接口。
优选地,所述步骤S4中,语义匹配规则配置的具体步骤如下:
步骤S41:配置语义消歧词规则;
步骤S42:配置同义词规则;
步骤S43:配置同义句规则。
优选地,所述步骤S5中,中文文字相似度计算的具体步骤如下:
步骤S51、分词:针对两段中文语义进行中文分词,将完整的中文语义分解为一个个单一的词语;
步骤S52、计算词频:两段中文语义分词后的词语的频率;
步骤S53、构建词频向量:通过计算得到的词频数据,能够针对两段中文语义分别构建两个词频向量;
步骤S54、计算向量夹角得出匹配率:将构建好的词频向量想象成空间中的两条线段,都是从原点出发,指向不同的方向,根据向量夹角得出匹配率,通过夹角的大小,来判断向量的相似程度,夹角越小,就代表越匹配。
优选地,所述步骤S6中,中文拼音相似度计算的具体步骤如下:
步骤S61:构建矩阵,当两个中文语义拼音分别为str1和str2,len1是str1的长度,len2是str2的长度,则建立的矩阵为:disM[len2+1][len1+1];
步骤S62:数据初始化,对构建的矩阵内容进行排序的初始化操作;
步骤S63:循环计算整个矩阵,按照删除、插入和替换三种编辑操作,循环计算整个矩阵,disM[len2][len1]即为最小编辑距离。
优选地,所述步骤S7中,语义总匹配度计算的具体步骤如下:
步骤S71:获取配置的中文和拼音匹配权重;
步骤S72:计算语义总匹配度。
本发明具有以下有益效果:
(1)本发明通过爬虫技术获取互联网语料数据,并通过特定的分类算法对语料元数据进行预处理,获取到有价值的互联网语料数据,并构建语料知识库,语料知识库根据每天的定时爬虫获取到大量数据,不断填充丰富语料知识库,以数据为基础,服务于中文语义匹配,同时语料知识库对外开放接口,不仅可以用于中文语义匹配领域,对整个人工智能的自然语言处理领域也有着较高的价值;
(2)本发明支持配置语义匹配规则,能够根据配置的语义匹配规则优化语义识别过程,通过消歧词、同义词、同义句等多种规则优化语义匹配率,通过余弦相似度算法、拼音识别通过最小编辑距离算法,然后根据权重获取更精准的识别率,双重识别模式保障识别率的稳定。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种基于余弦相似度和最小编辑距离的中文语义识别方法的流程图;
图2为爬取互联网语料数据具体流程图;
图3为语料数据预处理具体流程图;
图4为计算中文文字匹配具体流程图;
图5为计算中文拼音匹配具体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种基于余弦相似度和最小编辑距离的中文语义识别方法,包括如下步骤:
步骤S1、语料元数据采集:运用网络爬虫技术,通过配置采集规则和采集模板,从互联网中获取语料相关数据信息,支持通过定时采集和手动触发采集两种方式,采集到的语料相关数据信息为语料元数据,是构建语料知识库的基础,将语料元数据存储到本地数据库;
步骤S2、语料数据预处理:针对语料元数据进行预处理操作,通过配置预处理规则,将语料元数据按照处理规则整合成语料数据,预处理依次包括:提取文字、中文分词、消除噪音、索引处理;
步骤S3、语料知识库配置:对语料元数据初始化后形成语料数据,将语料数据存储到语料库中,同时建立索引库,便于快速检索语料数据,数据库结合索引库共同形成语料知识库,同时提供语料检索服务接口,服务接口符合restful接口规范,通过配置接口入参参数、出参参数和访问路径,快速开放接口;
步骤S4、语义匹配规则配置:语义匹配规则是准确快速识别语义的前提,配置的规则提供给语义识别引擎使用,从而使得语义识别引擎更通用更灵活,语义匹配规则包含多个子规则,包括消歧词规则、同义词规则、关键词规则、同义句规则、中文和拼音匹配权重;
步骤S5、中文文字相似度计算:结合语料知识库对中文语句进行中文分词,针对两段中文语义进行中文分词,将完整的中文语义分解为一个个单一的词语;根据配置的语义匹配规则对中文分词进行替换操作,计算词语出现的频率,针对两段中文语义分别构建两个词频向量,根据余弦相似度算法得出中文文字语义匹配率的数值,匹配率的数值在0至1之间且包括0和1;
步骤S6、中文拼音相似度计算:将中文文字转换为汉语拼音,根据拼音长度建立矩阵,假设两个中文语义拼音分别为str1和str2,len1是str1的长度,len2是str2的长度,则建立的矩阵为:disM[len2+1][len1+1];数据初始化:对构建的矩阵内容进行排序的初始化操作;循环计算整个矩阵:按照删除、插入和替换三种编辑操作,循环计算整个矩阵,disM[len2][len1]即为最小编辑距离算法得出的中文拼音的匹配数值,匹配率的数值在0至1之间且包括0和1;
步骤S7、语义总匹配度计算:根据步骤S5中计算得到的中文文字匹配度数值,步骤S6中拼音匹配度的数值,再结合步骤S4中配置的中文匹配和拼音匹配的权重,计算得出语义总匹配度。
请参阅图2所示,步骤S1中,语料元数据的具体采集步骤如下:
步骤S11:首先选取一部分的种子URL,将这些URL放入待抓取URL队列;
步骤S12:取出待抓取URL,解析DNS得到主机的IP,并将URL对应的网页下载下来,存储进已下载网页库中,并且将这些URL放进已抓取URL队列;
步骤S13:分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环;
步骤S14:满足设置的停止条件后,循环停止,元数据采集结束。
请参阅图3所示,步骤S2中,语料数据预处理的具体步骤如下:
步骤S21、提取文字:将爬虫获取的网页中的中文文字单独提取出来;
步骤S22、中文分词;对步骤S21中提取的中文语句进行分词,并标注相应词性;
步骤S23、消除噪音:消除版权声明、导航条、广告以及无关的文字信息;
步骤S24、索引处理:为语料数据构建索引,提供关键字检索的服务。
其中,步骤S3中,语料知识库配置的具体步骤如下:
步骤S31:将语料数据存储在数据库中;
步骤S32:建立索引库,数据库结合索引库形成语料知识库;
步骤S33:提供语料检索服务接口。
优选地,步骤S4中,语义匹配规则配置的具体步骤如下:
步骤S41:配置语义消歧词规则,配置的语义消歧词规则如将“1”消歧为“一”等;
步骤S42:配置同义词规则,配置的同义词规则如将“吃”同义词为“食”等;
步骤S43:配置同义句规则,配置的同义句规则如将“今天天气怎么样”同义句为“今天天气如何”。
请参阅图4所示,步骤S5中,中文文字相似度计算的具体步骤如下:
步骤S51、分词:针对两段中文语义进行中文分词,将完整的中文语义分解为一个个单一的词语;
步骤S52、计算词频:两段中文语义分词后的词语的频率;
步骤S53、构建词频向量:通过计算得到的词频数据,能够针对两段中文语义分别构建两个词频向量;
步骤S54、计算向量夹角得出匹配率:将构建好的词频向量想象成空间中的两条线段,都是从原点([0,0,...])出发,指向不同的方向,根据向量夹角得出匹配率,通过夹角的大小,来判断向量的相似程度,夹角越小,就代表越匹配。
请参阅图5所示,步骤S6中,中文拼音相似度计算的具体步骤如下:
步骤S61:构建矩阵,当两个中文语义拼音分别为str1和str2,len1是str1的长度,len2是str2的长度,则建立的矩阵为:disM[len2+1][len1+1];
步骤S62:数据初始化,对构建的矩阵内容进行排序的初始化操作;
步骤S63:循环计算整个矩阵,按照删除、插入和替换三种编辑操作,循环计算整个矩阵,disM[len2][len1]即为最小编辑距离。
优选地,步骤S7中,语义总匹配度计算的具体步骤如下:
步骤S71:获取配置的中文和拼音匹配权重;
步骤S72:计算语义总匹配度。
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (8)

1.一种基于余弦相似度和最小编辑距离的中文语义识别方法,其特征在于,包括如下步骤:
步骤S1、语料元数据采集:运用网络爬虫技术,通过配置采集规则和采集模板,从互联网中获取语料相关数据信息,采集到的语料相关数据信息为语料元数据,将语料元数据存储到本地数据库;
步骤S2、语料数据预处理:针对语料元数据进行预处理操作,通过配置预处理规则,将语料元数据按照处理规则整合成语料数据,预处理依次包括:提取文字、中文分词、消除噪音、索引处理;
步骤S3、语料知识库配置:对语料元数据初始化后形成语料数据,将语料数据存储到语料库中,同时建立索引库,数据库结合索引库共同形成语料知识库,同时提供语料检索服务接口,通过配置接口入参参数、出参参数和访问路径,快速开放接口;
步骤S4、语义匹配规则配置:给语义识别规则配置语义匹配规则,语义匹配规则包含多个子规则,包括消歧词规则、同义词规则、关键词规则、同义句规则、中文和拼音匹配权重;
步骤S5、中文文字相似度计算:结合语料知识库对中文语句进行中文分词,针对两段中文语义进行中文分词,将完整的中文语义分解为一个个单一的词语,根据配置的语义匹配规则对中文分词进行替换操作,计算词语出现的频率,针对两段中文语义分别构建两个词频向量,根据余弦相似度算法得出中文文字语义匹配率的数值;
步骤S6、中文拼音相似度计算:将中文文字转换为汉语拼音,根据拼音长度建立矩阵,按照删除、插入和替换三种编辑操作,循环计算整个矩阵,根据最小编辑距离算法得出中文拼音的匹配率数值;
步骤S7、语义总匹配度计算:根据步骤S5中计算得到的中文文字匹配度数值,步骤S6中拼音匹配度的数值,再结合步骤S4中配置的中文匹配和拼音匹配的权重,计算得出语义总匹配度。
2.根据权利要求1所述的一种基于余弦相似度和最小编辑距离的中文语义识别方法,其特征在于,所述步骤S1中,语料元数据的具体采集步骤如下:
步骤S11:首先选取一部分的种子URL,将这些URL放入待抓取URL队列;
步骤S12:取出待抓取URL,解析DNS得到主机的IP,并将URL对应的网页下载下来,存储进已下载网页库中,并且将这些URL放进已抓取URL队列;
步骤S13:分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环;
步骤S14:满足设置的停止条件后,循环停止,元数据采集结束。
3.根据权利要求1所述的一种基于余弦相似度和最小编辑距离的中文语义识别方法,其特征在于,所述步骤S2中,语料数据预处理的具体步骤如下:
步骤S21、提取文字:将爬虫获取的网页中的中文文字单独提取出来;
步骤S22、中文分词;对步骤S21中提取的中文语句进行分词,并标注相应词性;
步骤S23、消除噪音:消除版权声明、导航条、广告以及无关的文字信息;
步骤S24、索引处理:为语料数据构建索引,提供关键字检索的服务。
4.根据权利要求1所述的一种基于余弦相似度和最小编辑距离的中文语义识别方法,其特征在于,所述步骤S3中,语料知识库配置的具体步骤如下:
步骤S31:将语料数据存储在数据库中;
步骤S32:建立索引库,数据库结合索引库形成语料知识库;
步骤S33:提供语料检索服务接口。
5.根据权利要求1所述的一种基于余弦相似度和最小编辑距离的中文语义识别方法,其特征在于,所述步骤S4中,语义匹配规则配置的具体步骤如下:
步骤S41:配置语义消歧词规则;
步骤S42:配置同义词规则;
步骤S43:配置同义句规则。
6.根据权利要求1所述的一种基于余弦相似度和最小编辑距离的中文语义识别方法,其特征在于,所述步骤S5中,中文文字相似度计算的具体步骤如下:
步骤S51、分词:针对两段中文语义进行中文分词,将完整的中文语义分解为一个个单一的词语;
步骤S52、计算词频:两段中文语义分词后的词语的频率;
步骤S53、构建词频向量:通过计算得到的词频数据,能够针对两段中文语义分别构建两个词频向量;
步骤S54、计算向量夹角得出匹配率:将构建好的词频向量想象成空间中的两条线段,都是从原点出发,指向不同的方向,根据向量夹角得出匹配率,通过夹角的大小,来判断向量的相似程度,夹角越小,就代表越匹配。
7.根据权利要求1所述的一种基于余弦相似度和最小编辑距离的中文语义识别方法,其特征在于,所述步骤S6中,中文拼音相似度计算的具体步骤如下:
步骤S61:构建矩阵,当两个中文语义拼音分别为str1和str2,len1是str1的长度,len2是str2的长度,则建立的矩阵为:disM[len2+1][len1+1];
步骤S62:数据初始化,对构建的矩阵内容进行排序的初始化操作;
步骤S63:循环计算整个矩阵,按照删除、插入和替换三种编辑操作,循环计算整个矩阵,disM[len2][len1]即为最小编辑距离。
8.根据权利要求1所述的一种基于余弦相似度和最小编辑距离的中文语义识别方法,其特征在于,所述步骤S7中,语义总匹配度计算的具体步骤如下:
步骤S71:获取配置的中文和拼音匹配权重;
步骤S72:计算语义总匹配度。
CN201910917326.3A 2019-09-26 2019-09-26 基于余弦相似度和最小编辑距离的中文语义识别方法 Pending CN110674378A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910917326.3A CN110674378A (zh) 2019-09-26 2019-09-26 基于余弦相似度和最小编辑距离的中文语义识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910917326.3A CN110674378A (zh) 2019-09-26 2019-09-26 基于余弦相似度和最小编辑距离的中文语义识别方法

Publications (1)

Publication Number Publication Date
CN110674378A true CN110674378A (zh) 2020-01-10

Family

ID=69079287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910917326.3A Pending CN110674378A (zh) 2019-09-26 2019-09-26 基于余弦相似度和最小编辑距离的中文语义识别方法

Country Status (1)

Country Link
CN (1) CN110674378A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395501A (zh) * 2020-11-17 2021-02-23 航天信息股份有限公司 企业推荐方法、装置、存储介质及电子设备
CN113505597A (zh) * 2021-07-27 2021-10-15 随锐科技集团股份有限公司 一种视频会议中提炼关键词的方法、装置及存储介质
CN113536764A (zh) * 2021-09-07 2021-10-22 湖南双菱电子科技有限公司 口令信息匹配方法、计算机设备和计算机可读存储介质
CN114547087A (zh) * 2022-04-27 2022-05-27 湖南正宇软件技术开发有限公司 提案自动识别并生成报告的方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095865A (zh) * 2016-06-03 2016-11-09 中细软移动互联科技有限公司 一种商标文本相似性评审方法
US20160350283A1 (en) * 2015-06-01 2016-12-01 Information Extraction Systems, Inc. Apparatus, system and method for application-specific and customizable semantic similarity measurement
CN107391614A (zh) * 2017-07-04 2017-11-24 重庆智慧思特大数据有限公司 一种基于wmd的中文问答匹配方法
CN109918681A (zh) * 2019-03-29 2019-06-21 哈尔滨理工大学 一种基于汉字-拼音的融合问题语义匹配方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160350283A1 (en) * 2015-06-01 2016-12-01 Information Extraction Systems, Inc. Apparatus, system and method for application-specific and customizable semantic similarity measurement
CN106095865A (zh) * 2016-06-03 2016-11-09 中细软移动互联科技有限公司 一种商标文本相似性评审方法
CN107391614A (zh) * 2017-07-04 2017-11-24 重庆智慧思特大数据有限公司 一种基于wmd的中文问答匹配方法
CN109918681A (zh) * 2019-03-29 2019-06-21 哈尔滨理工大学 一种基于汉字-拼音的融合问题语义匹配方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
冯志伟: "《自然语言计算机形式分析的理论与方法》", 31 January 2017, 中国科学技术大学出版社 *
宋国平: "一种基于上下文规则的词义消歧算法", 《吉林大学学报(理学版)》 *
殷复莲: "《数据分析与数据挖掘实用教程》", 30 September 2017, 中国传媒大学出版社 *
芦彩林,陈文锋,罗永莲,: "《大学计算机基础项目式教程》", 31 July 2017, 北京邮电大学出版社 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395501A (zh) * 2020-11-17 2021-02-23 航天信息股份有限公司 企业推荐方法、装置、存储介质及电子设备
CN113505597A (zh) * 2021-07-27 2021-10-15 随锐科技集团股份有限公司 一种视频会议中提炼关键词的方法、装置及存储介质
CN113536764A (zh) * 2021-09-07 2021-10-22 湖南双菱电子科技有限公司 口令信息匹配方法、计算机设备和计算机可读存储介质
CN114547087A (zh) * 2022-04-27 2022-05-27 湖南正宇软件技术开发有限公司 提案自动识别并生成报告的方法、装置、设备和介质
CN114547087B (zh) * 2022-04-27 2022-07-26 湖南正宇软件技术开发有限公司 提案自动识别并生成报告的方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN110162627B (zh) 数据增量方法、装置、计算机设备及存储介质
CN107704453B (zh) 一种文字语义分析方法、文字语义分析终端及存储介质
CN107402913B (zh) 先行词的确定方法和装置
CN110674378A (zh) 基于余弦相似度和最小编辑距离的中文语义识别方法
CN112784696B (zh) 基于图像识别的唇语识别方法、装置、设备及存储介质
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
CN110347790B (zh) 基于注意力机制的文本查重方法、装置、设备及存储介质
US20160071511A1 (en) Method and apparatus of smart text reader for converting web page through text-to-speech
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN110991180A (zh) 一种基于关键词和Word2Vec的命令识别方法
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN107526721B (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN109948154B (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
CN109446313B (zh) 一种基于自然语言分析的排序系统及方法
CN111488429A (zh) 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法
CN111444704A (zh) 基于深度神经网络的网络安全关键词抽取方法
CN112347339A (zh) 一种搜索结果处理方法及装置
CN115994535A (zh) 文本处理方法及装置
CN107424612A (zh) 处理方法、装置和机器可读介质
CN108345694B (zh) 一种基于主题数据库的文献检索方法及系统
CN113343717A (zh) 一种基于翻译记忆库的神经机器翻译方法
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN112380848A (zh) 文本生成方法、装置、设备及存储介质
CN112231440A (zh) 一种基于人工智能的语音搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200110