CN101777042B - 信息检索领域中基于神经网络和标签库的语句相似度算法 - Google Patents

信息检索领域中基于神经网络和标签库的语句相似度算法 Download PDF

Info

Publication number
CN101777042B
CN101777042B CN 201010028143 CN201010028143A CN101777042B CN 101777042 B CN101777042 B CN 101777042B CN 201010028143 CN201010028143 CN 201010028143 CN 201010028143 A CN201010028143 A CN 201010028143A CN 101777042 B CN101777042 B CN 101777042B
Authority
CN
China
Prior art keywords
statement
sen
similarity
semantic
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201010028143
Other languages
English (en)
Other versions
CN101777042A (zh
Inventor
邢玲
张琦
彭保
马建国
王娟娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Ankeyun Network Technology Co ltd
Original Assignee
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology filed Critical Southwest University of Science and Technology
Priority to CN 201010028143 priority Critical patent/CN101777042B/zh
Publication of CN101777042A publication Critical patent/CN101777042A/zh
Application granted granted Critical
Publication of CN101777042B publication Critical patent/CN101777042B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息检索领域中基于神经网络和标签库的语句相似度算法,其特征在于,包括以下步骤:(1)载入分别带有神经网络的语义词典和同义词词林;(2)输入完整的待分析语句;(3)利用依存文法分析器分析出语句的整体句法结构,然后对语句进行分层,并获取语句的有效成分序列;(4)根据分层及其有效成分序列,确定语句在exUCL标签库中对应的标题字段;(5)判断语句是否有相似词对,若有则计算语句的相似度,反之,则重新输入新的待分析语句,再次进行相似度计算。本发明结合了基于依存的语句相似度算法和编辑距离算法的优点,使计算精度大大提高。

Description

信息检索领域中基于神经网络和标签库的语句相似度算法
技术领域
本发明涉及一种语句相似度算法,具体地说,是涉及一种信息检索领域中基于神经网络和标签库的语句相似度算法。
背景技术
近年来,由于网络新应用的不断出现,特别是互联网概念的提出及深化,网络流量与行为发生了极大的变化,动摇了互联网的传统理论基础,即流量模型从基于泊松分布转变为具有自相似的特性。对网络流量的分布、流量特性、传输的效率、用户与网络行为等方面缺乏准确的理解和精确的描述,严重影响了对网络资源的有效利用与网络自身的发展,从而使得网络的可控性和可管理性越来越差,网络提供的服务质量与用户的需求和期望存在着尖锐的矛盾。如何从大规模的数据中最大限度地挖掘出互联网用户的兴趣、行为模式,如何对这些数据进行以用户为中心的分类是非常迫切需要解决的问题。
数据挖掘的最终意义就在于帮助人们对信息进行理解,数据的分类、聚类、关联规则的发现等等都是为信息的理解服务。大规模的网络数据意味着数据是多维的、异构的、复杂的,如何对这些数据进行有效的理解成了一个巨大的挑战。对于网络数据来说,除了常规的一些数据挖掘方法外,如何利用网络分层来理解信息非常值得研究。
神经网络是模拟人类的形象直觉思维,在生物神经网络研究的基础上,根据生物神经和神经网络的特点,通过简化、归纳,提炼总结出来的一类并行处理网络,利用其非线性映射的思想和并行处理的方法,用神经网络本身的结构来表达输入和输出的关联知识。人工神经网络(ANN)是由大量并行分布式处理单元组成的简单处理单元.它有通过调整连接强度而从经验知识进行学习的能力并可将这些知识进行运算.是模拟人脑的一种技术系统。
由于人工神经网络具有对噪声数据的高承受能力和低错误率的优点,因此,各种网络训练算法的陆续提出与优化,尤其是各种网络剪枝算法和规则提取算法的不断提出与完善,使得人工神经网络在数据挖掘中的应用越来越为广大使用者所青睐。
语句相似度计算在自然语言处理领域具有非常广泛的应用背景,例如:在问答系统中通过语句相似度计算找到与问题相匹配的答案;在自动文摘系统中通过语句相似度计算去除冗余信息,抽取文摘句;在信息检索系统中通过语句相似度计算找到与用户需求相似的语句;在基于实例机器翻译中通过语句相似度计算匹配相似的语句,得到需要的译文等等。因此,长期以来,句子相似度的算法研究,一直为人们所热衷。
目前,研究语句相似度的方法有基于相同词汇的方法、使用语义依存的方法、计算编辑距离的方法、基于关键词的方法、使用语义词典的方法、基于语境框架的方法、基于属性论的方法以及基于统计的方法等等。其中,基于相同词汇的方法有很明显的局限性:它对同义词之间的替换无能为力;使用语义词典的方法,虽然可以很好地解决同义词替换问题,但是单纯地使用语义词典的方法,又没有考虑到语句内部结构和词语之间的相互作用关系,准确率不高;计算编辑距离的方法通常被用于句子的快速模糊匹配领域,但是其规定的编辑操作不够灵活,也没有考虑词语的同义替换;而基于统计的方法,需要构造大量的训练语料,工作量十分巨大,而且还存在着数据稀疏的问题。
发明内容
本发明的目的在于提供一种种信息检索领域中基于神经网络和标签库的语句相似度算法,结合基于依存的语义距离计算方法和编辑距离的计算方法的优点,扬长避短、互为补充,计算出语句之间的相似度,并获得较高的准确率。
为了实现上述目的,本发明采用的技术方案如下:
信息检索领域中基于神经网络和标签库的语句相似度算法,其特征在于,包括以下步骤:(1)载入分别带有神经网络的语义词典和同义词词林;(2)输入完整的待分析语句;(3)利用依存文法分析器分析出语句的整体句法结构,然后对语句进行分层,并获取语句的有效成分序列;(4)根据分层及其有效成分序列,确定语句在exUCL标签库中对应的标题字段;(5)判断语句是否有相似词对,若有则计算语句的相似度,反之,则重新输入新的待分析语句,再次进行相似度计算。
所谓exUCL是指网页数据多层语义描述标签。
所述整体句法结构的分层包括:第一层,语句的谓语中心词;第二层,谓语中心词的有效支配成分。
所述第二层获取的方法是利用依存算法分析器对语句进行分词和词性标注。
所述语句相似度计算包括对第一层进行语义距离计算和对第二层进行编辑距离计算。
所述语义距离计算公式如下
S(Sen1,Sen2)=λ*SIM(Sen1,Sen2)+(1-λ)*SIM′(Sen1,Sen2)
所述语句相似度按照下列公式计算:
SM ( S 1 , S 2 ) = Dis ( S 1 , S 2 ) Max ( m , n )
其中,Dis(S1,S2)=α×dis1(S1,S2)+β×dis2(S1,S2)
所述语句相似度计算完成后,还将计算结果发送至神经网络进行训练,并将训练结果输入至语义词典和同义词词林,实现语义词典和同义词词林的动态更新。
本发明的总体思想:借鉴骨架依存树的思想,首先分析出句子的整体句法结构,所谓的整体句法结构,就是用该语句的谓语中心词及其有效支配成分来表示。它的特点是把一个语句分成两个层次,第一层为语句的谓语中心词,第二层为语句中谓语中心词的有效支配成分。当得到这两个层次以后,对第一层利用语义词典进行语义距离计算,在计算的同时,语义词典会在使用的过程中不断利用神经网络进行自主学习,从而不断完善语义词典的功能。而第二层则利用编辑距离的方法计算,最后将两个层次得到的结果相加。
本发明的基本方法为:首先,利用依存文法分析器析出句子的整体句法结构,得到句子的谓语中心词,即句子的第一层,然后再利用依存算法分析器的分词和词性标注功能分别得到两个句子的第二层的m个和n个有效成分序列:w11,w12,…,w1m和w21,w22,…,w2n,得到这两个层次以后就可以对两个句子的相似度进行计算。
计算公式见式(8)与(9):
Dis(S1,S2)=α×dis1(S1,S2)+β×dis2(S1,S2)
SM ( S 1 , S 2 ) = Dis ( S 1 , S 2 ) Max ( m , n )
其中Dis(S1,S2)为两个句子的编辑距离,dis1(S1,S2)和dis2(S1,S2)分别为两个层次的距离,并对不同层赋予不同的权重。m和n分别为两句子第二层有效成分的个数。
本发明主要利用了基于依存的语义相似度算法体现句子内部的结构和词语之间的相互作用关系的特点,以及编辑距离算法由于同义词词林的应用可以兼顾同义词之间的替换,并体现组成语句的每个词深层的语义信息的优点,在此基础上,将两种算法有效地组合起来,充分利用两种方法的优点,实现从语句的词汇及词汇之间的结构关系两方面来表达语句的信息,从而使语句相似度的算法精度大大提高。
本发明属于大规模网络数据集成与挖掘技术中语义的抽取技术,主要应用于数据检索、抽取文摘、网络安全监控等领域。
附图说明
图1为本发明的系统框图。
图2为本发明的程序流程图。
图3为“爱因斯坦是一位当代杰出人才”的依存关系示意图。
图4为“爱因斯坦是一位当代杰出人才”的依存树示意图。
图5为“事发后,伤员被及时送往就近医院救治”的依存树示意图。
图6为“晚上7时左右,所有伤员被送到了医院”的依存树示意图。
图7为“事发后,伤员被及时送往就近医院救治”的语义依存树示意图。
图8为“晚上7时左右,所有伤员被送到了医院”的语义依存树示意图。
图9为“爱吃苹果”和“喜欢吃香蕉”的编辑距离示意图。
具体实施方式
下面通过举例来对本发明作详细描述。
在此先分别介绍基于依存的语义相似度算法和编辑距离算法。
一.基于依存的语义相似度算法
依存句法是由法国语言学家L.Tesniere在其著作《结构句法基础》(1959年)中提出的。依存文法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中动词是支配其他成分的中心成分,而它本身却不受其他任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。二十世纪七十年代,Robinson提出依存语法中关于依存关系的四条公理,在处理中文信息的研究中,中国学者又提出了依存关系的第五条公理:
①一个句子中只有一个成分是独立的;
②其它成分直接依存于某一成分;
③任何一个成分都不能依存于两个或两个以上的成分;
④如果A成分直接依存于B成分,而C成分在句中位于A和B之间,那么C或者直接依存于B,或者直接依存处于A和B之间的某一成分;
⑤中心成分左右两边的其它成分相互不发生关系。在利用依存文法进行相似度计算时,只考虑那些有效搭配对之间的相似程度。所谓有效搭配对是指全句核心词和直接依存于它的有效词组成的搭配对,这里有效词定义为动词、名词以及形容词,它是由分词后的词性标注决定的。
(1)句子依存结构的建立
利用依存结构计算句子间的相似度,关键的一步是如何获得句子各成分间的依存关系信息。本发明中采用了哈尔滨工业大学计算机科学与技术学院信息检索研究室所作的依存句法分析器。通过该依存句法分析器的分析,句子各成分之间的依存关系可以表示如下图1所示:
例句:爱因斯坦是一位当代杰出人才,其依存关系如图3,把该结果形成立体结构的依存树,可以表示为如图4所示结构。
(2)相似度计算
依存树是一个复杂的非线性关系,如果对整个依存树进行完全匹配的话,所花费的代价是巨大的;另外,一个完整的汉语句子是由句子的关键成分和修饰成分所构成,而人们往往从关键成分就可以了解一个句子的大概意思。但由于汉语表达形式的多样性,相同的关键成分可用不同的修饰成分来修饰,如果强调修饰成分,这无疑会给句子间相似度的计算增加噪音。基于以上两点,利用依存结构进行相似度计算时,只考虑那些有效搭配对之间的相似程度。所谓有效搭配对是指全句核心词和直接依存于它的有效词组成的搭配对,这里有效词定义为动词、名词以及形容词,它是由分词后的词性标注决定的。例如以下两个句子间的比较:
例句1:事发后,伤员被及时送往就近医院救治,其依存树如图5所示。
例句2:晚上7时左右,所有伤员被送到了医院,其依存树如图6所示。
从图5和图6中可以看出,所以例句1的有效搭配对为:送往_伤员、送往_医院、送往_救治。例句2的有效搭配对为:送到_伤员、送到_医院。只要比较它们之间的相似程度即可,这样一来比较算法的复杂度就大大降低,而准确率也会得到一定程度的提高。相似度计算公式见式(1):
SIM ( Sen 1 , Sen 2 ) = Σ i = 1 n Wi Max { PairCo unt 1 , Pair Count 2 } - - - ( 1 )
式中
Figure GSB00000610751300082
为句子1和句子2有效搭配对匹配的总权重,PairCount1为句子1有效搭配对数,PairCount2为句子2有效搭配对数。
上述算法中,大配对的匹配权重是这样定义的:
假设有两个搭配对:①Word1_Word2②Word1’_Word2’;
如果Word1=Word1’且Word2=Word2’则搭配对①和搭配对②的匹配权重为1;如果Word1≠Word1’且Word2=Word2’或者Word1=Word1’且Word2≠=Word2’,则搭配对①和搭配对②的匹配权重为0.5;否则为0。
所以由上面公式就可以求出例句1和例句2的相似度见式(2):
SIM ( Sen 1 , Sen 2 ) = 0.5 + 0.5 3 = 0.33 - - - ( 2 )
在上面的两个例句中,例句1的核心词“送往”和例句2的核心词“送到”意思本来差不多,但以关键词匹配的方法并不能匹配上,所以又引入了语义依存树作为补充,如图7和图8。在此基础上,例句1和例句2的语义相似度的计算公式见式(3):
SI M ′ ( Sen 1 , Sen 2 ) = Σ i = 1 n W ′ i Max { PairCoun t 1 ′ , Pair Count 2 ′ } - - - ( 3 )
式中
Figure GSB00000610751300093
为句子1和句子2有效语义搭配对匹配的总权重,PairCount1’为句子1有效语义搭配对数,PairCount2’为句子2有效语义搭配对数。
从上图可以看出,句1中“送往”和句2中“送到”的语义都为903,这样一来“送往”和送到自然就匹配上了。所以上例两句中的语义相似度由公式(4)计算:
SIM ′ ( Sen 1 , Sen 2 ) = 1 + 1 3 = 0.67 - - - ( 4 )
由于基于关键词和基于语义的方法有着各自的优缺点,所以改进后算法最后用下面的公式(5)确定句子之间的相似度:
S(Sen1,Sen2)=λ*SIM(Sen1,Sen2)+(1-λ)*SIM′(Sen1,Sen2)    (5)
本发明中,取λ=0.5。
二.编辑距离算法
编辑距离算法是用来计算从原串(s)转换到目标串(t)所需要的最少的编辑操作数目,编辑操作有“插入”、“删除”和“替换”三种。本发明所述编辑距离算法借鉴了车万翔[65]利用改进编辑距离方法计算中文句子的相似度的方法,以“爱吃苹果”和“喜欢吃香蕉”为例,两者的编辑距离如图9所示。该方法的主要思想是:以普通编辑距离算法为基础,采用词语取代单个的汉字或字符作为基本的编辑单元参与运算。同时使用了Hownet和同义词词林两种语义资源,计算词汇之间的语义距离,加入词语的语义相似信息确定词语之间的替换代价,并且赋予不同编辑操作不同的权重。在相似度计算时,该方法充分考虑了句子中每个词的深层信息,使表面不同、深层意义相同的词被挖掘出来,在不用经过词义消歧和句法分析的情况下,兼顾了词汇的顺序和语义等信息,使之更加符合中文句子相似度计算的要求。
(1)HotNet语义词典简介
计算语义相似度,需要一定的语义知识资源作为基础。在汉语中,人们常用董振东和董强先生创建的知网(HowNet)作为语义知识资源。知网是一个以概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库,它是一个网状的有机的知识系统。语义词典是知网的基础文件,在这个文件中每一个词语的概念及其描述形成一个记录,每一个记录都主要包含4项内容。其中每一项都由两部分组成,中间以“=”分隔。每一个“=”的左侧是数据的域名,右侧是数据的值。它们排列如下:
NO.=词或短语序号
W_X=词或短语
G_X=词或短语的词性
E_X=词或短语的例子
DEF=概念定义
其中的W_X、G_X、E_X构成每种语言的记录,X用以描述记录所代表语种,X为C则为汉语,为E则为英语。每个词语由DEF来描述其概念定义,DEF的值由若干个义原及它们与主干词之间的语义关系描述组成,义原是知网中最基本的、不易于再分割的意义的最小单位。
在此使用HotNet语义辞典作为同义词扩展的资源。HotNet中同义词的定义为具有相同的英语译文(W_E)和语义定义(DEF)的词汇。例如“我”和“俺”,简化词条如下:
Figure GSB00000610751300111
可见,“我”和“俺”具有相同的英语译文(W_E)“I”和语义定义(DEF)“firstPerson/我”,是一对同义词。表1中给出了使用HotNet进行词扩展的一些例子。从中可以看出,使用HotNet进行词的扩展,效果是比较理想的。
表1  HotNet进行词扩展示例
Figure GSB00000610751300112
Figure GSB00000610751300121
(2)同义词词林的使用
本发明中,编辑距离算法还用到了《同义词词林》,其基本思想就是利用词林中对每个词提供的语义编码进行两个词之间的语义距离计算。本发明中的《同义词词林》将词的词义逐级划分为5层,描述了一个由上到下、由宽泛概念到具体词义的语义分类体系,并将所收的词按词义分门别类组织在其中。每个汉语词都按照其语义,赋予了一个或多个5位的语义代码。与此分类体系相对应的是一个词义的编码体系,描述如下:
<词义编码>::=<1层><2层><3层><4层><5层>
<1层>::=<大写英文字母>
<2层>::=<小写英文字母>
<3层>::=<数字><数字>
<4层>::=<大写英文字母>
<5层>::=<数字><数字>
对于A,B两词之间的语义距离,只要查到他们的语义编码,然后用公式(6)进行计算:
Dist ( A , B ) = min a &Element; R , b &Element; Q dist ( a , b ) - - - ( 6 )
其中P,Q分别为A,B两词具有语义的集合。语义a,b之间的距离为:
dist(a,b)=2×(7-n)    (7)
其中,n为它们之间的语义代码从第n层开始不同,全部相同语义距离为0。如“苹果”Bh07A14,“香蕉”Bh07A34,“喜欢”Gb09A01,“爱”Gb09A01。用上面的公式可知Dist(苹果,香蕉)=2,Dist(喜欢,爱)=0。从以上的操作可以看出利用词林进行语义距离计算相似度比较方便、快捷。
下面以网络监管为例来对本发明的实施过程进行描述。
首先,在网络监控中心的主机上载入语义词典和同义词词林,然后从网络上获取网络内的原始数据信息(即数据流);随后通过分析语言单位内成分之间的依存关系揭示其整体句法结构,得到语句的谓语中心词,然后再利用依存文法分析器的分词和词性标注功能分别得到语句有效成分序列并对语义词典进行扩展更新,再通过本发明所在主机结合exUCL标签库的标引方法对所获取的原始数据信息进行分析,确定该原始数据信息在标签库中对应的标题字段,确定后计算两者相似度。对于网络监控来说,一般只需要监控网络的原始数据信息中是否出现违反规定的内容,如法轮功、色情等内容,因此,在计算语句相似度时,只需要计算与监控内容接近的原始数据信息的相似度,如原始数据中出现了与法轮功接近的词语,则计算该原始数据与法轮功的语句相似度,在此基础上,网络监管人员可根据结果进行相应的操作,如断网、向有关管理部门通报等等。在计算语句相似度的同时,利用神经网络技术对得到的结论进行学习、训练以更新语义词典和同义词词林。本发明中所述的神经网络是经过系统建模后构建出来的适合网络应用的神经网络,使用时先进行初始化,再对语句相似度的计算结果进行训练。
本发明还可以应用到商品销售的货物验证系统中,销售商只需要将商品的数量、编号、EPC和具体时间输入到验证系统中,购买方即可查看商品的数据信息是否有效,从而判断该商品是否是正品。

Claims (3)

1.信息检索领域中基于神经网络和标签库的语句相似度算法,其特征在于,包括以下步骤:
(1)载入分别带有神经网络的语义词典和同义词词林;
(2)输入完整的待分析语句;
(3)利用依存文法分析器分析出语句的整体句法结构,然后对语句进行分层,并获取语句的有效成分序列;
(4)根据分层及其有效成分序列,确定语句在exUCL标签库中对应的标题字段;
(5)判断语句是否有相似词对,若有则计算语句的相似度,反之,则重新输入新的待分析语句,再次进行相似度计算;
所述整体句法结构的分层包括:
第一层:语句的谓语中心词,第二层:谓语中心词的有效支配成分;
所述第二层获取的方法是利用依存算法分析器对语句进行分词和词性标注;
所述语句相似度计算包括对第一层进行语义距离计算和对第二层进行编辑距离计算。
2.根据权利要求1所述的信息检索领域中基于神经网络和标签库的语句相似度算法,其特征在于,所述语义距离计算公式如下
S(Sen1,Sen2)=λ*SIM(Sen1,Sen2)+(1-λ)*SIM′(Sen1,Sen2)
其中,SIM(Sen1,Sen2)表示语句Sen1和Sen2的相似度,SIM′(Sen1,Sen2)表示语句Sen1和Sen2的语义相似度,λ表示权重。
3.根据权利要求2所述的信息检索领域中基于神经网络和标签库的语句相似度算法,其特征在于,所述语句相似度按照下列公式计算:
SM ( S 1 , S 2 ) = Dis ( S 1 , S 2 ) Max ( m , n )
Dis(S1,S2)=α×dis1(S1,S2)+β×dis2(S1,S2)
其中,Dis(S1,S2)为两个句子的编辑距离,dis1(S1,S2)和dis2(S1,S2)分别为两个层次的距离,α和β是不同层的权重,m和n分别为两句子第二层有效成分的个数。
CN 201010028143 2010-01-21 2010-01-21 信息检索领域中基于神经网络和标签库的语句相似度算法 Expired - Fee Related CN101777042B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010028143 CN101777042B (zh) 2010-01-21 2010-01-21 信息检索领域中基于神经网络和标签库的语句相似度算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010028143 CN101777042B (zh) 2010-01-21 2010-01-21 信息检索领域中基于神经网络和标签库的语句相似度算法

Publications (2)

Publication Number Publication Date
CN101777042A CN101777042A (zh) 2010-07-14
CN101777042B true CN101777042B (zh) 2013-01-16

Family

ID=42513508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010028143 Expired - Fee Related CN101777042B (zh) 2010-01-21 2010-01-21 信息检索领域中基于神经网络和标签库的语句相似度算法

Country Status (1)

Country Link
CN (1) CN101777042B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902523A (zh) * 2012-12-28 2014-07-02 新疆电力信息通信有限责任公司 维吾尔语句子相似度计算方法
CN103473283B (zh) * 2013-08-29 2017-02-15 中国测绘科学研究院 一种文本案例匹配方法
CN104424279B (zh) * 2013-08-30 2018-11-20 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
CN104462323B (zh) * 2014-12-02 2018-02-27 百度在线网络技术(北京)有限公司 语义相似度计算方法、搜索结果处理方法和装置
CN104462327B (zh) * 2014-12-02 2018-09-11 百度在线网络技术(北京)有限公司 语句相似度的计算、搜索处理方法及装置
CN104699668B (zh) * 2015-03-26 2017-09-26 小米科技有限责任公司 确定词语相似度的方法及装置
CN109241266B (zh) * 2015-07-23 2020-09-11 上海智臻智能网络科技股份有限公司 人机交互中基于标准问创建扩展问的方法和装置
CN105389307A (zh) * 2015-12-02 2016-03-09 上海智臻智能网络科技股份有限公司 语句意图类别识别方法及装置
CN105512104A (zh) * 2015-12-02 2016-04-20 上海智臻智能网络科技股份有限公司 词典降维方法及装置、信息分类方法及装置
CN105488207A (zh) * 2015-12-10 2016-04-13 合一网络技术(北京)有限公司 网络资源的语义编码方法和装置
CN106933901B (zh) * 2015-12-31 2020-07-17 北京大学 数据集成方法及系统
CN106326484A (zh) 2016-08-31 2017-01-11 北京奇艺世纪科技有限公司 搜索词纠错方法及装置
CN106529268B (zh) * 2016-11-14 2019-05-24 上海智臻智能网络科技股份有限公司 一种校验方法及装置
CN107153672A (zh) * 2017-03-22 2017-09-12 中国科学院自动化研究所 基于言语行为理论的用户交互意图识别方法及系统
CN109255128B (zh) * 2018-10-11 2023-11-28 北京小米移动软件有限公司 多层级标签的生成方法、装置和存储介质
CN109767758B (zh) * 2019-01-11 2021-06-08 中山大学 车载语音分析方法、系统、存储介质以及设备
CN111198939B (zh) * 2019-12-27 2021-11-23 北京健康之家科技有限公司 语句相似度的分析方法、装置及计算机设备
CN113128201A (zh) * 2019-12-31 2021-07-16 阿里巴巴集团控股有限公司 句子相似度确定方法、答案搜索方法、装置、设备、系统及介质
CN111414750B (zh) * 2020-03-18 2023-08-18 北京百度网讯科技有限公司 一种词条的同义判别方法、装置、设备和存储介质
CN111832316B (zh) * 2020-06-30 2024-05-24 北京小米松果电子有限公司 语义识别的方法、装置、电子设备和存储介质
CN113987174A (zh) * 2021-10-22 2022-01-28 上海携旅信息技术有限公司 分类标签的核心语句提取方法、系统、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101034392A (zh) * 2006-03-09 2007-09-12 富士通株式会社 语法分析方法、装置及存储语法分析程序的产品
CN101059806A (zh) * 2007-06-06 2007-10-24 华东师范大学 一种基于语义的本地文档检索方法
CN101079026A (zh) * 2007-07-02 2007-11-28 北京百问百答网络技术有限公司 文本相似度、词义相似度计算方法和系统及应用系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101034392A (zh) * 2006-03-09 2007-09-12 富士通株式会社 语法分析方法、装置及存储语法分析程序的产品
CN101059806A (zh) * 2007-06-06 2007-10-24 华东师范大学 一种基于语义的本地文档检索方法
CN101079026A (zh) * 2007-07-02 2007-11-28 北京百问百答网络技术有限公司 文本相似度、词义相似度计算方法和系统及应用系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘春辰等.改进的语义相似度计算模型及应用.《吉林大学学报(工学版)》.2009,第39卷(第1期),119-123.
基于语义距离的领域本体概念相似度研究;赵飞等;《科技情报开发与经济》;20091231;第19卷(第5期);71-73 *
改进的语义相似度计算模型及应用;刘春辰等;《吉林大学学报(工学版)》;20090131;第39卷(第1期);119-123 *
赵飞等.基于语义距离的领域本体概念相似度研究.《科技情报开发与经济》.2009,第19卷(第5期),71-73.

Also Published As

Publication number Publication date
CN101777042A (zh) 2010-07-14

Similar Documents

Publication Publication Date Title
CN101777042B (zh) 信息检索领域中基于神经网络和标签库的语句相似度算法
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
CN107368468B (zh) 一种运维知识图谱的生成方法及系统
US11093835B2 (en) Natural language question expansion and extraction
CN107766324B (zh) 一种基于深度神经网络的文本一致性分析方法
JP5904559B2 (ja) シナリオ生成装置、及びそのためのコンピュータプログラム
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
Corcoglioniti et al. Frame-based ontology population with PIKES
CN109960786A (zh) 基于融合策略的中文词语相似度计算方法
CN102117281B (zh) 一种构建领域本体的方法
CN108038205A (zh) 针对中文微博的观点分析原型系统
CN104050302B (zh) 一种基于图谱模型的话题探测系统
CN103250129A (zh) 使用具有受限结构的文本提供具有延迟类型评估的问答
CN103221952A (zh) 词法答案类型置信度估计和应用
JP5907393B2 (ja) 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム
KR20060122276A (ko) 온톨로지 자동 구축을 위한 문서로부터 개념 간의 관계추출
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
Sadr et al. Unified topic-based semantic models: A study in computing the semantic relatedness of geographic terms
Almarsoomi et al. AWSS: An algorithm for measuring Arabic word semantic similarity
Grayson et al. Novel2vec: Characterising 19th century fiction via word embeddings
Jinarat et al. Short text clustering based on word semantic graph with word embedding model
Navigli Semi-Automatic Extension of Large-Scale Linguistic Knowledge Bases.
De Lucia et al. Identifying similar pages in web applications using a competitive clustering algorithm
Ustalov et al. Local-global graph clustering with applications in sense and frame induction
Wei et al. Research on Error Detection Technology of English Writing Based on Recurrent Neural Network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB03 Change of inventor or designer information

Inventor after: Xing Ling

Inventor after: Zhang Qi

Inventor after: Peng Bao

Inventor after: Ma Jianguo

Inventor after: Wang Juanjuan

Inventor before: Ma Jianguo

Inventor before: Xing Ling

Inventor before: Wang Juanjuan

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: MA JIANGUO XING LING WANG JUANJUAN TO: XING LING ZHANG QI PENG BAO MA JIANGUO WANG JUANJUAN

C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20191025

Address after: 610015 No.1, floor 3, building 1, No.366, North Hupan Road, Tianfu New District, Chengdu, China (Sichuan) pilot Free Trade Zone, Chengdu

Patentee after: Chengdu ankeyun Network Technology Co.,Ltd.

Address before: 621010 Sichuan, Fucheng, Qinglong District, Mianyang Road, No. 59

Patentee before: Southwest University of Science and Technology

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130116

CF01 Termination of patent right due to non-payment of annual fee