CN109582761A - 一种基于网络平台的词语相似度的中文智能问答系统方法 - Google Patents
一种基于网络平台的词语相似度的中文智能问答系统方法 Download PDFInfo
- Publication number
- CN109582761A CN109582761A CN201811108520.9A CN201811108520A CN109582761A CN 109582761 A CN109582761 A CN 109582761A CN 201811108520 A CN201811108520 A CN 201811108520A CN 109582761 A CN109582761 A CN 109582761A
- Authority
- CN
- China
- Prior art keywords
- similarity
- word
- answer
- words
- justice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于网络自然语言处理技术领域,公开了一种基于网络平台的词语相似度的中文智能问答系统方法,在知识库问答系统中,先将每个问句和每个答案看成两个词语集合,将问句集合的每个词语与答案集合的每个词语匹配,并计算词语相似度,然后求相似度最大值,再取最大值的平均值;本发明简洁效率高;本发明解决了现存的向量夹角余弦法的数据稀疏问题;同时,也克服了现存的模式匹配法,对于问句和答案语言结构不一致时,带来的抽取答案不精确的状况;本发明根据词语相似度算法在知识库问答系统中寻找答案更合理且效率高。
Description
技术领域
本发明属于自然语言处理的智能问答系统领域,尤其涉及一种基于网络平台的词语相似度的中文智能问答系统方法。
背景技术
目前,业内常用的现有技术是这样的:
词语相似度计算,是用一个具体的数值来表示两个词语的相似程度,是对词语语义信息理解的主要手段,是自然语言处理的基础任务之一。词语相似度计算作为语义理解的主要方法,相似度问题的解决将会推动自然语言处理领域相关应用技术的发展,例如信息检索、词义消歧、机器翻译和问答系统等。
其中,智能问答系统是当前自然语言处理领域的热门任务,各种各样的人机对话应用及设备层出不穷,给人们的生活带来了便利。在大数据时代,人们使用各种方式进行查询时,对信息的精准度要求越来越高,如何在海量数据中快速准确地查询相关信息,是问答系统的首要任务。
(一)词语相似度计算研究现状
目前,对相似度的研究涉及到词语、句子以及文本等多个层面。本发明只关注词语层次的相似度研究。词语的相似度计算是国内外研究的热点,国内外学者提出了一些比较有代表性的理论与方法,并在许多应用中取得不错的效果。
词语的相似度的研究己有较长的历史,国内外对词语相似度计算的研究策略大体可分为两类:
1)根据某种世界知识(如Ontology)来计算,主要是基于按照各概念间结构层次关系组织的语义词典的方法,根据在这类语言学资源中概念之间的上下位关系、同义反义关系及总体部分等关系来计算词语的相似度。在研究和开发词典的过程中要克服的问题是如何把握世界知识的概念及如何建立世界知识词典。
大规模的语义计算资源是基于词典的词语相似度计算方法的基础,在汉语方面常用的语义词典:有中科院董振东先生开发的《知网》(How Net)、哈尔滨工业大学信息检索实验室推出的《同义词词林扩展版》及北京大学计算语言研究所提出的《中文概念词典》(CCD)等;在英文方面,具有代表性的有Word Net, Frame Net和Mind Net等。其中Word Net是一个联机英语词汇检索系统,由 Princeton大学研制。它既是语言学本体库,同时又是一部语义词典,在自然语言处理研究方面应用很广。
最近,国内研究较为典型的是基于《同义词词林扩展版》和《知网》语义词典的计算方法。国内《知网》,刘群等人提出了两个词之间语义相似度的算法。国外,主要是基于WordNet,Turney通过一个词和种子词之间的关系来确定这个词的相似度。
2)利用大规模的语料库进行统计,这种方法是基于统计的方法,它主要将上下文信息中词语概念的概率分布作为词语语义相似度计算的参照依据。基于统计的方法能够对词汇间的语义相似性进行比较精确和有效的度量,但是,这种方法主要依赖训练所用的语料库,并且计算量大,计算方法复杂,此外,数据稀疏和数据噪声对计算结果影响较大,有时会出现明显的错误。
总的来说,目前基于统计的方法与基于语义词典的方法应用相比,效果还不够理想,一段时期内,基于语义词典的方法将仍然是主流方法。
(二)基于知识库的问答系统的研究现状
问答系统的主要任务是根据用户输入的问句,机器通过对问句解析,在相关领域进行检索,将答案以自然语言形式返回给用户。
常用的解决知识库问答的技术主要有基于语义分析的方法、基于特征驱动的方法和基于表示学习的方法。
1)基于语义分析的知识库问答
语义分析的目的是将自然语言形式的问句通过一定的文法映射到语义等价的逻辑表达式上。基于语义分析的知识库问答,是将问句映射成一定形式的逻辑表达式后,基于规则在知识库中进行查询。例如x表示问句,z表示基于语义分析映射的问句逻辑表达式,y表示根据逻辑表达式以一定的规则在知识库中查询匹配的答案。
此方法不足之处在于:语义分析方法比较依赖于<句子,语义注解>这样的有监督的数据来进行词汇标记和模型训练,由于数据注解的要求,通常只能在特定领域使用,而且需要人工标注大量的逻辑表达式作为训练。
2)基于特征驱动的知识库问答
基于特征驱动的方法主要是从问题-答案对以及知识库中学习各种特征,将特征进行组合,并赋予不同的权值,使用机器学习的方法查找答案。
经常被选取的特征主要有:问题和答案的分类、实体的长度、以及谓词之间的相似度、以及基于统计方法的各类组合特征等。
此现存方法不足之处在于:在计算分类或计算相似度时,大多采用利用大规模的语料库进行统计计算法。即利用文档的公共词汇信息,通过一些统计的方法来计算相似度。即如果两个文档具有较多的公共词汇,那么它们的相似度较高,反之,如果具有的公共词汇较少,它们的相似度就较低。然而,简单问答系统,问句和答案通常是短文本,即一句话或一个短语。如果以含有公有词的数量来看的话,短文本可能是几个或者十几个,而长文档可能成百上千个。正是因为如此,短文本相似度的计算不能仅仅只用简单的基于统计的方法,否则计算的结果可能偏差很大。例如,我们要计算“怎么从互联网上下载文件”和“如何将从文件传输到电脑上”这两句话的相似度,如果用传统的基于统计的方法,这两句话公共的词很少,所以得到它们的相似度很低,但事实上,这两句话具有很高的相似度。
3)基于表示学习的知识库问答
该方法目的是将知识库中的实体和语义关系用低维向量来表示,将问句映射到相同维度的语义向量中,通过计算问题和答案的向量空间距离,进行答案的查找。
大多数现存的方法,首先根据知识库问答系统中所有答案的词语的TF-IDF 值(TF-IDF为出现在所有答案中的词的逆文档频率)的大小,选取特征词,构成向量空间模型(w1,w2,…,wi,…,wn),(wi为第i个特征词的TF-IDF值)。然后,把所有问句和答案文本转换成相应的向量空间模型。最后,通过向量的夹角余弦:Simi(D1,D2)=D1*D2/|D1|*|D2|,计算一个问句和一个答案的相似度,这里,D1和D2分别表示一个问句向量和一个答案向量,|D1|和|D2|表示两个向量的模。
此方法不足之处在于:这个方法只考虑了词的统计频数,而忽略了词的语言意义,显然,据此计算的相似度不精确;根据统计的方法得到的结果受数据稀疏的干扰较大,所以会出现明显的计算失误。
一些现存的方法应用模式匹配的方法寻找答案(例如韩建波,张桂平,蔡东风等)。这种方法也有不足之处。当问句和答案语言结构较为一致时,答案抽取效果不错;而当问句和答案语言结构相差较远时,答案抽取效果较差。
综上所述,现有技术存在的问题是:
现存的向量夹角余弦法的数据存在稀疏问题。
现存的模式匹配法,对于问句和答案语言结构不一致时,带来的抽取答案不精确。
利用大规模的语料库进行统计,主要依赖训练所用的语料库,并且计算量大,计算方法复杂,此外,数据稀疏和数据噪声对计算结果影响较大,有时会出现明显的错误。
解决上述技术问题的难度和意义:
难度:现有技术需标注大量人工训练数据,问答系统短文本相似度计算不适宜统计方法的情形,模式匹配当问句和答案语言结构相差较远,答案抽取效果较差的情形。
意义:本发明提出基于《知网》词语相似度的中文智能问答系统方法。结合集合分类法、最大值法、平均值法等对所有答案排序。
发明内容
针对现有技术存在的问题,本发明提供了一种基于网络平台的词语相似度的中文智能问答系统方法。本发明涉及义原相似度计算法、概念相似度计算法、义原集合相似度计算法、词语相似度计算法。而且,结合集合分类法、最大值法、平均值法等对所有答案排序。
本发明是这样实现的,一种基于网络平台的词语相似度的中文智能问答系统处理方法,所述基于网络平台的词语相似度的中文智能问答系统处理方法包括:
在知识库问答系统中,先将每个问句和每个答案看成两个词语集合,将问句集合的每个词语与答案集合的每个词语匹配,并计算词语相似度,然后求相似度最大值,再取最大值的平均值。
进一步,所述基于网络平台的词语相似度的中文智能问答系统处理方法进一步包括:
在词语的概念层面上,将义原被分为四类,每一类均存在相应的义原集合;在求两个不同词语的第i类概念的相似度中,先计算一个词的义原集合X中每一个义原与另一个词的义原集合Y中所有义原的相似度,然后取相似度的最大值,再对所有相似度的最大值取平均值。
进一步,所述基于网络平台的词语相似度的中文智能问答系统处理方法具体包括:
第一步,预处理词:对于所有问句,以及知识库问答系统中的所有答案,基于软件ICTCLAS,进行单词划分,再去掉停用词和符号;
第二步,基于知网的词语相似度计算:进行两个义素之间的相似性计算、两个概念之间的相似性计算和两个词之间的语义相似性计算;
通过词语相似度计算法计算问句和知识库中答案的相似度。
第三步,排序抽取答案:根据一个问句和所有答案的相似度大小,进行降序排列,设定一个答案阈值数,抽取排序后的答案。
进一步,第二步,具体包括:
1)计算两个义原之间的相似度:利用义原层次体现的树状结构,将义原间相似度计算归结于义原间的语义距离的计算;相似性的公式如下:
在公式(1)中,S1和S2分别代表两个不同的义原;dist(S1,S2)表示语义树中S1和S2之间的距离;a是表示相似度的路径长度为0.5的调整参数,a=1.6;
2)计算两个概念之间的相似度:
对于任何类型的概念描述,相似性简写为Simi(S1,S2),(1=1,2,3,4);第i 类概念描述的对应权重是βi(i=1,2,3,4);两个概念之间的相似度计算公式如下:
在公式(2)中,C1和C2分别代表两个不同的概念;β1、β2、β3、β4 是可调节的参数,β1+β2+β3+β4=1,andβ1≥β2≥β3≥β4;
3)计算义原集合相似度:
构成概念的四部分义原集合中,有的集合包含一个或者多个义原,有的为空集合,计算每一部分义原集合相似度的时,按如下规则计算:
对于空集合和非空集合,设定一个较小的数值e来表示;
两个空集合的相似度定义为1;
对于两个非空集合,采用如下方法计算:假设X和Y为两个非空的义原集合,元素个数分别为lx和mY。集合X和集合Y的相似度由公式(3)计算:
在公式(3)中,Simi(X,Y)表示两个不同词的第i类概念描述的相似度;第i 类概念描述分别有相应的两个非空的义原集合X和Y;Avgi(X,Y)表示先计算集合X中每一个义原与集合Y中所有义原的相似度,然后取最大值,再对所有相似度的最大值取平均值;其中
在公式(4)中,S immax(Xj,Y)表示集合X中的义原Xj分别和集合Y中的所有义原计算相似度,并取最大值;相应地有
在公式(5)中,S immax(Yj,X)表示集合Y中的义原Yj分别和集合X中的所有义原计算相似度,并取最大值;
4)计算词语相似度:
如果W1这个词有n个概念:C11,C12,…C1n,W2有m个概念:C21, C22,…C2m,W1和W2之间的相似度按如下公式计算:
Sim(w1,w2)=max(Simij(C1i,C2j)) (6)
在公式(6)中,i=1,2,…,n,j=1,2,…,m.Simij(C1i,C2j)表示概念c1i和c2j 之间的相似度,Sim(W1,W2)表示词W1和W2之间的相似度。
进一步,第二步中,通过词语相似度计算法计算问句和知识库中答案的相似度,包括:
a)设D1和D2分别是一个问句和一个答案(D1和D2也分别代表两个词组), ai(i=1,2,…,m)是D1中的一个词,bj(j=1,2,…,n)是D2中的一个词;
b)用词语相似度计算法,计算D1和D2中任意两个词语的相似度Sim(ai,bj), 1≤i≤m,1≤j≤n;
3)计算所有相似度Sim(ai,bj)(1≤i≤m,1≤j≤n);即
4)计算最大值,即Max(Sim(ai,,b1),...,Sim(ai,bj),Sim(ai,,bn),并求平均值,如公式(7)所示;此平均值为D1和D2的相似度,为一个问句和一个答案的相似度;
本发明的另一目的在于提供一种实现所述基于网络平台的词语相似度的中文智能问答系统处理方法的计算机程序。
本发明的另一目的在于提供一种实现所述基于网络平台的词语相似度的中文智能问答系统处理方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于网络平台的词语相似度的中文智能问答系统处理方法。
本发明的另一目的在于提供一种实现所述基于网络平台的词语相似度的中文智能问答系统处理系统,所述基于网络平台的词语相似度的中文智能问答系统处理系统包括:
预处理词模块,用于对于所有问句,以及知识库问答系统中的所有答案,基于软件ICTCLAS,进行单词划分,再去掉停用词和符号;
基于知网的词语相似度计算模块,用于进行两个义素之间的相似性计算、两个概念之间的相似性计算和两个词之间的语义相似性计算;
通过词语相似度计算法计算问句和知识库中答案的相似度。
排序抽取答案模块,用于根据一个问句和所有答案的相似度大小,进行降序排列,设定一个答案阈值数,抽取排序后的答案。
本发明的另一目的在于提供一种至少搭载所述基于网络平台的词语相似度的中文智能问答系统处理系统的计算机。
计算问句和知识库中答案的相似度中,基于知识库的问答系统的答案来源主要是一个以结构化形式存在知识库,机器根据用户提出的问题,经过问题理解,在知识库中查询对应的答案。本发明着重研究当问句为简单句式时,词语相似度计算在知识库问答系统中的应用。
而知识库的结构主要有“实体-关系-实体”和“实体-属性-属性值”等多种三元组形式。对于所有问句,以及知识库问答系统中的所有答案实现单词划分,去掉停用词和符号后,它们都是由划分后的许多单词组成的。通过本发明提出的词语相似度计算法,计算任意一个问句和任意一个答案的相似度。图2表示出了该方法的计算过程。
综上所述,本发明的优点及积极效果为:
计算义原集合相似度方法更加合理:
大多数现存的方法,在计算义原集合相似度时,描述为:Simi(X,Y)表示两个不同词的第i类概念描述的相似度(i=1,2,3,4)。第i类概念描述分别有相应的两个非空的义原集合X和Y,元素个数分别为lx和mY,则
Simi(X,Y)=max(Sim(X1,Y1),Sim(X1,Y2),…,Sim(Xi,Yj),……),(i=1,2,…,lx,j=1,2,…,mY),Xi和Yj分别属于集合X与集合Y中的两个义原。
这种表示方法不足之处在于计算过于粗略,导致相似度计算结果不精确。
例如,假设X={互联网,小说,文件},Y={电脑,传输,项目,文件},根据以上方法计算,会得出Simi(X,Y)=1。而显然X和Y的相似度等于1是不合理的。
根据以上介绍,本发明的发明法,采用先求最大值,再求平均值,最后再求平均值,克服了现存方法的不足。
根据词语相似度算法在知识库问答系统中寻找答案更合理且效率高:
本发明的方法重在考虑了词汇本身的语言意义,所以,相似度计算更加合理;而且,可以解决数据稀疏问题。
本发明的发明方法是,在知识库问答系统中,先将每个问句和每个答案看成两个词语集合,将问句集合的每个词语与答案集合的每个词语匹配,并计算词语相似度,然后求相似度最大值,再取最大值的平均值。该方法简洁。解决了模式匹配法,当问句和答案语言结构相差较远时,答案抽取效果较差的状况。
为了验证词语相似度计算方法的效果,本发明将几组常用词语进行相似度计算的实验。实验中采用两种词语相似度计算方法进行验证,分别是本发明提出的方法和现存的一种方法。
本发明假设两种方法在计算义原集合时的算法不同,即本发明提出的方法和现存的只取最大值的一种方法,其他步骤都相同。表1显示部分词语相似度计算结果。
2.性能测试:
实验中,测试名词6000个,将自动识别出的语义类结果与CSD词典中人工校对的语义类进行一致率比较,结果见表2。
方法 | 测试词语数目 | 一致率 |
现存法 | 6000 | 75.1% |
本方法 | 6000 | 78.9% |
表2显示本方法比现存的方法词语相似度计算结果性能更好。
附图说明
图1是本发明实施例提供的基于网络平台的词语相似度的中文智能问答系统的处理方法流程图。
图2是本发明实施例提供的词语匹配方法图。
图3是本发明实施例提供的词的结构关系图。
图4是本发明实施例提供的义原层次结构示例图。
图5是本发明实施例提供的基于网络平台的词语相似度的中文智能问答系统的处理系统示意图。
图中:1、预处理词模块;2、基于知网的词语相似度计算模块;3、排序抽取答案模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现存的向量夹角余弦法的数据存在稀疏问题。
现存的模式匹配法,对于问句和答案语言结构不一致时,带来的抽取答案不精确。
利用大规模的语料库进行统计,主要依赖训练所用的语料库,并且计算量大,计算方法复杂,此外,数据稀疏和数据噪声对计算结果影响较大,有时会出现明显的错误。
本发明在词语的概念层面上,义原被分为四类,而每一类都存在相应的义原集合。为了求出两个不同词语的第i类概念的相似度,先计算一个词的义原集合X中每一个义原与另一个词的义原集合Y中所有义原的相似度,然后取相似度的最大值,再对所有相似度的最大值取平均值,反之亦然。本发明比现存的直接最大值法更加合理,实验证明,本方法的词语相似度结果更为精确;本发明的第二大特色是:在知识库问答系统中,先将每个问句和每个答案看成两个词语集合,将问句集合的每个词语与答案集合的每个词语匹配,并计算词语相似度,然后求相似度最大值,再取最大值的平均值。该方法简洁效率高。解决了现存的向量夹角余弦法的数据稀疏问题。同时,也克服了现存的模式匹配法,对于问句和答案语言结构不一致时,带来的抽取答案不精确的状况。
下面结合具体分析对本发明作进一步描述。
(一)《知网》有关预备知识简述
1.词语的概念描述
在《知网》中,词语不同的语义由概念来解释,概念是语义的表达,语义不同,词语的概念描述也不相同,每一个概念又由若干个义原来描述,表3是一些词语的示例。
表3《知网》词语示例
表3所示,第一列是中文词语;第二列是相应的英文词语;第三列是对第一列词的概念描述,它是义原集合(即概念描述中的所有词称为义原)。
表3中的符号解释:
关于冒号:冒号后面的所有内容都是对与冒号前面的概念的具体描述,其中包括这个概念所具有的属性以及各种关系。
关于逗号:当一个概念具有多个属性或者关系时,使用逗号来区分各个不同的属性或关系。当对一种属性或关系进行的描述结束时,使用逗号表示这种结束。
关于分号:当一个词语是由若干个概念组合而成的组合型复杂概念时,使用分号分割各个不同的概念,并且分号分割的各个部分必须是独立的完整的定义。
在《知网》中,义原对词语概念的描述,按语义表示功能分为四个部分:第一部分是第一基本义原,它表示了概念的基本语义信息,在概念描述中所起作用较大;第二部分是其他基本义原,指概念描述中除去第一个义原后剩余的基本义原,表示了概念的重要语义信息;第三部分是关系义原,主要是关系义原类中的义原,也可能是一个具体词语;第四部分是符号义原,概念描述中某些义原带有一些符号,义原包含的符号主要有:,~、^、#、%、$、*、+、&、@、?、!、 {}、()、[],不同的符号分别表示不同的语义信息。
例如,关于“重男轻女”这个词,它有两个概念描述,即为“注意”和“轻视”。且“注意”和“轻视”均为概念描述的第一基本义原;而“人”是其他基本义原;而“男人”和“女人”均为关系义原。
例如,关于“挖掘机”这个词,它有一个概念描述,即为“用具”。且“用具”是第一基本义原;而“挖掘”是其他基本义原;而“~”是符号义原。
2.义原的层次结构
在《知网》中,义原存在许多关系。在诸多关系中,义原的上下位关系尤为重要,它将义原组织成层次结构,如图4所示,层次之间表示包含与被包含的关系,父义原作为子义原的父节点,是对子义原的语义概括,子义原是对父义原的具体划分。
下面结合具体分析对本发明作进一步描述。
如图1,本发明实施例提供的基于网络平台的词语相似度的中文智能问答系统的处理方法,包括:
S101:基于知网的词语相似度计算:两个义素之间的相似性、两个概念之间的相似性和两个词之间的语义相似性。
S102:计算问句和知识库中答案的相似度:对于所有问句,以及知识库问答系统中的所有答案实现单词划分,去掉停用词和符号后,它们都是由划分后的许多单词组成的。通过本发明提出的词语相似度计算法,计算任意一个问句和任意一个答案的相似度。
S103:排序抽取答案:根据一个问句和所有答案的相似度大小,进行降序排列,设定一个答案阈值数,抽取排序后的答案。
如图5,本发明实施例提供的基于网络平台的词语相似度的中文智能问答系统处理系统包括:
预处理词模块1,用于对于所有问句,以及知识库问答系统中的所有答案,基于软件ICTCLAS,进行单词划分,再去掉停用词和符号;
基于知网的词语相似度计算模块2,用于进行两个义素之间的相似性计算、两个概念之间的相似性计算和两个词之间的语义相似性计算;
通过词语相似度计算法计算问句和知识库中答案的相似度。
排序抽取答案模块3,用于根据一个问句和所有答案的相似度大小,进行降序排列,设定一个答案阈值数,抽取排序后的答案。
下面结合具体实施例对本发明作进一步描述。
图1是本发明实施例提供的基于网络平台的词语相似度的中文智能问答系统的处理方法包括:
(一)预处理词
对于所有问句,以及知识库问答系统中的所有答案,基于软件ICTCLAS (http://www.ICtcas.org/),实现单词划分。之后,去掉停用词和符号。
(二)计算问句和知识库中答案的相似度:
对于所有问句,以及知识库问答系统中的所有答案,它们都是由划分、过滤后的许多词组成。通过本发明提出的词语相似度计算法,计算任意一个问句和任意一个答案的相似度。图2表示出了该方法的计算过程。
2.1)设D1和D2分别是一个问句和一个答案(D1和D2也分别代表两个词组),ai(i=1,2,…,m)是D1中的一个词,bj(j=1,2,…,n)是D2中的一个词;
2.2)用以上本发明提出的词语相似度计算法,计算D1和D2中任意两个词语的相似度Sim(ai,bj),1≤i≤m,1≤j≤n;
图3表示了词的结构关系。
假设词语ai包含了n个概念:C11,C12,…C1n,bj包含了m个概念:C21, C22,…C2m,且每个概念又包含了很多义原,义原被划分为4类集合。(i表示类别,i=1,2,3,4)。
应用公式(1)计算两个义原的相似度;应用公式(3)、(4)、(5)计算义原集合相似度(例如计算C1i的X3和C2j的X3的相似度);如果对于空集合和非空集合,由于一方不存在元素,无法计算它们的相似度,设定一个较小的数值e来表示;两个空集合的相似度定义为1;应用公式(2)计算两个概念之间的相似度;应用公式(6)计算两个词语ai和bj的相似度。
2.3)计算所有相似度Sim(ai,bj)(1≤i≤m,1≤j≤n)。即
2.4)应用公式(7)计算的平均值,此平均值即为D1和D2的相似度,也即为一个问句和一个答案的相似度。
(三)排序抽取答案
根据一个问句和所有答案的相似度大小,进行降序排列,设定一个答案阈值数,抽取排序后的答案。
下面结合实施例对本发明作进一步描述。
实施例1
1.为了验证词语相似度计算方法的效果,本发明将几组常用词语进行相似度计算的实验。实验中采用两种词语相似度计算方法进行验证,分别是本发明提出的方法和现存的一种方法。
本发明假设两种方法在计算义原集合时的算法不同,即本发明提出的方法和现存的只取最大值的一种方法,其他步骤都相同。表4显示部分词语相似度计算结果。
2.性能测试:
实验中,测试名词6000个,将自动识别出的语义类结果与CSD词典中人工校对的语义类进行一致率比较,结果见表5。
方法 | 测试词语数目 | 一致率 |
现存法 | 6000 | 75.1% |
本方法 | 6000 | 78.9% |
表5显示本方法比现存的方法词语相似度计算结果性能更好。
实施例2
1.为了验证词语相似度在问答系统中的应用,本发明建立了知识库答案系统,数据近3000条,涉及各个领域。例如书、电影、人物和景点等。
对于所有问句,以及知识库问答系统中的所有答案,基于软件ICTCLAS (http://www.ICtcas.org/),实现单词划分。之后,去掉停用词和符号。
将《知网》里不会出现的具体的人名、地名、时间等分别用“人名”、“地名”、“时间”等抽象词待换。例如,将“杨飞宇”待换为“人名”;将“木格措”待换为“地名”;将“2018/1/30”待换为“时间”。
去掉重复词。
表6显示的是部分的实例问答
表6部分的实例问答
2.性能测试:
腾讯、百度等公司在做问答系统时采用的评测指标是TOP-5准确率,即查询返回的前5个问答中含有查询问句的正确答案就认为这次查询是正确的 [61],测试结果如表7所示。
表7系统测试结果
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于网络平台的词语相似度的中文智能问答系统处理方法,其特征在于,所述基于网络平台的词语相似度的中文智能问答系统处理方法包括:
在知识库问答系统中,先将每个问句和每个答案看成两个词语集合,将问句集合的每个词语与答案集合的每个词语匹配,并计算词语相似度,然后求相似度最大值,再取最大值的平均值。
2.如权利要求1所述的基于网络平台的词语相似度的中文智能问答系统处理方法,其特征在于,所述基于网络平台的词语相似度的中文智能问答系统处理方法进一步包括:
在词语的概念层面上,将义原被分为四类,每一类均存在相应的义原集合;在求两个不同词语的第i类概念的相似度中,先计算一个词的义原集合X中每一个义原与另一个词的义原集合Y中所有义原的相似度,然后取相似度的最大值,再对所有相似度的最大值取平均值。
3.如权利要求1所述的基于网络平台的词语相似度的中文智能问答系统处理方法,其特征在于,所述基于网络平台的词语相似度的中文智能问答系统处理方法具体包括:
第一步,预处理词:对于所有问句,以及知识库问答系统中的所有答案,基于软件ICTCLAS,进行单词划分,再去掉停用词和符号;
第二步,基于知网的词语相似度计算:进行两个义素之间的相似性计算、两个概念之间的相似性计算和两个词之间的语义相似性计算;
通过词语相似度计算法计算问句和知识库中答案的相似度;
第三步,排序抽取答案:根据一个问句和所有答案的相似度大小,进行降序排列,设定一个答案阈值数,抽取排序后的答案。
4.如权利要求1所述的基于网络平台的词语相似度的中文智能问答系统处理方法,其特征在于,第二步,具体包括:
1)计算两个义原之间的相似度:利用义原层次体现的树状结构,将义原间相似度计算归结于义原间的语义距离的计算;相似性的公式如下:
在公式(1)中,S1和S2分别代表两个不同的义原;dist(S1,S2)表示语义树中S1和S2之间的距离;a是表示相似度的路径长度为0.5的调整参数,a=1.6;
2)计算两个概念之间的相似度:
对于任何类型的概念描述,相似性简写为Simi(S1,S2),(1=1,2,3,4);第i类概念描述的对应权重是βi(i=1,2,3,4);两个概念之间的相似度计算公式如下:
在公式(2)中,C1和C2分别代表两个不同的概念;β1、β2、β3、β4是可调节的参数,β1+β2+β3+β4=1,andβ1≥β2≥β3≥β4;
3)计算义原集合相似度:
构成概念的四部分义原集合中,有的集合包含一个或者多个义原,有的为空集合,计算每一部分义原集合相似度的时,按如下规则计算:
对于空集合和非空集合,设定一个较小的数值e来表示;
两个空集合的相似度定义为1;
对于两个非空集合,采用如下方法计算:假设X和Y为两个非空的义原集合,元素个数分别为lx和mY;集合X和集合Y的相似度由公式(3)计算:
在公式(3)中,Simi(X,Y)表示两个不同词的第i类概念描述的相似度;第i类概念描述分别有相应的两个非空的义原集合X和Y;Avgi(X,Y)表示先计算集合X中每一个义原与集合Y中所有义原的相似度,然后取最大值,再对所有相似度的最大值取平均值;其中
在公式(4)中,S immax(Xj,Y)表示集合X中的义原Xj分别和集合Y中的所有义原计算相似度,并取最大值;相应地有
在公式(5)中,S immax(Yj,X)表示集合Y中的义原Yj分别和集合X中的所有义原计算相似度,并取最大值;
4)计算词语相似度:
如果W1这个词有n个概念:C11,C12,…C1n,W2有m个概念:C21,C22,…C2m,W1和W2之间的相似度按如下公式计算:
Sim(w1,w2)=max(Simij(C1i,C2j)) (6)
在公式(6)中,i=1,2,…,n,j=1,2,…,m.Simij(C1i,C2j)表示概念c1i和c2j之间的相似度,Sim(W1,W2)表示词W1和W2之间的相似度。
5.如权利要求1所述的基于网络平台的词语相似度的中文智能问答系统处理方法,其特征在于,第二步中,通过词语相似度计算法计算问句和知识库中答案的相似度,包括:
a)设D1和D2分别是一个问句和一个答案(D1和D2也分别代表两个词组),a i(i=1,2,…,m)是D1中的一个词,bj(j=1,2,…,n)是D2中的一个词;
b)用词语相似度计算法,计算D1和D2中任意两个词语的相似度Sim(ai,bj),1≤i≤m,1≤j≤n;
3)计算所有相似度Sim(ai,bj)(1≤i≤m,1≤j≤n);即
4)计算最大值,即Max(Sim(ai,,b1),...,Sim(ai,bj),Sim(ai,,bn),并求平均值,如公式(7)所示;此平均值为D1和D2的相似度,为一个问句和一个答案的相似度;
6.一种实现权利要求1~5任意一项所述基于网络平台的词语相似度的中文智能问答系统处理方法的计算机程序。
7.一种实现权利要求1~5任意一项所述基于网络平台的词语相似度的中文智能问答系统处理方法的信息数据处理终端。
8.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-5任意一项所述的基于网络平台的词语相似度的中文智能问答系统处理方法。
9.一种实现权利要求1~5任意一项所述基于网络平台的词语相似度的中文智能问答系统处理系统,其特征在于,所述基于网络平台的词语相似度的中文智能问答系统处理系统包括:
预处理词模块,用于对于所有问句,以及知识库问答系统中的所有答案,基于软件ICTCLAS,进行单词划分,再去掉停用词和符号;
基于知网的词语相似度计算模块,用于进行两个义素之间的相似性计算、两个概念之间的相似性计算和两个词之间的语义相似性计算;
通过词语相似度计算法计算问句和知识库中答案的相似度;
排序抽取答案模块,用于根据一个问句和所有答案的相似度大小,进行降序排列,设定一个答案阈值数,抽取排序后的答案。
10.一种至少搭载权利要求9所述基于网络平台的词语相似度的中文智能问答系统处理系统的计算机。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811108520.9A CN109582761A (zh) | 2018-09-21 | 2018-09-21 | 一种基于网络平台的词语相似度的中文智能问答系统方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811108520.9A CN109582761A (zh) | 2018-09-21 | 2018-09-21 | 一种基于网络平台的词语相似度的中文智能问答系统方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109582761A true CN109582761A (zh) | 2019-04-05 |
Family
ID=65919809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811108520.9A Withdrawn CN109582761A (zh) | 2018-09-21 | 2018-09-21 | 一种基于网络平台的词语相似度的中文智能问答系统方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109582761A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298030A (zh) * | 2019-05-24 | 2019-10-01 | 平安科技(深圳)有限公司 | 语义分析模型准确度的校验方法、装置、存储介质及设备 |
CN111782789A (zh) * | 2020-07-03 | 2020-10-16 | 江苏瀚涛软件科技有限公司 | 智能问答方法与系统 |
CN112116840A (zh) * | 2019-06-19 | 2020-12-22 | 广东小天才科技有限公司 | 一种基于图像识别的作业批改方法、系统和智能终端 |
WO2021028776A1 (en) * | 2019-08-09 | 2021-02-18 | International Business Machines Corporation | Query relaxation using external domain knowledge for query answering |
CN113988171A (zh) * | 2021-10-26 | 2022-01-28 | 北京明略软件系统有限公司 | 句子相似度计算方法、系统、电子设备及存储介质 |
CN115292520A (zh) * | 2022-09-28 | 2022-11-04 | 南京邮电大学 | 一种面向多源移动应用知识图谱构建方法 |
CN117315665A (zh) * | 2023-11-30 | 2023-12-29 | 上海又寸科技有限公司 | 一种基于原笔迹识别的题目自动批阅方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101373532A (zh) * | 2008-07-10 | 2009-02-25 | 昆明理工大学 | 旅游领域faq中文问答系统实现方法 |
CN106970912A (zh) * | 2017-04-21 | 2017-07-21 | 北京慧闻科技发展有限公司 | 中文语句相似度计算方法、计算装置以及计算机存储介质 |
-
2018
- 2018-09-21 CN CN201811108520.9A patent/CN109582761A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101373532A (zh) * | 2008-07-10 | 2009-02-25 | 昆明理工大学 | 旅游领域faq中文问答系统实现方法 |
CN106970912A (zh) * | 2017-04-21 | 2017-07-21 | 北京慧闻科技发展有限公司 | 中文语句相似度计算方法、计算装置以及计算机存储介质 |
Non-Patent Citations (1)
Title |
---|
李浩: "词语相似度计算及其在问答系统中的应用研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298030A (zh) * | 2019-05-24 | 2019-10-01 | 平安科技(深圳)有限公司 | 语义分析模型准确度的校验方法、装置、存储介质及设备 |
CN110298030B (zh) * | 2019-05-24 | 2022-06-17 | 平安科技(深圳)有限公司 | 语义分析模型准确度的校验方法、装置、存储介质及设备 |
CN112116840A (zh) * | 2019-06-19 | 2020-12-22 | 广东小天才科技有限公司 | 一种基于图像识别的作业批改方法、系统和智能终端 |
WO2021028776A1 (en) * | 2019-08-09 | 2021-02-18 | International Business Machines Corporation | Query relaxation using external domain knowledge for query answering |
GB2601936A (en) * | 2019-08-09 | 2022-06-15 | Ibm | Query relaxation using external domain knowledge for query answering |
US11841867B2 (en) | 2019-08-09 | 2023-12-12 | International Business Machines Corporation | Query relaxation using external domain knowledge for query answering |
CN111782789A (zh) * | 2020-07-03 | 2020-10-16 | 江苏瀚涛软件科技有限公司 | 智能问答方法与系统 |
CN113988171A (zh) * | 2021-10-26 | 2022-01-28 | 北京明略软件系统有限公司 | 句子相似度计算方法、系统、电子设备及存储介质 |
CN115292520A (zh) * | 2022-09-28 | 2022-11-04 | 南京邮电大学 | 一种面向多源移动应用知识图谱构建方法 |
CN115292520B (zh) * | 2022-09-28 | 2023-02-03 | 南京邮电大学 | 一种面向多源移动应用知识图谱构建方法 |
CN117315665A (zh) * | 2023-11-30 | 2023-12-29 | 上海又寸科技有限公司 | 一种基于原笔迹识别的题目自动批阅方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109582761A (zh) | 一种基于网络平台的词语相似度的中文智能问答系统方法 | |
US10740678B2 (en) | Concept hierarchies | |
Shah et al. | Sentimental Analysis Using Supervised Learning Algorithms | |
CN109947952B (zh) | 基于英语知识图谱的检索方法、装置、设备及存储介质 | |
Mills et al. | Graph-based methods for natural language processing and understanding—A survey and analysis | |
CN111625622B (zh) | 领域本体构建方法、装置、电子设备及存储介质 | |
JP2013543172A (ja) | 質問に対する解答を自動的に生成するための方法、システム、およびコンピュータ・プログラム | |
Wang et al. | NLP-based query-answering system for information extraction from building information models | |
CN111414763A (zh) | 一种针对手语计算的语义消歧方法、装置、设备及存储装置 | |
CN109376352A (zh) | 一种基于word2vec和语义相似度的专利文本建模方法 | |
Al-Taani et al. | An extractive graph-based Arabic text summarization approach | |
CN109271524A (zh) | 知识库问答系统中的实体链接方法 | |
CN109614626A (zh) | 基于万有引力模型的关键词自动抽取方法 | |
CN112149427A (zh) | 动词短语蕴含图谱的构建方法及相关设备 | |
CN112883182A (zh) | 一种基于机器阅读的问答匹配方法及装置 | |
Zaiß | Instance-based ontology matching and the evaluation of matching systems. | |
Huang et al. | An effective method for constructing knowledge graph of online course | |
KR101092165B1 (ko) | 웹 문서의 분류 및 분석 정확도를 향상시키는 문서 전처리 장치 | |
CN112883187B (zh) | 一种用户知识概念网络的构建方法及装置、用户知识的评价方法 | |
Wisniewski et al. | SeeQuery: An Automatic Method for Recommending Translations of Ontology Competency Questions into SPARQL-OWL | |
Zhang | Explorations in Word Embeddings: graph-based word embedding learning and cross-lingual contextual word embedding learning | |
Wang | Math-KG: Construction and Applications of Mathematical Knowledge Graph | |
Dunn | Computational construction grammar: A usage-based approach | |
Xia et al. | A Question and Answering Service of Typhoon Disasters Based on the T5 Large Language Model | |
Yilahun et al. | Automatic extraction of Uyghur domain concepts based on multi‐feature for ontology extension |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190405 |