CN103455535A - 基于历史咨询数据构建知识库的方法 - Google Patents

基于历史咨询数据构建知识库的方法 Download PDF

Info

Publication number
CN103455535A
CN103455535A CN2013101689642A CN201310168964A CN103455535A CN 103455535 A CN103455535 A CN 103455535A CN 2013101689642 A CN2013101689642 A CN 2013101689642A CN 201310168964 A CN201310168964 A CN 201310168964A CN 103455535 A CN103455535 A CN 103455535A
Authority
CN
China
Prior art keywords
answer
sentence
historical
similarity
knowledge base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101689642A
Other languages
English (en)
Other versions
CN103455535B (zh
Inventor
冯梓洋
刁应君
卢铄波
胡欢
刘洋
杨大川
宋战
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Mingtang Communication Co Ltd
Original Assignee
Shenzhen Mingtang Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Mingtang Communication Co Ltd filed Critical Shenzhen Mingtang Communication Co Ltd
Priority to CN201310168964.2A priority Critical patent/CN103455535B/zh
Priority claimed from CN201310168964.2A external-priority patent/CN103455535B/zh
Publication of CN103455535A publication Critical patent/CN103455535A/zh
Application granted granted Critical
Publication of CN103455535B publication Critical patent/CN103455535B/zh
Active - Reinstated legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于历史咨询数据构建知识库的方法,是基于历史咨询数据自动构建知识库,包括对历史咨询数据进行切分咨询场景、提取每个场景的问答对、计算答案相似度、过滤相似答案频率低的答案、提取高频率答案对应的问句、提取问句集的核心关键字顺序规则、存储知识。本发明通过历史咨询数据自动构建知识库,减少了人工建设知识库和维护近义词库的工作量。

Description

基于历史咨询数据构建知识库的方法
技术领域
本发明涉及计算机及问答系统的知识库领域,尤其涉及基于历史咨询数据构建知识库的方法。 
背景技术
在自动问答系统中,知识库是问答系统的重要数据来源,它在整个系统中起到了非常重要的作用,一个高质量的知识库能够大大提高问答系统的效率与准确率。 
目前业内对知识库的建设一般有2种方式: 
第一种是知识库建设还停留在手工建设阶段,由于行业领域限制的原因,所以很多知识都是纯手工构建,而且手工构建一般都是某行业特殊的技术人员来完成,其工作效率低、质量不高,维护难度大。 
第二种是采用语义匹配度,进行构建知识库。问答系统中通常是使用知网(How-net)或近义词表来实现,但是知网(How-net)和近义词表都是靠人工整理,实现起来工作量相当庞大,而且覆盖范围窄。 
假设自动问答系统知识库中存在以下多对一的问答集,并且包括一个用户输入自然语言句子(以下简称问句)和系统应答(以下简称答案句),如以下例子: 
在淘宝网的服装行业中常见的问答句: 
问句:这件牛仔裤会不会褪色? 
问句:这件宝贝会不会褪色啊? 
问句:真的不会褪色吗? 
问句:牛仔裤洗几次会褪色吗? 
问句:你们卖的牛仔裤是褪色吗? 
。。。。。。 
答案句:不会褪色的,亲。 
当用户输入“牛仔裤洗几次会褪色吗”的时候,系统会找到这组问答集,并将该答案句返回给用户。但是,当用户输入“这件宝贝洗了几次会掉色吗?”的时候,技术人员必须手工在知网(How-net)或近义词表中设置“宝贝”(电商行业通常用“宝贝”来代替商品名)与“牛仔裤”关联,“褪色”与“掉色”关联。系统才能准确把答案句返回给用户,不然系统无法计算出真实的答案。以上不光技术人员要设置近义词的关联,还有把答案句“不会褪色的,亲。”对应n种问法都收集起来,此种做法,无论是从工作量还是系统效率的角度来看,都是不可接受的。 
发明内容
本发明的目的在于,提供一种基于历史咨询数据构建知识库的方法,解决现有知识库构建效率低下的问题。 
为了实现上述目的,本发明提供一种基于历史咨询数据构建知识库的方法,其包括以下步骤: 
1)读取历史咨询数据; 
2)切分咨询场景; 
3)提取每个场景的问答对; 
4)计算答案相似度; 
5)过滤相似答案频率低的答案; 
6)提取高频率答案对应的问句; 
7)提取问句集的核心关键字顺序规则; 
8)存储知识。 
其中,在所述步骤2)中,根据咨询者进行切分场景,切成多组单个客服与单个咨询者的咨询场景。 
其中,在所述步骤3)中,根据客服与咨询者的身份来提取问答对,客服说的内容设为答案,咨询者说的内容设为问句。 
其中,在所述步骤4)中,计算答案相似度是计算所有场景的问答对中的答案相似值,首先对答案句进行分词,其次过滤停用词,最后计算每句答案句之间的相似值。 
其中,所述答案句的相似度包括词的相似度、句子长度相似度、及词序相似度,其之间的关系为 
SentenceSim(X,Y)=λ1*WordSim(X,Y)+λ2*LenSim(x,y)+λ3*OrderSim(X,Y),SentenceSim(X,Y)表示答案句X及答案句Y的相似度,WordSim(X,Y)表示答案句X的词与答案句Y的词之间的相似度,LenSim(X,Y)表示答案句X的句子长度与答案句Y的句子长度之间的相似度,OrderSim(X,Y)表示答案句X的词序与答案句Y的词序之间的相似度,λ1、λ2、λ3分别是常数,且满足λ1+λ2+λ3=1。 
其中,所述WordSim(X,Y)的计算公式为: 
WordSim ( X , Y ) = SameWc ( X , Y ) Max ( Len ( X ) , Len ( Y ) ) ;
所述LenSim(X,Y)计算公式为: 
· LenSim ( X , Y ) = 1 - abs ( Len ( X ) - Len ( y ) ) Len ( X ) + Len ( Y ) ;
所述词序相似度计算公式为: 
Figure DEST_PATH_GSB00001115434900022
其中,SameWC(X,Y)表示答案句X与答案句Y之间相同词的个数,Len(X),Len(X)分别表示答案句x和答案句Y的长度,abs表示计算结果去绝对值,Onews(x,y)表示:答案句X及答案句Y中都出现且都只出现一次的词的集合,Reword(X,Y),表示各相邻词之间的逆序数。 
其中,在所述步骤5)中,相似答案频率是指每句答案句在整个历史咨询数据中所占的比率,然后根据阈值过滤低频率的答案,高于阈值认定为高频率答案即高质量答案。 
其中,所述步骤6)依据高频率答案,查找每句答案相对应的问句。 
其中,所述步骤7)采用统计学的原理,通过对问句集进行分词,提取频率大于阈值且有顺序规则的关键字。 
其中,所述步骤8)存储的内容包括答案、问句、核心关键字顺序规则,该括答案、问句、及核心关键字顺序规则之间的关系是多对多的关系。 
本发明的有益效果:本发明以历史咨询数据为基础,可以很快的构建出知识库,并且该知识库不仅包含了多对多的问答集,而且包含了核心的关键字顺序集,在以历史咨询数据为前提下,此种构建方法不仅能替换了传统的知网(Hownet)和近义词表,而且节约了大批的人力维护成本,方便技术人员快速建设知识库。 
为了能更进一步了解本发明的特征以及技术内容,请参阅以下有关本发明的详细说明与附图,然而附图仅提供参考与说明用,并非用来对本发明加以限制。 
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其它有益效果显而易见。 
附图中, 
图1为本发明的流程示意图; 
图2是本发明的历史咨询数据场景格式。 
具体实施方式
为更进一步阐述本发明所采取的技术手段及其效果,以下结合本发明的优选实施例及其附图进行详细描述。 
本发明的实施环境采用淘宝网的购物咨询做案例分析,用买卖双方咨询数据作为构建问答系统知识库的数据来源。 
请参考图1,为本发明实施例提供的一种基于历史咨询数据构建知识库方法。该方法通过对购物历史数据的分析,提取出买卖双方的一问一答,并存储为问答集;对问答集中的答案句,采用相似度计算,当相似值达到某个阈值时,断定为相似答案,并且统计相似答案频率。当相似答案频率达到某个阈值时,提取答案对应的问句集合。最后通过问句分词,提取频率高的关键字串。以下结合图1详细描述该方法。 
步骤101,开始。 
步骤102,读取历史咨询数据。 
历史咨询数据一般都是由客服系统提供,通常是通过API或导入的形式读取。 
步骤103,切分咨询场景。 
历史咨询数据一般都是多个客服对应多个咨询者掺杂在一起,故必须根据咨询者进行切分场景,这里场景的定义是指单个客服与单个咨询者双方一个完整的对话,例如:图2中“买家abc”和“女装客服”双方的完整对话被成为一个场景。 
步骤104,提取每个场景中的问句和答案句。 
每个场景一般都包含了多个问句和答案句,故必须根据客服与咨询者的身份来提取问答对,通常客服说的内容为答案,咨询者说的内容为问句。 
步骤105,计算答案相似度。 
通常3个月以上的咨询数据都包含了n个咨询场景,每个场景包含了m个问答对,通过提取n*m的问答对中的答案集,计算答案集中答案句与答案句之间的相似度,此相似度计算先对答案句进行分词及过滤停用词,然后计算相似度,句子相似度由词的相似度、句子长度相似度、词序相似度决定的,其中词形相似度起着主要作用,句子长度相似度起次要作用,词序相似度的作用最小。当相似值大于阈值r(例如本实施例中r的值可设定为0.9)时,认定为相似答案。 
具体相似度算法如下: 
词的相似度:一个句子(sentence),S可看作词和特殊符号(以下简称单字)的一个有序集合。S的长度即是S中词的个数,此处用Len(S)表示,SameWC(X,Y)表示答案句X,Y中相同词的个数, 当一个词在X,Y中出现的次数不同时以出现次数少的计数。答案句X,Y的词形相似度WordSim(X,Y)由下述公式决定: 
WordSim ( X , Y ) = SameWc ( X , Y ) Max ( Len ( X ) , Len ( Y ) )
其中:WordSim(X,Y)∈[0,1];意义:两个答案句相同的字数越多,两个答案句就越相似。 
句子长度相似度:Len(X),Len(Y)分别表示答案句x和答案句Y的长度即两个答案句中词的个数。则答案句长度相似度LenSim(X,Y)由下述公式决定: 
其中:Lensim(x,y)∈[0,1];意义:两个语句的长度越接近,两个语句越相似。 
词序的相似度:Onews(x,y)表示:X,Y中都出现且都只出现一次的单词的集合。Reword(X,Y),表示各相邻词之间的逆序数。Ordersim(x,y) 
Figure BSA00000891230000053
其中:OrderSim(X,Y)∈[0,1],这样定义词序相似度的优点是:当一个分句或短语整体发生长距离移动后,仍与原来的语句很相似。实现快捷,算法复杂度为0(m),其中m=|Onews(X,Y)|. 
句子X,Y的相似度SentenceSim(X,Y)由下述公式决定: 
SentenceSim(X,Y)=λ1*WordSim(X,Y)+λ2*LenSim(x,y)+λ3*OrderSim(X,Y) 
其中,λ1,λ2,λ3分为是常数,且满足λ1+λ2+λ3=1,显然SentenceSim(X,Y)∈[0,1]。在句子相似度中词形相似度起着主要作用,语句长度相似度和词序相似度起着次要的作用,因此λ1,λ2,λ3,取值时应该有λ1>λ2>λ3,当前默认取λ1=0.8,λ2=0.15,λ3=0.05。由此在计算中可设置一个阈值做为相似的一个条件,当两个语句的相似度高于这个阈值时,就认为这两个语句相似,例如在本实施例中阈值设定为0.9,高于0.9则认定为相似答案。 
步骤106,过滤相似答案频率低的答案。 
相似答案频率是指通过相似度计算后,该答案句在历史咨询数据的所有答案中出现的频率次数。相似答案频率的过滤是以阈值R(R可以根据具体情况而设置,例如在本实施例中可设定为2),小于认定为低频率答案,例如:图2中“亲,我们是购买于下午17点前的当日发货,17点后的次日发出,谢谢。”和“不会褪色的,亲”出现的频率次数就为2. 
步骤107,提取高频率答案对应的问句。 
经过步骤106的过滤后剩下的就是高频率的答案,高频率答案相对应的问句,通常都是高质量的问句,这些问句通常都包含近义词,例如:图2中答案句:“不会褪色的,亲”,对应的问句分别为“这件衣服会褪色吗?”和“这件宝贝会掉色吗?”只有存储多对一的问答集,就能废掉庞大近义词表。 
步骤108,提取问句集的核心关键字顺序规则。 
问句集是指答案对应的问句群,它包含了若干问句。核心关键字顺序规则是指问句集中包含了多个核心关键字集,并且该关键字集有一定的语序。本方法先通过对所有的问句进行分词,然后采用统计学的原理,提取频率大于r2(在本实施例中r2大于1)且有顺序规则的关键字。 
例如:图2中答案句:“亲,我们是购买于下午17点前的当日发货,17点后的次日发出,谢谢。”对应的问句集. 
你们什么时候能发货呢? 
那到底什么时候可以给我发货呢? 
通过分词及过滤停用词后,得出以下分词结果: 
你们什么时候能发货 
那到底什么时候可以给我发货 
从分词后,根据一定的算法可以很快的统计出频率大于2且有顺序规则的关键字为“什么时候…发货”。 
步骤109,存储知识。 
知识库的存储格式按编号、答案、问句、核心关键字顺序规则存储,其中答案与问句之间是多对多的关系,问句与核心关键字顺序规则是多对多的关系;如下表1: 
Figure BSA00000891230000071
表1 
步骤110结束。 
通过以上的步骤,以历史咨询数据为基础,可以很快的构建出知识库,并且该知识库不仅包含了多对多的问答集,而且包含了核心的关键字顺序集,在以历史咨询数据为前提下,此种构建方法不仅能替换了传统的知网(Hownet)和近义词表,而且节约了大批的人力维护成本,方便技术人员快速建设知识库。 
以上实施例提供了自动构建知识库,上述实施例主要以中文为目标语言,也可以适用于其他语言。本实施例提供的自动构建知识库方法,是以淘宝为代表的电子商务行业进行描述的,但不局限于电子商务行业,可以适用于其他行业实现该方法,并且本案例中的相似度计算不局限于此算法,可以采用其他相似度计算方式来实现。 
以上所述,对于本领域的普通技术人员来说,可以根据本发明的技术方案和技术构思作出其他各种相应的改变和变形,而所有这些改变和变形都应属于本发明权利要求的保护范围。 

Claims (10)

1.一种基于历史咨询数据构建知识库的方法,其特征在于,包括以下步骤: 
1)读取历史咨询数据; 
2)切分咨询场景; 
3)提取每个场景的问答对; 
4)计算答案相似度; 
5)过滤相似答案频率低的答案; 
6)提取高频率答案对应的问句; 
7)提取问句集的核心关键字顺序规则; 
8)存储知识。 
2.如权利要求1所述的基于历史咨询数据构建知识库的方法,其特征在于,在所述步骤2)中,根据咨询者进行切分场景,切成多组单个客服与单个咨询者的咨询场景。 
3.如权利要求1所述的基于历史咨询数据构建知识库的方法,其特征在于,在所述步骤3)中,根据客服与咨询者的身份来提取问答对,客服说的内容设为答案,咨询者说的内容设为问句。 
4.如权利要求1所述的基于历史咨询数据构建知识库的方法,其特征在于,在所述步骤4)中,计算答案相似度是计算所有场景的问答对中的答案相似值,首先对答案句进行分词,其次过滤停用词,最后计算每句答案句之间的相似值。 
5.如权利要求4所述的基于历史咨询数据构建知识库的方法,其特征在于,所述答案句的相似度包括词的相似度、句子长度相似度、及词序相似度,其之间的关系为SentenceSim(X,Y)=λ1*WordSim(X,Y)+λ2*LenSim(x,y)+λ3*OrderSim(X,Y),SentenceSim(X,Y)表示答案句X及答案句Y的相似度,WordSim(X,Y)表示答案句X的词与答案句Y的词之间的相似度,LenSim(X,Y)表示答案句X的句子长度与答案句Y的句子长度之间的相似度,OrderSim(X,Y)表示答案句X的词序与答案句Y的词序之间的相似度,λ1、λ2、λ3分别是常数,且满足λ1+λ2+λ3=1。 
6.如权利要求4所述的基于历史咨询数据构建知识库的方法,其特征在于,所述WordSim(X,Y)的计算公式为: 
Figure DEST_PATH_FSB00001115434800011
所述LenSim(X,Y)计算公式为: 
Figure DEST_PATH_FSB00001115434800021
所述词序相似度计算公式为: 
Figure DEST_PATH_FSB00001115434800022
其中,SameWC(X,Y)表示答案句X与答案句Y之间相同词的个数,Len`(X),Len(X)分别表示答案句x和答案句Y的长度,abs表示计算结果去绝对值,Onews(x,y)表示:答案句X及答案句Y中都出现且都只出现一次的词的集合,Reword(X,Y),表示各相邻词之间的逆序数。 
7.如权利要求1所述的基于历史咨询数据构建知识库的方法,其特征在于,在所述步骤5)中,相似答案频率是指每句答案句在整个历史咨询数据中所占的比率,然后根据阈值过滤低频率的答案,高于阈值认定为高频率答案即高质量答案。 
8.如权利要求1所述的基于历史咨询数据构建知识库的方法,其特征在于,所述步骤6)依据高频率答案,查找每句答案相对应的问句。 
9.如权利要求1所述的基于历史咨询数据构建知识库的方法,其特征在于,所述步骤7)采用统计学的原理,通过对问句集进行分词,提取频率大于阈值且有顺序规则的关键字。 
10.如权利要求1所述的基于历史咨询数据构建知识库的方法,其特征在于,所述步骤8)存储的内容包括答案、问句、核心关键字顺序规则,该括答案、问句、及核心关键字顺序规则之间的关系是多对多的关系。 
CN201310168964.2A 2013-05-08 基于历史咨询数据构建知识库的方法 Active - Reinstated CN103455535B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310168964.2A CN103455535B (zh) 2013-05-08 基于历史咨询数据构建知识库的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310168964.2A CN103455535B (zh) 2013-05-08 基于历史咨询数据构建知识库的方法

Publications (2)

Publication Number Publication Date
CN103455535A true CN103455535A (zh) 2013-12-18
CN103455535B CN103455535B (zh) 2016-11-30

Family

ID=

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850241A (zh) * 2015-05-28 2015-08-19 北京奇点机智信息技术有限公司 一种在移动终端中进行文字输入的方法及移动终端
CN105550361A (zh) * 2015-12-31 2016-05-04 上海智臻智能网络科技股份有限公司 日志处理方法及装置和问答信息处理方法及装置
CN105608199A (zh) * 2015-12-25 2016-05-25 上海智臻智能网络科技股份有限公司 用于智能问答系统中的标准问的扩展方法和装置
WO2016101812A1 (zh) * 2014-12-23 2016-06-30 阿里巴巴集团控股有限公司 用于对搜索数据进行处理的方法及设备
CN105786851A (zh) * 2014-12-23 2016-07-20 北京奇虎科技有限公司 问答知识库的构建方法、提供搜索的方法及装置
CN106445905A (zh) * 2015-08-04 2017-02-22 阿里巴巴集团控股有限公司 问答数据处理、自动问答方法及装置
CN106682137A (zh) * 2016-12-19 2017-05-17 武汉市灯塔互动文化传播有限公司 一种智能股票投顾问答交互方法与系统
WO2017091985A1 (zh) * 2015-12-01 2017-06-08 华为技术有限公司 停用词识别方法与装置
CN107066541A (zh) * 2017-03-13 2017-08-18 平安科技(深圳)有限公司 客服问答数据的处理方法及系统
CN107784033A (zh) * 2016-08-31 2018-03-09 百度在线网络技术(北京)有限公司 一种基于会话进行推荐的方法和装置
CN108090077A (zh) * 2016-11-23 2018-05-29 中国科学院沈阳计算技术研究所有限公司 一种基于自然语言检索的综合相似度计算方法
CN108509617A (zh) * 2018-04-04 2018-09-07 上海智臻智能网络科技股份有限公司 知识库构建、基于知识库的智能问答方法及装置、存储介质、终端
CN108846031A (zh) * 2018-05-28 2018-11-20 同方知网数字出版技术股份有限公司 一种面向电力行业的项目相似性对比方法
CN109101551A (zh) * 2018-07-10 2018-12-28 广州极天信息技术股份有限公司 一种问答知识库的构建方法及装置
CN109710745A (zh) * 2018-12-28 2019-05-03 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
CN110110054A (zh) * 2019-03-22 2019-08-09 北京中科汇联科技股份有限公司 一种基于深度学习的从非结构化文本中获取问答对的方法
CN110136699A (zh) * 2019-07-10 2019-08-16 南京硅基智能科技有限公司 一种基于文本相似度的意图识别方法
CN111159355A (zh) * 2019-12-31 2020-05-15 中国银行股份有限公司 客户投诉单处理方法及装置
CN111737543A (zh) * 2019-05-27 2020-10-02 北京京东尚科信息技术有限公司 一种问答对的提取方法、装置、设备和存储介质
CN112015875A (zh) * 2020-08-24 2020-12-01 北京智齿博创科技有限公司 在线客服助手的构建方法
WO2021174829A1 (zh) * 2020-03-02 2021-09-10 平安科技(深圳)有限公司 众包任务的抽检方法、装置、计算机设备及存储介质
CN113724036A (zh) * 2021-07-29 2021-11-30 阿里巴巴(中国)有限公司 提供问题咨询服务的方法及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1928864A (zh) * 2006-09-22 2007-03-14 浙江大学 一种基于问答库的中文自然语言问答方法
CN101286161A (zh) * 2008-05-28 2008-10-15 华中科技大学 一种基于概念的智能中文问答系统
US20110029351A1 (en) * 2009-07-31 2011-02-03 Siemens Ag Systems and Methods for Providing Compliance Functions in a Business Entity
CN102637192A (zh) * 2012-02-17 2012-08-15 清华大学 一种自然语言问答的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1928864A (zh) * 2006-09-22 2007-03-14 浙江大学 一种基于问答库的中文自然语言问答方法
CN101286161A (zh) * 2008-05-28 2008-10-15 华中科技大学 一种基于概念的智能中文问答系统
US20110029351A1 (en) * 2009-07-31 2011-02-03 Siemens Ag Systems and Methods for Providing Compliance Functions in a Business Entity
CN102637192A (zh) * 2012-02-17 2012-08-15 清华大学 一种自然语言问答的方法

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016101812A1 (zh) * 2014-12-23 2016-06-30 阿里巴巴集团控股有限公司 用于对搜索数据进行处理的方法及设备
CN105786851A (zh) * 2014-12-23 2016-07-20 北京奇虎科技有限公司 问答知识库的构建方法、提供搜索的方法及装置
US10635678B2 (en) 2014-12-23 2020-04-28 Alibaba Group Holding Limited Method and apparatus for processing search data
US11347758B2 (en) 2014-12-23 2022-05-31 Alibaba Group Holding Limited Method and apparatus for processing search data
CN104850241A (zh) * 2015-05-28 2015-08-19 北京奇点机智信息技术有限公司 一种在移动终端中进行文字输入的方法及移动终端
CN106445905B (zh) * 2015-08-04 2019-05-21 阿里巴巴集团控股有限公司 问答数据处理、自动问答方法及装置
CN106445905A (zh) * 2015-08-04 2017-02-22 阿里巴巴集团控股有限公司 问答数据处理、自动问答方法及装置
WO2017091985A1 (zh) * 2015-12-01 2017-06-08 华为技术有限公司 停用词识别方法与装置
US10019492B2 (en) 2015-12-01 2018-07-10 Huawei Technologies Co., Ltd. Stop word identification method and apparatus
CN105608199A (zh) * 2015-12-25 2016-05-25 上海智臻智能网络科技股份有限公司 用于智能问答系统中的标准问的扩展方法和装置
CN105550361A (zh) * 2015-12-31 2016-05-04 上海智臻智能网络科技股份有限公司 日志处理方法及装置和问答信息处理方法及装置
CN105550361B (zh) * 2015-12-31 2018-11-09 上海智臻智能网络科技股份有限公司 日志处理方法及装置和问答信息处理方法及装置
CN107784033B (zh) * 2016-08-31 2021-10-22 百度在线网络技术(北京)有限公司 一种基于会话进行推荐的方法和装置
CN107784033A (zh) * 2016-08-31 2018-03-09 百度在线网络技术(北京)有限公司 一种基于会话进行推荐的方法和装置
CN108090077A (zh) * 2016-11-23 2018-05-29 中国科学院沈阳计算技术研究所有限公司 一种基于自然语言检索的综合相似度计算方法
CN108090077B (zh) * 2016-11-23 2021-08-31 中国科学院沈阳计算技术研究所有限公司 一种基于自然语言检索的综合相似度计算方法
CN106682137A (zh) * 2016-12-19 2017-05-17 武汉市灯塔互动文化传播有限公司 一种智能股票投顾问答交互方法与系统
CN107066541A (zh) * 2017-03-13 2017-08-18 平安科技(深圳)有限公司 客服问答数据的处理方法及系统
CN108509617A (zh) * 2018-04-04 2018-09-07 上海智臻智能网络科技股份有限公司 知识库构建、基于知识库的智能问答方法及装置、存储介质、终端
CN108846031A (zh) * 2018-05-28 2018-11-20 同方知网数字出版技术股份有限公司 一种面向电力行业的项目相似性对比方法
CN108846031B (zh) * 2018-05-28 2022-05-13 同方知网数字出版技术股份有限公司 一种面向电力行业的项目相似性对比方法
CN109101551A (zh) * 2018-07-10 2018-12-28 广州极天信息技术股份有限公司 一种问答知识库的构建方法及装置
CN109710745A (zh) * 2018-12-28 2019-05-03 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
CN110110054B (zh) * 2019-03-22 2021-06-08 北京中科汇联科技股份有限公司 一种基于深度学习的从非结构化文本中获取问答对的方法
CN110110054A (zh) * 2019-03-22 2019-08-09 北京中科汇联科技股份有限公司 一种基于深度学习的从非结构化文本中获取问答对的方法
CN111737543A (zh) * 2019-05-27 2020-10-02 北京京东尚科信息技术有限公司 一种问答对的提取方法、装置、设备和存储介质
CN110136699A (zh) * 2019-07-10 2019-08-16 南京硅基智能科技有限公司 一种基于文本相似度的意图识别方法
CN111159355A (zh) * 2019-12-31 2020-05-15 中国银行股份有限公司 客户投诉单处理方法及装置
WO2021174829A1 (zh) * 2020-03-02 2021-09-10 平安科技(深圳)有限公司 众包任务的抽检方法、装置、计算机设备及存储介质
CN112015875A (zh) * 2020-08-24 2020-12-01 北京智齿博创科技有限公司 在线客服助手的构建方法
CN112015875B (zh) * 2020-08-24 2022-09-02 北京智齿博创科技有限公司 在线客服助手的构建方法
CN113724036A (zh) * 2021-07-29 2021-11-30 阿里巴巴(中国)有限公司 提供问题咨询服务的方法及电子设备

Similar Documents

Publication Publication Date Title
CN105808526B (zh) 商品短文本核心词提取方法和装置
CN103885937B (zh) 基于核心词相似度判断企业中文名称重复的方法
CN104778209B (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN106815203B (zh) 一种裁判文书中的金额解析方法及装置
CN110175325A (zh) 基于词向量和句法特征的评论分析方法及可视化交互界面
WO2019228466A1 (zh) 命名实体识别的方法、装置、设备及存储介质
CN106202211A (zh) 一种基于微博类型的集成微博谣言识别方法
CN105095190B (zh) 一种基于中文语义结构和细分词库结合的情感分析方法
CN109446404A (zh) 一种网络舆情的情感极性分析方法和装置
CN105354305A (zh) 一种网络谣言的识别方法及装置
Botchway et al. A review of social media posts from UniCredit bank in Europe: a sentiment analysis approach
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN108108426A (zh) 自然语言提问的理解方法、装置及电子设备
CN104199838B (zh) 一种基于标签消歧的用户模型建构方法
CN108536762A (zh) 一种大批量文本数据自动分析方案
CN110489745A (zh) 基于引文网络的论文文本相似性的检测方法
CN105912644A (zh) 一种网络评论产生式摘要方法
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
CN102521713B (zh) 数据处理装置和数据处理方法
CN106446149A (zh) 一种通知信息的过滤方法及装置
CN104572736A (zh) 基于社交网络的关键词提取方法及装置
CN106126496B (zh) 一种信息分词方法及装置
CN103279472B (zh) 一种社交网络高影响力信息的提取方法
CN106980639B (zh) 短文本数据聚合系统及方法
Intxaurrondo et al. Diamonds in the rough: Event extraction from imperfect microblog data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161130

Termination date: 20190508

CF01 Termination of patent right due to non-payment of annual fee
RR01 Reinstatement of patent right

Former decision: termination of patent right due to unpaid annual fee

Former decision publication date: 20200424

RR01 Reinstatement of patent right