CN108052583A - 电商本体构建方法 - Google Patents
电商本体构建方法 Download PDFInfo
- Publication number
- CN108052583A CN108052583A CN201711305840.9A CN201711305840A CN108052583A CN 108052583 A CN108052583 A CN 108052583A CN 201711305840 A CN201711305840 A CN 201711305840A CN 108052583 A CN108052583 A CN 108052583A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- corpus
- ontological
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/046—Forward inferencing; Production systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Animal Behavior & Ethology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及语义识别技术领域,尤其涉及一种电商本体构建方法。所述电商本体构建方法包括如下步骤:通过对问答语料库、日常语料库、商品语料库的空间概率分布调整、分析,建立包括多个候选词的候选词集合;对多个候选词进行筛选,以构建包括多个本体概念的本体概念集合;对任两个本体概念在同一会话中共同出现的概率进行统计分析,以建立本体概念间的关联规则;对多个本体概念进行层次聚类分析,以建立本体概念间的层次关系树;根据本体概念集合、关联规则、层次关系树建立电商本体。本发明构建了针对性较强的电商领域本体,解决了现有技术中电商智能客服在与客户会话的过程中语义识别准确度较低的问题。
Description
技术领域
本发明涉及语义识别技术领域,尤其涉及一种电商本体构建方法。
背景技术
经统计目前电商网站的订单数与咨询用户数的比例大约4%左右,不同类型的电商网站该比例会有所差异,但总体从该比率中可以看出电商网站客服的成本压力巨大,而且随着业务的持续发展、订单数的规模增长,客服的成本也将会变得越来越高,极大制约着电商成本控制,因此电商智能客服系统研究开发极为迫切。
本体技术的发展为信息检索提供了新的解决方案,通过本体对知识进行重新抽取、组织,能够实现知识的准确理解、匹配,从而提供更好的语义理解。本体是指一种“形式化的,对于共享概念体系的明确而又详细的说明”,即本体提供的是一种共享词表,也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关系。简而言之,本体是一种概念描述,建立本体模型主要是为了可以计算概念间的语义关系,对电商智能客服系统中的对话信息进行泛化后,可以使用共同的概念进行连接处理。大多数的本体构建都是基于实体、类(概念)、属性及关系来构建词间语意关系来完成。
电商智能客服系统中的语义理解属于自然语言处理应用级,而自然语言处理应用级的开发都离不开最基础的NLP(Natural Language Processing,自然语言处理)处理问题,字、词、短语、句子、段落、篇章层层递进式的分析处理;而本体是在词层面处理分析的一种重要工具。由于自然语言处理在特定领域不论字、词、短语、句子的处理都是无法达到很好的准确度,这些处理往往也互相依赖导致越上层处理准确率越低,成为自然语言处理中一个很棘手的问题。对自然语言处理的第一步就是需要构建本体,然而,本体构建在不同领域往往对于知识的定义属性具有很大的差异。因此,如何对电商智能客服系统中的本体进行准确的构建,以提高后续语义识别的精准度,是目前亟待解决的技术问题。
发明内容
本发明提供一种电商本体构建方法,用以解决现有技术中电商智能客服的语义识别准确度较低的问题,以提高电商智能客服与用户的线上交流效率,并增强用户体验。
为了解决上述问题,本发明提供了一种电商本体构建方法,包括如下步骤:
构建问答语料库、日常语料库、商品语料库,所述问答语料库中包括多组客服与客户的会话;
通过对所述问答语料库、所述日常语料库、所述商品语料库的空间概率分布调整、分析,建立包括多个候选词的候选词集合;
对多个候选词进行筛选,以构建包括多个本体概念的本体概念集合;
对任两个本体概念在同一会话中共同出现的概率进行统计分析,以建立本体概念间的关联规则;
对多个本体概念进行层次聚类分析,以建立本体概念间的层次关系树;
根据所述本体概念集合、所述关联规则、所述层次关系树建立电商本体。
优选的,对所述会话进行预处理以获取多个候选词,并通过对所述问答语料库、所述日常语料库、所述商品语料库的交叉运算调整所述候选词的空间概率分布,建立包括多个候选词及其排名信息的候选词集合的具体步骤包括:
对所述问答语料库中的会话进行分词处理以获取多个候选词,通过统计分析获取每一候选词的词频,并按照词频从大到小的顺序对多个候选词进行排序,以获取每一候选词在所述问答语料库中的排名以及所有词频按照从大到小顺序排列的词频集合;
分别计算每一候选词在所述日常语料库、所述商品语料库中的排名与所述问答语料库中排名之间的距离,计算公式如下式(1)所示:
式中,n表示候选词的数量,r1k表示第k个候选词在所述问答语料库中的排名,r2k表示第k个候选词在所述日常语料库或所述商品语料库中的排名,表示第k个候选词在所述日常语料库或所述商品语料库中的排名与所述问答语料库中的排名之间的距离;
分别计算每一候选词在所述日常语料库、所述商品语料库与所述问答语料库间的相似度;
根据如下公式(2)调整所述问答语料中所有候选词的排名,以按照调整后的排名先后顺序建立候选词集合:
式(2)中,R是第k个候选词调整后的排名,ρ12表示第k个候选词在所述日常语料库或所述商品语料库与所述问答语料库中的相似度。
优选的,所述相似度为皮尔逊相关系数。
优选的,对多个候选词进行筛选,以构建包括多个本体概念的本体概念集合的具体步骤包括:
将所述词频集合中的词频按照从大到小的顺序依次赋予调整排名后的候选词,使得调整后排名第一的候选词具有最大词频、排名最后的候选词具有最小词频;
采用公式(3)计算每一候选词的核心度:
W(t)=-P(t)log2P(t) (3)
式中W(t)表示候选词t的核心度,P(t)表示候选词t在所述问答语料库中出现的概率,P(t)根据所述候选词t的词频在所述词频集合中所有词频的总和中所占的比例计算得到;
采用公式(4)对候选词进行降权处理:
式(4)中{time,place,person,number,letter}表示候选词t的实体特征,{n,v}表示候选词t的词性特征;
对经过降权处理后的候选词汇按照权重从大到小的顺序进行排序,并以权重排序中前N个权重对应的候选词作为本体概念,以构建本体概念集合。
优选的,所述关联规则包括本体概念间的支持度、置信度。
优选的,所述本体概念间的支持度采用如下步骤计算得到:
设所述问答语料库的会话集合S={si|i=1,2,…,x},x为所述问答语料库中会话的组数,对会话si进行分词以得到包括多个关键词的关键词集合,并将所述关键词集合与所述本体概念集合的交集作为所述会话si的关联词集合Ti={tij|j=1,2,…,m},其中,m为所述关联词集合Ti中本体概念的个数,tij表示在所述会话si中出现的本体概念;
设在所述问答语料库中同时出现所述关联词集合Ti中的本体概念tia、tib的次数为则所述本体概念tia与所述本体概念tib之间的支持度采用如下公式(5)计算得到:
优选的,所述本体概念间的置信度采用如下步骤计算得到:
统计在所述问答语料库中分别出现本体概念tc、td的会话数tfc、tfd,以及在所述问答语料库中同时出现本体概念tc、td的会话数tfab,则所述本体概念与之间的置信度采用如下公式(6)、(7)、(8)计算得到:
上式中,tfv表示在所述问答语料库中出现本体概念tv的会话数,p(tc,td)表示本体概念在同一会话中出现的概率,p(tv)表示本体概念或在会话中出现的概念,Cconf(tc,td)表示本体概念与本体概念之间的置信度。
优选的,对多个本体概念进行层次聚类分析,以建立本体概念间的层次关系树的具体步骤包括:
将所述本体概念集合中的每个本体概念归为一类,共得到L个类,类与类之间的距离就是类所包含的本体概念之间的距离;
计算任意两个类之间的距离,并将距离最短的两个类合并为一类;
分别计算合并生成的类与剩余类之间的相似度;
重复合并类、计算相似度的步骤,直至将L个类都归为一类,以建立层次关系树。
优选的,分别计算合并生成的类与剩余类之间的相似度的具体步骤是:
采用离差平方和法分别计算合并生成的类与剩余类之间的相似度。
优选的,根据所述本体概念集合、所述关联规则、所述层次关系树建立电商本体的具体步骤包括:
根据所述本体概念集合、所述关联规则、所述层次关系树,并采用企业建模法与循环获取法二者相结合的分析方法建立电商本体。
本发明提供的电商本体构建方法,通过构建问答语料库、日常语料库、商品语料库的交叉运算来在语料层面对候选词的空间分布直接进行调整,而不是对最后的统计结果进行调整,构建了针对性较强的电商领域本体,解决了现有技术中电商智能客服在与客户会话的过程中语义识别准确度较低的问题,以提高了电商智能客服与用户的线上交流效率,并增强了用户体验,也降低了电商运营成本。
附图说明
附图1是本发明具体实施方式的电商本体构建方法的流程图;
附图2是本发明具体实施方式的不同语料库中候选词的排名分布图;
附图3是本发明具体实施方式的层次聚类结果图。
具体实施方式
下面结合附图对本发明提供的电商本体构建方法的具体实施方式做详细说明。
本体的结构Maedche等人对其进行了定义可以表述为一个五元组:O:={C,R,Hc,rel,Ao},其中
C为本体概念集合,
R为本体概念间关系集合,
Hc为本体概念间层次关系集合,
rel为一个函数表示本体概念间非分类关系集合,
Ao为本体的公理集合。
从上述描述我们把它可以简化为(C1,R,C2),也即是说本体构建了概念间的一种关联关系,这种关系比word2vec描述的词间关系更为准确,这可以为后文的构建事件语义图与挖掘词间关系等提供了一种计算通道。
本具体实施方式提供了一种电商本体构建方法,附图1是本发明具体实施方式的电商本体构建方法的流程图。如图1所示,本具体实施方式提供的电商本体构建方法,包括如下步骤:
步骤S11,构建问答语料库、日常语料库、商品语料库,所述问答语料库中包括多组客服与客户的会话。其中,所述商品语料库用于表示与商品信息相关的主体词汇信息,其包括商品信息、品牌信息以及商品分类信息。本具体实施方式中的所述日常语料库可以选用HanLP的分词词典,该词典反映了日常生活中大众常见词汇的统计分布。由于电商领域用户在线咨询的问题主要集中在订单相关问题方面,因此,本具体实施方式中所述问答语料库中包括多组与订单相关的会话。
步骤S12,通过对所述问答语料库、所述日常语料库、所述商品语料库的空间概率分布调整、分析,建立包括多个候选词的候选词集合。所谓候选词,是指反映电商领域基础特征的字或词。建立包括多个候选词的候选词集合,是指通过对所述问答语料库中的会话语料进行信息抽取、提取其中与电商领域高相关度的关键词作为候选词,然后通过与所述日常语料库、所述商品语料库的交叉运算、分析,对多个候选词进行排名顺序调整,以使得所述候选词集合能更专业、更准确的反映电商领域特征词汇的分布信息。
候选词集合的建立过程对于最终建立的电商本体有着重要的影响,然而,在候选词集的建立过程中,语料库的选择对最终的结果影响重大,这是因为,不同的语料库表示着不同的特定的领域特征空间分布,提取出的高相关度的特征也是大不相同的。因此,优选的,本具体实施方式优对所述会话进行预处理以获取多个候选词,并通过对所述问答语料库、所述日常语料库、所述商品语料库的交叉运算调整所述候选词的空间概率分布,建立包括多个候选词及其排名信息的候选词集合的具体步骤包括:
(S12-1)对所述问答语料库中的会话进行分词处理以获取多个候选词,通过统计分析获取每一候选词的词频,并按照词频从大到小的顺序对多个候选词进行排序,以获取每一候选词在所述问答语料库中的排名以及所有词频按照从大到小顺序排列的词频集合。附图2是本发明具体实施方式的不同语料库中候选词的排名分布图。在图2中,横坐标表示所述问答语料库中多个候选词按照词频从大到小的排名,纵坐标表示与横坐标排名对应的候选词在所述日常语料库或所述商品语料库中的词频排名分布,其中,实线21表示多个候选词在日常语料库中的排名分布,虚线22表示多个候选词在所述商品语料库中的排名分布。通过对图2的分析可知,实线21、虚线22中与横坐标越接近的点,在所述问答语料库中的排名应该往后调整。
(S12-2)分别计算每一候选词在所述日常语料库、所述商品语料库中的排名与所述问答语料库中排名之间的距离,计算公式如下式(1)所示:
式中,n表示候选词的数量,r1k表示第k个候选词在所述问答语料库中的排名,r2k表示第k个候选词在所述日常语料库或所述商品语料库中的排名,表示第k个候选词在所述日常语料库或所述商品语料库中的排名与所述问答语料库中的排名之间的距离。
(S12-3)分别计算每一候选词在所述日常语料库、所述商品语料库与所述问答语料库间的相似度。其中,相似度的表示方式有很多种,本领域技术人员可以根据实际需要进行选择。优选的,所述相似度为皮尔逊相关系数。
(S12-4)根据如下公式(2)调整所述问答语料中所有候选词的排名,以按照调整后的排名先后顺序建立候选词集合:
式(2)中,R是第k个候选词调整后的排名,ρ12表示第k个候选词在所述日常语料库或所述商品语料库与所述问答语料库中的相似度。
举例来说,以包含约507万条数据共179442组客服与客户的会话的问答语料库进行建立包括多个候选词及其排名信息的候选词集合的实验,表1所示为从所述问答语料库中提出出来的候选词在调整前和调整后的排名分布结果。从表1可以看出,通过所述问答语料库、所述日常语料库、所述商品语料库的相交运算,可以把大部分与电商领域不相关的候选词的排名进行后移。
表1词频分布调整前后对比表
本具体实施方式基于不同语料库的样本空间所能表示的整体不同而进行多语料库特征之间的相交运算,即本具体实施方式是直接在语料层面使用多领域语料库对候选词的分布空间直接进行调整,而不是对最后的统计结果进行调整,从而使得构建的候选词集合能够更加准确的反映与电商领域相关的特征词汇的分布信息。
步骤S13,对多个候选词进行筛选,以构建包括多个本体概念的本体概念集合。在步骤S12中对候选词排名分布进行了处理,获取了领域特征更强的词汇分布统计信息。但是,在步骤S12中提取出来的候选词不能全部都作为电商领域的本体概念,还需要过滤非领域的核心概念。
为了准确的从所述候选词集合中筛选出用于构建电商本体的本体概念,优选的,对多个候选词进行筛选,以构建包括多个本体概念的本体概念集合的具体步骤包括:
(S13-1)将所述词频集合中的词频按照从大到小的顺序依次赋予调整排名后的候选词,使得调整后排名第一的候选词具有最大词频、排名最后的候选词具有最小词频。即在所述候选词集合中,候选词的排名与该候选词对应的词频的排名一致。
(S13-2)采用公式(3)计算每一候选词的核心度:
W(t)=-P(t)log2P(t) (3)
式中W(t)表示候选词t的核心度,P(t)表示候选词t在所述问答语料库中出现的概率,P(t)根据所述候选词t的词频在所述词频集合中所有词频的总和中所占的比例计算得到。从上述公式(3)可以看出,候选词t的核心度W(t)越大,表示该候选词t在电商领域中越属于核心概念词汇。
(S13-3)采用公式(4)对候选词进行降权处理:
式(4)中{time,place,person,number,letter}表示候选词t的实体特征,{n,v}表示候选词t的词性特征。上述公式(4)反映了如下的权重优化规则:
a)删除停用词;
b)删除长度小l的单词;优选的,l的值为2;
c)对纯数字、字母或者两者进行组合的单词进行降权;
d)对频率小于f的单词进行降权;优选的,f的值为10
e)对时间、地点、姓名的实体词进行降权;
f)对词性不是名词和动词的词进行降权。
(S13-4)对经过降权处理后的候选词汇按照权重从大到小的顺序进行排序,并以权重排序中前N个权重对应的候选词作为本体概念,以构建本体概念集合。其中,N为正整数。
步骤S14,对任两个本体概念在同一会话中共同出现的概率进行统计分析,以建立本体概念间的关联规则。领域本体概念间关系主要有两种:分类关系(Taxonomy)和非分类关系(Non-Taxonomy)。分类关系就是通常的“is-a”关系;非分类关系是除了分类关系以外的即是,主要包括局部与整体关系,地理位置关系,类属关系,转喻关系,制造使用关系,组织结构从属关系,人物关系。关系的提取方法当前主要是通过统计与规则来进行处理。本具体实施方式中,采用关联规则与层次聚类规则来表征本体概念之间的关系。
关联规则是指数据之间的相互依赖关系,关联规则反映了两个本体概念之间的共同出现的关系。有的关联规则提取方法适用性、扩展性不高,而本具体实施方式中所处理的语义信息零散、对话中的概念信息并无严格规则,因而现有的关联规则无法运用在电商领域的问答语料中。本具体实施方式对于关联规则的提取主要包含两个阶段:第一阶段先从语料中提取高频共现词组,第二阶段再由这些高频词组中产生关联规则。关联规则关系挖掘这里主要是寻找词的相关联词。具体来说,所述关联规则包括本体概念间的支持度、置信度。
基于同一会话语料中的本体概念具有相同的事件指向,它们共同描述一个事件内容这样一种思想,本具体实施方式通过对候选词出现在同一会话中的分布情况,来挖掘候选词之间所隐含的关联关系。具体来说,所述本体概念间的支持度采用如下步骤计算得到:
(S14-1)设所述问答语料库的会话集合S={si|i=1,2,…,x},x为所述问答语料库中会话的组数,对会话si进行分词以得到包括多个关键词的关键词集合,并将所述关键词集合与所述本体概念集合的交集作为所述会话si的关联词集合Ti={tij|j=1,2,…,m},其中,m为所述关联词集合Ti中本体概念的个数,tij表示在所述会话si中出现的本体概念;
(S14-2)设在所述问答语料库中同时出现所述关联词集合Ti中的本体概念tia、tib的次数为则所述本体概念tia与所述本体概念tib之间的支持度采用如下公式(5)计算得到:
更优选的,所述本体概念间的置信度采用如下步骤计算得到:
统计在所述问答语料库中分别出现本体概念tc、td的会话数tfc、tfd,以及在所述问答语料库中同时出现本体概念tc、td的会话数tfab,则所述本体概念与之间的置信度采用如下公式(6)、(7)、(8)计算得到:
上式中,tfv表示在所述问答语料库中出现本体概念tv的会话数,p(tc,td)表示本体概念在同一会话中出现的概率,p(tv)表示本体概念或在会话中出现的概念,Cconf(tc,td)表示本体概念与本体概念之间的置信度。
举例来说,从所述问答语料库中抽取了约25W组会话,总共约400W条对话记录,对主词拉取了共现频率最高的6个词进行了支持度与置信度计算结果如表3.3所示:
表3.3关联规则实验结果
步骤S15,对多个本体概念进行层次聚类分析,以建立本体概念间的层次关系树。层次聚类(Hierarchical Clustering)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。具体的是通过对给定数据集进行层次的分解,直到某种条件满足为止,可分为凝聚与分裂两种实现方式。
优选的,对多个本体概念进行层次聚类分析,以建立本体概念间的层次关系树的具体步骤包括:
(S15-1)将所述本体概念集合中的每个本体概念归为一类,共得到L个类,即每个类中仅包含一个本体概念,类与类之间的距离就是类所包含的本体概念之间的距离;
(S15-2)计算任意两个类之间的距离,并将距离最短的两个类合并为一类;
(S15-3)分别计算合并生成的类与剩余类之间的相似度;
(S15-4)重复合并类、计算相似度的步骤,直至将L个类都归为一类(此类包含了L个本体概念),以建立层次关系树。
整个聚类过程建立了一棵层次关系树,如何判断两个类之间的相似度有多种方法。优选的,分别计算合并生成的类与剩余类之间的相似度的具体步骤是:
采用离差平方和法(即Scipy的ward距离算法)分别计算合并生成的类与剩余类之间的相似度。离差平方和法的具体如公式(9)所示:
式子中d(u,v)两个类u与v之间的距离,其中u新聚好的分类由s与t两个分类聚合成,其中|*|表示的是类的基数。
举例来说,从所述问答语料库中抽取了184W条数据·使用gensim工具包中的word2vec生成词向量,然后使用SciPy中的ward距离算法进行聚类实验。这里为了实验结果便于展示,取了10个订单相关的概念进行聚类实验。概念词为以下数组元素:[订单,包裹,手机,地址,商品,快递员,收件人,订单编号,姓名,运单号],附图3是本发明具体实施方式的层次聚类结果图。
步骤S16,根据所述本体概念集合、所述关联规则、所述层次关系树建立电商本体。根据本体构建顺序本体的构建方法可分为自顶向下、自底向上和两者结合3种。自顶向下通过领域权威的分类法、叙词表、论著、领域专家的知等先验知识构建基础框架,在此基础上不断添加新的概念及概念之间的关系来最终完成。该方法比较依赖先验知识由于领域之间差异较大使用上较困难。自底向上通过从概念词汇出发或者现有的小规模本体出发,向上聚合建立概念之间的关系以形成最终本体。在本具体实施方式中,我们根据所述本体概念集合、所述关联规则、所述层次关系树,并采用企业建模法与循环获取法二者相结合的分析方法建立电商本体。采用企业建模与循环获取法二者相结合的分析方法来构建本体。
具体构建步骤如下:
1)应用情景的收集
电商客服系统当前的定位主要是处理订单相关问题的问答,这类问题其中一般蕴含有一定的业务模式。为了回答某个订单实体相关信息和一些业务处理上的推理,因此需要用到本体来进行词汇级别上的辅助处理。由于文中的本体的构建最终目的是为解决订单相关问题,所以以下本体的构建和使用范围都是基于订单该小领域范围。
2)选择数据源
确定本体的用途和构建目标,接下来就是构建。目前的数据源主要使用人工客服问答的原始语料数据以及常见问题问答数据库,其中还会用到其他的数据源进行辅助处理。
3)概念学习
从数据源中抽取领域概念,并建立概念间的关系,这是本章所要研究的重点,已在上文详细描述。
4)领域聚焦
对抽取的概念进行过滤,筛选当前目标领域本体所需要的概念。
5)关系学习
主要对本体概念的层次关系与隐含的关系进行学习以辅助人工建立关系。
6)评价
对电商领域本体的提取结果进行评价,再重复2-5过程,获得最终适合的本体信息。
以上为电商领域的本体总体处理流程。
本体的构建可以借助界面工具辅助本体开发、构建和编辑,通过本体开发工具方便开发上对本体进行操作和对本体关系进行直观分析。本具体实施方式主要通过使用Protégé工具进行本体构建,Protégé软件是斯坦福大学基于Java语言开发的本体开发工具,也是基于知识的编辑器,属于开放源代码软件。这个软件主要用于语义网中本体的构建,是语义网中本体构建的核心开发工具。
本具体实施方式提供的电商本体构建方法,通过构建问答语料库、日常语料库、商品语料库的交叉运算来在语料层面对候选词的空间分布直接进行调整,而不是对最后的统计结果进行调整,构建了针对性较强的电商领域本体,解决了现有技术中电商智能客服在与客户会话的过程中语义识别准确度较低的问题,以提高了电商智能客服与用户的线上交流效率,并增强了用户体验,也降低了电商运营成本。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种电商本体构建方法,其特征在于,包括如下步骤:
构建问答语料库、日常语料库、商品语料库,所述问答语料库中包括多组客服与客户的会话;
对所述会话进行预处理以获取多个候选词,并通过对所述问答语料库、所述日常语料库、所述商品语料库的交叉运算调整所述候选词的空间概率分布,建立包括多个候选词及其排名信息的候选词集合;
对多个候选词进行筛选,以构建包括多个本体概念的本体概念集合;
对任两个本体概念在同一会话中共同出现的概率进行统计分析,以建立本体概念间的关联规则;
对多个本体概念进行层次聚类分析,以建立本体概念间的层次关系树;
根据所述本体概念集合、所述关联规则、所述层次关系树建立电商本体。
2.根据权利要求1所述的电商本体构建方法,其特征在于,对所述会话进行预处理以获取多个候选词,并通过对所述问答语料库、所述日常语料库、所述商品语料库的交叉运算调整所述候选词的空间概率分布,建立包括多个候选词及其排名信息的候选词集合的具体步骤包括:
对所述问答语料库中的会话进行分词处理以获取多个候选词,通过统计分析获取每一候选词的词频,并按照词频从大到小的顺序对多个候选词进行排序,以获取每一候选词在所述问答语料库中的排名以及所有词频按照从大到小顺序排列的词频集合;
分别计算每一候选词在所述日常语料库、所述商品语料库中的排名与所述问答语料库中排名之间的距离,计算公式如下式(1)所示:
<mrow>
<mover>
<mi>r</mi>
<mo>&OverBar;</mo>
</mover>
<mo>=</mo>
<msqrt>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>r</mi>
<mrow>
<mn>1</mn>
<mi>k</mi>
</mrow>
</msub>
<mo>-</mo>
<msub>
<mi>r</mi>
<mrow>
<mn>2</mn>
<mi>k</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
<mi>n</mi>
</mfrac>
</msqrt>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
式中,n表示候选词的数量,r1k表示第k个候选词在所述问答语料库中的排名,r2k表示第k个候选词在所述日常语料库或所述商品语料库中的排名,表示第k个候选词在所述日常语料库或所述商品语料库中的排名与所述问答语料库中的排名之间的距离;
分别计算每一候选词在所述日常语料库、所述商品语料库与所述问答语料库间的相似度;
根据如下公式(2)调整所述问答语料中所有候选词的排名,以按照调整后的排名先后顺序建立候选词集合:
<mrow>
<mi>R</mi>
<mo>=</mo>
<mo>&lsqb;</mo>
<msub>
<mi>r</mi>
<mrow>
<mn>1</mn>
<mi>k</mi>
</mrow>
</msub>
<mo>+</mo>
<mfrac>
<mrow>
<mi>n</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>r</mi>
<mrow>
<mn>1</mn>
<mi>k</mi>
</mrow>
</msub>
<mo>+</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>(</mo>
<msub>
<mi>r</mi>
<mrow>
<mn>2</mn>
<mi>k</mi>
</mrow>
</msub>
<mo>+</mo>
<mn>1</mn>
<mo>)</mo>
<mo>|</mo>
<msub>
<mi>&rho;</mi>
<mrow>
<mn>1</mn>
<mo>,</mo>
<mn>2</mn>
</mrow>
</msub>
<mo>|</mo>
<msqrt>
<mover>
<mi>r</mi>
<mo>&OverBar;</mo>
</mover>
</msqrt>
</mrow>
</mfrac>
<mo>&rsqb;</mo>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
式(2)中,R是第k个候选词调整后的排名,ρ12表示第k个候选词在所述日常语料库或所述商品语料库与所述问答语料库中的相似度。
3.根据权利要求2所述的电商本体构建方法,其特征在于,所述相似度为皮尔逊相关系数。
4.根据权利要求2所述的电商本体构建方法,其特征在于,对多个候选词进行筛选,以构建包括多个本体概念的本体概念集合的具体步骤包括:
将所述词频集合中的词频按照从大到小的顺序依次赋予调整排名后的候选词,使得调整后排名第一的候选词具有最大词频、排名最后的候选词具有最小词频;
采用公式(3)计算每一候选词的核心度:
W(t)=-P(t)log2P(t) (3)
式中W(t)表示候选词t的核心度,P(t)表示候选词t在所述问答语料库中出现的概率,P(t)根据所述候选词t的词频在所述词频集合中所有词频的总和中所占的比例计算得到;
采用公式(4)对候选词进行降权处理:
<mrow>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>W</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>W</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<mfrac>
<mn>1</mn>
<mn>1000</mn>
</mfrac>
</mrow>
</mtd>
<mtd>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mo><</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>W</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>W</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<mfrac>
<mn>1</mn>
<mn>100</mn>
</mfrac>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>T</mi>
<mi>a</mi>
<mi>g</mi>
<mo>&Element;</mo>
<mo>{</mo>
<mi>t</mi>
<mi>i</mi>
<mi>m</mi>
<mi>e</mi>
<mo>,</mo>
<mi>p</mi>
<mi>l</mi>
<mi>a</mi>
<mi>c</mi>
<mi>e</mi>
<mo>,</mo>
<mi>p</mi>
<mi>e</mi>
<mi>r</mi>
<mi>s</mi>
<mi>o</mi>
<mi>n</mi>
<mo>,</mo>
<mi>n</mi>
<mi>u</mi>
<mi>m</mi>
<mi>b</mi>
<mi>e</mi>
<mi>r</mi>
<mo>,</mo>
<mi>l</mi>
<mi>e</mi>
<mi>t</mi>
<mi>t</mi>
<mi>e</mi>
<mi>r</mi>
<mo>}</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>W</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>W</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<mfrac>
<mn>1</mn>
<mn>20</mn>
</mfrac>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>T</mi>
<mi>a</mi>
<mi>g</mi>
<mo>&NotElement;</mo>
<mo>{</mo>
<mi>n</mi>
<mo>,</mo>
<mi>v</mi>
<mo>}</mo>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
式(4)中{time,place,person,number,letter}表示候选词t的实体特征,{n,v}表示候选词t的词性特征;
对经过降权处理后的候选词汇按照权重从大到小的顺序进行排序,并以权重排序中前N个权重对应的候选词作为本体概念,以构建本体概念集合,其中,N为正整数。
5.根据权利要求1所述的电商本体构建方法,其特征在于,所述关联规则包括本体概念间的支持度、置信度。
6.根据权利要求5所述的电商本体构建方法,其特征在于,所述本体概念间的支持度采用如下步骤计算得到:
设所述问答语料库的会话集合S={si|i=1,2,…,x},x为所述问答语料库中会话的组数,对会话si进行分词以得到包括多个关键词的关键词集合,并将所述关键词集合与所述本体概念集合的交集作为所述会话si的关联词集合Ti={tij|j=1,2,…,m},其中,m为所述关联词集合Ti中本体概念的个数,tij表示在所述会话si中出现的本体概念;
设在所述问答语料库中同时出现所述关联词集合Ti中的本体概念tia、tib的次数为a∈m、b∈m,则所述本体概念tia与所述本体概念tib之间的支持度采用如下公式(5)计算得到:
<mrow>
<msub>
<mi>S</mi>
<mrow>
<mi>sup</mi>
<mi>p</mi>
<mi>o</mi>
<mi>r</mi>
<mi>t</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mrow>
<mi>a</mi>
<mi>b</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<msub>
<mo>&part;</mo>
<mrow>
<mi>a</mi>
<mi>b</mi>
</mrow>
</msub>
<mi>x</mi>
</mfrac>
<mo>&times;</mo>
<mn>100</mn>
<mi>%</mi>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
<mo>.</mo>
</mrow>
7.根据权利要求5所述的电商本体构建方法,其特征在于,所述本体概念间的置信度采用如下步骤计算得到:
统计在所述问答语料库中分别出现本体概念tc、td的会话数tfc、tfd,以及在所述问答语料库中同时出现本体概念tc、td的会话数tfab,则所述本体概念与之间的置信度采用如下公式(6)、(7)、(8)计算得到:
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>c</mi>
</msub>
<mo>,</mo>
<msub>
<mi>t</mi>
<mi>d</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>tf</mi>
<mrow>
<mi>c</mi>
<mi>d</mi>
</mrow>
</msub>
</mrow>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>v</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>U</mi>
</munderover>
<msub>
<mi>tf</mi>
<mi>v</mi>
</msub>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>v</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>tf</mi>
<mi>v</mi>
</msub>
</mrow>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>v</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>U</mi>
</munderover>
<msub>
<mi>tf</mi>
<mi>v</mi>
</msub>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>C</mi>
<mrow>
<mi>c</mi>
<mi>o</mi>
<mi>n</mi>
<mi>f</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>c</mi>
</msub>
<mo>,</mo>
<msub>
<mi>t</mi>
<mi>d</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>c</mi>
</msub>
<mo>,</mo>
<msub>
<mi>t</mi>
<mi>d</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>c</mi>
</msub>
<mo>,</mo>
<msub>
<mi>t</mi>
<mi>d</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>c</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>d</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
</mrow>
上式中,tfv表示在所述问答语料库中出现本体概念tv的会话数,p(tc,td)表示本体概念在同一会话中出现的概率,p(tv)表示本体概念或在会话中出现的概念,Cconf(tc,td)表示本体概念与本体概念之间的置信度。
8.根据权利要求1所述的电商本体构建方法,其特征在于,对多个本体概念进行层次聚类分析,以建立本体概念间的层次关系树的具体步骤包括:
将所述本体概念集合中的每个本体概念归为一类,共得到L个类,类与类之间的距离就是类所包含的本体概念之间的距离;
计算任意两个类之间的距离,并将距离最短的两个类合并为一类;
分别计算合并生成的类与剩余类之间的相似度;
重复合并类、计算相似度的步骤,直至将L个类都归为一类,以建立层次关系树。
9.根据权利要求1所述的电商本体构建方法,其特征在于,分别计算合并生成的类与剩余类之间的相似度的具体步骤是:
采用离差平方和法分别计算合并生成的类与剩余类之间的相似度。
10.根据权利要求1所述的电商本体构建方法,其特征在于,根据所述本体概念集合、所述关联规则、所述层次关系树建立电商本体的具体步骤包括:
根据所述本体概念集合、所述关联规则、所述层次关系树,并采用企业建模法与循环获取法二者相结合的分析方法建立电商本体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2017111431692 | 2017-11-17 | ||
CN201711143169 | 2017-11-17 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108052583A true CN108052583A (zh) | 2018-05-18 |
CN108052583B CN108052583B (zh) | 2020-07-24 |
Family
ID=61705375
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711305473.2A Active CN107967261B (zh) | 2017-11-17 | 2017-12-11 | 智能客服中交互式问句语义理解方法 |
CN201711305840.9A Active CN108052583B (zh) | 2017-11-17 | 2017-12-11 | 电商本体构建方法 |
CN201711305527.5A Pending CN107861951A (zh) | 2017-11-17 | 2017-12-11 | 智能客服中的会话主题识别方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711305473.2A Active CN107967261B (zh) | 2017-11-17 | 2017-12-11 | 智能客服中交互式问句语义理解方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711305527.5A Pending CN107861951A (zh) | 2017-11-17 | 2017-12-11 | 智能客服中的会话主题识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (3) | CN107967261B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033142A (zh) * | 2018-06-11 | 2018-12-18 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及服务器 |
CN109063034A (zh) * | 2018-07-16 | 2018-12-21 | 浙江大学 | 基于空间和社交多媒体数据的室内空间语义价值计算方法 |
CN110134943A (zh) * | 2019-04-03 | 2019-08-16 | 平安科技(深圳)有限公司 | 领域本体生成方法、装置、设备及介质 |
CN110727799A (zh) * | 2018-06-29 | 2020-01-24 | 杭州海康威视数字技术股份有限公司 | 本体构建方法及装置 |
CN111177322A (zh) * | 2019-12-30 | 2020-05-19 | 成都数之联科技有限公司 | 一种领域知识图谱的本体模型构建方法 |
CN112699238A (zh) * | 2020-12-29 | 2021-04-23 | 厦门市美亚柏科信息股份有限公司 | 一种基于标签的知识本体构建方法、终端设备及存储介质 |
TWI735380B (zh) * | 2019-11-20 | 2021-08-01 | 中央研究院 | 自然語言處理方法與其計算裝置 |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763242B (zh) * | 2018-03-26 | 2022-03-08 | 广州视源电子科技股份有限公司 | 标签生成方法及装置 |
CN108614897B (zh) * | 2018-05-10 | 2021-04-27 | 四川长虹电器股份有限公司 | 一种面向自然语言的内容多样化搜索方法 |
CN108763211B (zh) * | 2018-05-23 | 2020-07-31 | 中国科学院自动化研究所 | 融合蕴含知识的自动文摘方法及系统 |
CN108920715B (zh) * | 2018-07-26 | 2020-11-10 | 百度在线网络技术(北京)有限公司 | 客服的智能化辅助方法、装置、服务器和存储介质 |
CN109241269B (zh) * | 2018-07-27 | 2020-07-17 | 深圳追一科技有限公司 | 任务型机器人词槽填充方法 |
CN109189906A (zh) * | 2018-08-17 | 2019-01-11 | 国家电网有限公司客户服务中心 | 智能客服对连贯语境下多问句完整语义的识别方法 |
US10742813B2 (en) * | 2018-11-08 | 2020-08-11 | N3, Llc | Semantic artificial intelligence agent |
CN109635117B (zh) * | 2018-12-26 | 2021-05-14 | 零犀(北京)科技有限公司 | 一种基于知识图谱识别用户意图方法及装置 |
CN111400458A (zh) * | 2018-12-27 | 2020-07-10 | 上海智臻智能网络科技股份有限公司 | 一种自动泛化方法及其装置 |
CN109815322B (zh) * | 2018-12-27 | 2021-03-12 | 东软集团股份有限公司 | 应答的方法、装置、存储介质及电子设备 |
CN111401069A (zh) * | 2018-12-27 | 2020-07-10 | 深圳市优必选科技有限公司 | 会话文本的意图识别方法、意图识别装置及终端 |
CN109858020A (zh) * | 2018-12-29 | 2019-06-07 | 航天信息股份有限公司 | 一种基于语义图获取税务业务问题答案的方法及系统 |
CN109829036A (zh) * | 2019-02-12 | 2019-05-31 | 浙江核新同花顺网络信息股份有限公司 | 一种对话管理方法及相关装置 |
CN109949805B (zh) * | 2019-02-21 | 2021-03-23 | 江苏苏宁银行股份有限公司 | 基于意图识别及有限状态自动机的智能催收机器人及催收方法 |
CN111813901B (zh) * | 2019-04-11 | 2024-05-17 | 阿里巴巴集团控股有限公司 | 会话内容生成和处理方法、对话机器人的诊断方法及装置 |
CN110147432B (zh) * | 2019-05-07 | 2023-04-07 | 大连理工大学 | 一种基于有限状态自动机的决策搜索引擎实现方法 |
CN110244941B (zh) * | 2019-06-17 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 任务开发方法、装置、电子设备及计算机可读存储介质 |
CN110516697B (zh) * | 2019-07-15 | 2021-08-31 | 清华大学 | 基于证据图聚合与推理的声明验证方法及系统 |
CN110457455B (zh) * | 2019-07-25 | 2022-02-22 | 重庆兆光科技股份有限公司 | 一种三值逻辑问答咨询优化方法、系统、介质和设备 |
US11841867B2 (en) * | 2019-08-09 | 2023-12-12 | International Business Machines Corporation | Query relaxation using external domain knowledge for query answering |
CN110688459A (zh) * | 2019-09-29 | 2020-01-14 | 联想(北京)有限公司 | 一种智能交互方法及智能设备 |
CN111224863B (zh) * | 2019-12-10 | 2021-06-22 | 平安国际智慧城市科技股份有限公司 | 会话任务生成方法、装置、计算机设备和存储介质 |
CN111061815B (zh) * | 2019-12-13 | 2023-04-25 | 携程计算机技术(上海)有限公司 | 会话数据分类方法 |
CN111353028B (zh) * | 2020-02-20 | 2023-04-18 | 支付宝(杭州)信息技术有限公司 | 用于确定客服话术簇的方法及装置 |
CN111506292B (zh) * | 2020-04-15 | 2021-06-15 | 思必驰科技股份有限公司 | 用于人机对话的语音技能跳转方法、电子设备及存储介质 |
CN111859985B (zh) * | 2020-07-23 | 2023-09-12 | 上海华期信息技术有限责任公司 | Ai客服模型测试方法、装置、电子设备及存储介质 |
CN112214685B (zh) * | 2020-09-27 | 2023-03-28 | 电子科技大学 | 一种基于知识图谱的个性化推荐方法 |
CN114911913A (zh) * | 2021-02-10 | 2022-08-16 | 华为技术有限公司 | 一种处理对话数据的方法、装置、系统及存储介质 |
CN113127618B (zh) * | 2021-04-16 | 2023-09-01 | 北京奇艺世纪科技有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN113657700A (zh) * | 2021-06-29 | 2021-11-16 | 云南昆钢电子信息科技有限公司 | 一种基于大数据的矿山安全生产实时监测方法和系统 |
CN114118080B (zh) * | 2021-11-10 | 2022-09-13 | 北京深维智信科技有限公司 | 一种从销售会话中自动识别客户意向的方法及系统 |
CN115118689B (zh) * | 2022-06-30 | 2024-04-23 | 哈尔滨工业大学(威海) | 一种特定领域智能客服营销机器人的搭建方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101710343A (zh) * | 2009-12-11 | 2010-05-19 | 北京中机科海科技发展有限公司 | 一种基于文本挖掘的本体自动构建系统及方法 |
US20100280989A1 (en) * | 2009-04-29 | 2010-11-04 | Pankaj Mehra | Ontology creation by reference to a knowledge corpus |
CN102117281A (zh) * | 2009-12-30 | 2011-07-06 | 北京亿维讯科技有限公司 | 一种构建领域本体的方法 |
CN103207856A (zh) * | 2013-04-03 | 2013-07-17 | 同济大学 | 一种本体概念及层次关系生成方法 |
US20160147736A1 (en) * | 2014-11-26 | 2016-05-26 | Abbyy Infopoisk Llc | Creating ontologies by analyzing natural language texts |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101465749B (zh) * | 2008-12-29 | 2011-05-11 | 武汉大学 | 基于Web Service组合的问答服务构建方法 |
US10263899B2 (en) * | 2012-04-10 | 2019-04-16 | Seven Networks, Llc | Enhanced customer service for mobile carriers using real-time and historical mobile application and traffic or optimization data associated with mobile devices in a mobile network |
CN102868695B (zh) * | 2012-09-18 | 2015-06-17 | 天格科技(杭州)有限公司 | 基于会话树的智能在线客服方法及系统 |
US9311294B2 (en) * | 2013-03-15 | 2016-04-12 | International Business Machines Corporation | Enhanced answers in DeepQA system according to user preferences |
CN104834651B (zh) * | 2014-02-12 | 2020-06-05 | 北京京东尚科信息技术有限公司 | 一种提供高频问题回答的方法和装置 |
KR20150145490A (ko) * | 2014-06-19 | 2015-12-30 | 종 진 임 | 쇼핑몰 주문 처리 시의 개인정보 보호 방법 및 장치 |
CN104699786A (zh) * | 2015-03-17 | 2015-06-10 | 浪潮通信信息系统有限公司 | 一种语义智能搜索的通信网络投诉系统 |
CN105354180B (zh) * | 2015-08-26 | 2019-01-04 | 欧阳江 | 一种实现开放式语义交互服务的方法及系统 |
CN106776649B (zh) * | 2015-11-24 | 2020-02-14 | 中科国力(镇江)智能技术有限公司 | 一种基于可视化流程图的智能问答多轮交互方法和系统 |
CN105677822A (zh) * | 2016-01-05 | 2016-06-15 | 首都师范大学 | 一种基于对话机器人的招生自动问答方法及系统 |
CN106156003B (zh) * | 2016-06-30 | 2018-08-28 | 北京大学 | 一种问答系统中的问句理解方法 |
CN106649260B (zh) * | 2016-10-19 | 2022-01-25 | 中国计量大学 | 基于评论文本挖掘的产品特征结构树构建方法 |
CN106874259B (zh) * | 2017-02-23 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 一种基于状态机的语义解析方法及装置、设备 |
CN107133349B (zh) * | 2017-05-24 | 2018-02-23 | 北京无忧创新科技有限公司 | 一种对话机器人系统 |
-
2017
- 2017-12-11 CN CN201711305473.2A patent/CN107967261B/zh active Active
- 2017-12-11 CN CN201711305840.9A patent/CN108052583B/zh active Active
- 2017-12-11 CN CN201711305527.5A patent/CN107861951A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100280989A1 (en) * | 2009-04-29 | 2010-11-04 | Pankaj Mehra | Ontology creation by reference to a knowledge corpus |
CN101710343A (zh) * | 2009-12-11 | 2010-05-19 | 北京中机科海科技发展有限公司 | 一种基于文本挖掘的本体自动构建系统及方法 |
CN102117281A (zh) * | 2009-12-30 | 2011-07-06 | 北京亿维讯科技有限公司 | 一种构建领域本体的方法 |
CN103207856A (zh) * | 2013-04-03 | 2013-07-17 | 同济大学 | 一种本体概念及层次关系生成方法 |
US20160147736A1 (en) * | 2014-11-26 | 2016-05-26 | Abbyy Infopoisk Llc | Creating ontologies by analyzing natural language texts |
Non-Patent Citations (1)
Title |
---|
张志刚: "领域本体构建方法的研究与应用", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033142A (zh) * | 2018-06-11 | 2018-12-18 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及服务器 |
CN109033142B (zh) * | 2018-06-11 | 2021-02-12 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及服务器 |
CN110727799A (zh) * | 2018-06-29 | 2020-01-24 | 杭州海康威视数字技术股份有限公司 | 本体构建方法及装置 |
CN110727799B (zh) * | 2018-06-29 | 2022-08-16 | 杭州海康威视数字技术股份有限公司 | 本体构建方法及装置 |
CN109063034A (zh) * | 2018-07-16 | 2018-12-21 | 浙江大学 | 基于空间和社交多媒体数据的室内空间语义价值计算方法 |
CN109063034B (zh) * | 2018-07-16 | 2022-01-04 | 浙江大学 | 基于空间和社交多媒体数据的室内空间语义价值计算方法 |
CN110134943A (zh) * | 2019-04-03 | 2019-08-16 | 平安科技(深圳)有限公司 | 领域本体生成方法、装置、设备及介质 |
TWI735380B (zh) * | 2019-11-20 | 2021-08-01 | 中央研究院 | 自然語言處理方法與其計算裝置 |
CN111177322A (zh) * | 2019-12-30 | 2020-05-19 | 成都数之联科技有限公司 | 一种领域知识图谱的本体模型构建方法 |
CN112699238A (zh) * | 2020-12-29 | 2021-04-23 | 厦门市美亚柏科信息股份有限公司 | 一种基于标签的知识本体构建方法、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107967261B (zh) | 2021-05-25 |
CN108052583B (zh) | 2020-07-24 |
CN107967261A (zh) | 2018-04-27 |
CN107861951A (zh) | 2018-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052583A (zh) | 电商本体构建方法 | |
Liu et al. | Advisor: Automatic visualization answer for natural-language question on tabular data | |
CN106156272A (zh) | 一种基于多源语义分析的信息检索方法 | |
CN110222045A (zh) | 一种数据报表获取方法、装置及计算机设备、存储介质 | |
CN109960756A (zh) | 新闻事件信息归纳方法 | |
CN108073576A (zh) | 智能搜索方法、搜索装置以及搜索引擎系统 | |
CN111460102B (zh) | 一种基于自然语言处理的图表推荐系统及方法 | |
Yang et al. | Semantic and explainable research-related recommendation system based on semi-supervised methodology using BERT and LDA models | |
CN110347796A (zh) | 向量语义张量空间下的短文本相似度计算方法 | |
Fei et al. | Hierarchical multi-task word embedding learning for synonym prediction | |
Jayaram et al. | A review: Information extraction techniques from research papers | |
CN110442730A (zh) | 一种基于deepdive的知识图谱构建方法 | |
Zhao et al. | Keyword extraction for social media short text | |
CN106708926A (zh) | 一种支持海量长文本数据分类的分析模型的实现方法 | |
Manimaran et al. | A survey of association rule mining in text applications | |
Kanapala et al. | Passage-based text summarization for legal information retrieval | |
CN111753067A (zh) | 一种技术交底文本创新性评估方法、装置和设备 | |
Chen et al. | Exploring science-technology linkages: A deep learning-empowered solution | |
Liu et al. | Chinese named entity recognition based on rules and conditional random field | |
Wang et al. | Semi-supervised chinese open entity relation extraction | |
Yücesoy Kahraman et al. | Forty years of automated patent classification | |
Ronghui et al. | Application of Improved Convolutional Neural Network in Text Classification. | |
Liu et al. | Modelling and Implementation of a Knowledge Question-answering System for Product Quality Problem Based on Knowledge Graph | |
CN114969087A (zh) | 基于多视角特征解耦的nl2sql方法和装置 | |
Al Hasan et al. | Clustering Analysis of Bangla News Articles with TF-IDF & CV Using Mini-Batch K-Means and K-Means |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |