CN111428055A - 一种面向行业的上下文省略问答方法 - Google Patents
一种面向行业的上下文省略问答方法 Download PDFInfo
- Publication number
- CN111428055A CN111428055A CN202010309435.XA CN202010309435A CN111428055A CN 111428055 A CN111428055 A CN 111428055A CN 202010309435 A CN202010309435 A CN 202010309435A CN 111428055 A CN111428055 A CN 111428055A
- Authority
- CN
- China
- Prior art keywords
- industry
- state
- question
- context
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000007246 mechanism Effects 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims description 22
- 230000011218 segmentation Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 10
- 238000013145 classification model Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000003993 interaction Effects 0.000 description 5
- 238000012423 maintenance Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 239000000809 air pollutant Substances 0.000 description 2
- 231100001243 air pollutant Toxicity 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 239000003344 environmental pollutant Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 231100000719 pollutant Toxicity 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种面向行业的上下文省略问答方法,本方法依据行业数据中的结构化、非结构化知识,构建行业知识图谱,行业知识图谱中包括三元组信息,系统通过客户问题确定某个主题时,三元组中与客户问题相关的主题、属性均被认定为对话状态;基于行业知识图谱及确定的对话状态,系统在接收到客户问题之后进行对话状态管理,包括通过历史状态问答机制、上下文省略问答判断机制解决噪音干扰、非行业问答带来的系统状态清空、答非所问问题。
Description
技术领域
本发明涉及一种面向行业的上下文省略问答方法,属于自然语言处理和机器学习领域。
背景技术
对话状态管理(Dialogue State Management)以用户意图为输入,对于上下文交互过程中产生的对话状态进行管理,并查询知识库产生响应。自然、流畅、高效的人机多轮交互体验离不开高效的对话状态管理,但在实际的工程实践过程中仍有较多挑战。首先,对话状态往往通过槽值、实体等方式确定,随之产生较大的标注成本,这会耗费较大的人力、物力成本;另外在大厅等场景下的人机对话往往夹杂着较多噪音(无效问题),当对话过程面临大量噪音时,不合理的状态保存与清空都会导致较差的问答体验;自然的人机交互过程中往往有较大的上下文省略,对于行业问答系统而言(知识有限),如何区分客户问题是基于某一主题的上下文省略问答还是切换话题问答,也具有较大的研究意义。
发明内容
本发明要解决的技术问题是提供一种面向行业的上下文省略问答方法,以行业知识图谱中的话题、属性作为对话状态,通过历史状态问答机制和上下文省略问答判断机制,可实现基于上下文省略问答的对话模式,有效避免噪音干扰,同时极大减少了数据维护量。
为了解决所述技术问题,本发明采用的技术方案是:一种面向行业的上下文省略问答方法,首先依据行业数据中的结构化、非结构化知识,构建行业知识图谱,行业知识图谱中包括三元组信息,系统通过客户问题确定某个主题时,三元组中与客户问题相关的主题、属性均被认定为对话状态;基于行业知识图谱及确定的对话状态,系统在接收到客户问题之后进行对话状态管理,包括通过历史状态问答机制、上下文省略问答判断机制解决噪音干扰、非行业问答带来的系统状态清空、答非所问问题。
进一步的,构建行业知识图谱的具体步骤为:
S11)、构建行业词库,利用现有的关系型数据库、行业结构化数据以及客户给定的行业关键词,确定行业主题、行业属性,将相关主题、属性添加到自定义分词中,并提高其权重;对于客户给定的行业文档和从网上爬取的其他行业文档,使用传统机器学习方法来计算词权重并筛选出行业词库;
S12)、扩充行业词,使用腾讯公开的基于word2vec训练的800万词向量集,遍历步骤S11确定的行业词库,并使用余弦相似度抽取不含有已有行业词的前10相似词,并依据行业经验进行筛选;
S13)、三元组抽取,使用jieba分词对行业文档进行分词,依据行业词和抽取模板进行三元组抽取,抽取模板定义为ABC,A为主题,B为属性,C为值,即A的B是C;
S14)、构建行业知识图谱,将步骤S13抽取的三元组信息经过人工筛选之后导入到图形数据库中,从而形成行业知识图谱。
进一步的,历史状态问答机制的步骤为:
S21)、历史状态保存,对话过程中的所有有效问答均会被保存在历史状态列表中,设定历史状态列表的长度,当历史列表长度超过设定值时,最早的状态被丢弃,新状态则插入到最后;
S22)、历史状态恢复,当系统针对客户问题无法产生响应时,首先将当前状态保存到临时状态变量中,然后将历史状态列表中的最后状态更新到当前状态,再进行答案匹配;
S23)、历史状态更新,如果系统根据当前的历史状态匹配到答案,则返回响应,然后将该历史状态作为当前对话状态,清空临时状态变量,并更新历史状态列表末尾;如果没有匹配到答案,则将临时状态变量中的当前状态恢复,返回问题列表。
进一步的,上下文省略问答判断机制基于语义分类模型,分类模型由训练数据对预训练模型进行微调得到,具体过程为:
S31)、构建样本集合,使用三元组陈述句、主题、属性和日志抽取的相关省略问答问句作为正样本,使用其他领域抽取的相关主题、属性与行业知识进行混合的问答、日志抽取的非上下文省略问答数据作为负样本;
S32)、将正负样本进行随机组合,构建相同数据的样本集合,并按照9:1的比例将样本集合分为训练集与验证集;
S33)、在预训练模型的输出层后增加全连接层和softmax层,经softmax层之后输出是、不是的概率。
预训练模型的输入为训练数据中的样本,损失函数使用交叉熵,梯度下降使用Adam梯度下降,采用f1和准确率作为综合指标,通过验证集选择最佳语义分类模型。
进一步的,系统在接收到客户问题之后进行对话状态管理的过程为:
S41)、状态抽取,将根据行业知识图谱确定的对话状态存入到哈希表中,当系统接收到用户问题时,首先判断此次用户问题距离上个用户问题的时间是否超时,如果超时,则清空当前状态,如果未超时则根据哈希表进行状态抽取,如果未抽取到任何状态,则认为该问题是无效问题,进行噪音统计;如果抽取到状态,则进入下一步;
S42)、上下文省略判断机制,如果根据用户问题在行业知识图谱中无法查找到答案,则认为是上下文状态缺失,经过人工规则和语义分类器进行进行是否是上下文省略问答判断,人工规则是将问题去除停用词对状态进行长度限制的状态包含判断,语义分类器输出上下文省略和非上下文省略问答的概率;
S43)、状态更新,如果系统根据用户问题从行业知识图谱中能够找到答案,则进行当前状态、历史状态的更新;
S44)、历史状态问答机制,根据语义分类器的输出确定是否继续话题,如果不继续,则返回问题列表,如果继续,则遍历当前状态和所有的历史状态,如果找到答案,则进行当前状态和历史状态的更新,否则返回依据当前主题确定的相关问题列表;
S45)、状态清空,当前状态清空有两种情况,一种是步骤S41的噪音统计超过设定阈值时进行状态清空,另一种是本次用户问题与上次用户问题的时间间隔超过一定时间时进行状态清空。
进一步的,所述图形数据库为neo4j。
进一步的,所述预训练模型为xlnet中文预训练模型。
本发明的有益效果:本发明以行业知识图谱中的话题、属性作为对话状态,通过历史状态问答机制可有效避免噪音干扰导致的系统状态清空问题;同时使用上下文省略问答判断机制,可实现基于上下文省略问答的对话模式,同时避免非行业主题问答导致的答非所问问题,实现一种自然、流畅、高效的人机多轮交互系统,同时极大减少了数据维护量。
附图说明
图1为行业知识谱图构建流程图;
图2为对话状态管理流程图;
图3为语义分类器的构建流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的说明。
实施例1
本实施例立足于智能对话系统,提供一种面向行业的上下文省略问答方法,以行业知识图谱中的话题、属性作为对话状态,通过历史状态问答机制和上下文省略问答判断机制,可实现基于上下文省略问答的对话模式,有效避免噪音干扰,为客户提供一种自然、流畅、简单、高效的人机多轮交互系统。本方法以服务方式对外提供功能,也可以使用于搭载智能对话系统的任何设备之上,如微信公众号、智能机器人、虚拟机器人等。
图1为构建行业知识图谱的流程图,本方法最大程度的利用已有的结构化数据,可快速构建小而精的行业知识图谱,具体步骤为:
S11)、构建行业词库,利用现有的关系型数据库、行业结构化数据(行业表格等)以及客户给定的行业关键词,确定行业主题、行业属性,以税务行业为例,个税、增值税等税种即为主题,关于该主题的办理地点、办理条件、抵扣优惠条件等均定义为属性,同时将相关主题、属性添加到自定义分词中,并提高其权重;对于客户给定的行业文档和从网上爬取的其他行业文档,使用传统机器学习方法(Jieba分词、TF-IDF等)来计算词权重并筛选出行业词库;
S12)、扩充行业词,使用腾讯公开的基于word2vec训练的800万词向量集,遍历步骤S11确定的行业词库,并使用余弦相似度抽取不含有已有行业词的前10相似词,并依据行业经验进行筛选;
S13)、三元组抽取,使用jieba分词对行业文档进行分词(带有词性),依据行业词和抽取模板进行三元组抽取。本实施例中,抽取模板定义为{主题}{属性}{值},也可写为ABC,A为主题,B为属性,C为值,即A的B是C,以税务为例,“应税大气污染物的应纳税额为污染当量数乘以具体适用税额”,即可抽取出三元组“{应税大气污染物}{应纳税额}{污染当量数乘以具体适用税额}”;
S14)、构建行业知识图谱,将步骤S13抽取的三元组信息经过人工筛选之后导入到图形数据库中(如neo4j),从而形成行业知识图谱。
当系统通过客户问题确定某个主题时,与其相关的主题、属性均被认定为对话状态。
基于行业知识图谱及确定的对话状态,系统在接收到客户问题之后可进行对话状态管理,通过历史状态问答机制可有效避免噪音干扰导致的系统状态清空问题,极大提高交互问答的体验性。如图2所示,历史状态问答机制的步骤如下:
S21)、历史状态保存,对话过程中的所有有效问答均会被保存在历史状态列表中,设定历史状态列表的长度(默认为4),当历史列表长度超过设定值时,最早的状态被丢弃,新状态则插入到最后;
S22)、历史状态恢复,当系统针对客户问题(可能为噪音)无法产生响应时,首先将当前状态保存到临时状态变量中,然后将历史状态列表中的最后状态更新到当前状态,再进行答案匹配;
S23)、历史状态更新,如果系统根据当前的历史状态匹配到答案,则返回响应,然后将该历史状态作为当前对话状态,清空临时状态变量,并更新历史状态列表末尾;如果没有匹配到答案,则将临时状态变量中的当前状态恢复,依据当前主题返回其相关问题列表。
使用上下文省略问答判断机制,可实现基于上下文省略问答的对话模式,同时避免非行业主题问答导致的答非所问问题。上下文省略问答判断机制基于语义分类模型,分类模型由训练数据对预训练模型进行微调得到,如图3所示,具体过程为:
S31)、构建样本集合,使用三元组陈述句、主题、属性和日志抽取(含有较多噪音、无意义的停用词等)的相关省略问答问句作为正样本,使用其他领域抽取的相关主题、属性与行业知识进行混合的问答、日志抽取的非上下文省略问答数据作为负样本;
S32)、将正负样本进行随机组合,构建相同数据的样本集合,并按照9:1的比例将样本集合分为训练集与验证集;
S33)、在预训练模型(xlnet等中文预训练模型)的输出层后增加全连接层和softmax层,经softmax层之后输出是或不是上下文省略问答的概率。
本实施例中,预训练模型的输入为训练数据中的样本,损失函数使用交叉熵,梯度下降使用Adam梯度下降,采用f1和准确率作为综合指标,通过验证集选择最佳语义分类模型。
如图2所示,基于上述的历史状态机制和上下文省略判断机制,系统在接收到客户问题之后进行对话状态管理的过程为:
S41)、状态抽取,将根据行业知识图谱确定的对话状态存入到哈希表中,当系统接收到用户问题时,首先判断此次用户问题距离上个用户问题的时间是否超时,如果超时,则清空当前状态,如果未超时则根据哈希表进行状态抽取,如果未抽取到任何状态,则认为该问题是无效问题,进行噪音统计;如果抽取到状态,则进入下一步;
S42)、上下文省略判断机制,如果根据用户问题在行业知识图谱中无法查找到答案,则认为是上下文状态缺失,经过人工规则和语义分类器进行进行是否是上下文省略问答判断,人工规则是将问题去除停用词对状态进行长度限制的状态包含判断,语义分类器输出上下文省略和非上下文省略问答的概率;
S43)、状态更新,如果系统根据用户问题从行业知识图谱中能够找到答案,则进行当前状态、历史状态的更新;
S44)、历史状态问答机制,根据语义分类器的输出确定是否继续话题,如是上下文省略问答的概率大于设定阈值1,则继续,非上下文省略问答的概率大于设定阈值2,则不继续;如果不继续,则返回问题列表,如果继续,则遍历当前状态和所有的历史状态,如果找到答案,则进行当前状态和历史状态的更新,否则返回依据当前主题确定的相关问题列表;
S45)、状态清空,当前状态清空有两种情况,一种是步骤S41的噪音统计超过设定阈值(可自行配置)时进行状态清空,另一种是本次用户问题与上次用户问题的时间间隔超过一定时间(可自行配置)时进行状态清空。
本发明中将知识图谱中三元组ABC(A的B是C,A定义为主题,B定义为属性)的主题、属性作为对话系统中上下文状态,以此可避免大量的人工标注成本。但是,当前在工程实践中,建立大而全的知识图谱往往需要耗费大量的人力物力成本,对于客户、用户而言得不偿失。即便针对某个具体行业,建立大而全的行业知识图谱也面临诸多困难,因此如何快速创建小而精的行业知识图谱,以满足用户对于常见问题的咨询需求,往往具有更大实际意义。通过数据爬取多个行业的数据源和给定的行业知识,使用传统机器学习方法(Jieba分词、TF-IDF等)来计算词权重并筛选出行业词;对于给定的结构化知识(如excel等),可将相关主题、属性添加到自定义分词中,并提高其权重,确保行业词可被正确分出;最后依据行业词对行业数据抽取三元组,并将其导入图形数据库(neo4j等)中,如此可快速构建行业知识图谱和上下文状态集合。
对于噪音干扰情况下的上下文省略问答无法响应的问题,本发明使用历史状态机制来进行对话状态管理,避免系统接收到多次噪音导致状态清空而无法响应的问题。本发明将最近且有效的问答状态放在链表中进行保存,当用户的上下文省略问题无法找到响应时,则依据此历史状态进行问答。
现实人与人对话往往在一个话题基础之上进行上下文省略问答,但是客户问题也可能是完全另外一个话题的上下文,此时便不应该进行上下文省略问答。如客户询问“个税怎么缴纳”,话题为“个税”,但是客户下一个问题可能为“契税缴纳需要的材料”,话题变更为“契税”,此时便不可使用上下文省略问答理解为“个税缴纳的材料”。由于该图谱数据库为受限的行业数据库,且由于其他话题(上例中的契税)的范围我们没法控制或者根本不在我们的数据库范围内,因此我们使用基于预训练模型来训练用于省略问答判断的分类器,可有效避免问答不一致的问题。
一个自然、流畅、高效的人机多轮交互系统,应该具有较小的数据维护量,可实现更加灵活的问答模式。面向行业的上下文省略问答方法,以行业知识图谱中的话题、属性作为对话状态,通过历史状态问答机制和上下文省略问答判断机制,可实现基于上下文省略问答的对话模式,有效避免噪音干扰,同时极大减少了数据维护量。
以上描述的仅是本发明的基本原理和优选实施例,本领域技术人员根据本发明做出的改进和替换,属于本发明的保护范围。
Claims (8)
1.一种面向行业的上下文省略问答方法,其特征在于:首先依据行业数据中的结构化、非结构化知识,构建行业知识图谱,行业知识图谱中包括三元组信息,系统通过客户问题确定某个主题时,三元组中与客户问题相关的主题、属性均被认定为对话状态;基于行业知识图谱及确定的对话状态,系统在接收到客户问题之后进行对话状态管理,包括通过历史状态问答机制、上下文省略问答判断机制解决噪音干扰、非行业问答带来的系统状态清空、答非所问问题。
2.根据权利要求1所述的面向行业的上下文省略问答方法,其特征在于:构建行业知识图谱的具体步骤为:
S11)、构建行业词库,利用现有的关系型数据库、行业结构化数据以及客户给定的行业关键词,确定行业主题、行业属性,将相关主题、属性添加到自定义分词中,并提高其权重;对于客户给定的行业文档和从网上爬取的其他行业文档,使用传统机器学习方法来计算词权重并筛选出行业词库;
S12)、扩充行业词,使用腾讯公开的基于word2vec训练的800万词向量集,遍历步骤S11确定的行业词库,并使用余弦相似度抽取不含有已有行业词的前10相似词,并依据行业经验进行筛选;
S13)、三元组抽取,使用jieba分词对行业文档进行分词,依据行业词和抽取模板进行三元组抽取,抽取模板定义为ABC,A为主题,B为属性,C为值,即A的B是C;
S14)、构建行业知识图谱,将步骤S13抽取的三元组信息经过人工筛选之后导入到图形数据库中,从而形成行业知识图谱。
3.根据权利要求1所述的面向行业的上下文省略问答方法,其特征在于:历史状态问答机制的步骤为:
S21)、历史状态保存,对话过程中的所有有效问答均会被保存在历史状态列表中,设定历史状态列表的长度,当历史列表长度超过设定值时,最早的状态被丢弃,新状态则插入到最后;
S22)、历史状态恢复,当系统针对客户问题无法产生响应时,首先将当前状态保存到临时状态变量中,然后将历史状态列表中的最后状态更新到当前状态,再进行答案匹配;
S23)、历史状态更新,如果系统根据当前的历史状态匹配到答案,则返回响应,然后将该历史状态作为当前对话状态,清空临时状态变量,并更新历史状态列表末尾;如果没有匹配到答案,则将临时状态变量中的当前状态恢复,返回问题列表。
4.根据权利要求1所述的面向行业的上下文省略问答方法,其特征在于:上下文省略问答判断机制基于语义分类模型,分类模型由训练数据对预训练模型进行微调得到,具体过程为:
S31)、构建样本集合,使用三元组陈述句、主题、属性和日志抽取的相关省略问答问句作为正样本,使用其他领域抽取的相关主题、属性与行业知识进行混合的问答、日志抽取的非上下文省略问答数据作为负样本;
S32)、将正负样本进行随机组合,构建相同数据的样本集合,并按照9:1的比例将样本集合分为训练集与验证集;
S33)、在预训练模型的输出层后增加全连接层和softmax层,经softmax层之后输出是或不是上下文省略问答的概率。
5.根据权利要求4所述的面向行业的上下文省略问答方法,其特征在于:预训练模型的输入为训练数据中的样本,损失函数使用交叉熵,梯度下降使用Adam梯度下降,采用f1和准确率作为综合指标,通过验证集选择最佳语义分类模型。
6.根据权利要求1所述的面向行业的上下文省略问答方法,其特征在于:系统在接收到客户问题之后进行对话状态管理的过程为:
S41)、状态抽取,将根据行业知识图谱确定的对话状态存入到哈希表中,当系统接收到用户问题时,首先判断此次用户问题距离上个用户问题的时间是否超时,如果超时,则清空当前状态,如果未超时则根据哈希表进行状态抽取,如果未抽取到任何状态,则认为该问题是无效问题,进行噪音统计;如果抽取到状态,则进入下一步;
S42)、上下文省略判断机制,如果根据用户问题在行业知识图谱中无法查找到答案,则认为是上下文状态缺失,经过人工规则和语义分类器进行进行是否是上下文省略问答判断,人工规则是将问题去除停用词对状态进行长度限制的状态包含判断,语义分类器输出上下文省略和非上下文省略问答的概率;
S43)、状态更新,如果系统根据用户问题从行业知识图谱中能够找到答案,则进行当前状态、历史状态的更新;
S44)、历史状态问答机制,根据语义分类器的输出确定是否继续话题,如果不继续,则返回问题列表,如果继续,则遍历当前状态和所有的历史状态,如果找到答案,则进行当前状态和历史状态的更新,否则返回依据当前主题确定的相关问题列表;
S45)、状态清空,当前状态清空有两种情况,一种是步骤S41的噪音统计超过设定阈值时进行状态清空,另一种是本次用户问题与上次用户问题的时间间隔超过一定时间时进行状态清空。
7.根据权利要求2所述的面向行业的上下文省略问答方法,其特征在于:所述图形数据库为neo4j。
8.根据权利要求4所述的面向行业的上下文省略问答方法,其特征在于:所述预训练模型为xlnet中文预训练模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010309435.XA CN111428055B (zh) | 2020-04-20 | 2020-04-20 | 一种面向行业的上下文省略问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010309435.XA CN111428055B (zh) | 2020-04-20 | 2020-04-20 | 一种面向行业的上下文省略问答方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111428055A true CN111428055A (zh) | 2020-07-17 |
CN111428055B CN111428055B (zh) | 2023-11-10 |
Family
ID=71554078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010309435.XA Active CN111428055B (zh) | 2020-04-20 | 2020-04-20 | 一种面向行业的上下文省略问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111428055B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100404A (zh) * | 2020-09-16 | 2020-12-18 | 浙江大学 | 基于结构化上下文信息的知识图谱预训练方法 |
CN112507139A (zh) * | 2020-12-28 | 2021-03-16 | 深圳力维智联技术有限公司 | 基于知识图谱的问答方法、系统、设备及存储介质 |
CN113626566A (zh) * | 2021-07-06 | 2021-11-09 | 暨南大学 | 一种基于合成数据的知识对话跨域学习方法 |
CN113836319A (zh) * | 2021-09-30 | 2021-12-24 | 福州大学 | 融合实体邻居的知识补全方法及系统 |
JP7232485B1 (ja) | 2022-07-01 | 2023-03-03 | 株式会社ジョインポイントテック | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
WO2023018379A3 (zh) * | 2021-08-12 | 2023-04-06 | 脸萌有限公司 | 知识图谱构建方法、装置、存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108681538A (zh) * | 2018-05-28 | 2018-10-19 | 哈尔滨工业大学 | 一种基于深度学习的动词短语省略消解方法 |
CN109906460A (zh) * | 2016-11-04 | 2019-06-18 | 易享信息技术有限公司 | 用于问答的动态协同注意力网络 |
CN109933654A (zh) * | 2019-01-30 | 2019-06-25 | 神思电子技术股份有限公司 | 一种基于状态树的对话管理方法 |
CN110377715A (zh) * | 2019-07-23 | 2019-10-25 | 天津汇智星源信息技术有限公司 | 基于法律知识图谱的推理式精准智能问答方法 |
CN110400564A (zh) * | 2019-08-21 | 2019-11-01 | 科大国创软件股份有限公司 | 一种基于栈的聊天机器人对话管理方法 |
-
2020
- 2020-04-20 CN CN202010309435.XA patent/CN111428055B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109906460A (zh) * | 2016-11-04 | 2019-06-18 | 易享信息技术有限公司 | 用于问答的动态协同注意力网络 |
CN108681538A (zh) * | 2018-05-28 | 2018-10-19 | 哈尔滨工业大学 | 一种基于深度学习的动词短语省略消解方法 |
CN109933654A (zh) * | 2019-01-30 | 2019-06-25 | 神思电子技术股份有限公司 | 一种基于状态树的对话管理方法 |
CN110377715A (zh) * | 2019-07-23 | 2019-10-25 | 天津汇智星源信息技术有限公司 | 基于法律知识图谱的推理式精准智能问答方法 |
CN110400564A (zh) * | 2019-08-21 | 2019-11-01 | 科大国创软件股份有限公司 | 一种基于栈的聊天机器人对话管理方法 |
Non-Patent Citations (1)
Title |
---|
ZHOU MING: "Progress in Neural NLP: Modeling, Learning, and Reasoning" * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100404A (zh) * | 2020-09-16 | 2020-12-18 | 浙江大学 | 基于结构化上下文信息的知识图谱预训练方法 |
CN112507139A (zh) * | 2020-12-28 | 2021-03-16 | 深圳力维智联技术有限公司 | 基于知识图谱的问答方法、系统、设备及存储介质 |
CN112507139B (zh) * | 2020-12-28 | 2024-03-12 | 深圳力维智联技术有限公司 | 基于知识图谱的问答方法、系统、设备及存储介质 |
CN113626566A (zh) * | 2021-07-06 | 2021-11-09 | 暨南大学 | 一种基于合成数据的知识对话跨域学习方法 |
CN113626566B (zh) * | 2021-07-06 | 2023-07-18 | 暨南大学 | 一种基于合成数据的知识对话跨域学习方法 |
WO2023018379A3 (zh) * | 2021-08-12 | 2023-04-06 | 脸萌有限公司 | 知识图谱构建方法、装置、存储介质及电子设备 |
CN113836319A (zh) * | 2021-09-30 | 2021-12-24 | 福州大学 | 融合实体邻居的知识补全方法及系统 |
CN113836319B (zh) * | 2021-09-30 | 2023-08-01 | 福州大学 | 融合实体邻居的知识补全方法及系统 |
JP7232485B1 (ja) | 2022-07-01 | 2023-03-03 | 株式会社ジョインポイントテック | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
JP2024006380A (ja) * | 2022-07-01 | 2024-01-17 | 株式会社ジョインポイントテック | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN111428055B (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428055A (zh) | 一种面向行业的上下文省略问答方法 | |
US11734329B2 (en) | System and method for text categorization and sentiment analysis | |
US10387410B2 (en) | Method and system of classification in a natural language user interface | |
US10332012B2 (en) | Knowledge driven solution inference | |
CN107315778A (zh) | 一种基于大数据情感分析的自然语言舆情分析方法 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
US20020156817A1 (en) | System and method for extracting information | |
Suleiman et al. | SMS spam detection using H2O framework | |
CN111125334A (zh) | 一种基于预训练的搜索问答系统 | |
US11258902B2 (en) | Partial automation of text chat conversations | |
JP2001134575A (ja) | 頻出パターン検出方法およびシステム | |
CN112380868B (zh) | 一种基于事件三元组的信访目的多分类装置及其方法 | |
CA3131157A1 (en) | System and method for text categorization and sentiment analysis | |
CN111460158A (zh) | 一种基于情感分析的微博话题公众情感预测方法 | |
CN106682224B (zh) | 一种数据录入方法、系统及数据库 | |
CN111522948A (zh) | 一种智能处理公文的方法及其系统 | |
CN101329668A (zh) | 一种信息规则生成方法及装置、信息类型判断方法及系统 | |
CN116542676A (zh) | 一种基于大数据分析的智能客服系统及其方法 | |
CN112506405B (zh) | 一种基于互联网监管领域的人工智能语音大屏指挥方法 | |
CN112650838B (zh) | 一种基于历史案件大数据的智能问答方法及系统 | |
Barse et al. | Cyber-Trolling Detection System | |
CN113657118A (zh) | 基于通话文本的语义分析方法、装置和系统 | |
CN112597291A (zh) | 一种智能问答的实现方法、装置及设备 | |
Ahed et al. | An enhanced twitter corpus for the classification of Arabic speech acts | |
Dey et al. | Customer sentiment analysis by tweet mining: Unigram dependency approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |