CN113255374B - 问答管理方法及系统 - Google Patents
问答管理方法及系统 Download PDFInfo
- Publication number
- CN113255374B CN113255374B CN202110628868.6A CN202110628868A CN113255374B CN 113255374 B CN113255374 B CN 113255374B CN 202110628868 A CN202110628868 A CN 202110628868A CN 113255374 B CN113255374 B CN 113255374B
- Authority
- CN
- China
- Prior art keywords
- information
- question
- data
- attribute
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 title claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012360 testing method Methods 0.000 claims description 36
- 230000014509 gene expression Effects 0.000 claims description 33
- 238000000605 extraction Methods 0.000 claims description 12
- 238000004519 manufacturing process Methods 0.000 claims description 10
- 244000035744 Hura crepitans Species 0.000 claims description 8
- 238000013145 classification model Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 abstract description 20
- 230000004044 response Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000227 grinding Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了问答管理方法及系统,方法包括以下步骤:构建并编辑各个领域的知识图谱;接收用户的提问信息,对提问信息进行解析,得到提问解析信息;将提问解析信息输入至对应的知识图谱中,接收知识图谱返回的回答信息。该方法能够更好地针对结构化数据进行运营。运用知识图谱的数据结构,将结构化数据更合理地存储到对话系统,并因为灵活地存储方式,使更多种询问匹配方式成为可能。
Description
技术领域
本发明属于技术领域,具体涉及问答管理方法及系统。
背景技术
一般的问答系统使用的是一问多答的配套存储方式、以及以高相似度为标准的匹配方式,这种配套存储和匹配方式具有低学习成本、低运营成本、匹配算法成熟等优点。
但是随着智能问答场景的丰富,这种配套存储和匹配方式遇到了瓶颈。对于具有结构化的数据,首先,这种存储方式会产生大量的数据冗余,且在进行语料扩写时,会产生语料数据不均衡等问题,大大加重了运营的负担,影响了算法的准确率。其次,这种匹配方式也无法满足越来越丰富的用户问法,不支持反查、对比、运算等复杂问法。
发明内容
针对现有技术中的缺陷,本发明提供了一种问答管理方法及系统,可以更好地针对结构化的数据进行运营。
第一方面,一种问答管理方法,包括以下步骤:
构建并编辑各个领域的知识图谱;
接收用户的提问信息,对提问信息进行解析,得到提问解析信息;
将提问解析信息输入至对应的知识图谱中,接收知识图谱返回的回答信息。
优选地,所述构建并编辑各个领域的知识图谱具体包括:
构建各个领域的知识图谱;
分析各个领域数据源的数据格式,根据数据格式将数据源转换成结构化数据;
将结构化数据填入对应的知识图谱中;
所述结构化数据包含层级结构、表格以及长文本段落。
优选地,所述根据数据格式将数据源转换成结构化数据具体包括:
通过预设的规则引擎将所述层级结构和表格转换成主谓宾数据;
对所述长文本段落进行三元组抽取,从抽取结果中识别出主谓宾数据,将所有主谓宾数据保存到对应领域的知识图谱中;
识别预设词库的同义词,将该同义词存储至对应知识图谱的专属词库中,并将该同义词与知识图谱的实体或属性关联;
利用预设的语料库,将各个领域的知识图谱训练成分类模型,所述分类模型用于预测用户查询的属性。
优选地,所述接收用户的提问信息,对提问信息进行解析,得到提问解析信息,具体包括:
对提问信息进行分词、句法树、依存句法的分析,得到分析结果;
通过预设的词典解析器提取提问信息中的实体、属性或属性值;所述词典解析器根据关联的实体、属性和同义词构成;
根据分析结果识别提问信息中实体之间的约束关系;
根据分析结果和所述规则引擎,将提问信息中识别到的实体、属性或属性值转换为语义逻辑表达式。
优选地,在所述转换为语义逻辑表达式之后,还包括:
当得到的语义逻辑表达式需要继承上下文时,将继承的上下文与语义逻辑表达式进行合并,得到新的语义逻辑表达式。
优选地,所述将提问解析信息输入至对应的知识图谱中,接收知识图谱返回的回答信息具体包括:
解析语义逻辑表达式,将每个约束关系转换为查询条件,召回符合查询条件的结果;
识别语义逻辑表达式的用户意图,并生成所述回答信息。
优选地,在所述识别语义逻辑表达式的用户意图之后,生成所述回答信息之前,还包括:
当所述提问信息模糊不清或知识图谱返回的结果数量大于预设值时,生成包含反问信息的回答信息。
优选地,在所述构建好知识图谱之后,还包括:
将用户录入的测试题存储至对应知识图谱的测试集中,测试题包括提问信息、期望回复和期望意图;
当接收到开始测试指令时,自动将测试集中测试题的提问信息输入到对应的知识图谱中,将知识图谱返回的数据与期望回复、期望意图进行比较,判断是否相等;若不相等,则标记该测试题;
根据测试数据更新至所述专属词库中。
优选地,所述专属词库分为沙箱环境与生产环境,沙箱环境和生产环境的数据在物理上相互隔离;
当接收到用户发起的同步指令时,将沙箱环境的数据同步到生产环境中。
第二方面,一种问答管理系统,包括
构建单元:用于构建并编辑各个领域的知识图谱;
解析单元:用于接收用户的提问信息,对提问信息进行解析,得到提问解析信息;
问答单元:用于将提问解析信息输入至对应的知识图谱中,接收知识图谱返回的回答信息。
由上述技术方案可知,本发明提供的问答管理方法及系统,能够更好地针对结构化数据进行运营。运用知识图谱的数据结构,将结构化数据更合理地存储到对话系统,并因为灵活地存储方式,使更多种询问匹配方式成为可能。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明实施例一提供的问答管理方法的流程图。
图2为本发明实施例一提供的知识图谱构建的流程图。
图3为本发明实施例三提供的问答管理系统的模块框图。
实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
实施例
一种问答管理方法,参见图1,包括以下步骤:
S1:构建并编辑各个领域的知识图谱,参见图2,步骤S1具体包括:
S11:构建各个领域的知识图谱;
S12:分析各个领域数据源的数据格式,根据数据格式将数据源转换成结构化数据;其中所述结构化数据包含层级结构、表格以及长文本段落。
S13:将结构化数据填入对应的知识图谱中;
步骤S12具体包括:
1)数据导入,分析各个领域数据源的数据格式,根据数据格式将数据源转换成带层级结构、嵌套的结构化数据。结构化数据包含文章各个标题(即层级结构)、表格以及长文本段落。具体地,例如当接收到Word、Pdf或Excel文件时,先进行格式解析,根据标题、序号、段落等特征信息,转换成有层级结构的结构化数据,用嵌套的Json对象进行维护。
2)通过预设的规则引擎对层级结构和表格数据进行初步的处理,转换成对应的主谓宾数据;具体地,例如根据自定义规则,将每个层级对应的标题转换成实体或属性。或者是通过各种策略(例如比较一整列值的相似度),识别子表格中的哪些列或行是表头,将表头转换成属性,剩余的部分转换成实体及其对应属性值。
3)将结构化数据中所有长文本段落进行三元组抽取,从抽取结果中识别出主谓宾数据,将所有主谓宾数据保存到对应领域的知识图谱中;具体地,例如将子表格转换成知识图谱三元组,连同上述层级结构转换得到的实体和属性,一同保存到对应的知识图谱当中。
4)识别内置的词库和用户新增的词库的同义词,将同义词和知识图谱的实体属性关联起来,并存储到知识图谱的专属词库中,用于后续推理;
5)利用内置的语料库和用户新增的语料,将各个领域的知识图谱训练成一个查询属性的分类模型,用于推理时预测用户是否查询某个属性,在该步骤中,每个属性作为一个分类。具体地,例如识别用户上传的excel文件中的语料,并与对应的属性进行关联,调用机器学习平台相关算法的模型训练接口,将知识图谱训练成分类模型。
S2:接收用户的提问信息,对提问信息进行解析,得到提问解析信息,具体包括:
1)该方法首先预先加载有词典解析器、模型ID和实体关系等图谱数据。然后可以通过请求对应领域的知识图谱ID,找到对应的领域图谱数据,包括词库、模型、图谱等。
2)对提问信息进行特征提取、分词、句法树、依存句法等分析,得到分析结果。具体地,例如通过RESTful接口调用自研的NLU服务,对提问信息进行分词、句法树、依存句法的分析,将其缓存起来。
3)调用实体、属性的词典解析器,提取提问信息中的实体和属性,并且保存对应位置。所述词典解析器根据关联的实体、属性和同义词构成;具体地,例如通过词典构建完全匹配解析器、拼音模糊匹配解析器、分词模糊匹配解析器,进行提问信息中实体和属性的提取,要求提取结果要符合之前的分词结果,允许提取到的一个实体或属性跨越连续的几个分词,如“不能说的秘密的导演”,提取到实体为“不能说的秘密”分词结果为“不能/说/的/秘密/的/导演”,由于“不能说的秘密”完整的包含了“不能/说/的/秘密”几个词,因此它也是合法抽取到的实体。
4)提取提问信息中的属性值。具体地,例如调用自研NER服务,抽取数值、时间信息,通过图谱中的属性值,构建字符串类型的值的完全匹配解析器,进行属性值的提取。
5)根据分析结果识别提问信息中实体之间的约束关系。具体地,例如根据分析结果判断实体之间是约束关系还是平级关系,属性是并列还是连续推理,属性和属性值是否要合并成一个约束等,进行约束识别。如对于“A的年龄和身高”要查询的是A的年龄和身高两个属性,而“A的妻子的身高”,则是先要查询A的妻子,再查询她的身高。
6)调用属性预测模型,预测出句子中的属性。具体地,例如对于体温信息中尚未识别的词组和剩余句子,可以先将已识别的实体替换成占位符,然后调用预先训练好的属性预测模型预测句子的属性,比如“手机多少钱”,先将“手机”实体归一成占位符,通过“<e>多少钱”预测属性,这样能够进一步提高预测属性的准确率。
7)将每个实体、属性、属性值转换成逻辑单元,根据分析结果和所述规则引擎,将所有的逻辑单元转换成语义逻辑表达式。具体地,将实体、实体组、属性、属性组、属性值约束、时间范围约束等,根据规则引擎转换成系统设定的规范语义逻辑表达式,可用Json表示。
8)判断语义逻辑表达式是否需要继承上下文,如需要,则继承上下文后合并成新的语义逻辑表达式。具体地,例如根据用户意图、语义逻辑表达式是否完整,判断提问信息是否需要继承上下文,如需要继承上下文,根据规则引擎,将当前语义逻辑表达式以及存储在Redis的上文与语义逻辑表达式进行合并,生成新的语义逻辑表达式。例如如果提问信息中只有属性,需要继承上文的实体,如果提问信息中只有实体,则需要继承上文的属性。上下文通过会话ID进行区分。
S3:将提问解析信息输入至对应的知识图谱中,接收知识图谱返回的回答信息,具体包括:
1)解析语义逻辑表达式的实体属性值以及对应的词性,将每个约束转换为查询条件,召回符合条件的结果。具体地,例如将语义逻辑表达式进行推理,从Elasticsearch和内存预加载的数据中,召回符合查询条件的数据,对于多约束的情况,对不同约束的查询结果取并集或交集。
2)根据语义逻辑表达式中识别出来的用户意图,如查询实体、查询属性、断言、聚合运算等,生成对应的回答信息,回答信息中还包含查询条件。具体地,例如对于查询实体的情况,需要根据语义逻辑表达式递归生成查询条件话术。对于查询属性的情况,需要在生成回复之前,附带关联的属性值。对于断言的情况,需要额外回复用户的断言是否正确。对于聚合运算的情况,需要额外回复聚合运算结果是多少。
3)判断用户问是否模糊不清或查询结果是否过多,是否需要触发反问让用户澄清问题。具体地,反问的触发具有多种策略。比如当提问信息中抽取到的实体或属性为模糊匹配、且知识图谱找到多个结果时,需要进行反问。当用户要查询的是某个实体的下位词、但知识图谱返回的结果过多时,需要进行反问。比如用户问“这部打印机的墨水”,“墨水”对应的属性可能为“墨水型号”或“墨水类型”,此处可以反问用户询问的是具体哪个属性。该方法在进行反问时,还可以根据知识图谱返回的结果,反问用户要问的是否为最具有区分度的属性或实体名,覆盖原本的回复内容。例如对于“这部打印机的墨水”,“墨水”对应的属性可能为“墨水型号”或“墨水类型”,那么对用户进行反问时,可以问“请问您询问的是墨水型号还是墨水类型呢?”。
4)将语义逻辑表达式和知识图谱返回的结果保存到上下文中,用于后续对话。
综上所述,该方法能够更好地针对结构化数据进行运营。运用知识图谱的数据结构,将结构化数据更合理地存储到对话系统,并因为灵活地存储方式,使更多种询问匹配方式成为可能。
实施例
实施例二在实施例一的基础上,还增加限定了以下内容:
该方法在构建好知识图谱后,还对知识图谱进行测试,测试方法包括:
1)用户预先编辑好测试题,测试题包括每一条测试题的提问信息、期望回复、期望意图。所有测试题都存储到对应领域知识图谱的测试集中。具体地,该方法可以根据知识图谱ID找到对应的知识图谱。
2)触发测试时,自动将测试集中测试题的提问信息输入到对应的知识图谱中,将知识图谱返回的数据与期望回复、期望意图进行比较,判断是否相等;若不相等,则标记该测试题,将测试结果保存到专属词库。具体地,先读取测试集,使用同一个会话ID串行调用知识图谱进行推理。在进行结果比较时,除了知识图谱返回的数据外,还需要获取实体及属性识别信息、用户意图以及语义逻辑表达式,如果返回的数据与期望结果不相符,则标记对应数据。
3)测试完成后,根据测试数据生成测试报告,用户可以下载测试报告。具体地,该方法完成测试后,还可以将测试结果保存到专属词库中。用户在下载测试报告时,可以根据知识图谱ID读取专属词库,获取最近一次测试的所有测试题,生成excel,通过http接口供用户下载。
另外,本实施例提供的方法还具有变更审核的功能。由于知识图谱相关的所有数据都分布在沙箱环境与生产环境,数据在沙箱环境与生产环境之间是物理隔离的,保证生产环境数据的稳定。所以只有当用户触发同步时,当前沙箱环境有效数据才会全量同步到生产环境中。
本发明实施例所提供的方法,为简要描述,实施例部分未提及之处,可参考前述实施例中相应内容。
实施例
一种问答管理系统,参见图3,包括
构建单元:用于构建并编辑各个领域的知识图谱;
解析单元:用于接收用户的提问信息,对提问信息进行解析,得到提问解析信息;
问答单元:用于将提问解析信息输入至对应的知识图谱中,接收知识图谱返回的回答信息。
在实施例中,所揭露的系统,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例所提供的系统,为简要描述,实施例部分未提及之处,可参考前述实施例中相应内容。
实施例
一种系统,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述的方法。
应当理解,在本发明实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
本发明实施例所提供的系统,为简要描述,实施例部分未提及之处,可参考前述实施例中相应内容。
实施例
一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述的方法。
所述计算机可读存储介质可以是前述任一实施例所述的系统的内部存储单元,例如系统的硬盘或内存。所述计算机可读存储介质也可以是所述系统的外部存储设备,例如所述系统上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述系统的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述系统所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本发明实施例所提供的介质,为简要描述,实施例部分未提及之处,可参考前述实施例中相应内容。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (7)
1.一种问答管理方法,其特征在于,包括以下步骤:
构建并编辑各个领域的知识图谱;
接收用户的提问信息,对提问信息进行解析,得到提问解析信息;
将提问解析信息输入至对应的知识图谱中,接收知识图谱返回的回答信息;
所述接收用户的提问信息,对提问信息进行解析,得到提问解析信息,具体包括:
对提问信息进行分词、句法树、依存句法的分析,得到分析结果;
通过预设的词典解析器提取提问信息中的实体、属性或属性值;所述词典解析器根据关联的实体、属性和同义词构成;
根据分析结果识别提问信息中实体之间的约束关系,具体包括根据分析结果判断实体之间是约束关系还是平级关系,属性是并列还是连续推理,属性和属性值是否合并成一个约束;
根据分析结果和规则引擎,将提问信息中识别到的实体、属性或属性值转换为语义逻辑表达式,具体包括将实体、实体组、属性、属性组、属性值约束、时间范围约束,根据规则引擎转换成语义逻辑表达式;
所述构建并编辑各个领域的知识图谱具体包括:
构建各个领域的知识图谱;
分析各个领域数据源的数据格式,根据数据格式将数据源转换成结构化数据;
将结构化数据填入对应的知识图谱中;
所述结构化数据包含层级结构、表格以及长文本段落;
所述根据数据格式将数据源转换成结构化数据具体包括:
通过预设的规则引擎将所述层级结构和表格转换成主谓宾数据,具体包括根据自定义规则将每个层级对应的标题转换成实体或属性;或者是通过策略识别子表格中的表头,将表头转换成属性,剩余的部分转换成实体及其对应属性值;
对所述长文本段落进行三元组抽取,从抽取结果中识别出主谓宾数据,将所有主谓宾数据保存到对应领域的知识图谱中;
识别预设词库的同义词,将该同义词存储至对应知识图谱的专属词库中,并将该同义词与知识图谱的实体或属性关联;
利用预设的语料库,将各个领域的知识图谱训练成分类模型,所述分类模型用于预测用户查询的属性。
2.根据权利要求1所述问答管理方法,其特征在于,在所述转换为语义逻辑表达式之后,还包括:
当得到的语义逻辑表达式需要继承上下文时,将继承的上下文与语义逻辑表达式进行合并,得到新的语义逻辑表达式。
3.根据权利要求1所述问答管理方法,其特征在于,所述将提问解析信息输入至对应的知识图谱中,接收知识图谱返回的回答信息具体包括:
解析语义逻辑表达式,将每个约束关系转换为查询条件,召回符合查询条件的结果;
识别语义逻辑表达式的用户意图,并生成所述回答信息。
4.根据权利要求3所述问答管理方法,其特征在于,在所述识别语义逻辑表达式的用户意图之后,生成所述回答信息之前,还包括:
当所述提问信息模糊不清或知识图谱返回的结果数量大于预设值时,生成包含反问信息的回答信息。
5.根据权利要求1所述问答管理方法,其特征在于,在所述构建好知识图谱之后,还包括:
将用户录入的测试题存储至对应知识图谱的测试集中,测试题包括提问信息、期望回复和期望意图;
当接收到开始测试指令时,自动将测试集中测试题的提问信息输入到对应的知识图谱中,将知识图谱返回的数据与期望回复、期望意图进行比较,判断是否相等;若不相等,则标记该测试题;
根据测试数据更新至所述专属词库中。
6.根据权利要求1所述问答管理方法,其特征在于,
所述专属词库分为沙箱环境与生产环境,沙箱环境和生产环境的数据在物理上相互隔离;
当接收到用户发起的同步指令时,将沙箱环境的数据同步到生产环境中。
7.一种问答管理系统,其特征在于,包括
构建单元:用于构建并编辑各个领域的知识图谱;
解析单元:用于接收用户的提问信息,对提问信息进行解析,得到提问解析信息;
问答单元:用于将提问解析信息输入至对应的知识图谱中,接收知识图谱返回的回答信息;
解析单元具体用于:
对提问信息进行分词、句法树、依存句法的分析,得到分析结果;
通过预设的词典解析器提取提问信息中的实体、属性或属性值;所述词典解析器根据关联的实体、属性和同义词构成;
根据分析结果识别提问信息中实体之间的约束关系,具体包括根据分析结果判断实体之间是约束关系还是平级关系,属性是并列还是连续推理,属性和属性值是否合并成一个约束;
根据分析结果和规则引擎,将提问信息中识别到的实体、属性或属性值转换为语义逻辑表达式,具体包括将实体、实体组、属性、属性组、属性值约束、时间范围约束,根据规则引擎转换成语义逻辑表达式;
所述构建并编辑各个领域的知识图谱具体包括:
构建各个领域的知识图谱;
分析各个领域数据源的数据格式,根据数据格式将数据源转换成结构化数据;
将结构化数据填入对应的知识图谱中;
所述结构化数据包含层级结构、表格以及长文本段落;
所述根据数据格式将数据源转换成结构化数据具体包括:
通过预设的规则引擎将所述层级结构和表格转换成主谓宾数据,具体包括根据自定义规则将每个层级对应的标题转换成实体或属性;或者是通过策略识别子表格中的表头,将表头转换成属性,剩余的部分转换成实体及其对应属性值;
对所述长文本段落进行三元组抽取,从抽取结果中识别出主谓宾数据,将所有主谓宾数据保存到对应领域的知识图谱中;
识别预设词库的同义词,将该同义词存储至对应知识图谱的专属词库中,并将该同义词与知识图谱的实体或属性关联;
利用预设的语料库,将各个领域的知识图谱训练成分类模型,所述分类模型用于预测用户查询的属性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110628868.6A CN113255374B (zh) | 2021-06-02 | 2021-06-02 | 问答管理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110628868.6A CN113255374B (zh) | 2021-06-02 | 2021-06-02 | 问答管理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255374A CN113255374A (zh) | 2021-08-13 |
CN113255374B true CN113255374B (zh) | 2024-06-07 |
Family
ID=77186634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110628868.6A Active CN113255374B (zh) | 2021-06-02 | 2021-06-02 | 问答管理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255374B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114265925A (zh) * | 2021-12-24 | 2022-04-01 | 科大讯飞(苏州)科技有限公司 | 问答方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002215661A (ja) * | 2001-01-12 | 2002-08-02 | Sakae Takeuchi | 自然言語インターフェイス知識応答システム |
CN105868313A (zh) * | 2016-03-25 | 2016-08-17 | 浙江大学 | 一种基于模板匹配技术的知识图谱问答系统及方法 |
CN107247736A (zh) * | 2017-05-08 | 2017-10-13 | 广州索答信息科技有限公司 | 一种基于知识图谱的厨房领域问答方法及系统 |
CN109657238A (zh) * | 2018-12-10 | 2019-04-19 | 宁波深擎信息科技有限公司 | 基于知识图谱的上下文识别补全方法、系统、终端及介质 |
CN109684448A (zh) * | 2018-12-17 | 2019-04-26 | 北京北大软件工程股份有限公司 | 一种智能问答方法 |
WO2021063089A1 (zh) * | 2019-09-30 | 2021-04-08 | 华为技术有限公司 | 规则匹配方法、规则匹配装置、存储介质及电子设备 |
-
2021
- 2021-06-02 CN CN202110628868.6A patent/CN113255374B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002215661A (ja) * | 2001-01-12 | 2002-08-02 | Sakae Takeuchi | 自然言語インターフェイス知識応答システム |
CN105868313A (zh) * | 2016-03-25 | 2016-08-17 | 浙江大学 | 一种基于模板匹配技术的知识图谱问答系统及方法 |
CN107247736A (zh) * | 2017-05-08 | 2017-10-13 | 广州索答信息科技有限公司 | 一种基于知识图谱的厨房领域问答方法及系统 |
CN109657238A (zh) * | 2018-12-10 | 2019-04-19 | 宁波深擎信息科技有限公司 | 基于知识图谱的上下文识别补全方法、系统、终端及介质 |
CN109684448A (zh) * | 2018-12-17 | 2019-04-26 | 北京北大软件工程股份有限公司 | 一种智能问答方法 |
WO2021063089A1 (zh) * | 2019-09-30 | 2021-04-08 | 华为技术有限公司 | 规则匹配方法、规则匹配装置、存储介质及电子设备 |
Non-Patent Citations (3)
Title |
---|
Nelson Ruwa ; Qirong Mao ; Liangjun Wang ; Ming Dong.Affective Visual Question Answering Network.IEEE.2018,全文. * |
中文电子病历文本中的时间识别算法研究;孙健;高大启;刘珉;高炬;阮彤;;山西大学学报(自然科学版)(第01期);全文 * |
面向水利信息资源的智能问答系统构建与应用;张紫璇;陆佳民;姜笑;冯钧;;计算机与现代化(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113255374A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304375B (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN112214593B (zh) | 问答处理方法、装置、电子设备及存储介质 | |
US20230039496A1 (en) | Question-and-answer processing method, electronic device and computer readable medium | |
CN112417846B (zh) | 文本自动化生成方法、装置、电子设备及存储介质 | |
CN109471889B (zh) | 报表加速方法、系统、计算机设备和存储介质 | |
CN111104803B (zh) | 语义理解处理方法、装置、设备及可读存储介质 | |
CA2250694A1 (en) | A system, software and method for locating information in a collection of text-based information sources | |
CN109840255A (zh) | 答复文本生成方法、装置、设备及存储介质 | |
JP2022115815A (ja) | 拡張プログラミング言語コーパスに基づく意味コード検索 | |
CN100429648C (zh) | 一种文本自动分块的方法、分块器和文本到语言合成系统 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN110597844A (zh) | 异构数据库数据统一访问方法及相关设备 | |
CN115827819A (zh) | 一种智能问答处理方法、装置、电子设备及存储介质 | |
KR102600703B1 (ko) | 법령 분야 질의 응답 방법 및 장치 | |
CN115422372A (zh) | 一种基于软件测试的知识图谱构建方法和系统 | |
CN113255374B (zh) | 问答管理方法及系统 | |
CN111401034B (zh) | 文本的语义分析方法、语义分析装置及终端 | |
CN117131176A (zh) | 交互式问答处理方法、装置、电子设备和存储介质 | |
CN112416754B (zh) | 一种模型评测方法、终端、系统及存储介质 | |
CN114896269A (zh) | 结构化查询语句检测方法、装置、电子设备及存储介质 | |
CN110414006B (zh) | 文本的主题标注方法、装置、电子设备及存储介质 | |
CN112579774A (zh) | 模型训练方法、模型训练装置及终端设备 | |
CN113704422A (zh) | 一种文本推荐方法、装置、计算机设备和存储介质 | |
CN118093838B (zh) | 一种大语言模型提示词生成方法、系统、终端设备及介质 | |
CN117992596B (zh) | 问答模型的优化方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |