CN117540004B - 基于知识图谱和用户行为的工业领域智能问答方法及系统 - Google Patents
基于知识图谱和用户行为的工业领域智能问答方法及系统 Download PDFInfo
- Publication number
- CN117540004B CN117540004B CN202410037259.7A CN202410037259A CN117540004B CN 117540004 B CN117540004 B CN 117540004B CN 202410037259 A CN202410037259 A CN 202410037259A CN 117540004 B CN117540004 B CN 117540004B
- Authority
- CN
- China
- Prior art keywords
- user
- question
- data
- text data
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000006399 behavior Effects 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims description 31
- 238000009826 distribution Methods 0.000 claims description 16
- 238000012512 characterization method Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 238000013145 classification model Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000007637 random forest analysis Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000011160 research Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 description 7
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 208000031361 Hiccup Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于知识图谱和用户行为的工业领域智能问答方法及系统,该方法包括:接收用户输入的问题;基于用户问题和用户在平台上的历史操作行为,对用户问题进行决策性分类,获取用户问题所属问题类别;基于用户问题在数据库中搜索相似问答数据,基于相似问答数据、用户问题、用户问题所属问题类别输入分流模型匹配一个用于处理用户问题的专家模型,基于用户输入的问题调用预先构建的知识图谱增强用户问题的语义;基于语义增强后的用户问题输入匹配的专家模型,获取用户问题的回答数据。本发明有效提高了工业品领域应答系统的答复准确性和高效性。
Description
技术领域
本发明涉及人工智能的智能问答技术领域,具体涉及一种基于知识图谱和用户行为的工业领域智能问答方法及系统。
背景技术
随着数字化工业的持续推进,工业品数据在各类工业应用和项目中扮演着日益重要的角色。此类数据涵盖了广泛且复杂的领域,包括产品说明、技术规范以及供应链信息等,其中充满了技术术语、操作流程以及商业信息。因此,对于工业领域的从业人员来说,如何高效地获取、理解和利用这些数据无疑是一项重大挑战。
此外,当面对工业设备、生产线或系统出现的问题时,往往需要分析并查询大量的工业文档以寻找合适的解决方案。虽然在此过程中,专家的知识和经验具有极高的价值,但依赖这些传统方法的成本高昂,且效率并不理想。
为了应对上述挑战,市场上已经出现了一些基于计算机技术的辅助工具和系统。然而,这些现有的解决方案大多数还无法有效地处理数量庞大、种类繁多且持续变化的工业数据。因此,市场上对于能够有效处理工业数据的辅助工具和系统的需求仍然迫切。
发明内容
针对上述现有技术存在的问题,本发明提供了一种基于知识图谱和用户行为的工业领域智能问答方法及系统,利用知识图谱、随机森林、向量检索、分流模型、专家模型技术,构建了专门为工业品领域设计的语言模型,有效提高工业品领域问题解决的效率。该技术方案如下:
第一方面,提供了一种基于知识图谱和用户行为的工业领域智能问答方法,包括如下步骤:
步骤1,接收用户输入的问题;
步骤2,基于用户问题和用户在平台上的历史操作行为,对用户问题进行决策性分类,获取用户问题所属问题类别;
步骤3,基于用户问题在数据库中搜索相似问答数据,基于相似问答数据、用户问题、用户问题所属问题类别输入分流模型,所述分流模型用于基于输入数据通过分析在多个已有的专家模型中匹配一个用于处理用户问题的专家模型,每个所述专家模型用于处理一类问题类型的用户问题;
步骤4,基于用户输入的问题调用预先构建的知识图谱增强用户问题的语义;
步骤5,基于语义增强后的用户问题输入步骤3匹配的专家模型,获取用户问题的回答数据。
在一些实施方式中,所述用户在平台上的历史操作行为,包括但不限于用户在平台上的点击、浏览、项目参与行为;
所述问题类别包括但不限于:询问招投标法律、生成招投标文件、检测招投标文件、购买工业品、询问供应商。
在一些实施方式中,所述对用户问题进行决策性分类,采用训练完成的用户问题分类模型实现,所述用户问题分类模型基于用户问题和用户在平台上的历史操作行为作为数据源、经过训练随机森林模型得到。
在一些实施方式中,所述数据库中包括工业品相关知识数据和平台累积的客服对话数据;
所述工业品相关知识数据包括:平台积累的工业知识、技术文件、研究报告和与工业相关的标书、合同模板、技术规范和商业条款;
所述预先构建的知识图谱,包括:基于工业品相关知识数据作为数据源,经过数据预处理和结构化处理后,基于实体识别、关系提取技术构建知识图谱。
在一些实施方式中,上述基于知识图谱和用户行为的工业领域智能问答方法,包括:对所述客服对话数据进行预处理和结构化处理,该处理步骤包括:
基于语音转文字算法,获取客服对话对应的对话文本;
基于大语言模型将语音转文字算法得到的对话文本进行优化、并转换为统一的问答格式结构化数据。
在一些实施方式中,所述基于大语言模型将语音转文字算法得到的对话文本进行优化、并转换为统一的问答格式结构化数据,包括:
根据对话文本进行预处理,包括分词、去除停用词;
根据对话文本中的文字内容,生成候选问题;
基于候选问题和对话文本中的句子进行关联性匹配,获取确定问题;
基于确定问题在对话文本中的文字内容中搜索关联的候选的答案内容,基于候选的答案内容生成多个第一候选答案;
基于确定问题和对话文本中的文字内容联合输入模型中,获取第二候选答案;
基于第一候选答案和第二候选答案结合确定目标答案。
在一些实施方式中,所述分流模型的数据处理包括如下步骤:
将用户问题、相似问答数据、用户问题所属问题类别记为第一文本数据;
获取多个专家模型的属性功能描述文本,记为第二文本数据;
基于第一文本数据和第二文本数据进行适配性分析,确定与第一文本数据匹配的第二文本数据对应的专家模型。
在一些实施方式中,所述基于第一文本数据和第二文本数据进行适配性分析,包括如下步骤:
将第一文本数据的用户问题所属问题类别和第二文本数据进行语义分析,并识别获取用户问题所属问题类别与所述第二文本数据的所属关系,记用户问题所属问题类别属于第二文本数据表征范围为第一情况,记用户问题所属问题类别包含第二文本数据表征范围为第二情况,记用户问题所属问题类别与第二文本数据表征范围无所属关系为第三情况;
在多个专家模型的对应的多个第二文本数据中存在第一情况时,优先在满足第一情况的第二文本数据对应的专家模型中进行所述适配性分析确定匹配的专家模型;
针对第一情况的第二文本数据及对应的专家模型,基于第一文本数据的用户问题、相似问答数据的关键词、用户问题所属问题类别的文本语义与第二文本数据进行语义关联性分析,选择与第一文本数据的文本语义关联性最大的第二文本数据对应的专家模型确定为匹配结果;
在不存在第一情况时,针对第二情况的第二文本数据及对应的专家模型,基于第一文本数据的用户问题、相似问答数据的关键词表征范围与第二文本数据表征范围分析所属关系,在第一文本数据的用户问题、相似问答数据的关键词表征范围属于第二文本数据表征范围时,选择与用户问题、相似问答数据的文本语义关联性最大的第二文本数据对应的专家模型确定为匹配结果,在第一文本数据的用户问题、相似问答数据的关键词表征范围大于第二文本数据表征范围时,基于第二文本数据对应的专家模型作为候选专家模型;
针对第三情况,根据用户问题、相似问答数据与第二文本数据的文本语义关联性择优选择候选专家模型;
在不确定唯一匹配的专家模型时,基于所有候选专家模型作为分流模型的结果并经过人工确认唯一匹配的专家模型。
第二方面,提供了一种基于知识图谱和用户行为的工业领域智能问答系统,该系统包括:
用户问题接收单元,用于接收用户输入的问题;
用户意图识别单元,用于基于用户问题和用户在平台上的历史操作行为,对用户问题进行决策性分类,获取用户问题所属问题类别;
分流单元,用于基于用户问题在数据库中搜索相似问答数据,基于相似问答数据、用户问题、用户问题所属问题类别输入分流模型,所述分流模型用于基于输入数据通过分析在多个已有的专家模型中匹配一个用于处理用户问题的专家模型,每个所述专家模型用于处理一类问题类型的用户问题;
问题语义增强单元,用于基于用户输入的问题调用预先构建的知识图谱增强用户问题的语义;
答案获取单元,用于基于语义增强后的用户问题输入步骤3匹配的专家模型,获取用户问题的回答数据。
第三方面,提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现上述第一方面所述的方法。
本发明的一种基于知识图谱和用户行为的工业领域智能问答方法及系统,具备如下有益效果:本发明利用知识图谱、用户问题分类模型、向量检索、分流模型、专家模型技术,构建了专门为工业品领域设计的语言模型,通过用户问题分类模型识别用户意图,通过分流模型多个专家模型之间有效分配问题,而且单一专家模型处理同一类问题能够确保模型能够更精准地理解并回应用户需求,从而提高的应答系统的效率和答案准确性。通过知识图谱对用户输入的问题进行语义增强,基于语义增强的用户问题形成查询语句在专家模型中确定答案,进一步提高了答案的准确性。本发明有效提高了工业品领域知识应答的效率和精准性,并且提高了工业品领域工作人员的工作效率。
附图说明
图1是本申请实施例中基于知识图谱和用户行为的工业领域智能问答方法的技术路线示意图;
图2是本申请实施例中基于知识图谱和用户行为的工业领域智能问答方法的流程示意图;
图3是平台累计客服对话数据的处理流程示意图;
图4是本申请实施例中基于知识图谱和用户行为的工业领域智能问答系统的结构示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参见图1和图2,本申请实施例提供了一种基于知识图谱和用户行为的工业领域智能问答方法,包括如下步骤:
步骤1,接收用户输入的问题;
步骤2,基于用户问题和用户在平台上的历史操作行为,对用户问题进行决策性分类,获取用户问题所属问题类别;
步骤3,基于用户问题在数据库中搜索相似问答数据,基于相似问答数据、用户问题、用户问题所属问题类别输入分流模型,所述分流模型用于基于输入数据通过分析在多个已有的专家模型中匹配一个用于处理用户问题的专家模型,每个所述专家模型用于处理一类问题类型的用户问题;
步骤4,基于用户输入的问题调用预先构建的知识图谱增强用户问题的语义;
步骤5,基于语义增强后的用户问题输入步骤3匹配的专家模型,获取用户问题的回答数据。
客户问题可能复杂多变,本申请实施例中根据用户历史行为,预测用户可能的需求或查询意图,对用户问题进行分类,基于用户问题所属问题类别输入分流模型,确定用于处理用户问题的一个专家模型,分流模型可以帮助在多个专家模型之间有效分配问题,而且单一专家模型处理同一类问题能够确保模型能够更精准地理解并回应用户需求,从而提高的应答系统的效率和答案准确性。
另外,本申请实施例中,为了提高答案的准确性,还对用户输入的问题通过知识图谱增强问题语义,基于语义增强的用户问题形成查询语句在专家模型中确定答案,进一步提高了答案的准确性。
需要说明的是,本申请实施例中的专家模型,包括多种功能类型的不同专家模型,例如,“工业品专家模型”,该模型的描述文本为“工业品专家模型使用大量工业品知识进行训练,包含工业品知识图谱,可以对工业品相关的知识进行解答”,再例如,“法律专家模型”,该模型的描述文本为“法律专家模型是一个使用大量法律信息训练的模型,可以对基本的法律信息进行回答”,本申请实施例中的专家模型是基于大数据训练的智能应答解析模型,可以根据输入的用户问题,通过用户问题解析,智能生成匹配的应答数据,相比于模式匹配、规则匹配等获取答案的方式,本申请实施例的专家模型能够更好地对用户问题作出智能应答。
进一步的,上述步骤2中所述用户在平台上的历史操作行为,包括但不限于用户在平台上的点击、浏览、项目参与行为;所述问题类别包括但不限于:询问招投标法律、生成招投标文件、检测招投标文件、购买工业品、询问供应商。
在一种实施方式中,上述步骤2中对用户问题进行决策性分类,采用训练完成的用户问题分类模型实现,所述用户问题分类模型基于用户问题和用户在平台上的历史操作行为作为数据源、经过训练随机森林模型得到。
训练随机森林模型时,可以采用平台积累的客服对话数据和用户在平台上的历史操作行为作为数据源,对客服对话数据进行处理,得到问答形式的结构化数据,基于用户问题和用户在平台上的历史操作行为训练随机森林模型。
在一种实施方式中,所述数据库中包括工业品相关知识数据和平台累积的客服对话数据;
所述工业品相关知识数据包括:平台积累的工业知识、技术文件、研究报告和与工业相关的标书、合同模板、技术规范和商业条款;
所述预先构建的知识图谱,包括:基于工业品相关知识数据作为数据源,经过数据预处理和结构化处理后,基于实体识别、关系提取技术构建知识图谱。
知识图谱的构建过程中,本申请实施例中,先对于工业品数据通过NLP方法解析产品描述、商品详情名、商品型号、设备参数、供应商名称等关键参数和信息,然后根据产品规格、行业标准和供应商管理规定进行工业品信息规范化结构化处理,确保非结构化文本得到有效结构化,然后基于结构化的工业品数据构建知识图谱,包括抽取工业品数据中的实体和关系,对产品描述、行业标准和供应商等信息采用模式匹配、依存语法分析等算法进行语义分析和关联关系分析。
需要说明的是,本申请实施例中构建的知识图谱是动态变化的,一旦监测到新增数据,基于新增加的工业品数据,对关联数据进行更新,实现工业品知识图谱的实时更新(该更新涉及局部的知识图谱内容修改),当监测到新增数据的量大于预设阈值时,会启动知识图谱的完整构建过程,实现工业品知识图谱的实时更新(该更新涉及知识图谱整体的重新构建)。
参见图3,在一种实施方式中,对所述客服对话数据进行预处理和结构化处理,该处理步骤包括:
步骤A1,基于语音转文字算法,获取客服对话对应的对话文本;
步骤A2,基于大语言模型将语音转文字算法得到的对话文本进行优化、并转换为统一的问答格式结构化数据。
由于语音转文字技术在处理方言时存在一定的局限性,导致转换后的文字可能会出现表达不流畅、语义不通顺等问题,传统上这类问题只能通过人工干预进行处理。为了提高处理效率并降低人工干预成本,本申请创新性地采用了基于大语言模型的文字优化技术,通过思维链的方式对客服问答进行优化。具体来说,该技术可以识别并修正文字内容中的模糊、不准确或错误部分,确保输出的文字更加清晰、准确且易于理解。此外,该技术还可以对文字进行适当的转化,使其更符合标准普通话的表述方式,从而提升客服问答的可读性和易理解性。由于该模型经过超大规模语料库的训练,可以模拟出各种人类语言模式,从而更好地理解和处理低质量的文字。本申请中利用大语言模型识别并自动修正文本中的语法错误、拼写错误、标点符号错误等,从而输出更加准确的文本。
原始的客服问答:哎喂你好喂你好哎你好哎你好我知道你们这个优采优质你遇到什么问题嗯其实就是我这个下载这个控件嘛不是要电子签章吗嗯我这个电脑是苹果电脑这个没有现在这个没没有没有我们暂时这边没有苹果系统的不支持是吧那对对不要这个可以签章吗呃您这边的话如果暂时先用不了的话呢您可以先去报名报名的时候它有个弹窗选项呃让您这边的话呢去去去去继续报名要上传报价单的时候您选择上传报价单图片好吧嗯上传报价单图片对对对嗯我这个电话那样的话那这个没有办法因为我们现在这个暂时没有那个苹果系统的嗯行行嗯嗯嗯好好嗯嗯嗯好好
处理后的格式化回答:
{
"QA": [
{
"question": "我想下载控件用于电子签章,但是我的电脑是苹果电脑,不支持该控件,该怎么办?",
"answer": "目前我们暂时没有苹果系统的控件,不支持苹果电脑。您可以选择其他支持的设备进行签章。"
},
{
"question": "我想上传报价单,但是不知道如何操作,该怎么办?",
"answer": "您可以先进行报名,上传报价单的时候选择上传报价单图片即可。"
}
]
}
在一种实施方式中,上述步骤A2中,基于大语言模型将语音转文字算法得到的对话文本进行优化、并转换为统一的问答格式结构化数据,包括:
步骤A21,根据对话文本进行预处理,包括分词、去除停用词;
步骤A22,根据对话文本中的文字内容,生成候选问题;
步骤A23,基于候选问题和对话文本中的句子进行关联性匹配,获取确定问题;
步骤A24,基于确定问题在对话文本中的文字内容中搜索关联的候选的答案内容,基于候选的答案内容生成多个第一候选答案;
步骤A25,基于确定问题和对话文本中的文字内容联合输入模型中,获取第二候选答案;
步骤A26,基于第一候选答案和第二候选答案结合确定目标答案。
其中,生成候选问题,可以是基于训练完成的文本生成网络实现,也可以基于对话文本中的文字内容基于命名实体识别、关系抽取等提取关键词并形成问题。获取候选答案,可以是基于文本生成网络实现,也可以基于文字内容和语义关联匹配确定。在一种实施方式中,本申请实施例中在生成候选问题和获取第二候选答案时,基于训练完成的文本生成网络实现。本申请实施例中一方面通过文本的文字内容搜索答案内容,另一方面通过模型对确定问题和对话文本中的文字内容进行联合分析生成答案,两者结合使得生成的答案更加全面,进一步可以基于第一候选答案和第二候选答案进行比较,择优确定目标答案。
在一种实施方式中,上述步骤3中,分流模型的数据处理包括如下步骤:
步骤31,将用户问题、相似问答数据、用户问题所属问题类别记为第一文本数据;
步骤32,获取多个专家模型的属性功能描述文本,记为第二文本数据;
步骤33,基于第一文本数据和第二文本数据进行适配性分析,确定与第一文本数据匹配的第二文本数据对应的专家模型。
本申请实施例中,对于上述步骤32,基于第一文本数据和第二文本数据进行适配性分析,包括如下步骤:
步骤321,将第一文本数据的用户问题所属问题类别和第二文本数据进行语义分析,并识别获取用户问题所属问题类别与所述第二文本数据的所属关系,记用户问题所属问题类别属于第二文本数据表征范围为第一情况,记用户问题所属问题类别包含第二文本数据表征范围为第二情况,记用户问题所属问题类别与第二文本数据表征范围无所属关系为第三情况;例如第二文本数据表征范围为“法律”,如果用户问题所属问题类别属于“招投标法律”,则属于第一情况;
步骤322,在多个专家模型的对应的多个第二文本数据中存在第一情况时,优先在满足第一情况的第二文本数据对应的专家模型中进行所述适配性分析确定匹配的专家模型;
步骤323,针对第一情况的第二文本数据及对应的专家模型,基于第一文本数据的用户问题、相似问答数据的关键词、用户问题所属问题类别的文本语义与第二文本数据进行语义关联性分析,选择与第一文本数据的文本语义关联性最大的第二文本数据对应的专家模型确定为匹配结果;
步骤324,在不存在第一情况时,针对第二情况的第二文本数据及对应的专家模型,基于第一文本数据的用户问题、相似问答数据的关键词表征范围与第二文本数据表征范围分析所属关系,在第一文本数据的用户问题、相似问答数据的关键词表征范围属于第二文本数据表征范围时,选择与用户问题、相似问答数据的文本语义关联性最大的第二文本数据对应的专家模型确定为匹配结果,在第一文本数据的用户问题、相似问答数据的关键词表征范围大于第二文本数据表征范围时,基于第二文本数据对应的专家模型作为候选专家模型;
步骤325,针对第三情况,根据用户问题、相似问答数据与第二文本数据的文本语义关联性择优选择候选专家模型;
步骤326,在不确定唯一匹配的专家模型时,基于所有候选专家模型作为分流模型的结果并经过人工确认唯一匹配的专家模型。
参见图4,本申请实施例提供了一种基于知识图谱和用户行为的工业领域智能问答系统,该系统包括:
用户问题接收单元,用于接收用户输入的问题;
用户意图识别单元,用于基于用户问题和用户在平台上的历史操作行为,对用户问题进行决策性分类,获取用户问题所属问题类别;
分流单元,用于基于用户问题在数据库中搜索相似问答数据,基于相似问答数据、用户问题、用户问题所属问题类别输入分流模型,所述分流模型用于基于输入数据通过分析在多个已有的专家模型中匹配一个用于处理用户问题的专家模型,每个所述专家模型用于处理一类问题类型的用户问题;
问题语义增强单元,用于基于用户输入的问题调用预先构建的知识图谱增强用户问题的语义;
答案获取单元,用于基于语义增强后的用户问题输入步骤3匹配的专家模型,获取用户问题的回答数据。
需要说明的是:本实施例提供的基于知识图谱和用户行为的工业领域智能问答系统在处理工业品领域问题时,仅以上述各功能单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将装置的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。另外,本实施例提供的基于知识图谱和用户行为的工业领域智能问答系统与上述实施例提供的基于知识图谱和用户行为的工业领域智能问答方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本申请实施例提供了一种电子设备,该电子设备包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器通过运行所述可执行指令以实现上述基于知识图谱和用户行为的工业领域智能问答方法的步骤。其中,电子设备的处理器用于提供计算和控制能力,电子设备的存储器包括非易失性存储介质、内存储器,该存储器和处理器通过系统总线相连;所述可执行指令被所述处理器执行时实现上述基于知识图谱和用户行为的工业领域智能问答方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时实现基于知识图谱和用户行为的工业领域智能问答方法的步骤。该计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体,是可以保留和存储供指令执行设备所使用指令的有形设备,例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)等。
本发明不局限于上述具体的实施方式,本领域的普通技术人员从上述构思出发,不经过创造性的劳动,所做出的种种变换,均落在本发明的保护范围之内。
Claims (9)
1.一种基于知识图谱和用户行为的工业领域智能问答方法,其特征在于,包括如下步骤:
步骤1,接收用户输入的问题;
步骤2,基于用户问题和用户在平台上的历史操作行为,对用户问题进行决策性分类,获取用户问题所属问题类别;
步骤3,基于用户问题在数据库中搜索相似问答数据,基于相似问答数据、用户问题、用户问题所属问题类别输入分流模型,所述分流模型用于基于输入数据通过分析在多个已有的专家模型中匹配一个用于处理用户问题的专家模型,每个所述专家模型用于处理一类问题类型的用户问题;
步骤4,基于用户输入的问题调用预先构建的知识图谱增强用户问题的语义;
步骤5,基于语义增强后的用户问题输入步骤3匹配的专家模型,获取用户问题的回答数据;
所述分流模型的数据处理包括如下步骤:将用户问题、相似问答数据、用户问题所属问题类别记为第一文本数据;获取多个专家模型的属性功能描述文本,记为第二文本数据;基于第一文本数据和第二文本数据进行适配性分析,确定与第一文本数据匹配的第二文本数据对应的专家模型;所述基于第一文本数据和第二文本数据进行适配性分析,包括如下步骤:将第一文本数据的用户问题所属问题类别和第二文本数据进行语义分析,并识别获取用户问题所属问题类别与所述第二文本数据的所属关系,记用户问题所属问题类别属于第二文本数据表征范围为第一情况,记用户问题所属问题类别包含第二文本数据表征范围为第二情况,记用户问题所属问题类别与第二文本数据表征范围无所属关系为第三情况;在多个专家模型的对应的多个第二文本数据中存在第一情况时,优先在满足第一情况的第二文本数据对应的专家模型中进行所述适配性分析确定匹配的专家模型;针对第一情况的第二文本数据及对应的专家模型,基于第一文本数据的用户问题、相似问答数据的关键词、用户问题所属问题类别的文本语义与第二文本数据进行语义关联性分析,选择与第一文本数据的文本语义关联性最大的第二文本数据对应的专家模型确定为匹配结果;在不存在第一情况时,针对第二情况的第二文本数据及对应的专家模型,基于第一文本数据的用户问题、相似问答数据的关键词表征范围与第二文本数据表征范围分析所属关系,在第一文本数据的用户问题、相似问答数据的关键词表征范围属于第二文本数据表征范围时,选择与用户问题、相似问答数据的文本语义关联性最大的第二文本数据对应的专家模型确定为匹配结果,在第一文本数据的用户问题、相似问答数据的关键词表征范围大于第二文本数据表征范围时,基于第二文本数据对应的专家模型作为候选专家模型;针对第三情况,根据用户问题、相似问答数据与第二文本数据的文本语义关联性择优选择候选专家模型;在不确定唯一匹配的专家模型时,基于所有候选专家模型作为分流模型的结果并经过人工确认唯一匹配的专家模型。
2.根据权利要求1所述的基于知识图谱和用户行为的工业领域智能问答方法,其特征在于,所述用户在平台上的历史操作行为,包括但不限于用户在平台上的点击、浏览、项目参与行为;
所述问题类别包括但不限于:询问招投标法律、生成招投标文件、检测招投标文件、购买工业品、询问供应商。
3.根据权利要求1所述的基于知识图谱和用户行为的工业领域智能问答方法,其特征在于,所述对用户问题进行决策性分类,采用训练完成的用户问题分类模型实现,所述用户问题分类模型基于用户问题和用户在平台上的历史操作行为作为数据源、经过训练随机森林模型得到。
4.根据权利要求1所述的基于知识图谱和用户行为的工业领域智能问答方法,其特征在于,所述数据库中包括工业品相关知识数据和平台累积的客服对话数据;
所述工业品相关知识数据包括:平台积累的工业知识、技术文件、研究报告和与工业相关的标书、合同模板、技术规范和商业条款;
所述预先构建的知识图谱,包括:基于工业品相关知识数据作为数据源,经过数据预处理和结构化处理后,基于实体识别、关系提取技术构建知识图谱。
5.根据权利要求4所述的基于知识图谱和用户行为的工业领域智能问答方法,其特征在于,包括:对所述客服对话数据进行预处理和结构化处理,该处理步骤包括:
基于语音转文字算法,获取客服对话对应的对话文本;
基于大语言模型将语音转文字算法得到的对话文本进行优化、并转换为统一的问答格式结构化数据。
6.根据权利要求5所述的基于知识图谱和用户行为的工业领域智能问答方法,其特征在于,所述基于大语言模型将语音转文字算法得到的对话文本进行优化、并转换为统一的问答格式结构化数据,包括:
根据对话文本进行预处理,包括分词、去除停用词;
根据对话文本中的文字内容,生成候选问题;
基于候选问题和对话文本中的句子进行关联性匹配,获取确定问题;
基于确定问题在对话文本中的文字内容中搜索关联的候选的答案内容,基于候选的答案内容生成多个第一候选答案;
基于确定问题和对话文本中的文字内容联合输入模型中,获取第二候选答案;
基于第一候选答案和第二候选答案结合确定目标答案。
7.基于知识图谱和用户行为的工业领域智能问答系统,其特征在于,包括:
用户问题接收单元,用于接收用户输入的问题;
用户意图识别单元,用于基于用户问题和用户在平台上的历史操作行为,对用户问题进行决策性分类,获取用户问题所属问题类别;
分流单元,用于基于用户问题在数据库中搜索相似问答数据,基于相似问答数据、用户问题、用户问题所属问题类别输入分流模型,所述分流模型用于基于输入数据通过分析在多个已有的专家模型中匹配一个用于处理用户问题的专家模型,每个所述专家模型用于处理一类问题类型的用户问题;
问题语义增强单元,用于基于用户输入的问题调用预先构建的知识图谱增强用户问题的语义;
答案获取单元,用于基于语义增强后的用户问题输入步骤3匹配的专家模型,获取用户问题的回答数据;
所述分流模型的数据处理包括如下步骤:将用户问题、相似问答数据、用户问题所属问题类别记为第一文本数据;获取多个专家模型的属性功能描述文本,记为第二文本数据;基于第一文本数据和第二文本数据进行适配性分析,确定与第一文本数据匹配的第二文本数据对应的专家模型;所述基于第一文本数据和第二文本数据进行适配性分析,包括如下步骤:将第一文本数据的用户问题所属问题类别和第二文本数据进行语义分析,并识别获取用户问题所属问题类别与所述第二文本数据的所属关系,记用户问题所属问题类别属于第二文本数据表征范围为第一情况,记用户问题所属问题类别包含第二文本数据表征范围为第二情况,记用户问题所属问题类别与第二文本数据表征范围无所属关系为第三情况;在多个专家模型的对应的多个第二文本数据中存在第一情况时,优先在满足第一情况的第二文本数据对应的专家模型中进行所述适配性分析确定匹配的专家模型;针对第一情况的第二文本数据及对应的专家模型,基于第一文本数据的用户问题、相似问答数据的关键词、用户问题所属问题类别的文本语义与第二文本数据进行语义关联性分析,选择与第一文本数据的文本语义关联性最大的第二文本数据对应的专家模型确定为匹配结果;在不存在第一情况时,针对第二情况的第二文本数据及对应的专家模型,基于第一文本数据的用户问题、相似问答数据的关键词表征范围与第二文本数据表征范围分析所属关系,在第一文本数据的用户问题、相似问答数据的关键词表征范围属于第二文本数据表征范围时,选择与用户问题、相似问答数据的文本语义关联性最大的第二文本数据对应的专家模型确定为匹配结果,在第一文本数据的用户问题、相似问答数据的关键词表征范围大于第二文本数据表征范围时,基于第二文本数据对应的专家模型作为候选专家模型;针对第三情况,根据用户问题、相似问答数据与第二文本数据的文本语义关联性择优选择候选专家模型;在不确定唯一匹配的专家模型时,基于所有候选专家模型作为分流模型的结果并经过人工确认唯一匹配的专家模型。
8.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时实现实现如权利要求1-6中任一项所述的基于知识图谱和用户行为的工业领域智能问答方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410037259.7A CN117540004B (zh) | 2024-01-10 | 2024-01-10 | 基于知识图谱和用户行为的工业领域智能问答方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410037259.7A CN117540004B (zh) | 2024-01-10 | 2024-01-10 | 基于知识图谱和用户行为的工业领域智能问答方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117540004A CN117540004A (zh) | 2024-02-09 |
CN117540004B true CN117540004B (zh) | 2024-03-22 |
Family
ID=89788526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410037259.7A Active CN117540004B (zh) | 2024-01-10 | 2024-01-10 | 基于知识图谱和用户行为的工业领域智能问答方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117540004B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118467693B (zh) * | 2024-05-07 | 2024-10-18 | 苏银凯基消费金融有限公司 | 基于人工智能的金融业务生成式问题咨询系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105335447A (zh) * | 2014-08-14 | 2016-02-17 | 北京奇虎科技有限公司 | 基于计算机网络的专家问答系统及其构建方法 |
CN106303113A (zh) * | 2015-06-23 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 一种分流方法和设备 |
CN110945513A (zh) * | 2017-07-28 | 2020-03-31 | 微软技术许可有限责任公司 | 用于语言理解系统的领域添加系统和方法 |
US10692006B1 (en) * | 2016-06-30 | 2020-06-23 | Facebook, Inc. | Crowdsourced chatbot answers |
CN112559723A (zh) * | 2020-12-28 | 2021-03-26 | 广东国粒教育技术有限公司 | 一种基于深度学习的faq检索式问答构建方法及系统 |
CN113505586A (zh) * | 2021-06-07 | 2021-10-15 | 中电鸿信信息科技有限公司 | 一种融合语义分类与知识图谱的坐席辅助问答方法与系统 |
CN115481229A (zh) * | 2022-09-22 | 2022-12-16 | 上海浦东发展银行股份有限公司 | 一种应答话术推送方法、装置、电子设备及存储介质 |
CN117216221A (zh) * | 2023-09-27 | 2023-12-12 | 航天科工深圳(集团)有限公司 | 一种基于知识图谱的智能问答系统及构建方法 |
CN117235238A (zh) * | 2023-11-13 | 2023-12-15 | 广东蘑菇物联科技有限公司 | 问答方法、装置、存储介质及计算机设备 |
CN117370520A (zh) * | 2023-10-13 | 2024-01-09 | 北京百度网讯科技有限公司 | 分流的对话处理方法、装置、设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160071022A1 (en) * | 2014-09-04 | 2016-03-10 | International Business Machines Corporation | Machine Learning Model for Level-Based Categorization of Natural Language Parameters |
-
2024
- 2024-01-10 CN CN202410037259.7A patent/CN117540004B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105335447A (zh) * | 2014-08-14 | 2016-02-17 | 北京奇虎科技有限公司 | 基于计算机网络的专家问答系统及其构建方法 |
CN106303113A (zh) * | 2015-06-23 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 一种分流方法和设备 |
US10692006B1 (en) * | 2016-06-30 | 2020-06-23 | Facebook, Inc. | Crowdsourced chatbot answers |
CN110945513A (zh) * | 2017-07-28 | 2020-03-31 | 微软技术许可有限责任公司 | 用于语言理解系统的领域添加系统和方法 |
CN112559723A (zh) * | 2020-12-28 | 2021-03-26 | 广东国粒教育技术有限公司 | 一种基于深度学习的faq检索式问答构建方法及系统 |
CN113505586A (zh) * | 2021-06-07 | 2021-10-15 | 中电鸿信信息科技有限公司 | 一种融合语义分类与知识图谱的坐席辅助问答方法与系统 |
CN115481229A (zh) * | 2022-09-22 | 2022-12-16 | 上海浦东发展银行股份有限公司 | 一种应答话术推送方法、装置、电子设备及存储介质 |
CN117216221A (zh) * | 2023-09-27 | 2023-12-12 | 航天科工深圳(集团)有限公司 | 一种基于知识图谱的智能问答系统及构建方法 |
CN117370520A (zh) * | 2023-10-13 | 2024-01-09 | 北京百度网讯科技有限公司 | 分流的对话处理方法、装置、设备及介质 |
CN117235238A (zh) * | 2023-11-13 | 2023-12-15 | 广东蘑菇物联科技有限公司 | 问答方法、装置、存储介质及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN117540004A (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106874441B (zh) | 智能问答方法和装置 | |
CN111708869B (zh) | 人机对话的处理方法及装置 | |
CN109829052A (zh) | 一种基于人机交互的开放式对话方法和系统 | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
CN117540004B (zh) | 基于知识图谱和用户行为的工业领域智能问答方法及系统 | |
CN118170894B (zh) | 一种知识图谱问答方法、装置及存储介质 | |
CN116719520B (zh) | 代码生成方法及装置 | |
Miao et al. | A dynamic financial knowledge graph based on reinforcement learning and transfer learning | |
CN114647713A (zh) | 基于虚拟对抗的知识图谱问答方法、设备及存储介质 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN111400340A (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 | |
CN117235233A (zh) | 一种基于大模型的财报自动化问答方法和装置 | |
CN117909466A (zh) | 领域问答系统、构造方法、电子设备及存储介质 | |
CN116542800A (zh) | 基于云端ai技术的智能化财务报表分析系统 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN116049376B (zh) | 一种信创知识检索回复的方法、装置和系统 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
Han et al. | A novel part of speech tagging framework for nlp based business process management | |
CN116955534A (zh) | 投诉工单智能处理方法、装置、设备及存储介质 | |
CN111209394A (zh) | 文本分类处理方法和装置 | |
CN111104422A (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN115757720A (zh) | 基于知识图谱的项目信息搜索方法、装置、设备和介质 | |
WO2019043380A1 (en) | SEMANTIC ANALYSIS | |
CN112685434A (zh) | 一种基于知识图谱的运维问答方法 | |
CN116028620B (zh) | 一种基于多任务特征协同的生成专利摘要的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |