CN111274371B - 一种基于知识图谱的智能人机对话方法及设备 - Google Patents

一种基于知识图谱的智能人机对话方法及设备 Download PDF

Info

Publication number
CN111274371B
CN111274371B CN202010037830.7A CN202010037830A CN111274371B CN 111274371 B CN111274371 B CN 111274371B CN 202010037830 A CN202010037830 A CN 202010037830A CN 111274371 B CN111274371 B CN 111274371B
Authority
CN
China
Prior art keywords
information
matching
knowledge graph
known question
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010037830.7A
Other languages
English (en)
Other versions
CN111274371A (zh
Inventor
徐楠
方浩
白雪
熊昊
梁吉光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Danwo Intelligent Technology Co ltd
Dongguan Securities Co ltd
Original Assignee
Shanghai Danwo Intelligent Technology Co ltd
Dongguan Securities Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Danwo Intelligent Technology Co ltd, Dongguan Securities Co ltd filed Critical Shanghai Danwo Intelligent Technology Co ltd
Priority to CN202010037830.7A priority Critical patent/CN111274371B/zh
Publication of CN111274371A publication Critical patent/CN111274371A/zh
Application granted granted Critical
Publication of CN111274371B publication Critical patent/CN111274371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于知识图谱的智能人机对话方法及设备,通过获取用户输入的内容信息;对内容信息进行文本字符处理及归一化处理,生成匹配信息及对应关系信息;判断匹配信息是否与已知问句模板匹配;若否,则进行特征选择,利用向量模型进行特征表示并输入分类器进行结果判定;若判定通过,则分类器的输出结果为对应的已知问句模板,从而确定解答信息格式,根据解答信息格式及对应关系信息在知识图谱中确定解答信息。通过应用本申请的技术方案,有别于现有的智能人机对话中严重依赖于语料库和分类模型方式,本方案利用文本字符处理方式能够有效的对用户提问意图进行识别,从而提升输出答案的准确性。

Description

一种基于知识图谱的智能人机对话方法及设备
技术领域
本发明涉及计算机技术领域,特别是指一种基于知识图谱的智能人机对话方法及设备。
背景技术
近年来,人工智能技术飞速发展并广泛应用于各个领域之中。在金融领域,借助于金融知识图谱,自然语言技术的快速发展与领域化推进,人机交互的研发进程与实践效果有了很大的突破。
然而,传统的对话机器人常以模板匹配为主,可回答的问题限定在模板所覆盖的问题范畴内,不能进行开放式的解答相关的问题。而对于证券领域等相关领域的投资者而言,仅仅限定于业务流程办理的范畴是远远无法满足其需求的。
发明内容
有鉴于此,本发明的目的在于提出一种基于知识图谱的智能人机对话方法及设备,用以实现可以对用户提出的开放式问题进行解答的人机对话方法及设备。
基于上述目的,一方面,本发明提供了一种基于知识图谱的智能人机对话方法,包括:
获取用户输入的内容信息;
根据知识图谱对所述内容信息进行文本字符处理,基于所述文本字符处理的处理结果进行归一化处理,生成匹配信息及对应关系信息;
判断所述匹配信息是否与已知问句模板匹配;
若否,则按照预设特征选择规则对所述匹配信息进行特征选择,利用向量模型进行特征表示,将特征表示结果输入分类器进行结果判定;
若判定通过,则所述分类器的输出结果为所述匹配信息对应的第一已知问句模板,根据所述第一已知问句模板确定解答信息格式,根据所述解答信息格式及所述对应关系信息在所述知识图谱中确定解答信息,输出所述解答信息。
在一些实施方式中,所述判断所述匹配信息是否与已知问句模板匹配,还包括:
若是,则确定与所述匹配信息对应的第二已知问句模板,根据所述第二已知问句模板确定解答信息格式,根据所述解答信息格式及所述对应关系信息在所述知识图谱中确定解答信息,输出所述解答信息。
在一些实施方式中,所述将特征表示结果输入分类器进行结果判定,还包括:
若判定不通过,则根据所述特征表示结果与所述已知问句模板进行向量相似度计算,确定相似度达到预设条件的至少一个第三已知问句模板;
输出所述第三已知问句模板供用户进行选择;
根据用户选择的所述第三已知问句模板确定解答信息格式,根据所述解答信息格式及所述对应关系信息在所述知识图谱中确定解答信息,输出所述解答信息。
在一些实施方式中,所述根据知识图谱对所述内容信息进行文本字符处理,具体包括:
对所述内容信息进行特定信息识别,将识别出的第一信息进行特定标注;
根据知识图谱中的所有指标对应的所有术语,确定所有所述术语的等同关系,将所述内容信息按照所述等同关系与所述术语进行多模式串匹配,识别出第二信息,将所述第二信息按照所述指标进行指标标注。
在一些实施方式中,所述基于所述文本字符处理的处理结果进行归一化处理,具体包括:
根据所述特定标注及所述指标标注,将所述内容信息进行信息与标注项的替换。
在一些实施方式中,所述判断所述匹配信息是否与已知问句模板匹配,具体包括:
对所述匹配信息及所述已知问句模板进行逐项对比,当所述匹配信息中的全部项与所述已知问句模板的全部项相同时,确定所述匹配信息及所述已知问句模板匹配成功。
在一些实施方式中,所述判断所述匹配信息是否与已知问句模板匹配的匹配方式至少为:
完全匹配方式或正则匹配方式。
在一些实施方式中,所述分类器至少为:
支持向量机分类器和/或朴素贝叶斯分类器。
在一些实施方式中,所述根据知识图谱对所述内容信息进行文本字符处理之前,还包括:
对所述内容信息进行文字标点标准化处理,统一调整所述内容信息的字符位置状态,利用正则表达式去除所述内容信息中的冗余符号。
另一方面,本发明还提供了一种基于知识图谱的智能人机对话设备,包括:
获取模块,获取用户输入的内容信息;
生成模块,根据知识图谱对所述内容信息进行文本字符处理,基于所述文本字符处理的处理结果进行归一化处理,生成匹配信息及对应关系信息;
判断模块,判断所述匹配信息是否与已知问句模板匹配;
分类器模块,若否,则按照预设特征选择规则对所述匹配信息进行特征选择,利用向量模型进行特征表示,将特征表示结果输入分类器进行结果判定;
执行模块,若判定通过,则所述分类器的输出结果为所述匹配信息对应的第一已知问句模板,根据所述第一已知问句模板确定解答信息格式,根据所述解答信息格式及所述对应关系信息在所述知识图谱中确定解答信息,输出所述解答信息。
从上面所述可以看出,本发明提供的一种基于知识图谱的智能人机对话方法及设备,通过获取用户输入的内容信息;根据知识图谱对内容信息进行文本字符处理,基于文本字符处理的处理结果进行归一化处理,生成匹配信息及对应关系信息;判断匹配信息是否与已知问句模板匹配;若否,则按照预设特征选择规则对匹配信息进行特征选择,利用向量模型进行特征表示,将特征表示结果输入分类器进行结果判定;若判定通过,则分类器的输出结果为匹配信息对应的第一已知问句模板,根据第一已知问句模板确定解答信息格式,根据解答信息格式及对应关系信息在知识图谱中确定解答信息,输出解答信息。通过应用本申请的技术方案,通过引入知识图谱在很大程度上提升了领域内专有术语的识别、语义理解等。同时,有别于现有的智能人机对话中严重依赖于语料库和分类模型方式,本方案利用文本字符处理方式能够有效的对用户提问意图进行识别,从而提升输出答案的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提出的一种基于知识图谱的智能人机对话方法的流程示意图;
图2为本发明实施例提出的一种基于知识图谱的智能人机对话方法的在金融领域的具体实施流程示意图;
图3为本发明实施例提出的一种基于知识图谱的智能人机对话设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,除非另外定义,本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件、物件或者方法步骤涵盖出现在该词后面列举的元件、物件或者方法步骤及其等同,而不排除其他元件、物件或者方法步骤。
如背景技术所言,现有技术中对话机器人仅以模板匹配为主,可回答的问题限定在模板所覆盖的问题范畴内。其必须要求提问的问句与模板问句完全一致,才能找到对应的答案进行解答。从而无法解决用户开放式的问句。同时,现有的利用分词方法的对话机器人其对同一概念的不同的词是无法进行识别的。例如:在证券领域中“恒大”、“恒大A”等其表示的都为恒大这个个股,但是现有的分词方法会将他们区分开来,认为“恒大”为一个词,“A”为一个词,从而无法准确理解用户意图。进一步的,由于意思理解的错误从而模板的对比也会出现偏差,导致最终输出结果错误。
为此本申请设计实现了一种基于知识图谱的不分词的智能人机对话方法。利用文本字符处理方法对用户的问句进行识别,归一化后与已知模板进行每一项的匹配,当无法匹配一致时,将提问的问句向量化表示,并利用分类器判定问句的语义意图,从而确定用户想要得到的目标答案,展示答案给用户。通过应用本申请的技术方案,有别于现有的智能人机对话中严重依赖于语料库和分类模型方式,本方案利用文本字符处理方式能够有效的对用户提问意图进行识别,从而提升输出答案的准确性。
以下结合附图,详细说明本说明书实施例提供的技术方案。
如图1所示,为本实施例的一种基于知识图谱的智能人机对话方法的流程示意图,该方法具体包括以下步骤:
步骤101,获取用户输入的内容信息。
本步骤旨在,得到用户输入的信息。内容信息具体是指用户在输入内容后转化为的文本信息。其中,用户的输入方式可以为文字输入、声音输入、图片输入等,若用户直接输入文字,则直接将文字信息作为文本生成内容信息;若用户输入的是声音信息,则对声音信息进行文字转换,并将转换后的文字文本作为内容信息;若用户输入的是图片信息,则对图片进行文字识别,识别出图片中的文字,将识别出的文字文本作为内容信息等等。
步骤102,根据知识图谱对所述内容信息进行文本字符处理,基于所述文本字符处理的处理结果进行归一化处理,生成匹配信息及对应关系信息。
本步骤旨在,对内容信息进行文本字符处理,归一化后生成匹配信息。
其中,知识图谱是根据具体的应用领域进行具体设置的,例如:金融领域则设置金融知识图谱、法律领域设置法律知识图谱、医疗领域设置医疗知识图谱等等,其知识图谱模型的结构也不尽相同。文本字符处理是将内容信息中的具体内容按照预定规则识别出不同的项,例如:对时间信息的识别并生成时间项;对数值信息的识别生成数值项;对地址信息的识别并生产地址项;在金融领域,利用多模式串匹配金融知识图谱中的个股、行业、概念、人、产品、财务指标等金融专业术语,并生成对应的个股项、行业项等等。在此,与现有分词的方法不同的是,现有的分词是根据语法先划分句子的主干,如主语、宾语、谓语等,再逐字识别,当识别出一个词后就进行下个词的识别。那么在识别时就会出现将“恒大”与“恒大A”认为是两个词或者将“恒大”与“A”分隔开成为两个词。而利用多模式串匹配的方式,其会根据在知识图谱中存在的字、词、句进行匹配,并会确定他们的等同关系,能将含有同样字的词都识别出来,并进行等同关系词的识别。例如:假设在知识图谱中存在“浦发银行”、“浦发”、“银行”三个词,利用多模式串匹配检测到内容信息中存在“浦发”两个字后,会将“浦发”识别出来;之后再进行后面字的检测,若再检测到“银行”时,则认为“银行”是一个词,同时,“浦发”和“银行”也可以组成一个词,进而将“银行”、“浦发银行”识别出来。也就是说,利用多模式串匹配可以从“浦发银行”四个字中识别出“浦发银行”、“浦发”、“银行”三个词,而现有分词方法只能识别出“浦发银行”一个词。
之后,进行归一化处理。其中,归一化是指将识别出的信息与内容信息进行对应。其归一化处理的形式可以为建立角标,标注于内容信息中的每个词上;还可以是直接将识别出的信息与内容信息进行直接替换;还可以为建立归一化处理表,将对应信息记录等等。归一化结束后的信息即为匹配信息。
匹配信息中包含各个已识别出信息及未识别出信息,其可以按照原句的表现形式进行展示,例如:内容信息为“万科董事长是谁?”,匹配信息为“[stock][position]是[person]?”或“万科/stock董事长/position是谁/person?”,其中“是”为未识别出信息;也可以以集合的形式进行展现等等。
对应关系信息中指内容信息中各个识别出信息的对应关系信息。例如:内容信息为“万科董事长是谁?”,匹配信息为“[stock][position]是[person]?”,则“万科”与“[stock]”对应、“董事长”与“[position]”对应、“谁”与“[person]”对应。
可见,文本字符处理过程可以为多种类型,归一化的处理过程及生成的匹配信息也可以是多种形式,本领域技术人员可以根据具体的实施场景进行调整。
步骤103,判断所述匹配信息是否与已知问句模板匹配。
本步骤旨在判断匹配信息是否为已有的已知问句模板。已知问句模板即为预选存储的各个标准问句的样板,其为匹配的基础。
其中,匹配的方式可以为完全一致的匹配方式;也可以为达到预定阈值的即认为可以匹配;还可以为含有相同的特定字、词、句等即认为可以匹配等等。同时,匹配信息与已知问句模板的表现形式可以为纯文本信息的,例如:“万科董事长是谁?”;也可以为将内容进行了划分的一个个项或区间的,例如:“[万科][董事长][是][谁]?”或“[stock][position][是][person]?”。
显然,匹配的方式有很多种,匹配的内容也可以有很多种,本领域技术人员可以根据具体的实施场景进行调整。
步骤104,若否,则按照预设特征选择规则对所述匹配信息进行特征选择,利用向量模型进行特征表示,将特征表示结果输入分类器进行结果判定。
本步骤旨在未匹配成功的情况下,进行语义匹配,即将匹配信息向量化并通过分类器判定匹配信息是否有对应的已知问句模板。其中,在机器学习领域,分类的目标是指将具有相似特征的对象聚集。而一个分类器则透过特征的线性组合来做出分类决定,以达到此种目的。对象的特征通常被描述为特征值,而在向量中则描述为特征向量。分类器可以通过预先定义的功能块,映射两个向量的点积,从而得到希望的输出。在本方案中即为可以直接获取到目标已知问句模板,其预先定义的功能块可以是对应的知识图谱。
其中,特征选择是确定匹配信息中的特定类型的项或特定字、词等,并将其提取出来。之后特征表示即为将提取出的特征进行向量化表示,其利用的向量模型可以为向量空间模型、字向量模型、词向量模型、主题模型等等。最后,将向量作为分类器的输入,分类器即可根据自身规则进行判断是否能直接得出需要的已知问句模板,其分类器可以为线性判别分析分类器、朴素贝叶斯分类器、支持向量机分类器等等。其判定过程是在分类器中设置一个阈值,分类器通过两个单位向量的点积得到两个向量的夹角的cos值,进而可以知道两个向量的相似性。当相似性和预设阈值满足特定条件时,即可认为判定通过。
步骤105,若判定通过,则所述分类器的输出结果为所述匹配信息对应的第一已知问句模板,根据所述第一已知问句模板确定解答信息格式,根据所述解答信息格式及所述对应关系信息在所述知识图谱中确定解答信息,输出所述解答信息。
本步骤旨在若得到了对应的已知问句模板,则根据已知问句模板结合对应关系信息在知识图谱中找到对应的答案,最终输出答案。
解答信息格式为用于在知识图谱中提取相应信息的标准格式,与知识图谱模型的结构保持对应,解答信息即为最终得出的答案信息。根据前述可知,已知问句模板的格式有很多种,知识图谱模型同样可以根据具体的应用场景灵活的进行设置,进而解答信息格式同样存在多种形式。
一种具体的实时方式中,内容信息为“万科董事长是谁啊?”,得到的匹配信息可以为“[stock][position]是[person]啊?”,对应关系为“万科对应[stock]、董事长对应[position]、谁对应[person]”,其对应的已知问句模板可以为“[stock][position]是[person]?”,则确定的解答信息格式可以为“<[stock],[position],[person]>”,求解“[person]”,根据对应关系信息则为“<万科,董事长,?>”,进而在知识图谱中进行对应的检索,得到最终的“<万科,董事长,郁亮>”,最终将“郁亮”输出。
最后,输出展示解答内容。即将确定的解答信息展示给用户,供用户获取、审阅等。根据不同的应用场景和实施需要,具体的解答信息的输出方式可以灵活选择。
例如,对于本实施例的方法在单一设备上执行的应用场景,可以将解答信息直接在当前设备的显示部件(显示器、投影仪等)上以显示的方式输出,使得当前设备的操作者能够从显示部件上直接看到解答信息的内容。
又如,对于本实施例的方法在多个设备组成的系统上执行的应用场景,可以将解答信息通过任意的数据通信方式(有线连接、NFC、蓝牙、wifi、蜂窝移动网络等)发送至系统内的其他作为接收方的预设设备上,以使得接收到解答信息的预设设备可以对其进行后续处理。可选的,该预设设备可以是预设的服务器,服务器一般设置在云端,作为数据的处理和存储中心,其能够对解答信息进行存储和分发。
再如,对于本实施例的方法在多个设备组成的系统上执行的应用场景时,可以将解答信息通过任意的数据通信方式直接发送至预设的终端设备,终端设备可以是前述段落列举中的一种或多种。
通过应用本申请的技术方案,该方案通过获取用户输入的内容信息;根据知识图谱对内容信息进行文本字符处理,基于文本字符处理的处理结果进行归一化处理,生成匹配信息及对应关系信息;判断匹配信息是否与已知问句模板匹配;若否,则按照预设特征选择规则对匹配信息进行特征选择,利用向量模型进行特征表示,将特征表示结果输入分类器进行结果判定;若判定通过,则分类器的输出结果为匹配信息对应的第一已知问句模板,根据第一已知问句模板确定解答信息格式,根据解答信息格式及对应关系信息在知识图谱中确定解答信息,输出解答信息。通过应用本申请的技术方案,通过引入知识图谱在很大程度上提升了领域内专有术语的识别、语义理解等。同时,有别于现有的智能人机对话中严重依赖于语料库和分类模型方式,本方案利用文本字符处理方式能够有效的对用户提问意图进行识别,从而提升输出答案的准确性。
在本申请的可选实施例中,当匹配信息与已知问句模板完全匹配时,所述判断所述匹配信息是否与已知问句模板匹配,还包括:
若是,则确定与所述匹配信息对应的第二已知问句模板,根据所述第二已知问句模板确定解答信息格式,根据所述解答信息格式及所述对应关系信息在所述知识图谱中确定解答信息,输出所述解答信息。
在本申请的可选实施例中,当分类器的结果判定未通过时,所述将特征表示结果输入分类器进行结果判定,还包括:
若判定不通过,则根据所述特征表示结果与所述已知问句模板进行向量相似度计算,确定相似度达到预设条件的至少一个第三已知问句模板;
输出所述第三已知问句模板供用户进行选择;
根据用户选择的所述第三已知问句模板确定解答信息格式,根据所述解答信息格式及所述对应关系信息在所述知识图谱中确定解答信息,输出所述解答信息。
其中,向量相似度计算是在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。其计算方式有很多种,例如:欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、马氏距离、夹角余弦、汉明距离等等。从而确定相似度最高的一个或几个已知问句模板,之后将这些已知问句模板展示给用户,让用户进行选择,确定用户的意图,之后再根据选择的已知问句模板及对应关系信息最终确定答案展示给用户。
在本申请的可选实施例中,为了使文本字符处理的结果能全面的反应用户的需求,将用户输入内容中的全部信息都识别出来。所述根据知识图谱对所述内容信息进行文本字符处理,具体包括:
对所述内容信息进行特定信息识别,将识别出的第一信息进行特定标注;
根据知识图谱中的所有指标对应的所有术语,确定所有所述术语的等同关系,将所述内容信息按照所述等同关系与所述术语进行多模式串匹配,识别出第二信息,将所述第二信息按照所述指标进行指标标注。
其中,特定信息即为用于限定内容信息的但又不属于知识图谱中的信息。例如:时间信息、数值信息、地点信息等等。其会对用户的意图进行明确的限定和指向。将识别出的信息进行特定标注,即为将识别出的时间信息进行时间项的标注、数值信息进行数值项的标注等等。
在一般的知识图谱中,其内容一般以树形分支或树状图形式进行关联,例如:在金融知识图谱中,存在上位概念(即本申请中的指标):个股、行业、概念、人、产品、财务等等,同时存在各个上位概念中的具体概念(即本申请中的术语):个股中的恒大、万科等等。其中一些术语所表达的意思是完全相同的,例如:个股中的恒大、恒大A其表示的意思均为A股中的恒大这一股,从而在全部术语中存在很多意思等同的术语。从而在具体实施例中,多模式串匹配的简略过程为,假设在知识图谱中存在“举例”、“举例说”两个词,并两个词等同,利用多模式串匹配检测到内容信息中存在“举例”两个字后,会将“举例”、“举例说”同时识别出来,之后再进行下一个字的检测,若再检测到“说”字,则认为“举例”和“说”是一个词,进而将“举例说”识别出来,并认为与“举例”等同。在具体实施例中,多模式串匹配的方式可以为AC自动机、WM自动机、MWM自动机等。同时,可以看出,在具体的应用场景中,也可以不进行术语之间的等同;还可以根据知识图谱结构的不同,知识图谱中仅有具体术语而不存在上位的指标概念。最后,对识别出的信息进行指标标注,即为将问句中的术语与指标建立关系。例如:识别出“恒大”或“恒大A”则将其标注为“个股”或“[stock]”。
在本申请的可选实施例中,为了将用户输入的内容信息进行格式统一,并使之后的比对内容能涵盖最大范围的同类语句。所述基于所述文本字符处理的处理结果进行归一化处理,具体包括:
根据所述特定标注及所述指标标注,将所述内容信息进行信息与标注项的替换。
其中,进行信息与标注项的替换是指将内容信息中的具体信息,与对应的各个特定标注及指标标注进行替换,例如:具体信息为“五年前”,其对应的为特定信息中的“时间信息”或“[time]”,进而将五年前直接替换为“时间信息”或“[time]”,生成时间项等等。在具体的应用场景中,假设内容信息为“五年前万科董事长是谁?”则替换为“[time][stock][position][是][person]?”,其中“是”为未识别出的内容,替换后的匹配信息包含5项。
在本申请的可选实施例中,为了确定匹配信息及已知问句模板是否匹配,准确把握用户的意图。所述判断所述匹配信息是否与已知问句模板匹配,具体包括:
对所述匹配信息及所述已知问句模板进行逐项对比,当所述匹配信息中的全部项与所述已知问句模板的全部项相同时,确定所述匹配信息及所述已知问句模板匹配成功。
其中,逐项对比即为按照匹配信息中各个项的顺序及内容,逐一顺序匹配,当完全一致时则认为匹配成功。即用户是按照模板格式进行输入的问句。
在本申请的可选实施例中,为了更加快捷的实现匹配信息与已知问句模板的匹配过程。所述判断所述匹配信息是否与已知问句模板匹配的匹配方式至少为:
完全匹配方式或正则匹配方式。
在本申请的可选实施例中,为了更为适应知识图谱的语言逻辑、分类逻辑等。所述分类器至少为:
支持向量机分类器和/或朴素贝叶斯分类器。
在本申请的可选实施例中,为了使用户输入的内容信息的格式统一。所述根据知识图谱对所述内容信息进行文本字符处理之前,还包括:
对所述内容信息进行文字标点标准化处理,统一调整所述内容信息的字符位置状态,利用正则表达式去除所述内容信息中的冗余符号。
其中,文字标点标准化处理即为对内容信息中的文字格式统一成简体中文或英文等,将标点的字体格式进行统一,例如:将“有利好資訊吗???”处理成“有利好资讯吗???”。统一调整所述内容信息的字符位置状态,即是指统一调整信息的全角半角状态,进行标准化。利用正则表达式去除所述内容信息中的冗余符号,即为利用正则表达式检测出内容信息中的多余符号(多余的标点、空格、空白段以及自定义符号等),并将其删除。例如:内容信息为“万科董事长是谁???”,调整后为“万科董事长是谁?”。
在具体的应用场景中,如图2所示,为本申请具体实施例提出的一种基于知识图谱的智能人机对话方法的在金融领域的具体实施流程示意图。
1)接收用户发送的问答语句(即内容信息);为方便描述,接下来,以用户输入问句“万科董事长是谁???”和“有利好資訊吗?”为例。在接收到用户的内容信息后,进一步地,进行中英文文字标点标准化、全角半角标准化、利用正则表达式去除样本中的冗余符号(多余的标点、空格、空白段以及自定义符号等)。如:上述用户输入的问句“万科董事长是谁???”和“有利好資訊吗?”经上述处理之后,可标准化为:“万科董事长是谁?”和“有利好资讯吗?”。其中,“万科董事长是谁?”是“有利好资讯吗?”的上文,两个问句直接有承接关系。
2)结合金融知识图谱,利用多模式串匹配、问句分字、时间表达式识别和数值表达式识别等算法模型对用户问句进行文本字符处理。
金融知识图谱主要可包括上市公司图谱、人物图谱、公司新闻图谱等。金融知识图谱以三元组的形式存储在数据库中,三元组包括指向节点、关系和被指向节点,格式如<指向节点,关系,被指向节点>。以公司图谱中的高管关系为例,三元组的格式为:<上市公司名称,董事长,人名>,以“万科董事长郁亮”为例,其在金融知识图谱中存储为<万科,董事长,郁亮>。
金融知识图谱中的节点和关系作为已标注数据参与到所述多模式串匹配算法模型中。如,“万科”作为已标注数据在所述算法模型中表示为“万科stock”,“郁亮”作为已标注数据在算法模型中表示为“郁亮person”。
从而,上述用户输入的问句“万科董事长是谁?”和“有利好资讯吗?”经所述多模式串匹配处理之后,可形成新的数据:“万科/stock董事长/position是谁/person?”和“有利好资讯/news吗?”。
3)根据得到的问句字符处理结果,对用户问句与已知问句进行匹配,主要采用基于完全匹配方式或基于正则匹配方式对用户的问句进行已知问句模板的匹配。
其中,基于完全匹配方式是指将用户输入的内容信息处理之后得到匹配信息(为方便描述,统称Sentence_A)与已知问句模板中的句子集(为方便描述,以下统称该句子集为Corpus_Sentence,其中的第i个句子为Corpus_Sentence_i)进行比对。经比对后,如果Sentence_A与句子集Corpus_Sentence中的第n个句子Corpus_Sentence_n完全相同,则认为匹配成功。
举例说明,如Corpus_Sentence中有已标注的句子Corpus_Sentence_i:“万科董事长是谁?”,那么当用户输入问句Sentence_A“浦发银行董事长是谁?”时,首先,根据文本字符处理、归一化等操作后,Sentence_A和Corpus_Sentence_i分别转化为:“[stock][position]是[person]?”和“[stock][position]是[person]?”。归一化后的问句完全相同,因此认为匹配成功。
基于正则匹配方式是指将用户内容信息处理之后得到匹配信息Sentence_A,与进行正则表示的已知问句模板中的句子集(为方便描述,以下统称该句子集为Corpus_Regularization_Sentence,其中的第i个句子为Corpus_regularization_Sentence_i,)进行模式匹配。经比对后,如果Sentence_A能够被句子集Corpus_Regularization_Sentence中的第n个句子Corpus_Regularization_Sentence_n正则匹配出,则认为匹配成功。
举例说明,Corpus_Regularization_Sentence中有进行正则表示句子Corpus_Regularization_Sentence_i:“$stock.{0,2}$position.{0,2}是.{0,2}(\u003F)?”,那么当用户输入投研问句“万科董事长是谁?”时,根据正则匹配方式,其表现形式为“$stock.{0,2}$position.{0,2}是.{0,2}(\u003F)?”与Corpus_Regularization_Sentence_i完全相同,则认为Sentence_A可以通过正则匹配匹配出,认为匹配成功。
当匹配不成功时,基于机器学习的语义匹配方法,主要包括以下几个关键流程:构建语义匹配训练样本集和测试样本集、文本预处理、特征选择、特征表示、训练分类器、对测试样本进行分类、测试结果评价等环节。其中,最为重要的环节是特征表示和分类器。在特征表示环节,采用向量空间模型和字向量模型进行特征表示。分类器采用支持向量机(SVM)和朴素贝叶斯(Bayes)。所述分类器的输入是将用户输入的匹配信息向量化表示后的向量,使用分类器进行判定,判定通过时,输出匹配到的已知问句模板。
当基于模板匹配和语义匹配都不能匹配出已知问句模板时,即分类器判定不通过时,进入问句推荐环节,即计算出与用户问句语义最相近的已知问句模板并推送给用户,让用户进行选择。用户所选择的已知问句模板即为所匹配出的已知问句模板。问句推荐主要采用向量相似度计算得到与用户问句最接近的1~5个候选已知问句模板,向量相似度计算采用夹角余弦相似度计算方法。
4)在匹配出已知问句模板之后,需要将已知问句的意图直接转给用户投研问句。比如,用户输入问句“平安银行的董事长现在是谁啊?”匹配出的已知问句模板为“万科董事长是谁”。“万科董事长是谁?”的意图分为“人-职位-公司”。所述意图“人-职位-公司”是指意图是“人”,而此“人”指的是处于“公司”的“职位”的人。因此,用户输入问句“平安银行的董事长现在是谁啊?”意图是想得到公司为平安银行、职位为董事长所对应的人,进而得到解答信息格式为“<[stock],[position],[person]>”,求解“[person]”或“<平安银行,董事长,?>”。
5)根据得到的用户问句所匹配到的已知问句和意图映射结果,结合金融知识图谱进行结果生成。在所述金融知识图谱中,公司被表示为实体,董事长被表示为关系,即存在关系<公司,董事长,人物>。
在上述用户输入的问句“平安银行的董事长现在是谁啊?”中,在所述金融知识图谱中进行结果检索,即为补全三元组<平安银行,董事长,?>。可直接进行三元组的查询,并得到结果“谢永林”,并反馈给用户。
基于同一发明构思,本发明实施例还提供了一种基于知识图谱的智能人机对话设备,如图3所示,包括:
获取模块301,获取用户输入的内容信息;
生成模块302,根据知识图谱对所述内容信息进行文本字符处理,基于所述文本字符处理的处理结果进行归一化处理,生成匹配信息及对应关系信息;
判断模块303,判断所述匹配信息是否与已知问句模板匹配;
分类器模块304,若否,则按照预设特征选择规则对所述匹配信息进行特征选择,利用向量模型进行特征表示,将特征表示结果输入分类器进行结果判定;
执行模块305,若判定通过,则所述分类器的输出结果为所述匹配信息对应的第一已知问句模板,根据所述第一已知问句模板确定解答信息格式,根据所述解答信息格式及所述对应关系信息在所述知识图谱中确定解答信息,输出所述解答信息。
在一个可选的实施例中,所述判断模块303判断所述匹配信息是否与已知问句模板匹配,还包括:
若是,则确定与所述匹配信息对应的第二已知问句模板,根据所述第二已知问句模板确定解答信息格式,根据所述解答信息格式及所述对应关系信息在所述知识图谱中确定解答信息,输出所述解答信息。
在一个可选的实施例中,所述分类器模块304将特征表示结果输入分类器进行结果判定,还包括:
若判定不通过,则根据所述特征表示结果与所述已知问句模板进行向量相似度计算,确定相似度达到预设条件的至少一个第三已知问句模板;
输出所述第三已知问句模板供用户进行选择;
根据用户选择的所述第三已知问句模板确定解答信息格式,根据所述解答信息格式及所述对应关系信息在所述知识图谱中确定解答信息,输出所述解答信息。
在一个可选的实施例中,所述生成模块302根据知识图谱对所述内容信息进行文本字符处理,具体包括:
对所述内容信息进行特定信息识别,将识别出的第一信息进行特定标注;
根据知识图谱中的所有指标对应的所有术语,确定所有所述术语的等同关系,将所述内容信息按照所述等同关系与所述术语进行多模式串匹配,识别出第二信息,将所述第二信息按照所述指标进行指标标注。
在一个可选的实施例中,所述生成模块302基于所述文本字符处理的处理结果进行归一化处理,具体包括:
根据所述特定标注及所述指标标注,将所述内容信息进行信息与标注项的替换。
在一个可选的实施例中,所述判断模块303判断所述匹配信息是否与已知问句模板匹配,具体包括:
对所述匹配信息及所述已知问句模板进行逐项对比,当所述匹配信息中的全部项与所述已知问句模板的全部项相同时,确定所述匹配信息及所述已知问句模板匹配成功。
在一个可选的实施例中,所述判断模块303判断所述匹配信息是否与已知问句模板匹配的匹配方式至少为:
完全匹配方式或正则匹配方式。
在一个可选的实施例中,所述分类器模块304的分类器至少为:
支持向量机分类器和/或朴素贝叶斯分类器。
在一个可选的实施例中,所述生成模块302根据知识图谱对所述内容信息进行文本字符处理之前,还包括:
对所述内容信息进行文字标点标准化处理,统一调整所述内容信息的字符位置状态,利用正则表达式去除所述内容信息中的冗余符号。
上述实施例的设备用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于知识图谱的智能人机对话方法,其特征在于,包括:
获取用户输入的内容信息;
根据知识图谱对所述内容信息进行文本字符处理,基于所述文本字符处理的处理结果进行归一化处理,生成匹配信息及对应关系信息;其中,所述文本字符处理为根据所述知识图谱对所述内容信息进行项的划分,生成所述处理结果;
判断所述匹配信息是否与已知问句模板匹配;
若否,则按照预设特征选择规则对所述匹配信息进行特征选择,利用向量模型进行特征表示,将特征表示结果输入分类器进行结果判定;
若判定通过,则所述分类器的输出结果为所述匹配信息对应的第一已知问句模板,根据所述第一已知问句模板确定解答信息格式,根据所述解答信息格式及所述对应关系信息在所述知识图谱中确定解答信息,输出所述解答信息;
所述判断所述匹配信息是否与已知问句模板匹配,还包括:
若是,则确定与所述匹配信息对应的第二已知问句模板,根据所述第二已知问句模板确定解答信息格式,根据所述解答信息格式及所述对应关系信息在所述知识图谱中确定解答信息,输出所述解答信息;
所述将特征表示结果输入分类器进行结果判定,还包括:
若判定不通过,则根据所述特征表示结果与所述已知问句模板进行向量相似度计算,确定相似度达到预设条件的至少一个第三已知问句模板;
输出所述第三已知问句模板供用户进行选择;
根据用户选择的所述第三已知问句模板确定解答信息格式,根据所述解答信息格式及所述对应关系信息在所述知识图谱中确定解答信息,输出所述解答信息。
2.根据权利要求1所述的方法,其特征在于,所述根据知识图谱对所述内容信息进行文本字符处理,具体包括:
对所述内容信息进行特定信息识别,将识别出的第一信息进行特定标注;
根据知识图谱中的所有指标对应的所有术语,确定所有所述术语的等同关系,将所述内容信息按照所述等同关系与所述术语进行多模式串匹配,识别出第二信息,将所述第二信息按照所述指标进行指标标注。
3.根据权利要求2所述的方法,其特征在于,所述基于所述文本字符处理的处理结果进行归一化处理,具体包括:
根据所述特定标注及所述指标标注,将所述内容信息进行信息与标注项的替换。
4.根据权利要求3所述的方法,其特征在于,所述判断所述匹配信息是否与已知问句模板匹配,具体包括:
对所述匹配信息及所述已知问句模板进行逐项对比,当所述匹配信息中的全部项与所述已知问句模板的全部项相同时,确定所述匹配信息及所述已知问句模板匹配成功。
5.根据权利要求1或4所述的方法,其特征在于,所述判断所述匹配信息是否与已知问句模板匹配的匹配方式至少为:
完全匹配方式或正则匹配方式。
6.根据权利要求1所述的方法,其特征在于,所述分类器至少为:
支持向量机分类器和/或朴素贝叶斯分类器。
7.根据权利要求1所述的方法,其特征在于,所述根据知识图谱对所述内容信息进行文本字符处理之前,还包括:
对所述内容信息进行文字标点标准化处理,统一调整所述内容信息的字符位置状态,利用正则表达式去除所述内容信息中的冗余符号。
8.一种基于知识图谱的智能人机对话设备,其特征在于,包括:
获取模块,获取用户输入的内容信息;
生成模块,根据知识图谱对所述内容信息进行文本字符处理,基于所述文本字符处理的处理结果进行归一化处理,生成匹配信息及对应关系信息;其中,所述文本字符处理为根据所述知识图谱对所述内容信息进行项的划分,生成所述处理结果;
判断模块,判断所述匹配信息是否与已知问句模板匹配;
分类器模块,若否,则按照预设特征选择规则对所述匹配信息进行特征选择,利用向量模型进行特征表示,将特征表示结果输入分类器进行结果判定;
执行模块,若判定通过,则所述分类器的输出结果为所述匹配信息对应的第一已知问句模板,根据所述第一已知问句模板确定解答信息格式,根据所述解答信息格式及所述对应关系信息在所述知识图谱中确定解答信息,输出所述解答信息;
所述判断所述匹配信息是否与已知问句模板匹配,还包括:
若是,则确定与所述匹配信息对应的第二已知问句模板,根据所述第二已知问句模板确定解答信息格式,根据所述解答信息格式及所述对应关系信息在所述知识图谱中确定解答信息,输出所述解答信息;
所述将特征表示结果输入分类器进行结果判定,还包括:
若判定不通过,则根据所述特征表示结果与所述已知问句模板进行向量相似度计算,确定相似度达到预设条件的至少一个第三已知问句模板;
输出所述第三已知问句模板供用户进行选择;
根据用户选择的所述第三已知问句模板确定解答信息格式,根据所述解答信息格式及所述对应关系信息在所述知识图谱中确定解答信息,输出所述解答信息。
CN202010037830.7A 2020-01-14 2020-01-14 一种基于知识图谱的智能人机对话方法及设备 Active CN111274371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010037830.7A CN111274371B (zh) 2020-01-14 2020-01-14 一种基于知识图谱的智能人机对话方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010037830.7A CN111274371B (zh) 2020-01-14 2020-01-14 一种基于知识图谱的智能人机对话方法及设备

Publications (2)

Publication Number Publication Date
CN111274371A CN111274371A (zh) 2020-06-12
CN111274371B true CN111274371B (zh) 2023-09-29

Family

ID=71003000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010037830.7A Active CN111274371B (zh) 2020-01-14 2020-01-14 一种基于知识图谱的智能人机对话方法及设备

Country Status (1)

Country Link
CN (1) CN111274371B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148853A (zh) * 2020-09-15 2020-12-29 上海风秩科技有限公司 查询结果的确定方法及装置、存储介质、电子装置
CN112395392A (zh) * 2020-11-27 2021-02-23 浪潮云信息技术股份公司 一种意图识别方法及装置、可读存储介质
CN112966492A (zh) * 2021-02-09 2021-06-15 柳州智视科技有限公司 利用已知知识解决问题的方法
CN113377935A (zh) * 2021-05-24 2021-09-10 海南师范大学 一种自动分流实现智能客服的系统及方法
CN114510558A (zh) * 2022-01-26 2022-05-17 北京博瑞彤芸科技股份有限公司 一种基于中医知识图谱的问答方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766483A (zh) * 2017-10-13 2018-03-06 华中科技大学 一种基于知识图谱的交互式问答方法及系统
CN107818164A (zh) * 2017-11-02 2018-03-20 东北师范大学 一种智能问答方法及其系统
CN108509519A (zh) * 2018-03-09 2018-09-07 北京邮电大学 基于深度学习的通用知识图谱增强问答交互系统及方法
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN109492077A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于知识图谱的石化领域问答方法及系统
CN110297893A (zh) * 2019-05-16 2019-10-01 平安科技(深圳)有限公司 自然语言问答方法、装置、计算机装置及存储介质
CN110399457A (zh) * 2019-07-01 2019-11-01 吉林大学 一种智能问答方法和系统
CN110647614A (zh) * 2019-08-01 2020-01-03 平安科技(深圳)有限公司 智能问答方法、装置、介质及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766483A (zh) * 2017-10-13 2018-03-06 华中科技大学 一种基于知识图谱的交互式问答方法及系统
CN107818164A (zh) * 2017-11-02 2018-03-20 东北师范大学 一种智能问答方法及其系统
CN108509519A (zh) * 2018-03-09 2018-09-07 北京邮电大学 基于深度学习的通用知识图谱增强问答交互系统及方法
CN109492077A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于知识图谱的石化领域问答方法及系统
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN110297893A (zh) * 2019-05-16 2019-10-01 平安科技(深圳)有限公司 自然语言问答方法、装置、计算机装置及存储介质
CN110399457A (zh) * 2019-07-01 2019-11-01 吉林大学 一种智能问答方法和系统
CN110647614A (zh) * 2019-08-01 2020-01-03 平安科技(深圳)有限公司 智能问答方法、装置、介质及电子设备

Also Published As

Publication number Publication date
CN111274371A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111274371B (zh) 一种基于知识图谱的智能人机对话方法及设备
CN109871446B (zh) 意图识别中的拒识方法、电子装置及存储介质
CN111046133B (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
WO2021253904A1 (zh) 测试案例集生成方法、装置、设备及计算机可读存储介质
CN107291783B (zh) 一种语义匹配方法及智能设备
CN109597994B (zh) 短文本问题语义匹配方法和系统
US11113323B2 (en) Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering
CN112632226B (zh) 基于法律知识图谱的语义搜索方法、装置和电子设备
CN111090719B (zh) 文本分类方法、装置、计算机设备及存储介质
CN110827797B (zh) 语音应答事件分类处理方法和装置
CN112035675A (zh) 医疗文本标注方法、装置、设备及存储介质
CN112395410A (zh) 一种基于实体抽取的产业舆情推荐方法、装置及电子设备
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN112131876A (zh) 一种基于相似度确定标准问题的方法及系统
CN113762392A (zh) 基于人工智能的理财产品推荐方法、装置、设备及介质
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN112988970A (zh) 一种服务于智能问答系统的文本匹配算法
CN112632258A (zh) 文本数据处理方法、装置、计算机设备和存储介质
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN114255096A (zh) 数据需求匹配方法和装置、电子设备、存储介质
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN113157887B (zh) 知识问答意图识别方法、装置、及计算机设备
CN118132669A (zh) 一种基于大语言模型的智能索引方法
CN117932058A (zh) 基于文本分析的情绪识别方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant