CN111723186A - 用于对话系统的基于人工智能的知识图谱生成方法、电子设备 - Google Patents

用于对话系统的基于人工智能的知识图谱生成方法、电子设备 Download PDF

Info

Publication number
CN111723186A
CN111723186A CN202010579565.5A CN202010579565A CN111723186A CN 111723186 A CN111723186 A CN 111723186A CN 202010579565 A CN202010579565 A CN 202010579565A CN 111723186 A CN111723186 A CN 111723186A
Authority
CN
China
Prior art keywords
entity
knowledge
graph
determining
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010579565.5A
Other languages
English (en)
Inventor
周纯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Fuwan Information Technology Co ltd
Original Assignee
Ningbo Fuwan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Fuwan Information Technology Co ltd filed Critical Ningbo Fuwan Information Technology Co ltd
Priority to CN202010579565.5A priority Critical patent/CN111723186A/zh
Publication of CN111723186A publication Critical patent/CN111723186A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本公开的实施例公开了用于对话系统的基于人工智能的知识图谱生成方法、电子设备。该方法的一具体实施方式包括:获取输入文本;基于输入文本,确定实体特征集合;基于输入文本,生成语义关系集合;基于实体集合和语义关系集合,确定知识图谱;存储并输出所述知识图谱。该方法基于输入文本生成的实体特征集合和语义关系集合构建知识图谱,能够更好的表征对话系统中的问答信息。对知识图谱加密后进行存储,提高了所存储的知识图谱的安全性和不可篡改性。

Description

用于对话系统的基于人工智能的知识图谱生成方法、电子 设备
技术领域
本公开实施例涉及自然语言处理领域,具体涉及一种知识图谱生成和存储的方法、电子设备。
背景技术
随着人工智能技术的发展,人机对话系统,或者会话交互,有望成为物联网时代的主要交互方式。而语言的理解与表达和知识是密切联系的,知识图谱作为一种大规模知识的表示形式,在人机对话系统中各模块都有重要的应用。知识图谱以图谱的形式描述真实世界的实体及其内在关系,用模式定义可能的类和实体关系,允许任意实体彼此潜在相互关联,并涵盖各种主题领域。引入知识图谱技术,能够对对话系统中的信息进行结构化、语义化和智能化的处理与应用,从而提升对话系统的效果。
发明内容
本公开实施例提出了一种用于对话系统的基于人工智能的知识图谱生成方法。
第一方面,本公开实施例提供了一种用于对话系统的基于人工智能的知识图谱生成方法,该方法包括:获取输入文本;基于输入文本,确定实体特征集合;基于输入文本,生成语义关系集合;基于实体特征集合和语义关系集合,确定知识图谱;存储并输出知识图谱。
在一些实施例中,用于对话系统的基于人工智能的知识图谱生成方法还包括:响应于确定知识图谱是用于对话系统的知识图谱,将知识图谱发送至支持显示的设备,控制设备显示知识图谱。
在一些实施例中,基于输入文本,确定实体特征集合,包括:对输入文本进行分词切分,得到输入文本包括的实体集合;对于实体集合中的每个实体,确定该实体的结构化特征,得到实体集合的结构化特征集合;对于实体集合中的每个实体,确定该实体的非结构化特征,得到实体集合的非结构化特征集合;合并结构化特征集合和非结构化特征集合,得到实体特征集合。
在一些实施例中,对于实体集合中的每个实体,确定该实体的结构化特征,包括:确定该实体在输入文本中出现次数的独热向量;确定该实体在输入文本中出现类型的独热向量;串联出现次数的独热向量和出现类型的独热向量,得到该实体的结构化特征。
在一些实施例中,对于实体集合中的每个实体,确定该实体的非结构化特征,包括:将该实体输入预先训练的第一神经网络;将预先训练的第一神经网络的最后一层隐藏层的值作为该实体的非结构化特征输出。
在一些实施例中,输入文本,生成语义关系集合,包括:基于输入文本,生成文本特征;将文本特征输入预先训练的第二神经网络,生成第一特征;将文本特征输入预先训练的第三神经网络,生成第二特征;融合第一特征和第二特征,生成第三特征;将第三特征输入预先训练的分类器,利用下式生成分类结果矩阵:
Figure BDA0002552682000000022
其中,F表示第三特征,M是与F形状相同的随机产生的二值向量,
Figure BDA0002552682000000023
表示拼接处理,V表示权值矩阵,c为偏置值,s为分类结果矩阵,s是m×N维的矩阵,m为预先确定的语义关系的类别总数,N为实体集合中的实体数量,g()表示预先训练得到的选择函数,s中第i行第j列元素的值表示第j个实体所表征的语义关系属于第i类语义关系的概率,i∈[1,m],j∈[1,N];将s中每一列中值最大元素的行所对应的语义关系确定为该实体的语义关系,得到输入文本的语义关系集合。
在一些实施例中,基于实体特征集合和语义关系集合,确定并输出知识图谱,包括:将实体集合中的各个实体确定为知识图谱的节点,其中,知识图谱包括第一数目个节点;基于语义关系集合中的各个语义关系,确定知识图谱的边,其中,知识图谱包括第二数目个边。
在一些实施例中,存储并输出所述知识图谱,包括:将知识图谱切分为第三数目个数据块,生成知识图谱块集合;利用下式确定编码矩阵:
Figure BDA0002552682000000021
其中,k为知识图谱块集合中的知识图谱块数量,δ为冗余位数值,δ可以是任何整数,t为容错值,t可以是任何整数,I包括k行和k列,
Figure BDA0002552682000000031
R为随机矩阵,R包括k+δ+t行和k列,
Figure BDA0002552682000000032
R中的全部元素r随机按照概率0.5独立选取“0”或“1”;利用编码矩阵G去乘知识图谱块集合,得到加密后的知识图谱块集合;存储加密后的知识图谱块集合
在一些实施例中,预先训练的第一神经网络包括输入层、隐藏层和输出层,以及将该实体输入预先训练的第一神经网络,包括:将该实体输入输入层,生成该实体的词向量x;将词向量x输入隐藏层,利用下式计算隐藏层的输出,h=tanh(b+Hx),其中,b表示隐藏层的偏置参数,H为隐藏层的转换矩阵,tanh()表示激活函数,x表示词向量,Hx表示利用转换矩阵H对词向量x进行特征转换的结果,h表示第一输出特征;将第一输出特征输入输出层,利用下式计算输出层的输出:y=a+Wx+Uh,其中,a表示输出层的偏置参数,W和U分别为预先训练得到的输出层的系数矩阵,x表示词向量,h表示第一输出特征,y表示第二输出特征,y为输出层的输出。
第二方面,本公开实施例提供了一种终端设备,该终端设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。
本公开实施例提供一种用于对话系统的基于人工智能的知识图谱生成方法,获取输入文本;基于输入文本,确定实体特征集合;基于输入文本,生成语义关系集合;基于实体集合和语义关系集合,确定知识图谱;存储并输出所述知识图谱。
本公开的上述各个实施例中的一个实施例具有如下有益效果:利用输入文本,确定输入文本中所包含的实体特征集合和语义关系集合。将实体特征集合和语义关系集合构建为知识图谱,利用结构化、语义化和智能化的知识图谱结构存储输入文本中所包含的对话系统中的信息。将知识图谱加密后存储并显示。本公开的实施例基于输入文本生成的实体特征集合和语义关系集合构建知识图谱,能够更好的表征对话系统中的问答信息。对知识图谱加密后进行存储,提高了所存储的知识图谱的安全性和不可篡改性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的一些实施例可以应用于其中的示例性系统的架构图;
图2是根据本公开的用于对话系统的基于人工智能的知识图谱生成方法的一些实施例的流程图;
图3是根据本公开的用于对话系统的知识图谱生成装置的一些实施例的结构示意图;
图4是适于用来实现本公开的一些实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的用于对话系统的基于人工智能的知识图谱生成方法的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如信息抽取应用、数据分析应用、自然语言处理应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种终端设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的终端设备中。其可以实现成多个软件或软件模块(例如用来提供目标单词输入等),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103输入的文本进行处理的服务器等。服务器可以对接收到的目标文本进行语义关系提取、实体抽取、知识图谱生成等处理,并将处理结果(例如生成的知识图谱)反馈给终端设备。
需要说明的是,本公开实施例所提供的用于对话系统的基于人工智能的知识图谱生成方法可以由服务器105,也可以由终端设备执行。
需要指出的是,服务器105的本地也可以直接存储文本,服务器105可以直接提取本地的文本通过处理后得到知识图谱,此时,示例性系统架构100可以不包括终端设备101、102、103和网络104。
还需要指出的是,终端设备101、102、103中也可以安装有知识图谱生成应用,此时,处理方法也可以由终端设备101、102、103执行。此时,示例性系统架构100也可以不包括服务器105和网络104。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供知识图谱生成服务),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本公开的用于对话系统的基于人工智能的知识图谱生成方法的一些实施例的流程200。该用于对话系统的基于人工智能的知识图谱生成方法,包括以下步骤:
步骤201,获取输入文本。
在一些实施例中,用于对话系统的基于人工智能的知识图谱生成方法的执行主体(例如图1所示的终端设备)可以直接获取输入的文本。可选的,输入的文本可以是对话系统中的对话文本。输入文本可以包含表达咨询天气情况的对话语句。
上述输入文本可以是与上述执行主体通信连接的终端设备(例如图1所示的终端设备101、102、103)通过有线连接方式或无线连接方式上传至上述执行主体中的,也可以是上述执行主体本地所存储的。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
步骤202,基于输入文本,确定实体特征集合。
在一些实施例中,上述执行主体对输入文本进行分词切分,得到输入文本包括的实体集合。可选的,把中文的句子切分成有意义的词,就是分词切分的过程。进行分词切分的方法可以是基于字典匹配的切分、基于词频统计的切分和基于知识理解的切分。具体的,基于字典匹配的切分将预先确定的词典中的所有词按由长到短的顺序在语句中逐字搜索,直至语句结束。基于词频统计的切分根据词的统计信息,包括但不限于相邻词间的信息、词频、相邻词的共现信息等等,识别出分词并切分。基于知识理解的切分基于语句的句法、语法分析,并结合语义分析,通过对该条语句的上下文内容所提供信息的分析对词进行界定并切分。通过分词切分处理后,将输入文本切分成有意义的单个词,得到输入文本中所包含的实体集合。具体的,实体可以表示具体的事物。对话系统中的实体可以包括但不限于以下之一:对话系统相关的问题对象、问题事务、问题实物等等。具体的,对话系统可以是表征对话过程的系统,对话系统可以包括问题语句和答案语句。实体可以是天气情况、机构名称、人名、地名等等。问题对象可以是姓名、年龄等等。问题事物可以是年龄、出生地、注册地等等。问题实物可以是杯子、蔬菜、水果等等。
对于实体集合中的每个实体,执行下述步骤一,确定该实体的结构化特征。
步骤一,确定该实体在所述输入文本中出现次数的独热向量。具体的,独热向量可以是一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码。N表示独热向量的维度,状态是指独热向量中每个元素的取值。在独热向量中,每个元素的状态/取值都是独立确定的,并且在任意时刻只有一个元素状态有效。具体的,只有该实体对应的状态有效。该实体在输入文本的实体集合中出现次数的独热向量中,将实体集合中的每个实体确定为独热向量中的一个元素,独热向量的维度N为实体集合中所包含的实体数量。只有一个元素的取值是非“0”的。具体的,该元素的取值对应该实体出现的次数。其它元素取值均为“0”。
确定该实体在输入文本中出现类型的独热向量。具体的,独热向量的维度N为输入文本的实体集合中所包含的实体数量,只有该实体对应的状态有效。该实体在输入文本的实体集合中出现类型的独热向量中,只有一个元素的取值是非“0”的。其它元素的取值都为“0”。对实体类型进行预先编码,具体的,名词可以是“1”,动词可以是“2”,虚词可以是“3”。该元素的取值对应该实体的类型。其它元素取值均为“0”。
串联出现次数的独热向量和出现类型的独热向量,得到该实体的结构化特征。具体的,将出现次数的独热向量和出现类型的独热向量进行首尾相联,得到该实体的结构化特征。
得到输入文本的实体集合中每个实体的结构化特征后,将全部结构化特征的集合确定为输入文本的实体集合的结构化特征集合。
可选的,对于实体集合中的每个实体,执行下述步骤二,确定该实体的非结构化特征。
步骤二,将该实体输入预先训练的第一神经网络。将预先训练的第一神经网络的输出层的输出作为该实体的非结构化特征。预先训练的第一神经网络包括输入层、隐藏层和输出层。具体的,将该实体输入输入层,生成该实体的词向量。利用x表示实体的词向量。词嵌入是自然语言处理(Natural Language Processing,NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词/实体的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个词/实体被映射为实数域上的向量。具体地,词向量(wordvector)可以是词/实体通过词嵌入方法被映射到实数的向量。从概念上讲,它涉及从每个词/实体一维的空间到具有更低维度的连续向量空间的数学嵌入。
将词向量x输入隐藏层,利用下式计算隐藏层的输出:
h=tanh(b+Hx)
其中,b表示隐藏层偏置参数,H为转换矩阵,tanh()表示激活函数,x表示词向量,Hx表示利用转换矩阵H对词向量x进行特征转换的结果,h表示隐藏层的第一输出特征。
输出层利用下式计算其输出:
y=a+Wx+Uh
其中,a表示输出层偏置参数,W和U分别为预先训练得到的输出层的系数矩阵,x表示词向量,h表示第一输出特征,y表示输出层的第二输出特征。y可以是该实体的非结构化特征。
得到输入文本的实体集合中每个实体的非结构化特征后,将全部非结构化特征的集合确定为输入文本的实体集合的非结构化特征集合。
合并结构化特征集合和非结构化特征集合,得到实体特征集合。具体的,合并操作是指将两个集合中的元素放置在一起。
步骤203,基于输入文本,生成语义关系集合。
在一些实施例中,上述执行主体利用下式,基于输入文本生成文本特征:
z=[e(w1);...;e(wN)]
其中,w表示输入文本的实体集合中的实体,e表示实体的结构化特征,w1表示文本中的第一个实体,e(w1)表示第一个实体的结构化特征,wN表示第N个实体,N为实体集合中的实体数量,e(wN)表示第N个实体的结构化特征。z表示文本特征。
将z输入预先训练的第二神经网络,生成第一特征。将z输入预先训练的第三神经网络,生成第二特征。可选的,第二神经网络、第三神经网络可以是长短期记忆网络(LSTM,Long Short-Term Memory)。在确定的计算时刻中,将z同时输入第二神经网络、第三神经网络。将得到的两个输出分别确定为第一特征和第二特征。
利用下式融合第一特征和第二特征,生成第三特征:
Figure BDA0002552682000000091
其中,u表示第一特征,d表示第二特征,
Figure BDA0002552682000000092
表示拼接处理,F为第三特征。将第三特征输入预先训练的分类器,将得到的输出确定为语义关系集合。具体的,预先训练的分类器利用下式生成分类结果矩阵:
Figure BDA0002552682000000093
其中,F为第三特征,M是与F形状相同的随机产生的二值向量。具体的,M与F形状相同是指M与F具有相同的向量维度、元素属性。
Figure BDA0002552682000000094
表示拼接处理,V表示分类器的权值矩阵,c为分类器的偏置值,g()表示预先训练得到的分类器的选择函数。具体的,g()可以是支持向量机(SVM)、线性判别分析(LDA)、K最近邻分类器(KNN)等等。s为分类结果矩阵。s是m×N维的矩阵,m为预先确定的语义关系的类别总数,N为输入文本的实体集合中的实体数量。s中第i行第j列元素的值表示第j个实体所表征的语义关系属于第i类语义关系的概率。i∈[1,m],j∈[1,N]。根据分类结果矩阵s,将每一列中值最大元素的行所对应的语义关系确定为该实体的语义关系,得到输入文本的语义关系集合。
可选的,预先确定的语义关系可以是不同类型的语义关系。包括但不限于以下之一:“判断关系”、“隶属关系”、“形容关系”、“限定关系”、“否定关系”、“包含关系”、“排除关系”等等。
步骤205,基于实体特征集合和语义关系集合,确定知识图谱。
在一些实施例中,上述执行主体基于实体特征集合和语义关系集合,确定知识图谱。具体的,将实体特征集合中的各个实体特征确定为知识图谱的节点。其中,知识图谱包括第一数目N个节点。基于语义关系集合中的各个语义关系,确定知识图谱的边。其中,知识图谱包括第二数目m个边。可选的,知识图谱可以是图结构数据,其中每个节点包括实体的特征和信息。实体信息可以对应于具体的事物。具体的,知识图谱中的节点可以包括但不限于以下之一:问答系统相关的问题对象、问题事务、问题实物等等。
步骤206,存储并输出所述知识图谱。
在一些实施例中,上述执行主体将知识图谱切分为第三数目个数据块,生成知识图谱块集合。
利用下式确定编码矩阵:
Figure BDA0002552682000000101
其中,k为知识图谱块集合中的知识图谱块数量,δ为冗余位数值,δ可以是任何整数,t为容错值,t可以是任何整数,I为矩阵,I包括k行和k列,
Figure BDA0002552682000000102
R为随机矩阵,R包括k+δ+t行和k列,
Figure BDA0002552682000000103
R中的全部元素r随机按照概率值“0.5”独立选取“0”或“1”。
可选的,利用编码矩阵G去乘知识图谱块集合,得到加密后的知识图谱块集合。加密后的知识图谱块集合中包括第三数目k个加密的知识图谱块。存储加密后的知识图谱块集合。
可选的,上述执行主体响应于确定知识图谱是用于对话系统的知识图谱,将知识图谱发送至支持显示的设备,控制设备显示所述知识图谱。其中,支持显示的设备可以是与上述执行主体通信连接的设备,可以将接收到的知识图谱展示出来。展示知识图谱,有利于提示对话系统的文本所包含的实体和语义关系信息,方便对对话文本的理解,提高应对操作的水平。
图2给出的一个实施例具有如下有益效果:利用输入文本,确定输入文本中所包含的实体特征集合和语义关系集合。将实体特征集合和语义关系集合构建为知识图谱,利用结构化、语义化和智能化的知识图谱结构存储输入文本中所包含的对话系统中的信息。将知识图谱加密后存储并显示。本公开的实施例基于输入文本生成的实体特征集合和语义关系集合构建知识图谱,能够更好的表征对话系统中的问答信息。对知识图谱加密后进行存储,提高了所存储的知识图谱的安全性和不可篡改性。
进一步参考图3,作为对上述各图所示方法的实现,本公开提供了一种用于对话系统的知识图谱生成装置的一些实施例,这些装置实施例与图2所示的用于对话系统的基于人工智能的知识图谱生成方法的实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,一些实施例的用于对话系统的知识图谱生成装置300包括:接收单元301、第一生成单元302、第二生成单元303、确定单元304、输出单元305。其中,接收单元301被配置成获取输入文本。第一生成单元302被配置成基于输入文本,确定实体特征集合。第二生成单元303被配置成基于输入文本,生成语义关系集合。确定单元304被配置成基于实体特征集合和语义关系集合,确定知识图谱。确定单元305被配置成存储并输出知识图谱。
本公开的一些实施例提供的装置,根据接收单元所接收到的输入文本,生成实体特征集合和语义关系集合。根据实体特征集合和语义关系集合生成知识图谱,用于对话系统的信息存储和展示,能够提升对话系统语句输出任务的性能,使得输出的语句更符合对话系统的要求。
下面参考图4,其示出了适于用来实现本公开实施例的服务器的计算机系统400的结构示意图。图4示出的服务器仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统400包括中央处理单元(CPU,Central Processing Unit)401,其可以根据存储在只读存储器(ROM,Read Only Memory)402中的程序或者从存储部分408加载到随机访问存储器(RAM,Random Access Memory)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有系统400操作所需的各种程序和数据。CPU 401、ROM402以及RAM 403通过总线404彼此相连。输入/输出(I/O,Input/Output)接口405也连接至总线404。
以下部件连接至I/O接口405:包括硬盘等的存储部分406;以及包括诸如LAN(局域网,Local Area Network)卡、调制解调器等的网络接口卡的通信部分407。通信部分407经由诸如因特网的网络执行通信处理。驱动器408也根据需要连接至I/O接口405。可拆卸介质409,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器408上,以便于从其上读出的计算机程序根据需要被安装入存储部分406。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分407从网络上被下载和安装,和/或从可拆卸介质409被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本公开的方法中限定的上述功能。需要说明的是,本公开所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种用于对话系统的基于人工智能的知识图谱生成方法,包括:
获取输入文本;
基于所述输入文本,确定实体特征集合;
基于所述输入文本,生成语义关系集合;
基于所述实体特征集合和所述语义关系集合,确定知识图谱;
存储并输出所述知识图谱。
2.根据权利要求1所述的方法,其中,所述方法还包括:
响应于确定所述知识图谱是用于对话系统的知识图谱,将所述知识图谱发送至支持显示的设备,控制所述设备显示所述知识图谱。
3.根据权利要求2所述的方法,其中,所述基于所述输入文本,确定实体特征集合,包括:
对所述输入文本进行分词切分,得到所述输入文本包括的实体集合;
对于所述实体集合中的每个实体,确定该实体的结构化特征,得到所述实体集合的结构化特征集合;
对于所述实体集合中的每个实体,确定该实体的非结构化特征,得到所述实体集合的非结构化特征集合;
合并所述结构化特征集合和所述非结构化特征集合,得到所述实体特征集合。
4.根据权利要求3所述的方法,其中,所述对于所述实体集合中的每个实体,确定该实体的结构化特征,包括:
确定该实体在所述输入文本中出现次数的独热向量;
确定该实体在所述输入文本中出现类型的独热向量;
串联所述出现次数的独热向量和所述出现类型的独热向量,得到该实体的结构化特征。
5.根据权利要求4所述的方法,其中,所述对于所述实体集合中的每个实体,确定该实体的非结构化特征,包括:
将该实体输入预先训练的第一神经网络;
将所述预先训练的第一神经网络的输出层的输出作为该实体的非结构化特征。
6.根据权利要求5所述的方法,其中,所述基于所述输入文本,生成语义关系集合,包括:
基于所述输入文本,生成文本特征;
将所述文本特征输入预先训练的第二神经网络,生成第一特征;
将所述文本特征输入预先训练的第三神经网络,生成第二特征;
融合所述第一特征和所述第二特征,生成第三特征;
将所述第三特征输入预先训练的分类器,利用下式生成分类结果矩阵:
Figure FDA0002552681990000021
其中,F表示所述第三特征,M是与F形状相同的随机产生的二值向量,
Figure FDA0002552681990000022
表示拼接处理,V表示权值矩阵,c为偏置值,s为分类结果矩阵,s是m×N维的矩阵,m为预先确定的语义关系的类别总数,N为所述实体集合中的实体数量,g()表示预先训练得到的选择函数,s中第i行第j列元素的值表示第j个实体所表征的语义关系属于第i类语义关系的概率,i∈[1,m],j∈[1,N];
将s中每一列中值最大元素的行所对应的语义关系确定为该实体的语义关系,得到输入文本的语义关系集合。
7.根据权利要求6所述的方法,其中,所述基于所述实体特征集合和所述语义关系集合,确定并输出知识图谱,包括:
将所述实体特征集合中的各个实体特征确定为所述知识图谱的节点,其中,所述知识图谱包括第一数目个节点;
基于所述语义关系集合中的各个语义关系,确定所述知识图谱的边,其中,所述知识图谱包括第二数目个边。
8.根据权利要求7所述的方法,其中,所述存储并输出所述知识图谱,包括:
将所述知识图谱切分为第三数目个数据块,生成知识图谱块集合;
利用下式确定编码矩阵:
Figure FDA0002552681990000031
其中,k为所述知识图谱块集合中的知识图谱块数量,k为第三数目,δ为冗余位数值,δ可以是任何整数,t为容错值,t可以是任何整数,I为矩阵,I包括k行和k列,
Figure FDA0002552681990000032
R为随机矩阵,R包括k+δ+t行和k列,
Figure FDA0002552681990000033
R中的全部元素r随机按照概率值“0.5”独立选取“0”或“1”;
利用所述编码矩阵G去乘所述知识图谱块集合,得到加密后的知识图谱块集合;
存储所述加密后的知识图谱块集合。
9.根据权利要求5所述的方法,所述预先训练的第一神经网络包括输入层、隐藏层和输出层,以及
所述将该实体输入预先训练的第一神经网络,包括:
将该实体输入所述输入层,生成该实体的词向量x;
将所述词向量x输入所述隐藏层,利用下式计算所述隐藏层的输出,h=tanh(b+Hx),其中,b表示所述隐藏层的偏置参数,H为所述隐藏层的转换矩阵,tanh()表示激活函数,x表示所述词向量,Hx表示利用所述转换矩阵H对所述词向量x进行特征转换的结果,h表示第一输出特征;
将所述第一输出特征输入所述输出层,利用下式计算所述输出层的输出:y=a+Wx+Uh,其中,a表示所述输出层的偏置参数,W和U分别为预先训练得到的所述输出层的系数矩阵,x表示所述词向量,h表示所述第一输出特征,y表示第二输出特征,y为所述输出层的输出。
10.一种第一终端设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
CN202010579565.5A 2020-06-23 2020-06-23 用于对话系统的基于人工智能的知识图谱生成方法、电子设备 Withdrawn CN111723186A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010579565.5A CN111723186A (zh) 2020-06-23 2020-06-23 用于对话系统的基于人工智能的知识图谱生成方法、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010579565.5A CN111723186A (zh) 2020-06-23 2020-06-23 用于对话系统的基于人工智能的知识图谱生成方法、电子设备

Publications (1)

Publication Number Publication Date
CN111723186A true CN111723186A (zh) 2020-09-29

Family

ID=72568386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010579565.5A Withdrawn CN111723186A (zh) 2020-06-23 2020-06-23 用于对话系统的基于人工智能的知识图谱生成方法、电子设备

Country Status (1)

Country Link
CN (1) CN111723186A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220895A (zh) * 2021-04-23 2021-08-06 北京大数医达科技有限公司 基于强化学习的信息处理方法、装置、终端设备
CN113609309A (zh) * 2021-08-16 2021-11-05 脸萌有限公司 知识图谱构建方法、装置、存储介质及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220895A (zh) * 2021-04-23 2021-08-06 北京大数医达科技有限公司 基于强化学习的信息处理方法、装置、终端设备
CN113220895B (zh) * 2021-04-23 2024-02-02 北京大数医达科技有限公司 基于强化学习的信息处理方法、装置、终端设备
CN113609309A (zh) * 2021-08-16 2021-11-05 脸萌有限公司 知识图谱构建方法、装置、存储介质及电子设备
CN113609309B (zh) * 2021-08-16 2024-02-06 脸萌有限公司 知识图谱构建方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN109952580B (zh) 基于准循环神经网络的编码器-解码器模型
US10824949B2 (en) Method and system for extracting information from graphs
CN110506279A (zh) 采用隐树注意力的神经机器翻译
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
JP2023539532A (ja) テキスト分類モデルのトレーニング方法、テキスト分類方法、装置、機器、記憶媒体及びコンピュータプログラム
CN111737476A (zh) 文本处理方法、装置、计算机可读存储介质及电子设备
CN107220506A (zh) 基于深度卷积神经网络的乳腺癌风险评估分析系统
CN116415654A (zh) 一种数据处理方法及相关设备
CN113254785B (zh) 推荐模型训练方法、推荐方法和相关设备
US11423307B2 (en) Taxonomy construction via graph-based cross-domain knowledge transfer
CN110795944A (zh) 推荐内容处理方法及装置、情感属性确定方法及装置
CN111666500A (zh) 文本分类模型的训练方法及相关设备
CN112836502B (zh) 一种金融领域事件隐式因果关系抽取方法
CN113434683A (zh) 文本分类方法、装置、介质及电子设备
CN113761868A (zh) 文本处理方法、装置、电子设备及可读存储介质
Basystiuk et al. The Developing of the System for Automatic Audio to Text Conversion.
CN113704393A (zh) 关键词提取方法、装置、设备及介质
CN116341564A (zh) 基于语义理解的问题推理方法和装置
CN111723186A (zh) 用于对话系统的基于人工智能的知识图谱生成方法、电子设备
Tangpanitanon et al. Explainable natural language processing with matrix product states
CN111241843B (zh) 基于复合神经网络的语义关系推断系统和方法
US20230070443A1 (en) Contrastive time series representation learning via meta-learning
CN114792097B (zh) 预训练模型提示向量的确定方法、装置及电子设备
Wakchaure et al. A scheme of answer selection in community question answering using machine learning techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200929

WW01 Invention patent application withdrawn after publication