CN113569572B - 文本实体生成方法、模型训练方法及装置 - Google Patents
文本实体生成方法、模型训练方法及装置 Download PDFInfo
- Publication number
- CN113569572B CN113569572B CN202110175774.8A CN202110175774A CN113569572B CN 113569572 B CN113569572 B CN 113569572B CN 202110175774 A CN202110175774 A CN 202110175774A CN 113569572 B CN113569572 B CN 113569572B
- Authority
- CN
- China
- Prior art keywords
- entity
- text
- hypergraph
- vector
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000012549 training Methods 0.000 title claims abstract description 64
- 239000013598 vector Substances 0.000 claims abstract description 233
- 238000003062 neural network model Methods 0.000 claims abstract description 81
- 238000012545 processing Methods 0.000 claims abstract description 64
- 230000014509 gene expression Effects 0.000 claims abstract description 27
- 239000011159 matrix material Substances 0.000 claims description 88
- 230000015654 memory Effects 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims 6
- 206010000087 Abdominal pain upper Diseases 0.000 description 45
- 230000006870 function Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 23
- 206010008479 Chest Pain Diseases 0.000 description 21
- 230000008569 process Effects 0.000 description 21
- 206010012735 Diarrhoea Diseases 0.000 description 20
- 208000005577 Gastroenteritis Diseases 0.000 description 19
- 208000004998 Abdominal Pain Diseases 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 15
- 206010030216 Oesophagitis Diseases 0.000 description 14
- 208000006881 esophagitis Diseases 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 13
- 208000024891 symptom Diseases 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 230000000306 recurrent effect Effects 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 208000007882 Gastritis Diseases 0.000 description 4
- 201000007100 Pharyngitis Diseases 0.000 description 4
- 206010047700 Vomiting Diseases 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 206010013781 dry mouth Diseases 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 230000008673 vomiting Effects 0.000 description 4
- 206010035664 Pneumonia Diseases 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 206010019233 Headaches Diseases 0.000 description 2
- 206010068319 Oropharyngeal pain Diseases 0.000 description 2
- 208000002193 Pain Diseases 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 231100000869 headache Toxicity 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 1
- 206010028813 Nausea Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 229960001138 acetylsalicylic acid Drugs 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 208000021302 gastroesophageal reflux disease Diseases 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008693 nausea Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种文本实体生成方法、模型训练方法及装置,文本实体生成方法包括获取对话文本,提取所述对话文本中的目标文本实体向量,根据所述目标文本实体向量确定超图中对应的目标实体节点的向量表达,得到目标节点向量,其中,所述超图包括多条超边,每条超边包括至少三个实体节点,将所述目标节点向量输入至超图神经网络模型,通过所述超图神经网络模型对所述目标节点向量进行处理,生成预测文本实体,上述文本实体生成方法在生成预测文本实体时能够考虑超图的实体节点之间的关系,从而提高文本实体生成的准确率,并且由于每条超边包括至少三个实体节点,可以引入多个实体节点之间的多元关系,有利于进一步提高文本实体生成的准确率。
Description
技术领域
本发明涉及文本处理技术领域,特别是涉及一种文本实体生成方法、模型训练方法及装置。
背景技术
随着互联网技术的发展,人工智能在各个领域中的应用越来越多,已成为各个领域进行决策和预测的一种重要手段,例如应用在网上商城客服、互联网医生、证券信息顾问等智能对话系统。以网上商城客服为例,AI客服的自动对话功能基于智能客服系统实现,用户提出自己的需求,例如购买意图等,智能客服系统会根据用户输入的需求来向用户推荐购买的商品、推荐购买的店铺等等。或者,以互联网医生为例,AI医生的自动问诊功能基于医疗对话系统实现,由病人先提出自己的问题,输入自己的主要诉求,医疗对话系统提取出病人身上已经出现的症状,推测出下一轮医生需要询问的内容。又或者,以证券信息顾问为例,AI顾问的自动回复功能基于投资顾问系统实现,由用户输入自己需要咨询的内容,AI顾问根据用户输入的信息来展示对应的信息。
现有的智能对话系统大多采用强化学习的方式对下一轮的询问内容进行预测,用一个多层感知器(MLP,Multilayer Perceptron)预测下一轮需要询问的内容,由于仅仅采用一个多层感知器来对下一轮询问的内容进行预测,并没有结合对话内容的内在关系,使得对话内容预测的准确率不高。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供了一种文本实体生成方法、模型训练方法及装置,能够提高文本实体生成的准确率,进而提高对话内容预测的准确率。
一方面,本发明实施例提供了一种文本实体生成方法,包括:
获取对话文本;
提取所述对话文本中的目标文本实体向量;
根据所述目标文本实体向量确定超图中对应的目标实体节点的向量表达,得到目标节点向量,其中,所述超图包括多条超边,每条所述超边包括至少三个所述实体节点;
将所述目标节点向量输入至超图神经网络模型,通过所述超图神经网络模型对所述目标节点向量进行处理,生成预测文本实体。
另一方面,本发明实施例还提供了一种模型训练方法,包括:
获取训练对话文本和已标注对话文本;
提取所述训练对话文本中的相互关联的目标文本实体向量;
提取所述已标注对话文本中的标注文本实体;
根据所述目标文本实体向量确定超图中对应的目标实体节点的向量表达,得到目标节点向量,其中,所述超图包括多条超边,每条所述超边包括至少三个所述实体节点;
将所述目标节点向量输入至超图神经网络模型,通过所述超图神经网络模型对所述目标节点向量进行处理,生成预测文本实体;
根据所述预测文本实体和所述标注文本实体,对所述超图神经网络模型中的参数进行修正。
另一方面,本发明实施例还提供了一种文本实体生成装置,包括:
文本获取模块,用于获取对话文本;
向量提取模块,用于提取所述对话文本中的目标文本实体向量;
初始化模块,用于根据所述目标文本实体向量确定超图中对应的目标实体节点的向量表达,得到目标节点向量,其中,所述超图包括多条超边,每条所述超边包括至少三个所述实体节点;
实体生成模块,用于通过超图神经网络模型对所述目标节点向量进行处理,生成预测文本实体。
另一方面,本发明实施例还提供了一种模型训练装置,包括:
训练样本获取模块,用于获取训练对话文本和已标注对话文本;
训练向量提取模块,用于提取所述训练对话文本中的相互关联的目标文本实体向量;
文本实体提取模块,用于提取所述已标注对话文本中的标注文本实体;
训练初始化模块,用于根据所述目标文本实体向量确定超图中对应的目标实体节点的向量表达,得到目标节点向量,其中,所述超图包括多条超边,每条所述超边包括至少三个所述目标实体节点;
训练实体生成模块,将所述目标节点向量输入至超图神经网络模型,通过所述超图神经网络模型对所述目标节点向量进行处理,生成预测文本实体;
参数修正模块,根据所述预测文本实体和所述标注文本实体,对所述超图神经网络模型中的参数进行修正。
另一方面,本发明实施例还提供了一种电子设备,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的文本实体生成方法如第二方面所述的模型生成方法。
另一方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如第一方面所述的文本实体生成方法,或者所述程序被处理器执行实现如第二方面所述的模型训练方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行实现如第一方面所述的文本实体生成方法或者第二方面所述的模型训练方法。
本发明实施例至少包括以下有益效果:通过获取对话文本,提取所述对话文本中的目标文本实体向量,根据所述目标文本实体向量确定超图中对应的目标实体节点的向量表达,得到目标节点向量,将所述目标节点向量输入至超图神经网络模型,由于超图神经网络模型基于超图运行,因此通过所述超图神经网络模型对所述目标节点向量进行处理,生成预测文本实体时能够考虑超图的实体节点之间的关系,从而提高文本实体生成的准确率,进而提高对话内容预测的准确率,其中,超图包括多条超边,每条超边包括至少三个实体节点,从而可以引入多个实体节点之间的多元关系,有利于进一步提高文本实体生成的准确率。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1是本发明实施例提供的现有的医疗对话系统的示意图;
图2是本发明实施例提供的数据处理系统的一个可选的架构示意图;
图3是本发明实施例提供的文本实体生成方法的流程图;
图4是本发明实施例提供的提取对话文本中的目标文本实体向量的具体流程图;
图5是本发明实施例提供的LSTM模型实现编码器的模型结构示意图;
图6是本发明实施例提供的超图的获取步骤的流程图;
图7是本发明实施例提供的超图的一种示例性的结构示意图;
图8是本发明实施例提供的超图神经网络模型的结构示意图;
图9是本发明实施例提供的通过超图神经网络模型对目标节点向量进行处理,生成预测文本实体的具体流程图;
图10是本发明实施例提供的根据第二矩阵和第三矩阵的乘积更新目标节点向量的具体流程图;
图11是本发明实施例提供的文本实体生成方法的预测文本实体排列与展示步骤的流程图;
图12是本发明实施例提供的预测文本实体的选择列表的样式示意图;
图13是本发明实施例提供的根据预测文本实体生成询问文本的具体流程图;
图14是本发明实施例提供的LSTM模型实现解码器的模型结构示意图;
图15是本发明实施例提供的智能客服系统场景下的交互界面示意图;
图16是本发明实施例提供的智能客服系统场景下的另一种交互界面示意图;
图17是本发明实施例提供的医疗对话系统场景下的交互界面示意图;
图18是本发明实施例提供的投资顾问系统场景下的交互界面示意图;
图19是本发明实施例提供的模型训练方法的流程图;
图20是本发明实施例提供的文本实体生成装置的结构示意图;
图21是本发明实施例提供的模型训练装置的结构示意图;
图22是本发明实施例提供的终端装置的部分结构的框图;
图23是本发明实施例提供的服务器的部分结构的框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
应了解,在本发明实施例的描述中,多个(或多项)的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到“第一”、“第二”等只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释:
文本实体,用于指示文本中特定类型或具有特定含义的词语。例如,文本“我想听歌手A的演唱的歌曲B”中包含文本实体“歌手A”和“歌曲B”;文本“我感觉有点口干和有点头痛”中包含文本实体“口干”和“头痛”。
文本实体的类型,指具有相同属性的文本实体的集合,例如在客服领域中,可以将文本实体分为:商品类型、商品品牌或者购买地域等等,比方说,“手机”是属于“商品类型”这个类型的文本实体,“广州”是“购买地域”这个类型的文本实体;在医疗领域中,可以将文本实体分为:疾病、症状、药物、部位、检查、手术和科室等。比方说,“阿司匹林”是属于“药物”这个类型的文本实体;“感冒”是属于“疾病”这个类型的文本实体;在投资领域中,可以将文本实体分为概念题材、股东、产业链、所属区域等等,比方说,“芯片”是属于“概念题材”这个类型的文本实体,“XX机构”属于“股东”这个类型的文本实体。
LSTM,长短记忆神经网络(Long Short Term Memory,LSTM)是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件,属于循环神经网络(Recurrent Neural Network,RNN)中的一种。
知识图谱,本质上是一种语义网络,其节点代表文本实体或者概念,连接节点的为知识图谱的边,边代表文本实体之间的各种语义关系。知识图谱是以知识为对象,显示知识和知识内部结构关系的可视化图像。
模型训练:将人工选择的样本输入给机器学习系统,通过不断调整模型参数,使最终模型对样本识别的准确率达到最优。
随着互联网技术的发展,人工智能在各个领域中的应用越来越多,已成为各个领域进行决策和预测的一种重要手段,例如应用在网上商城客服、互联网医生、证券信息顾问等智能对话系统。以网上商城客服为例,AI客服的自动对话功能基于智能客服系统实现,用户提出自己的需求,例如购买意图等,智能客服系统会根据用户输入的需求来向用户推荐购买的商品、推荐购买的店铺等等。或者,以互联网医生为例,AI医生的自动问诊功能基于医疗对话系统实现,由病人先提出自己的问题,输入自己的主要诉求,医疗对话系统提取出病人身上已经出现的症状,推测出下一轮医生需要询问的内容。又或者,以证券信息顾问为例,AI顾问的自动回复功能基于投资顾问系统实现,由用户输入自己需要咨询的内容,AI顾问根据用户输入的信息来展示对应的信息。例如,参照图1,图1为现有的医疗对话系统的一种示意图,其中,下划线的内容就是提取到的症状。作为另一个具体例子,病人输入自己的主要诉求,例如输入“我最近经常腹泻”,则医疗对话系统会生成一句询问的话语,“你最近有没有胃痛的现象?”,“胃痛”就是医疗对话系统预测出的文本实体。
现有的智能对话系统大多采用强化学习的方式对下一轮的询问内容进行预测,用一个多层感知器(MLP,Multilayer Perceptron)预测下一轮需要询问的内容,由于仅仅采用一个多层感知器来对下一轮询问的内容进行预测,并没有结合对话内容的内在关系,使得对话内容预测的准确率不高。
作为上述多层感知器预测方案的改进,可以引入知识图谱,知识图谱可以通过人为构建和定义,各个领域都可以有对应的知识图谱,例如电商知识图谱、医疗知识图谱、证券知识图谱等,例如,电商知识图谱的构建可以根据电商平台的各种用户信息、店铺信息、购买记录以及物流信息等完成,基于电商知识图谱,当用户输入“我想买AA品牌的手机”,提取出文本实体为“AA品牌”,根据电商知识图谱可以预测生成“AA专卖店”的文本实体;而医疗知识图谱的构建可以根据各医学报告文本的特征字段及特征字段相应的语义关系完成,医学报告文本是指医学领域的文本,比如医学文献、医学报告、涉及到医学的新闻报道等等。医学知识图谱是从医学领域的文本中抽取结构化知识,进而构建得到的图像。然后,用关系矩阵以及知识图谱的方式调整最终预测的结果,从而引入症状与疾病之间的关系来进行对话预测。基于医疗知识图谱,当病人的主诉为“我最近出现胃痛症状”时,提取出病人主诉中的文本实体为“胃痛”,根据医疗知识图谱可以预测生成“胃炎”的文本实体;又例如,当病人的主诉为“我最近出现胸痛症状”,提取出病人主诉中的文本实体为“胸痛”,则根据医疗知识图谱可以预测生成“肺炎”的文本实体;而证券知识图谱可以根据证券市场的证券名称、概念题材、股东、产业链、所属区域以及财报等完成,基于证券知识图谱,当用户输入的内容为“请查找一只芯片股票”,提取出文本实体为“芯片”,根据证券知识图谱可以预测生成“BB股份公司”的文本实体;当用户输入的内容为“请查找一只5G股票”,提取出文本实体为“5G”,根据证券知识图谱可以预测生成“CC股份公司”的文本实体。
上述引入知识图谱的方案中,考虑的仅仅是文本实体之间的二元关系,例如上述的通过文本实体“AA品牌”预测得到文本实体“AA专卖店”、通过文本实体“胃痛”预测得到文本实体“胃炎”、通过文本实体“胸痛”预测得到文本实体“肺炎”,以及通过文本实体“芯片”预测得到文本实体“BB股份公司”。然而,作为一个示例,仅仅考虑文本实体之间的二元关系是不够的,举例来说,在电商领域中,仅通过用户想购买的商品品牌向用户推荐相应的店铺,未考虑用户所在的地域,有可能会出现用户在购买后物流时间过长的问题;又例如在医学领域中,虽然文本实体(胃痛,胃炎)以及文本实体(胸痛,肺炎)相关性都很大,比文本实体(胃痛,食管炎)以及文本实体(胸痛,食管炎)的相关性要大上不少,但是当文本实体“胃痛”和文本实体“胃炎”同时出现时,预测生成的文本实体最准确的应该为“食管炎”。可见,文本实体(胃痛,胸痛,食管炎)这三者之间的联系较大;又例如,在证券领域中,类似地,当文本实体“芯片”和文本实体“5G”同时出现时,预测生成的文本实体最准确的应该为“DD股份公司”,因此仅根据文本实体之间的二元关系进行文本实体预测,其预测的准确率仍有待提高。
基于此,本发明实施例提供了一种文本实体生成方法、模型训练方法、装置及存储介质,来弥补仅考虑文本实体之间的二元关系来预测生成文本实体时准确率不高的问题。本发明实施例通过超图神经网络模型进行生成预测文本实体,由于超图神经网络模型基于超图运行,从而能够提高文本实体生成的准确率,进而提高对话内容预测的准确率,其中,超图包括多条超边,每条超边包括至少三个实体节点,从而可以引入多个实体节点之间的多元关系,有利于进一步提高文本实体生成的准确率。
需要强调的是,本发明实施例所提供的文本实体生成方法和模型训练方法均可以应用于人工智能之中。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
下面说明实现本发明实施例的文本实体生成装置的示例性应用,本发明实施例提供的文本实体生成装置可以实施为智能手机、平板电脑、笔记本电脑、智能穿戴设备等各种类型的用户终端,也可以实施为服务器,这里的服务器为运行音频数据处理功能、语音识别功能、文字识别功能中的一种或者多种应用的后台服务器。下面,将说明文本实体生成装置实施为服务器时涵盖服务器的示例性应用。
参照图2,为本发明实施例提供的数据处理系统200的一个可选的架构示意图,为实现支撑一个示例性应用,终端(示例性示出了终端210和终端220)通过网络230连接服务器240,网络230可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。可以理解的是,在其他实施例中,终端的数量并不限于两个,图2中的终端数量仅用作示意性的说明。
服务器240,可以用于获取对话文本;
提取对话文本中的目标文本实体向量;
根据目标文本实体向量确定超图中对应的目标实体节点的向量表达,得到目标节点向量,其中,超图包括多条超边,每条超边包括至少三个实体节点;
将目标节点向量输入至超图神经网络模型,通过超图神经网络模型对目标节点向量进行处理,生成预测文本实体。
另外,服务器240还可以用于获取训练对话文本和已标注对话文本;
提取训练对话文本中的相互关联的目标文本实体向量;
提取已标注对话文本中的标注文本实体;
根据目标文本实体向量确定超图中对应的目标实体节点的向量表达,得到目标节点向量,其中,超图包括多条超边,每条超边包括至少三个实体节点;
将目标节点向量输入至超图神经网络模型,通过超图神经网络模型对目标节点向量进行处理,生成预测文本实体;
根据预测文本实体和标注文本实体,对超图神经网络模型中的参数进行修正。
终端,用于在图形界面211或者图形界面221显示对话文本,以及展示服务器推送的预测文本实体。
本发明实施例提供的文本实体生成装置可以实施为硬件或者软硬件结合的方式,下面以文本实体生成装置为服务器240说明本发明实施例提供的文本实体生成装置的各种示例性实施。
其中,服务器240可以是移动电话、计算机、数字广播终端、信息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等终端对应的后台服务器,最佳的为安装有相应客户端的终端对应的后台服务器,根据服务器240的结构,可以预见装置实施为终端时的示例性结构,因此这里所描述的结构不应视为限制,例如可以省略下文所描述的部分组件,或者,增设下文所未记载的组件以适应某些应用的特殊需求。
可以理解的是,本发明实施例所提供的文本实体生成方法和模型训练方法,可以应用于智能客服系统、医疗对话系统、投资顾问系统等场景,下面主要以上述三种场景为例说明本发明实施例的具体实施方式,可以理解的是,本发明实施例所提供的文本实体生成方法和模型训练方法同样适用于其他相类似的场景。
基于图2所示的数据处理系统200,参照图3,本发明实施例提供了一种文本实体生成方法,其中,该文本实体生成方法可以由图2中的服务器240执行,该文本实体生成方法包括但不限于以下步骤301至步骤304。
步骤301:获取对话文本。
在一个实施例中,对话文本可以是由至少一句话或一段话构成的文本,一般来说对话双方可以为询问方和回答方,对话文本可以包括询问方和回答方两者的文本,对话文本包括对话双方已经发生的对话。具体地,以智能客服系统为例,询问方文本为“请问有什么可以帮到您”,对应的回答方文本为“我想买AA品牌手机”,接着,询问方文本为“请问您在哪一个城市”,对应的回答方文本为“广州”此时,上述文本“请问有什么可以帮到您”、“我想买AA品牌手机”、“请问您在哪一个城市”、“广州”即为对话文本;以医疗对话系统为例,询问方文本为:“请问您有哪里不舒服吗”,对应的回答方文本为:“我感觉有点胃痛”,接着,询问方文本为:“除此以外还有哪里不舒服吗”,对应的回答方文本为:“还有点胸痛”,此时,上述文本“请问您有哪里不舒服吗”、“我感觉有点胃痛”、“除此以外还有哪里不舒服吗”、“还有点胸痛”即为对话文本;以投资顾问系统为例,询问方文本为“请问有什么可以帮到您”,对应的回答方文本为“请查找一只芯片股票”,接着,询问方文本为“还涉及其他概念题材吗”,对应的回答方文本为“5G”,此时,上述文本“请问有什么可以帮到您”、“请查找一只芯片股票”、“还涉及其他概念题材吗”以及“5G”即为对话文本。另外,对话文本也可以只包括回答方,例如对话一开始的时候,直接由回答方输入对话文本,此时则没有询问方的询问,例如,回答方文本为“我感觉有点胃痛”,此时“我感觉有点胃痛”即为对话文本。基于上述例子,询问方即为医疗对话系统的AI医生,回答方即为使用医疗对话系统的用户。
步骤302:提取对话文本中的目标文本实体向量。
在一个实施例中,可以根据不同的应用场景提取出目标文本实体,再确认该目标文本实体的目标文本实体向量,其中,可以通过目标文本实体的类型提取出目标文本实体,目标文本实体的类型可以根据具体的应用场景预先设置好,举例来说,在智能客服系统的应用场景中,目标文本类型可以是商品类型、品牌或者地域;在医疗对话系统的应用场景中,目标文本实体的类型可以为症状或者疾病;在投资顾问系统的应用场景中,目标文本类型可以是概念题材。另外,目标文本实体向量的数量可以根据对话内容的多少而变化,例如对话刚开始的时候,目标文本实体向量的数量可能只有一个;而当对话内容较多的时候,目标文本实体的数量可能有多个。
以步骤301中的例子为基础进行进一步说明,在智能客服系统的应用场景下,对话文本包括“请问有什么可以帮到您”、“我想买AA品牌手机”、“请问您在哪一个城市”,“广州”,此时提取出的目标文本实体向量为“AA品牌”、“手机”以及“广州”所对应的向量;又例如,在医疗对话系统的应用场景下,对话文本包括“请问您有哪里不舒服吗”、“我感觉有点胃痛”、“除此以外还有哪里不舒服吗”、“还有点胸痛”,此时提取出的目标文本实体向量为“胃痛”以及“胸痛”所对应的向量;又例如,在投资顾问系统的应用场景下,对话文本包括“请问有什么可以帮到您”、“请查找一只芯片股票”、“还涉及其他概念题材吗”、“5G”,此时提取出的目标文本实体向量为“芯片”和“5G”所对应的向量。
步骤303:根据目标文本实体向量确定超图中对应的目标实体节点的向量表达,得到目标节点向量。
其中,超图包括多条超边,每条超边包括至少三个实体节点。具体地,超图(HyperGraph)是传统的图(Graph)的泛化,传统的图由节点和连接及节点的边构成,节点为具体的研究对象,连接节点的边代表研究对象之间的关系,节点和边的集合就构成了图,基于图的图卷积神经网络被广泛应用于文本处理、图像处理等场景。而在传统的图中,每条边最多只能连接两个实体节点,因此,只能考虑节点之间的二元关系,存在一定的局限性。而本发明实施例的文本实体生成方法基于超图实现,其中,超图中的每条边可以连接两个以上的实体节点,超图中连接了两个以上实体节点边通常称为超边。因此,与传统的图相比,超图可以体现多个实体节点之间的相关性,并且,由于本发明实施例中的超边包括有至少三个实体节点,能够考虑实体节点的多元关系,从而可以提升文本实体生成的准确率。
具体地,根据目标文本实体向量确定超图中对应的目标实体节点的向量表达,得到目标节点向量,即根据目标文本实体向量对超图中对应的目标实体节点进行初始化。举例来说,以步骤301中的例子为基础进行进一步说明,从对话文本中提取出的目标文本实体向量为“AA品牌”所对应的向量,超图包括了“AA品牌”的实体节点,则使用从对话文本中提取出的“AA品牌”所对应的向量初始化超图中实体节点“AA品牌”,又或者从对话文本中提取出的目标文本实体向量为“胃痛”所对应的向量,超图包括了“胃痛”的实体节点,则使用从对话文本中提取出的“胃痛”所对应的向量初始化超图中实体节点“胃痛”,从而得到对应的目标实体节点的目标节点向量。
步骤304:将目标节点向量输入至超图神经网络模型,通过超图神经网络模型对目标节点向量进行处理,生成预测文本实体。
其中,目标节点向量为超图神经网络模型的输入,预测文本实体为超图神经网络模型的输出。本发明实施例提供的文本实体生成方法,通过获取对话文本,提取对话文本中的目标文本实体向量,根据目标文本实体向量确定超图中对应的目标实体节点的向量表达,得到目标节点向量,将目标节点向量输入至超图神经网络模型,由于超图神经网络模型基于超图运行,因此通过超图神经网络模型对目标节点向量进行处理,生成预测文本实体时能够考虑超图的实体节点之间的关系,从而提高文本实体生成的准确率,进而提高对话内容预测的准确率,其中,超图包括多条超边,每条超边包括至少三个实体节点,从而可以引入多个实体节点之间的多元关系,有利于进一步提高文本实体生成的准确率。
参照图4,上述步骤302中,提取对话文本中的目标文本实体向量,可以进一步包括以下步骤401至步骤403。
步骤401:对对话文本中的每一个句子进行编码处理,得到每一个句子所对应的句子向量。
具体地,所谓编码处理,就是将输入的对话文本转化成一个固定长度的向量。对对话文本中的每一个句子进行编码处理,即将对话文本中每一个句子单独输入至编码器中,得到每一个句子所对应的句子向量,句子向量的大小可以为len*d,其中,len为句子长度,d为向量维度,len的取值根据实际输入的对话文本而定,d的取值可以为200、300等,本发明实施例不做限定。举例来说,输入的句子为“我感觉有点胃痛”,则len取值为7,d取值为300,得到该句子所对应的句子向量的大小为7*300。
步骤402:根据句子向量得到对话文本中目标文本实体的词向量。
基于步骤401得到的句子向量,根据应用场景确定该句子向量中对应的实体下标的向量,即为目标文本实体的词向量,该词向量的大小为len1*d,其中,len1为目标文本实体的长度,d为向量维度。实体下标为目标文本实体在句子中的位置,举例来说,在步骤401的例子的基础上,“胃痛”在句子中的位置为第六位和第七位,实体下标就是第六位和第七位的下标,在这个例子中,目标文本实体的词向量的大小为2*400。
步骤403:对词向量进行最大池化处理,得到目标文本实体所对应的目标文本实体向量。
具体地,最大池化(max pooling)处理可以通过最大值的方式减少数据量,其通常操作是将输入的数据划分为若干个矩形区域,对每个子域输出最大值,对词向量进行最大池化处理后,得到的目标文本实体向量就是目标文本实体的向量表达。举例来说,在步骤401的例子的基础上,对目标文本实体的词向量进行最大池化处理,得到的目标文本实体向量的大小为1*d。
在一个实施例中,上述步骤401至步骤403可以利用LSTM模型实现。LSTM模型具有“门”结构(包括输入门、遗忘门和输出门),能够消除或者增加信息到细胞状态(Cell)的能力,使得LSTM模型能够记住长期的信息。举例来说,当预测“云彩在X中”X的内容时,相关信息“云彩”与预测的答案X“天空”的位置之间的间隔较小,普通的循环神经网络会根据相关信息预测出“天空”,但如果预测“我在法国长大,我会说一口流利的Y”时,需要预测的答案Y是一种语言(法语),由于Y与“法国”之间的间隔较长,此时运用循环神经网络预测Y的内容,可能会产生预测失败的问题,而运用LSTM神经网络预测的方式则能够避免产生此类问题。因此,采用LSTM模型对句子进行编码处理有利于提高预测准确率。
参照图5,为LSTM模型实现编码器的模型结构示意图,将对话文本输入至LSTM模型中,LSTM模型中设置有多个重复神经网络模块501,这些重复神经网络模块501构成链式连接,每个重复神经网络模块501都设置有上述“门结构”,LSTM模型进行处理后根据模型自身的特性生成历史对话信息Od,以及目标文本实体向量Xo。
另外,除了利用LSTM模型实现上述步骤301至步骤303以外,还可以采用GRU模型实现。GRU(Gate Recurrent Unit,门控循环单元)是循环神经网络的一种。和LSTM模型一样,也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。GRU模型的原理与LSTM模型相似,即用门控机制控制输入、记忆等信息而在当前时间步做出预测。GRU模型有两个门,即一个重置门(reset gate)和一个更新门(update gate)。其中,重置门决定了如何将新的输入信息与前面的记忆相结合,而更新门定义了前面记忆保存到当前时间步的量。GRU模型使用门控机制学习长期依赖关系的基本思想和LSTM模型大体上一致,区别主要在于,GRU模型有两个门(重置门与更新门),而LSTM模型有三个门(输入门、遗忘门和输出门);GRU模型并不会控制并保留内部记忆,且没有LSTM模型中的输出门;LSTM模型中的输入与遗忘门对应于GRU模型的更新门,重置门直接作用于前面的隐藏状态;GRU模型在计算输出时并不应用二阶非线性。
除了LSTM模型和GRU模型以外,其他类似的模型也可以使用,例如Transformer模型等,在此不再展开说明。
参照图6,本发明实施例中的超图可以通过以下步骤601至步骤603获得。
步骤601:获取多个实体节点。
在一个实施例中,实体节点可以预先确定好。以医疗对话系统的应用场景为例,超图的实体节点可以为疾病或者症状等等。若以智能客服系统的应用场景为例,超图的实体节点可以为商品类型、品牌或者地域等等。若以投资顾问系统的应用场景为例,超图的实体节点可以为概念题材等。其中,实体节点的确定可以通过知识图谱来实现。
步骤602:连接至少三个实体节点以形成超边。
其中,连接形成超边的实体节点之间存在相关性,以智能客服系统的应用场景为例,“AA品牌”、“广州”以及“AA品牌专卖店”三个实体节点连接成一条超边;或者,以医疗对话系统的应用场景为例,“胃痛”、“胸痛”以及“食管炎”三个实体节点连接成一条超边,或者,以投资顾问系统的应用场景为例,“芯片”、“5G”以及“DD股份公司”三个实体节点连接成一条超边。
在一个实施例中,连接至少三个实体节点以形成超边,具体方式可以是:
获取对话数据集,根据对话数据集中当前轮次询问方涉及的第一文本实体以及上一轮次询问方与回答方涉及的第二文本实体得到实体集合,根据实体集合连接超图中对应的至少三个实体节点以形成超边,其中,第一文本实体与第二文本实体相互关联。其中,对话数据集为已经发生的对话,作为构建超图的样本,对话数据集可以从网络上获取,或者从本地储存中获取。
例如,以智能客服系统的应用场景为例,一段询问方和回答方的对话如下:
询问方:请问您需要买什么?
回答方:AA品牌手机以及AA品牌耳机。
询问方:推荐到AA手机专卖店购买。
此时,上一轮次询问方与回答方的对话文本为“请问您需要买什么”、“AA品牌手机以及AA品牌耳机”,当前轮次询问方的对话文本为“推荐到AA手机专卖店购买”,当前轮次询问方涉及的第一文本实体为“AA手机专卖店”,上一轮次询问方与回答方涉及的第二文本实体为“AA品牌”、“手机”和“耳机”,则将“AA手机专卖店”、“AA品牌”、“手机”和“耳机”四个相互关联的文本实体作为实体集合,连接超图中“AA手机专卖店”、“AA品牌”、“手机”和“耳机”的实体节点。可以理解的是,当前轮次的对话与上一轮次的对话可以仅为同一个完整对话的一部分。
又例如,以医疗对话系统的应用场景为例,一段询问方和回答方的对话如下:
询问方:请问您有没有腹痛和腹泻?
回答方:有一点,不太严重。
询问方:我怀疑你是肠胃炎。
此时,上一轮次询问方与回答方的对话文本为“请问您有没有腹痛和腹泻”、“有一点,不太严重”,当前轮次询问方的对话文本为“我怀疑你是肠胃炎”,当前轮次询问方涉及的第一文本实体为“肠胃炎”,上一轮次询问方与回答方涉及的第二文本实体为“腹痛”和“腹泻”,则将“肠胃炎”、“腹痛”和“腹泻”三个相互关联的文本实体作为实体集合,连接超图中“肠胃炎”、“腹痛”和“腹泻”的实体节点。
在另一个实施例中,连接至少三个实体节点以形成超边,具体方式也可以是:
获取对话数据集,根据对话数据集中同一句话中涉及的所有相互关联的文本实体得到实体集合,根据实体集合连接超图中对应的至少三个实体节点以形成超边。以医疗对话系统的应用场景为例,对话数据集中有一句话为“我看你腹痛和腹泻都挺严重,我怀疑你得了肠胃炎”,则这一句话中所有相互关联的文本实体为“腹痛”、“腹泻”和“肠胃炎”,将“腹痛”、“腹泻”和“肠胃炎”三个相互关联的文本实体作为实体集合,连接超图中“腹痛”、“腹泻”和“肠胃炎”的实体节点。
在另一个实施例中,连接至少三个实体节点以形成超边,具体方式也可以是:
获取对话数据集,根据对话数据集中同一个完整对话涉及的所有相互关联的文本实体,得到实体集合,根据实体集合连接超图中对应的至少三个实体节点以形成超边。以医疗对话系统的应用场景为例,询问方和回答方的完整对话如下:
询问方:请问您有没有腹痛?
回答方:有一点,不太严重。
询问方:那请问您有没有腹泻?
回答方:也有一点,也不太严重。
询问方:我怀疑你是肠胃炎。
此时该完整对话涉及的所有相互关联的文本实体为“腹痛”、“腹泻”和“肠胃炎”,将“腹痛”、“腹泻”和“肠胃炎”三个相互关联的文本实体作为实体集合,连接超图中“腹痛”、“腹泻”和“肠胃炎”的实体节点。
可以理解的是,对话数据集中包括不同的询问方和回答方之间的多个相互独立的对话,对话数据集中的对话数量越多,得到的超图就能够更加好地反映出实体节点之间的关系。并且,上述例子中仅以医疗对话系统作为示例性的说明,描述连接超图的实体节点的几种具体实施方式,在实际应用中,连接超图的实体节点时,从对话数据集中获取到的文本实体样本数量并不限定于三个,也可以是四个、五个或者以上。在其他应用场景下,例如智能客服系统、投资顾问系统,超边的连接原理与医疗对话系统的相类似,在此不再赘述。
步骤603:根据多个超边构建超图。
通过步骤602,可以连接不同的实体集合,得到多条超边,根据多条超边即可构建出超图,参照图7,为本发明实施例提供的超图的一种示例性的结构示意图,图7中示例性地展示了部分实体节点,例如“腹痛”、“腹泻”、“肠胃炎”等,其中,实体节点“腹痛”、“腹泻”、“肠胃炎”可以连接成超图的其中一条超边,当然,实体节点“胃食管反流”、“肠胃炎”和“恶心”也可以连接成超图的另一条超边,在此不再一一列举。可以理解的是,图7所示的超图中的实体节点仅为示意性的说明,实际上超图的实体节点及其连接关系可以根据对话数据集的内容而改变,本发明实施例不做限定,并且,在利用包括至少三个实体节点的超边构建超图的基础上,也可以进一步增加仅包括两个实体节点的超边来扩充超图的结构,以提升超图的性能。在智能客服系统和投资顾问系统的应用场景下,超图的结构与图7所展示的相类似,区别在于实体节点的含义不同,在此不再赘述。
在一个实施例中,在根据实体集合连接超图中对应的至少三个实体节点以形成超边之前,可以先确定相应的实体集合在对话数据集中的出现次数,当某个实体集合出现次数大于或者等于设定设定阈值,才连接超图中与实体集合对应的至少三个实体节点以形成超边。通过确定相应的实体集合在对话数据集中的出现次数,并将实体集合在对话数据集中的出现次数与设定阈值进行对比,可以剔除掉部分出现次数较少的实体集合,使得超图更能够反映出不同实体节点之间的关系,提高超图建立的准确率。以医疗对话系统的应用场景为例,在获取实体集合时,其中一个对话中获取到的实体集合为“口干”、“喉咙痛”和“慢性咽炎”,但该实体集合在其他对话中再也没有出现过,即该实体集合在整个对话数据集中仅出现过一次,此时,则不连接超图中的实体节点“口干”、“喉咙痛”和“慢性咽炎”。可以理解的是,上述设定阈值可以根据实际情况设定,例如可以是五次、十次、十五次等等,本发明实施例不做限定。
参照图8,为本发明实施例提供的超图神经网络模型的结构示意图,其中,超图神经网络模型包括线性层、卷积层、池化层、分类层。线性层的主要作用是改变超图中每个实体节点对应的目标节点向量的维度,以使目标节点向量的向量维度更加合适;卷积层的主要作用是对目标节点向量进行处理,实现信息传递;池化层的主要作用是确定信息传递的方式,例如加权方式或者池化方式等;分类层的主要作用是获取每个实体节点的概率分布。利用图8所示的超图神经网络模型,可以在前述步骤中建立好的超图上进行信息传递,参照图9,上述步骤304中,通过超图神经网络模型对目标节点向量进行处理,生成预测文本实体,可以具体包括以下步骤901至步骤905。
步骤901:根据超图得到用于表示超图的第一矩阵。
其中,在建立好超图后,就可以确定超图中每个实体节点与超边之间的关系,根据超图中每个实体节点与超边之间的关系即可得到相应的用于表示该超图的第一矩阵。
步骤902:对第一矩阵进行归一化处理,得到第二矩阵。
其中,步骤902可以通过卷积层实现。通过对第一矩阵进行归一化处理,能够使得第一矩阵的元素的取值范围转化到0至1之间,减少某一数值太大的特征对其他较小特征的影响,便于超图神经网络模型进行数据处理,以及可以提高超图神经网络模型的收敛速度。作为一个示例,对第一矩阵进行归一化处理可以通过对角矩阵实现。
步骤903:对第一矩阵进行矩阵转换处理,并对矩阵转换处理后的第一矩阵进行归一化处理,得到第三矩阵。
其中,步骤903也可以通过卷积层实现。对第一矩阵进行矩阵转换处理,由于第一矩阵储存的是超图的实体节点与超边之间的关系,那么矩阵转换处理后的第一矩阵储存的就是超图的超边与实体节点之间的关系,而通过对矩阵转换处理后的第一矩阵进行归一化处理,能够使得矩阵转换处理后的第一矩阵的元素的取值范围转化到0至1之间,减少某一数值太大的特征对其他较小特征的影响,便于超图神经网络模型进行数据处理,以及可以提高超图神经网络模型的收敛速度。
步骤904:根据第二矩阵和第三矩阵的乘积更新目标节点向量;
其中,由于第二矩阵储存的是超图每个实体节点与超边之间的关系,而第三矩阵储存的是超图每个超边与实体节点之间的关系,因此,第二矩阵和第三矩阵相乘后得到的矩阵就是超图的实体节点与实体节点之间的关系,根据实体节点与实体节点之间的关系即可更新超图每个目标实体节点的目标节点向量。其中,目标节点向量的更新方式可以为加权处理或者池化处理。具体地,加权处理即目标节点向量的初始值与第二矩阵和第三矩阵相乘后得到的矩阵进行矩阵乘法,而池化处理则是对目标节点向量的特征进行压缩。
步骤905:根据更新后的目标节点向量得到实体节点的概率分布,根据实体节点的概率分布确定预测实体节点,根据预测实体节点得到对应的预测文本实体。
其中,可以利用softmax(归一化指数)分类器得到实体节点的概率分布,取概率最大的实体节点作为预测实体节点,根据预测实体节点即可得到对应的预测文本实体。当然,也可以取概率较大的多个实体节点作为预测实体节点。作为其中一种实施方式,根据预测实体节点得到对应的预测文本实体,可以通过LSTM模型实现。
具体地,超图神经网络模型的处理过程可以用以下公式表示:
X(l+1)=f(D-1/2HB-1HTD-1/2X(l)θ(l))
其中,X矩阵为超图中每一个目标实体节点的目标节点向量,X矩阵的维度为N*d,N为目标实体节点的数量,d为向量维度;l为超图神经网络模型的迭代次数,即卷积层的层数。H矩阵为储存超图的矩阵,即第一矩阵;HT矩阵为矩阵转换处理后的H,储存超图中每个实体节点与超边之间的关系;D矩阵和B矩阵为对角矩阵,用于对H矩阵和HT矩阵做归一化,θ为超图神经网络模型的参数,例如目标节点向量的向量维度等。
在一个实施例中,l的取值可以为2,即超图神经网络模型的迭代次数为2次。可以理解的是,l的取值可以根据实际情况设定,而为了避免不同实体节点的节点向量趋向同质化,l的取值不宜过大。
在一个实施例中,参照图10,上述步骤904中,根据第二矩阵和第三矩阵的乘积更新目标节点向量,具体可以包括以下步骤1001至步骤1002:
步骤1001:确定多条超边的权重。
其中,超图的每条超边都可以有各自的权重,以使得超图神经网络的运行更加合理化。作为一个示例,超边的权重可以根据超图构建时的对应的实体集合出现的次数而定,例如,在超图构建时,实体集合出现的次数越多,那根据该实体集合连接的超边的权重就越高。
步骤1002:根据第二矩阵和第三矩阵的乘积以及多条超边的权重更新目标节点向量。
其中,超图神经网络模型在更新目标节点向量时,引入超边的权重,有利于提高超图神经网络模型的准确率,基于此,超图神经网络模型的处理过程可以用以下公式表示:
X(l+1)=f(D-1/2HWB-1HTD-1/2X(l)θ(l))
其中,W矩阵为每条超边的权重。
在一个实施例中,参照图11,上述文本实体生成方法还可以包括以下步骤1101至步骤1102:
步骤1101:对预测文本实体进行排列。
超图神经网络模型得到的预测文本实体可以有多个,还可以根据预测文本实体对应的概率由大到小进行排列后再向用户进行展示,从而提升直观性。例如,以智能客服系统为例,超图神经网络模型得到的预测文本实体可以为“手机”、“耳机”和“手表”,而按照概率由大到小的排列为“手机”、“耳机”和“手表”;又例如,以医疗对话系统为例,超图神经网络模型得到的预测文本实体可以为“肠胃炎”、“胃痉挛”和“食管炎”,而按照概率由大到小的排列为“食管炎”、“肠胃炎”和“胃痉挛”。
步骤1102:展示经过排列后的预测文本实体以生成选择列表。
其中,参照图12,经过排列后的预测文本实体的展示方式可以是矩阵式列表1201,也可以是下拉式列表1202,本发明实施例不做限定。在步骤1101的例子的基础上,若预测文本实体的展示方式可以是矩阵式列表1201,“手机”、“耳机”和“手表”可以由左到右依次排列展示;若预测文本实体的展示方式是下拉式列表1202,“手机”、“耳机”和“手表”可以由上到下依次排列展示,可以理解的是,图12以智能客服系统为例进行展示,医疗对话系统或者投资顾问系统的展示原理相类似,在此不再赘述。通过将排列后的预测文本实体进行展示,便于用户进行选择以继续下一步的对话,无须用户自行输入,有利于提高对话效率。
在一个实施例中,除了步骤1101至步骤1102中的排列展示方式以外,也可以根据预测文本实体生成询问文本,实现智能对话。具体地,参照图13,根据预测文本实体生成询问文本,可以包括以下步骤1301至步骤1303:
步骤1301:根据对话文本得到待生成词语的概率分布;
步骤1302:根据待生成词语的概率分布确定目标词语;
步骤1303:根据目标词语以及预测文本实体生成询问文本。
在一个实施例中,步骤1301至步骤1303可以利用LSTM模型实现。具体地,基于LSTM模型的特性,在步骤301至步骤303中LSTM对对话文本进行编码处理后,除了输出对应的目标文本实体向量(即图5中的Xo)以外,还输出历史对话信息Od,在上述步骤1301中,上述历史对话信息Od作为LSTM模型的输入,同时,步骤901至步骤905得到的预测文本实体所对应的目标节点向量同时作为LSTM模型的输入,利用LSTM模型作为解码器,先根据历史对话信息Od预测待生成词语的概率分布,每一轮取概率最大的词作为目标词语,将该目标词语作为询问文本的下一个词语,最后,利用预测文本实体所对应的目标节点向量作为引导性的元素,结合预测文本实体所对应的目标节点向量生成询问文本。具体地,LSTM模型处理过程的具体公式如下:
p(yi+1︱y1,y2,…,yi)=LSTM(hi,([Og,Od],Ci))
其中,p(yi+1︱y1,y2,…,yi)为将要生成的目标词语的概率分布,y1,y2,…,yi为已经生成的目标词语,将要生成的目标词语为yi+1,hi,Ci为LSTM模型的隐状态,Od为历史对话信息,Og为预测文本实体所对应的目标节点向量Xg经过线性层处理之后得到的向量,其中,预测文本实体所对应的目标节点向量经过线性层处理之后可以使得其向量维度更加合适。
参照图14,为LSTM模型实现解码器的模型结构示意图,将步骤901至步骤905得到的预测文本实体所对应的节点Xg与历史对话信息Od输入至LSTM模型中,LSTM模型进行处理后生成询问文本,其中,Wg、bg为线性层的运算参数,α代表线性层的输出。
以智能客服系统为例,LSTM模型根据历史对话信息Od预测得到的目标词语依次为“需要”、“买”、“耳机”,正常来说生成的询问文本可以为“需要买耳机”,在此基础上,再结合输入至LSTM模型的预测文本实体为“手机”,可以将生成的询问文本确定为:“需要买耳机或者手机”。当然,也存在另一种情况,LSTM模型根据历史对话信息Od预测得到的目标词语依次为“需要”、“买”、“耳机”,而输入至LSTM模型的预测文本实体也为“耳机”,则可以将生成的询问文本确定为“需要买耳机”作为输出。
另外,以医疗对话系统为例,LSTM模型根据历史对话信息Od预测得到的目标词语依次为“有没有”、“胃痛”,正常来说生成的询问文本可以为“有没有胃痛”,在此基础上,再结合输入至LSTM模型的预测文本实体为“腹泻”,可以将生成的询问文本确定为“有没有胃痛或者腹泻”。
下面以实际应用场景说明本发明实施例的文本实体生成方法。
参照图15,以智能客服系统为例进行说明,首先,用户通过终端接入智能客服系统的服务器,服务器接收到用户输入主要诉求1501为“我想买AA品牌手机”,服务器获取的对话文本为“我想买AA品牌手机”,利用LSTM模型对对话文本“我想买AA品牌手机”进行识别处理,将文本实体“AA品牌”和“手机”标注出来,由于智能客服系统涉及的领域较为广泛,因此,服务器在对话开始时如果判断到标注的文本实体数量较少(例如可以预设一个阈值来判断),会结合用户主要诉求的语义继续以预设的问题提问用户,例如询问用户所在的城市,商品的品牌或者型号等等。在本例子中,服务器会生成预测问题1502:“请问您所在的城市是哪里”,然后接收到用户的回复文本1503:“广州”,此时对话文本变成了“我想买AA品牌手机”、“请问您所在的城市是哪里”、“广州”,服务器再次利用LSTM模型对对话文本“我想买AA品牌手机”、“请问您所在的城市是哪里”、“广州”进行识别处理,将文本实体“AA品牌”、“手机”和“广州”标注出来,分别确定其在对应的句子中的位置,再利用LSTM模型分别得到文本实体“AA品牌”、“手机”和“广州”对应的词向量,利用文本实体“AA品牌”、“手机”和“广州”的词向量对应初始化超图“AA品牌”、“手机”和“广州”实体节点的向量表达,接下来通过超图神经网络模型在超图上进行信息传递,从而可以生成预测文本实体“AA手机专卖店”作为输出。
最后,服务器利用LSTM模型进行解码操作,根据对话文本以及生成的预测文本实体“AA手机专卖店”生成一句话1504:“推荐到AA手机专卖店购买”,然后向用户展示。
参照图16,以智能客服系统的另一个例子进行说明,首先,用户通过终端接入智能客服系统的服务器,服务器接收到用户输入主要诉求1601为“我想买AA品牌手机”,服务器获取的对话文本为“我想买AA品牌手机”,利用LSTM模型对对话文本“我想买AA品牌手机”进行识别处理,将文本实体“AA品牌”和“手机”标注出来,服务器生成预测问题1602为:“请问您还需要购买其他商品么”,然后接收到用户的回复文本1603:“耳机”,此时对话文本变成了“我想买AA品牌手机”、“请问您还需要购买其他商品么”、“耳机”,服务器再次利用LSTM模型对对话文本“我想买AA品牌手机”、“请问您还需要购买其他商品么”、“耳机”进行识别处理,将文本实体“AA品牌”、“手机”和“耳机”标注出来,分别确定其在对应的句子中的位置,再利用LSTM模型分别得到文本实体“AA品牌”、“手机”和“耳机”对应的词向量,利用文本实体“AA品牌”、“手机”和“耳机”的词向量对应初始化超图“AA品牌”、“手机”和“耳机”实体节点的向量表达,接下来通过超图神经网络模型在超图上进行信息传递,从而可以生成预测文本实体“AA手机专卖店”作为输出。
最后,服务器利用LSTM模型进行解码操作,根据对话文本以及生成的预测文本实体“AA手机专卖店”生成一句话1604:“推荐到AA手机专卖店购买”,然后向用户展示。
参照图17,以医疗对话系统为例进行说明,首先,用户通过终端接入医疗对话系统的服务器,其中,包括但不限定于利用独立的应用程序接入或者利用浏览器访问网页接入。服务器接收到用户输入主要诉求,例如用户主要的不适症状,其中,用户输入主要诉求的方式可以是手动输入或者是语音输入等方式。例如,用户输入的主要诉求1701为“胃痛,有一段时间了”,由于是对话刚开始,因此服务器获取的对话文本为“胃痛,有一段时间了”,利用LSTM模型对对话文本“胃痛,有一段时间了”进行识别处理,将文本实体“胃痛”标注出来,确定其在整个句子中的位置,再利用LSTM模型生成对话文本“胃痛,有一段时间了”对应的句子向量,根据文本实体“胃痛”在句子中的位置得到文本实体“胃痛”对应的词向量,利用文本实体“胃痛”对应的词向量初始化超图“胃痛”实体节点的向量表达,接下来通过超图神经网络模型在超图上进行信息传递,生成预测文本实体,在此例子中,由于提取到的文本实体的数量为一个(“胃痛”),而实体节点“胃痛”可能在超图中同时归属于不同的超边,因此生成的预测文本实体可能有多个,例如可以包括有“腹泻”、“胸痛”、“呕吐”,然后,以矩阵式列表1702展示“腹泻”、“胸痛”、“呕吐”,然后,接收用户的选择操作指令,例如用户通过终端的触摸屏、语音操作功能等方式从文本实体“腹泻”、“胸痛”、“呕吐”中选择一个或者多个。可以理解的是,上述仅为示意性的说明,在实际应用中,用户输入的主要诉求1701的内容和生成的预测文本实体均会根据实际情况而改变,本发明实施例不做限定。
接着,用户在选择了服务器生成的预测文本实体1703“胸痛”后,服务器基于生成的预测文本实体1703:“胸痛”,继续进行下一轮的预测文本实体生成,此时,对话文本变成了“胃痛,有一段时间了”、“请问您是否有如下症状中的一种或者多种”、“胸痛”,服务器再次利用LSTM模型对对话文本“胃痛,有一段时间了”、“请问您是否有如下症状中的一种或者多种”、“胸痛”进行识别处理,将文本实体“胃痛”、“胸痛”标注出来,分别确定其在对应的句子中的位置,再利用LSTM模型分别得到文本实体“胃痛”、“胸痛”对应的词向量,利用文本实体“胃痛”和“胸痛”的词向量对应初始化超图“胃痛”和“胸痛”实体节点的向量表达,接下来通过超图神经网络模型在超图上进行信息传递,从而可生成预测文本实体“食管炎”作为输出。
最后,服务器利用LSTM模型进行解码操作,根据对话文本以及生成的预测文本实体“食管炎”生成一句话1704:“我怀疑你有食管炎”,然后向用户展示。展示方式包括但不限于直接将生成的句子在用户的终端屏幕上进行显示,或者以语音的方式在用户的终端上播放。
可以理解的是,在实际应用中,在对话开始时用户输入的主要诉求1701也可能包括“胃痛”和“胸痛”,此时服务器可以直接根据提取到的文本实体“胃痛”和“胸痛”生成预测文本实体“食管炎”。
在医疗对话系统的应用场景下,参照表1,为两个大型的对话数据集CMDD以及MDG为例展示出图卷积网络(GCN,Graph Convolutional Network)、图注意力网络(GAT,GraphAttention Network)以及本发明实施例提供的超图神经网络的相关评测指标数据,其中ACC为预测的精确率,REC为召回率,F1为F1分数,F1分数可以看作是模型精确率和召回率的一种调和平均。
表1
进一步,在根据对话文本以及生成的预测文本实体“食管炎”生成“我怀疑你有食管炎”后,还可以根据预测文本实体“食管炎”向用户推荐相应的科室以及医生,以提高用户后续看病的便利性,增加用户体验感与吸引力。
参照图18,以投资顾问系统中的证券查找功能模块为例进行说明,首先,用户通过终端接入投资顾问系统的服务器,服务器接收到用户输入主要诉求1801为“请查找一只芯片股票”,服务器获取的对话文本为“请查找一只芯片股票”,利用LSTM模型对对话文本“请查找一只芯片股票”进行识别处理,将文本实体“芯片”标注出来,相类似地,服务器同样可以根据概念题材、股东或者产业链等生成预测问题1802:“还有其他相关的概念题材么”,然后接收到用户的回复文本1803:“5G”,此时对话文本变成了“请查找一只芯片股票”、“还有其他相关的概念题材么”、“5G”,服务器再次利用LSTM模型对对话文本“请查找一只芯片股票”、“还有其他相关的概念题材么”、“5G”进行识别处理,将文本实体“芯片”和“5G”标注出来,分别确定其在对应的句子中的位置,再利用LSTM模型分别得到文本实体“芯片”和“5G”对应的词向量,利用文本实体“芯片”和“5G”的词向量对应初始化超图“芯片”和“5G”实体节点的向量表达,接下来通过超图神经网络模型在超图上进行信息传递,从而可以生成预测文本实体“DD股份公司”作为输出。
最后,服务器利用LSTM模型进行解码操作,根据对话文本以及生成的预测文本实体“DD股份公司”生成一句话1804:“您可查看DD股份公司”,然后向用户展示。
可以理解的是,图15至图18所描述的生成预测文本实体的例子,LSTM模型以及超图神经网络模型的处理过程除了在服务器执行以外,也可以在终端执行,本发明实施例不做限定。
参照图19,本发明实施例还提供了一种模型训练方法,包括但不限于以下步骤1901至步骤1906:
步骤1901:获取训练对话文本和已标注对话文本;
步骤1902:提取训练对话文本中的相互关联的目标文本实体向量;
步骤1903:提取已标注对话文本中的标注文本实体;
步骤1904:根据目标文本实体向量确定超图中对应的目标实体节点的向量表达,得到目标节点向量;
步骤1905:将目标节点向量输入至超图神经网络模型,通过超图神经网络模型对目标节点向量进行处理,生成预测文本实体;
步骤1906:根据预测文本实体和标注文本实体,对超图神经网络模型中的参数进行修正。
其中,在步骤1901中,训练对话文本和已标注对话文本可以为已发生的历史对话文本,举例来说,历史对话文本可以为:
询问方:请问您有没有腹痛?
回答方:有一点,不太严重。
询问方:那请问您有没有腹泻?
回答方:也有一点,也不太严重。
询问方:我怀疑你是肠胃炎。
已标注对话文本为一个完整对话中包括询问方最终得出结论的文本,相应地训练对话文本为已标注对话文本之前发生的所有历史对话文本。举例来说,基于上述历史对话文本,已标注对话文本为“我怀疑你是肠胃炎”,而训练对话文本为“请问您有没有腹痛”、“有一点,不太严重”、“那请问您有没有腹泻”、“也有一点,也不太严重”。
在步骤1904中,超图包括多条超边,每条超边包括至少三个实体节点。
模型训练过程与前述的文本实体生成方法的过程相类似,不同点在于在模型训练方法中,还提取了已标注对话文本中的标注文本实体,用于与生成的预测文本实体进行校验,来验证超图神经网络模型生成预测文本实体的准确性,当预测文本实体的生成不够准确,则需要对超图神经网络模型中的参数进行修正,经过多个不同的训练对话文本和已标注对话文本重复对模型进行训练,以提高预测文本实体生成的准确率。
本发明实施例提供的模型训练方法,与上述文本实体生成方法基于相似的发明构思,通过获取训练对话文本和已标注对话文本,提取训练对话文本中的相互关联的目标文本实体向量,提取已标注对话文本中的标注文本实体,根据目标文本实体向量确定超图中对应的目标实体节点的向量表达,得到目标节点向量,将目标节点向量输入至超图神经网络模型,通过超图神经网络模型对目标节点向量进行处理,生成预测文本实体,根据预测文本实体和标注文本实体,对超图神经网络模型中的参数进行修正,从而提高训练后的超图神经网络模型预测文本实体生成的准确率,并且,由于超图神经网络模型基于超图运行,因此通过超图神经网络模型对目标节点向量进行处理,生成预测文本实体时能够考虑超图的实体节点之间的关系,从而提高文本实体生成的准确率,进而提高对话内容预测的准确率,其中,超图包括多条超边,每条超边包括至少三个实体节点,从而可以引入多个实体节点之间的多元关系,有利于进一步提高文本实体生成的准确率。
在一个实施例中,对超图神经网络模型中的参数进行修正,可以是对目标节点向量的向量维度进行修正,通过对目标节点向量的向量维度进行修正,可以使得输入至超图神经网络模型的目标节点向量更加合理化,例如,将目标节点向量的维度从200调整至300,具体的实现方式可以将目标节点向量通过线性层进行处理。
另外,对超图神经网络模型中的参数进行修正,也可以是对超边的权重进行修正,例如,对某条超边的权重由5%调整为6%,当然,调整的幅度可以根据实际情况设定,本发明实施例不做限定。
可以理解的是,上述对超图神经网络模型中的参数进行修正的两种方式可以择一执行,也可以全部执行,本发明实施例不做限定。
在一个实施例中,目标文本实体向量是由LSTM模型生成的,在超图神经网络模型训练的过程中,也会生成预测文本实体,因此,可以根据预测文本实体对应的向量对目标文本实体向量的向量表达进行修正,对LSTM模型进行优化,使得输入至超图神经网络模型的目标节点向量更加合理化。
参照图20,本发明实施例还提供了一种文本实体生成装置,包括:
文本获取模块2001,用于获取对话文本;
向量提取模块2002,用于提取对话文本中的目标文本实体向量;
初始化模块2003,用于根据目标文本实体向量确定超图中对应的目标实体节点的向量表达,得到目标节点向量,其中,超图包括多条超边,每条超边包括至少三个实体节点;
实体生成模块2004,用于通过超图神经网络模型对目标节点向量进行处理,生成预测文本实体。
本发明实施例提供的文本实体生成装置通过文本获取模块2001获取对话文本,向量提取模块提取2002对话文本中相互关联的目标文本实体向量,初始化模块2003根据目标文本实体向量确定超图中对应的目标实体节点的向量表达,得到目标节点向量,将目标节点向量输入至超图神经网络模型,由于超图神经网络模型基于超图运行,因此实体生成模块2004通过超图神经网络模型对目标节点向量进行处理,生成预测文本实体时能够考虑超图的实体节点之间的关系,从而提高文本实体生成的准确率,进而提高对话内容预测的准确率,其中,超图包括多条超边,每条超边包括至少三个实体节点,从而可以引入多个实体节点之间的多元关系,有利于进一步提高文本实体生成的准确率。
参照图21,本发明实施例还提供了一种模型训练装置,包括:
训练样本获取模块2101,用于获取训练对话文本和已标注对话文本;
训练向量提取模块2102,用于提取训练对话文本中的相互关联的目标文本实体向量;
文本实体提取模块2103,用于提取已标注对话文本中的标注文本实体;
训练初始化模块2104,用于根据目标文本实体向量确定超图中对应的目标实体节点的向量表达,得到目标节点向量,其中,超图包括多条超边,每条超边包括至少三个实体节点;
训练实体生成模块2105,用于通过超图神经网络模型对目标节点向量进行处理,生成预测文本实体;
参数修正模块2106,用于根据预测文本实体和标注文本实体,对超图神经网络模型中的参数进行修正。
本发明实施例提供的模型训练装置通过训练样本获取模块2101获取训练对话文本和已标注对话文本,训练向量提取模块2102提取训练对话文本中的相互关联的目标文本实体向量,文本实体提取模块2103提取已标注对话文本中的标注文本实体,训练初始化模块2104根据目标文本实体向量确定超图中对应的目标实体节点的向量表达,得到目标节点向量,训练实体生成模块2105通过超图神经网络模型对目标节点向量进行处理,生成预测文本实体,参数修正模块2106根据预测文本实体和标注文本实体,对超图神经网络模型中的参数进行修正,从而提高训练后的超图神经网络模型预测文本实体生成的准确率,并且,由于超图神经网络模型基于超图运行,因此通过超图神经网络模型对目标节点向量进行处理,生成预测文本实体时能够提高文本实体生成的准确率,进而提高对话内容预测的准确率,其中,超图包括多条超边,每条超边包括至少三个实体节点,从而可以引入多个实体节点之间的多元关系,有利于进一步提高文本实体生成的准确率。
另外,本发明实施例还提供了一种电子设备,该电子设备可以进行文本实体生成或者对超图神经网络模型进行训练。下面结合附图对该装置进行介绍。请参见图22,本发明实施例提供了一种电子设备,该电子设备还可以是终端装置,该终端装置可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,简称PDA)、销售终端(Point ofSales,简称POS)、车载电脑等任意智能终端,以终端装置为手机为例:
图22示出的是与本发明实施例提供的终端装置相关的手机的部分结构的框图。参考图22,手机包括:射频(Radio Frequency,简称RF)电路2210、存储器2220、输入单元2230、显示单元2240、传感器2250、音频电路2260、无线保真(wireless fidelity,简称WiFi)模块2270、处理器2280、以及电源2290等部件。本领域技术人员可以理解,图22中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图22对手机的各个构成部件进行具体的介绍:
RF电路2210可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器2280处理;另外,将设计上行的数据发送给基站。通常,RF电路2210包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,简称LNA)、双工器等。此外,RF电路2210还可以通过无线通信与网络和其他装置通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,简称GSM)、通用分组无线服务(GeneralPacket Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简称SMS)等。
存储器2220可用于存储软件程序以及模块,处理器2280通过运行存储在存储器2220的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器2220可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器2220可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元2230可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元2230可包括触控面板2231以及其他输入装置2232。触控面板2231,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板2231上或在触控面板2231附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板2231可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器2280,并能接收处理器2280发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板2231。除了触控面板2231,输入单元2230还可以包括其他输入装置2232。具体地,其他输入装置2232可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元2240可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元2240可包括显示面板2241,可选的,可以采用液晶显示器(LiquidCrystal Display,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板2241。进一步的,触控面板2231可覆盖显示面板2241,当触控面板2231检测到在其上或附近的触摸操作后,传送给处理器2280以确定触摸事件的类型,随后处理器2280根据触摸事件的类型在显示面板2241上提供相应的视觉输出。虽然在图22中,触控面板2231与显示面板2241是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板2231与显示面板2241集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器2250,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板2241的亮度,接近传感器可在手机移动到耳边时,关闭显示面板2241和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路2260、扬声器2261,传声器2262可提供用户与手机之间的音频接口。音频电路2260可将接收到的音频数据转换后的电信号,传输到扬声器2261,由扬声器2261转换为声音信号输出;另一方面,传声器2262将收集的声音信号转换为电信号,由音频电路2260接收后转换为音频数据,再将音频数据输出处理器2280处理后,经RF电路2210以发送给比如另一手机,或者将音频数据输出至存储器2220以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块2270可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图22示出了WiFi模块2270,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器2280是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器2220内的软件程序和/或模块,以及调用存储在存储器2220内的数据,执行手机的各种功能和处理数据,从而对手机进行整体检测。可选的,处理器2280可包括一个或多个处理单元;优选的,处理器2280可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器2280中。
手机还包括给各个部件供电的电源2290(比如电池),优选的,电源可以通过电源管理系统与处理器2280逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本实施例中,该终端装置所包括的处理器2280具备执行前面实施例的文本实体生成方法以及模型训练方法。
本发明实施例用于执行文本实体生成方法或者模型训练方法的还可以是服务器,请参见图23所示,图23为本发明实施例提供的服务器2300的结构图,服务器2300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(CentralProcessingUnits,简称CPU)2322(例如,一个或一个以上处理器)和存储器2332,一个或一个以上存储应用程序2342或数据2344的存储介质2330(例如一个或一个以上海量存储装置)。其中,存储器2332和存储介质2330可以是短暂存储或持久存储。存储在存储介质2330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器2322可以设置为与存储介质2330通信,在服务器2300上执行存储介质2330中的一系列指令操作。
服务器2300还可以包括一个或一个以上电源2326,一个或一个以上有线或无线网络接口2350,一个或一个以上输入输出接口2358,和/或,一个或一个以上操作系统2341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
服务器中的处理器可以用于执行文本实体生成方法或者模型训练方法。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行前述各个实施例的文本实体生成方法或者模型训练方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述各个实施例的文本实体生成方法或者模型训练方法。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(RandomAccess Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于上述方法实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
还应了解,本发明实施例提供的各种实施方式可以任意进行组合,以实现不同的技术效果。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本发明权利要求所限定的范围内。
Claims (14)
1.一种文本实体生成方法,其特征在于,包括:
获取对话文本;
提取所述对话文本中的目标文本实体向量;
根据所述目标文本实体向量确定超图中对应的目标实体节点的向量表达,得到目标节点向量,其中,所述超图包括多条超边,每条所述超边包括至少三个实体节点;
将所述目标节点向量输入至超图神经网络模型,根据所述超图得到用于表示所述超图的第一矩阵,对所述第一矩阵进行归一化处理,得到第二矩阵,对所述第一矩阵进行矩阵变换处理,并对矩阵变换处理后的第一矩阵进行归一化处理,得到第三矩阵,根据所述第二矩阵和所述第三矩阵的乘积更新所述目标节点向量,根据更新后的目标节点向量得到实体节点的概率分布,根据所述实体节点的概率分布确定预测实体节点,根据所述预测实体节点得到对应的预测文本实体。
2.根据权利要求1所述的文本实体生成方法,其特征在于,所述超图通过以下步骤获得:
获取多个实体节点;
连接至少三个所述实体节点以形成超边;
根据多个所述超边构建所述超图。
3.根据权利要求2所述的文本实体生成方法,其特征在于,所述连接至少三个所述实体节点以形成超边,包括:
获取对话数据集,根据所述对话数据集中当前轮次询问方涉及的第一文本实体以及上一轮次询问方与回答方涉及的第二文本实体得到实体集合,根据所述实体集合连接所述超图中对应的至少三个所述实体节点以形成超边,其中,所述第一文本实体与所述第二文本实体相互关联;
或者,获取对话数据集,根据所述对话数据集中同一句话中涉及的所有相互关联的文本实体得到实体集合,根据所述实体集合连接所述超图中对应的至少三个所述实体节点以形成超边;
或者,获取对话数据集,根据所述对话数据集中同一个完整对话涉及的所有相互关联的文本实体,得到实体集合,根据所述实体集合连接所述超图中对应的至少三个所述实体节点以形成超边。
4.根据权利要求3所述的文本实体生成方法,其特征在于,所述根据所述实体集合连接所述超图中对应的至少三个所述实体节点以形成超边,包括:
确定所述实体集合在所述对话数据集中的出现次数;
当所述出现次数大于或者等于设定阈值,连接所述超图中与所述实体集合对应的至少三个所述实体节点以形成超边。
5.根据权利要求1所述的文本实体生成方法,其特征在于,所述提取所述对话文本中的目标文本实体向量,包括:
对所述对话文本中的每一个句子进行编码处理,得到所述每一个句子所对应的句子向量;
根据所述句子向量得到所述对话文本中目标文本实体的词向量;
对所述词向量进行最大池化处理,得到所述目标文本实体所对应的目标文本实体向量。
6.根据权利要求1所述的文本实体生成方法,其特征在于,所述根据所述第二矩阵和所述第三矩阵的乘积更新所述目标节点向量,包括:
确定所述多条超边的权重;
根据所述第二矩阵和所述第三矩阵的乘积以及所述多条超边的权重更新所述目标节点向量。
7.根据权利要求1所述的文本实体生成方法,其特征在于:
所述目标节点向量的更新方式为加权处理或者池化处理。
8.根据权利要求1至7任意一项所述的文本实体生成方法,其特征在于,所述方法还包括:
根据所述预测文本实体生成询问文本。
9.根据权利要求8所述的文本实体生成方法,其特征在于,所述根据所述预测文本实体生成询问文本,包括:
根据所述对话文本得到待生成词语的概率分布;
根据所述待生成词语的概率分布确定目标词语;
根据所述目标词语以及所述预测文本实体生成询问文本。
10.根据权利要求1至7任意一项所述的文本实体生成方法,其特征在于,所述方法还包括:
对所述预测文本实体进行排列;
展示经过排列后的所述预测文本实体以生成选择列表。
11.一种模型训练方法,其特征在于,包括:
获取训练对话文本和已标注对话文本;
提取所述训练对话文本中的相互关联的目标文本实体向量;
提取所述已标注对话文本中的标注文本实体;
根据所述目标文本实体向量确定超图中对应的目标实体节点的向量表达,得到目标节点向量,其中,所述超图包括多条超边,每条所述超边包括至少三个实体节点;
将所述目标节点向量输入至超图神经网络模型,根据所述超图得到用于表示所述超图的第一矩阵,对所述第一矩阵进行归一化处理,得到第二矩阵,对所述第一矩阵进行矩阵变换处理,并对矩阵变换处理后的第一矩阵进行归一化处理,得到第三矩阵,根据所述第二矩阵和所述第三矩阵的乘积更新所述目标节点向量,根据更新后的目标节点向量得到实体节点的概率分布,根据所述实体节点的概率分布确定预测实体节点,根据所述预测实体节点得到对应的预测文本实体;
根据所述预测文本实体和所述标注文本实体,对所述超图神经网络模型中的参数进行修正。
12.根据权利要求11所述的模型训练方法,其特征在于,所述对所述超图神经网络模型中的参数进行修正,包括:
对所述目标节点向量的向量维度进行修正;
或者,对所述超边的权重进行修正。
13.一种文本实体生成装置,其特征在于,包括:
文本获取模块,用于获取对话文本;
向量提取模块,用于提取所述对话文本中的目标文本实体向量;
初始化模块,用于根据所述目标文本实体向量确定超图中对应的目标实体节点的向量表达,得到目标节点向量,其中,所述超图包括多条超边,每条所述超边包括至少三个所述实体节点;
实体生成模块,用于将所述目标节点向量输入至超图神经网络模型,根据所述超图得到用于表示所述超图的第一矩阵,对所述第一矩阵进行归一化处理,得到第二矩阵,对所述第一矩阵进行矩阵变换处理,并对矩阵变换处理后的第一矩阵进行归一化处理,得到第三矩阵,根据所述第二矩阵和所述第三矩阵的乘积更新所述目标节点向量,根据更新后的目标节点向量得到实体节点的概率分布,根据所述实体节点的概率分布确定预测实体节点,根据所述预测实体节点得到对应的预测文本实体。
14.一种电子设备,其特征在于,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至10中任意一项所述的文本实体生成方法或者如权利要求11至12中任意一项所述的模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110175774.8A CN113569572B (zh) | 2021-02-09 | 2021-02-09 | 文本实体生成方法、模型训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110175774.8A CN113569572B (zh) | 2021-02-09 | 2021-02-09 | 文本实体生成方法、模型训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113569572A CN113569572A (zh) | 2021-10-29 |
CN113569572B true CN113569572B (zh) | 2024-05-24 |
Family
ID=78161160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110175774.8A Active CN113569572B (zh) | 2021-02-09 | 2021-02-09 | 文本实体生成方法、模型训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113569572B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114357969A (zh) * | 2021-12-21 | 2022-04-15 | 有米科技股份有限公司 | 一种基于图注意网络的数据处理方法及装置 |
CN117688974B (zh) * | 2024-02-01 | 2024-04-26 | 中国人民解放军总医院 | 基于知识图谱的生成式大模型建模方法、系统及设备 |
CN117708439B (zh) * | 2024-02-06 | 2024-05-31 | 每日互动股份有限公司 | 一种目标文本的推送方法、装置、介质及设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105593851A (zh) * | 2013-08-01 | 2016-05-18 | 新加坡国立大学 | 用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息的方法和装置 |
CN109933652A (zh) * | 2019-01-17 | 2019-06-25 | 深圳壹账通智能科技有限公司 | 智能问答方法、装置、计算机设备及存储介质 |
CN110249326A (zh) * | 2017-02-08 | 2019-09-17 | 语义设备公司 | 自然语言内容生成器 |
CN110263177A (zh) * | 2019-05-23 | 2019-09-20 | 广州市香港科大霍英东研究院 | 用于事件预测的知识图构建方法与事件预测方法 |
CN110287297A (zh) * | 2019-05-22 | 2019-09-27 | 深圳壹账通智能科技有限公司 | 对话答复方法、装置、计算机设备及计算机可读存储介质 |
CN111198937A (zh) * | 2019-12-02 | 2020-05-26 | 泰康保险集团股份有限公司 | 对话生成及装置、计算机可读存储介质、电子设备 |
CN111586051A (zh) * | 2020-05-08 | 2020-08-25 | 清华大学 | 一种基于超图结构质量优化的网络异常检测方法 |
CN111931506A (zh) * | 2020-05-22 | 2020-11-13 | 北京理工大学 | 一种基于图信息增强的实体关系抽取方法 |
CN111984783A (zh) * | 2020-08-28 | 2020-11-24 | 达闼机器人有限公司 | 文本生成模型的训练方法、文本生成方法及相关设备 |
CN112214608A (zh) * | 2020-09-21 | 2021-01-12 | 清华大学 | 基于知识推理的文本生成方法、介质、装置和计算设备 |
CN112271001A (zh) * | 2020-11-17 | 2021-01-26 | 中山大学 | 一种应用异构图神经网络的医疗咨询对话系统及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11226945B2 (en) * | 2008-11-14 | 2022-01-18 | Georgetown University | Process and framework for facilitating information sharing using a distributed hypergraph |
US10410385B2 (en) * | 2016-02-19 | 2019-09-10 | International Business Machines Corporation | Generating hypergraph representations of dialog |
-
2021
- 2021-02-09 CN CN202110175774.8A patent/CN113569572B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105593851A (zh) * | 2013-08-01 | 2016-05-18 | 新加坡国立大学 | 用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息的方法和装置 |
CN110249326A (zh) * | 2017-02-08 | 2019-09-17 | 语义设备公司 | 自然语言内容生成器 |
CN109933652A (zh) * | 2019-01-17 | 2019-06-25 | 深圳壹账通智能科技有限公司 | 智能问答方法、装置、计算机设备及存储介质 |
CN110287297A (zh) * | 2019-05-22 | 2019-09-27 | 深圳壹账通智能科技有限公司 | 对话答复方法、装置、计算机设备及计算机可读存储介质 |
CN110263177A (zh) * | 2019-05-23 | 2019-09-20 | 广州市香港科大霍英东研究院 | 用于事件预测的知识图构建方法与事件预测方法 |
CN111198937A (zh) * | 2019-12-02 | 2020-05-26 | 泰康保险集团股份有限公司 | 对话生成及装置、计算机可读存储介质、电子设备 |
CN111586051A (zh) * | 2020-05-08 | 2020-08-25 | 清华大学 | 一种基于超图结构质量优化的网络异常检测方法 |
CN111931506A (zh) * | 2020-05-22 | 2020-11-13 | 北京理工大学 | 一种基于图信息增强的实体关系抽取方法 |
CN111984783A (zh) * | 2020-08-28 | 2020-11-24 | 达闼机器人有限公司 | 文本生成模型的训练方法、文本生成方法及相关设备 |
CN112214608A (zh) * | 2020-09-21 | 2021-01-12 | 清华大学 | 基于知识推理的文本生成方法、介质、装置和计算设备 |
CN112271001A (zh) * | 2020-11-17 | 2021-01-26 | 中山大学 | 一种应用异构图神经网络的医疗咨询对话系统及方法 |
Non-Patent Citations (4)
Title |
---|
Graph Based Semi-supervised Learning Methods Applied to Speech Rocognition Problem;Hoang Tran;International Conference on Nature of Computer and Communication;20150101;264-273 * |
双边视角下基于超图学习的在线医疗智能匹配算法研究;何欣;《中国优秀硕士学位论文全文数据库 (医药卫生科技辑)》;20200715(第7期);全文 * |
基于超网络演化模型的社区知识发现与分析;唐洪婷;《系统工程理论与实践》;20180325;第38卷(第3期);764-776 * |
王家林.《现代智能信息处理及应用》.吉林出版集团股份有限公司,2020,294-295. * |
Also Published As
Publication number | Publication date |
---|---|
CN113569572A (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113569572B (zh) | 文本实体生成方法、模型训练方法及装置 | |
CN109543195B (zh) | 一种文本翻译的方法、信息处理的方法以及装置 | |
CN111553162B (zh) | 一种意图识别的方法以及相关装置 | |
CN111914113B (zh) | 一种图像检索的方法以及相关装置 | |
CN111105852B (zh) | 一种电子病历推荐方法、装置、终端及存储介质 | |
CN109033156B (zh) | 一种信息处理方法、装置及终端 | |
CN111651604B (zh) | 基于人工智能的情感分类方法和相关装置 | |
CN114724643B (zh) | 一种多肽化合物的筛选方法以及相关装置 | |
CN111816159A (zh) | 一种语种识别方法以及相关装置 | |
CN113821720A (zh) | 一种行为预测方法、装置及相关产品 | |
CN112749252A (zh) | 一种基于人工智能的文本匹配方法和相关装置 | |
CN112748899A (zh) | 一种数据处理方法和相关设备 | |
CN111353299A (zh) | 基于人工智能的对话场景确定方法和相关装置 | |
CN113192537A (zh) | 唤醒程度识别模型训练方法及语音唤醒程度获取方法 | |
CN110781274A (zh) | 一种问答对生成的方法与装置 | |
CN112307198B (zh) | 一种单文本的摘要确定方法和相关装置 | |
CN115080840A (zh) | 一种内容推送方法、装置及存储介质 | |
CN115840809A (zh) | 一种信息推荐方法、装置、设备、系统及存储介质 | |
CN112328783A (zh) | 一种摘要确定方法和相关装置 | |
CN109544241A (zh) | 一种点击率预估模型的构建方法、点击率预估方法和装置 | |
CN113822435B (zh) | 一种用户转化率的预测方法及相关设备 | |
CN113763929A (zh) | 一种语音评测方法、装置、电子设备和存储介质 | |
CN113569043A (zh) | 一种文本类别确定方法和相关装置 | |
CN116450808B (zh) | 一种数据的处理方法、装置以及存储介质 | |
CN113535926B (zh) | 主动对话方法、装置及语音终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |