CN114328973A

CN114328973A - 一种基于大数据的用户数据处理系统

Info

Publication number: CN114328973A
Application number: CN202210001457.9A
Authority: CN
Inventors: 田军章; 欧志文; 罗焕泉; 张颖
Original assignee: Guangdong No 2 Peoples Hospital
Current assignee: Guangdong No 2 Peoples Hospital
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2022-04-12

Abstract

本发明涉及数据处理，提供一种基于大数据的用户处理系统，所述系统包括数据服务器和用户终端。通过建立医疗服务器中对现有的神经网络的特征提取做改进，在特征提取中进行分段特征提取，完成对于语句信息的多特征提取，满足短距离和远距离的语句信息的提取，同时对训练语料提供加权处理和对用户输入进行分类处理，能够在提升用户查询效率提升了用户体验。

Description

一种基于大数据的用户数据处理系统

技术领域

本发明涉及医疗数据处理领域，特别涉及基于大数据的用户医疗类数据的处理系统和方法。

背景技术

随着医院医疗信息化逐步完善，医疗信息基本上通过相关公司的医疗硬件采集、软件同步或用户自己填写的方式收集和储存（云端或本地）用户对应的医疗信息，但是目前存在各种医疗信息来源的途径不一，数据存储格式等比较分散，且用户可能在多个医疗硬件、软件上产生过相应的医疗信息，各类医疗信息很分散，不利于后期的数据处理和检索。同时对于医疗数据库中的大量病历等数据，缺乏充分的利用，没有对其进行归类和训练，而目前的网页上的医疗知识的问答等，都存在信息零散化，不够系统，医患之间基于专业知识背景的差异，两者的问题数据的不够精准。目前的医疗问诊过于针对一对一，无法向普通咨询用户提供精准化的导诊类的医疗数据应答。

发明内容

为解决上述问题之一，本发明提出了基于大数据的用户数据处理方法，所述系统包括：

数据服务器用于对用户数据进行预处理，所述预处理包括将所述各机构的数据做知识图谱结构数据存储；所述知识图谱存储采用三元组形式进行存储；构建知识图谱的关系数据库和图数据库，所述关系数据库采用结构化查询语言SQL，所述图数据库采用标准化查询语言SPARQL；

所述数据服务器用户提供访问的接口并接收所述用户的查询输入；

所述数据服务器，对用户的查询请求执行分类处理，对查询的语句进行关键词和主题匹配，所述在获取关键词和主题匹配时候，获取用户查询的位置和时间信息；将所述位置和时间信息作为辅助信息提供给数据查询服务器；其中，所述位置信息和时间信息用于辅助提取用户的历史询问或历史诊疗信息。

所述数据服务器，对用户的查询请求进行关键词提取，对所述语句的不同实体做嵌入词输入，通过选择性地词嵌入以表达词语之间的相关性；对距离较远的语句的含义，通过在句子级别特征中使用卷积神经网络，将所有的局部特征、提取句子中远距离的语法信息；最后生成句子级别的特征向量。

可选的，所述卷积神经网络包括输入层、特征提取池化层和分类操作层；

可选的，在卷积神经网络的特征提取池化层中，对卷积后的特征向量再次进行分段，根据原始数据句子中实体A和实体B的位置将其分成三段，然后对每段分别进行最大池化操作，最后再对三段的特征数值进行维度相加，利用三个数值来代表一个句子的向量化表示。

可选的，在进行关系分类时会在词嵌入层面为其加上每个词的位置信息。

可选的，对于选取的卷积神经网络信息，对其训练数据采用注意机制，给不同的语料赋予不同的权重，减轻错误标签值的负面影响，以此来提升分类器的性能。

可选的，权重值的获得是基于误差平方和最小为原则求解。

可选的所述卷积神经网络中基于权重值的获取，具体是基于拉格朗日系数求解。

可选的所述卷积神经网络是CNN,BP神经网络,或支持半监督学习的神经网络。

所述三元组格式是采用，主，谓，宾的方式来描述输入语句信息，所述嵌入信息是根据前后上下文语境执行的，所述场景信息基于医疗问诊的科室。

本发明通过建立医疗服务器中，通过现有的神经网络的改进在特征提取中进行分段特征提取，完成对于语句信息的多特征提取，满足短距离和远距离的语句信息的提取，同时对训练语料提供加权处理和对用户输入进行分类处理，能够在提升用户查询效率提升了用户体验。

附图说明

通过参考附图会更加清楚的理解本公开的特征和优点，附图是示意性的而不应理解为对本公开进行任何限制，在附图中

图1为本系统的整体框架示意图；

图2 是本数据服务器的结构示意图。

具体实施方式

参看下面的说明以及附图，本公开的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解，其中说明和附图形成了说明书的一部分。然而，可以清楚地理解，附图仅用作说明和描述的目的，并不意在限定本公开的保护范围。可以理解的是，附图并非按比例绘制。本公开中使用了多种结构图用来说明根据本公开的实施例的各种变形。

实施例1

如图1所示，本发明提出了基于大数据的用户数据处理方法和系统，所述系统包括：数据服务器和用户终端，所述数据服务器用于对用户数据进行预处理，所述预处理包括将所述各机构的数据做知识图谱结构数据存储；所述知识图谱存储采用三元组形式进行存储；构建知识图谱的关系数据库和图数据库，所述关系数据库采用结构化查询语言SQL，所述图数据库采用标准化查询语言SPARQL；

所述数据服务器为用户终端提供访问的接口并接收所述用户终端的查询输入；所述数据服务器，对用户的查询请求进行关键词提取，对所述语句的不同实体做嵌入词输入，通过选择性地词嵌入以表达词语之间的相关性；对距离较远的语句的含义，通过在句子级别特征中使用卷积神经网络，将所有的局部特征、提取句子中远距离的语法信息；最后生成句子级别的特征向量。

所述数据服务器，对用户的查询请求执行分类处理，对查询的语句进行关键词和主题匹配，所述在获取关键词和主题匹配时候，获取用户查询时的位置和时间信息；将所述位置和时间信息作为辅助信息提供给数据查询服务器；在进行关系分类时会在词嵌入层面为其加上每个词的位置信息。

优选的，在卷积神经网络的特征提取池化层中，对卷积后的特征向量再次进行分段，根据原始数据句子中实体A和实体B的位置将其分成三段，然后对每段分别进行最大池化操作，最后再对三段的特征数值进行维度相加，利用三个数值来代表一个句子的向量化表示。

可选的，对于选取的卷积神经网络信息，对其训练数据采用注意机制，给不同的语料赋予不同的权重，减轻错误标签值的负面影响，以此来提升分类器的性能。权重值的获得是基于误差平方和最小为原则求解。所述卷积神经网络包括输入层、特征提取池化层和分类操作层；

数据服务器中的描述架构，资源描述框架 (Resource Description Framework,RDF) 和 SPARQL 查询语言 (SPARQL Protocol and Query Language, SPARQL) 。资源描述框架中的基本元素格式为： <主, 谓, 宾> 或 <s, p, o>。它采用主语、谓词和宾语的方式来表示和陈述一条知识。可选的，所述数据服务器中，采用的管理工具为RDF Store或Triple Store。一个 RDF 数据可以分为两个部分：显式三元组和隐含三元组。

如图2所示，医疗知识图谱的知识实际上是通过数据库系统进行存储的，大部分数据库系统通过形式化的查询语言为用户提供访问数据库的接口。数据服务器包括关系数据库：标准查询语言SQL和图数据库：标准查询语言SPARQL

知识图谱中的数据在逻辑上呈现为图结构，数据服务器特征匹配，分类，按照图查询的方式来查找相应信息和主题，将查询的问题通过神经网络转化为判断查询图是否为图数据集的子图，即子图匹配问题。

病例库由采用国际通用的资源描述框架(RDF)标准对来自于一线医院的真实住院及门诊病例构成的一个个疾病知识图谱组成，图谱中的每条边为一条表示[主语，谓语，宾语]的三元组；书本知识库：使用XML(eXtensible Markup Language)格式存储的专业医疗书本知识。诸如，通常而言，可以设置有专家规则库：由来自各大医疗机构的医生根据诊断经验提取采集而成。语义知识库：包括词典文件，停用词表，正则表达式规则集合等。

数据服务器接收用户发出的某个短小的语句，对语句的信息执行分类抽取，获取显性和隐性三元组，在查询时，获取发送查询词的时间和地理位置信息、利用用户过去发出的查询词及相应的点击记录等历史信息手段，辅助理解语句的真正需求和含义。

由于，现有的医疗数据中，存在大量的医疗数据，由于医疗数据的存在与不同的机构，存在这不同的来源也带来了许多的噪音。在对神经网络训练时，数据服务器对医疗诊疗数据设置注意机制，通过注意机制对医疗数据中的数据进行去噪音。所述注意机制来运用在样本训练数据中，来自不同的医疗结构的数据知识难免会有一些错误的标签；因此，在训练阶段时，需要剔除噪音，使用注意机制错误训练数据问题的，提升训练样本的精确度。现有的技术中给定一个实体对和其对应的关系，传统的方法在无标签的语料集中提取所有包含该实体对的句子，并认为这样的句子中实体也存在同样的关系。这种方式会一些噪音语料而影响训练效果，所以引入权重注意机制，给不同的语料赋予不同的权重，尽量减轻错误标签值的负面影响，以此来提升分类的性能。所述权重值可以通过多分类模式的拟合仿真来执行，所述仿真模型的拟合具体可以采用多模型的拟合，将最优权系数，可以转换为求解二次规划问题，作为拉格朗日求解。

设置误差信息矩阵为：

e_it标识第i种语料t时刻的预测误差，选取4种语料为准，i取值1-4，n 为具体语料的参数序列标记。

数据服务器中，根据具体的上下文的主题信息，通过嵌入的方式将语句在相同的语境中执行语义提取，从而获取到相似的关键词和实现对用户真是意图的获取。在医疗领域，不同的生理化指标和专业词汇在相同的语境（上下文）中往往表达的是较为相似的含义。借助于词的向量化表示中添加了上下文信息，比如：S : [张三]0 体温1 和白细胞2 上升3 并持续4 在5 [非正常]6。正常情况下利用词嵌入技术将其表示为一组向量的集合形式，(x0, x1, · · · , x6)；但将上下文信息融入到词嵌入技术中，使得句子中第i个单词的向量化表示是由周围若干个词的特征融合而成的。其S就变成了{[xs, x0, x1], [x0,x1, x2], · · · , [x5, x6, xe]}。

在上述语句中通过选择性地词嵌入以表达词语之间的相关性。对于具体较远的语句的含义，通过在句子级别特征中使用卷积神经网络，将所有的局部特征、提取句子中远距离的语法信息，最后生成句子级别的特征向量。在卷积神经网络的池化层，对一个句子不只提取一个特征，在卷积神经网络中对卷积后的特征向量C进行分段，根据原始数据中实体1和实体2的位置将其分成三段，然后对每段分别进行最大池化操作，最后再对三段的特征数值进行维度相加，这样用三个数值来代表一个句子的向量化表示，来弥补句子太长对于关系分类的影响。同时，在进行关系分类时会再word embeding字词嵌入层面为其加上每个词的位置信息，所述的位置信息是指，句子中每个词语距离实体1和实体2的距离。在句子向量进行过卷积、池化操作后，再为句子向量级联上实体1和实体2的位置信息。对用户的语句执行处理之后，通过特征向量输入到病历库中进行匹配检索。上述语句中可以将添加的嵌入信息，具体为具体科室和具体就诊领域，或用户输入查询的过往历史信息，以前上下文前后信息的主题信息距离，通过上述信息的嵌入，构造多个信息的特征向量。

优选的，数据服务器在获取用户的问句信息，对用户的问问句执行分类处理：识别答案类型模块进行答案类型的识别的答案类型分为三种：一是普通答案，表示实体和属性非常明确，可以在知识库中找到唯一的三元组，直接产生答案；二是反问型答案，表示实体和属性不太明确，在知识库中能找到多个三元组，基于这些三元组进行反问；三是综述型答案，表示实体和属性明确，答案需要基于知识库中的多个三元组进行综述而成，普通答案生成、反问答案生成、综述答案生成模块根据不同答案类型生成相应的答案。

当为反问类型时，则进一步根据用户的历史信息搜索行为或位置信息等对相关问题的主题类型做提示性输出，通过用户的点击反馈，再次执行搜索主题的细化，针对这类用户则需要列出与关键词相关的二级词条“疾病科室类型”、“诊疗”、“病理”和它们的摘要信息，供用户进一步选择性细化阅读，以获取到含义的明确含义。从而根据现有的分类器获取到上述类型信息向用户输出。

示例性的，对于综合类问题则需要根据多个关联的三元组信息，对于多个三元组信息，建立多个不同的映射矩阵之间的关系，Mq,k表示问题知识库与问题关键词之间的映射关系矩阵，其中Rq→k表示二者之间的映射关系，Qi(i＝1...n)表示问题及其个数，Kj(j＝1...m)表示问题关键词及其个数。

将一个问题可以被拆解为多个关键词加以描述，同时一个关键词也可以运用于多个问题中。T_ij(i＝1...n,j＝1...m)表示问题i由问题关键词j所组成的文本内容。Mk,k'表示问题关键词与答案关键词之间的映射关系矩阵，其中Rk→k'表示二者之间的映射关系，Ki(i＝1...n)表示问题关键词及其个数，K'j(j＝1...m)表示答案关键词及其个数。从这里可以看出，一个问题关键词可以对应于多个问题答案关键词，同时一个答案关键词也可以运用于多个问题关键词中。Tij(i＝1...n,j＝1...m)表示问题关键词i由答案关键词j予以解答的文本内容。

Mk',a表示答案关键词与答案之间的映射关系矩阵，其中Rk'→a表示二者之间的映射关系，K'i(i＝1...n)表示答案关键词及其个数，Aj(j＝1...m)表示答案及其个数。可知一个答案关键词可以用以描述多个答案，同时一个答案也可以运用多个答案关键词进行描述。T_ij(i＝1...n,j＝1...m)表示答案关键词i对答案j进行描述的文本内容。

Ma,rank表示答案与答案排名之间的映射关系矩阵，其中Ra→rank表示二者之间的映射关系，Ai(i＝1...n)表示答案及其个数，表示答案i的排名。

表示答案与用户满意度之间的映射关系矩阵，其中表示二者之间的映射关系，A_i(i＝1...n)表示答案及其个数，Us,j(j＝1...m)表示用户满意度及其个数。一个答案可以被多个用户进行评价，可以拥有多个用户满意度。同时一个用户也可以对多个答案进行评价，分别给出多个答案的用户满意度评价。P_ij(i＝1...n,j＝1...m)表示答案i由用户j予以评价的用户满意度。

根据用户的反馈评价和关联系数权重综合系数，对综合类的问题执行反馈以执行排序输出，向用户进行排序输出。

通过问答匹配度评估过程后的问题与答案间就建立了较高的匹配映射关系，在此之后可对候选答案与问题的匹配程度进行排名，并将排名靠前的若干个候选答案提供给用户进行选择，同时让用户对问题的答案进行评价，并将评价的结果及时反馈给问答系统进行问答匹配度的修正和知识库中知识的替换与更新。

实施例2

如实施例1中的系统，可以数据服务器在面对综合性问答或反问性问答时，可以进一步用于根据用户的历史医疗病历信息发现用户潜在的问题。首先对用户的当前输入进行问题的分类，再对输入进行分词，接着对输入的信息进行实体识别，并根据分类信息和实体信息在图搜索中找到和问题相关的答案。当答案出现多个时，将用户的所有历史搜索数据的实体映射到结点上，并针对每个节点进行层次遍历。根据搜索到的节点离中心点的远近程度(距离越远关系越小)以及中心节点对应的历史搜索时间(时间相隔越久关系越小)还有每个节点的出度和入度的不同(出度或入度越大，关系越小)增加不同的权重。筛选出候选答案中权重最高的节点作为答案返回。并将本次输入中的实体作为历史信息存入到该用户的历史行为数据中，用于下一次的使用。

可选的，数据服务器也可以用户输入的医疗数据信息或用户询问信息，处理成句子向量，将得到的句子向量矩阵作为输入送入卷积神经网络中；可以采用滤波器行卷积操作以产生一个特征图谱；对特征图谱使用max‐overtime的池化操作；使用多个滤波器来获取多个不同的特征图谱并做池化操作以得到相关特征；将给定一个样本x，输入到网络中，与训练参数θ运算将输出一个向量o，它的第i维oi表示该句子属于第i类的一个概率评分，其中，训练参数θ表示卷积神经网络中每一层的权重与偏置参数；在关系类别之上做一个softmax操作，以获得条件概率p(i|x,θ)；通过反向传播算法来迭代更新θ，并最终得到关系分类。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）、随机存储记忆体（Random AccessMemory，RAM）、快闪存储器（Flash Memory）、硬盘（Hard Disk Drive，缩写：HDD）或固态硬盘（Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于大数据的用户处理系统，其特征在于：所述系统包括数据服务器和用户终端，所述数据服务器与多个用户终端执行连接；数据服务器用于对用户数据进行预处理，所述预处理包括将各医疗机构的数据做知识图谱结构数据存储；所述知识图谱存储采用三元组形式进行存储；构建知识图谱的关系数据库和图数据库，所述关系数据库采用结构化查询语言SQL，所述图数据库采用标准化查询语言SPARQL；

所述数据服务器为用户的用户终端提供访问的接口并接收所述用户的查询输入；

2.如权利要求1所述的系统，其特征在于：所述数据服务器，对用户的查询请求进行关键词提取，对所述语句的不同实体做嵌入词输入，通过选择性地词嵌入以表达词语之间的相关性；对距离较远的语句的含义，通过在句子级别特征中使用卷积神经网络，将所有的局部特征和提取句子中远距离的语法信息；最后生成句子级别的特征向量。

3.如权利要求2所述的系统，其特征在于：所述卷积神经网络包括输入层、特征提取池化层和分类操作层。

4.如权利要求3所述的系统，其特征在于：所述数据服务器在卷积神经网络的特征提取池化层中，对卷积后的特征向量再次进行分段，根据原始数据句子中实体A和实体B的位置将其分成三段，然后对每段分别进行最大池化操作，最后再对三段的特征数值进行维度相加，利用三个数值来代表一个句子的向量化表示。

5.如权利要求4所述的系统，其特征在于：所述数据服务器在进行关系分类时会在词嵌入层面为其加上每个词的位置信息。

6.如权利要求5所述的系统，其特征在于：所述数据服务器对于选取的卷积神经网络信息，对其训练数据采用注意机制，给不同的语料赋予不同的权重，减轻错误标签值的负面影响，以此来提升分类器的性能。

7.如权利要求6所述的系统，其特在于：所述权重值的获得是基于误差平方和最小为原则求解。

8.如权利要求6所述的系统，其特征在于：所述卷积神经网络中基于权重值的获取，具体是基于拉格朗日系数求解。

9.如权利要求8所述的系统，其特征在于：所述卷积神经网络是CNN，BP神经网络，或支持半监督学习的神经网络。

10.如权利要求1-9任一所述的系统，其特征在于：所述三元组格式是采用，主，谓，宾的方式来描述语句信息，所述嵌入信息是根据前后上下文语境执行的。