CN112329964A

CN112329964A - 用于推送信息的方法、装置、设备以及存储介质

Info

Publication number: CN112329964A
Application number: CN202011329229.1A
Authority: CN
Inventors: 冯博豪; 庞敏辉; 谢国斌
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-02-05
Anticipated expiration: 2040-11-24
Also published as: CN112329964B

Abstract

本申请公开了一种用于推送信息的方法、装置、设备以及存储介质，涉及数据处理、知识图谱、智能推荐领域，可应用于云服务。具体实现方案为：获取目标用户的上传文档和历史知识图谱；分析上传文档，得到文字信息；基于文字信息，构建目标知识图谱；基于目标知识图谱和历史知识图谱，确定目标推荐信息，并向目标用户推送目标推荐信息。本实现方式通过将人工智能的技术应用于生活，能够对用户上传的文档进行智能化解析得到目标知识图谱，并基于得到的目标知识图谱和获取的历史知识图谱，辅助用户快速找到合适的匹配资源信息并向用户推送，从而节省用户浏览网页以及问询的时间，并且可以提高信息推荐的合理性和准确性。

Description

用于推送信息的方法、装置、设备以及存储介质

技术领域

本申请涉及人工智能领域，具体涉及数据处理、知识图谱、智能推荐领域，尤其涉及用于推送信息的方法、装置、设备以及存储介质。

背景技术

随着科学技术的发展，互联网也被广泛引用，医疗服务类网站增多。现在足不出户，就能够进行网上预约挂号。但是，网上信息海量而繁杂，患者在网上预约挂号时，往往不知道应该选择什么医院，无法获得专业人士的帮助，存在盲目性。

发明内容

本公开提供了一种用于推送信息的方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种用于推送信息的方法，包括：获取目标用户的上传文档和历史知识图谱；分析上传文档，得到文字信息；基于文字信息，构建目标知识图谱；基于目标知识图谱和历史知识图谱，确定目标推荐信息，并向目标用户推送目标推荐信息。

根据本公开的另一方面，提供了一种用于推送信息的装置，包括：获取单元，被配置成获取目标用户的上传文档和历史知识图谱；分析单元，被配置成分析上传文档，得到文字信息；知识图谱构建单元，被配置成基于文字信息，构建目标知识图谱；推送单元，被配置成基于目标知识图谱和历史知识图谱，确定目标推荐信息，并向目标用户推送目标推荐信息。

根据本公开的再一方面，提供了一种用于推送信息的电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上述用于推送信息的方法。

根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，上述计算机指令用于使计算机执行如上述用于推送信息的方法。

根据本申请的技术解决了患者在网上预约挂号选择医院和医生时，无法获得专业人士的帮助，存在盲目性的问题，本申请通过将人工智能的技术应用于生活，能够对用户上传的文档(可以是病历)进行智能化解析得到目标知识图谱，并基于得到的目标知识图谱和获取的历史知识图谱，辅助用户快速找到合适的匹配资源信息并向用户推送，从而节省用户浏览网页以及问询的时间，并且可以提高信息推荐的合理性和准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本申请的用于推送信息的方法的一个实施例的流程图；

图3是根据本申请的用于推送信息的方法的一个应用场景的示意图；

图4是根据本申请的用于推送信息的方法的另一个实施例的流程图；

图5是根据本申请的用于推送信息的装置的一个实施例的结构示意图；

图6是用来实现本申请实施例的用于推送信息的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于推送信息的方法或用于推送信息的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种应用APP或者小程序，例如就医预约APP/小程序、病历解析APP/小程序、导诊APP/小程序、理财APP/小程序、家政APP/小程序、外卖APP/小程序、购物APP/小程序等，其中，符号“/”可以表示“或”。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、车载电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103获取的目标用户的上传文档和历史知识图谱进行处理的后台服务器。后台服务器获取目标用户的上传文档和历史知识图谱；分析上传文档，得到文字信息；基于文字信息，构建目标知识图谱；基于目标知识图谱和历史知识图谱，确定目标推荐信息，并向目标用户推送目标推荐信息。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的用于推送信息的方法一般由服务器105执行。相应地，用于推送信息的装置一般设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的用于推送信息的方法的一个实施例的流程200。本实施例的用于推送信息的方法，包括以下步骤：

步骤201，获取目标用户的上传文档和历史知识图谱。

本实施例中，用于推送信息的方法的执行主体(例如图1中的服务器105)可以通过有线连接或者无线连接的方式，获取由终端设备获取的目标用户的上传文档和历史知识图谱。具体地，目标用户可以是患者，还可以是学生，还可以是产妇或其家人，还可以是正在找工作的人。相应的目标用户的上传文档分别可以是患者的病历，学生的成绩单，产妇的需求单，工作简历。本申请对目标用户的类型不做限定。上传文档的格式可以是word格式，也可以是PDF格式，本申请对上传文档的格式不做限定。历史知识图谱可以是根据历史患者的病历与匹配的医院和医生构建的知识图谱、根据历届学生的成绩单与对应的学校和导师构建的知识图谱、根据历史产妇的需求单与匹配的月嫂机构和月嫂姓名构建的知识图谱、根据历史求职者的简历与匹配的公司和职位构建的知识图谱，本申请对历史知识图谱的类型不做具体限定。知识图谱构建了一个与目标用户或历史用户相关的完整的知识体系，由各实体和各实体之间的关系确定。各实体可以是目标用户或者是历史用户上传文档中的关键字或关键词等，例如“章XX”、“山东”、“23”。各实体之间的关系，例如可以是：“章XX”和“山东”之间的关系是“户籍”；“章XX”与“23”之间的关系是“年龄”。

步骤202，分析上传文档，得到文字信息。

执行主体在得到上传文档后，可以分析上传文档，得到文字信息。具体地，文字信息可以包括文字的位置信息和文字的内容信息。文字的位置信息例如可以是每一个文字与上下左右边框的距离，文字的内容信息例如可以是“发病时间：2010年9月至今”。

具体地，执行主体可以调用本地装载的具有文字识别功能的APP或者推送可识别上传文档的APP或小程序的信息给目标用户，并响应目标用户的下载请求，下载该推送的APP或运行该小程序，并调用该下载的APP或运行该小程序对上传文档进行文字信息的识别。本申请对可分析上传文档得到文字信息的APP或小程序不做具体限定。

步骤203，基于文字信息，构建目标知识图谱。

执行主体在得到上传文档的文字信息后，可以基于文字信息，构建目标知识图谱。具体地，执行主体可以将文字信息中的与预设实体对应的实体及实体间的关系提取，例如，只将文字信息中的姓名，年龄，户籍，性别，疾病，治疗，检测，症状对应的各实体进行提取，然后基于提取的这些实体构建目标知识图谱，而对文字信息中的星座，婚否，民族，毕业院校等对应的实体不进行获取，以保留最有效的信息，精简得到的目标知识图谱。本申请对文字信息的获取实体不作具体限定。目标知识图谱可以指的是由上传文档的各预设提取的实体和对应的实体关系构建的知识图谱。

步骤204，基于目标知识图谱和历史知识图谱，确定目标推荐信息，并向目标用户推送目标推荐信息。

执行主体在得到目标知识图谱后，可以基于目标知识图谱和历史知识图谱，确定目标推荐信息，并向目标用户推送目标推荐信息。具体地，执行主体可以通过计算目标知识图谱和各历史知识图谱之间的马氏距离，来确定与目标知识图谱相似的预设个数个历史知识图谱；然后执行主体可以根据确定出的该预设个数个历史知识图谱确定目标推荐信息；并向目标用户推送目标推荐信息。可以理解的是目标推荐信息的个数可以不止一个，可以由多个目标推荐信息。示例的，如果目标知识图谱是患者的病历对应的知识图谱，则目标推荐信息可以是与患者的病历匹配的一个或多个医院和/或医生。

继续参考图3，其示出了根据本申请的用于推送信息的方法的一个应用场景的示意图。在图3的应用场景中，服务器304获取目标用户309的上传文档301(例如可以是目标用户的病历文档)和历史知识图谱302。服务器304分析上传文档301，得到文字信息306。服务器304基于文字信息306，构建目标知识图谱307。服务器304基于目标知识图谱307和历史知识图谱302，确定目标推荐信息308(例如可以是推荐的医院及医生)，并向目标用户309推送目标推荐信息308。

本实施例通过将人工智能的技术应用于生活，能够对用户上传的文档，例如病历，进行智能化解析得到目标病历知识图谱，并基于得到的目标病历知识图谱和获取的历史病历知识图谱，辅助用户快速找到合适的匹配资源信息(例如可以是匹配的合适的医院和医生等)并向目标用户推送，从而节省目标用户(例如可以是患者)浏览网页以及问询的时间，并且可以提高信息推荐的合理性和准确性。

继续参考图4，其示出了根据本申请的用于推送信息的方法的另一个实施例的流程400。如图4所示，本实施例的用于推送信息的方法，可以包括以下步骤：

步骤401，获取目标用户的上传文档和历史知识图谱。

步骤402，分析上传文档，得到文字信息。

步骤401～步骤402的原理与步骤201～步骤202的原理类似，此处不再赘述。

在本实施例的一些可选的实现方式中，步骤402可以由图4中未示出的步骤4021～步骤4022来实现：

步骤4021，对上传文档进行文字检测，得到文字坐标信息。

步骤4022，对上传文档进行文字识别，得到文字内容信息。

本实施例中，执行主体在得到上传文档后，可以对上传文档进行光学字符识别(OCR，Optical Character Recognition)文字检测和文字识别。OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。具体地，文字检测应用的是TextBoxes++模型。TextBoxes++为TextBoxes的改进版，并进一步扩大卷积神经网络的感受野，使用了联结多种特征图的Inception模块，其在中文文字检测上，效果表现良好。文字识别应用的模型为TextCaps模型，此模型包含有胶囊网络(CapsNets)，能够通过少量的样本进行训练就能够获得非常好的文字识别效果。通过文字检测和文字识别，能够分别获得上传文档中的文字坐标信息和文字内容信息。文字的位置信息例如可以是每一个文字与上下左右边框的距离，文字的内容信息例如可以是“发病时间：2010年9月至今”。

本实施例通过利用OCR等技术对上传文档进行智能化解析，得到上传文档的文字坐标信息和文字内容信息，可以节省在构建目标知识图谱时的人工录入的成本，并提高所构建的目标知识图谱的准确率。

步骤403，基于文字信息，构建目标知识图谱。

步骤403的原理与步骤203的原理类似，此处不再赘述。

具体地，步骤403可以通过步骤4031～步骤4035来实现：

步骤4031，识别上传文档的表格线。

本实施例中，执行主体在得到上传文档后，可以对上传文档进行内容分区。具体地，执行主体可以利用Opencv的腐蚀膨胀算法识别上传文档上面的表格线。

步骤4032，根据表格线将上传文档分成不同的区域。

执行主体在识别得到表格线后，可以以表格线为分界，根据表格线将上传文档分成不同的区域。

步骤4033，确定各区域的坐标。

本实施例中，各区域的坐标可以包括各区域边缘附近的各文字的坐标，也可以包括各区域中的所有文字的坐标。作为第一种实现方式，执行主体在将上传文档分成不同的区域后，可以基于通过TextBoxes++确定的文字信息中的各文字的坐标信息，确定对应各区域边缘的文字的坐标信息或者确定各区域中所有文字的坐标信息，由此即可确定各区域的坐标。

当然，可以理解的是，作为第二种实现方式，执行主体也可以通过各种方式检测被分成不同的区域的边缘的表格线的坐标，确定各区域的坐标，本申请对各区域的坐标的确定方式不作限定。

步骤4034，基于文字信息和各坐标，对各区域进行聚合，得到区域块，并确定各区域块的类别。

在步骤4033的第一种实现方式中，执行主体在得到各区域的坐标后，可以基于通过TextCaps模型确定的文字信息中的各文字的内容信息和包含文字的各区域，确定各区域中的文字的相关性，将具有关联关系的文字所在的区域进行聚合，得到区域块。例如，第一个区域中的文字为：基本信息。第二个区域中的文字为：姓名。第三个区域中的文字为：性别。第四个区域中的文字为：主诉。第五个区域中的文字为：发病时间。第六个区域中的文字为：疾病。则执行主体可以判定“基本信息”和“姓名”、“性别”具有相关性，则可以将第一个区域和第二个区域、第三个区域进行聚合得到第一区域块。执行主体可以判定“主诉”与“发病时间”、“疾病”具有关联关系，则可以将第四个区域和第五个区域、第六个区域进行聚合得到第二区域块。并且，执行主体可以根据各区域块中的文字的内容信息，确定各区域块的类别。例如，执行主体可以根据第一区域块中的“基本信息”，当然，执行主体也可以根据“姓名”、“性别”等文字的内容信息，确定第一区域块的类别为基本信息区。执行主体可以根据第二区域块中的“主诉”，当然执行主体也可以根据“发病时间”、“疾病”等文字的内容信息，确定第二区域块的类别为主诉区。

步骤4035，基于类别和文字信息，构建目标知识图谱。

执行主体在得到各区域块的类别后，可以基于得到的类别和文字信息，分区域块对目标知识图谱进行构建，以精细化构建的目标知识图谱，使得目标知识图谱更完善、精确和实用。

本实施例基于区分类别后的区域块和文字信息，构建目标知识图谱，可以使得所构建的知识图谱的更精细，使得通过该构建的知识图谱进行信息的推荐更精确，以提升用户的体验，并提升用户接受推送信息的成功率。

具体地，步骤4035可以通过步骤40351～步骤40353来实现：

步骤40351，响应于确定区域块的类别为基本信息区域，根据关键字匹配的方法，确定该区域块中的基本信息实体。

本实施例中，执行主体在得到各区域块的类别后，可以应用自然语言处理(NLP，Natural Language Processing)信息抽取模型，抽取各区域块中的文字信息的各实体(基本信息实体和/或复杂信息实体)。具体地，针对主诉区所代表的复杂信息区和基本信息区的信息抽取方式可以不同，

具体地，针对基本信息区，执行主体响应于确定区域块的类别为基本信息区域，可以通过关键字匹配的方法，完成键-值对(k-v)的提取，提取出该区域块中的基本信息实体。基本信息都以k-v形式存在，例如，k(姓名)-v(章XX)。示例的，基本信息实体包括：姓名-章XX、性别-女、出生日期-1991年11月、户口-山东、居住地-山东、手机-188****7122、电话-0535***1950等。

步骤40352，响应于确定区域块的类别为复杂信息区域，根据预训练的语言模型和条件随机场，确定该区域块中的复杂信息实体。

具体地，针对复杂信息区，其中的“复杂”可以指的是信息不是以简单的键-值对(k-v)的形式存在的，信息可能存在三元组关系，例如信息可以是以头实体-实体之间的关系-尾实体这样的三元组信息形式存在，众多的这种三元组信息构成复杂信息区。执行主体响应于确定区域块的类别为复杂信息区域，可以应用预训练的语言模型(BERT，Bidirectional Encoder Representations from Transformers)结合条件随机场(CRF，Conditional Random Field)进行复杂信息实体的抽取。BERT的本质上是通过在海量的语料的基础上运行自监督学习方法，为各区域块中的文字信息学习一个好的特征表示，自监督学习是指在没有人工标注的数据上运行的监督学习。在以后特定的NLP任务中，可以直接使用BERT的特征表示作为该NLP任务的词嵌入特征。所以BERT提供的是一个供其它任务迁移学习的模型，该模型可以根据任务微调或者固定之后作为特征提取器。BERT+CRF模型既使用了预训练的语言模型(BERT)提取文本信息的特征，又利用了条件随机场CRF衡量序列标注的联系。具体地，该方法对输入的复杂信息区的文字信息进行建模，把文字信息中的每个词转换为词向量；然后利用Transformer处理得到的分布式词向量，得到句子特征；最后使用CRF抽取得到的句子特征中的实体。示例的，复杂信息实体抽取的关键字段可以包含以下几点，例如：

a.发病时间：比如，2010年9月至今。

b.疾病：患者的病历中的诊断结果，例如，胰腺炎。

c.检查和检验：检查和检验可以为“病理学检查”、“实验室检查”、“体检操作”、“影像学检查”、“肿瘤穿刺细胞学检查与组织活检”、“肿瘤脱落细胞学检查”等等。

d.身体部位：由多种组织构成能行使功能的结构单位，例如“大肠”。

e.临床症状：由疾病引起的不适表现，包括症状和体征。症状可以是患者患病后对机体生理功能异常的主观感受。体征可以指患者检查时所发现的异常结果，比如头晕、呕吐、腹痛。

f.治疗：针对疾病的治疗方式。比如，肿瘤疾病的治疗方式可以包括化学药物治疗、手术治疗和放射疗法。

执行主体在对病历中的主诉内容区和过往病史区的文字信息进行以上抽取后，能够去除冗余的信息，得到规范的复杂信息实体。

步骤40353，基于基本信息实体和/或复杂信息实体，构建目标知识图谱。

执行主体在得到基本信息实体和/或复杂信息实体后，可以基于基本信息实体和/或复杂信息实体，构建目标知识图谱。具体地，当不存在复杂信息区域时，执行主体可以只根据基本信息实体构建目标知识图谱。当不存在基本信息区域时，执行主体可以只根据复杂信息实体构建目标知识图谱。当同时存在基本信息区域和复杂信息区域时，执行主体可以同时基于基本信息实体和复杂信息实体以及获取的各实体之间的关系，构建目标知识图谱。具体地，执行主体可以基于获取的各实体之间的关系，连接各个基本信息实体和复杂信息实体，形成完整的目标知识图谱。形成目标知识图谱后，上传文档的文字信息就被分成了不同的层次，示例的，最高层次是身体部位和疾病，再往下一层是临床症状和检查，再往下一层是其他信息。构建完目标知识图谱后，执行主体可以采用Neo4j的方式存储于本地或云端，本申请对目标知识图谱的存储方式和存储地址不作具体限定。

本实施例通过将用户上传的文档中的文字信息进行层次化、结构化处理，并根据处理后得到的基本信息实体和/或复杂信息实体构建目标知识图谱，能够提高后续基于目标知识图谱进行信息推荐的准确性。

步骤404，基于目标知识图谱和历史知识图谱，确定目标推荐信息，并向目标用户推送目标推荐信息。

步骤404包括步骤4041和步骤4042。

步骤404的原理与步骤204的原理类似，此处不再赘述。

步骤4041，基于目标知识图谱和历史知识图谱，确定目标推荐信息。

具体地，步骤4041还可以通过步骤40411～步骤40414来实现：

步骤40411，分别根据目标知识图谱、历史知识图谱和向量化转换模型，确定向量化的目标知识图谱和向量化的历史知识图谱。

执行主体在得到目标知识图谱后，为了后续进行信息推荐，可以分别根据目标知识图谱、历史知识图谱和向量化转换模型，确定向量化的目标知识图谱和向量化的历史知识图谱。具体地，向量化转换模型可以是TransR模型。TransR模型能够更加准确地完成病历图谱的向量化(embedding)表示。

具体地，目标知识图谱中的每一个三元组关系都可以表示为(h,r,t),其中h和t表示头实体向量和尾实体向量，r表示两个实体节点之间的关系向量。TransR模型为TransE模型的升级版。在TransR模型中，一个实体是多种属性的综合体，不同关系关注实体的不同属性。TransR模型在实体空间和多个关系空间中建立了各个实体的关联。对于每个确定的三元组(h,r,t)，将实体空间中的实体(h和t)通过矩阵Mr投影到r关系空间中，分别形成向量hr和向量tr，则它们将满足hr+r＝tr。相较于其他模型，TransR模型能够更加准确地完成目标知识图谱的向量化(embedding)表示，得到向量化的目标知识图谱。同理，TransR模型能够更加准确地完成历史知识图谱的向量化(embedding)表示，得到向量化的历史知识图谱。

步骤40412，基于向量化的目标知识图谱、向量化的历史知识图谱和预训练的相似度模型，确定向量化的目标知识图谱与各向量化的历史知识图谱的相似度。

执行主体在得到向量化的目标知识图谱和向量化的历史知识图谱后，可以基于向量化的目标知识图谱、向量化的历史知识图谱和预训练的相似度模型，确定向量化的目标知识图谱与各向量化的历史知识图谱的相似度。具体地，执行主体可以将向量化的目标知识图谱和各向量化的历史知识图谱输入预训练的相似度模型中，输出向量化的目标知识图谱和各向量化的历史知识图谱的相似度。

步骤40413，基于相似度，确定目标历史知识图谱。

执行主体在得到相似度后，可以从得到的这些相似度中，找出相似度大于预设相似度阈值的K个向量化的历史知识图谱，将这K个向量化的历史知识图谱对应的历史知识图谱作为目标历史知识图谱。

步骤40414，基于目标历史知识图谱，确定目标推荐信息。

执行主体在得到目标历史知识图谱后，可以基于目标历史知识图谱，找到历史知识图谱中的目标用户所关注的相关信息，并确定为目标推荐信息，其中，目标用户所关注的相关信息基于目标用户上传的文档所确定。示例的，如果目标历史知识图谱为K个目标历史病历图谱，执行主体可以将这K个目标历史病历图谱对应的患者访问过的医生和医院确定为目标推荐信息。

本实施例通过得到向量化的目标知识图谱和各历史知识图谱的相似度，可以得到目标历史知识图谱，并基于目标历史知识图谱可以实现结合其他历史用户对信息的选择，能够更加合理地对目标用户进行信息推荐及推送，提升用户体验及用户对推送信息接受的成功率。

具体地，步骤40414还可以通过步骤404141～步骤404143来实现：

步骤404141，根据目标历史知识图谱，确定参考推荐信息。

执行主体在得到目标历史知识图谱后，可以根据目标历史知识图谱，确定参考推荐信息。具体地，执行主体可以根据目标历史图谱找到历史知识图谱中的目标用户所关注的相关信息；然后在得到的该相关信息中统计得到排名前TOP-M的相关信息，并将该排名前TOP-M的相关信息确定为参考推荐信息，也可以作为目标推荐信息进行推送。示例的，排名前TOP-M的相关信息可以为排名前TOP-M的医院和医生，并将该排名前TOP-M的医院和医生确定为参考推荐信息或确定为目标推荐信息。

步骤404142，根据向量化的目标知识图谱、参考推荐信息和预训练的匹配度预测模型，确定向量化的目标知识图谱与各参考推荐信息的匹配度。

本实施例中，预训练的匹配度预测模型用于表征知识图谱和推荐信息与二者之间的匹配度的对应关系。执行主体在得到参考推荐信息后，可以结合目标用户的目标知识图谱进行进一步的目标推荐信息的筛选。具体地，执行主体可以将向量化的目标知识图谱、参考推荐信息输入预训练的匹配度预测模型中，输出向量化的目标知识图谱与各参考推荐信息的匹配度。该输出的匹配度可以是预测匹配概率。

步骤404143，基于匹配度和预设的匹配度阈值，确定参考推荐信息中的目标推荐信息。

执行主体在得到匹配度后，可以基于匹配度和预设的匹配度阈值，确定参考推荐信息中的目标推荐信息。具体地，执行主体可以将匹配度大于预设的匹配度阈值的H(H≥1，且H为正整数)个匹配度对应的参考推荐信息确定为目标推荐信息。

本实施例通过对根据目标历史知识图谱得到的参考推荐信息进行进一步的筛选，筛选出与目标知识图谱对应的最匹配的一个或多个目标推荐信息，可以提高信息推荐的精准度，可以节省目标用户浏览网页的时间，提高目标用户对推送的推荐信息接受的成功率以及可以提高用户的满意度。

步骤4042，向目标用户推送目标推荐信息。

步骤4042的原理与步骤204中的“向目标用户推送目标推荐信息”的原理类似，此处不再赘述。

本实施例中，用于推送信息的方法，还包括：多次执行以下迭代步骤4043～步骤4044：

步骤4043，响应于确定目标用户接受目标推荐信息，保存目标知识图谱和目标推荐信息。

执行主体在给目标用户推送目标推荐信息后，响应于确定目标用户接受目标推荐信息，可以保存目标知识图谱和目标推荐信息，以对历史知识图谱进行更新，并作为更新的历史知识图谱和参考推荐信息供后续用户参考使用。

步骤4044，响应于确定目标用户不接受目标推荐信息，接收目标用户上传的附加信息；基于附加信息更新上传文档。

执行主体在给目标用户推送目标推荐信息后，响应于确定目标用户不接受目标推荐信息，接收目标用户上传的附加信息；基于附加信息更新上传文档，并返回步骤402，迭代执行步骤402～步骤4044，直至执行步骤4043并停止信息推送。执行主体可以基于更新的上传文档更新目标知识图谱；基于更新的目标知识图谱和历史知识图谱，调整并更新目标推荐信息；向目标用户重新推送更新的目标推荐信息直至目标用户接受目标推荐信息为止。示例的，在一个患者根据病历查询合适的医院和医生的场景中，当用户在执行主体的上传界面上传病历，并接收执行主体推送的目标推荐信息后，如果觉得推送的目标推荐信息与其病情匹配，则可以点击确定按钮，该患者的病历和推荐结果都会保存在执行主体中的存储模块中；如果用户觉得推送的目标推荐信息与其病情不匹配，可以点击重新推荐按钮并在上传病历的输入界面，输入更多与病情相关的信息，执行主体根据用户重新输入的信息更新用户的病历即更新目标用户的上传文档，并返回步骤402，迭代执行步骤402～步骤4044，直至执行步骤4043并停止信息推送，此时，该患者基于最终接受的目标推荐信息确定合适的医院和医生。

此外，在本实施例的一些可选的实现方式中，用于推送信息的方法还包括：接收目标用户对所接受的目标推荐信息的具体内容的查询指令；执行主体响应于该查询指令，对目标用户所接受的该目标推荐信息进行查询，并显示查询结果。示例的，患者向查询推荐的医院和医生的具体信息，则可例如科室信息、医生信息、医院信息等。其中，科室信息，主要是显示不同科室的相关信息,包括科室简介、科室名、科室位置、科室主治疾病、科室医生成员信息等。这些信息能够方便患者在进行预约挂号时,全面地了解各科室的现状以及医疗水平等。医生信息，显示了不同医生的所有信息,具体包括医生名、医生编号、年龄、性别、医生坐诊时间、医生主治疾病等。医院信息，主要包含医院的基本介绍、位置信息、科室构成、名医简介、主攻疾病等信息。让患者对该医院有一个大概的了解。

本实施例在目标用户不接受目标推荐信息时，通过基于目标用户补充的信息更新上传文档，并重新向目标用户推送更新的目标推荐信息，直至目标用户接受推送的目标推荐信息为止，可以实现智能化循环推荐信息，能够节省目标用户浏览网页查询的时间，更加合理地进行信息推荐，帮助用户最终找到合适的目标推荐信息，提升用户体验。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种用于推送信息的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的用于推送信息的装置500包括：获取单元501、分析单元502、知识图谱构建单元503和推送单元504。

获取单元501，被配置成获取目标用户的上传文档和历史知识图谱。

分析单元502，被配置成分析上传文档，得到文字信息。

知识图谱构建单元503，被配置成基于文字信息，构建目标知识图谱。

推送单元504，被配置成基于目标知识图谱和历史知识图谱，确定目标推荐信息，并向目标用户推送目标推荐信息。

在本实施例的一些可选的实现方式中，分析单元502进一步被配置成：对上传文档进行文字检测，得到文字坐标信息；对上传文档进行文字识别，得到文字内容信息。

在本实施例的一些可选的实现方式中，知识图谱构建单元503进一步被配置成：识别上传文档的表格线；根据表格线将上传文档分成不同的区域；确定各区域的坐标；基于文字信息和各坐标，对各区域进行聚合，得到区域块，并确定各区域块的类别；基于类别和文字信息，构建目标知识图谱。

在本实施例的一些可选的实现方式中，知识图谱构建单元503进一步被配置成：响应于确定区域块的类别为基本信息区域，根据关键字匹配的方法，确定该区域块中的基本信息实体；响应于确定区域块的类别为复杂信息区域，根据预训练的语言模型和条件随机场，确定该区域块中的复杂信息实体；基于基本信息实体和/或复杂信息实体，构建目标知识图谱。

在本实施例的一些可选的实现方式中，推送单元504进一步被配置成：分别根据目标知识图谱、历史知识图谱和向量化转换模型，确定向量化的目标知识图谱和向量化的历史知识图谱；基于向量化的目标知识图谱、向量化的历史知识图谱和预训练的相似度模型，确定向量化的目标知识图谱与各向量化的历史知识图谱的相似度；基于相似度，确定目标历史知识图谱；基于目标历史知识图谱，确定目标推荐信息。

在本实施例的一些可选的实现方式中，推送单元504进一步被配置成：根据目标历史知识图谱，确定参考推荐信息；根据向量化的目标知识图谱、参考推荐信息和预训练的匹配度预测模型，确定向量化的目标知识图谱与各参考推荐信息的匹配度，其中，预训练的匹配度预测模型用于表征知识图谱和推荐信息与二者之间的匹配度的对应关系；基于匹配度和预设的匹配度阈值，确定参考推荐信息中的目标推荐信息。

在本实施例的一些可选的实现方式中，推送单元504进一步被配置成：多次执行以下迭代步骤：响应于确定目标用户接受目标推荐信息，保存目标知识图谱和目标推荐信息；响应于确定目标用户不接受目标推荐信息，接收目标用户上传的附加信息；基于附加信息更新上传文档；基于更新的上传文档更新目标知识图谱；基于更新的目标知识图谱和历史知识图谱，调整并更新目标推荐信息；向目标用户重新推送更新的目标推荐信息。

在本实施例的一些可选的实现方式中，用于推送信息的装置还包括图5中未示出的信息查询单元，被配置成接收目标用户对所接受的目标推荐信息的具体内容的查询指令；响应于该查询指令，对目标用户所接受的该目标推荐信息进行查询，并显示查询结果。

应当理解，用于推送信息的装置500中记载的单元501至单元504分别与参考图2中描述的方法中的各个步骤相对应。由此，上文针对用于推送信息的方法描述的操作和特征同样适用于装置500及其中包含的单元，在此不再赘述。

根据本申请的实施例，本申请还提供了一种用于推送信息的电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的用于推送信息的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线605互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线605与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的用于推送信息的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的用于推送信息的方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及单元，如本申请实施例中的用于推送信息的方法对应的程序指令/单元(例如，附图5所示的获取单元501、分析单元502、知识图谱构建单元503和推送单元504)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的用于推送信息的方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用于推送信息的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至用于推送信息的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用于推送信息的方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线605或者其他方式连接，图6中以通过总线605连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与用于推送信息的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过将人工智能的技术应用于生活，能够对用户上传的文档进行智能化解析得到目标知识图谱，并基于得到的目标知识图谱和获取的历史知识图谱，辅助用户快速找到合适的匹配资源信息并向用户推送，从而节省用户浏览网页以及问询的时间，并且可以提高信息推荐的合理性和准确性。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种用于推送信息的方法，包括：

获取目标用户的上传文档和历史知识图谱；

分析所述上传文档，得到文字信息；

基于所述文字信息，构建目标知识图谱；

基于所述目标知识图谱和所述历史知识图谱，确定目标推荐信息，并向所述目标用户推送所述目标推荐信息。

2.根据权利要求1所述的方法，其中，所述分析所述上传文档，得到文字信息，包括：

对所述上传文档进行文字检测，得到文字坐标信息；

对所述上传文档进行文字识别，得到文字内容信息。

3.根据权利要求1所述的方法，其中，所述基于所述文字信息，构建目标知识图谱，包括：

识别所述上传文档的表格线；

根据所述表格线将所述上传文档分成不同的区域；

确定各所述区域的坐标；

基于所述文字信息和各所述坐标，对各所述区域进行聚合，得到区域块，并确定各所述区域块的类别；

基于所述类别和所述文字信息，构建目标知识图谱。

4.根据权利要求3所述的方法，其中，所述基于所述类别和所述文字信息，构建目标知识图谱，包括：

响应于确定所述区域块的类别为基本信息区域，根据关键字匹配的方法，确定该区域块中的基本信息实体；

响应于确定所述区域块的类别为复杂信息区域，根据预训练的语言模型和条件随机场，确定该区域块中的复杂信息实体；

基于所述基本信息实体和/或所述复杂信息实体，构建目标知识图谱。

5.根据权利要求1所述的方法，其中，所述基于所述目标知识图谱和所述历史知识图谱，确定目标推荐信息，包括：

分别根据所述目标知识图谱、所述历史知识图谱和向量化转换模型，确定向量化的目标知识图谱和向量化的历史知识图谱；

基于所述向量化的目标知识图谱、所述向量化的历史知识图谱和预训练的相似度模型，确定所述向量化的目标知识图谱与各所述向量化的历史知识图谱的相似度；

基于所述相似度，确定目标历史知识图谱；

基于所述目标历史知识图谱，确定目标推荐信息。

6.根据权利要求5所述的方法，其中，所述基于所述目标历史知识图谱，确定目标推荐信息，包括：

根据所述目标历史知识图谱，确定参考推荐信息；

根据所述向量化的目标知识图谱、所述参考推荐信息和预训练的匹配度预测模型，确定所述向量化的目标知识图谱与各所述参考推荐信息的匹配度，其中，所述预训练的匹配度预测模型用于表征知识图谱和推荐信息与二者之间的匹配度的对应关系；

基于所述匹配度和预设的匹配度阈值，确定所述参考推荐信息中的目标推荐信息。

7.根据权利要求1～6中任一项所述的方法，其中，所述方法还包括：

多次执行以下迭代步骤：

响应于确定所述目标用户接受所述目标推荐信息，保存所述目标知识图谱和所述目标推荐信息；

响应于确定所述目标用户不接受所述目标推荐信息，接收所述目标用户上传的附加信息；基于所述附加信息更新上传文档；基于更新的上传文档更新目标知识图谱；基于更新的目标知识图谱和所述历史知识图谱，调整并更新目标推荐信息；向所述目标用户重新推送更新的目标推荐信息。

8.一种用于推送信息的装置，包括：

获取单元，被配置成获取目标用户的上传文档和历史知识图谱；

分析单元，被配置成分析所述上传文档，得到文字信息；

知识图谱构建单元，被配置成基于所述文字信息，构建目标知识图谱；

推送单元，被配置成基于所述目标知识图谱和所述历史知识图谱，确定目标推荐信息，并向所述目标用户推送所述目标推荐信息。

9.根据权利要求8所述的装置，其中，所述分析单元进一步被配置成：

对所述上传文档进行文字检测，得到文字坐标信息；

对所述上传文档进行文字识别，得到文字内容信息。

10.根据权利要求8所述的装置，其中，所述知识图谱构建单元进一步被配置成：

识别所述上传文档的表格线；

根据所述表格线将所述上传文档分成不同的区域；

确定各所述区域的坐标；

基于所述类别和所述文字信息，构建目标知识图谱。

11.根据权利要求10所述的装置，其中，所述知识图谱构建单元进一步被配置成：

12.根据权利要求8所述的装置，其中，所述推送单元进一步被配置成：

基于所述相似度，确定目标历史知识图谱；

基于所述目标历史知识图谱，确定目标推荐信息。

13.根据权利要求12所述的装置，其中，所述推送单元进一步被配置成：

根据所述目标历史知识图谱，确定参考推荐信息；

14.根据权利要求8～13中任一项所述的装置，其中，所述推送单元进一步被配置成：

多次执行以下迭代步骤：

15.一种用于推送信息的电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。