基于字段分词处理的信息推送方法、装置和计算机设备
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于字段分词处理的信息推送方法、装置和计算机设备。
背景技术
随着计算机技术领域的高速发展,各个领域的知识以及应用也不断信息化。许多信息都有相应特征的属性和功能,同一特征信息对应着多种应用策略。例如,同一种药品可以应用于多种类型的病症,同一法律条文可以应用于多种类型的定罪预判等。对于特定领域的信息而言,领域信息的相关知识具有较高的专业性。
现有的信息推送的方式中,通常是向大多数用户推送通用的产品以及相关策略等信息,无法根据用户的属性信息进行个性化推送符合用户情况的推送信息,导致信息推送的准确性较低。因此,如何有效地提高信息推送的准确性成为目前需要解决的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够准确有效地提取特征信息,从而有效提高信息推送准确性的基于字段分词处理的信息推送方法、装置和计算机设备。
一种基于字段分词处理的信息推送方法,所述方法包括:
接收第一终端发送的资源获取请求,所述资源获取请求携带用户信息;
获取第二终端根据所述用户信息发送的资源对象;所述资源对象包括说明信息;
将所述用户信息和所述说明信息输入已训练的文本提取模型中,得到所述用户信息对应的用户特征信息和所述说明信息对应的候选特征字段信息;
从所述候选特征字段信息中确定所述说明信息对应的目标特征字段信息;
将所述用户特征信息和目标特征字段信息输入匹配模型中,将所述用户特征信息和目标特征字段信息与多个特征策略信息进行匹配,输出匹配结果;
将所述匹配结果中满足预设阈值的特征策略信息确定为目标策略信息,将所述资源对象和所述目标策略信息推送至所述第一终端。
在其中一个实施例中,在所述接收第一终端发送的资源获取请求之前,还包括:获取多个资源对象样本,所述资源对象样本包括资源标识和说明信息;将所述多个说明信息输入文本提取模型中,输出与所述说明信息对应的候选特征字段信息;调用字段对齐算法对所述候选特征字段信息进行对齐处理,得到与所述候选特征字段信息对应的对齐特征字段信息;将所述对齐特征字段信息输入句法分析模型中,输出与所述对齐特征字段信息对应的特征句法分析结果;根据所述特征分析结果生成多个特征策略信息,根据所述资源标识将所述多个特征策略信息存储至特征策略库。
在其中一个实施例中,所述得到所述说明信息对应的候选特征字段信息包括:对所述说明信息进行分词处理,得到所述说明信息对应的多个分词;调用预设赋值算法计算多个分词的词频分值、词性分值及位置分值;根据所述多个分词的词频分值、词性分值和位置分值,计算所述说明信息中所述多个分词的综合权值;根据所述综合权值计算所述说明信息的所述多个分词的权重;根据所述说明信息的多个分词的权重,提取与所述说明信息对应的候选特征字段信息。
在其中一个实施例中,所述对所述说明信息进行分词处理,得到所述说明信息对应的多个分词的步骤包括:对所述说明信息进行分词处理,得到分词结果;获取与说明信息对应的消歧算法;根据所述消歧算法筛选分词结果,得到与说明信息对应的至少一个分词。
在其中一个实施例中,所述从所述候选特征字段信息中确定所述说明信息对应的目标特征字段信息的步骤包括:将多个候选特征字段信息进行任意组合,得到候选特征字段对;计算所述候选特征字段对中的候选特征字段信息之间的相似度,得到与各个候选特征字段对对应的字段相似度;获取所述字段相似度高于预设对齐条件的候选特征字段对;调用合并算法将所述候选特征字段对中的候选特征字段信息进行合并,得到对齐特征字段信息,将所述对齐特征字段信息确定为所述说明信息对应的目标特征字段信息。
在其中一个实施例中,所述将所述匹配结果满足预设阈值的特征策略信息确定为目标策略信息后,还包括:将所述目标策略信息发送至所述第二终端,使所述第二终端对所述目标决策信息进行审核,若审核通过,则返回相应的提示信息;将审核通过后的目标策略信息推送至所述第一终端。
一种基于字段分词处理的信息推送装置,所述装置包括:
信息获取模块,用于接收第一终端发送的资源获取请求,所述资源获取请求携带用户信息;获取第二终端根据所述用户信息发送的资源对象;所述资源对象包括说明信息;
特征提取模块,用于将所述用户信息和所述说明信息输入已训练的文本提取模型中,得到所述用户信息对应的用户特征信息和所述说明信息对应的候选特征字段信息;从所述候选特征字段信息中确定所述说明信息对应的目标特征字段信息;
策略匹配模块,用于将所述用户特征信息和目标特征字段信息输入匹配模型中,将所述用户特征信息和目标特征字段信息与多个特征策略信息进行匹配,输出匹配结果;
信息推送模块,用于将所述匹配结果中满足预设阈值的特征策略信息确定为目标策略信息,将所述资源对象和所述目标策略信息推送至所述第一终端。
在其中一个实施例中,所述特征提取模块还用于将多个候选特征字段信息进行任意组合,得到候选特征字段对;计算所述候选特征字段对中的候选特征字段信息之间的相似度,得到与各个候选特征字段对对应的字段相似度;获取所述字段相似度高于预设对齐条件的候选特征字段对;调用合并算法将所述候选特征字段对中的候选特征字段信息进行合并,得到对齐特征字段信息,将所述对齐特征字段信息确定为所述说明信息对应的目标特征字段信息。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请任意一个实施例中提供的基于字段分词处理的信息推送方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请任意一个实施例中提供的基于字段分词处理的信息推送方法的步骤。
上述基于字段分词处理的信息推送方法、装置和计算机设备,服务器接收第一终端发送的资源获取请求,并获取第二终端根据用户信息发送的资源对象后,将用户信息和说明信息输入已训练的文本提取模型中,得到用户信息对应的用户特征信息和说明信息对应的候选特征字段信息,并从候选特征字段信息中确定说明信息对应的目标特征字段信息,从而能够准确有效地提取出用户信息和说明信息中的特征信息。服务器进而将将用户特征信息和目标特征字段信息输入匹配模型中,将用户特征信息和目标特征字段信息与多个特征策略信息进行匹配,由此能够准确地得到对应的匹配结果。服务器则将匹配结果中满足预设阈值的特征策略信息确定为目标策略信息,能够有效地生成精确度极高的特征策略,并将资源对象和目标策略信息推送至第一终端,通过对用户信息和目标对象的说明信息进行特征提取,能够有效地实现对说明信息中的使用策略的精确提取,并将生成的策略信息推送给用户终端,由此能够有效提高信息推送的准确性。
附图说明
图1为一个实施例中基于字段分词处理的信息推送方法的应用场景图;
图2为一个实施例中基于字段分词处理的信息推送方法的流程示意图;
图3为一个实施例中生成多个特征策略信息步骤的流程示意图;
图4为一个实施例中文本提取步骤的流程示意图;
图5为一个实施例中基于字段分词处理的信息推送装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的基于字段分词处理的信息推送方法,可以应用于如图1所示的应用环境中。其中,第一终端102通过网络与服务器104进行通信,服务器104通过网络与第二终端106进行通信。服务器104接收第一终端102发送的资源获取请求,并获取第二终端106根据用户信息发送的资源对象后,将用户信息和说明信息输入已训练的文本提取模型中,得到用户信息对应的用户特征信息和说明信息对应的候选特征字段信息,并从候选特征字段信息中确定说明信息对应的目标特征字段信息,从而能够准确有效地提取出用户信息和说明信息中的特征信息。服务器104进而将将用户特征信息和目标特征字段信息输入匹配模型中,将用户特征信息和目标特征字段信息与多个特征策略信息进行匹配,由此能够准确地得到对应的匹配结果。服务器104则将匹配结果中满足预设阈值的特征策略信息确定为目标策略信息,能够有效地生成精确度极高的特征策略,并将资源对象和目标策略信息推送至第一终端102,通过对用户信息和目标对象的说明信息进行特征提取,能够有效地实现对说明信息中的使用策略的精确提取,并将生成的策略信息推送给用户终端,由此能够有效提高信息推送的准确性。其中,第一终端102和第二终端106可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种基于字段分词处理的信息推送方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,接收第一终端发送的资源获取请求,资源获取请求携带用户信息。
其中,第一终端可以为用户所对应的用户终端,用户终端中安装了相应业务的应用程序,用户可以利用第一终端基于终端中的应用程序向服务器发起资源获取请求,例如资源获取请求可以包括产品获取请求、咨询信息获取请求等。资源获取请求携带了用户的用户信息,用户信息可以是指用户相关的信息。
步骤204,获取第二终端根据用户信息发送的资源对象;资源对象包括说明信息。
其中,资源对象可以指与用户信息相匹配的目标对象信息,也可以是用户所需的目标对象信息。资源对象可以是第二终端根据用户信息所发送的,资源对象也可以是服务器根据用户信息所匹配的得到的。例如,当用户所需的资源对象为药品信息时,第二终端可以是医生终端,医生终端则可以根据用户信息推荐对应的药品信息。也可以对服务器匹配的药品信息进行审核。资源对象的说明信息是指包括多个说明信息的文本信息,例如可以是资源对象的特征对应的说明书。
步骤206,将用户信息和说明信息输入已训练的文本提取模型中,得到用户信息对应的用户特征信息和说明信息对应的候选特征字段信息。
步骤208,从候选特征字段信息中确定说明信息对应的目标特征字段信息。
其中,文本提取模型是指预先训练的用于进行文本提取的模型;候选特征字段信息是指服务器从说明信息中提取出的字段信息;字段对齐算法是指特征说明书中常常出现多个不同表述但指向同一对象的信息,因此须对各个候选特征字段信息进行对齐。对齐过程根据说明信息的全简称提示、外部词典、词向量相似度以及汉明距离进行对齐。
服务器获取用户信息和资源对象的说明信息后,调用已训练的文本提取模型,将用户信息和说明信息输入至文本提取模型中,通过文本提取模型分别对用户信息和资源对象的说明信息进行特征提取,进而输出用户信息对应的用户特征信息,并输出与说明信息对应的候选特征字段信息。其中,候选特征字段信息可以包括多个。从而能够准确地提取出用户信息和说明信息对应的特征信息。
服务器将说明信息输入已训练的文本提取模型中,输出与说明信息对应的候选特征字段信息后,还可以进一步调用字段对齐算法对候选特征字段信息进行对齐处理,得到与候选特征字段信息对应的对齐特征字段信息。服务器进而将对齐特征字段信息确定为说明信息对应的目标特征字段信息。
在其中一个实施例中,文本提取模型可采用基于统计特征的关键词提取算法,基于统计特征的关键词提取算法可以包括:1、基于词权重的特征量化:包括词性、词频、相对词频、词长等。2、基于词的文本位置的特征量化:通常用法用量字段中的前N个词、后N个词、句首、句尾等位置的词具有代表性,这些词作为关键词可以精准定位。3、基于词的关联信息的特征量化:词与词,词与文本的关联程度信息。其中,词性表示名词或专有名词等判断是否是实体,进行实体识别。词频表示一个词在文本中出现的频率,可用于判断该词附近是否是目标词语。位置信息表示通过关键词的位置信息判断应提取字段及语句识别的方向。
例如,当资源对象为药品信息时,药品信息包括相应的药品说明信息,出现在同一特征说明书中的“头孢克肟”和“头孢克肟分散片”,当两个候选特征字段信息进行对齐后,两个候选特征字段信息将会统一为“头孢克肟分散片”,因为实际上在同一特征说明书中“头孢克肟”和“头孢克肟分散片”表述的意思为同一含义的意思。对齐特征字段信息是指将含义重复但表述不一致的内容进行统一后得到的字段信息。
在其中一个实施例中,服务器还可采用基于主题关键词提取算法对字段信息进行提取:a、获取候选关键词:从文本中获取候选关键词。即将文本进行分词,也可以再根据词性选取候选关键词。b、语料学习:根据大规模语料学习得到主题模型。c、计算文本主题分部:根据得到的隐含主题模型,计算文本的关键词分布。d、排序:计算文本和候选关键词的主题相似度并排序,选取前n个词作为关键词。
步骤210,将用户特征信息和目标特征字段信息输入匹配模型中,将用户特征信息和目标特征字段信息与多个特征策略信息进行匹配,输出匹配结果。
其中,匹配模型可以是预先训练的用于进行字符串相似度匹配的模型。
服务器提取出用户信息对应的用户特征信息,以及说明信息对应的目标特征字段信息后,则将用户特征信息和目标特征字段信息输入匹配模型中进行相似度匹配,输出相似度匹配结果。
具体地,目标特征字段信息还可以包括资源对象对应的资源标识,服务器将用户特征信息和目标特征字段信息输入匹配模型后,则获取该资源标识对应的多个特征策略信息,并将用户特征信息与多个特征策略信息进行匹配,得到多个匹配结果。
在其中一个实施例中,相似度匹配模型可基于关键词匹配、基于向量空间或基于深度学习进行相似度匹配,基于向量空间时,相似度计算包括但不限于欧式距离、曼哈顿距离和余弦相似度等。
步骤212,将匹配结果中满足预设阈值的特征策略信息确定为目标策略信息,将资源对象和目标策略信息推送至第一终端。
服务器得到用户特征信息多个特征策略信息的多个匹配结果后,提取出匹配结果满足预设条件阈值的特征策略信息,将提取出的特征策略信息确定为资源对象对应的目标策略信息,服务器进而将资源对象和目标策略信息推送至第一终端,从而能够精准有效地向用户推送与用户特征信息相匹配的资源对象和对应的特征策略信息,有效提高了信息推送的准确性。
例如,当用户信息为用户的病历信息,资源对象为药品信息时,药品信息包括相应的药品说明信息。服务器可以接收用户终端发送的病历信息,并获取该病历信息对应的药品信息。服务器则利用文本提取模型提取出用户病历信息对应的病历字段信息,以及药品说明信息对应的候选特征字段信息,调用字段对齐算法将候选药品字段信息进行对齐处理,得到与候选药品字段信息对应的对齐药品字段信息,能够将药品说明书中含义相同但表述不一致的内容进行归一化,进而根据对齐药品字段信息确定药品信息对应的目标药品字段信息。服务器进一步利用匹配模型根据病历字段信息和目标药品字段信息进行策略匹配,得到各个药品使用策略和目标病历字段信息间的相似度匹配结果。服务器进而将相似度匹配结果高于预设条件的药品使用策略发送至用户终端。通过预先生成的多个药品使用策略对用户病历信息进行分析匹配,从而能够准确有效地确定对应的药品使用策略并推送至用户终端,从而能够精准有效地向用户终端推送与用户病历信息相匹配的药品使用策略信息。
上述基于字段分词处理的信息推送方法中,服务器接收第一终端发送的资源获取请求,并获取第二终端根据用户信息发送的资源对象后,将用户信息和说明信息输入已训练的文本提取模型中,得到用户信息对应的用户特征信息和说明信息对应的候选特征字段信息,并从候选特征字段信息中确定说明信息对应的目标特征字段信息,从而能够准确有效地提取出用户信息和说明信息中的特征信息。服务器进而将将用户特征信息和目标特征字段信息输入匹配模型中,将用户特征信息和目标特征字段信息与多个特征策略信息进行匹配,由此能够准确地得到对应的匹配结果。服务器则将匹配结果中满足预设阈值的特征策略信息确定为目标策略信息,能够有效地生成精确度极高的特征策略,并将资源对象和目标策略信息推送至第一终端,通过对用户信息和目标对象的说明信息进行特征提取,能够有效地实现对说明信息中的使用策略的精确提取,并将生成的策略信息推送给用户终端,由此能够有效提高信息推送的准确性。
在一个实施例中,如图3所示,在接收第一终端发送的资源获取请求之前,还包括生成多个特征策略信息的步骤,该步骤具体包括:
步骤302,获取多个资源对象样本,资源对象样本包括资源标识和说明信息。
步骤304,将多个说明信息输入文本提取模型中,输出与说明信息对应的候选特征字段信息。
步骤306,调用字段对齐算法对候选特征字段信息进行对齐处理,得到与候选特征字段信息对应的对齐特征字段信息。
步骤308,将对齐特征字段信息输入句法分析模型中,输出与对齐特征字段信息对应的特征句法分析结果;
步骤310,根据特征分析结果生成多个特征策略信息,根据资源标识将多个特征策略信息存储至特征策略库。
其中,服务器可以预先从本地平台以及第三方平台获取大量的资源对象样本,每个资源对象样本都包括对应的资源标识和说明信息。例如,当资源对象为药品信息时,药品信息包括药品标识和药品说明书。
候选特征字段信息是指服务器从说明信息中提取出的字段信息;字段对齐算法是指特征说明书中常常出现多个不同表述但指向同一对象的信息,因此须对各个候选特征字段信息进行对齐。对齐过程根据说明信息的全简称提示、外部词典、词向量相似度以及汉明距离进行对齐。
服务器获取多个资源对象样本对应的多个说明信息后,调用已训练的文本提取模型,将多个说明信息输入至文本提取模型中,通过文本提取模型对多个说明信息进行特征提取,进而输出与说明信息对应的候选特征字段信息。其中,候选特征字段信息可以为一个或多个。
在其中一个实施例中,文本提取模型可采用基于统计特征的关键词提取算法,基于统计特征的关键词提取算法可以包括:1、基于词权重的特征量化:包括词性、词频、相对词频、词长等。2、基于词的文本位置的特征量化:通常用法用量字段中的前N个词、后N个词、句首、句尾等位置的词具有代表性,这些词作为关键词可以精准定位。3、基于词的关联信息的特征量化:词与词,词与文本的关联程度信息。其中,词性表示名词或专有名词等判断是否是实体,进行实体识别。词频表示一个词在文本中出现的频率,可用于判断该词附近是否是目标词语。位置信息表示通过关键词的位置信息判断应提取字段及语句识别的方向。
其中,句法分析模型是预先训练的用于进行句法以及语义分析的模型,特征句法分析结果是指服务器对对齐特征字段信息进行句法以及语义分析后的结果,由于同种特征对应的说明信息可能为多种,针对不同特征信息的使用方法以及使用效果等都有所不同,因此服务器根据各个特征分析结果生成特征策略,特征策略为至少一种,服务器并将该特征策略存储至本地。可以理解的是,句法分析是确定句子的语法结构或句子中词汇之间的依存关系,句法分析包括但不限于句法结构分析和依存关系分析等。
服务器通过文本提取模型得到与说明信息对应的候选字段信息,并对候选特征字段信息进行对齐处理,得到与候选特征字段信息对应的对齐特征字段信息后,进一步将得到的对齐特征字段信息输入至已训练的句法分析模型中,通过句法分析模型对多个对齐特征字段信息进行句法分析,从而得到对应的特征句法分析结果。其中,特征句法分析结果为至少一种。
服务器通过句法分析模型句法分析模型得到多个特征句法分析结果后,则根据特征分析结果生成多个特征策略信息,进而根据资源标识将多个特征策略信息存储至本地的特征策略库,使得服务器在对用户对应的终端发送的用户特征信息进行处理时,可以直接在特征策略库中匹配对应的特征策略信息。通过文本提取模型和字段对齐算法以及句法分析模型对多个资源对象样本进行特征提取,从而能够有效地分析得到精确度极高的特征策略信息。
在一个实施例中,如图4所示,得到说明信息对应的候选特征字段信息的步骤,包括:
步骤402,对说明信息进行分词处理,得到说明信息对应的多个分词。
步骤404,调用预设赋值算法计算多个分词的词频分值、词性分值及位置分值。
步骤406,根据多个分词的词频分值、词性分值和位置分值,计算说明信息中多个分词的综合权值。
步骤408,根据综合权值计算说明信息的多个分词的权重。
步骤410,根据说明信息的多个分词的权重,提取与说明信息对应的候选特征字段信息。
服务器获取用户信息和资源对象后,将用户信息和资源对象的说明信息输入至已训练的文本提取模型中,服务器则通过文本提取模型对说明信息进行分词处理,得到与说明信息的多个分词。服务器进一步调用预设赋值算法计算多个分词的词频分值、词性分值及位置分值;根据多个分词的词频分值、词性分值和位置分值,计算说明信息中多个分词的综合权值。根据综合权值计算说明信息的多个分词的权重。根据说明信息的多个分词的权重,提取与说明信息对应的候选特征字段信息。服务器进而通过文本提取模型输出与说明信息对应的候选特征字段信息。
其中,利用预设赋值算法对说明信息中的各个分词的词语特征进行赋值计算,例如词频、词性以及词的位置特征等。对各个分词的词频、词性以及词的位置特征进行评分,词频分值是按照该词语的出现次数进行赋值。词性分值是按照名词、动词、形容词、副词、其他等等不同词语重要性进行赋值。例如赋值规则可以为:名词:0.5分,动词:0.2分,形容词:0.15分,副词:0.1分,其他0.05分。位置分值是按照小标题、首段、末段、首句、尾句等不同词语位置特征进行赋值。例如赋值规则可以为:小标题:0.5分,首段:0.2分;末段:0.1分,首句:0.1分,尾句:0.15分。服务器进一步根据分词的各个词语特征的重要程度(即评分)来计算出该分词的综合权值,并根据说明信息的各个分词的权重提取与说明信息对应的候选特征字段信息,从而能够准确有效地分析得到说明信息对应的候选特征字段信息。
在一个实施例中,对说明信息进行分词处理,得到说明信息对应的多个分词的步骤包括:对说明信息进行分词处理,得到分词结果;获取与说明信息对应的消歧算法;根据消歧算法筛选分词结果,得到与说明信息对应的至少一个分词。
其中,消歧算法用于消解分词过程中所出现的错误。消歧算法包括歧义消解、新词识别和错误字(以及谐音字)规范化,消歧是指在一个句子中,一个字串可以有不同的切分方法。新词识别指未在训练数据中出现过的词,包括人们新创的词以及旧词新意,错别字/谐音字规范化,输入的句子中不可避免会存在一些错别字或者刻意的谐音词,服务器根据消歧算法筛选分词结果,能够得到与说明信息对应的至少一个分词。
服务器获取用户信息和资源对象后,将用户信息和资源对象的说明信息输入至已训练的文本提取模型中,服务器则通过文本提取模型对说明信息进行分词处理,得到与说明信息的多个分词。具体地,服务器对说明信息进行分词处理,得到分词结果。服务器进一步获取与说明信息对应的消歧算法;根据消歧算法筛选分词结果,从而能够有效地得到与说明信息对应的至少一个分词。
服务器进一步调用预设赋值算法计算多个分词的词频分值、词性分值及位置分值;根据多个分词的词频分值、词性分值和位置分值,计算说明信息中多个分词的综合权值。根据综合权值计算说明信息的多个分词的权重。根据说明信息的多个分词的权重,提取出与说明信息对应的候选特征字段信息。服务器进而通过文本提取模型输出与说明信息对应的候选特征字段信息,从而能够准确有效地分析得到说明信息对应的候选特征字段信息。
在一个实施例中,从候选特征字段信息中确定说明信息对应的目标特征字段信息的步骤包括:将多个候选特征字段信息进行任意组合,得到候选特征字段对;计算候选特征字段对中的候选特征字段信息之间的相似度,得到与各个候选特征字段对对应的字段相似度;获取字段相似度高于预设对齐条件的候选特征字段对;调用合并算法将候选特征字段对中的候选特征字段信息进行合并,得到对齐特征字段信息,将对齐特征字段信息确定为说明信息对应的目标特征字段信息。
其中,候选特征字段对是指经过两两任意组合后得到的字段对,服务器计算候选特征字段信息间的相似度,得到与各个候选特征字段对对应的字段相似度。可以理解的是,预设对齐条件为预先自定义设置的对齐条件,用于去除含义相同表述不一致的内容,服务器获取字段相似度高于预设对齐条件的候选特征字段对,并调用合并算法将候选特征字段对中的候选特征字段信息进行合并,得到对齐特征字段信息。通过将各个候选特征字段信息进行对齐处理,能够精确化的生成具有指导性的特征策略。
服务器获取用户信息和资源对象后,将用户信息和资源对象的说明信息输入至已训练的文本提取模型中,服务器则通过文本提取模型对说明信息进行特征分析,输出与说明信息对应的候选特征字段信息。服务器提取出与说明信息对应的候选特征字段信息后,则调用字段对齐算法对候选特征字段信息进行对齐处理,得到与候选特征字段信息对应的对齐特征字段信息。
具体地,服务器将多个候选特征字段信息进行任意组合,得到候选特征字段对。服务器进而计算候选特征字段对中的候选特征字段信息之间的相似度,得到与各个候选特征字段对对应的字段相似度。服务器获取字段相似度高于预设对齐条件的候选特征字段对,调用合并算法将候选特征字段对中的候选特征字段信息进行合并,从而能够准确有效地得到多个候选特征字段信息对应的对齐特征字段信息。服务器进而将得到的对齐特征字段信息确定为说明信息对应的目标特征字段信息,通过对资源对象的说明信息进行特征提取和归一化对齐处理,能够准确有效地提取说明信息中标准化的特征信息。
在一个实施例中,将匹配结果满足预设阈值的特征策略信息确定为目标策略信息后,还包括:将目标策略信息发送至第二终端,使第二终端对目标决策信息进行审核,若审核通过,则返回相应的提示信息;将审核通过后的目标策略信息推送至第一终端。
其中,第一终端可以为用户所对应的用户终端,第二终端可以为审核终端。例如,当用户所需的资源获取请求的资源类别为药品时,第二终端可以为医生终端。
服务器接收第一终端发送的资源获取请求,并获取第二终端根据用户信息发送的资源对象后,将用户信息和说明信息输入已训练的文本提取模型中,得到用户信息对应的用户特征信息和说明信息对应的候选特征字段信息,并从候选特征字段信息中确定说明信息对应的目标特征字段信息,从而能够准确有效地提取出用户信息和说明信息中的特征信息。服务器进而将将用户特征信息和目标特征字段信息输入匹配模型中,将用户特征信息和目标特征字段信息与多个特征策略信息进行匹配,由此能够准确地得到对应的匹配结果。服务器则将匹配结果中满足预设阈值的特征策略信息确定为目标策略信息。
服务器分析出该资源对象的目标策略信息后,还可以将目标策略信息发送至第二终端,使得第二终端对目标策略信息进行审核,以审核目标策略信息对应用户信息的有效性和准确性。第二终端审核通过后,则返回相应的提示信息至服务器。此时,服务器则可以将资源对象和审核通过后的目标策略信息推送给用户对应的第一终端。通过第二终端对分析得到的目标策略信息进行审核后再推送给用户终端,有效保障了目标策略信息的有效性和准确性,从而能够有效提高信息推送的准确性。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种基于字段分词处理的信息推送装置,包括:信息获取模块502、特征提取模块504、策略匹配模块506和信息推送模块508,其中:
信息获取模块502,用于接收第一终端发送的资源获取请求,资源获取请求携带用户信息;获取第二终端根据用户信息发送的资源对象;资源对象包括说明信息;
特征提取模块504,用于将用户信息和说明信息输入已训练的文本提取模型中,得到用户信息对应的用户特征信息和说明信息对应的候选特征字段信息;从候选特征字段信息中确定说明信息对应的目标特征字段信息;
策略匹配模块506,用于将用户特征信息和目标特征字段信息输入匹配模型中,将用户特征信息和目标特征字段信息与多个特征策略信息进行匹配,输出匹配结果;
信息推送模块508,用于将匹配结果中满足预设阈值的特征策略信息确定为目标策略信息,将资源对象和目标策略信息推送至第一终端。
在一个实施例中,该装置还包括特征策略生成模块,用于获取多个资源对象样本,资源对象样本包括资源标识和说明信息;将多个说明信息输入文本提取模型中,输出与说明信息对应的候选特征字段信息;调用字段对齐算法对候选特征字段信息进行对齐处理,得到与候选特征字段信息对应的对齐特征字段信息;将对齐特征字段信息输入句法分析模型中,输出与对齐特征字段信息对应的特征句法分析结果;根据特征分析结果生成多个特征策略信息,根据资源标识将多个特征策略信息存储至特征策略库。
在一个实施例中,特征提取模块504还用于对说明信息进行分词处理,得到说明信息对应的多个分词;调用预设赋值算法计算多个分词的词频分值、词性分值及位置分值;根据多个分词的词频分值、词性分值和位置分值,计算说明信息中多个分词的综合权值;根据综合权值计算说明信息的多个分词的权重;根据说明信息的多个分词的权重,提取与说明信息对应的候选特征字段信息。
在一个实施例中,特征提取模块504还用于对说明信息进行分词处理,得到分词结果;获取与说明信息对应的消歧算法;根据消歧算法筛选分词结果,得到与说明信息对应的至少一个分词。
在一个实施例中,特征提取模块504还用于将多个候选特征字段信息进行任意组合,得到候选特征字段对;计算候选特征字段对中的候选特征字段信息之间的相似度,得到与各个候选特征字段对对应的字段相似度;获取字段相似度高于预设对齐条件的候选特征字段对;调用合并算法将候选特征字段对中的候选特征字段信息进行合并,得到对齐特征字段信息,将对齐特征字段信息确定为说明信息对应的目标特征字段信息。
在一个实施例中,该装置还包括审核模块,用于将目标策略信息发送至第二终端,使第二终端对目标决策信息进行审核,若审核通过,则返回相应的提示信息;将审核通过后的目标策略信息推送至第一终端。
关于基于字段分词处理的信息推送装置的具体限定可以参见上文中对于基于字段分词处理的信息推送方法的限定,在此不再赘述。上述基于字段分词处理的信息推送装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户信息、资源对象和说明信息以及特征策略信息等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现本申请任意一个实施例中提供的基于字段分词处理的信息推送方法的步骤。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本申请任意一个实施例中提供的基于字段分词处理的信息推送方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。