CN105139237A

CN105139237A - 信息推送的方法和装置

Info

Publication number: CN105139237A
Application number: CN201510624847.1A
Authority: CN
Inventors: 李林峰; 曾刚; 伊凯
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-09-25
Filing date: 2015-09-25
Publication date: 2015-12-09

Abstract

本申请公开了一种信息推送的方法和装置。所述方法的一具体实施方式包括：获取用户的个性化描述信息；对所述个性化描述信息进行内容解析，提取描述特征；基于预先训练的关联模型，根据所述描述特征确定与所述个性化描述信息相关联的关联描述信息；基于所述关联描述信息与预先存储的各条候选推送信息的匹配关系，选取至少一条候选推送信息进行信息推送。该实施方式可以提高信息推送的有效性。

Description

信息推送的方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及互联网技术领域，尤其涉及信息推送的方法和装置。

背景技术

信息推送，又称为“网络广播”，是通过一定的技术标准或协议，在互联网上通过推送用户需要的信息来减少信息过载的一项技术。信息推送技术通过主动推送信息给用户，可以减少用户在网络上搜索所花的时间。在一些特定领域(例如医疗)的信息推送技术中，往往通过专业的描述语言作为信息推送的基础，将专业的描述语言表达的描述信息与预设的待推送信息进行匹配从而确定较佳信息推送方案。然而，对于自然语言表达的描述信息，通常无法匹配到准确的待推送信息。因此，这种信息推送技术存在着相关数据利用不足，导致信息推送的有效性不高的问题。

发明内容

本申请的目的在于提出一种改进的信息推送的方法和装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请提供了一种信息推送的方法，所述方法包括：获取用户的个性化描述信息；对所述个性化描述信息进行内容解析，提取描述特征；基于预先训练的关联模型，根据所述描述特征确定与所述个性化描述信息相关联的关联描述信息；基于所述关联描述信息与预先存储的各条候选推送信息的匹配关系，选取至少一条候选推送信息进行信息推送。

在一些实施例中，所述对所述个性化描述信息进行内容解析，提取描述特征包括：将所述个性化描述信息与预设的描述关键词集合中的描述关键词相匹配；基于所述个性化描述信息中与所述描述关键词相匹配的词提取描述特征。

在一些实施例中，所述基于所述个性化描述信息中与所述描述关键词相匹配的词提取描述特征包括：将所述个性化描述信息中与所述描述关键词相匹配的词作为描述特征；或者，将所述个性化描述信息中与所述描述关键词相匹配的词，以及专业术语集合中与所匹配到的描述关键词对应的专业术语词汇一起作为描述特征。

在一些实施例中，所述描述特征还包括以下至少一项：年龄特征、性别特征、地理位置特征。

在一些实施例中，所述关联模型通过以下方法获得：根据包含用户的个性化描述信息和个性化描述信息所关联的关联描述信息的数据样本提取样本描述特征；将所述样本描述特征作为输入，所述数据样本中的关联描述信息作为输出，用数据样本集通过深度学习方法训练关联模型。

在一些实施例中，所述基于预先训练的关联模型，根据所述描述特征确定与所述个性化描述信息相关联的关联描述信息包括：计算所述描述特征与所述关联描述信息的第一关联度；按照所述第一关联度确定与所述个性化描述信息相关联的关联描述信息及关联概率。

在一些实施例中，所述基于所述关联描述信息与预先存储的各条候选推送信息的匹配关系，选取至少一条候选推送信息进行信息推送包括：计算所述关联描述信息与各条候选推送信息的匹配度；基于所述关联概率和所述匹配度计算各条候选推送信息与所述个性化描述信息的第二关联度；基于所述第二关联度对所述候选推送信息进行排序，并基于排序结果选取至少一条候选推送信息进行信息推送。

在一些实施例中，所述个性化描述信息包括文本信息和/或语音信息。

第二方面，本申请提供了一种信息推送的装置，其特征在于，所述装置包括：获取模块，配置用于获取用户的个性化描述信息；提取模块，配置用于对所述个性化描述信息进行内容解析，提取描述特征；确定模块，配置用于基于预先训练的关联模型，根据所述描述特征确定与所述个性化描述信息相关联的关联描述信息；推送模块，配置用于基于所述关联描述信息与预先存储的各条候选推送信息的匹配关系，选取至少一条候选推送信息进行信息推送。

在一些实施例中，所述提取模块包括：匹配单元，配置用于将所述个性化描述信息与预设的描述关键词集合中的描述关键词相匹配；提取单元，配置用于基于所述个性化描述信息中与所述描述关键词相匹配的词提取描述特征。

在一些实施例中，所述提取单元还配置用于：将所述个性化描述信息中与所述描述关键词相匹配的词作为描述特征；或者，将所述个性化描述信息中与所述描述关键词相匹配的词，以及专业术语集合中与所匹配到的描述关键词对应的专业术语词汇一起作为描述特征。

在一些实施例中，所述关联模型通过以下装置获得：样本特征提取模块，配置用于根据包含用户的个性化描述信息和个性化描述信息所关联的关联描述信息的数据样本提取样本描述特征；模型训练模块，配置用于将所述样本描述特征作为输入，所述数据样本中的关联描述信息作为输出，用数据样本集通过深度学习方法训练关联模型。

在一些实施例中，所述确定模块包括：第一关联度计算单元，配置用于计算所述描述特征与所述关联描述信息的第一关联度；关联描述信息及关联概率确定单元，配置用于按照所述第一关联度确定与所述个性化描述信息相关联的关联描述信息及关联概率。

在一些实施例中，所述推送模块包括：匹配度计算单元，配置用于计算所述关联描述信息与各条候选推送信息的匹配度；第二关联度计算单元，配置用于基于所述关联概率和所述匹配度计算各条候选推送信息与所述个性化描述信息的第二关联度；推送单元，配置用于基于所述第二关联度对所述候选推送信息进行排序，并基于排序结果选取至少一条候选推送信息进行信息推送。

本申请提供的信息推送的方法和装置，通过获取用户的个性化描述信息，接着对个性化描述信息进行内容解析，提取描述特征，然后基于预先训练的关联模型，根据描述特征确定与个性化描述信息相关联的关联描述信息，接着基于关联描述信息与预先存储的各条候选推送信息的匹配关系，选取至少一条候选推送信息进行信息推送，由于针对用户的个性化描述信息确定出所关联的关联描述信息，并基于关联描述信息与候选推送信息的匹配关系进行信息推送，从而提高信息推送的有效性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是根据本申请的信息推送的方法的一个实施例的流程图；

图2是根据本申请的训练关联模型的方法的一个实施例的流程图；

图3是根据本申请的关联模型的映射关系的一个实施例的示意图；

图4是示出了可以应用本申请实施例的示例性系统架构；

图5是根据本申请的信息推送的方法的另一个实施例的结构示意图；

图6是根据本申请的信息推送的装置的一个实施例的结构示意图；

图7示出了适于用来实现本申请实施例的各装置的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1，其示出了本申请的信息推送的方法的一个流程100。本实施例主要以该方法应用于包含有处理器和/或存储器的电子设备中来举例说明，该电子设备可以包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPictureExpertsGroupAudioLayerIII，动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayerIV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机、台式计算机和各种自助服务终端等等。本申请的信息推送的方法，包括以下步骤：

步骤101，获取用户的个性化描述信息。

在本实施例中，电子设备可以从本地或远程地获取用户的个性化描述信息。具体地，如果电子设备是运行信息推送类应用的终端(例如智能手机、自助服务终端等)，电子设备可以从本地获取用户的个性化描述信息，如果电子设备是为信息推送类应用提供支持的后台服务器时，电子设备可以远程地获取用户的个性化描述信息。电子设备可以通过有线连接方式或者无线连接方式从运行信息推送类应用的终端获取用户的个性化描述信息。上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultrawideband)连接、以及其他现在已知或将来开发的无线连接方式。可选地，信息推送类应用可以独立运行于终端设备上，而不需要后台服务器提供支持。

其中，用户的个性化描述信息可以由终端通过各种方式获取，例如通过麦克风采集声音信息、通过扫描器采集图像信息、通过键盘或触摸屏采集文本信息、通过读取存储器中预先存储的信息等等。

在这里，个性化描述信息可以包括体现用户个体特征的描述信息。用户的个性化描述信息可以是用于描述用户特征(例如体貌特征、性格特征、身体状态特征等)的信息，也可以是通过用户输入的其他事物的描述信息(例如用户对其他事物的需求信息等)。举例而言，当本实施例的信息推送方法应用于就医指导类信息推送应用时，用户的个性化描述信息可以是症状描述信息，如：咳嗽、流鼻涕等。个性化描述信息可以是自然语言表达的描述信息，例如“我肚子疼”，也可以是专业术语表达的描述信息，例如“腹痛”，还可以是自然语言和专业术语相结合表达的描述信息，例如“肚子疼，眩晕”，本申请对此不做限定。在一些实现中，电子设备获取的个性化描述信息可以是文本信息，电子设备可以直接对文字进行处理。在另一些实现中，电子设备获取的个性化描述信息是语音信息或图像信息(如对记载在纸质文件上的文字信息进行扫描得到的图像)，电子设备可以首先将语音信息进行语音识别或将图像信息进行图像识别处理，得到对应的文本信息，再对文本信息中的文字进行处理。

步骤102，对个性化描述信息进行内容解析，提取描述特征。

在本实施例中，电子设备接着可以采用各种分析手段对个性化描述信息进行分析，从而提取出个性化描述信息的描述特征。

作为一种实现的示例，对个性化描述信息的分析手段可以是语义分析方法。电子设备可以对个性化描述信息的内容进行全切分方法等处理，把内容分割成词；再对所得到的词进行分析。

作为示例，电子设备可以利用全切分方法切分出个性化描述信息中与语言词库匹配的所有可能的词，再运用统计语言模型确定最优的切分结果。以用户输入信息“我这两天一直头晕”为例，可以首先进行语言词库匹配，找到匹配的所有词——我，这，两天，这两天，天一，一直，直头，头晕；这些词以词网格(wordlattices)形式表示，接着基于词网格做路径搜索，再基于统计语言模型(例如N-Gram模型，)找到最优路径。如果结果显示“我这两天一直头晕”的语言模型得分最高，则“我这两天一直头晕”即为“我这两天一直头晕”。在这里所述的N-Gram模型是常用的一种语言模型，对中文而言，可以称之为汉语语言模型(CLM，ChineseLanguageModel)。该N-Gram模型基于这样一种假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关。

在一些实现中，进行切词之后，电子设备还可以对切分后的词进行初步筛选，以去除“我”、“了”等一些与信息推送无关的词汇。例如，电子设备可以采用逆向文件频率方法对这些词进行筛选。逆向文件频率(InverseDocumentFrequency，IDF)主要是指，如果包含某个词或短语的文档越少，则IDF越大，则说明该词或短语具有很好的类别区分能力，反之，如果包含某个词或短语的文档越多，则IDF越小，则说明该词或短语的类别区分能力较弱。由此，使用逆向文件频率方法，可以筛除一些不重要的词。

需要说明的是，上述语义分析方式的各种方法是目前广泛研究和应用的公知技术，在此不再赘述。

经过上述处理后，电子设备将个性化描述信息转换成了多个词表示的信息。电子设备可以接着对这些词进行处理，以提取描述特征。例如，电子设备可以将这些词全部作为描述特征，也可以从这些词中挑选出一部分作为描述特征，等等，本申请对此不做限定。

在本实施例的一些可选实现方式中，电子设备可以预先存储有描述关键词集合。该描述关键词集合中的描述关键词可以是从大量的个性化描述信息中提取出来的、与待推送信息相关的词汇。描述关键词可以是自然语言词汇，也可以是专业术语词汇。举例而言，当本实施例的信息推送方法应用于就医指导类信息推送应用时，描述特征可以是通过自然语言或专业术语描述各种症状特征的词汇，例如：“头晕”、“拉肚子”、“腹泻”等等。此时，描述特征可以包括根据大量的网络医疗诊断网站中抓取的问答数据提取的词汇，例如可以是医疗领域的专业术语的同义词(如“腹泻”的同义词“拉肚子”)、近义词(如“眩晕”的近义词“头晕”)、相关词(如“发热”的相关词“体温”)。其中，医疗领域的专业术语可以从国家标准(如《中医临床诊疗术语症候部分》)、现代中医教科书、现代中医词典、中医古籍中的病症、医案论述以及现代病历数据的症状记载中获取。电子设备可以将个性化描述信息切分出来的词与该描述关键词集合中的描述关键词进行匹配，并基于匹配结果提取描述特征。其中，可以在词与词完全相同时认为它们相匹配，也可以在词与词相互为同义词或近义词时认为它们相匹配。在一些实现中，电子设备可以将个性化描述信息中与描述关键词相匹配的词作为描述特征。在另一些实现中，电子设备可以将个性化描述信息中与描述关键词相匹配的词，以及专业术语集合中与所匹配到的描述关键词对应的专业术语词汇一起作为描述特征。例如，个性化描述信息为“拉肚子”，描述特征可以包括“拉肚子、腹泻、腹痛”等。

在本实施例的一些可选实现方式中，电子设备对个性化描述信息进行分析，除了提取上述的关键词作为描述特征外，还可以提取包括但不限于以下至少一项的特征作为描述特征：年龄特征、性别特征、地理位置特征。这些描述特征可以是根据用户的注册信息、定位信息或个性化描述信息提取的特征。例如，电子设备可以根据用户的定位信息确定用户的当前位置坐标，根据用户的注册信息或个性化描述信息确定用户的性别、年龄段等。其中，根据以个性化描述信息确定用户的年龄段为例，电子设备可以将个性化描述信息与预设的与年龄判断相关的词(例如岁、今年、生于、出生等)进行匹配，若匹配到与年龄判断相关的词，在该次的前后词中检索代表数字的词(如20、2012等等)从而提取出数值，再根据这些数值与数值阈值的关系(例如300)，将小于数值阈值的数值作为用户的年龄值，将大于数值阈值的数值减去当前的年份值(如2015)，得到的差值作为用户的年龄值等等。以本申请的信息推送方法应用于就医指导类信息推送应用为例，年龄特征可以用于区分医院职能科室(例如以14周岁以下儿童为诊疗对象的儿科等)，性别特征也可以用于区分医院职能科室(例如与诊疗生殖系统疾病有关的妇科、男科等)，地理位置特征可以用于选择位于不同区域的医院的科室信息。

步骤103，基于预先训练的关联模型，根据描述特征确定与所述个性化描述信息相关联的关联描述信息。

在本实施例中，电子设备可以存储有预先训练的关联模型，将描述特征作为该关联模型的输入，可以输出个性化描述信息所关联的关联描述信息。

这里，关联模型反映了描述特征(或个性化描述信息)与关联描述信息的对应关系。该对应关系可以是简单的对应关系，例如当描述特征包括A、B、C时，对应的关联描述信息为a，也可以是复杂的对应关系，例如对描述特征包括A、B、C时，A和B对应的关联描述信息可能为a或c，B和C对应的关联描述信息可能为c或d，A、B和C对应的关联描述信息可能为c或e等等。其中，关联描述信息是与个性化描述信息相关联的描述信息，例如，当本实施例的信息推送方法应用于就医指导类信息推送应用时，关联描述信息可以包括疾病或负责该疾病的医院职能科室(例如骨科、皮肤科等)。通过关联模型，电子设备可以由个性化描述信息的症状描述信息预测到相应的疾病或对应的科室。如，个性化描述信息包括“发烧，拉肚子”，通过该关联模型得到关联描述信息可以包括疾病“胃肠炎”或“肠炎”等，或医院职能科室“消化内科”等。

作为一个实现示例，图2给出了获得本实施例的关联模型的一个实施例的流程200。

步骤201，根据包含用户的个性化描述信息和个性化描述信息所关联的关联描述信息的数据样本提取样本描述特征。

在本实施例中，上述电子设备或者其他用于训练上述关联模型的电子设备，可以首先根据大量的数据样本中的个性化描述信息提取样本描述特征。其中，数据样本可以从各类网站抓取得到，各数据样本可以包括用户的个性化描述信息和个性化描述信息所关联的关联描述信息。例如，当本申请的信息推送方法应用于就医指导类信息推送应用时，数据样本可以是大量的网络医疗诊断网站中抓取的用户与对用户进行回应的医护人员的交互数据。具体地，用户输入的数据一般是对症状的描述信息，该症状描述信息可以作为个性化描述信息的样本，从个性化描述信息中提取描述特征(如医疗领域的专业术语的同义词、近义词、相关词等)的方法与前述的方法一致，在此不再赘述；医护人员的回应数据一般包括对用户的疾病的推断和/或建议就诊的医院职能科室，可以从这些数据中提取出相应的疾病或科室名称作为关联描述信息的样本。其中，可以将医护人员的回应数据与关联描述信息的关键词(例如可以穷举的疾病和科室名称)集合进行匹配，将所匹配到的关联描述信息的关键词作为该条数据样本的关联描述信息。

步骤202，将样本描述特征作为输入，数据样本中的关联描述信息作为输出，用数据样本集通过深度学习方法训练关联模型。

在本实施例中，上述电子设备或者其他用于训练上述关联模型的电子设备，接着可以将步骤201中提取的样本描述特征作为输入，数据样本中的关联描述信息作为输出，用数据样本集通过深度学习的机器学习方法训练关联模型。

深度学习的概念源于人工神经网络的研究。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习方法可以包括监督学习方法和无监督学习方法.不同的学习框架下建立的学习模型是不同的.例如，卷积神经网络(Convolutionalneuralnetworks，简称CNNs)就是一种深度的监督学习下的机器学习模型，而深度置信网(DeepBeliefNets，简称DBNs)就是一种无监督学习下的机器学习模型。深度学习一般包括输入层、至少一个隐藏层和输出层，在每一隐藏层都一个非线性作用函数，非线性作用函数的作用就是把输入层的线性结果做非线性变换，以将特征变换得到更高维数的特征，常用的非线性作用函数可以包括但不限于：双曲函数tanh(x)＝sinhx/coshx(其中，sinhx＝(e^x-e^-x)/2，coshx＝(e^x+e^-x)/2)、稀疏激活函数sigmoid(x)＝1/(1+e^x)、近似生物神经激活函数softrelu(x)＝log(1+e^x)等等。

作为一个示例，以下以非线性作用函数是softrelu(x)，个性化描述信息为症状描述信息，描述特征为症状特征，关联描述信息为医院职能科室，隐藏层有两层为例，给出一个将样本描述特征作为输入，数据样本中的关联描述信息作为输出，用数据样本集通过深度学习的机器学习方法训练关联模型的实现方式。关联模型如图3所示。

首先，在输入层，假设共有M₀(M₀为正整数)个输入节点(如图3中输入层的一个矩形框代表一个输入节点)，如果一个数据样本中，描述特征包括某个症状特征(如头疼)，则该症状特征对应的输入节点的值为1，否则，值为0；该症状特征对应的输入节点的值还可以是该症状特征的重要度系数。其中，该重要度系数可以与该症状特征关键词在个性化描述信息中出现的次数成正比，也可以根据该症状特征关键词所在的句子里的其他表示程度的相关词确定，例如，当个性化描述信息提取到症状特征(或症状特征关键词)头疼，检测到该句同时出现了“厉害”，则该症状特征对应的重要度系数较高，检测到该句同时出现了“轻微”，则该症状特征对应的重要度系数较低。假设第一隐藏层有M₁个节点，接着，对输入节点的值做线性变换，得到线性结果S_1i＝w_0i·X₀，其中，X₀为输入层的M₀个输入节点的值组成的M₀维向量，w_0i为输入层的各输入节点相对于第一隐藏层的第i(i＝1，2，3……M₁)个节点的权重系数组成的权重向量，该权重向量包括M₀个元素。训练模型时，X₀为已知向量，该权重向量w_0i为未知向量。接着对各线性结果S_1i进行非线性变换，得到第一隐藏层的M₁个节点的值，非线性变换函数可以为softrelu(S_1i)＝log(1+e^S1i)。在一些实现中，为了使函数softrelu(S_1i)＝log(1+e^S1i)(取值可能为0至正无穷大)有界，可以通过截断常数a控制S的值，从而将softrelu(S_1i)的值映射到区间[0，log(1+e^a)]上，例如，函数softrelu(S_1i)被优化为softrelu(S_1i)＝log(1+e^{min(max(S1i,-a),a)})。可选地，如果e^{min(max(S1i,-a),a}远大于1，softrelu(S_1i)的值约在区间[0，a]上。

然后，按照相同的方法，建立第一隐藏层的M₁个节点的值softrelu(S_1i)与第二隐藏层的M₂个节点的值的关系。首先对第一隐藏层的各节点进行S_2j＝w_1j·[softrelu(S_1i)]的线性变换，其中，[softrelu(S_1i)]为第一隐藏层的M₁个节点的值组成的M₁维向量，w_1j为第一隐藏层的M₁个节点相对于第二隐藏层M₂个节点中的第j(j＝1，2，3……M₂)个节点的权重系数组成的权重向量，该权重向量包括M₁个元素。训练模型时，该权重向量w_1j为未知向量。接着将对该线性结果S_2j进行非线性变换softrelu(S_2j)＝log(1+e^S2j)得到第二隐藏层的M₂个节点的值。

接着，可以通过诸如softmax之类的概率激活函数，使得第二隐藏层的M₂个节点属于输出层的各节点的概率和为1。并进一步通过第二隐藏层的M₂个节点的值属于输出层的M₃个输出节点(例如一个节点对应一个医院职能科室)中的各个节点代表的类别的概率，来表示输入层的M₀个输入节点关联到输出层的各个节点的置信度。以下以softmax概率激活函数为例进行说明。第二隐藏层的M₂维特征中的第j个节点的值为softrelu(S_2j)，第二隐藏层的M₂维特征属于输出层的第k(k＝1，2，3……M₃)个输出节点的置信度用Y_k表示，假设第二隐藏层的M₂个节点属于第k输出节点代表的类别的权重系数组成的M₂维向量为w_2k，则该权重向量包括M₂个元素。训练模型时，该权重向量w_2k为未知向量，令第二隐藏层的M₂个节点相对于输出层的第k个节点的重要度量值为Z_k＝w_2k·[softrelu(S_2j)]，其中，[softrelu(S_2j)]为第二隐藏层的M₂个节点的值组成的M₂维向量。进一步地，对Z_k由softmax算法进行归一化处理，得到第二隐藏层的M₂个节点属于输出节点k代表的类别(即关联描述信息)的概率为：Y_k＝softmax(Z_k)＝e^Zk/sigma(e^Zk)。其中，sigma(e^Zk)表示对输出层的M₃个输出节点的指数变换求和。通过softmax(Z_k)＝e^Zk/sigma(e^Zk)变换，使得第二隐藏层的M₂个节点属于输出层的各节点的概率和为1，即输入层的M₀个输入节点关联到输出层的各节点的置信度的和为1。

因此，通过以上一系列变换步骤，得到训练模型：S_1i＝w_0i·X₀，softrelu(S_1i)＝log(1+e^S1i)，S_2j＝w_1j·[softrelu(S_1i)]，softrelu(S_1j)＝log(1+e^S1j)，Z_k＝w_2k·[softrelu(S_2j)]，Y_k＝softmax(Z_k)＝e^Zk/sigma(e^Zk)。由于数据样本中，输入层输入的描述特征及其对应的输出层的关联描述信息(即所属类别)是已知的，即对每个数据样本，X₀是已知的，w_0i、w_1j、w_2k是未知的，Y_k最大时对应的k值是已知的。据此，可以训练得到一组最优权重向量w_0i、w_1j、w_2k，其中，所得到一组最优权重向量w_0i、w_1j、w_2k，使得数据样本集中分类正确的样本数最多，或者数据样本集分类的总体置信度最高，等等，本申请对此不做限定。具体地，分类正确的样本数可以通过以下方法获得：对数据样本集中每个数据样本的描述特征确定对应的X₀，利用上述训练模型得到置信度最高的Y_k，判断k对应的关联描述信息是否为数据样本中的关联描述信息，若是，分类正确的样本数增加1。数据样本集分类的总体置信度可以通过以下方法获得：对数据样本集中每个数据样本的描述特征确定对应的X₀，利用上述训练模型得到置信度最高的Y_k，判断k对应的关联描述信息是否为数据样本中的关联描述信息，若是，将数据样本集分类的总体置信度增加该数据样本对应的置信度最高的Y_k。

进而得到关联模型即为：S_1i＝w_0i·X₀，softrelu(S_1i)＝log(1+e^S1i)，S_2j＝w_1j·[softrelu(S_1i)]，softrelu(S_1j)＝log(1+e^S1j)，Z_k＝w_2k·[softrelu(S_2j)]，Y_k＝softmax(Z_k)＝e^Zk/sigma(e^Zk)。在该关联模型中，w_0i、w_1j、w_2k是已知的，X₀是未知的，Y_k最大时的k值是待求解的。通过上述关联模型根据描述特征确定与所述个性化描述信息相关联的关联描述信息时，X₀为根据个性化描述信息提取的描述特征转化成的M₀维向量，w_0i、w_1j、w_2k为通过上述方法得到的一组最优权重向量w_0i、w_1j、w_2k，对输出层的每个节点k，计算该节点对应的关联描述信息相对于输入的描述特征的置信度Y_k。进一步地，电子设备可以按照置信度Y_k的大小进行排序(如按照由大到小顺序排序)，并选择置信度最高(如排列靠前)的一个或多个k值所对应的关联描述信息作为与个性化描述信息相关联的关联描述信息。

步骤104，基于关联描述信息与预先存储的各条候选推送信息的匹配关系，选取至少一条候选推送信息进行信息推送。

在本实施例中，电子设备可以预先存储一条或多条候选推送信息，这些候选推送信息可以用于与关联描述信息进行匹配，以按照预设的规则推送给用户。这里，预设的规则例如可以包括但不限于以下至少一种情况：选择预设条数的推送信息、与关联描述信息匹配度最高的一条或多条、地理位置最相近的一条或多条等等。

在本实施例中，上述电子设备可以将上述关联描述信息与候选推送信息分别逐一匹配，并确定每条候选推送信息的内容与关联描述信息的相关度，并根据相关度来确定候选推送信息与关联描述信息的匹配关系。例如关联描述信息是疾病或科室，候选推送信息为医生信息，如果医生所负责的疾病所属科室与关联描述信息中的科室一致，或者医生擅长的疾病包括关联描述信息中的疾病，则电子设备确定该医生信息与关联描述信息相匹配，可以选取出来进行信息推送。

请参考图4，图4示出了可以应用本申请实施例的信息推送类应用的一个示例性系统架构400。

如图4所示，系统架构400可以包括终端设备401、402、网络403和服务器404。网络403用以在终端设备401、402和服务器404之间提供通信链路的介质。网络403可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备401、402可以通过网络403与服务器404交互，以接收或发送消息等。终端设备401、402上可以安装有各种通讯客户端应用，例如浏览器应用、信息推送类应用、搜索类应用、社交平台应用、邮箱客户端、即时通信工具、杀毒类应用等。

终端设备401、402可以是支持浏览器应用、信息推送类应用等安装于其上的各种电子设备，包括但不限于智能手机、智能手表、平板电脑、个人数字助理、电子书阅读器、MP3播放器(MovingPictureExpertsGroupAudioLayerIII，动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayerIV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机、台式计算机和各种自助终端等等。

服务器404可以是提供各种服务的服务器。例如对终端设备401、302的信息类应用提供支持的后台服务器等。服务器可以对接收到的数据进行存储、生成等处理，并将处理结果反馈给终端设备。

需要说明的是，本申请实施例所提供的信息推送的方法可以由终端设备401、402执行，也可以由服务器404执行，信息推送的装置可以设置在终端设备401、402中，也可以设置在服务器404中。

应该理解，图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图4的示例型架构400例如可以用于网页类的信息推送应用，例如可以加载在智能手机、笔记本电脑上运行的浏览器中的网页类信息推送应用，此时，该网页类的信息推送应用需要后台服务器的支持进行信息推送。本实施例的信息推送方法还可以是独立运行于终端设备的信息推送应用，例如信息推送运行于其上的自助终端，此时，该信息推送应用不需要后台服务器的支持即可进行信息推送。

值得说明的是，上述实施例中虽然以就医指导类信息推送应用为例对本申请的技术方案进行了说明，但本申请的应用场景不限于此。本申请的信息推送方法的实施例例如也可以应用于汽车信息推送应用，此时，个性化描述信息可以是汽车需求描述信息(如车身较小、燃油少等)，描述特征可以是从个性化描述信息中提取出的关键词，关联描述信息可以是汽车的厂家和型号(如大众尚酷2.0TSI)，待推送信息可以是提供该厂家和型号的汽车的店面或网站的信息。同理，本申请的信息推送方法的实施例还可以应用于各种检索领域(如文档检索)的信息推送等等，在此不再一一举例说明。

本申请的上述实施例，通过预先训练的关联模型和基于个性化描述信息提取的描述特征确定与描述特征相关联的关联描述信息，在根据关联描述信息与待推送信息的匹配关系确定进行推送的待推送信息，可以提高信息推送的有效性。

接下来请参考图5，其示出了信息推送方法的另一个实施例的流程500。该流程500包括以下步骤：

步骤501，获取用户的个性化描述信息。

在本实施例中，电子设备可以从本地或远程地获取用户的个性化描述信息。在这里，用户的个性化描述信息可以是用于描述用户特征(例如体貌特征、性格特征等)的信息，也可以是通过用户输入的其他事物的描述信息。用户的个性化描述信息可以由终端通过各种方式获取，例如通过麦克风采集声音信息、通过扫描器采集图像信息、通过键盘或触摸屏采集文本信息、通过读取存储器中预先存储的信息等等。

步骤502，对个性化描述信息进行内容解析，提取描述特征。

在本实施例中，电子设备接着可以采用各种分析手段对个性化描述信息进行分析，从而提取出个性化描述信息的描述特征。例如，电子设备可以对个性化描述信息通过语义分析进行切词，再对这些词进行处理，以提取描述特征。例如，电子设备可以将这些词全部作为描述特征，也可以从这些词中挑选出一部分作为描述特征，等等，本申请对此不做限定。

步骤503，计算描述特征与关联描述信息的第一关联度。

在本实施例中，电子设备可以根据预先训练的关联模型计算描述特征与关联描述信息的第一关联度。

其中第一关联度可以用于表征描述特征与关联描述信息匹配度，或者由描述特征通过关联模型得到的关联描述信息的可信程度。可选地，第一关联度可以由前述实施例中通过关联模型由描述特征对应的输入节点求解得到的关联描述信息对应的输出节点的置信度Y_k来表示。

步骤504，按照第一关联度确定与个性化描述信息相关联的关联描述信息及关联概率。

在本实施例中，电子设备接着可以根据第一关联度确定与个性化描述信息相关联的关联描述信息，以及个性化描述信息关联到关联描述信息的关联概率。由于关联描述信息由关联模型根据描述特征确定，而描述特征根据个性化描述信息提取，因此，个性化描述信息关联到关联描述信息的关联概率与第一关联度具有一定的正相关性。由此，电子设备可以将第一关联度作为个性化描述信息关联到关联描述信息的关联概率，也可以将第一关联度通过归一化处理映射到[0，1]区间作为个性化描述信息关联到关联描述信息的关联概率，还可以将第一关联度乘以用描述特征表示个性化描述信息的可信程度得到，本申请对此不做限定。

步骤505，计算关联描述信息与各条候选推送信息的匹配度。

在本实施例中，电子设备还可以根据由关联模型确定的关联描述信息与各条候选推送信息的匹配程度，并用匹配度表示。其中，电子设备可以分别提取关联描述信息与各条候选推送信息的关键词，根据关键词集合的匹配计算关联描述信息与各条候选推送信息的匹配度。关键词的提取方法可以与前述实施例中的文本关键词提取方法一致，在此不再赘述。

举例而言，电子设备可以采用余弦相似度(cosinesimilarity)算法、Jaccard系数之类的公知的文本相似度计算方法来进行匹配度计算。以Jaccard系数方法为例，关联描述信息的关键词集合与候选推送信息关键词集合之间的匹配度＝关联描述信息的关键词集合与候选推送信息关键词集合之间共有的词的数目/关联描述信息的关键词集合与候选推送信息关键词集合一起包括的词的数目。

步骤506，基于关联概率和匹配度计算各条候选推送信息与个性化描述信息的第二关联度。

在本实施例中，电子设备接着可以基于步骤504中得到的关联概率和步骤505中得到的匹配度计算各条候选推送信息与个性化描述信息的第二关联度。

实践中，电子设备可以将上述的关联概率和匹配度中的任意一个作为各条候选推送信息与个性化描述信息的第二关联度，也可以使用关联概率和匹配度的乘积作为各条候选推送信息与个性化描述信息的第二关联度，还可以根据数据样本训练关联概率和匹配度对第二关联度的贡献系数，并通过关联概率乘以关联概率贡献系数加上匹配度乘以匹配度贡献系数计算第二关联度，本申请对此不做限定。其中，根据数据样本训练关联概率和匹配度对第二关联度的贡献系数的一种方法可以为：将数据样本的个性化描述信息通过关联模型得到关联描述信息，及对应的关联概率，并根据步骤505中的方法计算关联描述信息与各条候选推送信息的匹配度，将关联概率和匹配度分别设定待求解的贡献度系数，由于数据样本最终确定了候选推送信息，根据大量数据样本可以求出关联概率和匹配度分别对应的最优贡献度系数。

步骤507，基于第二关联度对候选推送信息进行排序，并基于排序结果选取至少一条候选推送信息进行信息推送。

在本实施例中，电子设备可以首先基于第二关联度的计算结果，对各条候选推送信息进行排序得到候选推送信息序列(例如采取第二关联度由高到低的顺序)；之后，可以根据量值条件(需要的候选推送信息的数量)或者阈值条件(例如第二关联度值要大于预设阈值)，从上述序列中选取至少一条候选推送信息进行信息推送。

从图5中可以看出，与图1对应的实施例相比，本实施例中的信息推送方法的流程500突出了对个性化描述信息与关联描述信息或待推送信息的关联度进行扩展的步骤。由此，本实施例描述的方案可以引入更多的原始信息和待推送信息匹配的数据，从而实现更准确的候选推送信息的选取和更有效的信息推送。

请进一步参考图6，作为对前述个方法实施例的实现，其示出了根据本申请的一个实施例的信息推送的装置600。如图6所示，信息推送的装置600包括：获取模块601、提取模块602、确定模块603和推送模块604。其中，获取模块601可以配置用于获取用户的个性化描述信息；提取模块602可以配置用于对个性化描述信息进行内容解析，提取描述特征；确定模块603可以配置用于基于预先训练的关联模型，根据描述特征确定与个性化描述信息相关联的关联描述信息；推送模块604可以配置用于基于关联描述信息与预先存储的各条候选推送信息的匹配关系，选取至少一条候选推送信息进行信息推送。

信息推送的装置600中记载的诸模块与参考图1描述的方法实施例中的各个步骤相对应。由此，上文结合图1所描述的针对信息推送的装置描述的操作和特征同样适用于信息推送的装置600及其中包含的单元，在此不再赘述。

本领域技术人员可以理解，上述信息推送的装置600还包括一些其他公知结构，例如处理器、存储器等，为了不必要地模糊本公开的实施例，这些公知的结构在图6中未示出。

下面参考图7，其示出了适于用来实现本申请实施例的各装置的计算机系统700的结构示意图。

如图7所示，计算机系统700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM703中，还存储有系统700操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的装置的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。

本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块，提取模块，确定模块和推送单元。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，获取模块还可以被描述为“配置用于获取用户的个性化描述信息的模块”。

作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端或服务器中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：获取用户的个性化描述信息；对所述个性化描述信息进行内容解析，提取描述特征；基于预先训练的关联模型，根据所述描述特征确定与所述个性化描述信息相关联的关联描述信息；基于所述关联描述信息与预先存储的各条候选推送信息的匹配关系，选取至少一条候选推送信息进行信息推送。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种信息推送的方法，其特征在于，所述方法包括：

获取用户的个性化描述信息；

对所述个性化描述信息进行内容解析，提取描述特征；

基于预先训练的关联模型，根据所述描述特征确定与所述个性化描述信息相关联的关联描述信息；

基于所述关联描述信息与预先存储的各条候选推送信息的匹配关系，选取至少一条候选推送信息进行信息推送。

2.根据权利要求1所述的方法，其特征在于，所述对所述个性化描述信息进行内容解析，提取描述特征包括：

将所述个性化描述信息与预设的描述关键词集合中的描述关键词相匹配；

基于所述个性化描述信息中与所述描述关键词相匹配的词提取描述特征。

3.根据权利要求2所述的方法，其特征在于，所述基于所述个性化描述信息中与所述描述关键词相匹配的词提取描述特征包括：

将所述个性化描述信息中与所述描述关键词相匹配的词作为描述特征；或者

将所述个性化描述信息中与所述描述关键词相匹配的词，以及专业术语集合中与所匹配到的描述关键词对应的专业术语词汇一起作为描述特征。

4.根据权利要求3所述的方法，其特征在于，所述描述特征还包括以下至少一项：年龄特征、性别特征、地理位置特征。

5.根据权利要求1所述的方法，其特征在于，所述关联模型通过以下方法获得：

根据包含用户的个性化描述信息和个性化描述信息所关联的关联描述信息的数据样本提取样本描述特征；

将所述样本描述特征作为输入，所述数据样本中的关联描述信息作为输出，用数据样本集通过深度学习方法训练关联模型。

6.根据权利要求1所述的方法，其特征在于，所述基于预先训练的关联模型，根据所述描述特征确定与所述个性化描述信息相关联的关联描述信息包括：

计算所述描述特征与所述关联描述信息的第一关联度；

按照所述第一关联度确定与所述个性化描述信息相关联的关联描述信息及关联概率。

7.根据权利要求6所述的方法，其特征在于，所述基于所述关联描述信息与预先存储的各条候选推送信息的匹配关系，选取至少一条候选推送信息进行信息推送包括：

计算所述关联描述信息与各条候选推送信息的匹配度；

基于所述关联概率和所述匹配度计算各条候选推送信息与所述个性化描述信息的第二关联度；

基于所述第二关联度对所述候选推送信息进行排序，并基于排序结果选取至少一条候选推送信息进行信息推送。

8.根据权利要求1-7中任一所述的方法，其特征在于，所述个性化描述信息包括文本信息和/或语音信息。

9.一种信息推送的装置，其特征在于，所述装置包括：

获取模块，配置用于获取用户的个性化描述信息；

提取模块，配置用于对所述个性化描述信息进行内容解析，提取描述特征；

确定模块，配置用于基于预先训练的关联模型，根据所述描述特征确定与所述个性化描述信息相关联的关联描述信息；

推送模块，配置用于基于所述关联描述信息与预先存储的各条候选推送信息的匹配关系，选取至少一条候选推送信息进行信息推送。

10.根据权利要求9所述的装置，其特征在于，所述提取模块包括：

匹配单元，配置用于将所述个性化描述信息与预设的描述关键词集合中的描述关键词相匹配；

提取单元，配置用于基于所述个性化描述信息中与所述描述关键词相匹配的词提取描述特征。

11.根据权利要求10所述的装置，其特征在于，所述提取单元还配置用于：

12.根据权利要求11所述的装置，其特征在于，所述描述特征还包括以下至少一项：年龄特征、性别特征、地理位置特征。

13.根据权利要求9所述的装置，其特征在于，所述关联模型通过以下装置获得：

样本特征提取模块，配置用于根据包含用户的个性化描述信息和个性化描述信息所关联的关联描述信息的数据样本提取样本描述特征；

模型训练模块，配置用于将所述样本描述特征作为输入，所述数据样本中的关联描述信息作为输出，用数据样本集通过深度学习方法训练关联模型。

14.根据权利要求9所述的装置，其特征在于，所述确定模块包括：

第一关联度计算单元，配置用于计算所述描述特征与所述关联描述信息的第一关联度；

关联描述信息及关联概率确定单元，配置用于按照所述第一关联度确定与所述个性化描述信息相关联的关联描述信息及关联概率。

15.根据权利要求14所述的装置，其特征在于，所述推送模块包括：

匹配度计算单元，配置用于计算所述关联描述信息与各条候选推送信息的匹配度；

第二关联度计算单元，配置用于基于所述关联概率和所述匹配度计算各条候选推送信息与所述个性化描述信息的第二关联度；

推送单元，配置用于基于所述第二关联度对所述候选推送信息进行排序，并基于排序结果选取至少一条候选推送信息进行信息推送。

16.根据权利要求9-15中任一所述的装置，其特征在于，所述个性化描述信息包括文本信息和/或语音信息。