CN102760156B

CN102760156B - 一种用于生成与关键词相对应的发布信息的方法、装置与设备

Info

Publication number: CN102760156B
Application number: CN201210183365.3A
Authority: CN
Inventors: 汪牧远; 袁伟; 常华; 冯文剑; 陈海丹; 顾勇镛; 周寰; 徐明泉; 韩锋; 王有良; 姜世超
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-06-05
Filing date: 2012-06-05
Publication date: 2016-01-13
Anticipated expiration: 2032-06-05
Also published as: CN102760156A

Abstract

本发明的目的是提供一种用于生成与关键词相对应的发布信息的方法、装置与设备。本发明中，首先，获取与一个或多个关键词相对应的多个原始发布信息；接着，对所述多个原始发布信息分别进行切分处理，以获取各个原始发布信息切分后的多个信息片段；根据所述多个原始发布信息，来识别确定各个原始发布信息分别包括的原始属性信息；随后，根据所述各个原始发布信息切分后的多个信息片段，及其分别包括的所述原始属性信息，生成与所述关键词相对应的预发布信息。与现有技术相比，本发明在保证语法正确且语序通顺的情况下，实现了自动生成通用的与关键词相对应的发布信息。

Description

一种用于生成与关键词相对应的发布信息的方法、装置与设备

技术领域

本发明涉及信息生成技术领域，尤其涉及一种用于生成与关键词相对应的发布信息的技术。

背景技术

当今，通过互联网向公众发布网络信息已经成为信息发布的最主要的方式之一，因此，高效地生成大量发布信息的需求也越来越高。现有技术中，网络发布信息生成方式一般为人工撰写，如人工撰写广告创意，没有计算机自动生成网络发布信息的解决方案，因此在发布信息的生成过程中会耗费大量的人力资源，且生成效率较低。

因此，如何提供一种生成与关键词相对应的发布信息的方法、装置或设备，从而能够高效地、且多样化地为广告发布者提供发布信息，从而提高网络信息的发布效率，成为目前急需解决的问题之一。

发明内容

本发明的目的是提供一种用于生成与关键词相对应的发布信息的方法、装置与设备。

根据本发明的一个方面，提供了一种用于生成与关键词相对应的发布信息的方法，该方法包括以下步骤：

a获取与一个或多个关键词相对应的多个原始发布信息；

b对所述多个原始发布信息分别进行切分处理，以获取各个原始发布信息切分后的多个信息片段；

其中，该方法还包括：

x根据所述多个原始发布信息，来识别确定各个原始发布信息分别包括的原始属性信息；

y根据所述各个原始发布信息切分后的多个信息片段，及其分别包括的所述原始属性信息，生成与所述关键词相对应的预发布信息。

根据本发明的另一方面，还提供了一种用于生成与关键词相对应的发布信息的信息生成装置，该信息生成装置包括：

第一获取装置，用于获取与一个或多个关键词相对应的多个原始发布信息；

第一切分装置，用于对所述多个原始发布信息分别进行切分处理，以获取各个原始发布信息切分后的多个信息片段；

其中，该信息生成装置还包括：

第一确定装置，用于根据所述多个原始发布信息，来识别确定各个原始发布信息分别包括的原始属性信息；

第一生成装置，用于根据所述各个原始发布信息切分后的多个信息片段，及其分别包括的所述原始属性信息，生成与所述关键词相对应的预发布信息。

与现有技术相比，本发明具有以下优点：1)对与一个或多个关键词相对应的多个原始发布信息分别进行切分处理，来获取各个原始发布信息切分后的多个信息片段，从而实现了根据现有的大量发布样本获取多个用于进行拼接的信息片段，保证了信息片段的数量及多样性，进而为生成多样性的发布信息提供有力保障；2)根据所述各个原始发布信息切分后的多个信息片段，及各个原始发布信息分别包括的原始属性信息，来生成与所述关键词相对应的预发布信息，即在保证语法正确且语序通顺的情况下，实现了自动生成通用的与关键词相对应的预发布信息，进一步为生成某一信息发布者的发布信息提供了必要条件，从而降低人力资源的消耗，大大提升了发布信息生成的效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明一个方面的用于生成与关键词相对应的发布信息的信息生成装置的结构示意图；

图2示出根据本发明一个优选实施例的用于获得切分后的多个信息片段的信息生成装置的结构示意图；

图3示出根据本发明另一个优选实施例的用于生成与关键词相对应的发布信息的信息生成装置的结构示意图；

图4示出根据本发明另一个方面的用于生成与关键词相对应的发布信息的方法流程图；

图5示出根据本发明一个优选实施例的用于获得切分后的多个信息片段的方法流程图；

图6示出根据本发明另一个优选实施例的用于生成与关键词相对应的发布信息的方法流程图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1示出根据本发明一个方面的用于生成与关键词相对应的发布信息的信息生成装置的结构示意图。本实施例的信息生成装置包含于计算机设备中；该信息生成装置包括第一获取装置1、第一切分装置2、第一确定装置3和第一生成装置4。

其中，本发明的方法主要通过计算机设备来实现。优选地，所述计算机设备包括但不限于网络设备和用户设备。其中，所述用户设备包括但不限于PC机、智能手机、PDA等；所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，所述用户设备和网络设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

需要说明的是，所述用户设备和网络设备仅为举例，其他现有的或今后可能出现的用户设备、网络设备或网络如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

以下是以中文为例来进行描述，但本领域技术人员应能理解本发明不限于中文，还可只用于其他语言。

首先，第一获取装置1获取与一个或多个关键词相对应的多个原始发布信息。

其中，第一获取装置1获取与一个或多个关键词相对应的多个原始发布信息包括但不限于以下任一项情形：

1)获取与一个关键词相对应的多个原始发布信息；

具体地，第一获取装置1获取与一个关键词相对应的多个原始发布信息的方式包括但不限于：

a)第一获取装置1根据用户输入的一个关键词，来获取与该关键词相对应的多个原始发布信息；

b)第一获取装置1根据信息发布者通过用户设备提交的发布请求，其中，该发布请求中包括一个关键词，来获取与该关键词相对应的多个原始发布信息。

在一示例中，当信息生成装置位于网络设备中，首先，用户借助用户设备的交互装置，与该用户设备的浏览器软件或客户端软件进行交互。例如，用户在浏览器软件的搜索栏输入框中进行输入时，该用户设备实时地获取用户输入的按键序列，并记录为与该用户输入操作相对应的查询序列；用户设备将该用户所输入的该查询序列发送给该网络设备，例如，可将其封装为一请求消息，如http请求消息，并通过相应的通信协议，如http、https通信协议，发送至该网络设备；接着，该网络设备接收并解析该请求消息，以获得该查询序列中包括的至少一个关键词；接着，该网络设备在预置的关键词列表中查询，从该至少一个关键词中确定一个关键词；随后，第一获取装置1根据该一个关键词，在本地或第三方设备的发布信息库中进行匹配查询，以获取与该一个关键词相匹配的多个原始发布信息；其中，所述发布信息库中包括多个关键词及与其各自对应的多个原始发布信息，其包括但不限于关系数据库、Key-Value存储系统或文件系统等。

2)第一获取装置1获取与一个关键词及该关键词的至少一个扩展关键词相对应的多个原始发布信息；其中，该信息生成装置包括第二获取装置(图未示)；其中，第二获取装置获取与一个关键词有关的至少一个扩展关键词；第一获取装置1获取与所述一个关键词及所述至少一个扩展关键词相对应的多个原始发布信息。

具体地，第二获取装置根据一个关键词，在预置的关键词扩展列表中进行匹配查询，以确定与该关键词相对应的至少一个扩展关键词；其中，所述关键词扩展列表包括多个关键词及其各自对应的至少一个扩展关键词，其可存在但不限于关系数据库、Key-Value存储系统或文件系统等。

接着，第一获取装置1获取与该一个关键词及所述至少一个扩展关键词相对应的多个原始发布信息；例如，第一获取装置1根据该一个关键词，在本地或第三方设备的发布信息库中进行匹配查询，以确定与该关键词及该至少一个扩展关键词相匹配的多个原始发布信息。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何获取与一个或多个关键词相对应的多个原始发布信息的实现方式，均应包含在本发明的范围内。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何获取与一个关键词有关的至少一个扩展关键词，接着获取与所述一个关键词及所述至少一个扩展关键词相对应的多个原始发布信息的实现方式，均应包含在本发明的范围内。

通过获取与一个关键词及该关键词的至少一个扩展关键词相对应的多个原始发布信息，从而保证获取较多数量的原始发布信息，进一步保证后续能够获取较多数量的信息片段，进而生成多个语句、内容各不相同预发布信息。

随后，第一切分装置2对第一获取装置1获取的多个原始发布信息分别进行切分处理，以获取各个原始发布信息切分后的多个信息片段。

具体地，第一切分装置2对多个原始发布信息分别进行切分处理的方式包括但不限于：

1)单级切分方式：第一切分装置2基于第一预定标点符号进行切分，对多个原始发布信息分别进行切分，来获得各个原始发布信息切分后的多个信息片段；其中，所述第一预定标点符合包括但不限于句号、感叹号、分号等；

2)二级切分方式：优选地，第一切分装置2对多个原始发布信息分别进行两次切分，来获取各个原始发布信息切分后的多个信息片段。如图2所示，第一切分装置2包括第二切分装置21和第三切分装置22；其中，第二切分装置21对多个原始发布信息分别进行初级切分处理，以获取各个原始发布信息切分后的多个第一切分结果；第三切分装置22对该多个第一切分结果进行次级切分处理，以获得切分后的多个信息片段。

具体地，第二切分装置21基于第二预定标点符号，包括但不限于句号、感叹号、分号，对多个原始发布信息分别进行初级切分处理，以获取各个原始发布信息经过初级切分后的多个第一切分结果；接着，第三切分装置22基于第三预定标点符号，包括但不限于逗号，对该多个第一切分结果进行次级切分处理，以获得次级切分后的多个信息片段。

在一示例中，如下表1所示，多个原始发布信息中的两个原始发布信息分别为O₁和O₂，第二切分装置21基于第二预定标点符号，如句号和感叹号，对O₁和O₂分别进行初级切分处理，以获取O₁经过初级切分后的多个第一切分结果O₁-R₁至O₁-R₄，及O₂经过初级切分后的多个初级切分结果O₂-R₁至O₂-R₃；第三切分装置22基于第三预定标点符号，如逗号，对O₁-R₁至O₁-R₄以及O₂-R₁至O₂-R₃分别进行次级切分处理，以获得次级切分后的多个信息片段。

表1

优选地，当第三切分装置22检测确定第二切分装置21获取的第一切分结果中包括配对使用的标点符号时，如引号、书名号、括号等，则第三切分装置22对该第一切分结果不进行次级切分，直接将该第一切分结果作为切分后的信息片段。

更优选地，当第三切分装置22检测确定第二切分装置21获取的第一切分结果中包括关联词时，如“因为......所以......”、“不但......而且......”、“......但是......”，则第三切分装置22对该第一切分结果不进行次级切分，直接将该第一切分结果作为切分后的信息片段。

再优选地，根据第一字符数阈值，信息生成装置将已获取的多个信息片段中，字符数小于第一字符数阈值的信息片段进行删除处理，已确定用于后续生成预发布信息的多个信息片段。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何对多个原始发布信息分别进行初级切分处理，以获取各个原始发布信息切分后的多个第一切分结果，接着对多个第一切分结果进行次级切分处理，以获得切分后的多个信息片段的实现方式，均应包含在本发明的范围内。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，本发明不限于前述几种切分处理方式，其他任何对多个原始发布信息分别进行一级或多级切分处理，以获取各个原始发布信息切分后的多个信息片段的实现方式，均应包含在本发明的范围内。

其中，对多个原始发布信息分别进行切分处理，能够保证获取的多个信息片段语法正确且意思表示完整，可为生成的预发布信息的语法正确及句式通顺提供了有力保证。

第一确定装置3根据第一获取装置1获取的多个原始发布信息，来识别确定各个原始发布信息分别包括的原始属性信息。

其中，所述原始属性信息包括但不限于以下任一项：

1)联系信息；如电话号码、即时通讯联系信息等；

2)链接信息；如统一资源定位符(URL)；

3)品牌、公司名称；

4)地理位置信息；

5)数量信息。

具体地，第一确定装置3识别确定各个原始发布信息分别包括的原始属性信息的方式包括但不限于：

1)第一确定装置3通过预定的正则表达式进行匹配识别来确定；

其中，所述正则表达式是指用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串；其为对字符串操作的一种逻辑公式，即用预定的多个特定字符、及该多个特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

例如，利用Python语言，第一确定装置3通过预定的电话号码的正则表达式，如400\D\d{3，}\D\d{4，}，在原始发布信息O₂(参照表1)中进行匹配识别，来确定出O₂中包括的电话号码为400-342-3288，即作为该原始发布信息中包括的电话号码；其中，所述Python语言是一种面向对象、直译式计算机程序设计语言。

2)通过自然语言分析规则进行分析识别；其中，所述自然语言分析规则意指通过该自然语言分析规则实现人机之间自然语言的通信，即实现计算机对自然语言的理解，其可通过OpenNLP、FudanNLP、StandfordNLP、语言技术平台(LTP)等自然语言处理工具来实现。

例如，第一确定装置3通过诸如句子切分、部分词性标注、名称抽取、组块、解析等自然语言分析规则，对各个原始发布信息进行解析，来确定各个原始发布信息分别包括的原始属性信息。

3)根据预定的字符串进行匹配识别；例如，第一确定装置3根据预定的字符串“QQ”，在各个原始发布信息中进行匹配查询，当匹配获得某一原始发布信息包括预定的字符串“QQ”时，进一步分析确认该字符串后是否包括至少6位数字串，当确定包括至少6位数字串时，提取该至少6位数字串，以作为该原始发布信息中包括的即时通信联系信息。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何根据多个原始发布信息，来识别确定各个原始发布信息分别包括的原始属性信息的实现方式，均应包含在本发明的范围内。

其中，确定各个原始发布信息中分别包括的原始属性信息，使得后续在生成预发布信息时，将该等原始属性信息删除，使得预发布信息成为适用于不同信息发布者的通用信息；即为进一步将信息发布者的属性信息填充入预发布信息以生成该信息发布者的个性化发布信息提供保证。

随后，第一生成装置4根据第一切分装置2获取的各个原始发布信息切分后的多个信息片段，及其分别包括的由第一确定装置3确定的原始属性信息，生成与所述关键词相对应的预发布信息。

其中，第一生成装置4生成预发布信息的方式包括但不限于：

1)首先，将每一信息片段包括的原始属性信息进行删除处理，以获取多个待拼接信息片段；接着，将该等待拼接信息片段进行拼接处理，以生成预发布信息。

2)首先，将多个信息片段进行拼接处理，以获取待处理预发布信息；接着，将该待处理预发布信息中包括的原始属性信息进行删除处理，以生成预发布信息。

在前述两种实现方式中，在将原始属性信息进行删除处理时，第一生成装置4在删除位置处添加预定属性标识，以用于标识此处的属性信息。例如，在已删除的地理位置信息处标注属性标识“loc”，以用于标识此处的属性信息为地理位置信息；在已删除的联系电话处标注属性标识“tel”，以用于标识此处的属性信息为电话号码；在已删除的网址信息处标注属性标识“url”，以用于标识此处的属性信息为网址信息。

其中，所述拼接处理的方式包括但不限于：

1)根据第二字符数阈值，随机进行拼接处理，以生成拼接后的不大于第二字符数阈值的预发布信息；

2)根据预定信息片段数值，随机进行拼接处理，以生成拼接后的符合预定信息片段数值的预发布信息。

在一示例中，如下表2所示，第一生成装置4根据已确定的O₁及O₂中包括的原始属性信息，将已获取的对O₁及O₂切分后的多个信息片段中包括的原始属性信息进行删除处理，并在各个删除位置处标注与原始属性信息相匹配的属性标识，以获取多个待拼接信息片段；接着，根据预定信息片段数值4，将该等待拼接信息片段随机进行拼接处理，以生成预发布信息，如随机选取4个待拼接信息片段O₁-R₁-P₂’、O₁-R₁-P₃’、O₂-R₁-P₂’及O₂-R₃-P₁’，并将该4个待拼接信息片段以随机顺序进行拼接，以生成预发布信息为：“汇集四中、人大附中等重点中小学一线师资授课，重点中小学一线老师1对1辅导！提分效果显著！联系电话：(tel)。”

表2

优选地，当第一生成装置4生成的预发布信息中最后一个字符不属于第四预定标点符号，该第四预定标点符号包括但不限于句号、感叹号；则将该最后一个字符替换为第四预定标点符号；例如，当预发布信息的最后一个字符为逗号，则将该逗号替换为句号或感叹号。

又优选地，第一生成装置4可从多个信息片段中选取至少一个包含有预定的属性信息的信息片段，接着，根据该多个信息片段和该至少一个包含有预定的属性信息的信息片段，及多个原始发布信息中分别包括的原始属性信息，生成预发布信息。

例如，预定的属性信息为地理信息及网址信息，第一生成装置4从表2所示的多个信息片段中选取包含有地理信息的O₁-R₁-P₁和包含有网址信息的O₁-R₄-P₁；接着，第一生成装置4根据预定信息片段数值4，随机从该多个信息片段中再选取2个信息片段O₁-R₁-P₃及O₂-R₁-P₁，根据该4个信息片段及O₁和O₂中包括的原始属性信息，以生成预发布信息为：“(loc)家教中心，名师咨询答疑，提分效果显著！请登录：(url)查看详情。”

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何根据各个原始发布信息切分后的多个信息片段，及其分别包括的原始属性信息，生成与所述关键词相对应的预发布信息的实现方式，均应包含在本发明的范围内。

作为本实施例的优选方案之一，本实施例中信息生成装置还包括预处理装置(图未示)，预处理装置用于对待预处理的信息进行预处理，生成经预处理的信息，其中，在前述单级切分方式，待预处理的信息包括原始发布信息；在前述二级切分方式中，待预处理的信息包括第一切分结果。

对于前面参照图2描述的基于二级切分方式的实施例，其中，预处理装置对第二切分装置22获取的多个第一切分结果进行预处理，以获取多个预处理后的预切分结果；第三切分装置22对所述多个预处理后的预切分结果进行次级切分处理，以获得所述多个信息片段。

其中，预处理装置对多个第一切分结果进行预处理的方式包括但不限于以下任一项：

1)将中文字符数小于第三字符数阈值的第一切分结果进行删除处理；例如，预处理装置根据第三字符数阈值5，将多个第一切分结果中，中文字符数小于5的第一切分结果进行删除处理，以获得多个预处理后的预切分结果。

2)预处理装置包括第三获取装置(图未示)和合并装置(图未示)；其中，第三获取装置对多个第一切分结果进行筛选，以获得至少一个包含预定符号且具有预定格式的第一切分结果；合并装置对至少一个包含预定符号且具有预定格式的第一切分结果进行合并处理，以生成预处理后的预切分结果。

其中，所述包含预定符号且具有预定格式的第一切分结果可为：句A？句B，句C，句D。

具体地，合并装置对包含预定符号且具有预定格式的第一切分结果进行合并处理；例如，包含问号且具有预定格式的第一切分结果为：

“句A？句B，句C，句D”；

合并装置将问号后的句B、句C、句D与句A分别进行合并处理，以生成合并后的预切分结果为：“句A？句B，”、“句A？句C，”、“句A？句D。”。

随后，第三切分装置22对多个预处理后的预切分结果进行次级切分处理，以获得多个信息片段；例如，基于逗号对该多个预处理后预切分结果进行切分处理，以获得切分后的多个信息片段。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何对多个第一切分结果进行筛选，以获得至少一个包含预定符号且具有预定格式的第一切分结果，接着对至少一个包含预定符号且具有预定格式的第一切分结果进行合并处理，以生成预处理后的第一切分结果的实现方式，均应包含在本发明的范围内。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何对多个第一切分结果进行预处理，以获取多个预处理后的预切分结果，接着对所述多个预处理后的预切分结果进行次级切分处理，以获得所述多个信息片段的实现方式，均应包含在本发明的范围内。

其中，通过预处理操作将字符数较少的第一切分结果除去，同时对包含预定符号且具有预定格式的第一切分结果进行合并操作，保证了对第一切分结果再次切分后获取的信息片段内容的完整性；进一步，可为生成的预发布信息的语法正确及句式通顺提供了保证。

作为本实施例的优选方案之一(参照图3)，该信息生成装置还包括第四获取装置5和第二生成装置6；其中，第四获取装置5获取信息发布者的属性信息；第二生成装置6将第四获取装置5获取的信息发布者的属性信息填充入已生成的预发布信息的相应位置，以生成所述信息发布者的发布信息。

其中，所述信息发布者的属性信息包括但不限于：

1)信息发布者的预置属性信息；例如，信息发布者的注册信息；其包括但不限于：联系信息、链接信息、品牌、公司名称、地理位置信息、数量信息。

2)信息发布者的历史属性信息；即为从信息发布者的历史发布信息中获取的历史属性信息。

需要说明的是，所述信息发布者的属性信息仅为举例，其他现有的或今后可能出现的信息发布者的属性信息如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

具体地，第四获取装置5获取信息发布者的属性信息的方式包括但不限于：

1)第四获取装置5从本地或第三方设备的发布者信息库中获取预存的信息发布者的预置属性信息；

在一示例中，第四获取装置5定期或应事件触发实时地获取信息发布者的属性信息，例如信息生成装置所在的计算机设备通过实时监听信息发布者通过用户设备提交的发布请求，触发第四获取装置5在本地的发布者信息库中获取该信息发布者的预置属性信息，或通过约定的通信方式从第三方设备获取该信息发布者的预置属性信息；其中，所述发布者信息库中包括多个发布者的预置属性信息；其包括但不限于关系数据库、Key-Value存储系统或文件系统等。

2)优选地，第四获取装置5从信息发布者的历史发布信息中获取其历史属性信息；预处理装置包括第五获取装置(图未示)和第二确定装置(图未示)；其中，第五获取装置获取所述信息发布者的至少一个历史发布信息；第二确定装置通过对所述至少一个历史发布信息中的历史属性信息进行识别，来确定所述信息发布者的历史属性信息。

具体地，第五获取装置定期或应事件触发实时地根据信息发布者的标识信息，如注册ID，在本地或第三方设备的发布信息库中进行匹配查询，以获取信息发布者的至少一个历史发布信息；其中，所述发布信息库中包括多个信息发布者的标识信息及与其分别对应的至少一个历史发布信息。优选地，可为每一信息发布者建立独立的发布者信息库，将该信息发布者的历史发布信息保存于该独立的发布者信息库。

接着，第二确定装置通过对第五获取装置获取的至少一个历史发布信息中的历史属性信息进行识别，来确定所述信息发布者的历史属性信息。

其中，第二确定装置识别历史属性信息的方式与参照图1所示实施例中第一确定装置3识别原始属性信息的方式相同或相似，在此不再赘述。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何获取信息发布者的至少一个历史发布信息，接着，通过对至少一个历史发布信息中的历史属性信息进行识别，来确定信息发布者的历史属性信息的实现方式，均应包含在本发明的范围内。

随后，第二生成装置6将第四获取装置5获取的信息发布者的属性信息，填充入已生成的预发布信息中标注有属性标识的相应位置，以生成所述信息发布者的发布信息。

在一示例中，如下表4所示，第二生成装置6将信息发布者的地理信息和网址信息，填充入预发布信息中标注有“loc”及“url”的位置，以生成该信息发布者的发布信息。

表4

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何获取信息发布者的属性信息，将所述信息发布者的属性信息填充入预发布信息的相应位置，以生成所述信息发布者的发布信息的实现方式，均应包含在本发明的范围内。

其中，将信息发布者的属性信息填充入预发布信息的相应位置，以生成所述信息发布者的个性化发布信息，实现了最终获取的针对不同信息发布者的不同发布信息的目的；同时，网民通过网络搜索获取的发布信息中具有信息发布者的具体信息，如地理位置、联系信息等，满足了网民的搜索需求。

图4示出根据本发明另一个方面的用于生成与关键词相对应的发布信息的方法流程图。根据本优选实施例的方法包括步骤S1、步骤S2、步骤S3和步骤S4。其中，本发明的方法主要通过计算机设备来实现。

在步骤S1中，计算机设备获取与一个或多个关键词相对应的多个原始发布信息。

其中，在步骤S1中，计算机设备获取与一个或多个关键词相对应的多个原始发布信息包括但不限于以下任一项情形：

1)获取与一个关键词相对应的多个原始发布信息；

具体地，在步骤S1中，计算机设备获取与一个关键词相对应的多个原始发布信息的方式包括但不限于：

a)在步骤S1中，计算机设备根据用户输入的一个关键词，来获取与该关键词相对应的多个原始发布信息；

b)在步骤S1中，计算机设备根据信息发布者通过用户设备提交的发布请求，其中，该发布请求中包括一个关键词，来获取与该关键词相对应的多个原始发布信息。

在一示例中，当计算机设备为网络设备，首先，用户借助与用户设备的交互方式，与该用户设备的浏览器软件或客户端软件进行交互。例如，用户在浏览器软件的搜索栏输入框中进行输入时，该用户设备实时地获取用户输入的按键序列，并记录为与该用户输入操作相对应的查询序列；用户设备将该用户所输入的该查询序列发送给该网络设备，例如，可将其封装为一请求消息，如http请求消息，并通过相应的通信协议，如http、https通信协议，发送至该网络设备；接着，该网络设备接收并解析该请求消息，以获得该查询序列中包括的至少一个关键词；接着，该网络设备在预置的关键词列表中查询，从该至少一个关键词中确定一个关键词；随后，在步骤S1中，网络设备根据该一个关键词，在本地或第三方设备的发布信息库中进行匹配查询，以获取与该一个关键词相匹配的多个原始发布信息；其中，所述发布信息库中包括多个关键词及与其各自对应的多个原始发布信息，其包括但不限于关系数据库、Key-Value存储系统或文件系统等。

2)在步骤S1中，计算机设备获取与一个关键词及该关键词的至少一个扩展关键词相对应的多个原始发布信息；其中，该方法还包括步骤S7(图未示)；其中，在步骤S7中，计算机设备获取与一个关键词有关的至少一个扩展关键词；在步骤S1中，计算机设备获取与所述一个关键词及所述至少一个扩展关键词相对应的多个原始发布信息。

具体地，在步骤S7中，计算机设备根据一个关键词，在预置的关键词扩展列表中进行匹配查询，以确定与该关键词相对应的至少一个扩展关键词；其中，所述关键词扩展列表包括多个关键词及其各自对应的至少一个扩展关键词，其可存在但不限于关系数据库、Key-Value存储系统或文件系统等。

接着，在步骤S1中，计算机设备获取与该一个关键词及所述至少一个扩展关键词相对应的多个原始发布信息；例如，在步骤S1中，计算机设备根据该一个关键词，在本地或第三方设备的发布信息库中进行匹配查询，以确定与该关键词及该至少一个扩展关键词相匹配的多个原始发布信息。

在步骤S2中，计算机设备对其在步骤S1中获取的多个原始发布信息分别进行切分处理，以获取各个原始发布信息切分后的多个信息片段。

具体地，在步骤S2中，计算机设备对多个原始发布信息分别进行切分处理的方式包括但不限于：

1)单级切分方式：在步骤S2中，计算机设备基于第一预定标点符号进行切分，对多个原始发布信息分别进行切分，来获得各个原始发布信息切分后的多个信息片段；其中，所述第一预定标点符合包括但不限于句号、感叹号、分号等；

2)二级切分方式：优选地，在步骤S2中，计算机设备对多个原始发布信息分别进行两次切分，来获取各个原始发布信息切分后的多个信息片段。该方法如图5所示，包括步骤S21和步骤S22；其中，在步骤S21中，计算机设备对多个原始发布信息分别进行初级切分处理，以获取各个原始发布信息切分后的多个第一切分结果；在步骤S22中，计算机设备对该多个第一切分结果进行次级切分处理，以获得切分后的多个信息片段。

具体地，在步骤S21中，计算机设备基于第二预定标点符号，包括但不限于句号、感叹号、分号，对多个原始发布信息分别进行初级切分处理，以获取各个原始发布信息经过初级切分后的多个第一切分结果；接着，在步骤S22中，计算机设备基于第三预定标点符号，包括但不限于逗号，对该多个第一切分结果进行次级切分处理，以获得次级切分后的多个信息片段。

在一示例中，如下表1所示，多个原始发布信息中的两个原始发布信息分别为O₁和O₂，在步骤S21中，计算机设备基于第二预定标点符号，如句号和感叹号，对O₁和O₂分别进行初级切分处理，以获取O₁经过初级切分后的多个第一切分结果O₁-R₁至O₁-R₄，及O₂经过初级切分后的多个第一切分结果O₂-R₁至O₂-R₃；在步骤S22中，计算机设备基于第三预定标点符号，如逗号，对O₁-R₁至O₁-R₄以及O₂-R₁至O₂-R₃分别进行次级切分处理，以获得次级切分后的多个信息片段。

表1

优选地，当在步骤S22中，计算机设备检测确定其在步骤S21中获取的第一切分结果中包括配对使用的标点符号时，如引号、书名号、括号等，则计算机设备对该第一切分结果不进行次级切分，直接将该第一切分结果作为切分后的信息片段。

更优选地，当在步骤S22中，计算机设备检测确定其在步骤S21中获取的第一切分结果中包括关联词时，如“因为......所以......”、“不但......而且......”、“......但是......”，则计算机设备对该第一切分结果不进行次级切分，直接将该第一切分结果作为切分后的信息片段。

再优选地，根据第一字符数阈值，计算机设备将已获取的多个信息片段中，字符数小于第一字符数阈值的信息片段进行删除处理，已确定用于后续生成预发布信息的多个信息片段。

在步骤S3中，计算机设备根据其在步骤S1中获取的多个原始发布信息，来识别确定各个原始发布信息分别包括的原始属性信息。

其中，所述原始属性信息包括但不限于以下任一项：

1)联系信息；如电话号码、即时通讯联系信息等；

2)链接信息；如统一资源定位符(URL)；

3)品牌、公司名称；

4)地理位置信息；

5)数量信息。

具体地，在步骤S3中，计算机设备识别确定各个原始发布信息分别包括的原始属性信息的方式包括但不限于：

1)在步骤S3中，计算机设备通过预定的正则表达式进行匹配识别来确定；其中，所述正则表达式是指用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串；其为对字符串操作的一种逻辑公式，即用预定的多个特定字符、及该多个特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

例如，利用Python语言，在步骤S3中，计算机设备通过预定的电话号码的正则表达式，如400\D\d{3，}\D\d{4，}，在原始发布信息O₂(参照表1)中进行匹配识别，来确定出O₂中包括的电话号码为400-342-3288，即作为该原始发布信息中包括的电话号码；其中，所述Python语言是一种面向对象、直译式计算机程序设计语言。

例如，在步骤S3中，计算机设备通过诸如句子切分、部分词性标注、名称抽取、组块、解析等自然语言分析规则，对各个原始发布信息进行解析，来确定各个原始发布信息分别包括的原始属性信息。

3)根据预定的字符串进行匹配识别；例如，在步骤S3中，计算机设备根据预定的字符串“QQ”，在各个原始发布信息中进行匹配查询，当匹配获得某一原始发布信息包括预定的字符串“QQ”时，进一步分析确认该字符串后是否包括至少6位数字串，当确定包括至少6位数字串时，提取该至少6位数字串，以作为该原始发布信息中包括的即时通信联系信息。

在步骤S4中，计算机设备根据其在步骤S2中获取的各个原始发布信息切分后的多个信息片段，及其分别包括的由其在步骤S3中确定的原始属性信息，生成与所述关键词相对应的预发布信息。

其中，在步骤S4中，计算机设备生成预发布信息的方式包括但不限于：

在前述两种实现方式中，在将原始属性信息进行删除处理时，计算机设备在删除位置处添加预定属性标识，以用于标识此处的属性信息。例如，在已删除的地理位置信息处标注属性标识“loc”，以用于标识此处的属性信息为地理位置信息；在已删除的联系电话处标注属性标识“tel”，以用于标识此处的属性信息为电话号码；在已删除的网址信息处标注属性标识“url”，以用于标识此处的属性信息为网址信息。

其中，所述拼接处理的方式包括但不限于：

在一示例中，如下表2所示，在步骤S4中，计算机设备根据已确定的O₁及O₂中包括的原始属性信息，将已获取的对O₁及O₂切分后的多个信息片段中包括的原始属性信息进行删除处理，并在各个删除位置处标注与原始属性信息相匹配的属性标识，以获取多个待拼接信息片段；接着，根据预定信息片段数值4，将该等待拼接信息片段随机进行拼接处理，以生成预发布信息，如随机选取4个待拼接信息片段O₁-R₁-P₂’、O₁-R₁-P₃’、O₂-R₁-P₂’及O₂-R₃-P₁’，并将该4个待拼接信息片段以随机顺序进行拼接，以生成预发布信息为：“汇集四中、人大附中等重点中小学一线师资授课，重点中小学一线老师1对1辅导！提分效果显著！联系电话：(tel)。”

表2

优选地，当计算机设备生成的预发布信息中最后一个字符不属于第四预定标点符号，该第四预定标点符号包括但不限于句号、感叹号；则将该最后一个字符替换为第四预定标点符号；例如，当预发布信息的最后一个字符为逗号，则将该逗号替换为句号或感叹号。

又优选地，在步骤S4中，计算机设备可从多个信息片段中选取至少一个包含有预定的属性信息的信息片段，接着，根据该多个信息片段和该至少一个包含有预定的属性信息的信息片段，及多个原始发布信息中分别包括的原始属性信息，生成预发布信息。

例如，预定的属性信息为地理信息及网址信息，在步骤S4中，计算机设备从表2所示的多个信息片段中选取包含有地理信息的O₁-R₁-P₁和包含有网址信息的O₁-R₄-P₁；接着，计算机设备根据预定信息片段数值4，随机从该多个信息片段中再选取2个信息片段O₁-R₁-P₃及O₂-R₁-P₁，根据该4个信息片段及O₁和O₂中包括的原始属性信息，以生成预发布信息为：“(loc)家教中心，名师咨询答疑，提分效果显著！请登录：(url)查看详情。”

作为本实施例的优选方案之一，本实施例中该方法还包括步骤S8(图未示)；，在步骤S8中，计算机设备用于对待预处理的信息进行预处理，生成经预处理的信息，其中，在前述单级切分方式，待预处理的信息包括原始发布信息；在前述二级切分方式中，待预处理的信息包括第一切分结果。

对于前面参照图5描述的基于二级切分方式的实施例，其中，在步骤S8中，计算机设备对其在步骤S22中获取的多个第一切分结果进行预处理，以获取多个预处理后的预切分结果；在步骤S22中，计算机设备对所述多个预处理后的预切分结果进行次级切分处理，以获得所述多个信息片段。

其中，在步骤S8中，计算机设备对多个第一切分结果进行预处理的方式包括但不限于以下任一项：

1)将中文字符数小于第三字符数阈值的第一切分结果进行删除处理；例如，在步骤S8中，计算机设备根据第三字符数阈值5，将多个第一切分结果中，中文字符数小于5的第一切分结果进行删除处理，以获得多个预处理后的预切分结果。

2)该方法中，步骤S8包括步骤S81(图未示)和步骤S82(图未示)；其中，在步骤S81中，计算机设备对多个第一切分结果进行筛选，以获得至少一个包含预定符号且具有预定格式的第一切分结果；在步骤S82中，计算机设备对对至少一个包含预定符号且具有预定格式的第一切分结果进行合并处理，以生成预处理后的预切分结果。

具体地，在步骤S82中，计算机设备对对包含预定符号且具有预定格式的第一切分结果进行合并处理；例如，包含问号且具有预定格式的第一切分结果为：

“句A？句B，句C，句D”；

在步骤S82中，计算机设备将问号后的句B、句C、句D与句A分别进行合并处理，以生成合并后的预切分结果为：“句A？句B，”、“句A？句C，”、“句A？句D。”。

随后，在步骤S22中，计算机设备对多个预处理后的预切分结果进行次级切分处理，以获得多个信息片段；例如，基于逗号对该多个预处理后预切分结果进行切分处理，以获得切分后的多个信息片段。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何对多个第一切分结果进行筛选，以获得至少一个包含预定符号且具有预定格式的第一切分结果，接着对至少一个包含预定符号且具有预定格式的第一切分结果进行合并处理，以生成预处理后的预切分结果的实现方式，均应包含在本发明的范围内。

作为本实施例的优选方案之一(参照图6)，该该方法还包括步骤S5和步骤S6；其中，在步骤S5中，计算机设备获取信息发布者的属性信息；在步骤S6中，计算机设备将其在步骤S5中获取的信息发布者的属性信息填充入已生成的预发布信息的相应位置，以生成所述信息发布者的发布信息。

其中，所述信息发布者的属性信息包括但不限于：

具体地，在步骤S5中，计算机设备获取信息发布者的属性信息的方式包括但不限于：

1)在步骤S5中，计算机设备从本地或第三方设备的发布者信息库中获取预存的信息发布者的预置属性信息；

在一示例中，在步骤S5中，计算机设备定期或应事件触发实时地获取信息发布者的属性信息，例如计算机设备通过实时监听信息发布者通过用户设备提交的发布请求，触发其在本地的发布者信息库中获取该信息发布者的预置属性信息，或通过约定的通信方式从第三方设备获取该信息发布者的预置属性信息；其中，所述发布者信息库中包括多个发布者的预置属性信息；其包括但不限于关系数据库、Key-Value存储系统或文件系统等。

2)优选地，在步骤S5中，计算机设备从信息发布者的历史发布信息中获取其历史属性信息；该方法中步骤S5包括步骤S51(图未示)和步骤S52(图未示)；其中，在步骤S51中，计算机设备获取所述信息发布者的至少一个历史发布信息；在步骤S52中，计算机设备通过对所述至少一个历史发布信息中的历史属性信息进行识别，来确定所述信息发布者的历史属性信息。

具体地，在步骤S51中，计算机设备定期或应事件触发实时地根据信息发布者的标识信息，如注册ID，在本地或第三方设备的发布信息库中进行匹配查询，以获取信息发布者的至少一个历史发布信息；其中，所述发布信息库中包括多个信息发布者的标识信息及与其分别对应的至少一个历史发布信息。优选地，可为每一信息发布者建立独立的发布者信息库，将该信息发布者的历史发布信息保存于该独立的发布者信息库。

接着，在步骤S52中，计算机设备通过对其在步骤S51中获取的至少一个历史发布信息中的历史属性信息进行识别，来确定所述信息发布者的历史属性信息。

其中，在步骤S52中，计算机设备识别历史属性信息的方式与参照图4所示实施例中计算机设备在步骤S3中识别原始属性信息的方式相同或相似，在此不再赘述。

随后，在步骤S6中，计算机设备将其在步骤S5中获取的信息发布者的属性信息，填充入已生成的预发布信息中标注有属性标识的相应位置，以生成所述信息发布者的发布信息。

在一示例中，如下表4所示，在步骤S6中，计算机设备将信息发布者的地理信息和网址信息，填充入预发布信息中标注有“loc”及“url”的位置，以生成该信息发布者的发布信息。

表4

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他装置或步骤，单数不排除复数。装置权利要求中陈述的多个装置也可以由一个装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种用于生成与关键词相对应的发布信息的方法，该方法包括以下步骤：

a获取与一个或多个关键词相对应的多个原始发布信息；

其中，该方法还包括：

x根据所述多个原始发布信息，识别各个原始发布信息分别包括的原始属性信息；

y根据所述各个原始发布信息切分后的多个信息片段，生成与所述关键词相对应的预发布信息，所述预发布信息中的信息片段不包括其对应原始发布信息的原始属性信息。

2.根据权利要求1所述的方法，其中，该方法还包括以下步骤：

-获取与一个关键词有关的至少一个扩展关键词；

其中，所述步骤a还包括：

-获取与所述一个关键词及所述至少一个扩展关键词相对应的多个原始发布信息。

3.根据权利要求1所述的方法，其中，所述步骤b包括：

b1对所述多个原始发布信息分别进行初级切分处理，以获取各个原始发布信息切分后的多个第一切分结果；

b2对所述多个第一切分结果进行次级切分处理，以获得切分后的所述多个信息片段。

4.根据权利要求3所述的方法，其中，该方法还包括以下步骤：

-对所述多个第一切分结果进行预处理，以获取多个预处理后的预切分结果；

其中，所述步骤b2包括：

-对所述多个预处理后的预切分结果进行次级切分处理，以获得所述多个信息片段。

5.根据权利要求4所述的方法，其中，对所述多个第一切分结果进行预处理的步骤包括：

-对所述多个第一切分结果进行筛选，以获得至少一个包含预定符号且具有预定格式的第一切分结果；

-对所述至少一个包含预定符号且具有预定格式的第一切分结果进行合并处理，以生成预处理后的预切分结果。

6.根据权利要求1至5中任一项所述的方法，其中，该方法还包括以下步骤：

-获取信息发布者的属性信息；

-将所述信息发布者的属性信息填充入所述预发布信息的相应位置，以生成所述信息发布者的发布信息。

7.根据权利要求6所述的方法，其中，所述信息发布者的属性信息包括以下至少任一项：

-信息发布者的预置属性信息；

-信息发布者的历史属性信息。

8.根据权利要求7所述的方法，其中，该方法还包括以下步骤：

-获取所述信息发布者的至少一个历史发布信息；

-通过对所述至少一个历史发布信息中的历史属性信息进行识别，来确定所述信息发布者的历史属性信息。

9.一种用于生成与关键词相对应的发布信息的信息生成装置，该信息生成装置包括：

其中，该信息生成装置还包括：

第一确定装置，用于根据所述多个原始发布信息，识别各个原始发布信息分别包括的原始属性信息；

第一生成装置，用于根据所述各个原始发布信息切分后的多个信息片段，生成与所述关键词相对应的预发布信息，所述预发布信息中的信息片段不包括其对应原始发布信息的原始属性信息。

10.根据权利要求9所述的信息生成装置，其中，该信息生成装置还包括：

第二获取装置，用于获取与一个关键词有关的至少一个扩展关键词；

其中，所述第一获取装置还用于获取与所述一个关键词及所述至少一个扩展关键词相对应的多个原始发布信息。

11.根据权利要求9所述的信息生成装置，其中，所述第一切分装置包括：

第二切分装置，用于对所述多个原始发布信息分别进行初级切分处理，以获取各个原始发布信息切分后的多个第一切分结果；

第三切分装置，用于对所述多个第一切分结果进行次级切分处理，以获得切分后的所述多个信息片段。

12.根据权利要求11所述的信息生成装置，其中，该信息生成装置还包括：

预处理装置，用于对所述多个第一切分结果进行预处理，以获取多个预处理后的预切分结果；

其中，所述第三切分装置用于对所述多个预处理后的预切分结果进行次级切分处理，以获得所述多个信息片段。

13.根据权利要求12所述的信息生成装置，其中，所述预处理装置包括：

第三获取装置，用于对所述多个第一切分结果进行筛选，以获得至少一个包含预定符号且具有预定格式的第一切分结果；

合并装置，用于对所述至少一个包含预定符号且具有预定格式的第一切分结果进行合并处理，以生成预处理后的预切分结果。

14.根据权利要求9至13中任一项所述的信息生成装置，其中，该信息生成装置还包括：

第四获取装置，用于获取信息发布者的属性信息；

第二生成装置，用于将所述信息发布者的属性信息填充入所述预发布信息的相应位置，以生成所述信息发布者的发布信息。

15.根据权利要求14所述的信息生成装置，其中，所述信息发布者的属性信息包括以下至少任一项：

-信息发布者的预置属性信息；

-信息发布者的历史属性信息。

16.根据权利要求15所述的信息生成装置，其中，该信息生成装置还包括：

第五获取装置，用于获取所述信息发布者的至少一个历史发布信息；

第二确定装置，用于通过对所述至少一个历史发布信息中的历史属性信息进行识别，来确定所述信息发布者的历史属性信息。

17.一种计算机设备，包括如权利要求9至16中至少一项所述的信息生成装置。