CN102110170A - 一种具有信息发布和搜索功能的系统及信息发布方法 - Google Patents
一种具有信息发布和搜索功能的系统及信息发布方法 Download PDFInfo
- Publication number
- CN102110170A CN102110170A CN2011100661354A CN201110066135A CN102110170A CN 102110170 A CN102110170 A CN 102110170A CN 2011100661354 A CN2011100661354 A CN 2011100661354A CN 201110066135 A CN201110066135 A CN 201110066135A CN 102110170 A CN102110170 A CN 102110170A
- Authority
- CN
- China
- Prior art keywords
- information
- user
- probability
- issue
- input information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000006870 function Effects 0.000 title claims abstract description 29
- 238000004458 analytical method Methods 0.000 claims abstract description 34
- 230000006399 behavior Effects 0.000 claims description 40
- 238000010801 machine learning Methods 0.000 claims description 14
- 239000000463 material Substances 0.000 claims description 10
- 238000012790 confirmation Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 238000007689 inspection Methods 0.000 claims description 6
- 238000009412 basement excavation Methods 0.000 claims description 4
- 241001264363 Ceanothus fresnensis Species 0.000 claims description 2
- 238000010276 construction Methods 0.000 abstract 2
- 238000005315 distribution function Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 22
- 241000251468 Actinopterygii Species 0.000 description 10
- 238000012706 support-vector machine Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 230000008676 import Effects 0.000 description 5
- 244000097202 Rathbunia alamosensis Species 0.000 description 4
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 4
- 230000003542 behavioural effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 2
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 235000014510 cooky Nutrition 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000007799 cork Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种具有信息发布和搜索功能的系统及信息发布方法,其中所述系统包括:展示模块;分类器构建模块,用于构建分类器模型;信息分析模块,用于根据分类器模型对输入信息进行分析,输出所述输入信息具有信息发布需求的第一概率;综合决策模块,用于根据第一概率决定是否对所述输入信息进行检索或发布;发布模块,用于将输入信息发布到第三方信息发布平台;检索模块,用于将查询结果返回给所述展示模块。通过上述方式,所述系统在搜索的基础上具有了信息发布的功能,可以很好地满足不同用户的需要。
Description
【技术领域】
本发明涉及搜索技术领域,特别涉及一种具有信息发布和搜索功能的系统及信息发布方法。
【背景技术】
随着互联网技术的发展,搜索已经成为了人们生活当中不可或缺的一部分。通过搜索,人们可以轻易地获取到各个领域的知识和信息,这大大地加速了信息的传播。搜索技术的出现,极大地改变了人们传统的学习方式,以往需要从图书馆、教育机构才能获取的知识,现在人们只要轻点一下鼠标,就可以轻松地从浩瀚的互联网信息海洋中获取到。随着搜索技术向着更加智能的方向发展,人们也越来越容易获取到个性化的信息,然而,随着WEB2.0的广泛应用,现在的互联网已经成为了一个沟通和交流的平台,人们不仅从互联网获取信息,更是常常为互联网提供信息,例如人们广泛使用的博客、微博、知识问答社区、SNS等,都为人们提供了一个发布信息、分享知识的平台,但是目前的还没有一种系统,能够根据用户输入的信息,判断用户的意图,从而决定是给用户返回搜索结果还是将用户输入信息发布到上文所述的平台上去。此外,由于目前上文所述的平台彼此之间都是独立的,每一个发布信息的平台都建立在自己的管理基础之上,如果用户在多个平台都注册了服务,并且希望在不同的平台发布相同的信息,那么他就不得不在多个平台进行登录和发布的操作,这显然给用户带来了不便。
【发明内容】
本发明所要解决的技术问题是提供一种具有信息发布和搜索功能的系统及信息发布方法,以实现通过用户输入信息判断用户意图,并根据用户意图对输入信息进行检索或发布的目的。
本发明为解决技术问题而采用的技术方案是提供一种具有信息发布和搜索功能的系统,包括:展示模块,用于为用户提供所述系统的使用界面,所述使用界面用于接收用户的输入信息和将所述系统返回的处理结果展示给用户;分类器构建模块,用于根据线下挖掘的历史数据或第三方信息发布平台提供的语料数据,构建分类器模型;信息分析模块,用于根据所述分类器模型对所述输入信息进行分析,输出所述输入信息具有信息发布需求的第一概率,所述第一概率用于描述所述输入信息基于语义特征角度的具有所述信息发布需求的可能性;综合决策模块,用于根据所述第一概率决定是否对所述输入信息进行检索或发布;发布模块,用于调用所述第三方信息发布平台的数据接口,连接互联网以将所述输入信息发布到所述第三方信息发布平台;检索模块,用于根据所述输入信息查询索引库,并将查询结果返回给所述展示模块。
根据本发明之一优选实施例,所述系统为搜索引擎系统。
根据本发明之一优选实施例,所述使用界面的形式包括WEB页面、WAP页面、带有搜索插件的浏览器与所述WEB页面的结合、或带有搜索插件的浏览器与所述WAP页面的结合。
根据本发明之一优选实施例,所述WEB页面或所述WAP页面内包括搜索框、地址栏、输入法框或信息输入界面。
根据本发明之一优选实施例,所述第三方信息发布平台包括微博平台、社交网络平台、论坛平台或电子公告平台。
根据本发明之一优选实施例,所述分类器模型是根据所述历史数据或所述语料数据,采用机器学习算法构建的。
根据本发明之一优选实施例,所述信息发布需求包括具体信息发布需求或通用信息发布需求。
根据本发明之一优选实施例,所述系统在发布前由所述展示模块对用户进行提示以获取用户对所述提示的确认信息。
根据本发明之一优选实施例,所述展示模块在对用户进行提示时返回所述检索模块对所述输入信息的检索结果。
根据本发明之一优选实施例,所述提示包括多个关于所述第三方信息发布平台的提示信息。
根据本发明之一优选实施例,所述确认信息包括对所述第三方信息发布平台的选择信息或登录信息。
根据本发明之一优选实施例,所述展示模块在接收到用户对所述提示的确认信息后,通过所述发布模块对所述输入信息进行发布。
根据本发明之一优选实施例,所述发布模块进一步用于将所述输入信息发布于多个所述第三方信息发布平台。
根据本发明之一优选实施例,所述系统进一步包括:用户信息获取模块,用于获取用户在所述第三方信息发布平台中的用户信息,以得到所述输入信息具有所述信息发布需求的第二概率,其中所述第二概率用于描述所述输入信息基于用户信息特征角度的具有信息发布需求的可能性;所述综合决策模块利用所述第一概率与所述第二概率,决定是否对所述输入信息进行检索或发布。
根据本发明之一优选实施例,所述用户信息包括用户的帐号信息或用户的使用频率信息。
根据本发明之一优选实施例,所述用户信息的获取方式包括检验用户在所述第三方信息发布平台的在线状态、调用用户在所述第三方信息发布平台的帐号的使用记录或接收用户在所述展示模块的输入。
根据本发明之一优选实施例,所述系统进一步包括:用户行为分析模块,用于分析用户以往的行为,以得到所述输入信息具有所述信息发布需求的第三概率,其中所述第三概率用于描述所述输入信息基于用户历史行为特征角度的具有所述信息发布需求的可能性;所述综合决策模块利用所述第一概率与所述第三概率,决定是否对所述输入信息进行检索或发布。
根据本发明之一优选实施例,所述系统进一步包括:高级语法挖掘模块,用于对互联网数据进行挖掘,从所述互联网数据中提取用户描述所述第三方信息发布平台的关键词,并对所述关键词进行语义扩展,生成针对所述第三方信息发布平台的描述词语库;高级语法匹配模块,用于根据所述描述词语库对所述输入信息进行匹配验证,以判断用户使用高级语法的第四概率,当所述第四概率大于第一阈值时,所述高级语法匹配模块进一步将所述输入信息分解为内容部分与语法部分,并将所述内容部分与所述第四概率传递给所述信息分析模块,当所述第四概率不大于第一阈值时,所述高级语法匹配模块进一步将所述输入信息直接传递给所述信息分析模块;所述信息分析模块利用所述高级语法匹配模块传递的数据及所述分类器模型,输出所述第一概率。
根据本发明之一优选实施例,所述系统进一步包括:用户配置模块,用于根据用户的选择为所述系统配置默认的行为模式,所述默认的行为模式包括默认为搜索或默认为发布,其中当系统被配置成所述默认为搜索时,系统只执行检索不执行发布,系统被配置成所述默认为发布时,系统只执行发布不执行检索;用户配置识别模块,用于识别用户配置信息,并根据所述用户配置信息对所述输入信息进行检索或发布。
根据本发明之一优选实施例,所述系统在发布前由所述展示模块对用户进行提示以获取用户对所述提示的确认信息。
本发明还提供了一种信息发布方法,包括步骤:a.接收用户输入信息;b.根据分类器模型对所述输入信息进行分析,以得到所述输入信息具有信息发布需求的第一概率,所述第一概率用于描述所述输入信息基于语义特征角度的具有所述信息发布需求的可能性;c.根据所述第一概率对所述输入信息进行检索或将所述输入信息发布到第三方信息发布平台。
根据本发明之一优选实施例,所述步骤a中从搜索引擎的使用界面接收用户输入信息。
根据本发明之一优选实施例,所述使用界面的具体形式包括WEB页面、WAP页面、带有搜索插件的浏览器与所述WEB页面的结合、或带有搜索插件的浏览器与所述WAP页面的结合。
根据本发明之一优选实施例,所述WEB页面或所述WAP页面内包括搜索框、地址栏、输入法框或信息输入界面。
根据本发明之一优选实施例,所述第三方信息发布平台包括微博平台、社交网络平台、论坛平台或电子公告平台。
根据本发明之一优选实施例,所述分类器模型是根据线下挖掘的历史数据或所述第三方信息发布平台提供的语料数据,采用机器学习算法构建的。
根据本发明之一优选实施例,所述信息发布需求包括具体信息发布需求或通用信息发布需求。
根据本发明之一优选实施例,所述步骤c中,在所述发布前对用户进行提示以获取用户对所述提示的确认信息。
根据本发明之一优选实施例,在对用户进行所述提示时返回对所述输入信息的检索结果。
根据本发明之一优选实施例,所述提示包括多个关于所述第三方信息发布平台的提示信息。
根据本发明之一优选实施例,所述确认信息包括对所述第三方信息发布平台的选择信息或登录信息。
根据本发明之一优选实施例,在接收到用户对所述提示的确认信息后,对所述输入信息进行发布。
根据本发明之一优选实施例,所述步骤c中,将所述输入信息发布于多个所述第三方信息发布平台。
根据本发明之一优选实施例,所述方法在步骤c前进一步包括步骤:d.获取用户在所述第三方信息发布平台中的用户信息,以得到所述输入信息具有所述信息发布需求的第二概率,其中所述第二概率用于描述所述输入信息基于用户信息特征角度的具有所述信息发布需求的可能性;所述步骤c中利用所述第一概率与所述第二概率对所述输入信息进行检索或将所述输入信息发布到第三方信息发布平台。
根据本发明之一优选实施例,所述用户信息包括用户的帐号信息或用户的使用频率信息。
根据本发明之一优选实施例,所述步骤d中用户信息的获取方式包括检验用户在所述第三方信息发布平台的在线状态、调用用户在所述第三方信息发布平台的帐号的使用记录或接收用户在所述展示模块的输入。
根据本发明之一优选实施例,所述方法在步骤c前进一步包括步骤:e.分析用户以往的行为,以得到所述输入信息具有所述信息发布需求的第三概率,其中所述第三概率用于描述所述输入信息基于用户历史行为特征角度的具有所述信息发布需求的可能性;所述步骤c中利用所述第一概率与所述第三概率对所述输入信息进行检索或将所述输入信息发布到第三方信息发布平台。
根据本发明之一优选实施例,所述方法在步骤b前进一步包括步骤:f.根据描述词语库对所述输入信息进行匹配验证,以判断用户使用高级语法的第四概率,其中所述描述词语库是通过对互联网数据进行挖掘,从所述互联网数据中提取用户描述所述第三方信息发布平台的关键词,并对所述关键词进行语义扩展后生成的;当所述第四概率大于第一阈值时,将所述输入信息分解为内容部分与语法部分,所述步骤b利用所述内容部分与所述第四概率及所述分类器模型得到第一概率。
根据本发明之一优选实施例,所述方法在步骤b前进一步包括步骤:g.识别用户配置信息,其中所述用户配置信息是根据用户的选择为系统配置的默认的行为模式,所述默认的行为模式包括默认为搜索或默认为发布,其中当系统被配置成所述默认为搜索时,系统只执行检索不执行发布,系统被配置成所述默认为发布时,系统只执行发布不执行检索;当识别出系统具有用户配置信息时,根据所述用户配置信息对所述输入信息进行检索或发布。
根据本发明之一优选实施例,在所述发布前对用户进行提示以获取用户对所述提示的确认信息。
由以上技术方案可以看出,所述系统通过对用户输入信息进行分析判断,可以很好地满足不同用户的不同需要,使得所述系统在信息检索的基础上具有了信息发布功能,,在用户有不指定特定发布平台的信息发布需求时,所述系统还可以轻易地为用户在多个信息发布平台上进行信息发布,这不仅大大简化了信息发布流程,节约了用户的时间,也为用户发布的信息更快更准确地到达信息需求方提供了可能。
【附图说明】
图1是本发明实施例中具有信息发布和搜索功能的系统的实施例一的结构示意框图;
图2是本发明实施例中使用界面的一种具体形式的实施例示意图;
图3是本发明实施例中使用界面的另一种具体形式的实施例示意图;
图4是本发明实施例中使用界面将系统返回的结果展示给用户时的一个实施例示意图;
图5是本发明实施例中展示模块返回的提示中包含多个第三方信息发布平台的提示信息的实施例示意图;
图6是本发明实施例中展示模块返回的提示中包含登录提示的实施例示意图;
图7为本发明实施例中展示模块返回的提示中包含选择提示的实施例示意图;
图8为本发明实施例中发布成功后展示模块返回发布成功的通知的实施例示意图;
图9是本发明实施例中具有信息发布和搜索功能的系统的实施例二的结构示意框图;
图10是本发明实施例中具有信息发布和搜索功能的系统的实施例三的结构示意框图;
图11是本发明实施例中具有信息发布和搜索功能的系统的实施例四的结构示意框图。
图12是本发明实施例中信息发布方法的实施例一的流程示意图;
图13是本发明实施例中信息发布方法的实施例二的流程示意图;
图14是本发明实施例中信息发布方法的实施例三的流程示意图;
图15是本发明实施例中信息发布方法的实施例四的流程示意图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明中具有信息发布和搜索功能的系统,可以是任意的搜索引擎系统,或其他的BS(browser-server)结构或CS(client-server)结构的系统。图1为本发明实施例中具有信息发布和搜索功能的系统的实施例一的结构示意框图。
如图1所示,具有信息发布和搜索功能的系统包括展示模块101、分类器构建模块102、信息分析模块103、综合决策模块104、发布模块105、检索模块106。
其中,展示模块101,用于为用户提供系统的使用界面,该使用界面可接收用户的输入信息和将搜索引擎返回的处理结果展示给用户。
如图2所示,为使用界面的一种具体形式的实施例示意图。使用界面包括了WEB页面与WAP页面,其中WEB页面是符合HTML格式的普通电脑浏览器可以识别的网页文本,WAP页面是更适用于手机浏览器显示的网页文本。
如图3所示,为使用界面的另一种具体形式的实施例示意图。在该实施例中,使用界面并不仅仅是一个页面,而是包含了搜索插件的浏览器与页面的结合,在浏览器的搜索插件的搜索框处,也可以获取用户输入的信息。
如图4所示,为使用界面将系统返回的结果展示给用户时的一个实施例示意图。在该实施例中,使用界面在搜索的结果页面中增加了对用户发布信息的引导提示。
在上述的WEB页面或WAP页面内,可以包含搜索框、地址栏、输入法框或信息输入界面,其中的信息输入界面可以用来输入各种需要发表的信息,包括微博信息、社交网络信息、论坛信息或电子公告信息等。其中的社交网络包括开心网,人人网等网站。对于有明确的信息发表目的的用户来说,通过信息输入的界面,就可以直接输入信息,通过搜索引擎将信息发布出去。
分类器构建模块102,用于根据线下挖掘的历史数据或第三方信息发布平台提供的语料数据,采用机器学习算法,构建分类器模型。所述第三方信息发布平台指的是与所述系统建立了技术关联的信息发布平台系统,包括微博平台、社交网络平台、论坛平台或电子公告平台。
线下挖掘的历史数据与第三方信息发布平台提供的语料数据,指的是用户的query输入数据,是采用机器学习算法构建分类器模型时的训练样本,下面以SVM(支持向量机)这种机器学习算法为例,对构建分类器模型进行介绍。
SVM的分类原理可概括为:寻找一个分类超平面,使得训练样本中的两类样本点能被分开,并且距离该平面尽可能地远;而对线性不可分的问题,通过核函数将低维输入空间的数据映射到高位空间,从而将原低维空间的线性不可分问题转化为高维空间上的线性可分问题。
对于两类问题,给定样本集(xi,yi),xi∈Rd,yi={1,-1},i=1,2,...l,以及核函数K(xi,xj)=(Φ(xi)·Φ(xj)),其中Φ是非线性映射函数。SVM训练出的学习机器为:
f(x)=(w·Φ(x))+b,
其中w是权重,b是偏置。
对本发明而言,样本集(xi,yi)中的xi是由训练语料(即线下挖掘数据或第三方信息发布平台提供的数据)的特征组成的特征向量,yi表示两类问题中的其中一个,如果存在多类问题,可以把它变为多个两类问题进行处理。在本发明中的类型,指的是信息属于哪类发布需求,包括有发布平台一的发布需求、有发布平台二的发布需求等等。
由此可见,要用样本训练出具有较好分类效果的分类器,也就是得到理想的分类器权重w和偏置b,特征选取是个关键因素。在本发明中,可以采用下述变量作为特征:query中各种标点符号的数量以及位置、query中字符串长度、query的末尾是否为字符、query是否有特殊字符串、query中数字的个数、query中是否有属于分类词汇表中的词语、query中每个词的搜索量、query中每个词由搜索引擎得到的搜索结果数等,其中的分类词汇表指的是诸如经济、历史、天文、地理之类的类别表。
需要强调的是,上述所列的特征仅是为了说明本实施例而列举,并不代表本发明仅限于使用上述特征,任何为了构建分类器模型而使用的特征,都不超出本发明的思想范围。
信息分析模块103,用于根据由分类器构建模块102构建的分类器模型对用户输入信息进行分析,输出用户输入信息具有信息发布需求的第一概率,其中所述第一概率用于描述输入信息基于语义特征角度的具有信息发布需求的可能性。
所述信息发布需求包括具体信息发布需求或通用信息发布需求。具体信息发布需求指的是诸如发布于微博、SNS等特定的发布平台的发布需求,而通用的信息发布需求指的是用户没有指定发布平台的发布需求,例如用户可能想要转让火车票,或者需要在某个区域租一套房子,这些信息发布需求并不指定特定的发布平台,用户只是希望将此类型的信息发布到互联网上,只要能被其他用户看到,那么信息发布的用户并不介意信息在哪个平台上发布。
信息分析模块依靠分类器模型,可以对用户输入的信息在语义上进行分析,判断用户输入的信息从语义角度考虑,在各种发布平台上发布的第一概率大小。例如用户输入的信息为“求租中关村三居室一套”,信息分析模块输出的结果为(求租中关村三居室一套,P综合=0.9)、(求租中关村三居室一套,P微博=0.7)、(求租中关村三居室一套,P知识问答社区=0.2)等等,其中P代表的是第一概率。如果用户输入的信息为“哪儿的菜最好吃”,那么信息分析模块输出的结果为(哪儿的菜最好吃,P综合=0.2)、(哪儿的菜最好吃,P微博=0.1)、(哪儿的菜最好吃,P知识问答社区=0.1)等等,由于在各个平台上得到的第一概率都很小,那么“哪儿的菜最好吃”从语义角度考虑,就很可能不具备信息发布需求,而有可能是用户输入的查询信息。另外如果用户输入“发微博”,则表明用户就是打算要在微博平台上发布信息,相应的在微博平台上的第一概率就非常大,在其他平台上的第一概率就很小。上述输出结果的数据结构仅是为了说明本发明而采用的示意性描述,在具体实现时可根据需要采取其他方式,本发明对此不作限定。
综合决策模块104,用于根据第一概率决定是否对用户输入的信息进行检索或发布。在判断出应该对输入信息进行发布时进一步包括判断是否需要在发布前对用户进行提示。当需要对用户进行提示时,由展示模块返回对用户的提示,其中所述的提示可包括一个或多个关于第三方信息发布平台的提示信息。请参考图5,图5为本发明实施例中展示模块返回的提示中包含多个第三方信息发布平台的提示信息的实施例示意图。
例如当第一概率很小时(假设概率<阈值一),可以对用户输入的信息执行普通搜索引擎的检索流程,把用户输入信息当作查询信息来处理。
当第一概率位于某个区间时(假设阈值二<概率<阈值三),则通过展示模块提示用户是否需要发布信息,例如在搜索结果页面提示“在新浪微博发布这条信息:我今天买了一件衣服”,当展示模块接收到用户返回的确认信息后,就可以对输入信息进行发布。进一步地,提示可包括登录提示或第三方信息发布平台的选择提示或在第三方信息发布平台的帐号提示,相应的,确认信息可包括第三方信息发布平台的登录信息或选择信息。其中的登录信息包括帐号或密码,选择信息包括对第三方信息发布平台的选择或对在第三方信息发布平台上的帐号的选择。请参考图6和图7,其中图6为本发明实施例中展示模块返回的提示中包含登录提示的实施例示意图,图7为本发明实施例中展示模块返回的提示中包含选择提示的实施例示意图。值得注意的是,在对用户进行发布提示的时候,也可以同时对输入信息执行检索操作,将发布提示与查询结果一并返回。
当第一概率非常大时(假设概率>阈值四),系统就直接发布该条信息。除以上策略之外,也可以根据概率的不同,对用户输入信息分别执行单纯的搜索、搜索与发布提示并存、单纯的发布提示或直接发布等操作。
另外,在发布成功后,还可以给用户返回发布成功的通知。请参考图8,图8为本发明实施例中发布成功后展示模块返回发布成功的通知的实施例示意图。
发布模块105,用于调用第三方信息发布平台的数据接口,连接互联网以将用户输入的信息发布到第三方的信息发布平台。
当综合决策模块判断需要对用户输入信息进行发布时,综合决策模块将调用发布模块将用户输入的信息发布到第三方信息发布平台。此外当展示模块接收到用户返回的对发布提示的确认信息时,发布模块也会将用户信息输入的信息发布到第三方信息发布平台。
根据具体需要的不同,发布模块可以将具有某一具体信息发布需求的信息发布到微博、知识问答社区、社交网络之类的发布平台,也可以将具有通用信息发布需求的信息发布到诸如58同城之类的分类信息发布平台。此外,发布模块还可以将用户输入的信息发布于多个第三方信息发布平台。例如用户想要发布一条转让火车票的信息,以往用户为了尽快让更多人找到自己的这条信息,会在多个分类信息发布平台上发布这条信息,但是通过本发明,用户只需要在搜索引擎的搜索框中输入信息,本发明的系统就可以自动将该信息发布于多个信息发布平台,大大简化了信息发布流程。
检索模块106,用于根据用户输入信息查询索引库,并将查询结果返回给展示模块。
在用户的输入信息没有发布需求或者用户的输入信息有发布需求但需要返回发布提示的情况下,综合决策模块通过调用检索模块,都可实现对输入信息的检索。
检索模块包括查询子模块和排序子模块,与普通的搜索引擎一样,查询子模块用于根据用户输入信息查询索引库,而排序子模块用于对查询结果进行排序,并将排序后的结果返回。由于检索模块的实现技术与现有技术相同,在此不再赘述。
图9为本发明实施例中具有信息发布和搜索功能的系统的实施例二的结构示意框图。在本实施例中,具有信息发布和搜索功能的系统进一步还包括用户信息获取模块107或用户行为分析模块108或以上两个模块的任意组合。
其中用户信息获取模块107,用于获取用户在第三方信息发布平台中的用户信息,以得到输入信息具有信息发布需求的第二概率,所述第二概率用于描述输入信息基于用户信息特征角度的具有信息发布需求的可能性。用户在第三方信息发布平台中的用户信息,包括用户的帐号信息或用户的使用频率信息,其中帐号信息指用户是否在第三方信息发布平台具有帐号及帐号是什么,使用频率信息指哪一个第三方信息发布平台是用户的常用平台。
用户信息获取模块可以通过用户的cookie数据或用户的IP地址或电脑的MAC地址等多种方式向多个第三方信息发布平台进行轮询,得到用户在第三方信息发布平台的用户信息。用户信息获取的方式还包括检验用户在第三方信息发布平台的在线状态、调用用户在第三方信息发布平台的帐号的使用记录或接收用户在展示模块的输入。例如在展示模块,提供用户登录微博的帐号和密码窗口,由用户自行在窗口输入信息。
由于有了第二概率,因此在一个实施例中,综合决策模块根据第一概率决定是否对输入信息进行检索或发布时的具体实施方式为利用第一概率与第二概率决定是否对输入信息进行检索或发布,具体可采用为第一概率与第二概率预置权重的方式,来决定最终的判断逻辑。
用户行为分析模块108,用于分析用户以往的行为,以得到输入信息具有信息发布需求的第三概率,该第三概率用于描述输入信息基于用户历史行为特征角度的具有信息发布需求的可能性。
用户过去的行为对推导用户当前行为意图具有指导作用。如果用户常常用同一种语言方式发布信息,那么当用户仍以这种语言方式输入信息时,就较有可能是为了发布信息。用户以往的行为包括其在搜索引擎、微博、论坛、博客等平台上的行为,表现为语言方式、行为习惯(如常向别人提问还是常回答别人的问题)等。
用户行为分析模块采用的技术手段包括数据挖掘和机器学习,即通过用户日志,挖掘出用户的行为数据作为训练样本,由特征选择算法及机器学习方法,对用户的行为进行分类并输出第三概率。
由于有了第三概率,在一个实施例中,综合决策模块根据第一概率决定是否对输入信息进行检索或发布时的具体实施方式为利用第一概率与第三概率决定是否对输入信息进行检索或发布,具体可采用为第一概率与第三概率预置权重的方式,来决定最终的判断逻辑。
图10为本发明实施例中具有信息发布和搜索功能的系统的实施例三的结构示意框图。在本实施例中,具有信息发布和搜索功能的系统进一步还包括高级语法挖掘模块109与高级语法匹配模块110。
其中高级语法挖掘模块109,用于对互联网数据进行挖掘,从所述互联网数据中提取用户描述第三方信息发布平台的关键词,并对关键词进行语义扩展,生成针对第三方信息发布平台的描述词语库。
例如,微博平台通常被称为围脖,可以由微博扩展出“wb:”或“围脖:”作为对微博第三方信息发布平台的描述词语。
常用的数据挖掘方法包括:神经网络方法、遗传算法、决策树方法、粗集方法、统计分析方法、模糊集方法等,由于这些都属于现有技术,在此不再进行详细描述。
高级语法匹配模块110,用于根据描述词语库对输入信息进行匹配验证,以判断用户使用高级语法的第四概率,当第四概率大于阈值X时,将输入信息分解为内容部分及语法部分,并将内容部分及第四概率传递给信息分析模块,当第四概率不大于阈值X时,直接将输入信息传递给信息分析模块。所谓的高级语法,指的是符合描述词语库写法的信息输入方式,例如输入信息为“wb:今天钓到一条很大的鱼”,就使用了高级语法。
在高级语法匹配模块中,进一步包括验证单元与分解单元,其中验证单元用于根据预先定义的策略对输入信息进行匹配验证,并产生相应的用户使用高级语法的第四概率,分解单元用于将第四概率大于阈值X的信息分解为内容部分和语法部分。
例如用户输入“wb:今天钓到一条很大的鱼”,验证单元根据预先定义的策略对输入信息进行扫描以得到第四概率,例如一种策略为在输入信息的开头扫描到完全符合描述词语库中的描述词语时,第四概率为0.9。假设阈值X为0.5,由于第四概率大于阈值X,则分解单元会将“wb:今天钓到一条很大的鱼”分解为“wb:”和“今天钓到一条很大的鱼”,其中“wb:”为语法部分,“今天钓到一条很大的鱼”为内容部分。
高级语法匹配模块不仅会输出分解后的内容部分,还会输出用户使用高级语法的第四概率。验证单元在匹配验证时,根据不同的策略,可以得到不同的使用高级语法第四概率,例如用户输入信息的开头部分完全匹配描述词语库中的描述词语时,得到第四概率为0.9;用户输入信息的开头部分不完全匹配描述词语库中的描述词语时,得到第四概率为0.5;用户输入信息的中间部分匹配描述词语库中的描述词语时,得到第四概率为0.3等等。
在本实施例中,高级语法匹配模块输出的内容部分与第四概率将传递到信息分析模块,用以为信息分析模块计算第一概率提供更多的依据。信息分析模块根据分类器模型输出第一概率的具体实施方式为利用高级语法匹配模块传递的数据及分类器模型输出第一概率,可采用预置策略实现,例如第四概率很大,说明用户使用高级语法的可能性很大,相应地,用户想要发布信息的可能性也就很大,第一概率也就很大。
图11为本发明实施例中具有信息发布和搜索功能的系统的实施例四的结构示意框图。在本实施例中,具有信息发布和搜索功能的系统进一步包括:用户配置模块111和用户配置识别模块112。
其中,用户配置模块111,用于根据用户的选择为搜索引擎系统配置默认的行为模式。默认的行为模式包括默认为搜索或默认为发布,其中当系统被配置成默认为搜索时,系统只执行检索不执行发布;当系统被配置成默认为发布时,系统只执行发布不执行检索。
默认为搜索或默认为发布可以进一步分为更细化的配置,例如默认为发布时,又可以配置为每次接收到用户输入的信息,都通过发布模块直接发布或通过展示模块向用户显示发布信息前的提示,或者是配置为发布到某个特定的平台等等。
用户配置识别模块112,用于识别用户配置信息,并根据用户配置信息对输入信息进行搜索发布,其中在发布前还可由展示模块对用户进行提示以获取用户对提示的确认信息。
系统如果识别出用户配置为默认搜索,则将用户输入信息都当作查询信息看待,对输入信息发出搜索请求;系统如果识别出用户配置为默认发布,则根据进一步细化的配置,判断是直接发布的配置还是在发布前进行提示的配置。如果是直接发布配置,则对用户输入信息发出直接发布的请求,否则就对输入信息发出在发布前对用户进行提示的请求,当接收到用户的确认信息时,就可以对输入信息进行发布。例如,用户配置为将输入信息直接发布到新浪微博,这说明用户使用本发明的搜索引擎系统,是有特定目的的,用户自己本身非常明确这种目的,在这种情况下,只要按照用户配置进行相应的处理,就能够很好地满足用户需要了,因此没有必要再让搜索引擎执行其他的操作。
如果用户识别模块识别的结果是用户并未进行任何配置,则将用户输入信息输出至下一个处理模块。
图12为本发明实施例中信息发布方法的实施例一的流程示意图。在本实施例中,信息发布方法包括步骤201:接收用户输入信息。在一种方式下,是从搜索引擎的使用界面接收用户输入信息,其中搜索引擎的使用界面包括了WEB页面、WAP页面、带有搜索插件的浏览器与WEB页面的结合、或带有搜索插件的浏览器与WAP页面的结合。在上述的WEB页面或WAP页面内,可以包含搜索框、地址栏、输入法框或信息输入界面,其中的信息输入界面可以用来输入各种需要发表的信息,包括微博信息、社交网络信息、论坛信息或电子公告信息等。接收用户输入信息是进行后续处理的前提。
步骤202:根据分类器模型对用户输入信息进行分析,以得到输入信息具有信息发布需求的第一概率,其中第一概率用于描述输入信息基于语义特征角度的具有信息发布需求的可能性。
分类器模型是根据线下挖掘的历史数据或第三方信息发布平台提供的语料数据,采用机器学习算法进行构建的。线下挖掘的历史数据与第三方信息发布平台提供的语料数据,指的是用户的query输入数据,是采用机器学习算法构建分类器模型时的训练样本,下面以SVM(支持向量机)这种机器学习算法为例,对构建分类器模型进行介绍。
SVM的分类原理可概括为:寻找一个分类超平面,使得训练样本中的两类样本点能被分开,并且距离该平面尽可能地远;而对线性不可分的问题,通过核函数将低维输入空间的数据映射到高位空间,从而将原低维空间的线性不可分问题转化为高维空间上的线性可分问题。
对于两类问题,给定样本集(xi,yi),xi∈Rd,yi={1,-1},i=1,2,...l,以及核函数K(xi,xj)=(Φ(xi)·Φ(xj)),其中Φ是非线性映射函数。SVM训练出的学习机器为:
f(x)=(w·Φ(x))+b,
其中w是权重,b是偏置。
对本发明而言,样本集(xi,yi)中的xi是由训练语料(即线下挖掘数据或第三方信息发布平台提供的数据)的特征组成的特征向量,yi表示两类问题中的其中一个,如果存在多类问题,可以把它变为多个两类问题进行处理。在本发明中的类型,指的是信息属于哪类发布需求,包括有发布平台一的发布需求、有发布平台二的发布需求等等。
由此可见,要用样本训练出具有较好分类效果的分类器,也就是得到理想的分类器权重w和偏置b,特征选取是个关键因素。在本发明中,可以采用下述变量作为特征:query中各种标点符号的数量以及位置、query中字符串长度、query的末尾是否为字符、query是否有特殊字符串、query中数字的个数、query中是否有属于分类词汇表中的词语、query中每个词的搜索量、query中每个词由搜索引擎得到的搜索结果数等,其中的分类词汇表指的是诸如经济、历史、天文、地理之类的类别表。
信息发布需求包括具体信息发布需求或通用信息发布需求,其中具体信息发布需求指的是诸如发布于微博、SNS等特定的发布平台的发布需求,而通用的信息发布需求指的是用户没有指定发布平台的发布需求,例如用户可能想要转让火车票,或者需要在某个区域租一套房子,这些信息发布需求并不指定特定的发布平台,用户只是希望将此类型的信息发布到互联网上,只要能被其他用户看到,那么信息发布的用户并不介意信息在哪个平台上发布。
依靠分类器模型,可以对用户输入的信息在语义上进行分析,判断用户输入的信息从语义角度考虑,在各种发布平台上发布的第一概率大小。例如用户输入的信息为“求租中关村三居室一套”,分析的结果为(求租中关村三居室一套,P综合=0.9)、(求租中关村三居室一套,P微博=0.7)、(求租中关村三居室一套,P知识问答社区=0.2)等等,其中P代表的是第一概率。如果用户输入的信息为“哪儿的菜最好吃”,那么信息分析模块输出的结果为(哪儿的菜最好吃,P综合=0.2)、(哪儿的菜最好吃,P微博=0.1)、(哪儿的菜最好吃,P知识问答社区=0.1)等等,由于在各个平台上得到的第一概率都很小,那么“哪儿的菜最好吃”从语义角度考虑,就很可能不具备信息发布需求,而有可能是用户输入的查询信息。另外如果用户输入“发微博”,则表明用户就是打算要在微博平台上发布信息,相应的在微博平台上的第一概率就非常大,在其他平台上的第一概率就很小。上述结果的数据结构仅是为了说明本发明而采用的示意性描述,在具体实现时可根据需要采取其他方式,本发明对此不作限定。
步骤203:根据第一概率对输入信息进行检索或将输入信息发布到第三方信息发布平台。其中将所述输入信息发布到第三方信息发布平台进一步包括在发布前对用户进行发布提示。所述提示可包括一个或多个关于第三方信息发布平台的提示信息。根据第一概率的不同,可以预先设置一系列的策略对用户输入信息执行检索还是发布进行判断。
例如当第一概率很小时(假设概率<阈值一),可以对用户输入的信息执行普通搜索引擎的检索流程,把用户输入信息当作查询信息来处理。
当第一概率位于某个区间时(假设阈值二<概率<阈值三),提示用户是否需要发布信息,例如在搜索结果页面提示“在新浪微博发布这条信息:我今天买了一件衣服”,当接收到用户返回的确认信息后,就可以对输入信息进行发布。进一步地,提示可包括登录提示或第三方信息发布平台的选择提示或在第三方信息发布平台的帐号提示,相应的,确认信息可包括第三方信息发布平台的登录信息或选择信息。其中的登录信息包括帐号或密码,选择信息包括对第三方信息发布平台的选择或对在第三方信息发布平台上的帐号的选择。值得注意的是,在对用户进行发布提示的时候,也可以同时对输入信息执行检索操作,将发布提示与查询结果一并返回。
当第二概率非常大时(假设概率>阈值四),系统就直接发布该条信息。在发布成功后,还可以给用户返回发布成功的通知。除了这种策略之外,也可以根据概率的不同,对用户输入信息分别执行单纯的搜索、搜索与发布提示并存、单纯的发布提示或直接发布等操作。
当需要对用户输入信息进行发布时,通过调用第三方信息发布平台的数据接口,就可以将用户输入的信息发布到第三方信息发布平台。根据具体需要的不同,可以将具有某一具体信息发布需求的信息发布到微博、知识问答社区、社交网络之类的发布平台,也可以将具有通用信息发布需求的信息发布到诸如58同城之类的分类信息发布平台。此外,本发明的方法还可以将用户输入的信息发布于多个第三方信息发布平台。例如用户想要发布一条转让火车票的信息,以往用户为了尽快让更多人找到自己的这条信息,会在多个分类信息发布平台上发布这条信息,但是通过本发明的方法,用户只需要在搜索引擎的搜索框中输入信息,就可以实现将该信息发布于多个信息发布平台的目的,大大简化了信息发布流程。
当需要对用户输入信息进行检索时,可以执行普通搜索引擎的检索流程,这里不再详细描述。
图13为本发明实施例中信息发布方法的实施例二的流程示意图。请参考图13,在本实施例中,步骤301、302分别与实施例一中的步骤201、202、相同,在此不再赘述。
步骤303:获取用户在第三方信息发布平台中的用户信息,以得到输入信息具有信息发布需求的第二概率,或分析用户以往的行为,以得到输入信息具有信息发布需求的第三概率,其中第二概率用于描述输入信息基于用户信息特征角度的具有信息发布需求的可能性,第三概率用于描述输入信息基于用户历史行为特征角度的具有信息发布需求的可能性。
用户在第三方信息发布平台中的用户信息,包括用户的帐号信息或用户的使用频率信息,其中帐号信息指用户是否在第三方信息发布平台具有帐号及帐号是什么,使用频率信息指哪一个第三方信息发布平台是用户的常用平台。通过用户的cookie数据或用户的IP地址或电脑的MAC地址等多种方式向多个第三方信息发布平台进行轮询,就得到用户在第三方信息发布平台的用户信息。用户信息获取的方式还包括检验用户在第三方信息发布平台的在线状态、调用用户在第三方信息发布平台的帐号的使用记录或由用户自行输入。
用户过去的行为对推导用户当前行为意图具有指导作用。如果用户常常用同一种语言方式发布信息,那么当用户仍以这种语言方式输入信息时,就较有可能是为了发布信息。用户以往的行为包括其在搜索引擎、微博、论坛、博客等平台上的行为,表现为语言方式、行为习惯(如常向别人提问还是常回答别人的问题)等。
对用户行为进行分析,采用的技术手段包括数据挖掘和机器学习,即通过用户日志,挖掘出用户的行为数据作为训练样本,由特征选择算法及机器学习方法,对用户的行为进行分类并输出第三概率。
步骤304:利用第一概率与第二概率或利用第一概率与第三概率对输入信息进行检索或将输入信息发布到三方信息发布平台。
由于有了第二、第三概率,在步骤304中根据第一概率对输入信息进行检索或将输入信息发布到第三方信息发布平台的具体实施方式为利用第一概率与第二概率、第三概率的任意组合对输入信息进行检索或将输入信息发布到第三方信息发布平台,具体可采用为各个概率预置权重的方式,来决定最终的判断逻辑。
图14为本发明实施例中信息发布方法的实施例三的流程示意图。请参考图14,在本实施例中,步骤401、404、405分别与实施例二中的步骤301、303、304相同,在此不再赘述。
步骤402:根据描述词语库对用户输入信息进行匹配验证,以判断用户使用高级语法的第四概率。
其中所述描述词语库是通过对互联网数据进行挖掘,从所述互联网数据中提取用户描述所述第三方信息发布平台的关键词,并对关键词进行语义扩展后生成的。例如,微博平台通常被称为围脖,可以由微博扩展出“wb:”或“围脖:”作为对微博第三方信息发布平台的描述词语。常用的数据挖掘方法包括:神经网络方法、遗传算法、决策树方法、粗集方法、统计分析方法、模糊集方法等,由于这些都属于现有技术,在此不再进行详细描述。所谓的高级语法,指的是符合描述词语库写法的信息输入方式,例如输入信息为“wb:今天钓到一条很大的鱼”就使用了高级语法。
对用户输入信息进行匹配验证可以根据预先定义的策略进行。例如用户输入信息的开头部分完全匹配描述词语库中的描述词语时,得到第四概率为0.9;用户输入信息的开头部分不完全匹配描述词语库中的描述词语时,得到第四概率为0.5;用户输入信息的中间部分匹配描述词语库中的描述词语时,得到第四概率为0.3等等。
更进一步的,在第四概率大于阈值X时,步骤402进一步包括步骤4021:将用户输入信息分解为内容部分与语法部分。例如用户输入“wb:今天钓到一条很大的鱼”,得到第四概率为0.9。假设阈值X为0.5,由于第四概率大于阈值X,则步骤4021会将“wb:今天钓到一条很大的鱼”分解为“wb:”和“今天钓到一条很大的鱼”,其中“wb:”为语法部分,“今天钓到一条很大的鱼”为内容部分。
步骤403根据第四概率的不同,可以执行两条分支,当第四概率不大于第一阈值时,步骤403利用分类器模型对输入信息进行分析,以得到输入信息具有信息发布需求的第一概率;当第四概率大于第一阈值时,步骤403′利用内容部分与第四概率及分类器模型对输入信息进行分析,以得到输入信息具有信息发布需求的第一概率,这是因为在第四概率比较大时,把第四概率也作为计算第一概率的一个依据,可以有效地提高第一概率的置信度。
图15为本发明实施例中信息发布方法的实施例四的流程示意图。请参考图15,在本实施中,步骤501、503、5031、504(504′)、505、506与实施例三中的步骤401、402、4021、403(403′)、404、405相同,在此不再赘述。
步骤502:识别用户配置信息,其中用户配置信息是根据用户的选择为系统配置的默认的行为方式。
默认的行为模式包括默认为搜索或默认为发布,其中当系统被配置成默认为搜索时,系统只执行检索不执行发布;当系统被配置成默认为发布时,系统只执行发布不执行检索。默认为搜索或默认为发布可以进一步分为更细化的配置,例如默认为发布时,又可以配置为每次接收到用户输入的信息,都直接发布或显示发布信息前的提示,或者是配置为发布到某个特定的平台等等。
更进一步地,当识别出系统具有用户配置信息时,步骤502进一步包括步骤5021:根据用户的配置信息对用户输入信息进行检索或发布。在发布前还可对用户进行提示以获取用户对所述提示的确认信息。例如用户配置为对每次接收到的用户输入信息,都直接发布到新浪微博,这说明用户发布信息的目的非常明确,在这种情况下,只要按照用户配置进行相应的处理,就能够很好地满足用户需要了,因此没有必要再执行其他的操作。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (40)
1.一种具有信息发布和搜索功能的系统,其特征在于,所述系统包括:
展示模块,用于为用户提供所述系统的使用界面,所述使用界面用于接收用户的输入信息和将所述系统的处理结果展示给用户;
分类器构建模块,用于根据线下挖掘的历史数据或第三方信息发布平台提供的语料数据,构建分类器模型;
信息分析模块,用于根据所述分类器模型对所述输入信息进行分析,输出所述输入信息具有信息发布需求的第一概率,所述第一概率用于描述所述输入信息基于语义特征角度的具有所述信息发布需求的可能性;
综合决策模块,用于根据所述第一概率决定是否对所述输入信息进行检索或发布;
发布模块,用于调用所述第三方信息发布平台的数据接口,连接互联网以将所述输入信息发布到所述第三方信息发布平台;
检索模块,用于根据所述输入信息查询索引库,并将查询结果返回给所述展示模块。
2.根据权利要求1所述的系统,其特征在于,所述系统为搜索引擎系统。
3.根据权利要求1所述的系统,其特征在于,所述使用界面的形式包括WEB页面、WAP页面、带有搜索插件的浏览器与所述WEB页面的结合、或带有搜索插件的浏览器与所述WAP页面的结合。
4.根据权利要求3所述的系统,其特征在于,所述WEB页面或所述WAP页面内包括搜索框、地址栏、输入法框或信息输入界面。
5.根据权利要求1所述的系统,其特征在于,所述第三方信息发布平台包括微博平台、社交网络平台、论坛平台或电子公告平台。
6.根据权利要求1所述的系统,其特征在于,所述分类器模型是根据所述历史数据或所述语料数据,采用机器学习算法构建的。
7.根据权利要求1所述的系统,其特征在于,所述信息发布需求包括具体信息发布需求或通用信息发布需求。
8.根据权利要求1所述的系统,其特征在于,所述系统在发布前由所述展示模块对用户进行提示以获取用户对所述提示的确认信息。
9.根据权利要求8所述的系统,其特征在于,所述展示模块在对用户进行提示时返回所述检索模块对所述输入信息的检索结果。
10.根据权利要求8所述的系统,其特征在于,所述提示包括多个关于所述第三方信息发布平台的提示信息。
11.根据权利要求8所述的系统,其特征在于,所述确认信息包括对所述第三方信息发布平台的选择信息或登录信息。
12.根据权利要求8所述的系统,其特征在于,所述展示模块在接收到用户对所述提示的确认信息后,所述发布模块对所述输入信息进行发布。
13.根据权利要求1所述的系统,其特征在于,所述发布模块进一步用于将所述输入信息发布于多个所述第三方信息发布平台。
14.根据权利要求1所述的系统,其特征在于,所述系统进一步包括:用户信息获取模块,用于获取用户在所述第三方信息发布平台中的用户信息,以得到所述输入信息具有所述信息发布需求的第二概率,其中所述第二概率用于描述所述输入信息基于用户信息特征角度的具有信息发布需求的可能性;所述综合决策模块利用所述第一概率与所述第二概率,决定是否对所述输入信息进行检索或发布。
15.根据权利要求14所述的系统,其特征在于,所述用户信息包括用户的帐号信息或用户的使用频率信息。
16.根据权利要求14所述的系统,其特征在于,所述用户信息的获取方式包括检验用户在所述第三方信息发布平台的在线状态、调用用户在所述第三方信息发布平台的帐号的使用记录或接收用户在所述展示模块的输入。
17.根据权利要求1所述的系统,其特征在于,所述系统进一步包括:用户行为分析模块,用于分析用户以往的行为,以得到所述输入信息具有所述信息发布需求的第三概率,其中所述第三概率用于描述所述输入信息基于用户历史行为特征角度的具有所述信息发布需求的可能性;所述综合决策模块利用所述第一概率与所述第三概率,决定是否对所述输入信息进行检索或发布。
18.根据权利要求1所述的系统,其特征在于,所述系统进一步包括:
高级语法挖掘模块,用于对互联网数据进行挖掘,从所述互联网数据中提取用户描述所述第三方信息发布平台的关键词,并对所述关键词进行语义扩展,生成针对所述第三方信息发布平台的描述词语库;
高级语法匹配模块,用于根据所述描述词语库对所述输入信息进行匹配验证,以判断用户使用高级语法的第四概率,当所述第四概率大于第一阈值时,所述高级语法匹配模块进一步将所述输入信息分解为内容部分与语法部分,并将所述内容部分与所述第四概率传递给所述信息分析模块,当所述第四概率不大于第一阈值时,所述高级语法匹配模块进一步将所述输入信息直接传递给所述信息分析模块;所述信息分析模块利用所述高级语法匹配模块传递的数据及所述分类器模型,输出所述第一概率。
19.根据权利要求1所述的系统,其特征在于,所述系统进一步包括:
用户配置模块,用于根据用户的选择为所述系统配置默认的行为模式,所述默认的行为模式包括默认为搜索或默认为发布,其中当系统被配置成所述默认为搜索时,系统只执行检索不执行发布,系统被配置成所述默认为发布时,系统只执行发布不执行检索;
用户配置识别模块,用于识别用户配置信息,并根据所述用户配置信息对所述输入信息进行检索或发布。
20.根据权利要求19所述的系统,其特征在于,所述系统在发布前由所述展示模块对用户进行提示以获取用户对所述提示的确认信息。
21.一种信息发布的方法,其特征在于,所述方法包括步骤:
a.接收用户输入信息;
b.根据分类器模型对所述输入信息进行分析,以得到所述输入信息具有信息发布需求的第一概率,所述第一概率用于描述所述输入信息基于语义特征角度的具有所述信息发布需求的可能性;
c.根据所述第一概率对所述输入信息进行检索或将所述输入信息发布到第三方信息发布平台。
22.根据权利要求21所述的方法,其特征在于,所述步骤a中从搜索引擎的使用界面接收用户输入信息。
23.根据权利要求22所述的方法,其特征在于,所述使用界面的具体形式包括WEB页面、WAP页面、带有搜索插件的浏览器与所述WEB页面的结合、或带有搜索插件的浏览器与所述WAP页面的结合。
24.根据权利要求23所述的方法,其特征在于,所述WEB页面或所述WAP页面内包括搜索框、地址栏、输入法框或信息输入界面。
25.根据权利要求21所述的方法,其特征在于,所述第三方信息发布平台包括微博平台、社交网络平台、论坛平台或电子公告平台。
26.根据权利要求21所述的方法,其特征在于,所述分类器模型是根据线下挖掘的历史数据或所述第三方信息发布平台提供的语料数据,采用机器学习算法构建的。
27.根据权利要求21所述的方法,其特征在于,所述信息发布需求包括具体信息发布需求或通用信息发布需求。
28.根据权利要求21所述的方法,其特征在于,所述步骤c中,在所述发布前对用户进行提示以获取用户对所述提示的确认信息。
29.根据权利要求28所述的方法,其特征在于,在对用户进行所述提示时返回对所述输入信息的检索结果。
30.根据权利要求28所述的方法,其特征在于,所述提示包括多个关于所述第三方信息发布平台的提示信息。
31.根据权利要求28所述的方法,其特征在于,所述确认信息包括对所述第三方信息发布平台的选择信息或登录信息。
32.根据权利要求28所述的方法,其特征在于,在接收到用户对所述提示的确认信息后,对所述输入信息进行发布。
33.根据权利要求21所述的方法,其特征在于,所述步骤c中,将所述输入信息发布于多个所述第三方信息发布平台。
34.根据权利要求21所述的方法,其特征在于,所述方法在步骤c前进一步包括步骤:d.获取用户在所述第三方信息发布平台中的用户信息,以得到所述输入信息具有所述信息发布需求的第二概率,其中所述第二概率用于描述所述输入信息基于用户信息特征角度的具有所述信息发布需求的可能性;所述步骤c中利用所述第一概率与所述第二概率对所述输入信息进行检索或将所述输入信息发布到第三方信息发布平台。
35.根据权利要求34所述的方法,其特征在于,所述用户信息包括用户的帐号信息或用户的使用频率信息。
36.根据权利要求34所述的方法,其特征在于,所述步骤d中用户信息的获取方式包括检验用户在所述第三方信息发布平台的在线状态、调用用户在所述第三方信息发布平台的帐号的使用记录或接收用户在所述展示模块的输入。
37.根据权利要求21所述的方法,其特征在于,所述方法在步骤c前进一步包括步骤:e.分析用户以往的行为,以得到所述输入信息具有所述信息发布需求的第三概率,其中所述第三概率用于描述所述输入信息基于用户历史行为特征角度的具有所述信息发布需求的可能性;所述步骤c中利用所述第一概率与所述第三概率对所述输入信息进行检索或将所述输入信息发布到第三方信息发布平台。
38.根据权利要求21所述的方法,其特征在于,所述方法在步骤b前进一步包括步骤:f.根据描述词语库对所述输入信息进行匹配验证,以判断用户使用高级语法的第四概率,其中所述描述词语库是通过对互联网数据进行挖掘,从所述互联网数据中提取用户描述所述第三方信息发布平台的关键词,并对所述关键词进行语义扩展后生成的;当所述第四概率大于第一阈值时,将所述输入信息分解为内容部分与语法部分,所述步骤b利用所述内容部分与所述第四概率及所述分类器模型得到第一概率。
39.根据权利要求21所述的方法,其特征在于,所述方法在步骤b前进一步包括步骤:g.识别用户配置信息,其中所述用户配置信息是根据用户的选择为系统配置的默认的行为模式,所述默认的行为模式包括默认为搜索或默认为发布,其中当系统被配置成所述默认为搜索时,系统只执行检索不执行发布,系统被配置成所述默认为发布时,系统只执行发布不执行检索;当识别出系统具有用户配置信息时,根据所述用户配置信息对所述输入信息进行检索或发布。
40.根据权利要求39所述的方法,其特征在于,在所述发布前对用户进行提示以获取用户对所述提示的确认信息。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100661354A CN102110170B (zh) | 2011-03-18 | 2011-03-18 | 一种具有信息发布和搜索功能的系统及信息发布方法 |
PCT/CN2011/083412 WO2012126259A1 (zh) | 2011-03-18 | 2011-12-03 | 一种具有信息发布和搜索功能的系统及信息发布方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100661354A CN102110170B (zh) | 2011-03-18 | 2011-03-18 | 一种具有信息发布和搜索功能的系统及信息发布方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102110170A true CN102110170A (zh) | 2011-06-29 |
CN102110170B CN102110170B (zh) | 2013-07-31 |
Family
ID=44174331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011100661354A Active CN102110170B (zh) | 2011-03-18 | 2011-03-18 | 一种具有信息发布和搜索功能的系统及信息发布方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN102110170B (zh) |
WO (1) | WO2012126259A1 (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591475A (zh) * | 2011-12-29 | 2012-07-18 | 北京百度网讯科技有限公司 | 一种在线编辑器的内容输入方法及系统 |
WO2012126259A1 (zh) * | 2011-03-18 | 2012-09-27 | 北京百度网讯科技有限公司 | 一种具有信息发布和搜索功能的系统及信息发布方法 |
CN103051514A (zh) * | 2011-10-14 | 2013-04-17 | 腾讯科技(深圳)有限公司 | 一种个人动态信息发布方法及装置、系统 |
CN103065027A (zh) * | 2011-10-19 | 2013-04-24 | 腾讯科技(深圳)有限公司 | 一种提供给第三方sns网页游戏的留言方法及装置 |
CN103092956A (zh) * | 2013-01-17 | 2013-05-08 | 上海交通大学 | 社交网络平台上话题关键词自适应扩充的方法及系统 |
CN103366308A (zh) * | 2012-03-30 | 2013-10-23 | 索尼公司 | 信息处理设备、信息处理方法和程序 |
CN103389989A (zh) * | 2012-05-10 | 2013-11-13 | 腾讯科技(深圳)有限公司 | 一种跨社区搜索方法和装置 |
WO2014012452A1 (zh) * | 2012-07-16 | 2014-01-23 | He Jin | 用于微博服务系统的方法及微博服务系统、在微博系统中发布包括若干微博信息的微博信息组合的方法及微博系统 |
CN103955458A (zh) * | 2012-07-16 | 2014-07-30 | 华为技术有限公司 | 发布信息集合的方法和新微博系统 |
CN104461247A (zh) * | 2014-12-12 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 通信方法和装置 |
CN106815224A (zh) * | 2015-11-27 | 2017-06-09 | 大唐软件技术股份有限公司 | 服务获取方法和装置 |
CN108074077A (zh) * | 2017-12-26 | 2018-05-25 | 文盈(广州)科技咨询有限公司 | 一种科技信息咨询服务管理系统 |
CN108257600A (zh) * | 2016-12-29 | 2018-07-06 | 中国移动通信集团浙江有限公司 | 语音处理方法和装置 |
CN110991551A (zh) * | 2019-12-13 | 2020-04-10 | 北京百度网讯科技有限公司 | 样本处理方法、装置、电子设备和存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104375996A (zh) * | 2013-08-13 | 2015-02-25 | 苏州广海信息科技有限公司 | 一种查询分析系统 |
CN103617278A (zh) * | 2013-12-09 | 2014-03-05 | 北京奇虎科技有限公司 | 一种地址栏搜索的控制方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101075320A (zh) * | 2006-05-16 | 2007-11-21 | 申凌 | 信息发布、查询系统和方法 |
CN101178718A (zh) * | 2007-05-17 | 2008-05-14 | 腾讯科技(深圳)有限公司 | 一种知识共享系统及问题搜索方法、问题发布方法 |
US20090187515A1 (en) * | 2008-01-17 | 2009-07-23 | Microsoft Corporation | Query suggestion generation |
CN101520784A (zh) * | 2008-02-29 | 2009-09-02 | 富士通株式会社 | 信息发布系统和信息发布方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7831685B2 (en) * | 2005-12-14 | 2010-11-09 | Microsoft Corporation | Automatic detection of online commercial intention |
CN101308507B (zh) * | 2008-06-06 | 2010-07-21 | 北京九城网络软件有限公司 | 互联网信息发布和搜索方法 |
CN102110170B (zh) * | 2011-03-18 | 2013-07-31 | 北京百度网讯科技有限公司 | 一种具有信息发布和搜索功能的系统及信息发布方法 |
-
2011
- 2011-03-18 CN CN2011100661354A patent/CN102110170B/zh active Active
- 2011-12-03 WO PCT/CN2011/083412 patent/WO2012126259A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101075320A (zh) * | 2006-05-16 | 2007-11-21 | 申凌 | 信息发布、查询系统和方法 |
CN101178718A (zh) * | 2007-05-17 | 2008-05-14 | 腾讯科技(深圳)有限公司 | 一种知识共享系统及问题搜索方法、问题发布方法 |
US20090187515A1 (en) * | 2008-01-17 | 2009-07-23 | Microsoft Corporation | Query suggestion generation |
CN101520784A (zh) * | 2008-02-29 | 2009-09-02 | 富士通株式会社 | 信息发布系统和信息发布方法 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012126259A1 (zh) * | 2011-03-18 | 2012-09-27 | 北京百度网讯科技有限公司 | 一种具有信息发布和搜索功能的系统及信息发布方法 |
CN103051514A (zh) * | 2011-10-14 | 2013-04-17 | 腾讯科技(深圳)有限公司 | 一种个人动态信息发布方法及装置、系统 |
CN103051514B (zh) * | 2011-10-14 | 2016-08-03 | 腾讯科技(深圳)有限公司 | 一种个人动态信息发布方法及装置、系统 |
CN103065027A (zh) * | 2011-10-19 | 2013-04-24 | 腾讯科技(深圳)有限公司 | 一种提供给第三方sns网页游戏的留言方法及装置 |
CN103065027B (zh) * | 2011-10-19 | 2017-02-22 | 腾讯科技(深圳)有限公司 | 一种提供给第三方sns网页游戏的留言方法及装置 |
CN102591475B (zh) * | 2011-12-29 | 2016-01-13 | 北京百度网讯科技有限公司 | 一种在线编辑器的内容输入方法及系统 |
CN102591475A (zh) * | 2011-12-29 | 2012-07-18 | 北京百度网讯科技有限公司 | 一种在线编辑器的内容输入方法及系统 |
CN103366308A (zh) * | 2012-03-30 | 2013-10-23 | 索尼公司 | 信息处理设备、信息处理方法和程序 |
CN103389989A (zh) * | 2012-05-10 | 2013-11-13 | 腾讯科技(深圳)有限公司 | 一种跨社区搜索方法和装置 |
CN103389989B (zh) * | 2012-05-10 | 2016-03-09 | 腾讯科技(深圳)有限公司 | 一种跨社区搜索方法和装置 |
CN103955458B (zh) * | 2012-07-16 | 2019-02-19 | 华为技术有限公司 | 发布信息集合的方法和新微博系统 |
WO2014012452A1 (zh) * | 2012-07-16 | 2014-01-23 | He Jin | 用于微博服务系统的方法及微博服务系统、在微博系统中发布包括若干微博信息的微博信息组合的方法及微博系统 |
CN103955458A (zh) * | 2012-07-16 | 2014-07-30 | 华为技术有限公司 | 发布信息集合的方法和新微博系统 |
CN103092956A (zh) * | 2013-01-17 | 2013-05-08 | 上海交通大学 | 社交网络平台上话题关键词自适应扩充的方法及系统 |
CN103092956B (zh) * | 2013-01-17 | 2016-02-10 | 上海交通大学 | 社交网络平台上话题关键词自适应扩充的方法及系统 |
CN104461247B (zh) * | 2014-12-12 | 2017-10-03 | 百度在线网络技术(北京)有限公司 | 通信方法和装置 |
CN104461247A (zh) * | 2014-12-12 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 通信方法和装置 |
CN106815224A (zh) * | 2015-11-27 | 2017-06-09 | 大唐软件技术股份有限公司 | 服务获取方法和装置 |
CN108257600A (zh) * | 2016-12-29 | 2018-07-06 | 中国移动通信集团浙江有限公司 | 语音处理方法和装置 |
CN108074077A (zh) * | 2017-12-26 | 2018-05-25 | 文盈(广州)科技咨询有限公司 | 一种科技信息咨询服务管理系统 |
CN110991551A (zh) * | 2019-12-13 | 2020-04-10 | 北京百度网讯科技有限公司 | 样本处理方法、装置、电子设备和存储介质 |
CN110991551B (zh) * | 2019-12-13 | 2023-09-15 | 北京百度网讯科技有限公司 | 样本处理方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2012126259A1 (zh) | 2012-09-27 |
CN102110170B (zh) | 2013-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102110170B (zh) | 一种具有信息发布和搜索功能的系统及信息发布方法 | |
CN102096717B (zh) | 搜索方法及搜索引擎 | |
CN102279894B (zh) | 基于语义的查找、集成和提供评论信息的方法及搜索系统 | |
CN106250513B (zh) | 一种基于事件建模的事件个性化分类方法及系统 | |
CN102609433B (zh) | 基于用户日志进行查询推荐的方法及系统 | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN102521337B (zh) | 一种基于海量知识网络的学术社区系统 | |
CN103365833B (zh) | 一种基于上下文场景的输入候选词提示方法及系统 | |
EP3423956A1 (en) | Interpreting and resolving conditional natural language queries | |
CN101986306B (zh) | 一种用于基于查询序列获取黄页信息的方法与设备 | |
CN102117317A (zh) | 一种基于语音技术的盲人互联网系统 | |
CN101986293A (zh) | 用于在搜索界面中呈现搜索答案信息的方法及设备 | |
CN110888990A (zh) | 文本推荐方法、装置、设备及介质 | |
CN101329674A (zh) | 一种提供个性化搜索的系统和方法 | |
CN102163198A (zh) | 提供新词或热词的方法及系统 | |
CN101937524A (zh) | 一种毕业设计个性化指导系统 | |
CN105095433A (zh) | 实体推荐方法及装置 | |
CN105453082A (zh) | 意图感知的键盘 | |
CN110232126B (zh) | 热点挖掘方法及服务器和计算机可读存储介质 | |
CN101566995A (zh) | 一种互联网信息整合发布的方法和系统 | |
CN101375279A (zh) | 多字字轮 | |
CN102117331B (zh) | 视频搜索方法及系统 | |
CN105843817A (zh) | 在终端设备上进行搜索的方法、装置和设备 | |
CN102073735A (zh) | 搜索方法及搜索系统 | |
CN109885651B (zh) | 一种问题推送方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |