CN102043843A - 一种用于基于目标应用获取目标词条的方法与获取设备 - Google Patents

一种用于基于目标应用获取目标词条的方法与获取设备 Download PDF

Info

Publication number
CN102043843A
CN102043843A CN 201010592087 CN201010592087A CN102043843A CN 102043843 A CN102043843 A CN 102043843A CN 201010592087 CN201010592087 CN 201010592087 CN 201010592087 A CN201010592087 A CN 201010592087A CN 102043843 A CN102043843 A CN 102043843A
Authority
CN
China
Prior art keywords
entry
candidate
apply property
value
described candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201010592087
Other languages
English (en)
Inventor
忻舟
王强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN 201010592087 priority Critical patent/CN102043843A/zh
Publication of CN102043843A publication Critical patent/CN102043843A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种用于基于目标应用获取目标词条的方法与获取设备。其中,获取设备获取候选词条,并根据所述候选词条,并结合目标应用的应用属性,获得所述候选词条的应用属性值,再根据所述应用属性值,按照所述目标应用的应用属性的属性阈值,对所述候选词条进行过滤处理,以获得与所述候选词条相对应的目标词条。与现有技术相比,本发明的目标应用可以有多个,避免对共有的目标应用的应用属性或者大部分目标应用所具有的应用属性的相应应用属性值的重复计算;具有可拓展性,当开发新的目标应用时,同时根据其相应的应用属性对候选词条计算应用属性值即可,最大限度的覆盖了现有的或者以后可能会有的目标应用的应用属性。

Description

一种用于基于目标应用获取目标词条的方法与获取设备
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种用于基于目标应用获取目标词条的技术。
背景技术
现有的分词技术,多是根据词典、语义分析或者概率模型等方法对句子或者片段进行切分,从而获得切分后的词条。例如,基于词典的最大正向匹配法、最大反向匹配法,基于字标注的最大熵模型、条件随机域模型等,根据上述方法提取的词条如果不经过相应的处理而直接加入相关词库中,将不能完全符合实际需要。
在实际应用中,根据目标应用的不同,其所需要的词条也不同。例如,当目标应用是输入法时,词条的排序反映了用户的需求,通常输入法是按照词条的通用频次信息来排序,但是有时候用户的需求是一些新词,或者有了新含义的旧词,这类词条的频次可能没有普通常用词高,此时需要结合突发度和热度对这类词条进行排序。当目标应用是信息搜索时,词条的紧密度要求更高,通常希望词条是“紧密不可拆分”的,这样既可以保证搜索结果的相关性,又可以保证召回率;但是这种情况并不是绝对的,有些词条虽然频次很高、很常用,但不是“紧密不可拆分”的,比如“兽兽门”,将其作为“一个词”以后,与“兽兽艳照门”相对应的搜索结果将无法召回。
因此,如何提供一种根据目标应用获取目标词条的方法,成为目前急需解决的问题之一。
发明内容
本发明的目的是提供一种用于基于目标应用获取目标词条的方法与获取设备。
根据本发明的一个方面,提供了一种计算机实现的用于基于目标应用获取目标词条的方法,其中,该方法包括以下步骤:
a获取候选词条;
b根据所述候选词条,并结合目标应用的应用属性,获得所述候选词条的应用属性值;
c根据所述应用属性值,按照所述目标应用的应用属性的属性阈值,对所述候选词条进行过滤处理,以获得与所述候选词条相对应的目标词条。
根据本发明的另一个方面,还提供了一种用于基于目标应用获取目标词条的获取设备,其中,该获取设备包括:
获取装置,用于获取候选词条;
标注装置,用于根据所述候选词条,并结合目标应用的应用属性,获得所述候选词条的应用属性值;
过滤装置,用于根据所述应用属性值,按照所述目标应用的应用属性的属性阈值,对所述候选词条进行过滤处理,以获得与所述候选词条相对应的目标词条。
与现有技术相比,本发明根据目标应用获取目标词条,按照目标应用的实际需要获取相应的目标词条;并且目标应用可以有多个,避免对共有的目标应用的应用属性或者大部分目标应用所具有的应用属性的相应应用属性值的重复计算;具有可拓展性,当开发新的目标应用时,同时根据其相应的应用属性对候选词条计算应用属性值即可,最大限度的覆盖了现有的或者以后可能会有的目标应用的应用属性。此外,本发明获取的目标词条可以灵活应用于各目标应用,当应用于搜索引擎中,根据对词条紧密度的要求,可以在不降低召回的情况下提升搜索引擎的准确性与性能;当应用于输入法时,根据对词条热度的要求,可以比较准确的满足用户的需求,将结果放在候选词中靠前的位置,降低用户选词的代价;其他多种目标应用还包括搜索提示,搜索建议,新闻热搜词等;在面向用户的相关目标应用中,使得用户获得较好的使用体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于基于目标应用获取目标词条的获取设备的设备示意图;
图2示出根据本发明另一个方面的用于基于目标应用获取目标词条的方法的流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1为根据本发明一个方面的设备示意图,示出用于基于目标应用获取目标词条的获取设备。其中,获取设备1包括获取装置11、标注装置12和过滤装置13。具体地,获取装置11获取候选词条;随后,标注装置12根据所述候选词条,并结合目标应用的应用属性,获得所述候选词条的应用属性值;接着,过滤装置13根据所述应用属性值,按照所述目标应用的应用属性的属性阈值,对所述候选词条进行过滤处理,以获得与所述候选词条相对应的目标词条。
更具体地,获取装置11获取候选词条。具体地,获取装置11可以从多来源获取候选词条,诸如从通用词典、用户查询序列、定向页面数据、人工(半人工)编辑的词条、百度输入法、用户查询日志等词条来源获得候选词条,如通过分词技术,如基于词典的最大正向匹配法、最大反向匹配法从词条来源中获得相应的候选词条。在此,定向页面数据指互联网中具有特定类别的页面,如新浪游戏频道;人工(半人工)编辑的词条指各种百科,如百度百科、维基百科等。例如,获取装置11通过调用搜索引擎的查询日志应用程序接口(API),向该搜索引擎的查询日志应用程序接口(API)发送获取用户查询序列的请求,并接收该搜索引擎的查询日志应用程序接口(API)根据该请求返回的用户查询序列,对该用户查询序列进行语义分析,以获得相应的候选词条。又如,获取装置11从百度百科中获取一个片段,根据通用词典,从该片段中提取相应的候选词条。本领域技术人员还应能理解上述获取候选词条的方式以及候选词条的来源仅为举例,其他现有的或今后可能出现的获取候选词条的方式或者候选词条的来源如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,标注装置12根据所述候选词条,并结合目标应用的应用属性,获得所述候选词条的应用属性值。具体地,标识装置12根据获取装置11获取的候选词条,结合目标应用的应用属性,如输入法对应的应用属性为候选词条的热度和突发度,网页搜索对应的应用属性为候选词条的热度、突发度、紧密度、用户接受度和类别置信度,获取该候选词条与目标应用的应用属性相对应的应用属性值。例如,假设目标应用为输入法,相应的应用属性为候选词条的热度和突发度,根据候选词条在网页库、新闻库中的出现频次,确定该候选词条相应的热度值,如对这些出现频次进行叠加,或者对叠加后的出现频次根据预设最大值进行归一化,并根据预设周期内这些出现频次的变化,即热度的变化,确定该候选词条相应的突发度值。此外,需要说明的是,本领域技术人员应能理解,此处的目标应用可以为多个,其相应的应用属性以及候选词条与目标应用的应用属性相对应的应用属性值也可以为多个,并且在目标应用及其应用属性足够多的情况下,该应用属性可以覆盖所有现有的目标应用的应用属性,同时,相应的候选词条的应用属性值也可以覆盖所有现有的应用属性值;随着新的目标应用的开发,相应出现新的应用属性,候选词条同样可以据此获取相应的新的应用属性值。
接着,过滤装置13根据所述应用属性值,按照所述目标应用的应用属性的属性阈值,对所述候选词条进行过滤处理,以获得与所述候选词条相对应的目标词条。具体地,过滤装置13根据标注装置12获得的候选词条与目标应用的应用属性相对应的应用属性值,按照该目标应用的应用属性的属性阈值,对该候选词条进行过滤处理,从而获得过滤后的目标词条。例如,假设目标应用为输入法,其相应的应用属性为候选词条的热度和突发度,其中,候选词条的热度值的阈值为100000,突发度值的阈值为0.2,根据标注装置12获得的候选词条的热度值为120000,并且该候选词条的突发度值为0.4,则该候选词条通过过滤装置13的过滤,成为目标词条。
需要说明的是,本领域技术人员应能理解,在获取设备1获得目标应用的目标词条后,由于目标词条往往是多个,目标应用还可以根据其具体应用需求对目标词条做出相应处理。例如,当目标应用是输入法时,往往有多个目标词条的拼音是相同的,此时,可以根据这些目标词条的热度进行排序,更进一步,还可以将每个目标词条的所有应用属性值拟合,根据拟合后的值对这些目标词条进行排序。又如,当目标应用是用户查询需求识别时,通过对用户查询序列中目标词条的需求类别判断,确定该目标词条的需求属于视频、图片、歌曲、还是新闻,从而进一步判断该用户查询序列的需求类别。
本领域技术人员还应能理解,上述目标应用及其具体应用需求仅为举例,其他现有的或今后可能出现的目标应用及其具体应用需求如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,获取装置11、标注装置12和过滤装置13是持续不断工作的。具体地,获取装置11获取候选词条;随后,标注装置12根据所述候选词条,并结合目标应用的应用属性,获得所述候选词条的应用属性值;接着,过滤装置13根据所述应用属性值,按照所述目标应用的应用属性的属性阈值,对所述候选词条进行过滤处理,以获得与所述候选词条相对应的目标词条。在此,本领域技术人员应理解“持续”是指获取装置11、标注装置12和过滤装置13分别按照设定的或实时调整的工作模式要求进行候选词条的获取、相应的应用属性值的获取及目标词条的获取,直至获取设备1在较长时间内停止获取候选词条。
在一个优选实施例中,所述应用属性包括但不限于,以下至少任一项:
1)热度;
2)突发度;
3)紧密度;
4)用户接受度;
5)类别置信度。
其中,热度用来衡量候选词条的热门程度,根据候选词条在诸如网页库、论坛库、用户查询日志等统计对象中的出现频次直接表现;热度直接反映了用户对候选词条的关注程度和需求程度,热度值越大,相应的候选词条成为目标词条的可能性越大。突发度用来衡量候选词条的爆发程度,根据一定时间内在上述统计对象中的出行频次的变化或者热度的变化来表现;突发度同样反映了用户对候选词条的关注程度和需求程度,并且该关注程度和该需求程度是在一个较短的时间内迅速攀升的,突发度值越大,相应的候选词条成为目标词条的可能性越大。紧密度用来衡量候选词条的内部结构松散程度,根据候选词条的词元在上述统计对象中连续出现的次数与共同出现的次数来确定候选词条的词元是否密不可分;紧密度反映了用户对候选词条是否可拆分的接受程度,紧密度值越大,用户在使用该候选词条时将其作为“一个词”的使用频次越大,该候选词条成为目标词条的可能性越大。用户接受度利用搜索引擎中的用户行为来评价候选词条的紧密程度,如果用户搜索的候选词条在用户点击的搜索结果的标题中不是连续出现的话,说明用户可以接受这个候选词条被拆开的结果;用户接受度同样反映了用户对候选词条是否可拆分的接受程度,用户接受度值越大,在用户点击的基于该候选词条的搜索结果中该候选词条作为“一个词”出现的频次也越大,同时该候选词条成为目标词条的可能性越大。类别置信度用来衡量一个已知类别的候选词条对某一类别的隶属置信度;为了判断候选词条的类别置信度,通常需要一个分类器,如SVM(支持向量机),该分类器通过将已经标注好类别的文本作为“训练语料”,给SVM“学习”,得到相应的分类模型,再将需要分类的文本输入该SVM,由其根据分类模型该输入的文本进行分类;类别置信度反映了候选词条对其所属类别的置信程度,类别置信度越大,相应的候选词条成为目标词条的可能性越大。本领域技术人员应能理解上述应用属性仅为举例,其他现有的或今后可能出现的应用属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。此外,需要说明的是,本领域技术人员应还能理解,上述应用属性之间不是排他的,而是可以共存的,即一个目标应用可以对应多个应用属性,并且不同的目标应用对应的应用属性可以有重复。
优选地,所述应用属性包括热度;其中,标注装置12还根据所述候选词条在预定统计对象中的出现频次,获得所述候选词条的热度值。具体地,当应用属性包括热度时,标注装置12根据获取装置11获取的候选词条在预定统计对象,诸如网页库、论坛库、用户查询日志等中的出现频次,如通过对这些频次的叠加,或者对叠加后的出现频次根据预设最大值进行归一化,获得该候选词条的热度值。例如,当应用属性包括热度时,假设候选词条在新闻库、网页库、论坛库、用户查询日志中的出现频次分别为8000次、10000次、4000次、6000次,如果将出现频次直接作为热度值,那么此时对应的该候选词条的分类热度值:媒体关注热度值为8000,资源热度值为10000,口语流行热度值为4000,用户关注热度值为6000,对这些分类热度值叠加后得到该候选词条的热度值=10000+4000+6000=20000;再假设取值周期为1天,连续四天该候选词条的叠加热度值分别为10000、20000、15000和12000,设定一个足够大的预设最大值,对该叠加热度值归一化,归一化后的该候选词条在这四天的热度值要在0-1之间,如果某一天的叠加热度值归一化后的热度值大于1,则将该天的热度值记为1,假设预设最大值为57000,则归一化后得到的该候选词条在这四天的热度值分别为0.18、0.35、0.26和0.21。又如,当应用属性包括热度时,假设热度计算公式为E=log10(T),
其中,
T=∑Ti,Ti=f(i)*Ci-Di
在此,i为统计周期中的时间点,为整数,如0...n,Ci为第i天对应的统计对象中的出现频次,f(i)为第i天的权重,表示第i天的Ci对第i天的重要度,Di为相邻两天之间的衰减系数;标注装置12获得候选词条在第i天的统计对象中的出现频次后,根据上述公式即可计算得出该候选词条相应的热度值。在此,对于候选词条的热度值既可以对各个预设统计对象分开计算相应的分类热度值,以更具体的适用于不同的目标应用;也可以根据分类热度值计算综合热度值,以适用更多的目标应用。本领域技术人员应能理解上述热度值的获取方式仅为举例,其他现有的或今后可能出现的热度值的获取方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述应用属性包括突发度;其中,标注装置12还根据所述候选词条在所述预定统计对象中的出现频次的变化,获得所述候选词条的突发度值。具体地,当应用属性包括突发度时,标注装置12根据获取装置11获取的候选词条在预设周期内、预定统计对象,诸如网页库、论坛库、用户查询日志等中的出现频次的变化,如预设周期的两个临界点相应的出现频次的比值、相邻两个点相应的出现频次的比值、或者当前时间点对应的出现频次与之前若干天的出现频次的均值的比值或差值,获得该候选词条的突发度值。例如,当应用属性包括突发度时,设定相邻两个点相应的出现频次的比值的第一阈值和设定当前时间点对应的出现频次与之前若干天的出现频次的均值的比值的第二阈值,当标注装置12对候选词条据此计算的两个相应值均超过对应的第一阈值和第二阈值时,判断该候选词条具有突发度,再取其中的一个值或者对两个值做线性或非线性拟合,从而获得该候选词条的突发度。优选地,在应用属性还包括热度时,标注装置12还可以直接根据候选词条的热度值的变化,如预设周期的两个临界点相应的热度值的比值、相邻两个点相应的热度值的比值、或者当前时间点对应的热度值与之前若干天的热度值的均值的比值或差值,获得该候选词条的突发度值。同样地,候选词条的突发度值既可以对各个预设统计对象分开计算相应的分类突发度值,以更具体的适用于不同的目标应用;也可以根据分类突发度值计算综合突发度值,以适用更多的目标应用。本领域技术人员应能理解上述突发度值的获取方式仅为举例,其他现有的或今后可能出现的突发度值的获取方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述应用属性包括紧密度;其中,标注装置12还根据所述候选词条的词元在所述预定统计对象中连续出现的次数与共同出现的次数,获得所述候选词条的紧密度值。具体地,当应用属性包括紧密度时,标注装置12根据获取装置11获取的候选词条的词元在预定统计对象,诸如网页库、论坛库、用户查询日志等中连续出现的次数与共同出现的次数,如根据该连续出现的次数与该共同出现的次数的比值,获得该候选词条的紧密度值;在此,词元指不能再进行切分的词,是构成候选词条的单元;连续出现指候选词条的词元在预定统计对象中以“一个词”的形式出现,即词元紧密相连,词元之间不再包括其他的字或者词;共同出现指候选词条的词元在预定统计对象中连续出现和非连续出现,其中,非连续出现包括句子级和篇章级,前者指词元可以分别在预定统计对象的一个句子中出现,后者指词元可以分别在预定统计对象的不同段落甚至章节出现。例如,当应用属性包括紧密度时,假设预定统计对象为用户查询日志,紧密度值=候选词条的词元在用户查询日志中连续出现的次数/候选词条的词元在用户查询日志中共同出现的次数;标注装置12根据该用户查询日志获得候选词条的词元的连续出现的次数为1000次,该候选词条的词元的共同出现的次数为5000次,据此获得该候选词条的紧密度值=1000/5000=0.2。在此,候选词条的词元在预定统计对象中共同出现的次数越多,该数据的统计意义越大。同样地,候选词条的紧密度值既可以对各个预设统计对象分开计算相应的分类紧密度值,以更具体的适用于不同的目标应用;也可以根据分类紧密度值计算综合紧密度值,以适用更多的目标应用。本领域技术人员应能理解上述紧密度值的获取方式仅为举例,其他现有的或今后可能出现的紧密度值的获取方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更优选地,所述预定统计对象包括但不限于,以下至少任一项:
1)用户查询日志;
2)新闻库;
3)网页库;
4)论坛库。
其中,用户查询日志包括搜索引擎的用户查询日志,反映了用户对候选词条的需求度;新闻库包括新闻标题库,反映了媒体对候选词条的关注度;网页库包括各种形式的网页、例如定向网页,如新浪游戏频道,普通网页,如百度百科,反映了与候选词条相关联的资源数量;论坛库包括分类论坛,如博派专利论坛,以及综合论坛,如天涯,反映了候选词条的口语化程度。本领域技术人员应能理解上述预定统计对象仅为举例,其他现有的或今后可能出现的预定统计对象如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述应用属性包括用户接受度;其中,标注装置12还根据用户点击基于所述候选词条的搜索结果的次数,以及在用户点击的搜索结果中所述候选词条的词元连续出现的次数,获得所述候选词条的用户接受度值。具体地,当应用属性包括用户接受度时,标注装置12根据获取装置11获取的候选词条,将该候选词条作为查询序列获得相应的搜索结果,并根据用户点击的搜索结果的次数,以及相应的在用户点击的搜索结果中该候选词条的词元连续出现的次数,通过如对该连续出现的次数与该用户点击的搜索结果的次数求比值的方式,获得该候选词条的用户接受度值。在此,用户点击的搜索结果中候选词条的词元连续出现包括候选词条的词元连续出现在用户点击的搜索结果的标题中和正文中。例如,当应用属性包括用户接受度时,假设用户接受度=候选词条的词元在用户点击的搜索结果中连续出现的次数/用户点击的搜索结果的次数;基于候选词条获得搜索结果100个,其中用户点击的搜索结果为10个,在这10个用户点击的搜索结果中,有4个搜索结果对应的点击次数为50,有3个搜索结果对应的点击次数为70,有3个搜索结果对应的点击次数为100,据此得到基于候选词条的搜索结果的用户点击次数=4*50+3*70+3*100=710;相应的,在用户点击的这10个搜索结果中,有3个搜索结果对应的候选词条的词元连续出现的次数为5次,有5个搜索结果对应的候选词条的词元连续出现的次数为10次,有2个搜索结果对应的候选词条的词元连续出现的次数为3次,据此得到用户点击的搜索结果中候选词条的词元连续出现的次数=3*5+5*10+2*3=71;因此,标注装置12获得该候选词条的用户接受度=71/710=10%。本领域技术人员应能理解上述用户接受度值的获取方式仅为举例,其他现有的或今后可能出现的用户接受度值的获取方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述应用属性包括类别置信度;其中,标注装置12还根据所述候选词条的相关文本,获得所述候选词条的类别置信度值;其中,所述相关文本包括但不限于,以下至少任一项:
1)基于所述候选词条的搜索结果;
2)包括所述候选词条的用户查询日志。
具体地,当应用属性包括类别置信度时,标注装置12还根据候选词条的相关文本,诸如基于该候选词条的搜索结果、基于该候选词条的用户查询日志等,获得该候选词条的类别置信度值。例如,当应用属性包括类别置信度时,假设候选词条为专有名词,专有名词包括特定的某人、地方或机构的名称,如人名、地名、国家名、单位名、组织名等,如果此时该候选词条的类别未知,则根据分类器,如SVM(支持向量机)对该候选词条进行分类,以获得该候选词条的类别,并基于该候选词条进行搜索以获得相应的搜索结果,根据这些搜索结果中排列在前的N个搜索结果与该类别的相符程度,计算该候选词条的类别置信度;如果此时已知该候选词条的类别,根据包括该候选词条的用户查询日志与该类别的相符程度,获得该候选词条的类别置信度。在此,本领域技术人员应能理解,在标注装置12获得候选词条的类别置信度时,既可以分别根据基于该候选词条的搜索结果或者根据包括该候选词条的用户查询日志进行计算,也可以结合基于该候选词条的搜索结果以及包括该候选词条的用户查询日志进行计算;还可以在分别根据基于该候选词条的搜索结果计算相应的类别置信度及包括该候选词条的用户查询日志计算相应的类别置信度之后,对这两个类别置信度进行拟合,拟合的值即为该候选词条的类别置信度。本领域技术人员应还能理解上述类别置信度值的获取方式仅为举例,其他现有的或今后可能出现的类别置信度值的获取方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在另一个优选实施例中,所述目标应用包括但不限于,以下至少任一项:
1)输入法;
2)信息搜索;
3)关键词广告推广。
其中,当目标应用包括输入法时,相应的应用设备包括但不限于用户设备和网络设备,用户设备包括但不限于各种带有输入键盘,包括实体键盘和虚拟键盘的电子产品,如手机、个人计算机、游戏机、平板电脑等,网络设备包括但不限于单台输入法服务器、基于云计算(cloud computing)的作为输入法服务器的计算机集群等。当目标应用包括信息搜索时,相应的应用设备包括但不限于搜索引擎服务器以及与之相连的一台或多台专用服务器;在此,信息搜索包括但不限于网页搜索,新闻搜索,图片搜索,视频搜索等。当目标应用包括关键词广告推广时,相应的应用设备包括但不限于单台广告服务器、基于云计算(cloud computing)的作为广告服务器的计算机集群等。此外,目标应用还可以包括热点新闻推荐,热搜词等,将相应的目标新词放到垂直搜索(即新闻,MP3,视频等)的首页进行推荐。本领域技术人员应能理解上述目标应用仅为举例,其他现有的或今后可能出现的目标应用如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述目标应用包括输入法;其中,所述目标应用的应用属性包括但不限于,以下至少任一项:
1)所述候选词条的热度;
2)所述候选词条的突发度。
具体地,当目标应用包括输入法时,其相应的应用属性包括但不限于候选词条的热度、候选词条的突发度;其中,候选词条的热度反映了用户对该候选词条的需求度,候选词条的突发度反映了该候选词条的爆发程度;当候选词条的热度值超过输入法的热度的阈值,或者候选词条的突发度值超过输入法的突发度的阈值,或者候选词条的热度值超过输入法的热度的阈值,同时该候选词条的突发度值超过输入法的突发度的阈值,该候选词条即为输入法的目标词条。当目标应用是输入法时,据此获得的目标词条较为准备的满足用户需求,并且根据热度值和突发值排列的候选词条,在用户输入相关词条时降低了用户的选词成本。本领域技术人员应能理解上述输入法的应用属性仅为举例,其他现有的或今后可能出现的输入法的应用属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述目标应用还包括信息搜索;其中,所述目标应用的应用属性包括但不限于,以下至少任一项:
1)所述候选词条的热度;
2)所述候选词条的突发度;
3)所述候选词条的紧密度;
4)所述候选词条的用户接受度;
5)所述候选词条的类别置信度。
其中,当目标应用包括信息搜索时,其相应的应用属性包括但不限于,候选词条的热度、突发度、紧密度、用户接受度和类别置信度;其中,候选词条的热度、紧密度及用户接受度反映了用户对该候选词条的需求度,候选词条的突发度反映了该候选词条的爆发程度,候选词条的类别置信度反映了该候选词条对其所属类别的归属程度;信息搜索与用户需求、实时热点、搜索结果的相关性等相关,因此,当目标应用包括信息搜索时,相应的应用属性较为丰富;据此获得的目标词条在用于信息搜索时可以更快更好的搜索到基于目标词条获得的搜索结果,同时,在不降低召回的情况下提升搜索引擎的准确性与性能。本领域技术人员应能理解上述信息搜索的应用属性仅为举例,其他现有的或今后可能出现的信息搜索的应用属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述目标应用还包括关键词广告推广;其中,所述目标应用的应用属性包括但不限于,以下至少任一项:
1)所述候选词条的热度;
2)所述候选词条的突发度;
3)所述候选词条的紧密度;
4)所述候选词条的用户接受度;
5)所述候选词条的类别置信度。
具体地,当目标应用包括关键词广告推广时,其相应的应用属性包括但不限于,候选词条的热度、突发度、紧密度、用户接受度和类别置信度;其中,候选词条的热度、紧密度及用户接受度反映了用户对该候选词条的需求度,候选词条的突发度反映了该候选词条的爆发程度,候选词条的类别置信度反映了该候选词条对其所属类别的归属程度;关键词广告推广与用户需求、实时热点、关键词广告推广所在页面等相关,因此,当目标应用包括关键词广告推广时,相应的应用属性较为丰富;据此获得的目标词条在进行关键词广告推广时,可以更准确的投放在相关推广页面,在降低推广客户的推广成本的同时,提高了推广客户的推广效益。本领域技术人员应能理解上述关键词广告推广的应用属性仅为举例,其他现有的或今后可能出现的关键词广告推广的应用属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在再一个优选实施例中,过滤装置13还按照所述目标应用的应用属性的属性阈值,结合预设词库,对所述候选词条进行过滤处理,以获得与所述候选词条相对应的目标词条。具体地,过滤装置13按照目标应用的应用属性的属性阈值,结合预设词库,如通用词库、新词历史词库等,对经由标注装置12获得与目标应用的应用属性相应的应用属性值的候选词条进行过滤处理,从而获得目标词条。例如,假设目标应用为输入法,按照输入法的应用属性的属性阈值,结合通用词库,对已获得与输入法的应用属性相对应的应用属性值,即热度值和突发度值的候选词条进行过滤处理,以获得与该候选词条相对应的目标词条。在此,预设词库包括但不限于通用词库和新词历史词库;其中,通用词库指已有的在大规模语料上统计并经过人工或算法整理的普适词表,包含了几乎所有的常用词和词组,此处判断候选词条是否属于通用词库的目的,是为了确定该候选词条是否为词典词,从而为后续的目标应用提供依据,后续的目标应用可能会需要判断该候选词条是否是老词有了新的含义,比如“杯具”;新词历史词库用于判断候选词条是否属于历史上“按特定标准提取的新词”,有助于判断该候选词条是今天刚产生的,还是前几天已有的,对后续的目标应用有非常大的指导价值。本领域技术人员应能理解上述预设词库仅为举例,其他现有的或今后可能出现的预设词库如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,获取设备1还包括预处理装置(未示出),预处理装置对所述候选词条进行预处理,以获得预处理后的候选词条;其中,标注装置12还根据所述预处理后的候选词条,并结合目标应用的应用属性,获得所述候选词条的所述应用属性值。具体地,在获取装置11获得候选词条后,预处理装置对该候选词条进行预处理,诸如进行整合、去重、去除非可见字符、去除乱码、标点的全半角转换等,以获得经过预处理的候选词条;随后,标注装置12根据该经过预处理的候选词条,结合目标应用的应用属性,如输入法对应的应用属性为候选词条的热度和突发度,信息搜索对应的应用属性为候选词条的热度、突发度、紧密度、用户接受度和类别置信度,获取该经过预处理的候选词条与目标应用的应用属性相对应的应用属性值。例如,获取装置11从多来源,诸如通用词典、用户查询序列、定向页面数据、人工(半人工)编辑的词条、、百度输入法、用户查询日志等获取候选词条,由于候选词条来源的繁杂,该候选词条中可能存在重复、错字、带有乱码等,预处理装置对该候选词条进行预处理,如相应的做去重、根据词典或统计频次重置错字,去除乱码等,以获得预处理后的候选词条;随后,标注装置12根据该预处理后的候选词条,结合目标应用的应用属性,如输入法对应的应用属性为候选词条的热度和突发度,获得该预处理后的候选词条与该目标应用的应用属性的应用属性值,相应的如该预处理后的候选词条的热度值和该预处理后的候选词条的突发度值。本领域技术人员应能理解上述对候选词条进行预处理的方式仅为举例,其他现有的或今后可能出现的对候选词条进行预处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
图2为根据本发明另一个方面的方法流程图,示出用于基于目标应用获取目标词条的过程。具体地,在步骤S1中,获取设备1获取候选词条;随后,在步骤S2中,获取设备1根据所述候选词条,并结合目标应用的应用属性,获得所述候选词条的应用属性值;接着,在步骤S3中,获取设备1根据所述应用属性值,按照所述目标应用的应用属性的属性阈值,对所述候选词条进行过滤处理,以获得与所述候选词条相对应的目标词条。
更具体地,在步骤S1中,获取设备1获取候选词条。具体地,在步骤S1中,获取设备1可以从多来源获取候选词条,诸如从通用词典、用户查询序列、定向页面数据、人工(半人工)编辑的词条、百度输入法、用户查询日志等词条来源获得候选词条,如通过分词技术,如基于词典的最大正向匹配法、最大反向匹配法从词条来源中获得相应的候选词条。在此,定向页面数据指互联网中具有特定类别的页面,如新浪游戏频道;人工(半人工)编辑的词条指各种百科,如百度百科、维基百科等。例如,获取设备1通过调用搜索引擎的查询日志应用程序接口(API),向该搜索引擎的查询日志应用程序接口(API)发送获取用户查询序列的请求,并接收该搜索引擎的查询日志应用程序接口(API)根据该请求返回的用户查询序列,对该用户查询序列进行语义分析,以获得相应的候选词条。又如,获取设备1从百度百科中获取一个片段,根据通用词典,从该片段中提取相应的候选词条。本领域技术人员还应能理解上述获取候选词条的方式以及候选词条的来源仅为举例,其他现有的或今后可能出现的获取候选词条的方式或者候选词条的来源如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,在步骤S2中,获取设备1根据所述候选词条,并结合目标应用的应用属性,获得所述候选词条的应用属性值。具体地,在步骤S2中,获取装置1根据其在步骤S1中获取的候选词条,结合目标应用的应用属性,如输入法对应的应用属性为候选词条的热度和突发度,网页搜索对应的应用属性为候选词条的热度、突发度、紧密度、用户接受度和类别置信度,获取该候选词条与目标应用的应用属性相对应的应用属性值。例如,假设目标应用为输入法,相应的应用属性为候选词条的热度和突发度,根据候选词条在网页库、新闻库中的出现频次,获取设备1确定该候选词条相应的热度值,如对这些出现频次进行叠加,或者对叠加后的出现频次根据预设最大值进行归一化,并根据预设周期内这些出现频次的变化,即热度的变化,确定该候选词条相应的突发度值。此外,需要说明的是,本领域技术人员应能理解,此处的目标应用可以为多个,其相应的应用属性以及候选词条与目标应用的应用属性相对应的应用属性值也可以为多个,并且在目标应用及其应用属性足够多的情况下,该应用属性可以覆盖所有现有的目标应用的应用属性,同时,相应的候选词条的应用属性值也可以覆盖所有现有的应用属性值;随着新的目标应用的开发,相应出现新的应用属性,候选词条同样可以据此获取相应的新的应用属性值。
接着,在步骤S3中,获取设备1根据所述应用属性值,按照所述目标应用的应用属性的属性阈值,对所述候选词条进行过滤处理,以获得与所述候选词条相对应的目标词条。具体地,在步骤S3中,获取设备1根据其在步骤S2中获得的候选词条与目标应用的应用属性相对应的应用属性值,按照该目标应用的应用属性的属性阈值,对该候选词条进行过滤处理,从而获得过滤后的目标词条。例如,假设目标应用为输入法,其相应的应用属性为候选词条的热度和突发度,其中,候选词条的热度值的阈值为100000,突发度值的阈值为0.2,获取设备1获得的候选词条的热度值为120000,并且该候选词条的突发度值为0.4,则该候选词条通过获取设备1的过滤,成为目标词条。
需要说明的是,本领域技术人员应能理解,在获取设备1获得目标应用的目标词条后,由于目标词条往往是多个,目标应用还可以根据其具体应用需求对目标词条做出相应处理。例如,当目标应用是输入法时,往往有多个目标词条的拼音是相同的,此时,可以根据这些目标词条的热度进行排序,更进一步,还可以将每个目标词条的所有应用属性值拟合,根据拟合后的值对这些目标词条进行排序。又如,当目标应用是用户查询需求识别时,通过对用户查询序列中目标词条的需求类别判断,确定该目标词条的需求属于视频、图片、歌曲、还是新闻,从而进一步判断该用户查询序列的需求类别。
本领域技术人员还应能理解,上述目标应用及其具体应用需求仅为举例,其他现有的或今后可能出现的目标应用及其具体应用需求如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,步骤S1、步骤S2和步骤S3是持续不断工作的。具体地,在步骤S1中,获取设备1获取候选词条;随后,在步骤S2中,获取设备1根据所述候选词条,并结合目标应用的应用属性,获得所述候选词条的应用属性值;接着,在步骤S3中,获取设备1根据所述应用属性值,按照所述目标应用的应用属性的属性阈值,对所述候选词条进行过滤处理,以获得与所述候选词条相对应的目标词条。在此,本领域技术人员应理解“持续”是指获取设备1在步骤S1、步骤S2和步骤S3中分别按照设定的或实时调整的工作模式要求进行候选词条的获取、相应的应用属性值的获取及目标词条的获取,直至获取设备1在较长时间内停止获取候选词条。
在一个优选实施例中,所述应用属性包括但不限于,以下至少任一项:
1)热度;
2)突发度;
3)紧密度;
4)用户接受度;
5)类别置信度。
其中,热度用来衡量候选词条的热门程度,根据候选词条在诸如网页库、论坛库、用户查询日志等统计对象中的出现频次直接表现;热度直接反映了用户对候选词条的关注程度和需求程度,热度值越大,相应的候选词条成为目标词条的可能性越大。。突发度用来衡量候选词条的爆发程度,根据一定时间内在上述统计对象中的出行频次的变化或者热度的变化来表现;突发度同样反映了用户对候选词条的关注程度和需求程度,并且该关注程度和该需求程度是在一个较短的时间内迅速攀升的,突发度值越大,相应的候选词条成为目标词条的可能性越大。紧密度用来衡量候选词条的内部结构松散程度,根据候选词条的词元在上述统计对象中连续出现的次数与共同出现的次数来确定候选词条的词元是否密不可分;紧密度反映了用户对候选词条是否可拆分的接收程度,紧密度值越大,用户在使用该候选词条时将其作为“一个词”的使用频次越大,该候选词条成为目标词条的可能性越大。用户接受度利用搜索引擎中的用户行为来评价候选词条的紧密程度,如果用户搜索的候选词条在用户点击的搜索结果的标题中不是连续出现的话,说明用户可以接受这个候选词条被拆开的结果;用户接受度同样反映了用户对候选词条是否可拆分的接受程度,用户接受度值越大,在用户点击的基于该候选词条的搜索结果中该候选词条作为“一个词”出现的频次也越大,同时该候选词条成为目标词条的可能性越大。类别置信度用来衡量一个已知类别的新词对某一类别的隶属置信度;为了判断候选词条的类别置信度,通常需要一个分类器,如SVM(支持向量机),该分类器通过将已经标注好类别的文本作为“训练语料”,给SVM“学习”,得到相应的分类模型,再将需要分类的文本输入该SVM,由其根据分类模型该输入的文本进行分类;类别置信度反映了候选词条对其所属类别的置信程度,类别置信度越大,相应的候选词条成为目标词条的可能性越大。本领域技术人员应能理解上述应用属性仅为举例,其他现有的或今后可能出现的应用属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。此外,需要说明的是,本领域技术人员应还能理解,上述应用属性之间不是排他的,而是可以共存的,即一个目标应用可以对应多个应用属性,并且不同的目标应用对应的应用属性可以有重复。
优选地,所述应用属性包括热度;其中,在步骤S2中,获取设备1还根据所述候选词条在预定统计对象中的出现频次,获得所述候选词条的热度值。具体地,当应用属性包括热度时,获取设备1根据其获取的候选词条在预定统计对象,诸如网页库、论坛库、用户查询日志等中的出现频次,如通过对这些频次的叠加,或者对叠加后的出现频次根据预设最大值进行归一化,获得该候选词条的热度值。例如,当应用属性包括热度时,假设候选词条在新闻库、网页库、论坛库、用户查询日志中的出现频次分别为8000次、10000次、4000次、6000次,如果将出现频次直接作为热度值,那么此时对应的该候选词条的分类热度值:媒体关注热度值为8000,资源热度值为10000,口语流行热度值为4000,用户关注热度值为6000,对这些分类热度值叠加后得到该候选词条的热度值=10000+4000+6000=20000;再假设取值周期为1天,连续四天该候选词条的叠加热度值分别为10000、20000、15000和12000,设定一个足够大的预设最大值,对该叠加热度值归一化,归一化后的该候选词条在这四天的热度值要在0-1之间,如果某一天的叠加热度值归一化后的热度值大于1,则将该天的热度值记为1,假设预设最大值为57000,则归一化后得到的该候选词条在这四天的热度值分别为0.18、0.35、0.26和0.21。又如,当应用属性包括热度时,假设热度计算公式为E=log10(T),
其中,
T=∑Ti,Ti=f(i)*Ci-Di
在此,i为统计周期中的时间点,为整数,如0...n,Ci为第i天对应的统计对象中的出现频次,f(i)为第i天的权重,表示第i天的Ci对第i天的重要度,Di为相邻两天之间的衰减系数;获取设备1获得候选词条在第i天的统计对象中的出现频次后,根据上述公式即可计算得出该候选词条相应的热度值。在此,对于候选词条的热度值既可以对各个预设统计对象分开计算相应的分类热度值,以更具体的适用于不同的目标应用;也可以根据分类热度值计算综合热度值,以适用更多的目标应用。本领域技术人员应能理解上述热度值的获取方式仅为举例,其他现有的或今后可能出现的热度值的获取方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述应用属性包括突发度;其中,在步骤S2中,获取设备1还根据所述候选词条在所述预定统计对象中的出现频次的变化,获得所述候选词条的突发度值。具体地,当应用属性包括突发度时,在步骤S2中,获取设备1根据其在步骤S1中获取的候选词条在预设周期内、预定统计对象,诸如网页库、论坛库、用户查询日志等中的出现频次的变化,如预设周期的两个临界点相应的出现频次的比值、相邻两个点相应的出现频次的比值、或者当前时间点对应的出现频次与之前若干天的出现频次的均值的比值或差值,获得该候选词条的突发度值。例如,当应用属性包括突发度时,设定相邻两个点相应的出现频次的比值的第一阈值和设定当前时间点对应的出现频次与之前若干天的出现频次的均值的比值的第二阈值,当获取设备1对候选词条据此计算的两个相应值均超过对应的第一阈值和第二阈值时,判断该候选词条具有突发度,再取其中的一个值或者对两个值做线性或非线性拟合,从而获得该候选词条的突发度。优选地,在应用属性还包括热度时,获取设备1还可以直接根据候选词条的热度值的变化,如预设周期的两个临界点相应的热度值的比值、相邻两个点相应的热度值的比值、或者当前时间点对应的热度值与之前若干天的热度值的均值的比值或差值,获得该候选词条的突发度值。同样地,候选词条的突发度值既可以对各个预设统计对象分开计算相应的分类突发度值,以更具体的适用于不同的目标应用;也可以根据分类突发度值计算综合突发度值,以适用更多的目标应用。本领域技术人员应能理解上述突发度值的获取方式仅为举例,其他现有的或今后可能出现的突发度值的获取方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述应用属性包括紧密度;其中,在步骤S2中,获取设备1还根据所述候选词条的词元在所述预定统计对象中连续出现的次数与共同出现的次数,获得所述候选词条的紧密度值。具体地,当应用属性包括紧密度时,在步骤S2中,获取设备1根据其在步骤S1中获取的候选词条的词元在预定统计对象,诸如网页库、论坛库、用户查询日志等中连续出现的次数与共同出现的次数,如根据该连续出现的次数与该共同出现的次数的比值,获得该候选词条的紧密度值;在此,词元指不能再进行切分的词,是构成候选词条的单元;连续出现指候选词条的词元在预定统计对象中以“一个词”的形式出现,即词元紧密相连,词元之间不再包括其他的字或者词;共同出现指候选词条的词元在预定统计对象中连续出现和非连续出现,其中,非连续出现包括句子级和篇章级,前者指词元可以分别在预定统计对象的一个句子中出现,后者指词元可以分别在预定统计对象的不同段落甚至章节出现。例如,当应用属性包括紧密度时,假设预定统计对象为用户查询日志,紧密度值=候选词条的词元在用户查询日志中连续出现的次数/候选词条的词元在用户查询日志中共同出现的次数;获取设备1根据该用户查询日志获得候选词条的词元的连续出现的次数为1000次,该候选词条的词元的共同出现的次数为5000次,据此获得该候选词条的紧密度值=1000/5000=0.2。在此,候选词条的词元在预定统计对象中共同出现的次数越多,该数据的统计意义越大。同样地,候选词条的紧密度值既可以对各个预设统计对象分开计算相应的分类紧密度值,以更具体的适用于不同的目标应用;也可以根据分类紧密度值计算综合紧密度值,以适用更多的目标应用。本领域技术人员应能理解上述紧密度值的获取方式仅为举例,其他现有的或今后可能出现的紧密度值的获取方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更优选地,所述预定统计对象包括但不限于,以下至少任一项:
1)用户查询日志;
2)新闻库;
3)网页库;
4)论坛库。
其中,用户查询日志包括搜索引擎的用户查询日志,反映了用户对候选词条的需求度;新闻库包括新闻标题库,反映了媒体对候选词条的关注度;网页库包括各种形式的网页、例如定向网页,如新浪游戏频道,普通网页,如百度百科,反映了与候选词条相关联的资源数量;论坛库包括分类论坛,如博派专利论坛,以及综合论坛,如天涯,反映了候选词条的口语化程度。本领域技术人员应能理解上述预定统计对象仅为举例,其他现有的或今后可能出现的预定统计对象如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述应用属性包括用户接受度;其中,在步骤S2中,获取设备1还根据用户点击基于所述候选词条的搜索结果的次数,以及在用户点击的搜索结果中所述候选词条的词元连续出现的次数,获得所述候选词条的用户接受度值。具体地,当应用属性包括用户接受度时,在步骤S2中,获取设备1根据其在步骤S1中获取的候选词条,将该候选词条作为查询序列获得相应的搜索结果,并根据用户点击的搜索结果的次数,以及相应的在用户点击的搜索结果中该候选词条的词元连续出现的次数,通过如对该连续出现的次数与该用户点击的搜索结果的次数求比值的方式,获得该候选词条的用户接受度值。在此,用户点击的搜索结果中候选词条的词元连续出现包括候选词条的词元连续出现在用户点击的搜索结果的标题中和正文中。例如,当应用属性包括用户接受度时,假设用户接受度=候选词条的词元在用户点击的搜索结果中连续出现的次数/用户点击的搜索结果的次数;基于候选词条获得搜索结果100个,其中用户点击的搜索结果为10个,在这10个用户点击的搜索结果中,有4个搜索结果对应的点击次数为50,有3个搜索结果对应的点击次数为70,有3个搜索结果对应的点击次数为100,据此得到基于候选词条的搜索结果的用户点击次数=4*50+3*70+3*100=710;相应的,在用户点击的这10个搜索结果中,有3个搜索结果对应的候选词条的词元连续出现的次数为5次,有5个搜索结果对应的候选词条的词元连续出现的次数为10次,有2个搜索结果对应的候选词条的词元连续出现的次数为3次,据此得到用户点击的搜索结果中候选词条的词元连续出现的次数=3*5+5*10+2*3=71;因此,标注装置12获得该候选词条的用户接受度=71/710=10%。本领域技术人员应能理解上述用户接受度值的获取方式仅为举例,其他现有的或今后可能出现的用户接受度值的获取方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述应用属性包括类别置信度;其中,在步骤S2中,获取设备1还根据所述候选词条的相关文本,获得所述候选词条的类别置信度值;其中,所述相关文本包括但不限于,以下至少任一项:
1)基于所述候选词条的搜索结果;
2)包括所述候选词条的用户查询日志。
具体地,当应用属性包括类别置信度时,获取设备1还根据候选词条的相关文本,诸如基于该候选词条的搜索结果、基于该候选词条的用户查询日志等,获得该候选词条的类别置信度值。例如,当应用属性包括类别置信度时,假设候选词条为专有名词,专有名词包括特定的某人、地方或机构的名称,如人名、地名、国家名、单位名、组织名等,如果此时该候选词条的类别未知,则根据分类器,如SVM(支持向量机)对该候选词条进行分类,以获得该候选词条的类别,并基于该候选词条进行搜索以获得相应的搜索结果,根据这些搜索结果中排列在前的N个搜索结果与该类别的相符程度,计算该候选词条的类别置信度;如果此时已知该候选词条的类别,根据包括该候选词条的用户查询日志与该类别的相符程度,获得该候选词条的类别置信度。在此,本领域技术人员应能理解,获取设备1在获得候选词条的类别置信度时,既可以分别根据基于该候选词条的搜索结果或者根据包括该候选词条的用户查询日志进行计算,也可以结合基于该候选词条的搜索结果以及包括该候选词条的用户查询日志进行计算;还可以在分别根据基于该候选词条的搜索结果计算相应的类别置信度及包括该候选词条的用户查询日志计算相应的类别置信度之后,对这两个类别置信度进行拟合,拟合的值即为该候选词条的类别置信度。本领域技术人员应还能理解上述类别置信度值的获取方式仅为举例,其他现有的或今后可能出现的类别置信度值的获取方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在另一个优选实施例中,所述目标应用包括但不限于,以下至少任一项:
1)输入法;
2)信息搜索;
3)关键词广告推广。
其中,当目标应用包括输入法时,相应的应用设备包括但不限于用户设备和网络设备,用户设备包括但不限于各种带有输入键盘,包括实体键盘和虚拟键盘的电子产品,如手机、个人计算机、游戏机、平板电脑等,网络设备包括但不限于单台输入法服务器、基于云计算(cloud computing)的作为输入法服务器的计算机集群等。当目标应用包括信息搜索时,相应的应用设备包括但不限于搜索引擎服务器以及与之相连的一台或多台专用服务器;在此,信息搜索包括但不限于网页搜索,新闻搜索,图片搜索,视频搜索等。当目标应用包括关键词广告推广时,相应的应用设备包括但不限于单台广告服务器、基于云计算(cloud computing)的作为广告服务器的计算机集群等。此外,目标应用还可以包括热点新闻推荐,热搜词等,将相应的目标新词放到垂直搜索(即新闻,MP3,视频等)的首页进行推荐。本领域技术人员应能理解上述目标应用仅为举例,其他现有的或今后可能出现的目标应用如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述目标应用包括输入法;其中,所述目标应用的应用属性包括但不限于,以下至少任一项:
1)所述候选词条的热度;
2)所述候选词条的突发度。
具体地,当目标应用包括输入法时,其相应的应用属性包括但不限于候选词条的热度、候选词条的突发度;其中,候选词条的热度反映了用户对该候选词条的需求度,候选词条的突发度反映了该候选词条的爆发程度;当候选词条的热度值超过输入法的热度的阈值,或者候选词条的突发度值超过输入法的突发度的阈值,或者候选词条的热度值超过输入法的热度的阈值,同时该候选词条的突发度值超过输入法的突发度的阈值,该候选词条即为输入法的目标词条。当目标应用是输入法时,据此获得的目标词条较为准备的满足用户需求,并且根据热度值和突发值排列的候选词条,在用户输入相关词条时降低了用户的选词成本。本领域技术人员应能理解上述输入法的应用属性仅为举例,其他现有的或今后可能出现的输入法的应用属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述目标应用还包括信息搜索;其中,所述目标应用的应用属性包括但不限于,以下至少任一项:
1)所述候选词条的热度;
2)所述候选词条的突发度;
3)所述候选词条的紧密度;
4)所述候选词条的用户接受度;
5)所述候选词条的类别置信度。
其中,当目标应用包括信息搜索时,其相应的应用属性包括但不限于,候选词条的热度、突发度、紧密度、用户接受度和类别置信度;其中,候选词条的热度、紧密度及用户接受度反映了用户对该候选词条的需求度,候选词条的突发度反映了该候选词条的爆发程度,候选词条的类别置信度反映了该候选词条对其所属类别的归属程度;信息搜索与用户需求、实时热点、搜索结果的相关性等相关,因此,当目标应用包括信息搜索时,相应的应用属性较为丰富;据此获得的目标词条在用于信息搜索时可以更快更好的搜索到基于目标词条获得的搜索结果,同时,在不降低召回的情况下提升搜索引擎的准确性与性能。本领域技术人员应能理解上述信息搜索的应用属性仅为举例,其他现有的或今后可能出现的信息搜索的应用属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述目标应用还包括关键词广告推广;其中,所述目标应用的应用属性包括但不限于,以下至少任一项:
1)所述候选词条的热度;
2)所述候选词条的突发度;
3)所述候选词条的紧密度;
4)所述候选词条的用户接受度;
5)所述候选词条的类别置信度。
具体地,当目标应用包括关键词广告推广时,其相应的应用属性包括但不限于,候选词条的热度、突发度、紧密度、用户接受度和类别置信度;其中,候选词条的热度、紧密度及用户接受度反映了用户对该候选词条的需求度,候选词条的突发度反映了该候选词条的爆发程度,候选词条的类别置信度反映了该候选词条对其所属类别的归属程度;关键词广告推广与用户需求、实时热点、关键词广告推广所在页面等相关,因此,当目标应用包括关键词广告推广时,相应的应用属性较为丰富;据此获得的目标词条在进行关键词广告推广时,可以更准确的投放在相关推广页面,在降低推广客户的推广成本的同时,提高了推广客户的推广效益。本领域技术人员应能理解上述关键词广告推广的应用属性仅为举例,其他现有的或今后可能出现的关键词广告推广的应用属性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在再一个优选实施例中,在步骤S3中,获取设备1还按照所述目标应用的应用属性的属性阈值,结合预设词库,对所述候选词条进行过滤处理,以获得与所述候选词条相对应的目标词条。具体地,在步骤S3中,获取设备1按照目标应用的应用属性的属性阈值,结合预设词库,如通用词库、新词历史词库等,对其获得的与目标应用的应用属性相应的应用属性值的候选词条进行过滤处理,从而获得目标词条。例如,假设目标应用为输入法,按照输入法的应用属性的属性阈值,结合通用词库,对已获得与输入法的应用属性相对应的应用属性值,即热度值和突发度值的候选词条进行过滤处理,以获得与该候选词条相对应的目标词条。在此,预设词库包括但不限于通用词库和新词历史词库;其中,通用词库指已有的在大规模语料上统计并经过人工或算法整理的普适词表,包含了几乎所有的常用词和词组,此处判断候选词条是否属于通用词库的目的,是为了确定该候选词条是否为词典词,从而为后续的目标应用提供依据,后续的目标应用可能会需要判断该候选词条是否是老词有了新的含义,比如“杯具”;新词历史词库用于判断候选词条是否属于历史上“按特定标准提取的新词”,有助于判断该候选词条是今天刚产生的,还是前几天已有的,对后续的目标应用有非常大的指导价值。本领域技术人员应能理解上述预设词库仅为举例,其他现有的或今后可能出现的预设词库如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,该过程还包括步骤S4(未示出),在步骤S4中,获取设备1对所述候选词条进行预处理,以获得预处理后的候选词条;其中,在步骤S2中,获取设备1还根据所述预处理后的候选词条,并结合目标应用的应用属性,获得所述候选词条的所述应用属性值。具体地,在步骤S1中,获取设备1获得候选词条后,在步骤S4中,获取设备1对该候选词条进行预处理,诸如进行整合、去重、去除非可见字符、去除乱码、标点的全半角转换等,以获得经过预处理的候选词条;随后,在步骤S2中,获取设备1根据该经过预处理的候选词条,结合目标应用的应用属性,如输入法对应的应用属性为候选词条的热度和突发度,信息搜索对应的应用属性为候选词条的热度、突发度、紧密度、用户接受度和类别置信度,获取该经过预处理的候选词条与目标应用的应用属性相对应的应用属性值。例如,获取设备1从多来源,诸如通用词典、用户查询序列、定向页面数据、、人工(半人工)编辑的词条、百度输入法、用户查询日志等获取候选词条,由于候选词条来源的繁杂,该候选词条中可能存在重复、错字、带有乱码等,预处理装置对该候选词条进行预处理,如相应的做去重、根据词典或统计频次重置错字,去除乱码等,以获得预处理后的候选词条;随后,获取设备1根据该预处理后的候选词条,结合目标应用的应用属性,如输入法对应的应用属性为候选词条的热度和突发度,获得该预处理后的候选词条与该目标应用的应用属性的应用属性值,相应的如该预处理后的候选词条的热度值和该预处理后的候选词条的突发度值。本领域技术人员应能理解上述对候选词条进行预处理的方式仅为举例,其他现有的或今后可能出现的对候选词条进行预处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (28)

1.一种计算机实现的用于基于目标应用获取目标词条的方法,该方法包括以下步骤:
a获取候选词条;
b根据所述候选词条,并结合目标应用的应用属性,获得所述候选词条的应用属性值;
c根据所述应用属性值,按照所述目标应用的应用属性的属性阈值,对所述候选词条进行过滤处理,以获得与所述候选词条相对应的目标词条。
2.根据权利要求1所述的方法,其中,所述应用属性包括以下至少任一项:
-热度;
-突发度;
-紧密度;
-用户接受度;
-类别置信度。
3.根据权利要求2所述的方法,其中,所述应用属性包括热度;
其中,所述步骤b还包括:
-根据所述候选词条在预定统计对象中的出现频次,获得所述候选词条的热度值。
4.根据权利要求2或3所述的方法,其中,所述应用属性包括突发度;
其中,所述步骤b还包括:
-根据所述候选词条在所述预定统计对象中的出现频次的变化,获得所述候选词条的突发度值。
5.根据权利要求2至4中任一项所述的方法,其中,所述应用属性包括紧密度;
其中,所述步骤b还包括:
-根据所述候选词条的词元在所述预定统计对象中连续出现的次数与共同出现的次数,获得所述候选词条的紧密度值。
6.根据权利要求3至5中任一项所述的方法,其中,所述预定统计对象包括以下至少任一项:
-用户查询日志;
-新闻库;
-网页库;
-论坛库。
7.根据权利要求2至6中任一项所述的方法,其中,所述应用属性包括用户接受度;
其中,所述步骤b还包括:
-根据用户点击基于所述候选词条的搜索结果的次数,以及在用户点击的搜索结果中所述候选词条的词元连续出现的次数,获得所述候选词条的用户接受度值。
8.根据权利要求2至7中任一项所述的方法,其中,所述应用属性包括类别置信度;
其中,所述步骤b还包括:
-根据所述候选词条的相关文本,获得所述候选词条的类别置信度值;
其中,所述相关文本包括以下至少任一项:
-基于所述候选词条的搜索结果;
-包括所述候选词条的用户查询日志。
9.根据权利要求1至8中任一项所述的方法,其中,所述目标应用包括以下至少任一项:
-输入法;
-信息搜索;
-关键词广告推广。
10.根据权利要求9所述的方法,其中,所述目标应用包括输入法;
其中,所述目标应用的应用属性包括以下至少任一项:
-所述候选词条的热度;
-所述候选词条的突发度。
11.根据权利要求9或10所述的方法,其中,所述目标应用还包括信息搜索;
其中,所述目标应用的应用属性包括以下至少任一项:
-所述候选词条的热度;
-所述候选词条的突发度;
-所述候选词条的紧密度;
-所述候选词条的用户接受度;
-所述候选词条的类别置信度。
12.根据权利要求9至11中任一项所述的方法,其中,所述目标应用还包括关键词广告推广;
其中,所述目标应用的应用属性包括以下至少任一项:
-所述候选词条的热度;
-所述候选词条的突发度;
-所述候选词条的紧密度;
-所述候选词条的用户接受度;
-所述候选词条的类别置信度。
13.根据权利要求1至12中任一项所述的方法,其中,所述步骤c还包括:
-按照所述目标应用的应用属性的属性阈值,结合预设词库,对所述候选词条进行过滤处理,以获得与所述候选词条相对应的目标词条。
14.根据权利要求1至13中任一项所述的方法,其中,该方法还包括:
-对所述候选词条进行预处理,以获得预处理后的候选词条;
其中,所述步骤b还包括:
-根据所述预处理后的候选词条,并结合目标应用的应用属性,获得所述候选词条的所述应用属性值。
15.一种用于基于目标应用获取目标词条的获取设备,该获取设备包括:
获取装置,用于获取候选词条;
标注装置,用于根据所述候选词条,并结合目标应用的应用属性,获得所述候选词条的应用属性值;
过滤装置,用于根据所述应用属性值,按照所述目标应用的应用属性的属性阈值,对所述候选词条进行过滤处理,以获得与所述候选词条相对应的目标词条。
16.根据权利要求15所述的获取设备,其中,所述应用属性包括以下至少任一项:
-热度;
-突发度;
-紧密度;
-用户接受度;
-类别置信度。
17.根据权利要求16所述的获取设备,其中,所述应用属性包括热度;
其中,所述标注装置还用于:
-根据所述候选词条在预定统计对象中的出现频次,获得所述候选词条的热度值。
18.根据权利要求16或17所述的获取设备,其中,所述应用属性包括突发度;
其中,所述标注装置还用于:
-根据所述候选词条在所述预定统计对象中的出现频次的变化,获得所述候选词条的突发度值。
19.根据权利要求16至18中任一项所述的获取设备,其中,所述应用属性包括紧密度;
其中,所述标注装置还用于:
-根据所述候选词条的词元在所述预定统计对象中连续出现的次数与共同出现的次数,获得所述候选词条的紧密度值。
20.根据权利要求17至19中任一项所述的获取设备,其中,所述预定统计对象包括以下至少任一项:
-用户查询日志;
-新闻库;
-网页库;
-论坛库。
21.根据权利要求16至20中任一项所述的获取设备,其中,所述应用属性包括用户接受度;
其中,所述标注装置还用于:
-根据用户点击基于所述候选词条的搜索结果的次数,以及在用户点击的搜索结果中所述候选词条的词元连续出现的次数,获得所述候选词条的用户接受度值。
22.根据权利要求16至21中任一项所述的获取设备,其中,所述应用属性包括类别置信度;
其中,所述标注装置还用于:
-根据所述候选词条的相关文本,获得所述候选词条的类别置信度值;
其中,所述相关文本包括以下至少任一项:
-基于所述候选词条的搜索结果;
-包括所述候选词条的用户查询日志。
23.根据权利要求15至22中任一项所述的获取设备,其中,所述目标应用包括以下至少任一项:
-输入法;
-信息搜索;
-关键词广告推广。
24.根据权利要求23所述的设备,其中,所述目标应用包括输入法;
其中,所述目标应用的应用属性包括以下至少任一项:
-所述候选词条的热度;
-所述候选词条的突发度。
25.根据权利要求23或24所述的获取设备,其中,所述目标应用还包括信息搜索;
其中,所述目标应用的应用属性包括以下至少任一项:
-所述候选词条的热度;
-所述候选词条的突发度;
-所述候选词条的紧密度;
-所述候选词条的用户接受度;
-所述候选词条的类别置信度。
26.根据权利要求23至25中任一项所述的获取设备,其中,所述目标应用还包括关键词广告推广;
其中,所述目标应用的应用属性包括以下至少任一项:
-所述候选词条的热度;
-所述候选词条的突发度;
-所述候选词条的紧密度;
-所述候选词条的用户接受度;
-所述候选词条的类别置信度。
27.根据权利要求15至26中任一项所述的获取设备,其中,所述过滤装置还用于:
-按照所述目标应用的应用属性的属性阈值,结合预设词库,对所述候选词条进行过滤处理,以获得与所述候选词条相对应的目标词条。
28.根据权利要求15至27中任一项所述的获取设备,其中,该获取设备还包括:
预处理装置,用于对所述候选词条进行预处理,以获得预处理后的候选词条;
其中,所述标注装置还用于:
-根据所述预处理后的候选词条,并结合目标应用的应用属性,获得所述候选词条的所述应用属性值。
CN 201010592087 2010-12-08 2010-12-08 一种用于基于目标应用获取目标词条的方法与获取设备 Pending CN102043843A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010592087 CN102043843A (zh) 2010-12-08 2010-12-08 一种用于基于目标应用获取目标词条的方法与获取设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010592087 CN102043843A (zh) 2010-12-08 2010-12-08 一种用于基于目标应用获取目标词条的方法与获取设备

Publications (1)

Publication Number Publication Date
CN102043843A true CN102043843A (zh) 2011-05-04

Family

ID=43909980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010592087 Pending CN102043843A (zh) 2010-12-08 2010-12-08 一种用于基于目标应用获取目标词条的方法与获取设备

Country Status (1)

Country Link
CN (1) CN102043843A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929480A (zh) * 2012-09-28 2013-02-13 百度在线网络技术(北京)有限公司 一种移动终端的解锁方法及装置
CN102929873A (zh) * 2011-08-08 2013-02-13 腾讯科技(深圳)有限公司 一种基于情境搜索提取搜索价值词的方法及装置
CN102955794A (zh) * 2011-08-23 2013-03-06 阿里巴巴集团控股有限公司 一种网页点击情况的显示方法及装置
CN103019924A (zh) * 2011-09-23 2013-04-03 腾讯科技(深圳)有限公司 输入法智能性评测系统和方法
CN104199616A (zh) * 2014-09-26 2014-12-10 厦门美图移动科技有限公司 一种移动终端的信息输入方法及设备
CN104462102A (zh) * 2013-09-16 2015-03-25 联想(北京)有限公司 一种信息处理的方法及电子设备
CN104572820A (zh) * 2014-12-03 2015-04-29 百度在线网络技术(北京)有限公司 模型的生成方法及装置、重要度获取方法及装置
CN104679738A (zh) * 2013-11-27 2015-06-03 北京拓尔思信息技术股份有限公司 互联网热词挖掘方法及装置
CN105095269A (zh) * 2014-05-09 2015-11-25 阿里巴巴集团控股有限公司 查询语句的获取方法及服务器
CN106126711A (zh) * 2016-06-30 2016-11-16 北京奇虎科技有限公司 百科词条分类方法及装置
CN106547742A (zh) * 2016-11-30 2017-03-29 百度在线网络技术(北京)有限公司 基于人工智能的语义解析结果处理方法和装置
CN106547736A (zh) * 2016-10-31 2017-03-29 百度在线网络技术(北京)有限公司 基于人工智能的文本信息术语重要度生成方法以及装置
CN107861948A (zh) * 2017-11-16 2018-03-30 百度在线网络技术(北京)有限公司 一种标签提取方法、装置、设备和介质
CN108664585A (zh) * 2018-05-07 2018-10-16 多盟睿达科技(中国)有限公司 一种基于大数据的广告选词方法
CN108733226A (zh) * 2017-04-13 2018-11-02 北京搜狗科技发展有限公司 一种信息推荐的方法及装置
CN109241392A (zh) * 2017-07-04 2019-01-18 北京搜狗科技发展有限公司 目标词的识别方法、装置、系统及存储介质
CN109725737A (zh) * 2017-10-31 2019-05-07 北京金山安全软件有限公司 一种信息展示方法、装置及系统
CN110781204A (zh) * 2019-09-09 2020-02-11 腾讯大地通途(北京)科技有限公司 目标对象的标识信息确定方法、装置、设备及存储介质
CN111382342A (zh) * 2020-01-22 2020-07-07 腾讯科技(深圳)有限公司 一种热搜词的获取方法、装置、设备及存储介质
CN111859878A (zh) * 2020-07-29 2020-10-30 广州易行信息技术有限公司 一种智能化的物料属性值填充方法
WO2021237550A1 (zh) * 2020-05-28 2021-12-02 深圳市欢太科技有限公司 文本处理方法、电子设备和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1912872A (zh) * 2006-07-25 2007-02-14 北京搜狗科技发展有限公司 一种提取新词的方法和系统
CN1936893A (zh) * 2006-06-02 2007-03-28 北京搜狗科技发展有限公司 基于互联网信息的输入法词频库的生成方法和系统
CN101118556A (zh) * 2007-09-17 2008-02-06 中国科学院计算技术研究所 一种短文本的新词发现方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936893A (zh) * 2006-06-02 2007-03-28 北京搜狗科技发展有限公司 基于互联网信息的输入法词频库的生成方法和系统
CN1912872A (zh) * 2006-07-25 2007-02-14 北京搜狗科技发展有限公司 一种提取新词的方法和系统
CN101118556A (zh) * 2007-09-17 2008-02-06 中国科学院计算技术研究所 一种短文本的新词发现方法和系统

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929873B (zh) * 2011-08-08 2017-03-22 腾讯科技(深圳)有限公司 一种基于情境搜索提取搜索价值词的方法及装置
CN102929873A (zh) * 2011-08-08 2013-02-13 腾讯科技(深圳)有限公司 一种基于情境搜索提取搜索价值词的方法及装置
CN102955794A (zh) * 2011-08-23 2013-03-06 阿里巴巴集团控股有限公司 一种网页点击情况的显示方法及装置
CN102955794B (zh) * 2011-08-23 2017-04-12 阿里巴巴集团控股有限公司 一种网页点击情况的显示方法及装置
CN103019924A (zh) * 2011-09-23 2013-04-03 腾讯科技(深圳)有限公司 输入法智能性评测系统和方法
CN103019924B (zh) * 2011-09-23 2016-03-16 腾讯科技(深圳)有限公司 输入法智能性评测系统和方法
CN102929480A (zh) * 2012-09-28 2013-02-13 百度在线网络技术(北京)有限公司 一种移动终端的解锁方法及装置
CN104462102B (zh) * 2013-09-16 2018-11-09 联想(北京)有限公司 一种信息处理的方法及电子设备
CN104462102A (zh) * 2013-09-16 2015-03-25 联想(北京)有限公司 一种信息处理的方法及电子设备
CN104679738B (zh) * 2013-11-27 2018-02-27 北京拓尔思信息技术股份有限公司 互联网热词挖掘方法及装置
CN104679738A (zh) * 2013-11-27 2015-06-03 北京拓尔思信息技术股份有限公司 互联网热词挖掘方法及装置
CN105095269A (zh) * 2014-05-09 2015-11-25 阿里巴巴集团控股有限公司 查询语句的获取方法及服务器
CN104199616A (zh) * 2014-09-26 2014-12-10 厦门美图移动科技有限公司 一种移动终端的信息输入方法及设备
CN104572820B (zh) * 2014-12-03 2017-11-24 百度在线网络技术(北京)有限公司 模型的生成方法及装置、重要度获取方法及装置
CN104572820A (zh) * 2014-12-03 2015-04-29 百度在线网络技术(北京)有限公司 模型的生成方法及装置、重要度获取方法及装置
CN106126711A (zh) * 2016-06-30 2016-11-16 北京奇虎科技有限公司 百科词条分类方法及装置
CN106547736A (zh) * 2016-10-31 2017-03-29 百度在线网络技术(北京)有限公司 基于人工智能的文本信息术语重要度生成方法以及装置
CN106547736B (zh) * 2016-10-31 2020-01-10 百度在线网络技术(北京)有限公司 基于人工智能的文本信息术语重要度生成方法以及装置
CN106547742A (zh) * 2016-11-30 2017-03-29 百度在线网络技术(北京)有限公司 基于人工智能的语义解析结果处理方法和装置
US10191900B2 (en) 2016-11-30 2019-01-29 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for processing semantic analysis result based on artificial intelligence
CN106547742B (zh) * 2016-11-30 2019-05-03 百度在线网络技术(北京)有限公司 基于人工智能的语义解析结果处理方法和装置
CN108733226A (zh) * 2017-04-13 2018-11-02 北京搜狗科技发展有限公司 一种信息推荐的方法及装置
CN109241392A (zh) * 2017-07-04 2019-01-18 北京搜狗科技发展有限公司 目标词的识别方法、装置、系统及存储介质
CN109725737A (zh) * 2017-10-31 2019-05-07 北京金山安全软件有限公司 一种信息展示方法、装置及系统
CN107861948A (zh) * 2017-11-16 2018-03-30 百度在线网络技术(北京)有限公司 一种标签提取方法、装置、设备和介质
CN108664585A (zh) * 2018-05-07 2018-10-16 多盟睿达科技(中国)有限公司 一种基于大数据的广告选词方法
CN110781204A (zh) * 2019-09-09 2020-02-11 腾讯大地通途(北京)科技有限公司 目标对象的标识信息确定方法、装置、设备及存储介质
CN110781204B (zh) * 2019-09-09 2024-02-20 腾讯大地通途(北京)科技有限公司 目标对象的标识信息确定方法、装置、设备及存储介质
CN111382342A (zh) * 2020-01-22 2020-07-07 腾讯科技(深圳)有限公司 一种热搜词的获取方法、装置、设备及存储介质
CN111382342B (zh) * 2020-01-22 2023-03-24 腾讯科技(深圳)有限公司 一种热搜词的获取方法、装置、设备及存储介质
WO2021237550A1 (zh) * 2020-05-28 2021-12-02 深圳市欢太科技有限公司 文本处理方法、电子设备和计算机可读存储介质
CN111859878A (zh) * 2020-07-29 2020-10-30 广州易行信息技术有限公司 一种智能化的物料属性值填充方法

Similar Documents

Publication Publication Date Title
CN102043843A (zh) 一种用于基于目标应用获取目标词条的方法与获取设备
CN104573054B (zh) 一种信息推送方法和设备
CN102043845B (zh) 一种用于基于查询序列簇提取核心关键词的方法与设备
US10217058B2 (en) Predicting interesting things and concepts in content
CN104199965B (zh) 一种语义信息检索方法
CN107729336B (zh) 数据处理方法、设备及系统
CN104885081A (zh) 搜索系统和相应方法
CN103577416B (zh) 扩展查询方法及系统
CN106776881A (zh) 一种基于微博平台的领域信息推荐系统及方法
CN103186574A (zh) 一种搜索结果的生成方法和装置
WO2011054245A1 (zh) 移动搜索方法、装置和系统
CN108334489B (zh) 文本核心词识别方法和装置
CN103838756A (zh) 一种确定推送信息的方法及装置
CN107544988B (zh) 一种获取舆情数据的方法和装置
CN103678576A (zh) 基于动态语义分析的全文检索系统
JP6355840B2 (ja) ストップワード識別方法および装置
CN103049440A (zh) 一种相关文章的推荐处理方法和处理系统
CN107885717B (zh) 一种关键词提取方法及装置
CN102169501A (zh) 基于搜索结果对应文档的类型信息生成摘要的方法与设备
CN106126605B (zh) 一种基于用户画像的短文本分类方法
CN113886604A (zh) 一种职位知识图谱生成方法和系统
CN109063171B (zh) 基于语义的资源匹配方法
CN115905489A (zh) 一种提供招投标信息搜索服务的方法
CN111859079A (zh) 信息搜索方法、装置、计算机设备及存储介质
CN106933380B (zh) 一种词库的更新方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110504