CN104462360B - 一种为文本集合生成语义标识的方法和装置 - Google Patents

一种为文本集合生成语义标识的方法和装置 Download PDF

Info

Publication number
CN104462360B
CN104462360B CN201410743203.XA CN201410743203A CN104462360B CN 104462360 B CN104462360 B CN 104462360B CN 201410743203 A CN201410743203 A CN 201410743203A CN 104462360 B CN104462360 B CN 104462360B
Authority
CN
China
Prior art keywords
text
candidate semantic
identifier
candidate
user behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410743203.XA
Other languages
English (en)
Other versions
CN104462360A (zh
Inventor
杨诗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410743203.XA priority Critical patent/CN104462360B/zh
Publication of CN104462360A publication Critical patent/CN104462360A/zh
Application granted granted Critical
Publication of CN104462360B publication Critical patent/CN104462360B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/221Parsing markup language streams

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种为文本集合生成语义标识的方法和装置,所述方法包括以下步骤:对文本集合中的每一个文本进行分词、单字合并、排列组合中的至少一个,以获得每一个文本相对应的候选语义标识;根据所述候选语义标识的文本特征、用户行为特征、以及长度L,确定每一个候选语义标识的优先级;以及将优先级最高的一个或多个候选语义标识确定为所述文本集合的正式语义标识。

Description

一种为文本集合生成语义标识的方法和装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种为文本集合生成语义标识的方法和装置。
背景技术
目前,在互联网领域,为了更好的了解用户的需求和兴趣,经常需要对各类短文本进行分类,针对每个短文本集合,通过对该文本集合中的文本进行分析,生成与该文本集合对应的语义标识,并为每一个文本集合打上相对应的语义标识。如某个衬衫集合打上“衬衫女”/“衬衫男”等语义标识;如针对某鞋类,打上“豆豆鞋女”或“牛津鞋”等语义标识。但是由于文本类别繁多,数以万计,通过传统方法对每一种文本集合打上相应的语义标识,效率较低,速度缓慢。
发明内容
鉴于上述问题,提出了本发明,以便提供一种克服上述问题或者至少部分地解决上述问题的为文本集合生成语义标识的方法和装置。
依据本发明的第一方面,提供了一种为文本集合生成语义标识的方法,包括步骤:对文本集合中的每一个文本进行分词、单字合并、排列组合中的至少一个,以获得每一个文本相对应的候选语义标识;根据所述候选语义标识的文本特征、用户行为特征、以及长度L,确定每一个候选语义标识的优先级;以及将优先级最高的一个或多个候选语义标识确定为所述文本集合的正式语义标识。
可选地,在根据本发明的实施例的为文本集合生成语义标识的方法中,所述对文本集合中的每一个文本进行分词、单字合并、排列组合中的至少一个,以获得每一个文本相对应的候选语义标识的步骤包括以下中的至少一个:对所述文本集合中的每一个文本进行分词,以获得每一个文本相对应的第一组分词;将所述每一个文本相对应的第一组分词中的连续两个或更多个单字分词分别合并为一个分词,以获得与每一个文本相对应的第二组分词;以及将所述每一个文本对应的第一组分词或第二组分词中的各个分词进行排列组合,以获得每一个文本相对应的候选语义标识。
可选地,在根据本发明的实施例的为文本集合生成语义标识的方法中,在获得每一个文本相对应的候选语义标识之后,所述方法还包括步骤:从候选语义标识中删除单字候选语义标识;判断组成候选语义标识的首分词或尾分词是否为单字;在判断为是的情况下,进一步判断所述单字是否位于与所述候选语义标识相对应的第二组分词中的非首字或非尾字;以及在判断为是的情况下,删除所述候选语义标识。
可选地,在根据本发明的实施例的为文本集合生成语义标识的方法中,在获得每一个文本相对应的候选语义标识之后,所述方法还包括步骤:将所述文本集合中所有文本相对应的每一个候选语义标识与所述每一个文本进行匹配,以确定对于每一个候选语义标识匹配成功的文本数量N,以作为该候选语义标识的文本特征;以及根据用户行为日志,统计每一个候选语义标识所在的文本在用户行为中所涉及的频次M,以作为该候选语义标识的用户行为特征。
可选地,在根据本发明的实施例的为文本集合生成语义标识的方法中,所述候选语义标识的优先级与所述文本数量N、频次M、以及长度L正相关。
可选地,在根据本发明的实施例的为文本集合生成语义标识的方法中,将所述文本集合中所有文本相对应的每一个候选语义标识与所述每一个文本进行匹配的步骤包括:判断所述候选语义标识中的每个单字是否都包含在文本中、并且每个单字在所述候选语义标识中出现的次数是否小于所述单字在所述文本中出现的次数,如果两个判断结果均为是,则确定所述语义标识与所述文本匹配。
可选地,在根据本发明的实施例的为文本集合生成语义标识的方法中,所述根据用户行为日志,统计每一个候选语义标识所在的文本在用户行为中所涉及的频次M的步骤包括:根据所述用户行为日志,统计每一个候选语义标识所在的文本被用户输入进行查询的频次、被用户点击的频次,以确定所述文本在用户行为中所涉及的频次M。
可选地,在根据本发明的实施例的为文本集合生成语义标识的方法中,所述根据 所述候选语义标识的文本特征、用户行为特征、以及长度L,确定每一个候选语义标识的优 先级的步骤包括:根据所述匹配成功的文本数量N、频次M、以及候选语义标识的长度L,通过 以下公式确定每一个候选语义标识的优先级P:
Figure BDA0000626398680000031
依据本发明的第二方面,提供了一种为文本集合生成语义标识的装置,包括:候选语义标识获得模块,用于对文本集合中的每一个文本进行分词、单字合并、排列组合中的至少一个,以获得每一个文本相对应的候选语义标识;优先级确定模块,用于根据所述候选语义标识的文本特征、用户行为特征、以及长度L,确定每一个候选语义标识的优先级;以及正式语义标识确定模块,用于将优先级最高的一个或多个候选语义标识确定为所述文本集合的正式语义标识。
可选地,在根据本发明的实施例的为文本集合生成语义标识的装置中,所述候选语义标识获得模块用于执行以下中的至少一个:对所述文本集合中的每一个文本进行分词,以获得每一个文本相对应的第一组分词;将所述每一个文本相对应的第一组分词中的连续两个或更多个单字分词分别合并为一个分词,以获得与每一个文本相对应的第二组分词;以及将所述每一个文本对应的第一组分词或第二组分词中的各个分词进行排列组合,以获得每一个文本相对应的候选语义标识。
可选地,在根据本发明的实施例的为文本集合生成语义标识的装置中,还包括候选语义标识筛选模块,用于在所述候选语义标识获得模块获得每一个文本相对应的候选语义标识之后:从候选语义标识中删除单字候选语义标识;判断组成候选语义标识的首分词或尾分词是否为单字;在判断为是的情况下,进一步判断所述单字是否位于与所述候选语义标识相对应的第二组分词中的非首字或非尾字;以及在判断为是的情况下,删除所述候选语义标识。
可选地,在根据本发明的实施例的为文本集合生成语义标识的装置中,还包括文本特征和用户行为特征获得模块,用于在所述候选语义标识获得模块获得每一个文本相对应的候选语义标识之后:将所述文本集合中所有文本相对应的每一个候选语义标识与所述每一个文本进行匹配,以确定对于每一个候选语义标识匹配成功的文本数量N,以作为该候选语义标识的文本特征;以及根据用户行为日志,统计每一个候选语义标识所在的文本在用户行为中所涉及的频次M,以作为该候选语义标识的用户行为特征。
可选地,在根据本发明的实施例的为文本集合生成语义标识的装置中,所述候选语义标识的优先级与所述文本数量N、频次M、以及长度L正相关。
可选地,在根据本发明的实施例的为文本集合生成语义标识的装置中,所述文本特征和用户行为特征获得模块用于:判断所述候选语义标识中的每个单字是否都包含在文本中、并且每个单字在所述候选语义标识中出现的次数是否小于所述单字在所述文本中出现的次数,如果两个判断结果均为是,则确定所述语义标识与所述文本匹配。
可选地,在根据本发明的实施例的为文本集合生成语义标识的装置中,所述文本特征和用户行为特征获得模块用于:根据所述用户行为日志,统计每一个候选语义标识所在的文本被用户输入进行查询的频次、被用户点击的频次,以确定所述文本在用户行为中所涉及的频次M。
可选地,在根据本发明的实施例的为文本集合生成语义标识的装置中,所述优先 级确定模块用于:根据所述匹配成功的文本数量N、频次M、以及候选语义标识的长度L,通过 以下公式确定每一个候选语义标识的优先级P:
Figure BDA0000626398680000041
本发明提供了上述为文本集合生成语义标识的方法和装置。根据本发明的实施例,可以对文本集合中的每一个文本进行分词、单字合并、排列组合中的至少一个,以获得每一个文本相对应的候选语义标识,并根据所述候选语义标识的文本特征、用户行为特征、以及长度L,确定每一个候选语义标识的优先级,然后,将优先级最高的一个或多个候选语义标识确定为所述文本集合的正式语义标识。由此,相对于现有技术中为文本集合或类别生成语义标识的方案,极大地提高了效率,并且能够适应任何新出现或新领域的文本集合或类别,为其生成适当的语义标识。此外,由于在确定候选语义标识的优先级时还考虑了候选语义标识的用户行为特征,能够使得最终确定的正式语义标识更准确,更能够符合用户的实际需求。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是根据本发明的实施例的为文本集合生成语义标识的方法的流程图;以及
图2是根据本发明的实施例的为文本集合生成语义标识的装置以及服务器的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
根据本发明的第一方面,提供了一种为文本集合生成语义标识的方法。图1示出了根据本发明的实施例的为文本集合生成语义标识的方法100的流程图。
如图1所示,所述方法100始于步骤S110,在步骤S110中,对文本集合中的每一个文本进行分词、单字合并、排列组合中的至少一个,以获得每一个文本相对应的候选语义标识。
根据本发明的实施例,所述步骤S110可以包括以下子步骤中的至少一个:
对所述文本集合中的每一个文本进行分词,以获得每一个文本相对应的第一组分词(子步骤S112);
将所述每一个文本相对应的第一组分词中的连续两个或更多个单字分词分别合并为一个分词,以获得与每一个文本相对应的第二组分词(子步骤S114);以及;
将所述每一个文本对应的第一组分词或第二组分词中的各个分词进行排列组合,以获得每一个文本相对应的候选语义标识(子步骤S116)。
在上述子步骤S112中,可以对所述文本集合中的每一个文本进行分词,以获得每一个文本相对应的第一组分词。可选地,可以采用本领域中的任何分词技术来对于文本集合中的每一个文本进行分词。例如,某一文本内容为“望京世界百货豆豆鞋专卖店”,对该文本进行分词后,得到一组分词为:“望京”、“世界”、“百货”、“豆”、“豆”、“鞋”、“专卖店”。举出此示例是为了帮助读者更容易地理解本发明的原理,而非意在以任何形式限制本发明的范围。本发明的范围不限于此,而是可以应用于任何文本集合和文本内容。
在上述子步骤S114中,将所述每一个文本相对应的第一组分词中的连续两个或更多个单字分词分别合并为一个分词,以获得与每一个文本相对应的第二组分词。根据本发明的实施例,若第一组分词中存在连续n个分词均为单字,则将该n个连续的单字合并成一个分词,其中n大于等于2,以得到第二组分词。承接前述例子,该组分词中存在连续3个单字“豆”、“豆”、“鞋”,则将该3个单字合并为一个分词“豆豆鞋”,因此,可以得到第二组分词为:“望京”、“世界”、“百货”、“豆豆鞋”、“专卖店”。
在上述子步骤S116中,将所述每一个文本对应的第一组分词或第二组分词中的各个分词进行排列组合,以获得每一个文本相对应的候选语义标识。根据本发明的实施例,以对上述第二组分词中的各个分词进行排列组合为例,可以遍历第二组分词中的每一个分词,将当前遍历的分词作为一个候选语义标识,再以该当前遍历的分词作为组合分词的首分词,将该当前遍历的分词后面的每一个分词分别作为组合分词的尾分词,针对每一个尾分词,将前述首分词+中间分词(其中中间分词为位于首分词与该尾分词之间的分词)+尾分词,作为一个组合分词,将该组合分词作为候选语义标识;以此类推,直到遍历完第二组分词中的所有分词。承接上述例子,遍历第二组分词,首先遍历“望京”,将“望京”本身作为候选语义标识,将组合分词“望京世界”、“望京世界百货”、“望京世界百货豆豆鞋”、“望京世界百货豆豆鞋专卖店”作为候选语义标识;遍历下一个分词“世界”,将“世界”本身作为一候选语义标识,将组合分词“世界百货”、“世界百货豆豆鞋”、“世界百货豆豆鞋专卖店”作为候选语义标识依次遍历,直到遍历完“专卖店”为止。可以将按照上述步骤获得的所有语义标识作为所述文本相对应的候选语义标识。
根据本发明的一种可选的实施例,在执行上述步骤S110之后,所述方法可以包括以下可选步骤:从候选语义标识中删除单字候选语义标识;判断组成候选语义标识的首分词或尾分词是否为单字;在判断为是的情况下,进一步判断所述单字是否位于与所述候选语义标识相对应的第二组分词中的非首字或非尾字;以及在判断为是的情况下,删除所述候选语义标识。上述可选步骤的目的主要是从候选语义标识中滤除无效的语义标识。
如图1所示,在所述步骤S110之后,执行步骤S130,其中,根据所述候选语义标识的文本特征、用户行为特征、以及长度L,确定每一个候选语义标识的优先级。
根据本发明的实施例,在执行上述步骤S110之后、步骤S130之前,可以执行以下步骤:将所述文本集合中所有文本相对应的每一个候选语义标识与所述每一个文本进行匹配,以确定对于每一个候选语义标识匹配成功的文本数量N,以作为该候选语义标识的文本特征;以及根据用户行为日志,统计每一个候选语义标识所在的文本在用户行为中所涉及的频次M,以作为该候选语义标识的用户行为特征。即,在上述实施例中,候选语义标识的文本特征为对于该候选语义标识匹配成功的文本数量N,而候选语义标识的用户行为特征为该候选语义标识所在的文本在用户行为中所涉及的频次M。
根据本发明的实施例,上述将所述文本集合中所有文本相对应的每一个候选语义标识与所述每一个文本进行匹配的步骤包括:判断所述候选语义标识中的每个单字是否都包含在文本中、并且每个单字在所述候选语义标识中出现的次数是否小于所述单字在所述文本中出现的次数,如果两个判断结果均为是,则确定所述语义标识与所述文本匹配。承接上述例子,假设候选语义标识为“豆豆鞋”,则其完全包含在文本“豆豆鞋女士”中,与该文本匹配,但不完全包含在“豆鞋女士”中,与该文本不匹配。由此,可以得到对于每一个候选语义标识匹配成功的文本数量N,以作为该候选语义标识的文本特征。
根据本发明的实施例,上述根据用户行为日志统计每一个候选语义标识所在的文本在用户行为中所涉及的频次M的步骤包括:根据所述用户行为日志,统计每一个候选语义标识所在的文本被用户输入进行查询的频次、被用户点击的频次,以确定所述文本在用户行为中所涉及的频次M。可选地,文本在用户行为中涉及可以包括以下几种情况:情况1,用户输入该候选语义标识所在的文本,将该文本作为查询关键词;情况2,用户通过点击(如单击/双击)或其它方式(比如用户点击链接后显示的网页的标题为该候选语义标识所在的文本)触发该候选语义标识所在的文本,例如,文本1为“豆豆鞋女”,文本2为“豆豆鞋男”,候选语义标识为“豆豆鞋”,根据所有的用户行为日志统计得到:用户在输入框中输入“豆豆鞋女”的次数为n1,输入框中输入“豆豆鞋男”的次数为n2,用户通过点击“豆豆鞋女”的次数为n3,点击“豆豆鞋男”的次数为n4,采用其他方式触发“豆豆鞋女”的次数为n5,采用其他方式触发“豆豆鞋男”的次数为n5,则统计得到该候选语义标识“豆豆鞋”被用户选中的总频次为(n1+n2+n3+n4+n5+n6)。可选地,可以将上述情况1和情况2中的次数相加,以得到每一个候选语义标识所在的文本在用户行为中所涉及的频次M,以作为该候选语义标识的用户行为特征。
根据本发明的实施例,所述候选语义标识的优先级可以与所述文本数量N、频次M、 以及长度L正相关。在一种实施例中,所述根据所述候选语义标识的文本特征、用户行为特 征、以及长度L,确定每一个候选语义标识的优先级的步骤可以包括:根据所述匹配成功的 文本数量N、频次M、以及候选语义标识的长度L,通过以下公式确定每一个候选语义标识的 优先级P:
Figure BDA0000626398680000081
本领域技术人员能够理解:通过上述公 式确定每一个候选语义标识的优先级P的方式仅为本发明的一种实施例,本发明的范围不 限于此,只要能够根据所述候选语义标识的文本特征、用户行为特征、以及长度L,确定每一 个候选语义标识的优先级,都符合本发明的原理,落入本发明的范围内。
如图1所示,在步骤S120之后,执行步骤S130,其中,将优先级最高的一个或多个候选语义标识确定为所述文本集合的正式语义标识。可选地,可以将优先级最高的一个候选语义标识确定为所述文本集合的正式语义标识,也可以将优先级最高的多个候选语义标识确定为所述文本集合的正式语义标识。
根据本发明的第二方面,与上述方法100相对应,本发明还提供了一种为文本集合生成语义标识的装置200。图2是根据本发明的实施例的为文本集合生成语义标识的装置200以及服务器300的结构示意图。
如图2所示,所述装置200主要包括候选语义标识获得模块210、优先级确定模块220、正式语义标识确定模块230。根据本发明的实施例,所述候选语义标识获得模块210用于对文本集合中的每一个文本进行分词、单字合并、排列组合中的至少一个,以获得每一个文本相对应的候选语义标识;所述优先级确定模块220用于根据所述候选语义标识的文本特征、用户行为特征、以及长度L,确定每一个候选语义标识的优先级;所述正式语义标识确定模块230用于将优先级最高的一个或多个候选语义标识确定为所述文本集合的正式语义标识。
首先,所述候选语义标识获得模块210对文本集合中的每一个文本进行分词、单字合并、排列组合中的至少一个,以获得每一个文本相对应的候选语义标识。
根据本发明的实施例,所述候选语义标识获得模块210可以执行以下操作中的至少一个:
对所述文本集合中的每一个文本进行分词,以获得每一个文本相对应的第一组分词;
将所述每一个文本相对应的第一组分词中的连续两个或更多个单字分词分别合并为一个分词,以获得与每一个文本相对应的第二组分词;以及;
将所述每一个文本对应的第一组分词或第二组分词中的各个分词进行排列组合,以获得每一个文本相对应的候选语义标识。
根据本发明的实施例,首先,所述候选语义标识获得模块210可以对所述文本集合中的每一个文本进行分词,以获得每一个文本相对应的第一组分词。可选地,所述候选语义标识获得模块210可以采用本领域中的任何分词技术来对于文本集合中的每一个文本进行分词。例如,某一文本内容为“望京世界百货豆豆鞋专卖店”,所述候选语义标识获得模块210对该文本进行分词后,得到一组分词为:“望京”、“世界”、“百货”、“豆”、“豆”、“鞋”、“专卖店”。举出此示例是为了帮助读者更容易地理解本发明的原理,而非意在以任何形式限制本发明的范围。本发明的范围不限于此,而是可以应用于任何文本集合和文本内容。
随后,所述候选语义标识获得模块210可以将所述每一个文本相对应的第一组分词中的连续两个或更多个单字分词分别合并为一个分词,以获得与每一个文本相对应的第二组分词。根据本发明的实施例,若第一组分词中存在连续n个分词均为单字,则所述候选语义标识获得模块210将该n个连续的单字合并成一个分词,其中n大于等于2,以得到第二组分词。承接前述例子,该组分词中存在连续3个单字“豆”、“豆”、“鞋”,则将该3个单字合并为一个分词“豆豆鞋”,因此,可以得到第二组分词为:“望京”、“世界”、“百货”、“豆豆鞋”、“专卖店”。
之后,所述候选语义标识获得模块210将所述每一个文本对应的第一组分词或第二组分词中的各个分词进行排列组合,以获得每一个文本相对应的候选语义标识。根据本发明的实施例,以对上述第二组分词中的各个分词进行排列组合为例,所述候选语义标识获得模块210可以遍历第二组分词中的每一个分词,将当前遍历的分词作为一个候选语义标识,再以该当前遍历的分词作为组合分词的首分词,将该当前遍历的分词后面的每一个分词分别作为组合分词的尾分词,针对每一个尾分词,所述候选语义标识获得模块210可以将前述首分词+中间分词(其中中间分词为位于首分词与该尾分词之间的分词)+尾分词作为一个组合分词,将该组合分词作为候选语义标识;以此类推,直到遍历完第二组分词中的所有分词。承接上述例子,遍历第二组分词,所述候选语义标识获得模块210首先遍历“望京”,将“望京”本身作为候选语义标识,将组合分词“望京世界”、“望京世界百货”、“望京世界百货豆豆鞋”、“望京世界百货豆豆鞋专卖店”作为候选语义标识;所述候选语义标识获得模块210遍历下一个分词“世界”,将“世界”本身作为一候选语义标识,将组合分词“世界百货”、“世界百货豆豆鞋”、“世界百货豆豆鞋专卖店”作为候选语义标识依次遍历,直到遍历完“专卖店”为止。所述候选语义标识获得模块210可以将按照上述操作获得的所有语义标识作为所述文本相对应的候选语义标识。
根据本发明的一种可选的实施例,所述装置200还可以包括可选模块---候选语义标识筛选模块,用于在所述候选语义标识获得模块210获得每一个文本相对应的候选语义标识之后:从候选语义标识中删除单字候选语义标识;判断组成候选语义标识的首分词或尾分词是否为单字;在判断为是的情况下,进一步判断所述单字是否位于与所述候选语义标识相对应的第二组分词中的非首字或非尾字;以及在判断为是的情况下,删除所述候选语义标识。上述可选模块的功能主要是从候选语义标识中滤除无效的语义标识。
之后,所述优先级确定模块220根据所述候选语义标识的文本特征、用户行为特征、以及长度L,确定每一个候选语义标识的优先级。
根据本发明的实施例,所述装置200还可以包括文本特征和用户行为特征获得模块,用于在所述候选语义标识获得模块210获得每一个文本相对应的候选语义标识之后、在所述优先级确定模块220确定每一个候选语义标识的优先级之前,将所述文本集合中所有文本相对应的每一个候选语义标识与所述每一个文本进行匹配,以确定对于每一个候选语义标识匹配成功的文本数量N,以作为该候选语义标识的文本特征;以及根据用户行为日志,统计每一个候选语义标识所在的文本在用户行为中所涉及的频次M,以作为该候选语义标识的用户行为特征。即,在上述实施例中,候选语义标识的文本特征为对于该候选语义标识匹配成功的文本数量N,而候选语义标识的用户行为特征为该候选语义标识所在的文本在用户行为中所涉及的频次M。
根据本发明的实施例,所述文本特征和用户行为特征获得模块的上述将所述文本集合中所有文本相对应的每一个候选语义标识与所述每一个文本进行匹配的操作包括:判断所述候选语义标识中的每个单字是否都包含在文本中、并且每个单字在所述候选语义标识中出现的次数是否小于所述单字在所述文本中出现的次数,如果两个判断结果均为是,所述文本特征和用户行为特征获得模块则确定所述语义标识与所述文本匹配。承接上述例子,假设候选语义标识为“豆豆鞋”,则其完全包含在文本“豆豆鞋女士”中,与该文本匹配,但不完全包含在“豆鞋女士”中,与该文本不匹配。由此,所述文本特征和用户行为特征获得模块可以得到对于每一个候选语义标识匹配成功的文本数量N,以作为该候选语义标识的文本特征。
根据本发明的实施例,所述文本特征和用户行为特征获得模块的上述根据用户行为日志统计每一个候选语义标识所在的文本在用户行为中所涉及的频次M的操作包括:根据所述用户行为日志,统计每一个候选语义标识所在的文本被用户输入进行查询的频次、被用户点击的频次,以确定所述文本在用户行为中所涉及的频次M。可选地,文本在用户行为中涉及可以包括以下几种情况:情况1,用户输入该候选语义标识所在的文本,将该文本作为查询关键词;情况2,用户通过点击(如单击/双击)或其它方式(比如用户点击链接后显示的网页的标题为该候选语义标识所在的文本)触发该候选语义标识所在的文本,例如,文本1为“豆豆鞋女”,文本2为“豆豆鞋男”,候选语义标识为“豆豆鞋”,根据所有的用户行为日志统计得到:用户在输入框中输入“豆豆鞋女”的次数为n1,输入框中输入“豆豆鞋男”的次数为n2,用户通过点击“豆豆鞋女”的次数为n3,点击“豆豆鞋男”的次数为n4,采用其他方式触发“豆豆鞋女”的次数为n5,采用其他方式触发“豆豆鞋男”的次数为n5,则统计得到该候选语义标识“豆豆鞋”被用户选中的总频次为(n1+n2+n3+n4+n5+n6)。可选地,所述文本特征和用户行为特征获得模块可以将上述情况1和情况2中的次数相加,以得到每一个候选语义标识所在的文本在用户行为中所涉及的频次M,以作为该候选语义标识的用户行为特征。
根据本发明的实施例,所述候选语义标识的优先级可以与所述文本数量N、频次M、 以及长度L正相关。在一种实施例中,所述优先级确定模块220可以根据所述匹配成功的文 本数量N、频次M、以及候选语义标识的长度L,通过以下公式确定每一个候选语义标识的优 先级P:本领域技术人员能够理解:所述优先级确 定模块220通过上述公式确定每一个候选语义标识的优先级P的方式仅为本发明的一种实 施例,本发明的范围不限于此,只要能够根据所述候选语义标识的文本特征、用户行为特 征、以及长度L,确定每一个候选语义标识的优先级,都符合本发明的原理,落入本发明的范 围内。
然后,所述正式语义标识确定模块230将优先级最高的一个或多个候选语义标识确定为所述文本集合的正式语义标识。可选地,所述正式语义标识确定模块230可以将优先级最高的一个候选语义标识确定为所述文本集合的正式语义标识,也可以将优先级最高的多个候选语义标识确定为所述文本集合的正式语义标识。
本发明提供了上述为文本集合生成语义标识的方法和装置。根据本发明的实施例,可以对文本集合中的每一个文本进行分词、单字合并、排列组合中的至少一个,以获得每一个文本相对应的候选语义标识,并根据所述候选语义标识的文本特征、用户行为特征、以及长度L,确定每一个候选语义标识的优先级,然后,将优先级最高的一个或多个候选语义标识确定为所述文本集合的正式语义标识。由此,相对于现有技术中为文本集合或类别生成语义标识的方案,极大地提高了效率,并且能够适应任何新出现或新领域的文本集合或类别,为其生成适当的语义标识。此外,由于在确定候选语义标识的优先级时还考虑了候选语义标识的用户行为特征,能够使得最终确定的正式语义标识更准确,更能够符合用户的实际需求。
在此提供的方法和装置不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的装置中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个装置中。可以把实施例中的若干模块组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者模块中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个装置实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的装置中的一些或者全部模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明还公开了:
A1.一种为文本集合生成语义标识的方法,包括步骤:
对文本集合中的每一个文本进行分词、单字合并、排列组合中的至少一个,以获得每一个文本相对应的候选语义标识;
根据所述候选语义标识的文本特征、用户行为特征、以及长度L,确定每一个候选语义标识的优先级;以及
将优先级最高的一个或多个候选语义标识确定为所述文本集合的正式语义标识。
A2.如权利要求A1所述的方法,其中所述对文本集合中的每一个文本进行分词、单字合并、排列组合中的至少一个,以获得每一个文本相对应的候选语义标识的步骤包括以下中的至少一个:
对所述文本集合中的每一个文本进行分词,以获得每一个文本相对应的第一组分词;
将所述每一个文本相对应的第一组分词中的连续两个或更多个单字分词分别合并为一个分词,以获得与每一个文本相对应的第二组分词;以及
将所述每一个文本对应的第一组分词或第二组分词中的各个分词进行排列组合,以获得每一个文本相对应的候选语义标识。
A3.如权利要求A1所述的方法,其中在获得每一个文本相对应的候选语义标识之后,所述方法还包括步骤:
从候选语义标识中删除单字候选语义标识;
判断组成候选语义标识的首分词或尾分词是否为单字;
在判断为是的情况下,进一步判断所述单字是否位于与所述候选语义标识相对应的第二组分词中的非首字或非尾字;以及
在判断为是的情况下,删除所述候选语义标识。
A4.如权利要求A1至A3中的任一项所述的方法,其中在获得每一个文本相对应的候选语义标识之后,所述方法还包括步骤:
将所述文本集合中所有文本相对应的每一个候选语义标识与所述每一个文本进行匹配,以确定对于每一个候选语义标识匹配成功的文本数量N,以作为该候选语义标识的文本特征;以及
根据用户行为日志,统计每一个候选语义标识所在的文本在用户行为中所涉及的频次M,以作为该候选语义标识的用户行为特征。
A5.如权利要求A4所述的方法,其中所述候选语义标识的优先级与所述文本数量N、频次M、以及长度L正相关。
A6.如权利要求A4所述的方法,其中将所述文本集合中所有文本相对应的每一个候选语义标识与所述每一个文本进行匹配的步骤包括:
判断所述候选语义标识中的每个单字是否都包含在文本中、并且每个单字在所述候选语义标识中出现的次数是否小于所述单字在所述文本中出现的次数,如果两个判断结果均为是,则确定所述语义标识与所述文本匹配。
A7.如权利要求A4所述的方法,其中所述根据用户行为日志,统计每一个候选语义标识所在的文本在用户行为中所涉及的频次M的步骤包括:
根据所述用户行为日志,统计每一个候选语义标识所在的文本被用户输入进行查询的频次、被用户点击的频次,以确定所述文本在用户行为中所涉及的频次M。
A8.如权利要求A4所述的方法,其中所述根据所述候选语义标识的文本特征、用户行为特征、以及长度L,确定每一个候选语义标识的优先级的步骤包括:
根据所述匹配成功的文本数量N、频次M、以及候选语义标识的长度L,通过以下公式确定每一个候选语义标识的优先级P:
B9.一种为文本集合生成语义标识的装置,包括:
候选语义标识获得模块,用于对文本集合中的每一个文本进行分词、单字合并、排列组合中的至少一个,以获得每一个文本相对应的候选语义标识;
优先级确定模块,用于根据所述候选语义标识的文本特征、用户行为特征、以及长度L,确定每一个候选语义标识的优先级;以及
正式语义标识确定模块,用于将优先级最高的一个或多个候选语义标识确定为所述文本集合的正式语义标识。
B10.如权利要求B9所述的装置,其中所述候选语义标识获得模块用于执行以下中的至少一个:
对所述文本集合中的每一个文本进行分词,以获得每一个文本相对应的第一组分词;
将所述每一个文本相对应的第一组分词中的连续两个或更多个单字分词分别合并为一个分词,以获得与每一个文本相对应的第二组分词;以及
将所述每一个文本对应的第一组分词或第二组分词中的各个分词进行排列组合,以获得每一个文本相对应的候选语义标识。
B11.如权利要求B9所述的装置,还包括候选语义标识筛选模块,用于在所述候选语义标识获得模块获得每一个文本相对应的候选语义标识之后:
从候选语义标识中删除单字候选语义标识;
判断组成候选语义标识的首分词或尾分词是否为单字;
在判断为是的情况下,进一步判断所述单字是否位于与所述候选语义标识相对应的第二组分词中的非首字或非尾字;以及
在判断为是的情况下,删除所述候选语义标识。
B12.如权利要求B9至B11中的任一项所述的装置,还包括文本特征和用户行为特征获得模块,用于在所述候选语义标识获得模块获得每一个文本相对应的候选语义标识之后:
将所述文本集合中所有文本相对应的每一个候选语义标识与所述每一个文本进行匹配,以确定对于每一个候选语义标识匹配成功的文本数量N,以作为该候选语义标识的文本特征;以及
根据用户行为日志,统计每一个候选语义标识所在的文本在用户行为中所涉及的频次M,以作为该候选语义标识的用户行为特征。
B13.如权利要求B12所述的装置,其中所述候选语义标识的优先级与所述文本数量N、频次M、以及长度L正相关。
B14.如权利要求B12所述的装置,其中所述文本特征和用户行为特征获得模块用于:
判断所述候选语义标识中的每个单字是否都包含在文本中、并且每个单字在所述候选语义标识中出现的次数是否小于所述单字在所述文本中出现的次数,如果两个判断结果均为是,则确定所述语义标识与所述文本匹配。
B15.如权利要求B12所述的装置,其中所述文本特征和用户行为特征获得模块用于:
根据所述用户行为日志,统计每一个候选语义标识所在的文本被用户输入进行查询的频次、被用户点击的频次,以确定所述文本在用户行为中所涉及的的频次M。
B16.如权利要求B8所述的装置,其中所述优先级确定模块用于:
根据所述匹配成功的文本数量N、频次M、以及候选语义标识的长度L,通过以下公式确定每一个候选语义标识的优先级P:

Claims (16)

1.一种为文本集合生成语义标识的方法,包括步骤:
对文本集合中的每一个文本进行分词、单字合并、排列组合中的至少一个,以获得每一个文本相对应的候选语义标识;
将所述文本集合中所有文本相对应的每一个候选语义标识与所述每一个文本进行匹配,以确定对于每一个候选语义标识匹配成功的文本数量N,以作为该候选语义标识的文本特征;
根据所述候选语义标识的文本特征、所述候选语义标识的用户行为特征、以及所述候选语义标识的长度L,确定每一个候选语义标识的优先级;以及
将优先级最高的一个或多个候选语义标识确定为所述文本集合的正式语义标识。
2.如权利要求1所述的方法,其中所述对文本集合中的每一个文本进行分词、单字合并、排列组合中的至少一个,以获得每一个文本相对应的候选语义标识的步骤包括以下中的至少一个:
对所述文本集合中的每一个文本进行分词,以获得每一个文本相对应的第一组分词;
将所述每一个文本相对应的第一组分词中的连续两个或更多个单字分词分别合并为一个分词,以获得与每一个文本相对应的第二组分词;以及
将所述每一个文本对应的第一组分词或第二组分词中的各个分词进行排列组合,以获得每一个文本相对应的候选语义标识。
3.如权利要求2所述的方法,其中在获得每一个文本相对应的候选语义标识之后,所述方法还包括步骤:
从候选语义标识中删除单字候选语义标识;
判断组成候选语义标识的首分词或尾分词是否为单字;
在判断为是的情况下,进一步判断所述单字是否位于与所述候选语义标识相对应的第二组分词中的非首字或非尾字;以及
在判断为是的情况下,删除所述候选语义标识。
4.如权利要求1至3中的任一项所述的方法,其中在获得每一个文本相对应的候选语义标识之后,所述方法还包括步骤:
根据用户行为日志,统计每一个候选语义标识所在的文本在用户行为中所涉及的频次M,以作为该候选语义标识的用户行为特征。
5.如权利要求4所述的方法,其中所述候选语义标识的优先级与所述文本数量N、频次M、以及长度L正相关。
6.如权利要求4所述的方法,其中将所述文本集合中所有文本相对应的每一个候选语义标识与所述每一个文本进行匹配的步骤包括:
判断所述候选语义标识中的每个单字是否都包含在文本中、并且每个单字在所述候选语义标识中出现的次数是否小于所述单字在所述文本中出现的次数,如果两个判断结果均为是,则确定所述候选语义标识与所述文本匹配。
7.如权利要求4所述的方法,其中所述根据用户行为日志,统计每一个候选语义标识所在的文本在用户行为中所涉及的频次M的步骤包括:
根据所述用户行为日志,统计每一个候选语义标识所在的文本被用户输入进行查询的频次、被用户点击的频次,以确定所述文本在用户行为中所涉及的频次M。
8.如权利要求4所述的方法,其中所述根据所述候选语义标识的文本特征、用户行为特征、以及长度L,确定每一个候选语义标识的优先级的步骤包括:
根据所述匹配成功的文本数量N、频次M、以及候选语义标识的长度L,通过以下公式确定每一个候选语义标识的优先级P:
Figure FDA0002205013610000021
9.一种为文本集合生成语义标识的装置,包括:
候选语义标识获得模块,用于对文本集合中的每一个文本进行分词、单字合并、排列组合中的至少一个,以获得每一个文本相对应的候选语义标识;
文本特征和用户行为特征获得模块,用于在所述候选语义标识获得模块获得每一个文本相对应的候选语义标识之后,将所述文本集合中所有文本相对应的每一个候选语义标识与所述每一个文本进行匹配,以确定对于每一个候选语义标识匹配成功的文本数量N,以作为该候选语义标识的文本特征;
优先级确定模块,用于根据所述候选语义标识的文本特征、所述候选语义标识的用户行为特征、以及所述候选语义标识的长度L,确定每一个候选语义标识的优先级;以及
正式语义标识确定模块,用于将优先级最高的一个或多个候选语义标识确定为所述文本集合的正式语义标识。
10.如权利要求9所述的装置,其中所述候选语义标识获得模块用于执行以下中的至少一个:
对所述文本集合中的每一个文本进行分词,以获得每一个文本相对应的第一组分词;
将所述每一个文本相对应的第一组分词中的连续两个或更多个单字分词分别合并为一个分词,以获得与每一个文本相对应的第二组分词;以及
将所述每一个文本对应的第一组分词或第二组分词中的各个分词进行排列组合,以获得每一个文本相对应的候选语义标识。
11.如权利要求10所述的装置,还包括候选语义标识筛选模块,用于在所述候选语义标识获得模块获得每一个文本相对应的候选语义标识之后:
从候选语义标识中删除单字候选语义标识;
判断组成候选语义标识的首分词或尾分词是否为单字;
在判断为是的情况下,进一步判断所述单字是否位于与所述候选语义标识相对应的第二组分词中的非首字或非尾字;以及
在判断为是的情况下,删除所述候选语义标识。
12.如权利要求9至11中的任一项所述的装置,所述文本特征和用户行为特征获得模块还用于在所述候选语义标识获得模块获得每一个文本相对应的候选语义标识之后:
根据用户行为日志,统计每一个候选语义标识所在的文本在用户行为中所涉及的频次M,以作为该候选语义标识的用户行为特征。
13.如权利要求12所述的装置,其中所述候选语义标识的优先级与所述文本数量N、频次M、以及长度L正相关。
14.如权利要求12所述的装置,其中所述文本特征和用户行为特征获得模块用于:
判断所述候选语义标识中的每个单字是否都包含在文本中、并且每个单字在所述候选语义标识中出现的次数是否小于所述单字在所述文本中出现的次数,如果两个判断结果均为是,则确定所述候选语义标识与所述文本匹配。
15.如权利要求12所述的装置,其中所述文本特征和用户行为特征获得模块用于:
根据所述用户行为日志,统计每一个候选语义标识所在的文本被用户输入进行查询的频次、被用户点击的频次,以确定所述文本在用户行为中所涉及的频次M。
16.如权利要求12所述的装置,其中所述优先级确定模块用于:
根据所述匹配成功的文本数量N、频次M、以及候选语义标识的长度L,通过以下公式确定每一个候选语义标识的优先级P:
Figure FDA0002205013610000041
CN201410743203.XA 2014-12-05 2014-12-05 一种为文本集合生成语义标识的方法和装置 Expired - Fee Related CN104462360B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410743203.XA CN104462360B (zh) 2014-12-05 2014-12-05 一种为文本集合生成语义标识的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410743203.XA CN104462360B (zh) 2014-12-05 2014-12-05 一种为文本集合生成语义标识的方法和装置

Publications (2)

Publication Number Publication Date
CN104462360A CN104462360A (zh) 2015-03-25
CN104462360B true CN104462360B (zh) 2020-02-18

Family

ID=52908395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410743203.XA Expired - Fee Related CN104462360B (zh) 2014-12-05 2014-12-05 一种为文本集合生成语义标识的方法和装置

Country Status (1)

Country Link
CN (1) CN104462360B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145568A (zh) * 2017-05-04 2017-09-08 成都华栖云科技有限公司 一种快速的新闻事件聚类系统及方法
CN112699237B (zh) * 2020-12-24 2021-10-15 百度在线网络技术(北京)有限公司 标签确定方法、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206752A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 电子商务网站相关商品推荐系统及其方法
CN101315623A (zh) * 2007-05-29 2008-12-03 阿里巴巴集团控股有限公司 一种文本主题推荐方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2399427A (en) * 2003-03-12 2004-09-15 Canon Kk Apparatus for and method of summarising text
US20050198026A1 (en) * 2004-02-03 2005-09-08 Dehlinger Peter J. Code, system, and method for generating concepts
JP4815934B2 (ja) * 2005-08-02 2011-11-16 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム
CN103164471A (zh) * 2011-12-15 2013-06-19 盛乐信息技术(上海)有限公司 视频文本标签的推荐方法及系统
CN103198057B (zh) * 2012-01-05 2017-11-07 深圳市世纪光速信息技术有限公司 一种自动给文档添加标签的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315623A (zh) * 2007-05-29 2008-12-03 阿里巴巴集团控股有限公司 一种文本主题推荐方法和装置
CN101206752A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 电子商务网站相关商品推荐系统及其方法

Also Published As

Publication number Publication date
CN104462360A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
US9672251B1 (en) Extracting facts from documents
US20160364419A1 (en) Image and text data hierarchical classifiers
JP5449628B2 (ja) マルチステージを使用したカテゴリ情報の決定
CN103902674B (zh) 特定主题的评论数据的采集方法和装置
US20150295942A1 (en) Method and server for performing cloud detection for malicious information
CN103927309B (zh) 一种对业务对象标注信息标签的方法及装置
JP6203374B2 (ja) ウェブページ・スタイルアドレスの統合
CN108038161A (zh) 基于相册的信息推荐方法、装置及计算设备
CN104331438B (zh) 对小说网页内容选择性抽取方法和装置
JP2015507293A (ja) ウェブページ検索の方法及び装置
US10324965B2 (en) Techniques for suggesting patterns in unstructured documents
CN106547749B (zh) 网页数据采集的方法和装置
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
CN103617192B (zh) 一种数据对象的聚类方法和装置
CN106445963A (zh) App平台的广告索引关键词自动生成方法和装置
CN106547895B (zh) 一种网页信息的提取方法及装置
KR20170141246A (ko) 대상 검색 방법, 장치 및 서버
CN104462360B (zh) 一种为文本集合生成语义标识的方法和装置
CN106202050B (zh) 主题信息获取方法、装置和电子设备
CN103870495A (zh) 用于从网站中提取信息的方法和装置
CN104156458B (zh) 一种信息的提取方法及装置
CN104462282B (zh) 信息搜索方法和装置
CN106919603B (zh) 计算查询词模式中分词权重的方法和装置
CN105095203B (zh) 同义词的确定、搜索方法及服务器
CN105447191A (zh) 提供图文引导步骤的智能摘要方法及相应装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200218

Termination date: 20211205