CN104331472A - 分词训练数据的构造方法和装置 - Google Patents

分词训练数据的构造方法和装置 Download PDF

Info

Publication number
CN104331472A
CN104331472A CN201410608667.XA CN201410608667A CN104331472A CN 104331472 A CN104331472 A CN 104331472A CN 201410608667 A CN201410608667 A CN 201410608667A CN 104331472 A CN104331472 A CN 104331472A
Authority
CN
China
Prior art keywords
web page
query statement
user
page title
common characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410608667.XA
Other languages
English (en)
Other versions
CN104331472B (zh
Inventor
石磊
张开旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410608667.XA priority Critical patent/CN104331472B/zh
Publication of CN104331472A publication Critical patent/CN104331472A/zh
Application granted granted Critical
Publication of CN104331472B publication Critical patent/CN104331472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种分词训练数据的构造方法和装置。所述分词训练数据的构造方法包括:获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题;将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串;根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词。本发明实施例提供的分词训练数据的构造方法和装置丰富了分词训练数据的数据源,克服了分词训练数据的数据稀疏问题。

Description

分词训练数据的构造方法和装置
技术领域
本发明实施例涉及自然语言处理技术领域,尤其涉及一种分词训练数据的构造方法和装置。
背景技术
大部分的分词技术都需要基于后台的语料库。所以语料库中语料的标注质量决定着最终的分词结果的质量。目前,大部分的语料库中的语料数据的标注都是依靠人工完成的。对语料数据的人工标注对标注人员的业务素质要求较高,而且人工标注过程费时费力,造成对语料数据的分词效率低下。
有一种提高语料数据的分词效率的方案,就是以网页上的锚文本作为参考,对语料数据进行分词。比如,某网页上出现了文本“约翰·维恩是19世纪英国的哲学家和数学家”,其中“约翰·维恩”、“英国”、“哲学家”和“数学家”是锚文本。则应当以上述锚文本中出现的词作为分词后的词语对上述文本进行分词。但是,并不是所有语料数据都能够在互联网上找到内部含有锚文本数据的网页内容,所以这种方案的数据源非常有限。因此,如果完全依照这种方式获取分词训练数据,则得到的分词训练数据会有明显的数据稀疏问题。
发明内容
有鉴于此,本发明实施例提出一种分词训练数据的构造方法和装置,以丰富分词训练数据的数据源。
第一方面,本发明实施例提供了一种分词训练数据的构造方法,所述方法包括:
获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题;
将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串;
根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据。
第二方面,本发明实施例提供了一种分词训练数据的构造装置,所述装置包括:
数据获取模块,用于获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题;
数据比对模块,用于将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串;
分词模块,用于根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据。
本发明实施例提供的分词训练数据的构造方法和装置,通过获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题,将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串,根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,丰富了分词训练数据的数据源,克服了分词训练数据的数据稀疏问题。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明第一实施例提供的分词训练数据的构造方法的流程图;
图2是本发明第一实施例提供的用户输入查询语句以后的搜索结果页面的示意图;
图3是本发明第二实施例提供的分词训练数据的构造方法的流程图;
图4是本发明第二实施例提供的分词训练数据的构造方法中公共字符串获取的流程图;
图5是本发明第三实施例提供的分词训练数据的构造方法的流程图;
图6是本发明第三实施例提供的分词训练数据的构造方法中公共字符串获取的流程图;
图7是本发明第四实施例提供的分词训练数据的构造装置的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
图1及图2示出了本发明的第一实施例。
图1是本发明第一实施例提供的分词训练数据的构造方法的流程图。参见图1,所述分词训练数据的构造方法包括:
S110,获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题。
由于对没有分词标注的语料数据可能会存在不同的理解,造成对分词训练数据的分词标注结果不准确,进行影响分词模型的准确性。比如,对文本“物理学起来很难”的分词标注可以是“物理|学起来|很难”,也可以是“物理学|起来|很难”。显然,如果采用第二种分词方案,则利用这样的分词训练数据训练出的分词模型将是不可靠的。
本发明实施例通过对用户使用搜索引擎的日志数据的分析来获取分词训练数据。一般来讲,用户在使用搜索引擎时,用户输入的查询语句会与用户所点击的网页链接的网页标题具有相同的语义。所以可以将用户的一次查询会话中的查询语句与用户所点击的网页链接的网页比较进行比较,将比较的结果作为获取分词训练数据的参考。
因此,可以获取用户在一次查询会话中的查询语句与该查询语句的查询结果中所点击网页链接的网页标题。
S120,将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串。
由于所述查询语句与所述用户所点击的网页链接的网页标题具有相同的语义,因此所述查询语句与所述用户所点击的网页链接的网页标题通常具有相同的公共字符串。
图2是本发明第一实施例提供的用户输入查询语句以后的搜索结果页面的示意图。参见图2,所述查询语句与所述搜索结果页面上的网页链接的网页标题都具有相同的字符串。
正因如此,可以通过提取所述查询语句与所述网页标题之间的公共字符串来对所述查询语句进行分词,以获取所述分词训练数据。
所述公共字符串为所述查询语句与所述网页标题所共有的,并且长度最长的连续的子字符串。首先,所述公共字符串是所述查询语句与所述网页标题所共有的子字符串;其次,并不存在这样的一个字符串,它同时是所述查询语句与所述网页标题的子字符串,而且所述公共字符串有时它的子字符串。
S130,根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据。
获取到所述公共字符串以后,根据获取到的公共字符串对所述查询语句与所述网页标题进行分词。优选的,以所述公共字符串的起始位置和终止位置为分词位置,对所述查询语句以及所述网页标题进行分词。
对所述查询语句以及所述网页标题进行分词以后,就得到了所述分词训练数据。所述分词训练数据可以用于训练分词模型。而训练得到的分词模型可以用于机器翻译系统的分词处理,或者其他自然语言处理系统的分词处理。
本实施例通过获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题,将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串,以及根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据,丰富了分词训练数据的数据源,克服了分词训练数据的数据稀疏问题。
图3示出了本发明的第二实施例。
图3是本发明第二实施例提供的分词训练数据的构造方法的流程图。所述分词训练数据的构造方法以本发明的第一实施例为基础,进一步的,获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题包括:获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题;将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串包括:使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配;将匹配得到的长度最长的连续的子字符串作为所述公共字符串。
参见图3,所述分词训练数据的构造方法包括:
S310,获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题。
在本实施例中,在获取用户的查询语句以后,获取用户点击的网页标题时,进货去用户在该查询会话中最终所点击的一个网页链接的网页标题。这样一来所述网页标题仅有一个,在进行查询语句与所述网页标题的比对时,执行的比对过程较为简单。
S320,将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串。
图4是本发明第二实施例提供的分词训练数据的构造方法中公共字符串获取的流程图。参见图4,将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串包括:
S321,使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配。
在本实施例中,将所述查询语句与所述网页标题进行比对时,使用字符串匹配算法将所述查询语句与所述网页标题进行匹配,以获取所述查询语句与所述网页标题之间的公共字符串。优选的,所述字符串匹配算法包括:KMP算法、Horspool算法或者Boyer Moore算法。
S322,将匹配得到的长度最长的连续的子字符串作为所述公共字符串。
在运用所述字符串匹配算法对所述查询语句及所述网页标题进行匹配后,将匹配得到的长度最长的连续的子字符串作为所述公共字符串。
S330,根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据。
本实施例通过获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题,以及在获取公共字符串时使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配,将匹配得到的长度最长的连续的子字符串作为所述公共字符串,进一步的丰富了分词训练数据的数据源,克服了分词训练数据的数据稀疏问题。
图5及图6示出了本发明的第三实施例。
图5是本发明第三实施例提供的分词训练数据的构造方法的流程图。所述分词训练数据的构造方法以本发明的第一实施例为基础,进一步的,获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题包括:获取用户的一次查询会话中用户的查询语句及用户所点击的至少两个网页链接的网页标题;将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串包括:使用字符串匹配算法将所述查询语句与所述至少两个网页链接的网页标题分别进行匹配;分别获取所述查询语句与所述至少两个网页链接中每个网页链接的网页标题的长度最长的连续的子字符串,并将所述长度最长的连续的子字符串作为备选公共字符串;将所述备选公共字符串中出现次数最多的备选公共字符串作为公共字符串。
参见图5,所述分词训练数据的构造方法包括:
S510,获取用户的一次查询会话中用户的查询语句及用户所点击的至少两个网页链接的网页标题。
在一次查询会话中,用户可能会点击多个网页链接。因此,对于用户点击了多个网页链接的查询会话,在获取网页标题时,可以获取一次查询会话中用户所点击的至少两个网页链接的网页标题。优选的,通过分析用户的查询日志可以得到用户的查询语句以及用户所点击的至少两个网页链接的网页标题。
S520,将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串。
图6是本发明第三实施例提供的分词训练数据的构造方法中公共字符串获取的流程图。参见图6,将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串包括:
S521,使用字符串匹配算法将所述查询语句与所述至少两个网页链接的网页标题分别进行匹配。
若用户在一次查询会话中点击了多个网页链接,在获取所述查询语句与所述网页标题之间的公共字符串时,需要将所述查询语句与所述至少两个网页链接的网页标题分别进行匹配。
优选的,所述字符串匹配算法包括:KMP算法、Horspool算法或者BoyerMoore算法。
S522,分别获取所述查询语句与所述至少两个网页链接中每个网页链接的网页标题的长度最长的连续的子字符串,并将所述长度最长的连续的子字符串作为备选公共字符串。
分别进行匹配后,分别获取所述查询语句与所述网页链接中每个网页链接的网页标题的长度最长的连续的子字符串,并将每次匹配获取到的长度最长的连续的子字符串作为备选公共字符串。
S523,将所述备选公共字符串中出现次数最多的备选公共字符串作为公共字符串。
进行分别的字符串匹配和分别的备选公共字符串获取后,将多个获取到的备选公共字符串中出现次数最多的备选公共字符串作为公共字符串。
S530,根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据。
本实施例通过获取用户的一次查询会话中用户的查询语句及用户所点击的至少两个网页链接的网页标题,以及在获取公共字符串时将所述查询语句与所述至少两个网页链接的网页标题分别进行比对,分别获取长度最长的连续的子字符串,作为备选公共子字符串,并将备选公共子字符串中出现次数最多的备选公共子字符串作为公共子字符串,进一步的丰富了分词训练数据的数据源,克服了分词训练数据的数据稀疏问题。
图7示出了本发明的第四实施例。
图7是本发明第四实施例提供的分词训练数据的构造装置的结构图。参见图7,所述分词训练数据的构造装置包括:数据获取模块710、数据比对模块720以及分词模块730。
所述数据获取模块710用于获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题。
所述数据比对模块720用于将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串。
所述分词模块730用于根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词。
优选的,所述公共字符串为所述查询语句与所述网页标题所共有的,并且长度最长的连续的子字符串。
优选的,所述数据获取模块710包括:第一数据获取单元711。
所述第一数据获取单元711用于获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题。
所述数据比对模块720包括:第一匹配单元721以及第一公共字符串获取单元722。
所述第一匹配单元721用于使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配。
所述第一公共字符串获取单元722用于将匹配得到的长度最长的连续的子字符串作为所述公共字符串。
优选的,所述数据获取模块710包括:第二数据获取单元712。
所述第二数据获取单元712用于获取用户的一次查询会话中用户的查询语句及用户所点击的至少两个网页链接的网页标题。
所述数据比对模块720包括:第二匹配单元723、备选公共字符串获取单元724以及第二公共字符串获取单元725。
所述第二匹配单元723用于使用字符串匹配算法将所述查询语句与所述至少两个网页链接的网页标题分别进行匹配。
所述备选公共字符串获取单元724用于分别获取所述查询语句与所述至少两个网页链接中每个网页链接的网页标题的长度最长的连续的子字符串,并将所述长度最长的连续的子字符串作为备选公共字符串。
所述第二公共字符串获取单元725用于将所述备选公共字符串中出现次数最多的备选公共字符串作为公共字符串。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间的相同或相似的部分互相参见即可。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种分词训练数据的构造方法,其特征在于,包括:
获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题;
将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串;
根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据。
2.根据权利要求1所述的方法,其特征在于,所述公共字符串为所述查询语句与所述网页标题所共有的,并且长度最长的连续的子字符串。
3.根据权利要求2所述的方法,其特征在于,获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题包括:
获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题;
将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串包括:
使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配;
将匹配得到的长度最长的连续的子字符串作为所述公共字符串。
4.根据权利要求2所述的方法,其特征在于,获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题包括:
获取用户的一次查询会话中用户的查询语句及用户所点击的至少两个网页链接的网页标题;
将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串包括:
使用字符串匹配算法将所述查询语句与所述至少两个网页链接的网页标题分别进行匹配;
分别获取所述查询语句与所述至少两个网页链接中每个网页链接的网页标题的长度最长的连续的子字符串,并将所述长度最长的连续的子字符串作为备选公共字符串;
将所述备选公共字符串中出现次数最多的备选公共字符串作为公共字符串。
5.根据权利要求3或4所述的方法,其特征在于,所述字符串匹配算法包括:KMP算法、Horspool算法或者Boyer Moore算法。
6.一种分词训练数据的构造装置,其特征在于,包括:
数据获取模块,用于获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题;
数据比对模块,用于将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串;
分词模块,用于根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据。
7.根据权利要求6所述的装置,其特征在于,所述公共字符串为所述查询语句与所述网页标题所共有的,并且长度最长的连续的子字符串。
8.根据权利要求7所述的装置,其特征在于,所述数据获取模块包括:
第一数据获取单元,用于获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题;
所述数据比对模块包括:
第一匹配单元,用于使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配;
第一公共字符串获取单元,用于将匹配得到的长度最长的连续的子字符串作为所述公共字符串。
9.根据权利要求7所述的装置,其特征在于,所述数据获取模块包括:
第二数据获取单元,用于获取用户的一次查询会话中用户的查询语句及用户所点击的至少两个网页链接的网页标题;
所述数据比对模块包括:
第二匹配单元,用于使用字符串匹配算法将所述查询语句与所述至少两个网页链接的网页标题分别进行匹配;
备选公共字符串获取单元,用于分别获取所述查询语句与所述至少两个网页链接中每个网页链接的网页标题的长度最长的连续的子字符串,并将所述长度最长的连续的子字符串作为备选公共字符串;
第二公共字符串获取单元,用于将所述备选公共字符串中出现次数最多的备选公共字符串作为公共字符串。
10.根据权利要求8或9所述的装置,其特征在于,所述字符串匹配算法包括:KMP算法、Horspool算法或者Boyer Moore算法。
CN201410608667.XA 2014-11-03 2014-11-03 分词训练数据的构造方法和装置 Active CN104331472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410608667.XA CN104331472B (zh) 2014-11-03 2014-11-03 分词训练数据的构造方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410608667.XA CN104331472B (zh) 2014-11-03 2014-11-03 分词训练数据的构造方法和装置

Publications (2)

Publication Number Publication Date
CN104331472A true CN104331472A (zh) 2015-02-04
CN104331472B CN104331472B (zh) 2018-01-30

Family

ID=52406199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410608667.XA Active CN104331472B (zh) 2014-11-03 2014-11-03 分词训练数据的构造方法和装置

Country Status (1)

Country Link
CN (1) CN104331472B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017050149A1 (zh) * 2015-09-22 2017-03-30 阿里巴巴集团控股有限公司 信息搜索方法和装置
CN107967256A (zh) * 2017-11-14 2018-04-27 北京拉勾科技有限公司 词语权重预测模型生成方法、职位推荐方法及计算设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2019361A1 (en) * 2007-07-26 2009-01-28 Siemens Aktiengesellschaft A method and apparatus for extraction of textual content from hypertext web documents
CN102929882A (zh) * 2011-08-09 2013-02-13 阿里巴巴集团控股有限公司 一种网页标题的抽取方法与装置
CN103744872A (zh) * 2013-12-18 2014-04-23 天脉聚源(北京)传媒科技有限公司 一种提供搜索结果的方法、装置及浏览器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2019361A1 (en) * 2007-07-26 2009-01-28 Siemens Aktiengesellschaft A method and apparatus for extraction of textual content from hypertext web documents
CN102929882A (zh) * 2011-08-09 2013-02-13 阿里巴巴集团控股有限公司 一种网页标题的抽取方法与装置
CN103744872A (zh) * 2013-12-18 2014-04-23 天脉聚源(北京)传媒科技有限公司 一种提供搜索结果的方法、装置及浏览器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
湛燕等: "基于中文文本分类的分词方法研究", 《计算机工程与应用》 *
许静芳等: "信息检索中主题式词典的构建方法", 《计算机工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017050149A1 (zh) * 2015-09-22 2017-03-30 阿里巴巴集团控股有限公司 信息搜索方法和装置
CN107967256A (zh) * 2017-11-14 2018-04-27 北京拉勾科技有限公司 词语权重预测模型生成方法、职位推荐方法及计算设备

Also Published As

Publication number Publication date
CN104331472B (zh) 2018-01-30

Similar Documents

Publication Publication Date Title
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN103023714B (zh) 基于网络话题的活跃度与集群结构分析系统及方法
CN102253930B (zh) 一种文本翻译的方法及装置
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN104462547B (zh) 一种可配置的网页数据采集的方法及系统
Bansal et al. Towards deep semantic analysis of hashtags
CN105468605A (zh) 一种实体信息图谱生成方法及装置
CA2916856A1 (en) Automatic generation of headlines
CN103049435A (zh) 文本细粒度情感分析方法及装置
CN103246732B (zh) 一种在线Web新闻内容的抽取方法及系统
CN104504024B (zh) 基于微博内容的关键词挖掘方法及系统
CN103294781A (zh) 一种用于处理页面数据的方法与设备
Ferrara et al. Automatic wrapper adaptation by tree edit distance matching
CN103970898A (zh) 一种基于多级规则库的信息提取方法及装置
CN104035975A (zh) 一种利用中文在线资源实现远程监督人物关系抽取的方法
Ji et al. Tag tree template for Web information and schema extraction
CN106503256B (zh) 一种基于社交网络文档的热点信息挖掘方法
Nikhil et al. A survey on text mining and sentiment analysis for unstructured web data
CN104699797A (zh) 一种网页数据结构化解析方法和装置
CN104281565A (zh) 语义词典构建方法和装置
CN104346382B (zh) 使用语言查询的文本分析系统和方法
Grigalis Towards web-scale structured web data extraction
CN114911893A (zh) 基于知识图谱的自动化构建知识库的方法及系统
CN104331472A (zh) 分词训练数据的构造方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant