CN104331472B - 分词训练数据的构造方法和装置 - Google Patents
分词训练数据的构造方法和装置 Download PDFInfo
- Publication number
- CN104331472B CN104331472B CN201410608667.XA CN201410608667A CN104331472B CN 104331472 B CN104331472 B CN 104331472B CN 201410608667 A CN201410608667 A CN 201410608667A CN 104331472 B CN104331472 B CN 104331472B
- Authority
- CN
- China
- Prior art keywords
- web page
- user
- query statement
- common characters
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种分词训练数据的构造方法和装置。所述分词训练数据的构造方法包括:获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题;将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串;根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词。本发明实施例提供的分词训练数据的构造方法和装置丰富了分词训练数据的数据源,克服了分词训练数据的数据稀疏问题。
Description
技术领域
本发明实施例涉及自然语言处理技术领域,尤其涉及一种分词训练数据的构造方法和装置。
背景技术
大部分的分词技术都需要基于后台的语料库。所以语料库中语料的标注质量决定着最终的分词结果的质量。目前,大部分的语料库中的语料数据的标注都是依靠人工完成的。对语料数据的人工标注对标注人员的业务素质要求较高,而且人工标注过程费时费力,造成对语料数据的分词效率低下。
有一种提高语料数据的分词效率的方案,就是以网页上的锚文本作为参考,对语料数据进行分词。比如,某网页上出现了文本“约翰·维恩是19世纪英国的哲学家和数学家”,其中“约翰·维恩”、“英国”、“哲学家”和“数学家”是锚文本。则应当以上述锚文本中出现的词作为分词后的词语对上述文本进行分词。但是,并不是所有语料数据都能够在互联网上找到内部含有锚文本数据的网页内容,所以这种方案的数据源非常有限。因此,如果完全依照这种方式获取分词训练数据,则得到的分词训练数据会有明显的数据稀疏问题。
发明内容
有鉴于此,本发明实施例提出一种分词训练数据的构造方法和装置,以丰富分词训练数据的数据源。
第一方面,本发明实施例提供了一种分词训练数据的构造方法,所述方法包括:
获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题;
将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串;
根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据。
第二方面,本发明实施例提供了一种分词训练数据的构造装置,所述装置包括:
数据获取模块,用于获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题;
数据比对模块,用于将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串;
分词模块,用于根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据。
本发明实施例提供的分词训练数据的构造方法和装置,通过获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题,将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串,根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,丰富了分词训练数据的数据源,克服了分词训练数据的数据稀疏问题。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明第一实施例提供的分词训练数据的构造方法的流程图;
图2是本发明第一实施例提供的用户输入查询语句以后的搜索结果页面的示意图;
图3是本发明第二实施例提供的分词训练数据的构造方法的流程图;
图4是本发明第二实施例提供的分词训练数据的构造方法中公共字符串获取的流程图;
图5是本发明第三实施例提供的分词训练数据的构造方法的流程图;
图6是本发明第三实施例提供的分词训练数据的构造方法中公共字符串获取的流程图;
图7是本发明第四实施例提供的分词训练数据的构造装置的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
图1及图2示出了本发明的第一实施例。
图1是本发明第一实施例提供的分词训练数据的构造方法的流程图。参见图1,所述分词训练数据的构造方法包括:
S110,获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题。
由于对没有分词标注的语料数据可能会存在不同的理解,造成对分词训练数据的分词标注结果不准确,进行影响分词模型的准确性。比如,对文本“物理学起来很难”的分词标注可以是“物理|学起来|很难”,也可以是“物理学|起来|很难”。显然,如果采用第二种分词方案,则利用这样的分词训练数据训练出的分词模型将是不可靠的。
本发明实施例通过对用户使用搜索引擎的日志数据的分析来获取分词训练数据。一般来讲,用户在使用搜索引擎时,用户输入的查询语句会与用户所点击的网页链接的网页标题具有相同的语义。所以可以将用户的一次查询会话中的查询语句与用户所点击的网页链接的网页比较进行比较,将比较的结果作为获取分词训练数据的参考。
因此,可以获取用户在一次查询会话中的查询语句与该查询语句的查询结果中所点击网页链接的网页标题。
S120,将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串。
由于所述查询语句与所述用户所点击的网页链接的网页标题具有相同的语义,因此所述查询语句与所述用户所点击的网页链接的网页标题通常具有相同的公共字符串。
图2是本发明第一实施例提供的用户输入查询语句以后的搜索结果页面的示意图。参见图2,所述查询语句与所述搜索结果页面上的网页链接的网页标题都具有相同的字符串。
正因如此,可以通过提取所述查询语句与所述网页标题之间的公共字符串来对所述查询语句进行分词,以获取所述分词训练数据。
所述公共字符串为所述查询语句与所述网页标题所共有的,并且长度最长的连续的子字符串。首先,所述公共字符串是所述查询语句与所述网页标题所共有的子字符串;其次,并不存在这样的一个字符串,它同时是所述查询语句与所述网页标题的子字符串,而且所述公共字符串有时它的子字符串。
S130,根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据。
获取到所述公共字符串以后,根据获取到的公共字符串对所述查询语句与所述网页标题进行分词。优选的,以所述公共字符串的起始位置和终止位置为分词位置,对所述查询语句以及所述网页标题进行分词。
对所述查询语句以及所述网页标题进行分词以后,就得到了所述分词训练数据。所述分词训练数据可以用于训练分词模型。而训练得到的分词模型可以用于机器翻译系统的分词处理,或者其他自然语言处理系统的分词处理。
本实施例通过获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题,将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串,以及根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据,丰富了分词训练数据的数据源,克服了分词训练数据的数据稀疏问题。
图3示出了本发明的第二实施例。
图3是本发明第二实施例提供的分词训练数据的构造方法的流程图。所述分词训练数据的构造方法以本发明的第一实施例为基础,进一步的,获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题包括:获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题;将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串包括:使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配;将匹配得到的长度最长的连续的子字符串作为所述公共字符串。
参见图3,所述分词训练数据的构造方法包括:
S310,获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题。
在本实施例中,在获取用户的查询语句以后,获取用户点击的网页标题时,进货去用户在该查询会话中最终所点击的一个网页链接的网页标题。这样一来所述网页标题仅有一个,在进行查询语句与所述网页标题的比对时,执行的比对过程较为简单。
S320,将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串。
图4是本发明第二实施例提供的分词训练数据的构造方法中公共字符串获取的流程图。参见图4,将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串包括:
S321,使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配。
在本实施例中,将所述查询语句与所述网页标题进行比对时,使用字符串匹配算法将所述查询语句与所述网页标题进行匹配,以获取所述查询语句与所述网页标题之间的公共字符串。优选的,所述字符串匹配算法包括:KMP算法、Horspool算法或者Boyer Moore算法。
S322,将匹配得到的长度最长的连续的子字符串作为所述公共字符串。
在运用所述字符串匹配算法对所述查询语句及所述网页标题进行匹配后,将匹配得到的长度最长的连续的子字符串作为所述公共字符串。
S330,根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据。
本实施例通过获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题,以及在获取公共字符串时使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配,将匹配得到的长度最长的连续的子字符串作为所述公共字符串,进一步的丰富了分词训练数据的数据源,克服了分词训练数据的数据稀疏问题。
图5及图6示出了本发明的第三实施例。
图5是本发明第三实施例提供的分词训练数据的构造方法的流程图。所述分词训练数据的构造方法以本发明的第一实施例为基础,进一步的,获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题包括:获取用户的一次查询会话中用户的查询语句及用户所点击的至少两个网页链接的网页标题;将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串包括:使用字符串匹配算法将所述查询语句与所述至少两个网页链接的网页标题分别进行匹配;分别获取所述查询语句与所述至少两个网页链接中每个网页链接的网页标题的长度最长的连续的子字符串,并将所述长度最长的连续的子字符串作为备选公共字符串;将所述备选公共字符串中出现次数最多的备选公共字符串作为公共字符串。
参见图5,所述分词训练数据的构造方法包括:
S510,获取用户的一次查询会话中用户的查询语句及用户所点击的至少两个网页链接的网页标题。
在一次查询会话中,用户可能会点击多个网页链接。因此,对于用户点击了多个网页链接的查询会话,在获取网页标题时,可以获取一次查询会话中用户所点击的至少两个网页链接的网页标题。优选的,通过分析用户的查询日志可以得到用户的查询语句以及用户所点击的至少两个网页链接的网页标题。
S520,将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串。
图6是本发明第三实施例提供的分词训练数据的构造方法中公共字符串获取的流程图。参见图6,将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串包括:
S521,使用字符串匹配算法将所述查询语句与所述至少两个网页链接的网页标题分别进行匹配。
若用户在一次查询会话中点击了多个网页链接,在获取所述查询语句与所述网页标题之间的公共字符串时,需要将所述查询语句与所述至少两个网页链接的网页标题分别进行匹配。
优选的,所述字符串匹配算法包括:KMP算法、Horspool算法或者BoyerMoore算法。
S522,分别获取所述查询语句与所述至少两个网页链接中每个网页链接的网页标题的长度最长的连续的子字符串,并将所述长度最长的连续的子字符串作为备选公共字符串。
分别进行匹配后,分别获取所述查询语句与所述网页链接中每个网页链接的网页标题的长度最长的连续的子字符串,并将每次匹配获取到的长度最长的连续的子字符串作为备选公共字符串。
S523,将所述备选公共字符串中出现次数最多的备选公共字符串作为公共字符串。
进行分别的字符串匹配和分别的备选公共字符串获取后,将多个获取到的备选公共字符串中出现次数最多的备选公共字符串作为公共字符串。
S530,根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据。
本实施例通过获取用户的一次查询会话中用户的查询语句及用户所点击的至少两个网页链接的网页标题,以及在获取公共字符串时将所述查询语句与所述至少两个网页链接的网页标题分别进行比对,分别获取长度最长的连续的子字符串,作为备选公共子字符串,并将备选公共子字符串中出现次数最多的备选公共子字符串作为公共子字符串,进一步的丰富了分词训练数据的数据源,克服了分词训练数据的数据稀疏问题。
图7示出了本发明的第四实施例。
图7是本发明第四实施例提供的分词训练数据的构造装置的结构图。参见图7,所述分词训练数据的构造装置包括:数据获取模块710、数据比对模块720以及分词模块730。
所述数据获取模块710用于获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题。
所述数据比对模块720用于将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串。
所述分词模块730用于根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词。
优选的,所述公共字符串为所述查询语句与所述网页标题所共有的,并且长度最长的连续的子字符串。
优选的,所述数据获取模块710包括:第一数据获取单元711。
所述第一数据获取单元711用于获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题。
所述数据比对模块720包括:第一匹配单元721以及第一公共字符串获取单元722。
所述第一匹配单元721用于使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配。
所述第一公共字符串获取单元722用于将匹配得到的长度最长的连续的子字符串作为所述公共字符串。
优选的,所述数据获取模块710包括:第二数据获取单元712。
所述第二数据获取单元712用于获取用户的一次查询会话中用户的查询语句及用户所点击的至少两个网页链接的网页标题。
所述数据比对模块720包括:第二匹配单元723、备选公共字符串获取单元724以及第二公共字符串获取单元725。
所述第二匹配单元723用于使用字符串匹配算法将所述查询语句与所述至少两个网页链接的网页标题分别进行匹配。
所述备选公共字符串获取单元724用于分别获取所述查询语句与所述至少两个网页链接中每个网页链接的网页标题的长度最长的连续的子字符串,并将所述长度最长的连续的子字符串作为备选公共字符串。
所述第二公共字符串获取单元725用于将所述备选公共字符串中出现次数最多的备选公共字符串作为公共字符串。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间的相同或相似的部分互相参见即可。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种分词训练数据的构造方法,其特征在于,包括:
获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题;
将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串;
根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据。
2.根据权利要求1所述的方法,其特征在于,所述公共字符串为所述查询语句与所述网页标题所共有的,并且长度最长的连续的子字符串。
3.根据权利要求2所述的方法,其特征在于,获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题包括:
获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题;
将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串包括:
使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配;
将匹配得到的长度最长的连续的子字符串作为所述公共字符串。
4.根据权利要求2所述的方法,其特征在于,获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题包括:
获取用户的一次查询会话中用户的查询语句及用户所点击的至少两个网页链接的网页标题;
将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串包括:
使用字符串匹配算法将所述查询语句与所述至少两个网页链接的网页标题分别进行匹配;
分别获取所述查询语句与所述至少两个网页链接中每个网页链接的网页标题的长度最长的连续的子字符串,并将所述长度最长的连续的子字符串作为备选公共字符串;
将多个获取到的所述备选公共字符串中出现次数最多的备选公共字符串作为公共字符串。
5.根据权利要求3或4所述的方法,其特征在于,所述字符串匹配算法包括:KMP算法、Horspool算法或者Boyer Moore算法。
6.一种分词训练数据的构造装置,其特征在于,包括:
数据获取模块,用于获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题;
数据比对模块,用于将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串;
分词模块,用于根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据。
7.根据权利要求6所述的装置,其特征在于,所述公共字符串为所述查询语句与所述网页标题所共有的,并且长度最长的连续的子字符串。
8.根据权利要求7所述的装置,其特征在于,所述数据获取模块包括:
第一数据获取单元,用于获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题;
所述数据比对模块包括:
第一匹配单元,用于使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配;
第一公共字符串获取单元,用于将匹配得到的长度最长的连续的子字符串作为所述公共字符串。
9.根据权利要求7所述的装置,其特征在于,所述数据获取模块包括:
第二数据获取单元,用于获取用户的一次查询会话中用户的查询语句及用户所点击的至少两个网页链接的网页标题;
所述数据比对模块包括:
第二匹配单元,用于使用字符串匹配算法将所述查询语句与所述至少两个网页链接的网页标题分别进行匹配;
备选公共字符串获取单元,用于分别获取所述查询语句与所述至少两个网页链接中每个网页链接的网页标题的长度最长的连续的子字符串,并将所述长度最长的连续的子字符串作为备选公共字符串;
第二公共字符串获取单元,用于将多个获取到的所述备选公共字符串中出现次数最多的备选公共字符串作为公共字符串。
10.根据权利要求8或9所述的装置,其特征在于,所述字符串匹配算法包括:KMP算法、Horspool算法或者Boyer Moore算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410608667.XA CN104331472B (zh) | 2014-11-03 | 2014-11-03 | 分词训练数据的构造方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410608667.XA CN104331472B (zh) | 2014-11-03 | 2014-11-03 | 分词训练数据的构造方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104331472A CN104331472A (zh) | 2015-02-04 |
CN104331472B true CN104331472B (zh) | 2018-01-30 |
Family
ID=52406199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410608667.XA Active CN104331472B (zh) | 2014-11-03 | 2014-11-03 | 分词训练数据的构造方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104331472B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106547794B (zh) * | 2015-09-22 | 2020-04-14 | 阿里巴巴集团控股有限公司 | 信息搜索方法和装置 |
CN107967256B (zh) * | 2017-11-14 | 2021-12-21 | 北京拉勾科技有限公司 | 词语权重预测模型生成方法、职位推荐方法及计算设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2019361A1 (en) * | 2007-07-26 | 2009-01-28 | Siemens Aktiengesellschaft | A method and apparatus for extraction of textual content from hypertext web documents |
CN102929882A (zh) * | 2011-08-09 | 2013-02-13 | 阿里巴巴集团控股有限公司 | 一种网页标题的抽取方法与装置 |
CN103744872A (zh) * | 2013-12-18 | 2014-04-23 | 天脉聚源(北京)传媒科技有限公司 | 一种提供搜索结果的方法、装置及浏览器 |
-
2014
- 2014-11-03 CN CN201410608667.XA patent/CN104331472B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2019361A1 (en) * | 2007-07-26 | 2009-01-28 | Siemens Aktiengesellschaft | A method and apparatus for extraction of textual content from hypertext web documents |
CN102929882A (zh) * | 2011-08-09 | 2013-02-13 | 阿里巴巴集团控股有限公司 | 一种网页标题的抽取方法与装置 |
CN103744872A (zh) * | 2013-12-18 | 2014-04-23 | 天脉聚源(北京)传媒科技有限公司 | 一种提供搜索结果的方法、装置及浏览器 |
Non-Patent Citations (2)
Title |
---|
信息检索中主题式词典的构建方法;许静芳等;《计算机工程》;20060905;第31卷(第21期);143-145 * |
基于中文文本分类的分词方法研究;湛燕等;《计算机工程与应用》;20030811;第87卷(第23期);87-91 * |
Also Published As
Publication number | Publication date |
---|---|
CN104331472A (zh) | 2015-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106874378B (zh) | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 | |
CN107526799B (zh) | 一种基于深度学习的知识图谱构建方法 | |
US11521713B2 (en) | System and method for generating clinical trial protocol design document with selection of patient and investigator | |
CN106503055B (zh) | 一种从结构化文本到图像描述的生成方法 | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和系统 | |
CN110598000A (zh) | 一种基于深度学习模型的关系抽取及知识图谱构建方法 | |
CN102890702A (zh) | 一种面向网络论坛的意见领袖挖掘方法 | |
CN107766324A (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
CN106649260A (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN105279495A (zh) | 一种基于深度学习和文本总结的视频描述方法 | |
CN104199972A (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
CN106126619A (zh) | 一种基于视频内容的视频检索方法及系统 | |
CN104536956A (zh) | 一种基于微博平台的事件可视化方法及系统 | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
CN108647225A (zh) | 一种电商黑灰产舆情自动挖掘方法和系统 | |
CN106033462A (zh) | 一种新词发现方法及系统 | |
CN104268230B (zh) | 一种基于异质图随机游走的中文微博客观点探测方法 | |
CN104217038A (zh) | 一种针对财经新闻的知识网络构建方法 | |
CN114661872B (zh) | 一种面向初学者的api自适应推荐方法与系统 | |
CN103970898A (zh) | 一种基于多级规则库的信息提取方法及装置 | |
CN104699797A (zh) | 一种网页数据结构化解析方法和装置 | |
CN106503256B (zh) | 一种基于社交网络文档的热点信息挖掘方法 | |
WO2023155303A1 (zh) | 网页数据的提取方法和装置、计算机设备、存储介质 | |
CN111199151A (zh) | 数据处理方法、及数据处理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |