CN106708798A - 一种字符串切分方法及装置 - Google Patents

一种字符串切分方法及装置 Download PDF

Info

Publication number
CN106708798A
CN106708798A CN201510784681.XA CN201510784681A CN106708798A CN 106708798 A CN106708798 A CN 106708798A CN 201510784681 A CN201510784681 A CN 201510784681A CN 106708798 A CN106708798 A CN 106708798A
Authority
CN
China
Prior art keywords
character string
english character
participle
cut
cutting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510784681.XA
Other languages
English (en)
Other versions
CN106708798B (zh
Inventor
肖荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510784681.XA priority Critical patent/CN106708798B/zh
Publication of CN106708798A publication Critical patent/CN106708798A/zh
Application granted granted Critical
Publication of CN106708798B publication Critical patent/CN106708798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请公开了一种字符串切分方法及装置,在本申请所述方案中,可根据数英字符串语料中的各数英字符串的分词的词频,建立字符串切分语言模型,对于任意的待切分数英字符串,可基于与所述待切分数英字符串所属的类别相对应的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,以得到所述待切分数英字符串的切分结果,从而较好地解决了采用词典+匹配的方式进行数英字符串的切分时,无法切分未登录字符串以及采用后处理规则进行切分修正时,覆盖有限等的问题,提高了数英字符串的切分的准确性。

Description

一种字符串切分方法及装置
技术领域
本申请涉及互联网搜索技术领域,尤其涉及一种字符串切分方法及装置。
背景技术
中文分词技术是指按照一定的规范将一个汉字序列切分成一个一个单独的词的技术,其是搜索引擎的一项很重要的基础技术,其结果的好坏将直接影响到搜索引擎的搜索性能。
具体地,由于词典+匹配(如正向最大匹配、逆向最大匹配、或双向最大匹配法等)的技术具备较高的准确性和良好的性能,因而,其逐渐成为搜索引擎常用的一种分词技术,对于纯中文的字符串能较好地解决分词问题。
但是,由于对于适用于物品搜索领域的物品搜索引擎来说,其接收到的物品标题和/或查询词常常为夹杂大量的数字及英文字符串的字符串,以表示物品的货号、型号、容量规格、或尺寸大小等,例如,查询词“1tssd硬盘”、“三星galaxynote”、“macbookpro”等。且,这类字符串中的数英字符串的输入通常具备较高的灵活性,即,针对表示同一含义的数英字符串,不同的用户所输入的格式却大不相同,具备较多的未登录词。因而,若仍沿用中文分词的方法,采用词典+匹配的方式对该类字符串进行切分,则由于词典+匹配的方式通常无法识别未登录词,因而,会存在很难得到正确的切分结果的问题,降低分词的准确性,另外,还会极大地降低物品搜索引擎的搜索性能。例如,对于查询词“1tssd硬盘”、“三星galaxynote”、“macbookpro”,按照词典+匹配的方式很难将其正确地切分成“1t ssd硬盘”、“三星galaxy note”、“macbook pro”等。
为了解决该问题,业界给出了一种采用设定的模式匹配规则,对词典+匹配的初步分词结果进行修正,以识别出一些特定模式的数英串的方案。例如,可以将日期或者首字母是大写的单词切分、无法判断的串将数字和英文切分等。但是,由于这些后处理规则覆盖范围有限,且规则之间还可能会有冲突,因而,使得切分结果的准确性也并不高。
也就是说,现有的词典+匹配的方式存在无法识别和切分未登录词,使得将其适用于数英串的分词时,分词准确性较低的问题。同时,后处理修正方案也存在后处理规则覆盖范围有限、规则之间存在冲突等使得将其适用于数英串的分词时,分词准确性较低的问题。因此,亟需提供一种新的可适用于数英串的分词方法,以解决上述问题。
发明内容
本申请实施例提供了一种字符串切分方法及装置,用以解决现有的数英串分词方法的分词准确性较低的问题。
本申请实施例提供了一种字符串切分方法,包括:
确定待切分数英字符串;
确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;其中,字符串切分语言模型是根据数英字符串语料中的各数英字符串的分词的词频预先建立的;
基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。
本申请实施例还提供了一种字符串切分装置,包括:
模型建立模块,用于根据数英字符串语料中的各数英字符串的分词的词频预先建立字符串切分语言模型;
字符串确定模块,用于确定待切分数英字符串;
模型选择模块,用于确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;
字符串切分模块,用于基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。
本申请有益效果如下:
本申请实施例提供了一种字符串切分方法及装置,在本申请实施例所述方案中,可根据数英字符串语料中的各数英字符串的分词的词频,建立字符串切分语言模型,对于任意的待切分数英字符串,可基于与所述待切分数英字符串所属的类别相对应的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,以得到所述待切分数英字符串的切分结果,从而较好地解决了采用词典+匹配的方式进行数英字符串的切分时,无法切分未登录字符串以及采用后处理规则进行切分修正时,覆盖有限等的问题,提高了数英字符串的切分的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1所示为本申请实施例一中所述字符串切分方法的流程示意图;
图2所示为本申请实施例二中所述字符串切分装置的结构示意图。
具体实施方式
由于通过观察用户输入的查询词和物品标题发现,大部分用户的输入相对比较规范,即,用户输入“1tssd”的情况远小于输入“1t ssd”的情况。因此,本申请实施例提出了一种以用户输入的查询词和物品标题中的数英串(即数英字符串语料)作为语料,建立字符串切分语言模型,对于任意的待切分数英字符串,基于与所述待切分数英字符串所属的类别相对应的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,以得到所述待切分数英字符串的切分结果的方案,从而较好地解决了采用词典+匹配的方式进行数英字符串的切分时,无法切分未登录字符串以及采用后处理规则进行切分修正时,覆盖有限等的问题,提高了数英字符串的切分的准确性。
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
实施例一:
本申请实施例一提供了一种字符串切分方法,所述字符串切分方法可适用于主要由数字字符以及英文字符组成的数英字符串(可简称为数英串)的切分,本申请实施例对此不作赘述。具体地,如图1所示,其为本申请实施例一中所述字符串切分方法的流程示意图,所述字符串切分方法可包括以下步骤:
步骤101:确定待切分数英字符串;
步骤102:确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;其中,字符串切分语言模型是根据数英字符串语料中的各数英字符串的分词的词频预先建立的;
步骤103:基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。
由于针对任意的待切分数英字符串,是基于与所述待切分数英字符串所属的类别相对应的字符串切分语言模型,采用动态规划算法,对所述待切分数英字符串进行相应切分的,因而,可较好地解决采用词典+匹配的方式进行数英字符串的切分时,无法切分未登录字符串以及采用后处理规则进行切分修正时,覆盖有限等的问题,提高了数英字符串的切分的准确性。
下面,将以具体实例为例,对本申请实施例中所述的字符串切分方法的流程进行进一步说明。
可选地,在进行数英字符串的切分之前,可首先根据数英字符串语料中的各数英字符串的分词的词频,建立字符串切分语言模型。
具体地,以数英字符串为查询词字符串以及物品标题字符串为例,由于查询词和物品标题在语料的分布上存在差异,因而,为了提高语言模型建立的准确性,在本申请所述实施例中,可对查询词语料和物品标题语料单独建立语言模型,得到相应的查询词语言模型以及物品标题语言模型;且,在建立物品标题语言模型时,还可按照叶子类目来建立相应的语言模型,以进一步提升准确性。
可选地,在本申请所述实施例中,查询词语言模型具体可以是根据查询词语料中的各数英字符串的分词对应的用户搜索次数预先建立的;针对任一叶子类目,与该叶子类目相对应的物品标题语言模型具体可以是根据物品标题语料中的归属于该叶子类目下的各数英字符串的分词在物品标题语料的所有物品标题中的出现次数预先建立的。即,在建立查询词语言模型时,可将用户搜索次数作为各分词的词频,在建立物品标题语言模型时,可将在物品标题中的出现次数作为各分词的词频,此处不再赘述。
进一步地,需要说明的是,本申请实施例中所建立的各语言模型通常可指的是N-gram语言模型,所述N为不小于2的正整数;且,由于查询词和物品标题中的数英串多短语,因此,可选择N=2,即二元语言模型。当然,还可选择N的取值为其他数值的其他语言模型,此处不再赘述。
其中,对于不含空格的连续数英串S的某个切分W=(W1,W2,…,Wi…,Wn)来说,其对应的N-gram语言模型可表示如下:
其中,k=N-1,当N的取值为2时,即为二元语言模型;另外,n的取值为不小于1的正整数,i的取值为不大于n的正整数。
另外,需要说明的是,上述N-gram语言模型的表达式通常是通过以下方式得到的:
对于不含空格的连续数英串S的某个切分W=(W1,W2,…,Wi…,Wn),确定其对应的语言模型概率:
其中,由于P(Wi|W1...Wi-1)的计算复杂度较高,因而,通常可用马尔科夫假设对其进行简化,即,假设第i个词Wi只与它前面的k个词相关,得到P(Wi|W1...Wi-1)≈P(Wi|Wi-k...Wi-1)因此,得到当k=N-1时,即称为N-gram语言模型。
具体地,以所建立的查询词语言模型为二元语言模型为例,在本申请所述实施例中,具体可通过以下方式预先建立所述查询词语言模型:
A1:抽取查询词语料中的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;
具体地,在抽取查询词语料中的各数英字符串时,可仅保留其中的空格、数字、英文字符以及.:-等字符。并且,可将非数字且非英文的其它字符(如.:-等字符)以及空格作为数英字符串中单词之间的自然分隔。例如:对于“1tssd硬盘”,抽取出一个单词“1tssd”,而“1t ssd硬盘”会抽取出两个单词“1t”和“ssd”。
A2:通过以下公式统计查询词语料中的每一数英字符串分词Wi的用户搜索次数cunt(Wi):count(Wi)=Σqpv(q);其中,q表示查询词语料中的包含数英字符串分词Wi的各数英字符串,pv(q)表示包含数英字符串分词Wi的各数英字符串的用户搜索次数,此过程中涉及到的i为任意正整数且其取值不大于查询词语料中的数英字符串分词的总个数;
A3:通过以下公式统计查询词语料中的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi):count(Wi-1Wi)=ΣQpv(Q),其中,Q表示查询词语料中的包含连续数英字符串分词Wi-1Wi的各数英字符串,pv(Q)表示包含连续数英字符串分词Wi-1Wi的各数英字符串的用户搜索次数;
A4:根据统计到的数英字符串分词Wi的用户搜索次数count(Wi)以及连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi),基于以下公式,建立查询词二元语言模型其中,n的取值可为查询词语料中的数英字符串分词的总个数:
P(Wi|Wi-1)=count(Wi-1Wi)/count(Wi-1),if count(Wi-1Wi)!=0;
P(Wi|Wi-1)=α*count(Wi-1)/C,if count(Wi-1Wi)=0;即,当count(Wi-1Wi)=0时,可采用stupid-backoff(简单退避)算法进行平滑,当然,也可采用其他算法,如Kneser-Ney smoothing算法等,此处不作赘述;
其中,C为查询词语料中的所有数英字符串分词的用户搜索次数的总和(即C=Σi count(Wi)),α为设定的平滑因子(其取值可根据实际情况灵活设定,如可为0.4等,对此不作限定)。
另外,需要说明的是,当i=1时,P(Wi|Wi-1)=P(Wi)=count(Wi)/C,此处不再赘述。
进一步地,针对任一叶子类目,以所建立的与所述叶子类目相对应的物品标题语言模型为二元语言模型为例,在本申请所述实施例中,具体可通过以下方式预先建立与所述叶子类目相对应的物品标题语言模型:
B1:抽取物品标题语料中的该叶子类目c下的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;
具体的抽取方式以及分词确定方式可参见步骤A1的相关描述,此处不作赘述。
B2:统计该叶子类目c下的每个数英字符串分词Wi在物品标题语料的所有物品标题中的出现次数c(Wi),其中,此过程中涉及到的i为任意正整数,且其取值不大于物品标题语料中的该叶子类目c下的数英字符串分词的总个数;
B3:统计该叶子类目c下的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi);
B4:根据统计到的数英字符串分词Wi的出现次数c(Wi)以及连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi),基于以下公式,建立与该叶子类目c相对应的物品标题二元语言模型其中,n的取值可为物品标题语料中的该叶子类目c下的数英字符串分词的总个数:
Pc(Wi|Wi-1)=c(Wi-1Wi)/c(Wi-1),if c(Wi-1Wi)!=0;
Pc(Wi|Wi-1)=α*c(Wi-1)/C,if c(Wi-1Wi)=0;
其中,C为物品标题语料中的该叶子类目c下的所有数英字符串分词的出现次数的总和(即C=Σi c(Wi)),α为设定的平滑因子(其取值可根据实际情况灵活设定,如可为0.4等,对此不作限定)。
另外,需要说明的是,当i=1时,P(Wi|Wi-1)=P(Wi)=c(Wi)/C,此处不再赘述。
至此,即完成字符串切分语言模型的建立。之后,针对步骤101所确定的任一待切分数英字符串,即可执行步骤102所述的选择对应的字符串切分语言模型的操作。
可选地,由于用户输入的查询词以及物品标题等字符串并不一定是本申请实施例中所需的待切分数英字符串,而是夹杂有中文字符的字符串,因而,在接收到用户输入的查询词或物品标题时,可首先对其执行相应的字符串抽取操作,以抽取出所需的待切分数英字符串,此处不再赘述。
进一步地,针对确定的任一待切分数英字符串,步骤102中所述的根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型,可具体实施为:
若确定所述待切分数英字符串所属的类别为查询词,则选择与所述查询词相对应的查询词语言模型;或者,
若确定所述待切分数英字符串所属的类别为物品标题,则选择与所述物品标题所在的叶子类目相对应的物品标题语言模型。
进一步地,在执行完步骤102后,即可执行步骤103所述的基于选择的字符串切分语言模型,进行字符串的切分的操作。
可选地,步骤103所述的基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果,可具体实施为:
确定所述待切分数英字符串S的各种切分方式,以及每一种切分方式对应的分词;
基于每一种切分方式对应的分词、以及选择的字符串切分语言模型,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是包含所述第k个字符和/或所述第k个字符的前一个或多个字符、但不包含所述第k个字符之后的字符的分词的最优切分概率;所述k为任意正整数且其取值不大于所述待切分数英字符串S的最大字符个数;
根据计算到的最优切分概率,记录每一步的最优切分分词;
根据记录的每一步的最优切分分词,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。
其中,若所选择的字符串切分语言模型为二元语言模型,则通过以下公式,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是分词Wi的最优切分概率:
P(Wi,Sk)=maxjP(Wj,Sk-1)*P(Wi|Wj);
其中,P(Wj,Sk-1)表示搜索到待切分数英字符串S的第k-1个字符时,最后一个分词是同一切分方式中、与所述分词Wi相邻的前一个分词Wj的最优切分概率;此处所述的i为任意正整数且其取值不大于所述待切分数英字符串S所能够切分成的分词的最大个数;所述j=i-1;所述P(Wi|Wj)是根据所选择的字符串切分语言模型所确定的分词Wi与分词Wj的相关概率。
至此,即可完成待切分数英字符串的切分操作,得到相应的切分结果。
需要说明的是,本申请实施例所述方案无语言、软件或者硬件的限制。但是,为了提高字符串的切分效率,可优先选用性能高的编程语言(如C、C++或者Java等)和性能高的硬件等来实现,本申请实施例对此不作赘述。
由本申请实施例所述的方案可知,针对任意的待切分数英字符串,可基于与所述待切分数英字符串所属的类别相对应的字符串切分语言模型,采用动态规划算法,对所述待切分数英字符串进行相应切分,因而,可较好地解决采用词典+匹配的方式进行数英字符串的切分时,无法切分未登录字符串以及采用后处理规则进行切分修正时,覆盖有限等的问题,提高了数英字符串的切分的准确性。
实施例二:
基于与本申请实施例一相同的发明构思,本申请实施例二提供了一种字符串切分装置,该字符串切分装置的具体实施可参见上述方法实施例一中的相关描述,重复之处不再赘述,如图2所示,该字符串切分装置主要可包括:
模型建立模块21,可用于根据数英字符串语料中的各数英字符串的分词的词频预先建立字符串切分语言模型;
字符串确定模块22,可用于确定待切分数英字符串;
模型选择模块23,可用于确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;
字符串切分模块24,可用于基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。
可选地,所述模型选择模块23,具体可用于若确定所述待切分数英字符串所属的类别为查询词,则选择与所述查询词相对应的查询词语言模型,其中,所述查询词语言模型是根据查询词语料中的各数英字符串的分词对应的用户搜索次数预先建立的;或者,
若确定所述待切分数英字符串所属的类别为物品标题,则选择与所述物品标题所在的叶子类目相对应的物品标题语言模型,其中,针对任一叶子类目,与该叶子类目相对应的物品标题语言模型是根据物品标题语料中的归属于该叶子类目下的各数英字符串的分词在物品标题语料的所有物品标题中的出现次数预先建立的。
进一步地,所述模型建立模块21,具体可用于通过以下方式预先建立查询词二元语言模型:
抽取查询词语料中的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;
通过以下公式统计查询词语料中的每一数英字符串分词Wi的用户搜索次数count(Wi):count(Wi)=Σq pv(q),其中,q表示查询词语料中的包含数英字符串分词Wi的各数英字符串,pv(q)表示包含数英字符串分词Wi的各数英字符串的用户搜索次数,i为任意正整数且其取值不大于查询词语料中的数英字符串分词的总个数;
通过以下公式统计查询词语料中的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi):count(Wi-1Wi)=ΣQ pv(Q),其中,Q表示查询词语料中的包含连续数英字符串分词Wi-1Wi的各数英字符串,pv(Q)表示包含连续数英字符串分词Wi-1Wi的各数英字符串的用户搜索次数;
根据统计到的数英字符串分词Wi的用户搜索次数count(Wi)以及连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi),基于以下公式,建立查询词二元语言模型:
P(Wi|Wi-1)=count(Wi-1Wi)/count(Wi-1),if count(Wi-1Wi)!=0;
P(Wi|Wi-1)=α*count(Wi-1)/C,if count(Wi-1Wi)=0;
其中,C为查询词语料中的所有数英字符串分词的用户搜索次数的总和,α为设定的平滑因子。
类似地,所述模型建立模块21具体还可用于针对任一叶子类目,通过以下方式预先建立与所述叶子类目相对应的物品标题二元语言模型:
抽取物品标题语料中的该叶子类目c下的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;
统计该叶子类目c下的每个数英字符串分词Wi在物品标题语料的所有物品标题中的出现次数c(Wi),其中,i为任意正整数,且其取值不大于物品标题语料中的该叶子类目c下的数英字符串分词的总个数;
统计该叶子类目c下的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi);
根据统计到的数英字符串分词Wi的出现次数c(Wi)以及连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi),基于以下公式,建立与该叶子类目c相对应的物品标题二元语言模型:
Pc(Wi|Wi-1)=c(Wi-1Wi)/c(Wi-1),if c(Wi-1Wi)!=0;
Pc(Wi|Wi-1)=α*c(Wi-1)/C,if c(Wi-1Wi)=0;
其中,C为物品标题语料中的该叶子类目c下的所有数英字符串分词的出现次数的总和,α为设定的平滑因子。
进一步地,所述字符串切分模块24具体可用于确定所述待切分数英字符串S的各种切分方式,以及每一种切分方式对应的分词;基于每一种切分方式对应的分词、以及选择的字符串切分语言模型,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是包含所述第k个字符和/或所述第k个字符的前一个或多个字符、但不包含所述第k个字符之后的字符的分词的最优切分概率,所述k为任意正整数且其取值不大于所述待切分数英字符串S的最大字符个数;根据计算到的最优切分概率,记录每一步的最优切分分词;根据记录的每一步的最优切分分词,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。
具体地,所述字符串切分模块24具体可用于若所选择的字符串切分语言模型为二元语言模型,则通过以下公式,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是分词Wi的最优切分概率:
P(Wi,Sk)=maxjP(Wj,Sk-1)*P(Wi|Wj);
其中,P(Wj,Sk-1)表示搜索到待切分数英字符串S的第k-1个字符时,最后一个分词是同一切分方式中、与所述分词Wi相邻的前一个分词Wj的最优切分概率;所述i为任意正整数且其取值不大于所述待切分数英字符串S所能够切分成的分词的最大个数;所述j=i-1;所述P(Wi|Wj)是根据所选择的字符串切分语言模型所确定的分词Wi与分词Wj的相关概率。
本领域技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (12)

1.一种字符串切分方法,其特征在于,包括:
确定待切分数英字符串;
确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;其中,字符串切分语言模型是根据数英字符串语料中的各数英字符串的分词的词频预先建立的;
基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。
2.如权利要求1所述的方法,其特征在于,根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型,包括:
若确定所述待切分数英字符串所属的类别为查询词,则选择与所述查询词相对应的查询词语言模型,其中,所述查询词语言模型是根据查询词语料中的各数英字符串的分词对应的用户搜索次数预先建立的;或者,
若确定所述待切分数英字符串所属的类别为物品标题,则选择与所述物品标题所在的叶子类目相对应的物品标题语言模型,其中,针对任一叶子类目,与该叶子类目相对应的物品标题语言模型是根据物品标题语料中的归属于该叶子类目下的各数英字符串的分词在物品标题语料的所有物品标题中的出现次数预先建立的。
3.如权利要求2所述的方法,其特征在于,若所述查询词语言模型为二元语言模型,则所述查询词语言模型是通过以下方式预先建立的:
抽取查询词语料中的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;
通过以下公式统计查询词语料中的每一数英字符串分词Wi的用户搜索次数count(Wi):count(Wi)=∑qpv(q),其中,q表示查询词语料中的包含数英字符串分词Wi的各数英字符串,pv(q)表示包含数英字符串分词Wi的各数英字符串的用户搜索次数,i为任意正整数且其取值不大于查询词语料中的数英字符串分词的总个数;
通过以下公式统计查询词语料中的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi):count(Wi-1Wi)=∑Qpv(Q),其中,Q表示查询词语料中的包含连续数英字符串分词Wi-1Wi的各数英字符串,pv(Q)表示包含连续数英字符串分词Wi-1Wi的各数英字符串的用户搜索次数;
根据统计到的数英字符串分词Wi的用户搜索次数count(Wi)以及连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi),基于以下公式,建立查询词二元语言模型:
P(Wi|Wi-1)=count(Wi-1Wi)/count(Wi-1),if count(Wi-1Wi)!=0;
P(Wi|Wi-1)=α*count(Wi-1)/C,if count(Wi-1Wi)=0;
其中,C为查询词语料中的所有数英字符串分词的用户搜索次数的总和,α为设定的平滑因子。
4.如权利要求2所述的方法,其特征在于,针对任一叶子类目,若与所述叶子类目相对应的物品标题语言模型为二元语言模型,则与所述叶子类目相对应的物品标题语言模型是通过以下方式预先建立的:
抽取物品标题语料中的该叶子类目c下的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;
统计该叶子类目c下的每个数英字符串分词Wi在物品标题语料的所有物品标题中的出现次数c(Wi),其中,i为任意正整数,且其取值不大于物品标题语料中的该叶子类目c下的数英字符串分词的总个数;
统计该叶子类目c下的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi);
根据统计到的数英字符串分词Wi的出现次数c(Wi)以及连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi),基于以下公式,建立与该叶子类目c相对应的物品标题二元语言模型:
Pc(Wi|Wi-1)=c(Wi-1Wi)/c(Wi-1),if c(Wi-1Wi)!=0;
Pc(Wi|Wi-1)=α*c(Wi-1)/C,if c(Wi-1Wi)=0;
其中,C为物品标题语料中的该叶子类目c下的所有数英字符串分词的出现次数的总和,α为设定的平滑因子。
5.如权利要求1所述的方法,其特征在于,基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果,包括:
确定所述待切分数英字符串S的各种切分方式,以及每一种切分方式对应的分词;
基于每一种切分方式对应的分词、以及选择的字符串切分语言模型,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是包含所述第k个字符和/或所述第k个字符的前一个或多个字符、但不包含所述第k个字符之后的字符的分词的最优切分概率;所述k为任意正整数且其取值不大于所述待切分数英字符串S的最大字符个数;
根据计算到的最优切分概率,记录每一步的最优切分分词;
根据记录的每一步的最优切分分词,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。
6.如权利要求5所述的方法,其特征在于,若所选择的字符串切分语言模型为二元语言模型,则通过以下公式,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是分词Wi的最优切分概率:
P(Wi,Sk)=maxjP(Wj,Sk-1)*P(Wi|Wj);
其中,P(Wj,Sk-1)表示搜索到待切分数英字符串S的第k-1个字符时,最后一个分词是同一切分方式中、与所述分词Wi相邻的前一个分词Wj的最优切分概率;所述i为任意正整数且其取值不大于所述待切分数英字符串S所能够切分成的分词的最大个数;所述j=i-1;所述P(Wi|Wj)是根据所选择的字符串切分语言模型所确定的分词Wi与分词Wj的相关概率。
7.一种字符串切分装置,其特征在于,包括:
模型建立模块,用于根据数英字符串语料中的各数英字符串的分词的词频预先建立字符串切分语言模型;
字符串确定模块,用于确定待切分数英字符串;
模型选择模块,用于确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;
字符串切分模块,用于基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。
8.如权利要求7所述的装置,其特征在于,
所述模型选择模块,具体用于若确定所述待切分数英字符串所属的类别为查询词,则选择与所述查询词相对应的查询词语言模型,其中,所述查询词语言模型是根据查询词语料中的各数英字符串的分词对应的用户搜索次数预先建立的;或者,
若确定所述待切分数英字符串所属的类别为物品标题,则选择与所述物品标题所在的叶子类目相对应的物品标题语言模型,其中,针对任一叶子类目,与该叶子类目相对应的物品标题语言模型是根据物品标题语料中的归属于该叶子类目下的各数英字符串的分词在物品标题语料的所有物品标题中的出现次数预先建立的。
9.如权利要求8所述的装置,其特征在于,所述模型建立模块,具体用于通过以下方式预先建立查询词二元语言模型:
抽取查询词语料中的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;
通过以下公式统计查询词语料中的每一数英字符串分词Wi的用户搜索次数count(Wi):count(Wi)=∑qpv(q),其中,q表示查询词语料中的包含数英字符串分词Wi的各数英字符串,pv(q)表示包含数英字符串分词Wi的各数英字符串的用户搜索次数,i为任意正整数且其取值不大于查询词语料中的数英字符串分词的总个数;
通过以下公式统计查询词语料中的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi):count(Wi-1Wi)=∑Qpv(Q),其中,Q表示查询词语料中的包含连续数英字符串分词Wi-1Wi的各数英字符串,pv(Q)表示包含连续数英字符串分词Wi-1Wi的各数英字符串的用户搜索次数;
根据统计到的数英字符串分词Wi的用户搜索次数count(Wi)以及连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi),基于以下公式,建立查询词二元语言模型:
P(Wi|Wi-1)=count(Wi-1Wi)/count(Wi-1),if count(Wi-1Wi)!=0;
P(Wi|Wi-1)=α*count(Wi-1)/C,if count(Wi-1Wi)=0;
其中,C为查询词语料中的所有数英字符串分词的用户搜索次数的总和,α为设定的平滑因子。
10.如权利要求8所述的装置,其特征在于,所述模型建立模块,具体用于针对任一叶子类目,通过以下方式预先建立与所述叶子类目相对应的物品标题二元语言模型:
抽取物品标题语料中的该叶子类目c下的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;
统计该叶子类目c下的每个数英字符串分词Wi在物品标题语料的所有物品标题中的出现次数c(Wi),其中,i为任意正整数,且其取值不大于物品标题语料中的该叶子类目c下的数英字符串分词的总个数;
统计该叶子类目c下的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi);
根据统计到的数英字符串分词Wi的出现次数c(Wi)以及连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi),基于以下公式,建立与该叶子类目c相对应的物品标题二元语言模型:
Pc(Wi|Wi-1)=c(Wi-1Wi)/c(Wi-1),if c(Wi-1Wi)!=0;
Pc(Wi|Wi-1)=α*c(Wi-1)/C,if c(Wi-1Wi)=0;
其中,C为物品标题语料中的该叶子类目c下的所有数英字符串分词的出现次数的总和,α为设定的平滑因子。
11.如权利要求7所述的装置,其特征在于,
所述字符串切分模块,具体用于确定所述待切分数英字符串S的各种切分方式,以及每一种切分方式对应的分词;基于每一种切分方式对应的分词、以及选择的字符串切分语言模型,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是包含所述第k个字符和/或所述第k个字符的前一个或多个字符、但不包含所述第k个字符之后的字符的分词的最优切分概率,所述k为任意正整数且其取值不大于所述待切分数英字符串S的最大字符个数;根据计算到的最优切分概率,记录每一步的最优切分分词;根据记录的每一步的最优切分分词,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。
12.如权利要求11所述的装置,其特征在于,
所述字符串切分模块,具体用于若所选择的字符串切分语言模型为二元语言模型,则通过以下公式,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是分词Wi的最优切分概率:
P(Wi,Sk)=maxjP(Wj,Sk-1)*P(Wi|Wj);
其中,P(Wj,Sk-1)表示搜索到待切分数英字符串S的第k-1个字符时,最后一个分词是同一切分方式中、与所述分词Wi相邻的前一个分词Wj的最优切分概率;所述i为任意正整数且其取值不大于所述待切分数英字符串S所能够切分成的分词的最大个数;所述j=i-1;所述P(Wi|Wj)是根据所选择的字符串切分语言模型所确定的分词Wi与分词Wj的相关概率。
CN201510784681.XA 2015-11-16 2015-11-16 一种字符串切分方法及装置 Active CN106708798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510784681.XA CN106708798B (zh) 2015-11-16 2015-11-16 一种字符串切分方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510784681.XA CN106708798B (zh) 2015-11-16 2015-11-16 一种字符串切分方法及装置

Publications (2)

Publication Number Publication Date
CN106708798A true CN106708798A (zh) 2017-05-24
CN106708798B CN106708798B (zh) 2020-03-31

Family

ID=58930916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510784681.XA Active CN106708798B (zh) 2015-11-16 2015-11-16 一种字符串切分方法及装置

Country Status (1)

Country Link
CN (1) CN106708798B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271631A (zh) * 2018-09-12 2019-01-25 广州多益网络股份有限公司 分词方法、装置、设备及存储介质
CN109408794A (zh) * 2017-08-17 2019-03-01 阿里巴巴集团控股有限公司 一种频次词典建立方法、分词方法、服务器和客户端设备
CN110472112A (zh) * 2019-08-22 2019-11-19 广州拓波软件科技有限公司 一种简易字符串匹配方式
CN110858317A (zh) * 2018-08-24 2020-03-03 北京搜狗科技发展有限公司 手写识别方法及装置
CN111311599A (zh) * 2020-01-17 2020-06-19 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备和存储介质
CN111859948A (zh) * 2019-04-28 2020-10-30 北京嘀嘀无限科技发展有限公司 语言识别、语言模型训练、字符预测方法及装置
CN113435194A (zh) * 2021-06-22 2021-09-24 中国平安人寿保险股份有限公司 词汇切分方法、装置、终端设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348584A (ja) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 単語分割のための方法、装置、記憶媒体およびプログラム
CN102890690A (zh) * 2011-07-22 2013-01-23 中兴通讯股份有限公司 目标信息搜索方法和装置
CN103778138A (zh) * 2012-10-19 2014-05-07 深圳市世纪光速信息技术有限公司 一种连续字符串的切分方法和装置
US8825620B1 (en) * 2011-06-13 2014-09-02 A9.Com, Inc. Behavioral word segmentation for use in processing search queries

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348584A (ja) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 単語分割のための方法、装置、記憶媒体およびプログラム
US8825620B1 (en) * 2011-06-13 2014-09-02 A9.Com, Inc. Behavioral word segmentation for use in processing search queries
CN102890690A (zh) * 2011-07-22 2013-01-23 中兴通讯股份有限公司 目标信息搜索方法和装置
CN103778138A (zh) * 2012-10-19 2014-05-07 深圳市世纪光速信息技术有限公司 一种连续字符串的切分方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHIGUSAKURUMADA 等: "Zipfian frequency distributions facilitate word segmentation in context", 《COGNITION》 *
刘汉兴 等: "基于词图的最大概率分词方法", 《计算机工程与设计》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408794A (zh) * 2017-08-17 2019-03-01 阿里巴巴集团控股有限公司 一种频次词典建立方法、分词方法、服务器和客户端设备
CN110858317A (zh) * 2018-08-24 2020-03-03 北京搜狗科技发展有限公司 手写识别方法及装置
CN109271631A (zh) * 2018-09-12 2019-01-25 广州多益网络股份有限公司 分词方法、装置、设备及存储介质
CN109271631B (zh) * 2018-09-12 2023-01-24 广州多益网络股份有限公司 分词方法、装置、设备及存储介质
CN111859948A (zh) * 2019-04-28 2020-10-30 北京嘀嘀无限科技发展有限公司 语言识别、语言模型训练、字符预测方法及装置
CN110472112A (zh) * 2019-08-22 2019-11-19 广州拓波软件科技有限公司 一种简易字符串匹配方式
CN111311599A (zh) * 2020-01-17 2020-06-19 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备和存储介质
CN111311599B (zh) * 2020-01-17 2024-03-26 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备和存储介质
CN113435194A (zh) * 2021-06-22 2021-09-24 中国平安人寿保险股份有限公司 词汇切分方法、装置、终端设备及存储介质
CN113435194B (zh) * 2021-06-22 2023-07-21 中国平安人寿保险股份有限公司 词汇切分方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
CN106708798B (zh) 2020-03-31

Similar Documents

Publication Publication Date Title
CN106708798A (zh) 一种字符串切分方法及装置
CN105869642B (zh) 一种语音文本的纠错方法及装置
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
US20240028837A1 (en) Device and method for machine reading comprehension question and answer
US8892420B2 (en) Text segmentation with multiple granularity levels
CN107122340B (zh) 一种基于同义词分析的科技项目申报书的相似度检测方法
CN110516247B (zh) 基于神经网络的命名实体识别方法及计算机存储介质
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及系统
CN107741928A (zh) 一种基于领域识别的对语音识别后文本纠错的方法
JP6335898B2 (ja) 製品認識に基づく情報分類
CN106202153A (zh) 一种es搜索引擎的拼写纠错方法及系统
CN106528532A (zh) 文本纠错方法、装置及终端
CN106033416A (zh) 一种字符串处理方法及装置
CN108287843A (zh) 一种兴趣点信息检索的方法和装置、及导航设备
CN107562772A (zh) 事件抽取方法、装置、系统和存储介质
CN105224520B (zh) 一种中文专利文献术语自动识别方法
CN107807910A (zh) 一种基于hmm的词性标注方法
CN113033183B (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN109299357B (zh) 一种老挝语文本主题分类方法
CN111159332A (zh) 一种基于bert的文本多意图识别方法
CN112231451B (zh) 指代词恢复方法、装置、对话机器人及存储介质
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
CN109684928A (zh) 基于互联网检索的中文文档识别方法
CN109033066A (zh) 一种摘要形成方法及装置
CN108304377A (zh) 一种长尾词的提取方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant