CN106708798B - 一种字符串切分方法及装置 - Google Patents

一种字符串切分方法及装置 Download PDF

Info

Publication number
CN106708798B
CN106708798B CN201510784681.XA CN201510784681A CN106708798B CN 106708798 B CN106708798 B CN 106708798B CN 201510784681 A CN201510784681 A CN 201510784681A CN 106708798 B CN106708798 B CN 106708798B
Authority
CN
China
Prior art keywords
character string
segmentation
english character
english
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510784681.XA
Other languages
English (en)
Other versions
CN106708798A (zh
Inventor
肖荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510784681.XA priority Critical patent/CN106708798B/zh
Publication of CN106708798A publication Critical patent/CN106708798A/zh
Application granted granted Critical
Publication of CN106708798B publication Critical patent/CN106708798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请公开了一种字符串切分方法及装置,在本申请所述方案中,可根据数英字符串语料中的各数英字符串的分词的词频,建立字符串切分语言模型,对于任意的待切分数英字符串,可基于与所述待切分数英字符串所属的类别相对应的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,以得到所述待切分数英字符串的切分结果,从而较好地解决了采用词典+匹配的方式进行数英字符串的切分时,无法切分未登录字符串以及采用后处理规则进行切分修正时,覆盖有限等的问题,提高了数英字符串的切分的准确性。

Description

一种字符串切分方法及装置
技术领域
本申请涉及互联网搜索技术领域,尤其涉及一种字符串切分方法及装置。
背景技术
中文分词技术是指按照一定的规范将一个汉字序列切分成一个一个单独的词的技术,其是搜索引擎的一项很重要的基础技术,其结果的好坏将直接影响到搜索引擎的搜索性能。
具体地,由于词典+匹配(如正向最大匹配、逆向最大匹配、或双向最大匹配法等)的技术具备较高的准确性和良好的性能,因而,其逐渐成为搜索引擎常用的一种分词技术,对于纯中文的字符串能较好地解决分词问题。
但是,由于对于适用于物品搜索领域的物品搜索引擎来说,其接收到的物品标题和/或查询词常常为夹杂大量的数字及英文字符串的字符串,以表示物品的货号、型号、容量规格、或尺寸大小等,例如,查询词“1tssd硬盘”、“三星galaxynote”、“macbookpro”等。且,这类字符串中的数英字符串的输入通常具备较高的灵活性,即,针对表示同一含义的数英字符串,不同的用户所输入的格式却大不相同,具备较多的未登录词。因而,若仍沿用中文分词的方法,采用词典+匹配的方式对该类字符串进行切分,则由于词典+匹配的方式通常无法识别未登录词,因而,会存在很难得到正确的切分结果的问题,降低分词的准确性,另外,还会极大地降低物品搜索引擎的搜索性能。例如,对于查询词“1tssd硬盘”、“三星galaxynote”、“macbookpro”,按照词典+匹配的方式很难将其正确地切分成“1t ssd硬盘”、“三星galaxy note”、“macbook pro”等。
为了解决该问题,业界给出了一种采用设定的模式匹配规则,对词典+匹配的初步分词结果进行修正,以识别出一些特定模式的数英串的方案。例如,可以将日期或者首字母是大写的单词切分、无法判断的串将数字和英文切分等。但是,由于这些后处理规则覆盖范围有限,且规则之间还可能会有冲突,因而,使得切分结果的准确性也并不高。
也就是说,现有的词典+匹配的方式存在无法识别和切分未登录词,使得将其适用于数英串的分词时,分词准确性较低的问题。同时,后处理修正方案也存在后处理规则覆盖范围有限、规则之间存在冲突等使得将其适用于数英串的分词时,分词准确性较低的问题。因此,亟需提供一种新的可适用于数英串的分词方法,以解决上述问题。
发明内容
本申请实施例提供了一种字符串切分方法及装置,用以解决现有的数英串分词方法的分词准确性较低的问题。
本申请实施例提供了一种字符串切分方法,包括:
确定待切分数英字符串;
确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;其中,字符串切分语言模型是根据数英字符串语料中的各数英字符串的分词的词频预先建立的;
基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。
本申请实施例还提供了一种字符串切分装置,包括:
模型建立模块,用于根据数英字符串语料中的各数英字符串的分词的词频预先建立字符串切分语言模型;
字符串确定模块,用于确定待切分数英字符串;
模型选择模块,用于确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;
字符串切分模块,用于基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。
本申请有益效果如下:
本申请实施例提供了一种字符串切分方法及装置,在本申请实施例所述方案中,可根据数英字符串语料中的各数英字符串的分词的词频,建立字符串切分语言模型,对于任意的待切分数英字符串,可基于与所述待切分数英字符串所属的类别相对应的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,以得到所述待切分数英字符串的切分结果,从而较好地解决了采用词典+匹配的方式进行数英字符串的切分时,无法切分未登录字符串以及采用后处理规则进行切分修正时,覆盖有限等的问题,提高了数英字符串的切分的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1所示为本申请实施例一中所述字符串切分方法的流程示意图;
图2所示为本申请实施例二中所述字符串切分装置的结构示意图。
具体实施方式
由于通过观察用户输入的查询词和物品标题发现,大部分用户的输入相对比较规范,即,用户输入“1tssd”的情况远小于输入“1t ssd”的情况。因此,本申请实施例提出了一种以用户输入的查询词和物品标题中的数英串(即数英字符串语料)作为语料,建立字符串切分语言模型,对于任意的待切分数英字符串,基于与所述待切分数英字符串所属的类别相对应的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,以得到所述待切分数英字符串的切分结果的方案,从而较好地解决了采用词典+匹配的方式进行数英字符串的切分时,无法切分未登录字符串以及采用后处理规则进行切分修正时,覆盖有限等的问题,提高了数英字符串的切分的准确性。
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
实施例一:
本申请实施例一提供了一种字符串切分方法,所述字符串切分方法可适用于主要由数字字符以及英文字符组成的数英字符串(可简称为数英串)的切分,本申请实施例对此不作赘述。具体地,如图1所示,其为本申请实施例一中所述字符串切分方法的流程示意图,所述字符串切分方法可包括以下步骤:
步骤101:确定待切分数英字符串;
步骤102:确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;其中,字符串切分语言模型是根据数英字符串语料中的各数英字符串的分词的词频预先建立的;
步骤103:基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。
由于针对任意的待切分数英字符串,是基于与所述待切分数英字符串所属的类别相对应的字符串切分语言模型,采用动态规划算法,对所述待切分数英字符串进行相应切分的,因而,可较好地解决采用词典+匹配的方式进行数英字符串的切分时,无法切分未登录字符串以及采用后处理规则进行切分修正时,覆盖有限等的问题,提高了数英字符串的切分的准确性。
下面,将以具体实例为例,对本申请实施例中所述的字符串切分方法的流程进行进一步说明。
可选地,在进行数英字符串的切分之前,可首先根据数英字符串语料中的各数英字符串的分词的词频,建立字符串切分语言模型。
具体地,以数英字符串为查询词字符串以及物品标题字符串为例,由于查询词和物品标题在语料的分布上存在差异,因而,为了提高语言模型建立的准确性,在本申请所述实施例中,可对查询词语料和物品标题语料单独建立语言模型,得到相应的查询词语言模型以及物品标题语言模型;且,在建立物品标题语言模型时,还可按照叶子类目来建立相应的语言模型,以进一步提升准确性。
可选地,在本申请所述实施例中,查询词语言模型具体可以是根据查询词语料中的各数英字符串的分词对应的用户搜索次数预先建立的;针对任一叶子类目,与该叶子类目相对应的物品标题语言模型具体可以是根据物品标题语料中的归属于该叶子类目下的各数英字符串的分词在物品标题语料的所有物品标题中的出现次数预先建立的。即,在建立查询词语言模型时,可将用户搜索次数作为各分词的词频,在建立物品标题语言模型时,可将在物品标题中的出现次数作为各分词的词频,此处不再赘述。
进一步地,需要说明的是,本申请实施例中所建立的各语言模型通常可指的是N-gram语言模型,所述N为不小于2的正整数;且,由于查询词和物品标题中的数英串多短语,因此,可选择N=2,即二元语言模型。当然,还可选择N的取值为其他数值的其他语言模型,此处不再赘述。
其中,对于不含空格的连续数英串S的某个切分W=(W1,W2,…,Wi…,Wn)来说,其对应的N-gram语言模型可表示如下:
Figure BDA0000848073920000051
其中,k=N-1,当N的取值为2时,即为二元语言模型;另外,n的取值为不小于1的正整数,i的取值为不大于n的正整数。
另外,需要说明的是,上述N-gram语言模型的表达式通常是通过以下方式得到的:
对于不含空格的连续数英串S的某个切分W=(W1,W2,…,Wi…,Wn),确定其对应的语言模型概率:
Figure BDA0000848073920000061
其中,由于P(Wi|W1...Wi-1)的计算复杂度较高,因而,通常可用马尔科夫假设对其进行简化,即,假设第i个词Wi只与它前面的k个词相关,得到P(Wi|W1...Wi-1)≈P(Wi|Wi- k...Wi-1)因此,得到
Figure BDA0000848073920000062
当k=N-1时,即称为N-gram语言模型。
具体地,以所建立的查询词语言模型为二元语言模型为例,在本申请所述实施例中,具体可通过以下方式预先建立所述查询词语言模型:
A1:抽取查询词语料中的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;
具体地,在抽取查询词语料中的各数英字符串时,可仅保留其中的空格、数字、英文字符以及.:-等字符。并且,可将非数字且非英文的其它字符(如.:-等字符)以及空格作为数英字符串中单词之间的自然分隔。例如:对于“1tssd硬盘”,抽取出一个单词“1tssd”,而“1t ssd硬盘”会抽取出两个单词“1t”和“ssd”。
A2:通过以下公式统计查询词语料中的每一数英字符串分词Wi的用户搜索次数cunt(Wi):count(Wi)=Σqpv(q);其中,q表示查询词语料中的包含数英字符串分词Wi的各数英字符串,pv(q)表示包含数英字符串分词Wi的各数英字符串的用户搜索次数,此过程中涉及到的i为任意正整数且其取值不大于查询词语料中的数英字符串分词的总个数;
A3:通过以下公式统计查询词语料中的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi):count(Wi-1Wi)=ΣQpv(Q),其中,Q表示查询词语料中的包含连续数英字符串分词Wi-1Wi的各数英字符串,pv(Q)表示包含连续数英字符串分词Wi-1Wi的各数英字符串的用户搜索次数;
A4:根据统计到的数英字符串分词Wi的用户搜索次数count(Wi)以及连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi),基于以下公式,建立查询词二元语言模型
Figure BDA0000848073920000071
其中,n的取值可为查询词语料中的数英字符串分词的总个数:
P(Wi|Wi-1)=count(Wi-1Wi)/count(Wi-1),if count(Wi-1Wi)!=0;
P(Wi|Wi-1)=α*count(Wi-1)/C,if count(Wi-1Wi)=0;即,当count(Wi-1Wi)=0时,可采用stupid-backoff(简单退避)算法进行平滑,当然,也可采用其他算法,如Kneser-Neysmoothing算法等,此处不作赘述;
其中,C为查询词语料中的所有数英字符串分词的用户搜索次数的总和(即C=Σicount(Wi)),α为设定的平滑因子(其取值可根据实际情况灵活设定,如可为0.4等,对此不作限定)。
另外,需要说明的是,当i=1时,P(Wi|Wi-1)=P(Wi)=count(Wi)/C,此处不再赘述。
进一步地,针对任一叶子类目,以所建立的与所述叶子类目相对应的物品标题语言模型为二元语言模型为例,在本申请所述实施例中,具体可通过以下方式预先建立与所述叶子类目相对应的物品标题语言模型:
B1:抽取物品标题语料中的该叶子类目c下的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;
具体的抽取方式以及分词确定方式可参见步骤A1的相关描述,此处不作赘述。
B2:统计该叶子类目c下的每个数英字符串分词Wi在物品标题语料的所有物品标题中的出现次数c(Wi),其中,此过程中涉及到的i为任意正整数,且其取值不大于物品标题语料中的该叶子类目c下的数英字符串分词的总个数;
B3:统计该叶子类目c下的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi);
B4:根据统计到的数英字符串分词Wi的出现次数c(Wi)以及连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi),基于以下公式,建立与该叶子类目c相对应的物品标题二元语言模型
Figure BDA0000848073920000081
其中,n的取值可为物品标题语料中的该叶子类目c下的数英字符串分词的总个数:
Pc(Wi|Wi-1)=c(Wi-1Wi)/c(Wi-1),if c(Wi-1Wi)!=0;
Pc(Wi|Wi-1)=α*c(Wi-1)/C,if c(Wi-1Wi)=0;
其中,C为物品标题语料中的该叶子类目c下的所有数英字符串分词的出现次数的总和(即C=Σi c(Wi)),α为设定的平滑因子(其取值可根据实际情况灵活设定,如可为0.4等,对此不作限定)。
另外,需要说明的是,当i=1时,P(Wi|Wi-1)=P(Wi)=c(Wi)/C,此处不再赘述。
至此,即完成字符串切分语言模型的建立。之后,针对步骤101所确定的任一待切分数英字符串,即可执行步骤102所述的选择对应的字符串切分语言模型的操作。
可选地,由于用户输入的查询词以及物品标题等字符串并不一定是本申请实施例中所需的待切分数英字符串,而是夹杂有中文字符的字符串,因而,在接收到用户输入的查询词或物品标题时,可首先对其执行相应的字符串抽取操作,以抽取出所需的待切分数英字符串,此处不再赘述。
进一步地,针对确定的任一待切分数英字符串,步骤102中所述的根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型,可具体实施为:
若确定所述待切分数英字符串所属的类别为查询词,则选择与所述查询词相对应的查询词语言模型;或者,
若确定所述待切分数英字符串所属的类别为物品标题,则选择与所述物品标题所在的叶子类目相对应的物品标题语言模型。
进一步地,在执行完步骤102后,即可执行步骤103所述的基于选择的字符串切分语言模型,进行字符串的切分的操作。
可选地,步骤103所述的基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果,可具体实施为:
确定所述待切分数英字符串S的各种切分方式,以及每一种切分方式对应的分词;
基于每一种切分方式对应的分词、以及选择的字符串切分语言模型,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是包含所述第k个字符和/或所述第k个字符的前一个或多个字符、但不包含所述第k个字符之后的字符的分词的最优切分概率;所述k为任意正整数且其取值不大于所述待切分数英字符串S的最大字符个数;
根据计算到的最优切分概率,记录每一步的最优切分分词;
根据记录的每一步的最优切分分词,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。
其中,若所选择的字符串切分语言模型为二元语言模型,则通过以下公式,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是分词Wi的最优切分概率:
P(Wi,Sk)=maxjP(Wj,Sk-1)*P(Wi|Wj);
其中,P(Wj,Sk-1)表示搜索到待切分数英字符串S的第k-1个字符时,最后一个分词是同一切分方式中、与所述分词Wi相邻的前一个分词Wj的最优切分概率;此处所述的i为任意正整数且其取值不大于所述待切分数英字符串S所能够切分成的分词的最大个数;所述j=i-1;所述P(Wi|Wj)是根据所选择的字符串切分语言模型所确定的分词Wi与分词Wj的相关概率。
至此,即可完成待切分数英字符串的切分操作,得到相应的切分结果。
需要说明的是,本申请实施例所述方案无语言、软件或者硬件的限制。但是,为了提高字符串的切分效率,可优先选用性能高的编程语言(如C、C++或者Java等)和性能高的硬件等来实现,本申请实施例对此不作赘述。
由本申请实施例所述的方案可知,针对任意的待切分数英字符串,可基于与所述待切分数英字符串所属的类别相对应的字符串切分语言模型,采用动态规划算法,对所述待切分数英字符串进行相应切分,因而,可较好地解决采用词典+匹配的方式进行数英字符串的切分时,无法切分未登录字符串以及采用后处理规则进行切分修正时,覆盖有限等的问题,提高了数英字符串的切分的准确性。
实施例二:
基于与本申请实施例一相同的发明构思,本申请实施例二提供了一种字符串切分装置,该字符串切分装置的具体实施可参见上述方法实施例一中的相关描述,重复之处不再赘述,如图2所示,该字符串切分装置主要可包括:
模型建立模块21,可用于根据数英字符串语料中的各数英字符串的分词的词频预先建立字符串切分语言模型;
字符串确定模块22,可用于确定待切分数英字符串;
模型选择模块23,可用于确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;
字符串切分模块24,可用于基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。
可选地,所述模型选择模块23,具体可用于若确定所述待切分数英字符串所属的类别为查询词,则选择与所述查询词相对应的查询词语言模型,其中,所述查询词语言模型是根据查询词语料中的各数英字符串的分词对应的用户搜索次数预先建立的;或者,
若确定所述待切分数英字符串所属的类别为物品标题,则选择与所述物品标题所在的叶子类目相对应的物品标题语言模型,其中,针对任一叶子类目,与该叶子类目相对应的物品标题语言模型是根据物品标题语料中的归属于该叶子类目下的各数英字符串的分词在物品标题语料的所有物品标题中的出现次数预先建立的。
进一步地,所述模型建立模块21,具体可用于通过以下方式预先建立查询词二元语言模型:
抽取查询词语料中的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;
通过以下公式统计查询词语料中的每一数英字符串分词Wi的用户搜索次数count(Wi):count(Wi)=Σq pv(q),其中,q表示查询词语料中的包含数英字符串分词Wi的各数英字符串,pv(q)表示包含数英字符串分词Wi的各数英字符串的用户搜索次数,i为任意正整数且其取值不大于查询词语料中的数英字符串分词的总个数;
通过以下公式统计查询词语料中的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi):count(Wi-1Wi)=ΣQ pv(Q),其中,Q表示查询词语料中的包含连续数英字符串分词Wi-1Wi的各数英字符串,pv(Q)表示包含连续数英字符串分词Wi-1Wi的各数英字符串的用户搜索次数;
根据统计到的数英字符串分词Wi的用户搜索次数count(Wi)以及连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi),基于以下公式,建立查询词二元语言模型:
P(Wi|Wi-1)=count(Wi-1Wi)/count(Wi-1),if count(Wi-1Wi)!=0;
P(Wi|Wi-1)=α*count(Wi-1)/C,if count(Wi-1Wi)=0;
其中,C为查询词语料中的所有数英字符串分词的用户搜索次数的总和,α为设定的平滑因子。
类似地,所述模型建立模块21具体还可用于针对任一叶子类目,通过以下方式预先建立与所述叶子类目相对应的物品标题二元语言模型:
抽取物品标题语料中的该叶子类目c下的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;
统计该叶子类目c下的每个数英字符串分词Wi在物品标题语料的所有物品标题中的出现次数c(Wi),其中,i为任意正整数,且其取值不大于物品标题语料中的该叶子类目c下的数英字符串分词的总个数;
统计该叶子类目c下的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi);
根据统计到的数英字符串分词Wi的出现次数c(Wi)以及连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi),基于以下公式,建立与该叶子类目c相对应的物品标题二元语言模型:
Pc(Wi|Wi-1)=c(Wi-1Wi)/c(Wi-1),if c(Wi-1Wi)!=0;
Pc(Wi|Wi-1)=α*c(Wi-1)/C,if c(Wi-1Wi)=0;
其中,C为物品标题语料中的该叶子类目c下的所有数英字符串分词的出现次数的总和,α为设定的平滑因子。
进一步地,所述字符串切分模块24具体可用于确定所述待切分数英字符串S的各种切分方式,以及每一种切分方式对应的分词;基于每一种切分方式对应的分词、以及选择的字符串切分语言模型,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是包含所述第k个字符和/或所述第k个字符的前一个或多个字符、但不包含所述第k个字符之后的字符的分词的最优切分概率,所述k为任意正整数且其取值不大于所述待切分数英字符串S的最大字符个数;根据计算到的最优切分概率,记录每一步的最优切分分词;根据记录的每一步的最优切分分词,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。
具体地,所述字符串切分模块24具体可用于若所选择的字符串切分语言模型为二元语言模型,则通过以下公式,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是分词Wi的最优切分概率:
P(Wi,Sk)=maxjP(Wj,Sk-1)*P(Wi|Wj);
其中,P(Wj,Sk-1)表示搜索到待切分数英字符串S的第k-1个字符时,最后一个分词是同一切分方式中、与所述分词Wi相邻的前一个分词Wj的最优切分概率;所述i为任意正整数且其取值不大于所述待切分数英字符串S所能够切分成的分词的最大个数;所述j=i-1;所述P(Wi|Wj)是根据所选择的字符串切分语言模型所确定的分词Wi与分词Wj的相关概率。
本领域技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种字符串切分方法,其特征在于,包括:
确定待切分数英字符串;
确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;其中,字符串切分语言模型是根据数英字符串语料中的各数英字符串的分词的词频预先建立的;
确定所述待切分数英字符串S的各种切分方式,以及每一种切分方式对应的分词;
基于每一种切分方式对应的分词、以及选择的字符串切分语言模型,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是包含所述第k个字符和/或所述第k个字符的前一个或多个字符、但不包含所述第k个字符之后的字符的分词的最优切分概率;所述k为任意正整数且其取值不大于所述待切分数英字符串S的最大字符个数;
根据计算到的最优切分概率,记录每一步的最优切分分词;
根据记录的每一步的最优切分分词,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。
2.如权利要求1所述的方法,其特征在于,根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型,包括:
若确定所述待切分数英字符串所属的类别为查询词,则选择与所述查询词相对应的查询词语言模型,其中,所述查询词语言模型是根据查询词语料中的各数英字符串的分词对应的用户搜索次数预先建立的;或者,
若确定所述待切分数英字符串所属的类别为物品标题,则选择与所述物品标题所在的叶子类目相对应的物品标题语言模型,其中,针对任一叶子类目,与该叶子类目相对应的物品标题语言模型是根据物品标题语料中的归属于该叶子类目下的各数英字符串的分词在物品标题语料的所有物品标题中的出现次数预先建立的。
3.如权利要求2所述的方法,其特征在于,若所述查询词语言模型为二元语言模型,则所述查询词语言模型是通过以下方式预先建立的:
抽取查询词语料中的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;
通过以下公式统计查询词语料中的每一数英字符串分词Wi的用户搜索次数count(Wi):count(Wi)=∑qpv(q),其中,q表示查询词语料中的包含数英字符串分词Wi的各数英字符串,pv(q)表示包含数英字符串分词Wi的各数英字符串的用户搜索次数,i为任意正整数且其取值不大于查询词语料中的数英字符串分词的总个数;
通过以下公式统计查询词语料中的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi):count(Wi-1Wi)=∑Qpv(Q),其中,Q表示查询词语料中的包含连续数英字符串分词Wi-1Wi的各数英字符串,pv(Q)表示包含连续数英字符串分词Wi-1Wi的各数英字符串的用户搜索次数;
根据统计到的数英字符串分词Wi的用户搜索次数count(Wi)以及连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi),基于以下公式,建立查询词二元语言模型:
P(Wi|Wi-1)=count(Wi-1Wi)/count(Wi-1),if count(Wi-1Wi)!=0;
P(Wi|Wi-1)=α*count(Wi-1)/C,if count(Wi-1Wi)=0;
其中,C为查询词语料中的所有数英字符串分词的用户搜索次数的总和,α为设定的平滑因子。
4.如权利要求2所述的方法,其特征在于,针对任一叶子类目,若与所述叶子类目相对应的物品标题语言模型为二元语言模型,则与所述叶子类目相对应的物品标题语言模型是通过以下方式预先建立的:
抽取物品标题语料中的该叶子类目c下的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;
统计该叶子类目c下的每个数英字符串分词Wi在物品标题语料的所有物品标题中的出现次数c(Wi),其中,i为任意正整数,且其取值不大于物品标题语料中的该叶子类目c下的数英字符串分词的总个数;
统计该叶子类目c下的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi);
根据统计到的数英字符串分词Wi的出现次数c(Wi)以及连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi),基于以下公式,建立与该叶子类目c相对应的物品标题二元语言模型:
Pc(Wi|Wi-1)=c(Wi-1Wi)/c(Wi-1),if c(Wi-1Wi)!=0;
Pc(Wi|Wi-1)=α*c(Wi-1)/C,if c(Wi-1Wi)=0;
其中,C为物品标题语料中的该叶子类目c下的所有数英字符串分词的出现次数的总和,α为设定的平滑因子。
5.如权利要求1所述的方法,其特征在于,若所选择的字符串切分语言模型为二元语言模型,则通过以下公式,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是分词Wi的最优切分概率:
P(Wi,Sk)=maxjP(Wj,Sk-1)*P(Wi|Wj);
其中,P(Wj,Sk-1)表示搜索到待切分数英字符串S的第k-1个字符时,最后一个分词是同一切分方式中、与所述分词Wi相邻的前一个分词Wj的最优切分概率;所述i为任意正整数且其取值不大于所述待切分数英字符串S所能够切分成的分词的最大个数;所述j=i-1;所述P(Wi|Wj)是根据所选择的字符串切分语言模型所确定的分词Wi与分词Wj的相关概率。
6.一种字符串切分装置,其特征在于,包括:
模型建立模块,用于根据数英字符串语料中的各数英字符串的分词的词频预先建立字符串切分语言模型;
字符串确定模块,用于确定待切分数英字符串;
模型选择模块,用于确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;
字符串切分模块,用于确定所述待切分数英字符串S的各种切分方式,以及每一种切分方式对应的分词;基于每一种切分方式对应的分词、以及选择的字符串切分语言模型,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是包含所述第k个字符和/或所述第k个字符的前一个或多个字符、但不包含所述第k个字符之后的字符的分词的最优切分概率,所述k为任意正整数且其取值不大于所述待切分数英字符串S的最大字符个数;根据计算到的最优切分概率,记录每一步的最优切分分词;根据记录的每一步的最优切分分词,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。
7.如权利要求6所述的装置,其特征在于,
所述模型选择模块,具体用于若确定所述待切分数英字符串所属的类别为查询词,则选择与所述查询词相对应的查询词语言模型,其中,所述查询词语言模型是根据查询词语料中的各数英字符串的分词对应的用户搜索次数预先建立的;或者,
若确定所述待切分数英字符串所属的类别为物品标题,则选择与所述物品标题所在的叶子类目相对应的物品标题语言模型,其中,针对任一叶子类目,与该叶子类目相对应的物品标题语言模型是根据物品标题语料中的归属于该叶子类目下的各数英字符串的分词在物品标题语料的所有物品标题中的出现次数预先建立的。
8.如权利要求7所述的装置,其特征在于,所述模型建立模块,具体用于通过以下方式预先建立查询词二元语言模型:
抽取查询词语料中的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;
通过以下公式统计查询词语料中的每一数英字符串分词Wi的用户搜索次数count(Wi):count(Wi)=∑qpv(q),其中,q表示查询词语料中的包含数英字符串分词Wi的各数英字符串,pv(q)表示包含数英字符串分词Wi的各数英字符串的用户搜索次数,i为任意正整数且其取值不大于查询词语料中的数英字符串分词的总个数;
通过以下公式统计查询词语料中的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi):count(Wi-1Wi)=∑Qpv(Q),其中,Q表示查询词语料中的包含连续数英字符串分词Wi-1Wi的各数英字符串,pv(Q)表示包含连续数英字符串分词Wi-1Wi的各数英字符串的用户搜索次数;
根据统计到的数英字符串分词Wi的用户搜索次数count(Wi)以及连续数英字符串分词Wi-1Wi的用户搜索次数count(Wi-1Wi),基于以下公式,建立查询词二元语言模型:
P(Wi|Wi-1)=count(Wi-1Wi)/count(Wi-1),if count(Wi-1Wi)!=0;
P(Wi|Wi-1)=α*count(Wi-1)/C,if count(Wi-1Wi)=0;
其中,C为查询词语料中的所有数英字符串分词的用户搜索次数的总和,α为设定的平滑因子。
9.如权利要求7所述的装置,其特征在于,所述模型建立模块,具体用于针对任一叶子类目,通过以下方式预先建立与所述叶子类目相对应的物品标题二元语言模型:
抽取物品标题语料中的该叶子类目c下的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;
统计该叶子类目c下的每个数英字符串分词Wi在物品标题语料的所有物品标题中的出现次数c(Wi),其中,i为任意正整数,且其取值不大于物品标题语料中的该叶子类目c下的数英字符串分词的总个数;
统计该叶子类目c下的由数英字符串分词Wi-1、Wi组成的连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi);
根据统计到的数英字符串分词Wi的出现次数c(Wi)以及连续数英字符串分词Wi-1Wi的出现次数c(Wi-1Wi),基于以下公式,建立与该叶子类目c相对应的物品标题二元语言模型:
Pc(Wi|Wi-1)=c(Wi-1Wi)/c(Wi-1),if c(Wi-1Wi)!=0;
Pc(Wi|Wi-1)=α*c(Wi-1)/C,if c(Wi-1Wi)=0;
其中,C为物品标题语料中的该叶子类目c下的所有数英字符串分词的出现次数的总和,α为设定的平滑因子。
10.如权利要求6所述的装置,其特征在于,
所述字符串切分模块,具体用于若所选择的字符串切分语言模型为二元语言模型,则通过以下公式,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是分词Wi的最优切分概率:
P(Wi,Sk)=maxjP(Wj,Sk-1)*P(Wi|Wj);
其中,P(Wj,Sk-1)表示搜索到待切分数英字符串S的第k-1个字符时,最后一个分词是同一切分方式中、与所述分词Wi相邻的前一个分词Wj的最优切分概率;所述i为任意正整数且其取值不大于所述待切分数英字符串S所能够切分成的分词的最大个数;所述j=i-1;所述P(Wi|Wj)是根据所选择的字符串切分语言模型所确定的分词Wi与分词Wj的相关概率。
CN201510784681.XA 2015-11-16 2015-11-16 一种字符串切分方法及装置 Active CN106708798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510784681.XA CN106708798B (zh) 2015-11-16 2015-11-16 一种字符串切分方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510784681.XA CN106708798B (zh) 2015-11-16 2015-11-16 一种字符串切分方法及装置

Publications (2)

Publication Number Publication Date
CN106708798A CN106708798A (zh) 2017-05-24
CN106708798B true CN106708798B (zh) 2020-03-31

Family

ID=58930916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510784681.XA Active CN106708798B (zh) 2015-11-16 2015-11-16 一种字符串切分方法及装置

Country Status (1)

Country Link
CN (1) CN106708798B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408794A (zh) * 2017-08-17 2019-03-01 阿里巴巴集团控股有限公司 一种频次词典建立方法、分词方法、服务器和客户端设备
CN110858317A (zh) * 2018-08-24 2020-03-03 北京搜狗科技发展有限公司 手写识别方法及装置
CN109271631B (zh) * 2018-09-12 2023-01-24 广州多益网络股份有限公司 分词方法、装置、设备及存储介质
CN111859948A (zh) * 2019-04-28 2020-10-30 北京嘀嘀无限科技发展有限公司 语言识别、语言模型训练、字符预测方法及装置
CN110472112A (zh) * 2019-08-22 2019-11-19 广州拓波软件科技有限公司 一种简易字符串匹配方式
CN111311599B (zh) * 2020-01-17 2024-03-26 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备和存储介质
CN113435194B (zh) * 2021-06-22 2023-07-21 中国平安人寿保险股份有限公司 词汇切分方法、装置、终端设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348584A (ja) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 単語分割のための方法、装置、記憶媒体およびプログラム
CN102890690A (zh) * 2011-07-22 2013-01-23 中兴通讯股份有限公司 目标信息搜索方法和装置
CN103778138A (zh) * 2012-10-19 2014-05-07 深圳市世纪光速信息技术有限公司 一种连续字符串的切分方法和装置
US8825620B1 (en) * 2011-06-13 2014-09-02 A9.Com, Inc. Behavioral word segmentation for use in processing search queries

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348584A (ja) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 単語分割のための方法、装置、記憶媒体およびプログラム
US8825620B1 (en) * 2011-06-13 2014-09-02 A9.Com, Inc. Behavioral word segmentation for use in processing search queries
CN102890690A (zh) * 2011-07-22 2013-01-23 中兴通讯股份有限公司 目标信息搜索方法和装置
CN103778138A (zh) * 2012-10-19 2014-05-07 深圳市世纪光速信息技术有限公司 一种连续字符串的切分方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Zipfian frequency distributions facilitate word segmentation in context;ChigusaKurumada 等;《Cognition》;20130630;第127卷(第3期);第439-453页 *
基于词图的最大概率分词方法;刘汉兴 等;《计算机工程与设计》;20081231;第29卷(第24期);第6370-6372页 *

Also Published As

Publication number Publication date
CN106708798A (zh) 2017-05-24

Similar Documents

Publication Publication Date Title
CN106708798B (zh) 一种字符串切分方法及装置
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
TWI664540B (zh) Search word error correction method and device, and weighted edit distance calculation method and device
CN106649783B (zh) 一种同义词挖掘方法和装置
CN106528532B (zh) 文本纠错方法、装置及终端
US10706230B2 (en) System and method for inputting text into electronic devices
CN105488077B (zh) 生成内容标签的方法和装置
EP2921935A1 (en) Input method and system
CN110210028B (zh) 针对语音转译文本的领域特征词提取方法、装置、设备及介质
CN107463548B (zh) 短语挖掘方法及装置
CN108021545B (zh) 一种司法文书的案由提取方法及装置
CN105068997B (zh) 平行语料的构建方法及装置
CN110008474B (zh) 一种关键短语确定方法、装置、设备及存储介质
CN101131706A (zh) 一种查询修正方法及系统
Reffle et al. Unsupervised profiling of OCRed historical documents
CN106484677B (zh) 一种基于最小信息量的汉语快速分词系统及方法
CN110929510A (zh) 一种基于字典树的中文未登录词识别方法
CN110705261B (zh) 中文文本分词方法及其系统
CN105512109B (zh) 新词汇的发现方法及装置
CN113033204A (zh) 信息实体抽取方法、装置、电子设备和存储介质
US20180011836A1 (en) Tibetan Character Constituent Analysis Method, Tibetan Sorting Method And Corresponding Devices
CN109213988A (zh) 基于N-gram模型的弹幕主题提取方法、介质、设备及系统
CN111339778A (zh) 文本处理方法、装置、存储介质和处理器
Bhat Statistical stemming for Kannada
CN107807918A (zh) 泰语词语识别的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant