CN101261623A - 基于搜索的无词边界标记语言的分词方法以及装置 - Google Patents

基于搜索的无词边界标记语言的分词方法以及装置 Download PDF

Info

Publication number
CN101261623A
CN101261623A CNA2007100860309A CN200710086030A CN101261623A CN 101261623 A CN101261623 A CN 101261623A CN A2007100860309 A CNA2007100860309 A CN A2007100860309A CN 200710086030 A CN200710086030 A CN 200710086030A CN 101261623 A CN101261623 A CN 101261623A
Authority
CN
China
Prior art keywords
candidate
participle
participle unit
fragment
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007100860309A
Other languages
English (en)
Inventor
王欣靖
秦勇
刘�文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CNA2007100860309A priority Critical patent/CN101261623A/zh
Priority to PCT/EP2008/052051 priority patent/WO2008107305A2/en
Priority to US12/044,258 priority patent/US8131539B2/en
Publication of CN101261623A publication Critical patent/CN101261623A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于搜索的用于无词边界标记语言文本的分词方法和装置。根据本发明,将包括至少一个片段的该文本的一个片段提供给至少一个搜索引擎;通过该至少一个搜索引擎对该一个片段进行搜索,并返回搜索结果;根据返回的搜索结果的至少一部分选取该一个片段的分词方式。本发明更好地解决了无词边界标记语言的分词问题,克服了现有技术在灵活性、依赖于字典的覆盖度、可以获得的训练数据语料库、处理新词汇等方面的局限。

Description

基于搜索的无词边界标记语言的分词方法以及装置
技术领域
本发明涉及无词边界标记语言的分词技术,更具体地,本发明涉及基于搜索的无词边界标记语言文本的分词方法和装置。
背景技术
与英文以及其它的西方语言不同,许多亚洲语言,例如中文、日文、韩语以及泰语等语言没有用空格等词边界标记来划界。一个句子中会包括一串连续的字符,而在单词之间并没有定界符,也就是分隔符。如何界定单词则依赖于所讨论的是否为音位单词、词汇单词、语形学单词、依据造句法的单词、语义学单词或是心理学单词。因此,在任何的基于单词的语言处理中,例如在文本转语音也即语音合成(TTS)、文档特征提取、文档自动摘要、文档自动分类和中文文本检索中,将每一个句子分词成单词是首要的步骤。
为了清除起见,本发明例如针对中文进行描述,但是应当理解的是,本发明的范围并不受限于此。
中文单词分词技术主要需要解决中文自然语言处理(NLP)中的两个问题,即中文中的单词是什么以及计算机如何自动识别中文单词。相应地,中文单词的分词主要涉及了两个研究问题,单词清晰地分界以及未知单词的识别。而在目前大部分的系统中,这两个问题被认为是独立的任务因此采用了层级或是连续的方式通过不同的元件或是组件来完成。然而,由于中文单词的一些特殊语言特性,使得中文单词分词主要的困难在于分词的结果根据不同的单词语言学定义以及不同的工程需求而有所变化。关于这一点,并没有单一的标准使得所有的语言学家和计算机应用都满意,也没有能够统一接受的标准来清晰地确定每一种语境下的单词。例如,中文语言特别小组(SIGHAN)2005竞赛(SIGHAN Workshop 2005.www.sighan.org/bakeoff2005/)中,虽然所有的组所报告的精确度达到了百分之九十,但是训练语料库包含了约90,000句而测试数据集只包含了约4,400句。此外,该结果需要基于四种分词方法(即AS,PKU,CityU和MSRA)进行单独的比较。这为期望用于训练多种类型NLP系统的注标语料库的发展制造了问题,同时也对期望能够支持多重用户应用的中文单词分词系统带来了挑战。
目前中文单词分词的方法基本上可以归类为四种:1)基于字典的方法;2)统计机器学习方法;3)基于转换的方法;4)合并方法。
在基于字典的分词方法中,使用了预先定义的字典以及人工产生的语法规则。在这种方法中根据字典对句子进行分词,同时应用语法规则来进行改进。基于字典的分词方法的一种典型的技术称为最大匹配法,该方法对所输入的句子和字典中的条目进行比较以找出能够匹配最多字符的条目。可以看出,基于字典的分词方法的局限性在于这种方法受限于字典的覆盖面并且其规则缺乏稳健的统计推论。由于预先定义的字典无法列出所有的单词也无法及时更新,因此这种方法的准确性在新单词出现的时候会急剧降低。
统计机器学习方法是一种使用了概率或基于成本的评分机制而不是字典来对文本进行分词的方法。目前所提出的统计机器学习方法主要有以下几种:1)MSRSeg方法,该方法包括两个部分,一个部分是基于线性混合模型结构的一般分词器,该分词器对单词级的中文语言处理的五个特征进行统一,该五个特征为词典单词处理、语形学分析、数字串检测、命名实体识别以及新单词识别;另一个部分是一组输出适配器,将一般分词器的输出适配为不同的特殊应用标准;2)使用相邻字符的信息以接合N-gram和其相邻字符;3)最大似然法;4)应用神经网络的方法;5)引入中文词汇分析器的统一基于HHMM(Hierarchical Hidden Markov Model,结构化的隐马尔可夫模型)的框架;6)从一句话中提取各种可用的特征以构建广义的模型,并且接着基于这种模型得到各种概率模型;7)使用共有信息以及字符之间的t-评分差,这些共有信息以及字符之间的t-评分是自动从原始中文语料库中获得的;将有条件的随机字段用于分词任务。由于统计机器学习方法一般基于字符序列共现的信息来进行分析,因此这一类的方法一般要求大量的中文标注语料库用于模型训练,而更重要的是其缺乏灵活性以适应于不同的分词标准。
基于转换的方法最初使用在词性标注和解析中。这些方法的主导思想是从训练语料库尽力学习一组N-gram规则并且将它们应用到对新文本的分词上。这种学习算法对语料库(相当于字典)与其未经分词的配对进行比较从而寻找出规则。一种基于转换的方法是在手动注释的数据上训练标注从而自动地将标签分配给中文字符,而这些标签指示了在一个单词中的字符的位置。经过标注的输出接着被转换成为经分词的文本用以评估。另一种基于转换的方法是根据所谓的LMR标注对中文单词进行分词的算法。该方法中的LMR标签用最大熵马尔科夫模型来实现,接着使用基于转换的学习将在两个相对的方向上对输入进行扫描的两个LMR标签的结果进行合并。还有一种基于转换的方法是提出一种统计框架并且基于线性模型识别特殊领域或是时间性很强的单词,接着由一对一般分词器的输出进行一序列转换的后处理器进行标准适配以实现单一的单词分词系统。由于基于转换的方法是从训练语料库中学习N-gram规则,因此,这种方法仍然受限于训练语料库。
合并方法是将现有的几种方法或是信息进行合并使用的一种方法,例如,可以将字典和单词频率信息进行合并;也可以将最大熵模型和基于转换的模型进行合并;可以训练若干支持向量机并且研究动态加权的方法怎样进行分词任务;还可以将基于隐马尔科夫模型的单词分词器和基于支持向量机的块识别器进行合并用以进行单词分词。在文件“Unsupervised Training for Overlapping AmbiguityResolution in Chinese Word Segmentation”(Li,M.,Gao,J.F.,Huang,C.N.,and Li,J.F.,Proceedings of the Second SIGHAN Workshop onChinese Language Processing.Jul.2003,pp.1-7)中提出了一种无监督的训练方式来解决中文分词中的重叠模糊,该方式以未标注的中文文本语料库训练朴素贝叶斯分类器集。在这些合并方法中有一种可以方便地进行用户订制的系统从而可以满足语形学派生词(MDW)的分词中各种用户定义的标准。在该系统中,所有的MDW都包含单词树,在单词树上有对应于最大单词的根节点以及对应于最小单词的叶节点。而在单词树上每一个非终端的节点与一个决断参数相关联,该分解参数决定了其子体将被显示为单一单词或是分离的单词。从不同的对于单词树的切割可以获得不同的分词输出,而对于单词树的切割则由用户通过对这些分解参数的不同值的合并而规定。不难理解的是,由于合并方法仅仅是对上述的前几种方法的合并使用,因此仍然会带有前述方法的局限性。
从以上的描述可以看出,虽然在本领域提出了很多不同的方法,但是这些方法主要是基于字典或是统计学的方法,因此在理论语言学和计算机语言学上面临很多问题,即灵活性差,在很大程度上依赖于字典的覆盖度或是受限于可以获得的训练数据语料库,对于识别超出词汇(OOV)单词方面较弱以及所识别的OOV单词有可能在语言学上不可信等,因此使得中文单词分词的性能并不令人满意。另外,手工标记训练语料库是非常冗长乏味的任务,这也是为什么很少有可用的训练语料库。
发明内容
本发明的目的是提供一种基于搜索的用于无词边界标记语言的分词方法和装置,以更好地解决无词边界标记语言的分词问题,克服现有技术的不足。本发明利用搜索引擎返回的搜索结果来进行单词分词,以解决现有分词技术在灵活性、依赖于字典的覆盖度、可以获得的训练数据语料库、处理新词汇等方面的局限。
根据本发明的一方面提供了一种基于搜索的用于无词边界标记语言文本的分词方法,包括:a.将包括至少一个片段的该文本的一个片段提供给至少一个搜索引擎;b.通过该至少一个搜索引擎对该一个片段进行搜索,并返回搜索结果;c.根据返回的搜索结果的至少一部分选取该一个片段的分词方式。
根据本发明的另一方面还提供了一种基于搜索的用于无词边界标记语言文本的分词装置,包括:至少一个搜索引擎,接收包括至少一个片段的该文本的一个片段,该至少一个搜索引擎对该一个片段在搜索网络中进行搜索,并返回搜索结果;分词结果生成装置,根据该至少一个搜索引擎返回的搜索结果的至少一部分选取该一个片段的分词方式。
根据本发明的以上方面,可以得出本发明的以下优点:
与以前的基于字典的或统计学习方法不同,本发明利用搜索技术来对例如中文的无词边界语言分词。因此,本发明不需要预先定义的字典或大的训练语料库。
本发明的优点之一是在于新词检测。在新词与日俱增的同时,例如“非典”(SARS)本发明提供了一种非常容易的方式来识别OOV词,因为互联网上的信息是动态的、更新很快的。
由于前人提出的方法都要求一个词典的支持,不论此词典是用于实时查询(如基于词典的方法),还是用于训练分词模型(如统计学习方法等),这个词典都是有限的。而本方法的“词典”是基于互联网的,所以是动态的、可实时更新的,因此对于新词的识别非常简单有效,从而避免了前人方法中不可避免的OOV问题。
如在(Wu,A.Customizable Segmentation of MorphologicallyDerived Words in Chinese.Computational Linguistics and ChineseLanguage Processing.Vol.8,No.1,Feb.2003,pp.1-28)中所分析的,不同的应用期望不同的分词单元,甚至以例如中文为母语者会对一个给定的字符串是否为词而意见不同。如在(Sproat,R.,C.Shih,W.Gale and N.Chang,“A stochastic finite-state word-segmentationalgorithm for Chinese”.Computational Linguistics,22(3),1996,pp.377-404)中所讲的,人的判断之间的一致率仅为76%。因此,如果能够提供替代的分词单元,分词系统会更加有效。
根据本发明,搜索引擎通常能够提供多种分词单元。例如,通过Yahoo!搜索查询“试了一试”,返回了″试了″,″一试″,″试了一试″。这个特点加上本发明中的分词单元评分步骤,使得本发明能够适应各种标准。
如前所述,手工标记训练语料库是非常冗长乏味的任务。而本发明可以是完全无监督的。因为在本发明中,唯一可能需要训练过程的步骤是评分功能。根据本发明,如果采用“术语频率”作为分词单元评分标准,则不需要训练数据,这样能够使整个方案成为无监督的。
由于本发明通过搜索引擎采用互联网上的大量文档来得到最初的分词单元,而文档是由人类写就的,因而遵从自然语言的,本方法相对于过去的方法而言,不再需要对文档进行自然语言分析就可以直接得到正确的分词结果。
附图说明
通过以下结合附图的说明,并且随着对本发明的更全面了解,本发明的其它目的和效果将变得更加清楚和易于理解,其中:
图1表示根据本发明的基于搜索的用于无词边界标记语言的分词系统的基本单元示意图;
图2表示根据本发明基于搜索的用于无词边界标记的语言的分词方法;
图3示出了根据本发明一个实施方式的基于搜索的分词方法的流程图;
图4所示的是使用了公共搜索引擎Yahoo!的搜索结果;
图5表示根据本发明的一个示例的分词结果;
图6表示根据本发明的又一个示例的分词结果。
具体实施方式
以下对本发明的优选实施方式进行详细描述。
图1表示根据本发明的基于搜索的用于无词边界标记语言文本的分词系统的基本单元示意图。图2表示根据本发明基于搜索的用于无词边界标记的语言文本的分词方法。根据本发明,对一个无词边界标记语言文本,例如日语、韩语、泰语或中文的文本甚至是消除空格的英文或其它西语文本进行分词,首先在步骤S100将包括至少一个片段的该文本的一个片段作为查询内容提供给至少一个搜索引擎1,可以例如以键盘输入的方式、手写输入、语音输入的方式、直接对文本操作(例如选中一段文本进行操作)或任何可用的其它方式等将查询内容提供给搜索引擎。该文本的片段可以由例如标点或其它标记性的内容或符号来划分。在步骤S110通过搜索引擎1对查询内容(片段)在搜索网络2,例如互联网,中进行搜索,并返回的搜索结果。在步骤S120,分词结果生成装置3根据返回的搜索结果选取所提交的片段的最优的分词方式。
例如,首先将文本按照标点分词成一组句子单元。然后将每个句子单元作为查询提交给搜索引擎。从搜索引擎返回的文本摘录中提取所有的候选的短语,即“命中”,称为候选分词单元。对于每个候选分词单元可以计算一个分值。候选分词单元形成多个子集。每个子集中的候选分词单元串联起来得到提交的查询,即形成一个“路径”(即序列),以最佳的“路径”作为提交的句子单元的分词结果。
下面根据图3和图4更具体地示例性地描述本发明。图3示出了根据本发明一个实施方式的基于搜索的分词方法的流程图。如图3所示,首先,在步骤S1101,输入文档S,例如中文文档;接着,在步骤S1102,使用标点对给定的文档S进行划分,将其划分为句单元,这样就给出了图3中所示的{si},其中i指示着在{si}中的第i项。本方法依次对各个项进行处理直到处理完{si}中所有项;在步骤S1103,将所划分的句单元,也就是,对于每一个si∈{si},将其提交给搜索引擎,搜索引擎通常会提供各种分词单元;接着,在步骤S1104,根据搜索结果,收集由所有的搜索引擎返回的所有候选分词单元集{wj i}},其中i指的是{si}中的第i项,而j是分词单元的索引。如果我们使用如Yahoo!、Google的公共搜索引擎,可以从返回的搜索结果的HTML文件的源文件中提取候选分词单元,即提取返回的摘录中的高亮的短语,例如图4中所示的红色字体的高亮短语。图4所示的是使用了公共搜索引擎Yahoo!搜索“他高兴地说”的搜索结果。然而如果有可用的自有搜索引擎时,可以利用索引表提供的信息,查看术语在文档中的位置的相邻性来得到分词单元。可以理解的是,本发明并不限于此,而是可以通过对公共或自有搜索引擎的搜索结果所给出的所有高亮短语进行收集并且进行搜索结果的合并。事实上,由于本发明是基于前面排名的文档来计算特征(例如,频率),并且本地分词模型对搜索结果以及因此对候选分词单元产生影响,所以在具有不同的本地分词模型的多种搜索引擎的基础上收集候选分词单元会产生更为有益的分词性能。
为更清楚地描述本发明,进一步说明如下。搜索引擎通常的工作过程是这样的:基于所提交的查询初步将其分词为一组术语,这些术语是n-grams或者是基于该搜索引擎所采用的本地分词模型。接着搜索引擎对所有包含了这些术语(也即命中)的一个或多个的文档进行索引,根据这些命中而计算每一个文档的一个分值,对这些文档进行排序,最终向用户输出这些文档中最靠前的一些文档(例如,可以是前1000篇文档)。根据排名策略,一般来讲,一篇文档中包含越多的命中,其排名就越靠前。
这样,很直观地,排名靠前的文档中所包含的命中建议了一些候选分词单元,这些候选分词单元指示着在自然语言中字符是怎样彼此相关联的。例如,如图4所示,从该搜索实例可以看出,对于“他高兴地说”这句话,得到了“他高兴地”,“高兴”,“他说”等等。此外,一个术语的分布(例如,频率)指示着其普遍性,也就是特定字符彼此相关联的可能性有多大。仍然参考图4,可以看出,“他高兴地”出现了三次而“高兴”出现了四次。如果术语出现的频率用作衡量候选分词单元的一个标准时,则“高兴”将比“他高兴地”更为优选,因为前者出现的频率高于后者。另一方面,搜索引擎所采用的N-gram模型或是本地分词模型本身可能并不是有效果的。在本发明方法中,所收集的候选分词单元是所检索的文档摘录中的高亮短语。而由于Web文档是由人类写就的,因此是遵从自然语言的。即使搜索引擎的本地分词并不正确,其也会由这些文档进行修正,换言之,由人类说话的方式进行修正。例如给出的一个极端的例子,假设一个搜索引擎将分隔开每一个字符,也即没有采用N-gram模型或是本地分词模型,这时搜索引擎将每一个单gram用作一个术语(即,每一个术语中仅包含一个字符)来对文档进行索引,这样在所检索到的文档中,这些术语就彼此相邻。在图4的例子中,表示的实例是“他高兴地说”的Yahoo!搜索的结果。红色的高亮部分给出了分词单元(例如,“他高兴地”、“说”、“高兴”等)。似乎“他高兴地”被搜索引擎识别为n-gram。然而,通过查看html文件的源文件,可以看到该搜索引擎只索引该n-gram的各部分。源文件如下:<b>他</b><b>高兴</b><b>地</b>。引用在<b></b>中的短语给出了搜索引擎的初始分词。从这个例子可以看到,候选分词单元不受搜索引擎的本地分词模型的影响。
接着,优选地可以从{wj i}过滤掉无效的分词单元。所说的这种无效分词单元例如有两种类型,一种是并没有出现在查询句子中的分词单元,也就是说,所查询的句子并没有包含恰好匹配这个分词单元的一部分字符序列;另一种也就是所谓的单字,这种分词方法就是将每个字看作一个词,从严格的意义上来说,这种分词并不能算作一种分词方法。大部分这种单字符术语都是停用词。
接着针对查询句子的重构对候选分词单元过滤后所剩下的分词单元进行评分,并且最有可能给出查询句子的分词单元对应着最佳的分词。
在步骤S1105,对所收集的所有候选分词单元进行评分。在此步骤可以使用各种可用的评分方法。在以下的描述中,示例性地描述了两种评分方法,即基于频率的方法和基于SVM(支持向量机器)方法。
在本实施例中,作为一种评分方法采用了基于频率的方法进行评分,最简单的方式是基于搜索结果将每一个wj i全部术语的出现频率用作分值。所谓的全部术语的出现频率如下面等式(1)所示,
S tf ( w j i ) = &Sigma; k = 1 N i TF k ( w j i ) &Sigma; j &Sigma; k = 1 N i TF k ( w j i ) - - - ( 1 )
其中sif(wj i)表示wj i的术语频率分值.Ni是通过si检索到的文档数量.TFk(wj i)是wj i在第k个文档摘录(如果是公共搜索引擎)中的次数.
等式(1)为wj i的出现次数与对应于该查询si的所有分词单元{wj i}出现的总次数的比值。而这种方法,基本上对应着最大似然(Maximum likelihood)标准。关于统计学习理论,此标准使得当数据集足够大时(按照大数定律)经验风险最小(在本实施例中使用作为一种非线性拟合办法的最大似然法的优势在于使用这种方法估计的参数将会使得对数似然值最大或者负的对数似然值最小)。
另一种评分方法是基于SVM(支持向量机器)方法。当数据集不是足够大时,我们寻求最小化结构风险,而基于SVM(支持向量机器)方法正是一种试图最小化数据集结构风险的算法。可以尝试不同的核函数,RBF核函数、S核函数、线性和多项式核函数。可以选择SVM分类器或SVM回归模型来对分词单元评分。然而,由于训练SVM回归模型要求提供数值评分给每个训练数据点,通常很难确定评分策略。容易的方式是利用SVM分类器作为评分模型,并且使用Platt提出的S函数将输出映射为概率(Platt,J.,Probabilisticoutputs for support vector machines and comparisons to regularizedlikelihood methods.Large Margin Classifiers,Smola,A.,Bartlett,P.,Scholkopf,B.,Schuurmans,D.(eds.),MIT Press,1999)。在本发明的实施中,利用SVM分类器对每个分词单元评分。
为了训练SVM分类器,首先应该将每个数据点(即候选分词单元)表示为一个特征向量。对每个分词单元提取例如以下三类特征之一或其组合,或其它特征:
1.LEN:LEN特征定义为一个分词单元中字的数量。更长的分词单元优选于短的分词单元,因为它们在语音合成、语音识别应用等中表示了更好的语义单元。
2.AVGOCCU:“AVGOCCU”定义为平均出现率,即一个分词单元出现的次数,优选地是在“有效”分词单元集合,即滤除无效分词单元后的分词单元集合中出现的次数,除以搜索引擎返回的结果中的文档数量。更高的AVGOCCU值表示更好的分词单元。
3.DF:“DF”定义为文挡频率,即对于一个分词单元,多少个搜索结果包含它。DF越大,该分词单元越好。
在SVM方法中,还可以采用其它的特征作为分词单元的特征。
接着,在步骤S1106,根据在步骤S1105得到的评分结果从候选分词单元中选择最佳候选分词单元子集。本发明中可以采用不同的方法来选择最佳候选分词单元子集。示例性地,本实施例根据重构查询句子的术语来找最高排名路径。
一个示例的路径寻找方法是动态规划。在此,一个隐含的限制是wi≡si,即候选分词单元子集重构的最终路径应该与查询句子相同。此限制便于生成 w i = w 1 i w 2 i &CenterDot; &CenterDot; &CenterDot; w n i , 这是通过给定wj i来限制wj+1 i的选择,显然在字符串si中wj+1 i的开始字符应该是紧跟wj i的结束字符的字符。
以下等式(2)给出了排名函数的一个例子。该等式将分词单元的最优子集w*定义为给出具有最高路径评分的序列的分词单元子集。
w * = arg max w i S ( w i ) = arg max w i 1 n &Sigma; j = 1 n S ( w j i ) - - - ( 2 )
其中,S(·)是由基于频率的方法或基于SVM的方法给出的评分;n是最优子集中包含的分词单元的数量。
还可以尝试其它有效的路径寻找标准,例如贪心搜索等。
最后,在步骤S1107,对最佳分词单元子集进行输出,作为查询的句子单元的分词方式。
以上描述全面详细地体现了本发明的特点和优点。以下两个实例进一步说明了本发明的两个突出的优点:
1)由于前人提出的方法都要求一个词典的支持,不论此词典是用于实时查询(如基于词典的方法),还是用于训练分词模型(如统计学习方法等),这个词典都是有限的。而本方法的“词典”是动态的,可实时更新的,因此对于新词的识别非常简单有效,从而避免了前人方法中不可避免的OOV问题。图5中显示了本发明的方法对于“胡锦涛说八荣八耻很重要”的分词结果及其与IBM Full-parser(IBM当前的采用基于词典方法的分词工具)结果的对比。“八荣八耻”是一个新词,但由于基于词典方法的局限性,这个词在IBMFull-parser的词典中不存在,所以IBM Full-parser将其分成四个独立的单字词“八”“荣”“八”“耻”;然而,由于本方法采用动态、实时更新的文档集(如互联网),因此能正确识别该新词“八荣八耻”。
2)由于通过搜索引擎采用互联网上的大量文档来得到最初的分词单元,而文档是由人类写就的,因而遵从自然语言的,本方法相对于过去的方法而言,不再需要对文档进行自然语言分析就可以直接得到正确的分词结果。图6给出的实例有效地说明了这一点。图中显示的是本方法对实例句“有职称的和尚未有职称的”的分词结果及其与IBM Full-parser结果的比较。本例中“和尚未有”是一个歧义单元,它可能表示“和尚”“未有”,也可能表示“和”“尚未”“有”。但是,由于实例句中给出了上下文信息“有职称的”,而和尚是无所谓职称的,所以该上下文信息实际限定了正确的分词方法应该为后一种“和”“尚未”“有”。由图6可见,本方法很好的体现了这一点。相反的,由于IBM Full-parser采用基于词典的最大匹配方法,而“和尚”存在于其词典中,因此它给出了前者错误的分词方法。
当然,本领域的技术人员应当理解,本发明的方法可以编码为存储在计算机可读存储介质上的程序,计算机执行该程序以实现本发明的方法。因此,本发明也覆盖根据本发明的方法编码的计算机程序产品,以及存储该计算机程序的计算机可读存储介质。
应当注意,为了使本发明更容易理解,上面的描述省略了对于本领域的技术人员来说是公知的、并且对于本发明的实现可能是必需的更具体的一些技术细节。
提供本发明的说明书的目的是为了说明和描述,而不是用来穷举或将本发明限制为所公开的形式。对本领域的普通技术人员而言,许多修改和变更都是显而易见的。
例如,可以对各种无词边界语言进行处理、采用各种查询输入方式、采用一种或多种搜索引擎、对来自不同搜索引擎的搜索结果进行静态或动态加权、采用其它的候选分词单元评分方法、采用其它的候选分词单元子集排名方法等等。
因此,选择并描述实施方式是为了更好地解释本发明的原理及其实际应用,并使本领域普通技术人员明白,在不脱离本发明实质的前提下,所有修改和变更均落入由权利要求所限定的本发明的保护范围之内。

Claims (20)

1. 一种基于搜索的用于无词边界标记语言文本的分词方法,包括:
a.将包括至少一个片段的该文本的一个片段提供给至少一个搜索引擎;
b.通过该至少一个搜索引擎对该一个片段进行搜索,并返回搜索结果;
c.根据返回的搜索结果的至少一部分选取该一个片段的分词方式。
2. 根据权利要求1的方法,所述返回的搜索结果的至少一部分是排名靠前的部分。
3. 根据权利要求1的方法,在步骤c中,从所述返回的搜索结果的至少一部分中提取该一个片段的所有出现的候选分词单元,对提取的候选分词单元进行评分,根据该评分,对提取的候选分词单元的子集排名,所述每个子集中的候选分词单元按顺序形成该一个片段,选取排名最高子集作为该一个片段的分词方式。
4. 根据权利要求3的方法,从提取的候选分词单元中滤除无效的候选分词单元,该无效的候选分词单元是单字符和未出现在该一个片段中的分词单元之一。
5. 根据权利要求3的方法,对被评分的候选分词单元的评分方式是基于频率的方式,在所述搜索结果的一部分中,统计被评分的候选分词单元出现次数与所有候选分词单元出现的总次数的比值,作为被评分的候选分词单元的分值。
6. 根据权利要求3的方法,对被评分的候选分词单元的评分方式是基于支持向量机SVM的方式,利用SVM分类器或SVM回归模型对每个候选分词单元评分,为训练SVM分类器或SVM回归模型,将作为数据点的候选分词单元表示为一个特征向量。
7. 根据权利要求6的方法,对每个候选分词单元提取的特征包括以下特征之一或其组合:候选分词单元中字的数量;平均出现率,即候选分词单元出现的次数,除以搜索引擎返回的结果中的文档数量;文挡频率,即对于候选分词单元,多少个搜索结果包含它。
8. 根据权利要求5或6的方法,将其中候选分词单元的平均分值最高的候选分词单元子集作为该一个片段的选取的分词方式。
9. 根据权利要求3的方法,在返回的搜索结果中提取的候选分词单元是提取返回的摘录中的高亮短语。
10. 根据权利要求3的方法,当该搜索引擎为自有搜索引擎时,利用索引表提供的信息,查看术语在文档中的位置的相邻性来得到分词单元。
11. 一种基于搜索的用于无词边界标记语言文本的分词装置,包括:
至少一个搜索引擎,接收包括至少一个片段的该文本的一个片段,该至少一个搜索引擎对该一个片段在搜索网络中进行搜索,并返回搜索结果;
分词结果生成装置,根据该至少一个搜索引擎返回的搜索结果的至少一部分选取该一个片段的分词方式。
12. 根据权利要求11的装置,所述至少一个搜索引擎返回的搜索结果的至少一部分是排名靠前的部分。
13. 根据权利要求11的装置,该分词结果生成装置从所述返回的搜索结果的至少一部分中提取该一个片段的所有出现的候选分词单元,对提取的候选分词单元进行评分,根据该评分,对提取的候选分词单元的子集排名,所述每个子集中的候选分词单元按顺序形成该一个片段,选取排名最高子集作为该一个片段的分词方式。
14. 根据权利要求13的装置,该分词结果生成装置从提取的候选分词单元中滤除无效的候选分词单元,该无效的候选分词单元是单字符和未出现在该一个片段中的分词单元之一。
15. 根据权利要求13的装置,该分词结果生成装置对被评分的候选分词单元的评分方式是基于频率的方式,在所述搜索结果的一部分中,统计被评分的候选分词单元出现次数与所有候选分词单元出现的总次数的比值,作为被评分的候选分词单元的分值。
16. 根据权利要求13的装置,该分词结果生成装置对被评分的候选分词单元的评分方式是基于支持向量机SVM的方式,该分词结果生成装置利用SVM分类器或SVM回归模型对每个候选分词单元评分,为训练SVM分类器或SVM回归模型,将作为数据点的候选分词单元表示为一个特征向量。
17. 根据权利要求16的装置,对每个候选分词单元提取的特征包括以下特征之一或其组合:候选分词单元中字的数量;平均出现率,即候选分词单元出现的次数,除以搜索引擎返回的结果中的文档数量;文挡频率,即对于候选分词单元,多少个搜索结果包含它。
18. 根据权利要求15或16的装置,该分词结果生成装置将其中候选分词单元的平均分值最高的候选分词单元子集作为该一个片段的选取的分词方式。
19. 根据权利要求13的装置,该分词结果生成装置在返回的搜索结果中提取候选分词单元是提取返回的摘录中的高亮短语。
20. 根据权利要求13的装置,当该搜索引擎为自有搜索引擎时,该分词结果生成装置利用索引表提供的信息,查看术语在文档中的位置的相邻性来得到分词单元。
CNA2007100860309A 2007-03-07 2007-03-07 基于搜索的无词边界标记语言的分词方法以及装置 Pending CN101261623A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CNA2007100860309A CN101261623A (zh) 2007-03-07 2007-03-07 基于搜索的无词边界标记语言的分词方法以及装置
PCT/EP2008/052051 WO2008107305A2 (en) 2007-03-07 2008-02-20 Search-based word segmentation method and device for language without word boundary tag
US12/044,258 US8131539B2 (en) 2007-03-07 2008-03-07 Search-based word segmentation method and device for language without word boundary tag

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007100860309A CN101261623A (zh) 2007-03-07 2007-03-07 基于搜索的无词边界标记语言的分词方法以及装置

Publications (1)

Publication Number Publication Date
CN101261623A true CN101261623A (zh) 2008-09-10

Family

ID=39707621

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007100860309A Pending CN101261623A (zh) 2007-03-07 2007-03-07 基于搜索的无词边界标记语言的分词方法以及装置

Country Status (3)

Country Link
US (1) US8131539B2 (zh)
CN (1) CN101261623A (zh)
WO (1) WO2008107305A2 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567529A (zh) * 2011-12-30 2012-07-11 北京理工大学 一种基于双视图主动学习技术的跨语言文本分类方法
TWI385545B (zh) * 2011-03-04 2013-02-11 Rakuten Inc A collective expansion processing apparatus, a collective expansion processing method, a program, and a non-temporary recording medium
CN103207854A (zh) * 2012-01-11 2013-07-17 宋曜廷 中文文本可读性计量系统及其方法
CN103324607A (zh) * 2012-03-20 2013-09-25 北京百度网讯科技有限公司 一种泰语文本切词方法及装置
CN104462056A (zh) * 2013-09-17 2015-03-25 国际商业机器公司 基于深度文档分析的主动知识指导
CN104866472A (zh) * 2015-06-15 2015-08-26 百度在线网络技术(北京)有限公司 分词训练集的生成方法和装置
CN105260482A (zh) * 2015-11-16 2016-01-20 金陵科技学院 基于众包技术的网络新词发现装置以及方法
CN106095759A (zh) * 2016-06-20 2016-11-09 西安交通大学 一种基于启发式规则的发票货物归类方法
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN107301170A (zh) * 2017-06-19 2017-10-27 北京百度网讯科技有限公司 基于人工智能的切分语句的方法和装置
CN109284763A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 一种生成分词训练数据的方法和服务器
CN110020120A (zh) * 2017-10-10 2019-07-16 腾讯科技(北京)有限公司 内容投放系统中的特征词处理方法、装置及存储介质
CN110399452A (zh) * 2019-07-23 2019-11-01 福建奇点时空数字科技有限公司 一种基于实例特征建模的命名实体列表生成方法
CN113704501A (zh) * 2021-08-10 2021-11-26 上海硬通网络科技有限公司 应用的标签获取方法、装置、电子设备及存储介质

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US20090326916A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Unsupervised chinese word segmentation for statistical machine translation
CA2639438A1 (en) * 2008-09-08 2010-03-08 Semanti Inc. Semantically associated computer search index, and uses therefore
CN101430680B (zh) * 2008-12-31 2011-01-19 阿里巴巴集团控股有限公司 一种无词边界标记语言文本的分词序列选择方法及系统
US20100191758A1 (en) * 2009-01-26 2010-07-29 Yahoo! Inc. System and method for improved search relevance using proximity boosting
EP2488963A1 (en) * 2009-10-15 2012-08-22 Rogers Communications Inc. System and method for phrase identification
US9081868B2 (en) * 2009-12-16 2015-07-14 Google Technology Holdings LLC Voice web search
CN102411563B (zh) * 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
CN102955773B (zh) * 2011-08-31 2015-12-02 国际商业机器公司 用于在中文文档中识别化学名称的方法及系统
TW201403354A (zh) * 2012-07-03 2014-01-16 Univ Nat Taiwan Normal 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法
CN104462051B (zh) * 2013-09-12 2018-10-02 腾讯科技(深圳)有限公司 分词方法及装置
CN104517106B (zh) * 2013-09-29 2017-11-28 北大方正集团有限公司 一种列表识别方法与系统
CN103559177A (zh) * 2013-11-12 2014-02-05 金蝶软件(中国)有限公司 一种地名识别方法及装置
CN103558926A (zh) * 2013-11-12 2014-02-05 金蝶软件(中国)有限公司 一种地名录入方法及装置
CN103699524A (zh) * 2013-12-18 2014-04-02 百度在线网络技术(北京)有限公司 分词方法和移动终端
CN105335446A (zh) * 2014-08-13 2016-02-17 中国科学院声学研究所 一种基于词矢量的短文本分类模型生成方法与分类方法
CN104156454B (zh) * 2014-08-18 2018-09-18 腾讯科技(深圳)有限公司 搜索词的纠错方法和装置
CN104933023B (zh) * 2015-05-12 2017-09-01 深圳市华傲数据技术有限公司 中文地址分词标注方法
CN104933024B (zh) * 2015-05-12 2017-09-01 深圳市华傲数据技术有限公司 中文地址分词标注方法
CN105095196B (zh) * 2015-07-24 2017-11-14 北京京东尚科信息技术有限公司 文本中新词发现的方法和装置
CN106708893B (zh) * 2015-11-17 2018-09-28 华为技术有限公司 搜索查询词纠错方法和装置
CN105550170B (zh) * 2015-12-14 2018-10-12 北京锐安科技有限公司 一种中文分词方法及装置
CN106484266B (zh) * 2016-10-18 2020-02-21 北京字节跳动网络技术有限公司 一种文本处理方法及装置
TWI656450B (zh) * 2017-01-06 2019-04-11 香港商光訊網絡科技有限公司 從中文語料庫提取知識的方法和系統
JP6778654B2 (ja) * 2017-06-08 2020-11-04 日本電信電話株式会社 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム
CN107295375A (zh) * 2017-06-13 2017-10-24 中国传媒大学 综艺节目内容特征获取系统及应用系统
EP3642733A4 (en) * 2017-07-31 2020-07-22 Beijing Didi Infinity Technology and Development Co., Ltd. SYSTEM AND PROCESS FOR SEGMENTING A SENTENCE
CN107480136B (zh) * 2017-08-02 2020-07-03 逄泽沐风 一种应用于电影剧本中情感曲线分析的方法
US10607604B2 (en) * 2017-10-27 2020-03-31 International Business Machines Corporation Method for re-aligning corpus and improving the consistency
CN108320740B (zh) * 2017-12-29 2021-01-19 深圳和而泰数据资源与云技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN108509425B (zh) * 2018-04-10 2021-08-24 中国人民解放军陆军工程大学 一种基于新颖度的中文新词发现方法
CN111949349A (zh) * 2018-08-21 2020-11-17 第四范式(北京)技术有限公司 统一地执行特征抽取的方法及系统
US11003854B2 (en) * 2018-10-30 2021-05-11 International Business Machines Corporation Adjusting an operation of a system based on a modified lexical analysis model for a document
US10949622B2 (en) * 2018-10-30 2021-03-16 The Florida International University Board Of Trustees Systems and methods for segmenting documents
CN110309504B (zh) * 2019-05-23 2023-10-31 平安科技(深圳)有限公司 基于分词的文本处理方法、装置、设备及存储介质
CN111090720B (zh) * 2019-11-22 2023-09-12 北京捷通华声科技股份有限公司 一种热词的添加方法和装置
CN111353309A (zh) * 2019-12-25 2020-06-30 北京合力亿捷科技股份有限公司 基于文本分析处理通信质量投诉地址的方法及系统
CN111274806B (zh) * 2020-01-20 2020-11-06 医惠科技有限公司 分词和词性识别方法、装置及电子病历的分析方法、装置
CN113448935B (zh) * 2020-03-24 2024-04-26 伊姆西Ip控股有限责任公司 用于提供日志信息的方法、电子设备和计算机程序产品
CN111444716A (zh) * 2020-03-30 2020-07-24 深圳市微购科技有限公司 标题分词方法、终端及计算机可读存储介质
CN112765975B (zh) * 2020-12-25 2023-08-04 北京百度网讯科技有限公司 分词岐义处理方法、装置、设备以及介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5583763A (en) * 1993-09-09 1996-12-10 Mni Interactive Method and apparatus for recommending selections based on preferences in a multi-user system
US6381598B1 (en) * 1998-12-22 2002-04-30 Xerox Corporation System for providing cross-lingual information retrieval
AU2003245506A1 (en) * 2002-06-13 2003-12-31 Mark Logic Corporation Parent-child query indexing for xml databases
TW575813B (en) * 2002-10-11 2004-02-11 Intumit Inc System and method using external search engine as foundation for segmentation of word
JP4754247B2 (ja) * 2004-03-31 2011-08-24 オセ−テクノロジーズ ビーブイ 複合語を構成する単語を割り出す装置及びコンピュータ化された方法
US7680648B2 (en) * 2004-09-30 2010-03-16 Google Inc. Methods and systems for improving text segmentation

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI385545B (zh) * 2011-03-04 2013-02-11 Rakuten Inc A collective expansion processing apparatus, a collective expansion processing method, a program, and a non-temporary recording medium
CN102567529B (zh) * 2011-12-30 2013-11-06 北京理工大学 一种基于双视图主动学习技术的跨语言文本分类方法
CN102567529A (zh) * 2011-12-30 2012-07-11 北京理工大学 一种基于双视图主动学习技术的跨语言文本分类方法
CN103207854A (zh) * 2012-01-11 2013-07-17 宋曜廷 中文文本可读性计量系统及其方法
CN103324607A (zh) * 2012-03-20 2013-09-25 北京百度网讯科技有限公司 一种泰语文本切词方法及装置
CN103324607B (zh) * 2012-03-20 2016-11-23 北京百度网讯科技有限公司 一种泰语文本切词方法及装置
US9817823B2 (en) 2013-09-17 2017-11-14 International Business Machines Corporation Active knowledge guidance based on deep document analysis
CN104462056A (zh) * 2013-09-17 2015-03-25 国际商业机器公司 基于深度文档分析的主动知识指导
US10698956B2 (en) 2013-09-17 2020-06-30 International Business Machines Corporation Active knowledge guidance based on deep document analysis
US9824088B2 (en) 2013-09-17 2017-11-21 International Business Machines Corporation Active knowledge guidance based on deep document analysis
CN104866472A (zh) * 2015-06-15 2015-08-26 百度在线网络技术(北京)有限公司 分词训练集的生成方法和装置
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN106355628B (zh) * 2015-07-16 2019-07-05 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN105260482A (zh) * 2015-11-16 2016-01-20 金陵科技学院 基于众包技术的网络新词发现装置以及方法
CN106095759A (zh) * 2016-06-20 2016-11-09 西安交通大学 一种基于启发式规则的发票货物归类方法
CN106095759B (zh) * 2016-06-20 2019-05-24 西安交通大学 一种基于启发式规则的发票货物归类方法
CN107301170A (zh) * 2017-06-19 2017-10-27 北京百度网讯科技有限公司 基于人工智能的切分语句的方法和装置
US10755048B2 (en) 2017-06-19 2020-08-25 Beijing Baidu Netcom Science And Technology Co., Ltd. Artificial intelligence based method and apparatus for segmenting sentence
CN109284763A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 一种生成分词训练数据的方法和服务器
CN110020120A (zh) * 2017-10-10 2019-07-16 腾讯科技(北京)有限公司 内容投放系统中的特征词处理方法、装置及存储介质
CN110020120B (zh) * 2017-10-10 2023-11-10 腾讯科技(北京)有限公司 内容投放系统中的特征词处理方法、装置及存储介质
CN110399452A (zh) * 2019-07-23 2019-11-01 福建奇点时空数字科技有限公司 一种基于实例特征建模的命名实体列表生成方法
CN113704501A (zh) * 2021-08-10 2021-11-26 上海硬通网络科技有限公司 应用的标签获取方法、装置、电子设备及存储介质
CN113704501B (zh) * 2021-08-10 2024-05-31 上海硬通网络科技有限公司 应用的标签获取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2008107305A3 (en) 2008-11-06
US8131539B2 (en) 2012-03-06
US20080221863A1 (en) 2008-09-11
WO2008107305A2 (en) 2008-09-12

Similar Documents

Publication Publication Date Title
CN101261623A (zh) 基于搜索的无词边界标记语言的分词方法以及装置
Stamatatos et al. Automatic text categorization in terms of genre and author
US8447588B2 (en) Region-matching transducers for natural language processing
US9037967B1 (en) Arabic spell checking technique
US8266169B2 (en) Complex queries for corpus indexing and search
Kumar et al. Part of speech taggers for morphologically rich indian languages: a survey
Tabassum et al. A survey on text pre-processing & feature extraction techniques in natural language processing
US8510097B2 (en) Region-matching transducers for text-characterization
Lee et al. English to Korean statistical transliteration for information retrieval
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
Sen et al. Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods
Etaiwi et al. Statistical Arabic name entity recognition approaches: A survey
Jayakrishnan et al. Multi-class emotion detection and annotation in Malayalam novels
Utomo et al. Text classification of british english and American english using support vector machine
CN112711666B (zh) 期货标签抽取方法及装置
Belay et al. Impacts of homophone normalization on semantic models for amharic
CN109977391B (zh) 一种文本数据的信息抽取方法及装置
Sen et al. Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods
Hirpassa Information extraction system for Amharic text
Lee Natural Language Processing: A Textbook with Python Implementation
Amri et al. Amazigh part-of-speech tagging using markov models and decision trees
Khoufi et al. Chunking Arabic texts using conditional random fields
Ilgen et al. Exploring feature sets for Turkish word sense disambiguation
Olika Word Sense Disambiguation for Afaan Oromo: Using Knowledge Base
Aparna et al. A review on different approaches of pos tagging in NLP

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080910