CN102479191B - 提供多粒度分词结果的方法及其装置 - Google Patents

提供多粒度分词结果的方法及其装置 Download PDF

Info

Publication number
CN102479191B
CN102479191B CN201010555763.4A CN201010555763A CN102479191B CN 102479191 B CN102479191 B CN 102479191B CN 201010555763 A CN201010555763 A CN 201010555763A CN 102479191 B CN102479191 B CN 102479191B
Authority
CN
China
Prior art keywords
word
unit
dictionary
segmentation
semantic
Prior art date
Application number
CN201010555763.4A
Other languages
English (en)
Other versions
CN102479191A (zh
Inventor
孙健
侯磊
唐晶明
初敏
廖晓玲
许冰婧
彭仁刚
杨扬
Original Assignee
阿里巴巴集团控股有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 阿里巴巴集团控股有限公司 filed Critical 阿里巴巴集团控股有限公司
Priority to CN201010555763.4A priority Critical patent/CN102479191B/zh
Publication of CN102479191A publication Critical patent/CN102479191A/zh
Application granted granted Critical
Publication of CN102479191B publication Critical patent/CN102479191B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/20Handling natural language data
    • G06F17/28Processing or translating of natural language
    • G06F17/2863Processing of non-latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/20Handling natural language data
    • G06F17/27Automatic analysis, e.g. parsing
    • G06F17/2705Parsing
    • G06F17/271Syntactic parsing, e.g. based on context-free grammar [CFG], unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/20Handling natural language data
    • G06F17/27Automatic analysis, e.g. parsing
    • G06F17/2765Recognition
    • G06F17/277Lexical analysis, e.g. tokenisation, collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/20Handling natural language data
    • G06F17/27Automatic analysis, e.g. parsing
    • G06F17/2785Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/20Handling natural language data
    • G06F17/28Processing or translating of natural language

Abstract

本申请公开了一种提供多粒度分词结果的方法及其装置,用以在提供多粒度分词结果时,避免丢失语义项、或分词准确性较低的问题。该方法包括:建立最小语义单元词典;并根据所述最小语义单元词典对给定文本进行分词处理,获取中间粒度分词结果;以及根据比最小语义单元词典粒度大的词典对所述中间粒度分词结果进行合并,获得粒度大于中间粒度分词结果的第一粒度分词结果;依次针对中间粒度分词结果中的每个切分单元,在最小语义单元词典中查找该切分单元包含的检索单元,以及根据中间粒度分词结果、以及查找到的检索单元,确定粒度小于中间粒度分词结果的第二粒度分词结果。

Description

提供多粒度分词结果的方法及其装置

技术领域

[0001] 本申请涉及文字信息处理技术领域,尤其涉及一种建立分词词典的方法、一种提供多粒度分词结果的方法、一种建立分词词典的装置以及一种提供多粒度分词结果的装置。

背景技术

[0002] 从是否具有词边界标记的角度,可以将世界范围的语言文字分为两种,其中一种为有词边界标记的语言,如英文、德文等,一般单词之间采用空格作为词边界标记来划界;另一种是无词边界标记语言,如中文、日文或韩文,在一个句子中单词彼此之间没有定界符。在搜索引擎、机器翻译、语音合成等应用中都涉及语言文本的处理问题,计算机如何对给定的无词边界标记语言的文本进行分词,将一个句子分成由切分单元组成的切分单元序列成为一个关键步骤。

[0003] 分词词典中包含充分多的预先存储的词条,在进行分词时按照一定的策略(例如由左到右的方向的正向最大匹配法、由右到左的方向的逆向最大匹配法、最小切分法等)将给定文本与分词词典中的词条进行匹配。比如在最大匹配方法中,若在词典中找到能够匹配该输入文本的最长的词条,则识别出一个词,将识别出的词作为一个切分单元。依次类推,从而将给定文本分词为由切分单元组成的切分单元序列(当然,切分单元不仅包含匹配成功的词,也可能包含单字或者动态识别出来的词)。

[0004] 对于相同的给定文本,从分词结果来看,如果作为分词结果的切分单元序列中切分单元的长度越长,即切分单元序列中包含的切分单元的数目越少,分词粒度越大;反之,如果作为分词结果的切分单元序列中包含的切分单元的数目越多,分词粒度越小。例如,给定的文本为“中华人民共和国成立了 ”,粒度较小的分词结果为“中华-人民-共和国-成立-了”,粒度较大的分词结果为“中华人民共和国-成立-了”。

[0005] 不同应用对分词结果粒度层次的要求不同。比如,在机器翻译中,颗粒度应该大一些,“企业管理”就不要分成两个词。而在搜索引擎的索引系统中,“企业管理”一般是被分成两个词。

[0006] 仅仅对于同一类应用而言,对分词结果粒度层次的要求也是不同的,下面以搜索引擎这个应用为例进行说明。在搜索引擎这个应用中,不同领域的搜索引擎需要的切分粒度也是不一样的。举例来说,在电子商务领域,销售者和购买者都要求有较高的搜索召回率,搜索系统为了做到这一点,索引粒度较小才好,相应的需要粒度较小的分词结果;而在搜索网页时,由于存在海量的互联网网页,这时候搜索的精准率对用户尤其重要,搜索系统为了做到这一点,搜索系统需要粒度较大的分词结果。其中,搜索召回率和搜索准确性是评价搜索质量的重要指标。搜索召回率是指搜索到的相关文档与所有相关文档的比例,衡量的是查全率;搜索准确性是指搜索到的相关文档与搜索到的所有文档的比例,衡量的是查准率。分词粒度与搜索召回率和搜索准确性的关系为:一般来说,分词粒度越小,搜索召回率越高;分词粒度越大,搜索准确性越高。[0007] 即使对同一类应用在同一领域的不同使用阶段而言,对分词结果粒度层次的要求也不相同。仍以搜索引擎这个应用为例,为了兼顾用户对搜索召回率和搜索准确率的要求,在索引阶段和排序阶段对分词结果粒度层次的要求也是有差异的。在索引阶段,需要粒度较小的分词结果,以便找到足够多的网页;在排序阶段,出于搜索准确性的需要,避免向用户提供不相关的网页,需要粒度较大的分词结果。

[0008] 为解决上述问题,现有技术主要采用两种方案来提供多粒度层次的分词结果:

[0009] 方案1:请参照附图1a所示,先进行最小粒度分词,然后自下而上动态合并,其基本过程如下:

[0010] 采用粒度较小的分词词典A对给定文本进行分词,在分词过程中会产生不同的切分单元序列,例如给定文本S1S2S3S4S5S6S7可以被分为S1S2-S3S4-S5-S6SpS1S2S3-S4S5-S6S7,然后根据预定选择算法从中选择出一条作为最优切分单元序列,这里假设为S1S2-S3S4-S5-S6S7,预定选择算法可以为基于统计模型的算法等,在这里不再详述。

[0011] 为了提供较大粒度的分词结果,在序列S1S2-S3S4-S5-S6S7的基础上进行合并,具体合并过程为判断序列S1S2-S3S4-S5-S6S7中两个切分单元的组合是否与包含较长词条的分词词典B中包含的词条匹配,若是对这两个切分单元进行合并,从而获得合并后的粒度较大的切分单元序列,这里假设S1S2和S3S4可以合并、S5和S6S7可以合并,那么合并后的粒度较大的切分单元序列为S1S2S3S4-S5S6S70

[0012] 采用这种方法,在分词时会丢失部分语义项,例如语义单元S1S2S3和S4S5被丢失了。这里以一个实际的例子进行说明,给定文本为“本不锈钢管用一级钢铸造”,其中“不锈钢管”实际上包含着“不锈钢”、“钢管”两个语义项。如果将“不锈钢管”在最小粒度切分为“不锈钢-管”,然后又合并为“不锈钢管”,那么“钢管”这个语义项就丢失了,导致搜索“钢管”时检索不出来该文本;如果将“不锈钢管”在最小粒度切分为“不-锈-钢管”,然后又合并为“不锈钢管”,那么“不锈钢”这个语义项就丢失了,导致搜索“不锈钢”时检索不出来该文本。另外也难以保证合并的准确性,假定给定文本最小粒度分词获得的切分单元序列为“本-不锈钢-管-用-一级-钢-铸造”,在合并时将遇到合并歧义,同时存在合并为“不锈钢管”或“管用”的可能性。如果在最小粒度分词时获得的切分单元序列为“本-不锈钢-管用-一级-钢-铸造”,则无法合并得到“不锈钢管”这个语义项。

[0013] 方案2:请参照附图1b所示,先进行最大粒度分词,然后自上而下切分,其基本过程如下:

[0014] 利用粒度较大的分词词典C,采用模型和算法对给定文本S1S2S3S4S5S6S7进行动态分词(选择出最优切分单元序列),获得切分单元序列S1S2S3S4-S5S6S7 ;

[0015] 为了提供较小粒度的分词结果,对S1S2S3S4-S5S6S7中的每个语义单元进行进一步切分,具体切分过程为判断序列中S1S2S3S4-S5S6S7的每个切分单元是否包含分词词典C中的两个或两个以上其他粒度更小的词条,若是将该切分单元进一步切分为两个或两个以上其他词条,这里假设S1S2S3S4可以被切分为S1S2和S3S4、S5S6S7可以被切分为S5和S6S7,则切分后获得的较小粒度的分词结果为S1S2-S3S4-S5-S6S715

[0016] 采用这种方法时,为了解决在最大粒度分词时出现的歧义问题,需要在词典中收录更多的大粒度词条。例如,给定文本为“企业管理科学技术”,如果词典中收录有“企业管理”、“管理科学”这些较大粒度的词条,那么“企业管理科学”可能被切分为“企业管理-科学”或“企业-管理科学”。解决这一歧义的方案为在词典中再收录“企业管理科学”这一更长的词条,然而“企业管理科学”又会与“科学技术”发生切分歧义,可见这类由大粒度的词条组成的集合是非闭合的,词典规模的扩大会给词典维护带来困难。

[0017] 可见,分词词典中的词条粒度越大,分词时会产生数目更多的不同的切分单元序列,即有更多的分词路径,从而存在较多的歧义问题,最大粒度切分的准确率难以得到保证。

[0018] 当有了最大粒度的切分结果后,这些切分单元的小粒度词可以通过查词典的方式来得到。但是,随着词典规模的扩大,人工维护这些词条以及这些词条的小粒度词并确保词条的质量,代价是非常大的。

发明内容

[0019] 本申请实施例提出一种用于提供多粒度分词结果的方法,用以在提供多粒度分词结果时,避免丢失语义项、或分词准确性较低的问题。

[0020] 对应地,本申请实施例还提供了一种建立分词词典的方法、一种建立分词词典的装置和一种提供多粒度分词结果的装置。

[0021] 本申请实施例提供的技术方案如下:

[0022] 一种建立分词词典的方法,包括:根据预先标定的训练集获得分类器,所述训练集中的每个训练样本词条具有词长属性、短语特征属性、语义属性、交叠属性以及分类结果,其中:所述词长属性的属性值为训练样本词条包含的字数;所述短语特征属性的属性值包括训练样本词条的小粒度词的独立使用频率值、和所述训练样本词条是否符合短语构成规律的标识;当训练样本词条与设定枚举词条集合中包含的词条相同时,语义属性的属性值为设定枚举词条集合中与训练样本词条相同的词条的标识,否则语义属性的属性值为不同于设定枚举词条集合中每个词条的标识的标识;交叠属性值包括训练样本词条在训练文本中与其他词条发生交叠的概率值、和交叠部分是否为小粒度词的标识;词条的分类结果为该词条是最小语义单元的标识或复合语义单元的标识;

[0023] 获取待分类词条,并

[0024] 确定所述待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值;

[0025] 根据获得的所述分类器,以及确定出的待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值,对待分类词条进行分类,确定所述待分类词条是否为最小语义单元;

[0026] 若确定出所述待分类词条为最小语义单元,则将所述待分类词条加入最小语义单元词典。

[0027] —种提供多粒度分词结果的方法,包括:建立最小语义单元词典;并根据所述最小语义单元词典对给定文本进行分词处理,获取中间粒度分词结果;以及根据比最小语义单元词典粒度大的词典对所述中间粒度分词结果进行合并,获得粒度大于中间粒度分词结果的第一粒度分词结果;依次针对中间粒度分词结果中的每个切分单元,在最小语义单元词典中查找该切分单元包含的检索单元,以及根据中间粒度分词结果、以及查找到的检索单元,确定粒度小于中间粒度分词结果的第二粒度分词结果。[0028] 一种建立分词词典的装置,包括:

[0029] 分类器获取模块,用于根据预先标定的训练集获得分类器,所述训练集中的每个训练样本词条具有词长属性、短语特征属性、语义属性、交叠属性以及分类结果,其中:所述词长属性的属性值为训练样本词条包含的字数;所述短语特征属性的属性值包括训练样本词条的小粒度词的使用频率值、和所述训练样本词条是否符合短语构成规律的标识;当训练样本词条与设定枚举词条集合中包含的词条相同时,语义属性的属性值为设定枚举词条集合中与训练样本词条相同的词条的标识,否则语义属性的属性值为不同于设定枚举词条集合中每个词条的标识的标识;交叠属性值包括训练样本词条与其他词条发生交叠的概率值、和交叠部分是否为小粒度词的标识;分类结果为预先标定的所述训练样本词条为最小语义单元的标识或复合语义单元的标识;

[0030] 待分类词条获取模块,用于获取待分类词条;

[0031]属性值确定模块,用于确定待分类词条获取模块获取的所述待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值;

[0032] 分类结果确定模块,用于根据分类器获取模块获得的所述分类器,以及属性值确定模块确定出的待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值,对待分类词条进行分类,确定所述待分类词条是否为最小语义单元;

[0033] 第一词条添加模块,用于在分类结果确定模块确定出所述待分类词条为最小语义单元时,将所述待分类词条加入最小语义单元词典。

[0034] 一种提供多粒度分词结果的装置,包括:分词词典建立模块,用于建立最小语义单元词典;分词处理模块,用于根据所述分词词典建立模块建立的最小语义单元词典对给定文本进行分词处理,获取中间粒度分词结果;合并模块,用于根据比最小语义单元词典粒度大的词典对分词处理模块获得的中间粒度分词结果进行合并,获得粒度大于中间粒度分词结果的第一粒度分词结果;查找模块,用于依次针对分词处理模块获得的中间粒度分词结果中的每个切分单元,在最小语义单元词典中查找该切分单元对应的检索单元;确定模块,用于分词处理模块获得的中间粒度分词结果、以及查找模块查找到的检索单元,确定粒度小于中间粒度分词结果的第二粒度分词结果。

[0035] 本申请实施例通过基于训练样本词条的词长属性、短语特征属性、语义属性、交叠属性以及分类结果获取的分类器、以及待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值,来确定待分类词条是否为最小语义单元,以及在待分类词条为最小语义单元时,将该待分类词条加入最小语义单元词典,并存储最小语义单元中每个词条的切分方式和对应的检索单元,从而建立最小语义单元词典。基于建立的最小语义词典,对给定文本进行分词处理,获取中间粒度分词结果;以及根据粒度大于最小语义单元词典的分词词典对所述中间粒度分词结果进行合并,获得粒度大于中间粒度分词结果的第一粒度分词结果;依次针对中间粒度分词结果中的每个切分单元,在最小语义单元词典中查找该切分单元对应的检索单元,以及根据中间粒度分词结果和查找到的检索单元确定粒度小于中间粒度分词结果的第二粒度分词结果。通过上述方案能够提供至少三种粒度层次的分词结果,并避免了最大粒度分词时出现的分词不准确的问题,同时通过检索单元来获取小粒度分词结果,避免了进行最小粒度分词时丢失语义项的问题。附图说明

[0036] 图1a为第一种提供多种粒度分词结果的现有方案的示意图;

[0037] 图1b为第二种提供多种粒度分词结果的现有方案的示意图;

[0038] 图2为本申请实施例一提供的建立最小语义单元分词词典的原理流程图;

[0039] 图3为本申请实施例二提供的基于建立的最小语义单元分词词典,根据给定文本获得多粒度分词结果的原理流程图;

[0040] 图4为本申请实施例二中切词结果树的示意图;

[0041] 图5为本申请实施例提供的建立分词词典的装置的结构示意图;

[0042] 图6为本申请实施例提供的提供多种粒度分词结果的装置的结构示意图;

[0043] 图7为本申请实施例提供的提供多种粒度分词结果的装置中分词处理模块的结构示意图;

[0044] 图8为本申请实施例提供的提供多种粒度分词结果的装置中确定模块的结构示意图。

具体实施方式

[0045] 针对现有的提供多粒度分词结果的技术存在因丢失语义项造成的召回率低的问题;或者,存在分词词典的规模过于庞大,分词处理准确性较低的问题,本申请实施例提出一种多粒度分词方案,其基本思路如下:

[0046] 建立一个分词词典-最小语义单元词典,其中最小语义单元词典中的词条既具有合理的长度、同时又具有语义完整性,且不含有组合修饰特征;该最小语义单元词典中,存储了词条对应的检索单元。在对给定词条进行分词时,基于建立的最小语义单元词典对给定词条进行分词,获得中间粒度分词结果;利用包含粒度较大词条的分词词典对中间粒度分词结果进行合并,从而获得较大粒度分词结果;利用最小语义单元词典中存储的词条对应的检索单元,根据中间粒度分词结果获得较小粒度分词结果。

[0047] 下面将依据本申请上述发明原理,详细介绍一个实施例来对本申请方法的主要实现原理进行详细的阐述和说明。

[0048] 实施例一

[0049] 本实施例介绍如何建立规模合理的分词词典-最小语义单元词典。建立最小语义单元词典的过程如附图2所示:

[0050] 步骤201,根据预先标定的训练集获得分类器,所述训练集中的每个训练样本词条都具有词长属性、短语特征属性、语义属性、交叠属性以及分类结果,其中:所述词长属性的属性值为训练样本词条包含的字数;所述短语特征属性的属性值包括训练样本词条的小粒度词的独立使用频率值和所述训练样本词条是否符合短语构成规律的标识;当训练样本词条与设定各类别的枚举词条集合中包含的词条相同时,语义属性的属性值为包含与训练样本词条相同的词条的枚举词条集合的标识,否则语义属性的属性值为不同于任何设定枚举词条集合的标识的标识;交叠属性值包括训练样本词条与其他词条发生交叠的概率值和交叠部分是否为小粒度词的标识;分类结果为预先标定的所述训练样本词条为复合语义单元的标识或最小语义单元的标识;

[0051] 例如,训练样本词条“企业管理”中包含4个字,因此该训练样本词条的词长属性值为4。训练样本词条“企业管理”中包含的小粒度词为“企业”、“管理”,分别统计这2个小粒度词在独立使用词条集合SI中出现的频率值,从中选择最高的频率值作为训练样本词条“企业管理”的短语特征属性的属性值中小粒度词的独立使用频率值。这里需要说明的是独立使用词条集合SI可以通过互联网上的查询日志(query log),锚定链接词(anchor)等方式获得。举例来说,用户在互联网搜索引擎中输入搜索关键词“信息”,则“信息”被记录到了查询日志中,说明“信息”可以被单独地使用,另外用户输入的以逗号、空格等间隔符隔开的各个词也可以看作可以独立使用的词。这里假定小粒度词“管理”在独立使用词条集合SI中出现的频率值最高,为100万次;如果该词条没有小粒度词,则该频率值为O。

[0052] 短语构成规律是人们通过长时间对某种自然语言的研究获得的常规短语的组成模式,对于汉语来说,通常短语是由“形容词+名词”、或“名词+名词”、或“动词+名词”等构成,短语构成规律可以用正则表达式的形式存储。训练样本词条“企业管理”是由两个名词性质的小粒度词“企业”和“管理”组成的,那么训练样本词条“企业”符合短语构成规律,假定设定符合短语构成规律的标识为1,不符合短语构成规律的标识为O ;因而,训练样本词条“信息系统工程”的短语特征属性的属性值为(100万,I)。

[0053] 预先设定多个不同类别枚举词条集合,如影视节目名称集合的标识为S21,影视节

目名称集合包含的词条为S21= {我的兄弟姐妹、活着、焦点访谈、潜伏、甲方乙方......};

书目名称集合的标识为S22,书目名称集合包含的词条为S22 = {读者、青年文摘、瑞

丽......};学科名称集合的标识为S23,学科名称集合包含的词条为S23= {信息工程、心

理学、哲学、企业管理、工商管理......};地名集合的标识为S24,地名集合包含的词条为

S24= {呼和浩特、北京、银川、包头......}。这里训练样本词条“企业管理”包含在学科

名称集合中,因此训练样本词“企业管理”对应标识是S23。如果训练样本词不包含在任何一个类别枚举词条集合中,那么该训练样本词条的语义属性的属性值为区分于任何类别枚举词条集合标识的标识,例如S20。

[0054] 对于交叠属性来说,通过统计该训练样本词在训练文本中与词典中包含的其他词条发生交叠的概率值。交叠是指在包含该训练样本词条的训练文本中,该训练样本词条中的部分字与其之前或其之后的连续的其他字组成了词典中的另一个词条的情况。例如假定

训练样本词条为“企业管理”,在包含上下文“......众所周知,企业管理科学是一门新兴

的学科......”的训练文本中,“企业管理”与“管理科学”在“管理”上出现了交叠。在两

个词存在交叠时,其交叠部分可以是有语义含义的小粒度词,如这个例子中的“管理”,也可

以是单字,例如“甲方乙方”与“方才”在包含上下文“......甲方乙方才上映......”的

训练文本中发生了交叠,“甲方乙方”的小粒度词是“甲方/乙方”,而交叠部分是“方”,不是“甲方乙方”的小粒度词。依据类似的原理,可以统计出在训练文本中出现该训练样本词条的情况下训练样本词条与词典中的其他词条发生交叠的概率。可以设定交叠部分为小粒度词对应的标识为1,交叠部分不为小粒度词对应的标识为O。假定在本实施例中训练样本词条“企业管理”与其他词条发生交叠的概率为2%,与其他词交叠部分“管理”为小粒度词,那么训练样本词条“企业管理”的交叠属性值为(2%,1);

[0055] 在本实施例中训练样本词条“企业管理”被标定为复合语义单元。因而训练样本词条“企业管理”的属性值和标定结果如表I所示。

[0056] 表I训练集中训练样本词条属性值和标定结果示例[0057]

Figure CN102479191BD00111

[0058] 根据表1所示的训练集中各训练样本词条的属性值和标定的分类结果,可以通过机器学习方法训练出分类器,例如GBDT(Gradient Boosted DecisionTree)、最大熵、支持向量机(SVM, Support Vector Machine)等。获得分类器的方法很多,在这里不再赘述。本实施例中的分类器是基于训练集中词条的词长属性值、短语特征属性值、语义属性值、交叠属性值来建立的,可以用于依据待分类词条的词长属性值、短语特征属性值、语义属性值、交叠属性值来确定待分类词条的分类结果为复合语义单元或是最小语义单元,通常来说词长属性值较大的词条、短语特征属性中第一元素值数值较高且符合常规短语组成模式的词条被分类器确定为复合语义单元的概率较高,反之,被分类器确定为最小语义单元的概率较闻。

[0059] 步骤202,从现有分词词典、互联网等其他资源中获取待分类词条;

[0060] 在本实施例中,以待分类词条“五大连池”、“菊花茶”、“不锈钢管”等为例来进行说明。

[0061] 步骤203,确定步骤202获取的待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值;

[0062] 确定待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值的过程与步骤201中确定训练集中训练样本词条的上述4个属性的属性值的方式类似,在这里不在详述。确定出的待分类词条“五大连池”等的各属性值信息如表2所示。

[0063] 表2训练集中待分类词条属性值示例

[0064]

Figure CN102479191BD00112

[0065] 步骤204,将步骤203确定出的待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值输入步骤201获得的分类器中,获得待分类词条的的分类结果;

[0066] 在本实施例中“五大连池”、“菊花茶”、“不锈钢管”的分类结果为最小语义单元,“笔记本电脑包”和“迷你轿车”的分类结果为复合语义单元,复合语义单元的粒度大于最小语义单元。

[0067] 步骤205,针对所述待分类词条,判断步骤204获得的分类结果是否为最小语义单元,若是,则进入步骤206,否则进入步骤207 ;

[0068] 步骤206,将待分类词条加入最小语义单元词典,进入步骤208 ;

[0069] 将待分类词条“五大连池”、“菊花茶”、“不锈钢管”加入最小语义单元词典;

[0070] 步骤207,将待分类词条加入复合语义单元词典,处理结束;

[0071] 在本实施例中,将“笔记本电脑包”和“迷你轿车”加入复合语义单元词典。基于最小语义单元词典对待切分文本进行分词处理获得切分单元序列后,可以利用复合语义单元词典对切分单元序列进行合并,从而获得较大粒度的分词结果。

[0072] 步骤208,存储该待分类词条的切分方式以及对应的检索单元。

[0073] 所述切分方式包括切分和不切分两种,切分方式和对应的检索单元可以是人为输入的,或者根据现有的分词词典获取的。

[0074] 当该待分类词条的切分方式为切分时,该待分类词条对应的检索单元为该待分类词条包含的小粒度词;当该待分类词条的切分方式为不切分时,该待分类词条对应的检索单元为该待分类词条 本身。

[0075] 是否切分决定于两点:(I)是否是一个专有名词,如是,则不能再切分。比如“五大连池”;(2)语义上是否可以再切分,如果已经形成固定用法,不包含子语义,如“黄金周”,“大哥大”,则不再切分;反之,如“润肤乳”,“菊花茶”则切分。上述专有名词和固定用法是预先设定的。

[0076] 最小分词单元词典中词条的存储结构如表3所示。

[0077] 表3最小语义单元词典中词条的存储结构示例

[0078]

Figure CN102479191BD00121

[0079] 附图2中的上述步骤也可以被理解为将现有分词词典中的词条(当然也包含通过其他途径获得的词)分类到最小语义单元词典和复合语义单元词典中。

[0080] 与现有的大粒度分词词典相比,上述方案确定出的最小语义单元词典词条的长度普遍较小,包含的词条数量也较小,从而减少了根据分词词典进行分词时,存在切分歧义的几率,因而提高了分词处理的准确性,也降低了维护词典的难度。

[0081] 实施例二

[0082] 本实施例中介绍基于实施例一建立的最小语义单元词典、复合语义单元词典,获得多粒度分词结果的过程,具体过程请参见附图3所示:

[0083] 步骤301,根据实施例一获得的最小语义单元词典对给定文本进行分词处理,将分词处理获得的切分单元序列作为获取到的中间粒度分词结果,该中间粒度分词结果的切分单元序列由最小语义单元组成,并行进入步骤302和步骤303 ;

[0084] 按照设定的匹配策略将给定文本与最小语义单元词典中的词条进行匹配,利用现有消歧模型解决出现的切分歧义问题。例如,给定的文本为“本不锈钢管用一级钢铸造”,根据最小语义单元词典进行由左到右的方向的词典查询:假定最大匹配的字符数为6个字,则首先从最左侧取出给定文本中的6个字“本不锈钢管用”,判断是否与最小语义单元词典中的词条一致,若一致,则在第一条分词序列中记录下由这6个字组成的切分单元;若不一致则去掉最右侧一个字,再次比较剩余的5个字“本不锈钢管”逐次类推;然后,从给定文本中“本”之后的下一个字“不”字开始,再次取出6个字“不锈钢管用一”,判断是否与最小语义单元词典中的词条一致,若一致,则在第一条分词序列中记录下由这6个字组成的切分单元;若不一致则去掉最右侧一个字,再次比较剩余的5个字“不锈钢管用”逐次类推.......依据最小语义单元词典,获得该给定文本中包含的所有最小语义单元。

[0085] 查询到的所有最小语义单元可能会构成多种切分单元序列(多种分词路径),即出现切分歧义。在出现切分歧义时,根据消歧模型来从中选择出一种切分单元序列,例如条件随机场(CRF, conditional random field)模型,隐马尔科夫模型(HMM, Hidden Markovmodel),最大熵(ME, Maximum Entropy)模型等。这些消歧模型都基于对训练语料统计信息的学习,依据上下文的各种特征进行文本的切分。以此类推,获得的切分单元序列为“本-不锈钢管-用-一级-钢-铸造”。

[0086] 而如果按照现有的最小粒度分词,自下而上动态合并的方案,最小粒度分词获得的切分单元序列为“本-不锈钢-管-用-一级-钢-铸造”,在合并时有可能合并为“本-不锈钢-管用-一级-钢-铸造”,丢失了语义项“钢管”,可见出现了切分错误的问题,搜索到了与“管用”相关的问题,造成后续搜索时准确性降低的问题,同时无法搜索到关于“钢管”的文档,搜索召回率也会降低。本申请基于最小语义单元进行分词,降低了出现切分歧义的几率,从而较好的解决了上述问题。

[0087] 又如,给定文本为“企业管理科学技术”,按照最小语义单元词典进行分词获得的切分单元序列为“企业-管理-科学-技术”,而如果按照现有的最大粒度分词,自上而下切分的方案,最大粒度分词时“企业管理”与“管理科学”、“管理科学”与“科学技术”、“管理”与“理科”均存在切分歧义的问题。基于最大粒度进行分词,所需的词条数量会非常大,由此带来大量的不必要的分词歧义,并进而导致切分准确性不高的问题。最小语义单元中的词条具有组合修饰特征的几率较小,因而根据最小语义单元进行分词能够提高切分的准确性。[0088] 步骤302,根据粒度比最小语义单元粒度大的分词词典,例如实施例一获得的复合语义单元词典和现有消歧模型对步骤301获得的所述中间粒度分词结果中的切分单元进行合并,获得第一粒度分词结果,第一粒度分词结果为粒度大于所述中间粒度分词结果的较大粒度分词结果;

[0089] 以中间粒度分词结果“企业-管理-科学-技术”为例来进行说明,假定粒度较大的分词词典中包括“企业管理”、“科学技术”词条,那么当切分单元序列“企业-管理-科学-技术”中的两个切分单元合并后与粒度较大的分词词典中的词条相同时,可以将这两个切分单元合并为一个大粒度的切分单元,合并后的较大粒度分词结果为“企业管理-科学技术”。

[0090] 步骤303,将给定文本作为根节点,将步骤301获得的中间粒度分词结果中的每个切分单元依次作为根节点的子节点;请参照附图4所示,按照从左到右的顺序,依次将每个切分单元对应的节点附加在根节点上;

[0091] 步骤304,针对步骤301获得的中间粒度分词结果中的每个切分单元,在最小语义单元词典(如表3所示)中查找该切分单元对应的检索单元,进入步骤305 ;

[0092] 请参照表3,对于给定文本“本不锈钢管用一级钢铸造”而言,中间粒度分词结果为“本-不锈钢管-用-一级-钢-铸造”,其中切分单元“不锈钢管”包含的检索单元分别为“不锈钢”、“钢管”。

[0093] 步骤305,将该词条对应的检索单元依次作为该切分单元对应节点的叶子节点,从而形成切词结果树,如附图4所示,附图4中叶子节点用加粗黑框表示;

[0094] 步骤306,依次获得步骤305生成的切词结果树中各叶子节点,将依次获得的叶子节点作为第二粒度分词结果,第二粒度分词结果为粒度小于所述中间粒度分词结果的较小粒度分词结果。例如,按照从左到右的顺序遍历整个切词结果树,获得所有的叶子节点。对于给定文本“本不锈钢钢管用一级钢铸造”,得到较小粒度分词结果为“本-不锈钢-钢管-用-一级-钢-铸造”。

[0095] 实施例二提供的方案中,首先利用实施例一中建立的最小语义单元词典,对给定文本进行分词处理得到中间粒度分词结果,然后一方面根据粒度大于最小语义单元词典的词典对获得的中间粒度分词结果进行合并,获得粒度大于中间粒度分词结果的第一粒度分词结果;另一方面根据最小语义单元中存储的各词条对应的检索单元和中间粒度分词结果,获得粒度小于中间粒度分词结果的第二粒度分词结果,从而能够提供给定文本对应的至少三个粒度层次的分词结果,能够满足各种应用对分词结果粒度层次的不同要求,避免现有技术提供多粒度层次分词结果时存在的因丢失语义项而造成的召回率低的问题及切分准确性不高的问题。

[0096] 对应方法实施例一,本申请实施例提供了一种建立分词词典的装置,其结果图如附图5所示,该装置包括分类器获取模块501、待分类词条获取模块502、属性值确定模块503、分类结果确定模块504、第一词条添加模块505,其中:

[0097] 分类器获取模块501,用于根据预先标定的训练集获得分类器,所述训练集中的每个训练样本词条具有词长属性、短语特征属性、语义属性、交叠属性以及分类结果,其中:所述词长属性的属性值为训练样本词条包含的字数;所述短语特征属性的属性值包括训练样本词条的小粒度词的独立使用频率值、和所述训练样本词条是否符合短语构成规律的标识;当训练样本词条与设定枚举词条集合中包含的词条相同时,语义属性的属性值为设定枚举词条集合中与训练样本词条相同的词条的标识,否则语义属性的属性值为不同于设定枚举词条集合中每个词条的标识的标识;交叠属性值包括训练样本词条与其他词条发生交叠的概率值、和交叠部分是否为小粒度词的标识;分类结果为预先标定的所述训练样本词条为最小语义单元的标识或复合语义单元的标识;

[0098] 待分类词条获取模块502,用于获取待分类词条;

[0099] 属性值确定模块503,用于确定待分类词条获取模块502获取的所述待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值;

[0100] 分类结果确定模块504,用于根据分类器获取模块501获得的所述分类器,以及属性值确定模块503确定出的待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值,对待分类词条进行分类,确定所述待分类词条是否为最小语义单元;

[0101] 第一词条添加模块505,用于在分类结果确定模块504确定出所述待分类词条为最小语义单元时,将所述待分类词条加入最小语义单元词典。

[0102] 较佳地,附图5中的装置还包括第二词条添加模块506,用于在第二确定模块504确定出所述待分类词条并非为最小语义单元时,将所述待分类词条加入复合语义单元词典。

[0103] 较佳地,附图5中的装置还包括检索单元存储模块507,用于第一词条添加模块505将待分类词条加入最小语义单元词典后,在最小语义单元词典中存储该待分类词条的切分方式以及该待分类词条对应的检索单元,所述切分方式为切分或不切分,当该待分类词条的切分方式为切分时,该待分类词条对应的检索单元为该待分类词条包含的小粒度词;当该待分类词条的切分方式为不切分时,该待分类词条对应的检索单元为该待分类词条本身。

[0104] 对应方法实施例二,本申请实施例还提供了一种提供多种粒度分词结果的装置,其结构示意图如附图6所示,该装置包括:分词词典建立模块601、分词处理模块602、合并模块603、查找模块604、确定模块605,其中:

[0105] 分词词典建立模块601,用于建立最小语义单元词典;

[0106] 分词处理模块602,用于根据所述分词词典建立模块601建立的最小语义单元词典对给定文本进行分词处理,获取中间粒度分词结果;

[0107] 合并模块603,用于根据比最小语义单元词典粒度大的词典和消歧模型对分词处理模块602获得的中间粒度分词结果进行合并,获得较大粒度分词结果;

[0108] 查找模块604,用于依次针对分词处理模块602获得的中间粒度分词结果中的每个切分单元,在分词词典建立模块601建立的最小语义单元词典中查找该切分单元对应的检索单元;

[0109] 确定模块605,用于分词处理模块602获得的中间粒度分词结果、以及查找模块604查找到的检索单元,确定较小粒度分词结果。

[0110] 请参照附图7,附图6中的分词处理模块602具体包括分词子模块701、第一确定子模块702和第二确定子模块703,其中:

[0111] 分词子模块701,用于根据分词词典建立模块601建立的最小语义单元词典对给定文本进行分词;[0112] 第一确定子模块702,用于在分词子模块701分词获得唯一切分单元序列时,将该切分单元序列作为中间粒度分词结果;

[0113] 第二确定子模块703,用于在分词子模块701分词获得至少两个不同的切分单元序列时,基于消歧模型选择出一个切分单元序列作为中间粒度分词结果。

[0114] 请参照附图8,附图6中的确定模块605具体包括切词结果树建立子模块801和确定子模块802,其中:

[0115] 切词结果树建立子模块801,用于将给定文本作为根节点,将中间粒度分词结果中的每个切分单元依次作为根节点的子节点;对于中间粒度分词结果中的每个切分单元,将该切分单元对应的检索单元依次作为该切分单元对应节点的叶子节点,形成切词结果树;

[0116] 确定子模块802,用于依次获得切词结果树建立子模块801建立的切词结果树中各叶子节点,将依次获得的叶子节点作为较小粒度分词结果。

[0117] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读取存储介质中,如:R0M/RAM、磁碟、光盘等。

[0118] 显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (9)

1.一种建立分词词典的方法,其特征在于,包括: 根据预先标定的训练集获得分类器,所述训练集中的每个训练样本词条具有词长属性、短语特征属性、语义属性、交叠属性以及分类结果,其中: 所述词长属性的属性值为训练样本词条包含的字数; 所述短语特征属性的属性值包括训练样本词条的小粒度词的独立使用频率值、和所述训练样本词条是否符合短语构成规律的标识; 当训练样本词条与设定枚举词条集合中包含的词条相同时,语义属性的属性值为设定枚举词条集合中与训练样本词条相同的词条的标识,否则语义属性的属性值为不同于设定枚举词条集合中每个词条的标识的标识; 交叠属性值包括训练样本词条在训练文本中与其他词条发生交叠的概率值、和交叠部分是否为小粒度词的标识; 词条的分类结果为该词条是最小语义单元的标识或复合语义单元的标识; 获取待分类词条,并 确定所述待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值; 根据获得的所述分类器,以及确定出的待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值,对待分类词条进行分类,确定所述待分类词条是否为最小语义单元; 若确定出所述待分类词条为最小语义单元,则将所述待分类词条加入最小语义单元词典,并存储该待分类词条的切分方式以及该待分类词条对应的检索单元,所述切分方式为切分或不切分; 当该待分类词条的切分方式为切分时,该待分类词条对应的检索单元为该待分类词条包含的小权度词; 当该待分类词条的切分方式为不切分时,该待分类词条对应的检索单元为该待分类词条本身。
2.如权利要求1所述的方法,其特征在于,在确定出所述待分类词条并非为最小语义单元时,将所述待分类词条加入复合语义单元词典。
3.一种基于权利要求1所述方法建立的最小语义单元词典提供多粒度分词结果的方法,其特征在于,包括: 建立最小语义单元词典;并 根据所述最小语义单元词典对给定文本进行分词处理,获取中间粒度分词结果;以及根据比最小语义单元词典粒度大的词典对所述中间粒度分词结果进行合并,获得粒度大于中间粒度分词结果的第一粒度分词结果; 依次针对中间粒度分词结果中的每个切分单元,在最小语义单元词典中查找该切分单元包含的检索单元,以及 根据中间粒度分词结果以及查找到的检索单元,确定粒度小于中间粒度分词结果的第二粒度分词结果。
4.如权利要求3所述的方法,其特征在于,根据最小语义单元词典对给定文本进行分词,获取中间粒度分词结果,具体包括: 根据最小语义单元词典对给定文本进行分词,以及在分词获得唯一切分单元序列时,将该切分单元序列作为中间粒度分词结果,以及在分词获得至少两个不同的切分单元序列时,基于消歧模型选择出一个切分单元序列作为中间粒度分词结果。
5.如权利要求3所述的方法,其特征在于,根据中间粒度分词结果、以及查找到的检索单元获得粒度小于中间粒度分词结果的第二粒度分词结果,具体包括: 将给定文本作为根节点,将中间粒度分词结果中的每个切分单元依次作为根节点的子节点; 对于中间粒度分词结果中的每个切分单元,将该切分单元对应的检索单元依次作为该切分单元对应节点的叶子节点,形成切词结果树; 依次获得切词结果树中各叶子节点,将依次获得的叶子节点作为较小粒度分词结果。
6.如权利要求3至5中任一权利要求所述的方法,其特征在于,所述粒度大于最小语义单元词典的分词词典为复合语义单元词典。
7.一种建立分词词典的装置,其特征在于,包括: 分类器获取模块,用于根据预先标定的训练集获得分类器,所述训练集中的每个训练样本词条具有词长属性、短语特征属性、语义属性、交叠属性以及分类结果,其中:所述词长属性的属性值为训练样本词条包含的字数;所述短语特征属性的属性值包括训练样本词条的小粒度词的使用频率值、和所述训练样本词条是否符合短语构成规律的标识;当训练样本词条与设定枚举词条集合中包含的词条相同时,语义属性的属性值为设定枚举词条集合中与训练样本词条相同的词条的标识,否则语义属性的属性值为不同于设定枚举词条集合中每个词条的标识的标识;交叠属性值包括训练样本词条与其他词条发生交叠的概率值、和交叠部分是否为小粒度词的标识;分类结果为预先标定的所述训练样本词条为最小语义单元的标识或复合语义单元的标识; 待分类词条获取模块,用于获取待分类词条; 属性值确定模块,用于确定待分类词条获取模块获取的所述待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值; 分类结果确定模块,用于根据分类器获取模块获得的所述分类器,以及属性值确定模块确定出的待分类词条的词长属性、短语特征属性、语义属性以及交叠属性的属性值,对待分类词条进行分类,确定所述待分类词条是否为最小语义单元; 第一词条添加模块,用于在分类结果确定模块确定出所述待分类词条为最小语义单元时,将所述待分类词条加入最小语义单元词典; 检索单元存储模块,用于第一词条添加模块将待分类词条加入最小语义单元词典后,在最小语义单元词典中存储该待分类词条的切分方式以及该待分类词条对应的检索单元,所述切分方式为切分或不切分; 当该待分类词条的切分方式为切分时,该待分类词条对应的检索单元为该待分类词条包含的小权度词; 当该待分类词条的切分方式为不切分时,该待分类词条对应的检索单元为该待分类词条本身。
8.如权利要求7所述的装置,其特征在于,还包括: 第二词条添加模块,用于在分类结果确定模块确定出所述待分类词条为非最小语义单元时,将所述待分类词条加入复合语义单元词典。
9.一种基于权利要求1所述方法建立的最小语义单元词典提供多粒度分词结果的装置,其特征在于,包括: 分词词典建立模块,用于建立最小语义单元词典; 分词处理模块,用于根据所述分词词典建立模块建立的最小语义单元词典对给定文本进行分词处理,获取中间粒度分词结果; 合并模块,用于根据比最小语义单元词典粒度大的词典对分词处理模块获得的中间粒度分词结果进行合并,获得粒度大于中间粒度分词结果的第一粒度分词结果; 查找模块,用于依次针对分词处理模块获得的中间粒度分词结果中的每个切分单元,在最小语义单元词典中查找该 切分单元对应的检索单元; 确定模块,用于根据分词处理模块获得的中间粒度分词结果、以及查找模块查找到的检索单元,确定粒度小于中间粒度分词结果的第二粒度分词结果。
CN201010555763.4A 2010-11-22 2010-11-22 提供多粒度分词结果的方法及其装置 CN102479191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010555763.4A CN102479191B (zh) 2010-11-22 2010-11-22 提供多粒度分词结果的方法及其装置

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
CN201010555763.4A CN102479191B (zh) 2010-11-22 2010-11-22 提供多粒度分词结果的方法及其装置
TW100108081A TWI512507B (zh) 2010-11-22 2011-03-10
US13/298,941 US8892420B2 (en) 2010-11-22 2011-11-17 Text segmentation with multiple granularity levels
EP11855317.1A EP2643770A4 (en) 2010-11-22 2011-11-18 Text segmentation with multiple granularity levels
JP2013539361A JP5788015B2 (ja) 2010-11-22 2011-11-18 複数の粒度でのテキスト分割
PCT/IB2011/003364 WO2012095696A2 (en) 2010-11-22 2011-11-18 Text segmentation with multiple granularity levels
HK12107731.5A HK1167028A1 (zh) 2010-11-22 2012-08-07 提供多粒度分詞結果的方法及其裝置
US14/514,279 US9223779B2 (en) 2010-11-22 2014-10-14 Text segmentation with multiple granularity levels
US14/881,927 US20160132492A1 (en) 2010-11-22 2015-10-13 Text segmentation with multiple granularity levels

Publications (2)

Publication Number Publication Date
CN102479191A CN102479191A (zh) 2012-05-30
CN102479191B true CN102479191B (zh) 2014-03-26

Family

ID=46065146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010555763.4A CN102479191B (zh) 2010-11-22 2010-11-22 提供多粒度分词结果的方法及其装置

Country Status (7)

Country Link
US (3) US8892420B2 (zh)
EP (1) EP2643770A4 (zh)
JP (1) JP5788015B2 (zh)
CN (1) CN102479191B (zh)
HK (1) HK1167028A1 (zh)
TW (1) TWI512507B (zh)
WO (1) WO2012095696A2 (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9721238B2 (en) 2009-02-13 2017-08-01 Visa U.S.A. Inc. Point of interaction loyalty currency redemption in a transaction
US9031859B2 (en) 2009-05-21 2015-05-12 Visa U.S.A. Inc. Rebate automation
US8463706B2 (en) 2009-08-24 2013-06-11 Visa U.S.A. Inc. Coupon bearing sponsor account transaction authorization
CN102479191B (zh) 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
US9460436B2 (en) 2012-03-16 2016-10-04 Visa International Service Association Systems and methods to apply the benefit of offers via a transaction handler
US9495690B2 (en) 2012-04-04 2016-11-15 Visa International Service Association Systems and methods to process transactions and offers via a gateway
FR2986882A1 (fr) * 2012-02-09 2013-08-16 Mining Essential Procede d'identification d'un ensemble de phrases d'un document numerique, procede de generation d'un document numerique, dispositif associe
US8880431B2 (en) 2012-03-16 2014-11-04 Visa International Service Association Systems and methods to generate a receipt for a transaction
US9922338B2 (en) 2012-03-23 2018-03-20 Visa International Service Association Systems and methods to apply benefit of offers
CN103425691B (zh) * 2012-05-22 2016-12-14 阿里巴巴集团控股有限公司 一种搜索方法和系统
US9864988B2 (en) 2012-06-15 2018-01-09 Visa International Service Association Payment processing for qualified transaction items
US9626678B2 (en) 2012-08-01 2017-04-18 Visa International Service Association Systems and methods to enhance security in transactions
CN103400579B (zh) * 2013-08-04 2015-11-18 徐华 一种语音识别系统和构建方法
CN104679738B (zh) * 2013-11-27 2018-02-27 北京拓尔思信息技术股份有限公司 互联网热词挖掘方法及装置
CN103942347B (zh) * 2014-05-19 2017-04-05 焦点科技股份有限公司 一种基于多维度综合词库的分词方法
CN104050294A (zh) * 2014-06-30 2014-09-17 北京奇虎科技有限公司 互联网稀有资源的挖掘方法及装置
CN104317882B (zh) * 2014-10-21 2017-05-10 北京理工大学 一种决策级中文分词融合方法
CN104598573B (zh) * 2015-01-13 2017-06-16 北京京东尚科信息技术有限公司 一种用户的生活圈提取方法及系统
CN104965818B (zh) * 2015-05-25 2018-01-05 中国科学院信息工程研究所 一种基于自学习规则的项目名实体识别方法及系统
CN106649249A (zh) * 2015-07-14 2017-05-10 比亚迪股份有限公司 检索方法和检索装置
CN106547743A (zh) * 2015-09-23 2017-03-29 阿里巴巴集团控股有限公司 一种进行翻译的方法及其系统
CN105550170B (zh) * 2015-12-14 2018-10-12 北京锐安科技有限公司 一种中文分词方法及装置
US10224034B2 (en) * 2016-02-03 2019-03-05 Hua Xu Voice recognition system and construction method thereof
CN107291684A (zh) * 2016-04-12 2017-10-24 华为技术有限公司 语言文本的分词方法和系统
US20170371850A1 (en) * 2016-06-22 2017-12-28 Google Inc. Phonetics-based computer transliteration techniques
CN106202039B (zh) * 2016-06-30 2019-06-11 昆明理工大学 基于条件随机场的越南语组合词消歧方法
CN106202464A (zh) * 2016-07-18 2016-12-07 上海轻维软件有限公司 一种基于变异回溯算法的数据识别方法
CN106227719B (zh) * 2016-07-26 2018-10-23 北京智能管家科技有限公司 中文分词歧义消除方法和系统
CN106484677B (zh) * 2016-09-30 2019-02-12 北京林业大学 一种基于最小信息量的汉语快速分词系统及方法
CN106569997A (zh) * 2016-10-19 2017-04-19 中国科学院信息工程研究所 一种基于隐式马尔科夫模型的科技类复合短语识别方法
TWI656450B (zh) * 2017-01-06 2019-04-11 香港商光訊網絡科技有限公司 從中文語料庫提取知識的方法和系統
US10176889B2 (en) 2017-02-09 2019-01-08 International Business Machines Corporation Segmenting and interpreting a document, and relocating document fragments to corresponding sections
US10169325B2 (en) * 2017-02-09 2019-01-01 International Business Machines Corporation Segmenting and interpreting a document, and relocating document fragments to corresponding sections
US20190130902A1 (en) * 2017-10-27 2019-05-02 International Business Machines Corporation Method for re-aligning corpus and improving the consistency

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5029084A (en) 1988-03-11 1991-07-02 International Business Machines Corporation Japanese language sentence dividing method and apparatus
CN1664818A (zh) 2004-03-03 2005-09-07 微软公司 用于单词拆分的新词收集方法和系统
CN101246472A (zh) 2008-03-28 2008-08-20 腾讯科技(深圳)有限公司 一种汉语文本的大、小粒度切分实现方法和装置
CN101655838A (zh) 2009-09-10 2010-02-24 复旦大学 一种粒度可量化的话题提取方法

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04262460A (en) 1991-02-15 1992-09-17 Ricoh Co Ltd Information retrieval device
US6202058B1 (en) 1994-04-25 2001-03-13 Apple Computer, Inc. System for ranking the relevance of information objects accessed by computer users
JP3617096B2 (ja) 1994-05-25 2005-02-02 富士ゼロックス株式会社 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法
US7133835B1 (en) 1995-08-08 2006-11-07 Cxn, Inc. Online exchange market system with a buyer auction and a seller auction
JP3565239B2 (ja) 1996-09-03 2004-09-15 日本電信電話株式会社 情報検索装置
EP1204032A4 (en) 1999-12-21 2008-06-11 Matsushita Electric Ind Co Ltd Vector index creating method, similar vector searching method, and devices for them
US7092871B2 (en) 2000-07-20 2006-08-15 Microsoft Corporation Tokenizer for a natural language processing system
US20020157116A1 (en) 2000-07-28 2002-10-24 Koninklijke Philips Electronics N.V. Context and content based information processing for multimedia segmentation and indexing
US7403938B2 (en) * 2001-09-24 2008-07-22 Iac Search & Media, Inc. Natural language query processing
US7805302B2 (en) * 2002-05-20 2010-09-28 Microsoft Corporation Applying a structured language model to information extraction
EP1602039A2 (en) 2003-03-03 2005-12-07 Philips Electronics N.V. Method and arrangement for searching for strings
JP4754247B2 (ja) * 2004-03-31 2011-08-24 オセ−テクノロジーズ ビーブイ 複合語を構成する単語を割り出す装置及びコンピュータ化された方法
US20080077570A1 (en) 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
US8200687B2 (en) 2005-06-20 2012-06-12 Ebay Inc. System to generate related search queries
US20070067098A1 (en) 2005-09-19 2007-03-22 Zelentsov Oleg U Method and system for identification of geographic location
US8255383B2 (en) 2006-07-14 2012-08-28 Chacha Search, Inc Method and system for qualifying keywords in query strings
WO2008019007A2 (en) 2006-08-04 2008-02-14 Thefind, Inc. Method for relevancy ranking of products in online shopping
JP2008287406A (ja) * 2007-05-16 2008-11-27 Sony Corp 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
TW200926033A (en) * 2007-07-18 2009-06-16 Steven Kays Adaptive electronic design
WO2009029689A1 (en) 2007-08-27 2009-03-05 Google Inc. Distinguishing accessories from products for ranking search results
US8301633B2 (en) * 2007-10-01 2012-10-30 Palo Alto Research Center Incorporated System and method for semantic search
US8019748B1 (en) 2007-11-14 2011-09-13 Google Inc. Web search refinement
US8422787B2 (en) 2007-12-27 2013-04-16 Nec Corporation Apparatus, method and program for text segmentation
JP4979637B2 (ja) 2008-06-06 2012-07-18 ヤフー株式会社 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
US8862989B2 (en) * 2008-06-25 2014-10-14 Microsoft Corporation Extensible input method editor dictionary
EP2259252B1 (en) 2009-06-02 2012-08-01 Nuance Communications, Inc. Speech recognition method for selecting a combination of list elements via a speech input
US20110093331A1 (en) 2009-10-19 2011-04-21 Donald Metzler Term Weighting for Contextual Advertising
US9348892B2 (en) 2010-01-27 2016-05-24 International Business Machines Corporation Natural language interface for faceted search/analysis of semistructured data
CN102859515B (zh) 2010-02-12 2016-01-13 谷歌公司 复合词拆分
CN102236663B (zh) 2010-04-30 2014-04-09 阿里巴巴集团控股有限公司 一种基于垂直搜索的查询方法、系统和装置
US8515968B1 (en) 2010-08-13 2013-08-20 Google Inc. Tie breaking rules for content item matching
CN102479191B (zh) 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
US8086442B1 (en) 2010-12-15 2011-12-27 Microsoft Corporation Efficient use of exceptions in text segmentation
US20120191745A1 (en) 2011-01-24 2012-07-26 Yahoo!, Inc. Synthesized Suggestions for Web-Search Queries
US20120317088A1 (en) 2011-06-07 2012-12-13 Microsoft Corporation Associating Search Queries and Entities

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5029084A (en) 1988-03-11 1991-07-02 International Business Machines Corporation Japanese language sentence dividing method and apparatus
CN1664818A (zh) 2004-03-03 2005-09-07 微软公司 用于单词拆分的新词收集方法和系统
CN101246472A (zh) 2008-03-28 2008-08-20 腾讯科技(深圳)有限公司 一种汉语文本的大、小粒度切分实现方法和装置
CN101655838A (zh) 2009-09-10 2010-02-24 复旦大学 一种粒度可量化的话题提取方法

Also Published As

Publication number Publication date
WO2012095696A2 (en) 2012-07-19
HK1167028A1 (zh) 2014-09-12
US9223779B2 (en) 2015-12-29
US20120130705A1 (en) 2012-05-24
TW201222291A (en) 2012-06-01
WO2012095696A3 (en) 2012-11-08
US8892420B2 (en) 2014-11-18
JP5788015B2 (ja) 2015-09-30
US20160132492A1 (en) 2016-05-12
CN102479191A (zh) 2012-05-30
US20150100307A1 (en) 2015-04-09
JP2014500547A (ja) 2014-01-09
TWI512507B (zh) 2015-12-11
EP2643770A4 (en) 2017-12-27
EP2643770A2 (en) 2013-10-02

Similar Documents

Publication Publication Date Title
Kazama et al. Exploiting Wikipedia as external knowledge for named entity recognition
US6101492A (en) Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis
Korenius et al. Stemming and lemmatization in the clustering of finnish text documents
Al‐Sughaiyer et al. Arabic morphological analysis techniques: A comprehensive survey
US8473279B2 (en) Lemmatizing, stemming, and query expansion method and system
US8346534B2 (en) Method, system and apparatus for automatic keyword extraction
US9176949B2 (en) Systems and methods for sentence comparison and sentence-based search
CN101510221B (zh) 一种用于信息检索的查询语句分析方法与系统
US7783640B2 (en) Document summarization
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP3636941B2 (ja) 情報検索方法と情報検索装置
US9223779B2 (en) Text segmentation with multiple granularity levels
US7769751B1 (en) Method and apparatus for classifying documents based on user inputs
US20070112838A1 (en) Method and system for classifying media content
CN101286161B (zh) 一种基于概念的智能中文问答系统
US7809551B2 (en) Concept matching system
US8712758B2 (en) Coreference resolution in an ambiguity-sensitive natural language processing system
JP2013502643A (ja) 構造化データ翻訳装置、システム及び方法
CA2617527C (en) Processor for fast contextual matching
CN1536483A (zh) 网络信息抽取及处理的方法及系统
CN103902652A (zh) 自动问答系统
JP2000020524A (ja) 対訳文検索装置
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
JP2007102819A (ja) 音声注釈を使用した、画像におけるイベントを区分及び識別するための方法及びシステム
CN103425687A (zh) 一种基于关键词的检索方法和系统

Legal Events

Date Code Title Description
C06 Publication
C10 Entry into substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1167028

Country of ref document: HK

REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1167028

Country of ref document: HK