CN102402502A - 用于搜索引擎的分词处理方法和装置 - Google Patents

用于搜索引擎的分词处理方法和装置 Download PDF

Info

Publication number
CN102402502A
CN102402502A CN2011103784341A CN201110378434A CN102402502A CN 102402502 A CN102402502 A CN 102402502A CN 2011103784341 A CN2011103784341 A CN 2011103784341A CN 201110378434 A CN201110378434 A CN 201110378434A CN 102402502 A CN102402502 A CN 102402502A
Authority
CN
China
Prior art keywords
participle
word segmentation
mode
statistical model
search engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011103784341A
Other languages
English (en)
Inventor
李理
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qu Na Information Technology Co Ltd
Original Assignee
Beijing Qu Na Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qu Na Information Technology Co Ltd filed Critical Beijing Qu Na Information Technology Co Ltd
Priority to CN2011103784341A priority Critical patent/CN102402502A/zh
Publication of CN102402502A publication Critical patent/CN102402502A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种用于搜索引擎的分词处理方法和装置,该用于搜索引擎的分词处理方法,包括:获取用户输入的目标分词语句;根据预先存储的分词词典对目标分词语句进行分词;在确认出现分词歧义字段时,调用预先建立的分词统计模型,并选择分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词。装置包括:第一获取模块,用于获取用户输入的目标分词语句;第一分词模块,用于根据预先存储的分词词典对目标分词语句进行分词;第二分词模块,用于在确认出现分词歧义字段时,调用预先建立的分词统计模型,并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词。

Description

用于搜索引擎的分词处理方法和装置
技术领域
本发明涉及中文分词技术,尤其涉及一种用于搜索引擎的分词处理方法和装置。
背景技术
搜索引擎中使用的中文分词,是指一个汉字序列切分成一个一个单独的词,分词是一个将连续的子序列按照已规定的规范重新组合成词序列的过程。
现有技术中在进行中文分词时,通常是根据人工或者半人工的方式获取分词词典,该分词词典为一数据库,数据库中定义了大量的词组,在搜索引擎进行分词时,首先根据分词词典,对预搜索的语句按照最大正向匹配方式或最大逆向匹配方式进行分词,其中最大正向匹配方法是指按照从前到后的顺序从预搜索的语句中查询与词典中匹配的词组,最大逆向匹配方法是指按照从后到前的顺序从预搜索的语句中查询与词典中匹配的词组。另外,还可以一种技术方案可以根据图搜索的方法进行分词处理。
上述利用最大正向匹配方法和最大逆向匹配方法进行分词的过程中,可能出现对某一字段存在两种不同的分词结果的情况,无法确认正确的分词结果,即发生分词歧义,对于图搜索模式也会发生上述的分词歧义。
综上所述,对于现有技术中基于词典的分词方法,其无法消除分词歧义。
发明内容
本发明的第一个方面是提供一种用于搜索引擎的分词处理方法,包括:
获取用户输入的目标分词语句;
根据预先存储的分词词典对所述目标分词语句进行分词;
在确认出现分词歧义字段时,所述分词歧义字段被识别为具有两种以上的分词方式,调用预先建立的分词统计模型,并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词。
本发明的另一个方面是提供一种用于搜索引擎的分词处理装置,包括:
第一获取模块,用于获取用户输入的目标分词语句;
第一分词模块,用于根据预先存储的分词词典对所述目标分词语句进行分词;
第二分词模块,用于在确认出现分词歧义字段时,所述分词歧义字段被识别为具有两种以上的分词方式,调用预先建立的分词统计模型,并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词。
本发明提供的技术方案,其首先通过利用分词词典对目标分词语句进行分词,并在出现分词歧义字段时,分词歧义字段被识别为具有两种以上的分词方式,调用预先建立的分词统计模型,并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词。该技术方案能够实现对分词歧义字段进行分词处理,并根据上述消除歧义的分词方法,能够进一步提高利用搜索引擎进行检索的准确率和覆盖率。
附图说明
图1为本发明实施例中用于搜索引擎的分词处理方法的流程示意图;
图2为本发明一具体实施例的流程示意图;
图3为本发明实施例中用于搜索引擎的分词处理装置的结构示意图。
具体实施方式
针对现有技术中,基于词典的分词方法无法消除分词歧义的缺陷,本发明实施例提供了一种用于搜索引擎的分词处理方法。
图1为本发明实施例中用于搜索引擎的分词处理方法的流程示意图,如图1所示,该方法包括如下的步骤:
步骤101、获取用户输入的目标分词语句;
步骤102、根据预先存储的分词词典对所述目标分词语句进行分词;
步骤103、在确认出现分词歧义字段时,所述分词歧义字段被识别为具有两种以上的分词方式,调用预先建立的分词统计模型,并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词。
本发明上述实施例中提供的用于搜索引擎的分词处理方法,首先按照基于词典的方法进行分词处理,并在出现分词歧义字段时,调用预先建立的分词统计模型,选择分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词,进而实现对分词歧义字段进行分词处理,根据上述消除歧义的分词方法,能够进一步提高利用搜索引擎进行检索的准确率和覆盖率。
本发明上述实施例中,其中的词典可以根据人工或者半人工的方式构造,例如可以根据分词统计模块,获取出现概率较高的分词方式,加入到分词词典中,或者是从查询日志(Query Log)中,获取查询次数较多的新词,例外还可以利用互联网上现有的在线词典,例如从维基百科中获取。为了提高召回率(Recall Rate,也称为查全率),需要对词典中的词进行细粒度切分,主要是按照如下的原则切分:一是人名不切分;二是2字词不切分;三是对于3个字的词,若其中同时还存在2个字的词,或1个字的词,则划分为所有可能的词并索引,例如“游戏机”,可以切分为“游戏机”,则同时索引“游戏机”和“游戏”,对于“双氧水”,可以切分为“双氧水”,则同时索引“双氧水”、“双”、“氧”和“水”,对于有歧义的词,可以同时索引有歧义的词,例如“风景区”,可以切分为“风景区”或者“风景区”,这是同时索引“风景区”、“风景”和“景区”;四是对于4个字的词,先将其切分为2个字的词或3个字的词,随后再将3个字的词切分为2个字的词;且对于大于3个字的词,基本都属于人名、地名等固定词。
如上述图1所示的实施例中,其中的步骤102根据预先存储的分词词典对目标分词语句进行分词,可以包括两种情况,即可以是根据预先存储的分词词典,按照最大正向匹配方法和最大逆向匹配方法对目标分词语句进行分词;或者是根据预先存储的分词词典,按照图搜索方法对所述目标分词语句进行分词,该图搜索方法实际上是一种把分词看作是图的最短路径来进行搜索。
另外,本发明上述实施例中,其中的步骤103中预先建立的分词统计模型中,分词歧义字段的每种分词方式用特征向量标识,该分词统计模型除包括每种分词方式的特征向量外,还包括统计获得到每种分词方式的特征向量对应的概率值。具体的,是在该分词统计模型中,将分词歧义字段中的每个字被定义为单字词类型、词首类型、词尾类型、第二位置词类型、第三位置词类型或其他位置词类型中的一种,而每种分词方式的特征向量包括分词歧义字段中的所有字的类型,以及所有字的排列顺序。例如,用S,B,E,B1,B2,M来表示单字词类型、词首类型、词尾类型、第二位置词类型、第三位置词类型或其他位置词类型,对于“龙凤山”,其最大正向匹配方法的结果为“龙凤山”,而最大逆向匹配方法的结果为“龙风山”,则在分词统计模型中可分别用特征向量“BES”和“SBE”标识,且可以标注特征向量“BES”出现的概率为60%,特征向量“SBE”出现的概率为40%。本发明的技术方案在具体的实施过程中,可以使用条件随机域(Conditional random field,简称:CRF)模型,或者是隐马尔代夫模型(Hidden Markov Model,简称:HMM),或者是支持向量机(Support Vector Machine,简称:SVM模型)等。
本发明上述实施例中的分词统计模型,需要较大数量的语料来进行统计,以获得分词歧义字段的不同分词方式对应的特征向量的概率,这个概率也就对应着不同的分词方式在较大数量的语料中出现的频率。
图2为本发明一具体实施例的流程示意图,如图2所示,本发明的技术方案包括如下的步骤:
步骤201、获取用户输入的目标分词语句;
步骤202、基于分词词典,利用最大正向匹配方法和最大逆向匹配方法对目标分词语句进行分词;
步骤203、判断上述最大正向匹配方法和最大逆向匹配方法得到的结果是否一致,若一致,则执行步骤206,如果不一致时执行步骤204;
步骤204、在确定上述两种分词方法得到的结果不一致时,获取分词歧义字段;
步骤205、调用预先建立的分词统计模型,对分词歧义字段进行分词处理,具体的按照上述实施例所提供的特征向量的建立方式,建立该分词歧义字段的两种以上的分词方式各自对应的特征向量,获取分词统计模型两种以上的分词方式各自对应的特征向量的概率,选择概率最大的分词方式进行分词;
步骤206、输出分词结果;
步骤207、结束。
本发明的具体实施例中,可以将原分词词典中不具有的,而在分词统计模型中出现概率较高的特征向量对应的分词加入到分词词典中,本领域内技术人员可以理解,在上述概率值取得较高时,获得新的分词的准确率会提高,但是发现新的分词的数目会减少,在上述概率值取得较低时,获得新的分词的准确率会降低,但是发现新的分词的数目会增加,可以根据具体的应用环境或领域而确定。
本发明实施例还提供了一种用于搜索引擎的分词处理装置,图3为本发明实施例中用于搜索引擎的分词处理装置的结构示意图,如图3所示,该用于搜索引擎的分词处理装置包括第一获取模块11、第一分词模块12和第二分词模块13,其中第一获取模块11用于获取用户输入的目标分词语句;第一分词模块12用于根据预先存储的分词词典对所述目标分词语句进行分词;第二分词模块13用于在确认出现分词歧义字段时,所述分词歧义字段被识别为具有两种以上的分词方式,调用预先建立的分词统计模型,并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词。
本发明上述实施例中提供的用于搜索引擎的分词处理方法,首先按照基于词典的方法进行分词处理,并在出现分词歧义字段时,调用预先建立的分词统计模型,选择分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词,进而实现对分词歧义字段进行分词处理,根据上述消除歧义的分词方法,能够提高利用搜索引擎进行检索的准确率和覆盖率。
本发明上述实施例中,其中的第一分词模块12可以包括第一分词单元或第二分词单元,其中的第一分词单元用于根据预先存储的分词词典,按照最大正向匹配方法和最大逆向匹配方法对所述目标分词语句进行分词;第二分词单元用于根据预先存储的分词词典,按照图搜索方法对所述目标分词语句进行分词。
另外,本发明上述实施例中,其中预先建立的分词统计模型包括用于标识分词歧义字段的每种分词方式的特征向量,以及统计获得的所述每种分词方式的特征向量对应的概率值。具体的,在该分词统计模型中,所述分词歧义字段中的每个字被定义为单字词类型、词首类型、词尾类型、第二位置词类型、第三位置词类型或其他位置词类型中的一种,所述每种分词方式的特征向量包括分词歧义字段中的所有字的类型,以及所有字的排列顺序。而其中的第二分词模块13具体用于建立该分词歧义字段的两种以上的分词方式各自对应的特征向量,获取分词统计模型两种以上的分词方式各自对应的特征向量的概率,选择概率最大的分词方式进行分词。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种用于搜索引擎的分词处理方法,其特征在于,包括:
获取用户输入的目标分词语句;
根据预先存储的分词词典对所述目标分词语句进行分词;
在确认出现分词歧义字段时,所述分词歧义字段被识别为具有两种以上的分词方式,调用预先建立的分词统计模型,并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词。
2.根据权利要求1所述的用于搜索引擎的分词处理方法,其特征在于,所述根据预先存储的分词词典对所述目标分词语句进行分词包括:
根据预先存储的分词词典,按照最大正向匹配方法和最大逆向匹配方法对所述目标分词语句进行分词;或
根据预先存储的分词词典,按照图搜索方法对所述目标分词语句进行分词。
3.根据权利要求1或2所述的用于搜索引擎的分词处理方法,其特征在于,所述预先建立的分词统计模型包括用于标识分词歧义字段的每种分词方式的特征向量,以及统计获得的所述每种分词方式的特征向量对应的概率值。
4.根据权利要求3所述的用于搜索引擎的分词处理方法,其特征在于,在所述分词统计模型中,所述分词歧义字段中的每个字被定义为单字词类型、词首类型、词尾类型、第二位置词类型、第三位置词类型或其他位置词类型中的一种,所述每种分词方式的特征向量包括分词歧义字段中的所有字的类型,以及所有字的排列顺序。
5.根据权利要求4所述的用于搜索引擎的分词处理方法,其特征在于,所述调用预先建立的分词统计模型,并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词包括:
建立该分词歧义字段的两种以上的分词方式各自对应的特征向量,获取分词统计模型两种以上的分词方式各自对应的特征向量的概率,选择概率最大的分词方式进行分词。
6.一种用于搜索引擎的分词处理装置,其特征在于,包括:
第一获取模块,用于获取用户输入的目标分词语句;
第一分词模块,用于根据预先存储的分词词典对所述目标分词语句进行分词;
第二分词模块,用于在确认出现分词歧义字段时,所述分词歧义字段被识别为具有两种以上的分词方式,调用预先建立的分词统计模型,并选择所述分词歧义字段在所述分词统计模型中具有最高概率的分词方式进行分词。
7.根据权利要求6所述的用于搜索引擎的分词处理装置,其特征在于,所述第一分词模块包括:
第一分词单元,用于根据预先存储的分词词典,按照最大正向匹配方法和最大逆向匹配方法对所述目标分词语句进行分词;或
第二分词单元,用于根据预先存储的分词词典,按照图搜索方法对所述目标分词语句进行分词。
8.根据权利要求6或7所述的用于搜索引擎的分词处理装置,其特征在于,所述预先建立的分词统计模型包括用于标识分词歧义字段的每种分词方式的特征向量,以及统计获得的所述每种分词方式的特征向量对应的概率值。
9.根据权利要求8所述的用于搜索引擎的分词处理装置,其特征在于,在所述分词统计模型中,所述分词歧义字段中的每个字被定义为单字词类型、词首类型、词尾类型、第二位置词类型、第三位置词类型或其他位置词类型中的一种,所述每种分词方式的特征向量包括分词歧义字段中的所有字的类型,以及所有字的排列顺序。
10.根据权利要求9所述的用于搜索引擎的分词处理装置,其特征在于,所述第二分词模块具体用于建立该分词歧义字段的两种以上的分词方式各自对应的特征向量,获取分词统计模型两种以上的分词方式各自对应的特征向量的概率,选择概率最大的分词方式进行分词。
CN2011103784341A 2011-11-24 2011-11-24 用于搜索引擎的分词处理方法和装置 Pending CN102402502A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011103784341A CN102402502A (zh) 2011-11-24 2011-11-24 用于搜索引擎的分词处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011103784341A CN102402502A (zh) 2011-11-24 2011-11-24 用于搜索引擎的分词处理方法和装置

Publications (1)

Publication Number Publication Date
CN102402502A true CN102402502A (zh) 2012-04-04

Family

ID=45884722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103784341A Pending CN102402502A (zh) 2011-11-24 2011-11-24 用于搜索引擎的分词处理方法和装置

Country Status (1)

Country Link
CN (1) CN102402502A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544167A (zh) * 2012-07-13 2014-01-29 江苏新瑞峰信息科技有限公司 一种基于中文检索的逆向分词方法及装置
CN103577391A (zh) * 2012-07-28 2014-02-12 江苏新瑞峰信息科技有限公司 一种基于中文检索的双向分词方法及装置
CN103593338A (zh) * 2013-11-15 2014-02-19 北京锐安科技有限公司 一种信息处理方法及装置
CN104077275A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 一种基于语境进行分词的方法和装置
CN104462058A (zh) * 2014-10-24 2015-03-25 腾讯科技(深圳)有限公司 字符串识别方法及装置
CN104866472A (zh) * 2015-06-15 2015-08-26 百度在线网络技术(北京)有限公司 分词训练集的生成方法和装置
CN106021625A (zh) * 2016-07-26 2016-10-12 浪潮软件集团有限公司 基于solr搜索引擎的两种分词器的混合应用方法
CN106844633A (zh) * 2017-01-21 2017-06-13 浙江沛宏网络科技有限公司 一种分词搜索方法及其装置
CN106843520A (zh) * 2017-02-27 2017-06-13 百度在线网络技术(北京)有限公司 用于输出整句的方法和装置
CN106909611A (zh) * 2017-01-11 2017-06-30 北京众荟信息技术股份有限公司 一种基于文本信息抽取的酒店自动匹配方法
CN107291684A (zh) * 2016-04-12 2017-10-24 华为技术有限公司 语言文本的分词方法和系统
CN107480128A (zh) * 2017-07-17 2017-12-15 广州特道信息科技有限公司 中文文本的分词方法及装置
CN107729312A (zh) * 2017-09-05 2018-02-23 苏州大学 基于序列标注建模的多粒度分词方法及系统
CN107748784A (zh) * 2017-10-26 2018-03-02 邢加和 一种通过自然语言实现结构化数据搜索的方法
CN108664468A (zh) * 2018-05-02 2018-10-16 武汉烽火普天信息技术有限公司 一种基于词典和语义消歧的人名识别方法和装置
CN109284763A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 一种生成分词训练数据的方法和服务器
CN111177402A (zh) * 2019-12-13 2020-05-19 中移(杭州)信息技术有限公司 基于分词处理的评价方法、装置、计算机设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080147381A1 (en) * 2006-12-13 2008-06-19 Microsoft Corporation Compound word splitting for directory assistance services
CN102063424A (zh) * 2010-12-24 2011-05-18 上海电机学院 一种中文分词方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080147381A1 (en) * 2006-12-13 2008-06-19 Microsoft Corporation Compound word splitting for directory assistance services
CN102063424A (zh) * 2010-12-24 2011-05-18 上海电机学院 一种中文分词方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘汉兴等: "基于词图的最大概率分词方法", 《计算机工程与设计》 *
毛婷婷等: "基于混合模型的中国人名自动识别", 《中文信息学报》 *
麦范金等: "基于双向最大匹配和HMM的分词消歧模型", 《知识组织与指示管理》 *
麦范金等: "基于双向最大匹配和HMM的分词消歧模型", 《知识组织与知识管理》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544167A (zh) * 2012-07-13 2014-01-29 江苏新瑞峰信息科技有限公司 一种基于中文检索的逆向分词方法及装置
CN103577391A (zh) * 2012-07-28 2014-02-12 江苏新瑞峰信息科技有限公司 一种基于中文检索的双向分词方法及装置
CN103593338A (zh) * 2013-11-15 2014-02-19 北京锐安科技有限公司 一种信息处理方法及装置
CN103593338B (zh) * 2013-11-15 2016-05-11 北京锐安科技有限公司 一种信息处理方法及装置
CN104077275A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 一种基于语境进行分词的方法和装置
WO2015196909A1 (zh) * 2014-06-27 2015-12-30 北京奇虎科技有限公司 一种分词方法和装置
CN104462058A (zh) * 2014-10-24 2015-03-25 腾讯科技(深圳)有限公司 字符串识别方法及装置
CN104462058B (zh) * 2014-10-24 2018-10-02 腾讯科技(深圳)有限公司 字符串识别方法及装置
CN104866472A (zh) * 2015-06-15 2015-08-26 百度在线网络技术(北京)有限公司 分词训练集的生成方法和装置
CN107291684A (zh) * 2016-04-12 2017-10-24 华为技术有限公司 语言文本的分词方法和系统
CN106021625A (zh) * 2016-07-26 2016-10-12 浪潮软件集团有限公司 基于solr搜索引擎的两种分词器的混合应用方法
CN106909611A (zh) * 2017-01-11 2017-06-30 北京众荟信息技术股份有限公司 一种基于文本信息抽取的酒店自动匹配方法
CN106909611B (zh) * 2017-01-11 2020-04-03 北京众荟信息技术股份有限公司 一种基于文本信息抽取的酒店自动匹配方法
CN106844633B (zh) * 2017-01-21 2019-06-14 浙江沛宏网络科技有限公司 一种分词搜索方法及其装置
CN106844633A (zh) * 2017-01-21 2017-06-13 浙江沛宏网络科技有限公司 一种分词搜索方法及其装置
CN106843520A (zh) * 2017-02-27 2017-06-13 百度在线网络技术(北京)有限公司 用于输出整句的方法和装置
CN106843520B (zh) * 2017-02-27 2020-02-07 百度在线网络技术(北京)有限公司 用于输出整句的方法和装置
CN107480128A (zh) * 2017-07-17 2017-12-15 广州特道信息科技有限公司 中文文本的分词方法及装置
CN109284763A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 一种生成分词训练数据的方法和服务器
CN107729312A (zh) * 2017-09-05 2018-02-23 苏州大学 基于序列标注建模的多粒度分词方法及系统
CN107729312B (zh) * 2017-09-05 2021-04-20 苏州大学 基于序列标注建模的多粒度分词方法及系统
CN107748784A (zh) * 2017-10-26 2018-03-02 邢加和 一种通过自然语言实现结构化数据搜索的方法
CN107748784B (zh) * 2017-10-26 2021-05-25 江苏赛睿信息科技股份有限公司 一种通过自然语言实现结构化数据搜索的方法
CN108664468A (zh) * 2018-05-02 2018-10-16 武汉烽火普天信息技术有限公司 一种基于词典和语义消歧的人名识别方法和装置
CN111177402A (zh) * 2019-12-13 2020-05-19 中移(杭州)信息技术有限公司 基于分词处理的评价方法、装置、计算机设备及存储介质
CN111177402B (zh) * 2019-12-13 2023-09-22 中移(杭州)信息技术有限公司 基于分词处理的评价方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN102402502A (zh) 用于搜索引擎的分词处理方法和装置
US11610061B2 (en) Modifying text according to a specified attribute
Van Der Wees et al. Dynamic data selection for neural machine translation
CN104142915B (zh) 一种添加标点的方法和系统
CN102866782B (zh) 一种提高整句生成效率的输入法和输入法系统
US9779080B2 (en) Text auto-correction via N-grams
CN103635963B (zh) 语言模型的跨语种初始化
CN108733655B (zh) 语音输入的字词级纠正
KR101623891B1 (ko) 기계 번역을 위한 파라미터들의 최적화
CN102591985B (zh) 与搜索框关联的查询重构
US8914288B2 (en) System and method for advanced turn-taking for interactive spoken dialog systems
CN102479191A (zh) 提供多粒度分词结果的方法及其装置
CN105096944B (zh) 语音识别方法及装置
CN103971684B (zh) 一种添加标点的方法、系统及其语言模型建立方法、装置
KR101126406B1 (ko) 유사어 결정 방법 및 시스템
WO2015170191A2 (en) Method and apparatus for screening promotion keywords
CN103678282A (zh) 一种分词方法及装置
CN102915314A (zh) 一种纠错对自动生成方法及系统
CN106126503B (zh) 业务领域定位方法及终端
CN112861521B (zh) 语音识别结果纠错方法、电子设备及存储介质
CN108875743B (zh) 一种文本识别方法及装置
CN109918664B (zh) 分词方法和装置
CN106649605B (zh) 一种推广关键词的触发方法及装置
CN110287364A (zh) 语音搜索方法、系统、设备及计算机可读存储介质
CN105893351A (zh) 语音识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120404