CN102982020A - 一种搜索系统中的中文分词方法 - Google Patents

一种搜索系统中的中文分词方法 Download PDF

Info

Publication number
CN102982020A
CN102982020A CN2012105502927A CN201210550292A CN102982020A CN 102982020 A CN102982020 A CN 102982020A CN 2012105502927 A CN2012105502927 A CN 2012105502927A CN 201210550292 A CN201210550292 A CN 201210550292A CN 102982020 A CN102982020 A CN 102982020A
Authority
CN
China
Prior art keywords
word
chinese
phrase
result
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012105502927A
Other languages
English (en)
Inventor
徐统
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HANGZHOU YEYAOMAI ELECTRONIC BUSINESS CO Ltd
Original Assignee
HANGZHOU YEYAOMAI ELECTRONIC BUSINESS CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HANGZHOU YEYAOMAI ELECTRONIC BUSINESS CO Ltd filed Critical HANGZHOU YEYAOMAI ELECTRONIC BUSINESS CO Ltd
Priority to CN2012105502927A priority Critical patent/CN102982020A/zh
Publication of CN102982020A publication Critical patent/CN102982020A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种搜索系统中的中文分词方法,包括步骤:A.获取需分词中文词组;B.将需分词中文词组与句法语义库中已经收录的句法和语义做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息;C.根据句法语义信息b,分词模块将需分词中文词组切分成词语,得到中间结果c;D.去歧模块根据已经收录的句法和语义判别中间结果c是否具有歧义;若有歧义,对中间结果c去歧义处理,得到最终结果D,否则,中间结果c即为分词结果D。本发明中能够解决因涉及汉语语义问题而产生分词结果有歧义的问题,使得分词结果出现歧义的可能性大大降低,最大程度上保证了分词结果的准确性,提高搜索结果的准确率,分词结果的准确性早98%以上。

Description

一种搜索系统中的中文分词方法
技术领域
本发明涉及一种中文分词方法,尤其涉及一种搜索系统中的中文分词方法。
背景技术
现有的中文搜索系统中,需要先针对用户输入的内容进行分词,以确定搜索的关键字。目前的分词方法,一般无法解决因涉及汉语语义问题而产生分词结果有歧义的问题,这会导致在确定关键字时的错误,影响搜索结果的准确率。
发明内容
本发明的目的在于,提供一种搜索系统中的中文分词方法。运用该方法进行分词能够解决因涉及汉语语义问题而产生分词结果有歧义的问题,使得分词结果出现歧义的可能性大大降低,提高搜索结果的准确率。
为解决上述技术问题,本发明提供的技术方案如下:一种搜索系统中的中文分词方法,其特征在于,包括步骤:
A. 获取需分词中文词组a;
B. 将需分词中文词组a与句法语义库中已经收录的句法和语义做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息;
C. 根据句法语义信息b,分词模块将需分词中文词组切分成词语,得到中间结果c;
D. 去歧模块根据已经收录的句法和语义判别中间结果c是否具有歧义;如果有歧义,对中间结果c去歧义处理,得到最终结果D,如果没有歧义,中间结果c即为分词结果D。
前述的搜索系统中的中文分词方法,步骤B中,所述的已经收录的句法和语义包括句子或短语的构成方法以及大量汉字和词语对应的词性。
前述的搜索系统中的中文分词方法,步骤B中,所述的将需分词中文词组a与句法语义库中已经收录的句法和语义做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息,具体为:
a. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有动词,如果有动词,扫描动词前后位置的词语的词性,然后根据动词前后位置的词语的词性判断与动词相连短语的类别a1,将类别a1及类别a1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤b;如果没有动词,执行步骤b;
b. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有助词,如果有助词,扫描助词前后位置的词语的词性,然后根据助词前后位置的词语的词性判断与助词相连短语的类别b1,将类别b1及类别b1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤c;如果没有助词,执行步骤c;
c. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有形容词,如果有形容词,扫描形容词前后位置的词语的词性,然后根据形容词前后位置的词语的词性判断与形容词相连短语的类别c1,将类别c1及类别c1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤d;如果没有形容词,执行步骤d;
d. 将a2与已经收录的句子的构成方法做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息。
前述的搜索系统中的中文分词方法,步骤D中,所述的去歧模块根据已经收录的句法和语义判别中间结果b是否具有歧义,具体为,去歧模块根据已经句法语义库中已经收录的句法和语义判断中间结果b中的词语是否有满足句法但不满足语义的歧义。
前述的搜索系统中的中文分词方法,步骤D中,所述的对中间结果b去歧义处理具体为,去歧模块根据已经收录的句法和语义对中间结果b中有歧义的部分继续切分颗粒度更小的词语。
与现有技术相比,运用本发明得出的分词结果能够避免因涉及汉语语义问题而产生分词结果有歧义的问题,使得分词结果出现歧义的可能性大大降低,最大程度上保证了分词结果的准确性,分词结果的准确性早98%以上,提高搜索结果的准确率。
下面结合实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
实施例。一种搜索系统中的中文分词方法,包括步骤:
A. 获取需分词中文词组a;
B. 将需分词中文词组a与句法语义库中已经收录的句法和语义做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息;
C. 根据句法语义信息b,分词模块将需分词中文词组切分成词语,得到中间结果c;
D. 去歧模块根据已经收录的句法和语义判别中间结果c是否具有歧义;如果有歧义,对中间结果c去歧义处理,得到最终结果D,如果没有歧义,中间结果c即为分词结果D。
步骤B中,所述的已经收录的句法和语义包括句子或短语的构成方法以及大量汉字和词语对应的词性。
步骤B中,所述的将需分词中文词组a与句法语义库中已经收录的句法和语义做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息,具体为:
a. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有动词,如果有动词,扫描动词前后位置的词语的词性,然后根据动词前后位置的词语的词性判断与动词相连短语的类别a1,将类别a1及类别a1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤b;如果没有动词,执行步骤b;
b. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有助词,如果有助词,扫描助词前后位置的词语的词性,然后根据助词前后位置的词语的词性判断与助词相连短语的类别b1,将类别b1及类别b1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤c;如果没有助词,执行步骤c;
c. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有形容词,如果有形容词,扫描形容词前后位置的词语的词性,然后根据形容词前后位置的词语的词性判断与形容词相连短语的类别c1,将类别c1及类别c1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤d;如果没有形容词,执行步骤d;
d. 将a2与已经收录的句子的构成方法做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息。
步骤D中,所述的去歧模块根据已经收录的句法和语义判别中间结果b是否具有歧义,具体为,去歧模块根据已经句法语义库中已经收录的句法和语义判断中间结果b中的词语是否有满足句法但不满足语义的歧义。
步骤D中,所述的对中间结果b去歧义处理具体为,去歧模块根据已经收录的句法和语义对中间结果b中有歧义的部分继续切分颗粒度更小的词语。
实施例2.
中文词组为“公安局长喝茶”。
本发明分词过程:
A.获取需分词中文词组“公安局长喝茶”;
B.(a).根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组“公安局长喝茶”中是否有动词,有动词“喝”,扫描动词前后位置的词语的词性,“喝”前的“公安局长”为名词,“喝”后的“茶”为名词,然后根据动词前后位置的词语的词性判断与动词相连短语的类别“主谓宾结构”,将类别“主谓宾结构”及类别“主谓宾结构”在需分词中文词组a中所处位置“整体”存入信息结果“整体为主谓宾结构”中,然后执行步骤(b);
(b). 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a“公安局长喝茶”中是否有助词,没有助词,执行步骤(c);
(c). 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a“公安局长喝茶”中是否有形容词,没有形容词,执行步骤(d);
(d). 将“整体为主谓宾结构”与已经收录的句子的构成方法做对比,找到最接近的句法信息“整体为主谓宾结构”后,将句法信息“整体为主谓宾结构”作为中文词组a“公安局长喝茶”的句法信息;
C.根据句法信息“整体为主谓宾结构”,分词模块将需分词中文词组切分成词语,得到中间结果c“公安局长/喝/茶”;
D.去歧模块根据已经收录的句法和语义判别中间结果c“公安局长/喝/茶”是否具有歧义;没有歧义,中间结果c“公安局长/喝/茶”即为分词结果D。
本发明分词结果为“公安局长/喝/茶”。
其他方法分词结果为“公安/局长/喝茶”或“公安/局长/喝/茶”。
对比分析: “公安局长”分词分成“公安局长”和“公安/局长”都是正确的分词结果,但是结合句法“公安/局长/喝茶”明显不符合“整体为主谓宾结构”的句法,不符合真实的语境;“喝茶”分词分成“喝茶”和“喝/茶”都是正确的分词结果,但是结合句法“公安局长/喝茶”明显不符合“整体为主谓宾结构”的句法,不符合真实的语境。
实施例3.
中文词组为“陈述其中的厉害哩”。
本发明分词过程:
A. 获取需分词中文词组“陈述其中的厉害哩”;
B. (a)根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组“陈述其中的厉害哩”中是否有动词,有动词“陈述”,扫描动词前后位置的词语的词性,“陈述”前无词语,“陈述”后“其中”为形容词,然后根据动词前后位置的词语的词性判断与动词相连短语的类别 “动词+形容词结构”,将类别“动词+形容词结构”及类别“动词+形容词结构”在需分词中文词组“陈述其中的厉害哩”中所处位置“首端”存入信息结果a2“首端为动词+形容词结构”中,然后执行步骤(b);
(b)根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有助词,有助词“的”,扫描助词前后位置的词语的词性,“的”前的“其中”为形容词,“的”后的“厉害”为名词,然后根据助词前后位置的词语的词性判断与助词相连短语的类别“定语+的+中心语结构”,将类别“定语+的+中心语结构”及类别“定语+的+中心语结构”在需分词中文词组“陈述其中的厉害哩”中所处位置“尾端”存入信息结果a2“首端为动词+形容词结构,尾端为定语+的+中心语结构”中,然后执行步骤(c);
(c)根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有形容词,有形容词“其中”,扫描形容词前后位置的词语的词性,“其中”前的“陈述”为动词,“其中”后的“的”为助词,然后根据助词前后位置的词语的词性判断与助词相连短语的类别“动词+形容词+的”,将类别“动词+形容词+的”及类别“动词+形容词+的”在需分词中文词组“陈述其中的厉害哩”中所处位置“中间”存入信息结果a2“首端为动词+形容词结构,尾端为定语+的+中心语结构,中间为动词+形容词+的”中,然后执行步骤(d);
(d)将a2与已经收录的句子的构成方法做对比,找到最接近的句法信息b“动词+形容词+的+名词”后,将句法信息b动词+形容词+的+名词”作为中文词组a的句法信息。
C. 根据句法语义信息b动词+形容词+的+名词”,分词模块将需分词中文词组“陈述其中的厉害哩”切分成词语,得到中间结果c“陈述/其中/的/厉害哩”;
D. 去歧模块根据已经收录的句法和语义判别中间结果c是否具有歧义;“厉害哩”词语中包含虚词,有歧义,去歧模块根据已经收录的句法和语义对中间结果b中有歧义的部分继续切分颗粒度更小的词语“厉害/哩”,得到分词结果D“陈述/其中/的/厉害/哩”。
本发明分词结果为“陈述/其中/的/厉害/哩”。
其他方法分词结果为“陈述/其中的/厉害/哩”或“陈述/其/中/的/厉/害/哩”
对比分析: “其中的”分词分成“其中/的”最好,“厉害”分词分成“厉害”最好,这样符合真实的语义,而“其/中/的/厉/害”这样的分词结果颗粒度太小,不符合真实的语境。

Claims (5)

1.一种搜索系统中的中文分词方法,其特征在于,包括步骤:
A. 获取需分词中文词组a;
B. 将需分词中文词组a与句法语义库中已经收录的句法和语义做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息;
C. 根据句法语义信息b,分词模块将需分词中文词组切分成词语,得到中间结果c;
D. 去歧模块根据已经收录的句法和语义判别中间结果c是否具有歧义;如果有歧义,对中间结果c去歧义处理,得到最终结果D,如果没有歧义,中间结果c即为分词结果D。
2.根据权利要求1所述的搜索系统中的中文分词方法,其特征在于:步骤B中,所述的已经收录的句法和语义包括句子的构成方法、短语的类别以及大量汉字和词语对应的词性。
3.根据权利要求2所述的搜索系统中的中文分词方法,其特征在于,步骤B中,所述的将需分词中文词组a与句法语义库中已经收录的句法和语义做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息,具体为:
a. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有动词,如果有动词,扫描动词前后位置的词语的词性,然后根据动词前后位置的词语的词性判断与动词相连短语的类别a1,将类别a1及类别a1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤b;如果没有动词,执行步骤b;
b. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有助词,如果有助词,扫描助词前后位置的词语的词性,然后根据助词前后位置的词语的词性判断与助词相连短语的类别b1,将类别b1及类别b1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤c;如果没有助词,执行步骤c;
c. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有形容词,如果有形容词,扫描形容词前后位置的词语的词性,然后根据形容词前后位置的词语的词性判断与形容词相连短语的类别c1,将类别c1及类别c1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤d;如果没有形容词,执行步骤d;
d. 将a2与已经收录的句子的构成方法做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息。
4.根据权利要求1所述的搜索系统中的中文分词方法,其特征在于:步骤D中,所述的去歧模块根据已经收录的句法和语义判别中间结果b是否具有歧义,具体为,去歧模块根据句法语义库中已经收录的句法和语义判断中间结果b中的词语是否有满足句法但不满足语义的歧义。
5.根据权利要求1所述的搜索系统中的中文分词方法,其特征在于:步骤D中,所述的对中间结果b去歧义处理具体为,去歧模块根据已经收录的句法和语义对中间结果b中有歧义的部分继续切分颗粒度更小的词语。
CN2012105502927A 2012-12-17 2012-12-17 一种搜索系统中的中文分词方法 Pending CN102982020A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012105502927A CN102982020A (zh) 2012-12-17 2012-12-17 一种搜索系统中的中文分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012105502927A CN102982020A (zh) 2012-12-17 2012-12-17 一种搜索系统中的中文分词方法

Publications (1)

Publication Number Publication Date
CN102982020A true CN102982020A (zh) 2013-03-20

Family

ID=47856060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012105502927A Pending CN102982020A (zh) 2012-12-17 2012-12-17 一种搜索系统中的中文分词方法

Country Status (1)

Country Link
CN (1) CN102982020A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598441A (zh) * 2014-12-25 2015-05-06 上海科阅信息技术有限公司 一种计算机拆分汉语句子的方法
CN105701206A (zh) * 2016-01-13 2016-06-22 湖南通远网络科技有限公司 一种基于采样的文献检测方法及系统
CN106503076A (zh) * 2016-10-08 2017-03-15 武汉斗鱼网络科技有限公司 一种基于语法格式的分词检索方法及系统
CN110347901A (zh) * 2018-04-02 2019-10-18 和硕联合科技股份有限公司 一种搜索方法以及一种应用该方法的电子装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499058A (zh) * 2009-03-05 2009-08-05 北京理工大学 一种基于类型论的汉语分词方法
CN101739393A (zh) * 2008-11-20 2010-06-16 苗玉水 汉语文本智能分词法
CN102087642A (zh) * 2009-11-04 2011-06-08 蒋贤春 Wkr分词方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739393A (zh) * 2008-11-20 2010-06-16 苗玉水 汉语文本智能分词法
CN101499058A (zh) * 2009-03-05 2009-08-05 北京理工大学 一种基于类型论的汉语分词方法
CN102087642A (zh) * 2009-11-04 2011-06-08 蒋贤春 Wkr分词方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵伟 等: "一种规则与统计相结合的汉语分词方法", 《计算机应用研究》, no. 03, 28 March 2004 (2004-03-28), pages 23 - 25 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598441A (zh) * 2014-12-25 2015-05-06 上海科阅信息技术有限公司 一种计算机拆分汉语句子的方法
CN104598441B (zh) * 2014-12-25 2019-06-28 上海科阅信息技术有限公司 一种计算机拆分汉语句子的方法
CN105701206A (zh) * 2016-01-13 2016-06-22 湖南通远网络科技有限公司 一种基于采样的文献检测方法及系统
CN105701206B (zh) * 2016-01-13 2018-10-09 湖南通远网络科技有限公司 一种基于采样的文献检测方法及系统
CN106503076A (zh) * 2016-10-08 2017-03-15 武汉斗鱼网络科技有限公司 一种基于语法格式的分词检索方法及系统
CN110347901A (zh) * 2018-04-02 2019-10-18 和硕联合科技股份有限公司 一种搜索方法以及一种应用该方法的电子装置

Similar Documents

Publication Publication Date Title
Tur et al. What is left to be understood in ATIS?
Mubarak et al. Using Twitter to collect a multi-dialectal corpus of Arabic
CN106445998B (zh) 一种基于敏感词的文本内容审核方法及系统
CN106598944B (zh) 一种民航安保舆情情感分析方法
CN103885934B (zh) 一种专利文献关键短语自动提取方法
CN104881402A (zh) 中文网络话题评论文本语义倾向分析的方法及装置
CN106095778A (zh) 搜索引擎的中文搜索词自动纠错方法
CN105096953B (zh) 实现多语种混合使用的语音识别方法
CN102982020A (zh) 一种搜索系统中的中文分词方法
CN107609103A (zh) 一种基于推特的事件检测方法
CN103365925A (zh) 获取多音字拼音、基于拼音检索的方法及其相应装置
Zayats et al. Giving attention to the unexpected: Using prosody innovations in disfluency detection
CN103559310A (zh) 一种从文章中提取关键词的方法
CN102426603A (zh) 一种文字信息地域识别方法及装置
CN105740224A (zh) 一种基于文本分析的用户心理预警方法与装置
Huber Syntactic and variational complexity in British and Ghanaian English
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN112632982A (zh) 一种能用于供应商评价的对话文本情感分析方法
CN104750676B (zh) 机器翻译处理方法及装置
CN104317783A (zh) 一种语义关系密切度的计算方法
CN102722526A (zh) 基于词性分类统计的重复网页和近似网页的识别方法
CN112347259A (zh) 一种结合词典与机器学习的评论文本情感分析方法
Sun et al. Information fusion in automatic user satisfaction analysis in call center
CN110162615A (zh) 一种智能问答方法、装置、电子设备和存储介质
CN106354713A (zh) 自动识别中文姓名的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130320