CN103838794A - 一种适用于专业搜索引擎的分词方法 - Google Patents

一种适用于专业搜索引擎的分词方法 Download PDF

Info

Publication number
CN103838794A
CN103838794A CN201210491416.9A CN201210491416A CN103838794A CN 103838794 A CN103838794 A CN 103838794A CN 201210491416 A CN201210491416 A CN 201210491416A CN 103838794 A CN103838794 A CN 103838794A
Authority
CN
China
Prior art keywords
word
entry
dictionary
professional
lead
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210491416.9A
Other languages
English (en)
Inventor
郑世明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Original Assignee
DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd filed Critical DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority to CN201210491416.9A priority Critical patent/CN103838794A/zh
Publication of CN103838794A publication Critical patent/CN103838794A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种适用于专业搜索引擎的分词方法,包括以下步骤:根据专业主词典表和同义词词典表首先建立首字索引视图和首字词条视图;用数组将整个字典的两个视图数据装入内存;循环查找和匹配过程。做为专业搜索引擎其搜索对象通常是专业领域的技术文档,这些文档的特征项都基于专业词典,与通用词典相比专业词典包含的词汇量很少,因此只需匹配专业词条即可,无需像综合搜索引擎那样对句子中所有词条进行全部切分,因此本发明受首字哈希结构的启发,设计了一种可以提高专业分词的效率,避免传统最大匹配分词中频繁查词典的缺陷,以及首字哈希浪费存储空间的弊端的简单实用的分词方法。

Description

一种适用于专业搜索引擎的分词方法
技术领域
本发明涉及一种中文的自动分词技术,特别是一种适用于专业搜索引擎的分词方法。
背景技术
在国内自80年代以来,已陆续开发出一些分词系统,使用的分词方法也有多种。但归纳起来不外乎两类:一类是理解式分词法,即利用汉语的语法知识和语义知识以及心理学知识试图模仿人类的阅读过程来进行分词。这种分词需要建立分词数据库、知识库和推理机,主要包括专家系统分词法、基于语法和规则的分词法、基于神经网络的分词法等;另一类是机械式分词法,这种分词法一般以分词词典为依据,通过文档中的汉字串和词表中的词逐一匹配来完成词的切分。其中分词词典中不涉及太多的词法、语义、句法知识等关于语言自身的信息,主要是个词表。词典中词条的数目、词条的选择直接影响到最后的分词效果。它主要包括正向、逆向最大匹配法、最佳匹配法、逐词遍历法、词频统计法等。相比而言,第一类分词方案的算法复杂度高,其有效性于可行性尚需在实际工作中得到进一步地验证。因为汉语毕竟是缺乏词的标志和严格的构词规则。语言界现有的词法、句法及组合规则仍然是十分笼统的和复杂的,能否有效的、系统地转换成为计算机采用的形式恐怕难以定论。因此这种分词方法仅是处于研究阶段,距离实用化还有很大差距,一般不宜采用。第二类分词方法实现简单,比起第一类来较具体、实用,而且也可以达到较高的准确度。
搜索引擎中常用的分词技术是一种基于分词词典的机械分词法,即正逆向最大匹配法。它不能根据文档上下文的语义特征来切分词语,对词典的依赖性较大,所以在实际使用时,难免会造成一些分词错误。为了提高系统分词的准确度,在搜索引擎的实际应用中通常采用正向最大匹配法和逆向最大匹配法相结合的分词方案。先根据标点对文档进行粗切分,把文档分解成若干个子段,然后再对这些子段用正向最大匹配法和逆向最大匹配法进行扫描切分。如果两种分词方法得到的匹配结果相同,则认为分词正确,否则,按同时包含两部分的最小长度处理。
目前搜索引擎中用到的正逆向最大匹配相结合的分词算法和首字哈希的词典组织结构都是建立在通用词典的基础上的,它要求对词条全部切分直到单字为止。但做为专业搜索引擎其搜索对象通常是专业领域的技术文档,这些文档的特征项都基于专业词典,与通用词典相比专业词典包含的词汇量很少,因此只需匹配专业词条即可,无需像综合搜索引擎那样对句子中所有词条进行全部切分。
发明内容
为解决现有技术存在的上述问题,本发明受首字哈希结构的启发,设计了一种可以提高专业分词的效率,避免传统最大匹配分词中频繁查词典的缺陷,以及首字哈希浪费存储空间的弊端的简单实用的分词方法。
为了实现上述目的,本发明的技术方案如下:一种适用于专业搜索引擎的分词方法:包括以下步骤:
A、根据专业主词典表和同义词词典表首先建立首字索引视图和首字词条视图;
B、初始化时用数组将整个字典的两个视图数据装入内存;
C、根据标点进行粗切分,然后从句子中按顺序取出一个汉字在首字索引视图中用二分法进行查找,若未找到则进入下次循环;
D、否则转到首字词条视图中分别按其中同的“词条长度”截取句子相应长度的字符串;
E、按首字词条视图中的词条顺序取出所有以该字开头的词条名并与相应长度的截取串进行比较,比较次数由首字索引视图中首字词数目决定;
若再匹配成功则对相应词条统计计数,如果词条来源于主词典直接给该词计数,如果词条来源于同义词典则应对该词所对应的主词典词计数;
同时跳过该词条包含的汉字进入下一次循环;否则直接进入下次循环;
F、重复步骤A-E直到文章结束为止。
与现有技术相比,本发明具有以下有益效果:
1.保持了传统最大匹配优先的特点,同时也适合于中英文混合词条(如“甲A”,“Java实例”等)的分词统计。
2.改变传统最大匹配中截取字串匹配词典词条的做法,而采用了词典词条匹配相应长度截取字串的匹配方法。保证了所有的匹配都是有效匹配,避免了传统最大匹配法顺序查字典中大量的无效匹配判断,提高了分词的效率。
3.根据专业词典建立首字索引,避免了传统首字哈希索引方法在专业搜索引擎中浪费存储空间的弊端。
4.方法简单易于实现。无需建立新的索引结构表,仅利用现有的库表结构即可实现,降低了建立索引的复杂度,能有效的适用于专业搜索引擎的使用。
附图说明
本发明共有附图1张,其中:
图1是本发明中适合专业搜索引擎的分词法流结构示意图。
具体实施方式
下面结合附图对本发明进行进一步地描述。本发明的工作流程如图1,根据专业主词典表和同义词词典表首先建立首字索引视图和首字词条视图两个视图。然后初始化时用数组将整个字典的两个视图数据装入内存。在分词时先根据标点进行粗切分,接着从句子中按顺序取出一个汉字在首字索引视图的“词条首字”中用二分法进行查找,若未找到则进入下次循环,否则转到首字词条视图中分别按首字词条视图中不同的“词条长度”截取句子相应长度的字符串,然后按首字词条视图中的词条顺序取出所有以该字开头的词条名并与相应长度的截取串进行比较(比较次数由首字索引视图中“首字词数目”决定),若再匹配成功则对相应词条统计计数(如果词条来源于主词典直接给该词计数,如果词条来源于同义词典则应对该词所对应的主词典词计数),同时跳过该词条包含的汉字进入下一次循环。否则直接进入下次循环。如此反复匹配直到文章结束为止。

Claims (1)

1.一种适用于专业搜索引擎的分词方法,其特征在于:包括以下步骤:
A、根据专业主词典表和同义词词典表首先建立首字索引视图和首字词条视图;
B、初始化时用数组将整个字典的两个视图数据装入内存;
C、根据标点进行粗切分,然后从句子中按顺序取出一个汉字在首字索引视图中用二分法进行查找,若未找到则进入下次循环;
D、否则转到首字词条视图中分别按其中同的“词条长度”截取句子相应长度的字符串;
E、按首字词条视图中的词条顺序取出所有以该字开头的词条名并与相应长度的截取串进行比较,比较次数由首字索引视图中首字词数目决定;
若再匹配成功则对相应词条统计计数,如果词条来源于主词典直接给该词计数,如果词条来源于同义词典则应对该词所对应的主词典词计数;
同时跳过该词条包含的汉字进入下一次循环;否则直接进入下次循环;
F、重复步骤A-E直到文章结束为止。
CN201210491416.9A 2012-11-27 2012-11-27 一种适用于专业搜索引擎的分词方法 Pending CN103838794A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210491416.9A CN103838794A (zh) 2012-11-27 2012-11-27 一种适用于专业搜索引擎的分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210491416.9A CN103838794A (zh) 2012-11-27 2012-11-27 一种适用于专业搜索引擎的分词方法

Publications (1)

Publication Number Publication Date
CN103838794A true CN103838794A (zh) 2014-06-04

Family

ID=50802303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210491416.9A Pending CN103838794A (zh) 2012-11-27 2012-11-27 一种适用于专业搜索引擎的分词方法

Country Status (1)

Country Link
CN (1) CN103838794A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468584A (zh) * 2015-12-31 2016-04-06 武汉鸿瑞达信息技术有限公司 文本中不良文字信息的过滤方法及过滤系统
CN108170682A (zh) * 2018-01-18 2018-06-15 北京同盛科创科技有限公司 一种基于专业词汇的中文分词方法及计算设备
CN110825608A (zh) * 2018-08-08 2020-02-21 北京京东尚科信息技术有限公司 关键语义测试方法、装置、存储介质及电子设备
CN113553408A (zh) * 2021-06-25 2021-10-26 西安电子科技大学 一种工业大数据搜索优化方法、系统、设备、介质、终端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000060727A (ko) * 1999-03-18 2000-10-16 오민희 다중 검색어를 갖는 전자사전 및 그 제어방법
CN102375842A (zh) * 2010-08-20 2012-03-14 姚尹雄 面向领域整体的关键词集的评价和提取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000060727A (ko) * 1999-03-18 2000-10-16 오민희 다중 검색어를 갖는 전자사전 및 그 제어방법
CN102375842A (zh) * 2010-08-20 2012-03-14 姚尹雄 面向领域整体的关键词集的评价和提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘峰: "通用中英文专业搜索引擎技术的研究及应用", 《中国硕士学位论文全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468584A (zh) * 2015-12-31 2016-04-06 武汉鸿瑞达信息技术有限公司 文本中不良文字信息的过滤方法及过滤系统
CN108170682A (zh) * 2018-01-18 2018-06-15 北京同盛科创科技有限公司 一种基于专业词汇的中文分词方法及计算设备
CN108170682B (zh) * 2018-01-18 2021-09-07 北京同盛科创科技有限公司 一种基于专业词汇的中文分词方法及计算设备
CN110825608A (zh) * 2018-08-08 2020-02-21 北京京东尚科信息技术有限公司 关键语义测试方法、装置、存储介质及电子设备
CN113553408A (zh) * 2021-06-25 2021-10-26 西安电子科技大学 一种工业大数据搜索优化方法、系统、设备、介质、终端

Similar Documents

Publication Publication Date Title
CN105701253B (zh) 中文自然语言问句语义化的知识库自动问答方法
CN105868204B (zh) 一种转换Oracle脚本语言SQL的方法及装置
CN106126620A (zh) 基于机器学习的中文自动文摘方法
CN106682209A (zh) 一种跨语言科技文献检索方法及系统
CN108665141B (zh) 一种从突发事件预案中自动抽取应急响应流程模型的方法
CN105608232A (zh) 一种基于图形数据库的bug知识建模方法
CN109408628B (zh) 一种解析句子语义结构的方法及相关设备
CN106933869A (zh) 一种操作数据库的方法和装置
CN103678287A (zh) 一种关键词翻译统一的方法
CN103838794A (zh) 一种适用于专业搜索引擎的分词方法
CN114625748A (zh) Sql查询语句的生成方法、装置、电子设备及可读存储介质
CN107679124B (zh) 一种基于动态规划算法的知识图谱中文问答检索方法
Embley et al. Transforming web tables to a relational database
Flor A fast and flexible architecture for very large word n-gram datasets
CN103617265A (zh) 一种基于本体语义信息的本体查询引擎优化系统
CN109446277A (zh) 基于中文自然语言的关系型数据智能搜索方法及系统
Giordani et al. Automatic generation and reranking of sql-derived answers to nl questions
Wang et al. Semi-supervised chinese open entity relation extraction
CN106776590A (zh) 一种获取词条译文的方法及系统
CN101706792A (zh) 一种面向中文查询句的三级查询目标分析方法
Gao et al. ICST Math Retrieval System for NTCIR-11 Math-2 Task.
CN110717014A (zh) 一种本体知识库动态构建方法
CN115617965A (zh) 一种语言结构大数据的快速检索方法
Deshmukh et al. Automatic text-to-SQL machine translation for scholarly publication database search
KR101225333B1 (ko) 구문론적으로 분석된 텍스트 코퍼스로부터 정보를 추출하는 트리 패턴 표현식을 이용한 시스템 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140604

RJ01 Rejection of invention patent application after publication