CN103870537B - 一种标准检索智能分词方法 - Google Patents

一种标准检索智能分词方法 Download PDF

Info

Publication number
CN103870537B
CN103870537B CN201410024472.0A CN201410024472A CN103870537B CN 103870537 B CN103870537 B CN 103870537B CN 201410024472 A CN201410024472 A CN 201410024472A CN 103870537 B CN103870537 B CN 103870537B
Authority
CN
China
Prior art keywords
character string
character
word
group
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410024472.0A
Other languages
English (en)
Other versions
CN103870537A (zh
Inventor
李凤龙
刘丽梅
王秀芹
马强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANDONG JINZHI INFORMATION TECHNOLOGY Co Ltd
Original Assignee
SHANDONG JINZHI INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANDONG JINZHI INFORMATION TECHNOLOGY Co Ltd filed Critical SHANDONG JINZHI INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410024472.0A priority Critical patent/CN103870537B/zh
Publication of CN103870537A publication Critical patent/CN103870537A/zh
Application granted granted Critical
Publication of CN103870537B publication Critical patent/CN103870537B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种标准检索智能分词方法,其特征在于,包括如下步骤:(1)对输入的字符串的进行规范化预处理;(2)判断当前输入的字符串是否为编号,如果输入的是编号,转步骤(3),反之,转步骤(4);(3)判断是否到字符串的末尾,如果不是到字符串末尾,则判断当前字符和上一个字符是否为同一类,同类则直接归并到上一个字符所在的组中,形成词段,否则创建新组,并将新组加入到组链中,并将该字符计入新组,组成另一个词段,循环上述操作直到字符串末尾为止,如果是字符串末尾,则针对生成出来的组链,转步骤(5);(4)采用基于词典的方式处理,形成分词并存储;(5)根据得到的组链,依次利用分词规则形成分词并存储。

Description

一种标准检索智能分词方法
技术领域
本发明涉及一种智能检索领域,具体地讲,涉及一种标准检索智能分词方法。
背景技术
随着科学技术的发展,生产的社会化程度越来越高,生产规模越来越大,技术要求越来越复杂,分工越来越细,生产协作越来越广泛,这就要求必须通过制定和使用符合国家或国际规定的标准,来保证各生产部门的活动,在技术上保持高度的统一和协调,从而保障生产的正常进行,获得最佳经济和社会效益,并为促进技术进步,产业结构调整,产品升级换代和产品质量提高等提供全方位的标准支持。
在以往采用数据库的系统中,通过sql查询操作难以得到用户所需的标准。目前,使用的标准数量已经达到千万级别的、甚至更高的海量级别。在大众对标准不熟悉,查询不准确的情况下,提供准确的查找或者相似的标准,成为一个急需解决的难题。
针对标准数量众多、用户对标准不熟悉,查询所需标准效率低等问题,引入有限状态机和记忆规则原理,提出解决该海量标准数据检索问题的一个算法,对用户的查询进行相关的智能提示或推荐,简单、快速挖掘用户所需标准,有效提高了查询效率。
发明内容
本发明要解决的技术问题是提供一种标准检索智能分词方法,满足用户的查询需要,提高用户的标准检索速度。
本发明采用如下技术方案实现发明目的:
一种标准检索智能分词方法,其特征在于,包括如下步骤:
(1)对输入的字符串的进行规范化预处理;
(2)判断当前输入的字符串是否为编号,如果输入的是编号,转步骤(3),反之,转步骤(4);
(3)判断是否到字符串的末尾,如果不是到字符串末尾,则判断当前字符和上一个字符是否为同一类,同类则直接归并到上一个字符所在的组中,形成词段,否则创建新组,并将新组加入到组链中,并将该字符计入新组,组成另一个词段,循环上述操作直到字符串末尾为止,如果是字符串末尾,则针对生成出来的组链,转步骤(5);
(4)采用基于词典的方式处理,形成分词并存储;
(5)根据得到的组链,采用基于记忆规律的分词组合方式,依次利用分词规则形成分词,并且在去重过滤后进行存储。
作为对本技术方案的进一步限定,所述分词规则具体包括简单词的分词组合、相连词的分词组合、相连词的模糊组合和全词组合。
与现有技术相比,本发明的优点和积极效果是:本发明根据用户输入的检索条件,经过预处理、分词等处理过程,形成检索条件,然后利用检索引擎,匹配出符合条件的记录,从而反馈给用户检索结构。本发明利用空间维度换取时间维度,实时反馈查询结果,以便最快速的满足用户的检索请求,提高平台和用户的交互性。
附图说明
图1为本发明优选实施例的流程图。
具体实施方式
下面结合附图和优选实施例对本发明作更进一步的详细描述。
标准编号: 由标准化组织制定的符合国家或国际标准的具有唯一性的、用以记录各种标准的代号,称为标准编号。
标准编号有国际标准编号和我国的国家标准编号两种。国际及国外的标准编号形式各异,但基本结构为:标准代号+专业代号+顺序号+年代号。 我国的标准编号由标准代号、标准发布顺序和标准发布年代号构成。
标准查询:
根据标准组织代号、标准顺序号、标准名称、适用范围、中标分类号、标准年代号、ICS分类号等检索条件进行模糊检索。查询结果显示标准号、标准名称、实施日期、标准状态、页数、前言、引言、预览按钮等。
预处理:
对输入的字符串进行规范化的预先处理,如:去除字符串中的首尾空格、回车、换行符、制表符等,并将所有小写字母转化成大写字母,这个处理过程称为预处理;在系统构建索引、用户查询时均先进行该步骤,以便规范化系统、用户的输入。
词段:
在输入字符串判断是否为编号中,根据依次输入的字符是否为同一类进行划分,把同类的字符放入一组,形成一个子字符串,称之为词段。由多个字符组成字符串,在是否为同一词段的判断过程中,若当前字符和上一字符同类,则放到同一个词段中。例如字符串SJZ1162013,首先输入字符串S,因为是第一个字符,直接放入一组,再次输入J时,就开始判断当前字符J是否和上一字符S是否为同类,从而决定是否放入同一词段中。按字符是英文字母和阿拉伯数字分类,SJZ1162013会分为SJZ和1162013两个词段。
组链:
在输入字符串判断是否为编号中,根据依次输入的字符是否为同一类进行划分,把同类的字符放入一组,形成一个词段。不同类的放到另一新组中组成另一个词段。把由这些词段组成的长链称为组链;组链中的词段具有先后顺序性。
例如字符串SJZ1162013,由词段SJZ和词段1162013就构成了如下组链
{SJZ1162013};其中 标示词段的顺序性、{标示组链的开始、}表示组链的结束。
目前,随着众多新的国家标准、行业标准、地方标准和企业标准的相继产生,检索所需标准比较困难和麻烦,本算法利用智能分词技术,旨在满足用户的查询需要,提高用户的标准检索速度。
其主要包括两部分:分词的加工和分词的检索。针对当前存在的各种标准,将其划分为多种分词组合,并存储到分词索引库中,该过程为分词的加工存储过程,并可对加工的标准等记录进行实时的分词更新,便于用户实时准确查询检索。根据用户的输入的检索条件,经预处理、分词等处理,形成检索条件,利用检索引擎,匹配出符合条件的记录,从而反馈给用户检索结果。
基于有限状态机和记忆规则的分词器:
传统的分词器一般采用词典或者基于概率统计等方式。而标准变编号涉及英文、数字、特殊符号等并非常用的词,且不符合概率统计的方法。针对日常大众的搜索习惯,现采用有限状态机分组和基于记忆规则的组合方法,从而满足用户的搜索需求。
参见图1,本方法主要包含三个部分,字符串的预处理,有限状态机下的词段划分和基于记忆规律的分词。
首先,当输入字符串时,会针对所输入的字符串进行预处理,判断当前输入是否为编号,如果输入是编号,利用有限状态机的原理进行字符处理;反之,则采用基于词典的方式处理,形成分词并存储。
其次,当判断当前输入是编号之后,再判断是否到字符串末尾,如果没有到字符串末尾,则判断当前字符和上一字符是否为同一类,同类则直接归并到本组中,形成一个词段,不同类则创建新组,并加入到组链中,并将该字符计入新组,组成另一个词段,本次字符处理结束之后,再判断是否到字符串末尾,循环直到字符串末尾为止,以保证整个输入字符串的完整处理。如果是字符串末尾,则针对生成出来的组链,按照记忆规律分词。
最后,根据得到的组合,采用基于记忆规律的分词组合方式,依次利用简单词的分词组合、相连词的分词组合、相连词的模糊组合、全词组合等多种方式形成分词,并且在去重过滤后进行存储。
以组链JZ01为例,介绍分词组合方式的实现细节和分词结果,其中包含两个词段JZ和01,如表1所示:
表1 分词的四种组合方式
组合方式 实现算法 分词结果
简单词的分词组合 以词段为处理单元,穷举其词段内字符的单个或相邻字符形成的组合 JZ、01、J、Z、0、1
相连词的分词组合 针对相邻词段而言,按照词段的先后顺序,按照两两相邻的词段的形式进行组合 JZ01
相连词的模糊组合 也是针对相邻词而言,按照两两相邻的词段的形式,在组合过程中,分别顺序拆解相邻的2个词段,形成的组合 JZ0、JZ01、Z0、Z01
全词组合 包含所有词段的组合 JZ01
本发明发适用范围:
海量的、大文本的检索,特别是由符号和字符组成的有意义编号,如文献编号,标准编号的快速检索。
用户的精确检索,通过精准的标准编号,能迅速得到所需标准。
用户的模糊查询,根据用户的模糊记忆,或不清楚具体的编号或名称的输入,可以通过高级检索得到用户输入相关的标准,同时并智能推荐给用户相关的国际、国内相关的标准。
本发明未经描述的技术特征可以通过或采用现有技术实现,在此不再赘述,当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (3)

1.一种标准检索智能分词方法,其特征在于,包括如下步骤:
(1)对输入的字符串进行规范化预处理;
(2)判断当前输入的字符串是否为编号,如果输入的是编号,转步骤(3),反之,转步骤(4);
(3)判断是否到字符串的末尾,如果不是到字符串末尾,则判断当前字符和上一个字符是否为同一类,同类则直接归并到上一个字符所在的组中,形成词段,否则创建新组,并将新组加入到组链中,并将该字符计入新组,组成另一个词段,循环上述操作直到字符串末尾为止,如果是字符串末尾,则针对生成出来的组链转步骤(5);
(4)采用基于词典的方式处理,形成分词并存储;
(5)根据得到的组链,采用基于记忆规律的分词组合方式,依次利用分词规则形成分词,并且在去重过滤后进行存储。
2.根据权利要求1所述的标准检索智能分词方法,其特征在于,所述步骤(5)的分词规则具体包括简单词的分词组合、相连词的分词组合、相连词的模糊组合和全词组合。
3.根据权利要求1所述的标准检索智能分词方法,其特征在于,所述步骤(1)的规范化预处理包括去除字符串中的首尾空格、回车、换行符、制表符,并将所有小写字母转化成大写字母步骤。
CN201410024472.0A 2013-12-03 2014-01-20 一种标准检索智能分词方法 Expired - Fee Related CN103870537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410024472.0A CN103870537B (zh) 2013-12-03 2014-01-20 一种标准检索智能分词方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201310635606 2013-12-03
CN201310635606.8 2013-12-03
CN2013106356068 2013-12-03
CN201410024472.0A CN103870537B (zh) 2013-12-03 2014-01-20 一种标准检索智能分词方法

Publications (2)

Publication Number Publication Date
CN103870537A CN103870537A (zh) 2014-06-18
CN103870537B true CN103870537B (zh) 2017-02-01

Family

ID=50909067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410024472.0A Expired - Fee Related CN103870537B (zh) 2013-12-03 2014-01-20 一种标准检索智能分词方法

Country Status (1)

Country Link
CN (1) CN103870537B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491440B (zh) * 2017-09-19 2021-07-16 马上消费金融股份有限公司 自然语言分词构造方法及系统、自然语言分类方法及系统
CN110147431A (zh) * 2019-05-05 2019-08-20 中国银行股份有限公司 关键词匹配方法、装置、计算机设备和存储介质
CN111489030B (zh) * 2020-04-09 2021-10-15 河北利至人力资源服务有限公司 一种基于文本分词的离职预测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0283685A2 (en) * 1987-03-27 1988-09-28 International Business Machines Corporation A spelling assistance method for compound words
CN101071420A (zh) * 2007-06-22 2007-11-14 腾讯科技(深圳)有限公司 一种切分索引分词的方法及系统
CN101488127A (zh) * 2005-01-17 2009-07-22 徐文新 位标记字符串检索技术

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0283685A2 (en) * 1987-03-27 1988-09-28 International Business Machines Corporation A spelling assistance method for compound words
CN101488127A (zh) * 2005-01-17 2009-07-22 徐文新 位标记字符串检索技术
CN101071420A (zh) * 2007-06-22 2007-11-14 腾讯科技(深圳)有限公司 一种切分索引分词的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中英文混合字符串切分技术;杨振宇;《电脑知识与技术》;20110531;第7卷(第14期);全文 *

Also Published As

Publication number Publication date
CN103870537A (zh) 2014-06-18

Similar Documents

Publication Publication Date Title
CN106649597B (zh) 一种基于图书内容的图书书后索引自动构建方法
TWI480746B (zh) 使用經結構化之資料儲存器達到較快速全文檢索
CN104537116B (zh) 一种基于标签的图书搜索方法
CN105608218A (zh) 智能问答知识库的建立方法、建立装置及建立系统
CN102789464B (zh) 基于语意识别的自然语言处理方法、装置和系统
CN104199965A (zh) 一种语义信息检索方法
CN103345496B (zh) 多媒体信息检索方法和系统
CN107665217A (zh) 一种用于搜索业务的词汇处理方法及系统
CN103823838A (zh) 一种多格式文档录入并比对的方法
CN102693222A (zh) 基于实例的甲骨文释文机器翻译方法
CN103870537B (zh) 一种标准检索智能分词方法
CN104008186A (zh) 从目标文本中确定关键词的方法和装置
CN110955806B (zh) 一种针对中文文本的字符串匹配方法
CN109885640A (zh) 一种基于α叉索引树的多关键词密文排序检索方法
RU2010145267A (ru) Язык выражений ключевых слов для онлайн поиска и рекламы
CN104636428A (zh) 一种商标推荐方法及装置
CN105808711A (zh) 一种基于文本语义的概念生成模型的系统和方法
CN109857912A (zh) 一种字形识别方法、电子设备及存储介质
CN105843960A (zh) 基于语义树的索引方法和系统
CN105404677A (zh) 一种基于树形结构的检索方法
CN111368539A (zh) 一种热点分析建模方法
CN109885641A (zh) 一种数据库中文全文检索的方法及系统
CN104331400B (zh) 一种蒙古文编码转换方法和装置
CN102385597B (zh) 一种poi的容错搜索方法
CN102609455B (zh) 一种实现汉语同音字检索的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170201

Termination date: 20210120