CN108009153A - 一种基于搜索语句切词结果的搜索方法及系统 - Google Patents

一种基于搜索语句切词结果的搜索方法及系统 Download PDF

Info

Publication number
CN108009153A
CN108009153A CN201711290902.3A CN201711290902A CN108009153A CN 108009153 A CN108009153 A CN 108009153A CN 201711290902 A CN201711290902 A CN 201711290902A CN 108009153 A CN108009153 A CN 108009153A
Authority
CN
China
Prior art keywords
cutting
word
result
dictionary
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711290902.3A
Other languages
English (en)
Inventor
王兵权
喻波
王志海
魏效征
牛立伟
曹石勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wondersoft Technology Co Ltd
Original Assignee
Beijing Wondersoft Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wondersoft Technology Co Ltd filed Critical Beijing Wondersoft Technology Co Ltd
Priority to CN201711290902.3A priority Critical patent/CN108009153A/zh
Publication of CN108009153A publication Critical patent/CN108009153A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于搜索语句切词结果的搜索方法及系统,该方法包括:接收搜索框内输入的搜索语句;查找所述搜素语句中的停用词;对停用词之前的语句利用Trie树字典进行正向切分和逆向切分;判断正向切分和逆向切分结果是否相同,如果是,则将所述正向切分结果或逆向切分结果作为最终切分结果,否则对正向切分结果和逆向切分结果进行交叉歧义选择得到最终切分结果;采用该最终切分结果作为搜索语句的关键词进行搜索。通过本发明的技术方案,可以提高切词的准确性,使得搜索结果更为准确。

Description

一种基于搜索语句切词结果的搜索方法及系统
技术领域
本发明涉及数据搜索领域,具体涉及一种基于搜索语句切词结果的搜索方法及系统。
背景技术
GB2312编码是第一个汉字编码国家标准,由中国国家标准总局1980年发布,1981年5月1日开始使用。GB2312编码共收录汉字6763个,其中一级汉字3755个,二级汉字3008个。
中文分词是指将中文文档里的汉字序列切分为一个个单独的词。
停止词(stopword)是指在自然语言环境中出现频率很高,但对于与文档的语义和分类没有实际影响的词汇。例如英文中的“the”、“and”、“of”等,中文中的“这”、“的”、“了”、“至于”等。
字典树,又称单词查找树,Trie树,是一种树形结构,哈希表的一个变种。用于统计,排序和保存大量的字符串。优点就是利用公共的前缀来节约存储空间。在这举个简单的例子:比如说我们想储存3个单词,中国、中国人,中国人民。如果只是单纯的按照以前的字符数组存储的思路来存储的话,那么我们需要定义三个字符串数组。但是如果我们用字典树的话,只需要定义一个树就可以了。在这里我们就可以看到字典树的优势了,例如中作为父节点,国作为中的子节点,人作为国的子节点,民作为人的子节点,每个节点有个标志可以表明是否构成词语。
词性包括产品词、品牌词、地区词、分类词等。
词库是指将词和词性的组合存储到文件中。
倒排索引是实现“单词-文档矩阵”的一种具体存储形式即某个词在哪些文档中存在。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。
为了识别用户搜索词中的产品词,快速准确获取该产品词最相关的文档集合,通过中文切词实现。现有技术中,MMSEG和结巴分词主要针对utf-8编码切词的,且词性方面不受控制。
针对大量产品商机中快速准确获取用户搜索词中产品词相关的商机需求,为了实现用户快速准确高效的搜索体验。迫切需要从词库来源、切词方法两个方面的技术问题着手生成解决方案。
发明内容
为解决上述技术问题,本发明提供了一种基于搜索语句切词结果的搜索方法,其特征在于,该方法包括以下步骤:
1)接收搜索框内输入的搜索语句;
2)查找所述搜素语句中的所有停用词,并将停用词分割的各个语句作为单独的一个切分单位,如果没有找到停用词,则将整个搜索语句作为切分单元,将所有的切分单元进行存储;
3)利用Trie树字典对所有切分单元进行正向切分和逆向切分,切分完成后,分别存储正向切分结果和逆向切分结果;
4)判断所述正向切分结果和逆向切分结果是否相同,如果是,则将所述正向切分结果或逆向切分结果作为最终切分结果,跳转到步骤6),否则跳转到步骤5);
5)对正向切分结果和逆向切分结果进行交叉歧义选择得到最终切分结果;
6)采用该最终切分结果作为搜索语句的关键词进行搜索。
根据本发明的实施例,优选的,所述步骤1)之前,包括以下步骤:
根据词库对GB2312字库中的每一个字符构建Trie树,形成Trie树字典。
根据本发明的实施例,优选的,每个Trie树节点包括:字符本身,当前节点是否构成词的标志,数组成员个数,词性值,指向数组成员的指针。
根据本发明的实施例,优选的,所述词库来自搜狗词库、中华词典以及通过爬虫技术在淘宝、京东搜索获取的推荐词;
对于词库的词语,通过爬虫技术在百度百科中校验是否构成词语。
根据本发明的实施例,优选的,所述词性值包括:产品词,品牌词,地区词。
根据本发明的实施例,优选的,所述交叉歧义选择包括至少以下选择标准之一:
长词个数多者优先、二元词个数多者优先、单字个数少者优先、地区词取正切、词个数少者优先、产品词个数多者优先或三字词多者优先。
为解决上述技术问题,本发明提供了一种基于搜索语句切词结果的搜索系统,其特征在于,该系统包括:
搜索语句接收模块,接收搜索框内输入的搜索语句;
停用词查找模块,查找所述搜素语句中的所有停用词,并将停用词分割的各个语句作为单独的一个切分单位,如果没有找到停用词,则将整个搜索语句作为切分单元,将所有的切分单元进行存储;
语句切分模块,利用Trie树字典对所有切分单元进行正向切分和逆向切分,切分完成后,分别存储正向切分结果和逆向切分结果;
切分结果判断模块,判断所述正向切分结果和逆向切分结果是否相同;
切分结果确定模块,如果正向切分和逆向切分结果,则将所述正向切分结果或逆向切分结果作为最终切分结果,对正向切分结果和逆向切分结果进行交叉歧义选择得到最终切分结果;
搜索结果输出模块,采用该最终切分结果作为搜索语句的关键词进行搜索,输出搜索结果。
根据本发明的实施例,优选的,该系统还包括:
字典构建模块,根据词库对GB2312字库中的每一个字符构建Trie树,形成Trie树字典。
根据本发明的实施例,优选的,每个Trie树节点包括:字符本身,当前节点是否构成词的标志,数组成员个数,词性值,指向数组成员的指针。
根据本发明的实施例,优选的,所述词库来自搜狗词库、中华词典以及通过爬虫技术在淘宝、京东搜索获取的推荐词;
对于词库的词语,通过爬虫技术在百度百科中校验是否构成词语。
根据本发明的实施例,优选的,所述词性值包括:产品词,品牌词,地区词。
根据本发明的实施例,优选的,所述交叉歧义选择包括至少以下选择标准之一:
长词个数多者优先、二元词个数多者优先、单字个数少者优先、地区词取正切、词个数少者优先、产品词个数多者优先或三字词多者优先。
为解决上述技术问题,本发明提供了一种计算机可读存储介质,该介质存储有计算机程序指令,通过执行该计算机程序指令,实现上述之一所述的方法。
通过本发明的技术方案取得了以下技术效果:
能够识别用户搜索词中的产品词、地区词等词性,快速准确获取该产品词最相关的文档集合。
附图说明
图1是本发明的切词处理方法流程图;
图2是本发明Trie树节点示意图;
图3是本发明的切词处理系统构成图。
具体实施方式
本发明提出的基于GB2312中文切词算法获取词性的方法,针对大量产品商机中快速准确获取用户搜索词中产品词相关的商机需求,实现了用户快速准确高效的搜索体验。本方法从词库来源、切词方法两个方面的技术问题着手生成解决方案。
首先,词库构成,来自搜狗词库,中华词典,以及通过爬虫技术在淘宝、京东搜索获取的推荐词。词库校验,通过爬虫技术在百度百科中校验是否构成词。
其次,词库词性,首先的地区词可以直接使用搜狗提供的地区词库,其次是产品词通过爬虫技术在淘宝搜索看是否有推荐词。
最后,切词算法实现是建立在我们词库基础上的。首先利用词库生成Trie树结构存储到文件中。其次加载Trie树文件到内存中实现对用户输入文档进行切词标记词性。
<切词处理方法>
本发明提出的中文切词算法获取词性处理过程如图1所示,其中包括了词库构建Trie树,正向逆向切词,交叉歧义选择。下面对这3个处理步骤逐一进行介绍:
(1)词库构建Trie树
《信息交换用汉字编码字符集》是由中国国家标准总局1980年发布,1981年5月1日开始实施的一套国家标准,标准号是GB 2312—1980。
GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换,通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。
基本集共收入汉字6763个和非汉字图形字符682个。整个字符集分成94个区,每区有94个位。每个区位上只有一个字符,因此可用所在的区和位来对汉字进行编码,称为区位码。
把换算成十六进制的区位码加上2020H,就得到国标码。国标码加上8080H,就得到常用的计算机机内码。1995年又颁布了《汉字编码扩展规范》(GBK)。GBK与GB 2312—1980国家标准所对应的内码标准兼容,同时在字汇一级支持ISO/IEC10646—1和GB 13000—1的全部中、日、韩(CJK)汉字,共计20902字。
首先,GB2312有6768个字符,针对每个字符构建一个Trie树,可以定义一个拥有6763个成员的数组,每个成员即一个Trie树。
GB2312编码中汉字区码的十进制是从176到247,位码是从161到255.之所以存储了6763小于82*94=6768,是因为在区码为215,位码为250-254之间共五个编码没有汉字编码,所以字符有6768个,而汉字为6768-5=6763个。
其次,我们在切词时候希望通过某个字符快速得到其对应的Trie树,因此需要找到字符对应的编码和数组下标之间的转换关系。
举例说明:例如unsigned char*sUnit存储某个字符,计算其对应的数组下标nIndex值。如果*sUnit<0表示当前字符是汉字则nIndex=(*sUnit-176)*94+(*(sUnit+1)-161)+256;否则表示当前字符是英文字符则nIndex=*sUnit。公式计算以及中英文判断详情参考gb2312编码规则。
最后,我们的Trie树节点设计如下,一个节点成员为:字符,是否构成词,其后的下个词有几个,词性值,指向其后词的数组指针。这个字典树即就是读取字典文件构成字典树结构的。
True/False表示从根节点到当前节点是否构成词;
数字表示其pnext指针指向的数组成员个数;
weight即表示词性:例如产品词,品牌词,地区词等。
构建Trie树时候,我们是从有序的词库文件中依次加载构建Trie树的。
(2)正向逆向切词
正向字典树:即加载词库构成字典树时候从左到右读取词的;
逆向字典树:即加载词库构成字典树时候从右到左读取词的;
正向切分:即利用我们的正向字典树对一句话从左到右进行切词。
逆向切分:即利用我们的逆向字典树对一句话从右向左进行切词。
例如:铝合金接力棒,参见图2。
首先原子切分为:铝、合、金、接、力、棒。
正向切分:铝合金、接力棒。
逆向切分:铝,合金,接力,棒。
从上面结果可以看出切词结果不一致,因此需要后续交叉歧义判断。
不管是正向切分逆向切分,均利用原子切词结果的。首先通过字符‘铝’获取对应的Trie树,看‘铝’节点是否构成词,不构成词则看其pnext是否为空,不为空则在pnext指向的数组中二分查找得到‘合’字符,再看是否构成词。根据权值决定是否继续做上面逻辑。
其中,11000000表示既是产品词又是品牌词;10000001表示其他词性。10000000表示产品词,01000000表示品牌词。
(3)交叉歧义选择
即选择正向切分结果还是逆向切分结果:
1,长词个数多者优先,例如字符数目大于5个。
2,二元词个数多者优先,例如:桉木芯,桉木是词,木芯也是词。
3,单字个数少者优先。
4,地区词取正切。
5,词个数少者优先。
6,产品词个数多者优先。
7,三字词多者优先。
以上主要针对中文切词方法。
<切词处理系统>
根据图3,本发明公开了一种基于搜索语句切词结果的搜索系统,该系统包括:
搜索语句接收模块,接收搜索框内输入的搜索语句;
停用词查找模块,查找所述搜素语句中的所有停用词,并将停用词分割的各个语句作为单独的一个切分单位,如果没有找到停用词,则将整个搜索语句作为切分单元,将所有的切分单元进行存储;
语句切分模块,利用Trie树字典对所有切分单元进行正向切分和逆向切分,切分完成后,分别存储正向切分结果和逆向切分结果;
切分结果判断模块,判断所述正向切分结果和逆向切分结果是否相同;
切分结果确定模块,如果正向切分和逆向切分结果,则将所述正向切分结果或逆向切分结果作为最终切分结果,对正向切分结果和逆向切分结果进行交叉歧义选择得到最终切分结果;
搜索结果输出模块,采用该最终切分结果作为搜索语句的关键词进行搜索,输出搜索结果。
优选的,该系统还包括:
字典构建模块,根据词库对GB2312字库中的每一个字符构建Trie树,形成Trie树字典。
根据本发明的实施例,优选的,每个Trie树节点包括:字符本身,当前节点是否构成词的标志,数组成员个数,词性值,指向数组成员的指针。
优选的,所述词库来自搜狗词库、中华词典以及通过爬虫技术在淘宝、京东搜索获取的推荐词;
对于词库的词语,通过爬虫技术在百度百科中校验是否构成词语。
优选的,所述词性值包括:产品词,品牌词,地区词。
优选的,所述交叉歧义选择包括至少以下选择标准之一:
长词个数多者优先、二元词个数多者优先、单字个数少者优先、地区词取正切、词个数少者优先、产品词个数多者优先或三字词多者优先。
为解决上述技术问题,本发明提供了一种计算机可读存储介质,该介质存储有计算机程序指令,通过执行该计算机程序指令,实现上述之一所述的方法。
该可读存储介质可以采用FLASH闪存,固态硬盘SSD,CD-ROM/DVD-ROM,磁盘,普通硬盘,易失性存储器等,在此仅为举例,不对其具体保护范围做限定。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换以及改进等,均应保护在本发明的保护范围之内。

Claims (13)

1.一种基于搜索语句切词结果的搜索方法,其特征在于,该方法包括以下步骤:
1)接收搜索框内输入的搜索语句;
2)查找所述搜素语句中的所有停用词,并将停用词分割的各个语句作为单独的一个切分单位,如果没有找到停用词,则将整个搜索语句作为切分单元,将所有的切分单元进行存储;
3)利用Trie树字典对所有切分单元进行正向切分和逆向切分,切分完成后,分别存储正向切分结果和逆向切分结果;
4)判断所述正向切分结果和逆向切分结果是否相同,如果是,则将所述正向切分结果或逆向切分结果作为最终切分结果,跳转到步骤6),否则跳转到步骤5);
5)对正向切分结果和逆向切分结果进行交叉歧义选择得到最终切分结果;
6)采用该最终切分结果作为搜索语句的关键词进行搜索。
2.根据权利要求1所述的方法,所述步骤1)之前,包括以下步骤:
根据词库对GB2312字库中的每一个字符构建Trie树,形成Trie树字典。
3.根据权利要求2所述的方法,每个Trie树节点包括以下成员:字符本身,当前节点是否构成词的标志,数组成员个数,词性值,指向数组成员的指针。
4.根据权利要求2所述的方法,所述词库来自搜狗词库、中华词典以及通过爬虫技术在淘宝、京东搜索获取的推荐词;
对于词库的词语,通过爬虫技术在百度百科中校验是否构成词语。
5.根据权利要求3所述的方法,所述词性值包括:产品词,品牌词,地区词。
6.根据权利要求1-5之一所述的方法,所述交叉歧义选择包括至少以下选择标准之一:
长词个数多者优先、二元词个数多者优先、单字个数少者优先、地区词取正切、词个数少者优先、产品词个数多者优先或三字词多者优先。
7.一种基于搜索语句切词结果的搜索系统,其特征在于,该系统包括:
搜索语句接收模块,接收搜索框内输入的搜索语句;
停用词查找模块,查找所述搜素语句中的所有停用词,并将停用词分割的各个语句作为单独的一个切分单位,如果没有找到停用词,则将整个搜索语句作为切分单元,将所有的切分单元进行存储;
语句切分模块,利用Trie树字典对所有切分单元进行正向切分和逆向切分,切分完成后,分别存储正向切分结果和逆向切分结果;
切分结果判断模块,判断所述正向切分结果和逆向切分结果是否相同;
切分结果确定模块,如果正向切分和逆向切分结果,则将所述正向切分结果或逆向切分结果作为最终切分结果,对正向切分结果和逆向切分结果进行交叉歧义选择得到最终切分结果;
搜索结果输出模块,采用该最终切分结果作为搜索语句的关键词进行搜索,输出搜索结果。
8.根据权利要求7所述的系统,该系统还包括:
字典构建模块,根据词库对GB2312字库中的每一个字符构建Trie树,形成Trie树字典。
9.根据权利要求8所述的系统,每个Trie树节点包括:字符本身,当前节点是否构成词的标志,数组成员个数,词性值,指向数组成员的指针。
10.根据权利要求8所述的系统,所述词库来自搜狗词库、中华词典以及通过爬虫技术在淘宝、京东搜索获取的推荐词;
对于词库的词语,通过爬虫技术在百度百科中校验是否构成词语。
11.根据权利要求9所述的系统,所述词性值包括:产品词,品牌词,地区词。
12.根据权利要求7-11之一所述的系统,所述交叉歧义选择包括至少以下选择标准之一:长词个数多者优先、二元词个数多者优先、单字个数少者优先、地区词取正切、词个数少者优先、产品词个数多者优先或三字词多者优先。
13.一种计算机可读存储介质,该介质存储有计算机程序指令,通过执行该计算机程序指令,实现权利要求1-6之一所述的方法。
CN201711290902.3A 2017-12-08 2017-12-08 一种基于搜索语句切词结果的搜索方法及系统 Pending CN108009153A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711290902.3A CN108009153A (zh) 2017-12-08 2017-12-08 一种基于搜索语句切词结果的搜索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711290902.3A CN108009153A (zh) 2017-12-08 2017-12-08 一种基于搜索语句切词结果的搜索方法及系统

Publications (1)

Publication Number Publication Date
CN108009153A true CN108009153A (zh) 2018-05-08

Family

ID=62057203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711290902.3A Pending CN108009153A (zh) 2017-12-08 2017-12-08 一种基于搜索语句切词结果的搜索方法及系统

Country Status (1)

Country Link
CN (1) CN108009153A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472020A (zh) * 2018-10-11 2019-03-15 重庆邮电大学 一种特征对齐中文分词方法
CN111552780A (zh) * 2020-04-29 2020-08-18 微医云(杭州)控股有限公司 医用场景的搜索处理方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071420A (zh) * 2007-06-22 2007-11-14 腾讯科技(深圳)有限公司 一种切分索引分词的方法及系统
CN102915299A (zh) * 2012-10-23 2013-02-06 海信集团有限公司 一种分词方法及装置
CN103593338A (zh) * 2013-11-15 2014-02-19 北京锐安科技有限公司 一种信息处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071420A (zh) * 2007-06-22 2007-11-14 腾讯科技(深圳)有限公司 一种切分索引分词的方法及系统
CN102915299A (zh) * 2012-10-23 2013-02-06 海信集团有限公司 一种分词方法及装置
CN103593338A (zh) * 2013-11-15 2014-02-19 北京锐安科技有限公司 一种信息处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHINALINUXZEND: "中文分词中的trie检索树实现", 《CSDN博客-HTTPS://BLOG.CSDN.NET/CHINALINUXZEND/ARTICLE/DETAILS/2291129?UTM_SOURCE=BLOGXGWZ3》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472020A (zh) * 2018-10-11 2019-03-15 重庆邮电大学 一种特征对齐中文分词方法
CN109472020B (zh) * 2018-10-11 2022-07-01 重庆邮电大学 一种特征对齐中文分词方法
CN111552780A (zh) * 2020-04-29 2020-08-18 微医云(杭州)控股有限公司 医用场景的搜索处理方法、装置、存储介质及电子设备
CN111552780B (zh) * 2020-04-29 2023-09-29 微医云(杭州)控股有限公司 医用场景的搜索处理方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
US8171029B2 (en) Automatic generation of ontologies using word affinities
CN102479191B (zh) 提供多粒度分词结果的方法及其装置
US6873986B2 (en) Method and system for mapping strings for comparison
US6470347B1 (en) Method, system, program, and data structure for a dense array storing character strings
US7680333B2 (en) System and method for binary persistence format for a recognition result lattice
US5655129A (en) Character-string retrieval system and method
KR101394723B1 (ko) 문서 내의 목록들의 재구성
US10031839B2 (en) Constraint extraction from natural language text for test data generation
CN106909575B (zh) 文本聚类方法和装置
JP6447161B2 (ja) 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法
US20090024616A1 (en) Content retrieving device and retrieving method
CN106484797A (zh) 基于稀疏学习的突发事件摘要抽取方法
TWI604318B (zh) 資料排序方法
US20140214854A1 (en) Extracting method, computer product, extracting system, information generating method, and information contents
CN109800408A (zh) 词典数据存储方法和装置、基于词典的分词方法和装置
JP6186198B2 (ja) 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム
CN108009153A (zh) 一种基于搜索语句切词结果的搜索方法及系统
KR101379128B1 (ko) 사전 생성 장치, 사전 생성 방법 및 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능 기록 매체
JP2010198425A (ja) 文書管理方法、装置
US20100211534A1 (en) Efficient computation of ontology affinity matrices
JP2014225158A (ja) 文書要約装置、方法、及びプログラム
CN114757172A (zh) 一种基于段落区间划分的篇章级合同抽取方法
CN106484768B (zh) 文本内容显著性区域的局部特征抽取方法及系统
CN110598209A (zh) 用于提取关键词的方法、系统及存储介质
Mansour et al. Dictionary based optimization for adaptive compression techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180508

RJ01 Rejection of invention patent application after publication