CN105426539A - 一种基于词典的lucene中文分词方法 - Google Patents

一种基于词典的lucene中文分词方法 Download PDF

Info

Publication number
CN105426539A
CN105426539A CN201510977358.4A CN201510977358A CN105426539A CN 105426539 A CN105426539 A CN 105426539A CN 201510977358 A CN201510977358 A CN 201510977358A CN 105426539 A CN105426539 A CN 105426539A
Authority
CN
China
Prior art keywords
word
dictionary
candidate word
participle
terminological
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510977358.4A
Other languages
English (en)
Other versions
CN105426539B (zh
Inventor
孙健
张祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Tianfu cloud number information technology Co., Ltd
Original Assignee
Chengdu Dianke Xintong Jiexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Dianke Xintong Jiexin Technology Co Ltd filed Critical Chengdu Dianke Xintong Jiexin Technology Co Ltd
Priority to CN201510977358.4A priority Critical patent/CN105426539B/zh
Publication of CN105426539A publication Critical patent/CN105426539A/zh
Application granted granted Critical
Publication of CN105426539B publication Critical patent/CN105426539B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Abstract

本发明公开了一种基于词典的中文分词方法,首先收集语料,构建专业词典,构建方法为:首先去除停用词,将语料划分为文本片段,从文本片段中提取候选词,统计候选词和每个单字在所有文本片段中的出现概率,计算每个候选词中两个汉字的互信息,互信息大于预设的互信息阈值,则保留该候选词,否则删除该候选词,然后对筛选后的候选词进行合并,将合并处理后的候选词采用通用词典进行匹配过滤,将过滤后的候选词加入专业词典;对待分词文本先采用专业词典进行分词,剩下的文本再采用通用词典进行分词。本发明基于统计的方法从语料中抽取专业术语来构建专业词典,通用性较强,采用该专业词典进行分词可以有效满足专业领域的要求。

Description

一种基于词典的lucene中文分词方法
技术领域
本发明属于中文分词技术领域,更为具体地讲,涉及一种基于词典的lucene中文分词方法。
背景技术
中文信息和英文信息有一个明显的差别,英语单词之间用空格分隔;而在中文文本中,词与词之间没有明显的分隔符,中文词汇大多是由两个或者两个以上的汉字组成的,并且语句是连续书写的。这就意味着在对中文文本进行自动分析前,要先将一整句话切割成小的词汇单元,即中文分词。中文分词是当今中文信息处理和检索的一个难点,是研究搜索领域不可避免的一个问题,现在,中文分词已经有了一些成果,并且在很多方面如信息检索有了广泛的应用。
随着互联网的快速发展,搜索引擎的应用越来越广泛,然而普通的商用搜索引擎无法满足特定领域内的搜索要求,其搜索结果含有大量对于使用者无关的信息,无法显示准确的搜索结果。于是需要更加准确,符合某一特定领域的搜索引擎,其中需使用中文分词技术。中文分词技术在索引的过程中至关重要。
Lucene作为目前世界上最流行的开源全文索引系统,已经在许多搜索引擎技术项目中得到了广泛且深入的应用和研究,而其中的语言分析器已经能够支持世界上大多数语言,当然也包括中文汉字。但目前Lucene中只提供中文单字和双字分词机制,而这两种中文分词模块并不能较好支持Lucene中文分析处理。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于词典的lucene中文分词方法,构建专业词典,然后使用通用词典和专业词典进行分词,从而满足专业领域要求。
为实现上述发明目的,本发明基于词典的lucene中文分词方法包括以下步骤:
S1:收集语料,构建专业词典,其具体步骤为:
S1.1:对收集到的语料去除停用词,将语料划分成文本片段;
S1.2:对每个文本片段,提取相邻两个字作为候选词,对候选词按顺序进行编号,统计候选词和每个单字在所有文本片段中的出现概率;
S1.3:计算每个候选词中两个汉字X和Y的互信息M(X,Y):
M ( X , Y ) = lg P ( X , Y ) P ( X ) P ( Y )
其中P(X,Y)是汉字X和Y的相邻共现概率,P(X)、P(Y)分别是汉字X、Y的出现概率;如果候选词的互信息大于预设的互信息阈值,则保留该候选词,否则删除该候选词;
S1.4:在筛选得到的候选词中,如果两个以上候选词的编号连续,并且前一个候选词的末字与后一个候选词的首字相同,则将这些候选词按照顺序进行合并,其他候选词不作任何操作;
S1.5:将合并处理后的候选词与通用词典进行匹配,如果候选词属于通用词典,则将该候选词删除,否则再将候选词与专业词典进行匹配,如果尚未存在于专业词典中,则加入专业词典,否则不作任何操作;
S2:从待分词文本中去除停用词,然后对待分词文本采用专业词典分词,专业词典分词后剩下的文本再采用通用词典进行分词。
进一步地,步骤S1.5中,还需要维护一个非术语词典,对于经通用词典匹配后保留的候选词,采用非术语词典进行匹配,如果候选词属于非术语词典,则将其删除;然后保留的候选词在加入专业词典之前,进行人工检查,如果有非术语候选词则放入非术语词典中,不再加入专业词典。
进一步地,步骤S2中的采用专业词典或通用词典分词采用双向最大匹配算法,其具体方法为:对待分词文本先分别采用正向最大匹配法和逆向最大匹配法进行分词,当正向最大匹配法和逆向最大匹配法分词结果词数不同时,则取分词数量较少的那个分词结果作为最终结果;当分词结果词数相同时,如果分词结果相同,任意取一个分词结果作为最终结果,如果分词结果不同,则将单字较少的那个分词结果作为最终结果。
本发明基于词典的中文分词方法,首先收集语料,构建专业词典,构建方法为:首先去除停用词,将语料划分为文本片段,从文本片段中提取候选词,统计候选词和每个单字在所有文本片段中的出现概率,计算每个候选词中两个汉字的互信息,互信息大于预设的互信息阈值,则保留该候选词,否则删除该候选词,然后对筛选后的候选词进行合并,将合并处理后的候选词采用通用词典进行匹配过滤,将过滤后的候选词加入专业词典;对待分词文本先采用专业词典进行分词,剩下的文本再采用通用词典进行分词。
本发明基于统计的方法从语料中抽取专业术语来构建专业词典,不需要句法、语义上的信息,不局限于某一专门领域,也不依赖任何资源,通用性较强,采用该专业词典进行分词可以有效满足专业领域的要求,提高lucene索引的有效性,使得搜索结果更符合主题搜索引擎的要求。
附图说明
图1是本发明基于词典的lucene中文分词方法的具体实施方式流程图;
图2是构建专业词典的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
本发明基于词典的lucene中文分词方法主要包括两大阶段,一是专业词典的构建,二是文本分词。图1是本发明基于词典的lucene中文分词方法的具体实施方式流程图。如图1所示,本发明基于词典的lucene中文分词方法包括以下步骤:
S101:构建专业词典:
本发明首先需要收集语料,构建专业词典。图2是构建专业词典的流程图。如图2所示,本发明中构建专业词典的具体步骤为:
S201:语料预处理:
首先需要对收集到的语料进行预处理,也就是从语料中去除经过人工收集的停用词,将语料中的每一个句子切分成相对较小的文本片段。停用词主要包含标点符号、代词、语气词、助词、连词等。这些停用词一般没有特殊的意义,经常搭配别的词构成词或短语,且术语一般不会包含这些词,可以用于切分句子。停用词示例:“啊”、“它”、“以及”、“并且”、“咦”、“大多数”、“及时”、“几乎”、“什么”、“我”、“我们”等。
本实施例中,假设语料中的一句话为“中文分词使用统计方法进行词典的构造。”由于段落中有出现频率高、构词能力差的单字词——“的”,所以此句话可以分为两个文本片段:“中文分词使用统计方法进行词典”和“构造”。
S202:概率统计:
对于预处理后的得到的每个文本片段,提取相邻两个字作为候选词,对候选词按顺序进行编号,统计候选词和每个单字在所有文本片段中的出现概率。
本实施例中,待分词文本被划分成了两个部分,因此需要统计“中文”,“文分”,“分词”,“词使”,“使用”,“用统”,“统计”,“计方”,“方法”,“法进”,“进行”,“行词”,“词典”,“构造”和各个单字的出现概率。
S203:候选词筛选:
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能组成一个词,因此字与字相邻出现的频率或概率能够较好的反应词的可信度,对待分词文本中相邻出现的各个字的组合的频度进行统计计算他们的互信息。计算汉字X和Y的互信息M(X,Y),计算公式为:
M ( X , Y ) = lg P ( X , Y ) P ( X ) P ( Y )
其中P(X,Y)是汉字X和Y的相邻共现概率,也就是该候选词的出现概率,P(X)、P(Y)分别是汉字X、Y的出现概率。
互信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可以认为此字组构成了一个词。因此根据步骤S202统计得到的概率计算得到各个候选词中两个汉字的互信息,如果互信息大于预设的互信息阈值,则认为该候选词是词语,保留该候选词,否则不是词语,删除该候选词。本实施例中,设置互信息阈值为5。假定筛选得到的候选词有:“中文”,“文分”,“分词”,“使用”,“用统”,“统计”,“计方”,“方法”,“进行”,“词典”,“构造”。
S204:候选词合并:
在筛选得到的候选词中,如果两个以上候选词的编号连续,并且前一个候选词的末字与后一个候选词的首字相同,则将这些候选词按照顺序进行合并,其他候选词不作任何操作。例如“中文文分分词”合并处理为词语“中文分词”,“统计计方方法”合并处理为“统计方法”,可由“中文分词使用统计方法进行词典”这句话得到词语“中文分词”,“使用”,“统计方法”,“进行”,“词典”。
S205:词语过滤:
将合并处理后的候选词与通用词典进行匹配,如果候选词属于通用词典,则将该候选词删除,不加入专业词典当中,否则再将候选词与专业词典进行匹配,如果尚未存在于专业词典中,则加入专业词典,否则不作任何操作。
对于本实施例中的候选词,发现候选词“利用”,“进行”,“词典”,“构造”这几个词是通用词典中的单词,所以将这几个候选词删除,而保留“中文分词”,“统计方法”这两个候选词。假设此时专业词典中不存在这两个候选词,则将它们加入专业词典。
为了提高专业术语词典的正确率,本发明还提出建立一个非术语词典,对于经通用词典匹配后保留的候选词,采用非术语词典进行匹配,如果候选词属于非术语词典,则将其删除;然后保留的候选词在加入专业词典之前,进行人工检查,如果有非术语候选词则放入非术语词典中,不再加入专业词典。这样可以提高专业术语词典的构造速度。
S102:待分词文本预处理:
对于待分词文本,首先也要进行预处理,即去除停用词。
S103:采用专业词典分词:
对待分词文本采用专业词典分词。本实施例在分词时采用双向最大匹配算法。双向最大匹配算法是将正向最大匹配法得到的分词结果和逆向最大匹配法的到的结果进行比较,从而决定正确的分词方法。正向最大匹配法和逆向最大匹配法是常用的分词方法,其具体步骤在此不再赘述。
中文中90.0%左右的句子,正向最大匹配法和逆向最大匹配法完全重合且正确,只有大概9.0%的句子两种切分方法得到的结果不一样,但其中必有一个是正确的(歧义检测成功),只有不到1.0%的句子,或者正向最大匹配法和逆向最大匹配法的切分虽重合却是错的,或者正向最大匹配法和逆向最大匹配法切分不同但两个都不对(歧义检测失败)。因此在采用双向最大匹配算法时,需要加入一些启发式的规则来对分词结果进行进一步消歧的。
本实施例提出的启发式规则为:当正向最大匹配法和逆向最大匹配法分词结果词数不同时,则取分词数量较少的那个分词结果作为最终结果;当分词结果词数相同时,如果分词结果相同,说明没有歧义,任意取一个分词结果作为最终结果,如果分词结果不同,则将单字较少的那个分词结果作为最终结果。
S104:采用通用词典分词:
对步骤S103中经过专业词典分词后剩下的文本,采用通用词典进行分词,从而得到最终的分词结果。本实施例中,通用词典分词也采用双向最大匹配算法。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (3)

1.一种基于词典的lucene中文分词方法,其特征在于,包括以下步骤:
S1:收集语料,构建专业词典,其具体步骤为:
S1.1:对收集到的语料去除停用词,将语料划分成文本片段;
S1.2:对每个文本片段,提取相邻两个字作为候选词,对候选词按顺序进行编号,统计候选词和每个单字在所有文本片段中的出现概率;
S1.3:计算每个候选词中两个汉字X和Y的互信息M(X,Y):
M ( X , Y ) = lg P ( X , Y ) P ( X ) P ( Y )
其中P(X,Y)是汉字X和Y的相邻共现概率,P(X)、P(Y)分别是汉字X、Y的出现概率;如果候选词的互信息大于预设的互信息阈值,则保留该候选词,否则删除该候选词;
S1.4:在筛选得到的候选词中,如果两个以上候选词的编号连续,并且前一个候选词的末字与后一个候选词的首字相同,则将这些候选词按照顺序进行合并,其他候选词不作任何操作;
S1.5:将合并处理后的候选词与通用词典进行匹配,如果候选词属于通用词典,则将该候选词删除,否则再将候选词与专业词典进行匹配,如果尚未存在于专业词典中,则加入专业词典,否则不作任何操作;
S2:从待分词文本中去除停用词,然后对对待待分词文本采用专业词典分词,专业词典分词后剩下的文本再采用通用词典进行分词。
2.根据权利要求1所述的lucene中文分词方法,其特征在于,所述步骤S1.5中,还需要维护一个非术语词典,对于经通用词典匹配后保留的候选词,采用非术语词典进行匹配,如果候选词属于非术语词典,则将其删除;然后保留的候选词在加入专业词典之前,进行人工检查,如果有非术语候选词则放入非术语词典中,不再加入专业词典。
3.根据权利要求1所述的lucene中文分词方法,其特征在于,所述步骤S2中采用专业词典或通用词典分词采用双向最大匹配算法,其具体方法为:对待分词文本先分别采用正向最大匹配法和逆向最大匹配法进行分词,当正向最大匹配法和逆向最大匹配法分词结果词数不同时,则取分词数量较少的那个分词结果作为最终结果;当分词结果词数相同时,如果分词结果相同,任意取一个分词结果作为最终结果,如果分词结果不同,则将单字较少的那个分词结果作为最终结果。
CN201510977358.4A 2015-12-23 2015-12-23 一种基于词典的lucene中文分词方法 Active CN105426539B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510977358.4A CN105426539B (zh) 2015-12-23 2015-12-23 一种基于词典的lucene中文分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510977358.4A CN105426539B (zh) 2015-12-23 2015-12-23 一种基于词典的lucene中文分词方法

Publications (2)

Publication Number Publication Date
CN105426539A true CN105426539A (zh) 2016-03-23
CN105426539B CN105426539B (zh) 2018-12-18

Family

ID=55504751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510977358.4A Active CN105426539B (zh) 2015-12-23 2015-12-23 一种基于词典的lucene中文分词方法

Country Status (1)

Country Link
CN (1) CN105426539B (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250372A (zh) * 2016-08-17 2016-12-21 国网上海市电力公司 一种用于电力系统的中文电力数据文本挖掘方法
CN106445918A (zh) * 2016-09-26 2017-02-22 深圳市数字城市工程研究中心 一种中文地址处理方法及系统
CN106528524A (zh) * 2016-09-22 2017-03-22 中山大学 一种基于MMseg算法与逐点互信息算法的分词方法
CN106528536A (zh) * 2016-11-14 2017-03-22 北京赛思信安技术股份有限公司 一种基于词典与文法分析的多语种分词方法
CN107203512A (zh) * 2017-06-02 2017-09-26 上海对岸信息科技有限公司 用于从用户的自然语言输入中提取关键元素的方法
CN107451122A (zh) * 2017-08-09 2017-12-08 南京华飞数据技术有限公司 一种基于Lucene的动态n元分词方法
CN108491373A (zh) * 2018-02-01 2018-09-04 北京百度网讯科技有限公司 一种实体识别方法及系统
CN108763212A (zh) * 2018-05-23 2018-11-06 北京神州泰岳软件股份有限公司 一种地址信息提取方法及装置
CN109033082A (zh) * 2018-07-19 2018-12-18 深圳创维数字技术有限公司 语义模型的学习训练方法、装置及计算机可读存储介质
CN109101480A (zh) * 2018-06-14 2018-12-28 华东理工大学 一种企业名称的切分方法、装置及计算机可读存储介质
CN109190124A (zh) * 2018-09-14 2019-01-11 北京字节跳动网络技术有限公司 用于分词的方法和装置
CN109388806A (zh) * 2018-10-26 2019-02-26 北京布本智能科技有限公司 一种基于深度学习及遗忘算法的中文分词方法
CN109408622A (zh) * 2018-10-31 2019-03-01 腾讯科技(深圳)有限公司 语句处理方法及其装置、设备和存储介质
CN109766539A (zh) * 2018-11-30 2019-05-17 平安科技(深圳)有限公司 标准词库分词方法、装置、设备及计算机可读存储介质
CN110059572A (zh) * 2019-03-22 2019-07-26 中国科学院自动化研究所 基于单字匹配的文档图像中文关键词检测方法、系统
CN110209837A (zh) * 2019-05-27 2019-09-06 广西电网有限责任公司 一种装置信息词典的生成方法及计算装置
CN110502737A (zh) * 2018-05-18 2019-11-26 中国医学科学院北京协和医院 一种基于医学专业词典与统计算法的分词方法
CN110502750A (zh) * 2019-08-06 2019-11-26 山东师范大学 中医文本分词过程中的消歧方法、系统、设备及介质
CN110516235A (zh) * 2016-11-23 2019-11-29 上海智臻智能网络科技股份有限公司 新词发现方法、装置、终端及服务器
CN110532551A (zh) * 2019-08-15 2019-12-03 苏州朗动网络科技有限公司 文本关键词自动提取的方法、设备和存储介质
CN110991173A (zh) * 2019-11-29 2020-04-10 支付宝(杭州)信息技术有限公司 一种分词方法及系统
CN111160014A (zh) * 2019-12-03 2020-05-15 北京博瑞彤芸科技股份有限公司 一种智能分词方法
CN111259171A (zh) * 2020-01-15 2020-06-09 青岛聚看云科技有限公司 一种基于分词索引搜索多媒体资源的方法及服务器
CN111950274A (zh) * 2020-07-31 2020-11-17 中国工商银行股份有限公司 一种专业领域语料的中文分词方法及装置
CN112036120A (zh) * 2020-08-31 2020-12-04 上海硕恩网络科技股份有限公司 一种技能短语抽取方法
CN112632969A (zh) * 2020-12-13 2021-04-09 复旦大学 一种增量式行业词典更新方法和系统
CN113010695A (zh) * 2021-04-19 2021-06-22 华北电力大学 一种适用于继电保护装置缺陷分析的专业词典构建方法
CN113486660A (zh) * 2021-06-30 2021-10-08 上海众言网络科技有限公司 适用于多用户自定义字典的中文分词词频方法及装置
CN113609302A (zh) * 2021-06-21 2021-11-05 北京交通大学 基于非结构化数据的铁路事故根因识别系统及识别方法
CN113779990A (zh) * 2021-09-10 2021-12-10 中国联合网络通信集团有限公司 中文分词方法、装置、设备及存储介质
CN116702786A (zh) * 2023-08-04 2023-09-05 山东大学 融合规则和统计特征的中文专业术语抽取方法和系统
CN117034917A (zh) * 2023-10-08 2023-11-10 中国医学科学院医学信息研究所 一种英文文本分词方法、装置和计算机可读介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929902A (zh) * 2012-07-05 2013-02-13 江苏新瑞峰信息科技有限公司 一种基于中文检索的分词方法及装置
CN104699724A (zh) * 2013-12-10 2015-06-10 北京先进数通信息技术股份公司 一种基于Lucene的数据搜索方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929902A (zh) * 2012-07-05 2013-02-13 江苏新瑞峰信息科技有限公司 一种基于中文检索的分词方法及装置
CN104699724A (zh) * 2013-12-10 2015-06-10 北京先进数通信息技术股份公司 一种基于Lucene的数据搜索方法及装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
付敏: "一个改进的中文分词算法及其在Lucene中的应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
徐海: "基于Lucene垂直搜索引擎的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王志嘉: "一种基于Lucene的中文分词的设计与测试", 《信息技术》 *
王鹏: "基于Lucene的中文分词技术研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
肖奕: "地质数据信息服务参考模型及关键技术研究", 《中国优秀博士学位论文全文数据库 信息科技辑》 *
邵星星: "基于Lucene的中文分词技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250372A (zh) * 2016-08-17 2016-12-21 国网上海市电力公司 一种用于电力系统的中文电力数据文本挖掘方法
CN106528524A (zh) * 2016-09-22 2017-03-22 中山大学 一种基于MMseg算法与逐点互信息算法的分词方法
CN106445918B (zh) * 2016-09-26 2019-08-27 深圳市数字城市工程研究中心 一种中文地址处理方法及系统
CN106445918A (zh) * 2016-09-26 2017-02-22 深圳市数字城市工程研究中心 一种中文地址处理方法及系统
CN106528536A (zh) * 2016-11-14 2017-03-22 北京赛思信安技术股份有限公司 一种基于词典与文法分析的多语种分词方法
CN110516235A (zh) * 2016-11-23 2019-11-29 上海智臻智能网络科技股份有限公司 新词发现方法、装置、终端及服务器
CN107203512A (zh) * 2017-06-02 2017-09-26 上海对岸信息科技有限公司 用于从用户的自然语言输入中提取关键元素的方法
CN107203512B (zh) * 2017-06-02 2021-04-23 上海对岸信息科技有限公司 用于从用户的自然语言输入中提取关键元素的方法
CN107451122A (zh) * 2017-08-09 2017-12-08 南京华飞数据技术有限公司 一种基于Lucene的动态n元分词方法
CN107451122B (zh) * 2017-08-09 2020-11-13 南京华飞数据技术有限公司 一种基于Lucene的动态n元分词方法
CN108491373A (zh) * 2018-02-01 2018-09-04 北京百度网讯科技有限公司 一种实体识别方法及系统
CN108491373B (zh) * 2018-02-01 2022-05-27 北京百度网讯科技有限公司 一种实体识别方法及系统
CN110502737B (zh) * 2018-05-18 2023-02-17 中国医学科学院北京协和医院 一种基于医学专业词典与统计算法的分词方法
CN110502737A (zh) * 2018-05-18 2019-11-26 中国医学科学院北京协和医院 一种基于医学专业词典与统计算法的分词方法
CN108763212A (zh) * 2018-05-23 2018-11-06 北京神州泰岳软件股份有限公司 一种地址信息提取方法及装置
CN109101480B (zh) * 2018-06-14 2022-09-06 华东理工大学 一种企业名称的切分方法、装置及计算机可读存储介质
CN109101480A (zh) * 2018-06-14 2018-12-28 华东理工大学 一种企业名称的切分方法、装置及计算机可读存储介质
CN109033082A (zh) * 2018-07-19 2018-12-18 深圳创维数字技术有限公司 语义模型的学习训练方法、装置及计算机可读存储介质
CN109033082B (zh) * 2018-07-19 2022-06-10 深圳创维数字技术有限公司 语义模型的学习训练方法、装置及计算机可读存储介质
CN109190124B (zh) * 2018-09-14 2019-11-26 北京字节跳动网络技术有限公司 用于分词的方法和装置
CN109190124A (zh) * 2018-09-14 2019-01-11 北京字节跳动网络技术有限公司 用于分词的方法和装置
CN109388806A (zh) * 2018-10-26 2019-02-26 北京布本智能科技有限公司 一种基于深度学习及遗忘算法的中文分词方法
CN109408622B (zh) * 2018-10-31 2023-03-10 腾讯科技(深圳)有限公司 语句处理方法及其装置、设备和存储介质
CN109408622A (zh) * 2018-10-31 2019-03-01 腾讯科技(深圳)有限公司 语句处理方法及其装置、设备和存储介质
CN109766539A (zh) * 2018-11-30 2019-05-17 平安科技(深圳)有限公司 标准词库分词方法、装置、设备及计算机可读存储介质
CN110059572A (zh) * 2019-03-22 2019-07-26 中国科学院自动化研究所 基于单字匹配的文档图像中文关键词检测方法、系统
CN110209837B (zh) * 2019-05-27 2022-08-02 广西电网有限责任公司 一种装置信息词典的生成方法及计算装置
CN110209837A (zh) * 2019-05-27 2019-09-06 广西电网有限责任公司 一种装置信息词典的生成方法及计算装置
CN110502750B (zh) * 2019-08-06 2023-08-11 山东师范大学 中医文本分词过程中的消歧方法、系统、设备及介质
CN110502750A (zh) * 2019-08-06 2019-11-26 山东师范大学 中医文本分词过程中的消歧方法、系统、设备及介质
CN110532551A (zh) * 2019-08-15 2019-12-03 苏州朗动网络科技有限公司 文本关键词自动提取的方法、设备和存储介质
CN110991173A (zh) * 2019-11-29 2020-04-10 支付宝(杭州)信息技术有限公司 一种分词方法及系统
CN110991173B (zh) * 2019-11-29 2023-09-29 支付宝(杭州)信息技术有限公司 一种分词方法及系统
CN111160014A (zh) * 2019-12-03 2020-05-15 北京博瑞彤芸科技股份有限公司 一种智能分词方法
CN111160014B (zh) * 2019-12-03 2023-05-16 北京博瑞彤芸科技股份有限公司 一种智能分词方法
CN111259171A (zh) * 2020-01-15 2020-06-09 青岛聚看云科技有限公司 一种基于分词索引搜索多媒体资源的方法及服务器
CN111950274A (zh) * 2020-07-31 2020-11-17 中国工商银行股份有限公司 一种专业领域语料的中文分词方法及装置
CN112036120A (zh) * 2020-08-31 2020-12-04 上海硕恩网络科技股份有限公司 一种技能短语抽取方法
CN112632969A (zh) * 2020-12-13 2021-04-09 复旦大学 一种增量式行业词典更新方法和系统
CN113010695A (zh) * 2021-04-19 2021-06-22 华北电力大学 一种适用于继电保护装置缺陷分析的专业词典构建方法
CN113609302A (zh) * 2021-06-21 2021-11-05 北京交通大学 基于非结构化数据的铁路事故根因识别系统及识别方法
CN113609302B (zh) * 2021-06-21 2024-03-22 北京交通大学 基于非结构化数据的铁路事故根因识别系统及识别方法
CN113486660A (zh) * 2021-06-30 2021-10-08 上海众言网络科技有限公司 适用于多用户自定义字典的中文分词词频方法及装置
CN113779990A (zh) * 2021-09-10 2021-12-10 中国联合网络通信集团有限公司 中文分词方法、装置、设备及存储介质
CN113779990B (zh) * 2021-09-10 2023-10-31 中国联合网络通信集团有限公司 中文分词方法、装置、设备及存储介质
CN116702786A (zh) * 2023-08-04 2023-09-05 山东大学 融合规则和统计特征的中文专业术语抽取方法和系统
CN116702786B (zh) * 2023-08-04 2023-11-17 山东大学 融合规则和统计特征的中文专业术语抽取方法和系统
CN117034917A (zh) * 2023-10-08 2023-11-10 中国医学科学院医学信息研究所 一种英文文本分词方法、装置和计算机可读介质
CN117034917B (zh) * 2023-10-08 2023-12-22 中国医学科学院医学信息研究所 一种英文文本分词方法、装置和计算机可读介质

Also Published As

Publication number Publication date
CN105426539B (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN105426539A (zh) 一种基于词典的lucene中文分词方法
CN107832229A (zh) 一种基于nlp的系统测试用例自动生成方法
CN102662952A (zh) 一种基于层次的中文文本并行数据挖掘方法
CN114065758B (zh) 一种基于超图随机游走的文档关键词抽取方法
CN103246644B (zh) 一种网络舆情信息处理方法和装置
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN102622338A (zh) 一种短文本间语义距离的计算机辅助计算方法
CN106569993A (zh) 一种挖掘领域术语间上下位关系的方法及装置
CN103514213A (zh) 词语提取方法及装置
CN102609427A (zh) 舆情垂直搜索分析系统及方法
CN102279890A (zh) 基于微博的情感词提取收集方法
CN105320646A (zh) 一种基于增量聚类的新闻话题挖掘方法及其装置
CN102253930A (zh) 一种文本翻译的方法及装置
CN106528524A (zh) 一种基于MMseg算法与逐点互信息算法的分词方法
CN105808711A (zh) 一种基于文本语义的概念生成模型的系统和方法
CN103365974A (zh) 一种基于相关词主题的语义消歧方法和系统
Joshi et al. Contextualized representations using textual encyclopedic knowledge
CN103324626A (zh) 一种建立多粒度词典的方法、分词的方法及其装置
Ye et al. Unknown Chinese word extraction based on variety of overlapping strings
CN104133812A (zh) 一种面向用户查询意图的汉语句子相似度分层计算方法及装置
CN101794308B (zh) 一种面向有意义串挖掘的重复串提取方法及装置
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN103150331A (zh) 一种提供搜索引擎标签的方法和装置
Bao et al. Chunk-based chinese spelling check with global optimization
CN103744837A (zh) 基于关键词抽取的多文本对照方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 610000 Chengdu Research Institute, University of Electronic Science and technology, Southwest Airlines Development Zone, Shuangliu, Chengdu, Sichuan

Applicant after: Chengdu cloud Future Information Science Co., Ltd.

Address before: 610041 Shuangliu County Chengdu Southwest Airlines Economic Development Zone, Sichuan, China

Applicant before: CHENGDU DIANKE XINTONG JIEXIN TECHNOLOGY CO., LTD.

CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Sun Jian

Inventor after: Lu Chuan

Inventor after: Zhang Xiang

Inventor before: Sun Jian

Inventor before: Zhang Xiang

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200617

Address after: 610000 Sichuan city of Chengdu province Tianfu Zheng Xing Shun Shing Street No. 172

Patentee after: Chengdu Tianfu cloud number information technology Co., Ltd

Address before: Chengdu Research Institute of Electronic Science and Technology University, Southwest Airport Economic Development Zone, Shuangliu District

Patentee before: CHENGDU YUNSHU FUTURE INFORMATION SCIENCE Co.,Ltd.