CN103309852A - 一种基于统计和规则的特定领域的合成词发现方法 - Google Patents
一种基于统计和规则的特定领域的合成词发现方法 Download PDFInfo
- Publication number
- CN103309852A CN103309852A CN2013102378833A CN201310237883A CN103309852A CN 103309852 A CN103309852 A CN 103309852A CN 2013102378833 A CN2013102378833 A CN 2013102378833A CN 201310237883 A CN201310237883 A CN 201310237883A CN 103309852 A CN103309852 A CN 103309852A
- Authority
- CN
- China
- Prior art keywords
- word
- compound
- rule
- words
- atom
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明属于计算机自然语言处理领域,涉及一种基于统计和规则的特定领域的合成词发现方法。其步骤包括:利用分词系统分词和词性标注,遍历分词结果利用停用词和构词规则过滤,遍历生成原子词的有向图,利用深度遍历排列组合可能的合成词组合并用统计指标和构词规则同时约束,生成合成词候选集供人工筛选,导入合成词进入字典文件供以后使用。本发明的优点有:建立了原子词的有向图,利用深度遍历自动探寻合成词的边界,可以识别出任意长度的合成词;构词规则便于定制和扩展,有良好的移植性;同时具有较高的准确率和召回率,提高汉语分词的准确度;生成的合成词能够更为精确的概念,这也为中文信息处理的深入研究奠定良好的基础。
Description
技术领域
本发明属于计算机自然语言处理领域,涉及一种基于统计和规则的特定领域的合成词发现方法。
背景技术
现有常规的中文分词系统已经比较成熟,可以基本满足中文分词的普通需求,但是对于特定领域的合成词的分词能力还有待加强。例如“跨站脚本”,“栈溢出”,“拒绝服务”等等,这些词语在信息安全领域可以看作是一个词语,但是经过一般的分词系统处理的结果如下:“跨/v 站/v 脚本/n”,“栈/ng 溢出/v”,“拒绝/vd 服务/v”。分词结果为一个个单独的词语,这样的分词结果往往把特定领域内的领域词汇拆分为若干个单词,使原有词串或短语失去了其内含语义。例如“竞争条件”,在信息安全领域内指“多个进程并发访问和操作同一数据且执行结果与访问的特定顺序有关”,而该词串的原子分词结果为“竞争”、“条件”,这样的分词结果使其丧失了这个短语在原来语言环境下的语义。
N-gram(N元语法)是计算语言学中经常使用的统计模型,其基本思想是:一个单词的出现与其上下文环境中出现的单词密切相关,第n 个词的出现与其前n -1 个词相关,在通常的应用环境中n取2或者3,即只考虑相邻的两个或三个原子词所得到的语法和数据信息,对于一些较长的专业词汇的识别还无能为力,而且由于使用不同的分词系统初次切分领域文本,可能同一个合成词可能会被分为不同长度的原子词词串,这样N-gram模型中n的取值会更加难以确定。由此可见,现有的通用的分词技术都没有能很好的解决特定领域内的合成词识别的问题。
发明内容
本发明的目的在于,提出一种基于统计和规则的特定领域的合成词发现方法,从而解决现有的通用的分词技术无法很好的解决特定领域内的合成词识别的问题。
为实现上述发明目的,本发明的技术方案为:
一种基于统计和规则的特定领域的合成词发现方法,其步骤为:
A. 利用现有的分词系统对领域文本进行原子词切分和词性标注;
B. 利用停用词和构词规则过滤,删除不能组成合成词的原子词;
C. 正向遍历处理后的原子词,构造包含原子词组合关系的有向图,有向图记为G:<V,E>,其中V指文本中的原子词集,E是与V对应的原子词相邻的原子词构成的集合;
D. 利用深度遍历算法搜索有向图,找出所有可能的合成词组合,同时利用统计指标和构词规则判断成词条件,生成合成词候选集;
E. 对合成词候选集进行人工筛选后的词表导入分词系统,固化为系统字典文件。
以下是本发明进一步的技术方案:
优选的,步骤B中所述的停用词来源于多个汉字组成的停用词表,该表作为txt文本文件存储在计算机硬盘存储器上,使用时直接读入内存调用。
优选的,步骤D中所述的统计指标包括词频,互信息,置信度。
优选的,所述词频指单词在文本中出现的次数。
优选的,所述的互信息指对训练文本中相邻出现的各个字之间组合的频度进行统计,计算出相邻字出现的频率,用这个频率与字单独出现的频率进行比较,计算出汉字之间的互信息,进而判断该字串是否组成词语;
对有序汉字串AB 中汉字A 、B 之间的互信息定义为:
其中, P( AB) 为汉字串AB 出现的概率, P( A)为汉字A 出现的概率, P( B) 为汉字B 出现的概率;假定它们在语料库中出现的次数分别计为n ( A) 、n ( B) 、n ( AB) , n 是统计语料库中的词频总数;则有:P( A , B) = n ( AB) / n , P( A) = n ( A) / n , P( B) =n ( B) / n 。
优选的,所述的置信度是指,设定恰当的置信区间可以在遵循最长匹配原则的同时区分出较短的但的确有意义的合成词;对于长词串A和短词串B,且B是A的子集,则A与B的置信度的定义如下:
其中n(B)是词串B出现的次数,n(A)是词串A出现的次数,C(A,B)说明出现B的时候,有C(A,B)的可能B是A的一部分。
优选的,步骤B中所述的构词规则包括,
规则1:数词,代词,介词,助词,虚词,连词等词性不组成合成词;
规则2:数词后跟着的单字词或名词不组成合成词;
规则3:已经拥有完整意义的词不能组成合成词;
规则4:有的词只能做词首;
规则5:有的词只能做词尾;
规则6:合成词中至少含有一个动词、名词或名词性成分;
规则7:合成词最后一个词为动词、名词或名词性成分。
优选的,步骤A中所述的分词系统采用的是ICTCLAS4J版本,可以直接部署在电脑上或通过编译器调用接口执行分词操作。
优选的,步骤A中所述的领域文本为txt、html、pdf或doc格式的文件,存储在硬盘的固定位置,其中保存的是中英文字符。
优选的,步骤D中所述的生成的合成词候选集的存储过程将其固化在硬盘上,通过保存为dic文件或是存储到数据库中。
本发明的有益效果主要有:
针对特定领域分词的技术难点,本发明利用数据挖掘原理,提出基于关联规则算法和语言学知识的特定领域的合成词的词汇表生成技术。语料通过现有分词系统的常规处理后,各个词语的关系相对明朗,这为兼具严格性和灵活性的关联规则挖掘提供了很好的支持。因此采用关联关系挖掘,能有效的发现各个词语组合成词的条件,能够不受分词字典的限制,自动地分析识别出特定领域的合成词。
通过本发明的方法,可以从特定领域的语料库中发现新的合成词,从而可以丰富人类语言知识,如词典,帮助解决一些歧义切分的问题,提高汉语分词的准确度;另外合成词常常表达的是更为精确的概念,这也为中文信息处理的深入研究奠定良好的基础。
本发明建立了原子词关系的有向图,利用深度遍历算法自动探寻合成词的边界,在遍历的同时计算合成词统计规律和构词规则,从而在很多情况下可以提前终止遍历,减少盲目的深度搜寻,大大降低了CPU和内存时空开销。
单纯的统计方法对于领域文本的选择和统计公式的制订有极大的依赖性,难以达到很高的准确度。在统计结果的基础上,加入适当的知识和规则,可以更为详尽地描述汉语词语在构词和使用过程中的个性特点,从而能够提高单纯基于统计的生成合成词的效果。经过实验本发明具有较高的准确率和召回率。
附图说明
图1为本发明的结构图;
图2为本发明的流程图;
图3为图2中方框1001的处理流程图;
图4为图2中方框1005利用停用词和构词规则过滤原子词的一个实施例示意图;
图5为图2中方框1009生成原子词有向图的一个实施例示意图;
图6为图2中方框1013的处理流程图。
具体实施方式
结合附图和实施例对本发明作进一步说明如下:
实施例1:
如附图1所示为本发明的结构图,一种基于统计和规则的特定领域的合成词发现方法,其步骤为:
A. 利用现有的分词系统对领域文本进行原子词切分和词性标注;
B. 利用停用词和构词规则过滤,删除不能组成合成词的原子词;
C. 正向遍历处理后的原子词,构造包含原子词组合关系的有向图,有向图记为G:<V,E>,其中V指文本中的原子词集,E是与V对应的原子词相邻的原子词构成的集合;
D. 利用深度遍历算法搜索有向图,找出所有可能的合成词组合,同时利用统计指标和构词规则判断成词条件,生成合成词候选集;
E. 对合成词候选集进行人工筛选后的词表导入分词系统,固化为系统字典文件。
如图2所示,为本发明的流程图,说明基于统计和规则的特定领域的合成词发现的一个实施例。合成词的产生过程起始于方框1001,利用分词系统进行初次原子词切分和词性标注。在方框1005,依据停用词和构词规则过滤原子词。在方框1009,遍历处理后的原子词,构造有向图。在方框1013,利用深度遍历算法,不断组合相邻的原子词,并且计算统计指标、对比构词规则,判断成词条件,最后生成合成词候选集。在方框1019,在人工筛选和确认合成词候选集,导入分词系统的字典文件。其中步骤C中方框1009生成原子词有向图的一个示意图如附图5所示,方框4001中包括了一些原子词的组合。经过遍历和组合后形成了如方框4005所示的一个有向图,记录了原子词的组合关系。
实施例2:
与上述实施例1不同的是,进一步说,步骤A中所述的分词系统采用的是ICTCLAS4J版本,可以直接部署在电脑上或通过编译器调用接口执行分词操作。如附图3所示,其为附图2中方框1001的处理流程图,说明调用ICTCLAS4J分词系统进行初次分词的的一个实施例。所述流程始于方框2001,选择和导入领域文本,领域文本集中放置在硬盘的一个文件夹中。在方框2005,调用分词系统的接口对领域文本分词和词性标注。在方框2009,分词结果保存至内存中。
实施例3:
与上述实施例1不同的是,进一步说,步骤B中所述的停用词来源于多个汉字组成的停用词表,该表作为txt文本文件存储在计算机硬盘存储器上,使用时直接读入内存调用。
步骤B中所述的构词规则包括:规则1:数词,代词,介词,助词,虚词,连词等词性不组成合成词;规则2:数词后跟着的单字词或名词不组成合成词;规则3:已经拥有完整意义的词不能组成合成词;规则4:有的词只能做词首;规则5:有的词只能做词尾;规则6:合成词中至少含有一个动词、名词或名词性成分;规则7:合成词最后一个词为动词、名词或名词性成分。
图4为图2中方框1005利用停用词和构词规则过滤原子词的一个实施例示意图。方框3001中包括了一段领域文本经过分词后的结果3005,停用词和步骤B中所述的构词规则为3009,从3009中可以得到一个对应的过滤后的原子词集合3013。
实施例4:
与上述实施例1不同的是,进一步说,步骤D中所述的统计指标包括词频,互信息,置信度。所述词频指单词在文本中出现的次数。其统计意义在于:汉字相邻共现的频率越高,那么就越有可能组合成词,相邻的原子词共现频率越高也就越有可能是合成词。所述的互信息指对训练文本中相邻出现的各个字之间组合的频度进行统计,计算出相邻字出现的频率,用这个频率与字单独出现的频率进行比较,计算出汉字之间的互信息,进而判断该字串是否组成词语;
对有序汉字串AB 中汉字A 、B 之间的互信息定义为:
其中, P( AB) 为汉字串AB 出现的概率, P( A)为汉字A 出现的概率, P( B) 为汉字B 出现的概率;假定它们在语料库中出现的次数分别计为n ( A) 、n ( B) 、n ( AB) , n 是统计语料库中的词频总数;则有:P( A , B) = n ( AB) / n , P( A) = n ( A) / n , P( B) =n ( B) / n 。
所述的置信度是指,设定恰当的置信区间可以在遵循最长匹配原则的同时区分出较短的但的确有意义的合成词;对于长词串A和短词串B,且B是A的子集,则A与B的置信度的定义如下:
其中n(B)是词串B出现的次数,n(A)是词串A出现的次数,C(A,B)说明出现B的时候,有C(A,B)的可能B是A的一部分。
图6为图2中方框1013的一个处理流程图。说明深度遍历有向图的过程中判断合成词的条件。判断过程起始于方框5001,通过计算词频过滤偶然出现在一起的组合,在方框5005,通过计算互信息过滤信息量不足的组合,然后在方框5009,利用步骤D所用的构词规则进一步过滤,最后在方框5013,利用置信度保证最长匹配原则。
实施例5:
与上述实施例1不同的是,进一步说,步骤A中所述的领域文本为txt、html、pdf或doc格式的文件,存储在硬盘的固定位置,其中保存的是中英文字符。
实施例6:
与上述实施例1不同的是,进一步说,步骤D中所述的生成的合成词候选集的存储过程将其固化在硬盘上,通过保存为txt文件或是存储到数据库中。
实施例7:
在个人电脑或工作站上安装中科院ICTCLAS分词系统的Java版本ICTCLAS4J,本实施例利用Java开发,能够和这个分词系统无缝结合,并且拥有Java的先天优势,能够在Windows和Unix机器上都能运行。本实施例在ICTCLAS4J分词结果的基础上充分利用计算机的内存和硬盘的时空开销,不断读取,处理和保存领域文本的中英文字符串,利用基于统计和规则的特定领域的合成词发现方法生成合成词表。步骤包括:
1.利用ICTCLAS4J对领域文本进行初次分词。分词结果保存至计算机内存中。
2. 遍历内存中的分词结果,利用停用词和词性规则删除一些不可能组成合成词的原子词和英文、标点等文本噪音。处理后的分词结果继续保存在内存中
3. 正向遍历内存中处理后的原子词,构造一个包含原子词组合关系的有向图。有向图记为:G:<V,E>,其中V指文本中的原子词集;E是与V对应的原子词相邻的原子词构成的集合。有向图采用邻接表进行存储。
4. 利用深度遍历算法搜索有向图,找出所有可能的合成词组合,并且在此过程中利用统计指标和构词规则对成词条件进行判断和分析,过滤后的合成词作为候选集合保存在计算机内存中。
5. 从计算机内存中读取合成词候选集,将结果存储为硬盘上的文本文件或保存到数据库中,让人工对结果进行筛选。并且将筛选后的词表导入分词系统,固化为系统字典文件供下次分词使用。
步骤1中产生的分词结果主要包括原子词切分和词性标注,词性标注采用的符号是针对ICTCLAS4J分词系统的。领域文本以为txt、html、pdf或doc格式的文件形式保存在计算机硬盘上。
步骤2中停用词主要是指人类语言包含的那些功能词。与其他词相比,功能词没有什么实际含义。最普遍的功能词是限定词,如“这”,“那”,“你的”,“我的”等等。这些功能词的两个特征促使在生成合成词的文本处理过程中对其特殊对待。第一,这些功能词极其普遍。记录这些词需要较多CPU和内存的时空开销。第二,由于它们的普遍性和功能,这些词极少组合有意义的合成词,而且它们的大量出现反而会干扰统计结果。
本实施例中采用的停用词是包含500多个汉字的停用词表,作为dic文本文件存储在计算机硬盘存储器上,使用时直接读入内存即可调用。
此处的词性规则主要用到:
规则1:数词,代词,介词,助词,虚词,连词等词性不能合成词。
规则2:数词后跟着的单字词或名词不组成合成词。
规则3:已经拥有完整意义的词不能合成词。
步骤4中深度遍历有向图是为了最长匹配原则,即尽可能找出最长的合成词。在深度遍历中,对于新发现的原子词v,扫描v的邻接表,如果它还有以此为起点而未探测到的边,就沿此边继续探测下去,当v的所有边都已被探寻过后,搜索将回溯到发现原子词v有起始点的的那些边。这一过程一直进行到一发现从v可达的所有原子词时为止。如果还存在未被发现的原子词,则选择其中一个作为起始点,重复以上过程。整个流程反复进行,直到所有的原子词都被发现为止。
步骤4的深度遍历过程判断成词条件的主要有统计指标和构词规则。其中统计指标主要是:词频,互信息,置信度。构词规则是:
规则4:有的词只能做词首。
规则5:有的词只能做词尾。
规则6:合成词中至少含有一个动词、名词或名词性成分。
规则7:合成词最后一个词为动词、名词或名词性成分。
总的来看,统计方法判断合成词的主要依据特征值构建统计模型,查看词串指定特征值是否符合该模型阈值,例如词频,互信息等等。而基于规则的方法,其核心是根据语言学原理和知识制定一系列共性规则和个性规则,以处理自动分析中遇到的各种语言现象,本实施例主要用到的构词规则有停用词,词性组合等语言学相关知识。
此方法在应用中可以不断扩展和调整。除了本发明所提供的一系列统计指标和构词规则外,还可以根据汉语知识的发展来拓展添加更多规则,系统提供的停用词以文本的形式固化存储在计算机硬盘上,可以根据个人的需要添加或修改。
本发明权利要求保护范围不限于上述实施例。
Claims (10)
1.一种基于统计和规则的特定领域的合成词发现方法,其特征在于:
利用现有的分词系统对领域文本进行原子词切分和词性标注;
利用停用词和构词规则过滤,删除不能组成合成词的原子词;
正向遍历处理后的原子词,构造包含原子词组合关系的有向图,有向图记为G:<V,E>,其中V指文本中的原子词集,E是与V对应的原子词相邻的原子词构成的集合;
利用深度遍历算法搜索有向图,找出所有可能的合成词组合,同时利用统计指标和构词规则判断成词条件,生成合成词候选集;
对合成词候选集进行人工筛选后的词表导入分词系统,固化为系统字典文件。
2.按照权利要求1所述的方法,其特征在于:步骤B中所述的停用词来源于多个汉字组成的停用词表,该表以dic文件存储在计算机硬盘存储器上,使用时直接读入内存调用。
3.按照权利要求1所述的方法,其特征在于:步骤D中所述的统计指标包括词频,互信息,置信度。
4.按照权利要求3所述的方法,其特征在于:所述词频指单词在文本中出现的次数。
5.按照权利要求3所述的方法,其特征在于:所述的互信息指对训练文本中相邻出现的各个字之间组合的频度进行统计,计算出相邻字出现的频率,用这个频率与字单独出现的频率进行比较,计算出汉字之间的互信息,进而判断该字串是否组成词语;
对有序汉字串AB 中汉字A 、B 之间的互信息定义为:
其中, P( AB) 为汉字串AB 出现的概率, P( A)为汉字A 出现的概率, P( B) 为汉字B 出现的概率;假定它们在语料库中出现的次数分别计为n ( A) 、n ( B) 、n ( AB) , n 是统计语料库中的词频总数;则有:P( A , B) = n ( AB) / n , P( A) = n ( A) / n , P( B) =n ( B) / n 。
7.按照权利要求1所述的方法,其特征在于:步骤B中所述的构词规则包括,
规则1:数词,代词,介词,助词,虚词,连词等词性不组成合成词;
规则2:数词后跟着的单字词或名词不组成合成词;
规则3:已经拥有完整意义的词不能组成合成词;
规则4:有的词只能做词首;
规则5:有的词只能做词尾;
规则6:合成词中至少含有一个动词、名词或名词性成分;
规则7:合成词最后一个词为动词、名词或名词性成分。
8.按照权利要求1所述的方法,其特征在于:步骤A中所述的分词系统采用的是ICTCLAS4J版本,可以直接部署在电脑上或通过编译器调用接口执行分词操作。
9.按照权利要求1所述的方法,其特征在于:步骤A中所述的领域文本为txt、html、pdf或doc格式的文件,存储在硬盘的固定位置,其中保存的是中英文字符。
10.按照权利要求1所述的方法,其特征在于:步骤D中所述的生成的合成词候选集的存储过程将其固化在硬盘上,通过保存为txt文件或是存储到数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013102378833A CN103309852A (zh) | 2013-06-14 | 2013-06-14 | 一种基于统计和规则的特定领域的合成词发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013102378833A CN103309852A (zh) | 2013-06-14 | 2013-06-14 | 一种基于统计和规则的特定领域的合成词发现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103309852A true CN103309852A (zh) | 2013-09-18 |
Family
ID=49135091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013102378833A Pending CN103309852A (zh) | 2013-06-14 | 2013-06-14 | 一种基于统计和规则的特定领域的合成词发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103309852A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095391A (zh) * | 2015-06-30 | 2015-11-25 | 北京奇虎科技有限公司 | 利用分词程序识别机构名称的装置及方法 |
CN105550168A (zh) * | 2015-12-10 | 2016-05-04 | 百度在线网络技术(北京)有限公司 | 一种确定对象的概念词的方法和装置 |
CN106202051A (zh) * | 2016-07-19 | 2016-12-07 | 华南理工大学 | 基于有向有权图发现新词的方法 |
CN106445906A (zh) * | 2015-08-06 | 2017-02-22 | 北京国双科技有限公司 | 领域词典中中长词词组的生成方法及装置 |
CN106557459A (zh) * | 2015-09-24 | 2017-04-05 | 北京神州泰岳软件股份有限公司 | 一种从工单中提取新词的方法和装置 |
CN106873801A (zh) * | 2017-02-28 | 2017-06-20 | 百度在线网络技术(北京)有限公司 | 用于生成输入法词库中的词条组合的方法和装置 |
CN107291695A (zh) * | 2017-06-28 | 2017-10-24 | 三角兽(北京)科技有限公司 | 信息处理装置及其分词处理方法 |
CN108052508A (zh) * | 2017-12-29 | 2018-05-18 | 北京嘉和美康信息技术有限公司 | 一种信息抽取方法及装置 |
CN108170679A (zh) * | 2017-12-28 | 2018-06-15 | 中国联合网络通信集团有限公司 | 基于计算机可识别自然语言描述的语义匹配方法及系统 |
CN108268440A (zh) * | 2017-01-04 | 2018-07-10 | 普天信息技术有限公司 | 一种未登录词识别方法 |
CN108549631A (zh) * | 2018-03-30 | 2018-09-18 | 北京智慧正安科技有限公司 | 名词词库提取方法、电子装置及计算机可读存储介质 |
CN108959575A (zh) * | 2018-07-06 | 2018-12-07 | 北京神州泰岳软件股份有限公司 | 一种企业关联关系信息挖掘方法及装置 |
CN109683773A (zh) * | 2017-10-19 | 2019-04-26 | 北京国双科技有限公司 | 语料标注方法和装置 |
CN109766539A (zh) * | 2018-11-30 | 2019-05-17 | 平安科技(深圳)有限公司 | 标准词库分词方法、装置、设备及计算机可读存储介质 |
CN109885812A (zh) * | 2019-01-15 | 2019-06-14 | 北京捷通华声科技股份有限公司 | 一种动态添加热词的方法、装置及可读存储介质 |
CN110688835A (zh) * | 2019-09-03 | 2020-01-14 | 重庆邮电大学 | 一种基于词语特征值的法律专有领域词发现方法及装置 |
CN110969009A (zh) * | 2019-12-03 | 2020-04-07 | 哈尔滨工程大学 | 一种汉语自然语言文本的词语切分方法 |
CN116702786A (zh) * | 2023-08-04 | 2023-09-05 | 山东大学 | 融合规则和统计特征的中文专业术语抽取方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831194A (zh) * | 2012-08-03 | 2012-12-19 | 人民搜索网络股份公司 | 一种基于查询日志的新词自动查找系统和方法 |
CN103106227A (zh) * | 2012-08-03 | 2013-05-15 | 人民搜索网络股份公司 | 一种基于网页文本的新词查找系统及方法 |
-
2013
- 2013-06-14 CN CN2013102378833A patent/CN103309852A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831194A (zh) * | 2012-08-03 | 2012-12-19 | 人民搜索网络股份公司 | 一种基于查询日志的新词自动查找系统和方法 |
CN103106227A (zh) * | 2012-08-03 | 2013-05-15 | 人民搜索网络股份公司 | 一种基于网页文本的新词查找系统及方法 |
Non-Patent Citations (6)
Title |
---|
于娟等: "《结合词性分析与串频统计的词语提取方法》", 《系统工程理论与实践》 * |
刘兴林等: "《中文合成词识别及分词修正》", 《计算机应用研究》 * |
刘兴林等: "《基于词共现有向图的中文合成词提取算法》", 《计算机工程》 * |
刘兴林等: "《基于词共现有向图的中文合成词提取算法》", 《计算机工程》, vol. 37, no. 23, 31 December 2011 (2011-12-31), pages 177 - 180 * |
周蕾等: "《基于统计和规则的未登录词识别方法研究》", 《计算机工程》 * |
陈小芳等: "《基于统计和规则相结合的汉语术语语义分析方法》", 《第六届全国信息检索学术会议论文集》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095391A (zh) * | 2015-06-30 | 2015-11-25 | 北京奇虎科技有限公司 | 利用分词程序识别机构名称的装置及方法 |
CN106445906A (zh) * | 2015-08-06 | 2017-02-22 | 北京国双科技有限公司 | 领域词典中中长词词组的生成方法及装置 |
CN106557459A (zh) * | 2015-09-24 | 2017-04-05 | 北京神州泰岳软件股份有限公司 | 一种从工单中提取新词的方法和装置 |
CN106557459B (zh) * | 2015-09-24 | 2019-12-27 | 北京神州泰岳软件股份有限公司 | 一种从工单中提取新词的方法和装置 |
CN105550168B (zh) * | 2015-12-10 | 2019-01-15 | 百度在线网络技术(北京)有限公司 | 一种确定对象的概念词的方法和装置 |
CN105550168A (zh) * | 2015-12-10 | 2016-05-04 | 百度在线网络技术(北京)有限公司 | 一种确定对象的概念词的方法和装置 |
CN106202051B (zh) * | 2016-07-19 | 2019-01-29 | 华南理工大学 | 基于有向有权图发现新词的方法 |
CN106202051A (zh) * | 2016-07-19 | 2016-12-07 | 华南理工大学 | 基于有向有权图发现新词的方法 |
CN108268440A (zh) * | 2017-01-04 | 2018-07-10 | 普天信息技术有限公司 | 一种未登录词识别方法 |
CN106873801A (zh) * | 2017-02-28 | 2017-06-20 | 百度在线网络技术(北京)有限公司 | 用于生成输入法词库中的词条组合的方法和装置 |
CN107291695A (zh) * | 2017-06-28 | 2017-10-24 | 三角兽(北京)科技有限公司 | 信息处理装置及其分词处理方法 |
CN109683773B (zh) * | 2017-10-19 | 2021-01-22 | 北京国双科技有限公司 | 语料标注方法和装置 |
CN109683773A (zh) * | 2017-10-19 | 2019-04-26 | 北京国双科技有限公司 | 语料标注方法和装置 |
CN108170679A (zh) * | 2017-12-28 | 2018-06-15 | 中国联合网络通信集团有限公司 | 基于计算机可识别自然语言描述的语义匹配方法及系统 |
CN108052508B (zh) * | 2017-12-29 | 2021-11-09 | 北京嘉和海森健康科技有限公司 | 一种信息抽取方法及装置 |
CN108052508A (zh) * | 2017-12-29 | 2018-05-18 | 北京嘉和美康信息技术有限公司 | 一种信息抽取方法及装置 |
CN108549631A (zh) * | 2018-03-30 | 2018-09-18 | 北京智慧正安科技有限公司 | 名词词库提取方法、电子装置及计算机可读存储介质 |
CN108959575A (zh) * | 2018-07-06 | 2018-12-07 | 北京神州泰岳软件股份有限公司 | 一种企业关联关系信息挖掘方法及装置 |
CN108959575B (zh) * | 2018-07-06 | 2019-09-24 | 北京神州泰岳软件股份有限公司 | 一种企业关联关系信息挖掘方法及装置 |
CN109766539A (zh) * | 2018-11-30 | 2019-05-17 | 平安科技(深圳)有限公司 | 标准词库分词方法、装置、设备及计算机可读存储介质 |
CN109885812B (zh) * | 2019-01-15 | 2021-02-19 | 北京捷通华声科技股份有限公司 | 一种动态添加热词的方法、装置及可读存储介质 |
CN109885812A (zh) * | 2019-01-15 | 2019-06-14 | 北京捷通华声科技股份有限公司 | 一种动态添加热词的方法、装置及可读存储介质 |
CN110688835A (zh) * | 2019-09-03 | 2020-01-14 | 重庆邮电大学 | 一种基于词语特征值的法律专有领域词发现方法及装置 |
CN110969009A (zh) * | 2019-12-03 | 2020-04-07 | 哈尔滨工程大学 | 一种汉语自然语言文本的词语切分方法 |
CN110969009B (zh) * | 2019-12-03 | 2023-10-13 | 哈尔滨工程大学 | 一种汉语自然语言文本的词语切分方法 |
CN116702786A (zh) * | 2023-08-04 | 2023-09-05 | 山东大学 | 融合规则和统计特征的中文专业术语抽取方法和系统 |
CN116702786B (zh) * | 2023-08-04 | 2023-11-17 | 山东大学 | 融合规则和统计特征的中文专业术语抽取方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103309852A (zh) | 一种基于统计和规则的特定领域的合成词发现方法 | |
US11275898B2 (en) | Search method and device based on artificial intelligence | |
CN102662952B (zh) | 一种基于层次的中文文本并行数据挖掘方法 | |
CN102945228B (zh) | 一种基于文本分割技术的多文档文摘方法 | |
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN109635297B (zh) | 一种实体消歧方法、装置、计算机装置及计算机存储介质 | |
CN110020189A (zh) | 一种基于中文相似性计算的文章推荐方法 | |
CN106537370A (zh) | 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统 | |
CN111651198B (zh) | 代码摘要自动化生成方法及装置 | |
CN101976318A (zh) | 一种基于数字指纹的代码相似度检测方法 | |
CN105068991A (zh) | 一种基于大数据的舆情发现方法 | |
CN104850574A (zh) | 一种面向文本信息的敏感词过滤方法 | |
CN106569993A (zh) | 一种挖掘领域术语间上下位关系的方法及装置 | |
CN103646112A (zh) | 利用了网络搜索的依存句法的领域自适应方法 | |
CN110008474B (zh) | 一种关键短语确定方法、装置、设备及存储介质 | |
CN110188359B (zh) | 一种文本实体抽取方法 | |
CN101149739A (zh) | 一种面向互联网的有意义串的挖掘方法和系统 | |
CN104965823A (zh) | 一种基于大数据的观点抽取方法 | |
CN107832467A (zh) | 一种基于改进的Single‑pass聚类算法的微博话题检测方法 | |
CN113822059A (zh) | 中文敏感文本识别方法、装置、存储介质及设备 | |
CN105183765A (zh) | 一种基于大数据的话题抽取方法 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN103064847A (zh) | 索引装置、索引方法、检索装置、检索方法和检索系统 | |
Hofmann et al. | Predicting the growth of morphological families from social and linguistic factors | |
CN117195829A (zh) | 文本标注方法、文本标注装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130918 |