CN111832299A - 一种中文分词系统 - Google Patents

一种中文分词系统 Download PDF

Info

Publication number
CN111832299A
CN111832299A CN202010689156.0A CN202010689156A CN111832299A CN 111832299 A CN111832299 A CN 111832299A CN 202010689156 A CN202010689156 A CN 202010689156A CN 111832299 A CN111832299 A CN 111832299A
Authority
CN
China
Prior art keywords
word
character
length
segmentation
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010689156.0A
Other languages
English (en)
Inventor
岳希
向春淼
唐聃
高燕
曾琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN202010689156.0A priority Critical patent/CN111832299A/zh
Publication of CN111832299A publication Critical patent/CN111832299A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种中文分词系统,涉及自然语言处理技术领域,所述系统包括:文本获取模块,用于获得文本文件数据;文本预处理模块:用于对文本文件数据进行预处理,获得待分词文本数据;分词模块:用于基于词典对待分词文本数据进行分词处理,获得文本数据分词结果;新词发现模块:用于对文本数据分词结果进行互信息计算,基于互信息计算结果识别新词,并将识别的新词存入分词模块的分词词典中。本发明优化了分词的召回率和准确率,其有了较大的提高;解决了专业领域中专业词库的新词来源;优化了搜索到要匹配的词语的速度,也大大提高了整体分词速度。

Description

一种中文分词系统
技术领域
本发明涉及自然语言处理技术领域,具体地,涉及一种基于改进的正向最大匹配算法与互信息新词识别的中文分词系统。
背景技术
目前,业内常用的现有技术是这样的:随着信息技术的高速发展,各专业领域的文本数据急剧增长。利用自然语言处理技术分析文本数据,解决实际问题并提高工作效率,已成为研究热点之一。中文分词是中文自然语言处理技术的基础性工作,其结果直接影响了后续工作(如信息检索、文本分类、信息抽取等)的性能。
相比于英文分词,中文分词要复杂很多。中文句子中的词由多个独立的汉字组成并且字与字之间没有任何分割标记符,此外,汉字的开放性使得中文分词难有一个统一的构词标准,由此造成中文分词的歧义繁多。目前的分词技术主要是提高中文分词的正确率,尽可能地解决歧义消除和未登录词(Out-of-Vocabulary,OOV)识别问题。
目前主流的分词算法如下:
(1)基于词典分词算法,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;常用的基于词典的分词方法为正向最大匹配算法(Forward Maximum Matching,FMM)、逆向最大匹配算法(Backward Maximum Matching,BMM)和双向最大匹配算法(Bi-directctionMatching method,BM)。
(2)基于统计的分词算法,该算法通过训练大量已经过人工分词的语料库获取经验信息,将语言知识转化为统计信息,建立起能反映相邻汉字或词的互信度的概率模型,从而识别新词并将句子切分成词,例如互信息方法。统计分词算法通常可分为基于有向图的全切分算法和基于字标注的机器学习算法。基于有向图的全切分算法主要采用N-gram统计语言模型,即认为第n个词的出现只与前n-1个词相关,整个句子的概率是每个词出现概率的乘积;基于字标注的机器学习算法主要采用隐马尔科夫模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy,ME)、条件随机场模型(Conditional Random Field,GRF)。
在本申请发明人在实现本发明技术方案的过程中,发现上述技术至少存在如下技术问题:
(1)基于词典的方法,实现、部署比较容易,但是分词精度有限,且对于未登录词(不在词典里中的词语)识别较差;基于统计的方法,速度较快,对未登录词识别效果较好,能够根据使用领域达到较高的分词精度,但是实现比较复杂。例如在招聘领域中,通常需要解析的对象为一句话短语,不仅包括岗位要求所包含的技能名称,同时也包括一些基本的描述,从语句结构来看,基本由名词构成,同时含有熟练程度、技能名称、技能类型等信息词,因此词库偏向信息技术类型,而与生活语料库关系较小。同时研究使用的语料库一般都是人为地选择一些语句、篇章构成训练语料库,这些语料库一般都建得比较小,这就很难保证它能代表一般语言特征;而纯粹利用统计算法进行分词也存在局限性,这些完全抛弃了汉语的词法、语法、语义信息,而只根据统计算法的结果来进行分词,这类方法就过分依赖于统计算法。
(2)歧义消除:在中文分词中,如果一个待切分语句存在多个分词结果,则该语句存在切分歧义,被称为切分歧义句。待切分文本所含有的每个词如果也同样存在于分词系统词典中,则都有可能从文本中被切分出来。引起这种切分歧义的情况繁多,其中由汉字串引起的切分歧义可以划分为两种类型,即交集型切分歧义和组合型切分歧义。交集型切分歧义指汉字串“ABC”可以切分成“A|BC”和“AB|C”,比如汉字串“出现在”,有“出|现在”、“出现|在”这两种切分结果。组合型切分歧义汉字串“AB”可以作为整体不切分,也可以切分成“A|B”,比如“自然语言处理”,可以不切分,也可以切分为“自然|语言|处理”
(3)未登录词识别:未登录词指的是没有收录到分词系统词典中的词。对于汉语而言,词组的构造没有固定不变的标准,随着人们言语表达需要的变化,新的词组接连不断地出现在语料中,比如人名、地名以及各类专业术语,如今还有普遍流行的网络新词。例如,在招聘数据的岗位要求中许多专业术语,并且技能的迭代更新速度快,未登录词居多。把基于词典的分词方法应用到招聘领域,由于招聘领域专业词汇的变化,导致许多语料出现了领域词汇,使得未登录词识别问题成为跨领域分词的一个关键问题。同时,由于领域的改变引起上下文变化,直接导致已登录词的处理能力下降。
发明内容
针对技术问题(1),本发明的其中一个目的是使用词典和自动识别新词的方法相结合进行处理。利用结合基于词典的分词算法实现分词速度快、效率高、易修改、灵活性强的效果和基于统计的分词算法实现识别未登录词,进行歧义消除的效果。
针对技术问题(2),本发明的其中一个目的是为了解决由机械分词所引起的歧义性,在原有的正向匹配算法的基础上,采取一种基于改进的正向最大匹配法,并且为了提高分词速度,对原有的hash词典进行了分析、研究,并在其构造机制上进行了相应的改进。
针对技术问题(3),本发明的其中一个目的是采取对训练文本集中相邻的各个字或者词组的频度进行统计,计算它们之间的联系紧密程度,从而确定是否能组合成词。互信息反映的是字与字之间的静态结合,汉字之间的互信息体现了汉字之间结合关系的紧密程度,当某一字串结合的紧密程度高于给定的阈值时,便可认为此字串可能构成了一个词。对训练文本中相邻出现的各个字之间组合的频度进行统计,计算出相邻字出现的频率,用这个频率与字单独出现的频率进行比较,计算出汉字之间的互信息,进而判断该字串是否组成词语,能很好的发现未登录词。
为实现上述发明目的,本发明提供了一种中文分词系统,所述系统包括:
文本获取模块,用于获得文本文件数据;
文本预处理模块:用于对文本文件数据进行预处理,获得待分词文本数据;
分词模块:用于基于词典对待分词文本数据进行分词处理,获得文本数据分词结果;
新词发现模块:用于对文本数据分词结果进行互信息计算,基于互信息计算结果识别新词,并将识别的新词存入分词模块的分词词典中。
优选的,新词发现模块用于对待分词文本数据进行统计,得到每个字的字频以及每个字串的频率;基于每个字的字频以及每个字串的频率,计算字、字串在待分词文本数据中出现的概率,将概率值带入互信息计算公式中,得到每个字串的PMI(Point-wise MutualInformation,PMI)值,根据PMI值将大于0的字串作为新词加入到分词词典中。
优选的,互信息计算公式如公式(1)所示:
Figure BDA0002588691890000031
其中,PMI(AB)为字串AB的相关度(也称为PMI值),AB表示n个字,n大于或等于2,P(A)代表字或词A在待分词文本数据中出现的概率,P(B)代表字或词B在待分词文本数据中出现的概率,P(AB)代表词AB在待分词文本数据中出现的概率。
优选的,新词发现模块中基于互信息的新词发现步骤包括:
步骤a:假设文本数据分词结果为c,字串的长度为i,最大字串的长度为k;
步骤b:利用文本数据分词结果c预处理后形成汉字组成语句片段集合t;将新词集合w1置空,并令字串的长度i=2;
步骤c:判断字串长度i和最大字串的长度k的关系,若i<=k,则执行步骤c1,反之,则执行步骤d:
步骤c1:对语句片段集合t进行单字、字串统计,包括:单字总个数s1、i字字串总个数si、各单字出现的频数N[1…s1]和各i字字串出现的频数DN[1…si],计算各单字出现的概率P(A)[1…s1],以及各i字字串出现的概率P(AB)[1…si];
步骤c2:对i字字串进行所有可能的二切分,切分的前一部分和后一部分均当作单字处理,将统计量带入互信息计算公式,计算各i字字串在所有可能切分情况下的PMI[1…si][m]值,其中m为i字字串二切分的数目;
步骤c3:将PMI值大于0的i字字串加入新词集合w1中;
步骤c4:字串长度i的值加1;
步骤c5:判断字串长度i和最大字串的长度k的关系,若i<=k,则执行步骤c1,反之,执行步骤d;
步骤d:返回新词集合w1
优选的,分词词典包括4个部分:词语首字hash表、词长索引表、词语次字hash表和词语剩余字串组;词语首字hash表用于确定词语首字的具体位置,词长索引表用于索引存放对应首字相应词长的每一个字串;词语次字hash表用于确定词语次字的具体位置;词语剩余字串组用于存放词语以首字hash表的关键字和次字hash表的关键字组合开头剩余字串的数组。
优选的,分词词典采用多层hash词典构造机制,分词词典中的每一个词语首字设计为第一层的hash结构,第一层存储以该字为首字的所有词语的最大词长,分词词典中第二层是每个词长所对应的词语,并指向第三层存储的词语第二个字的hash值,分词词典中第四层用于完成对整个词语的搜索。
优选的,词语首字hash表中每一个单位均包括3个部分:第一关键字、最大词长及索引指针,第一关键字指每一个词语的第一个汉字A;最大词长是以汉字A为首字的词语的最大词长;索引指针为指向汉字A的词长的指针;
词长索引表包括对应首字相应词长的每一个字串,词长索引表包括:第二关键字和次字hash表指针,第二关键字是以词语首字对应的词长数;次字hash表指针为指向词语次字hash值的指针;
词语次字Hash表包括第三关键字和剩余字串组指针,第三关键字为每一个词语的第二个汉字B;剩余字串组指针用于指向词典中以AB开头词语的剩余字串数组;
词语剩余字串组包括词语以AB开头剩余字串的数组,即当前词语中去掉首字A和次字B之后的剩余部分。
优选的,分词模块采用正向最大匹配改进算法进行分词,具体步骤包括:
假设待分词字串s=C1C2...Cn,长度为Length,最大匹配初始长度WordMax;扫描字串中的每一个汉字,计算每一个汉字的hash值,获得每一个汉字为首字的词的最大词长Lp,Lmax是Lp的最大值,若Lmax>Length,则最大匹配初始长度WordMax=Length,反之,最大匹配初始长度WordMax=Lmax
取p的初值p=1,具体分词步骤包括:
(1)判断Lp与WordMax之间的关系,如果Lp<WordMax,执行步骤(2),否则执行步骤(3);
(2)p值加1,若p+WordMax-1<=n,返回步骤(1),否则执行步骤(5);
(3)计算Cp的哈希值,得到Cp在Hash表中的位置,确定字串Sword=CpCp+1…Cp+WordMax-1是否与词典中的词语匹配,若匹配成功,则执行步骤(4),否则返回步骤(2);
(4)将字串Sword=CpCp+1…Cp+WordMax-1从待切分字串S中切分,将S中剩余的两个字串分为两个子字串,将子字串作为新的字串进行分词,以此类推,直至分词结束;
(5)WordMax=WordMax-1,p=1,返回步骤(1)。
优选的,文本获取模块基于web数据挖掘工具获取文本数据,从网页中抓取并解析相关的内容,分别抓取网络内容和解析html源文件,转换成相应的数据表格式。
优选的,文本预处理模块用于实现空数据和/或重复数据和/或无意义符号的删除或替换,并对文本数据进行格式化。
与本发明中的系统对应,本发明还提供了一种中文分词方法,所述方法包括:
获得文本文件数据;
对文本文件数据进行预处理,获得待分词文本数据;
分基于词典对待分词文本数据进行分词处理,获得文本数据分词结果;
对文本数据分词结果进行互信息计算,基于互信息计算结果识别新词,并将识别的新词存入分词模块的分词词典中。
其中,本方法中的各个步骤的具体实现方式与上述中文分词系统中的实现方式一致。
本发明还提供了一种中文分词装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述中文分词方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述中文分词方法的步骤。
本发明提供的一个或多个技术方案,至少具有如下技术效果或优点:
利用词典分词方法和自动识别新词的方法相结合进行处理,弥补了单一使用基于词典分词的传统方法的缺陷,并且运用了改进的正向最大匹配算法,优化了正向最大匹配算法(Forward Maximum Matching,FMM)和逆向最大匹配算法(Backward MaximumMatching,BMM)出现的问题,第一:两个最大算法都是以根据词典中最长的那个词的长度为匹配的初始最大词长,这样在进行匹配词长较短的词语时,势必会造成很多无效的循环,浪费大量的时间。第二:遵循的“长词优先”原则,存在着覆盖范围的问题,在进行最大匹配时,往往是从待切分语句字串的第一个字或者最后一个字进行最大匹配,却忽视了中间字串的最大匹配,这种方法很容易造成歧义错误。因此,这种“长词优先”原则忽视了全局范围,仅仅在局部范围有效。改进的正向最大匹配算法是减少匹配过程中匹配的次数以及能够在整个分词过程中更好地实现“长词优先”的原则。
本发明也采用了双字哈希的词典机制,多层hash的词典机制即多次进行hash结构的循环,这种的词典构造机制不仅对词语的首字进行hash查找,对于词语的次字仍然采用hash进行查找。该词典分为4个部分:首字hash表、词长索引表、词语次字hash表、词语剩余字串组。这种词典构造的机制与单层的hash词典构造机制相比,可以快速搜索到要匹配的词语,大大提高了整体分词速度。
本发明也采用了互信息的算法识别未登录词,例如在招聘领域中,由于招聘数据的岗位描述中多含有专业性词汇,虽然词典的创建引入了专业领域的词典,但是随着技术的更新迭代快速,词典的词汇并不完整,故互信息的算法有利于建设专业领域词典,该算法对训练集中的文本进行字频的统计,并且统计相邻的元索之间的互信息,当互信息的值达到某一个阀值的时候,可以认为这两个词是一个词组。互信息的缺点是前期预处理的计算量比较大,需要适当调整阀值来减小内存的占用而在前期处理中进行预处理,可以较好的避免这个问题,也就是使用词典先进行分词处理。基于统计的分词方法能够满足快速分词的要求,并且计算量减小,处理速度加快,同时易于实现,能够有效的查找出未登录的新词并合并到词典中。
本发明优化和解决了很多问题。第一:使用改进的正向最大匹配算法和互信息分析结合之后,优化了分词的召回率和准确率,其有了较大的提高,同时也解决了专业领域中专业词库的新词来源,随着处理数据的增加,专业词库也会越来越完善,从而更好的提高分词的准确率和分词的速度。第二;多层hash的词典机制优化了搜索到要匹配的词语的速度,也大大提高了整体分词速度;第三:解决了传统正向最大匹配算法(Forward MaximumMatching,FMM)和逆向最大匹配算法(Backward Maximum Matching,BMM)出现的在进行匹配词长较短的词语时,会造成很多无效的循环,并且浪费大量的时间和忽视了中间字串的最大匹配,容易造成歧义错误的问题。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本发明的一部分,并不构成对本发明实施例的限定;
图1是本发明实施例提供一种基于改进的正向最大匹配算法与互信息新词识别的中文分词系统的组成示意图;
图2是本发明实施例提供一种基于改进的正向最大匹配算法与互信息新词识别的中文分词系统的内部执行流程示意图;
图3是本发明实施例提供一种基于改进的正向最大匹配算法与互信息新词识别的中文分词系统的功能模块结构图;
图4是本发明实施例提供一种基于改进的正向最大匹配算法与互信息新词识别的中文分词系统中的改进的正向最大匹配算法的流程示意图;
图5是本发明实施例提供一种基于改进的正向最大匹配算法与互信息新词识别的中文分词系统中的互信息新词识别算法的流程示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
本发明实施例针对现有分词技术对文本数据分词的缺陷,提供了一种基于改进的正向最大匹配算法与互信息新词识别的中文分词系统,系统包括:
文本获取模块:
获取文本需要使用web数据挖掘工具,如网络爬虫之类的软件或者可以使用如pyspider、scrapy等python框架非常轻松地编写出自己需要的爬虫,从有关网站的网页中抓取并解析相关的内容,这里本发明使用了从HTML或XML文件中提取数据的Python库Beautiful Soup,使用Python语言编写脚本程序,优点是执行速度适中而且文本的容错能力较强。分别抓取网络内容和解析html源文件,转换成后续所需的数据表格式。
文本预处理模块:
利用正则表达式和python科学包pandas、numpy实现空数据、重复数据、无意义符号的删除或替换,如标点、下划线、特殊符号等无意义符号,这些符号对于分词处理没有任何作用,反而会加重计算量,影响分词的速度,并且对文本数据进行格式化。
基于词典分词模块:
分词词典的机制采用了分词速度较高的多层hash词典构造机制,该分词词典分为4个部分:词语首字hash表、词长索引表、词语次字hash表、词语剩余字串组。
词语首字hash表用于确定词语首字的具体位置,词语首字hash表中每一个单位都包含3个部分,即第一关键字、最大词长及索引指针。其中,第一关键字指每一个词语的第一个汉字,这里假设为A;最大词长是以该字为首字的词语的最大词长;索引指针为指向该字的词长的指针。
词长索引表包含对应首字相应词长的每一个字串,词长索引表由两部分组成,即第二关键字和次字hash表指针。第二关键字是以词语首字对应的词长数;次字hash表指针为指向词语次字hash值的指针。
词语次字Hash表包含两个部分,第三关键字和剩余字串组指针。第三关键字为每一个词语的第二个字,这里假设为B;剩余字串组指针用于指向词典中以AB开头词语的剩余字串数组。
词语剩余字串组包含词语以AB开头剩余字串的数组,即当前词语中去掉首字A和次字B之后的剩余部分。此多层hash词典的基本原理是将分词词典中的每一个词语首字设计为第一层的hash结构,为了配合改进之后正向最大匹配算法,第一层存储以该字为首字的所有词语的最大词长,进而第二层是每个词长所对应的词语,并指向第三层存储的词语第二个字的hash值,最后经过第四层完成对整个词语的搜索。词典内容的创建收录python的jieba分词中的dict.txt的内容,并且导入相关的专业领域中词汇。
采用正向最大匹配改进算法进行分词,具体步骤如下:
假设待分词字串s=C1C2...Cn,长度为Length,最大匹配初始长度WordMax;扫描字串中的每一个汉字,计算每一个汉字的hash值,获得每一个汉字为首字的词的最大词长Lp,Lmax是Lp的最大值,若Lmax>Length,则最大匹配初始长度WordMax=Length,反之,最大匹配初始长度WordMax=Lmax
取p的初值p=1,具体分词步骤包括:
(1)判断Lp与WordMax之间的关系,如果Lp<WordMax,执行步骤(2),否则执行步骤(3);
(2)p=p+1,若p+WordMax-1<=n,返回步骤(1),否则执行步骤(5);
(3)计算Cp的哈希值,得到Cp在Hash表中的位置,确定字串Sword=CpCp+1…Cp+WordMax-1是否与词典中的词语匹配,若匹配成功,则执行步骤(4),否则返回步骤(2);
(4)将字串Sword=CpCp+1…Cp+WordMax-1从待切分字串S中切分,将S中剩余的两个字串分为两个子字串,将子字串作为新的字串进行分词,以此类推,直至分词结束;
(5)WordMax=WordMax-1,p=1,返回步骤(1)。
例如:对句子S=“熟练自然语言处理的使用”进行如下切分:
(1)通过比较得知Lmax=6,Length=11,Lmax<Length,所以WordMax=6,p=1,进行步骤(2);
(2)在分词词典中查询以“熟”为首字的词的最大长度L1=4,由于L1<WordMax,进行步骤(3);
(3)p=p+1=2,因为p+WordMax-1=7<11,所以在分词词典中查询以“自”为首字的词的最大长度L2=6,由于L2=WordMax,进行步骤(4);
(4)根据“自”字的内码确定其在首字Hash表中的位置,进而查找词典中是否存在以“自”为首字的字串“自然语言处理”,经查找,字串“自然语言处理”与词典中的词语可以进行匹配,进行步骤(5);
(5)将字串“自然语言处理”从待切分字串S中切分保存,对于S中剩余的字串按照字串“自然语言处理”左边和右边分为两个新的待分词字串,S=“熟练”,S2=“的使用”,S作为词语保存,对S2进行分词,重复以上分词过程;
(6)分词结果为“熟练/自然语言处理/的/使用”。
基于互信息的新词发现模块:
利用预处理后的语料进行统计,得到每个字的字频以及每个字串的频率,进而计算字、字串在语料中出现的概率,将计算值带入互信息计算公式中,得到每个字串的PMI值。根据PMI值,将大于0的字串作为新词加入到新词系统中。
首先,互信息计算方法如公式(1)所示:
Figure BDA0002588691890000091
其中,AB表示n(n≥2)个字。例如,二字时,A代表前一个字,B代表后一个字;三字时,A代表前一(二)个字,B代表后二(一)个字;依此类推。P(A)、P(B)、P(AB)代表字(或词)A、B以及AB在语料库中出现的概率。
基于互信息的新词发现的具体算法步骤如下:
步骤a:假设文本数据分词结果为c,字串的长度为i,最大字串的长度为k;
步骤b:利用文本数据分词结果c预处理后形成汉字组成语句片段集合t;将新词集合w1置空,并令字串的长度i=2;
步骤c:判断字串长度i和最大字串的长度k的关系,若i<=k,则执行步骤c1,反之,则执行步骤d:
步骤c1:对语句片段集合t进行单字、字串统计,包括:单字总个数s1、i字字串总个数si、各单字出现的频数N[1…s1]和各i字字串出现的频数DN[1…si],计算各单字出现的概率P(A)[1…s1],以及各i字字串出现的概率P(AB)[1…si];
步骤c2:对i字字串进行所有可能的二切分,切分的前一部分和后一部分均当作单字处理,将统计量带入互信息计算公式,计算各i字字串在所有可能切分情况下的PMI[1…si][m]值,其中m为i字字串二切分的数目;
步骤c3:将PMI值大于0的i字字串加入新词集合w1中;
步骤c4:字串长度i++;
步骤c5:判断字串长度i和最大字串的长度k的关系,若i<=k,则执行步骤c1,反之,执行步骤d;
步骤d:返回新词集合w1
本发明优化了分词的召回率和准确率,其有了较大的提高;解决了专业领域中专业词库的新词来源;优化了搜索到要匹配的词语的速度,也大大提高了整体分词速度;解决了传统正向最大匹配算法(Forward Maximum Matching,FMM)和逆向最大匹配算法(Backward Maximum Matching,BMM)出现的在进行匹配词长较短的词语时,会造成很多无效的循环,并且浪费大量的时间和忽视了中间字串的最大匹配,容易造成歧义错误的问题。
如图1所示,本发明实施例提供的基于改进的正向最大匹配算法与互信息新词识别的中文分词系统包括:文本获取模块1、文本预处理模块2、基于词典分词模块3、基于互信息新词发现模块4。
文本获取模块1:用于获取模型训练的数据源,得到的大量数据提高后续的分词的可靠性和稳定性。
文本预处理模块2:用于从文本获取模块1读取获取的数据,进行预处理操作并将计算结果实时传给词典分词模块3。
基于词典分词模块3:获取文本预处理模块2中的数据,进行词典匹配的分词,将结果传给基于互信息新词发现模块4。
基于互信息新词发现模块4:将基于词典分词模块3的分词后的数据,进行互信息计算,并将识别的新词存入基于词典分词的词典中,提高后续的分词的准确性。
文本获取模块1包括网络爬虫模块。网络爬虫模块:使用python爬虫框架scrapy对数据进行爬取,分别抓取网络内容和解析html源文件,转换成后续所需的数据表格式。
文本预处理模块2会对从文本获取模块获取的数据可以进行以下两个方面的处理:空值处理:若在读取数据的过程中获取到某些字段存在空值,则可按照定义将该字段的空值替换为预定数值或者不作任何处理。格式化数据:根据数据源中的各个字段的数据类型,进行数据格式的格式化操作。例如,统一将数据类型转化为字符串类型。
基于词典分词模块3会对预处理后的数据进行分词,包括多层哈希词典机制的构建模块,改进的正向匹配算法模块。多层哈希词典机制的构建模块:多层hash的词典机制即多次进行hash结构的循环,这种词典机制不仅对词语的首字进行hash查找,对于词语的次字仍然采用hash进行查找。多层hash的词典机制的原理是将分词词典中的每一个词语首字设计为第一层的hash结构,为了配合改进之后正向最大匹配算法,第一层存储以该字为首字的所有词语的最大词长,进而第二层是每个词长所对应的词语,并指向第三层存储的词语第二个字的hash值,最后经过第四层完成对整个词语的搜索。改进的正向匹配算法模块:第一,进行最大匹配初始词长的选取。假设待切分字串的长度为Length,最大匹配初始长度为WordMax,对于字串中每一个汉字,在分词词典中进行查找以其为开头的词语的最大长度L,进行比较,取词语长度的最大值设为Lmax,若Lmax>Length,则最大匹配初始长度WordMax=Length,反之,最大匹配初始长度WordMax=Lmax。第二,对正向匹配算法的改进,①待切分句子S的长度为Length,从待切分句子的第1个字开始截取长度为WordMax的字串Sword进行匹配。②若词语匹配成功,则认为这个字串为一个词语,从句中切分,然后将此词语左右两边的部分作为新的句子,继续重复此过程进行切分;③若词语匹配不成功,则从句子中的第二个字开始继续截取长度为WordMax的字符串进行匹配;④若词语匹配不成功,则依次从句子中的第三个、第四个.....第Length WordMax+1个字开始截取长度为WordMax的词语进行匹配,若匹配成功,返回步骤②,若都不成功,则说明句子中已经没有长度为WordMax的词语,此时WordMax=WordMax-1的字串,从句子第一个字开始,按照以上过程,进行匹配。⑤重复以上过程,直至句子全部分词结束。
基于互信息新词发现模块:通过基于词典分词后,形成只由汉字组成的语句片段。利用分词后的语料进行统计,得到每个字的字频以及每个字串的频率,进而计算字、字串在语料中出现的概率,将计算值带人互信息计算公式中,得到每个字串的PMI值。根据PMI值,将大于0的字串作为新词加入到分词词典中。
如图2所示,本发明实施例提供的基于改进的正向最大匹配算法与互信息新词识别的中文分词系统的内部流程包括以下步骤:
S101:利用python的爬虫框架scrapy获取模型训练的数据源,得到的大量数据提高后续的分词的可靠性和稳定性。
S102:读取获取的文本数据,进行预处理操作;
S103:进行基于词典匹配的分词;
S104:对分词后的数据,进行互信息计算,并将识别的新词存入基于词典分词的词典中;
实施例1
当本发明运用到招聘领域中时,图3为本发明实例1提供的基于改进的正向最大匹配算法与互信息新词识别的中文分词系统的功能模块结构图。如图3所示,包括文本数据模块,文本预处理模块,基于词典分词模块,基于互信息新词发现模块,其中:
步骤101文本数据模块:获取模型训练的数据源,得到的大量数据,并将数据发给预处理模块。
(1)包括网络爬虫模块:在招聘领域中,选择招聘数据源,目前招聘信息主要是通过企业自己的网站或者一些大型的招聘平台发布,但是各企业官方网站形式多样,信息抓取不方便,而且第三方招聘网站提供的招聘信息更全面,格式也相对统一,便于求职者搜索和查询,因此第三方招聘网站更适合作为招聘信息采集的来源。此实验的数据是来自前程无忧和智联招聘这两个网站,选择它们的原因主要是由于他们的招聘信息量大,相对于一些社交类的招聘网站而言,是较为传统而且使用量较大的招聘网站。
使用python爬虫框架scrapy对招聘网站上的数据进行爬取,分别抓取网络内容和解析html源文件,转换成后续所需的数据表格式。
步骤102文本预处理模块:从文本获取模块获取的数据可以进行以下三个方面的处理:岗位描述数据获取:利用正则表达式和python科学包pandas,numpy实现空数据,重复数据的删除,并且留下岗位描述这一列的内容,同时过滤掉一些原岗位描述中的如标点、下划线、特殊符号等无意义符号。空值处理:若在读取数据的过程中获取到某些字段存在空值,则可按照定义将该字段的空值替换为预定数值或者不作任何处理。格式化数据:根据招聘数据源中的各个字段的数据类型,进行数据格式的格式化操作。例如,统一将数据类型转化为字符串类型。
步骤103基于词典分词模块:对预处理后的数据进行分词,包括多层哈希词典机制的构建模块,改进的正向匹配算法模块。对数据做分词的处理。
步骤104基于互信息新词发现模块:通过基于词典分词后,形成只由汉字组成的语句片段。利用分词后的语料进行统计,得到每个字的字频以及每个字串的频率,进而计算字、字串在语料中出现的概率,将计算值带人互信息计算公式中,得到每个字串的PMI值。根据PMI值,将大于0的字串作为新词加入到分词词典中。
实施例2
图4为实例1中的正向最大匹配改进算法模块的功能流程图,其中:
步骤201设待切分汉字串S=C1C2…Cn,长度为Length;
步骤202判断Length是否大于1;
步骤203若Length不大于1,则分词结束,算法流程结束;
步骤204依次计算以每个字Ci开头的词语的最大词长Li
步骤205比较L1,L2,..Ln大小并取Lmax=最大值;
步骤206进行Lmax>Length判断;
步骤207如果Lmax>Length,进行赋值操作WordMax=Length;
步骤208如果Lmax<=Length进行赋值操作WordMax=Lmax;
步骤209以WordMax为最大词长,进行正向最大匹配;
步骤2010令i=1;
步骤2011进行Li<WordMax判断;
步骤2012若Li>=WordMax,则长度为WordMax的字串Sword=CiCi+1...Ci+WordMax–1于词典进行匹配;
步骤2013若Li<WordMax,则进行i++或者将词语Sword从S中切分出存储,其左右两边字串进行切分,匹配失败;
步骤2014长度为WordMax的字串Sword=CiCi+1...Ci+WordMax–1于词典进行匹配,判断是否匹配成功;
步骤2015若Li<WordMax,则进行i++,然后进行i+WordMax-1<=n;
步骤2016若匹配成功,将词语Sword从S中切分出存储,其左右两边字串进行切分;
步骤2017进行步骤2016后,进行WordMax=WordMax–1操作;
回到步骤209,最后回到步骤201,进行操作。
实施例3
图5为实例1中的互信息算法模块的功能流程图,其中:
步骤301对文本语料c进行预处理,当遇到空格、英文字母、数字、停用词以及标点符号时将文本分割,形成汉字组成的语句片段集合t;将新词集合wi置空,并令i=2;
步骤302对单字字频进行概率计算;
步骤303对多字词频进行概率计算;
步骤304对字,词概率采用PMI公式计算;
步骤305获取PMI>0的词,字;
步骤306得到新词集合。
实施例4
本发明实施例4提供了一种中文分词方法,所述方法包括:
获得文本文件数据;
对文本文件数据进行预处理,获得待分词文本数据;
分基于词典对待分词文本数据进行分词处理,获得文本数据分词结果;
对文本数据分词结果进行互信息计算,基于互信息计算结果识别新词,并将识别的新词存入分词模块的分词词典中。
其中,本方法中的各个步骤的具体实现方式与上述中文分词系统中的实现方式一致。
实施例5
本发明实施例5提供了一种中文分词装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述中文分词方法的步骤。
本发明实施例5提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述中文分词方法的步骤。
所述中文分词装置可以是桌上型计算机、笔记本、掌上电脑以及云端服务器等计算设备。所述装置可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述装置还可以包括输入输出设备、网络接入设备、总线等。
所述处理器可以是中央处理器(CPU,Central Processing Unit),还可以是其他通用处理器、数字信号处理器(digital signal processor)、专用集成电路(ApplicationSpecific Integrated Circuit)、现成可编程门阵列(Fieldprogrammable gate array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述中文分词装置的控制中心,利用各种接口和线路连接整个装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的数据,实现所述中文分词装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等。此外,存储器可以包括高速随机存取存储器、还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡,安全数字卡,闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述中文分词装置如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序可存储于一计算机可读存介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种中文分词系统,其特征在于,所述系统包括:
文本获取模块,用于获得文本文件数据;
文本预处理模块:用于对文本文件数据进行预处理,获得待分词文本数据;
分词模块:用于基于词典对待分词文本数据进行分词处理,获得文本数据分词结果;
新词发现模块:用于对文本数据分词结果进行互信息计算,基于互信息计算结果识别新词,并将识别的新词存入分词模块的分词词典中。
2.根据权利要求1所述的中文分词系统,其特征在于,新词发现模块用于对待分词文本数据进行统计,得到每个字的字频以及每个字串的频率;基于每个字的字频以及每个字串的频率,计算字、字串在待分词文本数据中出现的概率,将概率值带入互信息计算公式中,得到每个字串的PMI值,根据PMI值将大于0的字串作为新词加入到分词词典中。
3.根据权利要求1所述的中文分词系统,其特征在于,互信息计算公式如公式(1)所示:
Figure FDA0002588691880000011
其中,PMI(AB)为字串AB的相关度,AB表示n个字,n大于或等于2,P(A)代表字或词A在待分词文本数据中出现的概率,P(B)代表字或词B在待分词文本数据中出现的概率,P(AB)代表词AB在待分词文本数据中出现的概率。
4.根据权利要求1所述的中文分词系统,其特征在于,新词发现模块中基于互信息的新词发现步骤包括:
步骤a:假设文本数据分词结果为c,字串的长度为i,最大字串的长度为k;
步骤b:利用文本数据分词结果c预处理后形成汉字组成语句片段集合t;将新词集合w1置空,并令字串的长度i=2;
步骤c:判断字串长度i和最大字串的长度k的关系,若i<=k,则执行步骤c1,反之,则执行步骤d:
步骤c1:对语句片段集合t进行单字、字串统计,包括:单字总个数s1、i字字串总个数si、各单字出现的频数N[1…s1]和各i字字串出现的频数DN[1…si],计算各单字出现的概率P(A)[1…s1],以及各i字字串出现的概率P(AB)[1…si];
步骤c2:对i字字串进行所有可能的二切分,切分的前一部分和后一部分均当作单字处理,将统计量带入互信息计算公式,计算各i字字串在所有可能切分情况下的PMI[1…si][m]值,其中m为i字字串二切分的数目;
步骤c3:将PMI值大于0的i字字串加入新词集合w1中;
步骤c4:字串长度i的值加1;
步骤c5:判断字串长度i和最大字串的长度k的关系,若i<=k,则执行步骤c1,反之,执行步骤d;
步骤d:返回新词集合w1
5.根据权利要求1所述的中文分词系统,其特征在于,分词词典包括4个部分:词语首字hash表、词长索引表、词语次字hash表和词语剩余字串组;词语首字hash表用于确定词语首字的具体位置,词长索引表用于索引存放对应首字相应词长的每一个字串;词语次字hash表用于确定词语次字的具体位置;词语剩余字串组用于存放词语以首字hash表的关键字和次字hash表的关键字组合开头剩余字串的数组。
6.根据权利要求5所述的中文分词系统,其特征在于,分词词典采用多层hash词典构造机制,分词词典中的每一个词语首字设计为第一层的hash结构,第一层存储以该字为首字的所有词语的最大词长,分词词典中第二层是每个词长所对应的词语,并指向第三层存储的词语第二个字的hash值,分词词典中第四层用于完成对整个词语的搜索。
7.根据权利要求5所述的中文分词系统,其特征在于,词语首字hash表中每一个单位均包括3个部分:第一关键字、最大词长及索引指针,第一关键字指每一个词语的第一个汉字A;最大词长是以汉字A为首字的词语的最大词长;索引指针为指向汉字A的词长的指针;
词长索引表包括对应首字相应词长的每一个字串,词长索引表包括:第二关键字和次字hash表指针,第二关键字是以词语首字对应的词长数;次字hash表指针为指向词语次字hash值的指针;
词语次字hash表包括第三关键字和剩余字串组指针,第三关键字为每一个词语的第二个汉字B;剩余字串组指针用于指向词典中以AB开头词语的剩余字串数组;
词语剩余字串组包括词语以AB开头剩余字串的数组,即当前词语中去掉首字A和次字B之后的剩余部分。
8.根据权利要求1所述的中文分词系统,其特征在于,分词模块采用正向最大匹配改进算法进行分词,具体步骤包括:
假设待分词字串s=C1C2...Cn,长度为Length,最大匹配初始长度WordMax;扫描字串中的每一个汉字,计算每一个汉字的hash值,获得每一个汉字为首字的词的最大词长Lp,Lmax是Lp的最大值,若Lmax>Length,则最大匹配初始长度WordMax=Length,反之,最大匹配初始长度WordMax=Lmax
取p的初值p=1,具体分词步骤包括:
(1)判断Lp与WordMax之间的关系,如果Lp<WordMax,执行步骤(2),否则执行步骤(3);
(2)p值加1,若p+WordMax-1<=n,返回步骤(1),否则执行步骤(5);
(3)计算Cp的哈希值,得到Cp在hash表中的位置,确定字串Sword=CpCp+1…Cp+WordMax-1是否与词典中的词语匹配,若匹配成功,则执行步骤(4),否则返回步骤(2);
(4)将字串Sword=CpCp+1…Cp+WordMax-1从待切分字串S中切分,将S中剩余的两个字串分为两个子字串,将子字串作为新的字串进行分词,以此类推,直至分词结束;
(5)WordMax=WordMax-1,p=1,返回步骤(1)。
9.根据权利要求1所述的中文分词系统,其特征在于,文本获取模块基于web数据挖掘工具获取文本数据,从网页中抓取并解析相关的内容,分别抓取网络内容和解析html源文件,转换成相应的数据表格式。
10.根据权利要求1所述的中文分词系统,其特征在于,文本预处理模块用于实现空数据和/或重复数据和/或无意义符号的删除或替换,并对文本数据进行格式化。
CN202010689156.0A 2020-07-17 2020-07-17 一种中文分词系统 Pending CN111832299A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010689156.0A CN111832299A (zh) 2020-07-17 2020-07-17 一种中文分词系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010689156.0A CN111832299A (zh) 2020-07-17 2020-07-17 一种中文分词系统

Publications (1)

Publication Number Publication Date
CN111832299A true CN111832299A (zh) 2020-10-27

Family

ID=72923623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010689156.0A Pending CN111832299A (zh) 2020-07-17 2020-07-17 一种中文分词系统

Country Status (1)

Country Link
CN (1) CN111832299A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395866A (zh) * 2020-11-17 2021-02-23 中国外运股份有限公司 报关单数据匹配方法及装置
CN112395865A (zh) * 2020-11-17 2021-02-23 中国外运股份有限公司 报关单校验方法及装置
CN112463969A (zh) * 2020-12-08 2021-03-09 上海烟草集团有限责任公司 卷烟品牌和品规行话新词的检测方法、系统、设备及介质
CN113033193A (zh) * 2021-01-20 2021-06-25 山谷网安科技股份有限公司 一种基于c++语言的混合型中文文本分词方法
CN113269192A (zh) * 2021-05-24 2021-08-17 东南大学 一种基于词匹配和语法匹配的ocr后处理方法
CN113377965A (zh) * 2021-06-30 2021-09-10 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113536807A (zh) * 2021-08-03 2021-10-22 中国航空综合技术研究所 基于语义的不完全最大匹配分词方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389349A (zh) * 2015-10-27 2016-03-09 上海智臻智能网络科技股份有限公司 词典更新方法及装置
CN108038119A (zh) * 2017-11-01 2018-05-15 平安科技(深圳)有限公司 利用新词发现投资标的的方法、装置及存储介质
CN108509425A (zh) * 2018-04-10 2018-09-07 中国人民解放军陆军工程大学 一种基于新颖度的中文新词发现方法
CN108875040A (zh) * 2015-10-27 2018-11-23 上海智臻智能网络科技股份有限公司 词典更新方法及计算机可读存储介质
CN110046219A (zh) * 2019-04-18 2019-07-23 合肥天毅网络传媒有限公司 一种基于哈希算法的中文分词方法
CN111125327A (zh) * 2019-12-11 2020-05-08 中国建设银行股份有限公司 一种基于短会话的新词发现方法、存储介质和电子装置
CN111274361A (zh) * 2020-01-21 2020-06-12 北京明略软件系统有限公司 一种行业新词发现方法、装置、存储介质及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389349A (zh) * 2015-10-27 2016-03-09 上海智臻智能网络科技股份有限公司 词典更新方法及装置
CN108875040A (zh) * 2015-10-27 2018-11-23 上海智臻智能网络科技股份有限公司 词典更新方法及计算机可读存储介质
CN108038119A (zh) * 2017-11-01 2018-05-15 平安科技(深圳)有限公司 利用新词发现投资标的的方法、装置及存储介质
CN108509425A (zh) * 2018-04-10 2018-09-07 中国人民解放军陆军工程大学 一种基于新颖度的中文新词发现方法
CN110046219A (zh) * 2019-04-18 2019-07-23 合肥天毅网络传媒有限公司 一种基于哈希算法的中文分词方法
CN111125327A (zh) * 2019-12-11 2020-05-08 中国建设银行股份有限公司 一种基于短会话的新词发现方法、存储介质和电子装置
CN111274361A (zh) * 2020-01-21 2020-06-12 北京明略软件系统有限公司 一种行业新词发现方法、装置、存储介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
莫建文 等: "改进的基于词典的中文分词方法", 《计算机工程与设计》 *
陈之彦 等: "基于hash结构词典的双向最大匹配分词法", 《计算机科学》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395865A (zh) * 2020-11-17 2021-02-23 中国外运股份有限公司 报关单校验方法及装置
CN112395866A (zh) * 2020-11-17 2021-02-23 中国外运股份有限公司 报关单数据匹配方法及装置
CN112395866B (zh) * 2020-11-17 2024-02-02 中国外运股份有限公司 报关单数据匹配方法及装置
CN112395865B (zh) * 2020-11-17 2024-01-02 中国外运股份有限公司 报关单校验方法及装置
CN112463969B (zh) * 2020-12-08 2022-09-20 上海烟草集团有限责任公司 卷烟品牌和品规行话新词的检测方法、系统、设备及介质
CN112463969A (zh) * 2020-12-08 2021-03-09 上海烟草集团有限责任公司 卷烟品牌和品规行话新词的检测方法、系统、设备及介质
CN113033193A (zh) * 2021-01-20 2021-06-25 山谷网安科技股份有限公司 一种基于c++语言的混合型中文文本分词方法
CN113033193B (zh) * 2021-01-20 2024-04-16 山谷网安科技股份有限公司 一种基于c++语言的混合型中文文本分词方法
CN113269192A (zh) * 2021-05-24 2021-08-17 东南大学 一种基于词匹配和语法匹配的ocr后处理方法
CN113269192B (zh) * 2021-05-24 2024-04-30 东南大学 一种基于词匹配和语法匹配的ocr后处理方法
CN113377965A (zh) * 2021-06-30 2021-09-10 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113377965B (zh) * 2021-06-30 2024-02-23 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN113536807A (zh) * 2021-08-03 2021-10-22 中国航空综合技术研究所 基于语义的不完全最大匹配分词方法
CN113536807B (zh) * 2021-08-03 2023-05-05 中国航空综合技术研究所 基于语义的不完全最大匹配分词方法

Similar Documents

Publication Publication Date Title
CN111832299A (zh) 一种中文分词系统
CN106537370B (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
US7478033B2 (en) Systems and methods for translating Chinese pinyin to Chinese characters
CN105917327B (zh) 用于将文本输入到电子设备中的系统和方法
US8131539B2 (en) Search-based word segmentation method and device for language without word boundary tag
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US7493251B2 (en) Using source-channel models for word segmentation
WO2018201600A1 (zh) 信息挖掘方法、系统、电子装置及可读存储介质
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN107918604B (zh) 一种中文的分词方法及装置
CN111753531A (zh) 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
JP2002215619A (ja) 翻訳文書からの翻訳文抽出方法
CN108538286A (zh) 一种语音识别的方法以及计算机
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
CN110853625B (zh) 语音识别模型分词训练方法、系统、移动终端及存储介质
WO2008098507A1 (fr) Méthode de saisie permettant de combiner des mots de façon intelligente, système associé à la méthode de saisie et méthode de renouvellement
CN108197116B (zh) 一种中文文本分词的方法、装置、分词设备及存储介质
CN111160014B (zh) 一种智能分词方法
JP2004038976A (ja) 用例ベースの機械翻訳システム
CN102339294A (zh) 一种对关键词进行预处理的搜索方法和系统
CN113326702B (zh) 语义识别方法、装置、电子设备及存储介质
US20240296291A1 (en) Extracting fine-grained topics from text content
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
US20050086214A1 (en) Computer system and method for multilingual associative searching

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201027

RJ01 Rejection of invention patent application after publication