CN105550170A - 一种中文分词方法及装置 - Google Patents

一种中文分词方法及装置 Download PDF

Info

Publication number
CN105550170A
CN105550170A CN201510924974.3A CN201510924974A CN105550170A CN 105550170 A CN105550170 A CN 105550170A CN 201510924974 A CN201510924974 A CN 201510924974A CN 105550170 A CN105550170 A CN 105550170A
Authority
CN
China
Prior art keywords
adjacent
chinese character
short sentence
degree
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510924974.3A
Other languages
English (en)
Other versions
CN105550170B (zh
Inventor
韦强申
刘鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201510924974.3A priority Critical patent/CN105550170B/zh
Publication of CN105550170A publication Critical patent/CN105550170A/zh
Application granted granted Critical
Publication of CN105550170B publication Critical patent/CN105550170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明实施例公开了一种中文分词方法及装置。该方法包括:将文本集切分为多个短句,并为多个短句编号;对于文本集中的每个中文字符,获取当前中文字符对应的第一短句编号列表,获取与当前中文字符右相邻的邻接中文字符对应的第二短句编号列表,根据第一短句编号列表和第二短句编号列表计算共现度;获取当前中文字符对应的邻接字符集,根据邻接字符集计算邻接相关度;根据共现度和邻接相关度确定是否将当前中文字符和邻接中文字符组成的词语加入候选词集;根据候选词集对所述文本集进行分词。该方法在确定候选词集时计算量小,准确度高,可有效提升分词结果的准确度以及提高分词效率,且该方法不依赖语料词典,可实现无监督的候选词汇提取。

Description

一种中文分词方法及装置
技术领域
本发明实施例涉及自然语言技术领域,尤其涉及一种中文分词方法及装置。
背景技术
中文分词(ChineseWordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。中文以字为基本的书写单位,词与词之间没有类似英文空格之类用于标识词边界的符号,因此,对中文文本中的每个句子进行分词,是中文文本分析处理中的难题。
中文分词技术主要有基于机械匹配的中文分词算法,基于统计语言模型(StatisticalLanguageModel,SLM)的中文分词方法,基于人工智能技术的中文分词方法。其中,基于统计语言模型的分词方法,通过统计文本上下文汉字与汉字相邻共现的组合频率,依据汉字组合的统计信息实现文本分词。基于统计语言模型与机械匹配相结合的方法,分词的效率和准确率相对较高,实现比较简单,是现在普遍采用的中文分词方法之一。
目前,基于统计语言模型的分词方法主要有串频统计和汉字相关度两种方法。基于串频统计的方法,依据字串的频率提取候选词,会将文本中一些随机出现的高频组合识别为候选词,而且该方法需要给出停止词表,不能很好的识别包含停止词的候选词,因而影响分词准确度;基于汉字相关度的方法,对相关度较高的词汇识别准确率较高,对相关度低的词汇识别准确度较低,并且该方法在计算相关度时算法复杂,计算量较大,影响分词效率。
发明内容
本发明实施例的目的是提供一种中文分词方法及装置,以解决现有的中文分词方案存在的准确度不足以及效率低的问题。
一方面,本发明实施例提供了一种中文分词方法,包括:
将文本集切分为多个短句,并为所述多个短句编号,其中,所述文本集包含至少一个文本;
对于所述文本集中的每个中文字符,获取当前中文字符对应的第一短句编号列表,获取与所述当前中文字符右相邻的邻接中文字符对应的第二短句编号列表,根据所述第一短句编号列表和所述第二短句编号列表计算所述当前中文字符和所述邻接中文字符的共现度;获取所述当前中文字符对应的邻接字符集,根据所述邻接字符集计算所述当前中文字符和所述邻接中文字符的邻接相关度;根据所述共现度和所述邻接相关度确定是否将所述当前中文字符和所述邻接中文字符组成的词语加入候选词集;
根据所述候选词集对所述文本集进行分词。
另一方面,本发明实施例提供了一种中文分词装置,包括:
文本集切分模块,用于将文本集切分为多个短句,并为所述多个短句编号,其中,所述文本集包含至少一个文本;
第一短句编号列表获取模块,用于对于所述文本集中的每个中文字符,获取当前中文字符对应的第一短句编号列表;
第二短句编号列表获取模块,用于获取与所述当前中文字符右相邻的邻接中文字符对应的第二短句编号列表;
共现度计算模块,用于根据所述第一短句编号列表和所述第二短句编号列表计算所述当前中文字符和所述邻接中文字符的共现度;
邻接字符集获取模块,用于获取所述当前中文字符对应的邻接字符集;
邻接相关度计算模块,用于根据所述邻接字符集计算所述当前中文字符和所述邻接中文字符的邻接相关度;
候选词集加入模块,用于根据所述共现度和所述邻接相关度确定是否将所述当前中文字符和所述邻接中文字符组成的词语加入候选词集;
分词模块,用于根据所述候选词集对所述文本集进行分词。
本发明实施例中提供的中文分词方案,将文本集切分为多个短句,计算中文字符以及与中文字符右相邻的邻接中文字符的共现度和邻接相关度,以共现度来衡量中文字符和邻接中文字符同时出现在同一个短句中的情况,以邻接相关度来衡量中文字符和邻接中文字符左右相邻出现的情况,并根据共现度和相关度综合衡量中文字符和邻接中文字符组成词语的概率,进而确定是否将组成的词语加入候选词集,最后根据候选词集对文本集进行分词。该方案在确定候选词集时计算量小,准确度高,可以排除高频单字对词汇提取的影响,所以可有效提升分词结果的准确度以及提高分词效率。此外,该方案不依赖语料词典,可实现无监督的候选词汇提取。
附图说明
图1为本发明实施例提供的现有的基于串频统计的中文分词方法的流程示意图;
图2为本发明实施例提供的现有的基于汉字相关度的中文分词方法的流程示意图;
图3为本发明实施例一提供的一种中文分词方法的流程示意图;
图4为本发明实施例二提供的一种中文分词方法的流程示意图;
图5为本发明实施例三提供的一种中文分词装置的结构框图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
首先,对现有的串频统计和汉字相关度两种中文分词方法做简单介绍。
图1为本发明实施例提供的现有的基于串频统计的中文分词方法的流程示意图。如图1所示,该方法包括以下步骤:
步骤101、输入单文本。
步骤102、通过中文标点符号和常用高频单字对文本分别进行显式和隐式切分,形成多个字串列表。
例如,常用高频单字可以是“的”和“是”等,由这些常用高频单字构成了停止词表。依据标点符号进行切分的方式为显示切分,依据停止词表进行切分的方式为隐式切分。
步骤103、通过滑动窗口统计窗口内子串出现的频次及字串长度,设定阈值,提取出滑动窗口内子串为候选词。
步骤104、遍历文本,产出候选词集。
步骤105、依据候选词集,对文本进行分词。
由上述步骤可知,该方法依据字串的频率提取候选词,会将文本中一些随机出现的高频组合识别为候选词,而且该方法需要给出停止词表,不能很好的识别含停止词的候选词,因而影响分词准确度。
图2为本发明实施例提供的现有的基于汉字相关度的中文分词方法的流程示意图,如图2所示,该方法包括以下步骤:
步骤101、输入单文本。
步骤102、遍历文本,统计字符出现的频次,计算相邻字符的卡方统计量来表示相邻字符的相关度,字串的长度为权重。
步骤103、获取相关度和权重乘积最大的多个连续字符加入候选词集。
步骤104、依据候选词集,对文本进行分词。
由上述步骤可知,该方法对相关度较高的词汇识别准确率较高,对相关度低的词汇识别准确度较低,并且该方法在计算相关度时需要计算卡方统计量,算法复杂,计算量较大,影响分词效率。
实施例一
图3为本发明实施例一提供的一种中文分词方法的流程示意图,该方法可以由中文分词装置执行。如图3所示,该方法包括:
步骤301、将文本集切分为多个短句,并为多个短句编号。
其中,所述文本集包含至少一个文本。
示例性的,用于执行本实施例方法的装置可由软件和/或硬件实现,可集成于用于提供分词或检索等服务的服务端。
本实施例中,文本集可被切分为n个短句,可将短句依次编号为1,2,…n。
优选的,可依据中文标点符号将文本集切分为多个短句,并为多个短句编号。
优选的,当文本集包含多个文本时,可进一步提高候选词的筛选准确度,进而提高分词结果准确度。
步骤302、对于文本集中的每个中文字符,获取当前中文字符对应的第一短句编号列表,获取与当前中文字符右相邻的邻接中文字符对应的第二短句编号列表,根据第一短句编号列表和第二短句编号列表计算当前中文字符和邻接中文字符的共现度;获取当前中文字符对应的邻接字符集,根据邻接字符集计算当前中文字符和邻接中文字符的邻接相关度;根据共现度和邻接相关度确定是否将当前中文字符和邻接中文字符组成的词语加入候选词集。
示例性的,“对于文本集中的每个中文字符”中的每个中文字符既包括不同的中文字符,又包括相同的字符。例如,“计算机是一种用于高速计算的电子计算机器”这句话中,“算”字出现了三次,与第一个“算”字右相邻的为“机”,与第二个“算”字右相邻的为“的”,与第三个“算”字右相邻的为“机”;而对于每个“机”,与其右相邻的分别为“是”和“器”。所以,三个“算”字所处位置不同,与其相邻的字符也不同,需要对这句话中的三个“算”字分别执行本步骤来确定候选词。
示例性的,第一短句编号列表是包含当前中文字符的短句对应的短句编号的列表;第二短句编号列表是包含邻接中文字符的短句对应的短句编号的列表。例如,文本集被切分为8个短句,短句编号依次为1、2、3、4、5、6、7和8。当前中文字符在编号为1、3、5和6的短句中出现,那么第一短句编号列表可记为{1,3,5,6},与当前中文字符右相邻的邻接中文字符在编号为1、2、4和6的短句中出现,那么第二短句编号列表可记为{1,2,4,6}。
由上述例子可知,当前中文字符和邻接中文字符同时在短句编号为1和6的短句中出现,本实施例以共现度来衡量当前中文字符和邻接中文字符同时出现在同一个短句中的情况,可根据第一短句编号列表和第二短句编号列表计算得出,具体计算方式本实施例不作具体限定。例如,可统计两个短句编号列表中出现相同短句编号的次数,以及该次数占短句总数的比例。
示例性的,邻接字符集是在多个短句中与当前中文字符右相邻出现的所有中文字符的集合。例如上述举例,“计算机是一种用于高速计算的电子计算机器”,假设当前中文字符为“算”,那么与“算”右相邻出现的中文字符分别为“机”、“的”和“机”,本实施例中的“所有中文字符的集合”包括两个“机”和一个“的”,也就是说包括重复出现的中文字符;假设当前中文字符为“器”,没有与其右相邻的中文字符,可记为空或不做记录。
由上述例子可知,“机”与当前中文字符“算”右相邻出现了2次,与“的”相比,更容易被确定为候选词。本实施例以邻接相关度来衡量中文字符和邻接中文字符左右相邻的情况,可根据邻接字符集计算得出,具体计算方式本实施例不作具体限定。
示例性的,共现度越高,组成的词语越有可能成为候选词,邻接相关度越高,组成的词语越有可能成为候选词,可将共现度和邻接相关度都超过一定阈值的当前中文字符和邻接中文字符组成的词语加入候选词集。
步骤303、根据候选词集对文本集进行分词。
根据候选词集对文本集进行分词的具体过程可参照现有的分词技术,本实施例不作具体限定。示例性的,根据候选词集切分文本集,并输出分词序列。
本发明实施例一提供的中文分词方法,将文本集切分为多个短句,计算中文字符以及与中文字符右相邻的邻接中文字符的共现度和邻接相关度,以共现度来衡量中文字符和邻接中文字符同时出现在同一个短句中的情况,以邻接相关度来衡量中文字符和邻接中文字符左右相邻出现的情况,并根据共现度和相关度综合衡量中文字符和邻接中文字符组成词语的概率,进而确定是否将组成的词语加入候选词集,最后根据候选词集对文本集进行分词。该方法在确定候选词集时计算量小,准确度高,可以排除高频单字对词汇提取的影响,所以可有效提升分词结果的准确度以及提高分词效率。此外,该方法不依赖语料词典,可实现无监督的候选词汇提取。
实施例二
图4为本发明实施例二提供的一种中文分词方法的流程示意图,本实施例以上述实施例为基础进行优化,在本实施例中,在对于文本集中的每个中文字符,获取当前中文字符对应的第一短句编号列表之前,增加步骤:确定文本集中所有不同中文字符对应的短句编号列表和邻接字符集。这样做的好处在于,在对每个中文字符进行处理时,可直接从确定好的所有的短句编号列表和邻接字符集中获取当前中文字符对应的短句编号列表和邻接字符集、以及直接获取邻接中文字符对应的短句编号列表,提高处理速度。
进一步的,本实施例还对共现度和邻接相关度的计算过程进行了优化。
进一步的,本实施例还对确定是否将当前中文字符和邻接中文字符组成的词语加入候选词集的步骤进行了优化。
相应的,本实施例的方法包括如下步骤:
步骤401、将文本集切分为多个短句,并为多个短句编号。
其中,文本集包含至少一个文本。
示例性的,输入文本集,依据中文标点符号将文本集切分为n个短句,并将n个短句依次编号为1,2,…n。
步骤402、确定文本集中所有不同中文字符对应的短句编号列表和邻接字符集。
示例性的,遍历文本集,提取文本集中所有不同中文字符,构造出字符集(构造字符集的操作也可在短句切分之前完成)。遍历字符集,判断字符集中的当前中文字符是否在短句i(1≤i≤n)中,若存在,记录短句编号i,若不存在,则不作记录,从而确定当前中文字符对应的短句编号列表;获取当前中文字符右邻接的中文字符,加入邻接字符集中,若当前字符右邻接的字符为非中文字符,可将右邻接字符标记为空,从而确定当前中文字符对应的邻接字符集。最后,可输出字符集中的每个中文字符与对应短句编号列表的映射关系表,以及输出字符集中的每个中文字符与邻接字符集的映射关系表,以便后续使用。
步骤403、获取当前中文字符对应的第一短句编号列表。
步骤404、获取与当前中文字符右相邻的邻接中文字符对应的第二短句编号列表。
步骤405、根据第一短句编号列表和第二短句编号列表计算当前中文字符和邻接中文字符的共现度。
示例性的,本步骤可具体包括:根据第一短句编号列表确定当前中文字符所在短句的第一位置向量,根据第二短句编号列表确定邻接中文字符所在短句的第二位置向量,计算第一位置向量和第二位置向量的夹角的余弦值,得到当前中文字符和邻接中文字符的共现度。
其中,对于多个短句的每个短句,当第一短句编号列表中包含当前短句的短句编号时,第一位置向量中对应所述当前短句的数值为1,否则,第一位置向量中对应当前短句的数值为0;当第二短句编号列表中包含当前短句的短句编号时,第二位置向量中对应当前短句的数值为1,否则,第二位置向量中对应当前短句的数值为0。
例如,如实施例一中的例子,第一短句编号列表为{1,3,5,6},第二短句编号列表为{1,2,4,6},那么可确定第一位置向量为(1,0,1,0,1,1,0,0),第二位置向量为(1,1,0,1,0,1,0,0),可计算第一位置向量和第二位置向量的夹角的余弦值,得到当前中文字符和邻接中文字符的共现度。
优选的,在步骤402中确定文本集中所有不同中文字符对应的短句编号列表之后,还可继续根据短句编号列表确定相应的向量,以便在步骤403和步骤404中直接获取当前中文字符对应的第一位置向量,以及直接获取与当前中文字符右相邻的邻接中文字符对应的第二位置向量。
进一步的,可根据以下公式计算当前中文字符和邻接中文字符的共现度,
c o - o c c u r D e g r e e ( x , y ) = x 1 y 1 + x 2 y 2 + L + x n y n x 1 2 + x 2 2 + Lx n 2 · y 1 2 + y 2 2 + Ly n 2
其中,1,2,…n为短句编号,x为当前中文字符,y为与当前中文字符右相邻的邻接中文字符,co-occurDegree(x,y)为x和y的共现度,第一位置向量表示为(x1,x2,…xn),第二位置向量表示为(y1,y2,…yn),x1,x2,…xn分别表示第一位置向量中对应短句编号为1,2,…n的短句的数值,y1,y2,…yn表示第二位置向量中对应短句编号为1,2,…n的短句的数值。
步骤406、获取当前中文字符对应的邻接字符集,根据邻接字符集计算当前中文字符和邻接中文字符的邻接相关度。
示例性的,本步骤可具体包括:计算邻接中文字符在邻接字符集中出现的总次数与邻接字符集中包含的所有中文字符的总数的比值,得到当前中文字符和邻接中文字符的邻接相关度。
进一步的,可根据以下公式计算当前中文字符和邻接中文字符的邻接相关度,
r e l a t i o n D e g r e e ( x , y ) = c o u n t ( y ) s u m
其中,1,2,…n为短句编号,x为当前中文字符,y为与当前中文字符右相邻的邻接中文字符,relationDegree(x,y)为x和y的邻接相关度,count(y)为y在x对应的邻接字符集中出现的总次数,sum为x对应的邻接字符集中包含的所有中文字符的总数。
步骤407、判断是否满足共现度大于共现度阈值并且邻接相关度大于邻接相关度阈值,若是,则执行步骤408;否则,执行步骤409。
示例性的,本实施例中得到的共现度和邻接相关度一般为0到1中间的浮点数。共现度阈值和邻接相关度阈值可根据实际情况进行调整,典型的,可将共现度阈值设定为0.6,可将邻接相关度阈值设定为0.6。
步骤408、将当前中文字符和邻接中文字符组成的词语加入候选词集,执行步骤409。
步骤409、判断当前中文字符是否为文本集中的最后一个中文字符,若是,则执行步骤411;否则,执行步骤410。
步骤410、将当前中文字符的下一个中文字符作为新的当前中文字符,并返回执行步骤403。
步骤411、根据候选词集对文本集进行分词。
本发明实施例二提供的中文分词方法,通过计算第一位置向量和第二位置向量的夹角的余弦值,得到当前中文字符和邻接中文字符的共现度,并计算邻接中文字符在邻接字符集中出现的总次数与邻接字符集中包含的所有中文字符的总数的比值,得到当前中文字符和邻接中文字符的邻接相关度。当共现度大于共现度阈值并且邻接相关度大于邻接相关度阈值时,将当前中文字符和邻接中文字符组成的词语加入候选词集。该方法在确定候选词时,计算量小,准确度高,可进一步提升分词结果的准确度以及提高分词效率。
在上述实施例的基础上,为了便于确定文本集中较长的词语为候选词,还可做如下优化:对于当前中文字符,当共现度大于共现度阈值,并且邻接相关度大于邻接相关度阈值时,将当前中文字符和邻接中文字符拼接成临时词;计算邻接中文字符和与邻接中文字符右相邻的第三中文字符的第二共现度和第二邻接相关度,当第二共现度小于共现度阈值或者第二邻接相关度小于所述邻接相关度阈值时,将临时词加入候选词集。例如,上文中的例子,“计算机是一种用于高速计算的电子计算机器”,在当前中文字符为第一个“计”时,“计”和“算”的共现度大于共现度阈值,并且邻接相关度大于邻接相关度阈值,可将“计”和“算”拼接成临时词“计算”,然后再计算“算”和“机”的第二共现度和第二邻接相关度。如果第二共现度小于共现度阈值或者第二邻接相关度小于邻接相关度阈值,则将“计算”加入候选词集;如果第二共现度大于共现度阈值并且第二邻接相关度大于邻接相关度阈值,则将“计算”和“机”拼接成临时词,再计算“机”和“是”的第三共现度和第三邻接相关度,依次类推,可便于字符扩散,提取出文本中较长的词汇,并加入候选词集。
实施例三
图5为本发明实施例三提供的一种中文分词装置的结构框图,该装置可由软件和/或硬件实现,可通过执行本发明实施例的中文分词方法来对中文文本进行分词处理。典型的,该装置可集成于用于提供分词或检索等服务的服务端。如图5所示,该装置包括文本集切分模块501、第一短句编号列表获取模块502、第二短句编号列表获取模块503、共现度计算模块504、邻接字符集获取模块505、邻接相关度计算模块506、候选词集加入模块507和分词模块508。
其中,文本集切分模块501,用于将文本集切分为多个短句,并为所述多个短句编号,其中,所述文本集包含至少一个文本;第一短句编号列表获取模块502,用于对于所述文本集中的每个中文字符,获取当前中文字符对应的第一短句编号列表;第二短句编号列表获取模块503,用于获取与所述当前中文字符右相邻的邻接中文字符对应的第二短句编号列表;共现度计算模块504,用于根据所述第一短句编号列表和所述第二短句编号列表计算所述当前中文字符和所述邻接中文字符的共现度;邻接字符集获取模块505,用于获取所述当前中文字符对应的邻接字符集;邻接相关度计算模块506,用于根据所述邻接字符集计算所述当前中文字符和所述邻接中文字符的邻接相关度;候选词集加入模块507,用于根据所述共现度和所述邻接相关度确定是否将所述当前中文字符和所述邻接中文字符组成的词语加入候选词集;分词模块508,用于根据所述候选词集对所述文本集进行分词。
本发明实施例三提供的中文分词装置,将文本集切分为多个短句,计算中文字符以及与中文字符右相邻的邻接中文字符的共现度和邻接相关度,以共现度来衡量中文字符和邻接中文字符同时出现在同一个短句中的情况,以邻接相关度来衡量中文字符和邻接中文字符左右相邻的情况,并根据共现度和相关度综合衡量中文字符和邻接中文字符组成词语的概率,进而确定是否将组成的词语加入候选词集,根据候选词集对文本集进行分词。该装置在确定候选词集时计算量小,且准确度高,可以排除高频单字对词汇提取的影响,所以可有效提升分词结果的准确度以及提高分词效率。此外,该方案不依赖语料词典,可实现无监督的候选词汇提取。
在上述实施例的基础上,所述候选词集加入模块具体可用于:当所述共现度大于共现度阈值并且所述邻接相关度大于邻接相关度阈值时,将所述当前中文字符和所述邻接中文字符组成的词语加入候选词集。
在上述实施例的基础上,所述候选词集加入模块具体可用于:
当所述共现度大于共现度阈值,并且所述邻接相关度大于邻接相关度阈值时,将所述当前中文字符和所述邻接中文字符拼接成临时词;
计算所述邻接中文字符和与所述邻接中文字符右相邻的第三中文字符的第二共现度和第二邻接相关度,当所述第二共现度小于所述共现度阈值或者所述第二邻接相关度小于所述邻接相关度阈值时,将所述临时词加入候选词集。
在上述实施例的基础上,所述第一短句编号列表是包含所述当前中文字符的短句对应的短句编号的列表;所述第二短句编号列表是包含所述邻接中文字符的短句对应的短句编号的列表;所述邻接字符集是在所述多个短句中与所述当前中文字符右相邻出现的所有中文字符的集合。
在上述实施例的基础上,该装置还可包括:确定模块,用于在对于所述文本集中的每个中文字符,获取当前中文字符对应的第一短句编号列表之前,确定所述文本集中所有不同中文字符对应的短句编号列表和邻接字符集。
在上述实施例的基础上,所述共现度计算模块具体可用于:
根据所述第一短句编号列表确定所述当前中文字符所在短句的第一位置向量,根据所述第二短句编号列表确定所述邻接中文字符所在短句的第二位置向量,计算所述第一位置向量和所述第二位置向量的夹角的余弦值,得到所述当前中文字符和所述邻接中文字符的共现度;
其中,对于所述多个短句的每个短句,当所述第一短句编号列表中包含当前短句的短句编号时,所述第一位置向量中对应所述当前短句的数值为1,否则,所述第一位置向量中对应所述当前短句的数值为0;当所述第二短句编号列表中包含当前短句的短句编号时,所述第二位置向量中对应所述当前短句的数值为1,否则,所述第二位置向量中对应所述当前短句的数值为0;
所述邻接相关度计算模块具体用于:
计算所述邻接中文字符在所述邻接字符集中出现的总次数与所述邻接字符集中包含的所有中文字符的总数的比值,得到所述当前中文字符和所述邻接中文字符的邻接相关度。
在上述实施例的基础上,所述共现度计算模块具体用于:
根据以下公式计算所述当前中文字符和所述邻接中文字符的共现度,
c o - o c c u r D e g r e e ( x , y ) = x 1 y 1 + x 2 y 2 + L + x n y n x 1 2 + x 2 2 + Lx n 2 · y 1 2 + y 2 2 + Ly n 2
所述邻接相关度计算模块具体用于:
根据以下公式计算所述当前中文字符和所述邻接中文字符的邻接相关度,
r e l a t i o n D e g r e e ( x , y ) = c o u n t ( y ) s u m
在上述两个公式中,1,2,…n为短句编号,x为所述当前中文字符,y为与所述当前中文字符右相邻的邻接中文字符,co-occurDegree(x,y)为x和y的共现度,relationDegree(x,y)为x和y的邻接相关度,所述第一位置向量表示为(x1,x2,…xn),所述第二位置向量表示为(y1,y2,…yn),x1,x2,…xn分别表示所述第一位置向量中对应短句编号为1,2,…n的短句的数值,y1,y2,…yn表示所述第二位置向量中对应短句编号为1,2,…n的短句的数值,count(y)为y在x对应的邻接字符集中出现的总次数,sum为x对应的邻接字符集中包含的所有中文字符的总数。
在上述实施例的基础上,文本集切分模块具体可用于:
依据中文标点符号将文本集切分为多个短句,并为所述多个短句编号。
上述实施例中提供的中文分词装置可执行本发明任意实施例所提供的中文分词方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的中文分词方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种中文分词方法,其特征在于,包括:
将文本集切分为多个短句,并为所述多个短句编号,其中,所述文本集包含至少一个文本;
对于所述文本集中的每个中文字符,获取当前中文字符对应的第一短句编号列表,获取与所述当前中文字符右相邻的邻接中文字符对应的第二短句编号列表,根据所述第一短句编号列表和所述第二短句编号列表计算所述当前中文字符和所述邻接中文字符的共现度;获取所述当前中文字符对应的邻接字符集,根据所述邻接字符集计算所述当前中文字符和所述邻接中文字符的邻接相关度;根据所述共现度和所述邻接相关度确定是否将所述当前中文字符和所述邻接中文字符组成的词语加入候选词集;
根据所述候选词集对所述文本集进行分词。
2.根据权利要求1所述的方法,其特征在于,所述第一短句编号列表是包含所述当前中文字符的短句对应的短句编号的列表;所述第二短句编号列表是包含所述邻接中文字符的短句对应的短句编号的列表;所述邻接字符集是在所述多个短句中与所述当前中文字符右相邻出现的所有中文字符的集合。
3.根据权利要求2所述的方法,其特征在于,在对于所述文本集中的每个中文字符,获取当前中文字符对应的第一短句编号列表之前,还包括:
确定所述文本集中所有不同中文字符对应的短句编号列表和邻接字符集。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一短句编号列表和所述第二短句编号列表计算所述当前中文字符和所述邻接中文字符的共现度,包括:
根据所述第一短句编号列表确定所述当前中文字符所在短句的第一位置向量,根据所述第二短句编号列表确定所述邻接中文字符所在短句的第二位置向量,计算所述第一位置向量和所述第二位置向量的夹角的余弦值,得到所述当前中文字符和所述邻接中文字符的共现度;
其中,对于所述多个短句的每个短句,当所述第一短句编号列表中包含当前短句的短句编号时,所述第一位置向量中对应所述当前短句的数值为1,否则,所述第一位置向量中对应所述当前短句的数值为0;当所述第二短句编号列表中包含当前短句的短句编号时,所述第二位置向量中对应所述当前短句的数值为1,否则,所述第二位置向量中对应所述当前短句的数值为0;
所述根据所述邻接字符集计算所述当前中文字符和所述邻接中文字符的邻接相关度,包括:
计算所述邻接中文字符在所述邻接字符集中出现的总次数与所述邻接字符集中包含的所有中文字符的总数的比值,得到所述当前中文字符和所述邻接中文字符的邻接相关度。
5.根据权利要求4所述的方法,其特征在于,所述计算所述第一位置向量和所述第二位置向量的夹角的余弦值,得到所述当前中文字符和所述邻接中文字符的共现度,包括:
根据以下公式计算所述当前中文字符和所述邻接中文字符的共现度,
c o - o c c u r D e g r e e ( x , y ) = x 1 y 1 + x 2 y 2 + L + x n y n x 1 2 + x 2 2 + Lx n 2 · y 1 2 + y 2 2 + Ly n 2
所述计算所述邻接中文字符在所述邻接字符集中出现的次数与所述邻接字符集中包含的所有中文字符的总数的比值,得到所述当前中文字符和所述邻接中文字符的邻接相关度,包括:
根据以下公式计算所述当前中文字符和所述邻接中文字符的邻接相关度,
r e l a t i o n D e g r e e ( x , y ) = c o u n t ( y ) s u n
在上述两个公式中,1,2,…n为短句编号,x为所述当前中文字符,y为与所述当前中文字符右相邻的邻接中文字符,co-occurDegree(x,y)为x和y的共现度,relationDegree(x,y)为x和y的邻接相关度,所述第一位置向量表示为(x1,x2,…xn),所述第二位置向量表示为(y1,y2,…yn),x1,x2,…xn分别表示所述第一位置向量中对应短句编号为1,2,…n的短句的数值,y1,y2,…yn表示所述第二位置向量中对应短句编号为1,2,…n的短句的数值,count(y)为y在x对应的邻接字符集中出现的总次数,sum为x对应的邻接字符集中包含的所有中文字符的总数。
6.根据权利要求1所述的方法,其特征在于,根据所述共现度和所述邻接相关度确定是否将所述当前中文字符和所述邻接中文字符组成的词语加入候选词集,包括:
当所述共现度大于共现度阈值并且所述邻接相关度大于邻接相关度阈值时,将所述当前中文字符和所述邻接中文字符组成的词语加入候选词集。
7.根据权利要求6所述的方法,其特征在于,当所述共现度大于共现度阈值并且所述邻接相关度大于邻接相关度阈值时,将所述当前中文字符和所述邻接中文字符组成的词语加入候选词集,包括:
当所述共现度大于共现度阈值,并且所述邻接相关度大于邻接相关度阈值时,将所述当前中文字符和所述邻接中文字符拼接成临时词;
计算所述邻接中文字符和与所述邻接中文字符右相邻的第三中文字符的第二共现度和第二邻接相关度,当所述第二共现度小于所述共现度阈值或者所述第二邻接相关度小于所述邻接相关度阈值时,将所述临时词加入候选词集。
8.根据权利要求1所述的方法,其特征在于,将文本集切分为多个短句,并为所述多个短句编号,包括:
依据中文标点符号将文本集切分为多个短句,并为所述多个短句编号。
9.一种中文分词装置,其特征在于,包括:
文本集切分模块,用于将文本集切分为多个短句,并为所述多个短句编号,其中,所述文本集包含至少一个文本;
第一短句编号列表获取模块,用于对于所述文本集中的每个中文字符,获取当前中文字符对应的第一短句编号列表;
第二短句编号列表获取模块,用于获取与所述当前中文字符右相邻的邻接中文字符对应的第二短句编号列表;
共现度计算模块,用于根据所述第一短句编号列表和所述第二短句编号列表计算所述当前中文字符和所述邻接中文字符的共现度;
邻接字符集获取模块,用于获取所述当前中文字符对应的邻接字符集;
邻接相关度计算模块,用于根据所述邻接字符集计算所述当前中文字符和所述邻接中文字符的邻接相关度;
候选词集加入模块,用于根据所述共现度和所述邻接相关度确定是否将所述当前中文字符和所述邻接中文字符组成的词语加入候选词集;
分词模块,用于根据所述候选词集对所述文本集进行分词。
10.根据权利要求9所述的装置,所述候选词集加入模块具体用于:
当所述共现度大于共现度阈值并且所述邻接相关度大于邻接相关度阈值时,将所述当前中文字符和所述邻接中文字符组成的词语加入候选词集。
CN201510924974.3A 2015-12-14 2015-12-14 一种中文分词方法及装置 Active CN105550170B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510924974.3A CN105550170B (zh) 2015-12-14 2015-12-14 一种中文分词方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510924974.3A CN105550170B (zh) 2015-12-14 2015-12-14 一种中文分词方法及装置

Publications (2)

Publication Number Publication Date
CN105550170A true CN105550170A (zh) 2016-05-04
CN105550170B CN105550170B (zh) 2018-10-12

Family

ID=55829359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510924974.3A Active CN105550170B (zh) 2015-12-14 2015-12-14 一种中文分词方法及装置

Country Status (1)

Country Link
CN (1) CN105550170B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503634A (zh) * 2016-10-11 2017-03-15 讯飞智元信息科技有限公司 一种图像对齐方法及装置
CN107577663A (zh) * 2017-08-24 2018-01-12 北京奇艺世纪科技有限公司 一种关键短语抽取方法和装置
CN107633006A (zh) * 2017-08-09 2018-01-26 联动优势科技有限公司 一种词典格式生成方法及电子设备
CN108268438A (zh) * 2016-12-30 2018-07-10 腾讯科技(深圳)有限公司 一种页面内容提取方法、装置以及客户端
CN108717412A (zh) * 2018-06-12 2018-10-30 北京览群智数据科技有限责任公司 基于中文分词的中文校对纠错方法及系统
CN109002460A (zh) * 2018-06-01 2018-12-14 昆明理工大学 一种基于文本自身产生词库的分词方法及系统
CN109344403A (zh) * 2018-09-20 2019-02-15 中南大学 一种增强语义特征嵌入的文本表示方法
CN109858011A (zh) * 2018-11-30 2019-06-07 平安科技(深圳)有限公司 标准词库分词方法、装置、设备及计算机可读存储介质
CN112131866A (zh) * 2020-09-25 2020-12-25 马上消费金融股份有限公司 一种分词方法、装置、设备及可读存储介质
CN113905264A (zh) * 2021-11-24 2022-01-07 深圳市品索科技有限公司 一种基于语音遥控器的语音控制系统
CN114676282A (zh) * 2022-04-11 2022-06-28 北京女娲补天科技信息技术有限公司 一种基于音视频数据的事件录入方法、装置及计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080221863A1 (en) * 2007-03-07 2008-09-11 International Business Machines Corporation Search-based word segmentation method and device for language without word boundary tag
CN101620616A (zh) * 2009-05-07 2010-01-06 北京理工大学 一种基于小世界特性的中文近似网页去重方法
US20120130705A1 (en) * 2010-11-22 2012-05-24 Alibaba Group Holding Limited Text segmentation with multiple granularity levels
CN102955774A (zh) * 2012-05-30 2013-03-06 华东师范大学 一种计算中文词语语义相似度的控制方法以及装置
CN104765838A (zh) * 2012-10-23 2015-07-08 海信集团有限公司 一种分词方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080221863A1 (en) * 2007-03-07 2008-09-11 International Business Machines Corporation Search-based word segmentation method and device for language without word boundary tag
CN101620616A (zh) * 2009-05-07 2010-01-06 北京理工大学 一种基于小世界特性的中文近似网页去重方法
US20120130705A1 (en) * 2010-11-22 2012-05-24 Alibaba Group Holding Limited Text segmentation with multiple granularity levels
CN102955774A (zh) * 2012-05-30 2013-03-06 华东师范大学 一种计算中文词语语义相似度的控制方法以及装置
CN104765838A (zh) * 2012-10-23 2015-07-08 海信集团有限公司 一种分词方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘挺等: "串频统计和词形匹配相结合的汉语自动分词系统", 《中文信息学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503634A (zh) * 2016-10-11 2017-03-15 讯飞智元信息科技有限公司 一种图像对齐方法及装置
CN108268438A (zh) * 2016-12-30 2018-07-10 腾讯科技(深圳)有限公司 一种页面内容提取方法、装置以及客户端
CN108268438B (zh) * 2016-12-30 2021-10-22 腾讯科技(深圳)有限公司 一种页面内容提取方法、装置以及客户端
CN107633006A (zh) * 2017-08-09 2018-01-26 联动优势科技有限公司 一种词典格式生成方法及电子设备
CN107633006B (zh) * 2017-08-09 2020-10-13 联动优势科技有限公司 一种词典格式生成方法及电子设备
CN107577663B (zh) * 2017-08-24 2021-01-12 北京奇艺世纪科技有限公司 一种关键短语抽取方法和装置
CN107577663A (zh) * 2017-08-24 2018-01-12 北京奇艺世纪科技有限公司 一种关键短语抽取方法和装置
CN109002460A (zh) * 2018-06-01 2018-12-14 昆明理工大学 一种基于文本自身产生词库的分词方法及系统
CN108717412A (zh) * 2018-06-12 2018-10-30 北京览群智数据科技有限责任公司 基于中文分词的中文校对纠错方法及系统
CN109344403A (zh) * 2018-09-20 2019-02-15 中南大学 一种增强语义特征嵌入的文本表示方法
CN109858011A (zh) * 2018-11-30 2019-06-07 平安科技(深圳)有限公司 标准词库分词方法、装置、设备及计算机可读存储介质
CN112131866A (zh) * 2020-09-25 2020-12-25 马上消费金融股份有限公司 一种分词方法、装置、设备及可读存储介质
CN113905264A (zh) * 2021-11-24 2022-01-07 深圳市品索科技有限公司 一种基于语音遥控器的语音控制系统
CN114676282A (zh) * 2022-04-11 2022-06-28 北京女娲补天科技信息技术有限公司 一种基于音视频数据的事件录入方法、装置及计算机设备

Also Published As

Publication number Publication date
CN105550170B (zh) 2018-10-12

Similar Documents

Publication Publication Date Title
CN105550170A (zh) 一种中文分词方法及装置
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN103399901A (zh) 一种关键词抽取方法
CN106777275A (zh) 基于多粒度语义块的实体属性和属性值提取方法
CN104484380A (zh) 个性化搜索方法及装置
CN104063387A (zh) 在文本中抽取关键词的装置和方法
CN104834735A (zh) 一种基于词向量的文档摘要自动提取方法
CN103617157A (zh) 基于语义的文本相似度计算方法
CN102968411B (zh) 多语机器翻译智能辅助处理方法和系统
CN102779135B (zh) 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN105677857B (zh) 一种关键词与营销落地页的精准匹配方法和装置
CN103150381B (zh) 一种高精度汉语谓词识别方法
CN105069143A (zh) 提取文档中关键词的方法及装置
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
CN105138514A (zh) 一种基于词典的正向逐次加一字最大匹配中文分词方法
CN107861947A (zh) 一种基于跨语言资源的柬语命名实体识别的方法
CN104731774A (zh) 面向通用机译引擎的个性化翻译方法及装置
CN103106211B (zh) 客户咨询文本的情感识别方法及装置
CN105302882A (zh) 获取关键词的方法及装置
CN104699797A (zh) 一种网页数据结构化解析方法和装置
CN108363688A (zh) 一种融合先验信息的命名实体链接方法
CN110717040A (zh) 词典扩充方法及装置、电子设备、存储介质
CN104572634A (zh) 一种交互式抽取可比语料与双语词典的方法及其装置
CN106776555A (zh) 一种基于字模型的评论文本实体识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant