CN107918605A - 分词处理方法、装置、移动终端及计算机可读存储介质 - Google Patents

分词处理方法、装置、移动终端及计算机可读存储介质 Download PDF

Info

Publication number
CN107918605A
CN107918605A CN201711176381.9A CN201711176381A CN107918605A CN 107918605 A CN107918605 A CN 107918605A CN 201711176381 A CN201711176381 A CN 201711176381A CN 107918605 A CN107918605 A CN 107918605A
Authority
CN
China
Prior art keywords
sentence
segmented
feature vector
individual character
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711176381.9A
Other languages
English (en)
Other versions
CN107918605B (zh
Inventor
肖求根
郑利群
詹金波
邓卓彬
何径舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201711176381.9A priority Critical patent/CN107918605B/zh
Publication of CN107918605A publication Critical patent/CN107918605A/zh
Application granted granted Critical
Publication of CN107918605B publication Critical patent/CN107918605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种分词处理方法、装置、移动终端及计算机可读存储介质,其中,该方法包括:分别获取待分词语句中各单字对应的第一特征向量、两字对应的第二特征向量,及待分词语句中专有名词对应的第三特征向量;根据第一特征向量、第二特征向量及第三特征向量,确定各单字当前的第四特征向量;根据预设的汉字标签转移矩阵及各单字当前的第四特征向量,将待分词语句进行分词处理,确定待分词语句对应的第一分词结果;根据预设的专有名词词典及切分规则,对第一分词结果进行修正,确定待分词语句对应的第二分词结果。由此,实现了对待分词语句的分词处理,有效避免了由于专有名词导致的分词准确率下降的问题,提高了分词结果的准确性和可靠性,改善了用户体验。

Description

分词处理方法、装置、移动终端及计算机可读存储介质
技术领域
本发明涉及分词处理技术领域,尤其涉及一种分词处理方法、装置、移动终端及计算机可读存储介质。
背景技术
随着计算机技术的不断发展,分词技术已经广泛应用于搜索引擎、机器翻译、语音合成、自动摘要等领域。其中,分词技术是指将一句或者一段文字切分成一个一个词语的技术。
在实际运用中,待分词语句中经常会包含“喜马拉雅山”、“电视机”等专名粒度词,而现有的分词方法,容易出现分词边界错误,将专名粒度词等进行分词的问题,准确性和可靠性差,用户体验差。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明提出一种分词处理方法,实现了对待分词语句的分词处理,有效避免了由于专有名词导致的分词准确率下降的问题,提高了分词结果的准确性和可靠性,改善了用户体验。
本发明还提出一种分词处理装置。
本发明还提出一种移动终端。
本发明还提出一种计算机可读存储介质。
本发明第一方面实施例提出了一种分词处理方法,包括:分别获取待分词语句中各单字对应的第一特征向量、两字对应的第二特征向量,及所述待分词语句中专有名词对应的第三特征向量;根据所述第一特征向量、第二特征向量及第三特征向量,确定各单字当前的第四特征向量;根据预设的汉字标签转移矩阵及所述各单字当前的第四特征向量,将所述待分词语句进行分词处理,确定所述待分词语句对应的第一分词结果;根据预设的专有名词词典及切分规则,对所述第一分词结果进行修正,确定所述待分词语句对应的第二分词结果。
本发明实施例的分词处理方法,在获取待分词语句中各单字对应的第一特征向量、两字对应的第二特征向量及待分词语句中专有名词对应的第三特征向量后,可以根据第一特征向量、第二特征向量及第三特征向量,确定各单字当前的第四特征向量,再根据预设的汉字标签转移矩阵及各单字当前的第四特征向量,将待分词语句进行分词处理,确定待分词语句对应的第一分词结果,最后根据预设的专有名词词典及切分规则,对第一分词结果进行修正,确定待分词语句对应的第二分词结果。由此,实现了对待分词语句的分词处理,有效避免了由于专有名词导致的分词准确率下降的问题,提高了分词结果的准确性和可靠性,改善了用户体验。
本发明第二方面实施例提出了一种分词处理装置,包括:获取模块,用于分别获取待分词语句中各单字对应的第一特征向量、两字对应的第二特征向量,及所述待分词语句中专有名词对应的第三特征向量;第一确定模块,用于根据所述第一特征向量、第二特征向量及第三特征向量,确定各单字当前的第四特征向量;第一处理模块,用于根据预设的汉字标签转移矩阵及所述各单字当前的第四特征向量,将所述待分词语句进行分词处理,确定所述待分词语句对应的第一分词结果;第二处理模块,用于根据预设的专有名词词典及切分规则,对所述第一分词结果进行修正,确定所述待分词语句对应的第二分词结果。
本发明实施例的分词处理装置,在获取待分词语句中各单字对应的第一特征向量、两字对应的第二特征向量及待分词语句中专有名词对应的第三特征向量后,可以根据第一特征向量、第二特征向量及第三特征向量,确定各单字当前的第四特征向量,再根据预设的汉字标签转移矩阵及各单字当前的第四特征向量,将待分词语句进行分词处理,确定待分词语句对应的第一分词结果,最后根据预设的专有名词词典及切分规则,对第一分词结果进行修正,确定待分词语句对应的第二分词结果。由此,实现了对待分词语句的分词处理,有效避免了由于专有名词导致的分词准确率下降的问题,提高了分词结果的准确性和可靠性,改善了用户体验。
本发明第三方面实施例提出了一种移动终端,包括:
存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如第一方面所述的分词处理方法。
本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,当所述程序被处理器执行时实现如第一方面所述的分词处理方法。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一个实施例的分词处理方法的流程图;
图2是本发明另一个实施例的分词处理方法的流程图;
图3是本发明一个实施例的分词处理装置的结构示意图;
图4是本发明另一个实施例的分词处理装置的结构示意图;
图5是本发明一个实施例的移动终端的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
具体的,本发明各实施例针对现有的分词方法,容易出现分词边界错误,将专名粒度词等进行分词的情况,准确性和可靠性差,用户体验差的问题,提出一种分词处理方法。
本发明实施例提出的分词处理方法,分别获取待分词语句中各单字对应的第一特征向量、两字对应的第二特征向量,及待分词语句中专有名词对应的第三特征向量后,首先根据第一特征向量、第二特征向量及第三特征向量,确定各单字当前的第四特征向量,再根据预设的汉字标签转移矩阵及各单字当前的第四特征向量,将待分词语句进行分词处理,确定待分词语句对应的第一分词结果,最后根据预设的专有名词词典及切分规则,对第一分词结果进行修正,确定待分词语句对应的第二分词结果。由此,实现了对待分词语句的分词处理,有效避免了由于专有名词导致的分词准确率下降的问题,提高了分词结果的准确性和可靠性,改善了用户体验。
下面结合附图,对本发明实施例提供的分词处理方法进行详细说明。
图1是本发明一个实施例的分词处理方法的流程图。
如图1所示,该分词处理方法包括:
步骤101,分别获取待分词语句中各单字对应的第一特征向量、两字对应的第二特征向量,及待分词语句中专有名词对应的第三特征向量。
具体的,本发明实施例提供的分词处理方法的执行主体,为本发明实施例提供的分词处理装置,该装置可以被配置在任何移动终端中,以对待分词语句进行分词处理。
其中,单字,可以是对待分词语句进行分词时的最小划分单元。比如,待分词语句为汉语类型时,单字可以是一个字;待分词语句为英语类型时,单字可以是一个单词。
专有名词是指表示人、地方、事物、机构名等特有的、不宜切分的名词,比如喜马拉雅山、诸葛亮等。需要说明的是,成语、百科专名等也可以认为是专有名词。
具体的,可以预先设置包含多个专有名词的专有名词词典,从而可以将待分词语句中,与专有名词词典中的任一专有名词匹配的词,确定为专有名词。
其中,预设的专有名词词典,可以是通过人工标注的大量语料得到的,也可以是利用分类模型得到的,此处不作限制。
在本发明实施例中,单字对应的第一特征向量,用来表征该单字的标签分别为开头字、中间字、结束字和单字词组的权值,其可以为4维的特征向量;两字对应的第二特征向量,用来表征两字中每个单字分别与另一个单字组合时,每个单字的标签分别为开头字、中间字、结束字和单字词组的权值,其可以为8维的特征向量;专有名词对应的第三特征向量,用来表征专有名词中每个单字分别与专有名词中的其它单字组合时,每个单字的标签分别为开头字、中间字、结束字和单字词组的权值,其维数与专有名词中的单字数量有关。
具体实现时,可以通过查询预设的发射矩阵词典,获取待分词语句中各单字对应的第一特征向量、两字对应的第二特征向量及专有名词对应的第三特征向量。
在本发明实施例中,预设的发射矩阵词典,可以通过结构化感知机对训练语料进行训练得到。其中,训练语料可以是通过人工标注的大量语料得到的,也可以是基于统计的无监督分词模型或其它具有较高分词准确度的分词模型,对大量语料进行分词处理后得到的,此处不作限制。
具体的,发射矩阵词典中,可以包括训练语料中出现的各单字的特征向量,其中,各单字的特征向量可以是4维特征向量;发射矩阵词典中还可以包括训练语料中出现的两字词组的特征向量,各两字词组的特征向量可以是8维特征向量;发射矩阵词典中还可以包括训练语料中出现的专有名词的特征向量。获取待分词语句后,通过查询预设的发射矩阵词典,即可获取待分词语句中各单字对应的第一特征向量、两字对应的第二特征向量及专有名词对应的第三特征向量。
需要说明的是,若预设的发射矩阵词典中,未包括与待分词语句中某两字或专有名词对应的特征向量,则可以将该两字对应的第二特征向量或专有名词对应的第三特征向量记为0。
在一个具体的例子中,“我”字的4维的特征向量为[A1A2A3A4],其中,A1至A4 分别为在训练语料中“我”字的标签分别为开头字、中间字、结束字和单字词组的权值,且各权值的和为1。
在一个具体的例子中,“喜欢”词组的8维的两字特征向量为[B1B2B3B4B5B6B7B8]。其中,B1至B4分别为在训练语料中“喜欢”这一词组中“喜”字的标签分别为开头字、中间字、结束字和单字词组的权值;B5至B8分别为在训练语料中“喜欢”这一词组中“欢”字的标签分别为开头字、中间字、结束字和单字词组的权值,且每个单字对应的各权值的和为1,即两字特征向量中各权值的和为2。
在一个具体的例子中,专有名词“电视机”的12维的三字特征向量为[B1B2B3B4B5B6B7B8B9B10B11B12]。其中,B1至B4分别为在训练语料中“电视机”这一词组中“机”字的标签分别为开头字、中间字、结束字和单字词组的权值;B5至B8分别为在训练语料中“电视机”这一词组中“视”字的标签分别为开头字、中间字、结束字和单字词组的权值;B9至B12分别为在训练语料中“电视机”这一词组中“机”字的标签分别为开头字、中间字、结束字和单字词组的权值,且每个单字对应的各权值的和为1,即三字特征向量中各权值的和为3。
步骤102,根据第一特征向量、第二特征向量及第三特征向量,确定各单字当前的第四特征向量。
其中,第四特征向量可以为4维的特征向量,且各权值的和为1。
具体的,可以通过将第一特征向量、第二特征向量及第三特征向量线性叠加,得到各单字当前的第四特征向量。
步骤103,根据预设的汉字标签转移矩阵及各单字当前的第四特征向量,将待分词语句进行分词处理,确定待分词语句对应的第一分词结果。
其中,预设的汉字标签转移矩阵,可以通过结构化感知机对训练语料进行训练得到。其中,训练语料可以是通过人工标注的大量语料得到的,也可以是基于统计的无监督分词模型或其它具有较高分词准确度的分词模型,对大量语料进行分词处理后得到的,此处不作限制。
具体的,汉字标签转移矩阵是一个4×4的矩阵,其中的数值表明了汉字标签间的转移概率。其中,汉字标签具体为开头字、中间字、结束字和单字词组这四种标签,分别用b、m、e和s表示。汉字标签转移矩阵中的四行从上到下依次对应开头字、中间字、结束字和单字词组,四列从左到右也是依次对应开头字、中间字、结束字和单字词组。举例来说,汉字标签转移矩阵的第二行第四列的数值表示从“中间字”转变为“单字词组”的概率。
具体的,将预设的汉字标签转移矩阵及各单字当前的第四特征向量,进行马尔可夫解码处理,即可确定待分词语句对应的第一分词结果。
需要说明的是,待分词语句中包含的专有名词,可能是成语等边界确信即边界稳定的词,如“愚公移山”,也可能是边界容易受到影响即边界不稳定的词,比如“身份证”等。若利用边界不稳定的专有名词对应的第三特征向量,确定各单字当前的第四特征向量,以对待分词语句进行分词处理,可能会影响分词结果的准确性。因此,为了提高分词结果的准确性和可靠性,在本发明实施例中,确定各单字当前的第四特征向量时,利用的专有名词的第三特征向量,可以仅是边界稳定的专有名词对应的第三特征向量。
具体实现时,可以预先对专有名词词典中的特有名词及成语等边界稳定的词语进行标注,从而可以通过查询专有名词词典,确定待分词语句中包括的边界稳定的专有名词,同时获取边界稳定的专有名词对应的第三特征向量,进而利用第三特征向量,确定各单字当前的第四特征向量,以进行分词处理,确定待分词语句对应的第一分词结果。
或者,可以利用预设的专有名词识别模型识别待分词语句中专有名词,并输出其置信度,确定待分词语句中的边界稳定的专有名词,进而利用边界稳定的专有名词对应的第三特征向量,确定各单字当前的第四特征向量,以进行分词处理,确定待分词语句对应的第一分词结果。其中,预设的专有名词识别模型为用于对专有名词进行序列标注的工具。
即,步骤101之前,还可以包括:
确定待分词语句中专有名词的置信度大于阈值。
其中,置信度,用于表征专有名词的边界稳定程度。
具体的,可以预先设置置信度阈值,并预先确定专有名词词典中的各专有名词的置信度,从而可以通过查询预先设置的专有名词词典,确定待分词语句中置信度大于预设阈值的专有名词,同时确定置信度大于预设阈值的专有名词对应的第三特征向量,进而利用第三特征向量,确定各单字当前的第四特征向量,以进行分词处理,确定待分词语句对应的第一分词结果。
步骤104,根据预设的专有名词词典及切分规则,对第一分词结果进行修正,确定待分词语句对应的第二分词结果。
可以理解的是,由于利用待分词语句中专有名词对应的第三特征向量,确定各单字当前的第四特征向量时,利用的可能是边界稳定的专有名词对应的第三特征向量,这就有可能导致待分词语句对应的第一分词结果中,边界不稳定的专有名词的分词结果错误。比如,待分词语句中包括专有名词“喜马拉雅山”和“身份证”,而“喜马拉雅山”为边界稳定的词语,“身份证件”为边界不稳定的词语,则根据各第一特征向量、第二特征向量和“喜马拉雅山”的第三特征向量,确定第四特征向量后,得到的第一分词结果中,“喜马拉雅山”不会被切分,而“身份证”可能被切分为“身份”和“证”。
因此,在本发明实施例中,确定了待分词语句对应的第一分词结果后,还可以根据预设的专有名词词典及切分规则,对第一分词结果进行修正,确定待分词语句对应的第二分词结果。
其中,切分规则,是指用于规定是否对待分词语句中的特定词条进行切分的规则。比如,可以规定当待分词语句中包括“https://www.”时,不对“https://www.”及其后面的字符进行切分,或者,可以规定当待分词语句中包括浮点数时,不对浮点数进行切分,等等。
具体实现时,可以对专有名词词典中边界不稳定的词语进行标注,若第一分词结果中包括专有名词词典中标注的边界不稳定的词语,而该词语在第一分词结果中被完全切分,专有名词边界与分词边界吻合,则可以根据预设的专有名词词典,对第一分词结果进行修正,确定待分词语句对应的第二分词结果。
举例来说,假设专有名词词典中将“身份证”标注为边界不稳定的专有名词,而在第一分词结果中,将“身份证”切分为“身份”和“证”,则可以根据预设的专有名词词典,将第一分词结果中对应分词片段修正为“身份证”一词,即不对“身份证”进行切分。
或者,可以利用前述专有名词识别模型识别待分词语句中专有名词和对应置信度,判断第一分词结果中,是否有置信度小于预设阈值的专有名词。根据该专有名词的边界,对第一分词结果进行修正,确定待分词语句对应的第二分词结果。
另外,若第一分词结果中,将切分规则规定的不宜切分的词语进行了切分,则可以根据切分规则,对第一分词结果进行修正,确定待分词语句对应的第二分词结果,从而使得分词处理结果更准确可靠。
需要说明的是,在本发明实施例中,确定各单字当前的第四特征向量和对第一分词结果进行修正时所用的专有名词词典,可以是同一专有名词词典,仅是分别标记出边界稳定和边界不稳定的词语,或者标记出专有名词词典中的各专有名词的置信度大小。或者,确定各单字当前的第四特征向量和对第一分词结果进行修正时所用的专有名词词典,也可以是不同的专有名词词典,不同词典中分别包括边界稳定和边界不稳定的专有名词,本申请对此不作限制。
本发明实施例的分词处理方法,在获取待分词语句中各单字对应的第一特征向量、两字对应的第二特征向量及待分词语句中专有名词对应的第三特征向量后,可以根据第一特征向量、第二特征向量及第三特征向量,确定各单字当前的第四特征向量,再根据预设的汉字标签转移矩阵及各单字当前的第四特征向量,将待分词语句进行分词处理,确定待分词语句对应的第一分词结果,最后根据预设的专有名词词典及切分规则,对第一分词结果进行修正,确定待分词语句对应的第二分词结果。由此,实现了对待分词语句的分词处理,有效避免了由于专有名词导致的分词准确率下降的问题,提高了分词结果的准确性和可靠性,改善了用户体验。
下面结合图2,对本发明实施例提供的分词处理方法进行进一步说明。
图2是本发明另一个实施例的分词处理方法的流程图。
如图2所示,该方法包括:
步骤201,将待分词语句中包括的各字符进行归一化处理。
可以理解的是,待分词语句中包括的各字符的类型可能不同。比如,待分词语句中可能既包括中文类型的字符,也包括英文类型的字符;或者,待分词语句中可能既包括简体字,也包括繁体字;或者,待分词语句中可能既包括全角字符也包括半角字符,等等。在本发明实施例中,可以先将待分词语句中包括的各字符进行归一化处理,从而使待分词语句中包括的各字符的类型相同,再进行后续的分词处理。通过将待分词语句中包括的各字符进行归一化处理,可以提高分词结果的准确性和可靠性。
需要说明的是,对待分词语句中包括的各字符进行归一化处理时,可以将各字符的类型统一为待分词语句中大多数字符所属的字符类型。
步骤202,确定待分词语句中置信度大于阈值的专有名词的第三特征向量。
具体的,可以预先设置置信度阈值,并预先确定专有名词词典中的各专有名词的置信度,从而可以通过查询预先设置的专有名词词典,确定待分词语句中置信度大于预设阈值的专有名词,同时确定置信度大于预设阈值的专有名词对应的第三特征向量。
或者,也可以根据预先设置的置信度阈值,设置第一专有名词词典中包括置信度大于阈值的专有名词,第二专有名词词典中包括置信度小于或等于阈值的专有名词,从而通过查询第一专有名词词典,确定待分词语句中是否包括置信度大于阈值的专有名词,同时确定置信度大于预设阈值的专有名词对应的第三特征向量。
步骤203,通过查询预设的发射矩阵词典,获取待分词语句中除专有名词之外的各单字对应的第一特征向量、两字对应的第二特征向量。
其中,确定第一特征向量和第二特征向量的过程,可以参照上述实施例的详细描述,此处不再赘述。
步骤204,根据第一特征向量、第二特征向量和/或第三特征向量,确定待分词语句中各单字当前的第四特征向量。
具体的,可以通过将第一特征向量、第二特征向量及第三特征向量线性叠加,得到各单字当前的第四特征向量。
需要说明的是,由于第一特征向量、第二特征向量及第三特征向量的维数可能不同,第一特征向量的维数通常小于第二特征向量和第三特征向量的维数,因此在将第一特征向量、第二特征向量及第三特征向量线性叠加时,可以先分别从第二特征向量和第三特征向量中提取与第一特征向量的维数相同的特征向量,再与第一特征向量线性叠加,以得到第四特征向量。其中,从第二特征向量或第三特征向量中提取特征向量时,需要结合两字或专有名词中单字的具体位置进行提取。
比如,以从第二特征向量中提取与第一特征向量的维数相同的特征向量为例,假设待分词语句中包括“喜欢”,其中“喜欢”的第二特征向量为[B1B2B3B4B5B6B7B8],“喜”的第一特征向量为[B9B10B11B12],由于B1至B4分别为“喜欢”这一词组中“喜”字的标签分别为开头字、中间字、结束字和单字词组的权值,则可以从第二特征向量中提取 [B1B2B3B4],用于确定“喜”的第四特征向量。
另外,由于第四特征向量中各权值的和为1,因此在将第一特征向量、第二特征向量和第三特征向量线性叠加时,可以将各特征向量与预设的权重相乘后,再将对应位置的权值相加,或者将第一特征向量、第二特征向量和第三特征向量线性叠加后,再通过归一化处理,使生成的第四特征向量中各权值的和为1。其中,预设的权重可以根据需要设置,可以使第四特征向量中的各权值的和为1即可。
举例来说,假设待分词语句包括专有名词“电视机”,其中,“机”字对应的第一特征向量为[C1C2C3C4],“视机”对应的第二特征向量为[D1D2D3D4D5D6D7D8],“电视机”对应的第三特征向量为[B1B2B3B4B5B6B7B8B9B10B11B12]。
由于D5至D8分别为“视机”这一词组中“机”字的标签分别为开头字、中间字、结束字和单字词组的权值,B9至B12分别为“电视机”这一词组中“机”字的标签分别为开头字、中间字、结束字和单字词组的权值,因此可以从第二特征向量中提取[D5D6D7D8],从第三特征向量中提取[B9B10B11B12],然后根据[C1C2C3C4]、[D5D6D7D8]和[B9 B10B11B12],得到“机”字当前的第四特征向量[E1E2E3E4]。
其中,E1=C1*0.4+D5*0.3+B9*0.3,E2=C2*0.4+D6*0.3+B10*0.3, E3=C3*0.4+D7*0.3+B11*0.3,E4=C4*0.4+D8*0.3+B12*0.3,0.4、0.3、0.3分别为预设的权重。
值得注意的是,待分词语句中,各单字可能是包含在专有名词中的单字,也可能不是包含在专有名词中的单字。比如待分词语句为“我登喜马拉雅山”时,“我”和“登”不是包含在专有名词“喜马拉雅山”中的单字,“喜”、“马”、“拉”、“雅”、“山”是包含在专有名词“喜马拉雅山”中的单字。在本发明实施例中,若某单字不是包含在专有名词中的单字,则仅利用该单字对应的第一特征向量和包含该单字的两字对应的第二特征向量,确定该单字当前的第四特征向量。仅在该单字是包含在专有名词中的单字时,才利用该单字对应的第一特征向量、包含该单字的两字对应的第二特征向量及包含该单字的专有名词的第三特征向量,确定该单字当前的第四特征向量。
另外,由于待分词语句中第一个单字即首字仅能和第二个单字组成两字,最后一个单字即尾字仅能和其前边的单字组成两字,而除首字和尾字之外的其它单字,即中间位置的单字,可以和其前后的单字分别组成两字,因此根据第二特征向量,确定各单字当前的第四特征向量时,对首字和尾字来说,根据的为一个第二特征向量,而对于中间位置的字来说,根据的为两个第二特征向量。
也即是说,确定各单字当前的第四特征向量时,参照的是与该单字有关的所有特征向量。
举例来说,假设待分词语句为“我登喜马拉雅山”,其中,“喜马拉雅山”为专有名词。确定“我”字当前的第四特征向量时,根据的是“我”字对应的第一特征向量,和“我登”两字对应的第二特征向量;确定“登”字当前的第四特征向量时,根据的是“登”字对应的第一特征向量、“我登”两字对应的第二特征向量、“登喜”两字对应的第二特征向量;确定“喜”字当前的第四特征向量时,根据的是“喜”字对应的第一特征向量、“登喜”对应的第二特征向量、“喜马”对应的第二特征向量、“喜马拉雅山”对应的第三特征向量。
本领域技术人员可以理解的是,通过使用结构化感知机对语料进行训练,不但可以得到训练语料中单字的特征向量和两字的特征向量,同时也可以得到三字特征向量、四字特征向量等多种多字特征向量。由于确定各单字当前的第四特征向量时,需要参照与各单字有关的所有特征向量的数值,因此,如果特征向量过多,会大大降低分词的处理速度。因此,在本实施例中,在综合考虑计算速度和计算准确度的前提下,可以只根据待分词语句中各单字对应的第一特征向量、两字对应的第二特征向量和专有名词对应的第三特征向量,确定各单字当前的第四特征向量。
值得注意的是,由于置信度大于阈值的专有名词的边界稳定,因此在确定专有名词包括的各单字当前的第四特征向量时,可以仅根据专有名词包括的各单字的第三特征向量确定,而除专有名词之外的其它各单字当前的第四特征向量,根据各单字当前的第一特征向量、两字当前的第二特征向量确定。从而获取待分词语句中各单字对应的第一特征向量和两字对应的第二特征向量时,只需获取待分词语句中除专有名词之外的各单字的第一特征向量,和除专有名词之外的各两字的第二特征向量即可。
举例来说,假设待分词语句为“我登喜马拉雅山”,其中,“喜马拉雅山”为专有名词。确定“我”字当前的第四特征向量时,可以根据“我”字对应的第一特征向量,和“我登”两字对应的第二特征向量确定;确定“登”字当前的第四特征向量时,可以根据“登”字对应的第一特征向量、“我登”两字对应的第二特征向量、“登喜”两字对应的第二特征向量确定;确定“喜”字当前的第四特征向量时,可以根据“喜马拉雅山”对应的第三特征向量确定;确定“马”字当前的第四特征向量时,可以根据“喜马拉雅山”对应的第三特征向量确定。
步骤205,根据预设的汉字标签转移矩阵及各单字当前的第四特征向量,进行马尔可夫解码处理,确定待分词语句对应的第一分词结果。
步骤206,根据预设的专有名词词典及切分规则,对第一分词结果进行修正,确定待分词语句对应的第二分词结果。
其中,预设的汉字标签转移矩阵及其获取过程可以参照上述实施例的描述,此处不再赘述。
另外,步骤202与步骤206中的预设的专有名词词典,可以是同一词典,或者,也可以是分别包括置信度大于阈值的专有名词和置信度小于或等于阈值的专有名词的不同词典,此处不作限制。
具体的,由于第四特征向量为4维的特征向量,汉字标签转移矩阵为4×4的矩阵,因此将各单字当前的第四特征向量与汉字标签转移矩阵相乘,可以得到各单字当前对应的一个4维的标签向量。根据各单字当前对应的标签向量,即可将待分词语句进行分词处理,得到待分词语句对应的第一分词结果,进而根据预设的专有名词词典及切分规则,对第一分词结果进行修正,即可确定待分词语句对应的第二分词结果。
其中,标签向量,用来表征各单字的标签分别为开头字、中间字、结束字和单字词组的权值。
举例来说,假设待分词语句包括单字a、b、c、d、e,分别将单字a、b、c、d、e当前的第四特征向量与汉字标签转移矩阵相乘得到标签向量后,根据各单字当前对应的标签向量,确定a、b、e作为单字词的权值较大,c、d作为单字词的权值较小,且c作为开头字的权值较大,d作为结束字的权值较大,则可以将待分词语句标注为按“a/b/cd/e”进行分词。
本发明实施例的分词处理方法,将待分词语句中包括的各字符进行归一化处理后,可以通过查询预设的发射矩阵词典,获取待分词语句中各单字对应的第一特征向量、两字对应的第二特征向量及待分词语句中置信度大于阈值的专有名词对应的第三特征向量,再根据第一特征向量、第二特征向量及第三特征向量,确定各单字当前的第四特征向量,再根据预设的汉字标签转移矩阵及各单字当前的第四特征向量,进行马尔可夫解码处理,确定待分词语句对应的第一分词结果,最后根据预设的专有名词词典及切分规则,对第一分词结果进行修正处理,确定待分词语句对应的第二分词结果。由此,实现了对待分词语句的分词处理,有效避免了由于专有名词导致的分词准确率下降的问题,提高了分词结果的准确性和可靠性,改善了用户体验。
图3是本发明一个实施例的分词处理装置的结构示意图。
如图3所示,该分词处理装置包括:
获取模块31,用于分别获取待分词语句中各单字对应的第一特征向量、两字对应的第二特征向量,及待分词语句中专有名词对应的第三特征向量;
第一确定模块32,用于根据第一特征向量、第二特征向量及第三特征向量,确定各单字当前的第四特征向量;
第一处理模块33,用于根据预设的汉字标签转移矩阵及各单字当前的第四特征向量,将待分词语句进行分词处理,确定所述待分词语句对应的第一分词结果;
第二处理模块34,用于根据预设的专有名词词典及切分规则,对所述第一分词结果进行修正,确定所述待分词语句对应的第二分词结果。
具体的,本发明实施例提供的分词处理装置,可以执行本发明实施例提供的分词处理方法,该装置可以被配置在任何移动终端中,以对待分词语句进行分词处理。
在本申请实施例一种可能的实现形式中,上述第一处理模块33,具体用于:
将预设的汉字标签转移矩阵及各单字当前的第四特征向量,进行马尔可夫解码处理,确定待分词语句对应的第一分词结果。
在本申请实施例另一种可能的实现形式中,上述获取模块31,具体用于:
通过查询预设的发射矩阵词典,获取待分词语句中各单字对应的第一特征向量。
需要说明的是,前述对分词处理方法实施例的解释说明也适用于该实施例的分词处理装置,此处不再赘述。
本发明实施例的分词处理装置,在获取待分词语句中各单字对应的第一特征向量、两字对应的第二特征向量及待分词语句中专有名词对应的第三特征向量后,可以根据第一特征向量、第二特征向量及第三特征向量,确定各单字当前的第四特征向量,再根据预设的汉字标签转移矩阵及各单字当前的第四特征向量,将待分词语句进行分词处理,确定待分词语句对应的第一分词结果,最后根据预设的专有名词词典及切分规则,对第一分词结果进行修正,确定待分词语句对应的第二分词结果。由此,实现了对待分词语句的分词处理,有效避免了由于专有名词导致的分词准确率下降的问题,提高了分词结果的准确性和可靠性,改善了用户体验。
图4是本发明另一个实施例的分词处理装置的结构示意图。
如图4所示,在图3的基础上,该分词处理装置,还包括:
第三处理模块41,用于将待分词语句中包括的各字符进行归一化处理;
第二确定模块42,用于确定待分词语句中专有名词的置信度大于阈值。
需要说明的是,前述对分词处理方法实施例的解释说明也适用于该实施例的分词处理装置,此处不再赘述。
本发明实施例的分词处理装置,在获取待分词语句中各单字对应的第一特征向量、两字对应的第二特征向量及待分词语句中专有名词对应的第三特征向量后,可以根据第一特征向量、第二特征向量及第三特征向量,确定各单字当前的第四特征向量,再根据预设的汉字标签转移矩阵及各单字当前的第四特征向量,将待分词语句进行分词处理,确定待分词语句对应的第一分词结果,最后根据预设的专有名词词典及切分规则,对第一分词结果进行修正,确定待分词语句对应的第二分词结果。由此,实现了对待分词语句的分词处理,有效避免了由于专有名词导致的分词准确率下降的问题,提高了分词结果的准确性和可靠性,改善了用户体验。
图5为本发明实施例提供的一种移动终端的结构示意图。
如图5所示,该移动终端包括:
存储器51、处理器52及存储在存储器51上并可在处理器52上运行的计算机程序。
处理器52执行所述程序时实现上述实施例中提供的分词处理方法。
其中,移动终端可以是电脑、手机、可穿戴设备等。
进一步地,移动终端还包括:
通信接口53,用于存储器51和处理器52之间的通信。
存储器51,用于存放可在处理器52上运行的计算机程序。
存储器51可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
处理器52,用于执行所述程序时实现上述实施例所述的分词处理方法。
如果存储器51、处理器52和通信接口53独立实现,则通信接口53、存储器51和处理器52可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称ISA)总线、外部设备互连(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,简称EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅以一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选地,在具体实现时,如果存储器51、处理器52及通信接口53,集成在一块芯片上实现,则存储器51、处理器52及通信接口53可以通过内部接口完成相互间的通信。
处理器52可以是一个中央处理器(Central Processing Unit,简称CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,当该程序被处理器执行时实现如前述实施例中的分词处理方法。
本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行如前述实施例中的分词处理方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种分词处理方法,其特征在于,包括:
分别获取待分词语句中各单字对应的第一特征向量、两字对应的第二特征向量,及所述待分词语句中专有名词对应的第三特征向量;
根据所述第一特征向量、第二特征向量及第三特征向量,确定各单字当前的第四特征向量;
根据预设的汉字标签转移矩阵及所述各单字当前的第四特征向量,将所述待分词语句进行分词处理,确定所述待分词语句对应的第一分词结果;
根据预设的专有名词词典及切分规则,对所述第一分词结果进行修正,确定所述待分词语句对应的第二分词结果。
2.如权利要求1所述的方法,其特征在于,所述确定待分词语句中各单字对应的第一特征向量之前,还包括:
将所述待分词语句中包括的各字符进行归一化处理。
3.如权利要求1所述的方法,其特征在于,所述将所述待分词语句进行分词处理,包括:
将所述预设的汉字标签转移矩阵及所述各单字当前的第四特征向量,进行马尔可夫解码处理,确定所述待分词语句对应的第一分词结果。
4.如权利要求1-3任一所述的方法,其特征在于,所述获取待分词语句中各单字对应的第一特征向量,包括:
通过查询预设的发射矩阵词典,获取所述待分词语句中各单字对应的第一特征向量。
5.如权利要求1-3任一所述的方法,其特征在于,所述获取所述待分词语句中专有名词对应的第三特征向量之前,还包括:
确定所述待分词语句中专有名词的置信度大于阈值。
6.一种分词处理装置,其特征在于,包括:
获取模块,用于分别获取待分词语句中各单字对应的第一特征向量、两字对应的第二特征向量,及所述待分词语句中专有名词对应的第三特征向量;
第一确定模块,用于根据所述第一特征向量、第二特征向量及第三特征向量,确定各单字当前的第四特征向量;
第一处理模块,用于根据预设的汉字标签转移矩阵及所述各单字当前的第四特征向量,将所述待分词语句进行分词处理,确定所述待分词语句对应的第一分词结果;
第二处理模块,用于根据预设的专有名词词典及切分规则,对所述第一分词结果进行修正,确定所述待分词语句对应的第二分词结果。
7.如权利要求6所述的装置,其特征在于,还包括:
第三处理模块,用于将所述待分词语句中包括的各字符进行归一化处理。
8.如权利要求6所述的装置,其特征在于,所述第一处理模块,具体用于:
将所述预设的汉字标签转移矩阵及所述各单字当前的第四特征向量,进行马尔可夫解码处理,确定所述待分词语句对应的第一分词结果。
9.如权利要求6-8任一所述的装置,其特征在于,所述获取模块,具体用于:
通过查询预设的发射矩阵词典,获取所述待分词语句中各单字对应的第一特征向量。
10.如权利要求6-8任一所述的装置,其特征在于,还包括:
第二确定模块,用于确定所述待分词语句中专有名词的置信度大于阈值。
11.一种移动终端,包括:
存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一所述的分词处理方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的分词处理方法。
CN201711176381.9A 2017-11-22 2017-11-22 分词处理方法、装置、移动终端及计算机可读存储介质 Active CN107918605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711176381.9A CN107918605B (zh) 2017-11-22 2017-11-22 分词处理方法、装置、移动终端及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711176381.9A CN107918605B (zh) 2017-11-22 2017-11-22 分词处理方法、装置、移动终端及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN107918605A true CN107918605A (zh) 2018-04-17
CN107918605B CN107918605B (zh) 2021-08-20

Family

ID=61896870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711176381.9A Active CN107918605B (zh) 2017-11-22 2017-11-22 分词处理方法、装置、移动终端及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN107918605B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008475A (zh) * 2019-04-10 2019-07-12 出门问问信息科技有限公司 分词处理方法、装置、设备及存储介质
CN111062206A (zh) * 2018-10-16 2020-04-24 株式会社理光 一种子词单元的拆分方法、装置及计算机可读存储介质
CN111310452A (zh) * 2018-12-12 2020-06-19 北京京东尚科信息技术有限公司 一种分词方法和装置
CN111897958A (zh) * 2020-07-16 2020-11-06 邓桦 基于自然语言处理的古诗词分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8965127B2 (en) * 2013-03-14 2015-02-24 Konica Minolta Laboratory U.S.A., Inc. Method for segmenting text words in document images
CN105095196A (zh) * 2015-07-24 2015-11-25 北京京东尚科信息技术有限公司 文本中新词发现的方法和装置
CN107168955A (zh) * 2017-05-23 2017-09-15 南京大学 利用基于词上下文的字嵌入与神经网络的中文分词方法
CN107273357A (zh) * 2017-06-14 2017-10-20 北京百度网讯科技有限公司 基于人工智能的分词模型的修正方法、装置、设备和介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8965127B2 (en) * 2013-03-14 2015-02-24 Konica Minolta Laboratory U.S.A., Inc. Method for segmenting text words in document images
CN105095196A (zh) * 2015-07-24 2015-11-25 北京京东尚科信息技术有限公司 文本中新词发现的方法和装置
CN107168955A (zh) * 2017-05-23 2017-09-15 南京大学 利用基于词上下文的字嵌入与神经网络的中文分词方法
CN107273357A (zh) * 2017-06-14 2017-10-20 北京百度网讯科技有限公司 基于人工智能的分词模型的修正方法、装置、设备和介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062206A (zh) * 2018-10-16 2020-04-24 株式会社理光 一种子词单元的拆分方法、装置及计算机可读存储介质
CN111062206B (zh) * 2018-10-16 2023-11-21 株式会社理光 一种子词单元的拆分方法、装置及计算机可读存储介质
CN111310452A (zh) * 2018-12-12 2020-06-19 北京京东尚科信息技术有限公司 一种分词方法和装置
CN110008475A (zh) * 2019-04-10 2019-07-12 出门问问信息科技有限公司 分词处理方法、装置、设备及存储介质
CN111897958A (zh) * 2020-07-16 2020-11-06 邓桦 基于自然语言处理的古诗词分类方法
CN111897958B (zh) * 2020-07-16 2024-03-12 邓桦 基于自然语言处理的古诗词分类方法

Also Published As

Publication number Publication date
CN107918605B (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
CN107832301A (zh) 分词处理方法、装置、移动终端及计算机可读存储介质
CN110674629B (zh) 标点符号标注模型及其训练方法、设备、存储介质
US11004448B2 (en) Method and device for recognizing text segmentation position
CN107918605A (zh) 分词处理方法、装置、移动终端及计算机可读存储介质
CN109697291B (zh) 文本的语义段落识别方法和装置
CN111832307B (zh) 一种基于知识增强的实体关系抽取方法及系统
US11556703B2 (en) Table detection in spreadsheet
CN108595410A (zh) 手写作文的自动批改方法及装置
CN110162782B (zh) 基于医学词典的实体提取方法、装置、设备及存储介质
CN111309915A (zh) 联合学习的自然语言训练方法、系统、设备及存储介质
CN110162784B (zh) 中文病历的实体识别方法、装置、设备及存储介质
US11232263B2 (en) Generating summary content using supervised sentential extractive summarization
CN108268447A (zh) 一种藏文命名实体的标注方法
CN106815197A (zh) 文本相似度的确定方法和装置
CN107832302A (zh) 分词处理方法、装置、移动终端及计算机可读存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN110210022A (zh) 标题识别方法及装置
CN109800440A (zh) 汉字的序列标注方法及系统、计算机设备及可读存储介质
CN110110332A (zh) 文本摘要生成方法及设备
CN112580326A (zh) 标点符号标注模型及其训练系统
CN113160917A (zh) 一种电子病历实体关系抽取方法
CN109871544B (zh) 基于中文病历的实体识别方法、装置、设备及存储介质
CN115238026A (zh) 一种基于深度学习的医疗文本主题分割方法和装置
CN111160026A (zh) 一种模型训练方法、装置、实现文本处理的方法及装置
Kohonen et al. Semi-supervised extensions to morfessor baseline

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant