CN105893353B - 分词方法和分词系统 - Google Patents

分词方法和分词系统 Download PDF

Info

Publication number
CN105893353B
CN105893353B CN201610251640.9A CN201610251640A CN105893353B CN 105893353 B CN105893353 B CN 105893353B CN 201610251640 A CN201610251640 A CN 201610251640A CN 105893353 B CN105893353 B CN 105893353B
Authority
CN
China
Prior art keywords
word
participle
segmentation result
new text
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610251640.9A
Other languages
English (en)
Other versions
CN105893353A (zh
Inventor
陈炳标
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Infinite Information Technology Co ltd
Original Assignee
Guangdong Infinite Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Infinite Information Technology Co ltd filed Critical Guangdong Infinite Information Technology Co ltd
Priority to CN201610251640.9A priority Critical patent/CN105893353B/zh
Publication of CN105893353A publication Critical patent/CN105893353A/zh
Application granted granted Critical
Publication of CN105893353B publication Critical patent/CN105893353B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种分词方法和分词系统,所述方法包括:接收输入的待测文本;根据预设划分标识对待测文本进行划分;根据预先建立的字典分别对各个新文本进行正向最大匹配分词和反向最大匹配分词;比较两次匹配后的分词结果是否相同;当比较结果相同时,输出任意一个匹配后的分词结果;当比较结果不同时,根据所述字典分别计算两次匹配后的分词结果中各个词的词频;判断两次匹配后的分词结果中各个词的词频是否符合第一要求;当判定不符合时,根据所述字典分别判断两次匹配后的分词结果的语法是否正确;当判定正向匹配分词结果的语法正确时,输出正向匹配分词结果,否则输出反向匹配分词结果。本发明提高分词速度和准确率,满足实际应用需要。

Description

分词方法和分词系统
技术领域
本发明涉及文本分析技术领域,特别是涉及一种分词方法和分词系统。
背景技术
中文和大部分语言不一样,是通过字组合为词来表达意思,词与词直接没有空格或者其他分隔。理解一段中文文本,必须要把该文本的词划分出来。
中文分词是中文信息处理中最为基础、最为重要的问题,是汉语文本自动标注、搜索引擎、机器翻译、语音识别等工作中的关键步骤,属于自然语言处理范畴,分词的质量直接影响了结果的准确性。
但是现有的中文分词方法分词速度慢、准确率低,是目前中文信息处理技术中急需解决的问题。
发明内容
基于上述情况,本发明提出了一种分词方法和分词系统,提高中文分词速度和准确率,满足实际应用需要。
为了实现上述目的,本发明技术方案的实施例为:
一种分词方法,包括以下步骤:
接收输入的待测文本;
根据预设划分标识对所述待测文本进行划分,得到若干个新文本;
根据预先建立的字典分别对各个所述新文本进行正向最大匹配分词和反向最大匹配分词;
比较第一新文本两次匹配后的分词结果是否相同,所述第一新文本为各个所述新文本中的任意一个新文本;
当比较两次匹配后的分词结果相同时,输出所述第一新文本进行正向最大匹配分词或反向最大匹配分词后的分词结果;
当比较两次匹配后的分词结果不同时,根据所述字典分别计算所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频;
判断计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频是否符合预设第一要求;
当判定所述第一新文本两次匹配后的分词结果中各个词的词频不符合所述预设第一要求时,根据所述字典分别判断所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果的语法是否正确;
当判定所述第一新文本进行正向最大匹配分词后的分词结果的语法正确时,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则输出所述第一新文本进行反向最大匹配分词后的分词结果。
一种分词系统,包括:
文本接收模块,用于接收输入的待测文本;
文本划分模块,用于根据预设划分标识对所述待测文本进行划分,得到若干个新文本;
匹配分词模块,用于根据预先建立的字典分别对各个所述新文本进行正向最大匹配分词和反向最大匹配分词;
结果比较模块,用于比较第一新文本两次匹配后的分词结果是否相同,所述第一新文本为各个所述新文本中的任意一个新文本;
第一分词结果输出模块,用于当比较两次匹配后的分词结果相同时,输出所述第一新文本进行正向最大匹配分词或反向最大匹配分词后的分词结果;
词频计算模块,用于当比较两次匹配后的分词结果不同时,根据所述字典分别计算所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频;
词频判断模块,用于判断计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频是否符合预设第一要求;
语法判断模块,用于当判定所述第一新文本两次匹配后的分词结果中各个词的词频不符合所述预设第一要求时,根据所述字典分别判断所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果的语法是否正确;
第二分词结果输出模块,用于当判定所述第一新文本进行正向最大匹配分词后的分词结果的语法正确时,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则输出所述第一新文本进行反向最大匹配分词后的分词结果。
与现有技术相比,本发明的有益效果为:本发明分词方法和分词系统,采用三阶段分词,第一阶段使用字典分别进行正向最大匹配分词和反向最大匹配分词;第二阶段对比两次匹配后的分词结果,如果两种结果一致,则分词结束,如果不一致,则使用字典中的词频信息计算两次匹配后的分词结果的词频;第三阶段判断词频高低,如果两种匹配的词频差不符合预设第一条件,使用字典中的语法信息,判断两次匹配后的分词结果的语法是否正确,根据判断结果输出相应的分词结果。对于一些简单的语句,使用第一个阶段就可以完成分词,对于复杂的语句,可以通过词频和语法获得正确的分词结果,兼顾速度和准确率。
附图说明
图1为一个实施例中分词方法流程图;
图2为一个实施例中字典树的结构示意图;
图3为基于图1所示方法一个具体示例中分词方法流程图;
图4为一个实施例中分词系统结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
一个实施例中分词方法,如图1所示,包括以下步骤:
步骤S101:接收输入的待测文本;
步骤S102:根据预设划分标识对所述待测文本进行划分,得到若干个新文本;
步骤S103:根据预先建立的字典分别对各个所述新文本进行正向最大匹配分词和反向最大匹配分词;
步骤S104:比较第一新文本两次匹配后的分词结果是否相同,所述第一新文本为各个所述新文本中的任意一个新文本;
步骤S105:当比较两次匹配后的分词结果相同时,输出所述第一新文本进行正向最大匹配分词或反向最大匹配分词后的分词结果;
步骤S106:当比较两次匹配后的分词结果不同时,根据所述字典分别计算所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频;
步骤S107:判断计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频是否符合预设第一要求;
步骤S108:当判定所述第一新文本两次匹配后的分词结果中各个词的词频不符合所述预设第一要求时,根据所述字典分别判断所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果的语法是否正确;
步骤S109:当判定所述第一新文本进行正向最大匹配分词后的分词结果的语法正确时,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则输出所述第一新文本进行反向最大匹配分词后的分词结果。
从以上描述可知,本发明分词方法,采用三阶段分词法,对于一些简单的语句,使用第一个阶段就可以完成分词,对于复杂的语句,可以通过词频和语法获得正确的分词结果,提高分词速度和准确率,适合实际应用。
此外,在一个具体示例中,判断计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频是否符合预设第一要求的步骤包括:
根据计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频,计算所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和与所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和的差值;
判断所述差值的绝对值是否大于预设差值阈值。
首先分别计算第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和;然后计算两种匹配的词频总和的差值,判断所述差值是否大于预设差值阈值,根据判断结果输出分词结果,或者使用字典中的语法信息,判断两次匹配后的分词结果的语法是否正确。
此外,在一个具体示例中,当判定所述差值的绝对值大于所述预设差值阈值时,所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和大于所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则,输出所述第一新文本进行反向最大匹配分词后的分词结果。
当判定两种匹配的词频总和的差值大于预设差值阈值时,输出词频总和高的分词结果,提高分词结果的准确率。
此外,在一个具体示例中,所述字典采用字典树的方法进行保存,每个词在字典树里保存预设数目个字节的信息,所述信息包括词的词频、语法和语义分析结果。例如“股票”的语义分析结果为金融词汇,这样可以一次性进行分词和文本分析,一个实施例中“中国”,“中间”,“中间人”这3个词在字典树里面的结构如图2所示,采用字典树方式保存信息可以利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率高。
此外,在一个具体示例中,所述语法包括词的词类,以及每个词类对应的前一个词类和后一个词类,所述词类包括名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词。根据字典中保存的语法判断两种匹配的语法是否正确,输出语法正确的匹配结果,解决现有分词结果准确率低问题。
为了更好地理解上述方法,以下详细阐述一个本发明分词方法的应用实例。
如图3所示,该应用实例可以包括以下步骤:
步骤S301:根据百度百科中的词汇建立字典,所述字典采用字典树的方法进行保存,每个词在字典树里保存255个字节的信息,所述信息包括词的词频、语法和语义分析结果,例如“股票”的语义分析结果为金融词汇,这样可以一次性进行分词和文本分析,一个实施例中“中国”,“中间”,“中间人”这3个词在字典树里面的结构如图2所示,采用字典树方式保存信息可以利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率高;
步骤S302:接收输入的待测文本;
步骤S303:根据预设划分标识对所述待测文本进行划分,得到若干个新文本;
步骤S304:根据上述字典分别对各个所述新文本进行正向最大匹配分词和反向最大匹配分词;
步骤S305:比较第一新文本两次匹配后的分词结果是否相同,所述第一新文本为各个所述新文本中的任意一个新文本;
步骤S306:当比较两次匹配后的分词结果相同时,输出所述第一新文本进行正向最大匹配分词或反向最大匹配分词后的分词结果;
如“我们买篮球”,正向最大匹配分词从第一个字开始往后扫描,匹配到的词的顺序是:“我们”,“买”,“篮球”,而反向最大匹配分词从最后一个字开始往前扫描,匹配到的词的顺序是:“篮球”,“买”,“我们”;将正向最大匹配分词匹配到的词的顺序的第一位与反向最大匹配分词匹配到的词的顺序的倒数第一位进行比较,都是“我们”,以此类推,将正向最大匹配分词匹配到的词的顺序的第二位与反向最大匹配分词匹配到的词的顺序的倒数第二位进行比较,都是“买”,将正向最大匹配分词匹配到的词的顺序的第三位与反向最大匹配分词匹配到的词的顺序的倒数第三位进行比较,都是“篮球”;比较两次匹配后的分词结果相同,输出进行正向最大匹配分词或反向最大匹配分词后的分词结果;
步骤S307:当比较两次匹配后的分词结果不同时,根据上述字典分别计算所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频;
步骤S308:根据计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频,计算所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和与所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和的差值;
步骤S309:判断所述差值的绝对值是否大于预设差值阈值;
步骤S310:当判定所述差值的绝对值大于所述预设差值阈值时,所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和大于所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则,输出所述第一新文本进行反向最大匹配分词后的分词结果;
步骤S311:当判定所述差值的绝对值小于或等于所述预设差值阈值时,根据上述字典分别判断所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果的语法是否正确;所述语法包括词的词类,以及每个词类对应的前一个词类和后一个词类,所述词类包括名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词;
步骤S312:当判定所述第一新文本进行正向最大匹配分词后的分词结果的语法正确时,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则输出所述第一新文本进行反向最大匹配分词后的分词结果。
从以上描述可知,本实施例采用三阶段分词法,第一阶段使用字典分别进行正向最大匹配分词和反向最大匹配分词;第二阶段对比两次匹配后的分词结果,如果两种结果一致,则分词结束,如果不一致,则使用字典中的词频信息计算两次匹配后的分词结果的词频;第三阶段判断词频高低,如果两种匹配的词频总和的差值大于预设阈值,则输出词频总和大的分词结果,否则使用字典中的语法信息,判断两次匹配后的分词结果的语法是否正确,根据判断结果输出相应的分词结果。本发明对于一些简单的语句,使用第一个阶段就可以完成分词,对于复杂的语句,可以通过词频和语法获得正确的分词结果,兼顾速度和准确率;所述字典采用字典树的方法进行保存,利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率高,每个词在字典树里保存预设数目个字节的信息,所述信息包括词的词频、语法和语义分析结果,可以一次性进行分词和文本分析。
一个实施例中分词系统,如图4所示,包括:
文本接收模块401,用于接收输入的待测文本;
文本划分模块402,用于根据预设划分标识对所述待测文本进行划分,得到若干个新文本;
匹配分词模块403,用于根据预先建立的字典分别对各个所述新文本进行正向最大匹配分词和反向最大匹配分词;
结果比较模块404,用于比较第一新文本两次匹配后的分词结果是否相同,所述第一新文本为各个所述新文本中的任意一个新文本;
第一分词结果输出模块405,用于当比较两次匹配后的分词结果相同时,输出所述第一新文本进行正向最大匹配分词或反向最大匹配分词后的分词结果;
词频计算模块406,用于当比较两次匹配后的分词结果不同时,根据所述字典分别计算所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频;
词频判断模块407,用于判断计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频是否符合预设第一要求;
语法判断模块408,用于当判定所述第一新文本两次匹配后的分词结果中各个词的词频不符合所述预设第一要求时,根据所述字典分别判断所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果的语法是否正确;
第二分词结果输出模块409,用于当判定所述第一新文本进行正向最大匹配分词后的分词结果的语法正确时,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则输出所述第一新文本进行反向最大匹配分词后的分词结果。
如图4所示,在一个具体示例中,所述词频判断模块407包括:
差值计算单元4071,用于根据计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频,计算所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和与所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和的差值;
词频判断单元4072,用于判断所述差值的绝对值是否大于预设差值阈值。
首先分别计算第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和;然后计算两种匹配的词频总和的差值,判断所述差值是否大于预设差值阈值,根据判断结果输出分词结果,或者使用字典中的语法信息,判断两次匹配后的分词结果的语法是否正确。
如图4所示,在一个具体示例中,所述分词系统还包括第三分词结果输出模块410,用于当所述词频判断模块407判定所述差值的绝对值大于所述预设差值阈值时,所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和大于所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则,输出所述第一新文本进行反向最大匹配分词后的分词结果。
当判定两种匹配的词频总和的差值大于预设差值阈值时,输出词频总和高的分词结果,提高分词结果的准确率。
此外,在一个具体示例中,所述字典采用字典树的方法进行保存,每个词在字典树里保存预设数目个字节的信息,所述信息包括词的词频、语法和语义分析结果。例如“股票”的语义分析结果为金融词汇,这样可以一次性进行分词和文本分析,一个实施例中“中国”,“中间”,“中间人”这3个词在字典树里面的结构如图2所示,采用字典树方式保存信息可以利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率高。
此外,在一个具体示例中,所述语法包括词的词类,以及每个词类对应的前一个词类和后一个词类,所述词类包括名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词。根据字典中保存的语法判断两种匹配的语法是否正确,输出语法正确的匹配结果,解决现有分词结果准确率低问题。
基于图4所示的本实施例的系统,一个具体的工作过程可以是如下所述:
首先文本接收模块401接收输入的待测文本;然后文本划分模块402根据预设划分标识对所述待测文本进行划分,得到若干个新文本;匹配分词模块403根据预先建立的字典分别对各个所述新文本进行正向最大匹配分词和反向最大匹配分词;结果比较模块404比较第一新文本两次匹配后的分词结果是否相同,所述第一新文本为各个所述新文本中的任意一个新文本;当比较两次匹配后的分词结果相同时,第一分词结果输出模块405输出所述第一新文本进行正向最大匹配分词或反向最大匹配分词后的分词结果;当比较两次匹配后的分词结果不同时,词频计算模块406根据所述字典分别计算所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频;词频判断模块407中的差值计算单元4071根据计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频,计算所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和与所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和的差值;词频判断单元4072判断所述差值的绝对值是否大于预设差值阈值;当所述词频判断模块407判定所述差值的绝对值大于所述预设差值阈值时,所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和大于所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和,所述第三分词结果输出模块410输出所述第一新文本进行正向最大匹配分词后的分词结果,否则,输出所述第一新文本进行反向最大匹配分词后的分词结果;当判定所述第一新文本两次匹配后的分词结果中各个词的词频不符合所述预设第一要求时,语法判断模块408根据所述字典分别判断所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果的语法是否正确;当判定所述第一新文本进行正向最大匹配分词后的分词结果的语法正确时,第二分词结果输出模块409输出所述第一新文本进行正向最大匹配分词后的分词结果,否则输出所述第一新文本进行反向最大匹配分词后的分词结果。
从以上描述可知,本发明分词系统,采用三阶段分词法,第一阶段使用字典分别进行正向最大匹配分词和反向最大匹配分词;第二阶段对比两次匹配后的分词结果,如果两种结果一致,则分词结束,如果不一致,则使用字典中的词频信息计算两次匹配后的分词结果的词频;第三阶段判断词频高低,如果两种匹配的词频总和的差值大于预设阈值,则输出词频总和大的分词结果,否则使用字典中的语法信息,判断两次匹配后的分词结果的语法是否正确,根据判断结果输出相应的分词结果,提高分词速度和准确率,适合实际应用。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种分词方法,其特征在于,包括以下步骤:
接收输入的待测文本;
根据预设划分标识对所述待测文本进行划分,得到若干个新文本;
根据预先建立的字典分别对各个所述新文本进行正向最大匹配分词和反向最大匹配分词;
比较第一新文本两次匹配后的分词结果是否相同,所述第一新文本为各个所述新文本中的任意一个新文本;
当比较两次匹配后的分词结果相同时,输出所述第一新文本进行正向最大匹配分词或反向最大匹配分词后的分词结果;
当比较两次匹配后的分词结果不同时,根据所述字典分别计算所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频;
判断计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频是否符合预设第一要求;
当判定所述第一新文本两次匹配后的分词结果中各个词的词频不符合所述预设第一要求时,根据所述字典分别判断所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果的语法是否正确;
当判定所述第一新文本进行正向最大匹配分词后的分词结果的语法正确时,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则输出所述第一新文本进行反向最大匹配分词后的分词结果;
其中判断计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频是否符合预设第一要求的步骤包括:
根据计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频,计算所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和与所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和的差值;
判断所述差值的绝对值是否大于预设差值阈值。
2.根据权利要求1所述的分词方法,其特征在于,当判定所述差值的绝对值大于所述预设差值阈值时,所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和大于所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则,输出所述第一新文本进行反向最大匹配分词后的分词结果。
3.根据权利要求1所述的分词方法,其特征在于,所述字典采用字典树的方法进行保存,每个词在字典树里保存预设数目个字节的信息,所述信息包括词的词频、语法和语义分析结果。
4.根据权利要求1至3中任意一项所述的分词方法,其特征在于,所述语法包括词的词类,以及每个词类对应的前一个词类和后一个词类,所述词类包括名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词。
5.一种分词系统,其特征在于,包括:
文本接收模块,用于接收输入的待测文本;
文本划分模块,用于根据预设划分标识对所述待测文本进行划分,得到若干个新文本;
匹配分词模块,用于根据预先建立的字典分别对各个所述新文本进行正向最大匹配分词和反向最大匹配分词;
结果比较模块,用于比较第一新文本两次匹配后的分词结果是否相同,所述第一新文本为各个所述新文本中的任意一个新文本;
第一分词结果输出模块,用于当比较两次匹配后的分词结果相同时,输出所述第一新文本进行正向最大匹配分词或反向最大匹配分词后的分词结果;
词频计算模块,用于当比较两次匹配后的分词结果不同时,根据所述字典分别计算所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频;
词频判断模块,用于判断计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频是否符合预设第一要求;
语法判断模块,用于当判定所述第一新文本两次匹配后的分词结果中各个词的词频不符合所述预设第一要求时,根据所述字典分别判断所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果的语法是否正确;
第二分词结果输出模块,用于当判定所述第一新文本进行正向最大匹配分词后的分词结果的语法正确时,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则输出所述第一新文本进行反向最大匹配分词后的分词结果;
所述词频判断模块包括:
差值计算单元,用于根据计算得到的所述第一新文本进行正向最大匹配分词和反向最大匹配分词后的分词结果中各个词的词频,计算所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和与所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和的差值;
词频判断单元,用于判断所述差值的绝对值是否大于预设差值阈值。
6.根据权利要求5所述的分词系统,其特征在于,还包括第三分词结果输出模块,用于当所述词频判断模块判定所述差值的绝对值大于所述预设差值阈值时,所述第一新文本进行正向最大匹配分词后的分词结果中各个词的词频总和大于所述第一新文本进行反向最大匹配分词后的分词结果中各个词的词频总和,输出所述第一新文本进行正向最大匹配分词后的分词结果,否则,输出所述第一新文本进行反向最大匹配分词后的分词结果。
7.根据权利要求5所述的分词系统,其特征在于,所述字典采用字典树的方法进行保存,每个词在字典树里保存预设数目个字节的信息,所述信息包括词的词频、语法和语义分析结果。
8.根据权利要求5至7中任意一项所述的分词系统,其特征在于,所述语法包括词的词类,以及每个词类对应的前一个词类和后一个词类,所述词类包括名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词。
CN201610251640.9A 2016-04-20 2016-04-20 分词方法和分词系统 Active CN105893353B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610251640.9A CN105893353B (zh) 2016-04-20 2016-04-20 分词方法和分词系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610251640.9A CN105893353B (zh) 2016-04-20 2016-04-20 分词方法和分词系统

Publications (2)

Publication Number Publication Date
CN105893353A CN105893353A (zh) 2016-08-24
CN105893353B true CN105893353B (zh) 2018-10-26

Family

ID=56704298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610251640.9A Active CN105893353B (zh) 2016-04-20 2016-04-20 分词方法和分词系统

Country Status (1)

Country Link
CN (1) CN105893353B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197315A (zh) * 2018-02-01 2018-06-22 中控技术(西安)有限公司 一种建立分词索引库的方法和装置
CN109033082B (zh) * 2018-07-19 2022-06-10 深圳创维数字技术有限公司 语义模型的学习训练方法、装置及计算机可读存储介质
CN109918664B (zh) * 2019-03-05 2023-04-18 北京声智科技有限公司 分词方法和装置
CN110222335A (zh) * 2019-05-20 2019-09-10 平安科技(深圳)有限公司 一种文本分词方法及装置
CN111814477B (zh) * 2020-07-06 2022-06-21 重庆邮电大学 一种基于争议焦点实体的争议焦点发现方法、装置及终端
CN111814470A (zh) * 2020-07-14 2020-10-23 混沌时代(北京)教育科技有限公司 一种基于互联网昵称提取称呼方法及系统
CN113870478A (zh) * 2021-09-29 2021-12-31 平安银行股份有限公司 快速取号方法、装置、电子设备及存储介质
CN115840800B (zh) * 2023-02-27 2023-05-12 江苏曼荼罗软件股份有限公司 患者信息匹配方法、系统、计算机及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739393A (zh) * 2008-11-20 2010-06-16 苗玉水 汉语文本智能分词法
CN102087642A (zh) * 2009-11-04 2011-06-08 蒋贤春 Wkr分词方法
CN103646018A (zh) * 2013-12-20 2014-03-19 大连大学 一种基于hash散列表词典结构的中文分词方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739393A (zh) * 2008-11-20 2010-06-16 苗玉水 汉语文本智能分词法
CN102087642A (zh) * 2009-11-04 2011-06-08 蒋贤春 Wkr分词方法
CN103646018A (zh) * 2013-12-20 2014-03-19 大连大学 一种基于hash散列表词典结构的中文分词方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"基于Hash结构词典的双向最大匹配分词法";陈之彦等;《计算机科学》;20151130;第42卷(第11A期);论文第49-54页 *
"基于双向最大匹配和HMM 的分词消歧模型";麦范金等;《知识组织与知识管理》;20081231(第8期);论文第38-40页 *
"基于学生模型与AIML的智能教学系统的研究";王晓敏;《中国优秀硕士学位论文全文数据库 信息科技辑》;20100715;论文第24、34-37页及图6.1 *
"基于正反向最大匹配分词系统的实现";陈明华等;《信息技术》;20091231(第6期);论文第124-127页 *
"基于词典的中文分词技术研究";郭瞳康;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110615;论文第2-40页 *

Also Published As

Publication number Publication date
CN105893353A (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
CN105893353B (zh) 分词方法和分词系统
EP0715756B1 (en) Method and system for bootstrapping statistical processing into a rule-based natural language parser
KR102013230B1 (ko) 구문 전처리 기반의 구문 분석 장치 및 그 방법
KR20140021838A (ko) 문법 오류 검출 방법 및 이를 위한 오류검출장치
CN104317846A (zh) 一种语义分析与标注方法及系统
CN107807910A (zh) 一种基于hmm的词性标注方法
CN110991180A (zh) 一种基于关键词和Word2Vec的命令识别方法
CN105912522A (zh) 基于成分分析的英语语料自动提取方法和提取器
Meteer et al. Statistical language modeling combining n-gram and context-free grammars
CN109933781A (zh) 基于sao结构的中文专利文本实体关系抽取方法
Wu et al. Efficient disfluency detection with transition-based parsing
CN104391837A (zh) 一种基于格语义的智能语法分析方法
CN104572619A (zh) 智能机器人交互系统在投融资领域的应用
Lu et al. Feature words selection for knowledge-based word sense disambiguation with syntactic parsing
CN108197104A (zh) 文本分析方法、装置及云平台
CN107480128A (zh) 中文文本的分词方法及装置
Quan et al. Combine sentiment lexicon and dependency parsing for sentiment classification
TWI764480B (zh) 新詞識別方法和裝置
CN110827807B (zh) 一种语音识别的方法及其系统
Motlani et al. Developing part-of-speech tagger for a resource poor language: Sindhi
CN104572628A (zh) 一种基于句法特征的学术定义自动抽取系统及方法
Eidelman et al. Lessons learned in part-of-speech tagging of conversational speech
Mansikkaniemi et al. Adaptation of morph-based speech recognition for foreign names and acronyms
CN111027308A (zh) 文本生成方法、系统、移动终端及存储介质
KR20190059826A (ko) 한국어 접사 기반 토크나이징 장치 및 그 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200119

Address after: 510665, room 906, ninth floor, 20 rhyme Road, Guangzhou, Guangdong, Tianhe District

Patentee after: GUANGZHOU YAOLA NETWORK CO.,LTD.

Address before: 510665, room 901, nine floor, 20 rhyme Road, Guangzhou, Guangdong, Tianhe District

Patentee before: GUANGDONG INFINITE INFORMATION TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 510665 room 906, floor 9, No. 20, Keyun Road, Tianhe District, Guangzhou City, Guangdong Province

Patentee after: Guangzhou Youla Network Technology Co.,Ltd.

Address before: 510665 room 906, floor 9, No. 20, Keyun Road, Tianhe District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU YAOLA NETWORK CO.,LTD.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230727

Address after: 510000 room 901, floor 9, No. 20, Keyun Road, Tianhe District, Guangzhou City, Guangdong Province (office use only)

Patentee after: GUANGDONG INFINITE INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 510665 room 906, floor 9, No. 20, Keyun Road, Tianhe District, Guangzhou City, Guangdong Province

Patentee before: Guangzhou Youla Network Technology Co.,Ltd.