CN105243055B

CN105243055B - 基于多语言的分词方法和装置

Info

Publication number: CN105243055B
Application number: CN201510629693.5A
Authority: CN
Inventors: 马志芳; 孟茜; 严巍
Original assignee: BEIJING CHENGXIN DATA TECHNOLOGY Co Ltd
Current assignee: BEIJING CHENGXIN DATA TECHNOLOGY Co Ltd
Priority date: 2015-09-28
Filing date: 2015-09-28
Publication date: 2018-07-31
Anticipated expiration: 2035-09-28
Also published as: CN105243055A

Abstract

本发明提供了一种基于多语言的分词方法和装置。该方法包括：接收用户发送的待分词的文本，待分词的文本中携带语句分隔符；根据语句分隔符，识别待分词的文本中每个语句的语言类别；根据语言类别，在预存储的语言类别和分词方法的对应关系中查找对应的分词方法；采用语言类别对应的分词方法对相应语言类别的语句进行分词；向用户输出待分词的文本的分词结果。该方法实现了对涉及到多种语言的应用或文本统一进行分词，提高了分词效率。

Description

基于多语言的分词方法和装置

技术领域

本发明实施例涉及分词技术领域，尤其涉及一种基于多语言的分词方法和装置。

背景技术

在搜索引擎、文本分析、数据挖掘等人工智能相关的工作中，对于没有空格或者其他明显标志符号分割单词的语言里，利用计算机进行自然语言分析时，为方便获取单词，分词是必须的一个基础工作。以便对分词后的其他处理工作进行展开。

现有技术的分词方法是独立针对某一种语言设计的。即某种分词方法只能对一种语言进行分词。其中，针对某一种语言的分词方法包括：基于词典的分词方法，基于语法规则的方法及基于统计的分词方法。

但是当前很多应用中会涉及到多种语言，对涉及到多种语言的应用进行分词时，亟需一种基于多语言的分词方法。

发明内容

本发明实施例提供一种基于多语言的分词方法和装置，该方法实现了对涉及到多种语言的应用或文本统一进行分词，提高了分词效率。

本发明实施例提供一种基于多语言的分词方法，包括：

接收用户发送的待分词的文本，所述待分词的文本中携带语句分隔符；

根据语句分隔符，识别所述待分词的文本中每个语句的语言类别；

根据所述语言类别，在预存储的语言类别和分词方法的对应关系中查找对应的分词方法；

采用所述语言类别对应的分词方法对相应语言类别的语句进行分词；

向用户输出所述待分词的文本的分词结果。

本发明实施例提供一种基于多语言的分词装置，包括：

接收模块，用于接收用户发送的待分词的文本，所述待分词的文本中携带语句分隔符；

识别模块，用于根据语句分隔符，识别所述待分词的文本中每个语句的语言类别；

查找模块，用于根据所述语言类别，在预存储的语言类别和分词方法的对应关系中查找对应的分词方法；

分词模块，用于采用所述语言类别对应的分词方法对相应语言类别的语句进行分词；

输出模块，用于向用户输出所述待分词的文本的分词结果。

本发明实施例提供一种基于多语言的分词方法和装置。该方法包括：接收用户发送的待分词的文本，待分词的文本中携带语句分隔符；根据语句分隔符，识别待分词的文本中每个语句的语言类别；根据语言类别，在预存储的语言类别和分词方法的对应关系中查找对应的分词方法；采用语言类别对应的分词方法对相应语言类别的语句进行分词；向用户输出待分词的文本的分词结果。该方法实现了对涉及到多种语言的应用或文本统一进行分词，提高了分词效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于多语言的分词方法实施例一的流程图；

图2为本发明基于多语言的分词方法实施例二的第一流程图；

图3为本发明基于多语言的分词方法实施例二的第二流程图

图4为本发明基于多语言的分词装置实施例一的结构示意图；

图5为本发明基于多语言的分词装置实施例二的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明基于多语言的分词方法实施例一的流程图，如图1所示，本实施例的执行主体为计算机，笔记本电脑，服务器等。具体可以通过软件方式实现。本实施例提供的基于多语言的分词方法包括：

步骤101，接收用户发送的待分词的文本，待分词的文本中携带语句分隔符。

本实施例中，执行主体可通过客户端或分词界面向用户提供本实施例中基于多语言的分词方法。在客户端或分词索界面中配置输入栏或调取栏。用户可通过在输入栏中输入待分词的文本的方式或在调取栏中调入待分词的文本的方式发送待分词的文本。

其中，在待分词的文本中携带语句分隔符，可预先设定语句分隔符的种类，如预先设定的语句分隔符可以为空格，换行，逗号，句号及冒号等。

本实施例中，待分词的文本中可以包括多种语言，也可以只包括一种语言，本实施例中对此不做限定。

本实施例中，对于待分词的多个文本，其多个文本的语言种类可以相同也可以不同，本实施中对此不做限定。

步骤102，根据语句分隔符，识别待分词的文本中每个语句的语言类别。

本实施例中，可通过ISO国际标准规定的国家编码ISO-3166和语言编码ISO-639为标准，采用LangId工具包识别待分词的文本中每个语句的语言类别。也可通过收集不同语言类别的文本语料，采用机器学习的方法进行学习，得到优化后的语言识别模型，将该待分词的文本中每个语句输入到优化后的语言识别模型中，对每个语句的语言类别进行识别。本实施例中对此不做限定。

步骤103，根据语言类别，在预存储的语言类别和分词方法的对应关系中查找对应的分词方法。

本实施例中，预先存储了不同语言类别对应的分词方法，针对每种语言类别，其对应的分词方法为优化后的最适合对该语言类别的语句进行分词的方法。

举例说明为：对于中文的分词，对应的最适合分词方法为基于中文分词词典和基于中文语料优化后的条件随机场模型相结合的分词方法，对于日文的分词，对应的最适合分词方法为基于日文词典和基于日文语料优化后的条件随机场模型相结合的分词方法等。

步骤104，采用语言类别对应的分词方法对相应语言类别的语句进行分词。

本实施例中，针对每个语句，采用语言类别对应的分词方法对相应语言类别的语句进行分词，每个语句的分词可以同时进行，也可按照语句在文本的先后顺序进行，本实施例中不做限定。

步骤105，向用户输出待分词的文本的分词结果。

本实施例中，首先根据每个语句的分词结果，在每个语句的分词之间添加分词分隔符，然后将添加分词分隔符后的语句组合，每个语句之间存在原有的语句分隔符，最后在语句分隔符后添加分词分隔符。

其中，分词分隔符可以用斜线表示，也可用空格表示，也可用斜线加空格表示，本实施例中不做限定。

举例说明为：待分词的文本为：“按今日最新消息称日本野党的礒崎希望辞职，原文为：野党側は礒崎氏の辞任を求める。”此待分词文本中预先设定的语句分隔符为逗号，冒号及句号。根据语句分隔符，识别的待分词的文本的第一个语句为“按今日最新消息称日本野党的礒崎希望辞职”，第二语句为“原文为”，第三个语句为“野党側は礒崎氏の辞任を求める”识别出的第一个语句为中文，第二个语句为中文，第三个语句为日文，采用中文对应的分词方法对第一个语句进行分词，得到的第一个语句的分词结果表示为：“按/今日/最新消息/称/日本野党/的/礒崎/希望/辞职/”，采用中文对应的分词方法对第二个语句进行分词，得到的第二个语句的分词结果表示为“原文/为/”，采用日文对应的分词方法对第三个语句进行分词，得到的第三个语句的分词结果表示为“野党/側/は/礒崎/氏/の/辞任/を/求める/”，将添加分词分隔符后的语句组合，每个语句之间存在原有的语句分隔符，最后在语句分隔符后添加分词分隔符，则最终该待分词文本的分词结果可以表示为：“按/今日/最新消息/称/日本野党/的/礒崎/希望/辞职/，/原文/为/：/野党/側/は/礒崎/氏/の/辞任/を/求める/。/”。

本实施例提供的基于多语言的分词方法，通过接收用户发送的待分词的文本，待分词的文本中携带语句分隔符；根据语句分隔符，识别待分词的文本中每个语句的语言类别；根据语言类别，在预存储的语言类别和分词方法的对应关系中查找对应的分词方法；采用语言类别对应的分词方法对相应语言类别的语句进行分词；向用户输出待分词的文本的分词结果。实现了对涉及到多种语言的应用或文本统一进行分词，提高了分词效率。

图2为本发明基于多语言的分词方法实施例二的流程图，如图2所示，本实施例的执行主体为计算机，笔记本电脑，服务器等。具体可以通过软件方式实现。本实施例提供的基于多语言的分词方法包括：

步骤201，针对每一种语言的分词方法，按照逆向存储方法存储每一种语言的分词词典；并存储每一种语言对应的优化后的条件随机场模型及存储特定字符对应的预设分词策略。

本实施例中，由于基于词典的分词方法效率高，并且为了降低正向分词的出错几率，本实施例中，对于每种语言类别的分词方法，首先分别采用逆向词典分词方法对相应的语句进行分词，然后对于逆向词典分词方法中未匹配的语句中的字符，采用该语言类别对应的优化后的条件随机场模型进行分词。

所以，本实施例中，在接收用户发送的待分词的文本之前，按照逆向存储方法存储每一种语言的分词词典，例如，对于中文，“国家”这一分词在分词词典中存储为“家国”。

本实施例中，对于每种语言，收集每种语言的文本语料，对条件随机场模型进行训练，得到优化后的条件随机场模型，由于每种语言收集的文本语料和语言特征不同，所以每种语言对应的优化后的条件随机场模型不同。所以存储每一种语言对应的优化后的条件随机场模型。

本实施例中，还存储特定字符对应的预设分词策略，以使在包含特定字符的语句进行分词时，以该分词策略为限定条件进行分词。例如，在一个语句中含有连续的数字，则存储数字之间不分词的策略，又如，在一个语句的中含有一串数字，数字之间含有逗号，则存储该串数字和逗号作为一个整体并且不分词的策略。

步骤202，接收用户发送的待分词的文本，待分词的文本中携带语句分隔符。

本实施例中，步骤202的实现方式与本发明基于多语言的分词方法实施例中步骤101的实现方式类似，在此不再赘述。

步骤203，根据语句分隔符，识别待分词的文本中每个语句的语言类别。

进一步地，本实施例中，以语句分隔符为间隔，采用语言识别模型对每个语句的语言类别进行识别。

具体地，本实施例中，可收集不同语言类别的文本语料，采用机器学习的方法进行学习，得到优化后的语言识别模型，将该待分词的文本中每个语句输入到优化后的语言识别模型中，对每个语句的语言类别进行识别。

其中，语言识别模型包括：神经网络模型，支撑矢量机模型及贝叶斯分类模型中的任意一种。

需要说明的是，若根据语句分隔符，未能识别出待分词的文本中某个语句的语言类别，则对于该语句的语言类别采用预设的语言类别，以对该语句进行后续的分词。

步骤204，根据语言类别，在预存储的语言类别和分词方法的对应关系中查找对应的分词方法。

本实施例中，步骤204的实现方式与本发明基于多语言的分词方法实施例中步骤103的实现方式类似，在此不再赘述。

步骤205，采用语言类别对应的分词方法对相应语言类别的语句进行分词。

具体地，本实施例中，如图3所示，步骤205可分为以下三个步骤进行。

步骤205a，判断语句中是否含有特定字符，若是，则执行步骤205b，若否，则执行步骤205c。

步骤205b，在对应的预设分词策略的限定下，采用语言类别对应的逆向词典分词方法对相应的语句进行第一次分词。

本实施例中，若语句中含有特定字符，则查找与该特定字符对应的预设分词策略，在采用语言类别对应的逆向词典分词方法对相应的语句进行第一次分词的过程中，以特定字符对应的预设分词策略为限定条件。

举例说明为：待分词的语句为：“销售价7,200,000元”，特定字符“7,200,000”对应的预设分词策略为：数字和逗号作为一个整体并且不分词的策略，则在该预设分词策略的限定下，采用中文对应的逆向词典分词方法进行第一次分词后，分词结果为：“销售价/7,200,00/元”。

执行步骤205b后执行步骤205d。

步骤205c，采用语言类别对应的逆向词典分词方法对相应的语句进行第一次分词。

本实施例中，若语句中不含有特定字符，则采用语言类别对应的逆向词典分词方法对相应的语句进行第一次分词。

步骤205d，判断相应的语句中是否所有字符与分词词典中的分词相匹配，若是，则执行步骤205e，若否，则执行步骤205f。

步骤205e，将第一次分词的结果作为相应的语句的分词结果。

本实施例中，若相应的语句中的所有字符与分词词典中的分词相匹配，则第一次分词的结果为相应的语句的分词结果。举例说明为：进行分词的中文为：“中国国家主席”，采用中文对应的逆向词典分词方法对相应的语句进行第一次分词后的结果为“中国/国家/主席”，则该第一次分词后的结果为该语句的分词结果。

步骤205f，采用语言类别对应的优化后的条件随机场模型对不匹配的字符进行第二次分词，将第一次分词结果和第二次分词的结果相结合作为相应的语句的分词结果。

本实施例中，可在采用语言类别对应的逆向词典分词方法对相应的语句进行第一次分词过程中，若在相应的语句中检测到存在与分词词典中的分词不相匹配字符，则将该不相匹配的字符输入到对应的优化后的条件随机场模型中对不匹配的字符进行第二次分词，也可在采用语言类别对应的逆向词典分词方法对相应的语句进行第一次分词后，提取出该语句中与分词词典中的分词不相匹配字符，然后采用语言类别对应的优化后的条件随机场模型对不匹配的字符进行第二次分词。本实施例对此不作限定。

本实施例中，每种语言类别对应的优化后的条件随机场模型是采用对应语言类别的语料对条件随机场模型进行训练得到的，为了得到最优条件随机场模型，本实施例中采用的语料为语法和词语的使用比较规范，没有过多口语化内容的新闻数据的语料。训练时的参数迭代误差小于0.0001，循环终止次数为10万次。

本实施例中，在采用语言类别对应的优化后的条件随机场模型对不匹配的字符进行第二次分词后，将第一次分词结果和第二次分词的结果相结合作为相应的语句的分词结果。

举例说明为：进行分词的语句为“采用支撑矢量机分类模型”，窗口长度为3，采用中文对应的逆向词典分词方法对该语句进行第一次分词之后，得到的第一分词结果为：“采用/”，该语句中的“支撑矢量机分类模型”与分词词典中的分词不匹配，则将“支撑矢量机分类模型”采用中文对应的优化后的条件随机场模型进行分词，得到的第二分词结果为：“支撑/矢量机/分类/模型/”，则将第一次分词结果和第二次分词的结果相结合后得到的相应的语句的分词结果为：“采用/支撑/矢量机/分类/模型/”。

步骤206，向用户输出待分词的文本的分词结果。

本实施例中，步骤206的实现方式与本发明基于多语言的分词方法实施例中步骤105的实现方式类似，在此不再赘述。

需要说明的是，若在对待分词文本进行分词的过程中产生错误，未能完成待分词文本的分词，则向用户输出错误提示或向用户返回原有的待分词的文本。

本实施例提供的基于多语言的分词方法，首先判断语句中是否含有特定字符，在含有特定字符时，在对应的预设分词策略的限定下，采用语言类别对应的逆向词典分词方法对相应的语句进行第一次分词，若相应的语句中的所有字符与分词词典中的分词相匹配，则第一次分词的结果为相应的语句的分词结果，若相应的语句中存在字符与分词词典中的分词不匹配情况，则采用语言类别对应的优化后的条件随机场模型对不匹配的字符进行第二次分词，第一次分词结果和第二次分词的结果相结合作为相应的语句的分词结果。由于采用逆向词典分词方法进行第一次分词，进一步提高了分词的效率，由于采用优化后的条件随机场模型对不匹配的字符进行第二次分词，能够得到全局最优解，所以提高了分词的准确性。

图4为本发明基于多语言的分词装置实施例一的结构示意图，如图4所示，本实施例提供的基于多语言的分词装置包括：接收模块401，识别模块402，查找模块403，分词模块404及输出模块405。

其中，接收模块401，用于接收用户发送的待分词的文本，所述待分词的文本中携带语句分隔符。识别模块402，用于根据语句分隔符，识别所述待分词的文本中每个语句的语言类别。查找模块403，用于根据所述语言类别，在预存储的语言类别和分词方法的对应关系中查找对应的分词方法。分词模块404，用于采用所述语言类别对应的分词方法对相应语言类别的语句进行分词。输出模块405，用于向用户输出所述待分词的文本的分词结果。

本实施例提供的基于多语言的分词装置可以执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图5为本发明基于多语言的分词装置实施例二的结构示意图，如图5所示，本实施例提供的基于多语言的分词装置包括：接收模块501，识别模块502，查找模块503，分词模块504，输出模块505及存储模块506。

其中，接收模块501，用于接收用户发送的待分词的文本，所述待分词的文本中携带语句分隔符。识别模块502，用于根据语句分隔符，识别所述待分词的文本中每个语句的语言类别。查找模块503，用于根据所述语言类别，在预存储的语言类别和分词方法的对应关系中查找对应的分词方法。分词模块504，用于采用所述语言类别对应的分词方法对相应语言类别的语句进行分词。输出模块505，用于向用户输出所述待分词的文本的分词结果。

进一步地，存储模块506，用于所述查找模块503根据所述语言类别，在预存储的语言类别和分词方法的对应关系中查找对应的分词方法之前，针对每一种语言的分词方法，按照逆向存储方法存储每一种语言的分词词典；并存储每一种语言对应的优化后的条件随机场模型。

所述存储模块506，还用于存储特定字符对应的预设分词策略。

进一步地，分词模块504，具体用于：若语句中含有特定字符，则在对应的预设分词策略的限定下，采用所述语言类别对应的逆向词典分词方法对相应的语句进行第一次分词；若所述相应的语句中的所有字符与所述分词词典中的分词相匹配，则将所述第一次分词的结果作为所述相应的语句的分词结果。

进一步地，分词模块504，还用于若语句中含有特定字符，则在对应的预设分词策略的限定下，采用所述语言类别对应的逆向词典分词方法对相应的语句进行第一次分词之后，若所述相应的语句中存在字符与所述分词词典中的分词不匹配情况，则采用所述语言类别对应的优化后的条件随机场模型对不匹配的字符进行第二次分词，将所述第一次分词结果和所述第二次分词的结果相结合作为所述相应的语句的分词结果。

进一步地，识别模块502，具体用于：以所述语句分隔符为间隔，采用语言识别模型对每个语句的语言类别进行识别；

其中，所述语言识别模型包括：神经网络模型，支撑矢量机模型及贝叶斯分类模型中的任意一种。

本实施例提供的基于多语言的分词装置可以执行图2和图3所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于多语言的分词方法，其特征在于，包括：

向用户输出所述待分词的文本的分词结果；

在预存储的语言类别和分词方法的对应关系中查找对应的分词方法之前，还包括：

针对每一种语言的分词方法，按照逆向存储方法存储每一种语言的分词词典；并存储每一种语言对应的优化后的条件随机场模型；

存储特定字符对应的预设分词策略；

其中，所述采用所述语言类别对应的分词方法对相应语言类别的语句进行分词具体包括：

若语句中含有特定字符，则在对应的预设分词策略的限定下，采用所述语言类别对应的逆向词典分词方法对相应的语句进行第一次分词；

若所述相应的语句中的所有字符与所述分词词典中的分词相匹配，则将所述第一次分词的结果作为所述相应的语句的分词结果。

2.根据权利要求1所述的方法，其特征在于，所述若语句中含有特定字符，则在对应的预设分词策略的限定下，采用所述语言类别对应的逆向词典分词方法对相应的语句进行第一次分词之后还包括：

若所述相应的语句中存在字符与所述分词词典中的分词不匹配情况，则采用所述语言类别对应的优化后的条件随机场模型对不匹配的字符进行第二次分词，将所述第一次分词结果和所述第二次分词的结果相结合作为所述相应的语句的分词结果。

3.根据权利要求1或2所述的方法，其特征在于，所述根据语句分隔符，识别所述待分词的文本中每个语句的语言类别，具体包括：

以所述语句分隔符为间隔，采用语言识别模型对每个语句的语言类别进行识别；

4.一种基于多语言的分词装置，其特征在于，包括：

输出模块，用于向用户输出所述待分词的文本的分词结果；

存储模块；所述存储模块，用于所述查找模块根据所述语言类别，在预存储的语言类别和分词方法的对应关系中查找对应的分词方法之前，针对每一种语言的分词方法，按照逆向存储方法存储每一种语言的分词词典；并存储每一种语言对应的优化后的条件随机场模型；

所述存储模块，还用于存储特定字符对应的预设分词策略；

其中，所述分词模块，具体用于：

5.根据权利要求4所述的装置，其特征在于，所述分词模块，还用于：

若语句中含有特定字符，则在对应的预设分词策略的限定下，采用所述语言类别对应的逆向词典分词方法对相应的语句进行第一次分词之后，若所述相应的语句中存在字符与所述分词词典中的分词不匹配情况，则采用所述语言类别对应的优化后的条件随机场模型对不匹配的字符进行第二次分词，将所述第一次分词结果和所述第二次分词的结果相结合作为所述相应的语句的分词结果。

6.根据权利要求4或5所述的装置，其特征在于，所述识别模块，具体用于：