CN105243055B - 基于多语言的分词方法和装置 - Google Patents

基于多语言的分词方法和装置 Download PDF

Info

Publication number
CN105243055B
CN105243055B CN201510629693.5A CN201510629693A CN105243055B CN 105243055 B CN105243055 B CN 105243055B CN 201510629693 A CN201510629693 A CN 201510629693A CN 105243055 B CN105243055 B CN 105243055B
Authority
CN
China
Prior art keywords
sentence
language
participle
segmented
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510629693.5A
Other languages
English (en)
Other versions
CN105243055A (zh
Inventor
马志芳
孟茜
严巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING CHENGXIN DATA TECHNOLOGY Co Ltd
Original Assignee
BEIJING CHENGXIN DATA TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING CHENGXIN DATA TECHNOLOGY Co Ltd filed Critical BEIJING CHENGXIN DATA TECHNOLOGY Co Ltd
Priority to CN201510629693.5A priority Critical patent/CN105243055B/zh
Publication of CN105243055A publication Critical patent/CN105243055A/zh
Application granted granted Critical
Publication of CN105243055B publication Critical patent/CN105243055B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种基于多语言的分词方法和装置。该方法包括:接收用户发送的待分词的文本,待分词的文本中携带语句分隔符;根据语句分隔符,识别待分词的文本中每个语句的语言类别;根据语言类别,在预存储的语言类别和分词方法的对应关系中查找对应的分词方法;采用语言类别对应的分词方法对相应语言类别的语句进行分词;向用户输出待分词的文本的分词结果。该方法实现了对涉及到多种语言的应用或文本统一进行分词,提高了分词效率。

Description

基于多语言的分词方法和装置
技术领域
本发明实施例涉及分词技术领域,尤其涉及一种基于多语言的分词方法和装置。
背景技术
在搜索引擎、文本分析、数据挖掘等人工智能相关的工作中,对于没有空格或者其他明显标志符号分割单词的语言里,利用计算机进行自然语言分析时,为方便获取单词,分词是必须的一个基础工作。以便对分词后的其他处理工作进行展开。
现有技术的分词方法是独立针对某一种语言设计的。即某种分词方法只能对一种语言进行分词。其中,针对某一种语言的分词方法包括:基于词典的分词方法,基于语法规则的方法及基于统计的分词方法。
但是当前很多应用中会涉及到多种语言,对涉及到多种语言的应用进行分词时,亟需一种基于多语言的分词方法。
发明内容
本发明实施例提供一种基于多语言的分词方法和装置,该方法实现了对涉及到多种语言的应用或文本统一进行分词,提高了分词效率。
本发明实施例提供一种基于多语言的分词方法,包括:
接收用户发送的待分词的文本,所述待分词的文本中携带语句分隔符;
根据语句分隔符,识别所述待分词的文本中每个语句的语言类别;
根据所述语言类别,在预存储的语言类别和分词方法的对应关系中查找对应的分词方法;
采用所述语言类别对应的分词方法对相应语言类别的语句进行分词;
向用户输出所述待分词的文本的分词结果。
本发明实施例提供一种基于多语言的分词装置,包括:
接收模块,用于接收用户发送的待分词的文本,所述待分词的文本中携带语句分隔符;
识别模块,用于根据语句分隔符,识别所述待分词的文本中每个语句的语言类别;
查找模块,用于根据所述语言类别,在预存储的语言类别和分词方法的对应关系中查找对应的分词方法;
分词模块,用于采用所述语言类别对应的分词方法对相应语言类别的语句进行分词;
输出模块,用于向用户输出所述待分词的文本的分词结果。
本发明实施例提供一种基于多语言的分词方法和装置。该方法包括:接收用户发送的待分词的文本,待分词的文本中携带语句分隔符;根据语句分隔符,识别待分词的文本中每个语句的语言类别;根据语言类别,在预存储的语言类别和分词方法的对应关系中查找对应的分词方法;采用语言类别对应的分词方法对相应语言类别的语句进行分词;向用户输出待分词的文本的分词结果。该方法实现了对涉及到多种语言的应用或文本统一进行分词,提高了分词效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于多语言的分词方法实施例一的流程图;
图2为本发明基于多语言的分词方法实施例二的第一流程图;
图3为本发明基于多语言的分词方法实施例二的第二流程图
图4为本发明基于多语言的分词装置实施例一的结构示意图;
图5为本发明基于多语言的分词装置实施例二的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明基于多语言的分词方法实施例一的流程图,如图1所示,本实施例的执行主体为计算机,笔记本电脑,服务器等。具体可以通过软件方式实现。本实施例提供的基于多语言的分词方法包括:
步骤101,接收用户发送的待分词的文本,待分词的文本中携带语句分隔符。
本实施例中,执行主体可通过客户端或分词界面向用户提供本实施例中基于多语言的分词方法。在客户端或分词索界面中配置输入栏或调取栏。用户可通过在输入栏中输入待分词的文本的方式或在调取栏中调入待分词的文本的方式发送待分词的文本。
其中,在待分词的文本中携带语句分隔符,可预先设定语句分隔符的种类,如预先设定的语句分隔符可以为空格,换行,逗号,句号及冒号等。
本实施例中,待分词的文本中可以包括多种语言,也可以只包括一种语言,本实施例中对此不做限定。
本实施例中,对于待分词的多个文本,其多个文本的语言种类可以相同也可以不同,本实施中对此不做限定。
步骤102,根据语句分隔符,识别待分词的文本中每个语句的语言类别。
本实施例中,可通过ISO国际标准规定的国家编码ISO-3166和语言编码ISO-639为标准,采用LangId工具包识别待分词的文本中每个语句的语言类别。也可通过收集不同语言类别的文本语料,采用机器学习的方法进行学习,得到优化后的语言识别模型,将该待分词的文本中每个语句输入到优化后的语言识别模型中,对每个语句的语言类别进行识别。本实施例中对此不做限定。
步骤103,根据语言类别,在预存储的语言类别和分词方法的对应关系中查找对应的分词方法。
本实施例中,预先存储了不同语言类别对应的分词方法,针对每种语言类别,其对应的分词方法为优化后的最适合对该语言类别的语句进行分词的方法。
举例说明为:对于中文的分词,对应的最适合分词方法为基于中文分词词典和基于中文语料优化后的条件随机场模型相结合的分词方法,对于日文的分词,对应的最适合分词方法为基于日文词典和基于日文语料优化后的条件随机场模型相结合的分词方法等。
步骤104,采用语言类别对应的分词方法对相应语言类别的语句进行分词。
本实施例中,针对每个语句,采用语言类别对应的分词方法对相应语言类别的语句进行分词,每个语句的分词可以同时进行,也可按照语句在文本的先后顺序进行,本实施例中不做限定。
步骤105,向用户输出待分词的文本的分词结果。
本实施例中,首先根据每个语句的分词结果,在每个语句的分词之间添加分词分隔符,然后将添加分词分隔符后的语句组合,每个语句之间存在原有的语句分隔符,最后在语句分隔符后添加分词分隔符。
其中,分词分隔符可以用斜线表示,也可用空格表示,也可用斜线加空格表示,本实施例中不做限定。
举例说明为:待分词的文本为:“按今日最新消息称日本野党的礒崎希望辞职,原文为:野党側は礒崎氏の辞任を求める。”此待分词文本中预先设定的语句分隔符为逗号,冒号及句号。根据语句分隔符,识别的待分词的文本的第一个语句为“按今日最新消息称日本野党的礒崎希望辞职”,第二语句为“原文为”,第三个语句为“野党側は礒崎氏の辞任を求める”识别出的第一个语句为中文,第二个语句为中文,第三个语句为日文,采用中文对应的分词方法对第一个语句进行分词,得到的第一个语句的分词结果表示为:“按/今日/最新消息/称/日本野党/的/礒崎/希望/辞职/”,采用中文对应的分词方法对第二个语句进行分词,得到的第二个语句的分词结果表示为“原文/为/”,采用日文对应的分词方法对第三个语句进行分词,得到的第三个语句的分词结果表示为“野党/側/は/礒崎/氏/の/辞任/を/求める/”,将添加分词分隔符后的语句组合,每个语句之间存在原有的语句分隔符,最后在语句分隔符后添加分词分隔符,则最终该待分词文本的分词结果可以表示为:“按/今日/最新消息/称/日本野党/的/礒崎/希望/辞职/,/原文/为/:/野党/側/は/礒崎/氏/の/辞任/を/求める/。/”。
本实施例提供的基于多语言的分词方法,通过接收用户发送的待分词的文本,待分词的文本中携带语句分隔符;根据语句分隔符,识别待分词的文本中每个语句的语言类别;根据语言类别,在预存储的语言类别和分词方法的对应关系中查找对应的分词方法;采用语言类别对应的分词方法对相应语言类别的语句进行分词;向用户输出待分词的文本的分词结果。实现了对涉及到多种语言的应用或文本统一进行分词,提高了分词效率。
图2为本发明基于多语言的分词方法实施例二的流程图,如图2所示,本实施例的执行主体为计算机,笔记本电脑,服务器等。具体可以通过软件方式实现。本实施例提供的基于多语言的分词方法包括:
步骤201,针对每一种语言的分词方法,按照逆向存储方法存储每一种语言的分词词典;并存储每一种语言对应的优化后的条件随机场模型及存储特定字符对应的预设分词策略。
本实施例中,由于基于词典的分词方法效率高,并且为了降低正向分词的出错几率,本实施例中,对于每种语言类别的分词方法,首先分别采用逆向词典分词方法对相应的语句进行分词,然后对于逆向词典分词方法中未匹配的语句中的字符,采用该语言类别对应的优化后的条件随机场模型进行分词。
所以,本实施例中,在接收用户发送的待分词的文本之前,按照逆向存储方法存储每一种语言的分词词典,例如,对于中文,“国家”这一分词在分词词典中存储为“家国”。
本实施例中,对于每种语言,收集每种语言的文本语料,对条件随机场模型进行训练,得到优化后的条件随机场模型,由于每种语言收集的文本语料和语言特征不同,所以每种语言对应的优化后的条件随机场模型不同。所以存储每一种语言对应的优化后的条件随机场模型。
本实施例中,还存储特定字符对应的预设分词策略,以使在包含特定字符的语句进行分词时,以该分词策略为限定条件进行分词。例如,在一个语句中含有连续的数字,则存储数字之间不分词的策略,又如,在一个语句的中含有一串数字,数字之间含有逗号,则存储该串数字和逗号作为一个整体并且不分词的策略。
步骤202,接收用户发送的待分词的文本,待分词的文本中携带语句分隔符。
本实施例中,步骤202的实现方式与本发明基于多语言的分词方法实施例中步骤101的实现方式类似,在此不再赘述。
步骤203,根据语句分隔符,识别待分词的文本中每个语句的语言类别。
进一步地,本实施例中,以语句分隔符为间隔,采用语言识别模型对每个语句的语言类别进行识别。
具体地,本实施例中,可收集不同语言类别的文本语料,采用机器学习的方法进行学习,得到优化后的语言识别模型,将该待分词的文本中每个语句输入到优化后的语言识别模型中,对每个语句的语言类别进行识别。
其中,语言识别模型包括:神经网络模型,支撑矢量机模型及贝叶斯分类模型中的任意一种。
需要说明的是,若根据语句分隔符,未能识别出待分词的文本中某个语句的语言类别,则对于该语句的语言类别采用预设的语言类别,以对该语句进行后续的分词。
步骤204,根据语言类别,在预存储的语言类别和分词方法的对应关系中查找对应的分词方法。
本实施例中,步骤204的实现方式与本发明基于多语言的分词方法实施例中步骤103的实现方式类似,在此不再赘述。
步骤205,采用语言类别对应的分词方法对相应语言类别的语句进行分词。
具体地,本实施例中,如图3所示,步骤205可分为以下三个步骤进行。
步骤205a,判断语句中是否含有特定字符,若是,则执行步骤205b,若否,则执行步骤205c。
步骤205b,在对应的预设分词策略的限定下,采用语言类别对应的逆向词典分词方法对相应的语句进行第一次分词。
本实施例中,若语句中含有特定字符,则查找与该特定字符对应的预设分词策略,在采用语言类别对应的逆向词典分词方法对相应的语句进行第一次分词的过程中,以特定字符对应的预设分词策略为限定条件。
举例说明为:待分词的语句为:“销售价7,200,000元”,特定字符“7,200,000”对应的预设分词策略为:数字和逗号作为一个整体并且不分词的策略,则在该预设分词策略的限定下,采用中文对应的逆向词典分词方法进行第一次分词后,分词结果为:“销售价/7,200,00/元”。
执行步骤205b后执行步骤205d。
步骤205c,采用语言类别对应的逆向词典分词方法对相应的语句进行第一次分词。
本实施例中,若语句中不含有特定字符,则采用语言类别对应的逆向词典分词方法对相应的语句进行第一次分词。
步骤205d,判断相应的语句中是否所有字符与分词词典中的分词相匹配,若是,则执行步骤205e,若否,则执行步骤205f。
步骤205e,将第一次分词的结果作为相应的语句的分词结果。
本实施例中,若相应的语句中的所有字符与分词词典中的分词相匹配,则第一次分词的结果为相应的语句的分词结果。举例说明为:进行分词的中文为:“中国国家主席”,采用中文对应的逆向词典分词方法对相应的语句进行第一次分词后的结果为“中国/国家/主席”,则该第一次分词后的结果为该语句的分词结果。
步骤205f,采用语言类别对应的优化后的条件随机场模型对不匹配的字符进行第二次分词,将第一次分词结果和第二次分词的结果相结合作为相应的语句的分词结果。
本实施例中,可在采用语言类别对应的逆向词典分词方法对相应的语句进行第一次分词过程中,若在相应的语句中检测到存在与分词词典中的分词不相匹配字符,则将该不相匹配的字符输入到对应的优化后的条件随机场模型中对不匹配的字符进行第二次分词,也可在采用语言类别对应的逆向词典分词方法对相应的语句进行第一次分词后,提取出该语句中与分词词典中的分词不相匹配字符,然后采用语言类别对应的优化后的条件随机场模型对不匹配的字符进行第二次分词。本实施例对此不作限定。
本实施例中,每种语言类别对应的优化后的条件随机场模型是采用对应语言类别的语料对条件随机场模型进行训练得到的,为了得到最优条件随机场模型,本实施例中采用的语料为语法和词语的使用比较规范,没有过多口语化内容的新闻数据的语料。训练时的参数迭代误差小于0.0001,循环终止次数为10万次。
本实施例中,在采用语言类别对应的优化后的条件随机场模型对不匹配的字符进行第二次分词后,将第一次分词结果和第二次分词的结果相结合作为相应的语句的分词结果。
举例说明为:进行分词的语句为“采用支撑矢量机分类模型”,窗口长度为3,采用中文对应的逆向词典分词方法对该语句进行第一次分词之后,得到的第一分词结果为:“采用/”,该语句中的“支撑矢量机分类模型”与分词词典中的分词不匹配,则将“支撑矢量机分类模型”采用中文对应的优化后的条件随机场模型进行分词,得到的第二分词结果为:“支撑/矢量机/分类/模型/”,则将第一次分词结果和第二次分词的结果相结合后得到的相应的语句的分词结果为:“采用/支撑/矢量机/分类/模型/”。
步骤206,向用户输出待分词的文本的分词结果。
本实施例中,步骤206的实现方式与本发明基于多语言的分词方法实施例中步骤105的实现方式类似,在此不再赘述。
需要说明的是,若在对待分词文本进行分词的过程中产生错误,未能完成待分词文本的分词,则向用户输出错误提示或向用户返回原有的待分词的文本。
本实施例提供的基于多语言的分词方法,首先判断语句中是否含有特定字符,在含有特定字符时,在对应的预设分词策略的限定下,采用语言类别对应的逆向词典分词方法对相应的语句进行第一次分词,若相应的语句中的所有字符与分词词典中的分词相匹配,则第一次分词的结果为相应的语句的分词结果,若相应的语句中存在字符与分词词典中的分词不匹配情况,则采用语言类别对应的优化后的条件随机场模型对不匹配的字符进行第二次分词,第一次分词结果和第二次分词的结果相结合作为相应的语句的分词结果。由于采用逆向词典分词方法进行第一次分词,进一步提高了分词的效率,由于采用优化后的条件随机场模型对不匹配的字符进行第二次分词,能够得到全局最优解,所以提高了分词的准确性。
图4为本发明基于多语言的分词装置实施例一的结构示意图,如图4所示,本实施例提供的基于多语言的分词装置包括:接收模块401,识别模块402,查找模块403,分词模块404及输出模块405。
其中,接收模块401,用于接收用户发送的待分词的文本,所述待分词的文本中携带语句分隔符。识别模块402,用于根据语句分隔符,识别所述待分词的文本中每个语句的语言类别。查找模块403,用于根据所述语言类别,在预存储的语言类别和分词方法的对应关系中查找对应的分词方法。分词模块404,用于采用所述语言类别对应的分词方法对相应语言类别的语句进行分词。输出模块405,用于向用户输出所述待分词的文本的分词结果。
本实施例提供的基于多语言的分词装置可以执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图5为本发明基于多语言的分词装置实施例二的结构示意图,如图5所示,本实施例提供的基于多语言的分词装置包括:接收模块501,识别模块502,查找模块503,分词模块504,输出模块505及存储模块506。
其中,接收模块501,用于接收用户发送的待分词的文本,所述待分词的文本中携带语句分隔符。识别模块502,用于根据语句分隔符,识别所述待分词的文本中每个语句的语言类别。查找模块503,用于根据所述语言类别,在预存储的语言类别和分词方法的对应关系中查找对应的分词方法。分词模块504,用于采用所述语言类别对应的分词方法对相应语言类别的语句进行分词。输出模块505,用于向用户输出所述待分词的文本的分词结果。
进一步地,存储模块506,用于所述查找模块503根据所述语言类别,在预存储的语言类别和分词方法的对应关系中查找对应的分词方法之前,针对每一种语言的分词方法,按照逆向存储方法存储每一种语言的分词词典;并存储每一种语言对应的优化后的条件随机场模型。
所述存储模块506,还用于存储特定字符对应的预设分词策略。
进一步地,分词模块504,具体用于:若语句中含有特定字符,则在对应的预设分词策略的限定下,采用所述语言类别对应的逆向词典分词方法对相应的语句进行第一次分词;若所述相应的语句中的所有字符与所述分词词典中的分词相匹配,则将所述第一次分词的结果作为所述相应的语句的分词结果。
进一步地,分词模块504,还用于若语句中含有特定字符,则在对应的预设分词策略的限定下,采用所述语言类别对应的逆向词典分词方法对相应的语句进行第一次分词之后,若所述相应的语句中存在字符与所述分词词典中的分词不匹配情况,则采用所述语言类别对应的优化后的条件随机场模型对不匹配的字符进行第二次分词,将所述第一次分词结果和所述第二次分词的结果相结合作为所述相应的语句的分词结果。
进一步地,识别模块502,具体用于:以所述语句分隔符为间隔,采用语言识别模型对每个语句的语言类别进行识别;
其中,所述语言识别模型包括:神经网络模型,支撑矢量机模型及贝叶斯分类模型中的任意一种。
本实施例提供的基于多语言的分词装置可以执行图2和图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (6)

1.一种基于多语言的分词方法,其特征在于,包括:
接收用户发送的待分词的文本,所述待分词的文本中携带语句分隔符;
根据语句分隔符,识别所述待分词的文本中每个语句的语言类别;
根据所述语言类别,在预存储的语言类别和分词方法的对应关系中查找对应的分词方法;
采用所述语言类别对应的分词方法对相应语言类别的语句进行分词;
向用户输出所述待分词的文本的分词结果;
在预存储的语言类别和分词方法的对应关系中查找对应的分词方法之前,还包括:
针对每一种语言的分词方法,按照逆向存储方法存储每一种语言的分词词典;并存储每一种语言对应的优化后的条件随机场模型;
存储特定字符对应的预设分词策略;
其中,所述采用所述语言类别对应的分词方法对相应语言类别的语句进行分词具体包括:
若语句中含有特定字符,则在对应的预设分词策略的限定下,采用所述语言类别对应的逆向词典分词方法对相应的语句进行第一次分词;
若所述相应的语句中的所有字符与所述分词词典中的分词相匹配,则将所述第一次分词的结果作为所述相应的语句的分词结果。
2.根据权利要求1所述的方法,其特征在于,所述若语句中含有特定字符,则在对应的预设分词策略的限定下,采用所述语言类别对应的逆向词典分词方法对相应的语句进行第一次分词之后还包括:
若所述相应的语句中存在字符与所述分词词典中的分词不匹配情况,则采用所述语言类别对应的优化后的条件随机场模型对不匹配的字符进行第二次分词,将所述第一次分词结果和所述第二次分词的结果相结合作为所述相应的语句的分词结果。
3.根据权利要求1或2所述的方法,其特征在于,所述根据语句分隔符,识别所述待分词的文本中每个语句的语言类别,具体包括:
以所述语句分隔符为间隔,采用语言识别模型对每个语句的语言类别进行识别;
其中,所述语言识别模型包括:神经网络模型,支撑矢量机模型及贝叶斯分类模型中的任意一种。
4.一种基于多语言的分词装置,其特征在于,包括:
接收模块,用于接收用户发送的待分词的文本,所述待分词的文本中携带语句分隔符;
识别模块,用于根据语句分隔符,识别所述待分词的文本中每个语句的语言类别;
查找模块,用于根据所述语言类别,在预存储的语言类别和分词方法的对应关系中查找对应的分词方法;
分词模块,用于采用所述语言类别对应的分词方法对相应语言类别的语句进行分词;
输出模块,用于向用户输出所述待分词的文本的分词结果;
存储模块;所述存储模块,用于所述查找模块根据所述语言类别,在预存储的语言类别和分词方法的对应关系中查找对应的分词方法之前,针对每一种语言的分词方法,按照逆向存储方法存储每一种语言的分词词典;并存储每一种语言对应的优化后的条件随机场模型;
所述存储模块,还用于存储特定字符对应的预设分词策略;
其中,所述分词模块,具体用于:
若语句中含有特定字符,则在对应的预设分词策略的限定下,采用所述语言类别对应的逆向词典分词方法对相应的语句进行第一次分词;
若所述相应的语句中的所有字符与所述分词词典中的分词相匹配,则将所述第一次分词的结果作为所述相应的语句的分词结果。
5.根据权利要求4所述的装置,其特征在于,所述分词模块,还用于:
若语句中含有特定字符,则在对应的预设分词策略的限定下,采用所述语言类别对应的逆向词典分词方法对相应的语句进行第一次分词之后,若所述相应的语句中存在字符与所述分词词典中的分词不匹配情况,则采用所述语言类别对应的优化后的条件随机场模型对不匹配的字符进行第二次分词,将所述第一次分词结果和所述第二次分词的结果相结合作为所述相应的语句的分词结果。
6.根据权利要求4或5所述的装置,其特征在于,所述识别模块,具体用于:
以所述语句分隔符为间隔,采用语言识别模型对每个语句的语言类别进行识别;
其中,所述语言识别模型包括:神经网络模型,支撑矢量机模型及贝叶斯分类模型中的任意一种。
CN201510629693.5A 2015-09-28 2015-09-28 基于多语言的分词方法和装置 Expired - Fee Related CN105243055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510629693.5A CN105243055B (zh) 2015-09-28 2015-09-28 基于多语言的分词方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510629693.5A CN105243055B (zh) 2015-09-28 2015-09-28 基于多语言的分词方法和装置

Publications (2)

Publication Number Publication Date
CN105243055A CN105243055A (zh) 2016-01-13
CN105243055B true CN105243055B (zh) 2018-07-31

Family

ID=55040707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510629693.5A Expired - Fee Related CN105243055B (zh) 2015-09-28 2015-09-28 基于多语言的分词方法和装置

Country Status (1)

Country Link
CN (1) CN105243055B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126496B (zh) * 2016-06-17 2019-01-18 联动优势科技有限公司 一种信息分词方法及装置
CN107729309B (zh) * 2016-08-11 2022-11-08 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
CN107301170B (zh) 2017-06-19 2020-12-22 北京百度网讯科技有限公司 基于人工智能的切分语句的方法和装置
CN107977354A (zh) * 2017-10-12 2018-05-01 北京知道未来信息技术有限公司 一种基于Bi-LSTM-CNN的混合语料分词方法
CN107894976A (zh) * 2017-10-12 2018-04-10 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的混合语料分词方法
CN107992467A (zh) * 2017-10-12 2018-05-04 北京知道未来信息技术有限公司 一种基于lstm的混合语料分词方法
CN107797986B (zh) * 2017-10-12 2020-12-11 北京知道未来信息技术有限公司 一种基于lstm-cnn的混合语料分词方法
CN107992475A (zh) * 2017-11-27 2018-05-04 武汉中海庭数据技术有限公司 一种基于车载导航仪全文检索的多语言分词方法及装置
CN110032730B (zh) * 2019-02-18 2023-09-05 创新先进技术有限公司 一种文本数据的处理方法、装置和设备
CN110543637B (zh) * 2019-09-06 2023-04-28 知者信息技术服务成都有限公司 一种中文分词方法及装置
CN111008528A (zh) * 2019-12-05 2020-04-14 北京知道智慧信息技术有限公司 文本处理方法、装置、电子设备及可读存储介质
CN113041623B (zh) * 2019-12-26 2023-04-07 波克科技股份有限公司 游戏参数配置方法及装置、计算机可读存储介质
US11966699B2 (en) 2021-06-17 2024-04-23 International Business Machines Corporation Intent classification using non-correlated features
CN113779964A (zh) * 2021-09-02 2021-12-10 中联国智科技管理(北京)有限公司 一种语句分割方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915299A (zh) * 2012-10-23 2013-02-06 海信集团有限公司 一种分词方法及装置
CN102999534A (zh) * 2011-09-19 2013-03-27 北京金和软件股份有限公司 一种基于逆向最大匹配的中文分词算法
CN103309926A (zh) * 2013-03-12 2013-09-18 中国科学院声学研究所 基于条件随机场的中英文混合命名实体识别方法及系统
CN103324612A (zh) * 2012-03-22 2013-09-25 北京百度网讯科技有限公司 一种分词的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999534A (zh) * 2011-09-19 2013-03-27 北京金和软件股份有限公司 一种基于逆向最大匹配的中文分词算法
CN103324612A (zh) * 2012-03-22 2013-09-25 北京百度网讯科技有限公司 一种分词的方法及装置
CN102915299A (zh) * 2012-10-23 2013-02-06 海信集团有限公司 一种分词方法及装置
CN103309926A (zh) * 2013-03-12 2013-09-18 中国科学院声学研究所 基于条件随机场的中英文混合命名实体识别方法及系统

Also Published As

Publication number Publication date
CN105243055A (zh) 2016-01-13

Similar Documents

Publication Publication Date Title
CN105243055B (zh) 基于多语言的分词方法和装置
CN107436864B (zh) 一种基于Word2Vec的中文问答语义相似度计算方法
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN111222305B (zh) 一种信息结构化方法和装置
CN110781276A (zh) 文本抽取方法、装置、设备及存储介质
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN109446300B (zh) 一种语料预处理方法、语料预标注方法及电子设备
CN114036930A (zh) 文本纠错方法、装置、设备及计算机可读介质
CN109522415B (zh) 一种语料标注方法及装置
CN110008473B (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN111144102B (zh) 用于识别语句中实体的方法、装置和电子设备
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
KR20200139008A (ko) 딥러닝 기술을 활용한 법률서비스 이용자의 의도분석 기반 계약서 추천 및 자동완성 서비스
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN116628229B (zh) 一种利用知识图谱生成文本语料的方法及装置
CN112541337A (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN115098657A (zh) 自然语言转换数据库查询语句的方法、设备及介质
CN112417093A (zh) 一种模型训练的方法及装置
Castro et al. Discriminating between Brazilian and European Portuguese national varieties on Twitter texts
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN110232328A (zh) 一种征信报告解析方法、装置及计算机可读存储介质
CN111782789A (zh) 智能问答方法与系统
CN112990388B (zh) 基于概念词的文本聚类方法
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180731

Termination date: 20200928