CN106354711A

CN106354711A - 一种语种识别的方法及装置

Info

Publication number: CN106354711A
Application number: CN201610685891.8A
Authority: CN
Inventors: 程国艮; 王建华
Original assignee: Mandarin Technology (beijing) Co Ltd
Current assignee: Mandarin Technology (beijing) Co Ltd
Priority date: 2016-08-18
Filing date: 2016-08-18
Publication date: 2017-01-25

Abstract

本发明公开了一种语种识别的方法及装置，涉及语种识别技术领域；解决了电子文档中文字语种难以识别的技术问题；该技术方案包括：步骤一，分批次读取文字；步骤二，识别读入的是一个字还是一个字符，如果是一个字符，判断接下来读取的内容，是一个字或还是一个字符，递归读取判断，直到完整识别出是一个字符还是连续的字符即一个词；步骤三，识别最终识别出来的一个字、一个词或是一个字符的语种。

Description

一种语种识别的方法及装置

技术领域

本发明涉及语种识别技术领域，特别涉及一种语种识别的方法及装置。

背景技术

随着科技的发展及国际化，人们工作中经常会接触到各语种的文件，因此语种识别成为当即需要解决的问题。

发明内容

本发明要解决的是电子文档中文字语种难以识别的技术问题。

为了解决上述问题，本发明提供了一种语种识别的方法，包括：步骤一，分批次读取文字；步骤二，识别读入的是一个字还是一个字符，如果是一个字符，判断接下来读取的内容，是一个字或还是一个字符，递归读取判断，直到完整识别出是一个字符还是连续的字符即一个词；步骤三，识别最终识别出来的一个字、一个词或是一个字符的语种。

本发明还提供了一种语种识别的装置，包括：读取单元，分批次读取文字；语种识别单元，识别读入的是一个字还是一个字符，如果是一个字符，判断接下来读取的内容，是一个字或还是一个字符，递归读取判断，直到完整识别出是一个字符还是连续的字符即一个词；识别最终识别出来的一个字、一个词或是一个字符的语种。

本发明的技术方案实现了一种语种识别的方法及装置，解决了多语种文档中文字识别难的技术问题，准确的识别出文档中的文字。分批次读取文字，可分分解较大文件，确保速度和准确度，节省识别时间。逐字递归读取判断，可以精确识别的精准度，减小误差。

附图说明

图1一种语种识别的方法示意图；

图2一种语种识别的方法流程示意图；

图3一种语种识别的装置示意图；

图4一种语种识别的装置结构示意图。

具体实施方式

下面将结合附图及实施例对本发明的技术方案进行更详细的说明。

需要说明的是，如果不冲突，本发明实施例以及实施例中的各个特征可以相互结合，均在本发明的保护范围之内。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一，一种语种识别的方法，如图1所示，包括：

步骤一，分批次读取文字；读取文字为待识别的两种或是多种语言文档或一串文字。

步骤二，识别读入的是一个字还是一个字符，如果是一个字符，判断接下来读取的内容，是一个字或还是一个字符，递归读取判断，直到完整识别出是一个字符还是连续的字符即一个词；

根据一个编码库识别读入的是一个字还是一个字符，每个字、字符或是符合都对应一个唯一编码。

步骤三，识别最终识别出来的一个字、一个词或是一个字符的语种。识别是通过语种识别模型实现的，语种识别模型是根据多种语言的大量单语语料训练出来的语言模型，能准确的识别出字、词或是句子的语种。

识别过程：“大家好，我叫汤姆(TOM)”，这个句子，汉字部分，能直接根据编码库判断出来是一个个字，“TOM”部分，首先读取的是“T”，根据编码库判断，是一个字符，然后继续读取下一个“O”，再根据编码库判断，还是一个字符，继续读取下一个“M”，根据编码库判断，还是一个字符，继续读取下一个，下一个是符合了，算法则认为TOM是一个词。

本技术方案解决了多语种文档中文字识别难的技术问题，准确的识别出文档中的文字。分批次读取文字，可分分解较大文件，确保速度和准确度，节省识别时间。逐字递归读取判断，可以精确识别的精准度，减小误差。

实施例二，一种语种识别的方法，如图2所示，在实施例一的基础上。进一步包括：

更优的，所述步骤一之后，逐个字符的将读取到的文字过滤掉标点符号。

可以将读取的文字放到内存中；将读取的文字，逐个字符，通过标点符号算法，过滤掉标点符号；所述标点符号算法是通过查询标点符号编码库，来判断是否是符号的方法。通过此步骤，后续读取，不用再判断标点符号。

更优的，记录读取的字、词或是字符及对应的语种。通过存储器容器记录传进来的字、词或是字符及对应的语种。

更优的，当全部读取完成，根据所述记录的信息，按语种统计出每个语种的字、词或是字符的数量。当整个文档或是一串文字全部读取完成，根据存储器中记录的语种，按语种统计出每个语种的字、词或是字符的数量，是通过计数器计算统计每个语种的字、词或是字符的数量的。

更优的，统计出数量最多的语种是主语种，其他语种为副语种。

本发明是解决了对于文件中或一段文字中，含有两种或多种语言，能识别出主语种，并根据主语种进行其他业务判断的应用场景；如翻译领域根据文件内容的主语种进行翻译报价，或是对一段文字中的主语种进行文字提取等。

本发明读取过滤掉标点符号的字符串中的一个字或是一个字符，通过训练好的语种识别模型识别，完整的识别出一个字或一个词的语种，并把这个字或词及对应语种转向主副语种识别算法。能准确识别一段文本或文档(存在两种及以上的语言)中主副语种；能准确识别word、excel、txt常用文档格式中的语种；能够对大文件文档进行快速且准确的识别。

实施例三，一种语种识别的装置，如图3所示，本实施例的装置与实施例一的方法一一对应。

包括：读取单元，分批次读取文字；读取文字为待识别的两种或是多种语言文档或一串文字。

语种识别单元，识别读入的是一个字还是一个字符，如果是一个字符，判断接下来读取的内容，是一个字或还是一个字符，递归读取判断，直到完整识别出是一个字符还是连续的字符即一个词；根据一个编码库识别读入的是一个字还是一个字符，每个字、字符或是符合都对应一个唯一编码。

识别最终识别出来的一个字、一个词或是一个字符的语种。识别是通过语种识别模型实现的，语种识别模型是根据多种语言的大量单语语料训练出来的语言模型，能准确的识别出字、词或是句子的语种。

实施例四，一种语种识别的装置，如图4所示，本实施例的装置与实施例二的方法一一对应。在实施例三的基础上。进一步包括：

更优的，还包括标点符号过滤单元，所述读取单元，分批次读取文字之后，标点符号过滤单元逐个字符的将读取到的文字过滤掉标点符号。可以将读取的文字放到内存中；将读取的文字，逐个字符，通过标点符号算法，过滤掉标点符号；所述标点符号算法是通过查询标点符号编码库，来判断是否是符号的方法。通过此步骤，后续读取，不用再判断标点符号。

更优的，还包括主副语种识别单元，主副语种识别单元记录读取的字、词或是字符及对应的语种。通过存储器容器记录传进来的字、词或是字符及对应的语种。

更优的，当全部读取完成，主副语种识别单元根据所述记录的信息，按语种统计出每个语种的字、词或是字符的数量。当整个文档或是一串文字全部读取完成，根据存储器中记录的语种，按语种统计出每个语种的字、词或是字符的数量，是通过计数器计算统计每个语种的字、词或是字符的数量的。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明的权利要求的保护范围。

Claims

1.一种语种识别的方法，其特征在于，包括：

步骤一，分批次读取文字；

步骤三，识别最终识别出来的一个字、一个词或是一个字符的语种。

2.如权利要求1所述的方法，其特征在于，所述步骤一之后，逐个字符的将读取到的文字过滤掉标点符号。

3.如权利要求1所述的方法，其特征在于，记录读取的字、词或是字符及对应的语种。

4.如权利要求3所述的方法，其特征在于，当全部读取完成，根据所述记录的信息，按语种统计出每个语种的字、词或是字符的数量。

5.如权利要求4所述的方法，其特征在于，统计出数量最多的语种是主语种，其他语种为副语种。

6.一种语种识别的装置，其特征在于，包括：

读取单元，分批次读取文字；

语种识别单元，识别读入的是一个字还是一个字符，如果是一个字符，判断接下来读取的内容，是一个字或还是一个字符，递归读取判断，直到完整识别出是一个字符还是连续的字符即一个词；识别最终识别出来的一个字、一个词或是一个字符的语种。

7.如权利要求6所述的装置，其特征在于，还包括标点符号过滤单元，所述读取单元，分批次读取文字之后，标点符号过滤单元逐个字符的将读取到的文字过滤掉标点符号。

8.如权利要求6所述的装置，其特征在于，还包括主副语种识别单元，主副语种识别单元记录读取的字、词或是字符及对应的语种。

9.如权利要求8所述的装置，其特征在于，当全部读取完成，主副语种识别单元根据所述记录的信息，按语种统计出每个语种的字、词或是字符的数量。

10.如权利要求9所述的装置，其特征在于，统计出数量最多的语种是主语种，其他语种为副语种。