CN106354711A - 一种语种识别的方法及装置 - Google Patents
一种语种识别的方法及装置 Download PDFInfo
- Publication number
- CN106354711A CN106354711A CN201610685891.8A CN201610685891A CN106354711A CN 106354711 A CN106354711 A CN 106354711A CN 201610685891 A CN201610685891 A CN 201610685891A CN 106354711 A CN106354711 A CN 106354711A
- Authority
- CN
- China
- Prior art keywords
- word
- languages
- character
- reading
- read
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语种识别的方法及装置,涉及语种识别技术领域;解决了电子文档中文字语种难以识别的技术问题;该技术方案包括:步骤一,分批次读取文字;步骤二,识别读入的是一个字还是一个字符,如果是一个字符,判断接下来读取的内容,是一个字或还是一个字符,递归读取判断,直到完整识别出是一个字符还是连续的字符即一个词;步骤三,识别最终识别出来的一个字、一个词或是一个字符的语种。
Description
技术领域
本发明涉及语种识别技术领域,特别涉及一种语种识别的方法及装置。
背景技术
随着科技的发展及国际化,人们工作中经常会接触到各语种的文件,因此语种识别成为当即需要解决的问题。
发明内容
本发明要解决的是电子文档中文字语种难以识别的技术问题。
为了解决上述问题,本发明提供了一种语种识别的方法,包括:步骤一,分批次读取文字;步骤二,识别读入的是一个字还是一个字符,如果是一个字符,判断接下来读取的内容,是一个字或还是一个字符,递归读取判断,直到完整识别出是一个字符还是连续的字符即一个词;步骤三,识别最终识别出来的一个字、一个词或是一个字符的语种。
本发明还提供了一种语种识别的装置,包括:读取单元,分批次读取文字;语种识别单元,识别读入的是一个字还是一个字符,如果是一个字符,判断接下来读取的内容,是一个字或还是一个字符,递归读取判断,直到完整识别出是一个字符还是连续的字符即一个词;识别最终识别出来的一个字、一个词或是一个字符的语种。
本发明的技术方案实现了一种语种识别的方法及装置,解决了多语种文档中文字识别难的技术问题,准确的识别出文档中的文字。分批次读取文字,可分分解较大文件,确保速度和准确度,节省识别时间。逐字递归读取判断,可以精确识别的精准度,减小误差。
附图说明
图1一种语种识别的方法示意图;
图2一种语种识别的方法流程示意图;
图3一种语种识别的装置示意图;
图4一种语种识别的装置结构示意图。
具体实施方式
下面将结合附图及实施例对本发明的技术方案进行更详细的说明。
需要说明的是,如果不冲突,本发明实施例以及实施例中的各个特征可以相互结合,均在本发明的保护范围之内。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一,一种语种识别的方法,如图1所示,包括:
步骤一,分批次读取文字;读取文字为待识别的两种或是多种语言文档或一串文字。
步骤二,识别读入的是一个字还是一个字符,如果是一个字符,判断接下来读取的内容,是一个字或还是一个字符,递归读取判断,直到完整识别出是一个字符还是连续的字符即一个词;
根据一个编码库识别读入的是一个字还是一个字符,每个字、字符或是符合都对应一个唯一编码。
步骤三,识别最终识别出来的一个字、一个词或是一个字符的语种。识别是通过语种识别模型实现的,语种识别模型是根据多种语言的大量单语语料训练出来的语言模型,能准确的识别出字、词或是句子的语种。
识别过程:“大家好,我叫汤姆(TOM)”,这个句子,汉字部分,能直接根据编码库判断出来是一个个字,“TOM”部分,首先读取的是“T”,根据编码库判断,是一个字符,然后继续读取下一个“O”,再根据编码库判断,还是一个字符,继续读取下一个“M”,根据编码库判断,还是一个字符,继续读取下一个,下一个是符合了,算法则认为TOM是一个词。
本技术方案解决了多语种文档中文字识别难的技术问题,准确的识别出文档中的文字。分批次读取文字,可分分解较大文件,确保速度和准确度,节省识别时间。逐字递归读取判断,可以精确识别的精准度,减小误差。
实施例二,一种语种识别的方法,如图2所示,在实施例一的基础上。进一步包括:
更优的,所述步骤一之后,逐个字符的将读取到的文字过滤掉标点符号。
可以将读取的文字放到内存中;将读取的文字,逐个字符,通过标点符号算法,过滤掉标点符号;所述标点符号算法是通过查询标点符号编码库,来判断是否是符号的方法。通过此步骤,后续读取,不用再判断标点符号。
更优的,记录读取的字、词或是字符及对应的语种。通过存储器容器记录传进来的字、词或是字符及对应的语种。
更优的,当全部读取完成,根据所述记录的信息,按语种统计出每个语种的字、词或是字符的数量。当整个文档或是一串文字全部读取完成,根据存储器中记录的语种,按语种统计出每个语种的字、词或是字符的数量,是通过计数器计算统计每个语种的字、词或是字符的数量的。
更优的,统计出数量最多的语种是主语种,其他语种为副语种。
本发明是解决了对于文件中或一段文字中,含有两种或多种语言,能识别出主语种,并根据主语种进行其他业务判断的应用场景;如翻译领域根据文件内容的主语种进行翻译报价,或是对一段文字中的主语种进行文字提取等。
本发明读取过滤掉标点符号的字符串中的一个字或是一个字符,通过训练好的语种识别模型识别,完整的识别出一个字或一个词的语种,并把这个字或词及对应语种转向主副语种识别算法。能准确识别一段文本或文档(存在两种及以上的语言)中主副语种;能准确识别word、excel、txt常用文档格式中的语种;能够对大文件文档进行快速且准确的识别。
实施例三,一种语种识别的装置,如图3所示,本实施例的装置与实施例一的方法一一对应。
包括:读取单元,分批次读取文字;读取文字为待识别的两种或是多种语言文档或一串文字。
语种识别单元,识别读入的是一个字还是一个字符,如果是一个字符,判断接下来读取的内容,是一个字或还是一个字符,递归读取判断,直到完整识别出是一个字符还是连续的字符即一个词;根据一个编码库识别读入的是一个字还是一个字符,每个字、字符或是符合都对应一个唯一编码。
识别最终识别出来的一个字、一个词或是一个字符的语种。识别是通过语种识别模型实现的,语种识别模型是根据多种语言的大量单语语料训练出来的语言模型,能准确的识别出字、词或是句子的语种。
识别过程:“大家好,我叫汤姆(TOM)”,这个句子,汉字部分,能直接根据编码库判断出来是一个个字,“TOM”部分,首先读取的是“T”,根据编码库判断,是一个字符,然后继续读取下一个“O”,再根据编码库判断,还是一个字符,继续读取下一个“M”,根据编码库判断,还是一个字符,继续读取下一个,下一个是符合了,算法则认为TOM是一个词。
本技术方案解决了多语种文档中文字识别难的技术问题,准确的识别出文档中的文字。分批次读取文字,可分分解较大文件,确保速度和准确度,节省识别时间。逐字递归读取判断,可以精确识别的精准度,减小误差。
实施例四,一种语种识别的装置,如图4所示,本实施例的装置与实施例二的方法一一对应。在实施例三的基础上。进一步包括:
更优的,还包括标点符号过滤单元,所述读取单元,分批次读取文字之后,标点符号过滤单元逐个字符的将读取到的文字过滤掉标点符号。可以将读取的文字放到内存中;将读取的文字,逐个字符,通过标点符号算法,过滤掉标点符号;所述标点符号算法是通过查询标点符号编码库,来判断是否是符号的方法。通过此步骤,后续读取,不用再判断标点符号。
更优的,还包括主副语种识别单元,主副语种识别单元记录读取的字、词或是字符及对应的语种。通过存储器容器记录传进来的字、词或是字符及对应的语种。
更优的,当全部读取完成,主副语种识别单元根据所述记录的信息,按语种统计出每个语种的字、词或是字符的数量。当整个文档或是一串文字全部读取完成,根据存储器中记录的语种,按语种统计出每个语种的字、词或是字符的数量,是通过计数器计算统计每个语种的字、词或是字符的数量的。
更优的,统计出数量最多的语种是主语种,其他语种为副语种。
本发明是解决了对于文件中或一段文字中,含有两种或多种语言,能识别出主语种,并根据主语种进行其他业务判断的应用场景;如翻译领域根据文件内容的主语种进行翻译报价,或是对一段文字中的主语种进行文字提取等。
本发明读取过滤掉标点符号的字符串中的一个字或是一个字符,通过训练好的语种识别模型识别,完整的识别出一个字或一个词的语种,并把这个字或词及对应语种转向主副语种识别算法。能准确识别一段文本或文档(存在两种及以上的语言)中主副语种;能准确识别word、excel、txt常用文档格式中的语种;能够对大文件文档进行快速且准确的识别。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明的权利要求的保护范围。
Claims (10)
1.一种语种识别的方法,其特征在于,包括:
步骤一,分批次读取文字;
步骤二,识别读入的是一个字还是一个字符,如果是一个字符,判断接下来读取的内容,是一个字或还是一个字符,递归读取判断,直到完整识别出是一个字符还是连续的字符即一个词;
步骤三,识别最终识别出来的一个字、一个词或是一个字符的语种。
2.如权利要求1所述的方法,其特征在于,所述步骤一之后,逐个字符的将读取到的文字过滤掉标点符号。
3.如权利要求1所述的方法,其特征在于,记录读取的字、词或是字符及对应的语种。
4.如权利要求3所述的方法,其特征在于,当全部读取完成,根据所述记录的信息,按语种统计出每个语种的字、词或是字符的数量。
5.如权利要求4所述的方法,其特征在于,统计出数量最多的语种是主语种,其他语种为副语种。
6.一种语种识别的装置,其特征在于,包括:
读取单元,分批次读取文字;
语种识别单元,识别读入的是一个字还是一个字符,如果是一个字符,判断接下来读取的内容,是一个字或还是一个字符,递归读取判断,直到完整识别出是一个字符还是连续的字符即一个词;识别最终识别出来的一个字、一个词或是一个字符的语种。
7.如权利要求6所述的装置,其特征在于,还包括标点符号过滤单元,所述读取单元,分批次读取文字之后,标点符号过滤单元逐个字符的将读取到的文字过滤掉标点符号。
8.如权利要求6所述的装置,其特征在于,还包括主副语种识别单元,主副语种识别单元记录读取的字、词或是字符及对应的语种。
9.如权利要求8所述的装置,其特征在于,当全部读取完成,主副语种识别单元根据所述记录的信息,按语种统计出每个语种的字、词或是字符的数量。
10.如权利要求9所述的装置,其特征在于,统计出数量最多的语种是主语种,其他语种为副语种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610685891.8A CN106354711A (zh) | 2016-08-18 | 2016-08-18 | 一种语种识别的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610685891.8A CN106354711A (zh) | 2016-08-18 | 2016-08-18 | 一种语种识别的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106354711A true CN106354711A (zh) | 2017-01-25 |
Family
ID=57843400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610685891.8A Pending CN106354711A (zh) | 2016-08-18 | 2016-08-18 | 一种语种识别的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106354711A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103065622A (zh) * | 2012-12-20 | 2013-04-24 | 中国科学院声学研究所 | 一种用于语种识别的语种模型的训练方法及系统 |
CN104699669A (zh) * | 2015-03-31 | 2015-06-10 | 中译语通科技(北京)有限公司 | 一种文本字数统计的方法及装置 |
CN105336324A (zh) * | 2015-11-17 | 2016-02-17 | 百度在线网络技术(北京)有限公司 | 一种语种识别方法及装置 |
CN105608074A (zh) * | 2016-01-15 | 2016-05-25 | 中译语通科技(北京)有限公司 | 一种字数统计方法及装置 |
-
2016
- 2016-08-18 CN CN201610685891.8A patent/CN106354711A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103065622A (zh) * | 2012-12-20 | 2013-04-24 | 中国科学院声学研究所 | 一种用于语种识别的语种模型的训练方法及系统 |
CN104699669A (zh) * | 2015-03-31 | 2015-06-10 | 中译语通科技(北京)有限公司 | 一种文本字数统计的方法及装置 |
CN105336324A (zh) * | 2015-11-17 | 2016-02-17 | 百度在线网络技术(北京)有限公司 | 一种语种识别方法及装置 |
CN105608074A (zh) * | 2016-01-15 | 2016-05-25 | 中译语通科技(北京)有限公司 | 一种字数统计方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475209B2 (en) | Device, system, and method for extracting named entities from sectioned documents | |
CN102184167B (zh) | 一种文本数据处理方法和装置 | |
CN101702944A (zh) | 用于识别自然语言文件中的整体-部分关系的语义处理器 | |
CN105630817B (zh) | 一种电子发票内容解析的方法及系统 | |
CN104572625A (zh) | 命名实体的识别方法 | |
US5384702A (en) | Method for self-correction of grammar in machine translation | |
CN102789504A (zh) | 一种基于xml规则的中文语法校正方法与系统 | |
CN102722518A (zh) | 信息处理装置、信息处理方法和程序 | |
CN105808523A (zh) | 一种识别文档的方法及装置 | |
CN103034625A (zh) | 侦测及校正中文错字的系统及方法 | |
CN112132238A (zh) | 一种识别隐私数据的方法、装置、设备和可读介质 | |
CN109086274A (zh) | 基于约束模型的英文社交媒体短文本时间表达式识别方法 | |
CN104252446A (zh) | 计算装置、文件内容一致性验证系统及方法 | |
Mundotiya et al. | Development of a Dataset and a Deep Learning Baseline Named Entity Recognizer for Three Low Resource Languages: Bhojpuri, Maithili, and Magahi | |
KR101607672B1 (ko) | 비구조화 임상 문서의 치환 기반 패턴 검색 장치 및 검색 방법 | |
EP3679526A1 (en) | Machine learning lexical discovery | |
Shahroz et al. | RUTUT: roman Urdu to Urdu translator based on character substitution rules and unicode mapping | |
Marsi et al. | Memory-based morphological analysis generation and part-of-speech tagging of Arabic | |
CN111881288A (zh) | 笔录信息真假的判断方法、装置、存储介质及电子设备 | |
CN108763209B (zh) | 一种特征提取和风险识别的方法、装置及设备 | |
Koscinski et al. | A natural language processing technique for formalization of systems requirement specifications | |
CN106354711A (zh) | 一种语种识别的方法及装置 | |
CN114117055A (zh) | 一种文本实体关系的抽取方法、装置、设备和可读介质 | |
Sampson | SUSANNE: A domesday book of English grammar | |
CN105740359B (zh) | 个股识别的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100040 Shijingshan District railway building, Beijing, the 16 floor Applicant after: Chinese translation language through Polytron Technologies Inc Address before: 100040 Shijingshan District railway building, Beijing, the 16 floor Applicant before: Mandarin Technology (Beijing) Co., Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170125 |
|
RJ01 | Rejection of invention patent application after publication |