CN111160015B - 一种实现文本分析的方法、装置、计算机存储介质及终端 - Google Patents
一种实现文本分析的方法、装置、计算机存储介质及终端 Download PDFInfo
- Publication number
- CN111160015B CN111160015B CN201911346811.6A CN201911346811A CN111160015B CN 111160015 B CN111160015 B CN 111160015B CN 201911346811 A CN201911346811 A CN 201911346811A CN 111160015 B CN111160015 B CN 111160015B
- Authority
- CN
- China
- Prior art keywords
- characters
- character
- text
- analyzed
- larger
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 5
- 238000007619 statistical method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000009440 infrastructure construction Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
一种实现文本分析的方法、装置、计算机存储介质及终端,包括:将待分析文本与两种或两种以上语言字典进行比对,获得待分析文本中包含的各种文字的比例;根据获得的待分析文本中包含的各种文字的比例,确定待分析文本的所属语言类型。本发明实施例通过语言词典的比对分析,确定了待分析文本的所属语言类型,为文本分析提供了技术支持。
Description
技术领域
本文涉及但不限于信息分析技术,尤指一种实现文本分析的方法、装置、计算机存储介质及终端。
背景技术
随着信息基础设施建设的日益完善,互联网在人们日常生活中变的越来越重要,它已经深入到人们生产、生活的各个领域。“互联网+”是互联网的进阶,推动了移动互联网、云计算、大数据、物联网等与现代制造业相结合,促进了电子商务、工业互联网的发展。“互联网+”不断的改变着我们的生活方式,越来越多的个人、公司、企业、科研单位、机关、学校等通过网络进行科研成果交流或日常信息的交流。中国网民规模达8.02亿,普及率为57.7%;中国手机网民规模达7.88亿,网民通过手机接入互联网的比例高达98.3%。伴随着这些庞大的数字,网页、电子邮件、聊天信息、各种文档等带来了海量的文本数据,这些海量的文本数据正是通过互联网进行生成、传播、交换、存储和访问,进入世界各地人们的日常生活中。
在互联网带来的海量文本数据中,语言多样性带来的问题特别值得关注。据调查数据显示,全世界使用英语的网民占的比重最大,占到三成以上。据统计,世界上使用人数较多的语言有82种,这些语言中的任何一种都有超过1000万人在使用,其它使用人数相对较少的语言更是多达数千种。在多种语言文字同时使用及存储的情况下,面对互联网上不断产生的海量文本数据,在进行自然语言处理时,需要知道该数据是那种自然语言的数据,才能确定后续使用哪种方式进行信息的处理;例如,如果识别当前为英文,则后续需要进行分词分析等操作时,会按照英文的类型进行操作;如果识别的是中文,则后续需要进行分词分析等操作时,会按照中文的类型进行操作。对中英文的操作是不同的,不能用同一种方式进行操作分析,否则分析出来的结果很可能就会毫无意义。
目前,在进行文本数据分析时,主要通过相关技术人员人为确定语言类型,这给信息处理带来不便。设计实现一种语言类型识别的方法,成为一个亟待解决的技术问题。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供一种实现文本分析的方法、装置、计算机存储介质及终端,能够实现语言类型的识别。
本发明实施例提供了一种实现文本分析的方法,包括:
将待分析文本与两种或两种以上语言字典进行比对,获得待分析文本中包含的各种文字的比例;
根据获得的待分析文本中包含的各种文字的比例,确定待分析文本的所属语言类型。
在一种示例性实施例中,所述语言字典包括一项或任意组合的字典:
繁体字字典、越南语字母字典、特殊字符字典和粤语字典。
在一种示例性实施例中,所述将待分析文本与两种或两种以上语言字典进行比对之前,所述方法还包括:对所述待分析文本进行以下一项或任意组合的处理:
过滤乱码;
过滤特殊字符;
过滤网址;
过滤图片链接。
在一种示例性实施例中,所述将待分析文本与两种或两种以上语言字典进行比对,包括:
所述待分析文本的字符数小于或等于预设字符数时,将所述待分析文本与各所述语言字典进行比对;
所述待分析文本的字符数大于所述预设字符数时,按照预设策略从所述待分析文本中获取预设长度的抽样文本,将获取的抽样文本与所述语言字典进行比对。
在一种示例性实施例中,所述确定待分析文本的所属语言类型,包括:
通过预设的比例阈值参数对获得的所述待分析文本中包含的各种文字的比例进行分析,并根据分析的结果确定所述待分析文本的所属语言类型。
在一种示例性实施例中,所述语言字典包括繁体字字典、越南语字母字典、特殊字符字典及粤语字典,所述比例阈值参数包括第一百分比阈值、第一字符数阈值、第二字符数阈值及第二百分比阈值,所述确定待分析文本的所属语言类型,包括:
所述待分析文本中英文字符数与比对字符总数的比值大于第一百分比阈值时,确定除英文字符外的其它种字符中字符数最多的字符;确定该字符数最多的字符的字符数是否大于所述第一字符数阈值;该字符数最多的字符的字符数大于所述第一字符数阈值时,确定该字符数最多的字符的语言类型为所述待分析文本的所属语言类型;该字符数最多的字符的字符数小于或等于所述第一字符数阈值时,确定所述待分析文本的所属语言类型为英文;
所述待分析文本中英文字符数大于第二字符数阈值,且英文字符数和越南语字母字符数的和、与比对字符总数的比值大于第一百分比阈值时,确定除英文字符和越南语字符外的其它种字符中字符数最多的字符;确定该字符数最多的字符的字符数是否小于所述第一字符数阈值;该字符数最多的字符的字符数小于所述第一字符数阈值时,确定所述待分析文本的所属语言类型为越南语;
所述待分析文本中英文字符数大于所述第二字符数阈值且英文字符数、粤语字符数及简体中文字符数的和与比对字符总数的比值大于所述第一百分比阈值,且繁体中文字符数和简体中文字符数相对所述比对字符总数的比值均小于所述第二百分比阈值时,确定所述待分析文本的所属语言类型为粤语;
所述待分析文本中英文字符数大于所述第二字符数阈值,且英文字符数和简体中文字符数的和、与比对字符总数的比值大于所述第一百分比阈值,简体中文字符数相对所述比对字符总数的比值大于所述第二百分比阈值,且繁体中文字符数相对所述比对字符总数的比值小于所述第二百分比阈值时,确定所述待分析文本的所属语言类型为简体中文;
所述待分析文本中英文字符数大于所述第二字符数阈值,且英文字符数、繁体中文字符数及简体中文字符数的和与比对字符总数的比值大于所述第一百分比阈值,且繁体中文字符数相对所述比对字符总数的比值大于所述第二百分比阈值时,确定所述待分析文本的所属语言类型为繁体中文;
所述待分析文本中其它类型字符数与所述比对字符总数的比值大于所述第一百分比阈值时,确定所述待分析文本的所属语言类型为其它;
所述待分析文本中英文字符数小于第二字符数阈值,确定除英文字符外的其它种字符中字符数最多的字符;确定该字符数最多的字符的字符数是否大于所述字符数阈值;该字符数最多的字符的字符数大于所述字符数阈值时,确定该字符数最多的字符的语言类型为所述待分析文本的所属语言类型;该字符数最多的字符的字符数小于或等于所述字符数阈值时,确定所述待分析文本的所属语言类型为其它;
其中,所述其它类型字符数包括:除英文字符、简体中文字符、繁体中文字符、越南语字母字符及粤语字符以外的字符。
另一方面,本发明实施例还提供一种实现文本分析的装置,包括:比对单元及确定单元;其中,
比对单元用于:将待分析文本与两种或两种以上语言字典进行比对,获得待分析文本中包含的各种文字的比例;
确定单元用于:根据获得的待分析文本中包含的各种文字的比例,确定待分析文本的所属语言类型。
在一种示例性实施例中,所述确定单元具体用于:
通过预设的比例阈值参数对获得的所述待分析文本中包含的各种文字的比例进行分析,并根据分析的结果确定所述待分析文本的所属语言类型。
再一方面,本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述实现文本分析的方法。
还一方面,本发明实施例还提供一种终端,包括:存储器和处理器,所述存储中保存有计算机程序;其中,
处理器被配置为执行存储器中的计算机程序;
所述计算机程序被所述处理器执行时实现如上述实现文本分析的方法。
与相关技术相比,本申请技术方案包括:将待分析文本与两种或两种以上语言字典进行比对,获得待分析文本中包含的各种文字的比例;根据获得的待分析文本中包含的各种文字的比例,确定待分析文本的所属语言类型。本发明实施例通过语言词典的比对分析,确定了待分析文本的所属语言类型,为文本分析提供了技术支持。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例实现文本分析的方法的流程图;
图2为本发明实施例实现文本分析的装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本发明实施例实现文本分析的方法的流程图,如图1所示,包括:
步骤101、将待分析文本与两种或两种以上语言字典进行比对,获得待分析文本中包含的各种文字的比例;
在一种示例性实施例中,所述语言字典包括一项或任意组合的字典:
繁体字字典、越南语字母字典、特殊字符字典和粤语字典。
为使本发明实施例足够清楚,以下就部分字典包含的内容进行简要说明:
1、越南语字母称为国语字,是越南语的书写方法;越南语使用了变音字母和9个变音符号;其中,4个变音符号用来添加元音,另外5个符号以表示越南语的声调[平声调(第1调)无声调符号]。由于越南语常常在同一字母使用多于一个变音符号,使得越南语很容易便可认出;越南语的字母表包括:大写字母:A、B、C、D、/>E、/>G、H、I、K、L、M、N、O、O’、P、Q、R、S、T、U、U’、V、X、Y;小写字母:a、/>b、c、d、/>e、ê、g、h、i、k、l、m、n、o、/>o’、p、q、r、s、t、u、u、v、x、y;
2、繁体字,也称繁体中文;即小篆演变为隶书后产生的中文书写体系。目前仍然使用繁体字的地区有中国港澳台地区,新加坡以及马来西亚等海外华人社区多为繁简体并存,中国内地在文物古迹、姓氏异体字、书法篆刻、手书题词、特殊需要等情况下保留或使用繁体字。如:罢〔罷〕备〔備〕贝〔貝〕笔〔筆〕毕〔畢〕边〔邊〕宾〔賓〕达〔達〕等。
3、特殊字符是真实的文字和可复制并粘贴到文本中,包括数学符号、标点符号等少数符号以及一些无法被正常认知的符号。如:!、-、※、┒等。
4、粤语又称广东话,是汉藏语系汉语族的一种声调语言。全球将近有1.2亿人口使用粤语;粤语发音系统较复杂,有19个声母,56个韵母跟九声六调。如:咁、嘁、谂、嘅、冇等。
在一种示例性实施例中,所述将待分析文本与两种或两种以上语言字典进行比对之前,本发明实施例方法还包括:对所述待分析文本进行以下一项或任意组合的处理:
过滤乱码;
过滤特殊字符;
过滤网址;
过滤图片链接。
在一种示例性实施例中,本发明实施例可以通过正则表达式匹配确定网址及图片链接等,网址及图片链接可以包括超文本标记语言(html)标签、类型(style)标签及图片(img)标签等;可以通过相关技术,基于特殊字符字典过滤乱码及特殊字符,乱码和特殊符号是真实的文字和可复制并粘贴到文本中,包括数学符号、标点符号等少数符号以及一些无法被正常认知的符号;如:!-※┒等。
在一种示例性实施例中,所述将待分析文本与两种或两种以上语言字典进行比对,包括:
所述待分析文本的字符数小于或等于预设字符数时,将所述待分析文本与各所述语言字典进行比对;
所述待分析文本的字符数大于所述预设字符数时,按照预设策略从所述待分析文本中获取预设长度的抽样文本,将获取的抽样文本与所述语言字典进行比对。
在一种示例性实施例中,本发明实施例抽样文本可以包括从以下一种或任意组合位置抽取的文本:从待分析文本起始位置开始的第一预设长度的文本;待分析文本末尾第二预设长度的文本;除起始位置和末尾之外的,待分析文本一段或一段以上第二百分比预设长度的中间文本。第一预设长度、第二预设长度及各第二百分比预设长度可以数值相等,也可以数值不等。
无论是小于或等于预设字符数的待分析文本,还是抽样文本,与语言字典的比对方式相同,以下就比对部分进行示例说明:
读取文本(本段中文本指待分析文本或抽样文本)中的每一个字符,判断是不是英文字符、越南语字符、繁体中文字符、简体中文字符、粤语字符及其它类型字符。如果是其中一种字符,则针对该语言类型的字符进行以下计数:英文字符:英文字符的范围是a~z和A~Z,如果文本字符在英文字符的范围内,则英文字符计数加一;繁体中文字符:将文本包含的每一个字符与繁体中文字典里的每一个字进行对比,如果在字典里面,则繁体中文计数加一;简体中文字符:在计算机中汉字可以通过数字表示,Unicdoe4E00~9FFF表示中文,所以如果一个文本字符的utf-8编码在这个区间内,就说明它是简体中文,简体中文计数加一;越南语字符和粤语字符的统计方法与上述繁体中文字符的统计方法相同,都是读取文件的每一个字符与字典里的字符进行判断,如果在字典里面,则计数加一;其它类型字符:当不属于英文字符、简体中文字符、繁体中文字符、越南语字符和粤语字符时,其它类型字符计数加一。
步骤102、根据获得的待分析文本中包含的各种文字的比例,确定待分析文本的所属语言类型。
在一种示例性实施例中,所述确定待分析文本的所属语言类型,包括:
通过预设的比例阈值参数对获得的所述待分析文本中包含的各种文字的比例进行分析,并根据分析的结果确定所述待分析文本的所属语言类型。
在一种示例性实施例中,所述语言字典包括繁体字字典、越南语字母字典、特殊字符字典及粤语字典,所述比例阈值参数包括第一百分比阈值、第一字符数阈值、第二字符数阈值及第二百分比阈值,所述确定待分析文本的所属语言类型,包括:
所述待分析文本中英文字符数与比对字符总数的比值大于第一百分比阈值时,确定除英文字符外的其它种字符中字符数最多的字符;确定该字符数最多的字符的字符数是否大于所述第一字符数阈值;该字符数最多的字符的字符数大于所述第一字符数阈值时,确定该字符数最多的字符的语言类型为所述待分析文本的所属语言类型;该字符数最多的字符的字符数小于或等于所述第一字符数阈值时,确定所述待分析文本的所属语言类型为英文;例如、待分析文本中三分之二是英文字符,但剩下的三分之一为简体中文字符,当三分之一的简体中文字符大于字符数阈值,所以判断为简体中文;待分析文本中三分之二是英文字符,但剩下的字符中,字符数最多的为越南语字符数、繁体中文字符数、简体中文字符数及粤语字符数中的一种,且字符数最多的字符的字符数大于字符数阈值,此时,将该字符数最多的字符的语言类型为待分析文本的所属语言类型;
所述待分析文本中英文字符数大于第二字符数阈值,且英文字符数和越南语字母字符数的和、与比对字符总数的比值大于第一百分比阈值时,确定除英文字符和越南语字符外的其它种字符中字符数最多的字符;确定该字符数最多的字符的字符数是否小于所述第一字符数阈值;该字符数最多的字符的字符数小于所述第一字符数阈值时,确定所述待分析文本的所属语言类型为越南语;
所述待分析文本中英文字符数大于所述第二字符数阈值且英文字符数、粤语字符数及简体中文字符数的和与比对字符总数的比值大于所述第一百分比阈值,且繁体中文字符数和简体中文字符数相对所述比对字符总数的比值均小于所述第二百分比阈值时,确定所述待分析文本的所属语言类型为粤语;
所述待分析文本中英文字符数大于所述第二字符数阈值,且英文字符数和简体中文字符数的和、与比对字符总数的比值大于所述第一百分比阈值,简体中文字符数相对所述比对字符总数的比值大于所述第二百分比阈值,且繁体中文字符数相对所述比对字符总数的比值小于所述第二百分比阈值时,确定所述待分析文本的所属语言类型为简体中文;
所述待分析文本中英文字符数大于所述第二字符数阈值,且英文字符数、繁体中文字符数及简体中文字符数的和与比对字符总数的比值大于所述第一百分比阈值,且繁体中文字符数相对所述比对字符总数的比值大于所述第二百分比阈值时,确定所述待分析文本的所属语言类型为繁体中文;
所述待分析文本中其它类型字符数与所述比对字符总数的比值大于所述第一百分比阈值时,确定所述待分析文本的所属语言类型为其它;
所述待分析文本中英文字符数小于第二字符数阈值,确定除英文字符外的其它种字符中字符数最多的字符;确定该字符数最多的字符的字符数是否大于所述字符数阈值;该字符数最多的字符的字符数大于所述字符数阈值时,确定该字符数最多的字符的语言类型为所述待分析文本的所属语言类型;该字符数最多的字符的字符数小于或等于所述字符数阈值时,确定所述待分析文本的所属语言类型为其它;
其中,所述其它类型字符数包括:除英文字符、简体中文字符、繁体中文字符、越南语字母字符及粤语字符以外的字符。
与相关技术相比,本申请技术方案包括:将待分析文本与两种或两种以上语言字典进行比对,获得待分析文本中包含的各种文字的比例;根据获得的待分析文本中包含的各种文字的比例,确定待分析文本的所属语言类型。本发明实施例通过语言词典的比对分析,确定了待分析文本的所属语言类型,为文本分析提供了技术支持。
图2为本发明实施例实现文本分析的装置的结构框图,如图2所示,包括:比对单元及确定单元;其中,
比对单元用于:将待分析文本与两种或两种以上语言字典进行比对,获得待分析文本中包含的各种文字的比例;
确定单元用于:根据获得的待分析文本中包含的各种文字的比例,确定待分析文本的所属语言类型。
在一种示例性实施例中,本发明实施例语言字典包括一项或任意组合的字典:
繁体字字典、越南语字母字典、特殊字符字典和粤语字典。
为使本发明实施例足够清楚,以下就部分字典包含的内容进行简要说明:
1、越南语字母称为国语字,是越南语的书写方法;越南语使用了变音字母和9个变音符号;其中,4个变音符号用来添加元音,另外5个符号以表示越南语的声调[平声调(第1调)无声调符号]。由于越南语常常在同一字母使用多于一个变音符号,使得越南语很容易便可认出;越南语的字母表包括:大写字母:A、B、C、D、/>E、/>G、H、I、K、L、M、N、O、O’、P、Q、R、S、T、U、U’、V、X、Y;小写字母:a、/>b、c、d、/>e、ê、g、h、i、k、l、m、n、o、/>o’、p、q、r、s、t、u、u’、v、x、y;
2、繁体字,也称繁体中文;即小篆演变为隶书后产生的中文书写体系。目前仍然使用繁体字的地区有中国港澳台地区,新加坡以及马来西亚等海外华人社区多为繁简体并存,中国内地在文物古迹、姓氏异体字、书法篆刻、手书题词、特殊需要等情况下保留或使用繁体字。如:罢〔罷〕备〔備〕贝〔貝〕笔〔筆〕毕〔畢〕边〔邊〕宾〔賓〕达〔達〕等。
3、特殊字符是真实的文字和可复制并粘贴到文本中,包括数学符号、标点符号等少数符号以及一些无法被正常认知的符号。如:!、-、※、等。
4、粤语又称广东话,是汉藏语系汉语族的一种声调语言。全球将近有1.2亿人口使用粤语;粤语发音系统较复杂,有19个声母,56个韵母跟九声六调。如:咁、嘁、谂、嘅、冇等。
在一种示例性实施例中,本发明实施例装置还包括预处理单元,用于:对所述待分析文本进行以下一项或任意组合的处理:
过滤乱码;
过滤特殊字符;
过滤网址;
过滤图片链接。
在一种示例性实施例中,本发明实施例可以通过正则表达式匹配确定网址及图片链接等,网址及图片链接可以包括超文本标记语言(html)标签、类型(style)标签及图片(img)标签等;可以通过相关技术,基于特殊字符字典过滤乱码及特殊字符,乱码和特殊符号是真实的文字和可复制并粘贴到文本中,包括数学符号、标点符号等少数符号以及一些无法被正常认知的符号;如:!-※等。
在一种示例性实施例中,本发明实施例比对单元用于将待分析文本与两种或两种以上语言字典进行比对包括:
所述待分析文本的字符数小于或等于预设字符数时,将所述待分析文本与各所述语言字典进行比对;
所述待分析文本的字符数大于所述预设字符数时,按照预设策略从所述待分析文本中获取预设长度的抽样文本,将获取的抽样文本与所述语言字典进行比对。
在一种示例性实施例中,本发明实施例抽样文本可以包括从以下一种或任意组合位置抽取的文本:从待分析文本起始位置开始的第一预设长度的文本;待分析文本末尾第二预设长度的文本;除起始位置和末尾之外的,待分析文本一段或一段以上第二百分比预设长度的中间文本。第一预设长度、第二预设长度及各第二百分比预设长度可以数值相等,也可以数值不等。
读取文本(本段中文本指待分析文本或抽样文本)中的每一个字符,判断是不是英文字符、越南语字符、繁体中文字符、简体中文字符、粤语字符及其它类型字符。如果是其中一种字符,则针对该语言类型的字符进行以下计数:英文字符:英文字符的范围是a~z和A~Z,如果文本字符在英文字符的范围内,则英文字符计数加一;繁体中文字符:将文本包含的每一个字符与繁体中文字典里的每一个字进行对比,如果在字典里面,则繁体中文计数加一;简体中文字符:在计算机中汉字可以通过数字表示,Unicdoe4E00~9FFF表示中文,所以如果一个文本字符的utf-8编码在这个区间内,就说明它是简体中文,简体中文计数加一;越南语字符和粤语字符的统计方法与上述繁体中文字符的统计方法相同,都是读取文件的每一个字符与字典里的字符进行判断,如果在字典里面,则计数加一;其它类型字符:当不属于英文字符、简体中文字符、繁体中文字符、越南语字符和粤语字符时,其它类型字符计数加一。
在一种示例性实施例中,所述确定单元具体用于:
通过预设的比例阈值参数对获得的所述待分析文本中包含的各种文字的比例进行分析,并根据分析的结果确定所述待分析文本的所属语言类型。
在一种示例性实施例中,所述语言字典包括繁体字字典、越南语字母字典、特殊字符字典及粤语字典,所述比例阈值参数包括第一百分比阈值、第一字符数阈值、第二字符数阈值及第二百分比阈值,所述确定待分析文本的所属语言类型,包括:
所述待分析文本中英文字符数与比对字符总数的比值大于第一百分比阈值时,确定除英文字符外的其它种字符中字符数最多的字符;确定该字符数最多的字符的字符数是否大于所述第一字符数阈值;该字符数最多的字符的字符数大于所述第一字符数阈值时,确定该字符数最多的字符的语言类型为所述待分析文本的所属语言类型;该字符数最多的字符的字符数小于或等于所述第一字符数阈值时,确定所述待分析文本的所属语言类型为英文;例如、待分析文本中三分之二是英文字符,但剩下的三分之一为简体中文字符,当三分之一的简体中文字符大于字符数阈值,所以判断为简体中文;待分析文本中三分之二是英文字符,但剩下的字符中,字符数最多的为越南语字符数、繁体中文字符数、简体中文字符数及粤语字符数中的一种,且字符数最多的字符的字符数大于字符数阈值,此时,将该字符数最多的字符的语言类型为待分析文本的所属语言类型;
所述待分析文本中英文字符数大于第二字符数阈值,且英文字符数和越南语字母字符数的和、与比对字符总数的比值大于第一百分比阈值时,确定除英文字符和越南语字符外的其它种字符中字符数最多的字符;确定该字符数最多的字符的字符数是否小于所述第一字符数阈值;该字符数最多的字符的字符数小于所述第一字符数阈值时,确定所述待分析文本的所属语言类型为越南语;
所述待分析文本中英文字符数大于所述第二字符数阈值且英文字符数、粤语字符数及简体中文字符数的和与比对字符总数的比值大于所述第一百分比阈值,且繁体中文字符数和简体中文字符数相对所述比对字符总数的比值均小于所述第二百分比阈值时,确定所述待分析文本的所属语言类型为粤语;
所述待分析文本中英文字符数大于所述第二字符数阈值,且英文字符数和简体中文字符数的和、与比对字符总数的比值大于所述第一百分比阈值,简体中文字符数相对所述比对字符总数的比值大于所述第二百分比阈值,且繁体中文字符数相对所述比对字符总数的比值小于所述第二百分比阈值时,确定所述待分析文本的所属语言类型为简体中文;
所述待分析文本中英文字符数大于所述第二字符数阈值,且英文字符数、繁体中文字符数及简体中文字符数的和与比对字符总数的比值大于所述第一百分比阈值,且繁体中文字符数相对所述比对字符总数的比值大于所述第二百分比阈值时,确定所述待分析文本的所属语言类型为繁体中文;
所述待分析文本中其它类型字符数与所述比对字符总数的比值大于所述第一百分比阈值时,确定所述待分析文本的所属语言类型为其它;
所述待分析文本中英文字符数小于第二字符数阈值,确定除英文字符外的其它种字符中字符数最多的字符;确定该字符数最多的字符的字符数是否大于所述字符数阈值;该字符数最多的字符的字符数大于所述字符数阈值时,确定该字符数最多的字符的语言类型为所述待分析文本的所属语言类型;该字符数最多的字符的字符数小于或等于所述字符数阈值时,确定所述待分析文本的所属语言类型为其它;
其中,所述其它类型字符数包括:除英文字符、简体中文字符、繁体中文字符、越南语字母字符及粤语字符以外的字符。
与相关技术相比,本申请技术方案包括:将待分析文本与两种或两种以上语言字典进行比对,获得待分析文本中包含的各种文字的比例;根据获得的待分析文本中包含的各种文字的比例,确定待分析文本的所属语言类型。本发明实施例通过语言词典的比对分析,确定了待分析文本的所属语言类型,为文本分析提供了技术支持。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述实现文本分析的方法。
本发明实施例还提供一种终端,包括:存储器和处理器,所述存储中保存有计算机程序;其中,
处理器被配置为执行存储器中的计算机程序;
所述计算机程序被所述处理器执行时实现如上述实现文本分析的方法。
“本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。”。
Claims (6)
1.一种实现文本分析的方法,包括:
将待分析文本与两种或两种以上语言字典进行比对,获得待分析文本中包含的各种文字的比例;
根据获得的待分析文本中包含的各种文字的比例,确定待分析文本的所属语言类型,包括:通过预设的比例阈值参数对获得的所述待分析文本中包含的各种文字的比例进行分析,并根据分析的结果确定所述待分析文本的所属语言类型;
所述语言字典包括两种或两种以上任意组合的字典:繁体字字典、越南语字母字典、特殊字符字典及粤语字典;
所述比例阈值参数包括第一百分比阈值、第一字符数阈值、第二字符数阈值及第二百分比阈值,所述确定待分析文本的所属语言类型,包括:
所述待分析文本中英文字符数与比对字符总数的比值大于第一百分比阈值时,确定除英文字符外的其它种字符中字符数最多的字符;确定该字符数最多的字符的字符数是否大于所述第一字符数阈值;该字符数最多的字符的字符数大于所述第一字符数阈值时,确定该字符数最多的字符的语言类型为所述待分析文本的所属语言类型;该字符数最多的字符的字符数小于或等于所述第一字符数阈值时,确定所述待分析文本的所属语言类型为英文;
所述待分析文本中英文字符数大于第二字符数阈值,且英文字符数和越南语字母字符数的和、与比对字符总数的比值大于第一百分比阈值时,确定除英文字符和越南语字符外的其它种字符中字符数最多的字符;确定该字符数最多的字符的字符数是否小于所述第一字符数阈值;该字符数最多的字符的字符数小于所述第一字符数阈值时,确定所述待分析文本的所属语言类型为越南语;
所述待分析文本中英文字符数大于所述第二字符数阈值且英文字符数、粤语字符数及简体中文字符数的和与比对字符总数的比值大于所述第一百分比阈值,且繁体中文字符数和简体中文字符数相对所述比对字符总数的比值均小于所述第二百分比阈值时,确定所述待分析文本的所属语言类型为粤语;
所述待分析文本中英文字符数大于所述第二字符数阈值,且英文字符数和简体中文字符数的和、与比对字符总数的比值大于所述第一百分比阈值,简体中文字符数相对所述比对字符总数的比值大于所述第二百分比阈值,且繁体中文字符数相对所述比对字符总数的比值小于所述第二百分比阈值时,确定所述待分析文本的所属语言类型为简体中文;
所述待分析文本中英文字符数大于所述第二字符数阈值,且英文字符数、繁体中文字符数及简体中文字符数的和与比对字符总数的比值大于所述第一百分比阈值,且繁体中文字符数相对所述比对字符总数的比值大于所述第二百分比阈值时,确定所述待分析文本的所属语言类型为繁体中文;
所述待分析文本中其它类型字符数与所述比对字符总数的比值大于所述第一百分比阈值时,确定所述待分析文本的所属语言类型为其它;
所述待分析文本中英文字符数小于第二字符数阈值,确定除英文字符外的其它种字符中字符数最多的字符;确定该字符数最多的字符的字符数是否大于所述字符数阈值;该字符数最多的字符的字符数大于所述字符数阈值时,确定该字符数最多的字符的语言类型为所述待分析文本的所属语言类型;该字符数最多的字符的字符数小于或等于所述字符数阈值时,确定所述待分析文本的所属语言类型为其它;
其中,所述其它类型字符数包括:除英文字符、简体中文字符、繁体中文字符、越南语字母字符及粤语字符以外的字符。
2.根据权利要求1所述的方法,其特征在于,所述将待分析文本与两种或两种以上语言字典进行比对之前,所述方法还包括:对所述待分析文本进行以下一项或任意组合的处理:
过滤乱码;过滤特殊字符;过滤网址;过滤图片链接。
3.根据权利要求1所述的方法,其特征在于,所述将待分析文本与两种或两种以上语言字典进行比对,包括:
所述待分析文本的字符数小于或等于预设字符数时,将所述待分析文本与各所述语言字典进行比对;
所述待分析文本的字符数大于所述预设字符数时,按照预设策略从所述待分析文本中获取预设长度的抽样文本,将获取的抽样文本与所述语言字典进行比对。
4.一种实现文本分析的装置,包括:比对单元及确定单元;其中,
比对单元用于:将待分析文本与两种或两种以上语言字典进行比对,获得待分析文本中包含的各种文字的比例;
确定单元用于:根据获得的待分析文本中包含的各种文字的比例,确定待分析文本的所属语言类型,包括:通过预设的比例阈值参数对获得的所述待分析文本中包含的各种文字的比例进行分析,并根据分析的结果确定所述待分析文本的所属语言类型;
所述语言字典包括两项或两项以上任意组合的字典:繁体字字典、越南语字母字典、特殊字符字典及粤语字典;
所述比例阈值参数包括第一百分比阈值、第一字符数阈值、第二字符数阈值及第二百分比阈值,所述确定待分析文本的所属语言类型,包括:
所述待分析文本中英文字符数与比对字符总数的比值大于第一百分比阈值时,确定除英文字符外的其它种字符中字符数最多的字符;确定该字符数最多的字符的字符数是否大于所述第一字符数阈值;该字符数最多的字符的字符数大于所述第一字符数阈值时,确定该字符数最多的字符的语言类型为所述待分析文本的所属语言类型;该字符数最多的字符的字符数小于或等于所述第一字符数阈值时,确定所述待分析文本的所属语言类型为英文;
所述待分析文本中英文字符数大于第二字符数阈值,且英文字符数和越南语字母字符数的和、与比对字符总数的比值大于第一百分比阈值时,确定除英文字符和越南语字符外的其它种字符中字符数最多的字符;确定该字符数最多的字符的字符数是否小于所述第一字符数阈值;该字符数最多的字符的字符数小于所述第一字符数阈值时,确定所述待分析文本的所属语言类型为越南语;
所述待分析文本中英文字符数大于所述第二字符数阈值且英文字符数、粤语字符数及简体中文字符数的和与比对字符总数的比值大于所述第一百分比阈值,且繁体中文字符数和简体中文字符数相对所述比对字符总数的比值均小于所述第二百分比阈值时,确定所述待分析文本的所属语言类型为粤语;
所述待分析文本中英文字符数大于所述第二字符数阈值,且英文字符数和简体中文字符数的和、与比对字符总数的比值大于所述第一百分比阈值,简体中文字符数相对所述比对字符总数的比值大于所述第二百分比阈值,且繁体中文字符数相对所述比对字符总数的比值小于所述第二百分比阈值时,确定所述待分析文本的所属语言类型为简体中文;
所述待分析文本中英文字符数大于所述第二字符数阈值,且英文字符数、繁体中文字符数及简体中文字符数的和与比对字符总数的比值大于所述第一百分比阈值,且繁体中文字符数相对所述比对字符总数的比值大于所述第二百分比阈值时,确定所述待分析文本的所属语言类型为繁体中文;
所述待分析文本中其它类型字符数与所述比对字符总数的比值大于所述第一百分比阈值时,确定所述待分析文本的所属语言类型为其它;
所述待分析文本中英文字符数小于第二字符数阈值,确定除英文字符外的其它种字符中字符数最多的字符;确定该字符数最多的字符的字符数是否大于所述字符数阈值;该字符数最多的字符的字符数大于所述字符数阈值时,确定该字符数最多的字符的语言类型为所述待分析文本的所属语言类型;该字符数最多的字符的字符数小于或等于所述字符数阈值时,确定所述待分析文本的所属语言类型为其它;
其中,所述其它类型字符数包括:除英文字符、简体中文字符、繁体中文字符、越南语字母字符及粤语字符以外的字符。
5.一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1~3中任一项所述的实现文本分析的方法。
6.一种终端,包括:存储器和处理器,所述存储中保存有计算机程序;其中,
处理器被配置为执行存储器中的计算机程序;
所述计算机程序被所述处理器执行时实现如执行权利要求1~3中任一项所述的实现文本分析的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911346811.6A CN111160015B (zh) | 2019-12-24 | 2019-12-24 | 一种实现文本分析的方法、装置、计算机存储介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911346811.6A CN111160015B (zh) | 2019-12-24 | 2019-12-24 | 一种实现文本分析的方法、装置、计算机存储介质及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111160015A CN111160015A (zh) | 2020-05-15 |
CN111160015B true CN111160015B (zh) | 2024-03-05 |
Family
ID=70558252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911346811.6A Active CN111160015B (zh) | 2019-12-24 | 2019-12-24 | 一种实现文本分析的方法、装置、计算机存储介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111160015B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1263316A (zh) * | 1999-02-12 | 2000-08-16 | 松下电器产业株式会社 | 信息处理系统 |
WO2008025123A1 (en) * | 2006-09-01 | 2008-03-06 | Research In Motion Limited | Method for identifying language of text in a handheld electronic device and a handheld electronic device incorporating the same |
CN105608074A (zh) * | 2016-01-15 | 2016-05-25 | 中译语通科技(北京)有限公司 | 一种字数统计方法及装置 |
CN106233375A (zh) * | 2014-04-25 | 2016-12-14 | 纽昂斯通信有限公司 | 基于众包的用户文本输入从头开始学习语言模型 |
CN106528535A (zh) * | 2016-11-14 | 2017-03-22 | 北京赛思信安技术股份有限公司 | 一种基于编码和机器学习的多语种识别方法 |
CN106528536A (zh) * | 2016-11-14 | 2017-03-22 | 北京赛思信安技术股份有限公司 | 一种基于词典与文法分析的多语种分词方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110071817A1 (en) * | 2009-09-24 | 2011-03-24 | Vesa Siivola | System and Method for Language Identification |
-
2019
- 2019-12-24 CN CN201911346811.6A patent/CN111160015B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1263316A (zh) * | 1999-02-12 | 2000-08-16 | 松下电器产业株式会社 | 信息处理系统 |
WO2008025123A1 (en) * | 2006-09-01 | 2008-03-06 | Research In Motion Limited | Method for identifying language of text in a handheld electronic device and a handheld electronic device incorporating the same |
CN106233375A (zh) * | 2014-04-25 | 2016-12-14 | 纽昂斯通信有限公司 | 基于众包的用户文本输入从头开始学习语言模型 |
CN105608074A (zh) * | 2016-01-15 | 2016-05-25 | 中译语通科技(北京)有限公司 | 一种字数统计方法及装置 |
CN106528535A (zh) * | 2016-11-14 | 2017-03-22 | 北京赛思信安技术股份有限公司 | 一种基于编码和机器学习的多语种识别方法 |
CN106528536A (zh) * | 2016-11-14 | 2017-03-22 | 北京赛思信安技术股份有限公司 | 一种基于词典与文法分析的多语种分词方法 |
Non-Patent Citations (2)
Title |
---|
邢超 ; 顾益军 ; 任俊博 ; .藏文文本编码方案的识别算法.《信息网络安全》.2012,(第12期),全文. * |
靳简明 ; 王华 ; 丁晓青 ; .维汉英混排文档识别.《电子与信息学报》.2006,第28卷(第07期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111160015A (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765996B (zh) | 文本信息处理方法及装置 | |
CN111428485B (zh) | 司法文书段落分类方法、装置、计算机设备及存储介质 | |
CN112396049A (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
US11086913B2 (en) | Named entity recognition from short unstructured text | |
JP2021166070A (ja) | 文書比較方法、装置、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラム | |
CN112507118A (zh) | 信息分类抽取方法、装置和电子设备 | |
EP2447854A1 (en) | Method and system of automatic diacritization of Arabic | |
CN112507706A (zh) | 知识预训练模型的训练方法、装置和电子设备 | |
CN112149680B (zh) | 错字检测识别方法、装置、电子设备及存储介质 | |
CN111309861B (zh) | 地点提取方法、装置、电子设备及计算机可读存储介质 | |
CN111357015B (zh) | 文本转换方法、装置、计算机设备和计算机可读存储介质 | |
CN113255331B (zh) | 文本纠错方法、装置及存储介质 | |
CN114419636A (zh) | 文本识别方法、装置、设备以及存储介质 | |
CN111931491B (zh) | 领域词典构建方法及装置 | |
CN111160015B (zh) | 一种实现文本分析的方法、装置、计算机存储介质及终端 | |
Pan et al. | A new dataset for mongolian online handwritten recognition | |
Khan et al. | Offline pashto characters dataset for Ocr systems | |
Jayanthi et al. | Tamil OCR Conversion from Digital Writing Pad Recognition Accuracy Improves through Modified Deep Learning Architectures | |
CN110825874A (zh) | 一种中文文本分类方法和装置及计算机可读存储介质 | |
CN116561298A (zh) | 基于人工智能的标题生成方法、装置、设备及存储介质 | |
US10789410B1 (en) | Identification of source languages for terms | |
CN115331247A (zh) | 文档结构识别方法、装置、电子设备及可读存储介质 | |
CN114662469A (zh) | 情感分析方法、装置、电子设备及存储介质 | |
Alkhalaf et al. | OCR-based electronic documentation management system | |
Oyeniran et al. | Development of an improved database for yoruba handwritten character |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |