CN111160015B

CN111160015B - 一种实现文本分析的方法、装置、计算机存储介质及终端

Info

Publication number: CN111160015B
Application number: CN201911346811.6A
Authority: CN
Inventors: 崔小波; 陈奇宁
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2024-03-05
Anticipated expiration: 2039-12-24
Also published as: CN111160015A

Abstract

一种实现文本分析的方法、装置、计算机存储介质及终端，包括：将待分析文本与两种或两种以上语言字典进行比对，获得待分析文本中包含的各种文字的比例；根据获得的待分析文本中包含的各种文字的比例，确定待分析文本的所属语言类型。本发明实施例通过语言词典的比对分析，确定了待分析文本的所属语言类型，为文本分析提供了技术支持。

Description

一种实现文本分析的方法、装置、计算机存储介质及终端

技术领域

本文涉及但不限于信息分析技术，尤指一种实现文本分析的方法、装置、计算机存储介质及终端。

背景技术

随着信息基础设施建设的日益完善，互联网在人们日常生活中变的越来越重要，它已经深入到人们生产、生活的各个领域。“互联网+”是互联网的进阶，推动了移动互联网、云计算、大数据、物联网等与现代制造业相结合，促进了电子商务、工业互联网的发展。“互联网+”不断的改变着我们的生活方式，越来越多的个人、公司、企业、科研单位、机关、学校等通过网络进行科研成果交流或日常信息的交流。中国网民规模达8.02亿，普及率为57.7％；中国手机网民规模达7.88亿，网民通过手机接入互联网的比例高达98.3％。伴随着这些庞大的数字，网页、电子邮件、聊天信息、各种文档等带来了海量的文本数据，这些海量的文本数据正是通过互联网进行生成、传播、交换、存储和访问，进入世界各地人们的日常生活中。

在互联网带来的海量文本数据中，语言多样性带来的问题特别值得关注。据调查数据显示，全世界使用英语的网民占的比重最大，占到三成以上。据统计，世界上使用人数较多的语言有82种，这些语言中的任何一种都有超过1000万人在使用，其它使用人数相对较少的语言更是多达数千种。在多种语言文字同时使用及存储的情况下，面对互联网上不断产生的海量文本数据，在进行自然语言处理时，需要知道该数据是那种自然语言的数据，才能确定后续使用哪种方式进行信息的处理；例如，如果识别当前为英文，则后续需要进行分词分析等操作时，会按照英文的类型进行操作；如果识别的是中文，则后续需要进行分词分析等操作时，会按照中文的类型进行操作。对中英文的操作是不同的，不能用同一种方式进行操作分析，否则分析出来的结果很可能就会毫无意义。

目前，在进行文本数据分析时，主要通过相关技术人员人为确定语言类型，这给信息处理带来不便。设计实现一种语言类型识别的方法，成为一个亟待解决的技术问题。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供一种实现文本分析的方法、装置、计算机存储介质及终端，能够实现语言类型的识别。

本发明实施例提供了一种实现文本分析的方法，包括：

将待分析文本与两种或两种以上语言字典进行比对，获得待分析文本中包含的各种文字的比例；

根据获得的待分析文本中包含的各种文字的比例，确定待分析文本的所属语言类型。

在一种示例性实施例中，所述语言字典包括一项或任意组合的字典：

繁体字字典、越南语字母字典、特殊字符字典和粤语字典。

在一种示例性实施例中，所述将待分析文本与两种或两种以上语言字典进行比对之前，所述方法还包括：对所述待分析文本进行以下一项或任意组合的处理：

过滤乱码；

过滤特殊字符；

过滤网址；

过滤图片链接。

在一种示例性实施例中，所述将待分析文本与两种或两种以上语言字典进行比对，包括：

所述待分析文本的字符数小于或等于预设字符数时，将所述待分析文本与各所述语言字典进行比对；

所述待分析文本的字符数大于所述预设字符数时，按照预设策略从所述待分析文本中获取预设长度的抽样文本，将获取的抽样文本与所述语言字典进行比对。

在一种示例性实施例中，所述确定待分析文本的所属语言类型，包括：

通过预设的比例阈值参数对获得的所述待分析文本中包含的各种文字的比例进行分析，并根据分析的结果确定所述待分析文本的所属语言类型。

在一种示例性实施例中，所述语言字典包括繁体字字典、越南语字母字典、特殊字符字典及粤语字典，所述比例阈值参数包括第一百分比阈值、第一字符数阈值、第二字符数阈值及第二百分比阈值，所述确定待分析文本的所属语言类型，包括：

所述待分析文本中英文字符数与比对字符总数的比值大于第一百分比阈值时，确定除英文字符外的其它种字符中字符数最多的字符；确定该字符数最多的字符的字符数是否大于所述第一字符数阈值；该字符数最多的字符的字符数大于所述第一字符数阈值时，确定该字符数最多的字符的语言类型为所述待分析文本的所属语言类型；该字符数最多的字符的字符数小于或等于所述第一字符数阈值时，确定所述待分析文本的所属语言类型为英文；

所述待分析文本中英文字符数大于第二字符数阈值，且英文字符数和越南语字母字符数的和、与比对字符总数的比值大于第一百分比阈值时，确定除英文字符和越南语字符外的其它种字符中字符数最多的字符；确定该字符数最多的字符的字符数是否小于所述第一字符数阈值；该字符数最多的字符的字符数小于所述第一字符数阈值时，确定所述待分析文本的所属语言类型为越南语；

所述待分析文本中英文字符数大于所述第二字符数阈值且英文字符数、粤语字符数及简体中文字符数的和与比对字符总数的比值大于所述第一百分比阈值，且繁体中文字符数和简体中文字符数相对所述比对字符总数的比值均小于所述第二百分比阈值时，确定所述待分析文本的所属语言类型为粤语；

所述待分析文本中英文字符数大于所述第二字符数阈值，且英文字符数和简体中文字符数的和、与比对字符总数的比值大于所述第一百分比阈值，简体中文字符数相对所述比对字符总数的比值大于所述第二百分比阈值，且繁体中文字符数相对所述比对字符总数的比值小于所述第二百分比阈值时，确定所述待分析文本的所属语言类型为简体中文；

所述待分析文本中英文字符数大于所述第二字符数阈值，且英文字符数、繁体中文字符数及简体中文字符数的和与比对字符总数的比值大于所述第一百分比阈值，且繁体中文字符数相对所述比对字符总数的比值大于所述第二百分比阈值时，确定所述待分析文本的所属语言类型为繁体中文；

所述待分析文本中其它类型字符数与所述比对字符总数的比值大于所述第一百分比阈值时，确定所述待分析文本的所属语言类型为其它；

所述待分析文本中英文字符数小于第二字符数阈值，确定除英文字符外的其它种字符中字符数最多的字符；确定该字符数最多的字符的字符数是否大于所述字符数阈值；该字符数最多的字符的字符数大于所述字符数阈值时，确定该字符数最多的字符的语言类型为所述待分析文本的所属语言类型；该字符数最多的字符的字符数小于或等于所述字符数阈值时，确定所述待分析文本的所属语言类型为其它；

其中，所述其它类型字符数包括：除英文字符、简体中文字符、繁体中文字符、越南语字母字符及粤语字符以外的字符。

另一方面，本发明实施例还提供一种实现文本分析的装置，包括：比对单元及确定单元；其中，

比对单元用于：将待分析文本与两种或两种以上语言字典进行比对，获得待分析文本中包含的各种文字的比例；

确定单元用于：根据获得的待分析文本中包含的各种文字的比例，确定待分析文本的所属语言类型。

在一种示例性实施例中，所述确定单元具体用于：

再一方面，本发明实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现上述实现文本分析的方法。

还一方面，本发明实施例还提供一种终端，包括：存储器和处理器，所述存储中保存有计算机程序；其中，

处理器被配置为执行存储器中的计算机程序；

所述计算机程序被所述处理器执行时实现如上述实现文本分析的方法。

与相关技术相比，本申请技术方案包括：将待分析文本与两种或两种以上语言字典进行比对，获得待分析文本中包含的各种文字的比例；根据获得的待分析文本中包含的各种文字的比例，确定待分析文本的所属语言类型。本发明实施例通过语言词典的比对分析，确定了待分析文本的所属语言类型，为文本分析提供了技术支持。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例实现文本分析的方法的流程图；

图2为本发明实施例实现文本分析的装置的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本发明实施例实现文本分析的方法的流程图，如图1所示，包括：

步骤101、将待分析文本与两种或两种以上语言字典进行比对，获得待分析文本中包含的各种文字的比例；

繁体字字典、越南语字母字典、特殊字符字典和粤语字典。

为使本发明实施例足够清楚，以下就部分字典包含的内容进行简要说明：

1、越南语字母称为国语字，是越南语的书写方法；越南语使用了变音字母和9个变音符号；其中，4个变音符号用来添加元音，另外5个符号以表示越南语的声调[平声调(第1调)无声调符号]。由于越南语常常在同一字母使用多于一个变音符号，使得越南语很容易便可认出；越南语的字母表包括：大写字母：A、B、C、D、/>E、/>G、H、I、K、L、M、N、O、O’、P、Q、R、S、T、U、U’、V、X、Y；小写字母：a、/>b、c、d、/>e、ê、g、h、i、k、l、m、n、o、/>o’、p、q、r、s、t、u、u、v、x、y；

2、繁体字，也称繁体中文；即小篆演变为隶书后产生的中文书写体系。目前仍然使用繁体字的地区有中国港澳台地区，新加坡以及马来西亚等海外华人社区多为繁简体并存，中国内地在文物古迹、姓氏异体字、书法篆刻、手书题词、特殊需要等情况下保留或使用繁体字。如：罢〔罷〕备〔備〕贝〔貝〕笔〔筆〕毕〔畢〕边〔邊〕宾〔賓〕达〔達〕等。

3、特殊字符是真实的文字和可复制并粘贴到文本中，包括数学符号、标点符号等少数符号以及一些无法被正常认知的符号。如：！、-、※、┒等。

4、粤语又称广东话，是汉藏语系汉语族的一种声调语言。全球将近有1.2亿人口使用粤语；粤语发音系统较复杂，有19个声母，56个韵母跟九声六调。如：咁、嘁、谂、嘅、冇等。

在一种示例性实施例中，所述将待分析文本与两种或两种以上语言字典进行比对之前，本发明实施例方法还包括：对所述待分析文本进行以下一项或任意组合的处理：

过滤乱码；

过滤特殊字符；

过滤网址；

过滤图片链接。

在一种示例性实施例中，本发明实施例可以通过正则表达式匹配确定网址及图片链接等，网址及图片链接可以包括超文本标记语言(html)标签、类型(style)标签及图片(img)标签等；可以通过相关技术，基于特殊字符字典过滤乱码及特殊字符，乱码和特殊符号是真实的文字和可复制并粘贴到文本中，包括数学符号、标点符号等少数符号以及一些无法被正常认知的符号；如：！-※┒等。

在一种示例性实施例中，本发明实施例抽样文本可以包括从以下一种或任意组合位置抽取的文本：从待分析文本起始位置开始的第一预设长度的文本；待分析文本末尾第二预设长度的文本；除起始位置和末尾之外的，待分析文本一段或一段以上第二百分比预设长度的中间文本。第一预设长度、第二预设长度及各第二百分比预设长度可以数值相等，也可以数值不等。

无论是小于或等于预设字符数的待分析文本，还是抽样文本，与语言字典的比对方式相同，以下就比对部分进行示例说明：

读取文本(本段中文本指待分析文本或抽样文本)中的每一个字符，判断是不是英文字符、越南语字符、繁体中文字符、简体中文字符、粤语字符及其它类型字符。如果是其中一种字符，则针对该语言类型的字符进行以下计数：英文字符：英文字符的范围是a～z和A～Z，如果文本字符在英文字符的范围内，则英文字符计数加一；繁体中文字符：将文本包含的每一个字符与繁体中文字典里的每一个字进行对比，如果在字典里面，则繁体中文计数加一；简体中文字符：在计算机中汉字可以通过数字表示，Unicdoe4E00～9FFF表示中文，所以如果一个文本字符的utf-8编码在这个区间内，就说明它是简体中文，简体中文计数加一；越南语字符和粤语字符的统计方法与上述繁体中文字符的统计方法相同，都是读取文件的每一个字符与字典里的字符进行判断，如果在字典里面，则计数加一；其它类型字符：当不属于英文字符、简体中文字符、繁体中文字符、越南语字符和粤语字符时，其它类型字符计数加一。

步骤102、根据获得的待分析文本中包含的各种文字的比例，确定待分析文本的所属语言类型。

所述待分析文本中英文字符数与比对字符总数的比值大于第一百分比阈值时，确定除英文字符外的其它种字符中字符数最多的字符；确定该字符数最多的字符的字符数是否大于所述第一字符数阈值；该字符数最多的字符的字符数大于所述第一字符数阈值时，确定该字符数最多的字符的语言类型为所述待分析文本的所属语言类型；该字符数最多的字符的字符数小于或等于所述第一字符数阈值时，确定所述待分析文本的所属语言类型为英文；例如、待分析文本中三分之二是英文字符，但剩下的三分之一为简体中文字符，当三分之一的简体中文字符大于字符数阈值，所以判断为简体中文；待分析文本中三分之二是英文字符，但剩下的字符中，字符数最多的为越南语字符数、繁体中文字符数、简体中文字符数及粤语字符数中的一种，且字符数最多的字符的字符数大于字符数阈值，此时，将该字符数最多的字符的语言类型为待分析文本的所属语言类型；

图2为本发明实施例实现文本分析的装置的结构框图，如图2所示，包括：比对单元及确定单元；其中，

在一种示例性实施例中，本发明实施例语言字典包括一项或任意组合的字典：

繁体字字典、越南语字母字典、特殊字符字典和粤语字典。

1、越南语字母称为国语字，是越南语的书写方法；越南语使用了变音字母和9个变音符号；其中，4个变音符号用来添加元音，另外5个符号以表示越南语的声调[平声调(第1调)无声调符号]。由于越南语常常在同一字母使用多于一个变音符号，使得越南语很容易便可认出；越南语的字母表包括：大写字母：A、B、C、D、/>E、/>G、H、I、K、L、M、N、O、O’、P、Q、R、S、T、U、U’、V、X、Y；小写字母：a、/>b、c、d、/>e、ê、g、h、i、k、l、m、n、o、/>o’、p、q、r、s、t、u、u’、v、x、y；

3、特殊字符是真实的文字和可复制并粘贴到文本中，包括数学符号、标点符号等少数符号以及一些无法被正常认知的符号。如：！、-、※、等。

在一种示例性实施例中，本发明实施例装置还包括预处理单元，用于：对所述待分析文本进行以下一项或任意组合的处理：

过滤乱码；

过滤特殊字符；

过滤网址；

过滤图片链接。

在一种示例性实施例中，本发明实施例可以通过正则表达式匹配确定网址及图片链接等，网址及图片链接可以包括超文本标记语言(html)标签、类型(style)标签及图片(img)标签等；可以通过相关技术，基于特殊字符字典过滤乱码及特殊字符，乱码和特殊符号是真实的文字和可复制并粘贴到文本中，包括数学符号、标点符号等少数符号以及一些无法被正常认知的符号；如：！-※等。

在一种示例性实施例中，本发明实施例比对单元用于将待分析文本与两种或两种以上语言字典进行比对包括：

在一种示例性实施例中，所述确定单元具体用于：

本发明实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现上述实现文本分析的方法。

本发明实施例还提供一种终端，包括：存储器和处理器，所述存储中保存有计算机程序；其中，

处理器被配置为执行存储器中的计算机程序；

“本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。”。

Claims

1.一种实现文本分析的方法，包括：

根据获得的待分析文本中包含的各种文字的比例，确定待分析文本的所属语言类型，包括：通过预设的比例阈值参数对获得的所述待分析文本中包含的各种文字的比例进行分析，并根据分析的结果确定所述待分析文本的所属语言类型；

所述语言字典包括两种或两种以上任意组合的字典：繁体字字典、越南语字母字典、特殊字符字典及粤语字典；

所述比例阈值参数包括第一百分比阈值、第一字符数阈值、第二字符数阈值及第二百分比阈值，所述确定待分析文本的所属语言类型，包括：

2.根据权利要求1所述的方法，其特征在于，所述将待分析文本与两种或两种以上语言字典进行比对之前，所述方法还包括：对所述待分析文本进行以下一项或任意组合的处理：

过滤乱码；过滤特殊字符；过滤网址；过滤图片链接。

3.根据权利要求1所述的方法，其特征在于，所述将待分析文本与两种或两种以上语言字典进行比对，包括：

4.一种实现文本分析的装置，包括：比对单元及确定单元；其中，

确定单元用于：根据获得的待分析文本中包含的各种文字的比例，确定待分析文本的所属语言类型，包括：通过预设的比例阈值参数对获得的所述待分析文本中包含的各种文字的比例进行分析，并根据分析的结果确定所述待分析文本的所属语言类型；

所述语言字典包括两项或两项以上任意组合的字典：繁体字字典、越南语字母字典、特殊字符字典及粤语字典；

5.一种计算机存储介质，所述计算机存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1～3中任一项所述的实现文本分析的方法。

6.一种终端，包括：存储器和处理器，所述存储中保存有计算机程序；其中，

处理器被配置为执行存储器中的计算机程序；

所述计算机程序被所述处理器执行时实现如执行权利要求1～3中任一项所述的实现文本分析的方法。