CN111079408B - 一种语种识别方法、装置、设备及存储介质 - Google Patents
一种语种识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111079408B CN111079408B CN201911369407.0A CN201911369407A CN111079408B CN 111079408 B CN111079408 B CN 111079408B CN 201911369407 A CN201911369407 A CN 201911369407A CN 111079408 B CN111079408 B CN 111079408B
- Authority
- CN
- China
- Prior art keywords
- text
- language
- recognized
- word
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Character Discrimination (AREA)
- Cash Registers Or Receiving Machines (AREA)
- Controls And Circuits For Display Device (AREA)
Abstract
本发明实施例公开了一种语种识别方法、装置、设备及存储介质。该方法包括:获取用户输入的待识别文本,并根据待识别文本中字符的统一码范围确定待识别文本的语种范围;判断语种范围是否仅包含一个语种;若否,则判断待识别文本中的各个字符是否具有唯一对应的语种;若否,则对待识别文本进行切分,得到与待识别文本对应的单词集合;将单词集合中的单词与语种范围包含的语种的特征语料进行比对,并根据比对结果确定待识别文本的语种成分。本发明实施例所提供的技术方案,实现了对各个语种的广泛适用,从而提高了语种识别过程的整体效率,并节约了开发人员的开发时间和成本。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种语种识别方法、装置、设备及存储介质。
背景技术
在公开信息的聚类分析过程中,一个很重要的问题就是对多语种文本的处理,而多语种文本处理的基础问题就是语种的识别问题,在完成语种识别后,便可以针对不同语种的数据进行后续各类具有针对性的处理和分析。
现有的语种识别方法通常是采用一些开源的语言检测框架进行识别,但现有的语言检测框架一般仅支持较为常用的语种,对于不支持的小语种的识别,需要开发人员修改代码,以训练语言检测框架支持新的语种。因此,若所需识别的文本中包含较为不常用的语种,该类语言检测框架则不能很好的实现语种识别,从而降低了语种识别的效率,又增加了开发人员的负担。
发明内容
本发明实施例提供一种语种识别方法、装置、设备及存储介质,以实现对各个语种的广泛适用,从而提高语种识别过程的整体效率。
第一方面,本发明实施例提供了一种语种识别方法,该方法包括:
获取用户输入的待识别文本,并根据待识别文本中字符的统一码范围确定待识别文本的语种范围;
判断语种范围是否仅包含一个语种;
若否,则判断待识别文本中的各个字符是否具有唯一对应的语种;
若否,则对待识别文本进行切分,得到与待识别文本对应的单词集合;
将单词集合中的单词与语种范围包含的语种的特征语料进行比对,并根据比对结果确定待识别文本的语种成分。
第二方面,本发明实施例还提供了一种语种识别装置,该装置包括:
语种范围确定模块,用于获取用户输入的待识别文本,并根据待识别文本中字符的统一码范围确定待识别文本的语种范围;
语种判断模块,用于判断语种范围是否仅包含一个语种;
字符判断模块,用于若否,则判断待识别文本中的各个字符是否具有唯一对应的语种;
单词集合获得模块,用于若否,则对待识别文本进行切分,得到与待识别文本对应的单词集合;
语种成分确定模块,用于将单词集合中的单词与语种范围包含的语种的特征语料进行比对,并根据比对结果确定待识别文本的语种成分。
第三方面,本发明实施例还提供了一种计算机设备,该设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的语种识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所提供的语种识别方法。
本发明实施例提供了一种语种识别方法,通过根据待识别文本中字符的统一码范围确定待识别文本的语种范围,若该语种范围中包含至少两个语种且待识别文本中存在与至少两个语种对应的字符,则对待识别文本进行切分,以得到待识别文本对应的单词集合,进而将单词集合中的单词与语种范围中包含的语种的特征语料进行比对,以根据比对结果确定待识别文本的语种成分,可以根据待识别文本对应的单词集合中的单词与特征语料的比对结果,准确确定包含多个语种的待识别文本的语种成分,实现了对各个语种的广泛适用,从而提高了语种识别过程的整体效率,并节约了开发人员的开发时间和成本。
附图说明
图1A是本发明实施例一提供的语种识别方法的流程图;
图1B是本发明实施例一提供的语种识别过程的详细流程图;
图2A是本发明实施例二提供的语种识别方法的流程图;
图2B是本发明实施例二提供的特征语料生成过程的详细流程图;
图3是本发明实施例三提供的语种识别装置的结构示意图;
图4是本发明实施例四提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1A为本发明实施例一提供的语种识别方法的流程图。本实施例可适用于在多语种文本处理过程中对不同语种进行识别的情况,该方法可以由本发明实施例提供的语种识别装置来执行,该装置可以由硬件和/或软件的方式来实现,一般可集成于计算机设备中。如图1A所示,具体包括如下步骤:
S11、获取用户输入的待识别文本,并根据所述待识别文本中字符的统一码范围确定所述待识别文本的语种范围。
可选的,可通过语种识别工具的接口获取用户输入的待识别文本,该待识别文本可以为统一码(Unicode)格式的文本。其中,Unicode是计算机科学领域里的一项业界标准,包括字符集及编码方案等,为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言或跨平台的进行文本转换及处理的要求。
待识别文本中可能仅包含一个语种的内容,也可能包含多个语种的内容。由于Unicode是针对字符设计的编码,所以同一Unicode编码指代的字符可能对应多个语种中包含的相同字符。示例性的,字符“a”可以属于英语,也可以属于俄语。因此,不能简单的通过Unicode编码来完成语种的识别,但可以通过Unicode编码来缩小待识别文本中可能的语种范围。在获取用户输入的待识别文本后,获取文本中每一个字符对应的Unicode编码,进而根据该Unicode编码确定该字符可能属于的语种,在确定了待识别文本中所有字符可能属于的语种后,所有字符可能属于的语种的集合即是待识别文本的语种范围。
S12、判断所述语种范围是否仅包含一个语种。
在确定待识别文本的语种范围后,判断该语种范围是否仅包含一个语种。可选的,在判断语种范围是否仅包含一个语种之后,还包括:若是,则将语种范围包含的语种确定为待识别文本的语种成分。具体而言,如果该语种范围仅包含一个语种,则说明待识别文本仅可能为一个语种,不需要再进行额外的判断,即可将该语种范围包含的语种确定为待识别文本的语种成分。其中,语种成分可以通过待识别文本中各语种的占比来表示。
S13、若否,则判断所述待识别文本中的各个字符是否具有唯一对应的语种。
若该语种范围包含至少两个语种,则判断待识别文本中的各个字符是否具有唯一对应的语种。可选的,在判断待识别文本中的各个字符是否具有唯一对应的语种之后,还包括:若是,则获取与待识别文本中的各个字符对应的语种,并统计与语种范围包含的各语种对应的待识别文本中的字符的总数;根据与语种范围包含的各语种对应的待识别文本中的字符的总数确定待识别文本的语种成分。
具体而言,如果待识别文本中每个字符均只对应唯一的语种,则可直接根据各个字符的Unicode编码确定各个字符对应的语种,各个字符对应的语种的集合即是待识别文本的语种范围,对该语种范围内的各个语种对应的待识别文本中的字符进行统计,以确定各个语种对应的字符数量,然后根据各个语种对应的字符数量即可确定待识别文本的语种成分。示例性的,待识别文本的语种范围为{英语,日语,俄语},其中英语对应的字符数量为50,日语对应的字符数量为30,俄语对应的字符数量为20,则待识别文本的字符总数为100,且英语占比50%、日语占比30%以及俄语占比20%,即待识别文本的语种成分为英语50%、日语30%以及俄语20%。
S14、若否,则对所述待识别文本进行切分,得到与所述待识别文本对应的单词集合。
如果待识别文本中存在对应至少两个语种的字符,则需要进一步通过待识别文本中具有语音及语义的单词判断所属于的语种,所以对待识别文本进行切分,以得到与待识别文本对应的单词集合。其中,单词在不同语种中的体现形式可能不同,示例性的,汉语中一个字符,即一个汉字便是一个具有语音及语义的单词,如“山”或“海”等,而英语中一串字符才可形成一个具有语音及语义的单词,如“mountain”或“sea”等。因此,在对待识别文本进行切分时,要分情况进行讨论。
可选的,对待识别文本进行切分,得到与待识别文本对应的单词集合,包括:根据待识别文本中的规律性文本间隔,判断待识别文本为字模式文本或者词模式文本;如果待识别文本为字模式文本,则按照字符对字模式文本进行切分,得到与待识别文本对应的单词集合;如果待识别文本为词模式文本,则按照规律性文本间隔对词模式文本进行切分,得到与待识别文本对应的单词集合。
其中,规律性文本间隔可以是空格符,用于分隔单词。可选的,通过规律性文本间隔的有无判断待识别文本为字模式文本或者词模式文本,若待识别文本中包括规律性文本间隔,则为词模式文本,若不包括,则为字模式文本。其中,词模式文本的单词为至少一个字符,大部分情况是由一串字符组成,而字模式文本即是每个字符为一个单词。由于词模式文本的单词通常由一串字符组成,因此需要一些非语言字符来分隔单词,即规律性文本间隔具体用于分隔词模式文本的单词。当待识别文本中包含多个语种的内容时,可以首先根据待识别文本中字符统一码的范围将待识别文本进行一次简单的划分,以得到多个语种大致对应的分段文本,以便于后续根据规律性文本间隔判断待识别文本的模式。
如果待识别文本为字模式文本,则每个字符即为一个单词,只需按照字符对文本进行切分即可,并将切分后的单词构成待识别文本对应的单词集合。如果待识别文本为词模式文本,则规律性文本间隔之间的字符串即为一个单词,按照该规律性文本间隔对文本进行切分,并将切分后的单词构成待识别文本对应的单词集合。如果待识别文本中既包含字模式文本,也包含词模式文本,则基于上述简单的划分分别对字模式文本和词模式文本进行单词的切分,并将所有切分后的单词构成待识别文本对应的单词集合。
S15、将所述单词集合中的单词与所述语种范围包含的语种的特征语料进行比对,并根据比对结果确定所述待识别文本的语种成分。
可选的,语种识别工具可以预先准备常用语种的特征语料,也可以根据语种识别过程中语种范围所包括的语种获取对应的特征语料。其中,特征语料是对应语种独有的单词的集合,还可以根据特征语料中单词的使用频率为每个单词设置权重,以判断特征语料中的常用词。将上述获取的单词集合中的单词与上述语种范围所包含的语种的特征语料进行比对,若单词集合中的某个单词存在于某个语种的特征语料中,则确定该单词属于该语种,若单词集合中的某个单词不存在于任一语种范围所包含的语种的特征语料中,则不对其进行统计,或者将其标记为错误单词。
可选的,将单词集合中的单词与语种范围包含的语种的特征语料进行比对,并根据比对结果确定待识别文本的语种成分,包括:依次从单词集合中获取一个单词作为当前处理单词;将当前处理单词与语种范围包含的语种的特征语料进行比对,确定与当前处理单词匹配的目标语种,并对目标语种进行计数;返回执行依次从单词集合中获取一个单词作为当前处理单词的操作,直至完成单词集合中的所有单词的比对;根据语种范围包含的各语种的计数结果确定待识别文本的语种成分。
具体而言,将单词集合中的单词分别与确定的语种范围包含的语种的特征语料进行比对,也可以在语种范围包含的语种的特征语料中搜索单词集合中的各个单词,若某个单词存在于某个目标语种的特征语料中,则确定该单词与该目标语种相匹配,并为该目标语种计数加一,即统计与目标语种匹配的单词的个数。在完成了单词集合中所有单词的比对后,根据统计结果即可确定待识别文本的语种成分。
具体的语种识别过程,如图1B所示,首先获取待识别文本,并确定文本字符统一码的范围分布,根据该范围分布判断待识别文本中所有字符是否只对应一个语种,若是,则待识别文本的语种成分判定完成,即将该对应的语种确定为语种成分,若否,则进一步判断对应不同语种的字符范围是否重叠,即是否存在对应多个语种的字符,若不存在重叠,则待识别文本的语种成分也判定完成,只需根据各个字符对应的语种进行统计即可确定语种成分,若存在重叠,则根据待识别文本的模式将待识别文本进行切分以获得单词,然后依次获取切分后单词可能的语言类型,并依次判定切分后单词是否存在于某个语种的特征语料中,若存在,则将该单词记录在该语种下,并对各语种包含的单词进行计数,最后统计各单词最终的归类计数,即可确定待识别文本的语种成分。其中,待识别文本的模式包括字模式和词模式,对字模式文本按字进行切分,对词模式文本按词进行切分。
本发明实施例所提供的技术方案,通过根据待识别文本中字符的统一码范围确定待识别文本的语种范围,若该语种范围中包含至少两个语种且待识别文本中存在与至少两个语种对应的字符,则对待识别文本进行切分,以得到待识别文本对应的单词集合,进而将单词集合中的单词与语种范围中包含的语种的特征语料进行比对,以根据比对结果确定待识别文本的语种成分,可以根据待识别文本对应的单词集合中的单词与特征语料的比对结果,准确确定包含多个语种的待识别文本的语种成分,实现了对各个语种的广泛适用,从而提高了语种识别过程的整体效率,并节约了开发人员的开发时间和成本。
实施例二
图2A为本发明实施例二提供的语种识别方法的流程图。本实施例的技术方案在上述技术方案的基础上进一步细化,具体的,在本实施例中,在将单词集合中的单词与语种范围包含的语种的特征语料进行比对之前,增加了指定语种的特征语料的生成过程。相应的,如图2A所示,具体包括如下步骤:
S21、获取用户输入的待识别文本,并根据所述待识别文本中字符的统一码范围确定所述待识别文本的语种范围。
S22、判断所述语种范围是否仅包含一个语种。
S23、若否,则判断所述待识别文本中的各个字符是否具有唯一对应的语种。
S24、若否,则对所述待识别文本进行切分,得到与所述待识别文本对应的单词集合。
S25、获取所述用户输入的指定语种的网站列表,并遍历与所述网站列表对应的网站内容,以获取网站内容文本。
在确定待识别文本的语种范围之后,若语种识别工具中不包括语种范围包含的语种的特征语料,则可以对该语种的特征语料直接进行生成。首先获取用户输入的指定语种的网站列表,其中,网站列表可以是指定语种的新闻网站或者维基百科网站的网站链接列表。然后分别针对各个网站链接遍历各个链接指向的网站内容,以获取网站内容文本。可选的,网站列表中可以仅包含一个网站链接,也可以包含多个网站链接,链接数越多,则最后获取的特征语料越丰富全面,并可以通过深度遍历的方式自动的获取网站内容文本。
S26、根据所述网站内容文本中字符的统一码对所述网站内容文本进行过滤,得到所述指定语种的语料内容。
在获取网站内容文本之后,根据网站内容文本中字符的统一码确定其中可能属于指定语种的字符,即过滤掉网站文本内容中的非指定语种的语言字符,并保留其中既属于指定语种又同时属于其他语种的语言字符,同时还要保留网站文本内容中的非语言字符,以便于后续对网站文本内容进行切分。在完成过滤后,即得到指定语种的语料内容。
S27、根据所述语料内容生成所述指定语种的特征语料。
可选的,根据语料内容生成指定语种的特征语料,包括:对语料内容进行切分,得到与语料内容对应的语料单词集合;对语料单词集合中的各个单词的出现次数进行统计,得到与语料单词集合中的各个单词对应的常用词权重,并对语料单词集合进行去重;如果网站内容文本中存在同时与指定语种以及至少一个其他语种对应的目标字符,则将去重后的语料单词集合与其他语种的特征语料进行差操作,得到指定语种的特征语料。
具体而言,如图2B所示,对语料内容的切分过程,可以参考上述实施例的描述,在此将不再累述。在完成对语料内容的切分并获得语料单词集合后,可以对语料单词集合中的单词的出现次数进行统计,并根据各单词的出现次数确定各单词的常用词权重,以作为该单词是否为指定语种的常用词的权衡依据。然后对语料单词集合进行去重,并根据语料内容中的字符的统一码确定各个字符是否仅对应一个语种,若存在同时与指定语种以及至少一个其他语种对应的目标字符,且语种识别工具已经获取了其他语种的特征语料,则将去重后的语料单词集合与其他语种的特征语料进行差操作,以去除语料单词集合中无法确定唯一语种的单词,并将差操作后的语料单词集合确定为指定语种的特征语料。
可选的,如果去重后的语料单词集合的语种范围仅包含指定语种,则将去重后的语种单词集合确定为指定语种的特征语料。具体而言,即去重后的语料单词集合中所有字符仅与指定语种对应,则其中不存在其他语种的特征语料中的单词,不再需要进行上述的差操作,即可直接将去重后的语种单词集合确定为指定语种的特征语料。
S28、将所述单词集合中的单词与所述语种范围包含的语种的特征语料进行比对,并根据比对结果确定所述待识别文本的语种成分。
本发明实施例所提供的技术方案,通过遍历用户输入的网站列表对应的网站内容,自动的获取指定语种的语料内容,并进一步生成指定语种的特征语料。实现了在语种识别工具不包含所需特征语料时,能够自动的生成该特征语料,从而减少了开发人员自己搜集语料并对语言检测框架进行训练的时间,进一步实现了对各个语种的广泛适用,提高了语种识别过程的整体效率,并节约了开发人员的开发时间和成本。
实施例三
图3为本发明实施例三提供的语种识别装置的结构示意图,该装置可以由硬件和/或软件的方式来实现,并可集成于计算机设备中,用于执行本发明任意实施例所提供的语种识别方法。如图3所示,该装置包括:
语种范围确定模块31,用于获取用户输入的待识别文本,并根据待识别文本中字符的统一码范围确定待识别文本的语种范围;
语种判断模块32,用于判断语种范围是否仅包含一个语种;
字符判断模块33,用于若否,则判断待识别文本中的各个字符是否具有唯一对应的语种;
单词集合获得模块34,用于若否,则对待识别文本进行切分,得到与待识别文本对应的单词集合;
语种成分确定模块35,用于将单词集合中的单词与语种范围包含的语种的特征语料进行比对,并根据比对结果确定待识别文本的语种成分。
本发明实施例所提供的技术方案,通过根据待识别文本中字符的统一码范围确定待识别文本的语种范围,若该语种范围中包含至少两个语种且待识别文本中存在与至少两个语种对应的字符,则对待识别文本进行切分,以得到待识别文本对应的单词集合,进而将单词集合中的单词与语种范围中包含的语种的特征语料进行比对,以根据比对结果确定待识别文本的语种成分,可以根据待识别文本对应的单词集合中的单词与特征语料的比对结果,准确确定包含多个语种的待识别文本的语种成分,实现了对各个语种的广泛适用,从而提高了语种识别过程的整体效率,并节约了开发人员的开发时间和成本。
在上述技术方案的基础上,可选的,单词集合获得模块34,包括:
文本模式判断子模块,用于根据待识别文本中的规律性文本间隔,判断待识别文本为字模式文本或者词模式文本;
字模式文本切分子模块,用于如果待识别文本为字模式文本,则按照字符对字模式文本进行切分,得到与待识别文本对应的单词集合;
词模式文本切分子模块,用于如果待识别文本为词模式文本,则按照规律性文本间隔对词模式文本进行切分,得到与待识别文本对应的单词集合。
在上述技术方案的基础上,可选的,语种成分确定模块35,包括:
当前处理单词获取子模块,用于依次从单词集合中获取一个单词作为当前处理单词;
目标语种确定子模块,用于将当前处理单词与语种范围包含的语种的特征语料进行比对,确定与当前处理单词匹配的目标语种,并对目标语种进行计数;
返回执行子模块,用于返回执行依次从单词集合中获取一个单词作为当前处理单词的操作,直至完成单词集合中的所有单词的比对;
成分确定子模块,用于根据语种范围包含的各语种的计数结果确定待识别文本的语种成分。
在上述技术方案的基础上,可选的,该语种识别装置还包括:
第一成分确定模块,用于在判断语种范围是否仅包含一个语种之后,若是,则将语种范围包含的语种确定为待识别文本的语种成分。
在上述技术方案的基础上,可选的,该语种识别装置还包括:
字符数统计模块,用于在判断待识别文本中的各个字符是否具有唯一对应的语种之后,若是,则获取与待识别文本中的各个字符对应的语种,并统计与语种范围包含的各语种对应的待识别文本中的字符的总数;
第二成分确定模块,用于根据与语种范围包含的各语种对应的待识别文本中的字符的总数确定待识别文本的语种成分。
在上述技术方案的基础上,可选的,该语种识别装置还包括:
网站内容文本获取模块,用于获取用户输入的指定语种的网站列表,并遍历与网站列表对应的网站内容,以获取网站内容文本;
语料内容获得模块,用于根据网站内容文本中字符的统一码对网站内容文本进行过滤,得到指定语种的语料内容;
特征语料生成模块,用于根据语料内容生成指定语种的特征语料。
在上述技术方案的基础上,可选的,特征语料生成模块,包括:
语料单词集合获得子模块,用于对语料内容进行切分,得到与语料内容对应的语料单词集合;
常用词权重获得子模块,用于对语料单词集合中的各个单词的出现次数进行统计,得到与语料单词集合中的各个单词对应的常用词权重,并对语料单词集合进行去重;
特征语料获得子模块,用于如果网站内容文本中存在同时与指定语种以及至少一个其他语种对应的目标字符,则将去重后的语料单词集合与其他语种的特征语料进行差操作,得到指定语种的特征语料。
本发明实施例所提供的语种识别装置可执行本发明任意实施例所提供的语种识别方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,在上述语种识别装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例四
图4为本发明实施例四提供的一种计算机设备的结构示意图,示出了适于用来实现本发明实施方式的示例性计算机设备的框图。图4显示的计算机设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图4所示,该计算机设备包括处理器41、存储器42、输入装置43及输出装置44;计算机设备中处理器41的数量可以是一个或多个,图4中以一个处理器41为例,计算机设备中的处理器41、存储器42、输入装置43及输出装置44可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器42作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的语种识别方法对应的程序指令/模块(例如,语种识别装置中的语种范围确定模块31、语种判断模块32、字符判断模块33、单词集合获得模块34及语种成分确定模块35)。处理器41通过运行存储在存储器42中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的语种识别方法。
存储器42可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器42可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器42可进一步包括相对于处理器41远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置43可用于接收用户输入的需要进行语种识别的待识别文本,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置44可包括显示屏等显示设备,可用于向用户提供语种识别结果。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,该计算机可执行指令在由计算机处理器执行时用于执行一种语种识别方法,该方法包括:
获取用户输入的待识别文本,并根据待识别文本中字符的统一码范围确定待识别文本的语种范围;
判断语种范围是否仅包含一个语种;
若否,则判断待识别文本中的各个字符是否具有唯一对应的语种;
若否,则对待识别文本进行切分,得到与待识别文本对应的单词集合;
将单词集合中的单词与语种范围包含的语种的特征语料进行比对,并根据比对结果确定待识别文本的语种成分。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的语种识别方法中的相关操作。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (9)
1.一种语种识别方法,其特征在于,包括:
获取用户输入的待识别文本,并根据所述待识别文本中字符的统一码范围确定所述待识别文本的语种范围;
判断所述语种范围是否仅包含一个语种;
若否,则判断所述待识别文本中的各个字符是否具有唯一对应的语种;
若否,则对所述待识别文本进行切分,得到与所述待识别文本对应的单词集合;
将所述单词集合中的单词与所述语种范围包含的语种的特征语料进行比对,并根据比对结果确定所述待识别文本的语种成分;
所述对所述待识别文本进行切分,得到与所述待识别文本对应的单词集合,包括:
根据所述待识别文本中的规律性文本间隔,判断所述待识别文本为字模式文本或者词模式文本;
如果所述待识别文本为字模式文本,则按照字符对所述字模式文本进行切分,得到与所述待识别文本对应的单词集合;
如果所述待识别文本为词模式文本,则按照所述规律性文本间隔对所述词模式文本进行切分,得到与所述待识别文本对应的单词集合。
2.根据权利要求1所述的语种识别方法,其特征在于,所述将所述单词集合中的单词与所述语种范围包含的语种的特征语料进行比对,并根据比对结果确定所述待识别文本的语种成分,包括:
依次从所述单词集合中获取一个单词作为当前处理单词;
将所述当前处理单词与所述语种范围包含的语种的特征语料进行比对,确定与所述当前处理单词匹配的目标语种,并对所述目标语种进行计数;
返回执行依次从所述单词集合中获取一个单词作为当前处理单词的操作,直至完成所述单词集合中的所有单词的比对;
根据所述语种范围包含的各语种的计数结果确定所述待识别文本的语种成分。
3.根据权利要求1所述的语种识别方法,其特征在于,在判断所述语种范围是否仅包含一个语种之后,还包括:
若是,则将所述语种范围包含的语种确定为所述待识别文本的语种成分。
4.根据权利要求1所述的语种识别方法,其特征在于,在判断所述待识别文本中的各个字符是否具有唯一对应的语种之后,还包括:
若是,则获取与所述待识别文本中的各个字符对应的语种,并统计与所述语种范围包含的各语种对应的所述待识别文本中的字符的总数;
根据所述与所述语种范围包含的各语种对应的所述待识别文本中的字符的总数确定所述待识别文本的语种成分。
5.根据权利要求1所述的语种识别方法,其特征在于,在所述将所述单词集合中的单词与所述语种范围包含的语种的特征语料进行比对之前,还包括:
获取所述用户输入的指定语种的网站列表,并遍历与所述网站列表对应的网站内容,以获取网站内容文本;
根据所述网站内容文本中字符的统一码对所述网站内容文本进行过滤,得到所述指定语种的语料内容;
根据所述语料内容生成所述指定语种的特征语料。
6.根据权利要求5所述的语种识别方法,其特征在于,所述根据所述语料内容生成所述指定语种的特征语料,包括:
对所述语料内容进行切分,得到与所述语料内容对应的语料单词集合;
对所述语料单词集合中的各个单词的出现次数进行统计,得到与所述语料单词集合中的各个单词对应的常用词权重,并对所述语料单词集合进行去重;
如果所述网站内容文本中存在同时与所述指定语种以及至少一个其他语种对应的目标字符,则将去重后的语料单词集合与所述其他语种的特征语料进行差操作,得到所述指定语种的特征语料。
7.一种语种识别装置,其特征在于,包括:
语种范围确定模块,用于获取用户输入的待识别文本,并根据所述待识别文本中字符的统一码范围确定所述待识别文本的语种范围;
语种判断模块,用于判断所述语种范围是否仅包含一个语种;
字符判断模块,用于若否,则判断所述待识别文本中的各个字符是否具有唯一对应的语种;
单词集合获得模块,用于若否,则对所述待识别文本进行切分,得到与所述待识别文本对应的单词集合;
语种成分确定模块,用于将所述单词集合中的单词与所述语种范围包含的语种的特征语料进行比对,并根据比对结果确定所述待识别文本的语种成分;
所述单词集合获得模块,包括:
文本模式判断子模块,用于根据所述待识别文本中的规律性文本间隔,判断所述待识别文本为字模式文本或者词模式文本;
字模式文本切分子模块,用于如果所述待识别文本为字模式文本,则按照字符对所述字模式文本进行切分,得到与所述待识别文本对应的单词集合;
词模式文本切分子模块,用于如果所述待识别文本为词模式文本,则按照所述规律性文本间隔对所述词模式文本进行切分,得到与所述待识别文本对应的单词集合。
8.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的语种识别方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的语种识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911369407.0A CN111079408B (zh) | 2019-12-26 | 2019-12-26 | 一种语种识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911369407.0A CN111079408B (zh) | 2019-12-26 | 2019-12-26 | 一种语种识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111079408A CN111079408A (zh) | 2020-04-28 |
CN111079408B true CN111079408B (zh) | 2023-05-30 |
Family
ID=70318262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911369407.0A Active CN111079408B (zh) | 2019-12-26 | 2019-12-26 | 一种语种识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079408B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539207B (zh) * | 2020-04-29 | 2023-06-13 | 北京大米未来科技有限公司 | 文本识别方法、文本识别装置、存储介质和电子设备 |
CN111581549B (zh) * | 2020-05-09 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语料采集方法、装置及存储介质 |
CN111524502B (zh) * | 2020-05-27 | 2024-04-30 | 科大讯飞股份有限公司 | 一种语种检测方法、装置、设备及存储介质 |
CN112100063B (zh) * | 2020-08-31 | 2022-03-01 | 腾讯科技(深圳)有限公司 | 界面语言的显示测试方法、装置、计算机设备和存储介质 |
CN112528682A (zh) * | 2020-12-23 | 2021-03-19 | 北京百度网讯科技有限公司 | 语种检测方法、装置、电子设备和存储介质 |
CN113919330A (zh) * | 2021-10-14 | 2022-01-11 | 携程旅游信息技术(上海)有限公司 | 语种识别方法、信息分发方法以及设备、介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708095A (zh) * | 2004-09-30 | 2012-10-03 | 谷歌公司 | 选择用于文本分割的语言的方法和系统 |
CN104317847A (zh) * | 2014-10-13 | 2015-01-28 | 孙伟力 | 一种识别网络文字信息的语种的方法及系统 |
CN106528535A (zh) * | 2016-11-14 | 2017-03-22 | 北京赛思信安技术股份有限公司 | 一种基于编码和机器学习的多语种识别方法 |
CN106598937A (zh) * | 2015-10-16 | 2017-04-26 | 阿里巴巴集团控股有限公司 | 用于文本的语种识别方法、装置和电子设备 |
CN106959943A (zh) * | 2016-01-11 | 2017-07-18 | 阿里巴巴集团控股有限公司 | 语种识别更新方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2489512A (en) * | 2011-03-31 | 2012-10-03 | Clearswift Ltd | Classifying data using fingerprint of character encoding |
US10162811B2 (en) * | 2014-10-17 | 2018-12-25 | Mz Ip Holdings, Llc | Systems and methods for language detection |
-
2019
- 2019-12-26 CN CN201911369407.0A patent/CN111079408B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708095A (zh) * | 2004-09-30 | 2012-10-03 | 谷歌公司 | 选择用于文本分割的语言的方法和系统 |
CN104317847A (zh) * | 2014-10-13 | 2015-01-28 | 孙伟力 | 一种识别网络文字信息的语种的方法及系统 |
CN106598937A (zh) * | 2015-10-16 | 2017-04-26 | 阿里巴巴集团控股有限公司 | 用于文本的语种识别方法、装置和电子设备 |
CN106959943A (zh) * | 2016-01-11 | 2017-07-18 | 阿里巴巴集团控股有限公司 | 语种识别更新方法及装置 |
CN106528535A (zh) * | 2016-11-14 | 2017-03-22 | 北京赛思信安技术股份有限公司 | 一种基于编码和机器学习的多语种识别方法 |
Non-Patent Citations (1)
Title |
---|
基于规范字符集的多语种统一字符编码方案;付勇 等;《广西科学院学报》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111079408A (zh) | 2020-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079408B (zh) | 一种语种识别方法、装置、设备及存储介质 | |
CN105931644B (zh) | 一种语音识别方法及移动终端 | |
CN113807098A (zh) | 模型训练方法和装置、电子设备以及存储介质 | |
KR20200108775A (ko) | 트레이닝 말뭉치를 생성하는 방법, 장치, 기기 및 저장 매체 | |
CN106843840B (zh) | 一种基于相似度分析的源代码版本演化注释复用方法 | |
JP2020030408A (ja) | オーディオにおける重要語句を認識するための方法、装置、機器及び媒体 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN108932218B (zh) | 一种实例扩展方法、装置、设备和介质 | |
CN111783450B (zh) | 语料文本中的短语提取方法、装置、存储介质及电子设备 | |
CN111428011B (zh) | 词语的推荐方法、装置、设备及存储介质 | |
US8880391B2 (en) | Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program | |
CN112579466A (zh) | 测试用例的生成方法、装置及计算机可读存储介质 | |
US12013903B2 (en) | System and method for search discovery | |
CN113657088A (zh) | 接口文档解析方法、装置、电子设备以及存储介质 | |
US10546063B2 (en) | Processing of string inputs utilizing machine learning | |
CN113434631A (zh) | 基于事件的情感分析方法、装置、计算机设备及存储介质 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN116756382A (zh) | 检测敏感字符串的方法、装置、设置及存储介质 | |
CN116821903A (zh) | 检测规则确定及恶意二进制文件检测方法、设备及介质 | |
CN109558580B (zh) | 一种文本分析方法及装置 | |
CN115730071A (zh) | 电力舆情事件的抽取方法、装置、电子设备及存储介质 | |
CN110704617B (zh) | 新闻文本的分类方法、装置、电子设备和存储介质 | |
CN110083807B (zh) | 合同的修改影响自动预测方法、装置、介质及电子设备 | |
CN112925889A (zh) | 自然语言处理方法、装置、电子设备和存储介质 | |
CN111753548A (zh) | 信息获取方法及装置、计算机存储介质、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |