CN112711943A - 一种维吾尔文语种识别方法、装置及存储介质 - Google Patents
一种维吾尔文语种识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112711943A CN112711943A CN202011497407.1A CN202011497407A CN112711943A CN 112711943 A CN112711943 A CN 112711943A CN 202011497407 A CN202011497407 A CN 202011497407A CN 112711943 A CN112711943 A CN 112711943A
- Authority
- CN
- China
- Prior art keywords
- uygur
- language
- analyzed
- data
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims abstract description 18
- 238000010606 normalization Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000013519 translation Methods 0.000 abstract description 9
- 238000004458 analytical method Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 11
- 239000000463 material Substances 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000000835 fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Optimization (AREA)
- Computing Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Mathematical Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种维吾尔文语种识别方法,通过构建基于维吾尔文的词汇数据库,并且基于维吾尔文语句的联合概率函数建立语言模型;根据待分析数据的词数选择词汇数据库或语言模型判断待分析数据是否为维吾尔文,其中通过语言模型计算出条件概率值以评估待分析数据的语句的合理性,并通过归一化处理的结果分析出待分析数据是否为维吾尔文。通过词汇数据库比对,对较短的内容进行判断提高准确度。本发明通过词汇数据库查询以及语言模型分析的技术提升对聊天内容中的维文识别。通过维文聊天数据和新闻数据能够准确的判断聊天中的维文信息,有助于维文翻译以及对聊天内容的分析阅读。
Description
技术领域
本发明涉及语种识别领域,具体涉及一种维吾尔文语种识别方法、装置及存储介质。
背景技术
机器翻译是指利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语 言)的过程。随着经济全球化以及互联网的飞速发展,翻译在促进政治、经济、文化交流方面起到了越来越重要的作用。翻译软件对文本进行翻译过程中需要对文本(源语言)的语言类型进行判断,通常可以人为设定语言类型、通过字符编码以及数据库比对的方法确定待翻译文本的语言类型。
目前,汉语和维语两者之间的差异很大,实现维汉翻译对文化交流具有重要 的意义。在维汉翻译过程中,需要对待翻译的文本进行维语识别,由于维语书写 包括使用拉丁字符书写的拉丁维文、阿拉伯文书写的古维文,这就对不熟悉维语 的人或者数据库比识别造成困难。特别是对于聊天内容这种较短和口语化的维语 文本的错误识别,容易造成翻译质量差。本发明旨在提高维文聊天文本翻译过程 中,两种维文形态的识别。
维语包含古维语和拉丁维语两种书写形式,古维语与阿拉伯语很难区分,拉丁维语与 拉丁语系的语言很难区分,使用编码方法或者数据库方法存在判断不准确的情况。尤其对 于聊天文本这种具有口语化、内容简短、多种语言混合文本判断上。
有鉴于此,建立一种维吾尔文语种识别方法和装置是非常具有意义的。
发明内容
针对上述提到在聊天内容中对维吾尔文语种的识别难度大,判断不准确等问题。本申 请的实施例的目的在于提出了一种维吾尔文语种识别方法、装置及存储介质来解决以上背 景技术部分提到的技术问题。
第一方面,本申请的实施例提出了一种维吾尔文语种识别方法,包括以下步骤:
建模步骤,构建基于维吾尔文的词汇数据库,并且基于维吾尔文语句的联合概率函数 建立语言模型;
判断步骤,根据待分析数据的词数选择词汇数据库或语言模型判断待分析数据是否为 维吾尔文,其中通过语言模型计算出条件概率值以评估待分析数据的语句的合理性,并通 过归一化处理的结果分析出待分析数据是否为维吾尔文。
在一些实施例中,还包括:
预处理步骤,对获取到的语料以及待分析数据进行预处理,其中语料包括训练语料。
使用大量聊天数据以及书面数据训练语言模型,使用正规书面维文以及聊天中的维文 判断,并提高判断准确度。
在一些实施例中,预处理步骤具体包括:
删除URL地址、电子邮箱、表情符;
删除非维吾尔文的字符;
若语料和待分析数据中存在拉丁字符,则分别将语料和待分析数据中的拉丁字符转换 为对应的阿拉伯字符。由于拉丁维语与古维语之间的转换具有对应关系,所以把获取的拉 丁维语语料转换为古维语语料,丰富古维语语料。
在一些实施例中,建模步骤具体包括:
将经过预处理后的语料中含有维吾尔文的所有词汇进行保存形成词汇数据库;
基于N-gram语言模型结合贝叶斯定理建立语言模型,并通过训练语料进行对语言模型 进行训练,其中训练语料包括采用阿拉伯文字书写的阿拉伯语、波斯语、土耳其语以及维 吾尔语。
建立词汇数据库用于查询维语词汇,构建语言模型可以评估语句的合理性,N-gram语 言模型是基于统计的算法,结合贝叶斯定理可以对有意义的句子赋予大概率,对没有意义 的句子赋予小概率。
在一些实施例中,语言模型具体包括:
对于一个由n个词汇组成的句子s=w1w2…wn,其概率公式可以表示为:P(s)= P(w1)P(w2|w1)…P(wn|w1w2…wn-1),式中第i个词的概率由已经产生的前i-1个词决定,语言模型基于3-gram语言模型建立以评估语句的合理性公式表示为:
对于训练语料,利用贝叶斯定理,其条件概率值表示为:
其中,C(wiwj)表示训练语料中wiwj统计的次数,|V|是所有一元字符、二元字符、三元 字符的数量;
统计训练语料的一元字符、两元字符以及三元字符出现的次数并存储于模型参数数据 库中。
在一些实施例中,判断步骤具体包括:
计算待分析数据的词数;
若词数少于第一阈值,则通过查阅词汇数据库判断待分析数据是否是维吾尔文;
若词数多于第一阈值,则遍历待分析数据中的每一个字符,通过语言模型计算待分析 数据的条件概率值,将条件概率值进行归一化处理得到对应于阿拉伯文、波斯语、土耳其 语以及维吾尔文语种的概率值,获取概率值中的最大值并判断最大值对应的语种是否是维 吾尔文,然后根据最大值是否超过第二阈值判断待分析数据是否是维吾尔文。
聊天数据的长度过于短不适合用语言模型判断,使用数据库词汇查询更准确。长度较 长可以使用语言模型进行判断。
在一些实施例中,归一化处理采用以下公式:
其中i分别对应于阿拉伯文、波斯语、土耳其语以及维吾尔文语种。
在一些实施例中,在计算待分析数据的条件概率值时从模型参数数据库中查询 C(wi-2wi-1wi)和C(wi-2wi-1)的数值,其中wi为当前字符,如果wi为首字符,C(wi-2wi-1wi)则变 为计算C(wi)的值,C(wi-2wi-1)则变为统计所有单个字符的总和,如果wi前面只有一个字符, C(wi-2wi-1wi)则变为查询C(wi-1wi)的值,C(wi-2wi-1)变为查询C(wi-1)的值。通过模型参数数据库中查询字符出现的次数,便于语言模型的计算。
在一些实施例中,判断步骤还包括:
结合对待分析数据中的拉丁字符转换为对应的阿拉伯字符过程的记录判断待分析数据 为阿拉伯维文、拉丁维文、阿拉伯维文和拉丁维文的混合内容或非维文。还可以进一步分 析出待分析数据的文字组成。
第二方面,本申请的实施例还提出了一种维吾尔文语种识别装置,包括:
建模模块,被配置为构建基于维吾尔文的词汇数据库,并且基于维吾尔文语句的联合 概率函数建立语言模型;
判断模块,被配置为根据待分析数据的词数选择词汇数据库或语言模型判断待分析数 据是否为维吾尔文,其中通过语言模型计算出条件概率值以评估待分析数据的语句的合理 性,并通过归一化处理的结果分析出待分析数据是否为维吾尔文。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置, 用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个 处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序, 该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
本申请的实施例提出了一种维吾尔文语种识别方法,通过构建基于维吾尔文的词汇数 据库,并且基于维吾尔文语句的联合概率函数建立语言模型;根据待分析数据的词数选择 词汇数据库或语言模型判断待分析数据是否为维吾尔文,其中通过语言模型计算出条件概 率值以评估待分析数据的语句的合理性,并通过归一化处理的结果分析出待分析数据是否 为维吾尔文。基于词汇查询以及语言模型判断结合的方法判断聊天内容是否存在维吾尔文, 以提高对维文判断的准确度。使用大量聊天数据以及书面数据训练语言模型,使用正规书 面维文以及聊天中的维文判断,并提高判断准确度。通过数据库比对,对较短的内容进行 判断提高准确度。本发明通过词汇数据库查询以及语言模型分析的技术提升对聊天内容中 的维文识别。通过维文聊天数据和新闻数据能够准确的判断聊天中的维文信息,有助于维 文翻译以及对聊天内容的分析阅读。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的 附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领 域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的 附图。
图1是本申请的一个实施例可以应用于其中的示例性装置架构图;
图2为本发明的实施例的维吾尔文语种识别方法的流程示意图;
图3为本发明的实施例的维吾尔文语种识别方法的步骤S0的流程示意图;
图4为本发明的实施例的维吾尔文语种识别方法的步骤S1的结构示意图;
图5为本发明的实施例的维吾尔文语种识别方法的步骤S2的结构示意图;
图6为本发明的实施例的维吾尔文语种识别装置的示意图;
图7是适于用来实现本申请实施例的电子设备的计算机装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步 地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。 基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有 其它实施例,都属于本发明保护的范围。
图1示出了可以应用本申请实施例的维吾尔文语种识别方法或维吾尔文语种识别装 置的示例性装置架构100。
如图1所示,装置架构100可以包括终端设备101、102、103,网络104和服务器 105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。 网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或 发送消息等。终端设备101、102、103上可以安装有各种应用,例如数据处理类应用、 文件处理类应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103 为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算 机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的 电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软 件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上传的文件或数据进行处理的后台数据处理服务器。后台数据处理服务器可以对获取的文件或数据进行处理,生成处理结果。
需要说明的是,本申请实施例所提供的维吾尔文语种识别方法可以由服务器105执 行,也可以由终端设备101、102、103执行,相应地,维吾尔文语种识别装置可以设置 于服务器105中,也可以设置于终端设备101、102、103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。在所处理的数据不需要从远程获取 的情况下,上述装置架构可以不包括网络,而只需服务器或终端设备。
图2示出了本申请的实施例公开一种维吾尔文语种识别方法,包括以下步骤:
S1,构建基于维吾尔文的词汇数据库,并且基于维吾尔文语句的联合概率函数建立语 言模型。
在具体的实施例中,在步骤S1之前还包括:
S0,对获取到的语料以及待分析数据进行预处理,其中语料包括训练语料。
扩充语料用于训练语言模型。从网上获取用阿拉伯文字书写的语料,包括阿拉伯语、 波斯语、土耳其语以及维吾尔语。语料的来源包括新闻网站、书籍资料、维基百科和聊天 内容。使用大量聊天数据以及书面数据训练语言模型,使用正规书面维文以及聊天中的维 文判断,并提高判断准确度。
在具体的实施例中,如图3所示,步骤S0具体包括:
S01,删除URL地址、电子邮箱、表情符;
S02,删除非维吾尔文的字符;
S03,若语料和待分析数据中存在拉丁字符,则分别将语料和待分析数据中的拉丁字符 转换为对应的阿拉伯字符。
由于拉丁维语与古维语之间的转换具有对应关系,所以把获取的拉丁维语语料转换为 古维语语料,可以丰富古维语语料。此时将拉丁维语转换为古维语,之后就不存在拉丁维语 和古维语的区别。因为两者之间存在有对应关系,只是写法上的区别,并且能够节省计算, 不需要维护两个语言模型。
在具体的实施例中,如图4所示,步骤S1具体包括:
S11,将经过预处理后的语料中含有维吾尔文的所有词汇进行保存形成词汇数据库;
S12,基于N-gram语言模型结合贝叶斯定理建立语言模型,并通过训练语料进行对语 言模型进行训练,其中训练语料包括采用阿拉伯文字书写的阿拉伯语、波斯语、土耳其语 以及维吾尔语。
建立词汇数据库用于查询维语词汇,构建语言模型可以评估语句的合理性,语言模型 旨在对语句的联合概率函数建模,目标是可以对有意义的句子赋予大概率,对没有意义的 句子赋予小概率。
在具体的实施例中,语言模型具体包括:
对于一个由n个词汇组成的句子s=w1w2…wn,其概率公式可以表示为:P(s)= P(w1)P(w2|w1)…P(wn|w1w2…wn-1),式中第i个词的概率由已经产生的前i-1个词决定,语言模型基于3-gram语言模型建立以评估语句的合理性,公式表示为:
对于训练语料,利用贝叶斯定理,其条件概率值表示为:
其中,C(wiwj)表示训练语料中wiwj统计的次数,|V|是所有一元字符、二元字符、三元 字符的数量;
统计训练语料的一元字符、两元字符以及三元字符出现的次数并存储于模型参数数据 库中。
语言模型计算的值是用来衡量句子的合理程度。N-gram语言模型是一种基于统计的算 法。上述的公式是3-gram的语言模型,通过对收集到的数据集的三个字组成的词语进行频 率统计并计算为P(wi|wi-2wi-1)。需要判断的新句子通过上述的公式可以计算得到句子的合 理度。如果该句子中某个wi-2wi-1wi词组没有在数据集中出现或者出现次数非常小,那么 P(wi|wi-2wi-1)的值也会小。
S2,根据待分析数据的词数选择词汇数据库或语言模型判断待分析数据是否为维吾尔 文,其中通过语言模型计算出条件概率值以评估待分析数据的语句的合理性,并通过归一 化处理的结果分析出待分析数据是否为维吾尔文。
在具体的实施例中,将待分析数据进行预处理之后,进行步骤S2,如图5所示,步骤S2具体包括:
S21,计算待分析数据的词数;
S22,若词数少于第一阈值,则通过查阅词汇数据库判断待分析数据是否是维吾尔文;
S23,若词数多于第一阈值,则遍历待分析数据中的每一个字符,通过语言模型计算待 分析数据的条件概率值,将条件概率值进行归一化处理得到对应于阿拉伯文、波斯语、土 耳其语以及维吾尔文语种的概率值,获取概率值中的最大值并判断最大值对应的语种是否 是维吾尔文,然后根据最大值是否超过第二阈值判断待分析数据是否是维吾尔文。
待分析数据的词数如果太少,例如少于3个,就通过查阅词汇数据库的方式进行判断 是否为维吾尔文。如果查到的一半以上的词汇为维文就判断为维吾尔文。待分析数据长度 多于3个的情况使用语言模型进行判断。聊天数据过于短不适合用语言模型判断,使用数 据库词汇查询更准确。聊天数据的长度过于短不适合用语言模型判断,使用数据库词汇查 询更准确。长度较长时使用语言模型判断更加准确。
在具体的实施例中,归一化处理采用以下公式:
其中i分别对应于阿拉伯文、波斯语、土耳其语以及维吾尔文语种。
在具体的实施例中,在计算待分析数据的条件概率值时从模型参数数据库中查询C(wi-2wi-1wi)和C(wi-2wi-1)的数值,其中wi为当前字符,如果wi为首字符,C(wi-2wi-1wi)则变为计算C(wi)的值,C(wi-2wi-1)则变为统计所有单个字符的总和,如果wi前面只有一个字符,C(wi-2wi-1wi)则变为查询C(wi-1wi)的值,C(wi-2wi-1)变为查询C(wi-1)的值。通过模型参数数据库中查询字符出现的次数,便于语言模型的计算。
在具体的实施例中,步骤S2还包括:
结合对待分析数据中的拉丁字符转换为对应的阿拉伯字符过程的记录判断待分析数据 为阿拉伯维文、拉丁维文、阿拉伯维文和拉丁维文的混合内容或非维文。因此还可以进一 步分析出待分析数据的文字组成。在拉丁文字转成阿拉伯文字的时候会被记录是否进行了 转换,以及句子的哪些部分被转换。
进一步参考图6,作为对上述各图所示方法的实现,本申请提供了一种维吾尔文语种识 别装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应 用于各种电子设备中。
本申请的实施例提出的一种维吾尔文语种识别装置,如图6所示,包括:
建模模块1,被配置为构建基于维吾尔文的词汇数据库,并且基于维吾尔文语句的联合 概率函数建立语言模型;
判断模块2,被配置为根据待分析数据的词数选择词汇数据库或语言模型判断待分析数 据是否为维吾尔文,其中通过语言模型计算出条件概率值以评估待分析数据的语句的合理 性,并通过归一化处理的结果分析出待分析数据是否为维吾尔文。
在具体的实施例中,还包括:
预处理模块0,对获取到的语料以及待分析数据进行预处理,其中语料包括训练语料。
使用大量聊天数据以及书面数据训练语言模型,使用正规书面维文以及聊天中的维文 判断,并提高判断准确度。
在具体的实施例中,预处理模块0具体包括:
删除URL地址、电子邮箱、表情符;
删除非维吾尔文的字符;
若语料和待分析数据中存在拉丁字符,则分别将语料和待分析数据中的拉丁字符转换 为对应的阿拉伯字符。由于拉丁维语与古维语之间的转换具有对应关系,所以把获取的拉 丁维语语料转换为古维语语料,丰富古维语语料。
建模模块1具体包括:
将经过预处理后的语料中含有维吾尔文的所有词汇进行保存形成词汇数据库;
基于N-gram语言模型结合贝叶斯定理建立语言模型,并通过训练语料进行对语言模型 进行训练,其中训练语料包括采用阿拉伯文字书写的阿拉伯语、波斯语、土耳其语以及维 吾尔语。
建立词汇数据库用于查询维语词汇,构建语言模型可以评估语句的合理性,语言模型 旨在对语句的联合概率函数建模,目标是可以对有意义的句子赋予大概率,对没有意义的 句子赋予小概率。
在具体的实施例中,语言模型具体包括:
对于一个由n个词汇组成的句子s=w1w2…wn,其概率公式可以表示为:P(s)= P(w1)P(w2|w1)…P(wn|w1w2…wn-1),式中第i个词的概率由已经产生的前i-1个词决定,语言模型基于3-gram语言模型建立以评估语句的合理性,公式表示为:
对于训练语料,利用贝叶斯定理,其条件概率值表示为:
其中,C(wiwj)表示训练语料中wiwj统计的次数,|V|是所有一元字符、二元字符、三元 字符的数量;
统计训练语料的一元字符、两元字符以及三元字符出现的次数并存储于模型参数数据 库中。
在具体的实施例中,判断模块2具体包括:
S21,计算待分析数据的词数;
S22,若词数少于第一阈值,则通过查阅词汇数据库判断待分析数据是否是维吾尔文;
S23,若词数多于第一阈值,则遍历待分析数据中的每一个字符,通过语言模型计算待 分析数据的条件概率值,将条件概率值进行归一化处理得到对应于阿拉伯文、波斯语、土 耳其语以及维吾尔文语种的概率值,获取概率值中的最大值并判断最大值对应的语种是否 是维吾尔文,然后根据最大值是否超过第二阈值判断待分析数据是否是维吾尔文。
在具体的实施例中,判断模块2还包括:
结合对待分析数据中的拉丁字符转换为对应的阿拉伯字符过程的记录判断待分析数据 为阿拉伯维文、拉丁维文、阿拉伯维文和拉丁维文的混合内容或非维文。还可以进一步分 析出待分析数据的文字组成。
本申请的实施例提出了一种维吾尔文语种识别方法,通过构建基于维吾尔文的词汇数 据库,并且基于维吾尔文语句的联合概率函数建立语言模型;根据待分析数据的词数选择 词汇数据库或语言模型判断待分析数据是否为维吾尔文,其中通过语言模型计算出条件概 率值以评估待分析数据的语句的合理性,并通过归一化处理的结果分析出待分析数据是否 为维吾尔文。基于词汇查询以及语言模型判断结合的方法判断聊天内容是否存在维吾尔文, 以提高对维文判断的准确度。使用大量聊天数据以及书面数据训练语言模型,使用正规书 面维文以及聊天中的维文判断,并提高判断准确度。通过数据库比对,对较短的内容进行 判断提高准确度。本发明通过词汇数据库查询以及语言模型分析的技术提升对聊天内容中 的维文识别。通过维文聊天数据和新闻数据能够准确的判断聊天中的维文信息,有助于维 文翻译以及对聊天内容的分析阅读。
下面参考图7,其示出了适于用来实现本申请实施例的电子设备(例如图1所示的服务器或终端设备)的计算机装置700的结构示意图。图7示出的电子设备仅仅是一个 示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机装置700包括中央处理单元(CPU)701和图形处理器(GPU) 702,其可以根据存储在只读存储器(ROM)703中的程序或者从存储部分709加载到 随机访问存储器(RAM)704中的程序而执行各种适当的动作和处理。在RAM 704中, 还存储有装置700操作所需的各种程序和数据。CPU 701、GPU702、ROM 703以及RAM 704通过总线705彼此相连。输入/输出(I/O)接口706也连接至总线705。
以下部件连接至I/O接口706:包括键盘、鼠标等的输入部分707;包括诸如、液 晶显示器(LCD)等以及扬声器等的输出部分708;包括硬盘等的存储部分709;以及 包括诸如LAN卡、调制解调器等的网络接口卡的通信部分710。通信部分710经由诸 如因特网的网络执行通信处理。驱动器711也可以根据需要连接至I/O接口706。可拆 卸介质712,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器711 上,以便于从其上读出的计算机程序根据需要被安装入存储部分709。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软 件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样 的实施例中,该计算机程序可以通过通信部分710从网络上被下载和安装,和/或从可 拆卸介质712被安装。在该计算机程序被中央处理单元(CPU)701和图形处理器(GPU) 702执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算 机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于—— 电、磁、光、电磁、红外线、或半导体的装置、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携 式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程 只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存 储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读介质可以 是任何包含或存储程序的有形介质,该程序可以被指令执行装置、装置或者器件使用或 者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载 波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可 以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可 读的信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读介质 可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的 程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于: 无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机 程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++, 还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上 执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域 网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利 用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的装置、方法和计算机程序 产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个 或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中, 方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示 的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的 功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的 方框的组合,可以用执行规定的功能或操作的专用的基于硬件的装置来实现,或者可以 用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件 的方式来实现。所描述的模块也可以设置在处理器中。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上 述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。 上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备 执行时,使得该电子设备:构建基于维吾尔文的词汇数据库,并且基于维吾尔文语句的联 合概率函数建立语言模型;根据待分析数据的词数选择词汇数据库或语言模型判断待分析 数据是否为维吾尔文,其中通过语言模型计算出条件概率值以评估待分析数据的语句的合 理性,并通过归一化处理的结果分析出待分析数据是否为维吾尔文。
应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的 技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于) 具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (12)
1.一种维吾尔文语种识别方法,其特征在于,包括以下步骤:
建模步骤,构建基于维吾尔文的词汇数据库,并且基于维吾尔文语句的联合概率函数建立语言模型;
判断步骤,根据待分析数据的词数选择所述词汇数据库或所述语言模型判断所述待分析数据是否为维吾尔文,其中通过所述语言模型计算出条件概率值以评估所述待分析数据的语句的合理性,并通过归一化处理的结果分析出所述待分析数据是否为维吾尔文。
2.根据权利要求1所述的维吾尔文语种识别方法,其特征在于,还包括:
预处理步骤,对获取到的语料以及所述待分析数据进行预处理,其中所述语料包括训练语料。
3.根据权利要求2所述的维吾尔文语种识别方法,其特征在于,所述预处理步骤具体包括:
删除URL地址、电子邮箱、表情符;
删除非维吾尔文的字符;
若所述语料和所述待分析数据中存在拉丁字符,则分别将所述语料和所述待分析数据中的拉丁字符转换为对应的阿拉伯字符。
4.根据权利要求2所述的维吾尔文语种识别方法,其特征在于,所述建模步骤具体包括:
将经过预处理后的所述语料中含有维吾尔文的所有词汇进行保存形成所述词汇数据库;
基于N-gram语言模型结合贝叶斯定理建立所述语言模型,并通过所述训练语料进行对所述语言模型进行训练,其中所述训练语料包括采用阿拉伯文字书写的阿拉伯语、波斯语、土耳其语以及维吾尔语。
6.根据权利要求1所述的维吾尔文语种识别方法,其特征在于,所述判断步骤具体包括:
计算所述待分析数据的词数;
若所述词数少于第一阈值,则通过查阅所述词汇数据库判断所述待分析数据是否是维吾尔文;
若所述词数多于第一阈值,则遍历所述待分析数据中的每一个字符,通过所述语言模型计算所述待分析数据的所述条件概率值,将所述条件概率值进行归一化处理得到对应于阿拉伯文、波斯语、土耳其语以及维吾尔文语种的概率值,获取所述概率值中的最大值并判断所述最大值对应的语种是否是维吾尔文,然后根据所述最大值是否超过第二阈值判断所述待分析数据是否是维吾尔文。
8.根据权利要求6所述的维吾尔文语种识别方法,其特征在于,在计算所述待分析数据的条件概率值时从所述模型参数数据库中查询C(wi-2wi-1wi)和C(wi-2wi-1)的数值,其中wi为当前字符,如果wi为首字符,C(wi-2wi-1wi)则变为计算C(wi)的值,C(wi-2wi-1)则变为统计所有单个字符的总和,如果wi前面只有一个字符,C(wi-2wi-1wi)则变为查询C(wi-1wi)的值,C(wi- 2wi-1)变为查询C(wi-1)的值。
9.根据权利要求3所述的维吾尔文语种识别方法,其特征在于,判断步骤还包括:
结合对所述待分析数据中的拉丁字符转换为对应的阿拉伯字符过程的记录判断所述待分析数据为阿拉伯维文、拉丁维文、阿拉伯维文和拉丁维文的混合内容或非维文。
10.一种维吾尔文语种识别装置,其特征在于,包括:
建模模块,被配置为构建基于维吾尔文的词汇数据库,并且基于维吾尔文语句的联合概率函数建立语言模型;
判断模块,被配置为根据待分析数据的词数选择所述词汇数据库或所述语言模型判断所述待分析数据是否为维吾尔文,其中通过所述语言模型计算出条件概率值以评估所述待分析数据的语句的合理性,并通过归一化处理的结果分析出所述待分析数据是否为维吾尔文。
11.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011497407.1A CN112711943B (zh) | 2020-12-17 | 2020-12-17 | 一种维吾尔文语种识别方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011497407.1A CN112711943B (zh) | 2020-12-17 | 2020-12-17 | 一种维吾尔文语种识别方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112711943A true CN112711943A (zh) | 2021-04-27 |
CN112711943B CN112711943B (zh) | 2023-11-24 |
Family
ID=75544039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011497407.1A Active CN112711943B (zh) | 2020-12-17 | 2020-12-17 | 一种维吾尔文语种识别方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112711943B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115374779A (zh) * | 2022-10-25 | 2022-11-22 | 北京海天瑞声科技股份有限公司 | 文本语言识别方法、装置、设备及介质 |
US20230162520A1 (en) * | 2021-11-23 | 2023-05-25 | Abbyy Development Inc. | Identifying writing systems utilized in documents |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001236089A (ja) * | 1999-12-17 | 2001-08-31 | Atr Interpreting Telecommunications Res Lab | 統計的言語モデル生成装置、音声認識装置、情報検索処理装置及びかな漢字変換装置 |
US20150279353A1 (en) * | 2014-03-27 | 2015-10-01 | International Business Machines Corporation | Unsupervised training method, training apparatus, and training program for n-gram language model |
CN105279149A (zh) * | 2015-10-21 | 2016-01-27 | 上海应用技术学院 | 一种中文文本自动校正方法 |
CN109344830A (zh) * | 2018-08-17 | 2019-02-15 | 平安科技(深圳)有限公司 | 语句输出、模型训练方法、装置、计算机设备及存储介质 |
CN109902159A (zh) * | 2019-01-29 | 2019-06-18 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理的智能运维语句相似度匹配方法 |
CN109934251A (zh) * | 2018-12-27 | 2019-06-25 | 国家计算机网络与信息安全管理中心广东分中心 | 一种用于小语种文本识别的方法、识别系统及存储介质 |
CN111368563A (zh) * | 2020-03-03 | 2020-07-03 | 新疆大学 | 一种融合聚类算法的维汉机器翻译系统 |
US20200327285A1 (en) * | 2019-04-09 | 2020-10-15 | Sas Institute Inc. | Word Embeddings and Virtual Terms |
-
2020
- 2020-12-17 CN CN202011497407.1A patent/CN112711943B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001236089A (ja) * | 1999-12-17 | 2001-08-31 | Atr Interpreting Telecommunications Res Lab | 統計的言語モデル生成装置、音声認識装置、情報検索処理装置及びかな漢字変換装置 |
US20150279353A1 (en) * | 2014-03-27 | 2015-10-01 | International Business Machines Corporation | Unsupervised training method, training apparatus, and training program for n-gram language model |
CN105279149A (zh) * | 2015-10-21 | 2016-01-27 | 上海应用技术学院 | 一种中文文本自动校正方法 |
CN109344830A (zh) * | 2018-08-17 | 2019-02-15 | 平安科技(深圳)有限公司 | 语句输出、模型训练方法、装置、计算机设备及存储介质 |
CN109934251A (zh) * | 2018-12-27 | 2019-06-25 | 国家计算机网络与信息安全管理中心广东分中心 | 一种用于小语种文本识别的方法、识别系统及存储介质 |
CN109902159A (zh) * | 2019-01-29 | 2019-06-18 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理的智能运维语句相似度匹配方法 |
US20200327285A1 (en) * | 2019-04-09 | 2020-10-15 | Sas Institute Inc. | Word Embeddings and Virtual Terms |
CN111368563A (zh) * | 2020-03-03 | 2020-07-03 | 新疆大学 | 一种融合聚类算法的维汉机器翻译系统 |
Non-Patent Citations (1)
Title |
---|
马志强;张泽广;闫瑞;刘利民;冯永祥;苏依拉;: "基于N-Gram模型的蒙古语文本语种识别算法的研究", 中文信息学报, no. 01 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230162520A1 (en) * | 2021-11-23 | 2023-05-25 | Abbyy Development Inc. | Identifying writing systems utilized in documents |
CN115374779A (zh) * | 2022-10-25 | 2022-11-22 | 北京海天瑞声科技股份有限公司 | 文本语言识别方法、装置、设备及介质 |
CN115374779B (zh) * | 2022-10-25 | 2023-01-10 | 北京海天瑞声科技股份有限公司 | 文本语言识别方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112711943B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287278B (zh) | 评论生成方法、装置、服务器及存储介质 | |
CN109493977B (zh) | 文本数据处理方法、装置、电子设备及计算机可读介质 | |
CN107066449B (zh) | 信息推送方法和装置 | |
CN107861954B (zh) | 基于人工智能的信息输出方法和装置 | |
CN110019742B (zh) | 用于处理信息的方法和装置 | |
US11651015B2 (en) | Method and apparatus for presenting information | |
CN111753086A (zh) | 一种垃圾邮件识别方法和装置 | |
CN113064964A (zh) | 文本分类方法、模型训练方法、装置、设备以及存储介质 | |
CN109408834B (zh) | 辅助机器翻译方法、装置、设备及存储介质 | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
CN113268560A (zh) | 用于文本匹配的方法和装置 | |
CN109190123B (zh) | 用于输出信息的方法和装置 | |
CN112711943B (zh) | 一种维吾尔文语种识别方法、装置及存储介质 | |
CN110738056B (zh) | 用于生成信息的方法和装置 | |
CN111783450A (zh) | 语料文本中的短语提取方法、装置、存储介质及电子设备 | |
CN111597807B (zh) | 分词数据集生成方法、装置、设备及其存储介质 | |
CN116955561A (zh) | 问答方法、装置、电子设备以及存储介质 | |
CN111538817B (zh) | 人机交互方法和装置 | |
CN111241273A (zh) | 文本数据分类方法、装置、电子设备及计算机可读介质 | |
CN110807097A (zh) | 分析数据的方法和装置 | |
CN113761895A (zh) | 文本摘要的生成方法、装置、电子设备及存储介质 | |
WO2024077906A1 (zh) | 语音文本生成方法、语音文本生成模型的训练方法、装置 | |
CN114743012B (zh) | 一种文本识别方法及装置 | |
CN110705308A (zh) | 语音信息的领域识别方法、装置、存储介质及电子设备 | |
CN115860003A (zh) | 一种语义角色分析方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |