CN111626067A - 语言类型判别方法、装置、设备及存储介质 - Google Patents
语言类型判别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111626067A CN111626067A CN202010486133.XA CN202010486133A CN111626067A CN 111626067 A CN111626067 A CN 111626067A CN 202010486133 A CN202010486133 A CN 202010486133A CN 111626067 A CN111626067 A CN 111626067A
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- word
- combination
- word number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种语言类型判别方法、装置、设备及存储介质,语言类型判别方法包括:取待语言类型判别的文本;基于已知类型文本的预定的第一字数组合向量库,获取文本的各个第一字数组合的第一字数组合向量;融合各第一字数组合向量,得到文本的第一字数文本向量;至少根据第一字数文本向量获取融合文本向量;根据融合文本向量获取语言类型判别向量,并根据语言类别判别向量,获取文本的类型为已知类型文本的类型的概率。本发明实施例所提供的语言类型判别方法、装置、设备及存储介质,可以实现文本的语言类型判别,并提高判别的准确性。
Description
技术领域
本发明实施例涉及计算机领域,尤其涉及一种语言类型判别方法、装置、设备及存储介质。
背景技术
随着人工智能技术的发展,自然语言处理成为机器学习研究的一个重要的方向。
现阶段,基于自然语言的处理主要集中在不同语言之间的翻译,并未涉及自然语言的语言类型的判定,然而在一些领域,需要首先判定出自然语言的种类,然后再进行后续步骤的处理。然而,现阶段并未发现实现语言类型判别的方法。
因此,如何实现语言类型的判别,就成为亟需解决的技术问题。
发明内容
本发明实施例提供一种语言类型判别方法、装置、设备及存储介质,以实现语言类型的确定。
为解决上述问题,本发明实施例提供一种语言类型判别方法,包括:
获取待语言类型判别的文本;
基于已知类型文本的预定的第一字数组合向量库,获取所述文本的各个第一字数组合的第一字数组合向量,其中,所述第一字数为所述已知类型文本的第一概率的成词字数,且各所述第一字数组合向量的维度数量相同;
融合各所述第一字数组合向量,得到所述文本的第一字数文本向量,其中,所述第一字数文本向量的各个维度值分别为各所述第一字数组合向量同一纬度的维度值的融合值;
至少根据所述第一字数文本向量获取融合文本向量;
根据所述融合文本向量获取语言类型判别向量,并根据所述语言类别判别向量,获取所述文本的类型为所述已知类型文本的类型的概率。
为解决上述问题,本发明实施例提供一种语言类型判别装置,包括:
文本获取单元,适于获取待语言类型判别的文本;
第一字数组合向量获取单元,适于基于已知类型文本的预定的第一字数组合向量库,获取所述文本的各个第一字数组合的第一字数组合向量,其中,所述第一字数为所述已知类型文本的第一概率的成词字数,且各所述第一字数组合向量的维度数量相同;
第一字数文本向量获取单元,适于融合各所述第一字数组合向量,得到所述文本的第一字数文本向量,其中,所述第一字数文本向量的各个维度值分别为各所述第一字数组合向量同一纬度的维度值的融合值;
融合文本向量获取单元,适于至少根据所述第一字数文本向量获取融合文本向量;
概率获取单元,适于根据所述融合文本向量获取语言类型判别向量,并根据所述语言类别判别向量,获取所述文本的类型为所述已知类型文本的类型的概率。
为解决上述问题,本发明实施例提供一种存储介质,所述存储介质存储有适于语言类型判别的程序,以实现如前述任一项所述的语言类型判别方法。
为解决上述问题,本发明实施例提供一种设备,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,以执行如前述任一项所述的语言类型判别方法。
与现有技术相比,本发明的技术方案具有以下优点:
本发明实施例所提供的语言类型判别方法、装置、设备及存储介质,其中,语言类型判别方法,在进行文本的语言类型判别时,根据已知类型文本的第一概率的成词字数对待语言类型判别的文本进行拆分,得到各个第一字数组合,并基于第一字数组合向量库得到各个第一字数组合的第一字数组合向量,并对各个第一字数组合向量进行融合,得到与所述文本对应的第一字数文本向量,并进一步融合获取融合文本向量,最后利用融合文本向量提取语言类型判别所用特征,得到语言类型判别向量,并获取所述文本的类型为所述已知类型文本的类型的概率,进而实现对于待语言类型判别的文本是否为所述已知类型文本的类型的判断。可以看出,本发明实施例所提供的语言类型判别方法,通过将待语言类型判别的文本按照已知类型文本的第一概率的成词字数进行拆分,并根据拆分后的第一字数组合与已知类型文本的第一字数组合的对应关系获取第一字数组合向量,使得各个第一字数组合向量与已知类型文本之间构建有直接的关联关系,从而使得对其进行融合所形成的第一字数文本向量与已知类型文本之间也构建起相互关联关系,并通过至少对第一字数文本向量的融合进一步获取更多的特征,经过语言类型判别向量的获取,可以将待语言类型判别的文本的类型与已知类型文本的类型相关联性和不关联性提取出来,再进一步基于语言类型判别向量,获取所述文本的类型为所述已知类型文本的类型的概率,可以简单方便地实现对于所述文本的类型是否与所述已知类型文本的类型相同的判别,并且在判别过程中,充分利用了已知类型文本的第一概率的成词字数、已知类型文本的预定的第一字数组合向量库,同时还将各所述第一字数组合向量进行了融合,可以提高文本的语言类型判别的准确性。
可选方案中,本发明实施例所提供的语言类型判别方法,还包括,基于所述已知类型文本的预定的第二字数组合向量库获取所述文本的各组第二字数组合的第二字数组合向量,并根据各所述第二字数组合向量获取所述文本的第二字数文本向量;根据所述第一字数文本向量和所述第二字数文本向量获取所述融合文本向量。这样,在进行文本的语言类型判别获取融合文本向量时,不仅基于已知类型文本的第一概率的成词字数的第一字数组合向量,还结合了第二概率的成词字数的第二字数组合向量,从而使得融合文本向量中包含了更多地用于判别文本的类型是否为所述已知类型文本的类型的特征,可以进一步提高本发明实施例所提供的语言类型判别方法的准确性。
附图说明
图1是本发明实施例所提供的语言类型判别方法的一流程示意图;
图2为本发明实施例所提供的语言类型判别方法的获取待语言类型判别的文本步骤的一流程示意图;
图3为本发明实施例所提供的语言类型判别方法的获取第一字数组合向量步骤的一流程示意图;
图4为本发明实施例所提供的语言类型判别方法的获取第一字数组合向量库步骤的一流程示意图;
图5是本发明实施例所提供的语言类型判别方法的另一流程示意图;
图6是本发明实施例所提供的语言类型判别方法的又一流程示意图;
图7是本发明实施例所提供的语言类型判别装置的一框图;
图8是本发明实施例提供的设备一种可选硬件设备架构。
具体实施方式
现有技术中,无法实现语言类型的判别。
为了实现语言类型的判别,本发明实施例提供了一种语言类型判别方法,包括:
获取待语言类型判别的文本;
基于已知类型文本的预定的第一字数组合向量库,获取所述文本的各个第一字数组合的第一字数组合向量,其中,所述第一字数为所述已知类型文本的第一概率的成词字数,且各所述第一字数组合向量的维度数量相同;
融合各所述第一字数组合向量,得到所述文本的第一字数文本向量,其中,所述第一字数文本向量的各个维度值分别为各所述第一字数组合向量同一纬度的维度值的融合值;
至少根据所述第一字数文本向量获取融合文本向量;
根据所述融合文本向量获取语言类型判别向量,并根据所述语言类别判别向量,获取所述文本的类型为所述已知类型文本的类型的概率。
可以看出,本发明实施例所提供的语言类型判别方法,在进行文本的语言类型判别时,根据已知类型文本的第一概率的成词字数对待语言类型判别的文本进行拆分,得到各个第一字数组合,并基于第一字数组合向量库得到各个第一字数组合的第一字数组合向量,并对各个第一字数组合向量进行融合,得到与所述文本对应的第一字数文本向量,并进一步融合获取融合文本向量,最后利用融合文本向量提取语言类型判别所用特征,得到语言类型判别向量,并获取所述文本的类型为所述已知类型文本的类型的概率,进而实现对于待语言类型判别的文本是否为所述已知类型文本的类型的判断。
可见,本发明实施例所提供的语言类型判别方法,通过将待语言类型判别的文本按照已知类型文本的第一概率的成词字数进行拆分,并根据拆分后的第一字数组合与已知类型文本的第一字数组合的对应关系获取第一字数组合向量,使得各个第一字数组合向量与已知类型文本之间构建有直接的关联关系,从而使得对其进行融合所形成的第一字数文本向量与已知类型文本之间也构建起相互关联关系,并通过至少对第一字数文本向量的融合进一步获取更多的特征,经过语言类型判别向量的获取,可以将待语言类型判别的文本的类型与已知类型文本的类型相关联性和不关联性提取出来,再进一步基于语言类型判别向量,获取所述文本的类型为所述已知类型文本的类型的概率,可以简单方便地实现对于所述文本的类型是否与所述已知类型文本的类型相同的判别,并且在判别过程中,充分利用了已知类型文本的第一概率的成词字数、已知类型文本的预定的第一字数组合向量库,同时还将各所述第一字数组合向量进行了融合,可以提高文本的语言类型判别的准确性。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1是本发明实施例所提供的语言类型判别方法的一流程示意图。
如图中所示,本发明实施例所提供的语言类型判别方法,实现所述待语言类型判别的文本是否为已知类型文本的判别,包括以下步骤:
步骤S10:获取待语言类型判别的文本。
为了实现对于待语言类型判别的文本的语言类型判别,首先需要获取待语言类型判别的文本。
当然,为了保证所得到的文本满足语言类型判别的要求,请参考图2,图2为本发明实施例所提供的语言类型判别方法的获取待语言类型判别的文本步骤的一流程示意图。
如图中所示,本发明实施例所提供的语言类型判别方法,通过以下步骤获取带语言类型判别的文本:
步骤S100:获取待语言类型判别的原始文本。
可以理解的是,原始文本即未经过加工处理的文本,比如:任何文章或者段落中的一段文本。在一种具体实施方式中,可以为一段文言文或者一段白话文,由于未经过加工处理,因此,其中很有可能包含有标点符号,并且原始文本所包含的字数也不确定。
步骤S101:用空格替换所述原始文本的标点符号,得到中间文本。
利用空格替换原始文本中的标点符号,得到中间文本,这样可以在进行文本向量化时,只考虑原始文本中的文字,降低文本向量化的难度。
步骤S102:根据所述预定数量对所述中间文本进行截断处理,得到仅包含纯文本且文字数小于或等于所述预定数量的所述文本。
由于原始文本的文字数量是不确定的,而后续处理所需要的数据需为固定维数的,因此,为了保证经过后续处理后得到的对应于不同的原始文本的第一数字组合向量的个数相同(为方便描述,可以将各个第一数字组合向量按不同的行进行排列得到的矩阵,称为第一字数组合矩阵),即对应于不同的原始文本的各个第一字数组合矩阵的行数相同;当然,如果获取第二数字组合向量时,对应于不同的原始文本的各个第二字数组合矩阵的行数相同,如果获取第三数字组合向量时,对应于不同的原始文本的各个第三字数组合矩阵的行数相同,可以将中间文本按照预定数量进行截断处理。
具体地,所述预定数量可以为已知类型文本的一句话的平均长度的1.2-1.3倍,当已知类型文本为文言文时,预定数量可以为20。
需要说明的是,本文所述的根据预定数量对中间文本进行截断处理,当原始文本的文字数大于预定数量的截断处理,即保留原始文本的前预定数量个文本,而将多余的删除。
这样经过处理,即可以得到仅包含纯文本且文字数小于或等于所述预定数量的所述文本。
步骤S11:基于已知类型文本的预定的第一字数组合向量库,获取所述文本的各个第一字数组合的第一字数组合向量,其中,所述第一字数为所述已知类型文本的第一概率的成词字数,且各所述第一字数组合向量的维度数量相同。
得到文本后,再进一步获取文本的各个第一字数组合向量。
可以理解的是,第一概率即为最大概率,第一字数即为已知类型文本的最大概率的成词字数,具体可以根据对已知类型文本进行分词,然后通过统计获取,同时获取第一字数和最大概率。
在一种具体实施方式中,请参考图3,图3为本发明实施例所提供的语言类型判别方法的获取第一字数组合向量步骤的一流程示意图。
如图中所示,为了获取第一字数组合向量,可以通过以下步骤:
步骤S110:利用第一滑窗获取所述文本的各组第一字数组合。
首先根据第一字数,确定第一滑窗,然后利用第一滑窗获取所述文本的各组第一字数组合。
可以理解的是,当已知类型文本为文言文时,第一滑窗所取得的各组第一字数组合为单字,第一概率可以为0.7、0.8等。
在另一种具体实施方式中,当第一字数不是单字时,为了提高运算量,提高运算速度,可以利用所述第一滑窗获取所述文本的各组无复用字第一字数组合,并舍弃文本最后少于所述第一字数的文字,得到各组所述第一字数组合。
步骤S111:基于各组所述第一字数组合在所述第一字数组合向量库中查找,得到对应的各第一字数组合向量。
得到各组第一字数组合后,进一步基于各组第一字数组合在预先形成的第一字数组合向量库中查找对应的向量,得到各个第一字数组合的第一组合向量。
可以理解的是,第一字数组合向量库是基于已知类型文本的语料训练得到的,具体地,请参考图4,图4为本发明实施例所提供的语言类型判别方法的获取第一字数组合向量库步骤的一流程示意图。
如图中所示,获取第一字数组合向量库可以通过以下步骤:
S40、获取所述已知类型文本的文本集。
为了获取第一字数组合向量库,首先获取已知类型文本的文本集。
在一种具体实施方式中,当已知类型文本为文言文时,所述文本集可以是先秦、秦汉至六朝时期成书的属于上古汉语作品,比如:《诗经》、《尚书》、《礼记》、《易经》、《春秋》、《大学》、《中庸》、《论语》、《孟子》、《老子》、《庄子》、《列子》、《韩非子》、《墨子》、《孙子兵法》、《吕氏春秋》、《管子》、《史记》、《汉书》、《后汉书》、《三国志》、《战国策》、《淮南子》、《世说新语》等。
S41、利用所述第一滑窗获取所述文本集的各组文本集第一字数组合。
利用第一滑窗,按照第一字数,对文本集进行切分,得到各组文本集第一字数组合。
S42、利用组合向量获取模型获取各组所述文本集第一字数组合的第一字数组合向量,得到所述第一字数组合向量库。
可以理解的是,组合向量获取模型为预先构建好的模型。
得到各组文本集第一字数组合,利用组合向量获取模型,获取各组文本集第一字数组合的第一字数组合向量库。
在一种具体实施方式中,为了方便查找,可以为第一字数组合向量库中的各个第一字数组合向量和各个第一字数组合进行编号,并形成编号表。
当第一字数组合向量库中的各个第一字数组合和第一字数组合向量均存在编号时,获取所述文本的各个第一字数组合的第一字数组合向量,可以通过以下步骤:首先基于各组所述第一字数组合在所述第一字数组合向量库中查找各个所述第一字数组合所对应的各个编号;然后,根据各所述编号确定分别与各组所述第一字数组合对应的各所述第一字数组合向量。
步骤S12:融合各所述第一字数组合向量,得到所述文本的第一字数文本向量,所述第一字数文本向量的各个维度值分别为各所述第一字数组合向量同一纬度的维度值的融合值。
得到各所述第一字数组合向量后,进一步对各个第一字数组合向量进行融合,得到第一字数文本向量。
当各个第一字数组合向量为行向量时,各个第一字数组合向量按照列进行排列,即可以得到第一字数组合矩阵,所述第一字数文本向量的各个维度值即为第一字数组合矩阵的各列融合后的值。
第一字数文本向量,融合了各个第一字数组合向量同一维度的值,使得第一字数文本向量能够成为所述文本的向量化表示。
在一种具体实施方式中,所述第一字数文本向量可以为第一字数中位数文本向量,即第一字数文本向量的各个维度值分别为各所述第一字数组合向量同一纬度的维度值的中位数值,这样,将各个中位数可以避免极值对于融合后的值的影响,提高数据的准确性。
在另一种具体实施方式中,第一字数文本向量还可以是第一字数平均数文本向量,即第一字数文本向量的各个维度值分别为各所述第一字数组合向量同一纬度的维度值的平均数值;当然,第一字数文本向量也可以是各个文本或第一字数加权平均数文本向量,即第一字数文本向量的各个维度值分别为各所述第一字数组合向量同一纬度的维度值的加权平均数值,根据不同文字在文本中的重要性确定权重。
具体地,所述第一字数中位数文本向量通过以下公式获取,其中第一字数组合向量为1×D维的向量,第一字数组合矩阵为N×D维的矩阵:
其中:M1--第一字数中位数文本向量;
为方便理解,现举例如下:
假设M1对应的文本“自远方”,维度N=3,D=5。
那么可以看到:
所以M1=(0.2 0.3 0.6 0.7 0.8),即文本“自远方”的第一字数中位数文本向量。
步骤S13:至少根据所述第一字数文本向量获取融合文本向量。
当仅获取了第一字数文本向量时,融合文本向量即为第一字数文本向量。
步骤S14:根据所述融合文本向量获取语言类型判别向量,并根据所述语言类别判别向量,获取所述文本的类型为所述已知类型文本的类型的概率。
得到融合文本向量后,进一步获取语言类型判别向量,提取出融合文本向量中用于语言类型判别的特征。
具体地,可以使用训练完成的FastText模型实现语言类型判别向量的获取,具体包括:首先融合文本向量中以0.5概率使用dropout随机丢弃得到第一中间向量,然后使用Relu对第一中间向量进行激活得到第二中间向量,再将第二中间向量代入2层线性神经网络得到语言类型判别向量。
在一种具体实施方式中,所述语言类型判别向量为二维向量。
当已知类型文本为文言文时,且待语言类型判别的文本全部为文言文时,所得到的语言类型判别向量S为[1,0],而如果待语言类型判别的文本全部为非文言文时S为[0,1]。
得到语言类型判别向量后,根据所述语言类别判别向量,获取所述文本的类型即为所述已知类型文本的类型的概率。
具体地,概率可以通过以下公式获取:
其中:f--所述文本的类型为所述已知类型文本的类型的概率;
e--自然对数;
S1--所述语言类型判别向量的第一维的纬度值;
S2--所述语言类型判别向量的第二维的纬度值。
利用上述公式,可以方便简洁地获取所述概率,并保证所得到概率的准确性。
这样,本发明实施例所提供的语言类型判别方法,通过将待语言类型判别的文本按照已知类型文本的第一概率的成词字数进行拆分,并根据拆分后的第一字数组合与已知类型文本的第一字数组合的对应关系获取第一字数组合向量,使得各个第一字数组合向量与已知类型文本之间构建有直接的关联关系,从而使得对其进行融合所形成的第一字数文本向量与已知类型文本之间也构建起相互关联关系,并通过至少对第一字数文本向量的融合进一步获取更多的特征,经过语言类型判别向量的获取,可以将待语言类型判别的文本的类型与已知类型文本的类型相关联性和不关联性提取出来,再进一步基于语言类型判别向量,获取所述文本的类型为所述已知类型文本的类型的概率,可以简单方便地实现对于所述文本的类型是否与所述已知类型文本的类型相同的判别,并且在判别过程中,充分利用了已知类型文本的第一概率的成词字数、已知类型文本的预定的第一字数组合向量库,同时还将各所述第一字数组合向量进行了融合,可以提高文本的语言类型判别的准确性。
当然,为了直接得到待语言类型判别的文本的类型是否是已知类型文本的类型,请继续参考图1,在一种具体实施方式中,本发明实施例所提供的语言类型判别方法,还可以包括:
步骤S15:判断所述概率是否大于概率阈值,若是,则执行步骤S16;若否,则执行步骤S17。
可以理解的是,概率阈值可以根据需要进行设定,当所得到的概率大于概率阈值时,则说明待语言类型判别的文本的类型是所述已知类型文本的类型,执行步骤S16,否则,则不是,执行步骤S17。
步骤S16:判定所述待语言类型判别的文本的类型为所述已知类型文本的类型。
步骤S17:判定所述待语言类型判别的文本的类型不是所述已知类型文本的类型。
这样,本发明实施例所提供的语言类型判别方法,可以直接确定待语言类型判别的文本的类型是否为已知类型文本的类型。
为了进一步提高本发明实施例所提供的语言类型判别方法的语言类型判别准确性,本发明实施例还提供另一种语言类型判别方法,请参考图5,图5是本发明实施例所提供的语言类型判别方法的另一流程示意图。
如图中所示,本发明实施例所提供的语言类型判别方法包括:
步骤S20:获取待语言类型判别的文本。
步骤S20的具体内容请参考图1所示的步骤S10的描述,在此不再赘述。
步骤S21:基于已知类型文本的预定的第一字数组合向量库,获取所述文本的各个第一字数组合的第一字数组合向量,其中,所述第一字数为所述已知类型文本的第一概率的成词字数,且各所述第一字数组合向量的维度数量相同。
步骤S21的具体内容请参考图1所示的步骤S11的描述,在此不再赘述。
步骤S22:融合各所述第一字数组合向量,得到所述文本的第一字数文本向量,所述第一字数文本向量的各个维度值分别为各所述第一字数组合向量同一纬度的维度值的融合值。
步骤S22的具体内容请参考图1所示的步骤S12的描述,在此不再赘述。
步骤S23:基于所述已知类型文本的预定的第二字数组合向量库获取所述文本的各组第二字数组合的第二字数组合向量,其中,所述第二字数为所述已知类型文本的第二概率的成词字数,各所述第二字数组合向量的维度数量与所述第一字数组合向量的维度数量相同。
得到文本后,除了获取文本的各个第一字数组合向量,还需要获取文本的各个第二字数组合向量。可以理解的是,第一字数组合向量和第二字数组合向量的获取顺序不做限制,二者既可以同时获取,也可以先获取其中的一者,再获取另一者。
可以理解的是,第二概率即为第二大概率,第二字数即为已知类型文本的第二大概率的成词字数,与第一字数和第一概率的获取方法相同,也可以根据对已知类型文本进行分词,然后通过统计获取,第二字数和第二大概率可同时获取。
当已知类型文本为文言文时,第二字数为双字,第二大概率可以为0.15、0.1等。
在一种具体实施方式中,类似于第一字数组合向量的获取,第二字数组合向量也可以通过以下步骤获取:
首先,利用第二滑窗获取所述文本的各组第二字数组合;
然后,基于各组所述第二字数组合在所述第二字数组合向量库中查找,得到对应的各第二字数组合向量。
先根据统计得到的第二字数,确定第二滑窗,然后利用第二滑窗获取所述文本的各组第二字数组合。
可以理解的是,当已知类型文本为文言文时,第二滑窗所取得的各组第二字数组合为双字。
当然,为了减小运算量,提高运算速度,也可以利用所述第二滑窗获取所述文本的各组无复用字第二字数组合,并舍弃文本最后少于所述第二字数的文字,得到各组所述第二字数组合。
得到各组第二字数组合后,进一步基于各组第二字数组合在预先形成的第二字数组合向量库中查找对应的向量,得到各个第二字数组合的第二组合向量。
可以理解的是,第二字数组合向量库也是基于已知类型文本的语料训练得到的,具体可以通过以下步骤:
首先,获取所述已知类型文本的文本集;然后,利用所述第二滑窗获取所述文本集的各组文本集第二字数组合;最后,再利用第二组合向量获取模型获取各组所述文本集第二字数组合的第二字数组合向量,得到所述第二字数组合向量库。
当已知类型文本为文言文时,所述文本集与获取第一字数组合向量的文本集相同,即先秦、秦汉至六朝时期成书的属于上古汉语作品。
可以理解的是,第二组合向量获取模型为预先构建好的模型。
得到各组文本集第二字数组合,利用第二组合向量获取模型,获取各组文本集第二字数组合的第二字数组合向量库。
为了方便查找,也可以为第二字数组合向量库中的各个第二字数组合向量和各个第二字数组合进行编号,并形成编号表。
当第二字数组合向量库中的各个第二字数组合和第二字数组合向量均存在编号时,获取所述文本的各个第二字数组合的第二字数组合向量,可以通过以下步骤:首先基于各组所述第二字数组合在所述第二字数组合向量库中查找各个所述第二字数组合所对应的各个编号;然后,根据各所述编号确定分别与各组所述第二字数组合对应的各所述第二字数组合向量,从而可以提高获取速度。
S24、根据各所述第二字数组合向量获取所述文本的第二字数文本向量,其中,所述第二字数文本向量的各个维度值分别为各所述第二字数组合向量同一纬度的维度值的融合值。
得到各所述第二字数组合向量后,进一步对各个第二字数组合向量进行融合,得到第二字数文本向量。
当然,当各个第二字数组合向量为行向量时,各个第二字数组合向量按照列进行排列,即可以得到第二字数组合矩阵,所述第二字数文本向量的各个维度值即为第二字数组合矩阵的各列融合后的值。
第二字数文本向量,融合了各个第二字数组合向量同一维度的值,使得第二字数文本向量成为所述文本的向量化表示。
与第一数字文本向量相同,所述第二字数文本向量可以为第二字数中位数文本向量,即第二字数文本向量的各个维度值分别为各所述第二字数组合向量同一纬度的维度值的中位数值,这样,将各个中位数可以避免极值对于融合后的值的影响,提高数据的准确性。
在另一种具体实施方式中,第二字数文本向量还可以是第二字数平均数文本向量,即第二字数文本向量的各个维度值分别为各所述第二字数组合向量同一纬度的维度值的平均数值;当然,第二字数文本向量也可以是各个文本或第二字数加权平均数文本向量,即第二字数文本向量的各个维度值分别为各所述第二字数组合向量同一纬度的维度值的加权平均数值,根据不同文字在文本中的重要性确定权重。
具体地,所述第二字数中位数文本向量的获取公式与第一字数中位数文本向量相同,在此不再赘述。
步骤S25:根据所述第一字数文本向量和所述第二字数文本向量获取所述融合文本向量。
具体地,根据所述第一字数文本向量和所述第二字数文本向量获取所述融合文本向量的公式可以如下:
P=p1O1+(1-p1)O2
其中:P--融合文本向量;
p1--第一概率;
O1--第一字数文本向量;
O2--第二字数文本向量。
步骤S26:根据所述融合文本向量获取语言类型判别向量,并根据所述语言类别判别向量,获取所述文本的类型为所述已知类型文本的类型的概率。
步骤S26的具体内容请参考图1所示的步骤S14的描述,在此不再赘述。
这样,在进行文本的语言类型判别获取融合文本向量时,不仅基于已知类型文本的第一概率的成词字数的第一字数组合向量,还结合了第二概率的成词字数的第二字数组合向量,从而使得融合文本向量中包含了更多地用于判别文本的类型是否为所述已知类型文本的类型的特征,可以进一步提高本发明实施例所提供的语言类型判别方法的准确性。
为了进一步提高本发明实施例所提供的语言类型判别方法的语言类型判别准确性,本发明实施例还提供另一种语言类型判别方法,请参考图6,图6是本发明实施例所提供的语言类型判别方法的另一流程示意图。
如图中所示,本发明实施例所提供的语言类型判别方法包括:
步骤S30:获取待语言类型判别的文本。
步骤S30的具体内容请参考图1所示的步骤S10的描述,在此不再赘述。
步骤S31:基于已知类型文本的预定的第一字数组合向量库,获取所述文本的各个第一字数组合的第一字数组合向量,其中,所述第一字数为所述已知类型文本的第一概率的成词字数,且各所述第一字数组合向量的维度数量相同。
步骤S31的具体内容请参考图1所示的步骤S11的描述,在此不再赘述。
步骤S32:融合各所述第一字数组合向量,得到所述文本的第一字数文本向量,所述第一字数文本向量的各个维度值分别为各所述第一字数组合向量同一纬度的维度值的融合值。
步骤S32的具体内容请参考图1所示的步骤S12的描述,在此不再赘述。
步骤S33:基于所述已知类型文本的预定的第二字数组合向量库获取所述文本的各组第二字数组合的第二字数组合向量,其中,所述第二字数为所述已知类型文本的第二概率的成词字数,各所述第二字数组合向量的维度数量与所述第一字数组合向量的维度数量相同。
步骤S33的具体内容请参考图5所示的步骤S23的描述,在此不再赘述。
S34、根据各所述第二字数组合向量获取所述文本的第二字数文本向量,其中,所述第二字数文本向量的各个维度值分别为各所述第二字数组合向量同一纬度的维度值的融合值。
步骤S34的具体内容请参考图5所示的步骤S24的描述,在此不再赘述。
步骤S35:基于所述已知类型文本的预定的第三字数组合向量库获取所述文本的各组第三字数组合的第三字数组合向量,其中,所述第三字数为所述已知类型文本第三概率的成词字数,各所述第三字数组合向量的维度数量与所述第一字数组合向量的维度数量相同。
得到文本后,除了获取文本的各个第一字数组合向量、各个第二字数组合向量,还需要获取文本的各个第三字数组合向量。可以理解的是,第一字数组合向量、第二字数组合向量和第三字数组合向量的获取顺序不做限制,既可以同时获取,也可以先获取其中的一者,再获取另一者。
可以理解的是,第三概率即为第三大概率,第三字数即为已知类型文本的第三大概率的成词字数,与第一字数和第一概率的获取相同,也可以根据对已知类型文本进行分词,然后通过统计获取,第三字数和第三大概率可同时获取。
当已知类型文本为文言文时,第三字数为三字,第三大概率可以为0.05、0.02等。
在一种具体实施方式中,类似于第一字数组合向量的获取,第三字数组合向量也可以通过以下步骤获取:
首先,利用第三滑窗获取所述文本的各组第三字数组合;
然后,基于各组所述第三字数组合在所述第三字数组合向量库中查找,得到对应的各第三字数组合向量。
先根据统计得到的第三字数,确定第三滑窗,然后利用第三滑窗获取所述文本的各组第三字数组合。
当然,为了减小运算量,提高运算速度,也可以利用所述第三滑窗获取所述文本的各组无复用字第三字数组合,并舍弃文本最后少于所述第三字数的文字,得到各组所述第三字数组合。
得到各组第三字数组合后,进一步基于各组第三字数组合在预先形成的第三字数组合向量库中查找对应的向量,得到各个第三字数组合的第三组合向量。
可以理解的是,第三字数组合向量库也是基于已知类型文本的语料训练得到的,具体可以通过以下步骤:
首先,获取所述已知类型文本的文本集;然后,利用所述第三滑窗获取所述文本集的各组文本集第三字数组合;最后,再利用第三组合向量获取模型获取各组所述文本集第三字数组合的第三字数组合向量,得到所述第三字数组合向量库。
当已知类型文本为文言文时,所述文本集与获取第一字数组合向量的文本集相同,即先秦、秦汉至六朝时期成书的属于上古汉语作品。
得到各组文本集第三字数组合,利用第三组合向量获取模型,获取各组文本集第三字数组合的第三字数组合向量库。
为了方便查找,也可以为第三字数组合向量库中的各个第三字数组合向量和各个第三字数组合进行编号,并形成编号表。
当第三字数组合向量库中的各个第三字数组合和第三字数组合向量均存在编号时,获取所述文本的各个第三字数组合的第三字数组合向量,可以通过以下步骤:首先基于各组所述第三字数组合在所述第三字数组合向量库中查找各个所述第三字数组合所对应的各个编号;然后,根据各所述编号确定分别与各组所述第三字数组合对应的各所述第三字数组合向量,从而可以提高获取速度。
S36、根据各所述第三字数组合向量获取所述文本的第三字数文本向量,其中,所述第三字数文本向量的各个维度值分别为各所述第三字数组合向量同一纬度的维度值的融合值。
得到各所述第三字数组合向量后,进一步对各个第三字数组合向量进行融合,得到第三字数文本向量。
当然,当各个第三字数组合向量为行向量时,各个第三字数组合向量按照列进行排列,即可以得到第三字数组合矩阵,所述第三字数文本向量的各个维度值即为第三字数组合矩阵的各列融合后的值。
第三字数文本向量,融合了各个第三字数组合向量同一维度的值,使得第三字数文本向量成为所述文本的向量化表示。
与第一数字文本向量相同,所述第三字数文本向量可以为第三字数中位数文本向量,即第三字数文本向量的各个维度值分别为各所述第三字数组合向量同一纬度的维度值的中位数值,这样,将各个中位数可以避免极值对于融合后的值的影响,提高数据的准确性。
在另一种具体实施方式中,第三字数文本向量还可以是第三字数平均数文本向量,即第三字数文本向量的各个维度值分别为各所述第三字数组合向量同一纬度的维度值的平均数值;当然,第三字数文本向量也可以是各个文本或第三字数加权平均数文本向量,即第三字数文本向量的各个维度值分别为各所述第三字数组合向量同一纬度的维度值的加权平均数值,根据不同文字在文本中的重要性确定权重。
具体地,所述第三字数中位数文本向量的获取公式与第一字数中位数文本向量相同,在此不再赘述。
步骤S37:根据所述第一字数文本向量、所述第二字数文本向量和所述第三字数文本向量获取所述融合文本向量。
根据所述第一字数文本向量、所述第二字数文本向量和所述第三字数文本向量获取所述融合文本向量的公式如下:
P=p1O1+p2O2+(1-p1-p2)O3
其中:P--融合文本向量;
p1--第一概率;
p2--第一概率
O1--第一字数文本向量;
O2--第二字数文本向量;
O3--第三字数文本向量。
步骤S38:根据所述融合文本向量获取语言类型判别向量,并根据所述语言类别判别向量,获取所述文本的类型为所述已知类型文本的类型的概率。
步骤S38的具体内容请参考图1所示的步骤S14的描述,在此不再赘述。
这样,在进行文本的语言类型判别获取融合文本向量时,不仅基于已知类型文本的第一概率的成词字数的第一字数组合向量、第二概率的成词字数的第二字数组合向量,还结合了第三概率的成词字数的第三字数组合向量,从而使得融合文本向量中包含了更多地用于判别文本的类型是否为所述已知类型文本的类型的特征,可以进一步提高本发明实施例所提供的语言类型判别方法的准确性。
下面对本发明实施例提供的语言类型判别装置进行介绍,下文描述的语言类型判别装置可以认为是,电子设备(如:PC)为分别实现本发明实施例提供的语言类型判别方法所需设置的功能模块架构。下文描述的语言类型判别装置的内容,可分别与上文描述的语言类型判别方法的内容相互对应参照。
图7是本发明实施例所提供的语言类型判别装置的一框图,该语言类型判别装置即可应用于客户端,也可应用于服务器端,参考图6,该语言类型判别装置可以包括:
文本获取单元100,适于获取待语言类型判别的文本;
第一字数组合向量获取单元110,适于基于已知类型文本的预定的第一字数组合向量库,获取所述文本的各个第一字数组合的第一字数组合向量,其中,所述第一字数为所述已知类型文本的第一概率的成词字数,且各所述第一字数组合向量的维度数量相同;
第一字数文本向量获取单元120,适于融合各所述第一字数组合向量,得到所述文本的第一字数文本向量,其中,所述第一字数文本向量的各个维度值分别为各所述第一字数组合向量同一纬度的维度值的融合值;
融合文本向量获取单元130,适于至少根据所述第一字数文本向量获取融合文本向量;
概率获取单元140,适于根据所述融合文本向量获取语言类型判别向量,并根据所述语言类别判别向量,获取所述文本的类型为所述已知类型文本的类型的概率。
为了实现对于待语言类型判别的文本的语言类型判别,首先文本获取单元100获取待语言类型判别的文本。
当然,为了保证所得到的文本满足语言类型判别的要求,可以通过以下步骤获取带语言类型判别的文本:
首先获取待语言类型判别的原始文本,即未经过加工处理的文本,然后,用空格替换所述原始文本的标点符号,得到中间文本,降低文本向量化的难度,最后,根据所述预定数量对所述中间文本进行截断处理,得到仅包含纯文本且文字数小于或等于所述预定数量的所述文本。
由于原始文本的文字数量是不确定的,而后续处理所需要的数据需为固定维数的,因此,为了保证经过后续处理后得到的对应于不同的原始文本的第一数字组合向量的个数相同(为方便描述,可以将各个第一数字组合向量按不同的行进行排列得到的矩阵,称为第一字数组合矩阵),即对应于不同的原始文本的各个第一字数组合矩阵的行数相同;当然,如果获取第二数字组合向量时,对应于不同的原始文本的各个第二字数组合矩阵的行数相同,如果获取第三数字组合向量时,对应于不同的原始文本的各个第三字数组合矩阵的行数相同,可以将中间文本按照预定数量进行截断处理。
具体地,所述预定数量可以为已知类型文本的一句话的平均长度的1.2-1.3倍,当已知类型文本为文言文时,预定数量可以为20。
需要说明的是,本文所述的根据预定数量对中间文本进行截断处理,当原始文本的文字数大于预定数量的截断处理,即保留原始文本的前预定数量个文本,而将多余的删除。
这样经过处理,即可以得到仅包含纯文本且文字数小于或等于所述预定数量的所述文本。
得到文本后,第一字数组合向量获取单元110再基于已知类型文本的预定的第一字数组合向量库,获取所述文本的各个第一字数组合的第一字数组合向量,其中,所述第一字数为所述已知类型文本的第一概率的成词字数,且各所述第一字数组合向量的维度数量相同。
可以理解的是,第一概率即为最大概率,第一字数即为已知类型文本的最大概率的成词字数,具体可以根据对已知类型文本进行分词,然后通过统计获取,同时获取第一字数和最大概率。
可以通过以下步骤获取第一字数组合向量:
首先根据第一字数,确定第一滑窗,然后利用第一滑窗获取所述文本的各组第一字数组合。
可以理解的是,当已知类型文本为文言文时,第一滑窗所取得的各组第一字数组合为单字。
在另一种具体实施方式中,当第一字数不是单字时,为了运算量,提高运算速度,可以利用所述第一滑窗获取所述文本的各组无复用字第一字数组合,并舍弃文本最后少于所述第一字数的文字,得到各组所述第一字数组合。
然后,进一步基于各组第一字数组合在预先形成的第一字数组合向量库中查找对应的向量,得到各个第一字数组合的第一组合向量。
可以理解的是,第一字数组合向量库是基于已知类型文本的语料训练得到的,为了获取第一字数组合向量库,首先获取已知类型文本的文本集。
在一种具体实施方式中,当已知类型文本为文言文时,所述文本集可以是先秦、秦汉至六朝时期成书的属于上古汉语作品,比如:《诗经》、《尚书》、《礼记》、《易经》、《春秋》、《大学》、《中庸》、《论语》、《孟子》、《老子》、《庄子》、《列子》、《韩非子》、《墨子》、《孙子兵法》、《吕氏春秋》、《管子》、《史记》、《汉书》、《后汉书》、《三国志》、《战国策》、《淮南子》、《世说新语》等。
然后,利用第一滑窗,按照第一字数,对文本集进行切分,得到各组文本集第一字数组合。
最后,利用组合向量获取模型获取各组所述文本集第一字数组合的第一字数组合向量,得到所述第一字数组合向量库。
可以理解的是,组合向量获取模型为预先构建好的模型。
得到各组文本集第一字数组合,利用组合向量获取模型,获取各组文本集第一字数组合的第一字数组合向量库。
在一种具体实施方式中,为了方便查找,可以为第一字数组合向量库中的各个第一字数组合向量和各个第一字数组合进行编号,并形成编号表。
当第一字数组合向量库中的各个第一字数组合和第一字数组合向量均存在编号时,获取所述文本的各个第一字数组合的第一字数组合向量,可以通过以下步骤:首先基于各组所述第一字数组合在所述第一字数组合向量库中查找各个所述第一字数组合所对应的各个编号;然后,根据各所述编号确定分别与各组所述第一字数组合对应的各所述第一字数组合向量。
得到各所述第一字数组合向量后,第一字数文本向量获取单元120进一步对各个第一字数组合向量进行融合,得到第一字数文本向量,第一字数文本向量的各个维度值分别为各所述第一字数组合向量同一纬度的维度值的融合值。
当各个第一字数组合向量为行向量时,各个第一字数组合向量按照列进行排列,即可以得到第一字数组合矩阵,所述第一字数文本向量的各个维度值即为第一字数组合矩阵的各列融合后的值。
第一字数文本向量,融合了各个第一字数组合向量同一维度的值,使得第一字数文本向量能够成为所述文本的向量化表示。
在一种具体实施方式中,所述第一字数文本向量可以为第一字数中位数文本向量,即第一字数文本向量的各个维度值分别为各所述第一字数组合向量同一纬度的维度值的中位数值,这样,将各个中位数可以避免极值对于融合后的值的影响,提高数据的准确性。
在另一种具体实施方式中,第一字数文本向量还可以是第一字数平均数文本向量,即第一字数文本向量的各个维度值分别为各所述第一字数组合向量同一纬度的维度值的平均数值;当然,第一字数文本向量也可以是各个文本或第一字数加权平均数文本向量,即第一字数文本向量的各个维度值分别为各所述第一字数组合向量同一纬度的维度值的加权平均数值,根据不同文字在文本中的重要性确定权重。
具体地,所述第一字数中位数文本向量通过以下公式获取,其中第一字数组合向量为1×D维的向量,第一字数组合矩阵为N×D维的矩阵:
其中:M1--第一字数中位数文本向量;
然后,融合文本向量获取单元130,再至少根据所述第一字数文本向量获取融合文本向量,容易理解的是,当仅获取了第一字数文本向量时,融合文本向量即为第一字数文本向量。
概率获取单元140进一步根据所述融合文本向量获取语言类型判别向量,并根据所述语言类别判别向量,获取所述文本的类型为所述已知类型文本的类型的概率。
得到融合文本向量后,获取语言类型判别向量,提取出融合文本向量中用于语言类型判别的特征。
具体地,可以使用训练完成的FastText模型实现语言类型判别向量的获取,具体包括:首先融合文本向量中以0.5概率使用dropout随机丢弃得到第一中间向量,然后使用使用Relu对第一中间向量进行激活得到第二中间向量,再将第二中间向量代入2层线性神经网络得到语言类型判别向量。
在一种具体实施方式中,所述语言类型判别向量为二维向量。
当已知类型文本为文言文时,且待语言类型判别的文本全部为文言文时,所得到的语言类型判别向量S为[1,0],而如果待语言类型判别的文本全部为非文言文时S为[0,1]。
得到语言类型判别向量后,根据所述语言类别判别向量,获取所述文本的类型即为所述已知类型文本的类型的概率。
具体地,概率可以通过以下公式获取:
其中:f--所述文本的类型为所述已知类型文本的类型的概率;
e--自然对数;
S1--所述语言类型判别向量的第一维的纬度值;
S2--所述语言类型判别向量的第二维的纬度值。
利用上述公式,可以方便简洁地获取所述概率,并保证所得到概率的准确性。
这样,本发明实施例所提供的语言类型判别装置,通过将待语言类型判别的文本按照已知类型文本的第一概率的成词字数进行拆分,并根据拆分后的第一字数组合与已知类型文本的第一字数组合的对应关系获取第一字数组合向量,使得各个第一字数组合向量与已知类型文本之间构建有直接的关联关系,从而使得对其进行融合所形成的第一字数文本向量与已知类型文本之间也构建起相互关联关系,并通过至少对第一字数文本向量的融合进一步获取更多的特征,经过语言类型判别向量的获取,可以将待语言类型判别的文本的类型与已知类型文本的类型相关联性和不关联性提取出来,再进一步基于语言类型判别向量,获取所述文本的类型为所述已知类型文本的类型的概率,可以简单方便地实现对于所述文本的类型是否与所述已知类型文本的类型相同的判别,并且在判别过程中,充分利用了已知类型文本的第一概率的成词字数、已知类型文本的预定的第一字数组合向量库,同时还将各所述第一字数组合向量进行了融合,可以提高文本的语言类型判别的准确性。
为了进一步提高本发明实施例所提供的语言类型判别装置的语言类型判别准确性,本发明实施例还提供另一种语言类型判别装置,还包括:
第二字数组合向量获取单元210,适于基于所述已知类型文本的预定的第二字数组合向量库获取所述文本的各组第二字数组合的第二字数组合向量,其中,所述第二字数为所述已知类型文本的第二概率的成词字数,各所述第二字数组合向量的维度数量与所述第一字数组合向量的维度数量相同;
第二字数文本向量获取单元220,适于根据各所述第二字数组合向量获取所述文本的第二字数文本向量,其中,所述第二字数文本向量的各个维度值分别为各所述第二字数组合向量同一纬度的维度值的融合值;
融合文本向量获取单元130,适于至少根据所述第一字数文本向量获取融合文本向量包括:根据所述第一字数文本向量和所述第二字数文本向量获取所述融合文本向量。
得到文本后,第二字数组合向量获取单元210还获取文本的各个第二字数组合向量。
可以理解的是,第二概率即为第二大概率,第二字数即为已知类型文本的第二大概率的成词字数,与第一字数和第一概率的获取方法相同,也可以根据对已知类型文本进行分词,然后通过统计获取,第二字数和第二大概率可同时获取。
在一种具体实施方式中,类似于第一字数组合向量的获取,第二字数组合向量也可以通过以下步骤获取:
首先,利用第二滑窗获取所述文本的各组第二字数组合;
然后,基于各组所述第二字数组合在所述第二字数组合向量库中查找,得到对应的各第二字数组合向量。
先根据统计得到的第二字数,确定第二滑窗,然后利用第二滑窗获取所述文本的各组第二字数组合。
可以理解的是,当已知类型文本为文言文时,第二滑窗所取得的各组第二字数组合为双字。
当然,为了减小运算量,提高运算速度,也可以利用所述第二滑窗获取所述文本的各组无复用字第二字数组合,并舍弃文本最后少于所述第二字数的文字,得到各组所述第二字数组合。
得到各组第二字数组合后,进一步基于各组第二字数组合在预先形成的第二字数组合向量库中查找对应的向量,得到各个第二字数组合的第二组合向量。
可以理解的是,第二字数组合向量库也是基于已知类型文本的语料训练得到的,具体可以通过以下步骤:
首先,获取所述已知类型文本的文本集;然后,利用所述第二滑窗获取所述文本集的各组文本集第二字数组合;最后,再利用第二组合向量获取模型获取各组所述文本集第二字数组合的第二字数组合向量,得到所述第二字数组合向量库。
当已知类型文本为文言文时,所述文本集与获取第一字数组合向量的文本集相同,即先秦、秦汉至六朝时期成书的属于上古汉语作品。
为了方便查找,也可以为第二字数组合向量库中的各个第二字数组合向量和各个第二字数组合进行编号,并形成编号表。
当第二字数组合向量库中的各个第二字数组合和第二字数组合向量均存在编号时,获取所述文本的各个第二字数组合的第二字数组合向量,可以通过以下步骤:首先基于各组所述第二字数组合在所述第二字数组合向量库中查找各个所述第二字数组合所对应的各个编号;然后,根据各所述编号确定分别与各组所述第二字数组合对应的各所述第二字数组合向量,从而可以提高获取速度。
得到各所述第二字数组合向量后,第二字数文本向量获取单元220进一步对各个第二字数组合向量进行融合,得到第二字数文本向量。
当然,当各个第二字数组合向量为行向量时,各个第二字数组合向量按照列进行排列,即可以得到第二字数组合矩阵,所述第二字数文本向量的各个维度值即为第二字数组合矩阵的各列融合后的值。
第二字数文本向量,融合了各个第二字数组合向量同一维度的值,使得第二字数文本向量成为所述文本的向量化表示。
与第一数字文本向量相同,所述第二字数文本向量可以为第二字数中位数文本向量,即第二字数文本向量的各个维度值分别为各所述第二字数组合向量同一纬度的维度值的中位数值,这样,将各个中位数可以避免极值对于融合后的值的影响,提高数据的准确性。
在另一种具体实施方式中,第二字数文本向量还可以是第二字数平均数文本向量,即第二字数文本向量的各个维度值分别为各所述第二字数组合向量同一纬度的维度值的平均数值;当然,第二字数文本向量也可以是各个文本或第二字数加权平均数文本向量,即第二字数文本向量的各个维度值分别为各所述第二字数组合向量同一纬度的维度值的加权平均数值,根据不同文字在文本中的重要性确定权重。
具体地,所述第二字数中位数文本向量的获取公式与第一字数中位数文本向量相同,在此不再赘述。
具体地,根据所述第一字数文本向量和所述第二字数文本向量获取所述融合文本向量的公式可以如下:
P=p1O1+(1-p1)O2
其中:P--融合文本向量;
p1--第一概率;
O1--第一字数文本向量;
O2--第二字数文本向量。
这样,语言类型判别装置,在进行文本的语言类型判别获取融合文本向量时,不仅基于已知类型文本的第一概率的成词字数的第一字数组合向量,还结合了第二概率的成词字数的第二字数组合向量,从而使得融合文本向量中包含了更多地用于判别文本的类型是否为所述已知类型文本的类型的特征,可以进一步提高本发明实施例所提供的语言类型判别方法的准确性。
为了进一步提高本发明实施例所提供的语言类型判别方法的语言类型判别准确性,本发明实施例还提供另一种语言类型判别装置,还包括:
第三字数组合向量获取单元310,适于基于所述已知类型文本的预定的第三字数组合向量库获取所述文本的各组第三字数组合的第三字数组合向量,其中,所述第三字数为所述已知类型文本第三概率的成词字数,各所述第三字数组合向量的维度数量与所述第一字数组合向量的维度数量相同;
第三字数文本向量获取单元320,根据各所述第三字数组合向量获取所述文本的第三字数文本向量,其中,所述第三字数文本向量的各个维度值分别为各所述第三字数组合向量同一纬度的维度值的融合值;
融合文本向量获取单元130,适于至少根据所述第一字数文本向量获取融合文本向量包括:根据所述第一字数文本向量、所述第二字数文本向量和所述第三字数文本向量获取所述融合文本向量。
可以理解的是,第三概率即为第三大概率,第三字数即为已知类型文本的第三大概率的成词字数,与第一字数和第一概率的获取相同,也可以根据对已知类型文本进行分词,然后通过统计获取,第三字数和第三大概率可同时获取。
当已知类型文本为文言文时,第三字数为三字,第三大概率可以为0.05、0.02等。
在一种具体实施方式中,类似于第一字数组合向量的获取,第三字数组合向量也可以通过以下步骤获取:
首先,利用第三滑窗获取所述文本的各组第三字数组合;
然后,基于各组所述第三字数组合在所述第三字数组合向量库中查找,得到对应的各第三字数组合向量。
先根据统计得到的第三字数,确定第三滑窗,然后利用第三滑窗获取所述文本的各组第三字数组合。
当然,为了减小运算量,提高运算速度,也可以利用所述第三滑窗获取所述文本的各组无复用字第三字数组合,并舍弃文本最后少于所述第三字数的文字,得到各组所述第三字数组合。
得到各组第三字数组合后,进一步基于各组第三字数组合在预先形成的第三字数组合向量库中查找对应的向量,得到各个第三字数组合的第三组合向量。
可以理解的是,第三字数组合向量库也是基于已知类型文本的语料训练得到的,具体可以通过以下步骤:
首先,获取所述已知类型文本的文本集;然后,利用所述第三滑窗获取所述文本集的各组文本集第三字数组合;最后,再利用第三组合向量获取模型获取各组所述文本集第三字数组合的第三字数组合向量,得到所述第三字数组合向量库。
当已知类型文本为文言文时,所述文本集与获取第一字数组合向量的文本集相同,即先秦、秦汉至六朝时期成书的属于上古汉语作品。
得到各组文本集第三字数组合,利用第三组合向量获取模型,获取各组文本集第三字数组合的第三字数组合向量库。
为了方便查找,也可以为第三字数组合向量库中的各个第三字数组合向量和各个第三字数组合进行编号,并形成编号表。
当第三字数组合向量库中的各个第三字数组合和第三字数组合向量均存在编号时,获取所述文本的各个第三字数组合的第三字数组合向量,可以通过以下步骤:首先基于各组所述第三字数组合在所述第三字数组合向量库中查找各个所述第三字数组合所对应的各个编号;然后,根据各所述编号确定分别与各组所述第三字数组合对应的各所述第三字数组合向量,从而可以提高获取速度。
得到各所述第三字数组合向量后,第三字数文本向量获取单元320根据各所述第三字数组合向量获取所述文本的第三字数文本向量,其中,所述第三字数文本向量的各个维度值分别为各所述第三字数组合向量同一纬度的维度值的融合值。
当然,当各个第三字数组合向量为行向量时,各个第三字数组合向量按照列进行排列,即可以得到第三字数组合矩阵,所述第三字数文本向量的各个维度值即为第三字数组合矩阵的各列融合后的值。
第三字数文本向量,融合了各个第三字数组合向量同一维度的值,使得第三字数文本向量成为所述文本的向量化表示。
与第一数字文本向量相同,所述第三字数文本向量可以为第三字数中位数文本向量,即第三字数文本向量的各个维度值分别为各所述第三字数组合向量同一纬度的维度值的中位数值,这样,将各个中位数可以避免极值对于融合后的值的影响,提高数据的准确性。
在另一种具体实施方式中,第三字数文本向量还可以是第三字数平均数文本向量,即第三字数文本向量的各个维度值分别为各所述第三字数组合向量同一纬度的维度值的平均数值;当然,第三字数文本向量也可以是各个文本或第三字数加权平均数文本向量,即第三字数文本向量的各个维度值分别为各所述第三字数组合向量同一纬度的维度值的加权平均数值,根据不同文字在文本中的重要性确定权重。
具体地,所述第三字数中位数文本向量的获取公式与第一字数中位数文本向量相同,在此不再赘述。
根据所述第一字数文本向量、所述第二字数文本向量和所述第三字数文本向量获取所述融合文本向量的公式如下:
P=p1O1+p2O2+(1-p1-p2)O3
其中:P--融合文本向量;
p1--第一概率;
p2--第一概率
O1--第一字数文本向量;
O2--第二字数文本向量;
O3--第三字数文本向量。
这样,语言类型判别装置,在进行文本的语言类型判别获取融合文本向量时,不仅基于已知类型文本的第一概率的成词字数的第一字数组合向量、第二概率的成词字数的第二字数组合向量,还结合了第三概率的成词字数的第三字数组合向量,从而使得融合文本向量中包含了更多地用于判别文本的类型是否为所述已知类型文本的类型的特征,可以进一步提高本发明实施例所提供的语言类型判别方法的准确性。
当然,本发明实施例还提供一种设备,本发明实施例提供的设备可以通过程序形式装载上述所述的程序模块架构,以实现本发明实施例提供的语言类型判别方法;该硬件设备可以应用于具体数据处理能力的电子设备,该电子设备可以为:例如终端设备或者服务器设备。
可选的,图8示出了本发明实施例提供的设备一种可选硬件设备架构,可以包括:至少一个存储器3和至少一个处理器1;所述存储器存储有程序,所述处理器调用所述程序,以执行前述的语言类型判别方法,另外,至少一个通信接口2和至少一个通信总线4;处理器1和存储器3可以位于同一电子设备,例如处理器1和存储器3可以位于服务器设备或者终端设备;处理器1和存储器3也可以位于不同的电子设备。
作为本发明实施例公开内容的一种可选实现,存储器3可以存储程序,处理器1可调用所述程序,以执行本发明上述实施例提供的语言类型判别方法。
本发明实施例中,电子设备可以是能够进行语言类型判别的平板电脑、笔记本电脑等设备。
在本发明实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;显然,图8所示的处理器1、通信接口2、存储器3和通信总线4的通信连接示意仅是可选的一种方式;
可选的,通信接口2可以为通信模块的接口,如GSM模块的接口;
处理器1可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
需要说明的是,上述的设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件(未示出);鉴于这些其他器件对于理解本发明实施例公开内容可能并不是必需,本发明实施例对此不进行逐一介绍。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,当该指令被处理器执行时可以实现如上所述语言类型判别方法。
本发明实施例所提供的存储介质所存储的计算机可执行指令,通过将待语言类型判别的文本按照已知类型文本的第一概率的成词字数进行拆分,并根据拆分后的第一字数组合与已知类型文本的第一字数组合的对应关系获取第一字数组合向量,使得各个第一字数组合向量与已知类型文本之间构建有直接的关联关系,从而使得对其进行融合所形成的第一字数文本向量与已知类型文本之间也构建起相互关联关系,并通过至少对第一字数文本向量的融合进一步获取更多的特征,经过语言类型判别向量的获取,可以将待语言类型判别的文本的类型与已知类型文本的类型相关联性和不关联性提取出来,再进一步基于语言类型判别向量,获取所述文本的类型为所述已知类型文本的类型的概率,可以简单方便地实现对于所述文本的类型是否与所述已知类型文本的类型相同的判别,并且在判别过程中,充分利用了已知类型文本的第一概率的成词字数、已知类型文本的预定的第一字数组合向量库,同时还将各所述第一字数组合向量进行了融合,可以提高文本的语言类型判别的准确性。
上述本发明的实施方式是本发明的元件和特征的组合。除非另外提及,否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实践。另外,本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中,并且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是,所附权利要求中彼此没有明确引用关系的权利要求可组合成本发明的实施方式,或者可在提交本申请之后的修改中作为新的权利要求包括。
本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中,根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等来实现。
在固件或软件配置方式中,本发明的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部,并可经由各种己知手段向处理器发送数据以及从处理器接收数据。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。
虽然本发明实施例披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种变动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (20)
1.一种语言类型判别方法,其特征在于,包括:
获取待语言类型判别的文本;
基于已知类型文本的预定的第一字数组合向量库,获取所述文本的各个第一字数组合的第一字数组合向量,其中,所述第一字数为所述已知类型文本的第一概率的成词字数,且各所述第一字数组合向量的维度数量相同;
融合各所述第一字数组合向量,得到所述文本的第一字数文本向量,其中,所述第一字数文本向量的各个维度值分别为各所述第一字数组合向量同一纬度的维度值的融合值;
至少根据所述第一字数文本向量获取融合文本向量;
根据所述融合文本向量获取语言类型判别向量,并根据所述语言类别判别向量,获取所述文本的类型为所述已知类型文本的类型的概率。
2.如权利要求1所述的语言类型判别方法,其特征在于,所述基于已知类型文本的预定的第一字数组合向量库,获取所述文本的各个第一字数组合的第一字数组合向量的步骤包括:
利用第一滑窗获取所述文本的各组第一字数组合;
基于各组所述第一字数组合在所述第一字数组合向量库中查找,得到对应的各第一字数组合向量。
3.如权利要求2所述的语言类型判别方法,其特征在于,所述利用第一滑窗获取所述文本的各组第一字数组合的步骤包括:
利用所述第一滑窗获取所述文本的各组无复用字第一字数组合,并舍弃文本最后少于所述第一字数的文字,得到各组所述第一字数组合。
4.如权利要求2所述的语言类型判别方法,其特征在于,所述基于各组所述第一字数组合在所述第一字数组合向量库中查找,得到对应的各第一字数组合向量的步骤包括:
基于各组所述第一字数组合在所述第一字数组合向量库中查找各个所述第一字数组合所对应的各个编号;
根据各所述编号确定分别与各组所述第一字数组合对应的各所述第一字数组合向量。
5.如权利要求1所述的语言类型判别方法,其特征在于,还包括:
基于所述已知类型文本的预定的第二字数组合向量库获取所述文本的各组第二字数组合的第二字数组合向量,其中,所述第二字数为所述已知类型文本的第二概率的成词字数,各所述第二字数组合向量的维度数量与所述第一字数组合向量的维度数量相同;
根据各所述第二字数组合向量获取所述文本的第二字数文本向量,其中,所述第二字数文本向量的各个维度值分别为各所述第二字数组合向量同一纬度的维度值的融合值;
所述至少根据所述第一字数文本向量获取融合文本向量的步骤包括:
根据所述第一字数文本向量和所述第二字数文本向量获取所述融合文本向量。
6.如权利要求5所述的语言类型判别方法,其特征在于,所述根据所述第一字数文本向量和所述第二字数文本向量获取所述融合文本向量的公式如下:
P=p1O1+(1-p1)O2
其中:P--融合文本向量;
p1--第一概率;
O1--第一字数文本向量;
O2--第二字数文本向量。
7.如权利要求5所述的语言类型判别方法,其特征在于,还包括:
基于所述已知类型文本的预定的第三字数组合向量库获取所述文本的各组第三字数组合的第三字数组合向量,其中,所述第三字数为所述已知类型文本第三概率的成词字数,各所述第三字数组合向量的维度数量与所述第一字数组合向量的维度数量相同;
根据各所述第三字数组合向量获取所述文本的第三字数文本向量,其中,所述第三字数文本向量的各个维度值分别为各所述第三字数组合向量同一纬度的维度值的融合值;
所述至少根据所述第一字数文本向量获取融合文本向量的步骤包括:
根据所述第一字数文本向量、所述第二字数文本向量和所述第三字数文本向量获取所述融合文本向量。
8.如权利要求6所述的语言类型判别方法,其特征在于,所述至少根据所述第一字数文本向量、所述第二字数文本向量和所述第三字数文本向量获取所述融合文本向量的公式如下:
P=p1O1+p2O2+(1-p1-p2)O3
其中:P--融合文本向量;
p1--第一概率;
p2--第一概率
O1--第一字数文本向量;
O2--第二字数文本向量;
O3--第三字数文本向量。
9.如权利要求1所述的语言类型判别方法,其特征在于,所述第一字数文本向量包括第一字数中位数文本向量、第一字数平均数文本向量或第一字数加权平均数文本向量。
11.如权利要求5所述的语言类型判别方法,其特征在于,所述第二字数文本向量包括第二字数中位数文本向量、第二字数平均数文本向量或第二字数加权平均数文本向量。
12.如权利要求7所述的语言类型判别方法,其特征在于,所述第三字数文本向量包括第三字数中位数文本向量、第三字数平均数文本向量或第三字数加权平均数文本向量。
13.如权利要求1-12任一项所述的语言类型判别方法,其特征在于,还包括:
当所述概率大于概率阈值时,则判定所述待语言类型判别的文本的类型为所述已知类型文本的类型。
14.如权利要求1-12任一项所述的语言类型判别方法,其特征在于,所述获取待语言类型判别的文本的步骤包括:
获取待语言类型判别的原始文本;
用空格替换所述原始文本的标点符号,并根据所述预定数量对所述中间文件进行截断处理,得到仅包含纯文本且文字数小于或等于所述预定数量的所述文本。
15.如权利要求1-12任一项所述的语言类型判别方法,其特征在于,所述已知类型文本包括文言文,所述第一字数组合包括单字组合。
16.如权利要求1-12任一项所述的语言类型判别方法,其特征在于,所述第一字数组合向量库通过以下步骤获取:
获取所述已知类型文本的文本集;
利用所述第一滑窗获取所述文本集的各组文本集第一字数组合;
利用组合向量获取模型获取各组所述文本集第一字数组合的第一字数组合向量,得到所述第一字数组合向量库。
18.一种语言类型判别装置,其特征在于,包括:
文本获取单元,适于获取待语言类型判别的文本;
第一字数组合向量获取单元,适于基于已知类型文本的预定的第一字数组合向量库,获取所述文本的各个第一字数组合的第一字数组合向量,其中,所述第一字数为所述已知类型文本的第一概率的成词字数,且各所述第一字数组合向量的维度数量相同;
第一字数文本向量获取单元,适于融合各所述第一字数组合向量,得到所述文本的第一字数文本向量,其中,所述第一字数文本向量的各个维度值分别为各所述第一字数组合向量同一纬度的维度值的融合值;
融合文本向量获取单元,适于至少根据所述第一字数文本向量获取融合文本向量;
概率获取单元,适于根据所述融合文本向量获取语言类型判别向量,并根据所述语言类别判别向量,获取所述文本的类型为所述已知类型文本的类型的概率。
19.一种存储介质,其特征在于,所述存储介质存储有适于语言类型判别的程序,以实现如权利要求1-17任一项所述的语言类型判别方法。
20.一种设备,其特征在于,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,以执行如权利要求1-17任一项所述的语言类型判别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010486133.XA CN111626067B (zh) | 2020-06-01 | 2020-06-01 | 语言类型判别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010486133.XA CN111626067B (zh) | 2020-06-01 | 2020-06-01 | 语言类型判别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111626067A true CN111626067A (zh) | 2020-09-04 |
CN111626067B CN111626067B (zh) | 2022-04-19 |
Family
ID=72271426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010486133.XA Active CN111626067B (zh) | 2020-06-01 | 2020-06-01 | 语言类型判别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111626067B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040006457A1 (en) * | 2002-07-05 | 2004-01-08 | Dehlinger Peter J. | Text-classification system and method |
CN101059796A (zh) * | 2006-04-19 | 2007-10-24 | 中国科学院自动化研究所 | 基于概率主题词的两级组合文本分类方法 |
CN107832301A (zh) * | 2017-11-22 | 2018-03-23 | 北京百度网讯科技有限公司 | 分词处理方法、装置、移动终端及计算机可读存储介质 |
CN109063155A (zh) * | 2018-08-10 | 2018-12-21 | 广州锋网信息科技有限公司 | 语言模型参数确定方法、装置和计算机设备 |
CN110188781A (zh) * | 2019-06-06 | 2019-08-30 | 焦点科技股份有限公司 | 一种基于深度学习的古诗文自动识别方法 |
-
2020
- 2020-06-01 CN CN202010486133.XA patent/CN111626067B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040006457A1 (en) * | 2002-07-05 | 2004-01-08 | Dehlinger Peter J. | Text-classification system and method |
CN101059796A (zh) * | 2006-04-19 | 2007-10-24 | 中国科学院自动化研究所 | 基于概率主题词的两级组合文本分类方法 |
CN107832301A (zh) * | 2017-11-22 | 2018-03-23 | 北京百度网讯科技有限公司 | 分词处理方法、装置、移动终端及计算机可读存储介质 |
CN109063155A (zh) * | 2018-08-10 | 2018-12-21 | 广州锋网信息科技有限公司 | 语言模型参数确定方法、装置和计算机设备 |
CN110188781A (zh) * | 2019-06-06 | 2019-08-30 | 焦点科技股份有限公司 | 一种基于深度学习的古诗文自动识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111626067B (zh) | 2022-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN108334533B (zh) | 关键词提取方法和装置、存储介质及电子装置 | |
CN109670163B (zh) | 信息识别方法、信息推荐方法、模板构建方法及计算设备 | |
US11093854B2 (en) | Emoji recommendation method and device thereof | |
CN111222305B (zh) | 一种信息结构化方法和装置 | |
CN107301225B (zh) | 短文本分类方法及装置 | |
CN107704506B (zh) | 智能应答的方法和装置 | |
CN112329836A (zh) | 基于深度学习的文本分类方法、装置、服务器及存储介质 | |
CN107682348A (zh) | 基于机器学习的dga域名快速判别方法及装置 | |
US20210390370A1 (en) | Data processing method and apparatus, storage medium and electronic device | |
CN107861949B (zh) | 文本关键词的提取方法、装置及电子设备 | |
US20220269354A1 (en) | Artificial intelligence-based system and method for dynamically predicting and suggesting emojis for messages | |
CN107341143A (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
CN106030568B (zh) | 自然语言处理系统、自然语言处理方法、以及自然语言处理程序 | |
CN110569354A (zh) | 弹幕情感分析方法及装置 | |
CN113434636A (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN114757176A (zh) | 一种获取目标意图识别模型的方法以及意图识别方法 | |
CN104281275B (zh) | 一种英文的输入方法和装置 | |
CN115438650B (zh) | 融合多源特征的合同文本纠错方法、系统、设备及介质 | |
CN111444906B (zh) | 基于人工智能的图像识别方法和相关装置 | |
CN111586695A (zh) | 短信识别方法及相关设备 | |
CN115086182B (zh) | 邮件识别模型的优化方法、装置、电子设备及存储介质 | |
CN111626067B (zh) | 语言类型判别方法、装置、设备及存储介质 | |
CN112527967A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN112527985A (zh) | 未知问题处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |